CN107871501A

CN107871501A - 使用智能语音识别的自动化软件执行方法

Info

Publication number: CN107871501A
Application number: CN201610861893.8A
Authority: CN
Inventors: 李璞; 张宇; 孙剑华
Original assignee: FMR LLC
Current assignee: FMR LLC
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2018-04-03
Also published as: US9990923B2; US20180090142A1

Abstract

描述了使用智能语音识别技术来自动执行计算机软件的方法和装置。服务器捕捉来自远程设备的数字语音段，第一数字语音段对应远程设备的用户在语音呼叫期间所提交的语音。所述服务器分析数字语音段，以将所述数字语音段转换成文本，并且从所述转换文本中提取关键字集。客户端计算设备将所提取的关键字显示在显示设备的用户界面中。所述服务器确定客户端计算设备可访问的一个或多个计算机软件应用程序，并且选取至少一个所述计算机软件应用程序，其包括响应关键字的功能。所述客户端计算设备执行所选取的计算机软件应用程序的响应关键字的功能。

Description

使用智能语音识别的自动化软件执行方法

技术领域

本申请一般涉及使用智能语音识别技术来自动执行计算机软件的方法和装置，包括计算机程序产品。

背景技术

通常，在呼叫中心等环境中的客户服务代理具有计算机工作站，该计算机工作站充当众多软件应用(例如，电话、电子邮件、知识库、客户关系管理、销售/订单处理、营销、库存管理等)的集线器，这些软件应用使得代理能够有效地响应来自客户群的数字通信。当客户发起与呼叫中心的通信时(例如，电话呼叫)，计算设备的网络通常接收该通信，并且尝试确定客户通信(例如，通过交互式语音应答(IVR)技术)的基本原因，以为了将该通信路由给具有更佳配备或更好经验的代理来处理该通信。

然而，这种类型的技术经常效率不高(即无法正确捕捉客户通信的精确原因)。另外，目前的技术不够灵活，原因在于，客户的初始通信可能表示具体的查询或者主题，但是随着与客户服务代理的通信继续，客户可能具有系统不能动态处理的额外查询，或者要求客户服务代理手动确定处理该查询所需的另一组计算机软件功能，从而导致较长的呼叫时间、低效率以及延迟。

发明内容

本发明一方面描述了一种使用智能语音识别技术来自动执行计算机软件的方法。服务器计算设备捕捉来自远程设备的数字语音段，第一数字语音段对应远程设备的用户在语音呼叫期间所提交的语音。所述服务器计算设备分析所述数字语音段，以将所述数字语音段转换成文本，并且从所述转换文本中提取关键字集。连接至所述服务器计算设备的客户端计算设备将所提取的关键字显示在显示设备的用户界面中。所述服务器计算设备确定客户端计算设备可访问的一个或多个计算机软件应用程序。所述服务器计算设备选取至少一个所述计算机软件程序，其包括响应关键字的功能。所述客户端计算设备执行所选取的计算机软件应用程序的响应关键字的功能。

本发明另一方面描述了一种使用智能语音识别技术来自动执行计算机软件的系统。所述系统包括服务器计算设备和客户端计算设备。所述服务器计算设备捕捉来自远程设备的数字语音段，第一数字语音段对应远程设备的用户在语音呼叫期间所提交的语音。所述服务器计算设备分析所述数字语音段，以将所述数字语音段转换成文本，并且从所述转换文本中提取关键字集。连接至所述服务器计算设备的客户端计算设备将所提取的关键字显示在显示设备的用户界面中。所述服务器计算设备确定客户端计算设备可访问的一个或多个计算机软件应用程序。所述服务器计算设备选取至少一个所述计算机软件程序，其包括响应关键字的功能。所述客户端计算设备执行所选取的计算机软件应用程序的响应关键字的功能。

本发明另一方面描写了一种计算机程序产品，所述计算机程序产品在非临时性计算机可读存储设备中具体实施，用于使用智能语音识别技术来自动执行计算机软件。所述计算机程序产品包括指令，可运行该指令，使得所述服务器计算设备捕捉来自远程设备的数字语音段，第一数字语音段对应远程设备的用户在语音呼叫期间所提交的语音。所述计算机程序产品包括指令，能运行该指令，使得所述服务器计算设备分析所述数字语音段，以将所述数字语音段转换成文本，并且从所述转换文本中提取关键字集。所述计算机程序产品包括指令，能运行该指令，使得连接至所述服务器计算设备的客户端计算设备将所提取的关键字显示在显示设备的用户界面中。所述计算机程序产品包括指令，能运行该指令，使得所述服务器计算设备确定客户端计算设备可访问的一个或多个计算机软件应用程序。所述计算机程序产品包括指令，能运行该指令，使得所述服务器计算设备选取至少一个所述计算机软件应用程序，其包括响应关键字的功能。所述计算机程序产品包括指令，能运行该指令，使得所述客户端计算设备执行所选取的计算机软件程序的响应关键字的功能。

以上方面中的任何一个能包括以下特征中的一个或多个。在一些实施例中，选取包括响应关键字功能的所述计算机软件应用程序中的至少一个包括，产生输入矢量，所述输入矢量包括数值序列，每一数值与一关键字相关且根据该关键字在关键字集中的相对位置被加权，将输入矢量与预定义的矢量集进行匹配，以确定与所述输入矢量相似的一个或多个输入矢量，识别对应每一匹配矢量的标签，其中所述标签与计算机软件功能相关，以及选取一个或多个计算机软件应用程序，所述一个或多个计算机软件应用程序与所识别的标签中的最常见的标签相关。在一些实施例中，匹配所述输入矢量包括，确定所述输入矢量与预定义矢量集中的每一矢量之间的距离，以及选取所述预定义矢量集中的一个或多个矢量，其中所述距离在预设阈值范围内。

在一些实施例中，所述标签为对应计算机软件应用程序的识别符。在一些实施例中，在捕捉所述数字语音段之前，所述服务器计算设备建立远程设备和客户端计算设备之间的语音连接。在一些实施例中，在捕捉所述数字语音段之前，所述服务器计算设备建立远程设备和交互式语音应答系统之间的语音连接。

在一些实施例中，所述客户端计算设备将一个或多个用户界面元素显示在用户界面中，所述一个或多个用户界面元素对应所选取的软件应用程序的执行功能。在一些实施例中，从所述转换文本中提取关键字集包括，过滤所述转换文本，以移除停止词。在一些实施例中，将所述数字语音段转换成文本包括，在包含所述数字语音段的数字文件上执行语音识别引擎，以产生所述文本。在一些实施例中，所述服务器计算设备使用语法识别引擎分析所述文本，以验证所生成的文本。

结合附图进行以下详细描述，本发明的其它方面和优点将变得显而易见，仅通过示例的方式说明本发明的原理。

附图说明

通过结合附图，参考以下描述，可更好地理解本发明的上述优点以及进一步的优点。附图不一定按照比例绘制，而重点在于说明本发明的原理。

图1为使用智能语音识别技术来自动执行计算机软件的系统的框图；

图2为使用智能语音识别技术来自动执行计算机软件的方法流程图；

图3为示例性的用户界面屏幕，其显示从数字语音段中提取的关键字；

图4为用于实现KNN算法的示例性软件代码；

图5为示例性的用户界面屏幕，其显示执行的应用程序；

图6为知识库和CPU/GPU硬件模块的详细框图；

图7为表示系统使用的自动编码算法。

具体实施方式

图1为使用智能语音识别技术来自动执行计算机软件的系统100的框图。系统100包括远程设备102、客户端计算设备103、通信网络104、服务器计算设备106、数据库112、以及中央处理单元(CPU)/图形处理单元(GPU)硬件模块116，服务器计算设备106包括语音分析模块108以及软件识别和执行模块110，数据库112包括知识库114。

远程设备102通过通信网络104与服务器计算设备106进行通信，以建立与例如客户端计算设备103的语音呼叫。示例性的远程设备102可包括但不限于智能手机(例如，苹果的和/或基于Android^TM的设备)、具有电话软件的计算设备、或者其它类似的设备。

客户端计算设备103为连接至服务器计算设备106并且用于响应始于远程设备102的呼叫而执行软件应用程序的计算设备。在一个示例中，客户端计算设备103为呼叫中心中的客户服务代理的工作站(例如，台式计算机)，其能够使代理接收呼叫，访问信息并且使用客户端设备103上的软件来执行操作，以针对呼叫中的用户所提出的查询提供应答和/或解决方案。客户端设备103能够执行本地存储的软件应用程序，且还能够通过基于云或者软件即服务模式访问服务器计算设备106(或其它计算设备)的软件应用程序。软件应用程序能够给代理提供各式各样的功能(例如，CRM、账户、销售、库存、订单、信息访问等)。

通信网络104使得远程设备102能够与客户端计算设备106进行通信。网络104通常为广域网，如互联网和/或蜂窝网。在一些实施例中，网络104包括多个离散的网络和/或子网络(例如，蜂窝网到因特网)。

服务器计算设备106为包括专用硬件和/或软件模块的设备，专用硬件和/或软件模块在处理器上执行，并且与服务器计算设备106的存储器模块进行交互，以从系统100的其它组件中接收数据、传输数据到系统100的其它组件、以及执行如本文所述的使用智能语音识别技术来自动执行计算软件的功能。服务器计算设备106包括在服务器计算设备106的处理器上执行的多个计算模块108、110。在一些实施例中，模块108、110为在服务器计算设备106中的一个或多个专用处理器上进行编程的多组专用计算机软件指令，且能够包括特别指定的存储器位置和/或寄存器，用于执行专用计算机软件指令。

尽管模块108、110在图1显示为在同一服务器计算设备106内执行，但是在一些实施例中，模块108、110能够分布在多个服务器计算设备之间。如图1所示，为了出于执行所述功能的目的而进行数据交换，服务器计算设备106使得模块108、110能够相互通信。应当理解的是，能够使用在各种架构、资源以及配置(例如，集群计算、虚拟计算、云计算)中设置的任何数量的计算设备，这并不脱离本发明的精神。下文详细描述模块108、110的示例性功能。

数据库112是连接至服务器计算设备106的计算设备(或在一些实施例中，一组计算设备)，并且配置为用于接收、产生和存储具体的数据段，该数据段与如本文所述的使用智能语音识别计算来自动执行计算机软件的过程有关。在一些实施例中，所有或者部分数据库112能与服务器计算设备106成一体或者位于一个或多个单独的计算设备上。数据库112能够包括一个或多个数据库，配置为用于存储供系统100的其它组件使用的部分数据，正如将在下文更详细描述的那样。示例性的数据库208可从加州雷德伍德市的甲骨文公司购得的MySQL^TM。

数据库112包括知识库114，知识库114为数据库112的专用分区，该专用分区包含专用数据，该专用数据供系统110的其它组件使用，以产生和存储供系统使用的规则集，以如本文所述的使用智能语音识别技术来自动化执行计算机软件。关于知识库114的进一步细节在下文提供。

CPU/GPU硬件模块116为包括多个处理器(例如，CPU和GPU)的专用设备，这些处理器供服务器计算设备106使用，以在产生和训练规则集模型中处理专用数据，正如下文将更详细描述的那样。

图2为使用智能语音识别技术来自动执行计算机软件的方法200的流程图，该方法使用如1中的系统100。远程设备102通过通信网络104发起到例如呼叫中心的电话呼叫，客户端计算设备103(例如，客户服务代理的工作站)和服务器计算设备位于该呼叫中心。当收到语音呼叫时，服务器计算设备106识别该呼叫应当路由至的客户端计算设备103。服务器计算设备106将语音呼叫路由至客户端计算设备103。

当远程设备102的用户和客户端计算设备102处的代理通话时，语音分析模块108捕捉(202)与用户提交的语音对应的数字语音段。例如，用户可能正在询问关于某些产品或服务的问题，用户可能正在请求与他的或她的账户有关的信息，或者用户可能正在投诉。在一些实施例中，语音分析模块108捕捉例如语音呼叫的数字比特流并分析该比特流以找出与客户相关的语音段。应当理解的是，当以非数字形式捕捉或者接收语音段时，语音分析模块108能够将该语音段数字化。语音分析模块108还能执行对数字语音段的音频质量进行改进的功能，如调整压缩、将该片段转换成另一种格式、降低或消除背景噪声等。语音分析模块108将捕捉的文件存储在数据库112中。

应当理解的是，在一些实施例中，语音分析模块108在整个呼叫过程中连续捕捉来自客户的数字语音段，并且以本文所述的方式使用这些语音段。例如，语音分析模块108能够配置为用于根据用户定义的设置(例如，10秒的片段、20秒的片段、60秒的片段)来连续捕捉和测量数字语音段。

语音分析模块108分析(204)数字语音段，以将数字语音段转换成文本，并且从该文本中提取一个或多个关键字。语音分析模块108利用两个核心功能来将语音段转换成文本：语音识别和语法分析。在一个示例中，语音分析模块108能够使用语音识别库，如可从微软公司购得的语音识别API，以将数字语音文件转换成文本。在一些实施例中，为了准确确定包含在数字语音段内的单词和短语，语音分析模块108能够充分利用外部资源，如可通过因特网访问的语法库。

语音分析模块108接着分析从数字语音段中产生的文本，以从该文本中提取一个或多个关键字。模块108能够执行如停止词(stopword)去除和将特定于上下文的单词过滤等技术，以为了隔离具体的关键字，该具体的关键字与用户呼叫的原因或者用户期望从代理得到的动作相关联。例如，如果用户说“我是约翰·史密斯，我想要更新我的邮寄地址”，则语音分析模块108可能提取关键字“更新”、“邮寄”以及“地址”。在一些实施例中，语音分析模块108能够识别数字语音段中的具体名字(例如，约翰史密斯)，并且基于这些名字来取回特定于用户的信息，如自动取回具体的用户配置文件并且将取回的配置文件本地存储在客户端计算设备103中。

确定关键字后，语音分析模块108将关键字传输至客户端计算设备103，客户端计算设备103将关键字显示(206)在与客户端计算设备103连接的显示设备上。图3示出了示例性的显示。如图所示，客户端计算设备103能够产生用户界面窗口302，用户界面窗口302包含从用户语音中识别出的关键字304。在一些实施例中，关键字的显示是动态的，因为用户接口窗口在整个呼叫过程中随着语音分析模块108确定关键字而连续刷新关键字列表。

语音分析模块108还将关键字传输到服务器计算设备106的软件识别和执行模块110。软件识别和执行模块110确定(208)可供客户端计算设备103访问的一个或多个软件应用程序。例如，客户端计算设备103可具有本地安装的多个软件应用程序和/或可以通过通信网络104访问服务器计算设备106中的软件应用程序(例如，软件即服务应用程序、基于云的应用程序等)。模块110能够例如从存储在数据库112的列表中取回可访问的软件应用程序。在一些实施例中，模块110能够扫描例如客户端计算设备103上的注册表、文件目录、和/或进程表，以确定可访问的软件应用程序群。

软件识别和执行模块110接着使用匹配范式的智能解决方案分析关键字，以基于关键字选择(210)哪些软件应用程序包括能够或者应当在客户端计算设备103处执行的功能，以为了有效响应用户的请求或者查询。软件识别和执行模块110的细节在下文描述。

首先，为了更精确地辨别关键字的含义，模块110如下执行自然语言处理算法。词袋(bag-of-words)模型能够用于自然语言处理中，其中确定每一关键字在集合中的频率，并且基于该频率给关键字分配权重。然而，词袋模型不考虑关键字的顺序-而在大多数情况下，该顺序在确定含义方面是很重要的，即，例如关键字在队头出现和在队尾出现的含义不同。

因此，模块110使用按顺序排列的词袋模型来解释关键字在整个序列中的位置。令K＝{k₁，k₂，...，k_n}为从语音分析模块108中接收的n个关键字的集合。通过考虑关键字在序列中的出现来对每一关键字进行加权，模块110将该组关键字K转换成按顺序排列的词袋模型。

令s为关键字第一次出现的序列号(例如，1＝第一，2＝第二，等等)，令m为关键字在集合中的总数，令n为关键字在集合中出现的频率，令w为关键字的权重。该权重能够计算为：

其中λ为调整系数。

例如，如果从数字语音段中提取的关键字的输入集为{什么，健康，储蓄，账户}以及(作为例子)全集中的关键字的总数为10(即，{什么，解释，健康，收入，计划，储蓄，平衡，账户，注册，撤销})，将输入集转换成矢量-例如，[1,0,0.75,0,0,0.5,0,0.25,0,0]。在上述实例中，调整系数设置为1/m–然而，在大多数情形中，通过训练数据集来确定该系数。

为了训练数据集，选择成本函数。下面是成本函数的实例，其中θ表示所有参数：

接着，系统选择包括系数λ的不同参数，多次训练模型，接着选择具有最低成本(最低误差)的一组参数。

软件识别和执行模块110基于输入关键字产生矢量之后，模块110利用K最近邻(K-Nearest Neighbor，KNN)算法来将矢量与存储在数据库112中的知识库进行匹配，知识库包括涉及一个或多个软件应用程序的规则-或者一个或多个软件应用程序内的一个或多个具体的功能子集-当被执行时，为关键字提供解决方案或者应答。例如，知识库存储规则的集合，每一规则对应矢量(如上所述)和标签。模块110使用KNN算法来确定与输入矢量类似的一个或多个规则，评估对应那些规则的标签，并且在一个实施例中，将选定规则中的最常见的标签分配给输入矢量。图4为示例性的软件代码，用于通过软件识别和执行模块110来执行KNN算法。

一旦模块110已经将标签分配给输入矢量时，模块110确定哪些软件应用程序-或软件应用程序的功能-对应所分配的标签。在一些实施例中，标签为与特定的软件应用程序或者软件应用程序内的功能相关的标识符。模块110使用标签来从例如数据库112中取回相关软件应用程序或者功能的标识。当模块110已经对响应于从用户语音中提取的关键词的软件应用程序进行标识时，模块110便将标识的响应的应用程序与先前确定为客户端计算设备103可访问的软件应用程序群进行比较。

假如至少一个标识的响应的应用程序处于可访问的软件应用程序群中，则软件识别和执行模块110传输指令给客户端计算设备103，以执行合适的软件应用程序。客户端计算设备103接着执行(212)选定的计算机软件应用程序的功能，以响应或者协助代理响应用户的查询。如图5所示，客户端计算设备103运行更新地址的用户界面窗口502，以响应对来自图3中的关键字的评估和匹配。代理能够响应查询而继续更新用户的地址信息。

本文所述技术的一个重要的方面为产生和维护在数据库112的知识库中存储的规则集，其包含如上所述的矢量和标签。本文所述的方法和系统有利地利用在组合的中央处理单元(CPU)/图形处理单元(GPU)硬件配置上执行的自学习知识库，组合的中央处理单元(CPU)/图形处理单元(GPU)硬件配置极大地提高了处理数据以产生规则集的速度-如下文详细所述。

图6为图1中的系统100的知识库114和CPU/GPU硬件模块116的详细框图。知识库114包括历史呼叫日志602以及手动解决方案日志604的集合，历史呼叫日志602包括例如发给呼叫中心的在先呼叫的基于文本的转录，手动解决方案日志604包括例如由客户服务代理记录的解决方案，这包括代理曾经解决特定查询以及相关查询的那些应用程序和/或功能，以及到呼叫日志602中的适用的呼叫日志的映射。知识库114还包括规则集608(如上文所述)，规则集608包括矢量和标签的集合。

CPU/GPU硬件模块116包括CPU 606a和GPU 606b，它们为配置在一个或多个计算设备内分开的硬件处理器。如图6所示，处理器606a和606b位于单个计算设备内，但是其它架构和配置也是可能的。模块116还包括CPU 606a或者GPU 606b可执行的应用程序代码606c，其用于处理历史呼叫日志602和手动解决方案日志604，以产生规则集608，如下文所述。

软件识别和提取模块110首先使用前述按顺序排列的词袋模型将历史呼叫日志602中的每一项(entry)转换成矢量。例如，如果x＝{x₁，x₂，...，x_n}为来自呼叫日志的n个关键字的集合，则所有呼叫日志的全集能够表示为X＝{x₁，x₂，...，x_m}。

令s＝{s₁，s₂，...，s_l}为解决方案的集合(如在解决方案日志604中所呈现的)，且为呼叫日志602中的项和解决方案日志604中的项之间的已知映射。

接着，CPU/GPU模块116执行自动编码器算法来查找编码矩阵W和偏移矢量b。自动编码器算法为提出用于在产生规则集608模型中进行特征提取和降维的深度学习算法。深度学习是机器学习中发展最快的领域。深度学习使用神经网络来学习许多抽象层。GPU606b很适合用于训练神经网络-由于同时或并行执行许多计算的GPU能力，以其它方式可能花费数月的过程现在只需要几周或几天。在CPU/GPU模块116中，GPU 606b类似于设备主机的CPU。CPU 606a执行更复杂的逻辑工作，而GPU 606b则执行要求高容量计算但是逻辑简单的任务。下文参考图7描述自动编码器算法。

CPU/GPU模块116接受输入x∈[0，1]^d(图7中的元素702)并且首先通过以下定性映射将该输入映射到隐藏(hidden)表示y∈[0，1]^d′(图7中的元素704)：

y＝s(Wx+b)

其中s为S型(sigmoid)函数。

W为参数矩阵，而b为偏移矢量。

接着，模块116将隐藏(latent)表示y解码成重建z：

z＝s(W′y+b′)

接着模块定义一成本函数

L_H(x，z)＝||x-z||²

并且通过使用梯度下降方法来查找成本函数的最小值：

其中θ为参数的集合，参数包括W、b以及b’，而l为学习速率。

通过重复该梯度，CPU/GPU模块产生具有最小成本值的最优参数集(即，图7中的元素706)。上述算法基于Theano，Theano是一个Python库，其使得CPU/GPU模块116能够有效定义、优化并且评估涉及多维数组的数学表达式。因为Theano支持复数个GPU，模块116能够充分利用GPU606b的速度，以加速处理大量呼叫日志和解决方案日志数据。

接着，软件识别和提取模块110通过使用公式x′＝_s(Wx+b)将每个x转换到x’，其中x’为所提取的特征，其表示x但是具有比x低得多的维度。

模块110接着执行K均值聚类算法来聚类x’，选择每个聚类的质心作为一个规则，将该规则存储在规则集608R＝{r₁，r₂，...，r_k}中，其中下文描述K均值聚类算法。

通过一定数量的聚类，K均值聚类提供一种有效的方法来对给定的数据集进行分类。如上所述，模块110使用K均值聚类算法来产生规则集608。

首先，模块110定义一目标函数：

其中为数据点和聚类中心c_j之间的选取的距离测量。

模块110执行以下步骤：

1)将K个点放进由正在聚类的对象所表示的空间中。这些点表示初始的群质心。

2)将每个对象分配到具有最近质心的群中。

3)当分配完所有对象时，重新计算K个质心的位置。

4)重复上述步骤2和3，直到质心不再移动-产生对象分离为多个群，能够从这些群中计算出待最小化的度量。

在模块110产生初始规则集之后，模块110继续按照周期性间隔处理数据(例如，每时、每天、每周)，以为了产生额外的规则。

下面是一种示例性的使用情形，其描述图1中的系统100如何通过使用智能语音识别技术来自动执行计算机软件。远程设备102处的用户拨打电话给客户服务中心，以为了更新其账户上的邮寄地址。该呼叫通过通信网络104路由至服务器计算设备106。服务器计算设备106确定该呼叫应当路由至某个客户服务代理(例如，基于用户拨打的电话号码)。当将该呼叫连接至客户服务代理的客户端计算设备103时，代理能够询问用户呼叫的原因。在这个示例中，用户能够通过说出“我需要更新我的邮寄地址”来应答。服务器计算设备106的语音分析模块108能够将该语音作为数字语音段捕捉，如先前所述。

在一些实施例中，服务器计算设备106能够将远程设备102连接至能够自动识别用户呼叫原因的IVR系统或者自动菜单系统。例如，IVR系统能够请求用户提供呼叫的原因，并且用户能够通过说出“我需要更新我的邮寄地址”来应答。服务器计算设备106的语音分析模块108能够将该语音作为数字语音段捕捉，如先前所述。

一旦语音分析模块108已经捕捉到数字化语音段，模块108便分析该数字化语音片段并且将该数字化语音片段转换成相应文本：“我需要更新我的邮寄地址”。语音分析模块108接着从该文本中提取关键字“更新”、“邮寄”、“地址”。

语音分析模块108将所提取的关键字进一步显示在连接至客户端计算设备103的显示设备上。例如，包括关键字“更新”、“邮寄”、“地址”的用户界面窗口出现在显示器上。

如上所述，软件识别和执行模块110接收关键字并且将关键字转换成矢量，接着将输入矢量与包含在知识库114中的矢量进行匹配，以识别响应更新邮寄地址查询的规则并且取回用于该规则的相应标签。在这个示例中，模块110取回标签“account_address.exe”，对应于可执行的用于更新邮寄地址的应用程序。应当理解的是，该标签能够是对应软件应用程序或者软件应用程序功能的任何识别符；上述为一示例。

软件识别和执行模块110还确定可供客户端计算设备103访问的一组软件应用程序和/或相关的功能。在这个示例中，应用程序account_address.exe为通用应用程序，其可供客户服务代理使用的所有客户端计算设备103访问。模块110能够识别客户端计算设备103和/或使用该设备的代理，并且查找数据库112以确定该设备/代理可访问哪个或哪些应用程序。

因为客户端设备103可访问应用程序account_address.exe且该应用程序与响应查询的规则相关联，所以服务器计算设备106发送指令到客户端计算设备103以执行应用程序account_address.exe。客户端计算设备103执行该应用程序，其在客户端设备的显示器上运行用户可填的输入屏。在这个示例中，输入屏预填有用户(其事先被通过存储在数据中的用户配置文件自动识别)的地址信息。代理能够仅获取来自用户的新邮寄地址信息并且更新用户可填的输入屏以保存该新信息，而无需手动运行应用程序或者确定适用于解决该问题的应用程序。

上述技术能够以数字和/或模拟电子电路的方式、或以计算机硬件、固件、软件、或其组合的方式来实现。该实现能够作为计算机程序产品，即在机器可读的存储设备中具体实施的(tangibly embodied)计算机程序，用于通过数据处理装置执行、或者用于控制数据处理装置的操作，数据处理装置例如可编程处理器、计算机、和/或多个计算机。计算机程序能以任何计算机或编程语言的形式来编写，包括源代码、编译代码、解释代码和/或机器代码，并且计算机程序能以任意形式来配置(deployed)，包括作为独立程序或者作为子程序、元素、或者其它适合在计算环境中使用的单元。计算机程序能够配置为用于在一个计算机或在一个或多个位置处的多个计算机上执行。计算机程序能够配置在云计算环境中(例如， AWS、)。

能够通过一个或多个处理器能执行方法步骤，一个或多个处理器执行计算机程序以通过操作输入数据和/或产生输出数据来执行本发明的功能。还能够通过专用逻辑电路来执行方法步骤，并且装置能够作为专用逻辑电路来实现，专用逻辑电路例如FPGA(现场可编程门阵列)、FPAA(现场可编程模拟阵列)、CPLD(复杂可编程逻辑器件)、PSoC(可编程系统级芯片)、ASIP(专用指令集处理器)、或者ASIC(专用集成电路)等。子程序能够指实现一个或多个功能的部分存储的计算机程序和/或处理器、和/或特殊电路。

适合用于执行计算机程序的处理器包括例如专门编有执行指令以执行本文所述方法的专用微处理器、以及任意种类的数字或者模拟计算机的任意一个或多个处理器。通常，处理器从只读存储器或随机存取存储器或两者中接收指令和数据。计算机的基本元件为用于执行指令的处理器和用于存储指令和/或数据的一个或多个存储器设备。存储器设备，如高速缓冲存储器(cache)，能够用于临时存储数据。存储器设备还能用于长期的数据存储。通常，计算机还包括用于存储数据的一个或多个大容量存储设备，或者操作性连接至用于存储数据的一个或多个大容量存储设备，以接收来自该设备的数据或者传送数据到该设备、或者接收来自该设备的数据且传送数据到该设备，该设备例如磁盘、磁光盘或者光盘。计算机还能操作性连接至通信网络，以为了从网络中接收指令和/或数据和/或传送指令和/或数据到网络。适用于实施计算机程序指令和数据的计算机可读存储介质包括所有形式的易失性和非易失性存储器，包括例如半导体存储器设备，例如DRAM、SRAM、EPROM、EEPROM和闪存设备；磁盘，例如内置硬盘或可移动磁盘；磁光盘；以及光盘，例如CD、DVD、HD-DVD以及蓝光光盘。处理器和存储器能够由专用逻辑电路来补充和/或并入专用逻辑电路中。

为了提供与用户的交互，上述技术能够在与显示设备通信的计算设备上实现，显示设备例如CRT(阴极射线管)、等离子体、或LCD(液晶显示器)显示器、移动设备显示器或显示屏、全息设备和/或投影仪，用于为显示信息给用户，以及键盘和指针设备，例如鼠标、轨迹球(trackball)、触摸板或者运动传感器，通过键盘和指针设备，用户能够提供输入至计算机(例如，与用户界面元件互动)。其它类型的设备也能够用于提供与用户的互动；例如，提供给用户的反馈能够是任何形式的传感器反馈，例如视觉反馈、听觉反馈或者触觉反馈；能够以任何形式接收来自用户的输入，包括声音、语音、和/或触觉输入。

上述技术能够在包括背端组件的分布式计算系统中实现。背端组件能够例如是数据服务器、中间件组件、和/或应用服务器。上述技术能够在包括前端组件的分布式计算系统中实现。前端组件能够例如是具有图形用户界面的客户端计算机、网页浏览器(通过网页浏览器，用户能够与示例实现互动)和/或用于传输设备的其它图形用户界面。上述技术能够在分布式计算系统中实现，分布式计算系统包括此背端、中间件或前端组件的任意组合。

计算系统的组件能够通过传输介质互连，传输介质能包括任何形式或者任何数字或逻辑数据通信介质(例如，通信网络)。传输介质能够包括任意配置形式的一个或多个基于分组的网络和/或一个或多个基于电路的网络。基于分组的网络能够包括例如因特网、载波互联网协议(IP)网络(例如，局域网(LAN)、广域网(WAN)、校园局域网(CAN)、城域网(MAN)、家庭局域网(HAN))、专用IP网络、IP专用交换分机(IPBX)、无线网络(例如，无线接入网络(RAN)、蓝牙、近场通信(NFC)网络、Wi-Fi、WiMAX和通用分组无线业务(GPRS)网络、高性能无线局域网(HiperLAN))、和/或其它基于分组的网络。基于电路的网络能够包括例如公共交换电话网(PSTN)、传统专用交换分机(PBX)，无线网络(例如RAN、码分多路存取(CDMA)网络、时分多址接入(TDMA)网、全球移动通信系统(GSM)网络)、和/或其它基于电路的网络。

在传输介质上传送的信息能够基于一个或多个通信协议。通信协议能够包括例如以太网协议、互联网协议(IP)、IP语音(VOIP)、对等网络(P2P)协议、超文本传输协议(HTTP)、会话发起协议(SIP)、H.323、媒体网关控制协议(MGCP)、信令系统#7(SS7)、全球移动通信系统(GSM)协议、一键通(PTT)协议、无线一键通(POC)协议、通用移动电信系统(UMTS)、3GPP长期演进(LTE)和/或其它通信协议。

计算系统的设备能够包括例如计算机、具有浏览器设备的计算机、电话、IP电话、移动设备(例如移动电话、个人数字助理(PDA)设备、智能电话、平板电脑、电子邮件设备)和/或其它通信设备。浏览器设备包括例如具有万维网(例如，谷歌公司的Chrome^TM、可从微软公司购买的 Internet和/或可从Mozilla公司购买的Firefox)的计算机(例如台式计算机和/或笔记本电脑)。移动计算装置包括例如移动研究公司(Research in Motion)的和/或基于Android^TM的设备。IP电话包括例如可从思科系统公司购买的 Unified IP Phone和/或 Unified Wireless Phone7920。

包括(Comprise)、包括(include)、和/或每一个的复数形式是开放式的，因此包括所列部件且能够包括未列出的额外部件。和/或(And/or)是开放式的，因此包括一个或多个所列部件以及所列部件的组合。

本领域技术人员将意识到可以其它特定形式来实施该主题，这并不脱离其中的精神或基本特征。因此，前述实施例在各个方面都被认为是说明性的，而不限制本文所述主题。

Claims

1.一种使用智能语音识别技术自动执行计算机软件的方法，所述方法包括：

通过服务器计算设备捕捉来自远程设备的数字语音段，第一数字语音段对应远程设备的用户在语音呼叫期间所提交的语音；

通过所述服务器计算设备分析所述数字语音段，以将所述数字语音段转换成文本，并且从所述转换文本中提取关键字集；

通过连接至所述服务器计算设备的客户端计算设备将所提取的关键字显示在显示设备的用户界面中；

通过所述服务器计算设备确定客户端计算设备可访问的一个或多个计算机软件应用程序；

通过所述服务器计算设备选取至少一个所述计算机软件程序，其包括响应关键字的功能；以及

通过所述客户端计算设备执行所选取的计算机软件应用程序的响应关键字的功能。

2.根据权利要求1所述的方法，其中选取至少一个包括响应关键字功能的计算机软件应用程序包括：

通过所述服务器计算设备产生输入矢量，所述输入矢量包括数值序列，每一数值与一关键字相关且根据该关键字在关键字集中的相对位置被加权；

通过服务器计算设备将输入矢量与预定义的矢量集进行匹配，以确定与所述输入矢量相似的一个或多个输入矢量；

通过所述计算设备识别对应每一匹配矢量的标签，其中所述标签与计算机软件功能相关；以及

通过所述服务器计算设备选取一个或多个计算机软件应用程序，所述一个或多个计算机软件应用程序与所识别的标签中的最常见的标签相关。

3.根据权利要求2所述的方法，其中匹配所述输入矢量包括

通过所述服务器计算设备确定输入矢量与预定义矢量集中的每一矢量之间的距离；以及

通过所述服务器计算设备选取预定义矢量集中的一个或多个矢量，其中所述距离在预设阈值范围内。

4.根据权利要求2所述的方法，其中所述标签为对应计算机软件应用程序的识别符。

5.根据权利要求1所述的方法，进一步包括，在捕捉所述数字语音段之前，通过所述服务器计算设备建立远程设备和客户端计算设备之间的语音连接。

6.根据权利要求1所述的方法，进一步包括，在捕捉所述数字语音段之前，通过所述服务器计算设备建立远程设备和交互式语音应答系统之间的语音连接。

7.根据权利要求1所述的方法，进一步包括，通过所述客户端计算设备将一个或多个用户界面元素显示在用户界面中，所述一个或多个用户界面元素对应所选取的软件应用程序的执行功能。

8.根据权利要求1所述的方法，其中从所述转换文本中提取一组关键字包括，通过所述服务器计算设备过滤所述转换文本，以移除停止词。

9.根据权利要求1所述的方法，其中将所述数字语音段转换成文本包括，通过所述服务器计算设备在包含数字语音段的数字文件上执行语音识别引擎，以产生所述文本。

10.根据权利要求9的方法，进一步包括，通过所述服务器计算设备，使用语法识别引擎分析所述文本，以验证所生成的文本。

11.一种使用智能语音识别技术来自动执行计算机软件的系统，所述系统包括：

服务器计算设备，配置为

捕捉来自远程设备的数字语音段，第一数字语音段对应远程设备的用户在语音呼叫期间所提交的语音；

分析所述数字语音段，以将所述数字语音段转换成文本，并且从所述转换文本中提取关键字集；

确定客户端计算设备可访问的一个或多个计算机软件应用程序；以及

选取至少一个所述计算机软件应用程序，其包括响应关键字的功能；以及

连接至所述计算设备的客户端计算设备，所述客户端计算设备配置为

将所提取的关键字显示在显示设备的用户界面中；以及

执行所选取的计算机软件应用程序的响应关键字的功能。

12.根据权利要求11所述的系统，其中，当选取至少一个包括响应关键字功能的计算机软件应用程序时，所述服务器计算设备配置为

产生输入矢量，所述输入矢量包括数值序列，每一数值与一关键字相关且根据该关键字在关键字集中的相对位置被加权；

将输入矢量与预定义的矢量集进行匹配，以确定与所述输入矢量相似的一个或多个输入矢量；

识别对应每一匹配矢量的标签，其中所述标签与计算机软件功能相关；以及

选取一个或多个计算机软件应用程序，所述一个或多个计算机软件应用程序与所识别的标签中的最常见的标签相关。

13.根据权利要求12所述的系统，其中，当匹配所述输入矢量时，所述服务器计算设备配置为：

确定所述输入矢量与预定义矢量组中的每一矢量之间的距离；以及

选取所述预定义矢量集中的一个或多个矢量，其中所述距离在预设阈值范围内。

14.根据权利要求12所述的系统，其中所述标签为对应计算机软件应用程序的识别符。

15.根据权利要求11所述的系统，其中所述服务器计算设备配置为，在捕捉所述数字语音段之前，建立所述远程设备和客户端计算设备之间的语音连接。

16.根据权利要求11所述的系统，其中所述服务器计算设备配置为，在捕捉所述数字语音段之前，建立所述远程设备和交互式语音应答系统之间的语音连接。

17.根据权利要求11所述的系统，其中所述服务器计算设备配置为，将一个或多个用户界面元素显示在用户界面中，所述一个或多个用户界面元素对应所选取的软件应用程序的执行功能。

18.根据权利要求11所述的系统，其中从所述转换文本中提取关键字集包括，过滤所述转换文本，以移除停止词。

19.根据权利要求11所述的系统，其中将所述数字语音段转换成文本包括，在包含所述数字语音段的数字文件上执行语音识别引擎，以产生所述文本。

20.根据权利要求19的系统，其中所述服务器计算设备配置为，使用语法识别引擎分析所述文本，以验证所生成的文本。