CN112346696A

CN112346696A - 虚拟助理的语音比较

Info

Publication number: CN112346696A
Application number: CN202010757413.XA
Authority: CN
Inventors: G.G.乔道; A.D.A.维莱拉; F.G.巴博萨; C.E.达西尔瓦; T.C.帕罗内蒂; S.M.达西尔瓦; L.S.C.达西尔瓦
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-08-07
Filing date: 2020-07-31
Publication date: 2021-02-09
Anticipated expiration: 2040-07-31
Also published as: US11710480B2; US20210043200A1; CN112346696B

Abstract

在一种通过使用语音比较找到存储在本地数据库中的响应来优化智能虚拟助理的方法中，处理器在计算设备上接收音频输入。处理器将音频输入转录成文本。处理器使用语音算法将文本与计算设备的本地数据库中的用户查询和命令的集合进行比较。处理器确定用户查询和命令的集合中的用户查询或命令是否满足预定义相似性阈值。响应于确定用户查询或命令满足预定义相似性阈值，处理器识别对应于用户查询或命令的、存储在本地数据库中的意图集合中的意图。处理器识别对应于意图的、本地数据库中的响应集合中的响应。处理器可听地输出该响应。

Description

虚拟助理的语音比较

技术领域

本发明总体上涉及智能虚拟助理领域，更具体地，涉及通过使用语音比较查找存储在本地数据库中的响应来优化智能虚拟助理。

背景技术

智能虚拟助理，本文称为虚拟助理(virtual assistant，VA)，是能够基于口头命令和口头查询为用户执行任务或服务的软件程序。这些服务可以包括播放歌曲、电视节目或电影；提供关于天气的信息；设置警报；制定待办事项列表等。VA和其用户之间的交互通过声音用户界面(voice-user interface，VUI)发生，该声音用户界面可以在个人计算设备、移动设备、智能扬声器等中实施。VA也可以被称为智能个人助理、智慧助理、智能虚拟代理、智慧虚拟代理和虚拟代理。VA利用自然语言处理(Natural language processing，NLP)引擎和自动言语识别服务将输入与可执行任务或服务相匹配。

通常，自然语言处理引擎和自动言语识别服务不发生在VA的本地应用内。相反，VA的本地应用将用户输入路由到服务器或云服务，该服务器或云服务通过自然语言处理引擎和/或自动言语识别服务运行声音命令，以处理用户输入并生成适当的响应。一旦VA接收到响应，VA就将该响应转换成音频并将其输出给用户。

自然语言处理(NLP)引擎在人类语言被讲述时帮助计算机理解和解释该人类语言。NLP引擎使用两种主要技术：语法和语义分析。语法是单词排列成短语、从句、句子或段落的方式。常见的语法技术包括解析、单词分割、断句、语素分割和词干提取。NLP引擎使用语法来评估单词、短语、从句、句子或段落的含义。语义分析用于将单词、短语、从句、句子或段落与它们的语言无关的含义联系起来。语义分析首先通过分析单词、短语、从句、句子或段落在其周围文本中的上下文、然后通过分析文本的结构来识别其正确的含义来执行。由NLP引擎使用的常用语义分析技术包括词义消歧、命名体识别和自然语言生成。

言语识别，也称为自动言语识别(automatic speech recognition，ASR)，是指通过计算机系统对讲述的语言进行分析并将其翻译成文本(例如，言语到文本转换(speech-to-text conversion，STT))。模数转换器(analog-to-digital converter，ADC)用于将用户声音的模拟波形翻译成计算机能够理解的数据。为了将波形翻译成数据，ADC以频繁的间隔对波形进行精确测量。由ADC产生的信号然后被分成与已知音素匹配的小段。音素是一种感觉上不同的声音单位，它将一个词与另一个词区分开来。一旦匹配，就在周围音素的上下文中检查已知音素，并将其与已知单词、短语和句子的库进行比较。基于检查和比较的结果，用户所讲述的单词被翻译，并且以文本或计算机命令的形式产生响应。

发明内容

本发明实施例的各方面公开了一种用于通过使用语音比较查找存储在本地数据库中的响应来优化智能虚拟助理的方法、计算机程序产品和计算机系统。处理器在计算设备上接收音频输入。处理器将音频输入转录成文本。处理器使用语音算法将该文本与计算设备的本地数据库中的用户查询和命令的集合进行比较。处理器确定用户查询和命令的集合中的用户查询或命令是否满足与该文本的预定义相似性阈值。响应于确定用户查询或命令满足预定义相似性阈值，处理器识别对应于用户查询或命令的、存储在本地数据库中的意图集合的意图。处理器识别对应于该意图的、本地数据库中的响应集合中的响应。处理器以听觉方式输出该响应。

附图说明

图1是示出根据本发明实施例的虚拟助理环境的功能框图；

图2是描绘根据本发明实施例的在诸如图1中描绘的虚拟助理环境中的本地数据库程序的步骤的流程图；

图3是描绘根据本发明实施例的在诸如图1中描绘的虚拟助理环境中的语音比较程序的步骤的流程图；以及

图4描绘了根据本发明实施例的在诸如图1中描绘的虚拟助理环境中的计算设备的组件的框图。

具体实施方式

本发明的实施例认识到，可以通过减少接收音频输入和输出响应之间的时延来优化当前VA应用。通常，VA应用使用的NLP引擎和/或ASR服务不会通过用户界面(即，智能扬声器的VUI)托管在运行VA应用的本地设备上。因此，当接收到音频输入时，音频输入必须被传送到VA应用正被托管的地方(即，私有云、服务器等)以确定响应，然后响应被传送回本地设备以输出响应。

本发明的实施例还认识到，ASR服务可能在转录的文本中产生错误(例如，转录不正确的单词或拼写错误的单词)，该错误可能导致向用户输出不正确或不相关的响应。与其他语言(即，葡萄牙语)相比，ASR服务在英语语言方面接受的训练更广泛，因此，ASR服务更有可能输出来自非英语音频输入的转录错误和拼写错误。

本发明的实施例提供了一种用于在运行VA应用的本地设备上建立本地数据库的程序，该本地数据库具有先前的用户查询和命令以及用于与音频输入进行比较的可能的用户查询和命令的文件、对应于查询和命令的意图或关键词的文件、以及对应于意图的响应的文件。本发明的实施例还提供了一种用于周期性地用新的可能的用户查询和命令、意图和/或响应来更新本地数据库的程序。本发明的实施例还提供了一种将已经使用ASR服务转换成文本的音频输入与存储在本地数据库中的查询和命令进行语音比较的程序，该程序识别满足相似性阈值的查询或命令、识别对应于查询或命令的意图、识别对应于意图的响应、并且输出响应。因此，本发明的实施例通过本地存储响应并通过语音比较提高响应的准确度来减少VA应用的时延。

本发明的实施例提供了一种中断音频输入的传统过程流或将其插入到VA应用中的程序，以允许本地生成适当的响应，使得本地VA应用更独立于远程云或服务器系统运行。

本发明的实施例通过计算Jaro-Winkler距离将来自音频输入的转录文本与先前和可能的用户查询和命令的文件进行语音比较，以识别最相似的先前的或可能的用户查询或命令。本发明的实施例对最相似的查询或命令使用计算的Jaro-Winkler距离来确定是否满足相似性阈值。Jaro-Winkler距离是用于计算两个字符串变量之间的距离的距离度量。度量的范围在0(完全不相似)和1(完全匹配)之间。两个给定字符串s₁和s₂的Jaro-Winkler距离定义d_w为：

d_w＝d_j+(lρ(1-d_j))；

其中，d_j是字符串s₁和s₂的Jaro距离；l是字符串开头的公共前缀的长度，最长不超过四个字符；ρ是恒定比例因子，用于为了具有公共前缀向上调整多少分数。ρ的标准值为0.1，并且不应超过0.25，否则，相似性可能会大于1。两个给定字符串s₁和s₂的Jaro距离d_j定义为：

其中，|s_i|是字符串s_i的长度，m是匹配字符的数量；t是置换的数量的一半。s₁和s₂中的两个字符只有在它们相同且不超过以下值时才被视为匹配：

s₁的每个字符都与s₂中所有与其匹配的字符进行比较。匹配(但次序不同)的字符的数量除以2定义了置换的数量。

现在将参照附图详细描述本发明。

图1描绘了根据本发明的实施例的说明虚拟助理环境100的功能框图。图1仅提供了对本发明的一个实施例的说明，并不意味着对可以实施不同实施例的环境的任何限制。在所描绘的实施例中，虚拟助理环境100包括通过网络110互连的服务器120和用户计算设备130。虚拟助理环境100可以包括附加的计算设备、服务器、计算机或未示出的其他设备。

网络110作为计算网络进行操作，该计算网络可以是例如局域网(LAN)、广域网(WAN)或这两者的组合，并且可以包括有线、无线或光纤连接。通常，网络110可以是将要支持服务器120和用户计算设备130之间的通信的连接和协议的任意组合。

服务器120进行操作以运行VA应用122和NLP引擎124。在一些实施例中，服务器120可以是管理服务器、网络服务器或能够接收和传送数据的任何其他电子设备或计算系统。在一些实施例中，服务器120可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、智能电话或能够运行VA应用122并经由网络110与用户计算设备130通信的任何可编程电子设备。在其他实施例中，服务器120表示利用多台计算机作为服务器系统的服务器计算系统，诸如云计算环境。服务器120可以包括附加的组件(即，STT转换器)、数据库或未示出的其他程序。服务器120可以包括如图4中进一步详细描述的组件。

VA应用122作为使用自NLP和/或STT来理解自然语言输入并生成对输入的适当响应的VA应用而进行操作。在所描绘的实施例中，VA应用122驻留在服务器120上，并且包括用于处理自然语言输入的NLP引擎124。在其他实施例中，倘若VA应用122能够访问网络110，则VA应用122可以驻留在用户计算设备130或另一计算设备(未示出)上。在实施例中，VA应用122的NLP引擎124接收音频输入，使用NLP技术将音频输入转录成文本，并产生响应。例如，NLP引擎124可以从用户计算设备130的语音比较程序134接收音频输入，使用NLP技术将音频输入转录成文本，并将文本传送回语音比较程序134。

用户计算设备130进行操作以运行本地数据库程序132、语音比较程序134、用户界面138，并且使用本地数据库136存储和/或传送数据。在实施例中，用户计算设备130经由网络110向VA应用122传送数据和/或从VA应用122接收数据。在一些实施例中，用户计算设备130可以是管理服务器和/或能够接收和传送数据的任何其他电子设备或计算系统。在一些实施例中，用户计算设备130可以是但不限于电子设备，诸如智能扬声器、膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、智能电话、便携式媒体播放器、个人数字助理(PDA)、电视机、可穿戴子设备，或者能够运行本地数据库程序132、语音比较程序134、用户界面138、使用数据库136存储和/或传送数据并经由网络110与服务器120通信的任何可编程电子设备。用户计算设备130可以包括如图4中进一步详细描述的组件。

本地数据库程序132进行操作以建立和周期性更新本地数据库。在实施例中，本地数据库程序132建立本地数据库，诸如本地数据库136，该本地数据库具有先前的用户查询和命令以及可能的用户查询和命令的文件、用于将查询或命令与适当响应相匹配的意图或关键词的文件、以及其中每个响应对应于意图的响应的文件。在实施例中，本地数据库程序132在用户通过用户界面138配置的每个预先配置的时间间隔用新的可能的用户查询和命令、新的意图和/或新的响应来更新本地数据库，即本地数据库136。在所描绘的实施例中，本地数据库程序132驻留在用户计算设备130上。在其他实施例中，倘若本地数据库程序132可以访问网络110，则本地数据库程序132可以驻留在服务器120或另一计算设备(未示出)上。

语音比较程序134作为用于将音频输入的转录文本与存储在本地数据库136中的先前/可能的用户查询和命令进行比较的程序而进行操作，以识别输出回用户的适当响应。在实施例中，语音比较程序134接收音频输入。在实施例中，语音比较程序134将音频输入转录成文本。在实施例中，语音比较程序134将转录的文本与存储在本地数据库136中的先前/可能的用户查询和命令进行比较，以识别最相似的先前/可能的用户查询或命令。在实施例中，语音比较程序134确定转录文本和存储在本地数据库136中的所识别的最相似的先前/可能的用户查询和命令之间是否满足相似性阈值。在满足相似性阈值的实施例中，语音比较程序134识别意图和对应的响应。在实施例中，语音比较程序134输出响应。在所描绘的实施例中，语音比较程序134驻留在用户计算设备130上。在其他实施例中，倘若语音比较程序134能够访问网络110，则语音比较程序134可以驻留在服务器120或另一计算设备(未示出)上。

本地数据库136作为文件集合的储存库进行操作，该文件集合用于确定对由本地设备接收的用于VA应用的音频输入的适当响应。音频输入包括但不限于自然语言形式的命令、请求、陈述、叙述和查询，用户通过VA从其中寻找信息性答案、所请求的任务的执行、或这两者的组合。该文件集合包括先前/可能的用户查询和命令的文件、意图的文件以及响应的文件。

先前/可能的用户查询和命令的文件包括用于利用现实生活示例来训练VA应用的可能的用户查询和命令。在实施例中，可能的用户查询和命令包括用户可以陈述查询或命令的多种话语或方式的示例。例如，如果用户想要更多地了解天气，存储在文件中的可能的查询包括：“天气怎么样？”、“镇上的天气怎么样？”、“巴西的天气怎么样？”。可能的用户查询和命令可以来自VA应用122的初始训练和/或设置。VA应用122使用这些示例来构建机器学习模型，该模型可以识别相同或相似类型的话语，并将它们映射到适当的意图。该文件还包括在本地设备(即，用户计算设备130)上通过用户界面(即VUI，例如，用户界面138)从用户接收的先前的用户查询和命令。在实施例中，该文件包含用于每个先前/可能的用户查询和命令的音频文件和/或文本文件。在实施例中，当NLP引擎124能够处理音频输入并识别来自VA应用122的意图时，语音比较程序134利用通过用户界面138接收的音频输入和/或NLP引擎124的文本文件来更新先前的用户查询和命令的文件。音频输入和文本文件成为附加的先前的用户查询或命令，其是在用户计算设备130上本地的与未来音频输入进行比较的附加示例。每个先前/可能的用户查询或命令具有至少一个对应的意图。

意图或关键字的文件是JavaScript对象标记(JavaScript Object Notation，JSON)文件。JSON文件是轻量级的、基于文本的和人类可读的文件，主要用于以JSON格式存储数据(即意图)，并在应用和服务器(诸如用户界面138和服务器120)之间传输该数据。JSON文件建立在两个结构上，键/值对(key/value pair)的集合和值的有序列表。键/值对的示例是“名称”：“约翰”，其中键是“名称”，值是“约翰”。意图表示用户的音频输入的目标或目的。为用户音频输入的每个目标识别意图或关键词。例如，对于包括单词“天气”的每个用户查询或命令，语音比较程序134在意图的文件中搜索“天气”意图。每个意图都有可以经由键/值对结构进行连接的对应的响应或响应集合。

响应的文件包括针对意图的文件中的每个意图的对应的响应的文本和/或音频文件。响应包括但不限于通过用户界面138向用户输出的对问题的回答或命令的完成的音频文件。

本地数据库136可以用能够存储用户计算设备130可以访问和利用的数据和配置文件的任何类型的设备来实施。在实施例中，本地数据库136由用户计算设备130、本地数据库程序132、语音比较程序134和/或服务器120访问，以存储文本和/或音频输入。在实施例中，本地数据库136由用户计算设备130、本地数据库程序132、语音比较程序134和/或服务器120访问，以访问存储在先前/可能的用户查询和命令的文件、意图的文件和/或响应的文件中的文本和音频输入。在所描绘的实施例中，本地数据库136驻留在用户计算设备130上。在另一实施例中，倘若本地数据库136能够访问网络110，则本地数据库136可以驻留在虚拟助理环境100内的其他地方。

用户界面138作为VA应用122的用户计算设备130上的本地用户界面而进行操作。在实施例中，用户界面138是VA应用122的VUI。在实施例中，用户界面138使得用户计算设备130的用户能够通过以自然语言形式做出命令、请求、陈述、叙述和/或询问、通过接收信息性回答、或者通过执行所请求的任务，来与VA(即，VA应用122)进行交互。在实施例中，用户界面138使用户能够配置时间间隔(即，每小时、每天、每周等)，由本地数据库程序132按照该时间间隔来更新本地数据库136。

图2描绘了根据本发明实施例的在如图1所描绘的虚拟助理环境100中的本地数据库程序132的步骤的流程图200。在实施例中，本地数据库程序132用先前/可能的用户查询和命令的文件、意图的文件和响应的文件来建立本地数据库，即本地数据库136。在实施例中，本地数据库程序132按照每个预先配置的时间间隔检查新的先前/可能的用户查询和命令、意图和/或响应，以更新本地数据库136。应当理解，图2中描绘的过程示出了过程流的一个可能的迭代。

在步骤210中，本地数据库程序132建立本地数据库。在实施例中，本地数据库程序132用先前/可能的用户查询和命令的文件、意图的文件和响应的文件来建立本地数据库。在实施例中，本地数据库程序132建立本地数据库136以存储新的先前/可能的用户查询和命令、新的意图和新的响应。

在判定220中，在预先配置的时间间隔之后，本地数据库程序132确定是否存在新的先前/可能的用户查询和命令、新的意图和/或新的响应。在实施例中，本地数据库程序132按照每个预先配置的时间间隔检查新的先前/可能的用户查询和命令、新的意图和/或新的响应，该时间间隔由用户通过用户界面138配置。在实施例中，自上次更新以来，本地数据库程序132在服务器120上的VA应用122和用户界面138中检查新的先前/可能的用户查询和命令、新的意图和/或新的响应。

如果本地数据库程序132确定存在新的先前/可能的用户查询和命令、新的意图和/或新的响应(判定220，“是”分支)，则本地数据库程序132相应地更新本地数据库(即本地数据库136)上的文件(步骤230)。如果本地数据库程序132发现存储在本地数据库136中的针对现有意图的新的先前/可能的用户查询或命令，则本地数据库程序132更新先前/可能的用户查询和命令的文件。如果本地数据库程序132发现新的先前/可能的用户查询或命令，并且既没有对应于新的先前/可能的用户查询或命令的意图也没有对应于新的先前/可能的用户查询或命令的适当响应，则本地数据库程序132用新的先前/可能的用户查询或命令来更新先前/可能的用户查询和命令的文件，用新的意图来更新意图的文件，以及用对应新意图的至少一个响应来更新响应的文件。

如果本地数据库程序132确定没有新的先前/可能的用户查询和命令、新的意图和/或新的响应(判定220，“否”分支)，则本地数据库程序132在完成另一更新之前等待预先配置的时间间隔。

图3描绘了根据本发明实施例的在如图1所描绘的虚拟助理环境100中的语音比较程序134的步骤的流程图300。在实施例中，语音比较程序134接收音频输入，将音频输入转录成文本，将转录的文本与存储在本地数据库136中的先前/可能的用户查询和命令进行语音比较，确定该比较是否满足相似性阈值，并且如果该比较满足相似性阈值，则从本地数据库136中识别对应的意图和响应，并且输出该响应。应当理解，图3中描绘的过程示出了过程流的一个可能的迭代，其对于通过用户界面138接收的每个音频输入进行重复。

在步骤305，语音比较程序134接收音频输入。在实施例中，语音比较程序143通过用户计算设备130的用户界面138从用户接收音频输入。例如，语音比较程序143通过VUI从用户可听地接收音频输入。在实施例中，语音比较程序134接收以用户查询形式的音频输入。在实施例中，语音比较程序134接收以用户命令形式的音频输入。

在步骤310，语音比较程序134将音频输入转录成文本。在实施例中，语音比较程序134使用STT转换器或ASR服务将音频输入转录成文本。在实施例中，语音比较程序134使用在用户计算设备130上找到的STT转换器或ASR服务。在另一实施例中，语音比较程序134将音频输入传送到VA应用122，以使用由VA应用122使用的STT转换器或ASR服务将音频输入转录成文本，然后语音比较程序134从VA应用122接收转录的文本。

在步骤315，语音比较程序134将转录的文本与存储在本地数据库136中的先前/可能的用户查询和命令进行比较。在实施例中，语音比较程序134将转录文本的语音发音与存储在本地数据库136中的先前/可能的用户查询和命令的语音发音进行比较。在实施例中，语音比较程序134使用语音算法将转录的文本与先前/可能的用户查询和命令进行比较。在实施例中，语音比较程序134通过计算转录的文本与每个先前/可能的用户查询和命令之间的Jaro-Winkler距离来比较转录的文本与先前/可能的用户查询和命令。

在判定320中，语音比较程序134确定是否满足相似性阈值。在实施例中，语音比较程序134确定转录的文本与存储在本地数据库136中的先前/可能的用户查询和命令中的至少一个之间是否满足相似性阈值。在实施例中，语音比较程序134基于所计算的Jaro-Winkler距离来确定是否满足相似性阈值，Jaro-Winkler距离是介于0和1之间的值。在实施例中，相似性阈值由用户通过用户界面138预先配置。在另一实施例中，相似性阈值由VA应用122基于产生最适当的响应的阈值来预先配置。例如，相似性阈值可以被配置为大于或等于0.8。

如果语音比较程序134确定转录的文本与先前/可能的用户查询和命令中的至少一个之间的Jaro-Winkler距离满足相似性阈值(判定320，“是”分支)，则语音比较程序134从本地数据库136识别对应于先前/可能的用户查询或命令的意图(步骤325)。如果语音比较程序134确定Jaro-Winkler距离不满足相似性阈值(判定320，“否”分支)，则语音比较程序134将音频输入传送到NLP引擎124(步骤340)。

在步骤325中，语音比较程序134在本地数据库136中识别对应的意图。在实施例中，响应于确定满足相似性阈值，语音比较程序134识别对应于满足相似性阈值的先前/可能的用户查询或命令的意图。在实施例中，语音比较程序134在本地数据库136的意图文件中识别对应的意图。

在步骤330，语音比较程序134在本地数据库136中识别对应的响应。在实施例中，语音比较程序134识别与在步骤325中识别的意图对应的响应。在实施例中，语音比较程序134在本地数据库136中的响应的文件中识别对应的响应。

在步骤335中，语音比较程序134输出来自本地数据库136的对应的响应的音频文件。在实施例中，语音比较程序134再现对应的响应的音频文件。在实施例中，语音比较程序134输出存储在响应的文件中的对应的响应的音频文件。在实施例中，语音比较程序134在用户计算设备130上可听地输出音频文件，以供用户例如通过用户界面138听取。

在步骤340中，语音比较程序134将音频输入传送到NLP引擎124。在实施例中，响应于确定不满足相似性阈值，语音比较程序134将音频输入传送到NLP引擎，诸如VA应用122的NLP引擎124。在实施例中，语音比较程序134将音频输入传送到NLP引擎124，以使用NLP技术将音频输入处理成文本，并且识别与转录文本对应的VA应用系统的意图。

在步骤345中，语音比较程序134从NLP引擎124接收转录的音频输入的文本文件和对应的意图。在实施例中，语音比较程序134从NLP引擎124接收文本文件，该文本文件包含通过NLP引擎124处理音频输入的结果。在实施例中，语音比较程序134用在步骤305中接收的初始音频输入、来自NLP引擎124的文本文件来更新本地数据库136中的先前用户查询和命令文件，并且将由NLP引擎124识别的意图与该文本文件相关联。初始音频输入和文本文件成为与未来音频输入进行比较的附加示例，以识别意图，然后最终识别适当的响应。

在另一实施例中，语音比较程序134从NLP引擎124接收消息，该消息表示音频输入不能被处理，并且没有识别出对应的意图。在该实施例中，语音比较程序134可听地在用户计算设备130上输出表示找不到适当响应的标准响应，例如，“我不明白你的问题。”，以供用户例如通过用户界面138听取。

在步骤350中，语音比较程序134在本地数据库136中识别对应的响应。在实施例中，语音比较程序134识别与在步骤345中接收的意图对应的响应。在实施例中，语音比较程序134在本地数据库136中的响应的文件中识别对应的响应。

在步骤355中，语音比较程序134输出来自于本地数据库136的对应的响应的音频文件。在实施例中，语音比较程序134再现对应的响应的音频文件。在实施例中，语音比较程序134输出存储在响应的文件中的对应的响应的音频文件。在实施例中，语音比较程序134在用户计算设备130上可听地输出音频文件，以供用户听取。

图4描绘了根据本发明实施例的在如图1中描绘的虚拟助理环境100中的计算机400的组件的框图。应当理解，图4仅提供了一种实施方式的说明，并且不意味着对可以实施不同实施例的环境的任何限制。可以对所描绘的环境进行许多修改。

如图所示，计算机400包括通信结构402，其提供高速缓存416、存储器406、永久存储装置408、通信单元410和(多个)输入/输出(I/O)接口412之间的通信。通信结构402可以用设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实施。例如，通信结构402可以用一条或多条总线来实施。

存储器406和永久存储装置408是计算机可读存储介质。在该实施例中，存储器406包括随机存取存储器(RAM)。通常，存储器406可以包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存是一种快速存储器，其通过保存来自存储器406的最近被访问的数据和被访问的数据附近的数据来增强(多个)计算机处理器404的性能。

本地数据库程序132和语音比较程序134可以存储在存储器406和永久存储装置408中，以供相应计算机处理器404中的一个或多个经由高速缓存416执行。在实施例中，永久存储装置408包括磁性硬盘驱动器。可替换地，或者除了磁性硬盘驱动器之外，永久存储装置408可以包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或者能够存储程序指令或数字信息的任何其他计算机可读存储介质。

永久存储装置408使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于永久存储装置408。其他示例包括光盘和磁盘、拇指驱动器和智能卡，它们被插入到驱动器中以用于传输到也作为永久存储装置408的一部分的另一计算机可读存储介质上。

在这些示例中，通信单元410提供与其他数据处理系统或设备的通信。在这些示例中，通信单元410包括一个或多个网络接口卡。通信单元410可以通过使用物理和无线通信链路之一或这两者来提供通信。诸如本地数据库程序132和语音比较程序134的程序可以通过通信单元410下载到永久存储装置408。

(多个)I/O接口412允许与可以连接到服务器120和用户计算设备130的其他设备输入和输出数据。例如，I/O接口412可以提供到外部设备418(诸如键盘、小键盘、触摸屏和/或一些其他合适的输入设备)的连接。外部设备418还可以包括便携式计算机可读存储介质，诸如例如拇指驱动器、便携式光盘或磁盘以及存储卡。用于实施本发明实施例的软件和数据可以存储在这种便携式计算机可读存储介质上，并且可以经由(多个)I/O接口412加载到永久存储装置408上。(多个)I/O接口412可以类似地连接到显示器420。

显示器420提供了向用户显示数据的机制，并且可以是例如计算机监视器。

本文描述的本地数据库程序132和语音比较程序134是基于它们在本发明的特定实施例中实施的应用来识别的。然而，应该理解，本文使用的任何特定程序术语仅仅是为了方便，因此本发明不应当被限制为仅在由这种术语标识和/或暗示的任何特定应用中使用。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实施的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。需要指出的是，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以由执行规定的功能或动作的专用的基于硬件的系统来实现，或者用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种计算机实施的方法，包括：

由一个或多个处理器在计算设备上接收音频输入；

由一个或多个处理器将所述音频输入转录成文本；

由一个或多个处理器使用语音算法将所述文本与计算设备的本地数据库中的用户查询和命令的集合进行比较；

由一个或多个处理器确定所述用户查询和命令的集合中的用户查询或命令是否满足与所述文本的预定义相似性阈值；

响应于确定用户查询或命令满足所述预定义相似性阈值，由一个或多个处理器识别对应于用户查询或命令的、存储在本地数据库中的意图集合中的意图；

由一个或多个处理器识别对应于所识别的意图的、存储在本地数据库中的响应集合中的响应；以及

由一个或多个处理器可听地输出所述响应。

2.根据权利要求1所述的计算机实施的方法，其中所述语音算法是Jaro-Winkler距离算法。

3.根据权利要求2所述的计算机实施的方法，其中使用语音算法将所述文本与计算设备的本地数据库中的用户查询和命令的集合进行比较包括：

由一个或多个处理器计算Jaro-Winkler距离集合，其中Jaro-Winkler距离集合包括文本和用户查询和命令的集合中的每个用户查询或命令之间的Jaro-Winkler距离。

4.根据权利要求3所述的计算机实施的方法，其中确定用户查询或命令是否满足与所述文本的预定义相似性阈值包括：

由一个或多个处理器确定Jaro-Winkler距离集合中的至少一个Jaro-Winkler距离是否满足所述预定义相似性阈值。

5.根据权利要求1所述的计算机实施的方法，还包括：

响应于确定用户查询或响应不满足所述预定义相似性阈值，由一个或多个处理器向自然语言处理引擎发送所述音频输入；

由一个或多个处理器从所述自然语言处理引擎以文本形式接收输入的转录；以及

由一个或多个处理器确定本地数据库中是否存在与所转录的输入对应的意图和响应。

6.根据权利要求5所述的计算机实施的方法，还包括：

响应于确定所转录的输入在本地数据库中具有响应集合中的对应的响应，由一个或多个处理器可听地输出所述对应的响应。

7.根据权利要求1所述的计算机实施的方法，还包括：

由一个或多个处理器按照由用户定义的预先配置的时间间隔，用新的文本输入和音频输入中的至少一个来更新计算设备的本地数据库中的文件集合中的一个或多个文件。

8.一种计算机程序产品，包括：

一个或多个计算机可读存储介质以及存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令可由处理器执行以使所述处理器执行根据权利要求1至7中任一项所述的方法的步骤。

9.一种计算机系统，包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；

存储在所述计算机可读存储介质上的程序指令，所述程序指令用于由所述一个或多个处理器中的至少一个执行，以使处理器执行根据权利要求1至7中任一项的方法的步骤。

10.一种系统，包括被单独配置为执行根据权利要求1至7中任一项所述的方法的每个步骤的模块。