CN112417102A

CN112417102A - 一种语音查询方法、装置、服务器和可读存储介质

Info

Publication number: CN112417102A
Application number: CN202011348511.4A
Authority: CN
Inventors: 何赛克; 徐辉; 郑晓龙; 曾大军
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-26
Anticipated expiration: 2040-11-26
Also published as: CN112417102B

Abstract

本发明实施例提供了一种语音查询方法、装置、服务器和可读存储介质，其中方法包括：获取待处理音频，对所述待处理音频进行语音识别，得到目标字符文本；将所述目标字符文本转换为第一拼音文本，根据字典和所述第一拼音文本，确定所述目标字符文本的目标关键词，所述字典中包含多个关键词以及与每个关键词对应的词组拼音；生成包含所述目标关键词的查询语句，在知识图谱中根据所述查询语句获取所述待处理音频的答案文本；输出所述答案文本，可以有效提高语义解析的准确率，进而提高了语音查询的有效性和准确性。

Description

一种语音查询方法、装置、服务器和可读存储介质

技术领域

本发明涉及智能识别技术领域，尤其涉及一种语音查询方法、装置、服务器和可读存储介质。

背景技术

近年来，随着人工智能等技术的快速发展，人机交互的方式也发生了重大的改变。一些智能硬件产品的出现极大改变了人们的生活方式，而传统的界面点按式的交互方式已经无法满足日益丰富的应用需求，这意味着需要一种更加高效、快捷、便利的人机交互方式。其中，人机交互中涉及的语音交互的本质是人与机器的对话，机器识别语音，得到对应的文本，并确定该文本的正确含义，进而基于文本含义查询答案。但是目前语音识别技术尚未成熟，无法保证语音识别的准确性，导致查询到的答案准确率低下。

发明内容

本发明实施例提供了一种语音查询方法、装置、服务器和可读存储介质，可以有效提高语义解析的准确率，进而提高了语音查询的有效性和准确性。

本申请实施例一方面提供了一种语音查询方法，包括：

获取待处理音频，对所述待处理音频进行语音识别，得到目标字符文本；

将所述目标字符文本转换为第一拼音文本，根据字典和所述第一拼音文本，确定所述目标字符文本的目标关键词，所述字典中包含多个关键词以及与每个关键词对应的词组拼音；

生成包含所述目标关键词的查询语句，在知识图谱中根据所述查询语句获取所述待处理音频的答案文本；

输出所述答案文本。

本申请实施例一方面提供了一种语音查询装置，包括：

处理模块，用于获取待处理音频，对所述待处理音频进行语音识别，得到目标字符文本；

所述处理模块，还用于将所述目标字符文本转换为第一拼音文本，根据字典和所述第一拼音文本，确定所述目标字符文本的目标关键词，所述字典中包含多个关键词以及与每个关键词对应的词组拼音；

所述处理模块，还用于生成包含所述目标关键词的查询语句，在知识图谱中根据所述查询语句获取所述待处理音频的答案文本；

输出模块，用于输出所述答案文本。

本申请实施例一方面提供了一种服务器，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述所述的语音查询方法。

本申请实施例一方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现上述所述的语音查询方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被服务器的处理器执行时，执行上述所述的语音查询方法。

在本申请实施例中，服务器可对获取的待处理音频进行语音识别，得到目标字符文本。在进行语音识别时，由于语音识别错误率比较高，因此可将目标字符文本转换成目标拼音文本，然后根据字典和目标拼音文本来确定目标字符文本的目标关键词，这样可以有效提高语义解析的准确性。进而可以保证根据生成的包含目标关键词的查询语句，在知识图谱中查询的答案文本的准确性和有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种语义解析的流程示意图；

图1b是本发明实施例提供的一种语音查询系统的结构示意图；

图1c是本发明实施例提供的一种语音查询方法的流程示意图；

图1d是本发明实施例提供的一种语音查询界面的结构示意图；

图2是本发明实施例提供的一种语音查询方法的流程示意图；

图3是本发明实施例提供的在语音查询界面输出答案文本的示意图；

图4是本发明实施例提供的一种语音查询方法的流程示意图；

图5a是本发明实施例提供的输出提示信息的示意图；

图5b是本发明实施例提供的人物名称字典的示意图；

图5c是本发明实施例提供的输出查询意图的示意图；

图6是本发明实施例提供的一种语音查询装置的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的语音查询方法涉及人工智能的自然语音处理技术，可对获取到的待处理音频进行语音识别，得到初始字符文本，并对该初始字符文本进行语义解析，其中，对初始字符文本进行语义解析过程可参见图1a。在语义解析过程中，首先，可将初始字符文本进行数据清洗，得到目标字符文本，并将目标字符文本转拼音(即汉字转拼音)，然后利用字典进行文本特征识别，得到目标关键词；在文本特征识别的过程中，还可采用近似匹配和联想匹配等方式来得到目标关键词。在得到目标关键词后，可基于预先设置的规则对目标关键词进行指令模式匹配，并生成查询语句。其中，利用字典和近似匹配可对语音识别中出现的错字进行纠正，从而保证后续根据目标关键词生成查询语句的正确率；利用联想匹配可确定目标字符文本中缺失部分。并在知识图谱中根据查询语句获取待处理音频的答案文本的准确性。

基于本申请实施例所提供的语音查询方法，请参见图1b，图1b为本发明实施例提供的一种语音查询系统的结构示意图。该语音查询系统可包括至少一个终端设备101和至少一个服务器102，在该语音查询系统中，终端设备101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。需要说明的是，上述所提及的终端设备可以是智能手机、平板电脑、笔记本电脑、台式电脑等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

在具体实现中，终端设备101可与服务器102之间进行数据交互。例如，终端设备101可显示语音查询界面，服务器102可通过终端设备101获取语音查询界面中输入的查询内容，然后生成待处理音频(或音频文件)，并将该待处理音频保存在服务器102；服务器102再对待处理音频进行语音识别以及语义解析，得到目标关键词，并将语义解析结果通过终端设备101显示给用户。在检测到用户针对语义解析结果确认操作后，服务器102可根据目标关键词生成查询语句，并根据查询语句在知识图谱中查询待处理音频的答案文本，然后服务器102将待处理音频的答案文本通过终端设备101显示给用户。

在具体应用中，可根据需求预先基于知识图谱构建完整的行业信息库，从而可以在该行业信息库中查询丰富而深层的行业信息。当用户想要查询商业信息时，可预先建立某个行业全面的知识图谱(或行业信息库)，在该知识图谱中可包括人物信息、组织信息、人与人的关系，人与组织的关系、组织与组织的关系等数据。请参见图1c，当用户想要查询某个人的信息时，可在语音查询界面通过麦克风语音输入想要查询的内容，得到待处理音频。并对该待处理音频进行语音识别，得到目标字符文本，然后对目标字符文本进行语义解析，在对语义解析过程中，服务器可对目标字符文本进行文本特征识别，得到目标关键词。然后根据目标关键词进行指令模式匹配，并生成查询语句。进一步，根据用户的操作来判断对目标字符文本的语义解析是否成功。若检测到对目标字符文本语义解析成功的确认操作，则服务器根据生成的查询语句在知识图谱中查询待处理视频的答案文本，并输出结果(即答案文本)。

在一种可行的实施例中，用户可通过终端设备登录语音查询界面，并在该语音查询界面中提供的麦克风语音输入查询内容“李三的毕业院校”。终端设备将“李三的毕业院校”的音频(或音频文件)发给服务器。然后服务器可对该音频进行识别，得到字符文本“李三的毕业院校”，并将“李三的毕业院校”转换成拼音文本“li san de bi ye yuan xiao”，并根据该拼音文本和字典确定该拼音文本的目标关键词，该目标关键词为“李三”和“毕业院校”。然后服务器根据目标关键词根据目标关键词进行指令模式匹配，并可生成查询语句。然后通过终端设备提供的语音查询界面显示语义解析结果“李三的毕业学校”，用户对该语义解析结果进行判断，并在语音查询界面进行确认。当检测到针对该语义解析结果的确认操作时，服务器可根据生成的查询语句在知识图谱中查找该音频的答案文本，然后输出该答案文本。

基于上述提供的语音查询系统以及语音查询方法，本申请实施例还提供一种语音查询界面，该语音查询界面可如图1d所示。在该语音查询界面中，可包括以下控件：麦克风、语音输入控件(语音输入控件即是图1d中的“开始”按键)、语音结束控件(该语音结束控件即是图1d中的“停止”按键)、重新输入控件(该重新输入控件即是图1d中的“复位”按键)、语音提交控件(语音提交控件即是图1d中的“提交”按键)和退出控件(退出控件即是图1d中的“退出”按键)。其中，通过该麦克风可语音输入查询内容(或查询指令)；若用户进入该语音查询界面后，则可触发开始按键，当开始按键被触发后，可通过麦克风进行语音输入需要查询的内容(或查询指令)。当语音输入完成时，可触发停止按键，停止语音输入。若用户发现语音输入有问题，则可触发复位按键，并再次进行语音输入。若用户确认语音输入没有问题，则可触发提交按键，然后将待处理音频提交至服务器。若用户获取到待处理音频的答案文本或者不需要进行语音查询，则可触发退出按键，然后就会退出该语音查询界面。在该语音查询界面中，还可在语音查询界面的中间部分提供文本框，后续可将答案文本显示在该文本框中，以使得用户能够对显示的答案文本进行确认。基于此，该语音查询界面还可提供两个按键，分别为确认控件(即对应图1d中的“是”按键)和“否”控件。若确认按键被触发，则确定该答案文本正确；若“否”控件被按下，则确定该答案文本回答不准确。其中，上述触发可以是点击触发、或者利用设置的快捷键触发(如，设置Ctrl t可触发开始按键)。

基于上述提供的语音查询系统以及语音查询界面，请参阅图2，图2为本发明实施例提供的一种语音查询方法的流程示意图，该语音查询方法可应用于短文本语音查询或者长文本语音查询，本申请实施例不做限定。其中，短文本语音一般可指不超过50个字。该语音查询方法可由上述服务器执行，本实施例中所描述的语音查询方法，可包括以下S201-S204：

S201、获取待处理音频，对待处理音频进行语音识别，得到目标字符文本。

其中，待处理音频是根据语音输入查询内容(或查询指令)生成的。在具体实现中，由于待处理音频是查询某个人或组织的基本信息，或者该待处理音频是查询某个人与其他人、某个人或组织之间的关系，因此该待处理音频的时间不会太长。例如，该待处理音频可以为“史夫乔布斯的毕业院校是哪”、“苹果公司的总部在哪”、“史夫乔布斯的大学校友有谁”等等。

在具体实现中，当检测到语音输入控件被触发时，服务器通过麦克风采集用户语音输入的查询内容或者查询指令，并根据用户语音输入的查询内容或者查询指令生成初始音频(或可称为波形文件、wav文件等)。服务器接收初始音频，并在语音查询界面中显示初始音频的提示消息，该显示初始音频的提示消息可以是语音播放该初始音频的提示信息。当用户对播放后的初始音频确认无误后，可触发该语音提交控件。当检测到语音提交控件被触发时，服务器将可初始音频作为待处理音频。

进一步的，服务器可通过语音转文本模块进行语音识别，在语音转文本模块中可采用语音识别算法对待处理音频进行语音识别，语音识别算法的主要原理是：通过计算待处理音频的音频特征和多个参考音频特征之间的相似度，其中，一个参考音频特征对应一个字符文本。然后根据相似度来确定与待处理音频的音频特征最为相似的参考音频特征，并将最为相似的参考音频特征对应的字符文本作为待处理音频的目标字符文本。在具体实现中，服务器可先从本地空间或者数据库等途径获取多个从参考音频特征，然后计算音频特征和各参考音频特征之间的相似度，并从多个参考音频特征中，选择相似度最大的参考音频特征对应的字符文本作为目标字符文本。其中，该目标字符文本可以txt格式保存在服务器中。

其中，由于待处理音频的音频特征与参考音频特征之间的发音长短不统一一，因此该语音识别算法可以是基于动态时间规整(DTW，Dynamic Time Warping)的语音识别算法。在本申请实施例中，该语音识别算法还可以是各种神经网络训练的语音识别算法。

在一种可行的实施例中，采用动态时间规整的语音识别算法计算音频特征和各参考音频特征之间的相似度的具体实现方式为：该音频特征包括多个音频特征分量，目标参考音频特征均包括多个目标参考特征分量；目标参考音频特征是多个参考音频特征中的任一个参考音频特征。服务器可确定与每个音频特征分量具有关联关系的目标参考特征分量，并确定每个音频特征分量与每个音频特征分量具有关联关系的目标参考特征分量之间的特征差异量；将所有特征差异量叠加为目标参考音频特征和音频特征之间的相似度。

在一种可行的实施例中，服务器对待处理音频进行语音识别，得到初始字符文本，并将该初始字符文本直接作为目标字符文本。在另一种可行的实施例中，由于初始字符文本中会存在一些干扰符号会对后续特征识别产生影响，因此服务器可对初始字符文本进行数据清理，去除初始字符文本中的标点符号、特殊符号或者生僻字等，从而得到目标字符文本。

S202、将目标字符文本转换为第一拼音文本，根据字典和第一拼音文本，确定目标字符文本的目标关键词。

由于语音输入时存在发音不准、多音字、方言、口误或语义解析的偏差略大的问题，使得到的文字错误率很高。其中，文字错误部分可能是非同音的错字，也有可能是同音的错字。比如：待处理音频为“史夫乔布斯的毕业院校是哪”，经过语音识别后得到的目标字符文本可能是“史芬姚布士的毕业原药是哪”，即“史夫乔布斯”识别成非同音的错字“史芬姚布士”；目标字符文本也可能是“湿蒂夫桥不司的毕业元宵是哪”，即“史夫乔布斯”识别成同音的错字“湿夫桥不司”。因此，为了方便对目标字符文本中的关键词进行提取，以及保证提取得到的目标关键词的准确性，可将目标字符文本由字符文本转换为第一拼音文本。在将目标字符文本转换为第一拼音文本之后，由于语音识别过程中普遍存在同音不同字的问题，因此可调用字典，在字典中包含多个关键词(或词组)以及与每个关键词对应的词组拼音。同时，在字典中对一个关键词的不同词组拼音也需要列出来，以提高确定目标字符文本的目标关键词的准确性。例如，对于“比二盖茨”这个词组，对应的词组拼音有“bi er gaici”、“bi er gai zi”等。

在具体实现中，服务器可利用字典对第一拼音文本进行文本特征识别，得到目标字符文本的目标关键词。其中，在文本特征识别过程中，还可采用近似匹配和联想匹配来确定目标关键词。在一种实现方式中，由于在语音识别时，可能目标字符文本存在错误。即人物名、属性名或关系名有部分可能出现问题，比如人物名“乔布斯”可能识别为“桥不是”。在这种情况下，可采用近似匹配对第一拼音文本进行修正，即找到与第一拼音文本最相似的参考拼音序列。在另一种实现方式中，由于在语音识别过程中，可能是存在漏字的情况导致无法获取到目标关键词。其中，漏字的情况分为两种：(1)目标字符文本的中间漏字，比如：待处理音频为“史夫乔布斯的毕业院校是哪”，经过语音识别模块后得到的目标字符文本可能是“史布斯的毕业院校是哪”(中间漏掉“夫乔”)。(2)目标字符文本的两侧漏字，比如待处理音频为“史夫乔布斯的毕业院校是哪”，经过语音识别模块后得到的目标字符文本可能是“史夫乔布斯的毕业”(末尾漏掉“院校是哪”)。在上述两种情况下，则可采用联想匹配来确定目标字符文本中的缺失关键词。

S203、生成包含目标关键词的查询语句，在知识图谱中根据查询语句获取待处理音频的答案文本。

在具体实现中，可根据查询需求生成知识图谱(或称为自研图数据库)，在该知识图谱中的每个节点可代表实体，节点与节点之间的连线可代表两实体之间的关系。例如，若知识图谱为行业人员信息库，则该节点可以是人物名，节点与节点之间的连线代表该两个人物名之间的关系。在得到目标关键词后，可根据该目标关键词生成查询语句，该查询语句可以是CQL(云查询语言，Cloud Query Language)语句，然后根据查询语句从知识图谱中查询出该待处理音频的答案文本。

S204、输出答案文本。

在具体实现中，服务器可将答案文本通过语音查询界面进行显示。例如，如上图3所示，若答案文本为“夫妻”，该答案文本“夫妻”可在语音查询界面的白色框中显示，并同时可输出两个按键“确认按键”和“否按键”，以使得用户可对该答案文本进行确认，若检测到“否按键”，则可提示用户重新语音输入查询内容。

基于上述提供的语音查询系统以及语音查询界面，请参阅图4，图4为本发明实施例提供的一种语音查询方法的流程示意图，该语音查询方法可应用于短文本语音查询或者长文本语音查询，本申请实施例不做限定。其中，短文本语音一般可以指不超过50个字。该语音查询方法可由上述服务器执行，本实施例中所描述的语音查询方法，可包括以下S401-S408：

S401、获取待处理音频，对待处理音频进行语音识别，得到目标字符文本。

S402、将目标字符文本转换为第一拼音文本。

其中，步骤S401-S402的具体实现方式可参见上述实施例中步骤S201-S202的具体实现方式，在此不再赘述。

S403、将第一拼音文本划分为多个第一词组拼音。

在具体实现中，服务器可按照第一拼音文本的排列顺序划分为多个第一词组拼音，以使得一个第一词组拼音能够代表一个语义属性，例如，人物名划分为一个第一词组拼音。

S404、在字典中查找与任一第一词组拼音相同的第一匹配词组拼音。

其中，字典中包含多个关键词以及与每个关键词对应的词组拼音。

在具体实现中，服务器可在字典中查找任一第一词组拼音相同的第一匹配的词组拼音，若服务器在字典中查找到任一第一词组拼音相同的第一匹配的词组拼音，则服务器可执行步骤S405。

若服务器在字典中未查找到任一第一词组拼音相同的第一匹配的词组拼音，则说明在语音识别过程中，最终语音识别得到目标字符文本存在错误。为了纠正目标字符文本中存在的错误，可采用近似匹配查找与第一拼音文本相似的参考拼音序列，并将与第一拼音文本相似的参考拼音序列作为第二拼音文本。在具体实现中，服务器可从拼音集合包含的多个参考拼音序列查找与第一拼音文本匹配的参考拼音序列，并将查找到的参考拼音序列作为第二拼音文本。其中，第二拼音文本与第一拼音文本之间的相似度大于相似阈值，该相似阈值可根据经验设置；在确定出第二拼音文本后，服务器可将第二拼音文本划分为多个第二词组拼音，并在字典中查找与任一第二词组拼音相同的第二匹配词组拼音。此时，在字典中查找与任一第二词组拼音相同的第二匹配词组拼音的查找结果存在两种情况：

a、若在字典中查找到与任一第二词组拼音相同的第二匹配词组拼音，并将第二匹配词组拼音作为第二初始关键词。若第二初始关键词的数量等于第一阈值，则服务器可将第二初始关键词确定为目标关键词，并执行步骤407。其中，第一阈值可根据经验设置。针对短文本语音查询，可将第一阈值设置为2。可以理解的是，当第二初始关键词的数量等于第一阈值2，则可将第二初始关键词确定为目标关键词。即目标关键词需要两个才可生成查询语句，来保证语义解析的准确性，以及语音查询的准确性。

b、若第二初始关键词的数量小于第一阈值，说明可能是存在漏字的情况导致无法获取到满足第一阈值的目标关键词，因此，本申请实施例中，可采用联想匹配来确定缺失关键词，即可搭建一个长短期记忆人工神经网络(LSTM，Long Short-Term Memory)网络。然后将人工标注的大量指令文本送进模型进行训练，得到文本预测模型。若第一初始关键词的数量小于第一阈值，则服务器可调用文本预测模型对目标字符文本进行文本分析，得到文本分析结果，其中，该文本分析结果包括完整的目标字符文本，即包括已知的部分字符文本和缺失部分字符文本；然后根据文本分析结果确定目标字符文本的缺失关键词；并将缺失关键词和第二初始关键词组合为目标关键词，并执行步骤407。可以理解的是，若第一阈值为2，此时第二初始关键词的数量小于第一阈值2。若第二初始关键词的数量为1，则可采用联想匹配来确定目标字符文本的缺失关键词。若二初始关键词的数量小于1，则可认为在字典中未查找到与任一第二词组拼音相同的第二匹配词组拼音，即属于下面c的情况。

c、若在字典中未查找到与任一第二词组拼音相同的第二匹配词组拼音，则服务器通过语音查询界面输出提示信息“未能解析成功，请重新语音输入”，在语音查询界面中输出提示信息如图5a所示。

在一种可行的实施例中，可根据语义属性设置8类字典，分别是人物名称字典、人物属性字典、人与人关系字典、人与组织关系字典、组织名字典、组织名属性字典、组织与组织的关系字典和组织与人的关系字典。其中，人物属性字典可包括人物的身高、体重等等属性对应的拼音；组织名属性字典可包括组织名对应的组织大小、成立年限等等属性对应的拼音；假设组织为“学校”人与组织关系字典可包括学生、老师等对应的拼音；组织与人关系字典可包括：管理者、创建者对应的拼音；以组织为学校为例，组织与组织的关系字典可包括：“学校A是学校B的分校”对应的拼音。例如，人物名称字典部分数据如图5b所示。在具体实现中，服务器还可在多类字典中依次遍历查找与任一第一词组拼音相同的第一匹配词组拼音，通过在多类字典中查找确定出的与任一第一词组拼音相同的第一匹配词组拼音可知道第一匹配词组拼音的语义属性。

S405、将第一匹配词组拼音对应的关键词作为第一初始关键词。

S406、若第一初始关键词的数量等于第一阈值，则将第一初始关键词作为目标关键词。

其中，第一阈值可根据经验设置。例如针对短文本语音查询，该第一阈值可取2。在具体实现中，若第一初始关键词的数量等于第一阈值2，则服务器将第一初始关键词直接作为目标关键词，并执行步骤S407。

在一种可行的实施例中，若第一初始关键词的数量小于第一阈值(例如第一阈值为2)，可采用近似匹配和联想匹配确定目标关键词：

(1)采用联想匹配确定目标关键词：服务器可调用文本预测模型对目标字符文本进行文本分析，得到文本分析结果，并根据文本分析结果确定目标字符文本的缺失关键词；并将缺失关键词和第一初始关键词组合为目标关键词，并执行步骤S407。

(2)采用近似匹配找到与第一拼音文本匹配的参考拼音序列，并作为第二拼音文本。在具体实现中，服务器可从拼音集合包含的多个参考拼音序列查找与第一拼音文本匹配的参考拼音序列，并将查找到的参考拼音序列作为第二拼音文本，其中，第二拼音文本与第一拼音文本之间的相似度大于相似阈值；并将第二拼音文本划分为多个第二词组拼音；在字典中查找与任一第二词组拼音相同的第二匹配词组拼音。此时，在字典中查找与任一第二词组拼音相同的第二匹配词组拼音的查找结果存在两种情况：

(a)在字典中查找到与任一第二词组拼音相同的第二匹配词组拼音，并将第二匹配词组拼音对应的关键词作为第二初始关键词：若第二初始关键词的数量等于或大于第二阈值(例如，第二阈值为1)，则服务器可将第一初始关键词和第二初始关键词合并为目标关键词，并执行步骤S407。其中，若第二初始关键词的数量大于第二阈值，则可以知道第一初始关键词与第二初始关键词中存在相同关键词，则可将第一初始关键词和第二初始关键词进行合并，以使得最终得到目标关键词的数量等于第一阈值。其中，第二阈值可根据经验设定。需要说明的是，这里的第二阈值小于第一阈值。

(b)在字典中未查找到与任一第二词组拼音相同的第二匹配词组拼音(或若第二初始关键词的数量小于第二阈值)，则服务器可调用文本预测模型对目标字符文本进行文本分析，得到文本分析结果，并根据文本分析结果确定目标字符文本的缺失关键词；并将缺失关键词和第一初始关键词组合为目标关键词，并执行步骤S407。

需要说明的是，在通过上述情况(a)和情况(b)都未找到其他关键词，而第一初始关键词的数量小于第一阈值，可认为无法进行语义解析。服务器可通过语音查询界面输出提示信息“未能解析成功，请重新语音输入”。

其中，服务器可从拼音集合包含的多个参考拼音序列查找与第一拼音文本匹配的参考拼音序列，并将查找到的参考拼音序列作为第二拼音文本的具体实现方式为：服务器可先获取字符拼音集合，其中，该字符拼音集合中包括多个字符拼音，并将字符拼音集合中的多个字符拼音组合成多个参考拼音序列，从而得到拼音集合。在具体实现时，服务器可按照预先设置的组合规则对多个字符拼音进行组合，或者随机将字符拼音集合中的多个字符拼音组合，得到拼音集合。进一步地，服务器可采用文本编码技术，将第一拼音文本进行编码处理，得到拼音向量，并对每个参考拼音序列分别进行编码处理，得到多个参考向量。其中，采用编码处理得到的拼音向量和多个参考向量为相同维数，一般有字符拼音集合来确定。示例性的，设目标字符文本为“桥不是”，字符拼音集合中有6个字符拼音“bu si shiwang wei qiao”，按照随机组合规则可组合为qiao bu si(即参考拼音序列)，并对该qiaobu si进行热编码处理，即将qiao bu si在字符拼音集合中依次查询，最终得到一个6位的向量。例如“qiao”在字符拼音集合中的最后一位，则最后一个为1，“bu”在字符拼音集合中的第一个，则第一位为1；“si”在字符拼音集合中的第二个，则第二位为1，其余位置为0；最终该qiao bu si进行热编码处理得到参考向量为110001。同理可目标字符文本进行热编码处理，可确定出“qiao bu shi”的向量为010101。需要说明的是，其他参考序列可按照上述编码方式进行进行编码。

在得到拼音向量和各参考向量之后，一种具体实现中，服务器计算拼音向量与各参考向量之间的余弦相似度，并从多个参考拼音序列中，选择余弦相似度最大的参考向量对应的参考拼音序列作为第二拼音文本。在另一种具体实现中，由于得到的拼音向量和多个参考向量为相同维数，因此在相同维数下，服务器可统计拼音向量与各参考向量之间对应位置上的数值相同的数量，并从多个参考拼音序列中，选择统计到数量最大的参考拼音序列作为第二拼音文本。

需要说明的是，若第一初始关键词的数量小于第一阈值，说明在第一拼音文本中存在第一词组拼音，则可将第一拼音文本中存在的第一词组拼音先进行剔除，得到剩下的拼音文本，然后再按照上述近似匹配方式以及字典对剩下的拼音文本进行纠正，从而得到剩下的拼音文本对应的关键词；并将剩下的拼音文本对应的关键词和第一词组拼音组合成目标关键词。若未得到剩下的拼音文本对应的关键词，即可采用联想匹配来确定目标字符文本的缺失关键词。

S407、生成包含目标关键词的查询语句，在知识图谱中根据查询语句获取待处理音频的答案文本。

在得到目标关键词后，服务器可根据目标关键词按照预设规则可分析得到待处理音频的查询意图文本(即该待处理音频需要查询的内容)。该预设规则可参见表1所示，其中该指令特征可包括关键词1和关键词2，服务器根据目标关键词可通过表1中的指令模式进行识别，即可分析得到待处理音频的查询意图文本，从而可以克服待处理音频中查询内容(或查询指令)表达多样性带来的含义的偏差。在具体实现中，服务器获取目标关键词的语义属性，并根据目标关键词的语义属性确定指令模式，其中，该目标关键词的语义属性是对第一拼音文本或者第二拼音文本在各类字典查找时确定的。服务器将目标关键词和指令模式叠加为查询意图文本(对应上述语义解析结果)，并在语音查询界面显示查询意图文本。该语音查询界面包括确认控件；当确认控件被触发时，执行步骤S407。在本发明实施例中，该预设规则可将出现的目标关键词(或指令特征)进行归纳，得到表1中的9大类指令模式。并且对于每个大类指令模式，还会细分小类指令模式，共有100类指令模式。在表1中，当目标关键词为一个人物的名称A和人物属性的名称B，根据目标关键词的语义属性确定指令模式，服务器就可确定出查询意图文本为查询人物A的属性B的属性值，并将查询意图文本“人物A的属性B的属性值”在语音查询界面显示，结果如图5c所示。

表1

S408、输出答案文本。

在本申请实施例中，服务器可将第一拼音文本划分为多个第一词组拼音，并在字典中查找与任一第一词组拼音相同的第一匹配词组拼音。利用字典进行查找可防止语音识别中的错别字对语义解析的影响，且还采用联想匹配确定缺失关键词，有效提高语义解析的准确率；当第一初始关键词的数量等于第一阈值，则将第一初始关键词作为目标关键词，并根据目标关键词生成查询意图文本，显示在语音查询界面，以使得用户确认后生成包含目标关键词的查询语句。可保证后续根据查询语句能够准确的查找答案文本，提高了语音查询的有效性和准确性。

进一步的，请参见图6，其是本申请实施例提供的一种语音查询装置的结构示意图。如图6所示，语音查询装置可以应用于上述图2或图4对应实施例中的服务器，具体的，语音查询装置可以是运行于服务器中的一个计算机程序(包括程序代码)，例如语音查询装置为一个应用软件；该语音查询装置可以用于执行本申请实施例提供的方法中的相应步骤。

处理模块601，用于获取待处理音频，对所述待处理音频进行语音识别，得到目标字符文本；

所述处理模块601，还用于将所述目标字符文本转换为第一拼音文本，根据字典和所述第一拼音文本，确定所述目标字符文本的目标关键词，所述字典中包含多个关键词以及与每个关键词对应的词组拼音；

所述处理模块601，还用于生成包含所述目标关键词的查询语句，在知识图谱中根据所述查询语句获取所述待处理音频的答案文本；

输出模块602，用于输出所述答案文本。

在一种可行的实施例中，所述处理模块601，具体用于：

将所述第一拼音文本划分为多个第一词组拼音；

在所述字典中查找与任一第一词组拼音相同的第一匹配词组拼音，将所述第一匹配词组拼音对应的关键词作为第一初始关键词；

若所述第一初始关键词的数量等于第一阈值，则将所述第一初始关键词作为目标关键词。

在一种可行的实施例中，所述处理模块601，还用于：

若所述第一初始关键词的数量小于第一阈值，则从拼音集合包含的多个参考拼音序列查找与所述第一拼音文本匹配的参考拼音序列，将查找到的参考拼音序列作为第二拼音文本；所述第二拼音文本与所述第一拼音文本之间的相似度大于相似阈值；

将所述第二拼音文本划分为多个第二词组拼音；

在所述字典中查找与任一第二词组拼音相同的第二匹配词组拼音，并将所述第二匹配词组拼音对应的关键词作为第二初始关键词；

将所述第一初始关键词和所述第二初始关键词合并为目标关键词。

在一种可行的实施例中，所述处理模块601，还用于：

获取字符拼音集合，所述字符拼音集合包括多个字符拼音；

将所述字符拼音集合中的所述多个字符拼音组合成多个参考拼音序列，得到所述拼音集合；

则所述从拼音集合包含的多个参考拼音序列查找与所述第一拼音文本匹配的参考拼音序列，包括：

将所述第一拼音文本进行编码处理，得到拼音向量；

对每个参考拼音序列分别进行编码处理，得到多个参考向量；

计算所述拼音向量与各参考向量之间的余弦相似度；

从所述多个参考拼音序列中，选择余弦相似度最大的参考向量对应的参考拼音序列作为第二拼音文本。

在一种可行的实施例中，所述处理模块601，还用于：

若所述第一初始关键词的数量小于第一阈值，则调用文本预测模型对所述目标字符文本进行文本分析，得到文本分析结果；

根据所述文本分析结果确定所述目标字符文本的缺失关键词；

将所述缺失关键词和所述第一初始关键词组合为目标关键词。

在一种可行的实施例中，所述处理模块601，还用于：

获取所述目标关键词的语义属性，根据所述目标关键词的语义属性确定指令模式；

将所述目标关键词和所述指令模式叠加为查询意图文本；

在语音查询界面显示所述查询意图文本，所述语音查询界面包括确认控件；

当所述确认控件被触发时，执行生成包含所述目标关键词的查询语句的步骤。

在一种可行的实施例中，所述处理模块601，具体用于：

显示语音查询界面，所述语音查询界面中包括语音输入控件和语音提交控件；

当所述语音输入控件被触发时，接收初始音频，并在所述语音查询界面中显示所述初始音频的提示消息；

当所述语音提交控件被触发时，将所述初始音频作为待处理音频。

在一种可行的实施例中，所述处理模块601，具体用于：

提取所述待处理音频的音频特征；

获取多个参考音频特征，一个参考音频特征对应一个字符文本；

确定所述音频特征和各参考音频特征之间的相似度；

从所述多个参考音频特征中，选择相似度最大的参考音频特征对应的字符文本作为目标字符文本。

可以理解的是，本实施例的语音查询装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例图2或者图4的相关描述，此处不再赘述。

进一步地，请参见图7，图7是本申请实施例提供的一种服务器的结构示意图。上述图2或图4对应实施例中的服务器可以为图7所示的服务器。如图7所示，服务器可以包括：处理器701、输入设备702，输出设备703和存储器704。上述处理器701、输入设备702、输出设备703和存储器704通过总线705连接。存储器704用于存储计算机程序，所述计算机程序包括程序指令，处理器701用于执行存储器704存储的程序指令。

在本申请实施例中，处理器701通过运行存储器704中的可执行程序代码，执行如下操作：

输出所述答案文本。

在一种可行的实施例中，所述处理器701，具体用于：

将所述第一拼音文本划分为多个第一词组拼音；

在一种可行的实施例中，所述处理器701，还用于：

将所述第二拼音文本划分为多个第二词组拼音；

在一种可行的实施例中，所述处理器701，还用于：

获取字符拼音集合，所述字符拼音集合包括多个字符拼音；

将所述第一拼音文本进行编码处理，得到拼音向量；

计算所述拼音向量与各参考向量之间的余弦相似度；

在一种可行的实施例中，所述处理器701，还用于：

将所述目标关键词和所述指令模式叠加为查询意图文本；

在一种可行的实施例中，所述处理器701，具体用于：

提取所述待处理音频的音频特征；

确定所述音频特征和各参考音频特征之间的相似度；

应当理解，在本申请实施例中，所称处理器701可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器701还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器704可以包括只读存储器和随机存取存储器，并向处理器701提供指令和数据。存储器704的一部分还可以包括非易失性随机存取存储器。

该输入设备702可以包括麦克风等，并向处理器701输入查询语音；该输出设备703可以包括显示器等。

具体实现中，本申请实施例中所描述的处理器701、输入设备702、输出设备703和存储器704可执行上述所有实施例中描述的实现方式，也可执行上述装置中所描述的实现方式，在此不再赘述。

本申请实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述所有实施例中所执行的步骤。

本申请实施例还提供一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被电子设备的处理器执行时，执行上述所有实施例中的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种语音查询方法，其特征在于，包括：

输出所述答案文本。

2.根据权利要求1所述的方法，其特征在于，所述根据字典和所述第一拼音文本，确定所述目标字符文本的目标关键词，包括：

将所述第一拼音文本划分为多个第一词组拼音；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述第二拼音文本划分为多个第二词组拼音；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取字符拼音集合，所述字符拼音集合包括多个字符拼音；

将所述第一拼音文本进行编码处理，得到拼音向量；

计算所述拼音向量与各参考向量之间的余弦相似度；

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标关键词和所述指令模式叠加为查询意图文本；

7.根据权利要求1所述的方法，其特征在于，所述获取待处理音频，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述待处理音频进行语音识别，得到字符文本，包括：

提取所述待处理音频的音频特征；

确定所述音频特征和各参考音频特征之间的相似度；

9.一种语音查询装置，其特征在于，包括：

输出模块，用于输出所述答案文本。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1-8任一项所述的方法。