CN110473540A

CN110473540A - 语音交互方法及系统、终端设备、计算机设备及介质

Info

Publication number: CN110473540A
Application number: CN201910808807.0A
Authority: CN
Inventors: 李英杰
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-11-19
Anticipated expiration: 2039-08-29
Also published as: US11373642B2; US20210065694A1; CN110473540B

Abstract

本发明公开一种语音交互方法及系统、终端设备、计算机设备及介质。在一实施方式中，该方法包括如下步骤：S21、终端设备对采集的语音信号进行语音识别以获取输入语句；S22、终端设备将所述输入语句与缓存的样本语句进行语义匹配，得到匹配结果；S23、终端设备判断匹配结果是否为存在与所述输入语句语义相同或相似的样本语句：若是，则将缓存的与该样本语句对应的响应内容作为所述输入语句的响应内容，转入步骤S25；若否，则将所述输入语句发送至服务器，转入步骤S24；S24、服务器根据其存储的知识库对所述输入语句进行语义理解，获取所述输入语句的响应内容；S25、终端设备根据所述响应内容对所述输入语句作出响应。

Description

语音交互方法及系统、终端设备、计算机设备及介质

技术领域

本发明涉及语音交互技术领域。更具体地，涉及一种语音交互方法及系统、终端设备、计算机设备及介质。

背景技术

目前，应用于家居控制、车载设备交互、个人娱乐等方面的具有语音交互功能的智能设备正在逐步普及。出于对语音交互的准确率、效率、实现成本及目前智能设备硬件性能等方面的综合考虑，现有的语音交互方案通常为：终端设备采集语音信号后上传到服务器；服务器对语音信号进行语音识别以获取输入语句后对输入语句进行语义理解以获取响应内容，并将响应内容回传至终端设备；终端设备根据接收的响应内容获取到云端响应结果后进行控制指令的执行或者语音播报，例如，语音信号为“增大音量”则对应的响应内容为终端设备增大播放音量的控制指令，语音信号为问题“如何收听广播？”则对应的响应内容为待播放的内容为“给出语音命令—播放广播或按下控制键面板上标识为FM的按键后通过旋钮调节接收频率”的音频文件。采用这种方案，服务器的处理压力较大且语音交互的响应速度有所欠缺，特别是在服务器需要同时处理多个终端设备发送的语音信号的情况下。

因此，需要提供一种新的语音交互方法及系统、终端设备、计算机设备及介质。

发明内容

本发明的目的在于提供一种语音交互方法及系统、终端设备、计算机设备及介质，以解决现有技术存在的问题中的至少一个。

为达到上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种语音交互方法，包括如下步骤：

S11、对采集的语音信号进行语音识别以获取输入语句；

S12、将所述输入语句与缓存的样本语句进行语义匹配，得到匹配结果；

S13、判断匹配结果是否为存在与所述输入语句语义相同或相似的样本语句：若是，则将缓存的与该样本语句对应的响应内容作为所述输入语句的响应内容，转入步骤S15；若否，则转入步骤S14；

S14、将所述输入语句发送至服务器，以使得所述服务器根据其存储的知识库对所述输入语句进行语义理解，获取所述输入语句的响应内容；

S15、根据所述响应内容对所述输入语句作出响应。

本发明第一方面提供的语音交互方法，可在不过多增加对执行该方法的终端设备的处理性能和存储空间的要求的情况下，大幅减轻服务器的处理压力、降低服务器的成本，并提升语音交互的响应速度，特别适用于一台或由有限数量的几台服务器组成的服务器集群同时为大量终端设备提供语音交互服务的情况。另外，样本语句及其响应内容的缓存机制易于管理且可灵活配置。

可选地，该方法还包括：根据输入语句及其响应内容更新缓存的样本语句及其响应内容。

采用此可选方式，可实现执行该方法的终端设备根据输入语句进行缓存内容的本地更新，有利于针对性地提升后续语音交互的响应速度。

可选地，所述根据输入语句及其响应内容更新缓存的样本语句及其响应内容进一步包括：判断所述输入语句的获取频次，根据获取频次大于第一预设阈值的输入语句及其响应内容更新缓存的样本语句及其响应内容。

采用此可选方式，可实现执行该方法的终端设备根据获取频次高的输入语句进行缓存内容的本地更新，更加有利于针对性地提升后续语音交互的响应速度。

可选地，所述根据获取频次大于第一预设阈值的输入语句及其响应内容更新缓存的样本语句及其响应内容进一步包括：判断缓存容量，若缓存容量小于第二预设阈值，则根据所述获取频次大于第一预设阈值的输入语句的获取频次与已缓存的获取频次最小的样本语句的获取频次的比较结果更新更新缓存的样本语句及其响应内容。

采用此可选方式，可保证缓存的样本语句及其响应内容占用的缓存容量受到管控，可保证语音交互的实现不占用执行该方法的终端设备过多的存储空间。

可选地，步骤S12进一步包括：

缓存多个词向量；

分别对所述输入语句和终端设备缓存的样本语句进行分词；

根据对所述输入语句的分词结果及终端设备缓存的词向量获取所述输入语句中每个词的词向量，并根据对所述样本语句的分词结果及终端设备缓存的词向量获取样本语句中每个词的词向量；

根据所述输入语句中每个词的词向量生成所述输入语句的句向量，并根据样本语句中每个词的词向量生成样本语句的句向量；

根据所述输入语句的句向量与样本语句的句向量，对所述输入语句与样本语句进行相似度计算，获取匹配结果。

采用此可选方式，通过在执行该方法的终端设备缓存的多个词向量，可在不过多占用终端设备的存储空间的情况下，减小语义匹配过程耗费的计算资源，节省终端设备处理性能，且可提升语义匹配的速度。

可选地，所述根据所述输入语句中每个词的词向量生成所述输入语句的句向量，并根据样本语句中每个词的词向量生成样本语句的句向量进一步包括：利用神经网络对所述输入语句中每个词的词向量编码并对样本语句中每个词的词向量编码，以生成所述输入语句的句向量和样本语句的句向量。

采用此可选方式，可在不过多增加对执行该方法的终端设备的处理性能的要求的情况下，提升生成的输入语句的句向量和样本语句的句向量的精确性，从而提升语义匹配的精度。

可选地，

所述响应内容进一步包括控制指令和/或语音回应内容；

步骤S15进一步包括：根据控制指令执行相应动作和/或对语音回应内容进行语音播报。

本发明第二方面提供了一种语音交互方法，包括如下步骤：

S21、终端设备对采集的语音信号进行语音识别以获取输入语句；

S22、终端设备将所述输入语句与缓存的样本语句进行语义匹配，得到匹配结果；

S23、终端设备判断匹配结果是否为存在与所述输入语句语义相同或相似的样本语句：若是，则将缓存的与该样本语句对应的响应内容作为所述输入语句的响应内容，转入步骤S25；若否，则将所述输入语句发送至服务器，转入步骤S24；

S24、服务器根据其存储的知识库对所述输入语句进行语义理解，获取所述输入语句的响应内容；

S25、终端设备根据所述响应内容对所述输入语句作出响应。

本发明第二方面提供的语音交互方法，可在不过多增加对终端设备的处理性能和存储空间的要求的情况下，大幅减轻服务器的处理压力、降低服务器的成本，并提升语音交互的响应速度，特别适用于一台或由有限数量的几台服务器组成的服务器集群同时为大量终端设备提供语音交互服务的情况。另外，终端设备采用的样本语句及其响应内容的缓存机制易于管理且可灵活配置。

可选地，该方法还包括：服务器根据接收的输入语句及获取的所述输入语句的响应内容更新知识库。

采用此可选方式，可实现服务器根据接收的输入语句进行知识库的更新，有利于知识库内容的扩展及提升后续语音交互的响应速度。

可选地，该方法还包括：

终端设备向服务器发送携带终端设备自身缓存容量信息的更新请求消息；

服务器根据所述更新请求消息携带的终端设备自身缓存容量信息及知识库中各样本语句的获取频次生成缓存更新数据，并发送至相应的终端设备；

终端设备根据所述缓存更新数据，更新缓存的样本语句及其响应内容。

采用此可选方式，可实现服务器对终端设备缓存内容的远程更新，有利于实现服务器综合多个终端获取的输入语句更新终端设备缓存内容，可提升后续语音交互的响应速度。

本发明第三方面提供了一种执行本发明第一方面提供的方法的终端设备，该终端设备缓存有多个样本语句及其响应内容；该终端设备包括：语音识别模块、语义匹配模块、判断模块和第一传输模块；

语音识别模块，被配置为对采集的语音信号进行语音识别以获取输入语句；

语义匹配模块，被配置为将所述输入语句与样本语句进行语义匹配，得到匹配结果；

判断模块，被配置为判断匹配结果是否为存在与所述输入语句语义相同或相似的样本语句：若是，则将终端设备缓存的与该样本语句对应的响应内容作为所述输入语句的响应内容；若否，则通过所述第一传输模块将所述输入语句发送至服务器，以使得所述服务器根据其存储的知识库对所述输入语句进行语义理解，获取所述输入语句的响应内容并发送至所述终端设备；

所述终端设备被配置为根据所述响应内容对所述输入语句作出响应。

本发明第三方面提供的终端设备，可在不过多增加对终端设备的处理性能和存储空间的要求的情况下，大幅减轻服务器的处理压力、降低服务器的成本，并提升语音交互的响应速度，特别适用于一台或由有限数量的几台服务器组成的服务器集群同时为大量终端设备提供语音交互服务的情况。另外，终端设备采用的样本语句及其响应内容的缓存机制易于管理且可灵活配置。

本发明第四方面提供了一种执行本发明第二方面提供的方法的语音交互系统，其特征在于，包括服务器和至少一个本发明第三方面提供的终端设备，所述服务器包括第二传输模块和语义理解模块；

语义理解模块，被配置为根据服务器存储的知识库对所述第二传输模块接收的所述输入语句进行语义理解，获取所述输入语句的响应内容；并通过所述第二传输模块将所述响应内容发送至终端设备。

本发明第四方面提供的语音交互系统，可在不过多增加对终端设备的处理性能和存储空间的要求的情况下，大幅减轻服务器的处理压力、降低服务器的成本，并提升语音交互的响应速度，特别适用于一台或由有限数量的几台服务器组成的服务器集群同时为大量终端设备提供语音交互服务的情况。另外，终端设备采用的样本语句及其响应内容的缓存机制易于管理且可灵活配置。

本发明第五方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面提供的语音交互方法。

本发明第六方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面提供的语音交互方法。

本发明的有益效果如下：

本发明所述技术方案可在不过多增加对终端设备的处理性能和存储空间的要求的情况下，大幅减轻服务器的处理压力、降低服务器的成本，并提升语音交互的响应速度，特别适用于一台或由有限数量的几台服务器组成的服务器集群同时为大量终端设备提供语音交互服务的情况。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明；

图1示出本发明实施例提供的语音交互方法的流程图。

图2示出进行语义匹配的流程图。

图3示出本发明实施例提供的语音交互系统的示意图。

图4示出本发明实施例提供的终端设备的结构示意图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

如图1所示，本发明的一个实施例提供了一种语音交互方法，包括如下步骤：

S25、终端设备根据所述响应内容对所述输入语句作出响应。

本实施例提供的语音交互方法，可在不过多增加对终端设备的处理性能和存储空间的要求的情况下，大幅减轻服务器的处理压力、降低服务器的成本，并提升语音交互的响应速度，特别适用于一台或由有限数量的几台服务器组成的服务器集群同时为大量终端设备提供语音交互服务的情况。另外，终端设备采用的样本语句及其响应内容的缓存机制易于管理且可灵活配置。

另外，相比本实施例提供的方案而言，一方面，如果将包含样本语句及其响应内容和多种相关信息的知识库完整地下发到终端设备并由终端设备执行语义理解算法，则虽然可减轻服务器的处理压力、降低服务器的成本，但是对终端设备的存储空间和处理性能的要求较高，且会导致语音交互的响应速度无法有效提升；另一方面，如果仅在终端设备进行语义匹配，假如不存在相同或相似的样本语句也将相似度最高的样本语句作为相似的样本语句，据其获取输入语句的响应内容，则语音交互的准确率又难以得到保证。

综上，本实施例提供的语音交互方法通过终端设备缓存占用存储空间较小的多个样本语句及其响应内容(而并非知识库)，在通过语音识别获取输入语句后在终端设备本地进行相对语音理解而言简单快速的语义匹配以准确获取响应内容，如果语义匹配不成功再将输入语句发送至服务器进行语音理解以准确获取响应内容，是一种端云协同实现语音交互的方案，可兼顾语音交互的准确率、效率(响应速度)、实现成本等方面，相比于现有的语音交互方案具有明显优势。

在本实施例的一些可选的实现方式中，所述响应内容进一步包括控制指令和/或语音回应内容；

步骤S25进一步包括：终端设备根据控制指令执行相应动作和/或对语音回应内容进行语音播报。

在本实施例的一些可选的实现方式中，服务器为云服务器。

在本实施例的一些可选的实现方式中，如图2所示，步骤S22进一步包括：

终端设备缓存多个词向量；

终端设备分别对所述输入语句和终端设备缓存的样本语句进行分词；

终端设备根据对所述输入语句的分词结果及终端设备缓存的多个词向量获取所述输入语句中每个词的词向量，并根据对所述样本语句的分词结果及终端设备缓存的多个词向量获取样本语句中每个词的词向量；

终端设备根据所述输入语句中每个词的词向量生成所述输入语句的句向量，并根据样本语句中每个词的词向量生成样本语句的句向量；

终端设备根据所述输入语句的句向量与样本语句的句向量，对所述输入语句与样本语句进行相似度计算，获取匹配结果。

采用此实现方式，通过在终端设备缓存的多个词向量，可在不过多占用终端设备的存储空间的情况下，减小语义匹配过程耗费的计算资源，节省终端设备处理性能，且可提升语义匹配的速度。

在本实施例的一些可选的实现方式中，所述终端设备根据所述输入语句中每个词的词向量生成所述输入语句的句向量，并根据样本语句中每个词的词向量生成样本语句的句向量进一步包括：终端设备局利用神经网络对所述输入语句中每个词的词向量编码并对样本语句中每个词的词向量编码，以生成所述输入语句的句向量和样本语句的句向量。

采用此可选方式，可在不过多增加对终端设备的处理性能的要求的情况下，提升生成的输入语句的句向量和样本语句的句向量的精确性，从而提升语义匹配的精度。

在一个具体示例中，

终端设备缓存的多个词向量是由服务器进行词向量模型训练后，由服务器抽取部分常用词语的词向量生成词向量数据，再根据终端设备自身的缓存容量，将至少部分词向量数据发送至终端设备进行缓存。当终端设备发现缓存中不存在输入语句中某个词的词向量时，可向服务器发送携带该词的信息的词向量获取请求，使得服务器将该词的词向量发送至终端设备，终端设备根据接收的该词的词向量更新缓存的词向量；

在所述终端设备分别对所述输入语句和终端设备缓存的样本语句进行分词中，可使用现有的多种分词工具实现分词，也可以通过基于现有的分词算法编写的分词程序实现分词；

在所述终端设备根据所述输入语句中每个词的词向量生成所述输入语句的句向量，并根据样本语句中每个词的词向量生成样本语句的句向量中，使用的是深度学习方法进行转换，其利用一个简单的神经网络即可将词向量序列编码成句向量，需要说明的是，该利用神经网络的编码对应的模型应与服务器训练生成的语义理解模型基本一致以保证响应内容获取的一致性和准确率；另外，对于低端电子产品等处理性能较低的终端设备，也可以采用词向量相加的简单方式进行句向量生成，这种方式处理需要的处理性能低且处理速度快，配合以在进行相似度计算时设置较高的相似度阈值也可保证相似度计算的准确性；

在所述终端设备根据所述输入语句的句向量与样本语句的句向量，对所述输入语句与样本语句进行相似度计算中，可以采用基于余弦距离、欧式距离、马氏距离等方式的计算方法进行相似度计算，以余弦距离为例，计算输入语句的向量A与样本语句的向量B之间距离的具体公式如下：

其中，相似度值的取值范围为0-1之间，可设置相似度阈值，若输入语句与某样本语句之间的相似度值大于相似度阈值则认为这两个语句至少相似(即相同或相似)，就可以根据匹配结果直接从终端设备的缓存中获取到输入语句对应的响应内容，若不存在与输入语句之间的相似度值大于相似度阈值的样本语句，则将输入语句发送至服务器进行语义理解。

在本实施例的一些可选的实现方式中，该方法还包括：服务器根据接收的输入语句及获取的所述输入语句的响应内容更新知识库。

采用此实现方式，可实现服务器根据接收的输入语句进行知识库的更新，有利于知识库内容的扩展及提升后续语音交互的响应速度。

本实施例中，终端设备缓存的样本语句及其响应内容的更新方式包括本地更新或远程更新，也可同时采用本地更新和远程更新这两种更新方式，本地更新和远程更新这两种更新方式具体如下：

对于本地更新：

在本实施例的一些可选的实现方式中，该方法还包括：终端设备根据输入语句及其响应内容更新缓存的样本语句及其响应内容，即，在缓存内容中添加作为样本语句的输入语句及其响应内容。

采用此实现方式，可实现终端设备根据输入语句进行缓存内容的本地更新，有利于针对性地提升后续语音交互的响应速度。

在一个具体示例中，若响应内容是语音回应内容，且语音回应内容是服务器获取的，则终端设备对语音回应内容进行语音播报的同时，将输入语句及其语音回应内容—mp3、wav等格式的音频文件进行缓存。

在本实施例的一些可选的实现方式中，所述终端设备根据输入语句及其响应内容更新缓存的样本语句及其响应内容进一步包括：终端设备判断所述输入语句的获取频次，根据获取频次大于第一预设阈值(获取频次阈值)的输入语句及其响应内容更新缓存的样本语句及其响应内容。

其中，输入语句的获取频次等同于其对应的语音信号的采集频次，可反映输入语句的热度，终端设备可通过对输入语句的获取频次进行统计和排序，得到常用语句。

采用此实现方式，可实现终端设备根据获取频次高的输入语句进行缓存内容的本地更新，更加有利于针对性地提升后续语音交互的响应速度。

进一步，在本实施例的一些可选的实现方式中，所述终端设备根据获取频次大于第一预设阈值的输入语句及其响应内容更新缓存的样本语句及其响应内容进一步包括：终端设备判断缓存容量，若缓存容量小于第二预设阈值(缓存容量阈值)，则根据所述获取频次大于第一预设阈值的输入语句的获取频次与已缓存的获取频次最小的样本语句的获取频次的比较结果更新更新缓存的样本语句及其响应内容。

其中，终端设备还可缓存输入语句及样本语句的获取频次的记录，比较输入语句与样本语句的获取频次时可基于该记录获取输入语句及样本语句的获取频次。

采用此实现方式，可保证缓存的样本语句及其响应内容占用的缓存容量受到管控，可保证语音交互的实现不占用终端设备过多的存储空间。

在一个具体示例中，例如设定缓存容量小于第二预设阈值时需保持更新缓存的样本语句及其响应内容的条目数不变，即此情况下不能再增加更新缓存的样本语句及其响应内容占用的终端设备缓存容量，判断所述输入语句的获取频次是否大于已缓存的获取频次最小的样本语句的获取频次：若是，则删除已缓存的获取频次最小的样本语句及其响应内容(还可包括其获取频次的记录)并在缓存中添加输入语句及其响应内容(还可包括其获取频次的记录)以实现缓存的更新，并保持缓存的样本语句及其响应内容的条目数不变；若否，则不进行缓存的更新。

对于远程更新：

在本实施例的一些可选的实现方式中，该方法还包括：

终端设备为向服务器发送携带终端设备自身缓存容量信息的更新请求消息；其中，终端设备可定期发送更新请求消息，也可响应于用户操作而发送更新请求消息或在出现特定事件时发送更新请求消息，特定事件例如终端设备启动等；

服务器根据所述更新请求消息携带的终端设备自身缓存容量信息及知识库中各样本语句的获取频次生成缓存更新数据，并发送至相应的终端设备；其中，服务器将接收的输入语句作为样本语句存入知识库中，因此样本语句的获取频次等同于服务器接收的输入语句的获取频次，可反映其热度，服务器可通过对接收的输入语句的接收频次进行统计和排序，识别出常用语句；另外，服务器可以按照每台终端设备发送的输入语句记录或者一组终端设备(例如同类型的终端设备)发送的输入语句记录来计算输入语句的接收频次；

采用此实现方式，可实现服务器对终端设备缓存内容的远程更新，有利于实现服务器综合多个终端获取的输入语句更新终端设备缓存内容，可提升后续语音交互的响应速度。

除了上述实现方式之外，在本实施例的一些可选的实现方式中，该方法还包括：

服务器为向终端设备发送更新询问消息；其中，服务器可定期发送更新询问消息或检测到特定事件时发送更新询问消息，特定事件例如某终端设备启动(终端设备关机时与服务器断开连接，与服务器重新建立连接时服务器判定其启动)；

终端设备根据所述更新询问消息向服务器发送携带终端设备自身缓存容量信息的更新确认消息；其中，终端设备可在收到更新询问消息后，呈现更新询问消息，响应于用户的确认操作向服务器发送携带终端设备自身缓存容量信息的更新确认消息；

服务器根据所述更新确认消息携带的终端设备自身缓存容量信息及知识库中各样本语句的获取频次生成缓存更新数据，并发送至相应的终端设备；

如图3所示，本发明的另一个实施例提供了一种语音交互系统，包括服务器200和至少一个终端设备100；其中，

终端设备100缓存有多个样本语句及其响应内容；终端设备100包括：语音识别模块102、语义匹配模块103、判断模块104和第一传输模块105；

服务器200包括第二传输模块201和语义理解模块202；

语音识别模块102，被配置为对采集的语音信号进行语音识别以获取输入语句，其中，输入语句可为字符串形式的输入语句；可理解的是，终端设备100还包括内置或外置的用于采集语音信号的语音信号采集模块101(例如麦克风等)；

语义匹配模块103，被配置为将所述输入语句与样本语句进行语义匹配，得到匹配结果；

判断模块104，被配置为判断匹配结果是否为存在与所述输入语句语义相同或相似的样本语句：若是，则将终端设备100缓存的与该样本语句对应的响应内容作为所述输入语句的响应内容；若否，则通过第一传输模块105将所述输入语句发送至服务器200；

语义理解模块202，被配置为根据服务器200存储的知识库对第二传输模块201接收的所述输入语句进行语义理解，获取所述输入语句的响应内容；并通过第二传输模块201将所述响应内容发送至终端设备100；其中，知识库为语义理解知识库，其包含样本语句及其响应内容和多种相关信息，知识库可存储于服务器200的数据库中；语义理解模块202可基于利用现有的语义理解算法训练生成的语义理解模型，根据知识库包含的内容对所述输入语句进行语义理解，以获取输入语句的响应内容，另外，服务器200可以持续训练和更新语义理解模型，以保证语义理解的准确率等；

终端设备100被配置为根据所述响应内容对所述输入语句作出响应。

其中，终端设备100可以是各种电子设备，包括但不限于个人电脑、智能手机、智能手表、平板电脑、个人数字助理、智能播放器、车载终端、电子画屏等等。终端设备100与服务器200通过网络进行通信，该网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。在一个具体示例中终端设备100与服务器200之间通过第一传输模块105与第二传输模块201之间建立的通信链路进行通信。

本实施例提供的语音交互系统，可在不过多增加对终端设备的处理性能和存储空间的要求，或者说现有的终端设备可满足对终端设备的存储空间和处理性能的要求的情况下，减轻服务器的处理压力，降低服务器的成本，并提升语音交互的响应速度，特别适用于一台或由有限数量的几台服务器组成的服务器集群同时为大量终端设备提供语音交互服务的情况。另外，样本语句及其响应内容的缓存机制易于管理且可灵活配置。

另外，相比本实施例提供的方案而言，一方面，如果将包含样本语句及其响应内容和多种相关信息的知识库完整地下发到终端设备并由终端设备执行语义理解算法，则虽然可减轻服务器的处理压力，降低服务器的成本，但是对终端设备的存储空间和处理性能的要求较高，且会导致语音交互的响应速度无法有效提升；另一方面，如果仅在终端设备进行语义匹配，假如不存在相同或相似的样本语句也将相似度最高的样本语句作为相似的样本语句，据其获取输入语句的响应内容，则语音交互的准确率又难以得到保证。

综上，本实施例提供的语音交互系统通过终端设备缓存占用存储空间较小的多个样本语句及其响应内容(而并非知识库)，在通过语音识别获取输入语句后在终端设备本地进行相对语音理解而言简单快速的语义匹配以准确获取响应内容，如果语义匹配不成功再将输入语句发送至服务器进行语音理解以准确获取响应内容，是一种端云协同实现语音交互的方案，可兼顾语音交互的准确率、效率(响应速度)、实现成本等方面，相比于现有的语音交互方案具有明显优势。

在本实施例的一些可选的实现方式中，所述响应内容进一步包括控制指令和/或语音回应内容，终端设备100进一步包括用于根据控制指令执行相应动作的执行模块106和/或用于对语音回应内容进行语音播报的语音播报模块107。

在本实施例的一些可选的实现方式中，服务器200为云服务器。

在本实施例的一些可选的实现方式中，终端设备100缓存有多个词向量；

语义匹配模块103进一步包括：

分词模块，被配置为对所述输入语句和终端设备100缓存的样本语句进行分词；

词向量获取模块，被配置为根据对所述输入语句的分词结果及终端设备100缓存的词向量获取所述输入语句中每个词的词向量，并根据对所述样本语句的分词结果及终端设备100缓存的词向量获取样本语句中每个词的词向量；

句向量生成模块，被配置为根据所述输入语句中每个词的词向量生成所述输入语句的句向量，并根据样本语句中每个词的词向量生成样本语句的句向量；

相似度计算模块，被配置为根据所述输入语句的句向量与样本语句的句向量，对所述输入语句与样本语句进行相似度计算，获取匹配结果。

采用此实现方式，通过在终端设备100缓存的多个词向量，可在不过多占用端设备的存储空间的情况下，减小语义匹配过程耗费的计算资源，节省终端设备100处理性能，且可提升语义匹配的速度。

在本实施例的一些可选的实现方式中，所述句向量生成模块进一步被配置为利用神经网络对所述输入语句中每个词的词向量编码并对样本语句中每个词的词向量编码，以生成所述输入语句的句向量和样本语句的句向量。

采用此实现方式，可在不过多增加对终端设备100的处理性能的要求的情况下，提升生成的输入语句的句向量和样本语句的句向量的精确性，从而提升语义匹配的精度。

在一个具体示例中，

终端设备100缓存的多个词向量是由服务器200进行词向量模型训练后，由服务器200抽取部分常用词语的词向量生成词向量数据，再根据终端设备100自身的缓存容量，将至少部分词向量数据发送至终端设备100进行缓存。当词向量获取模块发现缓存中不存在输入语句中某个词的词向量时，可向服务器200发送携带该词的信息的词向量获取请求，使得服务器200将该词的词向量发送至终端设备100，终端设备100根据接收的该词的词向量更新缓存的词向量；

分词模块可使用现有的多种分词工具实现分词，也可以通过基于现有的分词算法编写的分词程序使得分词模块实现分词；

句向量生成模块使用的是深度学习方法进行转换，其利用一个简单的神经网络即可将词向量序列编码成句向量，需要说明的是，该利用神经网络的编码对应的模型应与服务器200训练生成的语义理解模型基本一致以保证响应内容获取的一致性和准确率；另外，对于低端电子产品等处理性能较低的终端设备100，句向量生成模块也可以采用词向量相加的简单方式进行句向量生成，这种方式处理需要的处理性能低且处理速度快，配合以在进行相似度计算时设置较高的相似度阈值也可保证相似度计算的准确性；

相似度计算模块可以采用基于余弦距离、欧式距离、马氏距离等方式的计算方法进行相似度计算，以余弦距离为例，计算输入语句的向量A与样本语句的向量B之间距离的具体公式如下：

其中，相似度值的取值范围为0-1之间，可设置相似度阈值，若输入语句与某样本语句之间的相似度值大于相似度阈值则认为这两个语句至少相似(即相同或相似)，判断模块就可以根据匹配结果直接从终端设备100的缓存中获取到输入语句对应的响应内容，若不存在与输入语句之间的相似度值大于相似度阈值的样本语句，则判断模块将输入语句发送至服务器200进行语义理解。

在本实施例的一些可选的实现方式中，服务器200被配置为根据第二传输模块201接收的输入语句及获取的所述输入语句的响应内容更新知识库。

采用此实现方式，可实现服务器200根据接收的输入语句进行知识库的更新，有利于知识库内容的扩展及提升后续语音交互的响应速度。

本实施例中，终端设备100缓存的样本语句及其响应内容的更新方式包括本地更新或远程更新，也可同时采用本地更新和远程更新这两种更新方式，本地更新和远程更新这两种更新方式具体如下：

对于本地更新：

在本实施例的一些可选的实现方式中，终端设备100还被配置为根据输入语句及其响应内容更新缓存的样本语句及其响应内容，即，在缓存内容中添加作为样本语句的输入语句及其响应内容。

采用此实现方式，可实现终端设备100根据输入语句进行缓存内容的本地更新，有利于针对性地提升后续语音交互的响应速度。

在一个具体示例中，若响应内容是语音回应内容，且语音回应内容是服务器200获取的，则语音播报模块107对语音回应内容进行语音播报的同时，终端设备100将输入语句及其语音回应内容—mp3、wav等格式的音频文件进行缓存。

进一步，在本实施例的一些可选的实现方式中，终端设备100进一步被配置为判断所述输入语句的获取频次，根据获取频次大于第一预设阈值(获取频次阈值)的输入语句及其响应内容更新缓存的样本语句及其响应内容。

其中，输入语句的获取频次等同于其对应的语音信号的采集频次，可反映输入语句的热度，终端设备100可通过对输入语句的获取频次进行统计和排序，得到常用语句。

采用此实现方式，可实现终端设备100根据获取频次高的输入语句进行缓存内容的本地更新，更加有利于针对性地提升后续语音交互的响应速度。

进一步，在本实施例的一些可选的实现方式中，终端设备100进一步被配置为在根据获取频次大于第一预设阈值的输入语句及其响应内容更新缓存的样本语句及其响应内容时判断缓存容量，若缓存容量小于第二预设阈值(缓存容量阈值)，则根据所述输入语句的获取频次与已缓存的获取频次最小的样本语句的获取频次的比较结果更新更新缓存的样本语句及其响应内容。

其中，终端设备100还可缓存输入语句及样本语句的获取频次的记录，比较输入语句与样本语句的获取频次时可基于该记录获取输入语句及样本语句的获取频次。

采用此实现方式，可保证缓存的样本语句及其响应内容占用的缓存容量受到管控，可保证语音交互的实现不占用终端设备100过多的存储空间。

在一个具体示例中，例如设定缓存容量小于第二预设阈值时需保持更新缓存的样本语句及其响应内容的条目数不变，即此情况下不能再增加更新缓存的样本语句及其响应内容占用的终端设备100缓存容量，判断所述输入语句的获取频次是否大于已缓存的获取频次最小的样本语句的获取频次：若是，则删除已缓存的获取频次最小的样本语句及其响应内容(还可包括其获取频次的记录)并在缓存中添加输入语句及其响应内容(还可包括其获取频次的记录)以实现缓存的更新，并保持缓存的样本语句及其响应内容的条目数不变；若否，则不进行缓存的更新。

对于远程更新：

在本实施例的一些可选的实现方式中，

终端设备100还被配置为向服务器200发送携带终端设备100自身缓存容量信息的更新请求消息；其中，可将终端设备100配置为定期发送更新请求消息、响应于用户操作而发送更新请求消息或出现特定事件时发送更新请求消息，特定事件例如终端设备100启动等；

服务器200还被配置为根据所述更新请求消息携带的终端设备100自身缓存容量信息及知识库中各样本语句的获取频次生成缓存更新数据，并发送至相应的终端设备100；其中，服务器200将接收的输入语句作为样本语句存入知识库中，因此样本语句的获取频次等同于服务器200接收的输入语句的获取频次，可反映其热度，服务器200可通过对接收的输入语句的接收频次进行统计和排序，识别出常用语句；另外，服务器200可以按照每台终端设备发送的输入语句记录或者一组终端设备100(例如同类型的终端设备100)发送的输入语句记录来计算输入语句的接收频次；

终端设备100还被配置为根据所述缓存更新数据，更新缓存的样本语句及其响应内容。

其中，终端设备100初始缓存的样本语句及其响应内容可由服务器200根据所述更新请求消息携带的终端设备100自身缓存容量信息及知识库中各样本语句的获取频次生成初始缓存数据，并发送至相应的终端设备100；终端设备100根据所述初始缓存数据，初始化缓存的样本语句及其响应内容。

采用此实现方式，可实现服务器200对终端设备100缓存内容的远程更新，有利于实现服务器200综合多个终端获取的输入语句更新终端设备100缓存内容，可提升后续语音交互的响应速度。

除了上述实现方式之外，在本实施例的一些可选的实现方式中，

服务器200还被配置为向终端设备100发送更新询问消息；其中，可将服务器200配置为定期发送更新询问消息或检测到特定事件时发送更新询问消息，特定事件例如某终端设备100启动(终端设备100关机时与服务器200断开连接，与服务器200重新建立连接时服务器200判定其启动)；

终端设备100还被配置为根据所述更新询问消息向服务器200发送携带终端设备100自身缓存容量信息的更新确认消息；其中，可将终端设备100配置为收到更新询问消息后，呈现更新询问消息，响应于用户的确认操作向服务器200发送携带终端设备100自身缓存容量信息的更新确认消息；

服务器200还被配置为根据所述更新确认消息携带的终端设备100自身缓存容量信息及知识库中各样本语句的获取频次生成缓存更新数据，并发送至相应的终端设备100；

如图4所示，适于用来实现上述实施例提供的语音交互系统中的终端设备100的计算机系统，包括中央处理模块(CPU)，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中，还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。

以下部件连接至I/O接口:包括键盘、鼠标等的输入部分；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和示意图，图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器，包括语音识别模块、语义匹配模块和判断模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。例如，语义匹配模块还可以被描述为“语义比对模块”。

作为另一方面，本实施例还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质，也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备：对采集的语音信号进行语音识别以获取输入语句；将所述输入语句与缓存的样本语句进行语义匹配，得到匹配结果；判断匹配结果是否为存在与所述输入语句语义相同或相似的样本语句：若是，则将缓存的与该样本语句对应的响应内容作为所述输入语句的响应内容；若否，则将所述输入语句发送至服务器，以使得所述服务器根据其存储的知识库对所述输入语句进行语义理解，获取所述输入语句的响应内容并返回；根据所述响应内容对所述输入语句作出响应。

需要说明的是，在本发明的描述中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于本领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种语音交互方法，其特征在于，包括如下步骤：

S11、对采集的语音信号进行语音识别以获取输入语句；

S15、根据所述响应内容对所述输入语句作出响应。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：根据输入语句及其响应内容更新缓存的样本语句及其响应内容。

3.根据权利要求2所述的方法，其特征在于，所述根据输入语句及其响应内容更新缓存的样本语句及其响应内容进一步包括：判断所述输入语句的获取频次，根据获取频次大于第一预设阈值的输入语句及其响应内容更新缓存的样本语句及其响应内容。

4.根据权利要求3所述的方法，其特征在于，所述根据获取频次大于第一预设阈值的输入语句及其响应内容更新缓存的样本语句及其响应内容进一步包括：判断缓存容量，若缓存容量小于第二预设阈值，则根据所述获取频次大于第一预设阈值的输入语句的获取频次与已缓存的获取频次最小的样本语句的获取频次的比较结果更新更新缓存的样本语句及其响应内容。

5.根据权利要求1所述的方法，其特征在于，步骤S12进一步包括：

缓存多个词向量；

分别对所述输入语句和终端设备缓存的样本语句进行分词；

6.根据权利要求5所述的方法，其特征在于，所述根据所述输入语句中每个词的词向量生成所述输入语句的句向量，并根据样本语句中每个词的词向量生成样本语句的句向量进一步包括：利用神经网络对所述输入语句中每个词的词向量编码并对样本语句中每个词的词向量编码，以生成所述输入语句的句向量和样本语句的句向量。

7.根据权利要求1所述的方法，其特征在于，

所述响应内容进一步包括控制指令和/或语音回应内容；

8.一种语音交互方法，其特征在于，包括如下步骤：

S25、终端设备根据所述响应内容对所述输入语句作出响应。

9.根据权利要求8所述的方法，其特征在于，该方法还包括：服务器根据接收的输入语句及获取的所述输入语句的响应内容更新知识库。

10.根据权利要求9所述的方法，其特征在于，该方法还包括：

11.一种执行如权利要求1-7中任一项所述方法的终端设备，其特征在于，该终端设备缓存有多个样本语句及其响应内容；该终端设备包括：语音识别模块、语义匹配模块、判断模块和第一传输模块；

12.一种执行如权利要求8-10中任一项所述方法的语音交互系统，其特征在于，包括服务器和至少一个如权利要求11所述的终端设备，所述服务器包括第二传输模块和语义理解模块；

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。