CN109461440A

CN109461440A - 一种获取多轮语音通话最大可能意图的方法和智能设备

Info

Publication number: CN109461440A
Application number: CN201811608701.8A
Authority: CN
Inventors: 邓从健; 江晓锋; 朱栩
Original assignee: Guangzhou Yunqu Information Technology Co Ltd
Current assignee: Guangzhou Yunqu Information Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-03-12

Abstract

本发明公开了一种获取多轮语音通话最大可能意图的方法和智能设备，该方法包括：步骤1，智能设备开始采集用户语音；步骤2，智能设备根据语音特征对连续语音截断；步骤3，智能设备把短语音流发给语音转写引擎；步骤4，智能设备接收转写后的文本流，把获取的文本进行意图识别，定义为第一意图状态。该获取多轮语音通话最大可能意图的方法和智能设备，通过多轮语音通话最大可能意图模型的设置，很大程度上解决了目前大部分的算法模型都是主要处理独立的单句意图，或者根据槽位来获取业务参数，无法处理复杂意图的业务场景的问题，并且能够计算最优解，精确获取用户意图，通过意图函数的学习对协商值进行优化，更高效获取用户意图。

Description

一种获取多轮语音通话最大可能意图的方法和智能设备

技术领域

本发明涉及智能语音和人工智能技术领域，具体为一种获取多轮语音通话最大可能意图的方法和智能设备。

背景技术

随着智能语音识别和人工智能技术的成熟，越来越多语音机器系统的产品出现，语音机器系统最重要的任务就是通过采集到的语音识别用户需求，能捕捉潜在意义和关系的词组和语句的算法模型正在迅速发展，目前大部分的算法模型都是主要处理独立的单句意图，或者根据槽位来获取业务参数，无法处理复杂意图的业务场景，而多轮语音通话最大可能意图模型，很大程度上解决了这些问题，通过多轮的通话逐步逼近用户真正意图，上述技术方案里的模型初始参数是预设在该智能设备上，不同业务场景的初始参数是不同的，如何确定合适的模型初始参数是一个需要解决问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种获取多轮语音通话最大可能意图的方法和智能设备，具备处理多伦语音通话意图等优点，解决了目前大部分的算法模型都是主要处理独立的单句意图，或者根据槽位来获取业务参数，无法处理复杂意图的业务场景的问题。

(二)技术方案

为实现上述处理多伦语音通话意图的目的，本发明提供如下技术方案：一种获取多轮语音通话最大可能意图的方法和智能设备,所述方法包括：

步骤1：智能设备采集语音，并对语音进行编码，得到编码后的连续语音数据流，根据语音特征断句算法把连续语音流截断为有序的短语音流；

步骤2：利用语音转写引擎，短语音流转换为文本流，文本流作为意图识别的输入计算出状态-意图以及状态-意图概率；

步骤3：状态-意图概率如果大于约定值，则该状态为最大可能意图；

步骤4：如果状态概率如果小于约定值，就循环步骤1-3，计算每一轮次状态-意图概率，直到该概率大于约定值。

优选的，使用有效时长、单位时长语音能量值、单位时长过零率和频谱特征，计算语音特征，把等到的语音特征跟预设的断句语音特征比较，如果两者相符就认为符合断句条件。

优选的，语音特征是一个包含16个元素的一维数组。前面三个分别是语音的有效时长、单位时长语音能量值、单位时长过零率，后面13个是通过梅尔频率倒谱系数计算得到的前13个低频分量。

优选的，每一轮次通话定义为一个状态，状态的输入是文本流，每个状态的输出只能是-1、0和1其中之一，状态输出的概率就是状态-意图概率。

优选的，a)N个意图状态，使用Q＝q1q2…qNQ＝q1q2…qN来表示；

b)转移概率矩阵An×n＝{aij},i,j∈{1,2,…,N}，其中aijaij表示从状态ii转移到状态jj的概率；

c)T个观测结果的序列，用O＝o1o2…oT来表示；

d)一系列生成概率，记作B＝{bi(ot)},i∈{1,2,…,N},t∈{1,2,…,T}，表示状态ii产生观测结果ot的概率；

e)状态-意图概率为：

P(O,Q|λ)＝∏i＝1TP(oi|qi)×P(qi|qi-1)；

状态-意图概率算法通过存储中间的临时变量(概率)到一系列中间变量αt(j)αt(j)来简化计算，其表示在获得最初t个观测值o1,…,oto1,…,ot后，处于状态jj的概率，对所有到达状态jj的序列进行求和，那么如果利用αt(j)αt(j)的递推特性，我们可以得到下边的表达式：αt(j)＝∑i＝1Nαt-1(i)×aij×bj(ot)；

在第t轮通话已经获得了在最初t-1个观测值o1,…,ot-1o1,…,ot-1后，处于状态i的概率αt-1(i)，那么利用转移概率矩阵和生成概率矩阵的值，我们便可以得到从状态i转移到状态j并生成观测值ot的概率，最后对所有可能的状态i求和排序，便得到我们需要的αt(j)。

优选的，采用对称三进制运算，每个状态的值只可能是-1，0，1。

(三)有益效果

与现有技术相比，本发明提供了一种获取多轮语音通话最大可能意图的方法和智能设备，具备以下有益效果：

1、该获取多轮语音通话最大可能意图的方法和智能设备，通过多轮语音通话最大可能意图模型的设置，很大程度上解决了目前大部分的算法模型都是主要处理独立的单句意图，或者根据槽位来获取业务参数，无法处理复杂意图的业务场景的问题，并且能够计算最优解，精确获取用户意图，通过意图函数的学习对协商值进行优化，从而可以减少语音通话的轮次，更高效获取用户意图，使该发明的使用效果更佳。

附图说明

图1为本发明提出的一种获取多轮语音通话最大可能意图的方法和智能设备方法流程的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-1，

在使用时，本发明提出了一种获取多轮语音通话最大可能意图的方法和智能设备，其包括步骤：

步骤1，智能设备通过采集用户语音；

步骤2，把编码后的智能设备根据语音特征对连续语音截断；

步骤3，智能设备把短语音流发给语音转写引擎；

步骤4，智能设备接收转写后的文本流，把获取的文本进行意图识别，定义为第一意图状态；

步骤5，智能设备计算意图函数，判断意图函数返回值是否大于预先协商的值，如果是，就认为该意图就是这次多轮语音通话的最可能意图；如果不是，就重复步骤1到步骤5，直到可以确定用户最可能意图为止。

以上的方案通过逐步逼近的方式，计算最优解，精确获取用户意图，而且通过意图函数的学习对协商值进行优化，从而可以减少语音通话的轮次，更高效获取用户意图。

综上所述，该获取多轮语音通话最大可能意图的方法和智能设备，本节对本发明方法的具体处理流程做一详细的说明：

1、智能设备通过监控用户网络侧数据流，采集用户语音语音，按PCMA律编码协议对语音流进行编码，格式是8K16Bit。

2、把编码后的语音采样点数据，输入高通滤波器，高通滤波器的传递函数为G(s)＝U0(s)/Ui＝-Zf(s)If/Z1(s)I1＝-Rf/(R1+1/sC1)，主要用来消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所压抑的高频部分，突显在高频的共振峰；

3、先将按时间次序排序后256个连续采样点，定义为一个单位，称为短语音窗口，为了避免相邻两短语音窗口的变化过大，两相邻因短语音窗口之间有一段重迭区域，此重迭区域包含了128个取样点，语音窗口对应的时间长度是256/8000*1000＝32ms；

4、为了短语音窗口比较平滑，将每一个短语音窗口乘上汉明窗，通过在每一个短语音窗口乘上汉明窗，能够对语音信息进行更好的处理，因为汉明窗的幅频特性是旁瓣衰减较大，主瓣峰值与第一个旁瓣峰值衰减可达40db，能够有效的改善频率泄露的情况，以增加左端和右端的连续性；

5、计算短语音窗口的有效时长、单位时长语音能量值、单位时长过零率；

6、对这个短语音窗口进行快速傅立叶变换，得到短语音的频域特征。快速傅立叶变换的输出导入三角带通滤波器，带通滤波器是指能通过某一频率范围内的频率分量、但将其他范围的频率分量衰减到极低水平的滤波器，与带阻滤波器的概念相对，一个模拟带通滤波器的例子是电阻-电感-电容电路(RLC circuit)，这些滤波器也可以用低通滤波器同高通滤波器组合来产生，带通滤波器有一个完全平坦的通带，在通带内没有放大或者衰减，并且在通带之外所有频率都被完全衰减掉，另外，通带外的转换在极小的频率范围完成，得到32个频带离散分量，取前13个低频分量；

7、连同步骤5的三个数值，得到一个包含16个元素的数组；

8、计算连续20个多语音窗口，得到一个20*16的矩阵，这个矩阵包含了640ms的语音特征矩阵；

9、把这个语音特征矩阵与预设的断句特征矩阵进行比较，如果符合特征条件就进行断句；

10、智能设备断句后的语音流按照MRCP协议的方式发给转写引擎，获取转写后的文本流；

11、把获取的文本进行意图识别，第一轮的语音交互文本定义为第一意图状态,第N轮的语音交互文本定义为第N轮意图状态；

12、智能设备按隐马尔科夫(HMM)模型计算状态-意图概率，判断意图函数返回值是否大于预先协商的值，如果是，就认为该意图就是这次多轮语音通话的最可能意图；如果不是，就重复步骤1到步骤11，直到可以确定用户最可能意图为止；

13、上述技术方案中，智能设备可以根据历史数据对隐马尔科夫(HMM)模型参数进行优化，减少语音通话的轮次，提高沟通效率。

上述实施案例可以全部或部分通过软件、硬件、AI芯片或其任意组合来实现。当使用软件实现时，可以以通用计算机程序产品的形式实现，也可以以SAAS服务的API接口形式实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种获取多轮语音通话最大可能意图的方法和智能设备，其特征在于,所述方法包括：

2.根据权利要求1所述的语音特征断句算法，其特征在于：使用有效时长、单位时长语音能量值、单位时长过零率和频谱特征，计算语音特征，把等到的语音特征跟预设的断句语音特征比较，如果两者相符就认为符合断句条件。

3.根据权利要求2所述的语音特征，其特征在于：语音特征是一个包含16个元素的一维数组，前面三个分别是语音的有效时长、单位时长语音能量值、单位时长过零率，后面13个是通过梅尔频率倒谱系数计算得到的前13个低频分量。

4.根据权利要求1所述状态-意图，其特征在于：每一轮次通话定义为一个状态，状态的输入是文本流，每个状态的输出只能是-1、0和1其中之一，状态输出的概率就是状态-意图概率。

5.根据权利要求1和权利要求4所述的状态-意图概率，其特征在于：

a)N个意图状态，使用Q＝q1q2…qNQ＝q1q2…qN来表示；

c)T个观测结果的序列，用O＝o1o2…oT来表示；

d)一系列生成概率，记作B＝{bi(ot)},i∈{1,2,…,N},t∈{1,2,…,T}，表示状态ii产生观测结果ot的概率。

e)状态-意图概率为：

P(O,Q|λ)＝∏i＝1TP(oi|qi)×P(qi|qi-1)；

状态-意图概率算法通过存储中间的临时变量(概率)到一系列中间变量αt(j)αt(j)来简化计算，其表示在获得最初t个观测值o1,…,oto1,…,ot后，处于状态jj的概率。对所有到达状态jj的序列进行求和，那么如果利用αt(j)αt(j)的递推特性，我们可以得到下边的表达式：αt(j)＝∑i＝1Nαt-1(i)×aij×bj(ot)；

6.根据权利要求1所述所述的状态值，其特征在于：采用对称三进制运算，每个状态的值只可能是-1，0，1。