CN109461440A - 一种获取多轮语音通话最大可能意图的方法和智能设备 - Google Patents

一种获取多轮语音通话最大可能意图的方法和智能设备 Download PDF

Info

Publication number
CN109461440A
CN109461440A CN201811608701.8A CN201811608701A CN109461440A CN 109461440 A CN109461440 A CN 109461440A CN 201811608701 A CN201811608701 A CN 201811608701A CN 109461440 A CN109461440 A CN 109461440A
Authority
CN
China
Prior art keywords
state
probability
intention
smart machine
intended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811608701.8A
Other languages
English (en)
Inventor
邓从健
江晓锋
朱栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yunqu Information Technology Co Ltd
Original Assignee
Guangzhou Yunqu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yunqu Information Technology Co Ltd filed Critical Guangzhou Yunqu Information Technology Co Ltd
Priority to CN201811608701.8A priority Critical patent/CN109461440A/zh
Publication of CN109461440A publication Critical patent/CN109461440A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种获取多轮语音通话最大可能意图的方法和智能设备,该方法包括:步骤1,智能设备开始采集用户语音;步骤2,智能设备根据语音特征对连续语音截断;步骤3,智能设备把短语音流发给语音转写引擎;步骤4,智能设备接收转写后的文本流,把获取的文本进行意图识别,定义为第一意图状态。该获取多轮语音通话最大可能意图的方法和智能设备,通过多轮语音通话最大可能意图模型的设置,很大程度上解决了目前大部分的算法模型都是主要处理独立的单句意图,或者根据槽位来获取业务参数,无法处理复杂意图的业务场景的问题,并且能够计算最优解,精确获取用户意图,通过意图函数的学习对协商值进行优化,更高效获取用户意图。

Description

一种获取多轮语音通话最大可能意图的方法和智能设备
技术领域
本发明涉及智能语音和人工智能技术领域,具体为一种获取多轮语音通话最大可能意图的方法和智能设备。
背景技术
随着智能语音识别和人工智能技术的成熟,越来越多语音机器系统的产品出现,语音机器系统最重要的任务就是通过采集到的语音识别用户需求,能捕捉潜在意义和关系的词组和语句的算法模型正在迅速发展,目前大部分的算法模型都是主要处理独立的单句意图,或者根据槽位来获取业务参数,无法处理复杂意图的业务场景,而多轮语音通话最大可能意图模型,很大程度上解决了这些问题,通过多轮的通话逐步逼近用户真正意图,上述技术方案里的模型初始参数是预设在该智能设备上,不同业务场景的初始参数是不同的,如何确定合适的模型初始参数是一个需要解决问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种获取多轮语音通话最大可能意图的方法和智能设备,具备处理多伦语音通话意图等优点,解决了目前大部分的算法模型都是主要处理独立的单句意图,或者根据槽位来获取业务参数,无法处理复杂意图的业务场景的问题。
(二)技术方案
为实现上述处理多伦语音通话意图的目的,本发明提供如下技术方案:一种获取多轮语音通话最大可能意图的方法和智能设备,所述方法包括:
步骤1:智能设备采集语音,并对语音进行编码,得到编码后的连续语音数据流,根据语音特征断句算法把连续语音流截断为有序的短语音流;
步骤2:利用语音转写引擎,短语音流转换为文本流,文本流作为意图识别的输入计算出状态-意图以及状态-意图概率;
步骤3:状态-意图概率如果大于约定值,则该状态为最大可能意图;
步骤4:如果状态概率如果小于约定值,就循环步骤1-3,计算每一轮次状态-意图概率,直到该概率大于约定值。
优选的,使用有效时长、单位时长语音能量值、单位时长过零率和频谱特征,计算语音特征,把等到的语音特征跟预设的断句语音特征比较,如果两者相符就认为符合断句条件。
优选的,语音特征是一个包含16个元素的一维数组。前面三个分别是语音的有效时长、单位时长语音能量值、单位时长过零率,后面13个是通过梅尔频率倒谱系数计算得到的前13个低频分量。
优选的,每一轮次通话定义为一个状态,状态的输入是文本流,每个状态的输出只能是-1、0和1其中之一,状态输出的概率就是状态-意图概率。
优选的,a)N个意图状态,使用Q=q1q2…qNQ=q1q2…qN来表示;
b)转移概率矩阵An×n={aij},i,j∈{1,2,…,N},其中aijaij表示从状态ii转移到状态jj的概率;
c)T个观测结果的序列,用O=o1o2…oT来表示;
d)一系列生成概率,记作B={bi(ot)},i∈{1,2,…,N},t∈{1,2,…,T},表示状态ii产生观测结果ot的概率;
e)状态-意图概率为:
P(O,Q|λ)=∏i=1TP(oi|qi)×P(qi|qi-1);
状态-意图概率算法通过存储中间的临时变量(概率)到一系列中间变量αt(j)αt(j)来简化计算,其表示在获得最初t个观测值o1,…,oto1,…,ot后,处于状态jj的概率,对所有到达状态jj的序列进行求和,那么如果利用αt(j)αt(j)的递推特性,我们可以得到下边的表达式:αt(j)=∑i=1Nαt-1(i)×aij×bj(ot);
在第t轮通话已经获得了在最初t-1个观测值o1,…,ot-1o1,…,ot-1后,处于状态i的概率αt-1(i),那么利用转移概率矩阵和生成概率矩阵的值,我们便可以得到从状态i转移到状态j并生成观测值ot的概率,最后对所有可能的状态i求和排序,便得到我们需要的αt(j)。
优选的,采用对称三进制运算,每个状态的值只可能是-1,0,1。
(三)有益效果
与现有技术相比,本发明提供了一种获取多轮语音通话最大可能意图的方法和智能设备,具备以下有益效果:
1、该获取多轮语音通话最大可能意图的方法和智能设备,通过多轮语音通话最大可能意图模型的设置,很大程度上解决了目前大部分的算法模型都是主要处理独立的单句意图,或者根据槽位来获取业务参数,无法处理复杂意图的业务场景的问题,并且能够计算最优解,精确获取用户意图,通过意图函数的学习对协商值进行优化,从而可以减少语音通话的轮次,更高效获取用户意图,使该发明的使用效果更佳。
附图说明
图1为本发明提出的一种获取多轮语音通话最大可能意图的方法和智能设备方法流程的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-1,
在使用时,本发明提出了一种获取多轮语音通话最大可能意图的方法和智能设备,其包括步骤:
步骤1,智能设备通过采集用户语音;
步骤2,把编码后的智能设备根据语音特征对连续语音截断;
步骤3,智能设备把短语音流发给语音转写引擎;
步骤4,智能设备接收转写后的文本流,把获取的文本进行意图识别,定义为第一意图状态;
步骤5,智能设备计算意图函数,判断意图函数返回值是否大于预先协商的值,如果是,就认为该意图就是这次多轮语音通话的最可能意图;如果不是,就重复步骤1到步骤5,直到可以确定用户最可能意图为止。
以上的方案通过逐步逼近的方式,计算最优解,精确获取用户意图,而且通过意图函数的学习对协商值进行优化,从而可以减少语音通话的轮次,更高效获取用户意图。
综上所述,该获取多轮语音通话最大可能意图的方法和智能设备,本节对本发明方法的具体处理流程做一详细的说明:
1、智能设备通过监控用户网络侧数据流,采集用户语音语音,按PCMA律编码协议对语音流进行编码,格式是8K16Bit。
2、把编码后的语音采样点数据,输入高通滤波器,高通滤波器的传递函数为G(s)=U0(s)/Ui=-Zf(s)If/Z1(s)I1=-Rf/(R1+1/sC1),主要用来消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所压抑的高频部分,突显在高频的共振峰;
3、先将按时间次序排序后256个连续采样点,定义为一个单位,称为短语音窗口,为了避免相邻两短语音窗口的变化过大,两相邻因短语音窗口之间有一段重迭区域,此重迭区域包含了128个取样点,语音窗口对应的时间长度是256/8000*1000=32ms;
4、为了短语音窗口比较平滑,将每一个短语音窗口乘上汉明窗,通过在每一个短语音窗口乘上汉明窗,能够对语音信息进行更好的处理,因为汉明窗的幅频特性是旁瓣衰减较大,主瓣峰值与第一个旁瓣峰值衰减可达40db,能够有效的改善频率泄露的情况,以增加左端和右端的连续性;
5、计算短语音窗口的有效时长、单位时长语音能量值、单位时长过零率;
6、对这个短语音窗口进行快速傅立叶变换,得到短语音的频域特征。快速傅立叶变换的输出导入三角带通滤波器,带通滤波器是指能通过某一频率范围内的频率分量、但将其他范围的频率分量衰减到极低水平的滤波器,与带阻滤波器的概念相对,一个模拟带通滤波器的例子是电阻-电感-电容电路(RLC circuit),这些滤波器也可以用低通滤波器同高通滤波器组合来产生,带通滤波器有一个完全平坦的通带,在通带内没有放大或者衰减,并且在通带之外所有频率都被完全衰减掉,另外,通带外的转换在极小的频率范围完成,得到32个频带离散分量,取前13个低频分量;
7、连同步骤5的三个数值,得到一个包含16个元素的数组;
8、计算连续20个多语音窗口,得到一个20*16的矩阵,这个矩阵包含了640ms的语音特征矩阵;
9、把这个语音特征矩阵与预设的断句特征矩阵进行比较,如果符合特征条件就进行断句;
10、智能设备断句后的语音流按照MRCP协议的方式发给转写引擎,获取转写后的文本流;
11、把获取的文本进行意图识别,第一轮的语音交互文本定义为第一意图状态,第N轮的语音交互文本定义为第N轮意图状态;
12、智能设备按隐马尔科夫(HMM)模型计算状态-意图概率,判断意图函数返回值是否大于预先协商的值,如果是,就认为该意图就是这次多轮语音通话的最可能意图;如果不是,就重复步骤1到步骤11,直到可以确定用户最可能意图为止;
13、上述技术方案中,智能设备可以根据历史数据对隐马尔科夫(HMM)模型参数进行优化,减少语音通话的轮次,提高沟通效率。
上述实施案例可以全部或部分通过软件、硬件、AI芯片或其任意组合来实现。当使用软件实现时,可以以通用计算机程序产品的形式实现,也可以以SAAS服务的API接口形式实现。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种获取多轮语音通话最大可能意图的方法和智能设备,其特征在于,所述方法包括:
步骤1:智能设备采集语音,并对语音进行编码,得到编码后的连续语音数据流,根据语音特征断句算法把连续语音流截断为有序的短语音流;
步骤2:利用语音转写引擎,短语音流转换为文本流,文本流作为意图识别的输入计算出状态-意图以及状态-意图概率;
步骤3:状态-意图概率如果大于约定值,则该状态为最大可能意图;
步骤4:如果状态概率如果小于约定值,就循环步骤1-3,计算每一轮次状态-意图概率,直到该概率大于约定值。
2.根据权利要求1所述的语音特征断句算法,其特征在于:使用有效时长、单位时长语音能量值、单位时长过零率和频谱特征,计算语音特征,把等到的语音特征跟预设的断句语音特征比较,如果两者相符就认为符合断句条件。
3.根据权利要求2所述的语音特征,其特征在于:语音特征是一个包含16个元素的一维数组,前面三个分别是语音的有效时长、单位时长语音能量值、单位时长过零率,后面13个是通过梅尔频率倒谱系数计算得到的前13个低频分量。
4.根据权利要求1所述状态-意图,其特征在于:每一轮次通话定义为一个状态,状态的输入是文本流,每个状态的输出只能是-1、0和1其中之一,状态输出的概率就是状态-意图概率。
5.根据权利要求1和权利要求4所述的状态-意图概率,其特征在于:
a)N个意图状态,使用Q=q1q2…qNQ=q1q2…qN来表示;
b)转移概率矩阵An×n={aij},i,j∈{1,2,…,N},其中aijaij表示从状态ii转移到状态jj的概率;
c)T个观测结果的序列,用O=o1o2…oT来表示;
d)一系列生成概率,记作B={bi(ot)},i∈{1,2,…,N},t∈{1,2,…,T},表示状态ii产生观测结果ot的概率。
e)状态-意图概率为:
P(O,Q|λ)=∏i=1TP(oi|qi)×P(qi|qi-1);
状态-意图概率算法通过存储中间的临时变量(概率)到一系列中间变量αt(j)αt(j)来简化计算,其表示在获得最初t个观测值o1,…,oto1,…,ot后,处于状态jj的概率。对所有到达状态jj的序列进行求和,那么如果利用αt(j)αt(j)的递推特性,我们可以得到下边的表达式:αt(j)=∑i=1Nαt-1(i)×aij×bj(ot);
在第t轮通话已经获得了在最初t-1个观测值o1,…,ot-1o1,…,ot-1后,处于状态i的概率αt-1(i),那么利用转移概率矩阵和生成概率矩阵的值,我们便可以得到从状态i转移到状态j并生成观测值ot的概率,最后对所有可能的状态i求和排序,便得到我们需要的αt(j)。
6.根据权利要求1所述所述的状态值,其特征在于:采用对称三进制运算,每个状态的值只可能是-1,0,1。
CN201811608701.8A 2018-12-27 2018-12-27 一种获取多轮语音通话最大可能意图的方法和智能设备 Pending CN109461440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811608701.8A CN109461440A (zh) 2018-12-27 2018-12-27 一种获取多轮语音通话最大可能意图的方法和智能设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811608701.8A CN109461440A (zh) 2018-12-27 2018-12-27 一种获取多轮语音通话最大可能意图的方法和智能设备

Publications (1)

Publication Number Publication Date
CN109461440A true CN109461440A (zh) 2019-03-12

Family

ID=65614860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811608701.8A Pending CN109461440A (zh) 2018-12-27 2018-12-27 一种获取多轮语音通话最大可能意图的方法和智能设备

Country Status (1)

Country Link
CN (1) CN109461440A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111788A (zh) * 2019-05-06 2019-08-09 百度在线网络技术(北京)有限公司 语音交互的方法和装置、终端、计算机可读介质
CN110830661A (zh) * 2019-11-11 2020-02-21 科大国创软件股份有限公司 一种用于智能语音客服的自动拨测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067388A1 (en) * 2012-09-05 2014-03-06 Samsung Electronics Co., Ltd. Robust voice activity detection in adverse environments
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
CN107665706A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 快速语音交互方法及系统
CN107785018A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 多轮交互语义理解方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067388A1 (en) * 2012-09-05 2014-03-06 Samsung Electronics Co., Ltd. Robust voice activity detection in adverse environments
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
CN107665706A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 快速语音交互方法及系统
CN107785018A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 多轮交互语义理解方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王宏生;孙美玲;李家峰;: "隐马尔科夫模型在构建语言模型中的应用", 《创新沈阳文集》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111788A (zh) * 2019-05-06 2019-08-09 百度在线网络技术(北京)有限公司 语音交互的方法和装置、终端、计算机可读介质
CN110830661A (zh) * 2019-11-11 2020-02-21 科大国创软件股份有限公司 一种用于智能语音客服的自动拨测方法

Similar Documents

Publication Publication Date Title
EP3933829B1 (en) Speech processing method and apparatus, electronic device, and computer-readable storage medium
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN105118501B (zh) 语音识别的方法及系统
CN109754790B (zh) 一种基于混合声学模型的语音识别系统及方法
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN106157964A (zh) 一种确定回声消除中系统延时的方法
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及系统
CN105139864A (zh) 语音识别方法和装置
CN102800322A (zh) 一种噪声功率谱估计与语音活动性检测方法
CN109461440A (zh) 一种获取多轮语音通话最大可能意图的方法和智能设备
CN111081219A (zh) 一种端到端的语音意图识别方法
Fu et al. Boosting objective scores of a speech enhancement model by metricgan post-processing
CN114187914A (zh) 一种语音识别方法及系统
CN112634880A (zh) 话者识别的方法、装置、设备、存储介质以及程序产品
CN104036775A (zh) 一种视听融合的语音识别系统
CN106340304A (zh) 一种适用于非平稳噪声环境下的在线语音增强方法
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
CN109862408A (zh) 一种用于智能电视语音遥控器的用户语音识别控制方法
CN113470652A (zh) 一种基于工业互联网的语音识别及处理方法
CN111048072A (zh) 一种应用于电力企业的声纹识别方法
Davy et al. A causal convolutional approach for packet loss concealment in low powered devices
CN116978384B (zh) 一种公安一体化大数据管理系统
CN113689867B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN116797829B (zh) 一种模型生成方法、图像分类方法、装置、设备及介质
CN117649838A (zh) 一种基于智能客服的处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190312