CN112599127B - 一种语音指令处理方法、装置、设备及存储介质 - Google Patents
一种语音指令处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112599127B CN112599127B CN202011412553.XA CN202011412553A CN112599127B CN 112599127 B CN112599127 B CN 112599127B CN 202011412553 A CN202011412553 A CN 202011412553A CN 112599127 B CN112599127 B CN 112599127B
- Authority
- CN
- China
- Prior art keywords
- voice
- recognized
- matched
- instruction
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 60
- 238000012360 testing method Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000002452 interceptive effect Effects 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 abstract description 32
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 230000004044 response Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 75
- 238000010586 diagram Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 239000000872 buffer Substances 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请实施例提供了一种语音指令处理方法、装置、设备及存储介质,涉及人工智能技术领域,该方法为:基于待识别语音的语音特征进行一级验证,从各个待匹配指令语音中筛选出置信度满足设定条件的待匹配指令语音,再基于待识别语音的测试特征和筛选出的待匹配指令语音的参考特征进行二级验证,确定待识别语音与待匹配指令语音的相似度。从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。采用两级验证的方式,提高了唤醒率,降低了误唤醒率。由于置信度计算和相似度计算的计算量小,故采用计算置信度和相似度的方式获得与待识别语音匹配的目标指令语音时,降低了计算资源的消耗,响应快。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种语音指令处理方法、装置、设备及存储介质。
背景技术
随着语音识别技术的发展,车载系统、智能音箱、智能电视等智能硬件设备上可以使用关键词语音来对设备进行唤醒。相关语音唤醒技术方案在安静的场景下表现优异,拥有较低的误唤醒率和较高的唤醒率,但在一些噪声场景下则表现不那么突出,容易出现误唤醒率高或唤醒率低的情况,比如有人说话的办公室、正在播放电视或音乐的房间等。而这些场景在生活中很常见,也给语音唤醒技术提出了挑战,因此亟需一种高唤醒率和低误唤醒的语音检测方法。
发明内容
本申请实施例提供了一种语音指令处理方法、装置、设备及存储介质,用于提高语音唤醒的唤醒率,降低语音唤醒的误唤醒率。
一方面,本申请实施例提供了一种语音指令处理方法,包括:
基于待识别语音的语音特征对所述待识别语音进行一级验证,获得所述待识别语音分别为各个待匹配指令语音的置信度;
针对置信度满足设定条件的待匹配指令语音,基于所述待识别语音的测试特征和待匹配指令语音的参考特征对所述待识别语音进行二级验证,确定所述待识别语音与待匹配指令语音的相似度;
从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行所述目标指令语音对应的交互动作。
一方面,本申请实施例提供了一种语音指令处理装置,包括:
预测模块,用于基于待识别语音的语音特征对所述待识别语音进行一级验证,获得所述待识别语音分别为各个待匹配指令语音的置信度;
匹配模块,用于针对置信度满足设定条件的待匹配指令语音,基于所述待识别语音的测试特征和待匹配指令语音的参考特征对所述待识别语音进行二级验证,确定所述待识别语音与待匹配指令语音的相似度;
筛选模块,用于从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行所述目标指令语音对应的交互动作。
可选地,所述预测模块具体用于:
根据待识别语音的语音特征,预测所述待识别语音中每个发音单元为各个目标发音单元的后验概率;
分别针对每个待匹配指令语音,采用置信度判决模块,从所述待识别语音中每个发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率,并根据获取的各个后验概率,确定所述待识别语音为待匹配指令语音的置信度。
可选地,所述预测模块具体用于:
对所述待识别语音进行语音分帧,获得待识别语音帧序列;
逐帧提取所述待识别语音帧序列中各个待识别语音帧的语音特征;
根据当前提取的目标待识别语音帧的语音特征,预测所述目标待识别语音帧中的发音单元为各个目标发音单元的后验概率。
可选地,所述预测模块具体用于:
采用声学模型基于所述目标待识别语音帧的语音特征,预测所述目标待识别语音帧中的发音单元为各个目标发音单元的后验概率,并缓存所述目标待识别语音帧的测试特征,所述目标待识别语音帧的测试特征为所述声学模型中的目标隐藏层输出的特征。
可选地,所述各个待匹配指令语音中的每个待匹配指令语音对应一个置信度判决模块,所述各个待匹配指令语音分别对应的置信度判决模块同时运行。
可选地,所述预测模块具体用于:
采用置信度判决模块,从所述待识别语音帧序列中获取M个待识别语音帧,所述M个待识别语音帧包括所述目标待识别语音帧和位于所述目标待识别语音帧之前的M-1个待识别语音帧,其中,M大于最长待匹配指令语音对应的语音帧数;
根据待匹配指令语音中的各个发音单元,从所述M个待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率。
可选地,还包括检验模块;
所述检验模块还用于:
从待匹配指令语音中的各个发音单元中,获取待校验发音单元;
针对所述M个待识别语音帧中的任意一个待识别语音帧,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述待校验发音单元匹配的目标发音单元的第一后验概率;
获取所述待校验发言单元对应的参考发音单元;
从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述参考发音单元匹配的目标发音单元的第二后验概率;
当所述第一后验概率与所述第二后验概率之间的关联关系满足预设条件时,将与所述待校验发音单元匹配的目标发音单元的第一后验概率置为零。
可选地,所述匹配模块具体用于:
获取N个待识别语音帧的测试特征,所述N个待识别语音帧包括所述目标待识别语音帧、位于所述目标待识别语音帧之前的N-X-1个待识别语音帧和位于所述目标待识别语音帧之后的X个待识别语音帧,其中,N大于最长待匹配指令语音对应的语音帧数,X为预设整数;
根据所述N个待识别语音帧的测试特征和所述待匹配指令语音的参考特征,确定所述待识别语音与所述待匹配指令语音的相似度。
可选地,所述匹配模块具体用于:
确定所述N个待识别语音帧的测试特征与所述待匹配指令语音的参考特征之间的余弦相似度;
根据获得的余弦相似度,确定所述待识别语音与所述待匹配指令语音的相似度。
可选地,所述筛选模块具体用于:
将相似度最大的待匹配指令语音,确定为与所述待识别语音匹配的目标指令语音。
可选地,所述目标指令语音为命令词语音;
所述筛选模块具体用于:
在当前状态为休眠状态时,切换至唤醒状态并执行所述命令词语音对应的指令。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语音指令处理方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述语音指令处理方法的步骤。
本申请实施例中,先基于待识别语音的语音特征进行一级验证,从各个待匹配指令语音中筛选出置信度满足设定条件的待匹配指令语音,再基于待识别语音的测试特征和筛选出的待匹配指令语音的参考特征进行二级验证,从筛选出的待匹配指令语音中确定与待识别语音匹配的目标指令语音。采用两级验证的方式,既提高了唤醒率,同时降低了误唤醒率。其次,由于置信度计算和相似度计算的计算量小,故采用计算置信度和相似度的方式获得与待识别语音匹配的目标指令语音时,降低了计算资源的消耗,响应快,适用于资源受限的设备。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种系统架构示意图;
图2为本申请实施例提供的一种语音指令处理方法的流程示意图;
图3为本申请实施例提供的一种获得置信度的流程示意图;
图4为本申请实施例提供的一种置信度判决的流程示意图;
图5为本申请实施例提供的一种一级验证的系统架构示意图;
图6为本申请实施例提供的一种置信度判决的流程示意图;
图7为本申请实施例提供的一种二级验证的系统架构示意图;
图8为本申请实施例提供的一种语音指令处理装置的结构示意图;
图9为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。比如,本申请实施例中采用语音技术提取待识别语音的语音特征,并基于待识别语音的语音特征,从预设的各个待匹配指令语音中确定与待识别语音匹配的目标指令语音。
后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。
下面对本申请实施例的设计思想进行介绍。
相关语音唤醒技术方案在安静的场景下表现优异,拥有较低的误唤醒率和较高的唤醒率,但在一些噪声场景下则表现不那么突出,容易出现误唤醒率高或唤醒率低的情况,比如有人说话的办公室、正在播放电视或音乐的房间等。而这些场景在生活中很常见,也给语音唤醒技术提出了挑战,因此亟需一种高唤醒率和低误唤醒的语音检测方法。
鉴于此,本申请实施例提供了一种语音指令处理方法,该方法具体为:基于待识别语音的语音特征对待识别语音进行一级验证,获得待识别语音分别为各个待匹配指令语音的置信度。针对置信度满足设定条件的待匹配指令语音,基于待识别语音的测试特征和待匹配指令语音的参考特征对待识别语音进行二级验证,确定待识别语音与待匹配指令语音的相似度。然后从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。
本申请实施例中,先基于待识别语音的语音特征进行一级验证,从各个待匹配指令语音中筛选出置信度满足设定条件的待匹配指令语音,再基于待识别语音的测试特征和待匹配指令语音的参考特征对待识别语音进行二级验证,从筛选出的待匹配指令语音中确定与待识别语音匹配的目标指令语音。采用两级验证的方式,既提高了唤醒率,同时降低了误唤醒率。其次,由于置信度计算和相似度计算的计算量小,故采用计算置信度和相似度的方式获得与待识别语音匹配的目标指令语音时,降低了计算资源的消耗,响应快,适用于资源受限的设备。
参考图1,其为本申请实施例适用的一种系统架构图,该系统架构至少包括终端设备101和服务器102。
终端设备101预先安装用于检测语音指令的目标应用,目标应用可以是预先安装的客户端应用、网页版应用、小程序等。终端设备101可以包括一个或多个处理器1011、存储器1012、与服务器102交互的I/O接口1013以及显示面板1014等。终端设备101可以是车载系统、智能音箱、智能电视、智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
服务器102为目标应用对应的后台服务器,为目标应用提供服务。服务器102可以包括一个或多个处理器1021、存储器1022以及与终端设备101交互的I/O接口1023等。此外,服务器102还可以配置数据库1024。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
语音指令处理方法可以由终端设备101执行,也可以由服务器102执行。
第一种情况,语音指令处理方法由终端设备101执行。
终端设备101采集待识别语音,并基于待识别语音的语音特征对待识别语音进行一级验证,获得待识别语音分别为各个待匹配指令语音的置信度。针对置信度满足设定条件的待匹配指令语音,基于待识别语音的测试特征和待匹配指令语音的参考特征对待识别语音进行二级验证,确定待识别语音与待匹配指令语音的相似度。然后从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。
第二种情况,语音指令处理方法由终端设备101和服务器102交互执行。
终端设备101采集待识别语音,并发送携带待识别语音的语音识别请求给服务器101。服务器102基于待识别语音的语音特征对待识别语音进行一级验证,获得待识别语音分别为各个待匹配指令语音的置信度。针对置信度满足设定条件的待匹配指令语音,基于待识别语音的测试特征和待匹配指令语音的参考特征对待识别语音进行二级验证,确定待识别语音与待匹配指令语音的相似度。然后从相似度大于预设阈值的待匹配指令语音中确定目标指令语音。服务器102发送目标指令语音对应的交互动作的描述消息给终端设备101,终端设备101执行目标指令语音对应的交互动作。
基于图1所示的系统架构图,本申请实施例提供了一种语音指令处理方法的流程,如图2所示,该方法的流程由可以计算机设备执行,计算机设备可以是图1所示终端设备101或服务器102,包括以下步骤:
步骤S201,基于待识别语音的语音特征对待识别语音进行一级验证,获得待识别语音分别为各个待匹配指令语音的置信度。
具体地,预先采用ASR的训练语料,训练获得声学模型,其中,训练预料覆盖所有发音单元,声学模型可以是深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等。在采集待识别语音后,可以采用声学模型提取待识别语音的语音特征,也可以采用其他特征提取模型提取待识别语音的语音特征。
待匹配指令语音为预先设置的待匹配指令对应的语音,其中,待匹配指令可以是唤醒词,唤醒词可以在计算机设备出厂之前统一配置的,也可以是用户后续添加或修改的。比如,在智能音箱出厂前,统一设置唤醒词为“小助手”,后续用户可以根据喜好将唤醒词“小助手”修改为唤醒词“小星星”,或者直接添加唤醒词“小星星”,使智能音箱包括两个唤醒词。
待匹配指令也可以命令词,命令词以在计算机设备出厂之前按照设备的功能统一配置的,也可以是用户后续添加或修改的。比如,在智能音箱出厂前,统一设置命令词“上一首”、“下一首”、“暂停”,后续用户可以根据喜好将命令词“暂停”修改为命令词“暂停播放”,或者直接添加命令词“循环播放”、“随机播放”等。需要说明的是,上述仅仅以计算机设备为智能音箱举例,智能设备并不仅限于智能音箱,还可以是智能电视、智能空调、车载系统等设备,另外,本申请实施例中的方案可以应用于上述各类设备的在线应用场景或离线应用场景。
步骤S202,针对置信度满足设定条件的待匹配指令语音,基于待识别语音的测试特征和待匹配指令语音的参考特征对待识别语音进行二级验证,确定待识别语音与待匹配指令语音的相似度。
具体地,待识别语音的测试特征可以是基于待识别语音的语音特征对待识别语音进行一级验证的过程中提取的中间特征,待识别语音的测试特征也可以是进行一级验证的待识别语音的语音特征,对此,本申请不做具体限定。
置信度满足预设条件可以是置信度大于置信度阈值,具体实施中,可以为各个待匹配指令语音设置相同的置信度阈值,也可以为各个待匹配指令语音设置不同的置信度阈值。
置信度满足预设条件也可以是对各个待匹配指令语音,按照置信度从大到小的顺序进行排序,将排在前W位的待匹配指令语音确定为置信度满足预设条件的待匹配指令语音。
待匹配指令语音的参考特征可以是通过声学模型提取的,也可以是通过其他特征提取模型提取的。具体实施中,针对各个待匹配指令中的每个待匹配指令,预先录制多条包括该待匹配指令的样本语音,在录制时可以采用不同用户的声音。然后采用特征提取模型提取每条样本语音的语音特征,再将多条样本语音的语音特征的平均值,作为待匹配指令语音的参考特征。另外,上述包括待匹配指令的样本语音也可以通过高质量的从文本到语音(Text To Speech,TTS)合成引擎来生成,对此,本申请不做具体限定。
步骤S203,从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。
具体实施中,相似度大于预设阈值的待匹配指令语音可能为一个或多个。当相似度大于预设阈值的待匹配指令语音为一个时,将相似度大于预设阈值的待匹配指令语音作为目标指令语音。当相似度大于预设阈值的待匹配指令语音为多个时,将相似度最大的待匹配指令语音,确定为与待识别语音匹配的目标指令语音。
本申请实施例中,先基于待识别语音的语音特征进行一级验证,从各个待匹配指令语音中筛选出置信度满足设定条件的待匹配指令语音,再基于待识别语音的测试特征和待匹配指令语音的参考特征对待识别语音进行二级验证,从筛选出的待匹配指令语音中确定与待识别语音匹配的目标指令语音。采用两级验证的方式,既提高了唤醒率,同时降低了误唤醒率。其次,由于置信度计算和相似度计算的计算量小,故采用计算置信度和相似度的方式获得与待识别语音匹配的目标指令语音时,降低了计算资源的消耗,响应快,适用于资源受限的设备。
可选地,在上述步骤S201中,基于待识别语音的语音特征对待识别语音进行一级验证,获得待识别语音分别为各个待匹配指令语音的置信度,具体包括以下步骤,如图3所示:
步骤S301,根据待识别语音的语音特征,预测待识别语音中每个发音单元为各个目标发音单元的后验概率。
具体地,目标发音单元为用于训练声学模型的训练语料中的发音单元。采用声学模型,基于待识别语音的语音特征,预测待识别语音中每个发音单元为各个目标发音单元的后验概率。
步骤S302,分别针对每个待匹配指令语音,采用置信度判决模块,根据待匹配指令语音中的各个发音单元,从待识别语音中每个发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率。
具体地,可以是各个待匹配指令语音中的每个待匹配指令语音对应一个置信度判决模块,各个待匹配指令语音分别对应的置信度判决模块同时运行。也可以是各个待匹配指令语音对应一个置信度判决模块,置信度判决模块依次确定与各个待匹配指令语音中的发音单元匹配的目标发音单元的后验概率。
当各个待匹配指令语音中的每个待匹配指令语音对应一个置信度判决模块时,可以根据待匹配指令的长度,为不同的置信度判决模块设置不同的置信度阈值,来平衡唤醒率和误唤醒性能。
具体实施中,预先设置发音词典,发音词典中对应保存所有发音单元和所有发音单元对应的语音。通过查找发音词典确定每个待匹配指令语音对应的各个发音单元。
将待匹配指令语音中的各个发音单元与各个目标发音单元进行比对,确定与待匹配指令语音中的各个发音单元匹配的目标发音单元。然后从待识别语音中每个发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率。
步骤S303,根据获取的各个后验概率,确定待识别语音为待匹配指令语音的置信度。
具体地,置信度计算公式如公式(1)所示:
其中,C为待匹配指令语音的置信度,n为与待匹配指令语音中的各个发音单元匹配的目标发音单元的数量,Pi为与待匹配指令语音中的第i个发音单元匹配的目标发音单元的后验概率。
可选地,在上述步骤S301中,对待识别语音进行语音分帧,获得待识别语音帧序列,然后逐帧提取待识别语音帧序列中各个待识别语音帧的语音特征,根据当前提取的目标待识别语音帧的语音特征,预测目标待识别语音帧中的发音单元为各个目标发音单元的后验概率。
具体实施中,语音分帧是采用可移动的有限长度窗口实现的,为了使帧与帧之间平滑过渡,保持语音连续性,语音分帧一般采用交叠分段的方法,即前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~0.5。
可选地,对待识别语音分帧处理,获得待识别语音帧序列后,逐帧提取待识别语音帧序列中各个待识别语音帧的语音特征。针对当前提取的目标待识别语音帧的语音特征,采用声学模型基于目标待识别语音帧的语音特征,预测目标待识别语音帧中的发音单元为各个目标发音单元的后验概率,并缓存目标待识别语音帧的测试特征,目标待识别语音帧的测试特征为声学模型中的目标隐藏层输出的特征,其中,目标隐藏层可以是声学模型中任意一个隐藏层,比如,目标隐藏层为声学模型的输出层前的最后一个隐藏层。
目标待识别语音帧中的发音单元为各个目标发音单元的后验概率,以后验概率向量的形式输出,后验概率向量中每一维表示目标待识别语音帧中的发音单元为一个目标发音单元的后验概率。
示例性地,设定目标发音单元为6个,分别为目标发音单元1、目标发音单元2、目标发音单元3、目标发音单元4、目标发音单元5、目标发音单元6。将待识别语音帧Y的语音特征输入声学模型,声学模型预测待识别语音帧中的发音单元为各个目标发音单元的后验概率,输出待识别语音帧Y对应的后验概率向量为[0.1,0,0,0,0,0.9],说明待识别语音帧Y中的发音单元为目标发音单元1的后验概率为0.1,待识别语音帧Y中的发音单元为目标发音单元2、目标发音单元3、目标发音单元4、目标发音单元5的后验概率为0,待识别语音帧Y中的发音单元为目标发音单元6的后验概率为0.9。
针对当前提取语音特征的目标待识别语音帧,预测目标待识别语音帧中的发音单元为各个目标发音单元的后验概率之后,采用置信度判决模块,从待识别语音帧序列中获取M个待识别语音帧,M个待识别语音帧包括目标待识别语音帧和位于目标待识别语音帧之前的M-1个待识别语音帧,其中,M大于最长待匹配指令语音对应的语音帧数。然后根据待匹配指令语音中的各个发音单元,从M个待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率。
具体地,位于目标待识别语音帧之前的M-1个待识别语音帧可以是距离目标待识别语音帧最近且连续的M-1个待识别语音帧,也可以是间隔抽取的M-1个待识别语音帧。M大于最长待匹配指令语音对应的语音帧数,具体可以将M设置为最长待匹配指令语音对应的语音帧数的预设倍数,比如,最长待匹配指令为5个字,每个对应的语音帧数为25帧,则将M设置为125帧。
针对M个待识别语音帧中每个待识别语音帧,根据待匹配指令语音中的各个发音单元,从该待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率。
示例性地,设定待匹配指令语音X包括三个发音单元,分别为发音单元A、发音单元B和发音单元C,从待识别语音帧序列中获取10个待识别语音帧,分别为待识别语音帧1、待识别语音帧2、待识别语音帧3、待识别语音帧4、待识别语音帧5、待识别语音帧6、待识别语音帧7、待识别语音帧8、待识别语音帧9、待识别语音帧10。
从10个待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取的与待匹配指令语音X中的各个发音单元匹配的目标发音单元的后验概率,具体如表1所示:
表1.
后验概率 | 发音单元A | 发音单元B | 发音单元C |
待识别语音帧1 | 0.8 | 0 | 0 |
待识别语音帧2 | 0.1 | 0 | 0 |
待识别语音帧3 | 0 | 0 | 0 |
待识别语音帧4 | 0 | 0 | 0.9 |
待识别语音帧5 | 0 | 0.1 | 0.1 |
待识别语音帧6 | 0 | 0.9 | 0 |
待识别语音帧7 | 0 | 0 | 0 |
待识别语音帧8 | 0 | 0 | 0 |
待识别语音帧9 | 0.1 | 0 | 0 |
待识别语音帧10 | 0 | 0 | 0 |
可选地,根据获取的各个后验概率,确定待识别语音为待匹配指令语音的置信度。再判断待识别语音为待匹配指令语音的置信度是否满足预设条件,若是,则根据待识别语音的测试特征和待匹配指令语音的参考特征,确定待识别语音与待匹配指令语音的相似度。之后再从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。否则,提取目标待识别语音帧后一帧待识别语音帧的语音特征,并基于提取的语音特征进行后验概率预测和置信度计算,直至置信度满足预设条件或待识别语音帧序列中的待识别语音帧序列均处理完。
示例性地,如图4所示,置信度判决过程具体包括以下步骤:
步骤S401,提取待识别语音帧序列中第k个待识别语音帧的语音特征。
步骤S402,根据第k个待识别语音帧的语音特征,预测第k个待识别语音帧中的发音单元为各个目标发音单元的后验概率。
步骤S403,根据第k个待识别语音帧在待识别语音帧序列中的位置,确定置信度计算窗在待识别语音帧序列中的位置。
具体地,设置置信度计算窗的长度为M个语音帧,为了保证置信度计算窗内的语音帧涵盖任意一个待匹配指令语音的所有语音帧,故将M设置大于最长待匹配指令语音对应的语音帧数。置信度计算窗内包括第k个待识别语音帧和位于第k个待识别语音帧之前的M-1个待识别语音帧。
步骤S404,针对置信度计算窗内的任意一个待识别语音帧,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音X中的各个发音单元匹配的目标发音单元的后验概率。
步骤S405,根据获取的各个后验概率,确定待识别语音为待匹配指令语音X的置信度。
具体地,置信度计算公式如公式(2)所示:
其中,C为待匹配指令语音的置信度,n为与待匹配指令语音中的各个发音单元匹配的目标发音单元的数量,k表示目标待识别语音帧在待识别语音帧序列中对应的帧数,Pij为第j个待识别语音帧中,与待匹配指令语音中第i个发音单元匹配的目标发音单元的后验概率,hmax=max{1,k-M+1},其中,M为置信度计算窗中的待识别语音帧的数量。
步骤S406,判断待识别语音为待匹配指令语音X的置信度是否大于待匹配指令语音X对应的置信度阈值,若是,则执行步骤S407,否则,执行步骤S409。
步骤S407,根据待识别语音的测试特征和待匹配指令语音X的参考特征,确定待识别语音与待匹配指令语音X的相似度。
步骤S408,从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。
步骤S409,k=k+1。
步骤S410,判断k是否大于s,若是,则执行步骤S411,否则执行步骤S401,其中,s表示待识别语音帧序列中的语音帧数。
步骤S411,结束。
本申请实施例中,将待识别语音划分为待识别语音帧序列,然后逐帧提取待识别语音帧的语音特征,并基于语音特征预测待识别语音帧中的发音单元为各个目标发音单元的后验概率。每提取一个待识别语音帧的语音特征后,计算待识别语音为待匹配指令语音的置信度,从而保证了语音指令检测时效性。
可选地,在上述步骤S202中,针对置信度满足设定条件的待匹配指令语音,获取N个待识别语音帧的测试特征,N个待识别语音帧包括目标待识别语音帧、位于目标待识别语音帧之前的N-X-1个待识别语音帧和位于目标待识别语音帧之后的X个待识别语音帧,其中,N大于最长待匹配指令语音对应的语音帧数,X为预设整数。然后根据N个待识别语音帧的测试特征和待匹配指令语音的参考特征,确定待识别语音与待匹配指令语音的相似度。
具体地,针对当前提取语音特征的目标待识别语音帧,从待识别语音帧序列中获取M个待识别语音帧,M个待识别语音帧包括目标待识别语音帧和位于目标待识别语音帧之前的M-1个待识别语音帧。从M个待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率。根据获取的各个后验概率,确定待识别语音为待匹配指令语音的置信度。若待识别语音为待匹配指令语音的置信度满足预设条件,则说明待识别语音通过一级验证。此时,当前提取语音特征的目标待识别语音帧为唤醒点。然后根据唤醒点在待识别语音帧序列中的位置确定特征缓存窗在待识别语音帧序列中的位置,特征缓存窗的长度为N个待识别语音帧。N个待识别语音帧包括目标待识别语音帧、位于目标待识别语音帧之前的N-X-1个待识别语音帧和位于目标待识别语音帧之后的X个待识别语音帧。之后再获取特征缓存窗内的预先缓存的N个待识别语音帧的测试特征,并将N个待识别语音帧的测试特征拼接成待识别语音的测试特征。根据待识别语音的测试特征和待匹配指令语音的参考特征,确定待识别语音与待匹配指令语音的相似度。
位于目标待识别语音帧之前的N-X-1个待识别语音帧可以是距离目标待识别语音帧最近的且连续的N-X-1个待识别语音帧,也可以是间隔抽取的N-X-1个待识别语音帧。位于目标待识别语音帧之后的X个待识别语音帧可以是距离目标待识别语音帧最近的且连续的X个待识别语音帧,也可以是间隔抽取的X个待识别语音帧。N大于最长待匹配指令语音对应的语音帧数。具体可以将N设置为最长待匹配指令语音对应的语音帧数的预设倍数,比如,最长待匹配指令为5个字,每个对应的语音帧数为25帧,最长待匹配指令语音对应的语音帧数为125帧,将N设置为最长待匹配指令语音对应的语音帧数的2倍,即将N设置为250帧。
需要说明的是,本申请实施例中,N可以等于M,即用于计算置信度的M个待识别语音帧和用于计算相似度的N个待识别语音帧为相同数量的待识别语音帧。N也可以不等于M,即用于计算置信度的M个待识别语音帧和用于计算相似度的N个待识别语音帧为不相同数量的待识别语音帧。
另外,待匹配指令语音的参考特征为N个待匹配指令语音帧的参考特征。具体实施中,针对各个待匹配指令中的每个待匹配指令,预先录制多条包括该待匹配指令的样本语音,在录制时可以采用不同用户的声音。针对每条样本语音,对样本语音进行语音分帧,获得N个样本语音帧,然后分别提取N个样本语音帧的语音特征。再计算多条样本语音的语音特征的平均值,获得N个待匹配指令语音帧的参考特征。
在确定待识别语音与待匹配指令语音的相似度时,可以先确定N个待识别语音帧的测试特征与待匹配指令语音的参考特征之间的余弦相似度,然后根据获得的余弦相似度,确定待识别语音与所述待匹配指令语音的相似度。除此之外,也可以通过计算N个待识别语音帧的测试特征与待匹配指令语音的参考特征之间的欧式距离、海明距离等距离,确定待识别语音与待匹配指令语音的相似度,对此,本申请不做具体限定。
示例性地,设置特征缓存窗的长度为N个语音帧,为了保证特征缓存窗内的语音帧涵盖任意一个待匹配指令语音的所有语音帧,故将N设置大于最长待匹配指令语音对应的语音帧数。
设定目标待识别语音帧为唤醒点,根据目标待识别语音帧在待识别语音帧序列中的位置,确定特征缓存窗在待识别语音帧序列中的位置,此时,特征缓存窗内包括目标待识别语音帧、位于目标待识别语音帧之前的N-X-1个待识别语音帧和位于目标待识别语音帧之后的X个待识别语音帧。
当X为大于0的正整数时,若确定待识别语音为待匹配指令语音的置信度满足预设阈值,则逐帧获取位于目标待识别语音帧之后的X个待识别语音帧的测试特征并缓存,然后根据N个待识别语音帧的测试特征和待匹配指令语音的参考特征,确定待识别语音与待匹配指令语音的相似度。从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。
当X为0时,若确定待识别语音为待匹配指令语音的置信度满足预设阈值,则根据缓存的N个待识别语音帧的测试特征和待匹配指令语音的参考特征,确定待识别语音与待匹配指令语音的相似度。从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行目标指令语音对应的交互动作。
由于置信度计算和相似度计算的计算量小,故采用计算置信度和相似度的方式获得与待识别语音匹配的目标指令语音时,能有效较低计算资源的消耗,同时响应快,适用于资源受限的设备。
本申请实施例中,如果待匹配指令集合中包含差异较小的待匹配指令。比如“上一首”和“下一首”,由于“上”和“下”具有相同的上下文,故针对待识别语音中同一个发音单元,声学模型可能会对“上”和“下”都会输出较大的后验概率。那么在用户实际上说了“上一首”时,“下一首”的语音对应的置信度也可能满足预设条件,从而导致两个待匹配指令同时触发,这种情况在信噪比较低的带噪场景下会更加严重。
鉴于此,本申请实施例中,从待匹配指令语音中的各个发音单元中,获取待校验发音单元。针对M个待识别语音帧中的任意一个待识别语音帧,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待校验发音单元匹配的目标发音单元的第一后验概率。获取待校验发言单元对应的参考发音单元,然后从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与参考发音单元匹配的目标发音单元的第二后验概率。当第一后验概率与所述第二后验概率之间的关联关系满足预设条件时,将与待校验发音单元匹配的目标发音单元的第一后验概率置为零。
具体地,预先设置每个待匹配指令语音中的待校验发音单元以及待校验发音单元对应的参考发音单元。比如,待匹配指令“上一首”对应的语音中,将“上”对应的发音单元设置为待检验发音单元,将“下”对应的发音单元设置为参考发音单元。
第一后验概率与第二后验概率之间的关联关系可以是第一后验概率与第二后验概率之间的差值、第一后验概率与第二后验概率之间的比值等,关联关系满足预设条件可以是第一后验概率与第二后验概率之间的比值小于第一阈值,或者第一后验概率与第二后验概率之间的差值小于第二阈值等。
示例性地,假设待识别语音为“上一首”对应的语音。针对待匹配指令“下一首”对应的语音,将“下”对应的发音单元设置为待检验发音单元,将“上”对应的发音单元设置为参考发音单元,第一阈值为2。
设定从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与“下”匹配的目标发音单元的第一后验概率为0.3,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与“上”匹配的目标发音单元的第二后验概率为0.7。由于第一后验概率与第二后验概率之间的比值小于2,则将第一后验概率置为0,即待匹配指令“下一首”对应的语音中,“下”对应的发音单元的后验概率被置为0,故根据“下一首”对应的语音中各个发音单元的后验概率,计算“下一首”对应的语音的置信度时,能有效降低获得的置信度,避免触发待匹配指令“下一首”,从而降低误唤醒率。
针对待匹配指令“上一首”对应的语音,将“上”对应的发音单元设置为待检验发音单元,将“下”对应的发音单元设置为参考发音单元,第一阈值为2。设定从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与“上”匹配的目标发音单元的第一后验概率为0.7,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与“下”匹配的目标发音单元的第二后验概率为0.3。由于第一后验概率与第二后验概率之间的比值大于2,则不处理。
本申请实施例中,根据待识别语音帧的语音特征,预测待识别语音帧中的发音单元为各个目标发音单元的后验概率后,对待识别语音帧中的发音单元对应的后验概率进行校验,能有效减少多个待匹配指令混淆误判的情况,降低误判率。
可选地,在上述步骤S203中,目标指令语音为唤醒词或命令词。从相似度大于预设阈值的待匹配指令语音中确定目标指令语音后,针对不同的目标指令语音执行对应的交互动作,具体包括以下几种实施方式:
一种可能的实施方式,目标指令语音为命令词语音,在当前状态为休眠状态时,切换至唤醒状态并执行命令词语音对应的指令。
具体实施中,当目标指令语音为命令词语音时,说明当前用户说的是命令词。当前状态为休眠状态时,说明用户之前并没有说命令词或唤醒词。由于命令词语音对应的指令需要计算机设备被唤醒后才能执行,故计算机设备切换至唤醒状态并执行命令词语音对应的指令。
示例性地,设定目标指令语音为“音乐频道”对应的语音,智能电视从相似度大于预设阈值的待匹配指令语音中确定目标指令语音后,启动并切换至音乐频道。
由于在接收到命令词语音时,直接基于命令词切换至唤醒状态并执行命令词语音对应的指令,用户无需使用唤醒词将设备唤醒后再使用命令词控制设备执行相应的动作,从而提升交互体验。
一种可能的实施方式,目标指令语音为唤醒词语音,在当前状态为休眠状态时,切换至唤醒状态。
具体实施中,若用户当前说的唤醒词,而计算机设备当前的状态为休眠状态,则切换至唤醒状态。后续用户可以通过命令词语音控制计算机设备执行相应的动作,实现用户与设备之间的语音交互。
为了更好的解释本申请实施例,下面结合具体的实施场景描述本申请实施例提供的一种语音指令处理方法的流程,该方法由智能音箱执行,如图5所示,包括以下步骤:
智能音箱接收到待识别语音后,采用两级验证的方式对待识别语音进行验证,确定各个待匹配指令语音中是否包括与待识别语音匹配的目标指令语音,若包括,则执行目标指令语音对应的交互动作,否则不响应。
首先基于一级验证模块的系统架构图,介绍智能音箱对待识别语音进行一级验证的流程,一级验证模块的系统架构图如图6所示,包括语音采集模块、声学模型、发音词典、置信度判决模块。预先设置Q个待匹配指令语音,分别为待匹配指令语音1、待匹配指令语音2、…、待匹配指令语音Q,置信度判决模块包括Q个待匹配指令语音分别对应的判决单元,分别为判决单元1、判决单元2、…、判决单元Q,Q个判决单元同时运行。对于不同长度的待匹配指令,为了获得更好的性能,可以将各个判决单元对应的置信度阈值设置为不同的阈值,来平衡唤醒率和误唤醒性能。通过查找发音词典确定每个待匹配指令语音对应的发音单元ID序列,声学模型可以是LSTM模型。
语音采集模块采集待识别语音,并将待识别语音进行语音分帧,获得待识别语音帧序列,逐帧提取待识别语音帧序列中各个待识别语音帧的语音特征。声学模型基于待识别语音帧的语音特征,预测待识别语音帧中的发音单元为各个目标发音单元的后验概率,并缓存待识别语音帧的测试特征。待识别语音帧的测试特征为声学模型中目标隐藏层输出的特征,目标隐藏层为声学模型输出层前的最后一个隐藏层,目标发音单元为用于训练声学模型的训练语料中的发音单元。
置信度判决模块中每个判决单元根据发音词典输出的待匹配指令语音对应的发音单元ID序列,以及声学模型输出的待识别语音中的发音单元为各个目标发音单元的后验概率,进行置信度判决,获得判决结果。以判决单元1举例来说,判决单元1与待匹配指令语音1对应,判决单元1进行置信度判决的过程如图6所示,包括以下步骤:
步骤S601,提取待识别语音帧序列中第k个待识别语音帧的语音特征。
步骤S602,将第k个待识别语音帧的语音特征输入LSTM模型,预测第k个待识别语音帧中的发音单元为各个目标发音单元的后验概率,同时抽取LSTM模型中目标隐藏层输出的特征,作为第k个待识别语音帧的测试特征并缓存。
步骤S603,根据第k个待识别语音帧在待识别语音帧序列中的位置,确定置信度计算窗在待识别语音帧序列中的位置。
置信度计算窗内包括第k个待识别语音帧和位于第k个待识别语音帧之前的M-1个待识别语音帧。
步骤S604,针对置信度计算窗内的任意一个待识别语音帧,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音1中的各个发音单元匹配的目标发音单元的后验概率。
步骤S605,根据获取的各个后验概率,确定待识别语音为待匹配指令语音1的置信度。
步骤S606,判断待识别语音为待匹配指令语音1的置信度是否大于待匹配指令语音1对应的置信度阈值,若是,则执行步骤S607,否则,执行步骤S609。
步骤S607,将第k个待识别语音帧作为唤醒点,确定特征缓存窗在待识别语音帧序列,并将特征缓存窗内的预先缓存的N个待识别语音帧的测试特征拼接,获得待识别语音的测试特征。
具体地,特征缓存窗内的N个待识别语音帧包括第k个待识别语音帧、位于第k个待识别语音帧之前的N-X-1个待识别语音帧和位于第k个待识别语音帧之后的X个待识别语音帧。
步骤S608,将待识别语音的测试特征发送给二级验证模块。
步骤S609,k=k+1。
步骤S610,判断k是否大于s,若是,则执行步骤S611,否则执行步骤S601,其中,s表示待识别语音帧序列中的语音帧数。
步骤S611,结束。
在上述一级验证的基础上,下面基于二级验证模块的系统架构图,介绍智能音箱对待识别语音进行二级验证的流程,二级验证模块的系统架构图如图7所示,包括语音特征提取模块和相似度判决模块。
预先获取每个待匹配指令语音的参考特征,其中,匹配指令语音的参考特征为N个待匹配指令语音帧的参考特征。具体实施中,针对待匹配指令1,预先录制多条包括待匹配指令1的样本语音,在录制时可以采用不同用户的声音。针对每条样本语音,对样本语音进行语音分帧,获得N个样本语音帧,然后分别提取N个样本语音帧的语音特征。基于N个样本语音帧的语音特征判断样本语音是否可以通过一级验证,若能通过,则缓存样本语音对应的N个样本语音帧的语音特征。之后再计算缓存的多条样本语音的语音特征的平均值,获得N个待匹配指令语音帧的参考特征。
一级验证通过后,一级验证模块将待识别语音的测试特征发送给二级验证模块中的语音特征提取模块。语音特征提取模块再将待识别语音的测试特征和待匹配指令语音的参考特征发送给二级验证模块中的相似度判决模块,相似度判决模块计算待识别语音帧的测试特征与待匹配指令语音的参考特征之间的余弦相似度。
若一级验证通过的待匹配指令语音为一个,则判断获得的余弦相似度是否大于预设阈值,若是,则将待匹配指令语音作为目标指令语音,并执行目标指令语音对应的交互动作,否则不响应。
若一级验证通过的待匹配指令语音为多个时,将相似度大于预设阈值的待匹配指令语音中,相似度最大的待匹配指令语音确定为目标指令语音,并执行目标指令语音对应的交互动作。
本申请实施例中,先基于待识别语音的语音特征进行一级验证,从各个待匹配指令语音中筛选出置信度满足设定条件的待匹配指令语音,再基于待识别语音的测试特征和筛选出的待匹配指令语音的参考特征进行二级验证,从筛选出的待匹配指令语音中确定与待识别语音匹配的目标指令语音。采用两级验证的方式,既提高了唤醒率,同时降低了误唤醒率。其次,由于置信度计算和相似度计算的计算量小,故采用计算置信度和相似度的方式获得与待识别语音匹配的目标指令语音时,降低了计算资源的消耗,响应快,适用于资源受限的设备。
基于相同的技术构思,本申请实施例提供了一种语音指令处理装置,如图8所示,该装置800包括:
预测模块801,用于基于待识别语音的语音特征对所述待识别语音进行一级验证,获得所述待识别语音分别为各个待匹配指令语音的置信度;
匹配模块802,用于针对置信度满足设定条件的待匹配指令语音,基于所述待识别语音的测试特征和待匹配指令语音的参考特征对所述待识别语音进行二级验证,确定所述待识别语音与待匹配指令语音的相似度;
筛选模块803,用于从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行所述目标指令语音对应的交互动作。
可选地,所述预测模块801具体用于:
根据待识别语音的语音特征,预测所述待识别语音中每个发音单元为各个目标发音单元的后验概率;
分别针对每个待匹配指令语音,采用置信度判决模块,从所述待识别语音中每个发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率,并根据获取的各个后验概率,确定所述待识别语音为待匹配指令语音的置信度。
可选地,所述预测模块801具体用于:
对所述待识别语音进行语音分帧,获得待识别语音帧序列;
逐帧提取所述待识别语音帧序列中各个待识别语音帧的语音特征;
根据当前提取的目标待识别语音帧的语音特征,预测所述目标待识别语音帧中的发音单元为各个目标发音单元的后验概率。
可选地,所述预测模块具体用于:
采用声学模型基于所述目标待识别语音帧的语音特征,预测所述目标待识别语音帧中的发音单元为各个目标发音单元的后验概率,并缓存所述目标待识别语音帧的测试特征,所述目标待识别语音帧的测试特征为所述声学模型中的目标隐藏层输出的特征。
可选地,所述各个待匹配指令语音中的每个待匹配指令语音对应一个置信度判决模块,所述各个待匹配指令语音分别对应的置信度判决模块同时运行。
可选地,所述预测模块801具体用于:
采用置信度判决模块,从所述待识别语音帧序列中获取M个待识别语音帧,所述M个待识别语音帧包括所述目标待识别语音帧和位于所述目标待识别语音帧之前的M-1个待识别语音帧,其中,M大于最长待匹配指令语音对应的语音帧数;
根据待匹配指令语音中的各个发音单元,从所述M个待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率。
可选地,还包括检验模块804;
所述检验模块804还用于:
从待匹配指令语音中的各个发音单元中,获取待校验发音单元;
针对所述M个待识别语音帧中的任意一个待识别语音帧,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述待校验发音单元匹配的目标发音单元的第一后验概率;
获取所述待校验发言单元对应的参考发音单元;
从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述参考发音单元匹配的目标发音单元的第二后验概率;
当所述第一后验概率与所述第二后验概率之间的关联关系满足预设条件时,将与所述待校验发音单元匹配的目标发音单元的第一后验概率置为零。
可选地,所述匹配模块802具体用于:
获取N个待识别语音帧的测试特征,所述N个待识别语音帧包括所述目标待识别语音帧、位于所述目标待识别语音帧之前的N-X-1个待识别语音帧和位于所述目标待识别语音帧之后的X个待识别语音帧,其中,N大于最长待匹配指令语音对应的语音帧数,X为预设整数;
根据所述N个待识别语音帧的测试特征和所述待匹配指令语音的参考特征,确定所述待识别语音与所述待匹配指令语音的相似度。
可选地,所述匹配模块802具体用于:
确定所述N个待识别语音帧的测试特征与所述待匹配指令语音的参考特征之间的余弦相似度;
根据获得的余弦相似度,确定所述待识别语音与所述待匹配指令语音的相似度。
可选地,所述筛选模块803具体用于:
将相似度最大的待匹配指令语音,确定为与所述待识别语音匹配的目标指令语音。
可选地,所述目标指令语音为命令词语音;
所述筛选模块803具体用于:
在当前状态为休眠状态时,切换至唤醒状态并执行所述命令词语音对应的指令。
本申请实施例中,先基于待识别语音的语音特征进行一级验证,从各个待匹配指令语音中筛选出置信度满足设定条件的待匹配指令语音,再基于待识别语音的测试特征和筛选出的待匹配指令语音的参考特征进行二级验证,从筛选出的待匹配指令语音中确定与待识别语音匹配的目标指令语音。采用两级验证的方式,既提高了唤醒率,同时降低了误唤醒率。其次,由于置信度计算和相似度计算的计算量小,故采用计算置信度和相似度的方式获得与待识别语音匹配的目标指令语音时,降低了计算资源的消耗,响应快,适用于资源受限的设备。
基于相同的技术构思,本申请实施例提供了一种计算机设备,如图9所示,包括至少一个处理器901,以及与至少一个处理器连接的存储器902,本申请实施例中不限定处理器901与存储器902之间的具体连接介质,图9中处理器901和存储器902之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器902存储有可被至少一个处理器901执行的指令,至少一个处理器901通过执行存储器902存储的指令,可以执行上述语音指令处理方法的步骤。
其中,处理器901是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器902内的指令以及调用存储在存储器902内的数据,从而进行语音识别。可选的,处理器901可包括一个或多个处理单元,处理器901可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器901中。在一些实施例中,处理器901和存储器902可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器901可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器902可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器902还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得所述计算机设备执行上述语音指令处理方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (11)
1.一种语音指令处理方法,其特征在于,包括:
根据待识别语音的语音特征,预测所述待识别语音中每个发音单元为各个目标发音单元的后验概率;
分别针对每个待匹配指令语音,采用置信度判决模块,从待识别语音帧序列中获取M个待识别语音帧,所述待识别语音帧序列是通过对所述待识别语音进行语音分帧得到的,所述M个待识别语音帧包括目标待识别语音帧和位于所述目标待识别语音帧之前的M-1个待识别语音帧,其中,M大于最长待匹配指令语音对应的语音帧数;
根据待匹配指令语音中的各个发音单元,从所述M个待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率;
从待匹配指令语音中的各个发音单元中,获取待校验发音单元;
针对所述M个待识别语音帧中的任意一个待识别语音帧,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述待校验发音单元匹配的目标发音单元的第一后验概率;
获取所述待校验 发音单元对应的参考发音单元,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述参考发音单元匹配的目标发音单元的第二后验概率;
当所述第一后验概率与所述第二后验概率之间的关联关系满足预设条件时,将与所述待校验 发音单元匹配的目标发音单元的第一后验概率置为零;
根据获取的各个后验概率,确定待识别语音为待匹配指令语音的置信度;
针对置信度满足设定条件的待匹配指令语音,基于所述待识别语音的测试特征和待匹配指令语音的参考特征对所述待识别语音进行二级验证,确定所述待识别语音与待匹配指令语音的相似度;
从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行所述目标指令语音对应的交互动作。
2.如权利要求1所述的方法,其特征在于,所述根据待识别语音的语音特征,预测所述待识别语音中每个发音单元为各个目标发音单元的后验概率,包括:
对所述待识别语音进行语音分帧,获得所述待识别语音帧序列;
逐帧提取所述待识别语音帧序列中各个待识别语音帧的语音特征;
根据当前提取的目标待识别语音帧的语音特征,预测所述目标待识别语音帧中的发音单元为各个目标发音单元的后验概率。
3.如权利要求2所述的方法,其特征在于,所述根据当前提取的目标待识别语音帧的语音特征,预测所述目标待识别语音帧中的发音单元为各个目标发音单元的后验概率,包括:
采用声学模型基于所述目标待识别语音帧的语音特征,预测所述目标待识别语音帧中的发音单元为各个目标发音单元的后验概率,并缓存所述目标待识别语音帧的测试特征,所述目标待识别语音帧的测试特征为所述声学模型中的目标隐藏层输出的特征。
4.如权利要求2所述的方法,其特征在于,所述各个待匹配指令语音中的每个待匹配指令语音对应一个置信度判决模块,所述各个待匹配指令语音分别对应的置信度判决模块同时运行。
5.如权利要求3所述的方法,其特征在于,所述基于所述待识别语音的测试特征和待匹配指令语音的参考特征对所述待识别语音进行二级验证,确定所述待识别语音与待匹配指令语音的相似度,包括:
获取N个待识别语音帧的测试特征,所述N个待识别语音帧包括所述目标待识别语音帧、位于所述目标待识别语音帧之前的N-X-1个待识别语音帧和位于所述目标待识别语音帧之后的X个待识别语音帧,其中,N大于最长待匹配指令语音对应的语音帧数,X为预设整数;
根据所述N个待识别语音帧的测试特征和所述待匹配指令语音的参考特征,确定所述待识别语音与所述待匹配指令语音的相似度。
6.如权利要求5所述的方法,其特征在于,所述根据所述N个待识别语音帧的测试特征和所述待匹配指令语音的参考特征,确定所述待识别语音与所述待匹配指令语音的相似度,包括:
确定所述N个待识别语音帧的测试特征与所述待匹配指令语音的参考特征之间的余弦相似度;
根据获得的余弦相似度,确定所述待识别语音与所述待匹配指令语音的相似度。
7.如权利要求1至6任一所述的方法,其特征在于,所述从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,具体包括:
将相似度最大的待匹配指令语音,确定为与所述待识别语音匹配的目标指令语音。
8.如权利要求7所述的方法,其特征在于,所述目标指令语音为命令词语音;
所述执行所述目标指令语音对应的交互动作,包括:
在当前状态为休眠状态时,切换至唤醒状态并执行所述命令词语音对应的指令。
9.一种语音指令处理装置,其特征在于,包括:
预测模块,用于根据待识别语音的语音特征,预测所述待识别语音中每个发音单元为各个目标发音单元的后验概率;
分别针对每个待匹配指令语音,采用置信度判决模块,从待识别语音帧序列中获取M个待识别语音帧,所述待识别语音帧序列是通过对所述待识别语音进行语音分帧得到的,所述M个待识别语音帧包括目标待识别语音帧和位于所述目标待识别语音帧之前的M-1个待识别语音帧,其中,M大于最长待匹配指令语音对应的语音帧数;
根据待匹配指令语音中的各个发音单元,从所述M个待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与待匹配指令语音中的各个发音单元匹配的目标发音单元的后验概率;
校验模块,用于从待匹配指令语音中的各个发音单元中,获取待校验发音单元;
针对所述M个待识别语音帧中的任意一个待识别语音帧,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述待校验发音单元匹配的目标发音单元的第一后验概率;
获取所述待校验 发音单元对应的参考发音单元,从待识别语音帧中的发音单元为各个目标发音单元的后验概率中,获取与所述参考发音单元匹配的目标发音单元的第二后验概率;
当所述第一后验概率与所述第二后验概率之间的关联关系满足预设条件时,将与所述待校验 发音单元匹配的目标发音单元的第一后验概率置为零;
所述预测模块,还用于根据获取的各个后验概率,确定待识别语音为待匹配指令语音的置信度;
匹配模块,用于针对置信度满足设定条件的待匹配指令语音,基于所述待识别语音的测试特征和待匹配指令语音的参考特征对所述待识别语音进行二级验证,确定所述待识别语音与待匹配指令语音的相似度;
筛选模块,用于从相似度大于预设阈值的待匹配指令语音中确定目标指令语音,并执行所述目标指令语音对应的交互动作。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~8任一权利要求所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412553.XA CN112599127B (zh) | 2020-12-04 | 2020-12-04 | 一种语音指令处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412553.XA CN112599127B (zh) | 2020-12-04 | 2020-12-04 | 一种语音指令处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112599127A CN112599127A (zh) | 2021-04-02 |
CN112599127B true CN112599127B (zh) | 2022-12-30 |
Family
ID=75188358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011412553.XA Active CN112599127B (zh) | 2020-12-04 | 2020-12-04 | 一种语音指令处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599127B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571069A (zh) * | 2021-08-03 | 2021-10-29 | 北京房江湖科技有限公司 | 一种信息处理的方法、装置和存储介质 |
CN113947855A (zh) * | 2021-09-18 | 2022-01-18 | 中标慧安信息技术股份有限公司 | 一种基于语音识别的智能楼宇人员安全报警系统 |
CN116009682A (zh) * | 2021-10-19 | 2023-04-25 | 北京字跳网络技术有限公司 | 互动展示方法、装置、电子设备及可读介质 |
CN115132197B (zh) * | 2022-05-27 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、程序产品及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN110890093A (zh) * | 2019-11-22 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107221326B (zh) * | 2017-05-16 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
-
2020
- 2020-12-04 CN CN202011412553.XA patent/CN112599127B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN110890093A (zh) * | 2019-11-22 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112599127A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112599127B (zh) | 一种语音指令处理方法、装置、设备及存储介质 | |
AU2021215231B2 (en) | Method and system for automatically diarising a sound recording | |
CN110534099B (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US20180293988A1 (en) | Method and system of speaker recognition using context aware confidence modeling | |
WO2020247231A1 (en) | Multiple classifications of audio data | |
CN112262431A (zh) | 使用说话者嵌入和所训练的生成模型的说话者日志 | |
CN108281137A (zh) | 一种全音素框架下的通用语音唤醒识别方法及系统 | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
US11004454B1 (en) | Voice profile updating | |
CN110428854B (zh) | 车载端的语音端点检测方法、装置和计算机设备 | |
US11205428B1 (en) | Deleting user data using keys | |
CN112259101B (zh) | 语音关键词识别方法、装置、计算机设备和存储介质 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
US11200884B1 (en) | Voice profile updating | |
CN113330513A (zh) | 语音信息处理方法及设备 | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN112735381B (zh) | 一种模型更新方法及装置 | |
US11893999B1 (en) | Speech based user recognition | |
CN115132198B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
Kumar et al. | Confidence-features and confidence-scores for ASR applications in arbitration and DNN speaker adaptation. | |
CN114817456B (zh) | 关键词检测方法、装置、计算机设备及存储介质 | |
US11531736B1 (en) | User authentication as a service | |
US20240105206A1 (en) | Seamless customization of machine learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40041981 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |