CN110473539B - 提升语音唤醒性能的方法和装置 - Google Patents

提升语音唤醒性能的方法和装置 Download PDF

Info

Publication number
CN110473539B
CN110473539B CN201910800963.2A CN201910800963A CN110473539B CN 110473539 B CN110473539 B CN 110473539B CN 201910800963 A CN201910800963 A CN 201910800963A CN 110473539 B CN110473539 B CN 110473539B
Authority
CN
China
Prior art keywords
wake
voice
awakening
frame
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910800963.2A
Other languages
English (en)
Other versions
CN110473539A (zh
Inventor
焦蓓
周强
徐俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910800963.2A priority Critical patent/CN110473539B/zh
Publication of CN110473539A publication Critical patent/CN110473539A/zh
Application granted granted Critical
Publication of CN110473539B publication Critical patent/CN110473539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开提升语音唤醒性能的方法和装置,其中,一种提升语音唤醒性能的方法,包括:以语音帧的形式对输入信号进行检测,判定语音帧为疑似语音帧或非语音帧;基于判定的疑似语音帧和非语音帧确定有效语音段,并基于疑似语音帧和非语音帧在输入信号中的占比确定加权因子;将有效语音段输入至唤醒模型中,其中,唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;获取自适应唤醒模型的输出,使用加权因子对输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。本申请提供的方案可以有效抑制噪声场景的误唤醒率,进一步地,还能针对性地提升对于特定用户的唤醒率。

Description

提升语音唤醒性能的方法和装置
技术领域
本发明属于语音唤醒技术领域,尤其涉及提升语音唤醒性能的方法和装置。
背景技术
相关技术中,目前市场上还没有即提升唤醒率又降低误唤醒的样例。唤醒和误唤醒是此消彼长的关系,目前市场上都是择其一做优化,保持一方基本不降的基础上,优化另一方。在降低误唤醒方面,比较有代表的是添加二次验证;提升唤醒率方面,主要是降低唤醒门槛。
发明人在实现本申请的过程中发现,现有技术中主要存在以下方案:
1、添加二次验证模块,设置双重门限,唤醒引擎将接收的语音信号进行初步判断,当满足预设条件则开启二次验证,由二次验证的结果确定设备是否执行唤醒操作;
2、降低唤醒门槛,最简单快捷的就是降低唤醒阈值,达到容易唤醒的目的。
其中,一方面,二次验证会增加设备的功耗,加大延迟,影响用户在实际中的交互体验;另外,在一些运算资源有限的设备上存在崩溃的风险,不能普及到计算能力较弱的设备上,迅速降低误唤醒的同时也伴随着唤醒率的降低。另一方面,降低唤醒门槛可以有效的提升唤醒率,但是同时会带来误唤醒的提升。
发明内容
本发明实施例提供一种提升语音唤醒性能的方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种提升语音唤醒性能的方法,包括:以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
第二方面,本发明实施例提供一种提升语音唤醒性能的装置,包括:检测判定模块,配置为以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;加权因子确定模块,配置为基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;输入模块,配置为将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;加权输出模块,配置为获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的提升语音唤醒性能的方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的提升语音唤醒性能的方法的步骤。
本申请的方法和装置提供的方案通过根据疑似语音帧和非语音帧在输入信号中的占比确定的加权因子对自适应唤醒模型的输出进行加权计算,可以有效地抑制噪声场景的误唤醒,从而可以降低误唤醒率。在进一步的实施例中,结合产品形态增加预唤醒检测功能,加入动态调节唤醒机制,能够快速有效的拾取短时二次发送的唤醒指令,成功启动唤醒,尤其是在嘈杂环境中效果尤为明显。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种提升语音唤醒性能的方法的流程图;
图2为本发明一实施例提供的另一种提升语音唤醒性能的方法的流程图;
图3为本发明一实施例提供的又一种提升语音唤醒性能的方法的流程图;
图4为本发明一实施例提供的一种提升语音唤醒性能的方法的一个具体示例的流程图;
图5为本发明一实施例提供的一种提升语音唤醒性能的装置的框图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的提升语音唤醒性能的方法一实施例的流程图,本实施例的提升语音唤醒性能的方法可以适用于具备智能语音对话唤醒功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒的智能终端等。
如图1所示,在步骤101中,以语音帧的形式对输入信号进行检测,判定语音帧为疑似语音帧或非语音帧;
在步骤102中,基于判定的疑似语音帧和非语音帧确定有效语音段,并基于疑似语音帧和非语音帧在输入信号中的占比确定加权因子;
在步骤103中,将有效语音段输入至唤醒模型中;
在步骤104中,获取自适应唤醒模型的输出,使用加权因子对输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
在本实施例中,对于步骤101,提升语音唤醒性能的装置对输入信号的每一帧语音信号进行语音活性检测,判断该语音帧为疑似语音帧还是非语音帧。之后,对于步骤102,提升语音唤醒性能的装置根据判定的疑似语音帧和非语音帧确定有效语音段,并根据该疑似语音帧和非语音帧在输入信号中的占比确定加权因子,或者也可以根据有效语音段在输入语音中的占比确定加权因子,有效语音段可以只有一段,也可以是多段,本申请在此没有限制。
之后,对于步骤103,提升语音唤醒性能的装置将之前确定的有效语音段输入至预先训练好的自适应唤醒模型中,其中,该自适应唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型。最后,对于步骤104,提升语音唤醒性能的装置获取该自适应唤醒模型的输出,并且使用之前确定的加权因子对该输出进行加权计算,然后基于加权计算后的输出确定是否要唤醒当前设备。
本实施例的方法通过根据疑似语音帧和非语音帧在输入信号中的占比确定的加权因子对自适应唤醒模型的输出进行加权计算,可以有效地抑制噪声场景的误唤醒,从而可以降低误唤醒率。
请参考图2,其示出了本申请的提升语音唤醒性能的方法另一实施例的流程图。该流程图主要是针对流程图图1中步骤104进一步限定的步骤的流程图。
如图2所示,在步骤201中,基于唤醒模型计算有效语音段对于预设唤醒词的置信度,使用加权因子对置信度进行加权计算;
在步骤202中,若加权计算后的置信度大于等于第一预设唤醒阈值,则唤醒设备;
在步骤203中,若加权计算后的置信度小于第一预设唤醒阈值且大于等于第二预设唤醒阈值,则进入预唤醒状态;
在步骤204中,若加权计算后的置信度小于第二预设唤醒阈值,则不唤醒设备。
在本实施例中,对于步骤201,提升语音唤醒性能的装置基于自适应唤醒模型计算有效语音段对于预设唤醒词的置信度,使用加权因子对置信度进行加权计算。对于步骤202,提升语音唤醒性能的装置若判断加权计算后的置信度大于等于第一预设唤醒阈值,则唤醒设备。之后,对于步骤203,提升语音唤醒性能的装置若判断加权计算后的置信度小于第一预设唤醒阈值且大于等于第二预设唤醒阈值,则进入预唤醒状态,其中,第一预设唤醒阈值大于第二预设唤醒阈值。最后,对于步骤204,提升语音唤醒性能的装置若判断加权计算后的置信度小于第二预设唤醒阈值,则不唤醒设备。
本实施例的方法通过使用两个预设唤醒阈值对唤醒进行控制,可以使得加权计算后的置信度在大于等于第二唤醒阈值且小于第一唤醒阈值的时候能够进入预唤醒状态,而不是直接不唤醒,只是暂时的不唤醒,在进行别的数据采集整理合计之后还是有唤醒的机会的,从而可以一定程度上在减少误唤醒率的基础上提高唤醒率。
进一步参考图3,其示出了本申请的提升语音唤醒性能的方法又一实施例的流程图。该流程图主要是针对流程图图2中步骤203之后的步骤进一步限定的步骤的流程图。
如图3所示,在步骤301中,对于进入预唤醒状态的输入信号,结合当前的声学环境和用户的使用意图,使用动态调节因子对输入信号的后续语音信号的加权计算后的置信度进行调节;
在步骤302中,若调节后的置信度大于等于第一预设唤醒阈值,则唤醒设备;
在步骤303中,若调节后的置信度小于第一预设唤醒阈值,则不唤醒设备。
在本实施例中,对于步骤301,对于进入预唤醒状态的输入信号,提升语音唤醒性能的装置结合当前的声学环境和用户的使用意图,使用动态调节因子对输入信号的后续语音信号的加权计算后的置信度进行调节。之后对于步骤302,若提升语音唤醒性能的装置使用动态调节因子调节后的置信度大于等于第一预设唤醒阈值,则唤醒设备。最后,对于步骤303,若提升语音唤醒性能的装置使用动态调节因子调节后的置信度小于第一预设唤醒阈值,则不唤醒设备。
例如声学环境嘈杂的情况下,由于已经有加权因子降低了误唤醒率,此时若用户持续发送唤醒指令,则说明用户有使用设备的需求,则可以通过动态调节因子在用户当前的输入信号的后续语音信号中对噪声场景加权计算后的置信度进行二次动态因子调节,让后续的语音信号的唤醒率更高,从而对于有使用需求的用户更加友好,即使处于嘈杂环境,也能得到很好地唤醒体验。
在一些可选的实施例中,加权因子与疑似语音帧在输入信号中的占比成正相关。从而疑似语音帧在输入信号中的占比越高,例如某些安静场景下,加权因子的数值也越大,疑似语音帧在输入信号中的占比越低,例如某些噪声场景下,加权因子的数值也越低,从而可以有效抑制噪声场景的误唤醒,进而有效地降低误唤醒率。
在进一步可选的实施例中,上述方法还包括:当疑似语音帧在输入信号中的占比x大于等于第一预设阈值y1时,定义加权因子为m;当疑似语音帧在输入信号中的占比x小于等于第二预设阈值y2时,定义加权因子为n,其中,y1>y2,m>n;当疑似语音帧在输入信号中的占比大于第二预设阈值且小于第一预设阈值时,定义加权因子为n+(x-y2)*(m-n)/(y1-y2)。从而对不同的占比进行定量计算,可以更精准地得到不同的场景对应的加权因子,从而对于不同场景的误唤醒的抑制也是不同的,进而对于各种场景的误唤醒的抑制更加精准。
进一步可选的,m=1,n=0.7。从而对于安静场景,m=1,不进行误唤醒抑制。对于噪声场景,n=0.7,可以极大地抑制噪声场景的误唤醒,进而有效地降低噪声场景的误唤醒率。进一步地,可以设定y1=0.9,设定y2=0.6,或者设定为其他数值,本申请在此没有限制。
在一些可选的实施例中,对于流程图图1中的步骤101:以语音帧的形式对输入信号进行检测,判定语音帧为疑似语音帧或非语音帧,可以进一步包括以下步骤:基于深度学习训练一个二分类深度神经网络模型;计算每一帧输入信号的后验概率;当后验概率大于等于第一概率阈值时,判定为疑似语音帧;当后验概率小于第一概率阈值时,判定为非语音帧;当累积第一数量的语音帧为疑似语音帧时,判定为有效语音段开始;在有效语音段开始后,当累积第二数量的语音帧为非语音帧时,判定为有效语音段结束;基于判定的有效语音段开始和有效语音段结束确定有效语音段。从而更好地对语音帧进行判定,更好地择出其中的有效语音段,极大地减少后续唤醒的计算。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人对现有技术进行仔细研究后发现,现有技术方案的缺陷主要是由于以下原因导致的:
1、二次验证,首次通过唤醒模块,二次通过识别模块;基本思想是前端获取的语音信号经过一级唤醒模块,当当前帧唤醒词的置信度大于等于预设唤醒词阈值时查看当前识别模块的解码结果,如果解码出的句子中包含唤醒词则执行唤醒操作,否则不做任何反馈,此时的二次识别模块起着决定性作用。
2、大参数量的识别模型识别准确度高,可以有效的鉴别出是否是真正的唤醒词,降低误唤醒,但是参数量大,计算量必然大,CPU和内存的占用就上来了,当然延时和功耗也随之而来,主观体验的感觉就是交互迟钝,反应慢,设备容易发烫;小参数量模型计算量小,但是模型识别不准,唤醒词的识别错误导致唤醒率下降,原本可以唤醒的音频由于没识别出来而拒绝唤醒,这种情况大概率出现在一些发音不准或者嘈杂环境中。
3、为了提升唤醒率降低唤醒阈值,唤醒阈值是唤醒词根据字出现的先后顺序对其后验加权得到的,阈值降低就意味着对唤醒词中部分字的要求降低,致使删除和替换误唤醒的增加。
本领域技术人员为了解决上述缺陷,可能会采用以下方案:
通常会想到适当放松二次验证的条件,减小二次验证模型的大小,减小一部分计算量,或者减小唤醒阈值的降低比例。
发明人发现,这些方法都可以快速对之前的缺陷做一些优化,但是都没有从根本上解决问题。对于项目驱动型产业,大家考虑的较多的是产品快速落地,从而可能没有足够的时间和精力去考虑其他比较深入的方式。
本申请的方案提出了一种提升语音唤醒性能的装置:
通过大数据分析,获取产品的使用场景,使用频率,用户使用状态分布,基于深度学习技术,挖掘用户意图,添加逻辑控制机制,实时观测当前和历史声学环境信息,基于环境信息对唤醒模型进行加权处理,在计算量不增加的基础上误唤醒降低60%(基于600小时的家居场景测试);同时结合产品形态增加预唤醒检测功能,加入动态调节唤醒机制,能够快速有效的拾取短时二次发送的唤醒指令,成功启动唤醒,尤其是在嘈杂环境中效果尤为明显。
请参考图4,其示出了本申请的方案的一个具体实施例的流程图,需要说明的是以下实施例中虽然提到了一些具体的例子,但并不用于限制本申请的方案。
如图4所示,详细的步骤如下:
1、设备端接收语音信号,经过前期的信号处理,以多麦设备为例,音频信号到达后首先是回声消除,消除本机播放声音信,如果是立体音则进行双路消除,否则进行单路消噪;消除后的音频进行波束形成,分角度对语音做增强,增强后的语音经过后置滤波,消除实际使用场景中的稳态噪声,提升信噪比。
2、语音检测VAD(voice activity detection),基于深度学习,训练一个层数较少,节点数不多的二分类深度神经网络模型,通过计算后验概率区分是语音和非语音,当后验概率大于某一设定的阈值时,判定为疑似语音帧,否则判定为非语音帧,累积若干帧都是疑似语音帧时,判定为语音开始,一旦语音开始就进入步骤3,否则继续本步骤。
3、基于步骤2中VAD的检测信息,对当前的噪声和语音区分统计,分析当前的声学环境,开启逻辑控制单元,逻辑控制单元会根据声学环境复杂度的不同加设不同的加权因子。例如两个极端场景,如果是安静场景,加权因子为1,噪声场景加权因子为0.7,加权因子直接作用于基于唤醒模型计算出的唤醒词的置信度,抑制噪声场景的误唤醒。
唤醒模型是基于收集的样本信息(唤醒词的正例样本和非唤醒词反例样本),进行有监督的深度神经网络学习获取的一个多分类模型,经过信号处理后的语音输入到已经训练好的唤醒模型中,计算每帧数据的后验,获取当前帧的对于指定唤醒词的置信度,加入之前基于声学环境统计的加权因子,如果该置信度大于等于指定唤醒词的预设阈值时则启动唤醒机制,否则进入步骤4。
4、判断当前帧是否达到指定唤醒词的预唤醒状态(接近唤醒状态但是却没有达到唤醒的状态,预唤醒状态是基于唤醒状态换算得到的);如果达到指定唤醒词的预唤醒状态则进入步骤5,否则进入步骤2。
5、开启动态唤醒机制,结合当前的声学环境,用户的使用意图对步骤3获取的该唤醒的置信度添加动态调整机制,调整后信息参量会作用到后续进来的语音信号中。
如果当前语音信号由于各种原因,回声消除不干净,环境太嘈杂或者说话人发音不准等导致第一次人为发送唤醒指令的时候到达预唤醒状态但是却没有启动唤醒,那么经过动态调整机制后,下次同等环境,同等发音甚至更恶劣的环境,稍微发音不准的情况下再次发送唤醒指令时,会大概率获取到发送的唤醒指令并正确开始唤醒状态,从而很大程度上提升了唤醒率,对低信噪比下,带口音的唤醒指令的获取提升尤其明显。
发明人在实现本申请的过程中,还采用过如下备选方案,并总结了该备选方案的优点和缺点。
目前的方案虽然在一定程度上可以提升唤醒性能,同等条件下基本不增加计算量,但是在计算资源特别匮乏的设备上使用起来还会有点吃力。
发明人在实现本申请的过程中还尝试过以下方案:
其中一个备选方案是:缩减模型的结构,但是模型结构的缩减带来了唤醒性能的下降,所以目前主流做法还是对唤醒模型做定点化,减小计算量,可以在原本计算资源紧张的设备上推广起来。
另一个备选方案是:在降低误唤醒方面,对唤醒词中的每个字做限制,如果唤醒词中的每个字都达到要求且该词的置信度大于等于预设的阈值则开启唤醒,否则拒绝。这种方式的优势就是对降低误唤醒很有效,但是对于发音人的要求也相对严格,唤醒词中某个字发音不准或者发音有偏差,吐字不清,语速过快淹没其中一个字,都会导致唤醒率不高,不适合普及,仅在某些特殊需求中可用。
上述实施例至少能够实现如下技术效果:
自适应后的唤醒模块能很好的区分出噪声场景,进而可以有效的抑制噪声场的误唤醒,在计算量基本不增加的基础上,误唤醒降低60%,同时如果当前语音信号由于各种原因,环境太嘈杂或者说话人发音不准等导致第一次人为发送唤醒指令的时候没有到达预设唤醒阈值启动唤醒,那么经过自适应学习后,下次同等环境,同等发音甚至更恶劣的环境下再次发送唤醒指令时,会大概率获取到发送的唤醒指令并正确开始唤醒状态,从而很大程度上提升了唤醒率,自适应机制对低信噪比,带口音的唤醒指令的获取提升尤其明显。
请参考图5,其示出了本发明一实施例提供的提升语音唤醒性能的装置的框图。
如图5所示,提升语音唤醒性能的装置500,包括检测判定模块510、加权因子确定模块520、输入模块530和加权输出模块540。
其中,检测判定模块510,配置为以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;加权因子确定模块520,配置为基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;输入模块530,配置为将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;加权输出模块540,配置为获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
应当理解,图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如加权输出模块可以描述为获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如加权输出模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的提升语音唤醒性能的方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;
基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;
将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;
获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据提升语音唤醒性能的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至提升语音唤醒性能的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项提升语音唤醒性能的方法。
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器610为例。提升语音唤醒性能的方法的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例提升语音唤醒性能的方法。输入装置630可接收输入的数字或字符信息,以及产生与提升语音唤醒性能的装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于提升语音唤醒性能的装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;
基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;
将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;
获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种提升语音唤醒性能的方法,包括:
以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;
基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子,其中,所述加权因子与所述疑似语音帧在所述输入信号中的占比成正相关;
将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;
获取所述唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
2.根据权利要求1所述的方法,其中,所述获取所述唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备包括:
基于唤醒模型计算有效语音段对于预设唤醒词的置信度,使用所述加权因子对所述置信度进行加权计算;
若加权计算后的置信度大于等于第一预设唤醒阈值,则唤醒设备;
若所述加权计算后的置信度小于所述第一预设唤醒阈值且大于等于第二预设唤醒阈值,则进入预唤醒状态;
若所述加权计算后的置信度小于所述第二预设唤醒阈值,则不唤醒所述设备。
3.根据权利要求2所述的方法,其中,在若所述加权计算后的置信度小于第一预设唤醒阈值且大于等于第二预设唤醒阈值,则进入预唤醒状态之后,所述方法还包括:
对于进入预唤醒状态的输入信号,结合当前的声学环境和用户的使用意图,使用动态调节因子对所述输入信号的后续语音信号的加权计算后的置信度进行调节;
若调节后的置信度大于等于第一预设唤醒阈值,则唤醒设备;
若调节后的置信度小于第一预设唤醒阈值,则不唤醒设备。
4.根据权利要求1所述的方法,其中,所述方法还包括:
当所述疑似语音帧在所述输入信号中的占比x大于等于第一预设阈值y1时,定义所述加权因子为m;
当所述疑似语音帧在所述输入信号中的占比x小于等于第二预设阈值y2时,定义所述加权因子为n,其中,y1>y2,m>n;
当所述疑似语音帧在所述输入信号中的占比大于所述第二预设阈值且小于所述第一预设阈值时,定义所述加权因子为n+(x-y2)*(m-n)/(y1-y2)。
5.根据权利要求4所述的方法,其中,m=1,n=0.7。
6.根据权利要求1-3中任一项所述的方法,其中,所述以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧包括:
基于深度学习训练一个二分类深度神经网络模型;
计算每一帧输入信号的后验概率;
当所述后验概率大于等于第一概率阈值时,判定为疑似语音帧;
当所述后验概率小于所述第一概率阈值时,判定为非语音帧;
当累积第一数量的语音帧为疑似语音帧时,判定为有效语音段开始;
在有效语音段开始后,当累积第二数量的语音帧为非语音帧时,判定为有效语音段结束;
基于判定的有效语音段开始和有效语音段结束确定有效语音段。
7.一种提升语音唤醒性能的装置,包括:
检测判定模块,配置为以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;
加权因子确定模块,配置为基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子,其中,所述加权因子与所述疑似语音帧在所述输入信号中的占比成正相关;
输入模块,配置为将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;
加权输出模块,配置为获取所述唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201910800963.2A 2019-08-28 2019-08-28 提升语音唤醒性能的方法和装置 Active CN110473539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910800963.2A CN110473539B (zh) 2019-08-28 2019-08-28 提升语音唤醒性能的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910800963.2A CN110473539B (zh) 2019-08-28 2019-08-28 提升语音唤醒性能的方法和装置

Publications (2)

Publication Number Publication Date
CN110473539A CN110473539A (zh) 2019-11-19
CN110473539B true CN110473539B (zh) 2021-11-09

Family

ID=68512437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910800963.2A Active CN110473539B (zh) 2019-08-28 2019-08-28 提升语音唤醒性能的方法和装置

Country Status (1)

Country Link
CN (1) CN110473539B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081246B (zh) * 2019-12-24 2022-06-24 北京达佳互联信息技术有限公司 直播机器人唤醒方法、装置、电子设备及存储介质
CN111128166B (zh) * 2019-12-27 2022-11-25 思必驰科技股份有限公司 连续唤醒识别功能的优化方法和装置
CN113744732A (zh) * 2020-05-28 2021-12-03 阿里巴巴集团控股有限公司 设备唤醒相关方法、装置及故事机
CN111653276B (zh) * 2020-06-22 2022-04-12 四川长虹电器股份有限公司 一种语音唤醒系统及方法
CN111899722B (zh) * 2020-08-11 2024-02-06 Oppo广东移动通信有限公司 一种语音处理方法及装置、存储介质
CN112071323B (zh) * 2020-09-18 2023-03-21 阿波罗智联(北京)科技有限公司 误唤醒样本数据的获取方法、装置和电子设备
CN112435668A (zh) * 2020-11-06 2021-03-02 联想(北京)有限公司 一种语音识别方法、装置及存储介质
CN112767935B (zh) * 2020-12-28 2022-11-25 北京百度网讯科技有限公司 唤醒指标监测方法、装置及电子设备
CN112885353B (zh) * 2021-01-26 2023-03-14 维沃移动通信有限公司 语音唤醒方法、装置及电子设备
CN113658593B (zh) * 2021-08-14 2024-03-12 普强时代(珠海横琴)信息技术有限公司 基于语音识别的唤醒实现方法及装置
CN113920988B (zh) * 2021-12-03 2022-03-22 深圳比特微电子科技有限公司 语音唤醒方法、装置及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
KR20180046780A (ko) * 2016-10-28 2018-05-09 에스케이텔레콤 주식회사 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
CN108122556A (zh) * 2017-08-08 2018-06-05 问众智能信息科技(北京)有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109920418A (zh) * 2019-02-20 2019-06-21 北京小米移动软件有限公司 调整唤醒灵敏度的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180046780A (ko) * 2016-10-28 2018-05-09 에스케이텔레콤 주식회사 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN108122556A (zh) * 2017-08-08 2018-06-05 问众智能信息科技(北京)有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109920418A (zh) * 2019-02-20 2019-06-21 北京小米移动软件有限公司 调整唤醒灵敏度的方法及装置

Also Published As

Publication number Publication date
CN110473539A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110473539B (zh) 提升语音唤醒性能的方法和装置
CN108899044B (zh) 语音信号处理方法及装置
CN108922553B (zh) 用于音箱设备的波达方向估计方法及系统
US9899021B1 (en) Stochastic modeling of user interactions with a detection system
CN110910885B (zh) 基于解码网络的语音唤醒方法和装置
CN110648692B (zh) 语音端点检测方法及系统
CN110517670A (zh) 提升唤醒性能的方法和装置
CN110827858B (zh) 语音端点检测方法及系统
CN111145730B (zh) 语音识别模型的优化方法及系统
CN111312218B (zh) 神经网络的训练和语音端点检测方法及装置
CN109346062B (zh) 语音端点检测方法及装置
CN112562742B (zh) 语音处理方法和装置
CN110503944B (zh) 语音唤醒模型的训练和使用方法及装置
CN110600008A (zh) 语音唤醒的优化方法及系统
CN111179915A (zh) 基于语音的年龄识别方法及装置
CN111816216A (zh) 语音活性检测方法和装置
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
CN111722696B (zh) 用于低功耗设备的语音数据处理方法和装置
CN111161746B (zh) 声纹注册方法及系统
CN110890104B (zh) 语音端点检测方法及系统
CN112951219A (zh) 噪声拒识方法和装置
CN112614506B (zh) 语音激活检测方法和装置
CN112786047B (zh) 一种语音处理方法、装置、设备、存储介质及智能音箱
CN112509556B (zh) 一种语音唤醒方法及装置
CN106340310A (zh) 语音检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant