CN112951211B - 一种语音唤醒方法及装置 - Google Patents

一种语音唤醒方法及装置 Download PDF

Info

Publication number
CN112951211B
CN112951211B CN202110437391.3A CN202110437391A CN112951211B CN 112951211 B CN112951211 B CN 112951211B CN 202110437391 A CN202110437391 A CN 202110437391A CN 112951211 B CN112951211 B CN 112951211B
Authority
CN
China
Prior art keywords
probability
phoneme
sequence
confidence
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110437391.3A
Other languages
English (en)
Other versions
CN112951211A (zh
Inventor
黎塔
刘作桢
张鹏远
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202110437391.3A priority Critical patent/CN112951211B/zh
Publication of CN112951211A publication Critical patent/CN112951211A/zh
Application granted granted Critical
Publication of CN112951211B publication Critical patent/CN112951211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。

Description

一种语音唤醒方法及装置
技术领域
本发明涉及语音识别技术领域。尤其涉及一种语音唤醒方法及装置。
背景技术
语音唤醒技术作为语音识别领域的一个子领域,是人机交互领域的重要研究内容之一。
语音唤醒技术在语音流中检测指定关键词并在第一时间触发唤醒系统。通常的语音唤醒技术需要大量的关键词数据来进行训练,收集和标注数据需要耗费大量的资源,且关键词只能使用预先设置好的词。随着语音唤醒技术日渐成熟,用户个人定制关键词的需求逐渐增多,传统方法难以完成要求。常规自定义唤醒采用通用语音识别模型,对解码网络进行优化,只保存关键词相关路径。但这种方法模型没有对关键词进行优化,建模效果相对较差,而且解码阶段运算复杂度高,需要耗费较多资源。
发明内容
本发明实施例提出一种语音唤醒方法及装置,用于解决通用语音识别模型没有对关键词进行优化,建模效果相对较差,而且解码阶段运算复杂度高,需要耗费较多资源的问题。该技术方案如下:
第一方面,本申请实施例提出一种语音唤醒方法,包括:
接收用户语音;
提取所述用户语音中每一帧的声学特征;
将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率;其中,所述第一音素序列是预定义的关键词的音素序列;
对所述后验概率进行最小编辑距离加和置信度判决;
若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。
在一种可能的实现中,所述训练后的关键词偏置声学模型包括:RNN-T网络和注意力偏置模块;
所述RNN-T网络,包括声学编码器、文本编码器和联合建模编码器;其中,所述联合建模编码器与一个softmax函数连接,所述softmax函数的输出作为所述RNN-T网络的最终输出;
所述注意力偏置模块,包括关键词编码器和注意力模块。
在一种可能的实现中,所述方法还包括:
根据所述关键词编码器的输出和所述文本编码器的上一状态输出,确定所述注意力模块的输出。
在一种可能的实现中,所述方法还包括:
将所述注意力偏置模块的输出与所述RNN-T网络的上一状态输出进行拼接,得到拼接结果;
将所述拼接结果输入所述文本编码器中。
在一种可能的实现中,所述方法还包括:
在训练所述关键词偏置声学模型过程中,参考答案中的部分词序列和随机生成的词序列作为关键词,以音素序列的形式输入所述关键词编码器中。
在一种可能的实现中,所述方法还包括:
针对所述第一音素序列中的每一个音素,确定出其在所述用户语音中每一帧的后验概率中的最大值;
将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度;
将所述后验概率加和置信度除以第一音素序列的长度,得到第一后验概率加和置信度;
若所述第一后验概率加和置信度大于预设阈值,则确定第一用户语音;其中,所述第一用户语音为包含关键词的用户语音。
在一种可能的实现中,所述对所述后验概率进行最小编辑距离加和置信度判决,包括:
对所述第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码,得到推测序列;
根据所述第一音素序列与所述推测序列的对应关系,确定最小编辑距离概率加和置信度。
在一种可能的实现中,所述若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统,包括:
将所述最小编辑距离概率加和置信度除以第一音素序列的长度,得到第一最小编辑距离概率加和置信度;
在所述第一最小编辑距离概率加和置信度大于预设阈值的情况下,根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与所述推测序列的第二概率,确定近似似然值置信度;其中,所述第一音素序列的第一概率根据正确和替换错的时间点对应所述关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应所述关键词的音素的概率确定;所述推测序列的第二概率根据正确和替换错的时间点对应所述推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定;
将所述近似似然值置信度除以第一音素序列的长度,得到第一近似似然值置信度;
在所述第一近似似然值置信度大于预设阈值的情况下,触发所述唤醒系统。
第二方面,本申请实施例还提出一种语音唤醒装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行如第一方面及各种可能的实现中的各个步骤。
第三方面,本申请实施例还提出一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面及各种可能的实现中的各个步骤。
由上述技术方案可知,本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本申请实施例构建的关键词偏置声学模型;
图2为本申请实施例提供的一种语音唤醒方法的流程示意图;
图3为本申请实施例提供的三阶段判决示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
需要说明的是,本申请实施例的说明书和权利要求书中的术语“第一”是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一后验概率加和置信度是用于区别不同的后验概率加和置信度,而不是用于描述目标对象的特定顺序。在本申请实施例中,“示例性的”、“举例来说”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“举例来说”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“举例来说”或者“例如”等词旨在以具体方式呈现相关概念。
在一种可能的实现中,采用通用语音识别模型识别用户语音中的关键词,触发唤醒系统。但是通用语音识别模型没有对关键词进行优化,建模效果相对较差,而且解码阶段运算复杂度高,需要耗费较多资源。为此,本申请实施例提出一种语音唤醒方法。
需要说明的是,本申请提及的关键词为预设的触发唤醒系统的词语。
图1为本申请实施例构建的关键词偏置声学模型,能够实现上述语音唤醒方法。参见图1,该关键词偏置声学模型包括:RNN-T网络和注意力偏置模块,用于加强模型中对关键词信息的建模。RNN-T网络包括声学编码器Encoder,
Figure BDA0003033589880000031
其中,xt为输入的声学特征;文本编码器Pred.Network,
Figure BDA0003033589880000032
其中,yu-1为RNN-T网络的上一状态输出;联合建模编码器Joint Nerwork,
Figure BDA0003033589880000033
所述联合建模编码器与一个softmax函数连接,所述softmax函数的输出作为所述RNN-T网络的最终输出。注意力偏置模块包括关键词编码器Keyword Encoder和注意力模块Attention。根据关键词编码器的输出kenc和上述文本编码器的上一状态输出
Figure BDA0003033589880000034
确定注意力模块的输出。将注意力偏置模块的输出与RNN-T网络的上一状态输出进行拼接,得到拼接结果;将该拼接结果输入上述文本编码器中。
在本申请实施例中,上述声学编码器为一个三层门控循环单元层,每层包含128个隐藏单元。上述文本编码器为一个一层门控循环单元层,每层包含64个隐藏单元。上述联合建模编码器包括一个全连接层,包含256个隐藏单元,每个神经元的激活函数是tanh函数,之后接softmax函数进行分类,利用RNN-T损失函数进行优化。
关键词以音素序列的形式输入关键词编码器,音素列表为67个无调音素。
关键词编码器为一个67维映射到64维的嵌入表示。
注意力模块是一个加性注意力机制,计算方法如下:
Figure BDA0003033589880000035
Figure BDA0003033589880000041
Figure BDA0003033589880000042
其中,w,A,B为线性映射,M为关键词编码器的维数,u为矩阵的行数,i和j分别为矩阵的列数。
注意力偏置模块的输出与RNN-T网络的上一状态输出进行拼接,一起送入文本编码器中,具体来说,文本编码器计算公式变为
Figure BDA0003033589880000043
其中,ct为注意力偏置模块的输出。这样可以在识别过程中使文本编码器一直接收到关键词信息,强化关键词信息的建模。
关键词偏置声学模型训练好之后,开始训练。在训练关键词偏置声学模型过程中随机选取参考答案中的部分词序列和随机生成的词序列作为关键词输入,以音素序列的形式输入关键词编码器中,来让网络接受不同的关键词输入,使系统具有更好的泛化性。上述参考答案包括任意音频及其对应的文本。随机生成的词序列为除参考答案以外的词序列。具体来说,以50%概率随机选取参考答案中2-6个字作为关键词分支输入,来模拟关键词存在于参考答案中的情况;以50%概率随机在随机生成的词序列中选取2-6个字的发音作为关键词分支输入,来模拟关键词不存在于参考答案中的情况。
由于在训练过程中已知关键词在参考答案中的部分词序列中的位置关系,可以针对对应关系生成约束向量,与注意力模块的结果计算损失函数,来约束注意力模块的关注点,加强注意力偏置模块训练效果。
如果关键词是从参考答案中的部分词序列中选择而来的,那么关键词与参考答案中的部分词序列存在对应关系,约束向量是一个在关键词存在部分全1,其余位置全0的向量;如果关键词是随机生成而来的,那么关键词与参考答案中的部分词序列不存在对应关系,约束向量是一个全0向量。根据约束向量yi与注意力模块的结果xi计算交叉熵损失LCE。交叉熵损失LCE定义如下:
Figure BDA0003033589880000044
其中,D为注意力模块的维数。最终关键词偏置声学模型的优化目标共同考虑两种损失函数:
L=LRNN-T+LCE
其中,LRNN-T为RNN-T网络的损失函数。
通过以上步骤可以获得训练后的关键词偏置声学模型。
图2为本申请实施例提供的一种语音唤醒方法的流程示意图,该流程示意图包括:S202—S210,解决了通用语音识别模型没有对关键词进行优化,建模效果相对较差,而且解码阶段运算复杂度高,需要耗费较多资源的问题。
下面对本申请实施例提供的如图2所示的一种语音唤醒方法进行详细介绍。
在一种可能的实现中,通过以下步骤实现本申请实施例提供的语音唤醒方法:
S202,接收用户语音。
在本申请实施例中,接收到的用户语音可以为包括关键词的用户语音,也可以为不包括关键词的用户语音。
S204,提取S202中接收到的用户语音中每一帧的声学特征。
在本申请实施例中,提取到的用户语音中每一帧的声学特征为40维对数梅尔倒谱特征。
S206,将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列。其中,用户语音中每一帧的声学特征为图1中的xt,第一音素序列为图1中的k0...kL
在本申请实施例中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率后,对后验概率进行后验概率加和置信度判决。具体地,针对第一音素序列中的每一个音素,确定出其在用户语音中每一帧的后验概率中的最大值;将每一个音素在用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度;将后验概率加和置信度除以第一音素序列的长度,排除音素序列的长度对计算后验概率加和置信度带来的影响,得到第一后验概率加和置信度;若第一后验概率加和置信度大于预设阈值,则确定S202中的用户语音为包含关键词的用户语音,此处将包含关键词的用户语音称作第一用户语音。上述步骤为粗过滤过程,初步过滤掉S202中不包含关键词的用户语音。
S208,对后验概率进行最小编辑距离加和置信度判决。
在本申请实施例中,继S206粗过滤得到第一用户语音之后,对第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码,得到推测序列;根据第一音素序列与推测序列的对应关系,确定最小编辑距离概率加和置信度。具体地,令R={r1,r2,...,rm}为第一音素序列,对第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码得到推测序列
Figure BDA0003033589880000051
其中上标t1为对应音素hl的时间点。推测序列与第一音素序列计算最小编辑距离,最小编辑距离加和置信度计算公式为:
Figure BDA0003033589880000052
其中
Figure BDA0003033589880000053
N为第一音素序列中音素的个数。pd1,pd2为预设的惩罚系数。
Figure BDA0003033589880000054
为tj时刻ri音素的概率。在编辑距离的计算过程中,可以获得推测序列H与第一音素序列R中音素的一一对应关系,当对应关系为替换错或正确的时间点,当前推测序列中的音素在R中有对应的音素,取tj时刻ri音素的概率加到置信度得分中。当对应关系为删除错的时间点,第一音素序列中某音素在当前推测序列中没有对应音素,取预设的惩罚系数pd1加到置信度得分中。当对应关系为插入错的时间点,当前推测序列中音素在参考答案中没有对应音素,取预设的惩罚系数pd2加到置信度得分中,最终得到最小编辑距离加和置信度。
S210,若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。
在本申请实施例中,将最小编辑距离概率加和置信度除以第一音素序列的长度,排除音素序列的长度对计算最小编辑距离加和置信度带来的影响,得到第一最小编辑距离概率加和置信度;在第一最小编辑距离概率加和置信度大于预设阈值的情况下,根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与推测序列的第二概率,确定近似似然值置信度,即进行近似似然值置信度判决;其中,第一音素序列的第一概率根据正确和替换错的时间点对应关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应关键词的音素的概率确定;推测序列的第二概率根据正确和替换错的时间点对应推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定。具体地,近似似然值置信度的定义为:
Confindence=P(w+|x)-P(w|x)
其中,P(w++x)为第一音素序列的最高概率,P(w|x)为推测序列的最高概率。通常似然值的计算需要通过束集搜索来进行,这里可以利用最小编辑距离加和置信度判决之后的编辑距离结果来进行近似计算:
Confindence=(P(rM,S|M,S)-P(bI|I)+P(rD|D))-(P(hM,S|M,S)+P(hI|I)-P(bD|D))
其中,P(rM,S|M,S)为正确和替换错的时间点,对应关键词的音素的概率;P(bI|I)为插入错的时间点,对应blank的概率,由于插入错位置没有关键词音素与之对应,使得出现的音素概率对整体关键词概率起反作用,所以减去当前blank概率;P(rD|D)为删除错的时间点,对应关键词的音素的概率。其中,P(hM,S|M,S)为正确和替换错的时间点,对应推测序列的音素的概率;P(hI|I)为插入错的时间点,对应推测序列的音素的概率;P(hD|D)为删除错的时间点,这是与P(rD|D)对应位置的blank概率。在近似公式中,正确、替换错、插入错的时间点均可以通过之前的编辑距离计算得到。只有删除错对应的概率需要在删除错的区间内搜索。
通过上述方法得到近似似然值置信度以后,将其除以第一音素序列的长度,排除音素序列的长度对计算近似似然值置信度带来的影响,得到第一近似似然值置信度;在第一近似似然值置信度大于预设阈值的情况下,触发唤醒系统。
由上述分析可知,在依次进行的后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决三阶段判决中,如图3所示,只有通过所有三阶段判决才视为触发唤醒系统,只要其中有一个判决不通过,则直接视为负样本。
本申请实施例提供一种语音唤醒装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。
本申请实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (7)

1.一种语音唤醒方法,其特征在于,包括:
接收用户语音;
提取所述用户语音中每一帧的声学特征;
将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率;其中,所述第一音素序列是预定义的关键词的音素序列;
对所述后验概率进行最小编辑距离加和置信度判决;
若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统;
其中,所述训练后的关键词偏置声学模型包括:RNN-T网络和注意力偏置模块;
所述RNN-T网络,包括声学编码器、文本编码器和联合建模编码器;其中,所述联合建模编码器与一个softmax函数连接,所述softmax函数的输出作为所述RNN-T网络的最终输出;
所述注意力偏置模块,包括关键词编码器和注意力模块;
所述方法还包括:
针对所述第一音素序列中的每一个音素,确定出其在所述用户语音中每一帧的后验概率中的最大值;
将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度;
将所述后验概率加和置信度除以第一音素序列的长度,得到第一后验概率加和置信度;
若所述第一后验概率加和置信度大于预设阈值,则确定第一用户语音;其中,所述第一用户语音为包含关键词的用户语音;
所述对所述后验概率进行最小编辑距离加和置信度判决,包括:
对所述第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码,得到推测序列;
根据所述第一音素序列与所述推测序列的对应关系,确定最小编辑距离概率加和置信度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述关键词编码器的输出和所述文本编码器的上一状态输出,确定所述注意力模块的输出。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述注意力偏置模块的输出与所述RNN-T网络的上一状态输出进行拼接,得到拼接结果;
将所述拼接结果输入所述文本编码器中。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在训练所述关键词偏置声学模型过程中,参考答案中的部分词序列和随机生成的词序列作为关键词,以音素序列的形式输入所述关键词编码器中。
5.根据权利要求1所述的方法,其特征在于,所述若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统,包括:
将所述最小编辑距离概率加和置信度除以第一音素序列的长度,得到第一最小编辑距离概率加和置信度;
在所述第一最小编辑距离概率加和置信度大于预设阈值的情况下,根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与所述推测序列的第二概率,确定近似似然值置信度;其中,所述第一音素序列的第一概率根据正确和替换错的时间点对应所述关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应所述关键词的音素的概率确定;所述推测序列的第二概率根据正确和替换错的时间点对应所述推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定;
将所述近似似然值置信度除以第一音素序列的长度,得到第一近似似然值置信度;
在所述第一近似似然值置信度大于预设阈值的情况下,触发所述唤醒系统。
6.一种语音唤醒装置,其特征在于,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
如权利要求1-5任一项所述的方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。
CN202110437391.3A 2021-04-22 2021-04-22 一种语音唤醒方法及装置 Active CN112951211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437391.3A CN112951211B (zh) 2021-04-22 2021-04-22 一种语音唤醒方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437391.3A CN112951211B (zh) 2021-04-22 2021-04-22 一种语音唤醒方法及装置

Publications (2)

Publication Number Publication Date
CN112951211A CN112951211A (zh) 2021-06-11
CN112951211B true CN112951211B (zh) 2022-10-18

Family

ID=76233301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437391.3A Active CN112951211B (zh) 2021-04-22 2021-04-22 一种语音唤醒方法及装置

Country Status (1)

Country Link
CN (1) CN112951211B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593560B (zh) * 2021-07-29 2024-04-16 普强时代(珠海横琴)信息技术有限公司 可定制的低延时命令词识别方法及装置
CN114333799B (zh) * 2022-03-09 2022-08-02 深圳市友杰智新科技有限公司 相近音误识别的检测方法、装置和计算机设备
CN115132196A (zh) * 2022-05-18 2022-09-30 腾讯科技(深圳)有限公司 语音指令识别的方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN110033758A (zh) * 2019-04-24 2019-07-19 武汉水象电子科技有限公司 一种基于小训练集优化解码网络的语音唤醒实现方法
CN110534099A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备
CN112185367A (zh) * 2019-06-13 2021-01-05 北京地平线机器人技术研发有限公司 关键词检测方法和装置、计算机可读存储介质、电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176799B2 (en) * 2016-02-02 2019-01-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for training language models to reduce recognition errors
JP6812381B2 (ja) * 2018-02-08 2021-01-13 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN110033758A (zh) * 2019-04-24 2019-07-19 武汉水象电子科技有限公司 一种基于小训练集优化解码网络的语音唤醒实现方法
CN112185367A (zh) * 2019-06-13 2021-01-05 北京地平线机器人技术研发有限公司 关键词检测方法和装置、计算机可读存储介质、电子设备
CN110534099A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Non-autoregressive Deliberation-Attention based End-to-End ASR;Zhang Pengyuan et al.;《IEEE》;20210301;全文 *
一种任务域无关的语音关键词检测系统;韩疆等;《通信学报》;20060225(第02期);第143-147页 *
关键词检测系统中基于音素网格的置信度计算;张鹏远等;《电子与信息学报》;20070930;第2063-2066页 *
融合后验概率置信度的动态匹配词格检索;郑永军等;《融合后验概率置信度的动态匹配词格检索》;20150228;第155-161页 *

Also Published As

Publication number Publication date
CN112951211A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112951211B (zh) 一种语音唤醒方法及装置
CN111402895B (zh) 语音处理、语音评测方法、装置、计算机设备和存储介质
US7693715B2 (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
US9224386B1 (en) Discriminative language model training using a confusion matrix
CN111797632B (zh) 信息处理方法、装置及电子设备
JP5141687B2 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
CN109036471B (zh) 语音端点检测方法及设备
US20040148284A1 (en) Word recognition consistency check and error correction system and method
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN112017643B (zh) 语音识别模型训练方法、语音识别方法及相关装置
US11380315B2 (en) Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance
CN112257437A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
CN114530145B (zh) 语音识别结果纠错方法及装置、计算机可读存储介质
CN113793599A (zh) 语音识别模型的训练方法和语音识别方法及装置
JP2002358097A (ja) 音声認識装置
CN111428487A (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN115294974A (zh) 一种语音识别方法、装置、设备和存储介质
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
CN112735392A (zh) 语音处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant