CN112259085A - 一种基于模型融合框架的两阶段语音唤醒算法 - Google Patents

一种基于模型融合框架的两阶段语音唤醒算法 Download PDF

Info

Publication number
CN112259085A
CN112259085A CN202011041983.5A CN202011041983A CN112259085A CN 112259085 A CN112259085 A CN 112259085A CN 202011041983 A CN202011041983 A CN 202011041983A CN 112259085 A CN112259085 A CN 112259085A
Authority
CN
China
Prior art keywords
stage
training
network
model
model fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011041983.5A
Other languages
English (en)
Inventor
朱国锋
蔡洪滨
何昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shenghan Information Technology Co ltd
Original Assignee
Shanghai Shenghan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shenghan Information Technology Co ltd filed Critical Shanghai Shenghan Information Technology Co ltd
Priority to CN202011041983.5A priority Critical patent/CN112259085A/zh
Publication of CN112259085A publication Critical patent/CN112259085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模型融合框架的两阶段语音唤醒算法,1)准备两个不同结构的神经网络,第一阶段训练一个小模型,应用全部训练数据;2)训练结束后,所有负样本训练数据过模型得到不同的分数,将一定得分以上的音频段选出来,作为region of interest,加上原本的正样本,作为第二阶段训练的数据;3)解码时,需要输入音频通过两个模型结果都大于阈值才可以唤醒;本发明提供的一种基于模型融合框架的两阶段语音唤醒算法,通过结果层面模型融合的方式从工程上构建两个阶段的唤醒判别,使得网络层面实现简单。

Description

一种基于模型融合框架的两阶段语音唤醒算法
技术领域
本发明涉及语音识别技术领域,进一步说,尤其涉及一种基于模型融合框架的两阶段语音唤醒算法。
背景技术
语音唤醒现在逐渐开始应用在各种生活场景中,而误唤醒是多数唤醒系统的一个主要问题,尤其在例如智能家居这样的应用中,一般对误唤醒容忍度很低,且家庭语音环境复杂更容易误唤醒,本申请方案通过多个模型融合,从训练到解码两方面进行分阶段唤醒,以到达一个非常低的误唤醒水平。
经检索,申请号为201210455175.2、名称为一种语音唤醒模块的实现方法及应用的技术方案,解决技术问题是即使在嘈杂环境下不论是否有播放音乐,都可以通过语音唤醒词开启语音唤醒功能,同时语音唤醒效果好;采用的技术方案是:语音输入(1)、语音唤醒算法(2)和唤醒执行(3)步骤,语音唤醒算法(2)获取语音输入(1)的语音信号,进行语音唤醒处理后,将结果输出给唤醒执行(3),从而完成唤醒操作;所述语音唤醒算法(2)通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)来实现,具体实现过程如下:第一步,声学特征提取(4):通过语音输入(1)获取语音信号输入,提取具有区分性的、并且是基于人耳听觉特性提取的特征,选取语音识别中用到的美尔频率倒谱系数特征作为声学特征;第二步,唤醒词检测(5):将提取得到的声学特征,采用训练的声学模型(8)在唤醒词检测网络(7)上计算声学得分,如果声学得分最优的路径中包含要检测的唤醒词,则确定已检出唤醒词,进入第三步操作,否则回到第一步重新进行提取声学特征(4)步骤;第三步,唤醒词确认(6):将提取得到的声学特征,采用训练的声学模型(8)在唤醒词确认网络(9)上进行唤醒词确认,得到最终确认得分;判断该检出的唤醒词是否为真实的唤醒词,即将该唤醒词的最终确认得分和预先设定的门限,如果最终确认得分大于等于门限,则认为该唤醒词是真实的唤醒词,语音唤醒成功,将结果输出给唤醒执行(3),从而完成语音唤醒操作;如果最终确认得分小于门限,则认为该唤醒词为虚假的唤醒词,重新回到第一步重新进行声学特征提取(4)步骤。综上,可以看出,本申请方案不论其技术方案还是所解决的技术问题均不同于上述申请方案。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种基于模型融合框架的两阶段语音唤醒算法,通过结果层面模型融合的方式从工程上构建两个阶段的唤醒判别,使得网络层面实现简单其中,具体技术方案为:
1)准备两个不同结构的神经网络,第一阶段训练一个小模型,应用全部训练数据;
2)训练结束后,所有负样本训练数据过模型得到不同的分数,将一定得分以上的音频段选出来,作为region of interest,加上原本的正样本,作为第二阶段训练的数据;
3)解码时,需要输入音频通过两个模型结果都大于阈值才可以唤醒。
上述的一种基于模型融合框架的两阶段语音唤醒算法,其中:3)步骤,利用模型融合,分阶段判别唤醒。
上述的一种基于模型融合框架的两阶段语音唤醒算法,其中:1)步骤,训练阶段:
a.所有正样本数据清洗之后与所有负样本数据一起送到第一个比较小的网络训练;
b.负样本通过第一个训练好的网络,得到一批confidence,其中得分比较高的表示更接近正样本,作为第一个网络难以分别的样本,把这些部分选出来称作region ofinterest;
c.将region of interest以及所有正样本一起送入第二个较大的网络,通过focal loss中的gamma调整难样本的权重,同时网络中使用多层的splice拼接帧。
上述的一种基于模型融合框架的两阶段语音唤醒算法,其中:1)步骤,训练阶段:
训练中使用focal loss更大程度区分难样本:
FL(pt)=-(1-pt)γlog(pt).
其中,FL表示loss,pt表示logits经过softmax结果。
上述的一种基于模型融合框架的两阶段语音唤醒算法,其中:1)步骤,训练阶段:
网络层头部用rank-constrained topology,使得网络变小但保留有效信息,把splice后接的变换矩阵分解成2个小矩阵;
Figure BDA0002706914560000031
Figure BDA0002706914560000032
其中,f表示激活函数,W(m)=[wi,j (m)]表示连接输入层的网络权重,x为输入。
上述的一种基于模型融合框架的两阶段语音唤醒算法,其中:3)步骤,解码流程:
将输入音频分别通过两个训练好的模型,各得到一个confidence,设定2个阈值,当得到的两个confidence大于阈值的点时间差不超过一定范围时,认为是真的唤醒词,可以唤醒。
上述的一种基于模型融合框架的两阶段语音唤醒算法,其中:1)两个不同结构的神经网络,不同结构为大小和训练颗粒度的区别,第一阶段训练为裸的全连接神经网络。
上述的一种基于模型融合框架的两阶段语音唤醒算法,其中:2)步骤,第二个模型多为大的多层splice,相邻或间隔的多帧拼接的神经网络。
本发明相对于现有技术具有如下有益效果:通过结果层面模型融合的方式从工程上构建两个阶段的唤醒判别,使得网络层面实现简单,且有效利用了多模型融合时模型结构不同训练数据不同所带来的结果差异优势。最终在不降低唤醒率的情况下获得很好的防止误唤醒的效果。
附图说明
图1为训练阶段流程图。
图2为解码阶段流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
本申请方案创新点:
1、利用模型融合,分阶段判别唤醒;
2、训练中使用focal loss更大程度区分难样本;
FL(pt)=-(1-pt)γlog(pt).
其中,FL表示loss,pt表示logits经过softmax结果。
3、网络层头部用rank-constrained topology,使得网络变小但保留有效信息,把splice后接的变换矩阵分解成2个小矩阵。
Figure BDA0002706914560000041
Figure BDA0002706914560000042
其中,f表示激活函数,W(m)=[wi,j (m)]表示连接输入层的网络权重,x为输入。
不同模型结构不同,第二阶段大模型使用多层splice。
具体实施例为:
准备两个不同结构的神经网络,通常为大小和训练颗粒度的区别。第一阶段训练一个小模型,多为裸的全连接神经网络,应用全部训练数据。
训练结束后,所有负样本训练数据过模型得到不同的分数,将一定得分以上的音频段选出来,作为region of interest,加上原本的正样本,作为第二阶段训练的数据。第二个模型多为大的多层splice(相邻或间隔的多帧拼接)的神经网络。
解码时,需要输入音频通过两个模型结果都大于阈值才可以唤醒。
具体实施流程:
训练阶段:
所有正样本数据清洗之后与所有负样本数据一起送到第一个比较小的网络训练。
负样本通过第一个训练好的网络,得到一批confidence,其中得分比较高的表示更接近正样本,作为第一个网络难以分别的样本,把这些部分选出来称作region ofinterest。
将region of interest以及所有正样本一起送入第二个较大的网络,此网络使用focal loss更有助于区别难样本,可通过gamma调整难样本(分类错误)的权重,同时网络中使用多层的splice拼接帧,实验表明可提升模型效果。
解码流程:
将输入音频分别通过两个训练好的模型,各得到一个confidence,设定2个阈值,当得到的两个confidence大于阈值的点时间差不超过一定范围时,认为是真的唤醒词,可以唤醒。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (8)

1.一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:
1)准备两个不同结构的神经网络,第一阶段训练一个小模型,应用全部训练数据;
2)训练结束后,所有负样本训练数据过模型得到不同的分数,将一定得分以上的音频段选出来,作为region of interest,加上原本的正样本,作为第二阶段训练的数据;
3)解码时,需要输入音频通过两个模型结果都大于阈值才可以唤醒。
2.如权利要求1所述的一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:3)步骤,利用模型融合,分阶段判别唤醒。
3.如权利要求2所述的一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:1)步骤,训练阶段:
a.所有正样本数据清洗之后与所有负样本数据一起送到第一个比较小的网络训练;
b.负样本通过第一个训练好的网络,得到一批confidence,其中得分比较高的表示更接近正样本,作为第一个网络难以分别的样本,把这些部分选出来称作region ofinterest;
c.将region of interest以及所有正样本一起送入第二个较大的网络,通过focalloss中的gamma调整难样本的权重,同时网络中使用多层的splice拼接帧。
4.如权利要求3所述的一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:1)步骤,训练阶段:
训练中使用focal loss更大程度区分难样本:
FL(pt)=-(1-pt)γlog(pt).
其中,FL表示loss,pt表示logits经过softmax结果。
5.如权利要求3所述的一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:1)步骤,训练阶段:
网络层头部用rank-constrained topology,使得网络变小但保留有效信息,把splice后接的变换矩阵分解成2个小矩阵;
Figure FDA0002706914550000021
Figure FDA0002706914550000022
其中,f表示激活函数,W(m)=[wi,j (m)]表示连接输入层的网络权重,x为输入。
6.如权利要求2所述一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:3)步骤,解码流程:
将输入音频分别通过两个训练好的模型,各得到一个confidence,设定2个阈值,当得到的两个confidence大于阈值的点时间差不超过一定范围时,认为是真的唤醒词,可以唤醒。
7.如权利要求6所述一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:1)两个不同结构的神经网络,不同结构为大小和训练颗粒度的区别,第一阶段训练为裸的全连接神经网络。
8.如权利要求7所述一种基于模型融合框架的两阶段语音唤醒算法,其特征在于:2)第二个模型多为大的多层splice,相邻或间隔的多帧拼接的神经网络。
CN202011041983.5A 2020-09-28 2020-09-28 一种基于模型融合框架的两阶段语音唤醒算法 Pending CN112259085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011041983.5A CN112259085A (zh) 2020-09-28 2020-09-28 一种基于模型融合框架的两阶段语音唤醒算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011041983.5A CN112259085A (zh) 2020-09-28 2020-09-28 一种基于模型融合框架的两阶段语音唤醒算法

Publications (1)

Publication Number Publication Date
CN112259085A true CN112259085A (zh) 2021-01-22

Family

ID=74234314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011041983.5A Pending CN112259085A (zh) 2020-09-28 2020-09-28 一种基于模型融合框架的两阶段语音唤醒算法

Country Status (1)

Country Link
CN (1) CN112259085A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530415A (zh) * 2021-02-10 2021-03-19 北京百度网讯科技有限公司 负向回复识别模型获取及负向回复识别方法和装置
CN115910045A (zh) * 2023-03-10 2023-04-04 北京建筑大学 一种语音唤醒词的模型训练方法和识别方法
CN116543758A (zh) * 2023-06-27 2023-08-04 中国第一汽车股份有限公司 语音唤醒模型的更新方法、系统和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980211A (zh) * 2010-11-12 2011-02-23 百度在线网络技术(北京)有限公司 一种机器学习模型及其建立方法
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN106448663A (zh) * 2016-10-17 2017-02-22 海信集团有限公司 语音唤醒方法及语音交互装置
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN106847283A (zh) * 2017-02-28 2017-06-13 广东美的制冷设备有限公司 智能家电控制方法和装置
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN110097870A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质
CN110415699A (zh) * 2019-08-30 2019-11-05 北京声智科技有限公司 一种语音唤醒的判断方法、装置及电子设备
CN110570861A (zh) * 2019-09-24 2019-12-13 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN110970016A (zh) * 2019-10-28 2020-04-07 苏宁云计算有限公司 一种唤醒模型生成方法、智能终端唤醒方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980211A (zh) * 2010-11-12 2011-02-23 百度在线网络技术(北京)有限公司 一种机器学习模型及其建立方法
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN106448663A (zh) * 2016-10-17 2017-02-22 海信集团有限公司 语音唤醒方法及语音交互装置
CN106847283A (zh) * 2017-02-28 2017-06-13 广东美的制冷设备有限公司 智能家电控制方法和装置
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN110097870A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质
CN110415699A (zh) * 2019-08-30 2019-11-05 北京声智科技有限公司 一种语音唤醒的判断方法、装置及电子设备
CN110570861A (zh) * 2019-09-24 2019-12-13 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN110970016A (zh) * 2019-10-28 2020-04-07 苏宁云计算有限公司 一种唤醒模型生成方法、智能终端唤醒方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530415A (zh) * 2021-02-10 2021-03-19 北京百度网讯科技有限公司 负向回复识别模型获取及负向回复识别方法和装置
CN112530415B (zh) * 2021-02-10 2021-07-16 北京百度网讯科技有限公司 负向回复识别模型获取及负向回复识别方法和装置
CN115910045A (zh) * 2023-03-10 2023-04-04 北京建筑大学 一种语音唤醒词的模型训练方法和识别方法
CN116543758A (zh) * 2023-06-27 2023-08-04 中国第一汽车股份有限公司 语音唤醒模型的更新方法、系统和介质
CN116543758B (zh) * 2023-06-27 2023-09-15 中国第一汽车股份有限公司 语音唤醒模型的更新方法、系统和介质

Similar Documents

Publication Publication Date Title
CN108564941B (zh) 语音识别方法、装置、设备及存储介质
CN106098059B (zh) 可定制语音唤醒方法及系统
CN110853666B (zh) 一种说话人分离方法、装置、设备及存储介质
CN112259085A (zh) 一种基于模型融合框架的两阶段语音唤醒算法
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
KR20180065759A (ko) 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN111128223A (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN106898354B (zh) 基于dnn模型和支持向量机模型的说话人个数估计方法
CN111667818A (zh) 一种训练唤醒模型的方法及装置
US20030144837A1 (en) Collaboration of multiple automatic speech recognition (ASR) systems
CN111627423B (zh) Vad尾点检测方法、装置、服务器和计算机可读介质
WO2022100692A1 (zh) 人声音频录制方法和装置
CN111583906A (zh) 一种语音会话的角色识别方法、装置及终端
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN112802498B (zh) 语音检测方法、装置、计算机设备和存储介质
CN111833842B (zh) 合成音模板发现方法、装置以及设备
CN113889099A (zh) 一种语音识别方法及系统
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
CN112466287A (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN110265003B (zh) 一种识别广播信号中语音关键字的方法
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination