CN107910008A - 一种用于个人设备的基于多声学模型的语音识别方法 - Google Patents

一种用于个人设备的基于多声学模型的语音识别方法 Download PDF

Info

Publication number
CN107910008A
CN107910008A CN201711112751.2A CN201711112751A CN107910008A CN 107910008 A CN107910008 A CN 107910008A CN 201711112751 A CN201711112751 A CN 201711112751A CN 107910008 A CN107910008 A CN 107910008A
Authority
CN
China
Prior art keywords
mrow
model
msub
acoustic
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711112751.2A
Other languages
English (en)
Other versions
CN107910008B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Saturn Vision Technology Co ltd
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201711112751.2A priority Critical patent/CN107910008B/zh
Publication of CN107910008A publication Critical patent/CN107910008A/zh
Application granted granted Critical
Publication of CN107910008B publication Critical patent/CN107910008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Telephone Function (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种用于个人设备的基于多声学模型的语音识别方法,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。本发明可以为个人设备的语音识别模块自动添加说话人模型及其声学模型,增强语音识别系统在不同用户之间切换的环境自适应能力。

Description

一种用于个人设备的基于多声学模型的语音识别方法
技术领域
本发明属于语音识别领域,具体涉及到为个人设备中的语音识别模块配置多个与说话人相关的声学模型,对不同说话人的输入语音采用不同的声学模型进行识别,并根据识别结果调整声学模型参数的语音识别方法。
背景技术
在语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden Markov Model)作为每个语音单元的声学模型。在训练阶段,为每个语音单元采集若干个说话人的发音,用这些语音样本训练生成与说话人无关的(SI:Speaker Independent)HMM。在测试阶段,先根据输入语音对每个语音单元的SI HMM进行说话人自适应,再用自适应后的声学模型对输入语音进行识别。
在语音识别系统的每次应用中,可用的语音是非常有限的,多数HMM没有对应的数据,无法更新其参数。因此,在对SI HMM的说话人自适应中,不得不采用最大似然线性回归等基于不同模型空间相关性的模型自适应方法,假设不同声学模型的若干个高斯单元具有相同的变换关系。这就给说话人自适应带来了较大的误差。在手机、汽车导航仪等个人设备中的语音识别模块通常只有一个或几个常用的用户,所以没有必要在每次应用中都选择与说话人无关的声学模型进行说话人自适应,而是可以为每个用户配置一组与说话人相关的(SD:Speaker Dependent)HMM,并用每个用户的发音数据逐步完善其声学模型。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种用于个人设备的基于多声学模型的语音识别方法。在该方法中,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM;在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。
本发明的具体步骤如下:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型。
附图说明
图1为用于个人设备的基于多声学模型的语音识别系统的总体框架,主要包括说话人识别、多模型选择、声学解码和模型自适应模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多声学模型的语音识别方法主要包括说话人识别、多模型选择、声学解码和模型自适应模块。下面逐一详细说明附图中各主要模块的具体实施方案:
1、系统配置
为个人设备的每个用户配置说话人模型,并将每个用户的SD声学模型初始化为系统的SI声学模型。
2、说话人识别
用系统的说话人模型对输入语音进行说话人识别,得到输入语音的说话人信息。
3、多模型选择
根据说话人识别模块输出的说话人信息,从多说话人声学模型中选取当前用户的SD声学模型。如果输入语音不属于预先配置的任一用户,则选取系统的SI声学模型作为当前用户的声学模型。
4、声学解码
用选取的SD或SI声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音。
5、模型自适应
用带标注的输入语音对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配。在模型自适应中,需要将每次输入的语音都归属到每个语音单元的HMM中,用Nij表示第i个SD声学模型的第j个语音单元HMM获得的语音样本数目。
对当前语音单元的HMM,用输入语音计算模型的参数,并与原模型参数加权相加,作为当前HMM的新参数:
其中,λ表示用当前输入语音计算得到的高斯单元的均值(或方差),λN表示用以前Nij个语音样本计算得到的高斯单元的均值(或方差),λN+1表示当前HMM的新的均值(或方差)。同时,Nij的值加1。
对其他语音单元的HMM,若Nij≥1,则对其参数不做调整,保持原值即可;若Nij=0,则用最大似然线性回归调整其每个高斯单元的均值和方差。
若输入语音不属于预先配置的任一用户,选取的声学模型是系统的SIHMM,则为当前语音创建新的说话人模型,并将模型自适应后的SI HMM作为该用户的声学模型。

Claims (5)

1.一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SIHMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。
2.根据权利要求1所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于,具体包括:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD(Speaker Dependent)声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型。
3.根据权利要求2所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:在模型自适应时,记录第i个SD声学模型的第j个语音单元HMM获得的语音样本数目Nij,并用Nij对用当前输入语音计算得到的模型参数与原模型参数加权相加,作为当前HMM的新模型参数。
4.根据权利要求3所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:对当前语音单元的HMM,用输入语音计算模型的参数,并与原模型参数加权相加,作为当前HMM的新参数:
<mrow> <msub> <mi>&amp;lambda;</mi> <mrow> <mi>N</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>&amp;lambda;</mi> <mi>N</mi> </msub> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> <mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,λ表示用当前输入语音计算得到的高斯单元的均值,λN表示用以前Nij个语音样本计算得到的高斯单元的均值,λN+1表示当前HMM的新的均值;同时,Nij的值加1;
对其他语音单元的HMM,若Nij≥1,则对其参数不做调整,保持原值即可;若Nij=0,则用最大似然线性回归调整其每个高斯单元的均值和方差。
5.根据权利要求4所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:公式
<mrow> <msub> <mi>&amp;lambda;</mi> <mrow> <mi>N</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>&amp;lambda;</mi> <mi>N</mi> </msub> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> <mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,λ表示用当前输入语音计算得到的高斯单元的方差,λN表示用以前Nij个语音样本计算得到的高斯单元的方差,λN+1表示当前HMM的新的方差。
CN201711112751.2A 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法 Active CN107910008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711112751.2A CN107910008B (zh) 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711112751.2A CN107910008B (zh) 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法

Publications (2)

Publication Number Publication Date
CN107910008A true CN107910008A (zh) 2018-04-13
CN107910008B CN107910008B (zh) 2021-06-11

Family

ID=61844842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711112751.2A Active CN107910008B (zh) 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法

Country Status (1)

Country Link
CN (1) CN107910008B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610720A (zh) * 2019-09-19 2019-12-24 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110853632A (zh) * 2018-08-21 2020-02-28 蔚来汽车有限公司 基于声纹信息的语音识别方法及智能交互设备
CN110995943A (zh) * 2019-12-25 2020-04-10 携程计算机技术(上海)有限公司 多用户流式语音识别方法、系统、设备及介质
CN112634918A (zh) * 2020-09-29 2021-04-09 江苏清微智能科技有限公司 一种基于声学后验概率的任意说话人语音转换系统及方法
US20220189463A1 (en) * 2020-12-16 2022-06-16 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
US20120109650A1 (en) * 2010-10-29 2012-05-03 Electronics And Telecommunications Research Institute Apparatus and method for creating acoustic model
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN105355198A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于多重自适应的模型补偿语音识别方法
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
US20120109650A1 (en) * 2010-10-29 2012-05-03 Electronics And Telecommunications Research Institute Apparatus and method for creating acoustic model
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN105355198A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于多重自适应的模型补偿语音识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TIAN TAN: "Cluster Adaptive Training for Deep Neural Network Based Acoustic Model", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
ZHIYUAN TANG: "Multi-task recurrent model for speech and speaker recognition", 《2016 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)》 *
吕勇: "鲁棒语音识别中的特征补偿与模型自适应算法研究", 《万方数据知识服务平台》 *
齐耀辉: "自然口语语音识别中的声学建模研究", 《中国博士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853632A (zh) * 2018-08-21 2020-02-28 蔚来汽车有限公司 基于声纹信息的语音识别方法及智能交互设备
CN110610720A (zh) * 2019-09-19 2019-12-24 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110610720B (zh) * 2019-09-19 2022-02-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110995943A (zh) * 2019-12-25 2020-04-10 携程计算机技术(上海)有限公司 多用户流式语音识别方法、系统、设备及介质
CN112634918A (zh) * 2020-09-29 2021-04-09 江苏清微智能科技有限公司 一种基于声学后验概率的任意说话人语音转换系统及方法
CN112634918B (zh) * 2020-09-29 2024-04-16 江苏清微智能科技有限公司 一种基于声学后验概率的任意说话人语音转换系统及方法
US20220189463A1 (en) * 2020-12-16 2022-06-16 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Also Published As

Publication number Publication date
CN107910008B (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN107910008A (zh) 一种用于个人设备的基于多声学模型的语音识别方法
Li et al. Multi-dialect speech recognition with a single sequence-to-sequence model
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
US10515626B2 (en) Adaptive audio enhancement for multichannel speech recognition
Li et al. Neural network adaptive beamforming for robust multichannel speech recognition.
CN107195296A (zh) 一种语音识别方法、装置、终端及系统
CN100392723C (zh) 在稳定性约束下使用独立分量分析的语音处理系统和方法
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN110246487A (zh) 用于单通道的语音识别模型的优化方法及系统
CN107610717A (zh) 基于语音后验概率的多对一语音转换方法
CN104157285B (zh) 语音识别方法、装置及电子设备
CN110085251A (zh) 人声提取方法、人声提取装置及相关产品
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
CN108847249A (zh) 声音转换优化方法和系统
Lee et al. Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN106057192A (zh) 一种实时语音转换方法和装置
CN107871496A (zh) 语音识别方法和装置
JPWO2007108500A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
CN112382301B (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
CN110047478A (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
KR20040068023A (ko) 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법
CN110246484A (zh) 一种智能化英语发音自助学习系统
KR20010024521A (ko) 음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치
CN107910005A (zh) 交互文本的目标业务定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230420

Address after: 210000 2f05-a, block B, jiangdao zhicube, No. 3, Xiankun Road, Jiangxinzhou, Jianye District, Nanjing, Jiangsu Province

Patentee after: Nanjing Saturn Vision Technology Co.,Ltd.

Address before: Xikang Road, Gulou District of Nanjing city of Jiangsu Province, No. 1 210098

Patentee before: HOHAI University