CN107910008A - 一种用于个人设备的基于多声学模型的语音识别方法 - Google Patents
一种用于个人设备的基于多声学模型的语音识别方法 Download PDFInfo
- Publication number
- CN107910008A CN107910008A CN201711112751.2A CN201711112751A CN107910008A CN 107910008 A CN107910008 A CN 107910008A CN 201711112751 A CN201711112751 A CN 201711112751A CN 107910008 A CN107910008 A CN 107910008A
- Authority
- CN
- China
- Prior art keywords
- mrow
- model
- msub
- acoustic
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000006978 adaptation Effects 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Telephone Function (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种用于个人设备的基于多声学模型的语音识别方法,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。本发明可以为个人设备的语音识别模块自动添加说话人模型及其声学模型,增强语音识别系统在不同用户之间切换的环境自适应能力。
Description
技术领域
本发明属于语音识别领域,具体涉及到为个人设备中的语音识别模块配置多个与说话人相关的声学模型,对不同说话人的输入语音采用不同的声学模型进行识别,并根据识别结果调整声学模型参数的语音识别方法。
背景技术
在语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden Markov Model)作为每个语音单元的声学模型。在训练阶段,为每个语音单元采集若干个说话人的发音,用这些语音样本训练生成与说话人无关的(SI:Speaker Independent)HMM。在测试阶段,先根据输入语音对每个语音单元的SI HMM进行说话人自适应,再用自适应后的声学模型对输入语音进行识别。
在语音识别系统的每次应用中,可用的语音是非常有限的,多数HMM没有对应的数据,无法更新其参数。因此,在对SI HMM的说话人自适应中,不得不采用最大似然线性回归等基于不同模型空间相关性的模型自适应方法,假设不同声学模型的若干个高斯单元具有相同的变换关系。这就给说话人自适应带来了较大的误差。在手机、汽车导航仪等个人设备中的语音识别模块通常只有一个或几个常用的用户,所以没有必要在每次应用中都选择与说话人无关的声学模型进行说话人自适应,而是可以为每个用户配置一组与说话人相关的(SD:Speaker Dependent)HMM,并用每个用户的发音数据逐步完善其声学模型。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种用于个人设备的基于多声学模型的语音识别方法。在该方法中,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM;在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。
本发明的具体步骤如下:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型。
附图说明
图1为用于个人设备的基于多声学模型的语音识别系统的总体框架,主要包括说话人识别、多模型选择、声学解码和模型自适应模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多声学模型的语音识别方法主要包括说话人识别、多模型选择、声学解码和模型自适应模块。下面逐一详细说明附图中各主要模块的具体实施方案:
1、系统配置
为个人设备的每个用户配置说话人模型,并将每个用户的SD声学模型初始化为系统的SI声学模型。
2、说话人识别
用系统的说话人模型对输入语音进行说话人识别,得到输入语音的说话人信息。
3、多模型选择
根据说话人识别模块输出的说话人信息,从多说话人声学模型中选取当前用户的SD声学模型。如果输入语音不属于预先配置的任一用户,则选取系统的SI声学模型作为当前用户的声学模型。
4、声学解码
用选取的SD或SI声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音。
5、模型自适应
用带标注的输入语音对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配。在模型自适应中,需要将每次输入的语音都归属到每个语音单元的HMM中,用Nij表示第i个SD声学模型的第j个语音单元HMM获得的语音样本数目。
对当前语音单元的HMM,用输入语音计算模型的参数,并与原模型参数加权相加,作为当前HMM的新参数:
其中,λ表示用当前输入语音计算得到的高斯单元的均值(或方差),λN表示用以前Nij个语音样本计算得到的高斯单元的均值(或方差),λN+1表示当前HMM的新的均值(或方差)。同时,Nij的值加1。
对其他语音单元的HMM,若Nij≥1,则对其参数不做调整,保持原值即可;若Nij=0,则用最大似然线性回归调整其每个高斯单元的均值和方差。
若输入语音不属于预先配置的任一用户,选取的声学模型是系统的SIHMM,则为当前语音创建新的说话人模型,并将模型自适应后的SI HMM作为该用户的声学模型。
Claims (5)
1.一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SIHMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。
2.根据权利要求1所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于,具体包括:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD(Speaker Dependent)声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型。
3.根据权利要求2所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:在模型自适应时,记录第i个SD声学模型的第j个语音单元HMM获得的语音样本数目Nij,并用Nij对用当前输入语音计算得到的模型参数与原模型参数加权相加,作为当前HMM的新模型参数。
4.根据权利要求3所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:对当前语音单元的HMM,用输入语音计算模型的参数,并与原模型参数加权相加,作为当前HMM的新参数:
<mrow>
<msub>
<mi>&lambda;</mi>
<mrow>
<mi>N</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>&lambda;</mi>
<mi>N</mi>
</msub>
<mo>+</mo>
<mi>&lambda;</mi>
</mrow>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,λ表示用当前输入语音计算得到的高斯单元的均值,λN表示用以前Nij个语音样本计算得到的高斯单元的均值,λN+1表示当前HMM的新的均值;同时,Nij的值加1;
对其他语音单元的HMM,若Nij≥1,则对其参数不做调整,保持原值即可;若Nij=0,则用最大似然线性回归调整其每个高斯单元的均值和方差。
5.根据权利要求4所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:公式
<mrow>
<msub>
<mi>&lambda;</mi>
<mrow>
<mi>N</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>&lambda;</mi>
<mi>N</mi>
</msub>
<mo>+</mo>
<mi>&lambda;</mi>
</mrow>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,λ表示用当前输入语音计算得到的高斯单元的方差,λN表示用以前Nij个语音样本计算得到的高斯单元的方差,λN+1表示当前HMM的新的方差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112751.2A CN107910008B (zh) | 2017-11-13 | 2017-11-13 | 一种用于个人设备的基于多声学模型的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112751.2A CN107910008B (zh) | 2017-11-13 | 2017-11-13 | 一种用于个人设备的基于多声学模型的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107910008A true CN107910008A (zh) | 2018-04-13 |
CN107910008B CN107910008B (zh) | 2021-06-11 |
Family
ID=61844842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711112751.2A Active CN107910008B (zh) | 2017-11-13 | 2017-11-13 | 一种用于个人设备的基于多声学模型的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107910008B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610720A (zh) * | 2019-09-19 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110853632A (zh) * | 2018-08-21 | 2020-02-28 | 蔚来汽车有限公司 | 基于声纹信息的语音识别方法及智能交互设备 |
CN110995943A (zh) * | 2019-12-25 | 2020-04-10 | 携程计算机技术(上海)有限公司 | 多用户流式语音识别方法、系统、设备及介质 |
CN112634918A (zh) * | 2020-09-29 | 2021-04-09 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
US20220189463A1 (en) * | 2020-12-16 | 2022-06-16 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
US20120109650A1 (en) * | 2010-10-29 | 2012-05-03 | Electronics And Telecommunications Research Institute | Apparatus and method for creating acoustic model |
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
-
2017
- 2017-11-13 CN CN201711112751.2A patent/CN107910008B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
US20120109650A1 (en) * | 2010-10-29 | 2012-05-03 | Electronics And Telecommunications Research Institute | Apparatus and method for creating acoustic model |
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
Non-Patent Citations (4)
Title |
---|
TIAN TAN: "Cluster Adaptive Training for Deep Neural Network Based Acoustic Model", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
ZHIYUAN TANG: "Multi-task recurrent model for speech and speaker recognition", 《2016 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)》 * |
吕勇: "鲁棒语音识别中的特征补偿与模型自适应算法研究", 《万方数据知识服务平台》 * |
齐耀辉: "自然口语语音识别中的声学建模研究", 《中国博士学位论文全文数据库》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853632A (zh) * | 2018-08-21 | 2020-02-28 | 蔚来汽车有限公司 | 基于声纹信息的语音识别方法及智能交互设备 |
CN110610720A (zh) * | 2019-09-19 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110995943A (zh) * | 2019-12-25 | 2020-04-10 | 携程计算机技术(上海)有限公司 | 多用户流式语音识别方法、系统、设备及介质 |
CN112634918A (zh) * | 2020-09-29 | 2021-04-09 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
CN112634918B (zh) * | 2020-09-29 | 2024-04-16 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
US20220189463A1 (en) * | 2020-12-16 | 2022-06-16 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Also Published As
Publication number | Publication date |
---|---|
CN107910008B (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107910008A (zh) | 一种用于个人设备的基于多声学模型的语音识别方法 | |
Li et al. | Multi-dialect speech recognition with a single sequence-to-sequence model | |
Qian et al. | Very deep convolutional neural networks for noise robust speech recognition | |
US10515626B2 (en) | Adaptive audio enhancement for multichannel speech recognition | |
Li et al. | Neural network adaptive beamforming for robust multichannel speech recognition. | |
CN107195296A (zh) | 一种语音识别方法、装置、终端及系统 | |
CN100392723C (zh) | 在稳定性约束下使用独立分量分析的语音处理系统和方法 | |
CN103065620B (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN110246487A (zh) | 用于单通道的语音识别模型的优化方法及系统 | |
CN107610717A (zh) | 基于语音后验概率的多对一语音转换方法 | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
CN110085251A (zh) | 人声提取方法、人声提取装置及相关产品 | |
CN103280216B (zh) | 改进依赖上下文的语音识别器对环境变化的鲁棒性 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
Lee et al. | Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN107871496A (zh) | 语音识别方法和装置 | |
JPWO2007108500A1 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
CN110047478A (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
KR20040068023A (ko) | 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 | |
CN110246484A (zh) | 一种智能化英语发音自助学习系统 | |
KR20010024521A (ko) | 음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치 | |
CN107910005A (zh) | 交互文本的目标业务定位方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230420 Address after: 210000 2f05-a, block B, jiangdao zhicube, No. 3, Xiankun Road, Jiangxinzhou, Jianye District, Nanjing, Jiangsu Province Patentee after: Nanjing Saturn Vision Technology Co.,Ltd. Address before: Xikang Road, Gulou District of Nanjing city of Jiangsu Province, No. 1 210098 Patentee before: HOHAI University |