CN107910008B - 一种用于个人设备的基于多声学模型的语音识别方法 - Google Patents
一种用于个人设备的基于多声学模型的语音识别方法 Download PDFInfo
- Publication number
- CN107910008B CN107910008B CN201711112751.2A CN201711112751A CN107910008B CN 107910008 B CN107910008 B CN 107910008B CN 201711112751 A CN201711112751 A CN 201711112751A CN 107910008 B CN107910008 B CN 107910008B
- Authority
- CN
- China
- Prior art keywords
- model
- acoustic
- speaker
- user
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000006978 adaptation Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Stereophonic System (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种用于个人设备的基于多声学模型的语音识别方法,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。本发明可以为个人设备的语音识别模块自动添加说话人模型及其声学模型,增强语音识别系统在不同用户之间切换的环境自适应能力。
Description
技术领域
本发明属于语音识别领域,具体涉及到为个人设备中的语音识别模块配置多个与说话人相关的声学模型,对不同说话人的输入语音采用不同的声学模型进行识别,并根据识别结果调整声学模型参数的语音识别方法。
背景技术
在语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden Markov Model)作为每个语音单元的声学模型。在训练阶段,为每个语音单元采集若干个说话人的发音,用这些语音样本训练生成与说话人无关的(SI:Speaker Independent)HMM。在测试阶段,先根据输入语音对每个语音单元的SI HMM进行说话人自适应,再用自适应后的声学模型对输入语音进行识别。
在语音识别系统的每次应用中,可用的语音是非常有限的,多数HMM没有对应的数据,无法更新其参数。因此,在对SI HMM的说话人自适应中,不得不采用最大似然线性回归等基于不同模型空间相关性的模型自适应方法,假设不同声学模型的若干个高斯单元具有相同的变换关系。这就给说话人自适应带来了较大的误差。在手机、汽车导航仪等个人设备中的语音识别模块通常只有一个或几个常用的用户,所以没有必要在每次应用中都选择与说话人无关的声学模型进行说话人自适应,而是可以为每个用户配置一组与说话人相关的(SD:Speaker Dependent)HMM,并用每个用户的发音数据逐步完善其声学模型。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种用于个人设备的基于多声学模型的语音识别方法。在该方法中,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM;在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。
本发明的具体步骤如下:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型。
附图说明
图1为用于个人设备的基于多声学模型的语音识别系统的总体框架,主要包括说话人识别、多模型选择、声学解码和模型自适应模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多声学模型的语音识别方法主要包括说话人识别、多模型选择、声学解码和模型自适应模块。下面逐一详细说明附图中各主要模块的具体实施方案:
1、系统配置
为个人设备的每个用户配置说话人模型,并将每个用户的SD声学模型初始化为系统的SI声学模型。
2、说话人识别
用系统的说话人模型对输入语音进行说话人识别,得到输入语音的说话人信息。
3、多模型选择
根据说话人识别模块输出的说话人信息,从多说话人声学模型中选取当前用户的SD声学模型。如果输入语音不属于预先配置的任一用户,则选取系统的SI声学模型作为当前用户的声学模型。
4、声学解码
用选取的SD或SI声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音。
5、模型自适应
用带标注的输入语音对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配。在模型自适应中,需要将每次输入的语音都归属到每个语音单元的HMM中,用Nij表示第i个SD声学模型的第j个语音单元HMM获得的语音样本数目。
对当前语音单元的HMM,用输入语音计算模型的参数,并与原模型参数加权相加,作为当前HMM的新参数:
其中,λ表示用当前输入语音计算得到的高斯单元的均值(或方差),λN表示用以前Nij个语音样本计算得到的高斯单元的均值(或方差),λN+1表示当前HMM的新的均值(或方差)。同时,Nij的值加1。
对其他语音单元的HMM,若Nij≥1,则对其参数不做调整,保持原值即可;若Nij=0,则用最大似然线性回归调整其每个高斯单元的均值和方差。
若输入语音不属于预先配置的任一用户,选取的声学模型是系统的SIHMM,则为当前语音创建新的说话人模型,并将模型自适应后的SI HMM作为该用户的声学模型。
Claims (3)
1.一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SIHMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数;
具体包括:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD(Speaker Dependent)声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型;
其中,在模型自适应时,记录第i个SD声学模型的第j个语音单元HMM获得的语音样本数目Nij,并用Nij对用当前输入语音计算得到的模型参数与原模型参数加权相加,作为当前HMM的新模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112751.2A CN107910008B (zh) | 2017-11-13 | 2017-11-13 | 一种用于个人设备的基于多声学模型的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112751.2A CN107910008B (zh) | 2017-11-13 | 2017-11-13 | 一种用于个人设备的基于多声学模型的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107910008A CN107910008A (zh) | 2018-04-13 |
CN107910008B true CN107910008B (zh) | 2021-06-11 |
Family
ID=61844842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711112751.2A Active CN107910008B (zh) | 2017-11-13 | 2017-11-13 | 一种用于个人设备的基于多声学模型的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107910008B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853632A (zh) * | 2018-08-21 | 2020-02-28 | 蔚来汽车有限公司 | 基于声纹信息的语音识别方法及智能交互设备 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110995943B (zh) * | 2019-12-25 | 2021-05-07 | 携程计算机技术(上海)有限公司 | 多用户流式语音识别方法、系统、设备及介质 |
CN112634918B (zh) * | 2020-09-29 | 2024-04-16 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
US20220189463A1 (en) * | 2020-12-16 | 2022-06-16 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120045582A (ko) * | 2010-10-29 | 2012-05-09 | 한국전자통신연구원 | 음향 모델 생성 장치 및 방법 |
-
2017
- 2017-11-13 CN CN201711112751.2A patent/CN107910008B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
Non-Patent Citations (4)
Title |
---|
Cluster Adaptive Training for Deep Neural Network Based Acoustic Model;Tian Tan;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20151223;第459-468页 * |
Multi-task recurrent model for speech and speaker recognition;Zhiyuan Tang;《2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)》;20170119;全文 * |
自然口语语音识别中的声学建模研究;齐耀辉;《中国博士学位论文全文数据库》;20150430(第4期);I136-26 * |
鲁棒语音识别中的特征补偿与模型自适应算法研究;吕勇;《万方数据知识服务平台》;20101231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107910008A (zh) | 2018-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107910008B (zh) | 一种用于个人设备的基于多声学模型的语音识别方法 | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
CN110178178B (zh) | 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割 | |
US8935167B2 (en) | Exemplar-based latent perceptual modeling for automatic speech recognition | |
US7813927B2 (en) | Method and apparatus for training a text independent speaker recognition system using speech data with text labels | |
US8996366B2 (en) | Multi-stage speaker adaptation | |
US10062374B2 (en) | Methods and apparatus for training a transformation component | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
CN103280216B (zh) | 改进依赖上下文的语音识别器对环境变化的鲁棒性 | |
KR101807948B1 (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
JP2017097162A (ja) | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
US11651767B2 (en) | Metric learning of speaker diarization | |
KR20180025634A (ko) | 음성 인식 장치 및 방법 | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
Ben-Harush et al. | Initialization of iterative-based speaker diarization systems for telephone conversations | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
CN102237086A (zh) | 用于语音识别设备的补偿装置和方法 | |
Sakti et al. | Deep bottleneck features and sound-dependent i-vectors for simultaneous recognition of speech and environmental sounds | |
Zwyssig | Speech processing using digital MEMS microphones | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
Amornkul et al. | Addable stress speech recognition with multiplexing hmm: Training and non-training decision | |
Chen et al. | Recognizing zero-resourced languages based on mismatched machine transcriptions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230420 Address after: 210000 2f05-a, block B, jiangdao zhicube, No. 3, Xiankun Road, Jiangxinzhou, Jianye District, Nanjing, Jiangsu Province Patentee after: Nanjing Saturn Vision Technology Co.,Ltd. Address before: Xikang Road, Gulou District of Nanjing city of Jiangsu Province, No. 1 210098 Patentee before: HOHAI University |
|
TR01 | Transfer of patent right |