CN107910008B - 一种用于个人设备的基于多声学模型的语音识别方法 - Google Patents

一种用于个人设备的基于多声学模型的语音识别方法 Download PDF

Info

Publication number
CN107910008B
CN107910008B CN201711112751.2A CN201711112751A CN107910008B CN 107910008 B CN107910008 B CN 107910008B CN 201711112751 A CN201711112751 A CN 201711112751A CN 107910008 B CN107910008 B CN 107910008B
Authority
CN
China
Prior art keywords
model
acoustic
speaker
user
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711112751.2A
Other languages
English (en)
Other versions
CN107910008A (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Saturn Vision Technology Co ltd
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201711112751.2A priority Critical patent/CN107910008B/zh
Publication of CN107910008A publication Critical patent/CN107910008A/zh
Application granted granted Critical
Publication of CN107910008B publication Critical patent/CN107910008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种用于个人设备的基于多声学模型的语音识别方法,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。本发明可以为个人设备的语音识别模块自动添加说话人模型及其声学模型,增强语音识别系统在不同用户之间切换的环境自适应能力。

Description

一种用于个人设备的基于多声学模型的语音识别方法
技术领域
本发明属于语音识别领域,具体涉及到为个人设备中的语音识别模块配置多个与说话人相关的声学模型,对不同说话人的输入语音采用不同的声学模型进行识别,并根据识别结果调整声学模型参数的语音识别方法。
背景技术
在语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden Markov Model)作为每个语音单元的声学模型。在训练阶段,为每个语音单元采集若干个说话人的发音,用这些语音样本训练生成与说话人无关的(SI:Speaker Independent)HMM。在测试阶段,先根据输入语音对每个语音单元的SI HMM进行说话人自适应,再用自适应后的声学模型对输入语音进行识别。
在语音识别系统的每次应用中,可用的语音是非常有限的,多数HMM没有对应的数据,无法更新其参数。因此,在对SI HMM的说话人自适应中,不得不采用最大似然线性回归等基于不同模型空间相关性的模型自适应方法,假设不同声学模型的若干个高斯单元具有相同的变换关系。这就给说话人自适应带来了较大的误差。在手机、汽车导航仪等个人设备中的语音识别模块通常只有一个或几个常用的用户,所以没有必要在每次应用中都选择与说话人无关的声学模型进行说话人自适应,而是可以为每个用户配置一组与说话人相关的(SD:Speaker Dependent)HMM,并用每个用户的发音数据逐步完善其声学模型。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种用于个人设备的基于多声学模型的语音识别方法。在该方法中,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM;在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。
本发明的具体步骤如下:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型。
附图说明
图1为用于个人设备的基于多声学模型的语音识别系统的总体框架,主要包括说话人识别、多模型选择、声学解码和模型自适应模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多声学模型的语音识别方法主要包括说话人识别、多模型选择、声学解码和模型自适应模块。下面逐一详细说明附图中各主要模块的具体实施方案:
1、系统配置
为个人设备的每个用户配置说话人模型,并将每个用户的SD声学模型初始化为系统的SI声学模型。
2、说话人识别
用系统的说话人模型对输入语音进行说话人识别,得到输入语音的说话人信息。
3、多模型选择
根据说话人识别模块输出的说话人信息,从多说话人声学模型中选取当前用户的SD声学模型。如果输入语音不属于预先配置的任一用户,则选取系统的SI声学模型作为当前用户的声学模型。
4、声学解码
用选取的SD或SI声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音。
5、模型自适应
用带标注的输入语音对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配。在模型自适应中,需要将每次输入的语音都归属到每个语音单元的HMM中,用Nij表示第i个SD声学模型的第j个语音单元HMM获得的语音样本数目。
对当前语音单元的HMM,用输入语音计算模型的参数,并与原模型参数加权相加,作为当前HMM的新参数:
Figure BDA0001465617060000031
其中,λ表示用当前输入语音计算得到的高斯单元的均值(或方差),λN表示用以前Nij个语音样本计算得到的高斯单元的均值(或方差),λN+1表示当前HMM的新的均值(或方差)。同时,Nij的值加1。
对其他语音单元的HMM,若Nij≥1,则对其参数不做调整,保持原值即可;若Nij=0,则用最大似然线性回归调整其每个高斯单元的均值和方差。
若输入语音不属于预先配置的任一用户,选取的声学模型是系统的SIHMM,则为当前语音创建新的说话人模型,并将模型自适应后的SI HMM作为该用户的声学模型。

Claims (3)

1.一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SIHMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数;
具体包括:
(1)为个人设备的每个用户配置说话人模型;
(2)将每个用户的SD(Speaker Dependent)声学模型初始化为SI声学模型;
(3)对输入语音进行说话人识别,得到说话人信息;
(4)根据说话人信息,从多说话人声学模型中选取当前用户的声学模型;
(5)用选取的SD声学模型对输入语音进行声学解码,得到识别结果,并输出带标注的输入语音;
(6)根据带标注的输入语音,对当前用户的SD声学模型进行模型自适应,使其参数与当前用户的输入语音相匹配;
(7)如果输入语音不属于预先配置的任一用户,则选取系统的SI HMM作为其声学模型,并创建新的说话人模型及其声学模型;
其中,在模型自适应时,记录第i个SD声学模型的第j个语音单元HMM获得的语音样本数目Nij,并用Nij对用当前输入语音计算得到的模型参数与原模型参数加权相加,作为当前HMM的新模型参数。
2.根据权利要求1所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:对当前语音单元的HMM,用输入语音计算模型的参数,并与原模型参数加权相加,作为当前HMM的新参数:
Figure FDA0003023390850000011
其中,λ表示用当前输入语音计算得到的高斯单元的均值,λN表示用以前Nij个语音样本计算得到的高斯单元的均值,λN+1表示当前HMM的新的均值;同时,Nij的值加1;
对其他语音单元的HMM,若Nij≥1,则对其参数不做调整,保持原值即可;若Nij=0,则用最大似然线性回归调整其每个高斯单元的均值和方差。
3.根据权利要求2所述的一种用于个人设备的基于多声学模型的语音识别方法,其特征在于:公式
Figure FDA0003023390850000021
其中,λ表示用当前输入语音计算得到的高斯单元的方差,λN表示用以前Nij个语音样本计算得到的高斯单元的方差,λN+1表示当前HMM的新的方差。
CN201711112751.2A 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法 Active CN107910008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711112751.2A CN107910008B (zh) 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711112751.2A CN107910008B (zh) 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法

Publications (2)

Publication Number Publication Date
CN107910008A CN107910008A (zh) 2018-04-13
CN107910008B true CN107910008B (zh) 2021-06-11

Family

ID=61844842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711112751.2A Active CN107910008B (zh) 2017-11-13 2017-11-13 一种用于个人设备的基于多声学模型的语音识别方法

Country Status (1)

Country Link
CN (1) CN107910008B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853632A (zh) * 2018-08-21 2020-02-28 蔚来汽车有限公司 基于声纹信息的语音识别方法及智能交互设备
CN110610720B (zh) * 2019-09-19 2022-02-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110995943B (zh) * 2019-12-25 2021-05-07 携程计算机技术(上海)有限公司 多用户流式语音识别方法、系统、设备及介质
CN112634918B (zh) * 2020-09-29 2024-04-16 江苏清微智能科技有限公司 一种基于声学后验概率的任意说话人语音转换系统及方法
US20220189463A1 (en) * 2020-12-16 2022-06-16 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN105355198A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于多重自适应的模型补偿语音识别方法
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN105355198A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于多重自适应的模型补偿语音识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Cluster Adaptive Training for Deep Neural Network Based Acoustic Model;Tian Tan;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20151223;第459-468页 *
Multi-task recurrent model for speech and speaker recognition;Zhiyuan Tang;《2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)》;20170119;全文 *
自然口语语音识别中的声学建模研究;齐耀辉;《中国博士学位论文全文数据库》;20150430(第4期);I136-26 *
鲁棒语音识别中的特征补偿与模型自适应算法研究;吕勇;《万方数据知识服务平台》;20101231;全文 *

Also Published As

Publication number Publication date
CN107910008A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107910008B (zh) 一种用于个人设备的基于多声学模型的语音识别方法
CN106688034B (zh) 具有情感内容的文字至语音转换
CN110178178B (zh) 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割
US8935167B2 (en) Exemplar-based latent perceptual modeling for automatic speech recognition
US7813927B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US8996366B2 (en) Multi-stage speaker adaptation
US10062374B2 (en) Methods and apparatus for training a transformation component
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
JP2002014692A (ja) 音響モデル作成装置及びその方法
US11651767B2 (en) Metric learning of speaker diarization
KR20180025634A (ko) 음성 인식 장치 및 방법
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
Ben-Harush et al. Initialization of iterative-based speaker diarization systems for telephone conversations
JP6985221B2 (ja) 音声認識装置及び音声認識方法
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
CN102237086A (zh) 用于语音识别设备的补偿装置和方法
Sakti et al. Deep bottleneck features and sound-dependent i-vectors for simultaneous recognition of speech and environmental sounds
Zwyssig Speech processing using digital MEMS microphones
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Amornkul et al. Addable stress speech recognition with multiplexing hmm: Training and non-training decision
Chen et al. Recognizing zero-resourced languages based on mismatched machine transcriptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230420

Address after: 210000 2f05-a, block B, jiangdao zhicube, No. 3, Xiankun Road, Jiangxinzhou, Jianye District, Nanjing, Jiangsu Province

Patentee after: Nanjing Saturn Vision Technology Co.,Ltd.

Address before: Xikang Road, Gulou District of Nanjing city of Jiangsu Province, No. 1 210098

Patentee before: HOHAI University

TR01 Transfer of patent right