CN108172215A - 结合声效模式检测的语音识别方法 - Google Patents

结合声效模式检测的语音识别方法 Download PDF

Info

Publication number
CN108172215A
CN108172215A CN201810017095.6A CN201810017095A CN108172215A CN 108172215 A CN108172215 A CN 108172215A CN 201810017095 A CN201810017095 A CN 201810017095A CN 108172215 A CN108172215 A CN 108172215A
Authority
CN
China
Prior art keywords
sound effect
vowel
effect pattern
mode detection
reserve pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810017095.6A
Other languages
English (en)
Other versions
CN108172215B (zh
Inventor
晁浩
智慧来
刘志中
刘永利
鲁保云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201810017095.6A priority Critical patent/CN108172215B/zh
Publication of CN108172215A publication Critical patent/CN108172215A/zh
Application granted granted Critical
Publication of CN108172215B publication Critical patent/CN108172215B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

本发明公开了一种结合声效模式检测的语音识别方法。该方法包括如下步骤:接收语音信号;检测所述语音信号中的元音,生成元音集合;提取元音集合中每一个元音的声学特征序列;根据回声状态网络将元音集合中每一个元音的声学特征序列转换为用于声效模式检测的段特征矢量;根据元音集合中每一个元音的段特征矢量检测所述语音信号的声效模式;从预置的声学模型集中选择所述语音信号的声效模式对应的声学模型子集;根据声学模型子集对所述语音信号进行解码。

Description

结合声效模式检测的语音识别方法
技术领域
本发明涉及语音识别领域,特别涉及一种结合声效模式检测的语音识别方法。
背景技术
声音效果(Vocal Effort)简称声效,是正常人的一种发音变化的衡量,而这种发音变化是人出于正常交流的需要,根据交流时双方距离的远近或背景噪声的高低自动调整发音方式所产生的。通常将声效由低到高分为五个量级/模式:耳语、轻声、正常、大声、高喊。在现实的环境中,人们不可能一直都在同一种声效水平下交流:在图书馆或者自习室里需要通过耳语的方式交流;在吵杂的场合需要大声说话对方才能听见;而在嘈杂的工厂车间可能就需要通过高喊的方式才能够交流。
近年来语音识别技术已进入实用的阶段,并取得很好的效果。但是目前的语音识别技术主要还是针对正常声音效果下的语音信号。声效模式的改变使得语音信号的声学特性发生了变化,因此正常声效模式的语音识别系统在识别其它四种声效模式(特别是耳语模式)的语音信号时识别精度会有较大幅度的下降,使得语音识别技术的适用范围较窄。
发明内容
本发明的目的在于针对现有技术中的语音识别方法在识别其它四种声效模式的语音信号时精度不高的缺陷,提出一种结合声效模式检测的语音识别方法,能够精确地检测待识别语音信号所属的声效模式,并在此基础上提高对所有声效模式的语音信号的识别精度,扩展语音识别技术的适用范围。
本发明公开了一种结合声效模式检测的语音识别方法,其具体包括以下步骤:
步骤1、接收语音信号;
步骤2、检测所述语音信号中的元音,生成元音集合;
步骤3、提取所述元音集合中每一个元音的声学特征序列;
步骤4、根据回声状态网络将所述元音集合中每一个元音的声学特征序列转换为用于声效模式检测的段特征矢量;
步骤5、根据所述元音集合中每一个元音的段特征矢量检测所述语音信号的声效模式;
步骤6、从预置的声学模型集中选择所述语音信号的声效模式对应的声学模型子集;
步骤7、根据所述声学模型子集对所述语音信号进行解码。
上述技术方案中,步骤4利用回声状态网络将声学特征序列转换为声效相关特征矢量,即将基于语音帧的特征序列转换为描述语音段的特征矢量。在这个过程中由于回声状态网络储备池存在自反馈环节,能有效利用相邻语音帧之间存在的内在联系,提高声效模式识别精度。在此基础上,步骤6中预置的声学模型集共包含了5个声学模型子集,每个声学模型子集分别对应一种声效模式,而每一个声学模型子集在训练时使用的是对应声效模式的语料库,这样每个声学模型子集中的声学模型能很好地拟合其对应声效模式语音的声学特性。在识别时先准确地检测出语音信号的声效模式,再利用对应的声学模型子集来进行解码,就可以有效地提高语音识别的精度,扩展语音识别技术的应用范围。
附图说明
图1是根据本发明的一种结合声效模式检测的语音识别方法的流程图;
图2是根据本发明的一个回声状态网络的结构示意图。。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为根据本发明的一种结合声效模式检测的语音识别方法的流程图。其中,接收的语音信号为连续语音,对应一个语句。
如图1所示,所述结合声效模式检测的语音识别方法包括如下步骤:
步骤101、接收语音信号;
步骤102、检测语音信号中的元音,生成元音集合;
步骤103、提取元音集合中每一个元音的声学特征序列;其中,声学特征为基于帧的12维梅尔频率倒谱系数以及它们的一阶及二阶差分,共36维;
步骤104、根据回声状态网络将元音集合中每一个元音的声学特征序列转换为用于声效模式检测的段特征矢量;
步骤105、根据元音集合中每一个元音的段特征矢量检测语音信号的声效模式;
步骤106、从预置的声学模型集中选择语音信号的声效模式对应的声学模型子集;
步骤107、根据声学模型子集对语音信号进行解码。
在步骤104中,所述回声状态网络的结构如图2所示:
在图2中,该回声状态网络包含输入层、储备池和输出层。输入层包含了36个节点,用于接收所述声学特征序列中当前帧n的声学特征x(n);储备池包含了100个稀疏连接的节点;y(n)表示输出层的输出值向量,Win表示回声状态网络中输入层和储备池之间的连接权重矩阵,W表示储备池内部连接的权重矩阵,Wout表示储备池和输出层之间的连接权重矩阵;其中,Win和W随机产生,一经产生就固定不变。
当前帧n的声学特征x(n)输入回声状态网络后,计算得到储备池中各节点的输出值组成的向量,即是储备池的第n步状态值向量r(n),r(n)通过如下公式更新得到:
r(n)=g(W·r(n-1)+Win·x(n))
其中,r(n-1)表示储备池的第n-1步状态值向量,g(·)表示储备池结点的激励函数,为双曲正切函数。
步骤104的具体步骤包含:
步骤1041、随机初始化回声状态网络中储备池的起始状态值向量r(0);
步骤1042、将该元音的声学特征序列中前5个特征向量依次输入到回声状态网络,并更新储备池的状态值向量;
步骤1043、将储备池当前的状态值向量r(5)作为起始状态值向量r(0),即r(0)=r(5);其中步骤1042和步骤1043主要是为了降低步骤1041中随机初始化的负面影响;
步骤1044、将该元音的声学特征序列中的各个特征向量依次输入到回声状态网络,并更新储备池的状态值向量;
步骤1045、把储备池当前的状态值向量作为该元音的段特征矢量。
通过步骤104可以将元音信号基于帧的特征序列转换为描述整个元音信号段的段特征矢量,其中所述段特征矢量包含了100个分量,对应储备池中100个稀疏连接的节点。
步骤105的具体步骤包含:
步骤1051:根据元音集合中每一个元音的段特征矢量将元音集合分别与多个候选声效模式进行匹配,生成每一个候选声效模式的匹配值;
步骤1052、将匹配值最大的候选声效模式确定为语音信号的声效模式。
在步骤1051中,每一个候选声效模式的匹配值通过如下公式确定:
其中,E表示该候选声效模式,ME表示该候选声效模式的匹配值,Vset表示所述元音集合,v表示所述元音集合Vset中的某个元音,P(E|v)表示元音v的声效模式为E的概率,N表示元音集合Vset中的元音个数。
而元音v的声效模式为E的概率P(E|v)的具体计算过程如下:将元音v的段特征矢量输入到候选声效模式E的径向基函数网络,并计算所述径向基函数网络的输出值,所述输出值即为P(E|v)。由于径向基函数网络用于估计概率值,所以其输出层只有一个节点。
上述技术方案中,步骤104利用回声状态网络将基于帧的特征序列转换为段特征。由于回声状态网络的储备池存在自反馈环节,能有效利用相邻语音帧之间存在的内在联系。因此,相比基于帧的特征序列,段特征对于声效模式具有更强的区分能力。同时,径向基函数网络被用于计算元音属于某种声效模式的概率值,并以此判断语音信号的声效模式,从而能够有效地提高声效模式检测的精度。
在此基础上,步骤106中预置的声学模型集共包含了5个声学模型子集,每个声学模型子集分别对应一种声效模式,而每一个声学模型子集在训练时使用的是对应声效模式的语料库,这样每个声学模型子集中的声学模型能很好地拟合其对应声效模式语音的声学特性。在识别时先准确地检测出语音信号的声效模式,再利用对应的声学模型子集来进行解码,就可以有效地提高语音识别的精度,扩展语音识别技术的应用范围。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种结合声效模式检测的语音识别方法,其特征在于,包括如下步骤:
步骤1、接收语音信号;
步骤2、检测所述语音信号中的元音,生成元音集合;
步骤3、提取所述元音集合中每一个元音的声学特征序列;
步骤4、根据回声状态网络将所述元音集合中每一个元音的声学特征序列转换为用于声效模式检测的段特征矢量;
步骤5、根据所述元音集合中每一个元音的段特征矢量检测所述语音信号的声效模式;
步骤6、从预置的声学模型集中选择所述语音信号的声效模式对应的声学模型子集;
步骤7、根据所述声学模型子集对所述语音信号进行解码。
2.根据权利要求1所述的结合声效模式检测的语音识别方法,其特征在于,步骤4具体包括:
步骤41、随机初始化回声状态网络中储备池的起始状态值向量;
步骤42、将该元音的声学特征序列中前5个特征向量依次输入到所述回声状态网络,并更新储备池的状态值向量;
步骤43、将所述储备池当前的状态值向量作为起始状态值向量;
步骤44、将该元音的声学特征序列中的各个特征向量依次输入到所述回声状态网络,并更新储备池的状态值向量;
步骤45、把所述储备池当前的状态值向量作为该元音的段特征矢量。
3.根据权利要求2所述的结合声效模式检测的语音识别方法,其特征在于所述步骤42和所述步骤44中,更新储备池的状态值向量根据如下公式进行:
r(n)=g(W·r(n-1)+Win·x(n))
其中,r(n-1)表示储备池的第n-1步状态值向量,r(n)表示储备池的第n步状态值向量,当n=0时r(0)表示储备池的起始状态值向量,x(n)表示所述声学特征序列中第n个特征向量,g(·)表示储备池结点的激励函数,Win表示所述回声状态网络中输入层和储备池之间的连接权重矩阵,W表示储备池内部连接的权重矩阵。
4.根据权利要求3所述的结合声效模式检测的语音识别方法,其特征在于,步骤5具体包括:
步骤51:根据所述元音集合中每一个元音的段特征矢量将所述元音集合分别与多个候选声效模式进行匹配,生成每一个候选声效模式的匹配值;
步骤52、将匹配值最大的候选声效模式确定为所述语音信号的声效模式。
5.根据权利要求4所述的结合声效模式检测的语音识别方法,其特征在于,所述步骤51中,每一个候选声效模式的匹配值通过如下公式确定:
其中,E表示该候选声效模式,ME表示该候选声效模式的匹配值,Vset表示所述元音集合,v表示所述元音集合Vset中的某个元音,P(E|v)表示元音v的声效模式为E的概率,N表示元音集合Vset中的元音个数。
6.根据权利要求5所述的结合声效模式检测的语音识别方法,其特征在于,所述步骤51中,元音v的声效模式为E的概率P(E|v)的具体计算过程如下:
将元音v的段特征矢量输入到候选声效模式E的径向基函数网络,并计算所述径向基函数网络的输出值,所述输出值即为P(E|v)。
7.根据权利要求6所述的结合声效模式检测的语音识别方法,其特征在于,所述步骤3中的声学特征为12维梅尔频率倒谱系数以及它们的一阶及二阶差分。
8.根据权利要求7所述的结合声效模式检测的语音识别方法,其特征在于,所述储备池结点的激励函数g(·)为双曲正切函数。
9.根据权利要求8所述的结合声效模式检测的语音识别方法,其特征在于所述步骤51中,候选声效模式E的径向基函数网络的隐含层节点采用高斯核函数,并且输出层包含一个节点。
CN201810017095.6A 2018-01-09 2018-01-09 结合声效模式检测的语音识别方法 Expired - Fee Related CN108172215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810017095.6A CN108172215B (zh) 2018-01-09 2018-01-09 结合声效模式检测的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810017095.6A CN108172215B (zh) 2018-01-09 2018-01-09 结合声效模式检测的语音识别方法

Publications (2)

Publication Number Publication Date
CN108172215A true CN108172215A (zh) 2018-06-15
CN108172215B CN108172215B (zh) 2020-09-25

Family

ID=62517683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810017095.6A Expired - Fee Related CN108172215B (zh) 2018-01-09 2018-01-09 结合声效模式检测的语音识别方法

Country Status (1)

Country Link
CN (1) CN108172215B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
US20160073257A1 (en) * 2014-09-04 2016-03-10 Wedoey, Inc. Console Display Terminal
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN106023986A (zh) * 2016-05-05 2016-10-12 河南理工大学 一种基于声效模式检测的语音识别方法
US20170076740A1 (en) * 2015-09-14 2017-03-16 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
CN107039046A (zh) * 2017-03-21 2017-08-11 河南理工大学 一种基于特征融合的语音声效模式检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
US20160073257A1 (en) * 2014-09-04 2016-03-10 Wedoey, Inc. Console Display Terminal
US20170076740A1 (en) * 2015-09-14 2017-03-16 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
CN106023986A (zh) * 2016-05-05 2016-10-12 河南理工大学 一种基于声效模式检测的语音识别方法
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN107039046A (zh) * 2017-03-21 2017-08-11 河南理工大学 一种基于特征融合的语音声效模式检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SARAH COSENTINO等: ""Quantitative Laughter Detection, Measurement, and Classification—A Critical Survey"", 《IEEE REVIEWS IN BIOMEDICAL ENGINEERING》 *
晁浩 等: ""基于元音模板匹配的声效多级检测"", 《北京邮电大学学报》 *

Also Published As

Publication number Publication date
CN108172215B (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
Sudhakara et al. An Improved Goodness of Pronunciation (GoP) Measure for Pronunciation Evaluation with DNN-HMM System Considering HMM Transition Probabilities.
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
EP0388067B1 (en) Speech recognition system
Song et al. Noise invariant frame selection: a simple method to address the background noise problem for text-independent speaker verification
Chai et al. A cross-entropy-guided measure (CEGM) for assessing speech recognition performance and optimizing DNN-based speech enhancement
CN106157953A (zh) 连续语音识别方法及系统
JP7070894B2 (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
Tong et al. A comparative study of robustness of deep learning approaches for VAD
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN108172218A (zh) 一种语音建模方法及装置
CN101548313A (zh) 话音活动检测系统和方法
CN111179917B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN102938252B (zh) 结合韵律和发音学特征的汉语声调识别系统及方法
CN106023986B (zh) 一种基于声效模式检测的语音识别方法
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
Price et al. Speaker adaptation of deep neural networks using a hierarchy of output layers
US20050015251A1 (en) High-order entropy error functions for neural classifiers
US10741184B2 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
Ons et al. A self learning vocal interface for speech-impaired users
Zhao et al. Variable-component deep neural network for robust speech recognition
CN108172215A (zh) 结合声效模式检测的语音识别方法
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
Pap et al. Artificial intelligence voice assistant implementation possibilities in interactive toy for preschool age children
Prabhavalkar et al. An evaluation of posterior modeling techniques for phonetic recognition

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200925

Termination date: 20220109

CF01 Termination of patent right due to non-payment of annual fee