CN110534098A - 一种年龄增强的语音识别增强方法和装置 - Google Patents
一种年龄增强的语音识别增强方法和装置 Download PDFInfo
- Publication number
- CN110534098A CN110534098A CN201910955160.4A CN201910955160A CN110534098A CN 110534098 A CN110534098 A CN 110534098A CN 201910955160 A CN201910955160 A CN 201910955160A CN 110534098 A CN110534098 A CN 110534098A
- Authority
- CN
- China
- Prior art keywords
- age
- vector
- speech recognition
- module
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 11
- 238000009432 framing Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音识别方法和装置,特别公开了一种年龄增强的语音识别增强方法和装置。该一种年龄增强的语音识别增强方法和装置,本装置主要由语音分帧模块、类别标记模块、年龄段编码向量模块和语音识别系统训练模块构成;本装置需预设对训练数据分帧进行发音类别标记,标记对应的年龄段,然后将获取的年龄端编码为向量加入到语音识别系统训练模块中去,获取语音识别引擎;在语音识别系统训练模块获取了年龄向量后,即可进行语音识别引擎训练。其益效果是:通过多任务协同学习的方法,将年龄作为一个向量加入到语音识别模型训练中去,既能共享大数据中语音基础信息,又能对不同年龄段的人群进行针对性优化,从而提高语音识别引擎整体的识别率。
Description
技术领域
本发明公开了一种语音识别方法和装置,特别公开了一种年龄增强的语音识别增强方法和装置。
背景技术
现有技术中,随着大规模连续语音识别技术的发展,语音识别被应用在越来越多的应用场景上。伴随着应用场景的增多,覆盖人群的年龄段越来越广,语音识别对不同年龄段的识别率要求越来越高,因此,语音识别对不同年龄段的覆盖显的尤为重要。
目前常用的识别方法有两种,一是收集覆盖所有年龄段的语音数据,进行大规模语音识别模型训练,但是这种方法收集的年龄段语音数据一般是不均匀的,在训练的时候往往会把一些年龄段的数据淹没掉;二是把人群分为老人、成人和儿童,分别训练不同人群的模型,但是这种模型无法共享大规模数据的通用信息,导致一些人群的数据量有限,识别率无法提高。
发明内容
本发明的目的在于提供一种年龄增强的语音识别增强方法和装置,本发明采用的技术方案是:
本发明一种年龄增强的语音识别增强方法和装置,其特征在于:本装置主要由语音分帧模块、类别标记模块、年龄段编码向量模块和语音识别系统训练模块构成;本装置需预设对训练数据分帧进行发音类别标记,标记对应的年龄段,然后将获取的年龄端编码为向量加入到语音识别系统训练模块中去,获取语音识别引擎;在语音识别系统训练模块获取了年龄向量后,即可进行语音识别引擎训练,具体流程如下:
输入向量:输入向量分为语音特征向量和年龄向量;语音特征向量为40维的Fbank特征,考虑到上下文相关,使用11帧的对称窗口,并做LDA降维至200维,年龄向量即为年龄段编码向量模块中获取的向量;
网络结构:4层隐含层,每层1200个结点,输出层对应GMM的个数,为7552个结点;
模型训练:交叉熵作为训练的评判标准,训练中采用随机梯度下降法。
具体的,所述语音分帧模块主要将整段的语音进行切分一帧帧语音,现成一个序列,用s表示s={s1,s2,….,sN},其中s表示一段语音,s1表示一帧语音,N为总帧数。
具体的,所述类别标记模块主要将上一模块的切分的语音帧进行标记,现成待标记的语音片段,用l表示,l_s表示对语音端s进行标记,l_s={l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记。L_s_n的值为年龄段,举例,如年龄段为3-7岁,8-12岁,14-18岁,19-30岁等,则l_s_n的值为其中一个。
具体的,所述年龄段编码向量模块主要是将年龄段进行编码,从而形成年龄向量方便神经网络输入,具体编码流程如下:
年龄段编码映射,将年龄段分为M端,则形成一个M维的向量来表示年龄向量,即:E1={1,0,0,0….},E2={0,1,0,0,..},E_M={0,0,…,0,1},采取0-1编码的方式;
获取语音帧年龄向量,将年龄段编码向量模块中的语音年龄段标注与年龄向量映射,即可获取每个语音帧对应的向量。
本发明具有的有益效果是:本申请提出通过多任务协同学习的方法,将年龄作为一个向量加入到语音识别模型训练中去,既能共享大数据中语音基础信息,又能对不同年龄段的人群进行针对性优化,从而提高语音识别引擎整体的识别率。
附图说明
图1为本发明的流程示意图;
图2为本发明的语音识别引擎训练网络结构图;
图中,101语音分帧模块,102类别标记模块,103年龄段编码向量模块,104语音识别系统训练模块。
具体实施方式
下面将结合附图和实施例对本发明作进一步的说明。
本发明的一种年龄增强的语音识别增强方法和装置,其特征在于:本装置主要由语音分帧模块101、类别标记模块102、年龄段编码向量模块103和语音识别系统训练模块104构成;本装置需预设对训练数据分帧进行发音类别标记,标记对应的年龄段,然后将获取的年龄端编码为向量加入到语音识别系统训练模块104中去,获取语音识别引擎;在语音识别系统训练模块104获取了年龄向量后,即可进行语音识别引擎训练,具体流程如下:
输入向量:输入向量分为语音特征向量和年龄向量;语音特征向量为40维的Fbank特征,考虑到上下文相关,使用11帧的对称窗口,并做LDA降维至200维,年龄向量即为年龄段编码向量模块中获取的向量;
网络结构:4层隐含层,每层1200个结点,输出层对应GMM的个数,为7552个结点;
模型训练:交叉熵作为训练的评判标准,训练中采用随机梯度下降法。
具体的,所述语音分帧模块101主要将整段的语音进行切分一帧帧语音,现成一个序列,用s表示s={s1,s2,….,sN},其中s表示一段语音,s1表示一帧语音,N为总帧数。
具体的,所述类别标记模块102主要将上一模块的切分的语音帧进行标记,现成待标记的语音片段,用l表示,l_s表示对语音端s进行标记,l_s={l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记。L_s_n的值为年龄段,举例,如年龄段为3-7岁,8-12岁,14-18岁,19-30岁等,则l_s_n的值为其中一个。
具体的,所述年龄段编码向量模块103主要是将年龄段进行编码,从而形成年龄向量方便神经网络输入,具体编码流程如下:
年龄段编码映射,将年龄段分为M端,则形成一个M维的向量来表示年龄向量,即:E1={1,0,0,0….},E2={0,1,0,0,..},E_M={0,0,…,0,1},采取0-1编码的方式;
获取语音帧年龄向量,将年龄段编码向量模块中的语音年龄段标注与年龄向量映射,即可获取每个语音帧对应的向量。
本发明不局限于上述实施方式,任何人应得知在本发明的启示下做出的与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
本发明未详细描述的技术、形状、构造部分均为公知技术。
Claims (4)
1.一种年龄增强的语音识别增强方法和装置,其特征在于:本装置主要由语音分帧模块、类别标记模块、年龄段编码向量模块和语音识别系统训练模块构成;本装置需预设对训练数据分帧进行发音类别标记,标记对应的年龄段,然后将获取的年龄端编码为向量加入到语音识别系统训练模块中去,获取语音识别引擎;在语音识别系统训练模块获取了年龄向量后,即可进行语音识别引擎训练,具体流程如下:
输入向量:输入向量分为语音特征向量和年龄向量;语音特征向量为40维的Fbank特征,考虑到上下文相关,使用11帧的对称窗口,并做LDA降维至200维,年龄向量即为年龄段编码向量模块中获取的向量;
网络结构:4层隐含层,每层1200个结点,输出层对应GMM的个数,为7552个结点;
模型训练:交叉熵作为训练的评判标准,训练中采用随机梯度下降法。
2.根据权利要求1所述的一种年龄增强的语音识别增强方法和装置,其特征是:所述语音分帧模块主要将整段的语音进行切分一帧帧语音,现成一个序列,用s表示s={s1,s2,….,sN},其中s表示一段语音,s1表示一帧语音,N为总帧数。
3.根据权利要求1所述的一种年龄增强的语音识别增强方法和装置,其特征是:所述类别标记模块主要将上一模块的切分的语音帧进行标记,现成待标记的语音片段,用l表示,l_s表示对语音端s进行标记,l_s={l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记。L_s_n的值为年龄段,举例,如年龄段为3-7岁,8-12岁,14-18岁,19-30岁等,则l_s_n的值为其中一个。
4.根据权利要求1所述的一种年龄增强的语音识别增强方法和装置,其特征是:所述年龄段编码向量模块主要是将年龄段进行编码,从而形成年龄向量方便神经网络输入,具体编码流程如下:
年龄段编码映射,将年龄段分为M端,则形成一个M维的向量来表示年龄向量,即:
E1={1,0,0,0….},E2={0,1,0,0,..},E_M={0,0,…,0,1},采取0-1编码的方式;
获取语音帧年龄向量,将年龄段编码向量模块中的语音年龄段标注与年龄向量映射,即可获取每个语音帧对应的向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955160.4A CN110534098A (zh) | 2019-10-09 | 2019-10-09 | 一种年龄增强的语音识别增强方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955160.4A CN110534098A (zh) | 2019-10-09 | 2019-10-09 | 一种年龄增强的语音识别增强方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110534098A true CN110534098A (zh) | 2019-12-03 |
Family
ID=68671509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910955160.4A Pending CN110534098A (zh) | 2019-10-09 | 2019-10-09 | 一种年龄增强的语音识别增强方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534098A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
CN112908312A (zh) * | 2021-01-30 | 2021-06-04 | 云知声智能科技股份有限公司 | 一种提高唤醒性能的方法和设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330485A (ja) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | 音声認識装置、音声認識システム及び音声認識方法 |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
US20170316008A1 (en) * | 2016-04-29 | 2017-11-02 | Fujitsu Limited | Recommendation generation |
CN107680597A (zh) * | 2017-10-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108510979A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN109147763A (zh) * | 2018-07-10 | 2019-01-04 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
-
2019
- 2019-10-09 CN CN201910955160.4A patent/CN110534098A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330485A (ja) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | 音声認識装置、音声認識システム及び音声認識方法 |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
US20170316008A1 (en) * | 2016-04-29 | 2017-11-02 | Fujitsu Limited | Recommendation generation |
CN108510979A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN107680597A (zh) * | 2017-10-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN109147763A (zh) * | 2018-07-10 | 2019-01-04 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
Non-Patent Citations (3)
Title |
---|
付鹏等: "基于卷积神经网络和用户信息的微博话题追踪模型", 《模式识别与人工智能》 * |
周锡玲等: "融合人口统计属性的药品推荐算法", 《电子测试》 * |
李超逸等: "一种基于社区发现的微博个性化推荐算法", 《微电子学与计算机》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
CN112908312A (zh) * | 2021-01-30 | 2021-06-04 | 云知声智能科技股份有限公司 | 一种提高唤醒性能的方法和设备 |
CN112908312B (zh) * | 2021-01-30 | 2022-06-24 | 云知声智能科技股份有限公司 | 一种提高唤醒性能的方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297773B (zh) | 一种神经网络声学模型训练方法 | |
CN103971686B (zh) | 自动语音识别方法和系统 | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN107679224B (zh) | 一种面向无结构文本智能问答的方法和系统 | |
CN107578775A (zh) | 一种基于深度神经网络的多任务语音分类方法 | |
CN108777140A (zh) | 一种非平行语料训练下基于vae的语音转换方法 | |
CN105427858A (zh) | 实现语音自动分类的方法及系统 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN107680597A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN108682417A (zh) | 语音识别中的小数据语音声学建模方法 | |
CN105760852A (zh) | 一种融合脸部表情和语音的驾驶员情感实时识别方法 | |
CN108510976A (zh) | 一种多语言混合语音识别方法 | |
CN104700828A (zh) | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 | |
WO2022199215A1 (zh) | 一种融合人群信息的语音情感识别方法和系统 | |
CN110534098A (zh) | 一种年龄增强的语音识别增强方法和装置 | |
CN102938252B (zh) | 结合韵律和发音学特征的汉语声调识别系统及方法 | |
CN103871424A (zh) | 一种基于贝叶斯信息准则的线上说话人聚类分析方法 | |
DE60134395D1 (de) | Diskriminatives Trainieren von Hidden Markov Modellen für die Erkennung fliessender Sprache | |
JP2018147073A (ja) | 出力文生成装置、出力文生成方法および出力文生成プログラム | |
CN106601226A (zh) | 音素时长预测建模方法及音素时长预测方法 | |
WO2022252904A1 (zh) | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
CN109920476A (zh) | 基于混沌博弈算法的miRNA-疾病相关性预测方法 | |
CN110648654A (zh) | 一种引入语言向量的语音识别增强方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |