CN110648654A - 一种引入语言向量的语音识别增强方法和装置 - Google Patents
一种引入语言向量的语音识别增强方法和装置 Download PDFInfo
- Publication number
- CN110648654A CN110648654A CN201910954478.0A CN201910954478A CN110648654A CN 110648654 A CN110648654 A CN 110648654A CN 201910954478 A CN201910954478 A CN 201910954478A CN 110648654 A CN110648654 A CN 110648654A
- Authority
- CN
- China
- Prior art keywords
- language
- module
- training
- speech
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明公开了一种语音识别方法和装置,特别公开了一种引入语言向量的语音识别增强方法和装置。该一种引入语言向量的语音识别增强方法和装置,本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成;本装置需要预先对训练数据分帧进行发音类别标记,通过神经网络进行分类训练,获取的隐层向量作为语言向量,然后将获取的语言向量加入语音识别系统训练模块中,获取语音识别引擎,通过不同的语言向量来识别不同语言的语音。其益效果是:提高了母语发音和非母语发音的混合语音识别系统识别率,提高语音识别训练效率,降低了参数量,减速了模型训练,并同时提高了语音识别的效率。
Description
技术领域
本发明公开了一种语音识别方法和装置,特别公开了一种引入语言向量的语音识别增强方法和装置。
背景技术
现有技术中,随着科技的进步,传统的单语音识别系统已经不能满足日益多元化的世界,于是多语言或跨语言语音识别系统越来越受到重视。然而,多语言或跨语言语音识别系统相比于单语音识别系统,存在着声学模型不够精确和有效的弊端,模型的训练更加耗费时间和资源,且存在对含有混杂语音的新场景的鲁棒性较差等问题。
另外,单语音识别系统是针对特定的一种语言,该语言是否为发音者的母语也直接影响系统的识别效果,于是混合了母语发音和非母语发音的语音识别系统也可以看做多语言或跨语言语音识别系统需要解决的问题之一。
随着现在国际化的趋势日益明显,现在对于语音识别引擎的要求越来越高,尤其是单语言多种发音的语音识别系统,在具体单语言多种发音的应用中,如英语语音识别系统,其包含了英式英语、中式英语、日式英语、印度式英语等,虽然是同为英语语音识别系统,但是包含的任务比较多,难以满足识别多种人种英语的发音需求。
发明内容
本发明的目的在于提供一种引入语言向量的语音识别增强方法和装置,本发明采用的技术方案是:
本发明一种引入语言向量的语音识别增强方法和装置,本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成;本装置需要预先对训练数据分帧进行发音类别标记,通过神经网络进行分类训练,获取的隐层向量作为语言向量,然后将获取的语言向量加入语音识别系统训练模块中,获取语音识别引擎,通过不同的语言向量来识别不同语言的语音;
具体工作模块与工作流程如下:
语音分帧模块,本模块主要将整段的语音进行切分一帧帧语音,现成一个序列,用s表示s={s1,s2,….,sN},其中s表示一段语音,s1表示一帧语音,N为总帧数;
类别标记模块,本模块主要将语音分帧模块的切分的语音帧进行标记,现成待标记的语音片段,用l表示,l_s表示对语音端s进行标记,l_s={l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记,L_s_n的值为语言的类别,如语言类别为英式英语和中式英语,则l_s_n的值为其中一个;
语言向量训练模块,本模块主要是利用神经网络模型进行语言向量进行训练;
其具体流程如下:
输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,考虑到上下文关系,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;
网络结构:本方案中采用的DNN是2层隐层,其中前一层有1200个结点,激活函数为f(x)=x,只做线性映射;后一层20个结点,激活函数为sigmoid函数,最后一层为类别的个数ClassNum;
训练:由于在类别标记模块中对语音帧进行了标注,即可按照分类模型的训练方法进行训练;
基于以上流程,即可获取语言向量生成引擎。
语言向量获取模块,在语言向量训练模块中已经训练得到了语言向量生成模型,本模块即时从此模型中获取语言向量;
具体流程如下:
输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;
获取语言向量,获取网络模型倒数第二层的隐层,作为语言向量;
语音识别系统训练模块,在获取了语言向量后,即可进行语音识别引擎训练,
具体流程如下:
输入向量:输入向量分为语音特征向量和语言向量,语音特征向量为40维的Fbank特征,考虑到上下文相关,使用11帧的对称窗口,并做LDA降维至200维,语言向量即为104模块中获取的向量;
网络结构:4层隐含层,每层1200个结点,输出层对应GMM的个数,为7552个结点;
模型训练:交叉熵作为训练的评判标准,训练中采用随机梯度下降法;
语音识别模块,在语音识别系统训练模块中训练获得声学模型,本模块将声学模型和语音结合后,即可获取语音识别引擎,即可进行语音识别,语音识别过程为通用流程。
本发明具有的有益效果是:提高了母语发音和非母语发音的混合语音识别系统识别率,通过增加语言向量,可以提高混合语言的鲁棒性,从而提供在整体应用上的识别率;提高语音识别训练效率,加入语言向量,相当于把多语种的语音识别模型作为一个整体训练,降低了参数量,减速了模型训练,并同时提高了语音识别的效率。
附图说明
图1为本发明的流程示意图;
图2为本发明的语音识别引擎训练网络结构图;
图中,101语音分帧模块,102类别标记模块,103语言向量训练模块,104语言向量获取模块,105语音识别系统训练模块,106语音识别模块。
具体实施方式
下面将结合附图和实施例对本发明作进一步的说明。
本发明的一种引入语言向量的语音识别增强方法和装置,本装置主要由语音分帧模块101、类别标记模块102、语言向量训练模块103、语言向量获取模块104、语音识别系统训练模块105和语音识别模块106构成;本装置需要预先对训练数据分帧进行发音类别标记,通过神经网络进行分类训练,获取的隐层向量作为语言向量,然后将获取的语言向量加入语音识别系统训练模块中,获取语音识别引擎,通过不同的语言向量来识别不同语言的语音;
具体工作模块与工作流程如下:
语音分帧模块101,本模块主要将整段的语音进行切分一帧帧语音,现成一个序列,用s表示s={s1,s2,….,sN},其中s表示一段语音,s1表示一帧语音,N为总帧数;
类别标记模块102,本模块主要将语音分帧模块101的切分的语音帧进行标记,现成待标记的语音片段,用l表示,l_s表示对语音端s进行标记,l_s={l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记,L_s_n的值为语言的类别,如语言类别为英式英语和中式英语,则l_s_n的值为其中一个;
语言向量训练模块103,本模块主要是利用神经网络模型进行语言向量进行训练;
其具体流程如下:
输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,考虑到上下文关系,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;
网络结构:本方案中采用的DNN是2层隐层,其中前一层有1200个结点,激活函数为f(x)=x,只做线性映射;后一层20个结点,激活函数为sigmoid函数,最后一层为类别的个数ClassNum;
训练:由于在类别标记模块中对语音帧进行了标注,即可按照分类模型的训练方法进行训练;
基于以上流程,即可获取语言向量生成引擎。
语言向量获取模块104,在语言向量训练模块中已经训练得到了语言向量生成模型,本模块即时从此模型中获取语言向量;
具体流程如下:
输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;
获取语言向量,获取网络模型倒数第二层的隐层,作为语言向量;
语音识别系统训练模块105,在获取了语言向量后,即可进行语音识别引擎训练,
具体流程如下:
输入向量:输入向量分为语音特征向量和语言向量,语音特征向量为40维的Fbank特征,考虑到上下文相关,使用11帧的对称窗口,并做LDA降维至200维,语言向量即为104模块中获取的向量;
网络结构:4层隐含层,每层1200个结点,输出层对应GMM的个数,为7552个结点;
模型训练:交叉熵作为训练的评判标准,训练中采用随机梯度下降法;
语音识别模块106,在语音识别系统训练模块105中训练获得声学模型,本模块将声学模型和语音结合后,即可获取语音识别引擎,即可进行语音识别,语音识别过程为通用流程。
本发明不局限于上述实施方式,任何人应得知在本发明的启示下做出的与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
本发明未详细描述的技术、形状、构造部分均为公知技术。
Claims (1)
1.一种引入语言向量的语音识别增强方法和装置,其特征在于:本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成;本装置需要预先对训练数据分帧进行发音类别标记,通过神经网络进行分类训练,获取的隐层向量作为语言向量,然后将获取的语言向量加入语音识别系统训练模块中,获取语音识别引擎,通过不同的语言向量来识别不同语言的语音;
具体工作模块与工作流程如下:
语音分帧模块,本模块主要将整段的语音进行切分一帧帧语音,现成一个序列,用s表示s={s1,s2,….,sN},其中s表示一段语音,s1表示一帧语音,N为总帧数;
类别标记模块,本模块主要将语音分帧模块的切分的语音帧进行标记,现成待标记的语音片段,用l表示,l_s表示对语音端s进行标记,l_s={l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记,L_s_n的值为语言的类别,如语言类别为英式英语和中式英语,则l_s_n的值为其中一个;
语言向量训练模块,本模块主要是利用神经网络模型进行语言向量进行训练;
其具体流程如下:
输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,考虑到上下文关系,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;
网络结构:本方案中采用的DNN是2层隐层,其中前一层有1200个结点,激活函数为f(x)=x,只做线性映射;后一层20个结点,激活函数为sigmoid函数,最后一层为类别的个数ClassNum;
训练:由于在类别标记模块中对语音帧进行了标注,即可按照分类模型的训练方法进行训练;
基于以上流程,即可获取语言向量生成引擎。
语言向量获取模块,在语言向量训练模块中已经训练得到了语言向量生成模型,本模块即时从此模型中获取语言向量;
具体流程如下:
输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;
获取语言向量,获取网络模型倒数第二层的隐层,作为语言向量;
语音识别系统训练模块,在获取了语言向量后,即可进行语音识别引擎训练,
具体流程如下:
输入向量:输入向量分为语音特征向量和语言向量,语音特征向量为40维的Fbank特征,考虑到上下文相关,使用11帧的对称窗口,并做LDA降维至200维,语言向量即为104模块中获取的向量;
网络结构:4层隐含层,每层1200个结点,输出层对应GMM的个数,为7552个结点;
模型训练:交叉熵作为训练的评判标准,训练中采用随机梯度下降法;
语音识别模块,在语音识别系统训练模块中训练获得声学模型,本模块将声学模型和语音结合后,即可获取语音识别引擎,即可进行语音识别,语音识别过程为通用流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910954478.0A CN110648654A (zh) | 2019-10-09 | 2019-10-09 | 一种引入语言向量的语音识别增强方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910954478.0A CN110648654A (zh) | 2019-10-09 | 2019-10-09 | 一种引入语言向量的语音识别增强方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110648654A true CN110648654A (zh) | 2020-01-03 |
Family
ID=68993668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910954478.0A Pending CN110648654A (zh) | 2019-10-09 | 2019-10-09 | 一种引入语言向量的语音识别增强方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110648654A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785303A (zh) * | 2020-06-30 | 2020-10-16 | 合肥讯飞数码科技有限公司 | 模型训练方法、模仿音检测方法、装置、设备及存储介质 |
CN112133287A (zh) * | 2020-11-24 | 2020-12-25 | 北京世纪好未来教育科技有限公司 | 语音识别模型训练方法、语音识别方法及相关装置 |
CN112466294A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN109192192A (zh) * | 2018-08-10 | 2019-01-11 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
CN109979432A (zh) * | 2019-04-02 | 2019-07-05 | 科大讯飞股份有限公司 | 一种方言翻译方法及装置 |
-
2019
- 2019-10-09 CN CN201910954478.0A patent/CN110648654A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
CN109192192A (zh) * | 2018-08-10 | 2019-01-11 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
CN109979432A (zh) * | 2019-04-02 | 2019-07-05 | 科大讯飞股份有限公司 | 一种方言翻译方法及装置 |
Non-Patent Citations (1)
Title |
---|
崔瑞莲,等: "基于深度神经网络的语种识别", 《模式识别与人工智能》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785303A (zh) * | 2020-06-30 | 2020-10-16 | 合肥讯飞数码科技有限公司 | 模型训练方法、模仿音检测方法、装置、设备及存储介质 |
CN111785303B (zh) * | 2020-06-30 | 2024-04-16 | 合肥讯飞数码科技有限公司 | 模型训练方法、模仿音检测方法、装置、设备及存储介质 |
CN112133287A (zh) * | 2020-11-24 | 2020-12-25 | 北京世纪好未来教育科技有限公司 | 语音识别模型训练方法、语音识别方法及相关装置 |
CN112466294A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rastgoo et al. | Sign language production: A review | |
CN110648654A (zh) | 一种引入语言向量的语音识别增强方法和装置 | |
CN109388700A (zh) | 一种意图识别方法及系统 | |
CN108090400A (zh) | 一种图像文本识别的方法和装置 | |
Dreuw et al. | SignSpeak-understanding, recognition, and translation of sign languages | |
CN105390133A (zh) | 藏语ttvs系统的实现方法 | |
CN111178157A (zh) | 一种基于音调的级联序列到序列模型的中文唇语识别方法 | |
CN109902160B (zh) | 电路题目自动解答的方法及系统 | |
CN106683667A (zh) | 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用 | |
CN106446406A (zh) | 一种将中文语句转化为人类口型的仿真系统及仿真方法 | |
CN107221344A (zh) | 一种语音情感迁移方法 | |
CN111221961A (zh) | 一种基于s-lstm模型与槽值门的说话人意图识别系统及方法 | |
CN109227536A (zh) | 智能迎宾讲解机器人语音交互控制系统及控制方法 | |
CN110096987B (zh) | 一种基于双路3dcnn模型的哑语动作识别方法 | |
Dreuw et al. | The signspeak project-bridging the gap between signers and speakers | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN110414556A (zh) | 一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法 | |
CN110472655A (zh) | 一种用于跨境旅游的标志物机器学习识别系统及方法 | |
CN111738023A (zh) | 一种图文音频自动翻译方法及其系统 | |
Zhao et al. | Tibetan multi-dialect speech recognition using latent regression Bayesian network and end-to-end mode | |
CN116029303A (zh) | 语言表达方式识别方法、装置、电子设备和存储介质 | |
Hettiarachchi et al. | Machine learning approach for real time translation of Sinhala sign language into text | |
TW201937479A (zh) | 一種多語言混合語音識別方法 | |
CN114882590A (zh) | 一种基于事件相机的多粒度时空特征感知的唇读方法 | |
CN112863485A (zh) | 口音语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200103 |
|
RJ01 | Rejection of invention patent application after publication |