CN108597502A - 基于对抗训练的领域语音识别训练方法 - Google Patents
基于对抗训练的领域语音识别训练方法 Download PDFInfo
- Publication number
- CN108597502A CN108597502A CN201810397535.5A CN201810397535A CN108597502A CN 108597502 A CN108597502 A CN 108597502A CN 201810397535 A CN201810397535 A CN 201810397535A CN 108597502 A CN108597502 A CN 108597502A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- model
- field
- field speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009977 dual effect Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 210000003739 neck Anatomy 0.000 claims 1
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于对抗训练的领域语音识别训练方法,为了提高计算机对语音的识别率而设计。本发明基于对抗训练的领域语音识别训练方法包括:输入一个音频文件作为训练输入;分别通过通用语音引擎和领域语音模型识别文本;领域识别模型,按照输入的初步文本确定语音最有可能对应的2个领域;按照匹配的领域,利用各自的领域模型进行文本转换;匹配两个领域语音模型输入文本和原始输入文本的近似度,选择高匹配结果;然后比对通用语音识别的结果和领域语音模型识别的结果.如果结果不匹配,把训练结果和对应语音导入领域特征库,开始下一次迭代训练整体模型的匹配程度达到目标后,完成领域语音识别模型的训练。
Description
技术领域
本发明具体涉及一种基于对抗训练的领域语音识别训练方法。
背景技术
现有语音识别训练技术,针对特定领域的语音(专业名词,专业表述方式) 的识别,还是基于通用语音和表述来完成,对于同发音跨领域的识别判断困难,准确率低,没能建立特定领域的训练集,以及利用领域内的语义和语法进一步纠正和提升识别率。
发明内容
为解决上述技术问题,本发明的目的是提供一种利用基于特定领域建立的语音资料库和特定领域的知识语义完来提高计算机对语音的基于对抗训练的领域语音识别训练方法。
本发明基于对抗训练的领域语音识别训练方法,包括:
输入一个音频文件作为训练输入;
分别通过通用语音引擎和领域语音模型识别语音并转化为初步文本;
基于文本主题模型Topic Model,按照输入的初步文本确定语音最有可能对应的2个领域;
按照匹配的领域,利用各自的领域模型进行语音到文本的转换,得到语音输入的领域识别的文本版本;
分别计算两个领域语音模型输出的文本和原始音频文件的对应输入文本的近似度,选择高匹配结果;
文本近似度基于语料库的词向量(Word Embedding)分数的求和后泛化计算得出;利用文本近似度做为领域模型的损失函数,记为D_领域;
同时利用词向量语料库,计算通用模型产生的文本和原始音频文件对应文本的近似度,记为D_通用;
每次训练迭代,同时优化一次通用模型和领域模型,通用模型会根据原始语音输入产生不同的识别文本,同时领域模型会根据领域纠错后也产生新的文本,每次迭代,同时优化两个损失函数;
整体模型是通用模型和领域模型识别对抗的结果,多次迭代后,两个损失函数产生收敛性,从而得到最终结果,完成领域语音识别模型的训练。
借由上述方案,本发明基于对抗训练的领域语音识别训练方法至少具有以下优点:
本发明基于语音判读语音对应的特定领域,基于领域的训练模型,提高识别准确性.同时,通过设置对抗训练、特定领域的语音语义匹配,创造了提升面向领域的识别准确率和识别速度提升的手段。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1本发明基于对抗训练的领域语音识别训练方法框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
如图1所示,本实施例基于对抗训练的领域语音识别训练方法,包括:
输入一个音频文件作为训练输入;
分别通过通用语音引擎和领域语音模型识别语音并转化为初步文本;
基于文本主题模型Topic Model,按照输入的初步文本确定语音最有可能对应的2个领域;
按照匹配的领域,利用各自的领域模型进行语音到文本的转换,得到语音输入的领域识别的文本版本;
分别计算两个领域语音模型输出的文本和原始音频文件的对应输入文本的近似度,选择高匹配结果。文本近似度基于语料库的词向量(Word Embedding) 分数的求和后泛化计算得出。利用文本近似度做为领域模型的损失函数,记为 D_领域;
同时利用和上一步相同的词向量语料库,计算通用模型产生的文本和原始音频文件对应文本的近似度,记为D_通用;
最后一步的训练目标为降低D_领域的结果,同时提升D_通用的结果。每次训练迭代,同时优化一次通用模型和领域模型。这个过程中,通用模型会根据原始语音输入产生不同的识别文本,同时领域模型会根据领域纠错后也产生新的文本。每次迭代,同时优化两个损失函数。
整体模型是通用模型和领域模型识别对抗的结果。多次迭代后,两个损失函数产生收敛性,从而得到最终结果,完成领域语音识别模型的训练。
整体模型里领域模型部分产生的训练系数和数据作为Soundnet。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (1)
1.一种基于对抗训练的领域语音识别训练方法,其特征在于,包括:
输入一个音频文件作为训练输入;
分别通过通用语音引擎和领域语音模型识别语音并转化为初步文本;
基于文本主题模型Topic Model,按照输入的初步文本确定语音最有可能对应的2个领域;
按照匹配的领域,利用各自的领域模型进行语音到文本的转换,得到语音输入的领域识别的文本版本;
分别计算两个领域语音模型输出的文本和原始音频文件的对应输入文本的近似度,选择高匹配结果;
文本近似度基于语料库的词向量(Word Embedding)分数的求和后泛化计算得出;利用文本近似度做为领域模型的损失函数,记为D_领域;
同时利用词向量语料库,计算通用模型产生的文本和原始音频文件对应文本的近似度,记为D_通用;
每次训练迭代,同时优化一次通用模型和领域模型,通用模型会根据原始语音输入产生不同的识别文本,同时领域模型会根据领域纠错后也产生新的文本,每次迭代,同时优化两个损失函数;
整体模型是通用模型和领域模型识别对抗的结果,多次迭代后,两个损失函数产生收敛性,从而得到最终结果,完成领域语音识别模型的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810397535.5A CN108597502A (zh) | 2018-04-27 | 2018-04-27 | 基于对抗训练的领域语音识别训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810397535.5A CN108597502A (zh) | 2018-04-27 | 2018-04-27 | 基于对抗训练的领域语音识别训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108597502A true CN108597502A (zh) | 2018-09-28 |
Family
ID=63610973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810397535.5A Pending CN108597502A (zh) | 2018-04-27 | 2018-04-27 | 基于对抗训练的领域语音识别训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597502A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246486A (zh) * | 2019-06-03 | 2019-09-17 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN112053692A (zh) * | 2020-09-24 | 2020-12-08 | 上海明略人工智能(集团)有限公司 | 语音识别处理方法、装置及存储介质 |
CN113299266A (zh) * | 2020-02-21 | 2021-08-24 | 株式会社东芝 | 数据生成装置、数据生成方法以及记录介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US20140088964A1 (en) * | 2012-09-25 | 2014-03-27 | Apple Inc. | Exemplar-Based Latent Perceptual Modeling for Automatic Speech Recognition |
CN103885924A (zh) * | 2013-11-21 | 2014-06-25 | 北京航空航天大学 | 一种领域自适应的公开课字幕自动生成系统及方法 |
CN105244029A (zh) * | 2015-08-28 | 2016-01-13 | 科大讯飞股份有限公司 | 语音识别后处理方法及系统 |
CN105654945A (zh) * | 2015-10-29 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN107437416A (zh) * | 2017-05-23 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种基于语音识别的咨询业务处理方法及装置 |
-
2018
- 2018-04-27 CN CN201810397535.5A patent/CN108597502A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US20140088964A1 (en) * | 2012-09-25 | 2014-03-27 | Apple Inc. | Exemplar-Based Latent Perceptual Modeling for Automatic Speech Recognition |
CN103885924A (zh) * | 2013-11-21 | 2014-06-25 | 北京航空航天大学 | 一种领域自适应的公开课字幕自动生成系统及方法 |
CN105244029A (zh) * | 2015-08-28 | 2016-01-13 | 科大讯飞股份有限公司 | 语音识别后处理方法及系统 |
CN105654945A (zh) * | 2015-10-29 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN107437416A (zh) * | 2017-05-23 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种基于语音识别的咨询业务处理方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246486A (zh) * | 2019-06-03 | 2019-09-17 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN110246486B (zh) * | 2019-06-03 | 2021-07-13 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN113299266A (zh) * | 2020-02-21 | 2021-08-24 | 株式会社东芝 | 数据生成装置、数据生成方法以及记录介质 |
CN112053692A (zh) * | 2020-09-24 | 2020-12-08 | 上海明略人工智能(集团)有限公司 | 语音识别处理方法、装置及存储介质 |
CN112053692B (zh) * | 2020-09-24 | 2024-01-12 | 上海明略人工智能(集团)有限公司 | 语音识别处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11443733B2 (en) | Contextual text-to-speech processing | |
TWI664540B (zh) | Search word error correction method and device, and weighted edit distance calculation method and device | |
CN106782560A (zh) | 确定目标识别文本的方法及装置 | |
Nachmani et al. | Unsupervised polyglot text-to-speech | |
CN104021784B (zh) | 基于大语料库的语音合成方法和装置 | |
US7912721B2 (en) | System and method for automatic speech recognition | |
CN108597502A (zh) | 基于对抗训练的领域语音识别训练方法 | |
TWI698857B (zh) | 語音辨識系統及其方法、與電腦程式產品 | |
US10255910B2 (en) | Centered, left- and right-shifted deep neural networks and their combinations | |
US9984689B1 (en) | Apparatus and method for correcting pronunciation by contextual recognition | |
MXPA01006594A (es) | Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion. | |
CN101504643A (zh) | 声音处理系统、声音处理程序以及声音处理方法 | |
KR102152902B1 (ko) | 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 | |
CN102436807A (zh) | 自动生成重读音节语音的方法和系统 | |
CN107239547A (zh) | 用于语音点歌的语音纠错方法、终端及存储介质 | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
CN110853616A (zh) | 一种基于神经网络的语音合成方法、系统与存储介质 | |
CN112530405B (zh) | 一种端到端语音合成纠错方法、系统及装置 | |
CN111105787A (zh) | 一种文本匹配方法、设备及计算机可读存储介质 | |
JP2020030367A (ja) | 音声認識結果整形モデル学習装置およびそのプログラム | |
JP2004109535A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
KR20160000218A (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
JP6849977B2 (ja) | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 | |
KR20200121260A (ko) | 발음 변이를 적용시킨 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |