CN110751945A - 一种端到端的语音识别方法 - Google Patents
一种端到端的语音识别方法 Download PDFInfo
- Publication number
- CN110751945A CN110751945A CN201910988520.0A CN201910988520A CN110751945A CN 110751945 A CN110751945 A CN 110751945A CN 201910988520 A CN201910988520 A CN 201910988520A CN 110751945 A CN110751945 A CN 110751945A
- Authority
- CN
- China
- Prior art keywords
- voice
- model file
- voice data
- language model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 7
- 238000011161 development Methods 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种端到端的语音识别方法,包括以下步骤:S1:获取若干的语音数据并得到语谱图,构建声学模型和语言模型;S2:利用所述声光模型,训练语音数据得到包含拼音符号的声学模型文件;S3:利用所述语言模型,训练所述包含拼音符号的模型文件得到包含汉字的语言模型文件;S4:输入待识别的语音,利用声学模型文件和语言模型文件对语音进行识别。可以方便的将语音内容直接转化为文字内容,识别可以到达端到端,且流程相对简单,泛化性能和识别准确率较传统算法有极大的提升,有效的提高了识别的效率和准确率,大大促进了人机交互领域的发展。
Description
技术领域
本发明涉及语音识别、自然语言处理领域,尤其涉及一种端到端的语音识别方法。
背景技术
随着人工智能技术的不断发展,以及一系列新兴技术的不断出现,在语音识别的方法上面,人工智能的技术相比较于传统方法逐渐显露出极大的优势,在语音识别领域取得了较传统算法更好的效果,甚至取得了传统算法无法达到的高度。语音识别长期以来一直是人类难以逾越的一个鸿沟,由于语音环境复杂多变,语音中包含大量噪声,以及涉及到远场语音和近场语音的问题,语音识别一直难以取得较好的效果,在传统的方法中,人类需要对采集到的语音进行大量的人工处理,比如去噪、语音增强等等一系列操作,随后还要对语音进行特征的提取,构造一个巨大的语音内容词典,然后使用人工精心设计的分类和预测算法对语音内容进行推断和预测,这类算法往往都是浅层的分类器,所以大多数都很难达到预期的效果。
发明内容
本发明的目的在于提出一种端到端的语音识别方法,提出了一种基于现代深度学习技术的语音识别方法,可以方便的将语音内容直接转化为文字内容,识别可以到达端到端,且流程相对简单,泛化性能和识别准确率较传统算法有极大的提升,有效的提高了识别的效率和准确率,大大促进了人机交互领域的发展。
进一步地,包括以下步骤:
S1:获取若干的语音数据并得到语谱图,构建声学模型和语言模型;
S2:利用所述声光模型,训练语音数据得到包含拼音符号的声学模型文件;
S3:利用所述语言模型,训练所述包含拼音符号的声学模型文件得到包含汉字的语言模型文件;
S4:输入待识别的语音,利用声学模型文件和语言模型文件对语音进行识别。
进一步地,所述步骤S1:包括如下步骤:
S11:提取语音数据的时域特征、进行语音数据的分帧与加窗和进行傅里叶变换得到语谱图;
S12:采用深度卷积神经网络和CTC算法构建声学模型,采用Transformer构建语言模型。
进一步地,所述S2包括如下步骤:
S21:获取带有标签的语音数据;
S22:采用卷积神经网络与CTC算法,转化语音数据为拼音符号;
S23:深度卷积神经对具有标签的语音数据进行学习,得到包含拼音符号的声学模型文件。
进一步地,所述步骤S23包括:优化和更新卷积神经网络、全连接网络和GRU网络中的权值矩阵参数与偏置矩阵参数。
进一步地,所述步骤S3包括:
S31:载入所述包含拼音符号的声光模型文件;
S32:利用Transformer模型的编码器和解码器得到对应拼音符号的汉字符号;
S33:优化Transformer模型参数,得到包含汉字的语言模型文件。
进一步地,所述步骤S4包括如下步骤:
S41:输入待识别的语音,进行傅里叶变化得到语谱图;
S42:使用声光模型文件识别语音信号的拼音符号;
S43:使用语言模型文件将拼音符号识别为汉字符号。
本发明的有益效果是:本发明可以方便的将语音内容直接转化为文字内容,识别可以到达端到端,且流程相对简单,泛化性能和识别准确率较传统算法有极大的提升,有效的提高了识别的效率和准确率,大大促进了人机交互领域的发展。
附图说明
图1为训练数据基本存储内容和格式;
图2为基于深度学习技术的识别模型训练流程图;
图3为端到端语音识别流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
具体实施例如图1所示,在训练过程中,需要准备大量具有标签的语音数据,如图1所示,数据格式包括一段语音和这段语音对应的汉字和拼音,拼音则包含了五种音调(包括平声),如图2中所示为声学模型的训练,其中语音文件和对应的拼音用于声学模型的训练,对应的拼音和对应的汉字则用于语言模型的训练;
将语音数据按照一次固定批量数据传入给声学模型中,即深度神经网络与CTC算法,此时输入的是通过傅里叶变换之后的语谱图数据,标签为这段语音语谱图对应的拼音符号,训练过程需要不断的将语音数据输入给声学模型去学习数据所具有的特征,通过优化器不断优化卷积神经网络中成千上百万的参数,让模型具有将语谱图转化为拼音符号的能力。
对语言模型进行训练,模型采用自然语言处理领域经典的Transformer模型,具体过程为:将拼音符号输入给Transformer模型的编码器和解码器,对应的标签为这段拼音对应的汉字符号,同上述原理一致,需要采用优化器让Transformer模型拟合数据包含的特征,优化模型参数,让模型学习数据中包含的内容和位置等信息。
训练完成之后声学模型和语言模型会分别被存储为一个文件,这个文件中包含网络的结构和结构中的通过数据训练好的参数,识别过程中会调用这个文件而不需要再次进行训练。
上述过程完成之后,就可以对语音进行识别,如图3所示,首先加载训练好的两个模型文件,将一段未知内容的语音数据输入,首先进行基本处理即从时域转化为频域中的语谱图,将这个语谱图首先输入给声学模型,模型可以得到一段拼音符号,随后这段未知拼音符号输入给语言模型,通过语言模型的拼音符号则可以得到对应的汉字内容,即为整个语音识别的流程。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种端到端的语音识别方法,其特征在于,包括以下步骤:
S1:获取若干的语音数据并得到语谱图,构建声学模型和语言模型;
S2:利用所述声光模型,训练语音数据得到包含拼音符号的声学模型文件;
S3:利用所述语言模型,训练所述包含拼音符号的声学模型文件得到包含汉字的语言模型文件;
S4:输入待识别的语音,利用声学模型文件和语言模型文件对语音进行识别。
2.根据权利要求1所述的一种端到端的语音识别方法,其特征在于,所述步骤S1:包括如下步骤:
S11:提取语音数据的时域特征、进行语音数据的分帧与加窗和进行傅里叶变换得到语谱图;
S12:采用深度卷积神经网络和CTC算法构建声学模型,采用Transformer构建语言模型。
3.根据权利要求1中所述的一种端到端的语音识别方法,其特征在于,所述S2包括如下步骤:
S21:获取带有标签的语音数据;
S22:采用卷积神经网络与CTC算法,转化语音数据为拼音符号;
S23:深度卷积神经对具有标签的语音数据进行学习,得到包含拼音符号的声学模型文件。
4.根据权利要求3中所述的一种端到端的语音识别方法,其特征在于,所述步骤S23包括:优化和更新卷积神经网络、全连接网络和GRU网络中的权值矩阵参数与偏置矩阵参数。
5.根据权利要求1所述的一种端到端的语音识别方法,其特征在于,所述步骤S3包括:
S31:载入所述包含拼音符号的声光模型文件;
S32:利用Transformer模型的编码器和解码器得到对应拼音符号的汉字符号;
S33:优化Transformer模型参数,得到包含汉字的语言模型文件。
6.根据权利要求1所述的一种端到端的语音识别方法,其特征在于,所述步骤S4包括如下步骤:
S41:输入待识别的语音,进行傅里叶变化得到语谱图;
S42:使用声光模型文件识别语音信号的拼音符号;
S43:使用语言模型文件将拼音符号识别为汉字符号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910988520.0A CN110751945A (zh) | 2019-10-17 | 2019-10-17 | 一种端到端的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910988520.0A CN110751945A (zh) | 2019-10-17 | 2019-10-17 | 一种端到端的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110751945A true CN110751945A (zh) | 2020-02-04 |
Family
ID=69278640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910988520.0A Pending CN110751945A (zh) | 2019-10-17 | 2019-10-17 | 一种端到端的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751945A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210807A (zh) * | 2020-02-21 | 2020-05-29 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111477239A (zh) * | 2020-03-31 | 2020-07-31 | 厦门快商通科技股份有限公司 | 一种基于gru神经网络的去除噪声方法及系统 |
CN111710340A (zh) * | 2020-06-05 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于语音识别用户身份的方法、装置、服务器及存储介质 |
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN112116907A (zh) * | 2020-10-22 | 2020-12-22 | 浙江同花顺智能科技有限公司 | 语音识别模型建立、语音识别方法、装置、设备和介质 |
CN112349288A (zh) * | 2020-09-18 | 2021-02-09 | 昆明理工大学 | 基于拼音约束联合学习的汉语语音识别方法 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113362811A (zh) * | 2021-06-30 | 2021-09-07 | 北京有竹居网络技术有限公司 | 模型的训练方法、语音识别方法、装置、介质及设备 |
CN113539244A (zh) * | 2021-07-22 | 2021-10-22 | 广州虎牙科技有限公司 | 端到端语音识别模型训练方法、语音识别方法及相关装置 |
US11862143B2 (en) | 2020-07-27 | 2024-01-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for processing speech dialogues |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
US20180286386A1 (en) * | 2017-03-28 | 2018-10-04 | International Business Machines Corporation | Deep language and acoustic modeling convergence and cross training |
CN109272988A (zh) * | 2018-09-30 | 2019-01-25 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
EP3438973A1 (en) * | 2016-03-29 | 2019-02-06 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
-
2019
- 2019-10-17 CN CN201910988520.0A patent/CN110751945A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3438973A1 (en) * | 2016-03-29 | 2019-02-06 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium |
US20180286386A1 (en) * | 2017-03-28 | 2018-10-04 | International Business Machines Corporation | Deep language and acoustic modeling convergence and cross training |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN109272988A (zh) * | 2018-09-30 | 2019-01-25 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210807B (zh) * | 2020-02-21 | 2023-03-31 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111210807A (zh) * | 2020-02-21 | 2020-05-29 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111477239A (zh) * | 2020-03-31 | 2020-07-31 | 厦门快商通科技股份有限公司 | 一种基于gru神经网络的去除噪声方法及系统 |
CN111710340A (zh) * | 2020-06-05 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于语音识别用户身份的方法、装置、服务器及存储介质 |
US11862143B2 (en) | 2020-07-27 | 2024-01-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for processing speech dialogues |
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN112349288A (zh) * | 2020-09-18 | 2021-02-09 | 昆明理工大学 | 基于拼音约束联合学习的汉语语音识别方法 |
CN112116907A (zh) * | 2020-10-22 | 2020-12-22 | 浙江同花顺智能科技有限公司 | 语音识别模型建立、语音识别方法、装置、设备和介质 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113223509B (zh) * | 2021-04-28 | 2022-06-10 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113362811A (zh) * | 2021-06-30 | 2021-09-07 | 北京有竹居网络技术有限公司 | 模型的训练方法、语音识别方法、装置、介质及设备 |
CN113539244A (zh) * | 2021-07-22 | 2021-10-22 | 广州虎牙科技有限公司 | 端到端语音识别模型训练方法、语音识别方法及相关装置 |
CN113539244B (zh) * | 2021-07-22 | 2023-10-03 | 广州虎牙科技有限公司 | 端到端语音识别模型训练方法、语音识别方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751945A (zh) | 一种端到端的语音识别方法 | |
CN108510983B (zh) | 用于序列标注的自动单元选择和目标分解的系统和方法 | |
US10755048B2 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
CN111223498A (zh) | 情绪智能识别方法、装置及计算机可读存储介质 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN107145503A (zh) | 基于word2vec的远监督非分类关系提取方法及系统 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN110853629A (zh) | 一种基于深度学习的语音识别数字的方法 | |
CN104217226A (zh) | 基于深度神经网络与条件随机场的对话行为识别方法 | |
CN113870845A (zh) | 语音识别模型训练方法、装置、设备及介质 | |
CN115662435B (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN113688955B (zh) | 文本识别方法、装置、设备及介质 | |
CN114937465A (zh) | 一种基于自监督学习的语音情感识别方法和计算机设备 | |
CN114881169A (zh) | 使用随机特征损坏的自监督对比学习 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN116595170A (zh) | 一种基于软提示的医疗文本分类方法 | |
CN112885378B (zh) | 一种语音情感识别方法、装置及存储介质 | |
CN112015921B (zh) | 一种基于学习辅助知识图谱的自然语言处理方法 | |
CN112270192B (zh) | 一种基于词性和停用词过滤的语义识别方法及系统 | |
CN110866400B (zh) | 一种自动化更新的词法分析系统 | |
CN113889115A (zh) | 一种基于语音模型的方言转述方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200204 |