CN108091339B - 在线语音识别引擎及识别方法 - Google Patents
在线语音识别引擎及识别方法 Download PDFInfo
- Publication number
- CN108091339B CN108091339B CN201711051525.8A CN201711051525A CN108091339B CN 108091339 B CN108091339 B CN 108091339B CN 201711051525 A CN201711051525 A CN 201711051525A CN 108091339 B CN108091339 B CN 108091339B
- Authority
- CN
- China
- Prior art keywords
- network
- dnn
- speech recognition
- rnn
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000007423 decrease Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Telephonic Communication Services (AREA)
- Computer And Data Communications (AREA)
Abstract
一种在线语音识别引擎及识别方法,在线语音识别引擎包括:至少一个DNN网络,每一DNN网络基于与其对应的局部特征一致的经标注的语音数据来进行学习训练;以及RNN信息融合网络,用于接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,并不断提高RNN信息融合网络自身融合能力。
Description
技术领域
本发明涉及语音识别领域,具体涉及一种在线语音识别引擎及识别方法。
背景技术
深度学习网络(Deep-Learning Neural Network,DNN)技术的发展,带来了语音识别领域的飞速发展。目前实际应用场景中语音识别的准确性,取决于DNN训练数据与真实数据特征的一致性,为了训练得到具有普适应用效果的在线识别引擎,需要获取具有广泛数据特征的海量标注数据。
为了增强语音识别系统的扩展性,普通的DNN语音识别引擎需要海量的标注数据,由于数据的庞大,要求网络层级复杂,导致所得到的声学模型和语音模型都很巨大,因此计算量会随着网络规模的增长而呈指数级增长,这导致普通的DNN语音识别系统随着用户语音特征的复杂化,无法有效控制自身对数据的增长需求以及对硬件设备计算能力的增长需求。由于无法控制自身规模,导致普通的DNN语音识别系统无法以极小代价做设备、系统间的移植,进而极大地限制了自身的应用适应范围。
发明内容
鉴于上述技术问题,为了克服上述现有技术的不足,本发明提出了在线语音识别引擎及识别方法。
根据本发明的一个方面,提供了一种在线语音识别引擎包括:至少一个DNN网络,每一DNN网络基于与其对应的局部特征一致的经标注的语音数据来进行学习训练;以及RNN信息融合网络,用于接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,并不断提高RNN信息融合网络自身融合能力。
在一些实施例中,在线语音识别引擎还包括:语音识别评价模块,其基于所述DNN网络或所述DNN网络和RNN信息融合网络的语音识别输出给出评测结果。
在一些实施例中,在线语音识别引擎还包括:云端服务器,用于存储与每一DNN网络对应的局部特征一致的经标注的语音数据及采集到的需要识别的新语音数据。
在一些实施例中,所述云端服务器基于所述评测结果来决定RNN信息融合网络是否工作。
在一些实施例中,当DNN网络中的至少一个效能下降时,RNN信息融合网络开启工作。
根据本发明的另一个方面,提供了一种在线语音识别方法包括:至少一个DNN网络接收需要识别的新语音数据进行语音数据识别;判断至少一个DNN网络的效能是否下降;若是,则启动RNN信息融合网络,接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,并不断提高RNN信息融合网络自身融合能力;以及一个DNN网络或者和RNN信息融合网络共同实现语音数据识别。
在一些实施例中,在采用与其对应的局部特征一致的经标注的语音数据来对至少一个DNN网络进行学习训练之前好包括:采用与其对应的局部特征一致的经标注的语音数据来对至少一个DNN网络进行学习训练。
在一些实施例中,判断至少一个DNN网络的效能是否下降取决于由语音识别评价模块基于所述DNN网络和RNN信息融合网络的语音识别输出给出评测结果。
从上述技术方案可以看出,本发明具有以下有益效果:
利用至少一个DNN网络进行语音识别并结合RNN信息融合网络进行信息融合,增强在线语音识别引擎的扩展性和稳定性;
基于语音识别输出的评测结果绝定是都开启RNN信息融合网络,能够灵活进行在线语音识别引擎不同工作模式的切换,降低不必要开销,增强在线语音识别引擎整体效能。
附图说明
图1为本发明一实施例中在线语音识别引擎的结构框图;
图2为本发明另一实施例在线语音识别方法的流程图。
具体实施方式
本发明某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本发明的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本发明满足适用的法律要求。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明一实施例提供一种在线语音识别引擎,包括:至少一个DNN网络和RNN信息融合网络,每一DNN网络基于与其对应的局部特征一致的经标注的语音数据来进行学习训练;RNN信息融合网络用于接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,并不断提高RNN信息融合网络自身融合能力。
图1为本发明一实施例中在线语音识别引擎的结构框图,如图1所示,在线语音识别引擎100包括:至少一DNN网络10、RNN信息融合网络20、云端服务器30以及语音识别评价模块40。
每一DNN网络10针对其对应的局部特征一致的经标注的语音数据进行学习训练,自身一致性高,不需要海量的需要标注的语音数据,每一DNN网络10网络层级较简单。每一DNN网络10接收需要识别的新语音数据并基于其训练结果给出语音识别输出。
每一DNN网络10对应的局部特征一致的经标注的语音数据可以就要语音数据的属性来划分,例如方言、语种、应用领域等。
RNN信息融合网络20具有对学习样本数据的时序性进行分析的能力,能够平衡不同训练批次样本间特征不一致性,从而在整体上改善学习的效果和对数据扩展的适应性,在本实施例中,其用于接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,不断更新网络参数,不断提高RNN信息融合网络自身融合能力。
云端服务器30,用于存储与每一DNN网络对应的局部特征一致的经标注的语音数据及采集到的需要识别的新语音数据,其可以将与每一DNN网络10对应的局部特征一致的经标注的语音数据及采集到的需要识别的新语音数据传输至相应的每一DNN网络10,以及如果需要,将需要识别的新语音数据传输至RNN信息融合网络20。
语音识别评价模块40,其基于所述DNN网络,或DNN网络和RNN信息融合网络的语音识别输出给出评测结果。
语音识别评价模块40基于所述至少一DNN网络语音识别输出给出评测结果不好,即与需要识别的语音数据偏差较大时,此时DNN网络中的至少一个效能下降时,RNN信息融合网络开启工作,不断更新网络参数,不断提高RNN信息融合网络自身融合能力。
如此在线语音识别引擎100不断增强自身对新语音数据的适应性,从而提高自身扩展性和稳定性。
在线语音识别引擎100可以工作在两种工作模式下,在一种工作模式下,RNN信息融合网络20不开启,仅利用所述至少一DNN网络10来实现语音识别,在另一种工作模式,RNN信息融合网络20开启,DNN网络和RNN信息融合网络共同实现语音识别。
云端服务器30基于语音识别评价模块40的测评结果能够灵活进行不同工作模式的切换,降低不必要开销,增强系统效能。在DNN子系统能够提供有效服务时,利用子系统提供服务,在子系统效能下降时,启动RNN信息融合网络,提高语音识别率和服务能力。
本发明另一实施例提供一种在线语音识别方法,图2为本发明另一实施例在线语音识别方法的流程图,如图2所示,该在线语音识别方法包括以下步骤:
S100采用与其对应的局部特征一致的经标注的语音数据来对至少一个DNN网络进行学习训练;
每一DNN网络10针对其对应的局部特征一致的经标注的语音数据进行学习训练,自身一致性高,不需要海量的需要标注的语音数据,每一DNN网络10网络层级较简单。
每一DNN网络10对应的局部特征一致的经标注的语音数据可以就要语音数据的属性来划分,例如方言、语种、应用领域等。
S200至少一个DNN网络接收需要识别的新语音数据进行语音数据识别;
S300判断至少一个DNN网络的效能是否下降,若是则至步骤400,若否则返回S200。
语音识别评价模块40基于所述至少一DNN网络语音识别输出给出评测结果不好,即与需要识别的语音数据偏差较大时,此时DNN网络中的至少一个效能下降。
S400启动RNN信息融合网络。
RNN信息融合网络接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,并不断提高RNN信息融合网络自身融合能力。
应注意,实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本发明的保护范围。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种在线语音识别引擎,其特征在于,包括:
至少一个DNN网络,每一DNN网络基于与其对应的局部特征一致的经标注的语音数据来进行学习训练;以及
RNN信息融合网络,用于接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,并不断提高RNN信息融合网络自身融合能力。
2.根据权利要求1所述的在线语音识别引擎,其中,还包括:
语音识别评价模块,其基于所述DNN网络或所述DNN网络和RNN信息融合网络的语音识别输出给出评测结果。
3.根据权利要求2所述的在线语音识别引擎,其中,还包括:
云端服务器,用于存储与每一DNN网络对应的局部特征一致的经标注的语音数据及采集到的需要识别的新语音数据。
4.根据权利要求3所述的在线语音识别引擎,其中,所述云端服务器基于所述评测结果来决定RNN信息融合网络是否工作。
5.根据权利要求4所述的在线语音识别引擎,其中,当DNN网络中的至少一个效能下降时,RNN信息融合网络开启工作。
6.一种在线语音识别方法,其特征在于,包括:
至少一个DNN网络接收需要识别的新语音数据进行语音数据识别;
判断至少一个DNN网络的效能是否下降;
若是,则启动RNN信息融合网络,接收需要识别的新语音数据和各个DNN语音识别子系统基于需要识别的新语音数据的输出,并不断提高RNN信息融合网络自身融合能力;以及
一个DNN网络或者和RNN信息融合网络共同实现语音数据识别。
7.根据权利要求6所述的一种在线语音识别方法,其中,在采用与其对应的局部特征一致的经标注的语音数据来对至少一个DNN网络进行学习训练之前好包括:
采用与其对应的局部特征一致的经标注的语音数据来对至少一个DNN网络进行学习训练。
8.根据权利要求6所述的一种在线语音识别方法,其中,判断至少一个DNN网络的效能是否下降取决于由语音识别评价模块基于所述DNN网络和RNN信息融合网络的语音识别输出给出评测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711051525.8A CN108091339B (zh) | 2017-10-31 | 2017-10-31 | 在线语音识别引擎及识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711051525.8A CN108091339B (zh) | 2017-10-31 | 2017-10-31 | 在线语音识别引擎及识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108091339A CN108091339A (zh) | 2018-05-29 |
CN108091339B true CN108091339B (zh) | 2019-11-08 |
Family
ID=62170734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711051525.8A Active CN108091339B (zh) | 2017-10-31 | 2017-10-31 | 在线语音识别引擎及识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108091339B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292727B (zh) * | 2020-02-03 | 2023-03-24 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9520127B2 (en) * | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
CN107146601B (zh) * | 2017-04-07 | 2020-07-24 | 南京邮电大学 | 一种用于说话人识别系统的后端i-vector增强方法 |
-
2017
- 2017-10-31 CN CN201711051525.8A patent/CN108091339B/zh active Active
Non-Patent Citations (1)
Title |
---|
自由表述口语语音评测后验概率估计改进方法;许苏魁等;《中文信息学报》;20170430;第31卷(第2期);第212-218页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108091339A (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9865257B2 (en) | Device and method for a spoken dialogue system | |
US10083169B1 (en) | Topic-based sequence modeling neural networks | |
CN109033305A (zh) | 问题回答方法、设备及计算机可读存储介质 | |
WO2021062990A1 (zh) | 视频分割方法、装置、设备及介质 | |
CN104809105B (zh) | 基于最大熵的事件论元及论元角色的识别方法及系统 | |
CN103956167A (zh) | 一种基于Web的可视化手语翻译方法及设备 | |
CN110019617B (zh) | 地址标识的确定方法和装置、存储介质、电子装置 | |
CN106909656B (zh) | 获取文本提取模型的方法及装置 | |
KR102073388B1 (ko) | 이미지에 작가의 화풍을 적용하여 제공하는 방법, 서버 및 프로그램 | |
GB2424502A (en) | Apparatus and method for model adaptation for spoken language understanding | |
CN104765996A (zh) | 声纹密码认证方法及系统 | |
CN113778871A (zh) | Mock测试方法、装置、设备及存储介质 | |
CN109492795A (zh) | 基于ai的机场登机服务处理方法、装置、设备及介质 | |
KR20200052446A (ko) | 딥러닝 모델 학습 장치 및 방법 | |
CN109741734A (zh) | 一种语音评测方法、装置和可读介质 | |
CN105845141A (zh) | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 | |
US20230331250A1 (en) | Method and apparatus for configuring deep learning algorithm for autonomous driving | |
KR20160064335A (ko) | 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템 | |
CN108091339B (zh) | 在线语音识别引擎及识别方法 | |
CN110890088A (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN110490428A (zh) | 空中交通管制工作质量评估方法及相关装置 | |
KR20220130739A (ko) | 스피치 인식 | |
CN109637529A (zh) | 基于语音的功能定位方法、装置、计算机设备及存储介质 | |
KR102017229B1 (ko) | 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 | |
CN105988978A (zh) | 确定文本焦点的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1256261 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |