CN111354344A - 语音识别模型的训练方法、装置、电子设备及存储介质 - Google Patents
语音识别模型的训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111354344A CN111354344A CN202010158488.6A CN202010158488A CN111354344A CN 111354344 A CN111354344 A CN 111354344A CN 202010158488 A CN202010158488 A CN 202010158488A CN 111354344 A CN111354344 A CN 111354344A
- Authority
- CN
- China
- Prior art keywords
- training
- alignment
- model
- branch
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 193
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000002372 labelling Methods 0.000 claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 claims abstract description 59
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 31
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000002360 preparation method Methods 0.000 claims description 11
- 238000000844 transformation Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 101100422538 Escherichia coli sat-2 gene Proteins 0.000 description 2
- 108091006503 SLC26A1 Proteins 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101150084315 slc38a2 gene Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例涉及一种语音识别模型的训练方法、装置、电子设备及存储介质,应用于DNN‑HMM语音识别框架,方法包括:获取语音数据;提取语音数据的特征;基于特征对语音数据进行多分支对齐标注;基于多分支对齐标注,选择对齐标注结果;基于所选择的对齐标注结果,对神经网络进行全量训练,得到神经网络模型;基于神经网络模型和语言模型,得到语音识别模型。本公开实施例中,通过多分支对齐标注,并选择对齐标注结果,使得训练的神经网络模型得到优化,无需人工介入,提高训练效率和效果。
Description
技术领域
本公开实施例涉及语音识别技术领域,具体涉及一种语音识别模型的训练方法、装置、电子设备及存储介质。
背景技术
语音识别技术是机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。目前,DNN-HMM语音识别框架下语音识别模型的训练包括三部分:特征提取、对齐标注和神经网络训练,其中,对齐标注通过特征变换和对齐训练来完成,对齐标注结束后得到确定的输入和输出;神经网络训练基于输入和输出进行,神经网络训练结束后得到神经网络模型;结合神经网络模型和语言模型得到最终模型即为语音识别模型。
由于对齐标注和神经网络训练是独立的两个部分,所以对齐标注所产生的指标值虽然能够指示对齐训练是否充分,但是不能指示对齐标注得到的输入和输出是否经过神经网络训练得到最优神经网络模型,因此需要调整对齐标注的参数值,使得对齐标注得到的输入和输出经过神经网络训练得到最优神经网络模型。
但是,由于整个训练流程耗时比较长,且目前通过人工经验估计训练轮数和步骤来决定对齐标注是否完成,所以在整个训练过程中调整参数,尤其是调整对齐标注的参数的代价就会很大。上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种语音识别模型的训练方法、装置、电子设备及存储介质。
第一方面,本公开实施例提出一种语音识别模型的训练方法,应用于DNN-HMM语音识别框架,所述方法包括:
获取语音数据;
提取所述语音数据的特征;
基于所述特征对所述语音数据进行多分支对齐标注;
基于所述多分支对齐标注,选择对齐标注结果;
基于所选择的对齐标注结果,对神经网络进行全量训练,得到神经网络模型;
基于所述神经网络模型和语言模型,得到语音识别模型。
第二方面,本公开实施例提出一种语音识别模型的训练装置,应用于DNN-HMM语音识别框架,所述装置包括:
数据与模型准备模块,用于获取语音数据;
对齐标注模块,用于提取所述语音数据的特征;基于所述特征对所述语音数据进行多分支对齐标注;
训练控制模块,用于基于所述多分支对齐标注,选择对齐标注结果;
神经网络训练模块,用于基于所选择的对齐标注结果,对神经网络进行全量训练,得到神经网络模型;
解码模块,用于基于所述神经网络模型和语言模型,得到语音识别模型。
第三方面,本公开实施例提出一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面所述语音识别模型的训练方法的步骤。
第四方面,本公开实施例提出一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第一方面所述语音识别模型的训练方法的步骤。
可见,本公开的至少一个实施例中,通过多分支对齐标注,并选择对齐标注结果,使得训练的神经网络模型得到优化,无需人工介入,提高训练效率和效果。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是一种DNN-HMM语音识别框架下语音识别模型的示例性训练框图;
图2是另一种DNN-HMM语音识别框架下语音识别模型的示例性训练框图;
图3是本公开实施例提供的一种语音识别模型的训练装置示例性架构图;
图4是本公开实施例提供的一种解码模块的示例性架构图;
图5是本公开实施例提供的一种直线型结构的对齐标注流程;
图6是本公开实施例提供的一种树型结构的多分支对齐标注流程;
图7是本公开实施例提供的一种选择对齐标注结果的示例性框图;
图8是本公开实施例提供的一种停止多分支对齐标注训练的示例性框图;
图9是本公开实施例提供的一种电子设备的示例性架构图;
图10是本公开实施例提供的一种语音识别模型的训练方法的示例性流程图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为一种DNN-HMM语音识别框架下语音识别模型的训练过程,包括三部分:特征提取、对齐标注和神经网络训练,其中,虚线框部分即为对齐标注,对齐标注的目的在于将输入的语音数据与状态信息进行对齐,其中状态信息可以理解为发音所对应的状态,不同发音对应的状态不同,例如语音数据为“今天天气不错”,经过对齐标注后,“今天”与第一状态信息对齐,“天气”与第二状态信息对齐,“不错”与第三状态信息对齐,本领域人员可以理解,还可以进行更细粒度的对齐,例如将“今”、“天”、“天”、“气”、“不”、“错”分别进行状态信息对齐;还可以进行更粗粒度的对齐,例如将“今天天气”、“不错”分别进行状态信息对齐。在一些实施例中,状态信息可以为状态编号,例如状态编号43对应“今天”,而状态编号87对应“天气”。
图1中,对齐标注通过多轮的、多种特征变换和对齐训练来完成。对齐标注结束后得到确定的输入和输出,输入为语音数据,输出为状态信息。神经网络训练基于输入和输出进行,神经网络训练结束后得到神经网络模型;结合神经网络模型和语言模型得到最终模型即为语音识别模型。
图2为另一种DNN-HMM语音识别框架下语音识别模型的训练过程,包括两个部分:特征提取和对齐标注。其中,对齐训练会生成与图1中神经网络训练所得模型功能相近的模型(Gmm-Hmm模型),对齐训练所得模型和语言模型合并得到最终模型即语音识别模型。其中,对齐训练生成的模型(Gmm-Hmm模型)可以替换为图1中神经网络训练所得模型(神经网络模型),提升语音识别效果,具体地,通过对齐训练生成Gmm-Hmm模型,得到特定的输入与输出,输入为语音数据,输出为状态信息,神经网络训练基于输入和输出进行,神经网络训练结束后得到神经网络模型,从而使用神经网络模型替换Gmm-Hmm模型。
不论图1还是图2,对齐标注的结束时机通过人工经验估计训练轮数和步骤来决定;同时,由于整个训练流程比较长,对齐标注和神经网络训练又是完全脱开的两个部分,所以对齐标注阶段所产生的指标虽然能够指示对齐标注阶段的模型是否训练充分,但是不能代表生成的对齐标注结果是否适合后续的神经网络模型的训练;另外,正因为整个训练流程比较长,所以在整个训练的过程中调整参数,尤其是调整对齐标注阶段的参数的代价就会很大。所以对于没有足够经验的语音算法工程师,或者对于一个全新的数据任务,现阶段没有方法能够高效的找出合适的对齐标注方案。而本公开实施例能够在对齐标注部分中进行参数和步骤的选择,并因为对齐标注过程中使用了较优的参数和步骤,使得最终的模型训练,以及最终整体的语音识别模型的效果,均得到优化。
本公开实施例提供了一种语音识别模型的训练方法、装置、电子设备及存储介质,在对齐标注部分中进行参数和步骤的选择,具体地,通过多分支对齐标注,并选择对齐标注结果,使得训练的神经网络模型得到优化,例如选择最优的对齐标注结果,使得训练的神经网络模型最优,无需人工介入,提高训练效率和效果,可以应用于具有DNN-HMM语音识别框架的电子设备。所述电子设备可以为智能手机、平板电脑、智能运动装备(例如智能手环、运动手表)等便携式设备,也可以为台式计算机、智能家电(例如智能电视等)、服务器(云服务器、分布式服务器、集中式服务器)等固定式设备,还可以为电子设备、公共基础设备(例如智能电子公告牌、智能交通设施)等。在一些实施例中,电子设备可以应用到不同领域,例如交通领域、安防领域、教育领域、互联网领域等可以通过语音交互的领域。应当理解的是,本申请的方法的应用场景仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以将本申请应用于其他类似情景。
图3为本公开实施例提供的一种语音识别模型的训练装置示例性架构图,该训练装置应用于DNN-HMM语音识别框架。如图3所示,训练模型包括:数据与模型准备模块、对齐标注模块、神经网络训练模块、训练控制模块和解码模块。在一些实施例中,数据与模型准备模块和解码模块可以独立于该训练装置,也即该训练装置仅包括:对齐标注模块、神经网络训练模块和训练控制模块。
数据与模型准备模块,用于获取语音数据。其中,语音数据包括但不限于用户自己录制、开源以及购买的语音数据。在一些实施例中,数据与模型准备模块对语音数据进行预处理和数据增强,所得数据供其他模块使用。在一些实施例中,预处理包括但不限于:将语音数据格式统一,得到规整的语音和文本对应的数据形式。例如,预处理为:将所有的语音转成单声道、16KHz的wav文件,并且控制每个音频片段在3s到20s之间,每个音频有对应的文本标注,即音频中说的内容。在一些实施例中,数据增强包括但不限于:通过速度扰动、音量扰动以及加噪声等方式扩展音频数据量,为神经网络模型训练做准备。在一些实施例中,数据与模型准备模块可训练语言模型,供后续模型拼合使用。在一些实施例中,数据与模型准备模块基于现有文本或结合文本语料之外的文本训练语言模型。
对齐标注模块,用于向神经网络训练模块提供较为准确地对齐标注结果(也即向神经网络提供输入与输出内容)。在一些实施例中,对齐标注模块可提取(或抽取)语音数据的特征,并基于提取的特征对语音数据进行多分支对齐标注。在一些实施例中,多分支对齐标注包括对提取的特征进行多步骤的特征变换及对齐标注训练,在每个步骤中产生多个训练分支,接入后续神经网络训练模块进行筛选。在一些实施例中,对齐标注模块基于对齐标注流程,对语音数据进行多分支对齐标注;其中,对齐标注流程包括多个顺序执行的步骤,每个步骤包括并行执行的至少一个对齐标注分支,相比现有对齐标注流程,除了多个顺序执行的步骤,每个步骤还增加并行执行的至少一个对齐标注分支,便于选择最优分支。在一些实施例中,对齐标注流程中的所有对齐标注分支是从预先设置的分支空间中随机选取,可以采用其他的参数选取方法来选取之后的分支,其他参数选取方法包括:Grid search,random search,贝叶斯优化搜索等。
在一些实施例中,图5示出了一种直线型结构的对齐标注流程,如图5所示,特征工程可以理解为对齐标注模块抽取语音数据的特征,每个黑色框表示对齐标注流程的一个步骤,也可理解为一轮“特征变换及对齐标注训练”,也即每个黑色框表示一轮“特征变换及对齐标注训练”。Mono、Delta、lda+m1lt、sat1、sat2表示特征变换的方式,其中,sat1和sat2表示相同的特征变换方式,但是参数(如叶子节点数)不同;10%、30%表示训练数据量,没有标注百分号则使用全量数据进行训练。不同于直线型结构的对齐标注流程,本实施例中对齐标注流程为树型结构,如图6所示,每个对齐标注分支配置有特征变换方式、训练数据量和对齐标注模型的训练参数,在实际应用中,多分支对齐标注流程的树型结构更加复杂,比如lda+mllt会尝试更多的参数。
在一些实施例中,对齐标注模块对于每个对齐标注分支均执行如下操作:对提取的特征进行特征变换,并基于特征变换训练对齐标注模型(Gmm-Hmm模型)。在一些实施例中,特征变换例如包括但不限于delta、lda+m1lt、sat等方式。每个对齐标注分支训练对齐标注模型的方式包括以下(1)至(3)中至少一种:(1)基于不同特征变换训练未修改参数的对齐标注模型;(2)扩大训练数据量,基于特征变换训练修改参数的对齐标注模型;(3)基于相同特征变换训练修改参数的对齐标注模型。不同的训练方式可以产生不同对齐效果的对齐标注结果,便于筛选最优结果。在一些实施例中,对齐标注模块产生的训练分支在接入神经网络训练模块的同时,也会接入解码模块,得到供训练控制模块进行判断的指标数据。在一些实施例中,在对齐标注过程中,若采用部分数据训练对齐标注模型,则对齐标注模块在所述对齐标注分支完成对齐训练后,基于全量数据进行对齐标注,得到对齐标注结果。
训练控制模块,用于基于对齐标注模块的多分支对齐标注,选择对齐标注结果,以供神经网络训练模块进行全量训练。在一些实施例中,训练控制模块可控制对齐标注模块新分支的产生。在一些实施例中,训练控制模块选择每个步骤中的最优分支,确定最优流程;其中,所述最优流程的最终结果为所选择的对齐标注结果。在一些实施例中,训练控制模块基于对齐标注分支的评价指标值以及神经网络的训练指标值,选择最优分支。其中,对齐标注分支的评价指标值由解码模块得到;神经网络的训练指标值由神经网络训练模块得到。在一些实施例中,训练控制模块基于当前步骤所有分支的评价指标值及训练指标值,以及,基于上一步骤的最优分支的评价指标值及训练指标值,确定当前步骤所有分支的选择值;确定最小选择值对应的分支为最优分支。
在一些实施例中,如图6所示,若对齐标注流程第一个步骤中的分支(Mono,10%)的评价指标值记为cer_0、训练指标值记为outx_0和out_0,对齐标注流程第二个步骤中的任一分支的评价指标值记为cer_i、训练指标值记为outx_i和out_i,训练控制模块通过下式计算分支的选择值Di:
其中,加和的每一部分均小于1。训练控制模块确定最小选择值对应的分支为最优分支,并继续对齐标注流程的下一个步骤。
在一些实施例中,训练控制模块选择对齐标注结果如图7所示,图7中菱形框表示选择对齐标注结果,实质上也是进行了对齐标注分支的选择,判断从哪一分支继续训练。
在一些实施例中,训练控制模块基于当前步骤的最优分支的选择值与上一步骤的最优分支的选择值,确定当前步骤是否为最后一步。在一些实施例中,若当前步骤的最优分支的选择值D2与上一步骤的最优分支的选择值D1满足:D2>D1×0.95,则训练控制模块停止对齐标注模块的训练,当前步骤的最优分支为最后分支。在一些实施例中,如图6所示的多分支对齐标注流程树型结构,当出现多个分支时,每一个分支会进行部分神经网络训练(也即神经网络的部分训练),训练控制模块会根据部分神经网络训练结果判断当前分支是否值得进行。同时,对齐标注流程中的一些步骤有可能不会进行判断,比如图6中的sat2,因为要比较两个sat和一个sat的效果。而对于sat3和sat4的情况,指的是在训练完sat3并有了初步的判断之后,训练sat4,将sat3和sat4的部分神经网络训练结果进行比较,判断sat3的训练已经足够,可以直接进行全量神经网络的训练。
在一些实施例中,训练控制模块选择是否停止对齐标注模块的训练,如图8所示。图8中菱形框表示选择是否停止对齐标注模块的训练。图8中,Sat3是sat2延伸出来的分支,若Sat3的选择值D3与sat2的选择值D2满足:D3>D2×0.95,则训练控制模块停止对齐标注模块的训练,Sat3即为最后分支。
在一些实施例中,训练控制模块控制神经网络训练模块的训练迭代数。在一些实施例中,训练控制模块控制神经网络训练模块进行部分训练的迭代次数小于进行全量训练的迭代次数,且所有部分训练的迭代次数均相同。在一些实施例中,部分训练的迭代次数为全量训练的迭代次数(经验迭代数)的1/5或1/10,且部分训练的迭代次数达到经验迭代数的1/5或1/10后停止部分训练。
神经网络训练模块,用于基于对齐标注模块生成的对齐标注结果,对神经网络进行训练。在一些实施例中,神经网络训练模块基于训练控制模块所选择的对齐标注结果,对神经网络进行全量训练,得到神经网络模型。在一些实施例中,神经网络训练模块可得到神经网络的训练指标值。其中,神经网络的训练指标值例如为output-xent和output两个loss值。在一些实施例中,神经网络训练模块基于对齐标注分支的对齐标注结果,对神经网络进行部分训练,得到神经网络的训练指标值,也即每个对齐标注分支完成对齐标训练后均会进行神经网络的部分训练。其中,对齐标注结果为对齐标注分支(采用部分数据)完成对齐标注训练后,基于全量数据进行对齐标注得到的。每次进行部分训练的神经网络具有相同的结构,但神经网络的输出维度可以不同。
解码模块,用于将对齐标注模型与语言模型进行拼合,生成解码模型。在一些实施例中,解码模块可得到对齐标注分支的评价指标值。在一些实施例中,解码模块基于对齐标注分支完成对齐标注模型训练,确定对齐标注分支的评价指标值。在一些实施例中,解码模块基于对齐标注分支完成对齐标注模型训练所得的模型与语言模型,可生成对齐标注分支所对应的解码模型,进而基于该解码模型对测试数据进行解码预测,得到对齐标注分支的评价指标值。其中,测试数据来源于语音数据。在一些实施例中,解码模块基于神经网络训练模块训练的神经网络模型和语言模型,得到语音识别模型。在一些实施例中,语音识别模型采用最优流程的最后一步的最优分支的特征转换方式进行特征转换。
在一些实施例中,解码模块的架构图如图4所示,解码模块基于对齐标注模块生成的声学模型(也即对齐标注模型:Gmm-Hmm模型)、数据与模型准备模块得到的语言模型以及其他的词表等文件,合成解码模型,进而基于该解码模型对测试数据进行模型预测(也即解码预测),得到评价指标值:CER(词错误率)指标值。
在一些实施例中,语音识别模型的训练装置示中各模块的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如数据与模型准备模块、对齐标注模块、神经网络训练模块、训练控制模块和解码模块中的至少两个模块可以实现为一个模块;数据与模型准备模块、对齐标注模块、神经网络训练模块、训练控制模块或解码模块也可以划分为多个子模块。可以理解的是,各个模块或子模块能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图9是本公开实施例提供的一种电子设备的结构示意图。如图9所示,电子设备包括:至少一个处理器901、至少一个存储器902和至少一个通信接口903。电子设备中的各个组件通过总线系统904耦合在一起。通信接口903,用于与外部设备之间的信息传输。可理解地,总线系统904用于实现这些组件之间的连接通信。总线系统904除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图9中将各种总线都标为总线系统904。
可以理解,本实施例中的存储器902可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器902存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例提供的语音识别模型的训练方法的程序可以包含在应用程序中。
在本公开实施例中,处理器901通过调用存储器902存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器901用于执行本公开实施例提供的语音识别模型的训练方法各实施例的步骤。
本公开实施例提供的语音识别模型的训练方法可以应用于处理器901中,或者由处理器901实现。处理器901可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的语音识别模型的训练方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902,处理器901读取存储器902中的信息,结合其硬件完成方法的步骤。
图10为本公开实施例提供的一种语音识别模型的训练方法的示例性流程图,应用于DNN-HMM语音识别框架。该方法的执行主体为电子设备。为便于描述,以下实施例中以电子设备为执行主体说明语音识别模型的训练方法的流程。
如图10所示,在步骤1001中,电子设备获取语音数据。其中,语音数据包括但不限于用户自己录制、开源以及购买的语音数据。在一些实施例中,电子设备对语音数据进行预处理和数据增强,所得数据供其他模块使用。在一些实施例中,预处理包括但不限于:将语音数据格式统一,得到规整的语音和文本对应的数据形式。在一些实施例中,数据增强包括但不限于:通过速度扰动、音量扰动以及加噪声等方式扩展音频数据量,为神经网络模型训练做准备。
在步骤1002中,电子设备提取语音数据的特征。
在步骤1003中,电子设备基于提取的特征对语音数据进行多分支对齐标注。在一些实施例中,电子设备基于提取的特征和对齐标注流程,对语音数据进行多分支对齐标注;其中,对齐标注流程包括多个顺序执行的步骤,每个步骤包括并行执行的至少一个对齐标注分支。在一些实施例中,对齐标注流程为树型结构,每个对齐标注分支均配置有特征变换方式和训练数据量。在一些实施例中,电子设备对于每个对齐标注分支均执行:对提取的特征进行特征变换,并基于特征变换训练对齐标注模型。在一些实施例中,电子设备对于每个对齐标注分支训练对齐标注模型的方式包括以下(1)至(3)中至少一种:(1)基于不同特征变换训练未修改参数的对齐标注模型;(2)扩大训练数据量,基于特征变换训练修改参数的对齐标注模型;(3)基于相同特征变换训练修改参数的对齐标注模型。
在步骤1004中,电子设备基于多分支对齐标注,选择对齐标注结果。在一些实施例中,电子设备选择每个步骤中的最优分支,确定最优流程;其中,所述最优流程的最终结果为所选择的对齐标注结果。在一些实施例中,电子设备基于对齐标注分支完成对齐标注模型训练,确定对齐标注分支的评价指标值;进而基于对齐标注分支的对齐标注结果,对神经网络进行部分训练,得到所述神经网络的训练指标值;基于所述评价指标值及所述训练指标值,选择最优分支。在一些实施例中,电子设备基于当前步骤所有分支的评价指标值及训练指标值,以及,基于上一步骤的最优分支的评价指标值及训练指标值,确定当前步骤所有分支的选择值;确定最小选择值对应的分支为最优分支。
在一些实施例中,电子设备基于对齐标注模型及语言模型,得到解码模型;进而基于解码模型对测试数据进行解码预测,得到对齐标注分支的评价指标值。在一些实施例中,电子设备基于对齐标注分支配置的训练数据量为部分数据,在对齐标注分支完成对齐训练后,基于全量数据进行对齐标注,得到对齐标注结果;进而基于所述对齐标注结果,对神经网络进行部分训练。在一些实施例中,部分训练的迭代次数小于全量训练的迭代次数,且所有部分训练的迭代次数均相同;每次进行部分训练的神经网络具有相同的结构,但神经网络的输出维度可以不同。在一些实施例中,电子设备基于当前步骤的最优分支的选择值与上一步骤的最优分支的选择值,确定当前步骤是否为最后一步。
在步骤1005中,电子设备基于所选择的对齐标注结果,对神经网络进行全量训练,得到神经网络模型。
在步骤1006中,电子设备基于所述神经网络模型和语言模型,得到语音识别模型。其中,语言模型基于现有文本或结合文本语料之外的文本训练得到。在一些实施例中,语音识别模型采用所述最优流程的最后一步的最优分支的特征转换方式进行特征转换。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。
本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如语音识别模型的训练方法各实施例的步骤,为避免重复描述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种语音识别模型的训练方法,其特征在于,应用于DNN-HMM语音识别框架,所述方法包括:
获取语音数据;
提取所述语音数据的特征;
基于所述特征对所述语音数据进行多分支对齐标注;
基于所述多分支对齐标注,选择对齐标注结果;
基于所选择的对齐标注结果,对神经网络进行全量训练,得到神经网络模型;
基于所述神经网络模型和语言模型,得到语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述语音数据为原始语音数据经过预处理和数据增强后得到的语音数据。
3.根据权利要求1所述的方法,其特征在于,基于所述特征对所述语音数据进行多分支对齐标注,包括:
基于所述特征和对齐标注流程,对所述语音数据进行多分支对齐标注;其中,所述对齐标注流程包括多个顺序执行的步骤,每个步骤包括并行执行的至少一个对齐标注分支。
4.根据权利要求3所述的方法,其特征在于,所述对齐标注流程为树型结构,所述对齐标注分支配置有特征变换方式、训练数据量和对齐标注模型的训练参数;所述对齐标注包括:
对所述特征进行特征变换;
基于所述特征变换训练对齐标注模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述特征变换训练对齐标注模型,包括以下至少一种:
基于不同特征变换训练未修改参数的对齐标注模型;
扩大训练数据量,基于所述特征变换训练修改参数的对齐标注模型;
基于相同特征变换训练修改参数的对齐标注模型。
6.根据权利要求3所述的方法,其特征在于,基于所述多分支对齐标注,选择对齐标注结果,包括:
选择每个步骤中的最优分支,确定最优流程;
其中,所述最优流程的最终结果为所选择的对齐标注结果。
7.根据权利要求6所述的方法,其特征在于,所述选择每个步骤中的最优分支,包括:
基于对齐标注分支完成对齐标注模型训练,确定对齐标注分支的评价指标值;
基于对齐标注分支的对齐标注结果,对所述神经网络进行部分训练,得到所述神经网络的训练指标值;
基于所述评价指标值及所述训练指标值,选择最优分支。
8.一种语音识别模型的训练装置,其特征在于,应用于DNN-HMM语音识别框架,所述装置包括:
数据与模型准备模块,用于获取语音数据;
对齐标注模块,用于提取所述语音数据的特征;基于所述特征对所述语音数据进行多分支对齐标注;
训练控制模块,用于基于所述多分支对齐标注,选择对齐标注结果;
神经网络训练模块,用于基于所选择的对齐标注结果,对神经网络进行全量训练,得到神经网络模型;
解码模块,用于基于所述神经网络模型和语言模型,得到语音识别模型。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010158488.6A CN111354344B (zh) | 2020-03-09 | 2020-03-09 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010158488.6A CN111354344B (zh) | 2020-03-09 | 2020-03-09 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111354344A true CN111354344A (zh) | 2020-06-30 |
CN111354344B CN111354344B (zh) | 2023-08-22 |
Family
ID=71196077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010158488.6A Active CN111354344B (zh) | 2020-03-09 | 2020-03-09 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354344B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114329003A (zh) * | 2021-12-27 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
WO2022121521A1 (zh) * | 2020-12-09 | 2022-06-16 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1269464A2 (en) * | 2000-04-05 | 2003-01-02 | Lernout & Hauspie Speech Products N.V. | Discriminatively trained mixture models in continuous speech recognition |
US20070078654A1 (en) * | 2005-10-03 | 2007-04-05 | Microsoft Corporation | Weighted linear bilingual word alignment model |
US20100318358A1 (en) * | 2007-02-06 | 2010-12-16 | Yoshifumi Onishi | Recognizer weight learning device, speech recognizing device, and system |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
WO2018227780A1 (zh) * | 2017-06-12 | 2018-12-20 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110689879A (zh) * | 2019-10-10 | 2020-01-14 | 中国科学院自动化研究所 | 端到端语音转写模型的训练方法、系统、装置 |
CN110706695A (zh) * | 2019-10-17 | 2020-01-17 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
-
2020
- 2020-03-09 CN CN202010158488.6A patent/CN111354344B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1269464A2 (en) * | 2000-04-05 | 2003-01-02 | Lernout & Hauspie Speech Products N.V. | Discriminatively trained mixture models in continuous speech recognition |
US20070078654A1 (en) * | 2005-10-03 | 2007-04-05 | Microsoft Corporation | Weighted linear bilingual word alignment model |
US20100318358A1 (en) * | 2007-02-06 | 2010-12-16 | Yoshifumi Onishi | Recognizer weight learning device, speech recognizing device, and system |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
WO2018227780A1 (zh) * | 2017-06-12 | 2018-12-20 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
CN110689879A (zh) * | 2019-10-10 | 2020-01-14 | 中国科学院自动化研究所 | 端到端语音转写模型的训练方法、系统、装置 |
CN110706695A (zh) * | 2019-10-17 | 2020-01-17 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
Non-Patent Citations (2)
Title |
---|
JENNIFER DREXLER: "Explicit Alignment of Text and Speech Encodings for Attention-Based End-to-End Speech Recognition" * |
王恺: "基于联结时序分类与注意力机制的端到端语音识别研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121521A1 (zh) * | 2020-12-09 | 2022-06-16 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
CN114329003A (zh) * | 2021-12-27 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111354344B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
CN107464554B (zh) | 语音合成模型生成方法和装置 | |
CN112966712A (zh) | 语言模型训练方法、装置、电子设备和计算机可读介质 | |
CN111383628B (zh) | 一种声学模型的训练方法、装置、电子设备及存储介质 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN112084752B (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN104572614A (zh) | 一种语言模型的训练方法及系统 | |
CN111354344B (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
CN112562640A (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
CN111428030B (zh) | 一种语料分类的方法及系统 | |
CN116306603A (zh) | 标题生成模型的训练方法和标题生成方法、装置和介质 | |
CN115115984A (zh) | 视频数据处理方法、装置、程序产品、计算机设备和介质 | |
CN107967304A (zh) | 会话交互处理方法、装置及电子设备 | |
CN114333759A (zh) | 模型训练方法、语音合成方法、设备和计算机程序产品 | |
JP7182584B2 (ja) | スピーチ理解における解析異常の情報を出力するための方法 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
CN113515594A (zh) | 意图识别方法、意图识别模型训练方法、装置及设备 | |
CN108597522A (zh) | 一种语音处理方法及装置 | |
CN110675865B (zh) | 用于训练混合语言识别模型的方法和装置 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
JP2014232145A (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
CN114117096B (zh) | 多媒体数据处理方法及相关设备 | |
CN115294947A (zh) | 音频数据处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |