CN114600186A - 用于基于注意力的端到端语音识别的词符式训练 - Google Patents
用于基于注意力的端到端语音识别的词符式训练 Download PDFInfo
- Publication number
- CN114600186A CN114600186A CN202080014465.6A CN202080014465A CN114600186A CN 114600186 A CN114600186 A CN 114600186A CN 202080014465 A CN202080014465 A CN 202080014465A CN 114600186 A CN114600186 A CN 114600186A
- Authority
- CN
- China
- Prior art keywords
- time
- logogram
- training
- determined
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000015654 memory Effects 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001391944 Commicarpus scandens Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种基于注意力的端到端(A‑E2E)自动语音识别(ASR)训练的方法,包括:基于语音信号的一个或更多个输入特征对模型执行交叉熵训练;确定在执行交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量;以及基于所确定的后验概率向量确定在该时间处的第一个错误词符的损失。该方法还包括:基于所确定的第一个错误词符的损失确定执行交叉熵训练的模型的训练集的总损失;以及基于所确定的训练集的总损失更新执行交叉熵训练的模型。
Description
相关申请的交叉引用
本申请要求于2019年2月14日提交的美国申请第16/275,971号的优先权,该美国申请的公开内容通过引用整体并入本文。
背景技术
基于注意力的端到端(Attention-based end-to-end,A-E2E)自动语音识别(automatic speech recognition,ASR)系统与常规的隐马尔可夫模型(hidden Markovmodel,HMM)系统的不同之处在于语音信号被直接映射到词符(token)(字符/子词/词)。这使得A-E2E ASR系统能够使用接近评估指标例如字符错误率(character error rate,CER)和词错误率(word error rate,WER)的训练标准。
可以使用A-E2E ASR模型的策略梯度,来将CER和/或WER损失反向传播至模型参数。首先,可以通过基于采样的方法计算预期的CER和/或WER。然后,可以应用策略梯度来直接优化预期的CER和/或WER。受常规的基于HMM的模型的最小贝叶斯风险(minimum Bayesrisk,MBR)训练的启发,可以对A-E2E ASR系统使用最小词错误率(minimum word errorrate,MWER)训练。MWER训练的损失为词错误的预期数量。因为精确计算这样的损失是低效的,所以可以使用两种近似方法来计算。第一种方法基于采样,第二种方法使用在训练期间生成的n最佳假设(n-best hypotheses)。实验结果表明,基于n最佳假设的损失估计优于基于采样的损失估计。可以通过在n最佳假设生成期间使用softmax平滑来改进MWER训练。可以使用Switchboard(SWBD)300h语料库获得竞争结果。
在A-E2E ASR系统中,由于输出词符的依赖性,对前几个错误的校正可能是非常重要的。细粒度局部错误(fine-grained partial error)可以被视为朝向这个方向的尝试。利用长度归一化的编辑距离,在损失中向输出序列开头的词符分配较多权重。实验结果表明,使用细粒度局部错误可能对性能改进很重要。加权方法的一个极端是完全掩盖第一个错误词符之后的损失。这样的训练方案以早期更新(early update)的名称广泛应用于机器翻译、口语对话处理以及自然语言处理(natural language processing,NLP)的标注和解析问题中。当应用于A-E2E ASR模型时,标准的早期更新方法可以将非零梯度分配给开头正确的词符。
图6是基于规则序列的训练方案与早期更新训练方案之间的区别的图。在(a)和(b)两种情况下,梯度是以相同方式计算的,但是被应用于假设-参考(hypothesis-reference,Hyp-Ref)对的不同位置处。
发明内容
根据实施方式,一种A-E2E ASR训练的方法,包括:基于语音信号的一个或更多个输入特征对模型执行交叉熵训练;确定在执行交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量;以及基于所确定的后验概率向量确定在所述时间处的所述第一个错误词符的损失。该方法还包括:基于所确定的第一个错误词符的损失来确定执行交叉熵训练的模型的训练集的总损失;以及基于所确定的训练集的总损失来更新执行交叉熵训练的模型。
根据实施方式,一种用于A-E2E ASR训练的设备,包括:至少一个存储器,其被配置成存储程序代码;以及至少一个处理器,其被配置成读取程序代码并且按照所述程序代码的指令进行操作。所述程序代码包括:执行代码,其被配置成使所述至少一个处理器基于语音信号的一个或更多个输入特征对模型执行交叉熵训练;第一确定代码,其被配置成使所述至少一个处理器确定在执行交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量;以及第二确定代码,其被配置成使所述至少一个处理器基于所确定的后验概率向量确定在所述时间处的所述第一个错误词符的损失。所述程序代码还包括:第三确定代码,其被配置成使所述至少一个处理器基于所确定的第一个错误词符的损失来确定执行交叉熵训练的模型的训练集的总损失;以及更新代码,其被配置成使所述至少一个处理器基于所确定的训练集的总损失来更新执行交叉熵训练的模型。
根据实施方式,一种存储指令的非暂态计算机可读介质,在装置的至少一个处理器执行所述指令时,所述指令使所述至少一个处理器执行以下操作:基于语音信号的一个或更多个输入特征对模型执行交叉熵训练;确定在执行交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量;以及基于所确定的后验概率向量确定在所述时间处的所述第一个错误词符的损失。所述指令还使所述至少一个处理器基于所确定的第一个错误词符的损失来确定执行交叉熵训练的模型的训练集的总损失,以及基于所确定的训练集的总损失来更新执行交叉熵训练的模型。
附图说明
图1是根据实施方式的可以实现本文中描述的方法、设备和系统的环境的图。
图2是图1的一个或更多个装置的示例部件的图。
图3是根据实施方式的A-E2E ASR训练的方法的流程图。
图4是根据实施方式的具有最长正确前缀的假设中的第一个错误词符的图。
图5是根据实施方式的用于A-E2E ASR训练的设备的图。
图6是基于规则序列的训练方案与早期更新训练方案之间的区别的图。
具体实施方式
对基于注意力的端到端语音识别模型进行训练以使得输出的词符(字符/子词/词)中的错误直接最小化。假定每个输出的词符都依赖于先前输出,则解码错误会很容易沿着输出序列传播。
本文中描述的实施方式包括仅作用于假设中的第一个错误词符的词符式训练(token-wise training,TWT)方案。一旦第一个错误词符被校正,则后续错误也能够被校正,而无需进行额外的模型参数调整。与基于序列的MWER训练相比,TWT方案针对训练更加保守,并且因此收敛更加稳定。TWT方案也很灵活,并且可以与各种损失函数相结合。
针对多个假设扩展TWT,本文中描述的实施方式还包括束内TWT(TWT in beam,TWTiB)训练方案。选择具有最长正确前缀的假设,而不是如大多数训练算法中那样选择具有最大后验概率的假设。TWTiB在基准SWBD 300h数据集上的性能优于MWER标准。
以上这些方案为序列到序列学习提供了新的学习原理并且在基准语音识别数据集上产生了最佳结果。
在具体实施方式中出现的缩写和术语的定义包括以下:
语音识别系统:能够识别语音信号并将其翻译成书面字符/词的计算机程序。
编码器-解码器(Encoder-decoder):其中编码器网络将原始输入映射为特征表示并且解码器将所述特征表示作为输入并产生输出的模型架构。
基于注意力的端到端(Attention-based end-to-end,A-E2E)模型:具有编码器-解码器架构外加注意力方案的模型,其使得能够在解码期间专注于学习输入序列的特定部分。
点式损失(Point-wise Loss):基于两个词符计算的损失函数,无论这两个词符是否相同。
序列式损失(Sequence-wise Loss):基于两个序列之间的相似性计算的损失函数。通常给出两个序列的最佳对齐并且然后将差相加。
图1是根据实施方式的可以实现本文中描述的方法、设备和系统的环境100的图。如图1所示,环境100可以包括用户装置110、平台120和网络130。环境100中的装置可以经由有线连接、无线连接或者有线连接和无线连接的组合进行互连。
用户装置110包括能够接收、生成、存储、处理和/或提供与平台120相关联的信息的一个或更多个装置。例如,用户装置110可以包括计算装置(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴装置(例如,智能眼镜或智能手表)或者类似的装置。在一些实现方式中,用户装置110可以从平台120接收信息并且/或者向平台120发送信息。
平台120包括如本文中其他地方描述的一个或更多个装置。在一些实现方式中,平台120可以包括云服务器或云服务器组。在一些实现方式中,平台120可以被设计成模块化,使得可以取决于特定需要换入或换出软件部件。这样,可以容易地和/或快速地针对不同用途重新配置平台120。
在一些实现方式中,如所示出的,平台120可以被托管(hosted)在云计算环境122中。值得注意的是,虽然本文中描述的实现方式将平台120描述为托管在云计算环境122中,但是在一些实现方式中,平台120不是基于云的(即,可以在云计算环境的外部实现)或者可以是部分基于云的。
云计算环境122包括托管平台120的环境。云计算环境122可以提供计算、软件、数据访问、存储等服务,这些服务不需要终端用户(例如,用户装置110)知道托管平台120的系统和/或装置的物理位置和配置。如所示出的,云计算环境122可以包括一组计算资源124(统称为“计算资源(computing resources)124”并且单独称为“计算资源(computingresource)124”)。
计算资源124包括一个或更多个个人计算机、工作站计算机、服务器装置或其他类型的计算和/或通信装置。在一些实现方式中,计算资源124可以托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储装置、由计算资源124提供的数据传输装置等。在一些实现方式中,计算资源124可以经由有线连接、无线连接或者有线连接和无线连接的组合与其他计算资源124通信。
进一步如图1所示,计算资源124包括一组云资源,例如一个或更多个应用(application,“APP”)124-1、一个或更多个虚拟机(virtual machine,“VM”)124-2、虚拟化存储(virtualized storage,“VS”)124-3、一个或更多个监管器(hypervisor,“HYP”)124-4等。
应用124-1包括一个或更多个可以提供给用户装置110和/或平台120或者由用户装置110和/或平台120访问的软件应用。应用124-1可以消除在用户装置110上安装和执行软件应用的需要。例如,应用124-1可以包括与平台120相关联的软件和/或能够经由云计算环境122提供的任何其他软件。在一些实现方式中,一个应用124-1可以经由虚拟机124-2向一个或更多个其他应用124-1发送信息或者从一个或更多个其他应用124-1接收信息。
虚拟机124-2包括像物理机执行程序的机器(例如,计算机)的软件实现。虚拟机124-2可以是系统虚拟机,也可以是过程虚拟机,这取决于虚拟机124-2对任何真实机器的使用和对应程度。系统虚拟机可以提供支持完整操作系统(operating system,“OS”)的执行的完整系统平台。过程虚拟机可以执行单个程序,并且可以支持单个过程。在一些实现方式中,虚拟机124-2可以代表用户(例如,用户装置110)执行,并且可以管理云计算环境122的基础架构,例如数据管理、同步或长持续时间数据传送。
虚拟化存储124-3包括一个或更多个存储系统和/或在计算资源124的存储系统或装置内使用虚拟化技术的一个或更多个装置。在一些实现方式中,在存储系统的上下文内,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指代从物理存储抽象(或分离)逻辑存储,以便可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以使得存储系统的管理员在管理员管理针对终端用户的存储方面具有灵活性。文件虚拟化可以消除在文件级别访问的数据与物理存储文件的位置之间的依赖性。这可以使得能够优化存储使用、服务器整合和/或无中断文件迁移的性能。
监管器124-4可以提供允许多个操作系统(例如,“客户操作系统”)在主计算机诸如计算资源124上同时执行的硬件虚拟化技术。监管器124-4可以向客户操作系统呈现虚拟操作平台,并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。
网络130包括一个或更多个有线和/或无线网络。例如,网络130可以包括蜂窝网络(例如,第五代(fifth generation,5G)网络、长期演进(long-term evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(code division multiple access,CDMA)网络等)、公共陆地移动网络(public land mobile network,PLMN)、局域网(local areanetwork,LAN)、广域网(wide area network,WAN)、城域网(metropolitan area network,MAN)、电话网络(例如,公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等,以及/或者这些或其他类型的网络的组合。
提供图1所示的装置和网络的数目和布置作为示例。实际上,除了图1所示的装置和/或网络以外,可以存在附加的装置和/或网络、更少的装置和/或网络、不同的装置和/或网络、或不同布置的装置和/或网络。此外,图1所示的两个或更多个装置可以在单个装置内实现,或者图1所示的单个装置可以实现为多个分布式装置。另外地或可替选地,环境100的装置的集合(例如,一个或更多个装置)可以执行被描述为由环境100的另一装置的集合执行的一个或更多个功能。
图2是图1的一个或更多个装置的示例部件的图。装置200可以对应于用户装置110和/或平台120。如图2所示,装置200可以包括总线210、处理器220、存储器230、存储部件240、输入部件250、输出部件260和通信接口270。
总线210包括允许计算装置200的部件之间进行通信的部件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(central processing unit,CPU)、图形处理单元(graphics processing unit,GPU)、加速处理单元(acceleratedprocessing unit,APU)、微处理器、微控制器、数字信号处理器(digital signalprocessor,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、专用集成电路(application-specific integrated circuit,ASIC)或另一类型的处理部件。在一些实现方式中,处理器220包括能够被编程以执行功能的一个或更多个处理器。存储器230包括随机存取存储器(random access memory,RAM)、只读存储器(read only memory,ROM)以及/或者存储供处理器220使用的信息和/或指令的另一类型的动态或静态存储装置(例如,闪速存储器、磁存储器和/或光存储器)。
存储部件240存储与装置200的操作和使用相关的信息和/或软件。例如,存储部件240可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、致密盘(compact disc,CD)、数字通用盘(digital versatile disc,DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质以及相应的驱动器。
输入部件250包括允许装置200例如经由用户输入接收信息的部件(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。另外地或可替选地,输入部件250可以包括用于感测信息的传感器(例如,全球定位系统(global positioning system,GPS)部件、加速计、陀螺仪和/或致动器)。输出部件260包括提供来自装置200的输出信息的部件(例如,显示器、扬声器和/或一个或更多个发光二极管(light-emitting diode,LED))。
通信接口270包括使得装置200能够例如经由有线连接、无线连接或有线连接和无线连接的组合与其他装置通信的类似收发器的部件(例如,收发器和/或单独的接收器和发送器)。通信接口270可以允许装置200从另一装置接收信息以及/或者向另一装置提供信息。例如,通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(radiofrequency,RF)接口、通用串行总线(universal serial bus,USB)接口、Wi-Fi接口、蜂窝网络接口等。
装置200可以执行本文中所描述的一个或更多个处理。装置200可以响应于处理器220执行由非暂态计算机可读介质诸如存储器230和/或存储部件240存储的软件指令来执行这些处理。计算机可读介质在本文中被定义为非暂态存储器装置。存储器装置包括单个物理存储装置内的存储空间或分布在多个物理存储装置上的存储空间。
可以经由通信接口270从另一计算机可读介质或从另一装置将软件指令读入存储器230和/或存储部件240。存储在存储器230和/或存储部件240中的软件指令在被执行时可以使处理器220执行本文中所描述的一个或更多个处理。另外地或可替选地,可以使用硬连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或更多个处理。因此,本文中所描述的实现方式不限于硬件电路和软件的任何特定组合。
图2所示的部件的数目和布置被作为示例提供。实际上,与图2所示的部件相比,装置200可以包括额外的部件、更少的部件、不同的部件或不同地布置的部件。另外地或可替选地,装置200的部件的集合(例如,一个或更多个部件)可以执行被描述为由装置200的另一部件的集合执行的一个或更多个功能。
本文描述的实施方式包括针对序列模型的训练方案,在序列模型中,时间t处的输出对时间t+1处的输出具有显著影响。新的训练方案不是像传统的训练方案那样对整个序列应用梯度,而是针对序列的第一个错误解码位置。此外,新的训练方案不是选择具有最高后验概率的一个或更多个假设,而是选择具有最长正确解码前缀的假设。像其他基于序列的训练方案一样,这种新的训练方案是在用点式交叉熵损失来训练模型之后应用的。这种训练方案不局限于语音识别,还可以应用于其他序列对序列的任务。
图3是根据实施方式的A-E2E ASR训练的示例方法300的流程图。在一些实现方式中,图3的一个或更多个处理块可以由平台120执行。在一些实现方式中,图3的一个或更多个处理块可以由与平台120分开或者包括平台120的另一装置或一组装置(例如用户装置110)来执行。
如图3所示,在操作310中,方法300包括基于语音信号的一个或更多个输入特征来对模型执行交叉熵训练。基于正被执行的交叉熵训练,方法300包括在操作320至360中对执行交叉熵训练的模型执行词符式训练(token-wise training)。
在操作320中,方法300包括确定在执行交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量。
在评估期间,A-E2E ASR系统的推断过程可以表示为下面的等式(1)-(3):
Henc=Encoder(X) (1)
pt=Decoder(yt-1,enc) (2)
其中,矩阵X表示输入音频特征,Henc表示已编码特征,yt表示在时间t处的输出词符,pt表示在时间t处的后验概率向量,以及pt,i表示在时间t处的词符维度i上的概率。注意,在这些等式中仅出于清楚的目的省略了解码器状态和注意力机制。
在没有调度采样的训练过程期间,在金标准转写(golden transcription)中,使用时间t-1处的参考词符rt-1来替代等式(2)中时间t-1处的输出词符yt-1,如下式(4)所示:
pt=Decoder(rt-1,Henc) (4)
为了朝向评估场景调整模型,通过混合使用输出词符yt-1与参考词符rt-1的方式来进行调度采样,如下式(5)所示:
pt=Decoder(st-1∈{rt-1,yt-1},Henc) (5)
其中,st-1是从{rt-1,yt-1}中随机选择的词符。由于yt对yt-1的潜在依赖性,在时间t-1处的错误很容易导致随后的输出词符yt、yt+1、......中的错误。假设在时间tω处出现第一个错误词符那么在极端情况下,剩余的输出词符y可能与剩余的参考词符r没有交叠。在该情况下,当第一个错误被校正时,可以用较少的优化措施来避免随后的错误。
在操作330中,方法300包括基于所确定的后验概率向量来确定在该时间处的第一个错误词符的损失。
在操作340中,方法300包括基于所确定的第一个错误词符的损失来确定执行交叉熵训练的模型的训练集的总损失。
详细地,在下面的等式(6)中,lθ(yt,rt)表示输出词符y在时间t处的损失,以及L(θ)表示训练集的总损失。模型参数表示为θ。损失函数可以表示为下面的等式(6):
其中,(Y,R)表示整个训练集中的假设-参考对(hypothesis-reference pairs),以及T通常被选择为min(M,N)。这个损失函数平等地对待输出序列中的所有位置,这使得难以在A-E2E ASR模型中对输出词符依赖性进行建模。此外,对正确识别的词符进行重复地训练也可能会导致振荡。为了确保在正确解码的词符上具有零梯度,使用TWT,如下式(9)所示:
根据等式(9),TWT可以与各种lθ(yt,rt)值相结合。在本说明书中,应用了两个lθ(yt,rt)值,Ref和Ref+Err。Ref是第一个错误词符在时间tω处的交叉熵(crossentropy,CE)损失,如下式(10)所示:
在大多数情况下,假设(包括第一个错误词符)被选为具有最高后验概率的假设(即,最佳假设)。当对多个假设应用TWT时,本文描述的实施方式包括通过选择具有最长正确前缀的假设的TWTiB方法。设yj为束中假设j的输出词符,并且其tω为tj,ω。具有最大tjl ,ω的假设的输出词符是yjl。TWTiB损失可以如下面的等式(12)所示的表示:
图4是根据实施方式的具有最长正确前缀的假设中的第一个错误词符的图。如图4所示,第一个错误词符是假设“It is not easy to wreck a nicebeach(破坏美丽的海滩并不容易)”中的“wreck”。
再次参照图3,在操作350中,方法300包括基于所确定的训练集的总损失来更新执行交叉熵训练的模型。
实施方式包括两点。第一点是其中仅选择第一个出现错误的位置来施加梯度的梯度更新策略。这可以应用于输出之间依赖性较强的另一序列翻译或生成任务。第二点是针对损失函数的假设的选择。通常选择具有最高后验概率的假设,但是新的训练方案中通过选择具有最长正确前缀的假设可以更为有利。最后,即使在实施方式中仅描述了两种类型的基于似然性的损失函数,其他损失函数也可以与本文描述的训练方案相结合。
尽管图3示出了方法300的示例块,但是在一些实现方式中,与图3中描绘的这些块相比,方法300可以包括附加的块、更少的块、不同的块或不同地布置的块。另外地或可替选地,方法300的块中的两个或更多个块可以并行执行。
在相同的基准数据集上,实施方式提供了比最先进的MWER方法更好的性能。它们通过关注首次出现的错误来为序列生成相关任务提供了新的训练原理。在用调度样本训练A-E2E ASR系统时,A-E2E ASR系统在时间t处的输出会受到先前输出的很大影响,因此受益于这种早期更新原理。
将根据实施方式的模型与基准SWB300h数据集进行比较。设置与MWER中的相同,其中,40维对数mel fbank特征(40-dim log mel fbank features)作为输入以及49个字符作为输出。E2E框架是输入馈送标签附加分数(label attachment score,LAS),其中,6个双向长短期记忆(bidirectional-Long Short Term Memory,BiLSTM)作为编码器以及2个LSTM作为解码器。基线交叉熵模型与MWER的基线交叉熵模型相同,后者是用调度采样赋权交叉熵标准训练的。Adam优化器用于训练并且初始学习率为7.5*10-7。选择退出率(dropoutrate)为0.2以及小批量的大小为8。对于大裕量(large margin)训练,除了对最佳假设的大裕量训练之外,还报告了使用多个假设的结果。MWER中的假设的数量和多假设大裕量标准是相同的。不使用外部语言模型的结果表示为“w/o LM”,而使用语言模型的结果表示为“w/LM”。
TWT的结果和比较如下表1所示。注意,TWT仅使用单个假设,而MWER和TWTiB使用多个假设并且假设数量都是4。
表1.TWT的结果和比较
代表性TWT标准TWTiB与先前所提出的系统的比较如下表3所示。
表3.与其他A-E2E语音识别系统的比较
图5是根据实施方式的用于A-E2E ASR训练的设备500的图。如图5所示,设备500包括执行代码510、第一确定代码520、第二确定代码530、第三确定代码540和更新代码550。
执行代码510被配置成基于语音信号的一个或更多个输入特征来对模型执行交叉熵训练。
第一确定代码520被配置成确定在执行交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量。
第二确定代码530被配置成基于所确定的后验概率向量来确定在该时间处的第一个错误词符的损失。
第三确定代码540被配置成基于所确定的第一个错误词符的损失来确定执行交叉熵训练的模型的训练集的总损失。
更新代码550被配置成基于所确定的训练集的总损失来更新执行交叉熵训练的模型。
设备500还可以包括选择代码,该选择代码被配置成从执行交叉熵训练的模型的多个假设中选择具有最长正确前缀的假设。第一确定代码520还可以被配置成确定包括在所选假设中的第一个错误词符的时间处的后验概率向量。
前述公开内容提供了说明和描述,但是并非意为穷举性的或者将实现方式限制为所公开的确实形式。鉴于以上公开内容,修改和变型是可能的,或者可以从实现方式的实践中获得修改和变型。
如本文所使用的,术语“部件”旨在被广义地解释为硬件、固件或硬件和软件的组合。
将明显的是,本文所描述的系统和/或方法可以以不同形式的硬件、固件、或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不限制实现方式。因此,本文中在不参考特定软件代码的情况下描述了系统和/或方法的操作和行为——应当理解的是,可以基于本文中的描述将软件和硬件设计成实现所述系统和/或方法。
尽管在权利要求中引用了和/或在说明书中公开了特征的特定组合,但是这些组合并不旨在限制可能实现方式的公开内容。实际上,许多这些特征可以以未在权利要求中具体引用和/或在说明书中公开的方式组合。尽管下面列出的每个从属权利要求可以直接引用仅一个权利要求,但是可能的实现方式的公开内容包括与权利要求集合中的每个其他权利要求组合的每个从属权利要求。
除非明确说明,否则在本文中使用的任何元件、动作或指令都不应被解释为关键或必要的元件、动作或指令。此外,如本文所使用的,词语“一”和“一个”旨在包括一个或更多个项,并且可以与“一个或更多个(one or more)”互换使用。此外,如本文所使用的,术语“集合”旨在包括一个或更多个项(例如,相关项、不相关项、相关项和不相关项的组合等),并且可以与“一个或更多个”互换使用。在意指仅一项的情况下,使用术语“一个”或类似语言。此外,如本文中使用的,术语“有”、“具有”、“含有”等意在为开放式术语。此外,除非另有明确说明,否则短语“基于”意在表示“至少部分地基于”。
Claims (20)
1.一种基于注意力的端到端(A-E2E)自动语音识别(ASR)训练的方法,所述方法包括:
基于语音信号的一个或更多个输入特征对模型执行交叉熵训练;
确定在执行所述交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量;
基于所确定的后验概率向量确定在所述时间处的所述第一个错误词符的损失;
基于所确定的所述第一个错误词符的损失确定执行所述交叉熵训练的模型的训练集的总损失;以及
基于所确定的训练集的总损失来更新执行所述交叉熵训练的模型。
2.根据权利要求1所述的方法,其中,所述时间处的后验概率向量被如下确定:
pt=Decoder(st-1∈{rt-1,yt-1},Henc),
其中,t表示所述时间,pt表示所述时间t处的后验概率向量,Henc表示被编码的所述一个或更多个特征,yt-1表示先前时间t-1处的输出词符,rt-1表示所述先前时间t-1处的参考词符,并且st-1表示从{rt-1,yt-1}中随机选择的词符。
6.根据权利要求1所述的方法,还包括:
从执行所述交叉熵训练的模型的多个假设中选择具有最长正确前缀的假设,
其中,确定所述时间处的后验概率向量包括:
确定包括在所选择的假设中的第一个错误词符的时间处的后验概率向量。
8.一种用于基于注意力的端到端(A-E2E)自动语音识别(ASR)训练的设备,所述设备包括:
至少一个存储器,其被配置成存储程序代码;以及
至少一个处理器,其被配置成读取所述程序代码并且按照所述程序代码的指令进行操作,所述程序代码包括:
执行代码,其被配置成使所述至少一个处理器基于语音信号的一个或更多个输入特征对模型执行交叉熵训练;
第一确定代码,其被配置成使所述至少一个处理器确定在执行所述交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量;
第二确定代码,其被配置成使所述至少一个处理器基于所确定的后验概率向量来确定在所述时间处的所述第一个错误词符的损失;
第三确定代码,其被配置成使所述至少一个处理器基于所确定的第一个错误词符的损失来确定执行所述交叉熵训练的模型的训练集的总损失;以及
更新代码,其被配置成使所述至少一个处理器基于所确定的训练集的总损失来更新执行所述交叉熵训练的模型。
9.根据权利要求8所述的设备,其中,所述时间处的后验概率向量被如下确定:
pt=Decoder(st-1∈{rt-1,yt-1},Henc),
其中,t表示所述时间,pt表示所述时间t处的后验概率向量,Henc表示被编码的所述一个或更多个特征,yt-1表示先前时间t-1处的输出词符,rt-1表示所述先前时间t-1处的参考词符,并且st-1表示从{rt-1,yt-1}中随机选择的词符。
13.根据权利要求8所述的设备,还包括选择代码,所述选择代码被配置成使所述至少一个处理器从执行所述交叉熵训练的模型的多个假设中选择具有最长正确前缀的假设,
其中,所述第一确定代码还被配置成使所述至少一个处理器确定包括在所选择的假设中的第一个错误词符的时间处的后验概率向量。
15.一种存储指令的非暂态计算机可读介质,当由装置的至少一个处理器执行时,所述指令使所述至少一个处理器进行以下操作:
基于语音信号的一个或更多个输入特征对模型执行交叉熵训练;
确定在执行所述交叉熵训练的模型的一个或更多个输出词符中的第一个错误词符的时间处的后验概率向量;
基于所确定的后验概率向量确定在所述时间处的所述第一个错误词符的损失;
基于所确定的所述第一个错误词符的损失确定执行所述交叉熵训练的模型的训练集的总损失;以及
基于所确定的训练集的总损失更新执行所述交叉熵训练的模型。
16.根据权利要求15所述的非暂态计算机可读介质,其中,所述时间处的后验概率向量被如下确定:
pt=Decoder(st-1∈{rt-1,yt-1},Henc),
其中,t表示所述时间,pt表示所述时间t处的后验概率向量,Henc表示被编码的所述一个或更多个特征,yt-l表示先前时间t-1处的输出词符,rt-1表示所述先前时间t-1处的参考词符,并且st-1表示从{rt-1,yt-1}中随机选择的词符。
20.根据权利要求15所述的非暂态计算机可读介质,其中,所述指令还使所述至少一个处理器进行以下操作:
从执行所述交叉熵训练的模型的多个假设中选择具有最长正确前缀的假设;以及
确定包括在所选择的假设中的第一个错误词符的时间处的后验概率向量。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/275,971 US11037547B2 (en) | 2019-02-14 | 2019-02-14 | Token-wise training for attention based end-to-end speech recognition |
US16/275,971 | 2019-02-14 | ||
PCT/US2020/017122 WO2020167592A1 (en) | 2019-02-14 | 2020-02-07 | Token-wise training for attention-based end-to-end speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114600186A true CN114600186A (zh) | 2022-06-07 |
Family
ID=72042335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080014465.6A Pending CN114600186A (zh) | 2019-02-14 | 2020-02-07 | 用于基于注意力的端到端语音识别的词符式训练 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11037547B2 (zh) |
CN (1) | CN114600186A (zh) |
WO (1) | WO2020167592A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11790895B2 (en) * | 2019-06-26 | 2023-10-17 | Samsung Electronics Co., Ltd. | System and method for natural language understanding |
KR20220125327A (ko) * | 2020-01-28 | 2022-09-14 | 구글 엘엘씨 | 종단간 음성 인식에서 고유 명사 인식 |
CN112509563B (zh) * | 2020-12-17 | 2024-05-17 | 中国科学技术大学 | 模型训练方法、装置及电子设备 |
KR102547001B1 (ko) * | 2022-06-28 | 2023-06-23 | 주식회사 액션파워 | 하향식 방식을 이용한 오류 검출 방법 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6509694B2 (ja) | 2015-09-15 | 2019-05-08 | 株式会社東芝 | 学習装置、音声検出装置、学習方法およびプログラム |
US10319374B2 (en) | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
US20180330718A1 (en) | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
US10776716B2 (en) | 2017-06-13 | 2020-09-15 | Microsoft Technology Licensing, Llc | Unsupervised learning utilizing sequential output statistics |
US10540585B2 (en) * | 2018-05-23 | 2020-01-21 | Google Llc | Training sequence generation neural networks using quality scores |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2019
- 2019-02-14 US US16/275,971 patent/US11037547B2/en active Active
-
2020
- 2020-02-07 CN CN202080014465.6A patent/CN114600186A/zh active Pending
- 2020-02-07 WO PCT/US2020/017122 patent/WO2020167592A1/en active Application Filing
-
2021
- 2021-05-11 US US17/316,856 patent/US11636848B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11636848B2 (en) | 2023-04-25 |
US20210264901A1 (en) | 2021-08-26 |
US11037547B2 (en) | 2021-06-15 |
US20200265830A1 (en) | 2020-08-20 |
WO2020167592A1 (en) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114600186A (zh) | 用于基于注意力的端到端语音识别的词符式训练 | |
US11468879B2 (en) | Duration informed attention network for text-to-speech analysis | |
CN108345580B (zh) | 一种词向量处理方法及装置 | |
US10714076B2 (en) | Initialization of CTC speech recognition with standard HMM | |
WO2020163422A1 (en) | Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis | |
EP3948849A1 (en) | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
WO2020167591A1 (en) | Large margin tracking for attention-based end-to-end speech recognition | |
US20170125012A1 (en) | Techniques for updating an automatic speech recognition system using finite-state transducers | |
US10885345B2 (en) | End-to-end video captioning with multi-task reinforcement learning | |
CN107247704B (zh) | 词向量处理方法、装置以及电子设备 | |
CN113939868A (zh) | 无监督自动语音识别 | |
CN111386566A (zh) | 设备控制方法、云端设备、智能设备、计算机介质及设备 | |
CN112686060B (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
JP7237196B2 (ja) | オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム | |
CN116710986A (zh) | 基于无参考鉴别器的对话模型训练 | |
US20230162055A1 (en) | Hierarchical context tagging for utterance rewriting | |
US20230386507A1 (en) | Conditional factorization for jointly modeling code-switched and monolingual asr | |
US20240013774A1 (en) | Techniques for end-to-end speaker diarization with generalized neural speaker clustering | |
US20240095514A1 (en) | Friend-training: methods, systems, and apparatus for learning from models of different but related tasks | |
US20240078230A1 (en) | System, method, and computer program for augmenting multi-turn text-to-sql datasets with self-play | |
US20230386479A1 (en) | Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070715 Country of ref document: HK |