CN111480197B - 语音识别系统 - Google Patents
语音识别系统 Download PDFInfo
- Publication number
- CN111480197B CN111480197B CN201880079228.0A CN201880079228A CN111480197B CN 111480197 B CN111480197 B CN 111480197B CN 201880079228 A CN201880079228 A CN 201880079228A CN 111480197 B CN111480197 B CN 111480197B
- Authority
- CN
- China
- Prior art keywords
- tag sequence
- probability
- network
- word
- output tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000003860 storage Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 56
- 238000009826 distribution Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 244000141353 Prunus domestica Species 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 210000005266 circulating tumour cell Anatomy 0.000 description 41
- 230000006870 function Effects 0.000 description 22
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 239000010410 layer Substances 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000020411 cell activation Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 206010068829 Overconfidence Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
一种语音识别系统包括:接收话语声音的输入装置、一个或更多个处理器以及一个或更多个储存装置,所述一个或多个储存装置存储参数和包括使一个或更多个处理器执行操作的指令的程序模块。操作包括:从由话语声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;通过使用字符类语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。
Description
技术领域
本发明总体上涉及用于开放词表的端到端语音识别的设备及方法,更具体地,涉及用于基于字符级和单词级语言模型的端到端自动语音识别的方法和系统。
背景技术
自动语音识别是目前已广泛展开的一组成熟技术,在诸如语音搜索之类的接口应用中取得了巨大成功。但是,构建实现高识别准确度的语音识别系统并不容易。一个问题在于它需要关于系统接受的目标语言的深入语言学知识。例如,音素的集合、词表和发音词库对于构建这样的系统是必不可少的。音素集需要由语言的语言学家仔细定义。需要通过为包括超过10万单词的词表中的每个单词指派一个或更多个音素序列来手动创建发音词库。此外,一些语言没有明确的单词边界,因此我们可能需要切分(tokenization)以从文本语料库创建词表。因此,对于非专家而言,开发语音识别系统非常困难,尤其是对于小语种。另一个问题在于语音识别系统被分解为包括单独进行优化的声学模型、词库模型和语言模型的几个模块。尽管训练每个模型以匹配其它模型,但该架构可能会导致局部最优。
端到端语音识别的目标是将传统架构简化为深度学习框架内的单个神经网络架构。为了处理或解决这些问题,在一些文献中已经讨论了各种技术。最先进的端到端语音识别系统被设计为预测给定语音输入的字符序列,这是因为直接从没有发音词库的语音中预测单词序列比预测字符序列困难得多。但是,由于对长字符序列的语言学约束进行建模的难度,因此基于字符的预测通常相对于基于单词的预测表现不佳。如果我们具有附带相应转录的更多的语音数据,我们可以训练一个预测单词序列的更好的神经网络。但是,收集这样的转录语音数据并用大数据集来训练网络是非常昂贵的。因此,在端到端语音识别中并入单词级预测以提高识别准确度并不容易。
发明内容
本公开的一些实施方式基于以下认识:在端到端自动语音识别(ASR)架构中,可以通过字符级和单词级语言模型(LM)的组合来改进标签序列预测,其中,LM可以是包含长短期记忆(LSTM)单元的递归神经网络(RNN)。
字符级LM与注意力解码器网络模块和联结主义时序分类(CTC)模块相结合,以用于端到端ASR。字符级LM提高了识别准确度,以在一些语言中与最先进的基于DNN/HMM的ASR系统媲美。尽管字符级架构可以提供开放词表的ASR的方法,但是由于对长字符序列的语言学约束进行建模的难度,因此对于具有少量字母的诸如英语之类的语言来说,字符级LM相对于单词级LM通常表现不佳。
本发明的一些实施方式提供了一种用于在字符级和单词级二者的LM进行端到端ASR解码的新颖方法。在本发明的解码过程中,首先用字符级LM对字符序列假设进行评分,直到遇到单词边界。然后,使用单词级LM对已知单词进行再评分,而字符级LM为词表外单词提供评分。
这种方法充分利用了字符级和单词级架构的优势,并实现了高准度的开放词表的端到端ASR。评估结果将在本公开的最后利用标准华尔街日报(WSJ)任务进行讨论,并示出开放词表的端到端ASR的显著改进。
根据本发明的一些实施方式,一种语音识别系统包括:接收话语声音的输入装置;一个或更多个处理器;以及一个或多个储存装置,该一个或多个储存装置存储参数和包括一个或更多个处理器能执行的指令的程序模块,当执行这些指令时使一个或更多个处理器执行包括以下内容的操作:使用声学特征提取模块从由话语声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;通过使用字符级语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。
根据本发明的另一实施方式,一种非暂时性计算机可读记录介质,该非暂时性计算机可读记录介质存储有程序,该程序使与存储器通信的计算机执行语音识别过程,该语音识别过程包括:提供话语声音;使用声学特征提取模块从由话语声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;通过使用字符级语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。
将参照附图进一步解释当前公开的实施方式。所示的附图并非按比例绘制,而是通常将重点放在说明当前公开的实施方式的原理上。
附图说明
[图1]
图1是例示了根据相关技术的基于注意力的端到端语音识别方法的框图。
[图2]
图2是例示了根据本发明的实施方式的开放词表的端到端语音识别模块的框图。
[图3]
图3是例示了根据本发明的实施方式的开放词表的端到端语音识别模块中的神经网络的示意图。
[图4]
图4是例示了根据本发明的实施方式的开放词表的端到端语音识别系统的框图。
[图5A]
图5A是根据本发明的实施方式的通过执行开放词表的端到端语音识别所获得的评估结果。
[图5B]
图5B示出了根据本发明的实施方式的具有不同语言模型的单词错误率(WER)。
[图6]
图6是根据本发明的实施方式的依据开放词表的端到端语音识别的指示作为波束宽度的函数的单词错误率的评估结果。
[图7]
图7是指示当使用从20K到65K的不同词表大小和开放词表条件时的WER比较的评估结果。
具体实施方式
尽管上面标识的附图阐述了当前公开的实施方式,但是如讨论中所指出的,也可以考虑其它实施方式。本公开通过表示而非限制的方式呈现了示例性实施方式。本领域技术人员可以设计落入当前公开的实施方式的原理的范围和精神内的许多其它变型和实施方式。
以下描述仅提供了示例性实施方式,并非旨在限制本公开的范围、适用性或配置。相反,示例性实施方式的以下描述将为本领域技术人员提供能够用于实现一个或更多个示例性实施方式的描述。在不脱离如所附权利要求书中提出的那样公开的主题的精神和范围的情况下,可以想到在元件的功能和布置上可进行各种变型。
在以下描述中给出了具体细节以提供对实施方式的透彻理解。然而,本领域普通技术人员可以理解,实施方式可以在没有这些具体细节的情况下来实践。例如,所公开的主题中的系统、过程和其它元件可以以框图形式示出为组件,以免在不必要的细节上模糊实施方式。在其它情况下,可以示出公知的过程、结构和技术,而没有不必要的细节,以避免使实施方式模糊。此外,各个附图中相似的附图标记和指定指示了相似的元件。
另外,各个实施方式可以被描述为这样的过程,该过程被描述为流程图、流图、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序过程,但是许多操作可以并行或并发地执行。另外,操作的次序可以重新排列。当过程的操作完成时,过程可以终止,但是可以具有未讨论或未包含在附图中的其它步骤。此外,在具体描述的任何过程中的所有操作并非可以在所有实施方式中发生。过程可以对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时,函数的终止可以对应于函数返回到调用函数或主函数。
此外,所公开主题的实施方式可以至少部分或者手动地或自动地实现。手动或自动实现可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实施或至少得到辅助。当以软件、固件、中间件或微代码实现时,执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要任务。
本公开中示例的模块和网络可以是可以使用一个或更多个处理器来执行的计算机程序、软件或指令代码。模块和网络可以存储在一个或更多个储存装置中,或者以其它方式存储在诸如储存介质、计算机储存介质或数据储存设备(可移动和/或不可移动)之类的计算机可读介质中(例如,磁盘、光盘或磁带),其中,从一个或更多个处理器可访问计算机可读介质以执行指令。
计算机储存介质可以包括以任何方法或技术实现的用于储存诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的易失性和非易失性、可移动和不可移动介质。计算机储存介质可以是RAM、ROM、EEPROM或闪存、CD-ROM、数字多功能磁盘(DVD)或其它光储存器、盒式磁带、磁带、磁盘储存器或其它磁储存装置,或能够用于存储所需信息并且能够通过使用一个或更多个处理器的应用、模块或应用和模块二者访问的任何其它介质。任何这样的计算机储存介质可以是装置的一部分,或者可以是装置可访问的介质或者可连接至装置。可以使用可由这种计算机可读介质存储或以其它方式保存的计算机可读/可执行指令来实现本文描述的任何应用或模块。
图1是例示了根据相关技术的基于注意力的端到端语音识别模块100的框图。在基于注意力的端到端语音识别模块100中,编码器模块102首先使用从编码器网络参数103读取的编码器网络将声学特征序列101转换为隐藏向量序列。接下来,注意力解码器模块104接收来自编码器网络模块102的隐藏向量序列和来自标签序列搜索模块106的先前标签,并使用从解码器网络参数105读取的解码器网络来计算针对先前标签的下一标签的后验概率分布,其中标签可以是字母、音节、单词或代表目标语言的任何单位,但是广泛使用字母。标签序列搜索模块106使用注意力解码器模块104给出的后验概率分布来找到具有最高序列概率的标签序列,其中,标签序列的后验概率被计算为序列中标签的后验概率的乘积。
基于注意力的端到端语音识别系统通常被设计为预测给定语音输入的字符序列,这是因为与系统预测单词序列的情况相比,可以用更少量的数据来优化编码器网络参数103和解码器网络参数105。但是,如果有足够的训练数据可用,则由于对跨长字符序列的语言学约束进行建模的难度,基于字符的预测通常相对于基于单词的预测表现不佳。然而,用相应的手动转录来收集大量语音数据是非常昂贵的。因此,在端到端语音识别中并入单词级预测来提高识别准确度并不容易。
此外,在执行单词级预测时还存在另一问题,即,所谓的词表外(OOV)问题。通常,存在未包含在ASR系统的词表中的很多单词,这是因为所有单词不会都出现在训练数据中,并且通常人为创造新单词。OOV问题是ASR系统无法正确识别语音信号中的这种OOV单词。
本发明的一些实施方式是基于这样的认识:通过将基于注意力的概率与字符级LM概率和单词级LM概率相结合,可以提高标签序列假设的准确性。可以用纯文本数据来训练字符级LM和单词级LM。由于文本数据比转录的语音数据更容易收集,因此本发明使我们能够执行用于端到端ASR的单词级预测,这通过用足够的文本数据训练单词级LM来提高语音识别准确度。此外,本发明还通过组合字符级LM和单词级LM来减轻OOV问题。
图2是例示了根据本发明的实施方式的开放词表的端到端语音识别模块200的框图。开放词表的端到端语音识别模块200包括编码器网络模块202、编码器网络参数203、注意力解码器模块204、解码器网络参数205、标签序列搜索模块206、CTC模块208、CTC网络参数209和LM模块210、字符LM参数211和单词LM参数212。编码器网络参数203、解码器网络参数205、CTC网络参数209、LM参数分别存储在储存装置中以向相应模块202、204、208和210提供参数。使用图4中的声学特征提取模块434从音频波形数据或频谱数据中提取声学特征序列201。音频波形数据或频谱数据可以存储在储存装置中并提供给编码器网络模块202。音频波形数据或频谱数据可以使用接收话语声音并将话语声音转换为音频波形或频谱数据的数字信号处理模块(未示出)经由图4中的输入装置475获得。此外,存储在储存装置430或存储器440中的音频波形或频谱数据可以被提供给编码器网络模块202。可以经由图4中的网络490提供话语声音的信号,并且输入装置475可以是麦克风装置。
编码器网络模块202包括编码器网络,使用从编码器网络参数203读取参数的编码器网络将声学特征序列201转换为隐藏向量序列。
使用注意力解码器网络模块204的注意力机制描述如下。注意力解码器网络模块204包括解码器网络。注意力解码器网络模块204接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签,然后使用从解码器网络参数205中读取参数的解码器网络针对先前标签计算下一标签的第一后验概率分布。注意力解码器网络模块204将第一后验概率分布提供给标签序列搜索模块206。CTC模块208接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签,并使用CTC网络参数209和动态编程技术计算下一标签序列的第二后验概率分布。在计算之后,CTC模块208将第二后验概率分布提供给标签序列搜索模块206。
LM模块210接收来自标签序列搜索模块206的先前标签,并使用LM参数211计算下一标签序列的第三后验概率分布。此外,在计算之后,LM模块210向标签序列搜索模块206提供第三后验概率分布。
标签序列搜索模块206使用从注意力解码器网络模块204、CTC模块208和LM模块210提供的第一后验概率分布、第二后验概率分布和第三后验概率分布来找到具有最高序列概率的标签序列。由注意力解码器网络模块204、CTC模块208和LM模块210计算出的标签序列的第一后验概率、第二后验概率和第三后验概率被组合为一个概率。在这种情况下,可以基于线性组合来执行计算出的后验概率的组合。利用开放词表的端到端语音识别模块200,能够考虑到基于CTC的概率、基于注意力的概率和基于LM的概率来找到对于输入声学特征序列的更好的假设。
根据本公开的实施方式,通过引入LM模块210,使得提高端对端ASR的识别准确度成为可能。LM模块210可以包括字符级递归神经网络(RNN)和单词级RNN。在一些情况下,LM模块210可以称为混合网络或混合网络模块。在这种情况下,LM模块210使用由字符LM参数211定义的字符级LM和由单词LM参数212定义的单词级LM来计算LM概率。LM模块还使得执行开放词表的语音识别成为可能,即,即使说出OOV单词,通过使用字符级LM和单词级LM二者来识别该OOV单词。在本发明的解码过程中,首先用字符级LM概率对字符序列假设进行评分,直到遇到单词边界为止。然后在字符级LM提供OOV单词的LM概率评分的同时使用单词级LM概率对已知单词进行再评分。
基于注意力的端到端语音识别
在端到端语音识别中,p(Y|X)是在没有发音词库和语言模型的情况下通过预训练神经网络来计算的。在相关技术的基于注意力的端到端语音识别中,神经网络由编码器网络和解码器网络组成。
编码器模块102包括编码器网络,该编码器网络用于将声学特征序列X=x1,…,xT转换为隐藏向量序列H=h1,…,hT,如
H=Encoder(X), (2)
其中,函数Encoder(X)可以由层叠的一个或更多个递归神经网络(RNN)组成。RNN可以实现为长短期记忆(LSTM),LSTM在每个隐藏单元中具有输入门、忘记门、输出门和存储单元。另一RNN可以是双向RNN(BRNN)或双向LSTM(BLSTM)。BLSTM是一对LSTM RNN,其中一个是前向LSTM并且另一个是后向LSTM。BLSTM的隐藏向量作为前向LSTM和后向LSTM的隐藏向量的级联而被获得。
其中,σ(·)是逐元素的S型函数,tanh(·)是逐元素的双曲正切函数,并且和/>分别是xt的输入门、忘记门、输出门和单元激活向量。⊙表示向量之间的逐元素乘法。权重矩阵/>和偏差向量/>是LSTM的由下标z∈{x,h,i,f,o,c}标识的参数。例如,是隐藏到输入门的矩阵,并且/>是输入到输出门的矩阵。隐藏向量/>是从输入向量xt和先前的隐藏向量/>递归获得的,其中,假设/>为零向量。
其中,和/>分别是xt的输入门、忘记门、输出门和单元激活向量。权重矩阵/>和偏差向量/>是LSTM的以与前向LSTM相同方式由下标标识的参数。隐藏向量/>是从输入向量xt和后续的隐藏向量/>递归获得的,其中,假设/>为零向量。
通过按下式将前向隐藏向量和后向隐藏向量级联来获得BLSTM的隐藏向量:
为了获得更好的隐藏向量,我们可以通过将第一BLSTM的隐藏向量馈送至第二BLSTM,然后将第二BLSTM的隐藏向量馈送至第三BLSTM等,来层叠多个BLSTM。如果ht′是由一个BLSTM获得的隐藏向量,则当将其馈送至另一BLSTM时,我们假设xt=ht′。为了减少计算量,可以仅将一个BLSTM的每隔一个隐藏向量馈送至另一BLSTM。在这种情况下,输出隐藏向量序列的长度变为输入声学特征序列长度的一半。
注意力解码器模块104包括解码器网络,该解码器网络用于使用隐藏向量序列H来计算标签序列概率patt(Y|X)。假设Y是L长度的标签序列y1,y2,…,yL。为了有效地计算patt(Y|X),可以通过概率链规则将概率分解为
并且每个标签概率patt(yl|y1,…,yl-1,X)是从关于标签的概率分布中获得的,该概率分布使用解码器网络估算为:
patt(y|y1,…,yl-1,X)=Decoder(rl,ql-1), (15)
其中,y是表示标签的随机变量,rl称为内容向量,其具有H的内容信息。ql-1是解码器状态向量,其包含先前标签y1,…,yl-1和先前内容向量r0,…,rl-1的上下文信息。因此,在给定上下文的情况下,标签概率作为y=yl的概率而被获得,即,
patt(yl|y1,…,yl-1,X)=patt(y=yl|y1,…,yl-1,X) (16)
内容向量rl通常作为编码器网络的隐藏向量的加权和给出,即,
其中,alt称为注意力权重,其满足∑talt=1。可以使用ql-1和H如下计算注意力权重:
elt=wTtanh(Wql-1+Vht+Uflt+b) (18)
fl=F*al-1 (19)
其中,W、V、F和U是矩阵,w和b是作为解码器网络的可训练参数的向量。elt是第(l-1)状态向量ql-1与第t隐藏向量ht之间的匹配评分,以形成时间对齐分布al={alt|t=1,…,}。al-1代表用于预测先前标签yl-1的先前对齐分布{a(l-1)t|t=1,…,T}。fl={flt|t=1,…,T}是对于al-1的与F的卷积结果,其用于将先前对齐反映到当前对齐中。“*”表示卷积运算。
用状态向量ql-1和内容向量rl按下式来获得标签概率分布:
Decoder(rl,ql-1)=softmax(Wqyql-1+Wryrl+by), (21)
其中,Wqy和Wry是矩阵,并且by是向量,这些是解码器网络的可训练参数。对于K维向量v,softmax()函数如下地计算:
其中,v[i]表示v的第i元素。
之后,使用LSTM按下式将解码器状态向量ql-1更新为ql
其中,和/>分别是输入向量xl的输入门、忘记门、输出门和单元激活向量。权重矩阵/>和偏差向量/>是LSTM的以与前向LSTM相同的方式由下标标识的参数。状态向量ql是从输入向量/>和先前状态向量ql-1递归获得的,其中假设q-1=0、y0=<sos>、a0=1/T来计算q0。对于解码器网络,将输入向量/>作为标签yl和内容向量rl的级联向量给出,这可以按照/>来获得,其中Embed(·)表示标签嵌入,将标签转换为固定维的向量。例如,可以通过下式来计算
相关技术的标签序列搜索模块106在式(1)中找到最可能的标签序列然而,因为可能标签序列的数量随着序列的长度成指数增加,所以枚举Y的所有可能的标签序列并且计算patt(Y|X)是很困难的。因此,通常使用波束搜索技术来找到/>其中首先生成较短的标签序列假设,并且仅扩展比其它假设具有更高评分的有限数量的假设以获得更长的假设。最后,在到达序列结尾的完整假设中选择最佳标签序列假设。
利用波束搜索方法,标签序列搜索模块106如下找到设Ωl长度为l的部分假设的集合。在首轮波束搜索的开始,Ω0仅包含起始符号为<sos>的一个假设。对于l=1至Lmax,通过附加可能的单个标签来扩展Ωl-1中的每个部分假设,并将新的假设存储在Ωl中,其中Lmax是要搜索的假设的最大长度。每个新假设的评分在对数域中被计算为:
Φatt(h)=Φatt(g)+log patt(y|g,X), (29)
其中g是Ωl-1中的部分假设,y是附加到g的单个标签,并且h是新的假设,即,h=g·y。可以通过式(16)计算概率patt(y|g),其中我们假设Φatt(<sos>=0。
在波束搜索过程中,只允许Ωl保留具有较高评分的有限数量的假设,并剪除其它假设以提高搜索效率。
一个更具体的过程总结如下。
在此过程中,Ωl和分别被实现为接受长度为l的部分假设和完整假设的队列。在第1-2行中,Ω0和/>被初始化为空队列。在第3行中,将初始假设<sos>的评分设置为0。在第4-23行中,通过标签集u∪{<eos>}中的每个标签y来扩展Ωl-1中的每个部分假设g,其中运算Head(Ω)返回队列Ω中的第一假设,并且Dequeue(Ω)从队列中删除第一假设。
在第11行中,使用注意力解码器网络对每个扩展的假设h进行评分。之后,如果y=<eos>,则在第13行中假定假设h已完成并将其存储在中,其中/>为向/>中添加h的运算。如果y≠<eos>,则在第15行中将h存储在Ωl中,其中在第16行中将Ωl中的假设数量(即,|Ωl|)与预定数量beamWidth进行比较。如果|Ωl|超过beamWidth,则在第17-18行中,从Ωl中删除Ωl中的具有最小评分hmin的假设,其中Remove(Ωl,hmin)是从Ωl中删除hmin的运算。最后,在第24行中选择/>作为最佳假设。
开放词表的端到端语音识别
在根据本发明的实施方式的使用开放词表的端到端语音识别模块200执行端到端语音识别的方法中,
式(31)中的基于LM的标签序列概率plm(Y)和式(53)中的基于CTC的标签序列概率pctc(Y|X)与式(14)中的基于注意力的标签序列概率patt(Y|X)组合,以获得更准确的标记序列概率,其中这些概率可以通过线性组合来组合。
具有多级RNN-LM的LM概率
根据本发明的实施方式,可以使用RNN-LM或多级RNN-LM按下式计算LM概率:
LM模块210包括字符级RNN-LM和单词级RNN-LM,并且它们的参数是分别从单词LM参数211和字符LM参数212读取的。
RNN-LM可以用于计算标签上的概率分布,该概率分布是使用RNN-LM按下式估算的:
其中,和/>分别是输入向量/>的输入门、忘记门、输出门和单元激活向量。权重矩阵/>和偏差向量/>是RNN-LM的LSTM的参数,这些参数以与前向LSTM相同的方式由下标标识。状态向量sl是从输入向量/>和先前的状态向量sl-1递归获得的,其中假设s-1=0并且y0=<sos>来计算s0。对于解码器网络,输入向量/>作为标签yl的向量给出,其可以作为/>来获取,其中,Embed(·)表示将标签转换为固定维的向量的标签嵌入。Embed(·)表示将标签转换为固定维的向量的标签嵌入。例如,可以通过下式来计算:
标签概率在给定上下文的情况下作为y=yl的概率来获得,即:
plm(yl|y1,…,yl-1)=plm(y=yl|y1,…,yl-1) (39)
与注意力解码器网络模块204给出的标签概率不同,LM概率不取决于声学特征序列X。
在下文中,我们介绍了一种通过将开放词表的端到端ASR的字符级LM和单词级LM组合来计算标签概率plm(yl|y1,…,yl-1)的方法。
假设有两个RNN-LM,一个是用字符序列集合训练的字符级RNN-LM,另一个是用单词序列集合训练的单词级RNN-LM。
我们分别将由字符级RNN-LM计算出的字符概率表示为关于字符序列y1,…,yl-1,yl的pclm(yl|y1,…,yl-1),将由单词级RNN-LM计算出的单词概率表示为关于单词序列w1,…,wm-1,wm的pwlm(wm|w1,…,wm-1)。可以按照与式(32)至(39)中相同的方式但使用不同的参数集来计算两个概率。
我们认为基于字符的端到端ASR系统可以预测单词之间的空格字符以及单词内的字符。请注意,空格字符具有实际的字符代码。使用空格字符,可以确定性地将任何字符序列映射到单词序列,例如,字符序列
a,<space>,c,a,t,<space>,e,a,t,s
被映射到唯一的单词序列
a,cat,eats
其中,<space>正式表示空格字符。因此,只有当解码器假设了空格字符时,它才使用单词级RNN-LM计算最后一个单词的概率,并简单地将其累加到假设评分。针对不同类型的同音异义词,不需要进行特殊处理:具有相同拼写但发音不同的单词通过单词语言模型以上下文相关的方式来处理,而具有相同发音但具有不同拼写的单词在波束搜索中被自动处理为不同的单词假设。同样,歧义词分段被自动处理为不同的解码假设。
可以通过如下修改字符级LM概率来实现根据实施方式的机制。
设v是单词级RNN-LM的词表并且包括诸如<UNK>之类的OOV单词的抽象符号。我们按下式来计算式(31)中的条件标签概率:
其中,S表示指示单词结尾的标签的集合,即S={<<space>,<eos>},wg是字符序列g的最后一个单词,并且ψg是作为与除wg之外的g对应的单词序列的单词级历史。对于以上示例,g,wg和ψg被设置为
g=a,<space>,c,a,t,<space>,e,a,t,s
wg=eats
ψg=a,cat.
当字符c表示前一单词的结尾时,使用式(40)右侧的第一个条件。在这种情况下,使用单词级RNN-LM计算单词级概率pwlm(wg|ψg)。分母pclm(wg|ψg)是由字符级RNN-LM获得并且用于消除针对wg累积的字符级LM概率的wg的概率。该概率可以按下式计算:
因此,关于字符序列g的累积字符级LM概率由相应的单词级LM概率重新评分。
第二项pwlm(<UNK>|ψg)充当字符级LM的权重,并确保了组合的语言模型在单词边界及在中间均关于字符序列被归一化。
如果如同在第二个条件中那样wg是OOV单词,则我们假设可以用单词级RNN-LM和字符级RNN-LM来计算OOV单词的单词级概率:
poov(wg|ψg)=pwlm(<UNK>|ψg)pclm(ωg|<UNK>,ψg). (42)
由于字符级的概率满足:
pclm(wg|<UNK>,ψg)∝pclm(ωg|ψg), (43)
所以,我们将其近似为:
并获得:
其中,我们假设比例因子并将其设置为可调参数。在式(40)的第二个条件中,消除了基于字符的概率pclm(wg|ψg),这是因为它已经针对假设进行了累积。该项允许预测OOV单词以及词表中的单词,并使能开放词表的ASR。
式(40)的第三种情况向单词内假设赋予了字符级LM概率。尽管字符级LM概率在每个已知单词假设的结尾处被删除并且因此仅用于对OOV单词进行评分,但它们在波束搜索中保持正确的单词假设有效直到应用单词级LM概率的单词的结尾为止的方面起着另一个重要作用。
这些参数用于计算标签概率分布plm(y|y1,…,yl-1)。
CTC概率
CTC模块208计算给定隐藏向量序列H的标签序列Y的CTC前向概率。请注意,CTC公式使用具有不同标签的集合的长度L的标签序列/>通过引入带有附加“空白”标签的逐帧标签序列,/>其中b代表空白标签。通过使用概率链规则和条件独立假设,后验分布p(Y|X)被如下分解:
其中,认为p(zt|zt-1|Y)是包含空白标签的标签转移概率。p(zt|X)是以输入序列X为条件的逐帧后验分布,并使用双向长短期记忆(BLSTM)进行建模:
CTC的前向算法如下执行。我们使用长度为2L+1的扩展标签序列Y′=y′1,y′2,…,y′2L+1=b,y1,b,y2,…,b,yL,b,其中,在每对相邻标签之间插入空白标签“b”。设αt(s)为前向概率,其表示时间帧1,…,t内标签序列y1,…,yl的后验概率,其中s指示在扩展标签序列Y′中的位置。
对于初始化,我们设置:
α1(1)=p(z1=b|X) (48)
α1(2)=p(z1=y1|X) (49)
对于t=2至T,按下式以递归方式计算αt(s):
其中,
最后,按下式获得基于CTC的标签序列概率:
pctc(Y|X)=αT(2L+1)+αT(2L)· (53)
逐帧标签序列Z表示输入声学特征序列X与输出标签序列Y之间的对齐。当计算前向概率时,式(51)的递归强制Z为单调的,并且在对齐Z中不允许循环或s的大跳转,因为获得αt(s)的递归最多只考虑了αt-1(s)、αt-1(s-1)、αt-1(s-2)。这意味着,当时间帧前进一帧时,标签将从先前标签或空白改变,或保持相同的标签。此约束起转移概率p(zt|zt-1,Y)的作用,该转移概率p(zt|zt-1,Y)将对齐强制为单调。因此,当pctc(Y|X)基于不规则(非单调)对齐来计算时,其可以为0或非常小的值。
图3是例示了根据本发明的实施方式的组合神经网络模块300的示意图。组合神经网络300包括编码器网络模块202、注意力解码器网络模块204、CTC模块208和LM模块210。每个箭头表示进行变换或不进行转换的数据传输,每个方形节点或圆形节点表示向量或预测标签。声学特征序列X=x1,…,xT被馈送到编码器网络模块202,在该编码器网络模块202中层叠有两个BLSTM,并且第一BLSTM的每隔一个隐藏向量被馈送到第二BLSTM。编码器模块202的输出得到隐藏向量序列H=h′1,h′2,…,h′T′,其中T′=T/2。然后,将H馈送到CTC模块208和解码器网络模块204。基于CTC的序列概率、基于注意力的序列概率和基于LM的序列概率分别用CTC模块208、解码器网络模块204和LM模块210来计算,并且被组合以获得标签序列概率。
用于开放词表的端到端ASR的标签序列搜索
其中,pctc(Y|X)是式(53)中的基于CTC的标签序列概率。patt(Y|X)是式(14)中的基于注意力的标签序列概率,并且plm(Y)是式(31)中的基于LM的标签序列概率。λ和k是平衡这三个概率的比例因子。
在本发明的波束搜索过程中,每个部分假设h的评分按下式计算:
Φjoint(h)=λΦctc(h,X)+(1-λ)Φatt(h)+κΦlm(h), (55)
其中,Φatt(h)通过式(29)计算,并且Φlm(h)是按下式获得的:
Φlm(h)=Φlm(g)+log plm(y|g), (56)
为了计算Φctc(h,X),我们利用被定义为具有作为它们的前缀的h的所有标签序列的累积概率的CTC前缀概率:
并且,我们将CTC评分定义为:
其中,v代表除空字符串以外的所有可能的标签序列。CTC评分不能像式(29)中的Φatt(h)和式(56)中的Φlm(h)那样递归地获得,但是可以针对每个部分假设,通过在输入时间帧上保持前向概率来有效地进行计算。
与用于现有技术的基于注意力的端到端ASR的波束搜索方法存在一些区别。
在第4行中,初始化LM评分。在第14行中,使用CTC评分Φctc(h,X)、基于注意力的评分Φatt(h)和LM评分Φlm(h)来计算联合评分Φjoint(h)。在第20行中,使用联合评分Φjoint(h)来选择hmin。在第27行中,将联合评分Φjoint(h)和<eos>的单词级LM概率进行组合以确定由于在式(40)中没有考虑<eos>的单词级LM概率,因此,需要将其结合到最终决策中。
可以使用修正的前向算法来计算CTC评分Φctc(h,X)。设和/>为假设h在时间帧1…t上的前向概率,其中上标(n)和(b)分别表示所有CTC路径以非空白标签或空白标签结尾的不同情况。在开始波束搜索之前,对于t=1,…,T,/>和/>被初始化为:
如果y不是<eos>,则假定h不是完整假设来计算前向概率和/>以及前缀概率Ψ=pctc(h,…|X)。第5-13行描述了这些概率的初始化和递归步骤。在该函数中,假设在第10-12行中每次计算/>和Ψ时已经通过波束搜索过程获得了第9行中的概率/>和/>这是因为g是h的前缀,使得|g|<|h|。因此,能够有效地计算前缀概率和前向概率。请注意,第9行中last(g)是返回g的最后一个标签的函数。
因此,波束搜索方法能够在搜索过程中通过CTC评分来排除具有不规则对齐的部分假设,并且与再评分方法相比,有希望以更少的计算来减少搜索错误的数量。搜索错误表示波束搜索错过了最可能的假设。在这种情况下,获得具有更小评分的替代假设,而不是最佳假设,其中替代假设通常包含比最佳假设更多的识别错误。
网络训练
在使用ASR系统之前,要对网络参数203、205和209进行联合优化,使得损失函数:
被减小,其中,X和Y是包含声学特征序列和标签序列的训练数据。Θ表示网络参数的集合。N是训练样本的数量,Xn和Yn分别是训练数据中的第n个声学特征序列和相应的标签序列。pctc(Yn|Xn,Θ)是用参数集Θ计算出的、式(53)中的基于CTC的序列概率,patt(Yn|Xn,Θ)是用参数集Θ计算出的、式(14)中的基于注意力的序列概率。可以通过随机梯度下降法来优化网络参数以降低损失函数。训练过程联合优化了编码器、解码器和CTC网络。
使用字符序列数据Y(c)和单词序列数据Y(w)独立地优化字符LM参数211和单词级LM参数212。
字符级RNN-LM的损失函数为:
并且,单词级RNN-LM的损失函数为:
其中,Θclm和Θwlm分别表示字符LM参数的集合和单词LM参数的集合。和/>是按式(31)计算的LM概率。N(c)是Y(c)中的训练样本数,是Y(c)中的第n个字符序列。N(w)是Y(w)中的训练样本数,并且/>是Y(w)中的第n个单词序列。
可以通过随机梯度下降法来优化LM参数以降低损失函数。
开放词表的端到端语音识别设备
图4示出了根据本发明的一些实施方式的开放词表的端到端语音识别系统(语音识别系统)400的框图。语音识别系统400包括可与键盘411和定点装置/介质412连接的人机接口(HMI)410、一个或更多个处理器420、储存装置430、存储器440、可与包括局域网和互联网的网络490连接的网络接口控制器450(NIC)、显示接口460、可与麦克风装置475连接的音频接口470、可与打印装置485连接的打印机接口480。存储器440可以是一个或更多个存储器单元。端到端语音识别系统400可以经由连接到NIC 450的网络490接收电音频波形/频谱数据495。储存装置430包括端到端语音识别模块200、注意力解码器网络模块204、编码器网络模块202、CTC模块208和声学特征提取模块434。在附图中省略了标签序列搜索模块、编码器网络参数、解码器网络参数和CTC网络参数。定点装置/介质412可以包括读取计算机可读记录介质上存储的程序的模块。注意力解码器网络模块204、编码器网络模块202和CTC模块208可以由神经网络参数形成。声学特征提取模块434是用于从中提取声学特征序列的程序。声学特征序列可以是具有一阶和二阶时间导数和/或音节特征的梅尔级滤波器组系数(mel-scale filterbank coefficient)的序列。
为了执行端到端语音识别,可以使用键盘411、定点装置/介质412或经由连接到其它计算机(图中未示出)的网络490向端到端语音识别系统400发送指示。系统400经由HMI410接收指示,并通过加载储存装置430中存储的端到端语音识别模块200、注意力解码器网络模块204、编码器网络模块202、CTC模块208和声学特征提取模块434,来执行用于使用与存储器440连接的处理器420执行端到端语音识别的指示。
评估结果
图5是根据本发明的实施方式的通过执行开放词表的端到端语音识别所获得的评估结果。
使用华尔街日报(WSJ)语料库执行评估,WSJ语料库是著名的英语纯净语音数据库。我们使用si284数据集进行训练,使用dev93数据集进行验证,并且使用eval92数据集进行评估。数据集被汇总在图5A中。
作为输入特征,我们针对BLSTM编码器使用了具有音节特征以及它们的德耳塔和德耳塔delta特征的80个梅尔级滤波器组系数,在BLSTM编码器之前,我们还添加了卷积神经网络(CNN)层。对于注意力模型,我们仅使用了32个不同的标签:26个英文字母、撇号、句号、破折号、空格、噪音和sos/eos标记。CTC模型使用空白代替sos/eos,而我们的MTL模型同时使用了sos/eos和空白。
此外,编码器网络是通过使用CNN来增强的,这是由先前的研究激发的。我们使用了基于CNN架构的初始层的6层架构,然后是编码器网络中的8个BLSTM层。在CNN架构中,初始的三个输入通道由频谱特征、德耳塔以及德耳塔delta特征组成。输入的语音特征图像通过两个最大池化层与时频轴一起被下采样为(1/4×1/4)图像。BLSTM层在每个层和方向上具有320个单元,每个BLSTM层后面是具有320个单元的线性投影层。
我们使用了基于位置的注意力机制,其中使用了宽度为100的10个中心化卷积滤波器来提取卷积特征。解码器是具有300个单元的单层单向LSTM。
使用具有梯度裁剪的AdaDelta算法进行优化。我们还应用了一元标签平滑技术(unigram label smoothing technique)以避免过度自信的预测。在混合注意力/CTC架构中,我们使用λ=0.1进行训练,并且使用λ=0.2和γ=1.1进行解码。在所有条件下的解码中,波束宽度被设置为30。通过使用Chainer深度学习工具包实现具有多层次LM的基于注意力/CTC的混合ASR。
用由来自1.6M句子的37M单词组成的WSJ文本语料库来训练字符级RNN-LM和单词级RNN-LM。字符级LM具有包含800个单元的单个LSTM层和32维softmax层,而单词级LM具有包含1000个单元的单个LSTM层和20000维softmax层,这等于LM的词表大小。我们使用随机梯度下降(SGD)来优化RNN-LM。第一个实验评估了语言模型的贡献。
图5B示出了根据本发明的实施方式的具有不同语言模型的单词错误率(WER)。即使当使用其大小仅为WSJ文本语料库的1.8%的si284语音数据的转录进行LM训练,字符级LM的WER也从13.4%降低到11.5%。这意味着单独的语言模型对预测性能具有一些互补效果。通过使用来自WSJ文本语料库的更多数据,WER降低到7.7%。接下来,我们并入单词级RNN-LM而没有字符级。
RNN-LM,其中在空格字符或句子结尾字符的每个位置仅应用单词级RNN-LM概率。在这种情况下,WER增加到12.6%。最后,当根据提出的方法同时使用字符级RNN-LM和单词级RNN-LM时,我们获得了5.6%的WER的巨大改进。
为了研究仅使用单词级RNN-LM时WER高的原因,我们进行了范围从5至40的不同波束宽度的附加实验。
图6是根据本发明的实施方式的依据开放词表的端到端语音识别的指示作为波束宽度的函数的单词错误率的评估结果。图6示出了每个波束宽度的WER。在没有字符LM(即,无LM或单词LM)的情况下,WER几乎与波束宽度无关。这意味着解码器网络以高可信度预测标签,即使波束更宽也不会改变结果。因此,在每个单词结尾应用单词级LM概率太晚而无法使用单词级信息恢复更好的假设。我们提出的方法(单词+字符LM)通过结合字符级LM作为在波束搜索中找到更好的单词序列假设的指导,实现了最低的WER。尽管我们用于训练网络的标签平滑技术在一定程度上减轻了这种过分自信的问题,但是在没有字符级LM的任何帮助的情况下,似乎很难恢复不太自信的标签。
第二个实验研究了通过提出的方法所提供的开放词表的益处。
图7是对使用从20K到65K的不同词表大小和开放词表条件时的WER进行比较的评估结果。WER的比较是在解码期间以有限词表执行的。
这些词表仅用于约束仅由词表中的单词组成的所有假设。通过在解码期间仅允许出现在词表中的字符序列来强制执行此约束。如表中所示,当使用封闭词表时,WER在开放词表条件下无法达到最佳WER。即使通过65K的词表而具有小的OOV率,与最佳WER的差距仍为1.8%。我们检查了识别结果,并发现它们有更多的删除错误。这似乎是因为当解码器由于词表约束而无法假设具有高概率的标签序列时,有效假设的评分变小,并因此倾向于选择较短的假设作为结果。在标准的华尔街日报(WSJ)任务中,我们仅使用SI284训练集和WSJ文本数据,对于Eval’92测试集实现了5.6%的WER,这是最好的。
在本公开的一些实施方式中,当上述的端到端语音识别系统安装在计算机系统中时,能够以较少的计算能力有效且准确地执行语音识别,由此使用本公开的端到端语音识别方法或系统能够减少中央处理单元的使用和功耗。
此外,根据本公开的实施方式提供了用于执行端到端语音识别的有效方法,因此,使用端到端语音识别模型的方法和系统的使用能够减少中央处理器(CPU)的使用、功耗和/或网络带宽使用。
可以以多种方式中的任何一种来实现本公开的上述实施方式。例如,可以使用硬件、软件或其组合来实现实施方式。当以软件实现时,软件代码无论是设置于单台计算机中还是分布在多台计算机中,都可以在任何合适的处理器或处理器集合上执行。这样的处理器可以被实现为集成电路,并且集成电路组件中具有一个或更多个处理器。但是,可以使用任何适当格式的电路来实现处理器。
另外,本文概述的各种方法或过程可以被编码为在采用多种操作系统或平台中的任何一种的一个或更多个处理器上可执行的软件。附加地,可以使用多个合适的编程语言和/或编程或脚本工具中的任何一种来编写这种软件,并且还可以将这种软件编译为可执行的机器语言代码或在框架或虚拟机上执行的中间代码。通常,在各种实施方式中,程序模块的功能可以根据需要进行组合或分布。
此外,本公开的实施方式可以被体现为一种方法,已经提供了该方法的示例。作为该方法的一部分而执行的动作可以以任何合适的方式排序。因此,可以构造实施方式,在该实施方式中以与所例示的次序不同的次序来执行动作,这可以包括并发地执行一些动作,即使这些动作在示例性实施方式中被示为顺序动作。此外,在权利要求中使用诸如第一、第二之类的序数术语来修饰权利要求要素本身并不意味着一个权利要求要素相对于另一个具有任何优先权、优先级或次序,或者执行方法的动作的时间次序,而是仅用作标签,以将具有特定名称的一个权利要求要素与具有相同名称(除了序数词的使用)的另一要素区分开,以区分权利要求要素。
Claims (17)
1.一种语音识别系统,该语音识别系统包括:
一个或更多个处理器;以及
一个或更多个储存装置,所述一个或更多个储存装置存储参数和包括由所述一个或更多个处理器能执行的指令的程序模块,当执行所述指令时使所述一个或更多个处理器执行包括以下内容的操作:
从经由音频接口或网络接口控制器获得的音频波形数据中提取声学特征序列;
使用具有编码器网络参数的编码器网络将所述声学特征序列编码为隐藏向量序列;
通过将所述隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;
通过使用字符级语言模型和单词级语言模型的混合网络来预测第二输出标签序列概率,其中,当在先前单词之后的字符属于指示单词的结尾的预定标签的集合并且所述先前单词被包括在所述单词级语言模型的词表中时,根据通过使用所述单词级语言模型获得的概率和通过使用所述字符级语言模型获得的概率的除法来计算所述第二输出标签序列概率,其中,当所述先前单词之后的所述字符属于所述预定标签的集合并且所述先前单词未被包括在所述单词级语言模型的词表中时,通过使用所述单词级语言模型和缩放因子来计算所述第二输出标签序列概率,其中,当所述先前单词之后的所述字符不属于所述预定标签的集合时,通过使用所述字符级语言模型来计算所述第二输出标签序列概率;以及
通过将从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合,来搜索具有最高序列概率的输出标签序列。
2.根据权利要求1所述的语音识别系统,其中,所述操作还包括:
由联结主义时序分类使用联结主义时序分类网络参数和来自所述编码器网络的隐藏向量序列来预测第三输出标签序列概率,其中,通过将从所述解码器网络、所述混合网络和所述联结主义时序分类提供的所述第一输出标签序列概率、所述第二输出标签序列概率和所述第三输出标签序列概率组合来执行所述搜索。
3.根据权利要求1所述的语音识别系统,其中,所述混合网络包括:计算字符级概率的字符级递归神经网络以及计算单词级概率的单词级递归神经网络。
4.根据权利要求1所述的语音识别系统,其中,所述解码器网络在预测所述第一输出标签序列概率之前接收先前标签。
5.根据权利要求2所述的语音识别系统,其中,所述联结主义时序分类在预测所述第三输出标签序列概率之前接收先前标签。
6.根据权利要求1所述的语音识别系统,其中,所述编码器网络包括层叠的双向长短期记忆和卷积神经网络。
7.根据权利要求1所述的语音识别系统,其中,所述解码器网络包括层叠的长短期记忆并且使用所述隐藏向量序列的注意力机制来预测所述第一输出标签序列概率中的每一个。
8.根据权利要求1所述的语音识别系统,其中,对数域中的线性组合被用于组合所述第一输出标签序列概率和所述第二输出标签序列概率。
9.根据权利要求1所述的语音识别系统,其中,搜索操作使用波束搜索来找到具有通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率而获得的最高序列概率的输出标签序列。
10.根据权利要求9所述的语音识别系统,其中,所述波束搜索首先使用从所述解码器网络提供的第一标签序列概率来找到完整标签序列假设的集合,然后从所述完整标签序列假设的集合当中找到具有最高序列概率的所述输出标签序列,所述最高序列概率通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率而获得。
11.根据权利要求9所述的语音识别系统,其中,所述波束搜索剪除与其它不完整标签序列假设相比具有低序列概率的不完整标签序列假设,并且所述组合的输出标签序列概率是通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率而获得的。
12.根据权利要求2所述的语音识别系统,其中,所述联结主义时序分类使用所述联结主义时序分类网络参数和动态编程技术来计算后验概率分布,以预测所述第三输出标签序列概率。
13.一种非暂时性计算机可读记录介质,该非暂时性计算机可读记录介质存储有程序,该程序使与存储器通信的计算机执行语音识别过程,该语音识别过程包括:
提供话语声音;
从由所述话语声音转换的音频波形数据中提取声学特征序列;
使用具有编码器网络参数的编码器网络将所述声学特征序列编码为隐藏向量序列;
通过将所述隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;
通过使用字符级语言模型和单词级语言模型的混合网络来预测第二输出标签序列概率,其中,当在先前单词之后的字符属于指示单词的结尾的预定标签的集合并且所述先前单词被包括在所述单词级语言模型的词表中时,根据通过使用所述单词级语言模型获得的概率和通过使用所述字符级语言模型获得的概率的除法来计算所述第二输出标签序列概率,其中,当所述先前单词之后的所述字符属于所述预定标签的集合并且所述先前单词未被包括在所述单词级语言模型的词表中时,通过使用所述单词级语言模型和缩放因子来计算所述第二输出标签序列概率,其中,当所述先前单词之后的所述字符不属于所述预定标签的集合时,通过使用所述字符级语言模型来计算所述第二输出标签序列概率;以及
通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。
14.根据权利要求13所述的介质,其中,所述语音识别过程还包括:
由联结主义时序分类使用联结主义时序分类网络参数和来自所述编码器网络的隐藏向量序列来预测第三输出标签序列概率,其中,通过将从所述解码器网络、所述混合网络和所述联结主义时序分类提供的所述第一输出标签序列概率、所述第二输出标签序列概率和所述第三输出标签序列概率组合来执行所述搜索。
15.根据权利要求13所述的介质,其中,所述混合网络包括:计算字符级概率的字符级递归神经网络以及计算单词级概率的单词级递归神经网络。
16.根据权利要求13所述的介质,其中,所述解码器网络在预测所述第一输出标签序列概率之前接收先前标签。
17.根据权利要求14所述的介质,其中,所述联结主义时序分类在预测所述第三输出标签序列概率之前接收先前标签。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/843,055 US10672388B2 (en) | 2017-12-15 | 2017-12-15 | Method and apparatus for open-vocabulary end-to-end speech recognition |
US15/843,055 | 2017-12-15 | ||
PCT/JP2018/020250 WO2019116604A1 (en) | 2017-12-15 | 2018-05-21 | Speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111480197A CN111480197A (zh) | 2020-07-31 |
CN111480197B true CN111480197B (zh) | 2023-06-27 |
Family
ID=62685026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880079228.0A Active CN111480197B (zh) | 2017-12-15 | 2018-05-21 | 语音识别系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10672388B2 (zh) |
EP (1) | EP3711045B1 (zh) |
JP (1) | JP6929466B2 (zh) |
CN (1) | CN111480197B (zh) |
WO (1) | WO2019116604A1 (zh) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
JP6831343B2 (ja) * | 2018-02-01 | 2021-02-17 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
JP6911785B2 (ja) * | 2018-02-02 | 2021-07-28 | 日本電信電話株式会社 | 判定装置、判定方法及び判定プログラム |
US10629193B2 (en) * | 2018-03-09 | 2020-04-21 | Microsoft Technology Licensing, Llc | Advancing word-based speech recognition processing |
JP6910987B2 (ja) * | 2018-06-07 | 2021-07-28 | 株式会社東芝 | 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム |
WO2020003534A1 (en) * | 2018-06-29 | 2020-01-02 | Nec Corporation | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
US11210475B2 (en) | 2018-07-23 | 2021-12-28 | Google Llc | Enhanced attention mechanisms |
US11625595B2 (en) * | 2018-08-29 | 2023-04-11 | International Business Machines Corporation | Knowledge transfer between recurrent neural networks |
US11270084B2 (en) * | 2018-10-12 | 2022-03-08 | Johnson Controls Tyco IP Holdings LLP | Systems and methods for using trigger words to generate human-like responses in virtual assistants |
US11854562B2 (en) * | 2019-05-14 | 2023-12-26 | International Business Machines Corporation | High-quality non-parallel many-to-many voice conversion |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
CN110444203B (zh) * | 2019-07-17 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
CN112242144A (zh) | 2019-07-17 | 2021-01-19 | 百度在线网络技术(北京)有限公司 | 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质 |
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN110442693B (zh) * | 2019-07-27 | 2022-02-22 | 中国科学院自动化研究所 | 基于人工智能的回复消息生成方法、装置、服务器及介质 |
WO2021029643A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
WO2021029627A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
EP3980991B1 (en) | 2019-08-13 | 2024-01-03 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
JP7212596B2 (ja) * | 2019-09-02 | 2023-01-25 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
CN110648658B (zh) * | 2019-09-06 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
CN110556100B (zh) * | 2019-09-10 | 2021-09-17 | 思必驰科技股份有限公司 | 端到端语音识别模型的训练方法及系统 |
CN110767223B (zh) * | 2019-09-30 | 2022-04-12 | 大象声科(深圳)科技有限公司 | 一种单声道鲁棒性的语音关键词实时检测方法 |
CN110610700B (zh) * | 2019-10-16 | 2022-01-14 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
US11551000B2 (en) * | 2019-10-20 | 2023-01-10 | International Business Machines Corporation | Introspective extraction and complement control |
US11657271B2 (en) | 2019-10-20 | 2023-05-23 | International Business Machines Corporation | Game-theoretic frameworks for deep neural network rationalization |
CN111008276B (zh) * | 2019-10-29 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种完整实体关系抽取方法及装置 |
CN110808036B (zh) * | 2019-11-07 | 2022-06-07 | 南京大学 | 一种增量式语音命令词识别方法 |
CN110851673B (zh) * | 2019-11-12 | 2022-08-09 | 西南科技大学 | 一种改进的集束搜索方法及问答系统 |
US11373639B2 (en) * | 2019-12-12 | 2022-06-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
CN110970031B (zh) * | 2019-12-16 | 2022-06-24 | 思必驰科技股份有限公司 | 语音识别系统及方法 |
CN113077785B (zh) * | 2019-12-17 | 2022-07-12 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及系统 |
CN111223489B (zh) * | 2019-12-20 | 2022-12-06 | 厦门快商通科技股份有限公司 | 一种基于Attention注意力机制的特定关键词识别方法及系统 |
CN111243578A (zh) * | 2020-01-10 | 2020-06-05 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111354345B (zh) * | 2020-03-11 | 2021-08-31 | 北京字节跳动网络技术有限公司 | 生成语音模型和语音识别的方法、装置、设备以及介质 |
WO2022198474A1 (en) | 2021-03-24 | 2022-09-29 | Sas Institute Inc. | Speech-to-analytics framework with support for large n-gram corpora |
US11049502B1 (en) * | 2020-03-18 | 2021-06-29 | Sas Institute Inc. | Speech audio pre-processing segmentation |
US11562745B2 (en) * | 2020-04-06 | 2023-01-24 | Microsoft Technology Licensing, Llc | Sequence-to-sequence speech recognition with latency threshold |
US11462211B2 (en) * | 2020-04-09 | 2022-10-04 | Mitsubishi Electric Research Laboratories, Inc. | System and method for detecting adversarial attacks |
CN111540344B (zh) * | 2020-04-21 | 2022-01-21 | 北京字节跳动网络技术有限公司 | 声学网络模型训练方法、装置及电子设备 |
US11580959B2 (en) * | 2020-09-28 | 2023-02-14 | International Business Machines Corporation | Improving speech recognition transcriptions |
CN112599122B (zh) * | 2020-12-10 | 2022-10-14 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
WO2022162767A1 (ja) * | 2021-01-27 | 2022-08-04 | 日本電信電話株式会社 | 誤り訂正装置、誤り訂正方法、プログラム |
CN113129870B (zh) * | 2021-03-23 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN112967710B (zh) * | 2021-03-25 | 2022-06-14 | 江西师范大学 | 一种低资源客家方言点识别方法 |
CN112863489B (zh) * | 2021-04-26 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及介质 |
CN113763927B (zh) * | 2021-05-13 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 语音识别的方法、装置、计算机设备及可读存储介质 |
CN113345466B (zh) * | 2021-06-01 | 2024-03-01 | 平安科技(深圳)有限公司 | 基于多麦克风场景的主说话人语音检测方法、装置及设备 |
CN113160803A (zh) * | 2021-06-09 | 2021-07-23 | 中国科学技术大学 | 基于多层级标识的端到端语音识别模型及建模方法 |
CN113488028B (zh) * | 2021-06-23 | 2024-02-27 | 中科极限元(杭州)智能科技股份有限公司 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
CN113327599B (zh) * | 2021-06-30 | 2023-06-02 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及电子设备 |
CN113689867B (zh) * | 2021-08-18 | 2022-06-28 | 北京百度网讯科技有限公司 | 一种语音转换模型的训练方法、装置、电子设备及介质 |
CN114023337B (zh) * | 2021-10-12 | 2024-06-14 | 湖北文理学院 | 一种深度学习中端到端的宠物语言翻译方法 |
US11984116B2 (en) * | 2021-11-08 | 2024-05-14 | Genesys Cloud Services, Inc. | Method and system for unsupervised discovery of unigrams in speech recognition systems |
KR102620070B1 (ko) * | 2022-10-13 | 2024-01-02 | 주식회사 타이렐 | 상황 인지에 따른 자율발화 시스템 |
WO2024150422A1 (ja) * | 2023-01-13 | 2024-07-18 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
WO2024150423A1 (ja) * | 2023-01-13 | 2024-07-18 | 日本電信電話株式会社 | 言語モデル学習装置、言語モデル学習方法、プログラム |
KR102626954B1 (ko) * | 2023-04-20 | 2024-01-18 | 주식회사 덴컴 | 치과용 음성 인식 장치 및 이를 이용한 방법 |
KR102617914B1 (ko) * | 2023-05-10 | 2023-12-27 | 주식회사 포지큐브 | 음성 인식 방법 및 그 시스템 |
KR102632872B1 (ko) * | 2023-05-22 | 2024-02-05 | 주식회사 포지큐브 | 음성인식 오류 교정 방법 및 그 시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1655235A (zh) * | 2004-02-12 | 2005-08-17 | 微软公司 | 基于话音特征自动标识电话呼叫者 |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070136A (en) * | 1997-10-27 | 2000-05-30 | Advanced Micro Devices, Inc. | Matrix quantization with vector quantization error compensation for robust speech recognition |
US7464031B2 (en) * | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
US9128926B2 (en) * | 2006-10-26 | 2015-09-08 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
US8589162B2 (en) * | 2007-09-19 | 2013-11-19 | Nuance Communications, Inc. | Method, system and computer program for enhanced speech recognition of digits input strings |
US9047268B2 (en) * | 2013-01-31 | 2015-06-02 | Google Inc. | Character and word level language models for out-of-vocabulary text input |
US9842592B2 (en) * | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9728185B2 (en) * | 2014-05-22 | 2017-08-08 | Google Inc. | Recognizing speech using neural networks |
US11080587B2 (en) * | 2015-02-06 | 2021-08-03 | Deepmind Technologies Limited | Recurrent neural networks for data item generation |
CN106294460B (zh) | 2015-05-29 | 2019-10-22 | 中国科学院声学研究所 | 一种基于字和词混合语言模型的汉语语音关键词检索方法 |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
EP3371807B1 (en) * | 2015-11-12 | 2023-01-04 | Google LLC | Generating target phoneme sequences from input speech sequences using partial conditioning |
US10268671B2 (en) * | 2015-12-31 | 2019-04-23 | Google Llc | Generating parse trees of text segments using neural networks |
CN108604227B (zh) | 2016-01-26 | 2023-10-24 | 皇家飞利浦有限公司 | 用于神经临床释义生成的系统和方法 |
KR20170108693A (ko) | 2016-03-18 | 2017-09-27 | 서울대학교산학협력단 | 입출력 회로를 가지는 계층적 신경망 구조의 언어모델 장치 |
US10210862B1 (en) * | 2016-03-21 | 2019-02-19 | Amazon Technologies, Inc. | Lattice decoding and result confirmation using recurrent neural networks |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US9792900B1 (en) * | 2016-04-13 | 2017-10-17 | Malaspina Labs (Barbados), Inc. | Generation of phoneme-experts for speech recognition |
KR20180001889A (ko) * | 2016-06-28 | 2018-01-05 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
US10481863B2 (en) * | 2016-07-06 | 2019-11-19 | Baidu Usa Llc | Systems and methods for improved user interface |
-
2017
- 2017-12-15 US US15/843,055 patent/US10672388B2/en active Active
-
2018
- 2018-05-21 WO PCT/JP2018/020250 patent/WO2019116604A1/en unknown
- 2018-05-21 CN CN201880079228.0A patent/CN111480197B/zh active Active
- 2018-05-21 EP EP18732928.9A patent/EP3711045B1/en active Active
- 2018-05-21 JP JP2020537900A patent/JP6929466B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1655235A (zh) * | 2004-02-12 | 2005-08-17 | 微软公司 | 基于话音特征自动标识电话呼叫者 |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
Non-Patent Citations (2)
Title |
---|
Dzmitry Bahdanauy 等.END-TO-END ATTENTION-BASED LARGE VOCABULARY SPEECH RECOGNITION.ICASSP.2016,第2016卷第4945-4949页. * |
王庆楠 等.基于端到端技术的藏语语音识别.《模式识别与人工智能》.2017,第30卷(第4期),359-364. * |
Also Published As
Publication number | Publication date |
---|---|
WO2019116604A1 (en) | 2019-06-20 |
US20190189115A1 (en) | 2019-06-20 |
US10672388B2 (en) | 2020-06-02 |
EP3711045B1 (en) | 2021-09-15 |
EP3711045A1 (en) | 2020-09-23 |
JP2021501376A (ja) | 2021-01-14 |
JP6929466B2 (ja) | 2021-09-01 |
CN111480197A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111480197B (zh) | 语音识别系统 | |
EP3516650B1 (en) | Method and system for training a multi-language speech recognition network | |
EP3417451B1 (en) | Speech recognition system and method for speech recognition | |
Hori et al. | End-to-end speech recognition with word-based RNN language models | |
Hannun et al. | First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs | |
Hori et al. | Multi-level language modeling and decoding for open vocabulary end-to-end speech recognition | |
Masumura et al. | Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models | |
CN112435654A (zh) | 通过帧插入对语音数据进行数据增强 | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
Raval et al. | Improving deep learning based automatic speech recognition for Gujarati | |
Alsayadi et al. | Non-diacritized Arabic speech recognition based on CNN-LSTM and attention-based models | |
CN115270771B (zh) | 细粒度自适应字音预测任务辅助的中文拼写纠错方法 | |
Park et al. | Korean grapheme unit-based speech recognition using attention-ctc ensemble network | |
Pylkkönen | Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training | |
Siivola | Language models for automatic speech recognition: construction and complexity control | |
Liu et al. | Evaluating Modeling Units and Sub-word Features in Language Models for Turkish ASR | |
Zenkel | Character Based Language Modeling and Applications in Speech Recognition | |
Pražák et al. | Language model adaptation using different class-based models | |
Kamath et al. | End-to-End Speech Recognition | |
Mansikkaniemi | Continuous unsupervised topic adaptation for morph-based speech recognition | |
Van Compernolle et al. | EXTRACTING, MODELLING AND COMBINING INFORMATION IN SPEECH RECOGNITION | |
Hori et al. | Brief Overview of Speech Recognition | |
Gauvain et al. | Continuous Speech Dictation at LIMSIy | |
BASKAR | SEMI-SUPERVISED SPEECH-TO-TEXT RECOGNITION WITH TEXT-TO-SPEECH CRITIC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |