CN117476035A - 话音活动检测集成以改进自动讲话检测 - Google Patents
话音活动检测集成以改进自动讲话检测 Download PDFInfo
- Publication number
- CN117476035A CN117476035A CN202310889460.3A CN202310889460A CN117476035A CN 117476035 A CN117476035 A CN 117476035A CN 202310889460 A CN202310889460 A CN 202310889460A CN 117476035 A CN117476035 A CN 117476035A
- Authority
- CN
- China
- Prior art keywords
- vad
- computer
- rnn
- encoder
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 230000010354 integration Effects 0.000 title abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 80
- 230000015654 memory Effects 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004590 computer program Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000000306 recurrent effect Effects 0.000 claims abstract description 7
- 238000003860 storage Methods 0.000 claims description 68
- 230000008014 freezing Effects 0.000 claims description 7
- 238000007710 freezing Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 28
- 230000000670 limiting effect Effects 0.000 description 25
- 238000004891 communication Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 18
- 238000012360 testing method Methods 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 230000006855 networking Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 239000007787 solid Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000001902 propagating effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 101100168695 Coffea arabica CS3 gene Proteins 0.000 description 3
- 101100329510 Coffea canephora MTL2 gene Proteins 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000013140 knowledge distillation Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012384 transportation and delivery Methods 0.000 description 3
- 101100168702 Coffea arabica MTL3 gene Proteins 0.000 description 2
- 101100429092 Coffea arabica XMT1 gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100402795 Caenorhabditis elegans mtl-1 gene Proteins 0.000 description 1
- 101100292356 Caenorhabditis elegans mtl-2 gene Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 101001089105 Mytilus trossulus D-galactose-binding lectin Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开涉及话音活动检测集成以改进自动讲话检测。提供了用于促进使用自动讲话识别(ASR)信息对递归神经网络换能器(RNN‑T)进行多任务训练的系统、计算机实现的方法、和计算机程序产品。根据实施例,系统可以包括存储计算机可执行组件的存储器和执行存储在存储器中的计算机可执行组件的处理器。计算机可执行组件可包括可接收ASR信息的RNN‑T。计算机可执行组件可包括使用ASR信息来训练RNN‑T的话音活动检测(VAD)模型,其中RNN‑T可进一步包括编码器和联合网络。编码器的一个或多个输出可与联合网络和VAD模型的一个或多个输出集成。
Description
背景技术
本文中的一个或多个实施例总体上涉及通常与话音(voice)活动检测(VAD)模型一起部署以运行自动讲话(speech)识别(ASR)的ASR系统,并且更具体地涉及接收ASR信息的递归神经网络换能器(RNN-T)的多任务训练。
发明内容
下文呈现概述以提供对本文描述的一个或多个实施例的基本理解。本概述并不旨在标识关键或重要的元素,或描绘特定实施例的任何范围或权利要求的任何范围。发明内容的唯一目的是以简化形式呈现概念,作为稍后呈现的更详细描述的序言。在本文所描述的一个或多个实施例中,描述了可以促进一个或多个统计集的更新(诸如训练)的设备、系统、计算机实现的方法、装置和/或计算机程序产品。
根据实施例,系统可以包括存储计算机可执行组件的存储器和执行存储在存储器中的计算机可执行组件的处理器。计算机可执行组件可包括经由多任务训练接收自动讲话识别信息的递归神经网络换能器(RNN-T)。RNN-T可包括编码器,其中编码器的一个或多个输出可与RNN-T的联合网络集成。进一步,编码器的所述一个或一个以上输出可与话音活动检测(VAD)模型的所述一个或一个以上输出集成。
根据另一实施例,一种计算机实现的方法可以包括由可操作地耦合到处理器的系统接收自动讲话识别(ASR)信息。计算机实现的方法还可包括由处理器使用ASR信息来多任务训练RNN-T。计算机实现的方法可由处理器将RNN-T的编码器与RNN-T的联合网络和/或VAD模型的一个或多个输出集成,以改善噪声鲁棒性。
根据又一实施例,一种用于使用VAD模型来训练RNN-T的计算机程序产品可包括计算机可读储存媒体,所述计算机可读储存媒体具有以其体现的程序指令,可由处理器执行的程序指令可致使处理器通过处理器接收ASR信息。程序产品可使处理器使用ASR信息来多任务训练RNN-T和/或将RNN-T的编码器与RNN-T的联合网络和VAD模型的一个或多个输出集成。
附图说明
图1示出了根据本文描述的一个或多个实施方式的可促进将VAD信息整合到ASR中的示例性、非限制性系统的框图。
图2A示出了根据本文描述的一个或多个实施方式的可以促进将VAD信息集成到ASR中的示例性、非限制性系统的框图。
图2B示出了根据本文描述的一个或多个实施例的可促进将VAD信息集成到ASR中的另一示例非限制性系统的框图。
图3A示出了根据本文描述的一个或多个实施例的可促进将VAD信息集成到ASR中的另一示例非限制性系统的框图。
图3B示出了根据本文描述的一个或多个实施例的可促进将VAD信息集成到ASR中的另一示例非限制性系统的框图。
图3C示出了根据本文描述的一个或多个实施例的可促进将VAD信息集成到ASR中的另一示例非限制性系统的框图。
图3D示出了根据本文描述的一个或多个实施例的可促进将VAD信息集成到ASR中的另一示例非限制性系统的框图。
图4示出了根据本文所述的一个或多个实施例的作为RNN-T和/或VAD模型的输入的示例非限制性系统的各种讲话信号图。
图5A示出了根据本文描述的一个或多个实施方式的可促进VAD信息与RNN-T整合的示例非限制性系统的流程图。
图5B示出了根据本文描述的一个或多个实施例的可促进将VAD信息与RNN-T整合的示例非限制性系统的流程图。
图6示出了根据本文所述的一个或多个实施方式的促进将VAD信息集成到ASR中的示例性、非限制性计算机实现的方法的流程图。
图7示出了根据本文中描述的一个或多个实施方式的表,该表示出了促进将VAD信息整合到ASR中的示例性、非限制性计算机实现的方法的实验结果。
图8A示出了多个表,其示出了根据本文描述的一个或多个实施例的促进将VAD信息集成到ASR中的示例性、非限制性计算机实现的方法的实验结果。
图8B示出了示出了多个表,其示出了根据本文描述的一个或多个实施例的促进将VAD信息集成到ASR中的示例性、非限制性计算机实现的方法的实验结果。
图8C示出了多个表,其示出了根据本文描述的一个或多个实施例的促进将VAD信息集成到ASR中的示例性、非限制性计算机实现的方法的实验结果。
图8D示出了多个表,其示出了根据本文描述的一个或多个实施例的促进将VAD信息集成到ASR中的示例性、非限制性计算机实现的方法的实验结果。
图9示出了可以促进本文所述的一个或多个实施例的示例非限制性操作环境的框图。
图10示出了根据本文描述的一个或多个实施例的示例、非限制性云计算环境的框图。
图11示出了根据本文描述的一个或多个实施例的多个示例、非限制性抽象模型层的框图。
具体实施方式
以下详细说明仅是说明性的并且不旨在限制实施例和/或实施例的应用或使用。此外,不打算被在先前背景或概述部分或本具体实施方式部分中呈现的任何明示或暗示的信息所束缚。
参考自动讲话识别(ASR)系统,将了解,ASR系统可与话音活动检测(VAD)系统一起部署以在有话音声学信号上运行ASR。ASR系统可通过在推断期间从输入音频信号移除不必要的非讲话部分来维持ASR性能;然而,如果VAD系统未能正确地将讲话与非讲话片段分离,那么错误可传播。ASR系统通常使用分段讲话话语来构造。因此,当VAD分割(VAD-segmented)的话语包含长的非讲话部分和/或由非讲话组成时,可能发生意外错误。VAD系统更可能在噪声环境中和/或在未知声学域中失效,这更显著地触发ASR中的插入错误。
进一步,参考ASR系统,将了解,ASR系统已广泛用于人机通信中。具有端到端神经网络架构的最近的ASR系统已经以比常规混合ASR系统更少的开发成本显著地执行。在众所周知的神经ASR系统中,递归神经网络换能器(RNN-T)由于比在其他架构上设计的系统更低的计算成本而被广泛使用,具有竞争性性能和用于在线讲话识别的能力。ASR可与VAD系统配对,VAD系统通过在ASR的解码过程开始之前移除非讲话部分而从输入音频信号提取实际讲话部分。最近,可实施基于神经网络的VAD以在不同噪声条件下俘获讲话的独特性质。通过将多任务学习方法与特征集成架构组合,与在由讲话和长非讲话段组成的混合数据上简单训练的系统相比,系统可以在非常低的信噪比(SNR)条件下产生高达10%的相对改善。
VAD模型在说话者在不同时间和地点说话的现实情况下支持讲话识别过程;然而,如果VAD未能分割输入音频中的讲话和非讲话片段,那么可发生严重识别错误。例如,如果VAD系统确定非讲话音频段为讲话,则ASR尝试从空讲话输入输出文本。ASR系统通常用良好分段的讲话数据来训练(例如,数据可包括实际讲话片段之前和/或之后的短的静默区域,和/或可预先从训练数据中移除长的静默区域),从而导致讲话检测和/或确定错误。因此,在VAD执行不准确的噪声条件下,ASR准确性可能恶化。
集成端到端ASR和VAD以改善讲话分割和识别性能的先前实例主要集中在干净条件下的未分段长音频中的ASR。这些实例包括:a)具有VAD任务的基于连接机制时间分类(CTC)的ASR,其中讲话可通过假设来自CTC soft-max输出的空白标记作为讲话边界而被分段;b)用于ASR和VAD的多任务学习框架,其中,ASR和VAD共享从原始波形输入(例如,经由ASR和VAD标准进一步优化)提取潜在表示的公共层;和/或c)音频-视觉ASR与VAD之间的多任务学习用于有噪声的讲话输入以利用视觉信息。
至少部分地解决这些问题,在训练基于RNN-T的ASR中明确地利用VAD信息可在噪声条件下改进讲话识别的稳健性。改善VAD的准确性是减少噪声条件中的讲话分割失败引起的ASR弱点的常用方法。
考虑到这些问题,本文描述的一个或多个实施例可以被实现为以可以促进以下过程的系统、计算机实现的方法、和/或计算机程序产品的形式产生对这些问题中的一个或多个的解决方案:a)由处理器接收自动讲话识别(ASR)信息;b)由所述处理器使用所述ASR信息对所述RNN-T进行多任务训练;和/或c)由所述处理器将所述RNN-T的编码器与所述RNN-T的联合网络以及VAD模型的一个或多个输出集成,以提高噪声条件下的讲话识别的鲁棒性。即,本文描述的实施例包括可以促进前述过程中的一个或多个的一个或多个系统、计算机实现的方法、装置和/或计算机程序产品。
进一步,改进VAD的准确性已成为改进ASR的稳健性的常用方法。然而,本文所描述的一个或多个实施例改善了针对VAD错误的ASR鲁棒性。即,本文中所描述的实施例包含可经由特征级集成和/或多任务学习将VAD信息集成到ASR中的一或多个系统、计算机实施的方法、设备和/或计算机程序产品。
以前,已经提出了RNN-T中的多任务学习,其中关键词定位和语言建模作为罕见词语识别的子任务。为了改进有噪声的ASR性能,多任务学习在预测由基于卷积神经网络(CNN)的VAD系统使用光谱时间生成的帧级讲话/非讲话标记时联合地最小化ASR RNN-T损失和VAD误差。
另外,经由知识蒸馏方法,可将多任务学习框架中的未转录音频数据用作VAD分量的辅助训练数据。通常,为覆盖大量讲话域的ASR训练准备转录的数据是非常昂贵的;因此,用于ASR的训练数据量通常是有限的。进一步,在实施例中,使用不同环境域的数据训练的VAD系统可在不同声学条件下良好地执行。VAD模型含有表示可用于改进ASR模型的稳健性的周围声学环境的信息(例如,表示周围声学环境以区分讲话与非讲话的信息)。在本文所描述的一个或多个实施例中,系统可将包含在经良好训练的VAD模型中的丰富的声学环境知识提取到ASR网络中,而无需使用额外转录的数据来改进ASR稳健性,例如,具有长沉默部分的英语电话会话的实验结果指示通过使用辅助VAD训练数据,系统改进新声学域中的ASR噪声稳健性。
现在参考附图描述一个或多个实施例,其中相同的附图标记在全文中用于指代相同的元件。在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对一个或多个实施例的更透彻理解。然而,在不同情况下显而易见的是,可以在没有这些具体细节的情况下实践一个或多个实施例。
图1示出了包括RNN-T的示例非限制性系统100的框图,该RNN-T包括联合网络组件106、编码器组件108和/或预测器组件110。VAD集成系统100可将RNN-T 102的编码器组件108(例如,ASR RNN-T)与RNN-T 102的联合网络106以及VAD模型104的一个或多个输出集成,以改进对噪声的稳健性。为了简洁起见,省略对在此描述的其他实施例中采用的相似元件的重复描述。本发明的各个实施例中的系统(例如,VAD集成系统100等)、设备或过程的方面可构成体现于一个或一个以上机器内(例如,体现于与一个或一个以上机器相关联的一个或一个以上计算机可读媒体(或媒体)中)的一个或一个以上机器可执行组件。这样的组件在由一个或多个机器(例如,计算机、计算设备、虚拟机、其组合和/或类似物)执行时可使得机器执行所描述的操作。
现在具体地转向一个或多个附图,并且首先转向图1,该图示出了根据本文描述的一个或多个实施例的促进由处理器124接收自动讲话识别(ASR)信息的示例非限制性系统100的框图。VAD集成系统100可包括可与云计算环境1000(图10)相关联的递归神经网络换能器(RNN-T)102和/或话音活动检测(VAD)模型104。例如但不限于,RNN-T102可以是被配置用于自动讲话识别的RNN-T 102。RNN-T可进一步包括与联合网络组件106(例如,联合网络)连接的预测器组件110。VAD集成系统100可包括一个或多个RNN-T 102、一个或多个VAD模型104、一个或多个网络130、一个或多个输入设备132和/或一个或多个计算机应用134。RNN-T102和/或VAD模型104可与VAD集成系统100所包括的一个或多个机器连接。如在此所使用的,该一个或多个机器可以包括以下各项中的一项或多项:计算设备、通用计算机、专用计算机、量子计算设备(例如,量子计算机)、平板计算设备、手持式设备、服务器类计算机器和/或数据库、膝上型计算机、笔记本计算机、台式计算机、蜂窝电话、智能电话、消费电器和/或仪器、工业和/或商业设备、数字助理、启用多媒体互联网的电话和/或另一种类型的设备。
在一些示例中,VAD集成系统100可与以下参见图10描述的云计算环境1000和/或与以下参见图11描述的一个或多个功能抽象层(例如,硬件和软件层1160、虚拟化层1170、管理层1180和/或工作负载层1190)相关联。
VAD集成系统100和/或其组件(例如,RNN-T 102和/或VAD模型104)可采用下文参见图10和/或参考下文参见图11描述的一个或多个功能抽象层(例如,量子软件和/或类似物)所描述的云计算环境的一个或多个计算资源来执行根据本文描述的一个或多个实施例的一个或多个操作。例如,云计算环境和/或功能抽象层1160、1170、1180和/或1190中的一个或多个可以包括一个或多个经典的计算装置(例如,经典的计算机、经典的处理器、虚拟机、服务器和/或类似物)、量子硬件和/或量子软件(例如,量子计算装置、量子计算机、量子处理器、量子电路模拟软件、超导电路和/或类似物),它们可以被该系统和/或其部件用来根据在此所描述的一个或多个实施例来执行一个或多个操作。例如,系统和/或其组件可以采用一个或多个经典和/或量子计算资源来执行一个或多个经典和/或量子:数学函数、计算和/或等式;计算和/或处理脚本;算法;模型(例如.人工智能(AI)模型、机器学习(ML)模型和/或类似模型;和/或根据本文中所描述的一个或多个实施例的另一操作。
应当理解,虽然本文描述的一个或多个实施例包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本文所述的一个或多个实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可单方面根据需要自动提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供商进行人为交互。
广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池:供应商的计算资源被池化以使用多租户模型服务于多个消费者,其中根据需求动态地分配和重新分配不同的物理和虚拟资源。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或知识,但是能够以更高的抽象级别(例如,国家、州或数据中心)指定位置。
快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或个别应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和/或其他基本计算资源,其中消费者可以部署和运行任意软件,其可以包括操作系统和应用程序。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、部署的应用的控制和/或对所选联网组件(例如,主机防火墙)的可能受限的控制。
部署模型如下:
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础架构由若干组织共享并且支持共享了关注(例如,任务、安全要求、策略和/或合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块性和/或语义互操作性。云计算的核心是包括互连节点网络的基础设施。
此外,VAD集成系统100可与数据分析系统、数据处理系统、图分析系统、图处理系统相关联或被包括在其中,大数据系统、社交网络系统、讲话识别系统、图像识别系统、图形建模系统、生物信息学系统、数据压缩系统、人工智能系统,认证系统、句法模式识别系统、医疗系统、健康监测系统、网络系统、计算机网络系统、通信系统、路由器系统、服务器系统,高可用性服务器系统(例如,电信服务器系统)、Web服务器系统、文件服务器系统、数据服务器系统、磁盘阵列系统、电源插板系统,基于云的系统等。据此,VAD集成系统100可用于使用硬件和/或软件来解决本质上高度技术、不抽象和/或不能由人类作为一组精神行为来执行的问题。
现转向VAD集成系统100的各方面,系统100可包括一个或多个RNN-T 102、一个或多个VAD模型104、一个或多个系统总线120、一个或多个内存/存储器组件122、一个或多个处理器124、一个或多个网络130、一个或多个输入设备132和/或一个或多个计算机应用134。
应当理解,本文公开的各个附图中描绘的实施例仅用于说明,并且因此,实施例的架构不限于其中描绘的系统、设备和/或部件,也不限于其中描绘的系统、设备和/或部件的任何特定顺序、连接和/或耦接。例如,在一些实施例中,VAD集成系统100可进一步包括本文参考操作环境900和图9所描述的各种计算机和/或基于计算的元件。在若干实施例中,计算机和/或基于计算的元件可以结合实现结合图1或与在此披露的其他附图示出和描述的系统、装置、组件和/或计算机实现的操作中的一个或多个来使用。
存储器122可以存储一个或多个计算机和/或机器可读、可写和/或可执行组件和/或指令,这些组件和/或指令在由处理器124(例如,经典处理器、量子处理器和/或类似处理器)执行时可以促进由这个或这些可执行组件和/或指令定义的操作的执行。例如,存储器122可存储计算机和/或机器可读、可写和/或可执行组件和/或指令,这些组件和/或指令在由处理器124执行时可促成本文所描述的与RNN-T 102、VAD模型104、和/或与VAD集成系统100相关联的另一组件相关的不同功能的执行,如本文参考或不参考一个或多个实施例的各个附图所描述的。
存储器122可包括可采用一个或多个存储器架构的易失性存储器(例如,随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)等)和/或非易失性存储器(例如,只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)等)。下面参考系统存储器906和图9描述存储器122的其他示例。存储器122的这些示例可用于实现本文所述的任何一个或多个实施例。
处理器124可以包括一种或多种类型的处理器和/或电子电路(例如,经典处理器、量子处理器和/或类似处理器),这些电路可以实施可以存储在存储器122处的一个或多个计算机和/或机器可读、可写和/或可执行组件和/或指令。例如,处理器124可执行可由计算机和/或机器可读、可写和/或可执行组件和/或指令指定的不同操作,包括但不限于逻辑、控制、输入/输出(I/O)、算术等。在一些实施例中,处理器124可以包括一个或多个中央处理单元、多核处理器、微处理器、双微处理器、微控制器、片上系统(SOC)、阵列处理器、矢量处理器、量子处理器和/或另一种类型的处理器。以下参考处理单元904和图9描述处理器124的附加示例。处理器124的示例可用于实现本文描述的任何一个或多个实施例。
如本文中所描述的VAD集成系统100、RNN-T 102、VAD模型104、联合网络部件106、编码器部件108、预测部件110、处理器124和/或系统100的另一部件、存储器122可以经由总线120彼此通信地、电地、操作地和/或光学地耦合,以执行系统100和/或与其耦合的任何部件的功能。总线120可以包括一个或多个存储器总线、存储器控制器、外围总线、外部总线、局部总线、量子总线和/或可以采用不同总线架构的另一类型的总线。
下面参考系统总线908和图9描述总线120的其他示例。可以采用总线120的示例来实现在此描述的任何一个或多个实施例。
VAD集成系统100可包括任何类型的部件、机器、设备、设施、设备和/或仪器,其包括处理器和/或可能够与有线和/或无线网络有效和/或操作地通信。设想了所有合适的这种实施例。例如,VAD集成系统100可包括服务器装置、计算装置、通用计算机、专用计算机、量子计算装置(例如,量子计算机)、平板计算装置、手持式装置、服务器类计算机器和/或数据库、膝上型计算机、笔记本计算机、台式计算机、蜂窝电话、智能电话、消费电器和/或仪器、工业和/或商业装置、数字助理、多媒体互联网启用电话、多媒体播放器和/或另一类型的装置。
VAD集成系统100可经由数据缆线(例如,高清晰度多媒体接口(HDMI)、推荐标准(RS)232、以太网缆线和/或类似物)耦合(例如,通信、电、操作、光学和/或类似物)到一个或一个以上外部系统、源和/或装置(例如,经典和/或量子计算装置、通信装置和/或类似物)。在一些实施例中,VAD集成系统100可经由网络耦合(例如,通信、电、操作、光学和/或类似物)到一个或一个以上外部系统、源和/或装置(例如,经典和/或量子计算装置、通信装置和/或类似物)。
在一些实施例中,网络可以包括一个或多个有线和/或无线网络,包括但不限于蜂窝网络、广域网(WAN)(例如,互联网)或局域网(LAN)。例如,VAD集成系统100、RNN-T 102和/或VAD模型104可与例如一个或多个外部系统、源和/或设备通信,使用几乎任何期望的有线或无线技术的计算设备(反之亦然),包括但不限于:无线保真(Wi-Fi)、全球移动通信系统(GSM)、通用移动电信系统(UMTS);全球微波互联接入(WiMAX)、增强型通用分组无线电业务(增强型GPRS)、第三代合作伙伴计划(3GPP)长期演进(LTE)、第三代合作伙伴计划2(3GPP2)超移动宽带(UMB),高速分组接入(HSPA)、Zigbee和其他802.XX无线技术和/或传统电信技术、会话发起协议(SIP)、/>RF4CE协议、无线HART协议、6LoWPAN(低功率无线区域网络上的IPv6),Z-Wave、ANT、超宽带(UWB)标准协议和/或其他专有和/或非专有通信协议。在相关实例中,VAD集成系统100可包含促进在VAD集成系统100与外部系统、源和/或装置(例如,计算装置、通信装置等)之间传递信息的硬件(例如,中央处理单元(CPU)、收发器、解码器、量子硬件、量子处理器和/或类似物)、软件(例如,线程集合、过程集合、执行中的软件、量子脉冲调度、量子电路、量子门和/或类似物)和/或硬件与软件的组合。
VAD集成系统100可包括一个或多个计算机和/或机器可读、可写和/或可执行组件和/或指令,这些组件和/或指令在由处理器124(例如,经典处理器、量子处理器和/或类似物)执行时可促进由这样的组件和/或指令定义的一个或多个操作的执行。进一步,在许多实施例中,如本文参考或不参考一或多个实施例的不同附图所描述,与VAD集成系统100相关联的任何组件可包括一个或多个计算机和/或机器可读、可写和/或可执行组件和/或指令,所述组件和/或指令在由处理器124执行时可促进由这样的组件和/或指令界定的一或多个操作的执行。例如,联合网络组件106(例如,到联合网络的连接和/或RNN-T的网络连接层)、编码器组件108(例如,RNN-T的网络连接层),至RNN-T的编码器网络和/或编码器连接层的连接)、预测器组件110(例如,至RNN-T的预测器网络和/或预测器层的连接),和/或与如本文所揭示的VAD集成系统100相关联的任何其他组件(例如,与系统100通信、电子、操作地和/或光学耦合和/或由系统100采用),可以包括这种计算机和/或机器可读、可写和/或可执行组件和/或指令。因此,根据众多实施例,如本文所公开的VAD集成系统100和/或与其相关联的任何组件可采用处理器124来执行此类计算机和/或机器可读、可写和/或可执行组件和/或指令,以促进执行本文中参考系统100和/或与其相关联的任何此类组件所描述的一个或多个操作。
如本文所揭示,VAD集成系统100可促进(例如,经由处理器124)由RNN-T102、VAD模型104、联合网络部件106、编码器部件108、预测部件110和/或与系统100相关联的另一部件执行和/或与其相关联的操作的执行。例如,如下文详细描述,VAD集成系统100可经由处理器124(例如,经典处理器、量子处理器和/或类似物)促进:接收自动讲话识别(ASR)信息;使用ASR信息来多任务训练RNN-T 102;和/或将RNN-T 102的编码器组件108与RNN-T 102的联合网络组件106和/或VAD模型104的一个或多个输出集成,以改进对噪声的稳健性。如将从下文显而易见的,一个或多个系统可被用于向RNN-T 102传送基于VAD的知识。例如但不限于,VAD集成系统100可用于通过特征集成和/或多任务训练来提高噪声鲁棒性。
现在转向图1所说明的额外方面,例如图1所说明的VAD集成系统100的组件,将描述系统的进一步功能性。下面将参照图2A、图2B以及图3A至图3D的示例性实施方式进一步描述功能的额外描述,其中,为了简洁起见,省去相应实施方式中采用的相似元件和/或过程的重复描述。
在实施例中,诸如在图2A和图2B中一般地示出的,VAD集成系统100可包括讲话帧输入序列400(参见,例如,图4)的特征集成(例如,特征提取)。VAD集成系统100可包含多种连接方式/定向中的一者或一者以上中的特征集成。VAD集成系统100可包括集成在编码器前位置(参见,例如,图2A)和/或编码器后位置(参见,例如,图2B)的VAD模型204。进一步,RNN-T 202可包括联合网络组件206(例如,到联合网络的连接)、编码器组件208(例如,到编码器网络的连接)和/或预测器组件210(例如,到预测器网络的连接)。给定长度T序列x=(x1,...,xT)的讲话特征输入序列,RNN-T 202通过对输入和输出的条件分布p(y|x)建模来输出长度U的文本令牌序列y=(y1,...,yU)。在实施例中,特征集成可通过将从单独训练的VAD模型生成的话音活动类概率与ASR特征串联而发生。VAD模型204可从具有相同长度的讲话帧序列x预测长度为T的话音活动类v=(v1,...,vT)的序列。VAD集成系统100可串联VAD输出概率p(v|x)与对应讲话帧的ASR特征之间的特征。
如图2A中所示,该系统可包括具有通过预编码器位置处的级联的VAD特征整合的单任务ASR。例如但不限于,VAD模型204可在编码器部件208之前连接并且因此可馈送到编码器部件208中。VAD集成系统100可在编码器组件208之前将VAD输出概率p(v|x)与RNN-Tx的输入特征串接,如以下等式1所表示的,其中xc是串接之后的编码器输入特征。
等式1:xc=((x1,p(v1|x)),...,(xT,p(vT|x))
如图2B所示,VAD集成系统100可包括单任务ASR,通过后编码器位置处的连接,具有VAD特征集成。例如但不限于,VAD模型204可在编码器部件208之后被连接,使得来自VAD模型204的VAD信息和编码器部件208的输出可被连接并发送到联合网络206。特征级集成可发生在VAD输出概率p(v|x)与RNN-T编码器输出h=(h1,...,hT)之间,如下文等式2及3所表示,其中hc是将被传递到联合网络的经积分特征。
等式2:h=Encoder(x)
等式3:hc=((h1,p(v1|x)),...,(hT,p(vT|x))
现在转到如图3A、3B、3C和/或3D所说明的系统的各方面,VAD集成系统100可多任务训练RNN-T 302和/或VAD模型304以改善ASR稳健性。在本文一般描述的实施例中,VAD集成系统100可通过ASR信息(例如,ASR准则)训练RNN-T 302作为主任务,和/或系统100可训练VAD模型304作为子任务。例如但不限于,VAD集成系统100可同时和/或可选地训练RNN-T302和VAD模型304。进一步,在各种实施例中的一个或多个(例如,图3A、3B、3C和3D)中,用于ASR处理的RNN-T的编码器层可与用于VAD处理(例如,作为子任务)的编码器层共享。
在一些实施方式中,如图3A中一般地示出的,VAD集成系统100可包括用于实现多任务训练的预编码器共享架构(例如,MTL 1)。由此,附加网络可在编码器组件308之前被附加到RNN-T 302以供在编码器组件308处发生操作和/或过程。RNN-T 302包括联合网络组件306、编码器组件308和/或预测器组件310。VAD集成系统100可产生代表将被传递到编码器组件308的ASR信息和VAD模型304的输入。在实施例中,VAD集成系统100包括共享网络,该共享网络由具有双曲线正切函数的全连接神经网络312(例如,FC)层的堆栈组成。VAD模型304可作为子任务来操作,和/或VAD模型304可由卷积神经网络(CNN)组成。
此外,在其他实施方式中,诸如图3B中一般地示出的,VAD集成系统100可包括用于实现多任务训练的部分编码器共享架构(例如,MTL 2)。由此,RNN-T 302(例如,ASR RNN-T)和VAD模型304从底层(例如,VAD集成系统100的物理连接层,由此VAD模型304和RNN-T 302可物理地连接到RNN-T 302的编码器组件308,和/或可利用编码器组件308针对ASR RNN-T302功能和VAD模型304功能两者所采用的过程)共享RNN-T 302的至少一部分。RNN-T 302可包括联合网络组件306、编码器组件308和/或预测器组件310(例如,与VAD模型304共享的RNN-T的编码器层)。VAD模型304(例如,VAD分支)之后是预测输入(例如,讲话帧输入序列)的VAD类的全连接层的堆栈。编码器组件308可包括一个或多个长短期存储器(LSTM)组件/处理器314、316以实现处理RNN-T 302和VAD模型304的多任务。
在一些实施方式中,诸如在图3C中一般地示出的,VAD集成系统100可包括用于实现多任务学习的全编码器共享架构(例如,MTL3)。由此,ASR和VAD模型304可使用RNN-T 302中的所有编码器层作为共享网络。RNN-T 302可包含联合网络部件306、预测部件310和/或编码器部件320(例如,其可与VAD模型完全共享以用于多任务学习)。
此外,在其他实施方式中,诸如在图3D中总体示出的,VAD集成系统100可包括与特征集成架构(例如,MTL4)共享的全编码器以实现多任务训练。由此,VAD软输出可使用全连接层322(例如,与RNN-T 302外部的VAD模型304连接)被投影到具有与RNN-T编码器输出相同的维度的向量中。根据图3D的实施例,可使用编码器组件320层作为VAD模型304和RNN-T302的共享层来训练整个网络(例如,VAD集成系统100)。该系统可经由逐元素求和运算将VAD软输出与RNN-T编码器输出合并。
应理解,VAD集成系统100可使用独立于和/或结合图1-3D的系统架构的辅助VAD数据来训练。在实施例中,VAD集成系统100可利用辅助未转录的仅音频数据(例如辅助VAD数据)用于优化与VAD任务有关的网络以改进ASR性能。VAD集成系统100可通过一个或多个训练动作/过程来利用辅助VAD数据。
首先来看非组件(non-component aspect)方面,VAD集成系统100具有与其(例如,音频输入信号和/或流)相关联的讲话帧输入序列400。讲话帧输入序列400可包括多种讲话信号模式中的一种或多种,诸如图4中大体示出的。例如但不限于,讲话帧输入序列400可包括:仅讲话段402、仅非讲话段404和/或多种讲话和非讲话段406。VAD模型104所接收的讲话帧输入序列400可包含输入音频(例如,408)的两端上的短非讲话片段。在典型的噪声条件下,VAD模型104可易于产生讲话帧输入序列的实际讲话片段的预测误差。进一步,为了改进系统的噪声稳健性,VAD信息可并入到基于RNN-T 102的ASR训练中。VAD信息可通过特征级集成和/或多任务学习集成到ASR中。
在实施例中,VAD集成系统100可使用讲话和非讲话片段主动地训练ASR和VAD模型104。例如但不限于,可通过在讲话段的每一侧之前和/或之后人为添加非讲话段来增强仅讲话训练数据。VAD集成系统100不仅可利用增强训练数据,而且可利用仅讲话片段402和仅非讲话片段404(例如,空格)。进一步,VAD集成系统100可处理多种上下文中的一者或一者以上的讲话+非讲话。例如但不限于,VAD集成系统100可处理讲话帧输入序列400上的前沉默406、双侧沉默408、后沉默410和/或中间沉默412。
接下来参看图5A和5B,这些图一起说明根据本文中所描述的一或多个实施例的可促进RNN-T 302和VAD模型304的多任务训练的实例、非限制性计算机实施的方法500的流程图。进一步,在诸如图5A和5B中总体解说的实施例中,多任务训练RNN-T 302和VAD模型304的方法可包括由处理器接收自动讲话识别信息(502)。该方法还可包括由处理器使用ASR信息来训练RNN-T 302(504)。进一步,在实施例中,该方法可包括由处理器将RNN-T 302的编码器组件308与RNN-T 302的联合网络组件306以及VAD模型304的一个或多个输出集成,以改善对噪声的稳健性(506)。
现在转向图5B,更详细地示出了将RNN-T 302的编码器组件308与VAD模型304集成(506)的动作。在508,计算机实现的方法可包括将VAD模型304作为操作RNN-T 302的子任务来操作。进一步,计算机实现的方法可包括经由编码器组件将RNN-T 302的一个或多个输入分类为与预训练的VAD模型304相关的一个或多个话音活动类别(510)。
在512处,计算机实现的方法500可包括通过处理器将编码器组件308的一个或多个输出集成到与VAD模型304的一个或多个输出相同的维度中。进一步,在实施例中,计算机实现的方法500可包括在514在编码器308的一个或多个输出与VAD模型304的一个或多个输出之间应用逐元素和运算。
接下来参照图6,计算机实现的方法500可进一步包括使用辅助VAD数据的多任务训练。根据一个或多个实施例,可通过冻结系统的一个或一个以上参数(例如,利用辅助VAD数据,如过程600中所示)来进一步改善/优化ASR性能。在602处,计算机实施的方法600可包括针对ASR任务优化RNN-T 302。RNN-T 302可通过仅冻结VAD参数并使用转录的数据来优化。进一步,VAD集成系统100可通过冻结VAD模型304的参数来针对ASR特定任务进行训练。反向传播的损耗计算可由下面的等式4表示。
等式4:Loss=LossASR
在604处,计算机实施的方法600可包括通过冷冻ASR参数和共享层(例如,RNN-T302与VAD模型304之间)并且使用转录的和辅助的未转录的数据来优化VAD模型304。在实施例中,冻结ASR参数可以包括冻结联合网络组件306、编码器组件308和/或预测器组件310。反向传播的损耗计算可由下面的等式5表示。
等式5:Loss=LossVAD
在606处,计算机实施的方法600可包括联合优化ASR(例如,ASR RNN-T302)和VAD模型304。例如但不限于,计算机实现的方法600可包括更新VAD模型304和共享层参数(例如,更新VAD模型304和/或编码器组件308),以优化VAD集成系统100。对于计算机实现的方法600的每个训练时期而言,VAD集成系统100可使用VAD特定数据进行优化和/或系统100可使用ASR-VAD联合优化进行优化。在实施例中,VAD集成系统100可仅针对ASR任务进行优化(例如,冻结VAD参数),作为响应,VAD集成系统100可仅针对VAD优化进行优化(例如,冻结ASR参数),和/或作为进一步响应,VAD集成系统100可联合地优化ASR和VAD模型304。系统100可使用具有加权损失的未转录的VAD训练数据来更新VAD模型304和共享层参数。加权损失计算可以由下面的等式6来表示,其中β是用于联合优化的VAD任务损失权重的超参数。
等式6:Loss=β·LossVAD
在实施例中,更新ASR和VAD参数可包括更新VAD模型304、联合网络组件306、编码器组件308和/或预测器组件310的参数。进一步,在实施例中,ASR和VAD参数可以使用共享的转录数据和联合加权损失来更新,如以下等式7所示,其中α是ASR任务损失权重的超参数。
等式7:Loss=α·LossASR+β·LossVAD
借助实施例,系统可利用从经单独良好训练的VAD模型产生的伪标记。此伪标记的过程可被视为从VAD到ASR的知识蒸馏。知识蒸馏是一种可被实现以用简单的学生网络模仿复杂的教师网络的技术。分开的VAD模型(例如,教师VAD模型)可用大量训练数据来训练以生成学生VAD模型的更好伪软标记,其中学生是连接到RNN-TASR网络的子任务VAD网络。可以通过从训练材料中的声学特征x获得的伪VAD标记来执行蒸馏。蒸馏技术可由以下等式8表示,其中/>是由教师VAD后预测的VAD类。给定X,V可随后在多任务框架中用作学生VAD的目标标记。
等式8:
现在转向图7和8中提供的结果,四个表700、800、802和/或804示出了一个或多个各种实验的结果。在第一实验中,可以使用包括来自电话对话的大约300小时的多讲话者美式英语讲话的切换板(SWB)语料库。可以通过在训练材料中包括长于2秒的非讲话片段(例如,通常在共同的训练设置中丢弃这种片段)来增强数据。除了SWB数据的标准267小时之外,扩充产生大约88小时的仅非讲话的数据和大约599小时的与讲话段和非讲话段混合的讲话的数据。
在第二个实验中,可制备在图6的多任务学习框架中的具有VAD标准的更新的辅助VAD训练数据。数据包括大约200小时的英语呼叫中心(CC)会话以及200小时的非讲话而没有可用的转录。在该数据集中,环境噪声被添加到用于模型训练的训练集。所得的平均讲话噪声比(SNR)为14dB。
在实施例中,例如至少部分地在图3B中体现,RNN-T可包括6个双向长短期存储器(Bi-LSTM)编码器层(每层每方向640个单元)和单个单向LSTM预测层(仅具有1024个单元)。联合网络可以将来自最后一层的1280维堆叠的编码器向量和1024维预测网络嵌入投影到256维和/或组合投影的向量。在应用双曲线正切之后,输出被投影到42个logits,随后是对应于41个字符的softmax层。40维扬声器独立log-Mel滤波器组特征可以每10ms被提取作为ASR特征。在言语水平均值和全局方差归一化之后,这些特征可以用增量和双增量系数来增强。独立的基于CNN的VAD可产生帧级VAD标记,其可经由特征集成和/或多任务学习系统来利用。
进一步,在实施方式中,在将讲话帧分类为讲话、非讲话和音乐类时,经隔离VAD模型可包括四个卷积层,其中输入信道3、16、32和2分别从第一层到最后一层和/或输出类维度为3。经隔离VAD可(例如,在实验中)在由不同ASR域(包含自发和读取讲话两者)组成的超过2000小时英语讲话数据上训练。另一方面,VAD组件是MTL2、MTL3和MTL4(由FC层的三个堆栈组成)的子任务。在MTL2中,前三个编码器层可在ASR与VAD任务之间共享。ASR的学习速率包括值2e-4,并且多任务学习框架中的VAD的学习速率包括值2e-5。两个系统可以通过使用具有64的批大小的随机梯度下降(SGD)来优化。
进一步地,如图7所示,使用仅讲话片段以及与模拟VAD预测误差的非讲话片段相结合的那些片段进行实验。这些实验的结果在表700和702中示出,其中ASR字错误率缩写为WER%,并且帧级VAD相等的错误率缩写为EER%。在通过人工添加在讲话之前、在讲话之后或在两个讲话片段之间的非讲话片段的不同长度而创建的修改的SWB和呼叫家庭(Callhome)(CH)测试集合上评估基线和所提议的系统。添加到每个测试发言的非讲话片段平均为5.5秒。真实环境噪音也被加到这些测试集中。此外,还进行了仅讲话和仅噪声(非讲话)测试。
表700和800中的实验结果显示,标记为用原始SWB训练语料库训练的“无增强(aug)”的标准RNN-T在手动分割的理想仅讲话输入条件下表现良好,但是在讲话与长非讲话部分组合的更现实的情况下,性能急剧下降。在这种情况下,通过“标准RNN-T(无增强)”解码的文本在非讲话部分上包含许多意外的插入错误。相反,向训练数据集(“标准RNN-T(增强)”)添加非讲话分段可以显著地减少那些错误的数量,这也可以在表格800中看到。
在不同测试条件中,编码器后特征集成比编码器前特征集成表现得更好(参见例如表700)。尽管通过在“讲话+非讲话”和“仅讲话”输入情况下的编码器后集成的WER类似于“标准RNN-T(8月)”,该技术显著减少了仅非讲话的测试情况下的插入误差,如800中所示。
接下来,转向多任务学习,实验结果也列表在700和800中。当不利用VAD辅助数据时,MTL4(β=0.01)在“讲话+非讲话”测试情况中提供最大改善。通过在MTL2、MTL3和MTL4中使用辅助VAD训练数据(VAD辅助数据)来获得进一步的改进。与没有辅助VAD数据的模型相比,模型和/或非限制性实施方式不仅改善了“讲话+非讲话”而且改善了“仅讲话”测试情况的WER。“MTL 4+VAD辅助数据”表明最佳性能在“讲话+非讲话”测试情况中分别与没有和具有数据增强的标准RNN-T相比产生了21.5%和3.6%的相对改进。而且,“MTL 4+VAD辅助数据”在仅讲话测试情况下与“标准RNN-T(增强)”相比提供了4.6%的相对改进。
在实施例中,可用由单独VAD系统自动分割的音频信号(例如,所述音频信号又可用于产生VAD标签)进行实验。所述实验的结果在图8中在表802下示出。因为在低SNR的VAD结果中的不同种类的分段错误包含将讲话片段分类为噪声的分类,所以表802中的绝对WER平均大于表700中的绝对WER。然而,VAD集成系统100展示超过基线系统的一致增益。
现在转到图8的表804,其指示经由VAD子任务优化的声学定制的结果,其具有与VAD辅助数据(包含不同SNR上的WER)相同的域的额外测试数据(CC)。CC是声学域外测试集,并且因此绝对WER是高的。通过将VAD辅助数据添加到训练数据中,“MTL 4+VAD辅助数据”在每个SNR设置中产生CC和SWB/CH测试集合两者的改进。随着SNR降低,“标准RNN-T(增强)”与“MTL 4+VAD辅助数据”之间的WER差距趋于变大。
在实施例中,VAD集成系统100的进一步实验和/或性能可经由图8B、8C和/或8D来说明。VAD集成系统100可经由用于单声道记录、分离信道A或分离信道B的测试集“CH”和“内部CC”进行实验。表806包含指示VAD集成系统100对与汽车噪声声音混合的平均SNR 4dB中的经手动分段的仅讲话有噪声音频的有效性的实验结果。另外,表808(例如,图8C)包含指示VAD集成系统100对手动分段讲话和非讲话的有效性的实验结果。例如但不限于,非讲话片段可大于或等于约2秒。
现在转到图8C的表810,其指示经由SWB和CH测试集的VAD集成系统100的实验的额外结果。进一步,表812说明来自在各种SNR水平(例如,14.2dB、4.2dB和/或1.4dB的SNR水平)下手动地分割噪声讲话的实验结果。此外,实验可以由表814和/或表816示出。如图8D所示,表814示出了在各种SNR水平(例如,14dB、4.2dB和/或1.4dB的SNR水平)通过手动分割噪声讲话和非讲话所实现的实验结果。表816展示VAD集成系统在多种讲话片段处的有效性。讲话段可包括仅非讲话404、前沉默406、后沉默410和/或中间沉默412(参见例如图4)。
在无法应用ASR的无监督和半监督训练的具有声学挑战性的数据的情况下,计算机实现的方法可以显示有希望的改进,其在计算上相对便宜。表700、800、802、804、806、808、810、812、814和/或816的实验结果表明增强系统针对噪声环境的鲁棒性的能力。
为了说明的简单性,将计算机实现的方法描绘和描述为一系列动作。应该理解和认识到,本主题创新不受所展示的动作和/或动作的顺序的限制,例如动作可以按不同的顺序发生和/或同时发生,并且与在此未呈现和描述的其他动作一起发生。此外,并非所有示出的动作都是实现根据所公开的主题的计算机实现的方法所必需的。此外,本领域技术人员将理解和领会,计算机实现的方法可替代地经由状态图或事件被表示为一系列相互关联的状态。此外,还应当理解,下文和贯穿本说明书所公开的计算机实现的方法,能够被存储在制品上以便于将计算机实现的方法传输和转移到计算机。如本文中所使用的,术语制品旨在涵盖可从任何计算机可读设备或存储介质访问的计算机程序。
为了提供用于本文所描述的各种实施方式的另外的背景,图9和下面的讨论旨在提供其中可以实现本文所描述的各种实施方式的合适的操作环境900的一般描述。虽然上文已经在可以在一个或多个计算机上运行的计算机可执行指令的一般上下文中描述了实施例,但是本领域技术人员将认识到,实施例也可以结合其他程序模块和/或作为硬件和软件的组合来实现。
通常,程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外,本领域的技术人员将认识到,本发明的方法可以用其他计算机系统配置来实践,包括单处理器或多处理器计算机系统、小型计算机、大型计算机、物联网(IoT)设备、分布式计算系统、以及个人计算机、手持式计算设备、基于微处理器或可编程消费电子产品等,其中的每一个可以可操作地耦合到一个或多个相关联的设备。
本文实施例的所示实施例也可在分布式计算环境中实现,其中某些任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备两者中。
计算设备通常包括各种介质,其可以包括计算机可读存储介质、机器可读存储介质和/或通信介质,这两个术语在本文中如下彼此不同地使用。计算机可读存储介质或机器可读存储介质可以是可由计算机访问的任何可用存储介质,并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,可以结合用于存储诸如计算机可读和/或机器可读指令、程序模块、结构化数据和/或非结构化数据之类的信息的任何方法或技术来实现计算机可读存储介质和/或机器可读存储介质。
计算机可读存储媒质可以包括但不限于:随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、致密盘只读存储器(CD ROM)、数字通用盘(DVD)、蓝光盘(BD)和/或其他光盘存储、磁带盒、磁带、盘存储和/或其他磁存储设备、固态驱动器和/或其他固态存储设备、和/或可以用于存储所需信息的其他有形的和/或非瞬态媒质。就这一点而言,在此应用于存储、存储器或计算机可读介质的术语“有形的”或“非瞬态的”应理解为仅排除传播瞬态信号本身作为修饰语,并且不放弃对不仅传播瞬态信号本身的所有标准存储、存储器和/或计算机可读介质的权利。
计算机可读存储媒质可由一个或多个本地或远程计算设备访问,例如经由访问请求、查询和/或其他数据检索协议,用于相对于媒质所存储的信息的各种操作。
通信介质通常将计算机可读指令、数据结构、程序模块或其他结构化或非结构化数据具体化为诸如经调制数据信号(例如,载波或其他传输机制)之类的数据信号,并且包括任何信息递送或传输介质。术语“调制数据信号”是指以对一个或多个信号中的信息进行编码的方式设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质可包括有线介质,诸如有线网络和/或直接有线连接,和/或无线介质,诸如声学、RF、红外和/或其他无线介质。
再次参考图9,用于实施本文中描述的方面的各种实施方式的示例性操作环境900包括计算机902,计算机902包括处理单元904、系统存储器906和/或系统总线908。
系统总线908可以将包括但不限于系统存储器906的系统组件耦合到处理单元904。处理单元904可以是不同市售处理器中的任一者。双微处理器和/或其他多处理器架构可以用作处理单元904。
系统总线908可以是可使用各种市售总线架构中的任一种进一步互连到存储器总线(具有或不具有存储器控制器)、外围总线和/或局部总线的若干类型的总线结构中的任一种。系统存储器906可以包括ROM 910和/或RAM 912。基本输入/输出系统(BIOS)可以存储在诸如ROM、可擦可编程只读存储器(EPROM)和/或EEPROM的非易失性存储器中,BIOS包含诸如在启动期间帮助在计算机902内的元件之间传输信息的基本例程。
RAM912还可包括高速RAM,诸如用于高速缓存数据的静态RAM。
计算机902进一步可包括内部硬盘驱动器(HDD)914(例如,EIDE、SATA)、一个或多个外部存储装置916(例如,磁软盘驱动器(FDD)、记忆棒或闪存驱动器读取器、存储卡读取器等)和/或驱动器920(例如,固态驱动器或光盘驱动器),驱动器920可从盘922(例如,CD-ROM盘、DVD、BD等)读取或写入。可替代地,在涉及固态驱动器的情况下,除非是分开的,否则不能包括盘922。虽然内部HDD914被示为位于计算机902内,但是内部HDD 914还可被配置成在合适的机架(未示出)中外部使用。另外,虽然未在操作环境900中示出,但固态驱动器(SSD)可被用作HDD914的补充或替换。HDD 914、外部存储设备916和驱动器920可以分别通过HDD接口924、外部存储接口926和驱动器接口928连接到系统总线908。用于外部驱动器实现的HDD接口924可以包括通用串行总线(USB)和电气与电子工程师协会(IEEE)1394接口技术中的至少一个或两者。其他外部驱动器连接技术在本文描述的实施例的预期内。
驱动器及其相关联的计算机可读存储介质提供数据、数据结构、计算机可执行指令等的非易失性存储。对于计算机802,驱动器和存储介质容纳以合适的数字格式存储任何数据。尽管以上对计算机可读存储介质的描述涉及相应类型的存储设备,但本领域技术人员应当理解,可由计算机读取的其他类型的存储介质(不管是当前存在的还是将来开发的)也可用于示例操作环境中,并且进一步地,任何这样的存储介质可包含用于执行本文所描述的方法的计算机可执行指令。
多个程序模块可以存储在驱动器和RAM 912中,包括操作系统930、一个或多个应用932、其他程序模块934和/或程序数据936。操作系统、应用、模块和/或数据的全部或部分也可被高速缓存在RAM 912中。本文所述的系统和方法可利用不同市售操作系统和/或操作系统的组合来实现。
计算机902可任选地包括仿真技术。例如,管理程序(未示出)或其他中介可以模拟操作系统930的硬件环境,并且模拟的硬件可以可选地与图8中所示的硬件不同。在相关实施例中,操作系统930可以包括在计算机902处托管的多个VM中的一个虚拟机(VM)。此外,操作系统930可以为应用932提供运行时环境,诸如JAVA运行时环境或.NET框架。运行时环境是允许应用932在包括运行时环境的任何操作系统上运行的一致执行环境。类似地,操作系统930可以支持容器,并且应用932可以呈容器的形式,所述容器是轻量的、独立的、可执行的软件包,包括例如代码、运行时、系统工具、系统库和/或应用的设置。
进一步,计算机902可被启用有安全模块,诸如可信处理模块(TPM)。例如,利用TPM,引导组件在时间上散列下引导组件,并且在加载下引导组件之前等待结果与安全值的匹配。该过程可以在计算机902的代码执行栈中的任何层进行,例如在应用执行级别和/或操作系统(OS)内核级别应用,从而在任何级别的代码执行实现安全性。
用户实体可通过一个或多个有线/无线输入设备(例如,键盘938、触摸屏940和/或诸如鼠标942之类的定点设备)将命令和信息输入到计算机902中。其他输入设备(未示出)可包括话筒、红外(IR)遥控器、射频(RF)遥控器、或其他遥控器、操纵杆、虚拟现实控制器和/或虚拟现实耳机、游戏手柄、手写笔、图像输入设备(例如,相机)、姿势传感器输入设备、视觉移动传感器输入设备、情绪或面部检测设备、生物计量输入设备(例如,指纹或虹膜扫描仪)、或诸如此类。这些和其他输入设备可以通过输入设备接口944连接到处理单元904,输入设备接口944可以耦合到系统总线908,但是可以通过其他接口连接,诸如并行端口、IEEE1394串行端口、游戏端口、USB端口、IR接口、接口和/或类似物。
监视器946或其他类型的显示装置还可经由例如视频适配器948之类的接口连接到系统总线808。此外,计算机通常包括其他外围输出设备(未示出),诸如扬声器、打印机等。
计算机902可使用经由到一个或多个远程计算机(诸如远程计算机950)的有线和/或无线通信的逻辑连接在联网环境中操作。远程计算机950可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备和/或其他公共网络节点,并且通常包括相对于计算机902描述的许多或所有元件,但是为了简洁起见,仅示出了存储器/存储设备952。所描绘的逻辑连接包括到局域网(LAN)954和/或更大的网络(例如,广域网(WAN)956)的有线/无线连接。LAN和WAN联网环境在办公室和公司中是常见的,并且促进企业范围的计算机网络,诸如内联网,所有这些可以连接到全球通信网络,例如互联网。
当在LAN联网环境中使用时,计算机902可通过有线和/或无线通信网络接口或适配器958连接到本地网络954。适配器958可促进到LAN954的有线或无线通信,LAN 954还可包括部署在其上用于以无线模式与适配器958通信的无线接入点(AP)。
当在WAN联网环境中使用时,计算机902可包括调制解调器960和/或可经由用于通过WAN 956建立通信的其他手段(诸如通过互联网)连接到WAN 956上的通信服务器。可以是内部或外部的和有线和/或无线设备的调制解调器960可以经由输入设备接口944连接至系统总线908。在联网环境中,相对于计算机902或其部分描绘的程序模块可存储在远程存储器/存储设备952中。应当理解,所示的网络连接是示例,并且可以使用在计算机之间建立通信链路的其他装置。
当在LAN或WAN联网环境中使用时,计算机902可访问云存储系统或其他基于网络的存储系统,作为如上所述的外部存储设备916的补充或替换,诸如但不限于提供信息的存储或处理的一个或多个方面的网络虚拟机。通常,计算机902与云存储系统之间的连接可例如分别由适配器958或调制解调器960通过LAN 954或WAN 956来建立。在将计算机902连接到相关联的云存储系统时,外部存储接口926可借助于适配器958和/或调制解调器960来管理由云存储系统提供的存储,如同其他类型的外部存储一样。例如,外部存储接口926可被配置成提供对云存储源的访问,如同那些源在物理上连接到计算机902一样。
计算机902可以可操作用于与可操作地布置在无线通信中的任何无线设备或实体通信,例如,打印机、扫描仪、台式和/或便携式计算机、便携式数据助理、通信卫星、与无线可检测标签相关联的任何一件设备或位置(例如,自助服务终端、新闻台、商店货架等)和/或电话。这可包括无线保真(Wi-Fi)和无线技术。由此,通信可以是如传统网络的预定义结构,或者仅仅是至少两个设备之间的自组织通信。
现在参见图10,描绘了说明性云计算环境1050。如图所示,云计算环境1050包括由云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点1010,本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话1054A、台式计算机1054B、膝上型计算机1054C和/或汽车计算机系统1054N。尽管在图10中未示出,云计算节点1010还可包括量子平台(例如,量子计算机、量子硬件、量子软件等),云消费者使用的本地计算设备可以与该量子平台通信。云计算节点1010可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境1050提供基础架构、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解,图10中所示的计算设备1054A-N的类型仅旨在是说明性的,并且云计算节点1010和云计算环境1050可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
现在参见图11,示出了诸如由云计算环境1050(图10)提供的一组功能抽象层。应提前理解,图11中所示的组件、层和功能仅旨在是说明性的,并且本文所描述的实施例不限于此。如所描述,提供以下层和对应功能:
硬件和软件层1160可以包括硬件和软件组件。硬件组件的示例包括:主机1161;基于RISC(精简指令集计算机)架构的服务器1162;服务器1163;刀片式服务器1164;存储设备1165;以及网络和网络组件1166。在一些实施例中,软件部件可以包括网络应用服务器软件1167、量子平台路由软件1168和/或量子软件(图11中未示出)。
虚拟化层1170可提供抽象层,从该抽象层可提供虚拟实体的以下示例:虚拟服务器1171;虚拟存储1172;虚拟网络1173,包括虚拟专用网络;虚拟应用和/或操作系统1174和/或虚拟客户端1175。
在一个示例中,管理层1180可提供如下所述的功能。资源供应1181可提供对可用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价1182可在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性可以为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户(或组成)门户1183可以为消费者和系统管理员提供对云计算环境的访问。服务水平管理1184可以提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行1185可提供云计算资源的预安排和采购,根据该SLA预期该云计算资源的未来要求。
工作负载层1190可以提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的非限制性示例包括:地图和导航1191;软件开发和生命周期管理1192;虚拟教室教育传递1193;数据分析处理1094;事务处理1195;和/或应用转换软件1196。
在此描述的实施例可以针对系统、方法、装置和/或计算机程序产品中的在任何可能的技术细节集成水平下的一个或多个。计算机程序产品可包括其上具有用于使处理器执行本文描述的一个或多个实施例的方面的计算机可读程序指令的计算机可读存储媒质(或多个媒质)。计算机可读存储媒体可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储媒质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备和/或上述的任何合适的组合。计算机可读存储媒质的更具体示例的非穷尽列表还可以包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或者凹槽中具有记录在其上的指令的凸起结构、和/或上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储媒质中。用于执行在此所描述的一个或多个实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码,这些编程语言包括面向对象的编程语言(诸如Smalltalk、C++等)、和/或过程编程语言(诸如“C”编程语言或类似编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上执行和/或部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行在此所描述的一个或多个实施例的方面。
在本文中参照根据在本文中描述的一个或多个实施方式的方法、装置(系统)和计算机程序产品的流程图和/或框图描述在本文中描述的一个或多个实施方式的方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可被提供给通用计算机、专用计算机和/或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储媒质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储媒质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置和/或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作动作,以产生计算机实现的处理,使得在计算机、其他可编程装置和/或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
附图中的流程图和框图示出了根据本文描述的各实施例的系统、计算机可实现的方法和/或计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段和/或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能和/或动作或执行专用硬件和/或计算机指令的组合的专用的基于硬件的系统来实现。
虽然上文已经在运行在计算机和/或计算机上的计算机程序产品的计算机可执行指令的一般上下文中描述了主题,但本领域技术人员将认识到,本文的一个或多个实施例还可结合其他程序模块来实现。通常,程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外,本领域的技术人员将认识到,本发明的计算机实现的方法可以用其他计算机系统配置来实践,包括单处理器或多处理器计算机系统、小型计算设备、大型计算机、以及计算机、手持式计算设备(例如,PDA、电话)、基于微处理器的或可编程的消费或工业电子产品、和/或类似物。所示出的方面还可以在分布式计算环境中实现,在分布式计算环境中,任务由通过通信网络链接的远程处理设备来执行。然而,一个或多个实施例的一些(如果不是全部的话)方面可以在独立计算机上实践。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备两者中。
如本申请中所使用的,术语“组件”、“系统”、“平台”、“接口”等可指和/或可包括计算机相关实体或与具有一个或多个特定功能的操作机器相关的实体。本文公开的实体可以是硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。作为说明,在服务器上运行的应用和服务器两者都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内,并且组件可以位于一个计算机上和/或分布在两个或更多个计算机之间。在另一实例中,相应组件可从具有存储于其上的不同数据结构的不同计算机可读媒体执行。组件可以经由本地和/或远程进程通信,诸如根据具有一个或多个数据分组的信号(例如,来自与本地系统、分布式系统中的另一组件进行交互的一个组件和/或经由该信号跨诸如互联网之类的网络与其他系统进行交互的一个组件的数据)。作为另一示例,组件可以是具有由电气或电子电路操作的机械部件提供的特定功能的装置,该电气或电子电路由处理器执行的软件或固件应用操作。在这样的情况下,处理器可以在装置的内部或外部,并且可以执行软件或固件应用的至少一部分。作为又一示例,组件可以是通过没有机械部件的电子组件来提供特定功能的装置,其中电子组件可以包括处理器或用于执行至少部分地赋予电子组件的功能的软件或固件的其他装置。在一方面中,组件可经由例如云计算系统内的虚拟机来仿真电子组件。
此外,术语“或”旨在意指包括性的“或”而不是排他性的“或”。也就是说,除非另外指明,或从上下文清楚,“X采用A或B”旨在意指任何自然的包含性排列。即,如果X采用A;X采用B;或X采用A和B两者,则在任何前述情况下满足“X采用A或B”。此外,如主题说明书和附图中所使用的冠词“一个(a)”和“一个(an)”通常应被解释为意指“一个或多个”,除非另外说明或从上下文清楚指向单数形式。如本文所使用的,术语“实例”和/或“示例性”用于表示用作实例、例子或例证。为了避免疑问,在此披露的主题不受此类实例的限制。此外,本文中描述为“实例”和/或“示例性”的任何方面或设计不一定被解释为优于或优于其他方面或设计,也不意味着排除本领域普通技术人员已知的等效的示例性结构和技术。
如在本说明书中所采用的,术语“处理器”可以指基本上任何计算处理单元或装置,包括但不限于单核处理器;具有软件多线程执行能力的单处理器;多核处理器;具有软件多线程执行能力的多核处理器;具有硬件多线程技术的多核处理器;并行平台;以及具有分布式共享存储器的并行平台。另外,处理器可指代经设计以执行本文中所描述的功能的集成电路、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编程逻辑装置(CPLD)、离散门或晶体管逻辑、离散硬件组件或其任何组合。进一步,处理器可以利用纳米级架构,诸如但不限于基于分子和量子点的晶体管、开关和门,以便优化空间使用或增强用户设备的性能。处理器还可以被实现为计算处理单元的组合。在本文中,诸如与组件的操作和功能相关的“存储”、“存储”、“数据存储”、“数据存储”、“数据库”和基本上任何其他信息存储组件的术语用于指代在“存储器”中体现的“存储器组件”、实体或包括存储器的组件。应当理解,本文所描述的存储器和/或存储器组件可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为示例而非限制,非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)、闪存和/或非易失性随机存取存储器(RAM)(例如,铁电RAM(FeRAM))。易失性存储器可包括例如可充当外部高速缓冲存储器的RAM。作为说明而非限制,RAM可以以许多形式获得,诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM
(ESDRAM)、Synchlink DRAM(SLDRAM)、直接x x RAM(DRRAM)、直接Rambus动态RAM(DRDRAM)和/或Rambus动态RAM(RDRAM)。此外,本文中所公开的系统和/或计算机实现的方法的存储器组件旨在包括但不限于包括这些和任何其他合适类型的存储器。
以上已经描述的内容仅包括系统和计算机实施的方法的示例。当然,为了描述一个或多个实施例的目的,不可能描述组件的每个可想象的组合或计算机实现的方法,但是本领域普通技术人员可以认识到,一个或多个实施例的许多进一步的组合和置换是可能的。此外,在详细说明、权利要求、附件以及附图中使用术语“包括”、“具有”、“拥有”等的程度上,这些术语旨在以类似于术语“包含”的方式是包括性的,因为在权利要求中采用“包含”作为过渡词时,解释“包含”。
已经出于说明的目的呈现了不同实施例的描述,但并不旨在是详尽的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。
Claims (20)
1.一种系统,包括:
存储器,其存储计算机可执行组件;以及
处理器,其可操作地耦合到所述存储器,并且执行存储在所述存储器中的所述计算机可执行组件,其中所述计算机可执行组件包括:
递归神经网络换能器(RNN-T),其接收自动讲话识别(ASR)信息;
话音活动检测(VAD)模型,其经由多任务训练使用所述ASR信息来训练所述RNN-T;以及
其中,所述RNN-T还包括编码器和联合网络,所述编码器的一个或多个输出与所述联合网络以及所述VAD模型的一个或多个输出集成在一起。
2.根据权利要求1所述的系统,其中,所述编码器用作用于所述VAD模型和所述RNN-T的活动的共享层。
3.根据权利要求1所述的系统,其中,所述编码器经由预训练的VAD模型将所述RNN-T的一个或多个输入分类为一个或多个讲话活动类别。
4.根据权利要求1所述的系统,其中,所述VAD模型作为所述RNN-T的子任务来操作。
5.根据权利要求1所述的系统,其中,所述编码器的所述一个或多个输出被传输至所述联合网络。
6.根据权利要求1所述的系统,其中,所述编码器的所述一个或多个输出通过经由全连接层将所述VAD模型的所述一个或多个输出投影到与所述编码器的所述一个或多个输出相同的维度中而与所述VAD模型的所述一个或多个输出集成。
7.根据权利要求6所述的系统,其中,在所述编码器的所述一个或多个输出与所述VAD模型的所述一个或多个输出之间应用逐元素求和运算,以提高对噪声的稳健性。
8.根据权利要求1所述的系统,其中,所述系统基于VAD参数进行优化;并且所述VAD模型和RNN-T进行联合优化。
9.根据权利要求8所述的系统,其中,通过冷冻所述ASR信息和所述VAD参数中的至少一个的一个或多个参数以确定反向传播来进一步优化所述系统。
10.根据权利要求1所述的系统,其中,一个或多个非讲话段被添加到所述ASR信息的一个或多个讲话段,以主动地训练所述VAD模型和所述RNN-T。
11.一种计算机实现方法,包括:
由所述处理器接收自动讲话识别(ASR)信息;
所述处理器使用所述ASR信息对所述RNN-T进行多任务训练;以及
由所述处理器将所述RNN-T的编码器与所述RNN-T的联合网络以及话音活动检测(VAD)模型的一个或多个输出集成,以改善对噪声的稳健性。
12.根据权利要求11所述的计算机实现方法,其中,所述编码器用作用于所述VAD模型和所述RNN-T的活动的共享层。
13.根据权利要求11所述的计算机实现方法,进一步包括:
由所述处理器将所述RNN-T的一个或多个输入分类为与预先训练的VAD模型相关的一个或多个话音活动类别。
14.根据权利要求11所述的计算机实现方法,进一步包括:
操作所述VAD模型作为操作所述RNN-T的子任务。
15.根据权利要求11所述的计算机实现方法,进一步包括:
经由全连接层将所述编码器的一个或多个输出集成到与所述VAD模型的一个或多个输出相同的维度中。
16.根据权利要求15所述的计算机实现的方法,进一步包括:
在所述编码器的所述一个或多个输出与所述VAD模型的所述一个或多个输出之间应用逐元素求和运算。
17.一种用于利用话音活动检测(VAD)模型训练递归神经网络换能器(RNN-T)的计算机程序产品,所述计算机程序产品包括具有体现在其中的程序指令的计算机可读存储介质,所述程序指令可由处理器执行以使所述处理器:
由所述处理器接收自动讲话识别(ASR)信息;
由所述处理器使用所述ASR信息来多任务训练所述RNN-T;
由所述处理器将所述RNN-T的编码器与所述RNN-T的联合网络和所述VAD模型的一个或多个输出进行集成。
18.根据权利要求17所述的计算机程序产品,其中,所述程序指令进一步使所述处理器:
由所述处理器将所述RNN-T的一个或多个输入分类为与预先训练的VAD模型相关的一个或多个话音活动类别。
19.根据权利要求17所述的计算机程序产品,其中,所述程序指令进一步使所述处理器:
由所述处理器经由全连接层将所述编码器的一个或多个输出集成到与所述VAD模型的所述一个或多个输出相同的维度中。
20.根据权利要求19所述的计算机程序产品,其中,所述程序指令进一步使所述处理器:
由所述处理器在所述编码器的所述一个或多个输出与所述VAD模型的所述一个或多个输出之间应用逐元素求和运算以改善对噪声的稳健性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/815,798 US20240038221A1 (en) | 2022-07-28 | 2022-07-28 | Voice activity detection integration to improve automatic speech detection |
US17/815,798 | 2022-07-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117476035A true CN117476035A (zh) | 2024-01-30 |
Family
ID=89638572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310889460.3A Pending CN117476035A (zh) | 2022-07-28 | 2023-07-19 | 话音活动检测集成以改进自动讲话检测 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240038221A1 (zh) |
JP (1) | JP2024019082A (zh) |
CN (1) | CN117476035A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4049257A1 (en) * | 2019-10-23 | 2022-08-31 | Carrier Corporation | A method and an apparatus for executing operation/s on device/s |
CA3143944A1 (en) * | 2019-12-10 | 2021-06-17 | Rovi Guides, Inc. | Systems and methods for local automated speech-to-text processing |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10313782B2 (en) * | 2017-05-04 | 2019-06-04 | Apple Inc. | Automatic speech recognition triggering system |
US11335333B2 (en) * | 2018-07-20 | 2022-05-17 | Google Llc | Speech recognition with sequence-to-sequence models |
EP3948854B1 (en) * | 2019-04-16 | 2024-01-31 | Google LLC | Joint endpointing and automatic speech recognition |
EP4002354B1 (en) * | 2020-11-13 | 2024-06-12 | Tata Consultancy Services Limited | Method and system for automatic speech recognition in resource constrained devices |
US20220319506A1 (en) * | 2021-03-31 | 2022-10-06 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
US20230343332A1 (en) * | 2022-04-21 | 2023-10-26 | Google Llc | Joint Segmenting and Automatic Speech Recognition |
-
2022
- 2022-07-28 US US17/815,798 patent/US20240038221A1/en active Pending
-
2023
- 2023-07-19 CN CN202310889460.3A patent/CN117476035A/zh active Pending
- 2023-07-26 JP JP2023121193A patent/JP2024019082A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240038221A1 (en) | 2024-02-01 |
JP2024019082A (ja) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
US11580959B2 (en) | Improving speech recognition transcriptions | |
US10431225B2 (en) | Speaker identification assisted by categorical cues | |
US20170243114A1 (en) | Adaptation of model for recognition processing | |
CN117476035A (zh) | 话音活动检测集成以改进自动讲话检测 | |
WO2023020262A1 (en) | Integrating dialog history into end-to-end spoken language understanding systems | |
US11748393B2 (en) | Creating compact example sets for intent classification | |
US20240256790A1 (en) | Structure self-aware model for discourse parsing on multi-party dialogues | |
US20220101835A1 (en) | Speech recognition transcriptions | |
WO2023046016A1 (en) | Optimization of lip syncing in natural language translated video | |
JP2023541651A (ja) | 完全なトランスクリプトなしのエンドツーエンドの音声言語理解 | |
US11354920B2 (en) | Updating and implementing a document from an audio proceeding | |
WO2022121684A1 (en) | Alternative soft label generation | |
US12027153B2 (en) | Data sorting for generating RNN-T models | |
US11908454B2 (en) | Integrating text inputs for training and adapting neural network transducer ASR models | |
US11947925B2 (en) | Adaptive language translation using context features | |
US11404047B2 (en) | Feature and feature variant reconstruction for recurrent model accuracy improvement in speech recognition | |
US20220319494A1 (en) | End to end spoken language understanding model | |
US20230237989A1 (en) | External language model information integrated into neural transducer model | |
US20230136842A1 (en) | Training data sequence for rnn-t based global english model | |
US20230386479A1 (en) | Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder | |
US20230335109A1 (en) | Techniques for disentangled variational speech representation learning for zero-shot voice conversion | |
US20220277734A1 (en) | Chunking and overlap decoding strategy for streaming rnn transducers for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |