CN113939868A - 无监督自动语音识别 - Google Patents
无监督自动语音识别 Download PDFInfo
- Publication number
- CN113939868A CN113939868A CN202080013128.5A CN202080013128A CN113939868A CN 113939868 A CN113939868 A CN 113939868A CN 202080013128 A CN202080013128 A CN 202080013128A CN 113939868 A CN113939868 A CN 113939868A
- Authority
- CN
- China
- Prior art keywords
- determining
- phoneme
- waveform data
- generating
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
一种用于使用无监督学习来生成自动语音识别(ASR)模型的方法包括由设备获得文本信息。该方法包括由设备确定与文本信息相关联的音素序列组。该方法包括由设备获得语音波形数据。该方法包括由设备确定与语音波形数据相关联的音素边界组。该方法包括:基于确定与文本信息相关联的音素序列组并且基于确定与语音波形数据相关联的音素边界组,由该设备使用输出分布匹配(ODM)技术来生成ASR模型。
Description
相关申请的交叉引用
本申请要求于2019年2月7日提交的美国申请第16/269,951号的优先权,该美国申请的公开内容通过引用其整体并入本文中。
背景技术
自动语音识别(ASR)包括在智能电话、智能扬声器、平板计算机等中的广泛应用。最近,ASR的性能得到改善,并且在特定场景中的识别准确度可与人类相媲美。
发明内容
根据一些可能的实现方式,一种用于使用无监督学习来生成自动语音识别(ASR)模型的方法包括:由设备获得文本信息;由设备确定与文本信息相关联的音素序列组;由设备获得语音波形数据;由设备确定与语音波形数据相关联的音素边界组;以及由设备基于确定与文本信息相关联的音素序列组并且基于确定与语音波形数据相关联的音素边界组,使用输出分布匹配(ODM)技术来生成ASR模型。
根据一些可能的实现方式,一种设备包括:至少一个存储器,其被配置成存储程序代码;以及至少一个处理器,其被配置成读取程序代码并且按照程序代码所指示的进行操作,所述程序代码包括:第一获得代码,其用于获得文本信息;第一确定代码,其用于确定与文本信息相关联的音素序列组;第二获得代码,其用于获得语音波形数据;第二确定代码,其用于确定与语音波形数据相关联的音素边界组;以及生成代码,其用于基于第一确定代码确定与文本信息相关联的音素序列组并且基于第二确定代码确定与语音波形数据相关联的音素边界组,使用无监督学习和使用输出分布匹配(ODM)技术来生成自动语音识别(ASR)模型。
根据一些可能的实现方式,一种存储指令的非暂态计算机可读介质,该指令包括如下一个或更多个指令,当所述一个或更多个指令由设备的一个或更多个处理器执行时,使该一个或更多个处理器:获得文本信息;确定与文本信息相关联的音素序列组;获得语音波形数据;确定与语音波形数据相关联的音素边界组;以及基于确定与文本信息相关联的音素序列组并且基于确定与语音波形数据相关联的音素边界组,使用无监督学习和使用输出分布匹配(ODM)技术来生成自动语音识别(ASR)模型。
附图说明
图1A和图1B是本文中描述的示例实现方式的概述的图;
图2是其中可以实现本文中描述的系统和/或方法的示例环境的图;
图3是图2的一个或更多个设备的示例部件的图;以及
图4是用于使用无监督学习和使用输出分布匹配(ODM)技术生成自动语音识别(ASR)模型的示例处理的流程图。
具体实施方式
ASR系统通常依赖于监督深度学习,这需要大量人工标记的数据来训练深度神经网络模型。例如,ASR系统通常使用对应于1,000小时、4,000小时、10,000小时等的实际语音的语音数据进行训练。为了获取训练数据,人类需要聆听、转录和注释大量数据。以这种方式,训练数据获取是时间密集的、容易出错的、昂贵的、不准确的、低效的等。此外,对于一些资源匮乏的语言,如果不是不可能的话,获得必要量的训练数据是困难的任务。
本文中的一些实现方式提供了用于生成将语音波形映射成文本转录的ASR模型的技术。ASR模型可以是将声学语音信号映射成词序列的函数。在一些实现方式中,ASR模型最初将语音信号映射成中间音素序列(例如,发音单元),并且然后将中间音素序列映射成词序列。
本文中的一些实现方式提供了针对不需要人工标记数据的ASR模型生成的技术(例如,允许使用无监督学习的模型生成)。以这种方式,本文中的一些实现方式允许改进的模型生成、允许改进的生成的模型的准确度、减少人工努力的需要、减少与监督学习相关联的人工错误、提高模型生成的效率以及其他技术益处。
另外,本文中的一些实现方式提供了与ASR模型的无监督训练相关的以下技术益处。第一,本文中的一些实现方式允许通过音素边界的迭代识别和细化来识别连续语音波形中的音素边界。第二,本文中的一些实现方式允许在不需要标记数据的情况下将语音波形映射成音素。
图1A和图1B是本文中描述的实施方式的概述的图。如图1A所示,并且通过附图标记101,平台(例如,服务器)可以获得文本信息。此外,并且如由附图标记102所示,平台可以获得词典信息。词典信息可以包括映射词序列和音素序列的数据结构。如由附图标记103所示,平台可以使用词典信息确定与文本信息相关联的音素序列。更进一步,并且如由附图标记104所示,平台可以基于确定与文本信息相关联的音素序列来生成语言模型。也就是说,平台可以使用音素序列来训练语言模型。
如图1B所示,并且通过附图标记105,平台可以获得与图1A相关联地进行训练的语言模型。此外,并且如由附图标记106所示,平台可以获得语音波形数据。虽然图1B所示的语音波形数据描绘了音素和词序列,实际上,语音波形数据可能是未标记和未注释的语音波形数据。换句话说,音素和词序列是为了说明的目的。如由附图标记107所示,该平台可以使用无监督学习,使用语音波形数据和语言模型生成ASR模型。平台可以使用与图4相关联的更详细描述的技术来生成ASR模型。
以这种方式,本文中的一些实现方式允许使用无监督学习生成ASR模型。换言之,本文中的一些实现方式允许在不需要人工标记的训练数据的情况下的ASR模型生成。
图2是其中可以实现本文中描述的系统和/或方法的示例环境200的图。如图2所示,环境200可以包括用户设备210、平台220和网络230。环境200的设备可以经由有线连接、无线连接或者有线连接和无线连接的组合进行互连。
用户设备210包括能够接收、生成、存储、处理和/或提供与平台220相关联的信息的一个或更多个设备。例如,用户设备210可以包括计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,一副智能眼镜或智能手表)或类似设备。在一些实现方式中,用户设备210可以从平台220接收信息和/或向平台220发送信息。
平台220包括能够生成ASR模型的一个或更多个设备,如本文中其他地方所描述的。在一些实现方式中,平台220可以包括云服务器或云服务器组。在一些实现方式中,平台220可以被设计成模块化的,使得可以根据特定需要换进或换出某些软件部件。这样,可以容易地和/或快速地重新配置平台220以用于不同的用途。
在一些实现方式中,如所示出的,平台220可以被托管(hosted)在云计算环境222中。值得注意的是,虽然本文中描述的实现方式将平台220描述为被托管在云计算环境222中,但是在一些实现方式中,平台220不是基于云的(即,可以在云计算环境外部实现)或者可以是部分基于云的。
云计算环境222包括托管平台220的环境。云计算环境222可以提供计算、软件、数据访问、存储等服务,这些服务不需要终端用户(例如,用户设备210)了解托管平台220的一个或多个系统和/或一个或多个设备的物理位置和配置。如所示出的,云计算环境222可以包括计算资源组224(被统称为“计算资源(computing resources)224”并且被单独称为“计算资源(computing resource)224”)。
计算资源224包括一个或更多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实现方式中,计算资源224可以托管平台220。云资源可以包括在计算资源224中执行的计算实例、在计算资源224中提供的存储设备、由计算资源224提供的数据传输设备等。在一些实现方式中,计算资源224可以经由有线连接、无线连接或者有线连接和无线连接的组合与其他计算资源224进行通信。
进一步如图2所示,计算资源224包括云资源组,例如一个或更多个应用(“APP”)224-1、一个或更多个虚拟机(“VM”)224-2、虚拟化存储装置(“VS”)224-3、一个或更多个监管器(“HYP”)224-4等。
应用224-1包括可以被提供给用户设备210和/或传感器设备220或者由用户设备210和/或传感器设备220访问的一个或更多个软件应用。应用224-1可以消除用于在用户设备210上安装和执行软件应用的需要。例如,应用224-1可以包括与平台220相关联的软件和/或能够经由云计算环境222提供的任何其它软件。在一些实现方式中,一个应用224-1可以经由虚拟机224-2向一个或更多个其他应用224-1发送信息或者从一个或更多个其他应用224-1接收信息。
虚拟机224-2包括像物理机一样执行程序的机器(例如,计算机)的软件实现。虚拟机224-2可以是系统虚拟机或者处理虚拟机,这取决于虚拟机224-2对任何真实机的使用和对应程度。系统虚拟机可以提供执行支持完整操作系统(“OS”)的完整系统平台。处理虚拟机可以执行单个程序,并且可以支持单个处理。在一些实现方式中,虚拟机224-2可以代表用户(例如,用户设备210)执行,并且可以管理云计算环境222的基础设施,例如数据管理、同步或长期数据传输。
虚拟化存储装置224-3包括在计算资源224的设备或存储系统内使用虚拟化技术的一个或更多个存储系统和/或一个或更多个设备。在一些实现方式中,在存储系统的上下文内,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指代逻辑存储从物理存储的抽取(或分离),使得可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员在管理员管理针对终端用户的存储方面的灵活性。文件虚拟化可以消除以文件级别访问的数据与物理存储文件的位置之间的依赖关系。这可以使得能够优化存储使用、服务器整合和/或无中断文件迁移的性能。
监管器224-4可以提供硬件虚拟化技术,该硬件虚拟化技术允许多个操作系统(例如,“客户操作系统”)在主机计算机例如计算资源224上同时执行。监管器224-4可以向客户操作系统呈现虚拟操作平台,并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。
网络230包括一个或更多个有线网络和/或无线网络。例如,网络230可以包括蜂窝网络(例如,第五代(5G)网络、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等、以及/或者这些或其他类型网络的组合。
图2所示的设备和网络的数量和布置被作为示例提供。实际上,相比于图2所示的这些设备和/或网络,可以存在附加的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或者不同布置的设备和/或网络。此外,图2所示的两个或更多个设备可以在单个设备内实现,或者图2所示的单个设备可以被实现为多个分布式设备。附加地或替选地,环境200的设备组(例如,一个或更多个设备)可以执行被描述为由环境200的另一设备组执行的一个或更多个功能。
图3是设备300的示例部件的图。设备300可以对应于用户设备210和/或平台220。如图3所示,设备300可以包括总线310、处理器320、存储器330、存储部件340、输入部件350、输出部件360和通信接口370。
总线310包括允许设备300的部件之间通信的部件。处理器320以硬件、固件或者硬件和软件的组合来实现。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理部件。在一些实现方式中,处理器320包括能够被编程为执行功能的一个或更多个处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)以及/或者存储供处理器320使用的信息和/或指令的另一类型的动态或静态存储设备(例如,闪速存储器、磁存储器和/或光存储器)。
存储部件340存储与设备300的操作和使用相关的信息和/或软件。例如,存储部件340可以包括硬盘(例如,磁盘、光盘、磁光盘、和/或固态盘)、致密盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质以及对应的驱动器。
输入部件350包括允许设备300例如经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)接收信息的部件。附加地或替选地,输入部件350可以包括用于感测信息的传感器(例如,全球定位系统(GPS)部件、加速度计、陀螺仪和/或致动器)。输出部件360包括提供来自设备300的输出信息的部件(例如,显示器、扬声器和/或一个或更多个发光二极管(LED))。
通信接口370包括使得设备300能够例如经由有线连接、无线连接或者有线连接和无线连接的组合与其他设备进行通信的类似收发器的部件(例如,收发器和/或单独的接收器和发送器)。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如,通信接口370可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备300可以执行本文中描述的一个或更多个处理。设备300可以响应于处理器320执行由非暂态计算机可读介质例如存储器330和/或存储部件340存储的软件指令来执行这些处理。计算机可读介质在本文中被限定为非暂态存储器设备。存储器设备包括单个物理存储设备内的存储器空间或分布在多个物理存储设备上的存储器空间。
可以经由通信接口370从另一计算机可读介质或从另一设备将软件指令读入到存储器330和/或存储部件340中。当被执行时,存储在存储器330和/或存储部件340中的软件指令可以使处理器320执行本文中描述的一个或更多个处理。附加地或替选地,可以使用硬连线电路来代替软件指令或者与软件指令组合来执行本文中描述的一个或更多个处理。因此,本文中描述的实现方式不限于硬件电路和软件的任何特定组合。
图3所示的部件的数量和布置被作为示例提供。实际上,相比于图3所示的这些部件,设备300可以包括附加的部件、更少的部件、不同的部件或不同地布置的部件。附加地或替选地,设备300的部件组(例如,一个或更多个部件)可以执行被描述为由设备300的另一部件组执行的一个或更多个功能。
图4是用于使用无监督学习和使用输出分布匹配(ODM)技术生成自动语音识别(ASR)模型的示例处理400的流程图。在一些实现方式中,图4的一个或更多个处理块可以由平台220执行。在一些实现方式中,图4的一个或更多个处理块可以由与平台220分离或包括平台220的另一设备或设备组例如用户设备210来执行。
如图4所示,处理400可以包括获得文本信息(块410)。例如,平台220可以从用户设备210接收文本信息,并且基于从用户设备210接收文本信息来获得文本信息。附加地或替选地,平台220可以实现数据提取技术(例如,网络挖掘技术、网络抓取技术、信息检索技术等),并且基于实现数据提取技术来获得文本信息。附加地或替选地,平台220可以从存储器位置检索文本信息。文本信息可能包括数千、数百万、数十亿等数据集。以这种方式,平台220可以实现大数据技术来处理文本信息。
如图4进一步所示的,处理400可以包括确定与文本信息相关联的音素序列组(块420)。例如,平台220可以处理文本信息,并且确定与文本信息相关联的音素序列。尽管本文中的实现方式是结合音素使用的,但是应当理解,本文中的实现方式也适用于其他单元,例如词、句子、n-gram、字符等。
在一些实现方式中,平台220可以使用词典来确定与文本信息相关联的音素序列组。例如,词典可以指的是映射音素和词序列的数据结构。
在一些实现方式中,平台220可以基于确定与文本信息相关联的音素序列组来生成语言模型。以这种方式,并且如在本文中其他地方所描述的,平台220可以在生成ASR模型时使用语言模型。
如图4进一步所示的,处理400可以包括获得语音波形数据(块430)。例如,平台220可以从用户设备210接收语音波形数据。附加地或替选地,平台220可以以与上述与文本信息相关联的类似方式和/或利用与上述与文本信息相关联的类似的技术来获得语音波形数据。语音波形数据可以构成未标记的数据。换句话说,语音波形数据可能没有被操作员预先处理。
如图4进一步所示的,处理400可以包括确定与语音波形数据相关联的音素边界组(块440)。例如,平台220可以确定划分与语音波形数据相关联的各个音素的音素边界组。
在一些实现方式中,并且如在本文中其他地方所描述的,平台220可以迭代地确定与语音波形数据相关联的音素边界。例如,平台220可以确定与语音波形数据相关联的初始音素边界组,并且可以在确定初始音素边界组之后迭代地确定更新的和/或细化的音素边界。
在一些实现方式中,平台220可以通过训练长短期记忆(LSTM)循环神经网络(RNN)来确定与语音波形数据相关联的音素边界。此外,平台220可以使用LSTM RNN的遗忘门的激活信号来估计音素边界。作为替选,平台220可以训练门控循环单元(GRU)RNN,并且使用GRURNN的更新门的激活信号来估计音素边界组。
如图4进一步所示的,处理400可以包括基于确定与文本信息相关联的音素序列组和与语音波形数据相关联的音素边界组,使用无监督学习和使用输出分布匹配(ODF)技术来生成自动语音识别(ASR)模型(块450)。例如,平台220可以使用无监督学习生成ASR模型。
在一些实现方式中,平台220可以基于以下目标函数生成ASR模型:
参考以上目标函数,“LODM”可以表示经验输出分布匹配(ODM)成本函数。例如,经验ODM成本函数可以被表示为:
经验ODM成本函数对n个连续字母(例如,n-gram,其中n=1、2、3、6等)的频率进行比较。例如,经验ODM成本函数对tri-gram(例如,n=3)例如“qui”、“uic”、“ick”等的频率进行比较。
参考经验ODM成本函数,“Z”可以表示某个n-gram,“PLM(z)”可以表示特定n-gram“Z”的概率(例如,tri-gram“qui”的概率),并且“LM”可以表示语言模型(例如,如上面结合块420所描述的)。
经验预测概率方程可以被表示为如下所示:
例如,以上所示的经验预测概率函数可以表示针对n-gram“Z”的经验预测概率,“xbi+εi”可以表示在第i个音素片段中随机采样的帧,“bi”可以表示第i个音素片段的起始边界,“εi”可以表示索引第i个片段内的帧的随机变量,以及“j”可以表示针对n-gram的I+n-1。
在一些实现方式中,语音数据波形可以被表示为对应于不同音素的片段序列。这样,输入“xbi+εi…xbj+εj”是从第i个片段至第j个片段进行采样。
在一些实现方式中,对应于相同片段中的帧的输出应当是相同的。也就是说,对于第i个音素片段,针对“xbi+εi”的预测输出音素对于任何随机“εi”应当是相同的。以这种方式,可以将表示为音素平滑成本函数的以下附加项添加至经验ODM成本函数:
参考以上所示的音素平滑成本函数,“PS”可以表示“音素平滑”。音素平滑成本函数可以操作为例如惩罚不同帧之间的预测输出之间的差异。
以这种方式,并且参考以上所示的目标函数,目标函数可以被表示为经验ODM成本函数“LODM”和音素平滑成本函数“LPS”的组合。“λ”可以表示控制经验ODM成本函数与音素平滑函数之间的权衡的正则化参数。
在初始音素边界被确定之后,平台220可以启动以上所示的目标函数的优化以训练ASR模型。例如,平台220可以使音素边界初始化,并且可以使Pθ(例如,深度神经网络的权重)中的模型参数(“θ”)初始化。
如图4进一步所示的,处理400可以包括确定是否满足训练条件(块460)。例如,平台220可以基于训练ASR模型来确定是否满足训练条件。
在一些实现方式中,训练条件可以指的是收敛或停止标准。作为示例,训练条件可以指的是满足阈值的迭代次数、满足阈值的音素边界细化次数、满足阈值的优化参数、满足阈值的时间帧、满足阈值的准确度等。
如图4进一步所示的,如果不满足训练条件(块460-否),则处理400可以包括细化音素边界(块470)。例如,平台220可以在使音素边界初始化之后细化音素边界,如以上结合块440所描述的。
在初始音素边界被确定之后,平台220可以如上所述训练ASR模型。平台220可以基于对ASR模型的训练来确定更新的Pθ(yt|xt)。基于确定更新的Pθ(yt|xt),平台220可以使用以下方法进一步细化音素边界的估计。首先,平台220可以利用以下等式来确定给定输入X的最可能的音素序列Y:
此外,以下条件可以适用于以上等式:
参考以上内容,P(bi≠t)可以表示时间t不对应于边界(例如,没有音素切换)的概率。使用以上两个等式,平台220可以执行标准波束搜索方法来确定Y1:n的近似序列。
此外,平台220可以通过确定时间步长t来确定细化边界,其中,Yt≠Yt-1。平台220可以确定细化边界组,并且利用与上述目标函数相关联的细化边界。以这种方式,平台220可以迭代地确定细化音素边界,并且与目标函数相关联地实现细化音素边界。平台220可以迭代地执行以上操作直到满足训练条件为止。
如图4进一步所示的,如果满足训练条件(块460-是),则处理400可以包括执行后处理(块480)。例如,平台220可以确定满足训练条件(例如,使用上述度量中的一个或更多个),并且可以执行ASR模型的后处理。
在一些实现方式中,平台220可以应用语音后处理技术组来改善模型性能。例如,平台220可以将训练输入应用于训练模型Pθ以获得预测输出(例如,预测标签)。此外,平台220可以结合训练输入使用预测输出来训练隐马尔可夫模型(HMM)-高斯混合模型(GMM)。附加地或替选地,平台220可以实现任意数量的其他后处理技术例如说话者自适应,以进一步改善ASR模型的性能。
以这种方式,本文中的一些实现方式允许对ASR模型进行完全无监督的训练。也就是说,分割(例如,边界估计)和神经网络训练不需要标记数据。例如,本文中的一些实现方式允许没有监督边界信息的模型生成。
与监督学习相比,本文中的一些实现方式提高了模型准确度、减少了模型生成所需的人工努力、允许针对多种语言要开发的ASR模型、减少了人类错误、减少了与模型生成相关联的时间框架、以及其他技术益处。
尽管本文中的实现方式描述了音素序列,但是应当理解,其他实现方式包括词序列、字符序列等作为中间序列。换句话说,其他实现方式包括语音波形与词序列和/或字符序列之间的直接映射。
此外,在一些实现方式中,梅尔频率倒谱系数(MFCC)被用作输入。应当理解,其他实现方式包括其他特征,例如滤波器组输入等。
尽管图4示出了处理400的示例块,但是在一些实现方式中,相比于图4中所描绘的这些块,处理400可以包括附加的块、更少的块、不同的块或不同地布置的块。附加地或替选地,处理400的块中的两个或更多个块可以并行执行。
前述公开内容提供了说明和描述,但是并非意为穷举性的或者将实现方式限制为所公开的精确形式。鉴于以上公开内容,可以进行修改和变型,或者可以从实现方式的实践中获得修改和变型。
如本文中所使用的,术语部件旨在被广义地解释为硬件、固件或者硬件和软件的组合。
将明显的是,本文中所描述的系统和/或方法可以以不同形式的硬件、固件、或者硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不限制实现方式。因此,本文中在不参考特定软件代码的情况下描述了系统和/或方法的操作和行为——应当理解的是,可以将软件和硬件设计成基于本文中的描述实现系统和/或方法。
即使在权利要求中记载了和/或在说明书中公开了特征的特定组合,这些组合也不旨在限制可能实现方式的公开内容。实际上,这些特征中的许多特征可以以未在权利要求中具体记载和/或在说明书中公开的方式组合。尽管所列出的每个从属权利要求可以直接从属于仅一个权利要求,但是可能的实现方式的公开内容包括每个从属权利要求与权利要求集中的每一个其他权利要求组合。
在本文中使用的任何元件、动作或指令都不应当被解释为关键或必要的元件、动作或指令,除非这样明确描述。此外,如本文中所使用的,“一种”和“一个”旨在包括一个或更多个项,并且可以与“一个或更多个”互换使用。此外,如本文中所使用的,术语“组(set)”旨在包括一个或更多个项(例如,相关项、不相关项、相关项和不相关项的组合等),并且可以与“一个或更多个”互换使用。在意指仅一个项的情况下,使用术语“一个”或类似语言。另外,如本文中所使用的,术语“有(has)”、“具有(have)”、“具有(having)”等意在为开放式术语。此外,短语“基于”意在表示“至少部分地基于”,除非另有明确说明。
Claims (20)
1.一种用于使用无监督学习来生成自动语音识别(ASR)模型的方法,所述方法包括:
由设备获得文本信息;
由所述设备确定与所述文本信息相关联的音素序列组;
由所述设备获得语音波形数据;
由所述设备确定与所述语音波形数据相关联的音素边界组;以及
由所述设备基于确定与所述文本信息相关联的所述音素序列组并且基于确定与所述语音波形数据相关联的所述音素边界组,使用输出分布匹配(ODM)技术来生成所述ASR模型。
2.根据权利要求1所述的方法,其中,由所述设备确定所述音素边界组包括:由所述设备使用长短期记忆(LSTM)循环神经网络(RNN)来确定所述音素边界组。
3.根据权利要求1所述的方法,其中,由所述设备确定所述音素边界组包括:由所述设备使用门控循环单元(GRU)循环神经网络(RNN)来确定所述音素边界组。
4.根据权利要求1所述的方法,还包括:
由所述设备基于生成所述ASR模型来确定与所述语音波形数据相关联的另一音素边界组。
5.根据权利要求1所述的方法,还包括:
由所述设备基于生成所述ASR模型来确定是否满足训练条件;以及
由所述设备基于确定是否满足所述训练条件来选择性地确定另一音素边界组。
6.根据权利要求1所述的方法,还包括:
由所述设备识别与所述文本信息相关联的词序列组;以及
其中,由所述设备确定与所述文本信息相关联的所述音素序列组包括:
由所述设备基于所述词序列组来确定所述音素序列组。
7.根据权利要求1所述的方法,还包括:
由所述设备对与所述文本信息相关联的n-gram频率值组和与所述语音波形数据相关联的音素频率值组进行比较;以及
其中,由所述设备使用所述ODM技术来生成所述ASR模型包括:
由所述设备使用与所述n-gram频率值组和所述音素频率值组相关联的所述ODM技术来生成所述ASR模型。
8.根据权利要求1所述的方法,其中,所述语音波形数据是未标记的。
9.根据权利要求1所述的方法,还包括:
由所述设备基于生成所述ASR模型来执行波束搜索技术;以及
由所述设备基于执行所述波束搜索技术来生成细化的音素边界组。
10.根据权利要求1所述的方法,还包括:
使用所述文本信息训练语言模型;以及
其中,由所述设备生成所述ASR模型包括:
由所述设备使用所述语言模型生成所述ASR模型。
11.一种设备,包括:
至少一个存储器,其被配置成存储程序代码;
至少一个处理器,其被配置成读取所述程序代码并且按照所述程序代码所指示的进行操作,所述程序代码包括:
第一获得代码,其用于获得文本信息;
第一确定代码,其用于确定与所述文本信息相关联的音素序列组;
第二获得代码,其用于获得语音波形数据;
第二确定代码,其用于确定与所述语音波形数据相关联的音素边界组;以及
生成代码,其用于基于所述第一确定代码确定与所述文本信息相关联的所述音素序列组并且基于所述第二确定代码确定与所述语音波形数据相关联的所述音素边界组,使用无监督学习和使用输出分布匹配(ODM)技术来生成自动语音识别(ASR)模型。
12.根据权利要求11所述的设备,其中,所述第二确定代码使用短期记忆(LSTM)循环神经网络(RNN)来确定所述音素边界组。
13.根据权利要求11所述的设备,其中,所述第二确定代码使用门控循环单元(GRU)循环神经网络(RNN)来确定所述音素边界组。
14.根据权利要求11所述的设备,还包括:
第三确定代码,其用于基于生成所述ASR模型来确定与所述语音波形数据相关联的另一音素边界组。
15.根据权利要求11所述的设备,还包括:
第三确定代码,其用于基于生成所述ASR模型来确定是否满足训练条件;以及
第四确定代码,其用于基于确定是否满足所述训练条件来选择性地确定另一音素边界组。
16.根据权利要求11所述的设备,还包括:
识别代码,其用于识别与所述文本信息相关联的词序列组。
17.根据权利要求11所述的设备,还包括:
比较代码,其用于对与所述文本信息相关联的n-gram频率值组和与所述语音波形数据相关联的音素频率值组进行比较。
18.根据权利要求11所述的设备,其中,所述语音波形数据是未标记的。
19.根据权利要求11所述的设备,还包括:
执行代码,其用于基于生成所述ASR模型来执行波束搜索技术。
20.一种存储指令的非暂态计算机可读介质,所述指令包括如下一个或更多个指令,当所述一个或更多个指令由设备的一个或更多个处理器执行时,使所述一个或更多个处理器:
获得文本信息;
确定与所述文本信息相关联的音素序列组;
获得语音波形数据;
确定与所述语音波形数据相关联的音素边界组;以及
基于确定与所述文本信息相关联的所述音素序列组并且基于确定与所述语音波形数据相关联的所述音素边界组,使用无监督学习和使用输出分布匹配(ODM)技术来生成自动语音识别(ASR)模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/269,951 US11138966B2 (en) | 2019-02-07 | 2019-02-07 | Unsupervised automatic speech recognition |
US16/269,951 | 2019-02-07 | ||
PCT/US2020/016014 WO2020163157A1 (en) | 2019-02-07 | 2020-01-31 | Unsupervised automatic speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113939868A true CN113939868A (zh) | 2022-01-14 |
Family
ID=71945296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080013128.5A Pending CN113939868A (zh) | 2019-02-07 | 2020-01-31 | 无监督自动语音识别 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11138966B2 (zh) |
CN (1) | CN113939868A (zh) |
WO (1) | WO2020163157A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11144721B2 (en) * | 2019-05-31 | 2021-10-12 | Accenture Global Solutions Limited | System and method for transforming unstructured text into structured form |
KR20190080834A (ko) * | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 사투리 음소 적응 학습 시스템 및 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3092491B2 (ja) | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
US6076056A (en) | 1997-09-19 | 2000-06-13 | Microsoft Corporation | Speech recognition system for recognizing continuous and isolated speech |
US6625600B2 (en) | 2001-04-12 | 2003-09-23 | Telelogue, Inc. | Method and apparatus for automatically processing a user's communication |
US7912716B2 (en) * | 2005-10-06 | 2011-03-22 | Sony Online Entertainment Llc | Generating words and names using N-grams of phonemes |
US8831947B2 (en) * | 2010-11-07 | 2014-09-09 | Nice Systems Ltd. | Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
US10255910B2 (en) | 2016-09-16 | 2019-04-09 | Apptek, Inc. | Centered, left- and right-shifted deep neural networks and their combinations |
US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10380997B1 (en) * | 2018-07-27 | 2019-08-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
CN112789625A (zh) * | 2018-09-27 | 2021-05-11 | 渊慧科技有限公司 | 承诺信息速率变分自编码器 |
-
2019
- 2019-02-07 US US16/269,951 patent/US11138966B2/en active Active
-
2020
- 2020-01-31 WO PCT/US2020/016014 patent/WO2020163157A1/en active Application Filing
- 2020-01-31 CN CN202080013128.5A patent/CN113939868A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2020163157A1 (en) | 2020-08-13 |
US11138966B2 (en) | 2021-10-05 |
US20200258497A1 (en) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468879B2 (en) | Duration informed attention network for text-to-speech analysis | |
US11011154B2 (en) | Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis | |
US11295722B2 (en) | Updating a speech generation setting based on user speech | |
US11636848B2 (en) | Token-wise training for attention based end-to-end speech recognition | |
US10861441B2 (en) | Large margin training for attention-based end-to-end speech recognition | |
CN113939868A (zh) | 无监督自动语音识别 | |
CN113924560A (zh) | 利用半监督深度学习理解对医学人工智能系统的查询意图 | |
US11995542B2 (en) | Dialogue model training based on reference-free discriminators | |
US11694021B2 (en) | Apparatus for generating annotated image information using multimodal input data, apparatus for training an artificial intelligence model using annotated image information, and methods thereof | |
CN116783651A (zh) | 视频辅助的无监督语法归纳 | |
US10923117B2 (en) | Best path change rate for unsupervised language model weight selection | |
US11151979B2 (en) | Duration informed attention network (DURIAN) for audio-visual synthesis | |
US10803123B2 (en) | Automatic generation of variations of search criteria for use in a predictive search engine | |
US20240013774A1 (en) | Techniques for end-to-end speaker diarization with generalized neural speaker clustering | |
WO2023234958A1 (en) | Conditional factorization for jointly modeling code-switched and monolingual automatic speech recognition | |
WO2024054263A1 (en) | Search-engine-augmented dialogue response generation with cheaply supervised query production |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40066184 Country of ref document: HK |