CN107045871A - 利用外部数据源重新识别语音 - Google Patents
利用外部数据源重新识别语音 Download PDFInfo
- Publication number
- CN107045871A CN107045871A CN201611243688.1A CN201611243688A CN107045871A CN 107045871 A CN107045871 A CN 107045871A CN 201611243688 A CN201611243688 A CN 201611243688A CN 107045871 A CN107045871 A CN 107045871A
- Authority
- CN
- China
- Prior art keywords
- transcription
- candidate transcription
- score value
- candidate
- automatic speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013518 transcription Methods 0.000 claims abstract description 149
- 230000035897 transcription Effects 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000001052 transient effect Effects 0.000 claims 1
- 238000004590 computer program Methods 0.000 abstract description 13
- 230000002730 additional effect Effects 0.000 abstract 1
- 230000015654 memory Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 230000004044 response Effects 0.000 description 10
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- RTZKZFJDLAIYFH-UHFFFAOYSA-N Diethyl ether Chemical compound CCOCC RTZKZFJDLAIYFH-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013312 flour Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了利用外部数据源重新识别语音。基于外部数据源改进语音识别的方法,包括在计算机存储介质上编码的计算机程序。在一个方面,方法包括:使用自动语音识别获得讲话的初始候选转录,并且基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语。附加的动作包括基于所识别的一个或多个词语生成一个或多个附加候选转录,并且从该候选转录中选择一个转录。所描述的特征可以使得来自外部数据源的数据能够在生成更为准确的转录时被使用而无需修改现有的自动语音识别器,或者可以避免自动语音识别器的重新编译。
Description
技术领域
本说明书涉及到自动语音识别。
背景技术
语音识别是指使用自动语音识别器(ASR)将所讲出的词转录为文本。在传统的ASR系统中,所接收的音频被转换为计算机可读的声音,其随后可以与关联于给定语言的词词典进行比较。
发明内容
总体上,该说明书中所描述主题的一个创新方面能够以使用外部数据源改善语音识别的方法来体现。例如,一种自动语音识别器可以接收对讲话进行编码的音频数据并且使用第一语言模型提供该讲话的初始候选转录。该系统随后可以对该初始候选转录应用不同的第二语言模型以生成可替换候选转录,其(i)发音类似于初始候选转录,并且(ii)可能以给定语言所显现。该系统随后可以基于(i)该音频数据和候选转录之间的发音相似性以及(ii)该候选转录以给定语言出现的可能性而从候选转录中选择一个转录。
实施方式可以包括以下一个或多个特征。例如,在一些实施方式中,一种方法包括使用自动语音识别器获得讲话的初始候选转录,基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语,基于所识别的一个或多个词语生成一个或多个附加的候选转录,并且从该候选转录中选择一个转录。
其它多种版本包括相对应的被配置为执行在计算机存储设备上所编码的方法的动作的系统、计算机程序,以及被配置为使得计算装置执行该方法的动作的计算机程序。
一个或多个实施方式可以包括以下可选特征。例如,在一些实施方式中,该自动语音识别器在生成该初始候选转录时未使用的语言模型包括未处于该自动语音识别器在生成该初始候选转录时所使用的语言模型中的一个或多个词语。在一些方面,该自动语音识别器在生成该初始候选转录时未使用的语言模型以及该自动语音识别器在生成该初始候选转录时所使用的语言模型都包括一个或多个词语的序列,但是将该序列指示为具有不同的出现可能性。
在某些方面,该自动语音识别器在生成该初始候选转录时未使用的语言模型指示词或词序列出现的可能性。在一些实施方式中,动作包括针对每种候选转录确定反映该候选转录预期被说出的频繁程度的可能性分值,并且针对每个候选转录确定反映该候选转录与讲话之间的发音相似度的声音匹配分值,其中从候选转录中选择该转录是基于该声音匹配分值和可能性分值。在一些方面,确定反映该候选转录与讲话之间的发音相似度的声音匹配分值包括:从自动语音识别器获得子词声音匹配分值,识别与候选转录相对应的子词声音匹配分值的子集,并且基于与候选转录相对应的子词声音匹配分值的子集而生成该声音匹配分值。
在某些方面,确定反映该候选转录预期被说出的频繁程度的可能性分值包括基于该自动语音识别器在生成该初始候选转录时未使用的语言模型确定该可能性分值。在一些实施方式中,基于所识别的一个或多个词语生成一个或多个附加候选转录包括利用出现在初始候选转录中的一个或多个词语替代所识别的与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语。
技术优势可以包括使得来自外部数据源的数据能够在生成更为准确的转录时得以被使用而并不修改现有的自动语音识别器。例如,将自动语音识别器的输出应用于经更新的语言模型可以避免为了使用经更新的语言模型而进行计算上昂贵的自动语音识别器的重新编译。其它优势可以在于,系统可以识别出用来生成初始转录的自动语音识别器所能够识别的词语以外的附加词语。再一个优势可以在于,通常可能不适用于实时语音识别解码器的不同语言模型架构可以被整合。例如,包括用户经常听的每首歌的列表的文本文件可能难以有效地被实时整合到语音识别器中。然而,在该系统中,在语音识别器输出初始候选转录之后,来自该文本文件的信息能够被整合从而确定最终转录。
确定词语发音是否相似能够涉及到确定相似度的量度并且将该量度与阈值进行比较,或者确定该相似度的量度是否大于与其它词语配对相关的相似度的量度。
一个或多个实施方式的细节在附图和以下描述中给出。其它可能的特征和优势将从描述、附图和权利要求而变得显而易见。
这些方面的其它实施方式包括被配置为执行该方法的动作的系统、装置以及在计算机存储设备上编码的计算机程序。
附图说明
图1图示了可以被用来使用外部数据源改进语音识别的示例性系统。
图2图示了使用外部数据源改进语音识别的示例性过程。
图3是这里所描述的过程或者过程的多个部分可以在其上实施的计算设备的框图。
在图中,同样的附图标记始终表示相对应的部分。
具体实施方式
图1图示了可以被用来使用外部数据源改进语音识别的示例性系统100。简言之,系统100可以包括自动语音识别器(ASR)110,后者包括声音模型112和语言模型114、第二语言模型120、发音扩展器130和重新评分器140。
更为详细地,ASR 110可以接收对讲话进行编码的声音数据。例如,ASR 110可以接收对应于讲话“CityZen Reservation”的声音数据。该声音数据例如可以包括原始波形数据、mel似然倒谱系数,或者音频的任意其它声音或发音表示形式。
ASR 110的声音模型112可以接收声音数据并且针对对应于该声音数据的词或子词—例如,音位—生成声音分值。该声音分值可以反映出词或子词与声音数据之间的发音相似度。例如,声音模型可以接收“CityZen Reservation”的声音数据并且生成声音分值“SE-0.9/0/0/…,…EE-0/0/0.9/…I-0/0.7/0/…”。该示例声音分值可以指示音位“SE”针对讲话中的第一子词具有90%的声音匹配,针对讲话中的第二子词具有0%的声音匹配,并且针对讲话中的第三子词具有0%的声音匹配;对于音位“EE”而言,针对讲话中的第一子词具有0%的声音匹配,针对讲话中的第二子词具有0%的声音匹配,并且针对讲话中的第三子词具有90%的声音匹配;并且对于音位“I”而言,针对讲话中的第一子词具有0%的声音匹配,针对讲话中的第二子词具有0%的声音匹配,并且针对讲话中的第三子词具有70%的声音匹配。在以上示例中,声音模型112可以针对讲话中的子词的音位和位置的每种组合输出声音分值。
声音模型112可以基于将声音数据所指示的波形与被指示为对应于特定子词的波形进行比较而生成声音分值。例如,声音模型112可以接收“CityZen Reservation”的讲话并且识别出该声音数据的开头表示与针对音位“SE”所存储的波形具有90%匹配的波形,并且作为响应,针对该讲话中的第一音位是音位“SE”生成声音分值0.9。
ASR 110的语言模型可以接收该声音分值并且基于该声音分值生成初始候选转录。例如,ASR 110的语言模型114接收声音分值“SE-0.9/0/0/…,…EE-0/0/0.9/…I-0/0.7/0/…”,并且作为响应而生成初始候选转录“Citizen Reservation”。
语言模型114可以基于词序列出现的可能性以及声音分值而生成该初始候选转录。例如,语言模型114可以基于词“CityZen Reservation”出现的可能性为0%—例如,因为词“CityZen”并不包括在语言模型114中;词“Citizen Reservation”出现的可能性为70%;针对“CityZen Reservation”的指示讲话的声音听上去更类似于“City”后跟“Zen”而不是“Citizen”的声音分值而生成“Citizen Reservation”的候选转录。
在一些实施方式中,语言模型114可以将词序列的可能性指示为可能性分值,并且在生成初始候选转录时,语言模型114可以将声音匹配分值与可能性分值进行相乘。例如,针对音位“SE-ET-EE-ZE”,语言模型114可以将声音匹配分值0.9、0.9、0.9、0.7与“City”后跟“Zen”的可能性分值0.0相乘从而产生分值0;而针对音位“SE-ET-I-ZE”,语言模型114可以将声音匹配分值0.9、0.9、0.7、0.9与“Citizen”的可能性分值0.9相乘从而产生分值0.45,并且因此选择词“Citizen”,原因在于其分值0.45高于“City”后跟“Zen”的分值0。
ASR 110可以输出语言模型114所生成的初始转录。例如,ASR 110可以响应于接收到基于讲话“CityZen Reservation”的声音数据的声音分值而输出声音模型114所生成的初始转录“Citizen Reservation”。
第二语言模型120可以接收该初始转录并且生成附加候选转录。例如,第二语言模型120可以接收初始转录“Citizen Reservation”,并且作为响应而生成附加转录“CityZenReservation”和“Sooty bin reservation”。
第二语言模型120可以基于识别发音与出现在初始候选转录中的一个或多个词语相似的一个或多个词语并且将该出现在该初始候选转录中的一个或多个词语替换为所识别的发音相似的一个或多个词语来生成该附加候选转录。例如,第二语言模型120可以接收初始候选转录“Citizen Reservation”,识别出都与词语“Citizen”发音相似的词语“CityZen”和“Sooty bin”,并且作为响应,通过将“Citizen”分别替换为“CityZen”和“Sooty bin”而生成附加转录“CityZen Reservation”和“Sooty bin reservation”。
在一些实施方式中,第二语言模型120可以基于存储词的发音表示形式并且基于所存储的发音表示识别发音相似的词语来识别发音相似的词语。例如,第二语言模型可以存储指示“Citizen”可以由音位“SE-ET-I-ZE-EN”所表示并且“City”和“Zen”可以由音位“SE-ET-EE-ZE-EN”所表示的信息,接收初始转录中的词语“Citizen”,确定该词语对应于音位“SE-ET-I-ZE-EN”,确定音位“SE-ET-I-ZE-EN”类似于与“City”和“Zen”相关联的音位“SE-ET-EE-ZE-EN”,并且作为响应而确定识别出词语“Citizen”在发音上类似于词语“CityZen”。
在一些实施方式中,第二语言模型120可以基于音位的声音表示形式而确定音位听上去有多么相似。例如,第二语言模型120可以基于确定音位“EE”的声音表示形式与音位“ZA”的声音表示形式相比更相似于音位“I”的声音表示形式,而确定与音位“EE”和音位“ZA”相比,音位“EE”和音位“I”彼此更为相似。在一些实施方式中,除此之外或可替换地,第二语言模型可以基于听上去相似的词的明确指示来识别发音相似的词语。例如,第二语言模型120可以包括明确指示“Floor”和“Flour”听上去发音相似的信息。
第二语言模型120可以基于词序列出现在候选转录中的可能性而生成附加候选转录。例如,第二语言模型可以确定词序列“CityZen Reservation”具有高的出现可能性,并且作为响应而确定输出“CityZen Reservation”作为附加候选。在另一个示例中,第二语言模型120可以确定词序列“Sooty zen reservation”具有低的出现可能性,并且作为响应而确定不输出“Sooty zen reservation”作为附加候选。
在一些实施方式中,第二语言模型120可以基于与初始候选转录的发音相似度和候选转录出现的可能性二者的组合来生成候选转录。例如,第二语言模型120可以确定不输出“Sooty zen reservation”而输出“Sooty bin reservation”,这是因为虽然“Sooty zenreservation”在发音上与“Citizen Reservation”更为相似,但是“Sooty zenreservation”根据第二语言模型120具有非常低的出现可能性,而“Sooty binreservation”虽然与“Citizen Reservation”的相似度稍低但是却具有适度的出现可能性。
第二语言模型120可以随候选转录一起输出相关联的可能性分值。例如,响应于接收到“Citizen Reservation”,第二语言模型120可以输出与适度可能性分值0.6相关联的“Citizen Reservation”,输出与高可能性分值0.9相关联的“CityZen Reservation”,并且输出具有适度可能性分值0.4的“Sooty bin reservation”。该可能性分值可以反映出候选转录中的一个或多个词的序列在给定语言中出现的可能性。
在一些实施方式中,第二语言模型120可以基于存储一个或多个词的序列的可能性分值,识别处于候选转录中的一个或多个词的序列,并且基于被识别为处于候选转录中的一个或多个词的序列的可能性分值为候选转录生成可能性分值而针对候选转录确定可能性分值。在一个示例中,第二语言模型120可以确定序列“Sooty bin”和“reservation”处于候选转录“Sooty bin reservation”中并且预先分别与可能性分值0.8和0.5相关联,并且通过将可能性分值0.8和0.5相乘得到0.4而生成候选转录“Sooty bin reservation”的可能性分值。在另一个示例中,第二语言模型120可以确定序列“CityZen Reservation”预先与可能性分值0.9相关联且与候选转录“CityZen Reservation”完全匹配,并且作为响应而确定候选转录“CityZen Reservation”的可能性分值为0.9。
发音扩展器130可以从第二语言模型120接收候选转录并且将该候选转录扩展为子词。例如,发音扩展器130可以接收“Citizen Reservation”并且生成发音扩展“SE-ET-I-ZE…”,接收“CityZen Reservation”并且生成发音扩展“SE-ET-EE-ZE…”,接收“Sooty binreservation”并且生成发音扩展“SO-OT-EE-BI…”。在一些实施方式中,发音扩展器130可以基于预先确定的扩展规则而将候选转录扩展为子词。例如,规则可以定义“SOO”被扩展为音位“SO”。在另一个示例中,规则可以定义词“Sooty”被扩展为音位“SO-OT-EE”。
重新评分器140可以从发音扩展器接收每个候选转录的发音扩展,从第二语言模型120接收每个候选转录的相关联可能性分值,从声音模型112接收声音分值,基于该可能性分值与来自声音模型112的声音分值的组合为候选转录生成整体分值,并且基于该整体分值从候选转录中选择一个转录。例如,重新评分器可以接收与适度可能性分值0.6和发音扩展“SE-ET-I-ZE…”相关联的候选转录“Citizen Reservation”,与高可能性分值0.9和发音扩展“SE-ET-EE-ZE…”相关联的候选转录“CityZen Reservation”,以及与适度可能性分值0.4和发音扩展“SO-OT-EE-BI…”相关联的候选转录“Sooty bin reservation”,接收到声音分值SE-0.9/0/0/…,…EE-0/0/0.9/…I-0/0/0.7/…”,生成“CityZen Reservation”的整体分值0.8,“Citizen Reservation”的整体分值0.6,以及“Sooty bin reservation”的整体分值0.3,并且由于其具有最高的整体分值而选择“CityZen Reservation”。
在一些实施方式中,在重新评分器140中可以基于候选讲话的可能性分值和声音匹配分值的组合而生成整体分值。例如,重新评分器140可以基于将候选转录的可能性分值0.9与该候选转录的声音匹配分值0.8相乘而生成该候选转录的整体分值0.7。
在一些实施方式中,重新评分器140可以基于来自声音模型112的声音分值以及来自发音扩展器130的发音扩展而生成候选讲话的声音匹配分值。特别地,重新评分器140可以接收包括多个子词的发音扩展,识别对应于多个子词中的每一个的声音分值,并且基于候选讲话的发音扩展中所包括的多个子词的声音分值而生成每个候选讲话的声音匹配分值。例如,重新评分器140可以接收“CityZen Reservation”的发音扩展“SE-ET-EE-ZE…”,识别针对每个音位“SE-ET-EE-ZE…”从声音模型112所接收的声音分值,并且乘以所识别的声音分值从而生成“CityZen Reservation”的声音匹配分值。
在一些实施方式中,重新评分器140可以不从声音模型112接收所有的声音分值。相反,重新评分器140可以从发音扩展器130接收发音扩展并且向声音模型112提供仅针对对应于从发音扩展器130所接收的发音扩展中的子词的声音分值的请求。例如,重新评分器140可以请求声音模型112提供音位“SE”、“ET”、“I”、“ZE”以及发音扩展中所出现的其它音位的声音分值,而不提供音位“BA”、“FU”、“KA”以及未在发音扩展中出现的其它音位的声音分值。
在一些实施方式中,重新评分器140在从候选转录中选择一个转录时可以考虑其它因素。例如,重新评分器140可以识别用户的当前位置并且针对识别出与用户的当前位置具有更为紧密的关联的候选转录而对选择进行加权。在另一个示例中,重新评分器140可以识别一天中的当前时间并且针对识别出与一天中的时间具有更为紧密的关联的候选转录而对选择进行加权。在又一个示例中,重新评分器140可以识别出提供讲话的用户的存在并且针对识别出与该用户的存在具有更为紧密的关联的候选转录而对选择进行加权。
可以使用系统100的不同配置形式,其中声音模型112、语言模型114、自动语音识别器110、第二语言模型120、发音扩展器130和重新评分器140的功能可以进行组合、进一步划分、分布或互换。系统100可以在单个设备中实施或者跨多个设备进行分布。
图2是基于外部数据源改进语音识别的示例过程200的流程图。以下将过程200描述为由参考图1所描述的系统100的组件来实施。然而,过程200可以由其它系统或系统配置所实施。
过程200可以包括使用自动语音识别器获得讲话的初始候选转录(210)。例如,自动语音识别器210可以接收讲话“Zaytinya reservation”的声音数据并且输出初始候选转录“Say tin ya reservation”。
过程200可以包括基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与该初始候选转录发音相似的一个或多个附加词语(220)。例如,第二语言模型120可以识别出类似于“Say tin ya”的词语“Zaytinya”和“Say ten ya”。
过程200可以包括基于一个或多个附加词语而生成一个或多个附加候选转录(230)。例如,第二语言模型120可以基于将候选讲话“Say tin ya reservation”中的“Saytin ya”替换为“Zaytinya”和“Say ten ya”而生成附加候选转录“Zaytinya reservation”和“Say ten ya reservation”。
过程200可以包括从候选转录中选择一个转录(240)。例如,重新评分器140可以从候选转录“Say tin ya reservation”、“Zaytinya reservation”和“Say ten yareservation”中选择出转录“Zaytinya reservation”。该选择可以基于每种候选转录的可能性分值和声音匹配分值。例如,该选择可以基于识别具有指示该候选讲话出现在给定语言中的高度可能性的可能性分值以及指示该候选讲话与声音数据具有相近的声音相似度的声音匹配分值的候选转录。
图3是可以被用来作为客户端或单个或者多个服务器来实施本文所描述的系统和方法的计算设备300、350的框图。计算设备300意在表示各种形式的数字计算机,诸如膝上电脑、台式电脑、工作站、个人数字助理、服务器、刀片服务器、大型电脑或其它合适计算机。计算设备350意在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其它类似计算设备。此外,计算设备300或350可以包括通用串行总线(USB)闪存驱动器。USB闪存驱动器可以存储操作系统和其它应用。USB闪存驱动器能够包括输入/输出组件,诸如无线发射器或USB连接器,其能够被插入另一个计算设备的USB端口之中。这里所示的组件、其连接和关系以及其功能仅意在是示例性的,而并不意味着对本文中所描述和/或要求保护的发明的实施方式进行限制。
计算设备300包括处理器302、存储器304、存储设备306、连接到存储器304和高速扩展端口310的高速接口308,以及连接到低速总线314和存储设备306的低速接口312。部件302、304、306、308、310和312中的每一个都使用各种总线进行互连,并且可以安装在共用主板上或者以其它适当方式进行安装。处理器302能够对用于在计算设备300内执行的指令进行处理,包括存储在存储器304中或存储设备306上的指令,以显示用于外部输入/输出设备上的GUI的图形信息,所述外部输入/输出设备诸如耦合到高速接口308的显示器316。在其它实施方式中,如果合适,可以使用多个处理器和/或多个总线,连同多个存储器以及多种类型的存储器。而且,可以连接多个计算设备300,每个设备提供部分必需的操作,例如作为服务器组、刀片服务器群或者多处理器系统。
存储器304存储计算设备300内的信息。在一个实施方式中,存储器304是一个或多个易失性存储单元。在另一实施方式中,存储器304是一个或多个非易失性存储单元。存储器304还可以是另一形式的计算机可读介质,诸如磁盘或光盘。
存储设备306能够为计算设备300提供大型存储。在一个实施方式中,存储设备306可以是计算机可读介质或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备,或者设备阵列,包括存储域网络或其它配置中的设备。计算机程序产品能够有形地在信息载体中进行体现。计算机程序产品还可以包括指令,该指令在被执行时实施诸如以上所描述的那些的一种或多种方法。该信息载体是计算机或机器可读介质,诸如存储器304、存储设备306或者处理器302上的存储器。
高速控制器308对计算设备300的带宽密集操作进行管理,而低速控制器312对较低带宽密集的操作进行管理。这样的功能分配仅是示例性的。在一个实施方式中,高速控制器308例如通过图形处理器或加速器耦合到存储器304、显示器316,并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口310。在所述实施方式中,低速控制器312耦合到存储设备306和低速扩展端口314。可包括例如USB、蓝牙、以太网、无线以太网的各种通信端口的低速扩展端口例如可通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、指示设备、麦克风/扬声器对、扫描仪或者诸如交换机或路由器之类的网络设备。如图所示,可以以多种不同形式来实施计算设备300。例如,其可以实施为标准服务器320,或者这种服务器的群组中的多倍服务器。其还可以实施为机架式服务器系统324的一部分。此外,其可以在诸如膝上计算机322的个人计算机中实施。可替换地,来自计算设备300的组件可以与诸如设备350的移动设备(未示出)中的其它组件进行组合。这些设备中的每一个可包含一个或多个计算设备300、350,并且整个系统可由彼此通信的多个计算设备300、350所构成。
如图所示,可以以多种不同形式来实施计算设备300。例如,其可以实施为标准服务器320,或者这种服务器的群组中的多倍服务器。其还可以实施为机架式服务器系统324的一部分。此外,其可以在诸如膝上计算机322的个人计算机中实施。可替换地,来自计算设备300的组件可以与诸如移动计算设备350的移动设备(未示出)中的其它组件进行组合。这些设备中的每一个可包含一个或多个计算设备300、350,并且整个系统可由彼此通信的多个计算设备300、350所构成。
除其它组件之外,设备350包括处理器352、存储器364、诸如显示器354之类的输入/输出设备、通信接口366和收发器368。设备350还可被提供以存储设备,诸如微驱动器或其它设备,以提供附加存储。组件350、352、364、354、366和368中的每一个使用各种总线进行互连,并且若干组件可安装在共用主板上或者以其它适当方式进行安装。
处理器352能够执行计算设备350内的指令,包括存储在存储器364中的指令。处理器可实施为包括单独的多个模拟和数字处理器的芯片的芯片组。另外,处理器可以使用多种架构中的任何一种来实现。例如,处理器310可以是CISC(复杂指令集计算机)处理器,RISC(精简指令集计算机)处理器或MISC(最小指令集计算机)处理器。例如,处理器352可以提供设备350的其它组件的协调,诸如用户接口的控制、移动计算设备350所运行的应用程序以及移动计算设备350所进行的无线通信。
处理器352可以通过控制接口358和耦合到显示器354的显示接口356与用户进行通信。显示器354例如可以是TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器,或者其它合适的显示技术。显示接口356可包括用于驱动显示器354以向用户呈现图形和其它信息的合适电路。控制接口358可接收来自用户的命令并且将其转换以便向处理器352进行提交。此外,可提供与处理器352进行通信的外部接口362,以便使得设备350能够与其它设备进行近域通信。例如,可提供以太接口363,在一些实施方式中用于有线通信,或者在其它实施方式中用于无线通信,并且还可以使用多个接口。
存储器364存储计算设备350内的信息。存储器364可以实施为一个或多个计算机可读介质或媒体、一个或多个易失性存储单元或者一个或多个非易失性存储单元。也可以提供扩展存储器374并通过扩展接口372连接至设备350,所述扩展接口可包括例如SIMM(单列直插内存模块)卡接口。这样的扩展存储器174可为设备350提供额外的存储空间,或者还可以存储应用程序和用于设备350的其它信息。具体地,扩展存储器374可包括指令以执行或补充以上所描述的过程,并且还可包括安全信息。因此,扩展存储器374例如可以被提供为设备350的安全模块,并且可以利用允许对设备350进行安全使用的指令进行编程。此外,可以经由SIMM卡连同附加信息一起提供安全应用程序,诸如以无法被攻击的方式在SIMM卡设置识别信息。
如以下所讨论的,存储器例如可包括闪存和/或NVRAM存储器。在一个实施方式中,计算机程序产品有形地体现在信息载体中。计算机程序产品包含当被执行时执行一个或多个方法(例如上述方法)的指令。信息载体是计算机或机器可读介质,例如存储器364,扩展存储器374或处理器352上的存储器,该指令可以例如通过收发器368或外部接口362接收。
设备350可通过通信接口366进行无线通信,所述通信接口366可包括所必需的数字信号处理电路。通信接口366可在各种模式或协议下提供通信,除其它之外,诸如GSM语音呼叫、SMS、EMS或MMS消息发送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。例如,这样的通信可使用射频而通过收发器368进行。此外,诸如可使用蓝牙、WiFi或其它这样的收发器(未示出)进行短距离通信。此外,GPS(全球定位系统)接收器模块370可以为设备350提供附加的导航和位置相关的无线数据,所述无线数据可适当由在设备350上运行的应用程序所使用。
设备350还可以使用音频编解码器360进行可听通信,所述音频编解码器360可接收来自用户的语音信息并将其转换为可用的数字信息。音频编解码器360同样可诸如通过例如设备350的听筒中的扬声器为用户生成可听的声音。这样的声音可包括来自语音电话呼叫的声音,可包括所录制的声音,例如语音消息、音乐文件等,并且可包括在设备350上运行的应用程序所生成的声音。
如图所示,可以以多种不同形式来实施计算设备350。例如,其可实施为蜂窝电话380。其还可实施为智能电话382、个人数字助理或其它类似移动设备的一部分。
这里所描述的系统和技术的各种实施方式可以以数字电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可包括一个或多个计算机程序中的实施方式,所述计算机程序可在包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备的可编程系统上执行和/或解释,所述可编程处理器是专用或通用的,其耦合以从存储系统接收数据和指令并且向所述存储系统传送数据和指令。
这些计算机程序(还称作程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且可以以高级程序和/或面向对象编程语言和/或汇编/机器语言来实现。如这里所使用的,术语“机器可读介质”、“计算机可读介质”是指被用来向可编程处理器提供机器指令和/或数据的任意计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用来向可编程处理器提供机器指令和/或数据的任意信号。
为了提供与用户的交互,这里所描述的系统和技术可在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可通过其向计算机提供输入的键盘和指示设备—例如,鼠标或轨迹球—的计算机上实施。还可使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以为任意形式的感观反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任意形式来接收来自用户的输入,包括声音、语音或触觉输入。
这里所描述的系统和技术可以以计算系统来实现,所述计算系统包括后端组件—例如,作为数据服务器,或者包括中间组件—例如,应用服务器,或者包括前端组件—例如,具有用户可通过其与这里所描述的系统和技术的实施方式进行交互的图形用户界面或web浏览器的客户端计算机,或者这样的后端、终端或前段组件的组合。所述系统的组件可通过任意形式或介质的数字数据通信—例如,通信网络—进行互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系通过在各自计算机上运行的计算机程序所建立并且彼此具有客户端-服务器关系。
已经描述了多个实施例。然而,将要理解的是,可以进行各种修改而并不背离本发明的精神和范围。此外,在图中所描绘的逻辑流程并不要求所示出的特定顺序或连续顺序来实现所期望的结果。此外,可以提供其它步骤,或者可以从所描述的流程中消除步骤,并且可以向所描述的系统增加组件或者从中去除组件。因此,其它实施例处于以下权利要求的范围之内。
Claims (20)
1.一种计算机实施的方法,包括:
使用自动语音识别器获得讲话的初始候选转录;
基于所述自动语音识别器在生成所述初始候选转录时未使用的语言模型来识别与出现在所述初始候选转录中的一个或多个词语发音相似的一个或多个词语;
基于所识别的一个或多个词语来生成一个或多个附加的候选转录;以及
从所述候选转录中选择一个转录。
2.根据权利要求1所述的方法,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型包括未处于所述自动语音识别器在生成所述初始候选转录时所使用的语言模型中的一个或多个词语。
3.根据权利要求1或2所述的方法,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型以及所述自动语音识别器在生成所述初始候选转录时所使用的语言模型都包括一个或多个词语的序列,但是将所述序列指示为具有不同的出现可能性。
4.根据前述任一项权利要求所述的方法,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型指示词或词序列出现的可能性。
5.根据前述任一项权利要求所述的方法,包括:
针对每个候选转录,确定反映所述候选转录预期被说出的频繁程度的可能性分值;以及
针对每个候选转录,确定反映所述候选转录与所述讲话之间的发音相似度的声音匹配分值,
其中,从所述候选转录中选择所述一个转录是基于所述声音匹配分值和所述可能性分值。
6.根据权利要求5所述的方法,其中,确定反映所述候选转录与所述讲话之间的发音相似度的声音匹配分值包括:
从所述自动语音识别器获得子词声音匹配分值;
识别与所述候选转录相对应的所述子词声音匹配分值的子集;以及
基于与所述候选转录相对应的所述子词声音匹配分值的子集来生成所述声音匹配分值。
7.根据权利要求5或6所述的方法,其中,确定反映所述候选转录预期被说出的频繁程度的可能性分值包括:
基于所述自动语音识别器在生成所述初始候选转录时未使用的语言模型来确定所述可能性分值。
8.根据前述任一项权利要求所述的方法,其中,基于所识别的一个或多个词语来生成一个或多个附加的候选转录包括:
利用出现在所述初始候选转录中的一个或多个词语替代所识别的与出现在所述初始候选转录中的一个或多个词语发音相似的一个或多个词语。
9.一种系统,包括:
一个或多个计算机以及存储能够进行操作的指令的一个或多个存储设备,所述指令在被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,包括:
使用自动语音识别器获得讲话的初始候选转录;
基于所述自动语音识别器在生成所述初始候选转录时未使用的语言模型来识别与出现在所述初始候选转录中的一个或多个词语发音相似的一个或多个词语;
基于所识别的一个或多个词语来生成一个或多个附加的候选转录;以及
从所述候选转录中选择一个转录。
10.根据权利要求9所述的系统,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型包括未处于所述自动语音识别器在生成所述初始候选转录时所使用的语言模型中的一个或多个词语。
11.根据权利要求9或10所述的系统,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型以及所述自动语音识别器在生成所述初始候选转录时所使用的语言模型都包括一个或多个词语的序列,但是将所述序列指示为具有不同的出现可能性。
12.根据权利要求9至11中任一项所述的系统,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型指示词或词序列出现的可能性。
13.根据权利要求9至12中任一项所述的系统,包括:
针对每个候选转录,确定反映所述候选转录预期被说出的频繁程度的可能性分值;以及
针对每个候选转录,确定反映所述候选转录与所述讲话之间的发音相似度的声音匹配分值,
其中,从所述候选转录中选择所述一个转录是基于所述声音匹配分值和所述可能性分值。
14.根据权利要求13所述的系统,其中,确定反映所述候选转录与所述讲话之间的发音相似度的声音匹配分值包括:
从所述自动语音识别器获得子词声音匹配分值;
识别与所述候选转录相对应的所述子词声音匹配分值的子集;以及
基于与所述候选转录相对应的所述子词声音匹配分值的子集来生成所述声音匹配分值。
15.根据权利要求13或14所述的系统,其中,确定反映所述候选转录预期被说出的频繁程度的可能性分值包括:
基于所述自动语音识别器在生成所述初始候选转录时未使用的语言模型来确定所述可能性分值。
16.根据权利要求9至15中任一项所述的系统,其中,基于所识别的一个或多个词语来生成一个或多个附加的候选转录包括:
利用出现在所述初始候选转录中的一个或多个词语替代所识别的与出现在所述初始候选转录中的一个或多个词语发音相似的一个或多个词语。
17.一种存储包括能够由一个或多个计算机执行的指令的软件的非瞬态计算机可读介质,所述指令在这样的执行时使得所述一个或多个计算机执行操作,所述操作包括:
使用自动语音识别器获得讲话的初始候选转录;
基于所述自动语音识别器在生成所述初始候选转录时未使用的语言模型来识别与出现在所述初始候选转录中的一个或多个词语发音相似的一个或多个词语;
基于所识别的一个或多个词语来生成一个或多个附加的候选转录;以及
从所述候选转录中选择一个转录。
18.根据权利要求17所述的介质,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型包括未处于所述自动语音识别器在生成所述初始候选转录时所使用的语言模型中的一个或多个词语。
19.根据权利要求17所述的介质,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型以及所述自动语音识别器在生成所述初始候选转录时所使用的语言模型都包括一个或多个词语的序列,但是将所述序列指示为具有不同的出现可能性。
20.根据权利要求17所述的介质,其中,所述自动语音识别器在生成所述初始候选转录时未使用的语言模型指示词或词序列出现的可能性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/016,609 | 2016-02-05 | ||
US15/016,609 US20170229124A1 (en) | 2016-02-05 | 2016-02-05 | Re-recognizing speech with external data sources |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107045871A true CN107045871A (zh) | 2017-08-15 |
CN107045871B CN107045871B (zh) | 2020-09-15 |
Family
ID=57530835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611243688.1A Active CN107045871B (zh) | 2016-02-05 | 2016-12-29 | 利用外部数据源重新识别语音 |
Country Status (8)
Country | Link |
---|---|
US (2) | US20170229124A1 (zh) |
EP (1) | EP3360129B1 (zh) |
JP (1) | JP6507316B2 (zh) |
KR (1) | KR102115541B1 (zh) |
CN (1) | CN107045871B (zh) |
DE (2) | DE202016008230U1 (zh) |
RU (1) | RU2688277C1 (zh) |
WO (1) | WO2017136016A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022062595A1 (en) * | 2020-09-28 | 2022-03-31 | International Business Machines Corporation | Improving speech recognition transcriptions |
US20220101835A1 (en) * | 2020-09-28 | 2022-03-31 | International Business Machines Corporation | Speech recognition transcriptions |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN106297797B (zh) * | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
US10650803B2 (en) * | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
KR102449181B1 (ko) * | 2017-11-24 | 2022-09-29 | 삼성전자 주식회사 | 전자장치 및 그 제어방법 |
JP6763527B2 (ja) * | 2018-08-24 | 2020-09-30 | ソプラ株式会社 | 認識結果補正装置、認識結果補正方法、およびプログラム |
KR20200059703A (ko) | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10978069B1 (en) * | 2019-03-18 | 2021-04-13 | Amazon Technologies, Inc. | Word selection for natural language interface |
WO2020226948A1 (en) * | 2019-05-03 | 2020-11-12 | Google Llc | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models |
CN114127841A (zh) * | 2019-07-08 | 2022-03-01 | 谷歌有限责任公司 | 根据先前发生的假设术语和/或场境数据的语音识别假设生成 |
US11189264B2 (en) * | 2019-07-08 | 2021-11-30 | Google Llc | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data |
KR20210016767A (ko) | 2019-08-05 | 2021-02-17 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11961511B2 (en) | 2019-11-08 | 2024-04-16 | Vail Systems, Inc. | System and method for disambiguation and error resolution in call transcripts |
CN111326144B (zh) * | 2020-02-28 | 2023-03-03 | 网易(杭州)网络有限公司 | 语音数据处理方法、装置、介质和计算设备 |
US12002451B1 (en) * | 2021-07-01 | 2024-06-04 | Amazon Technologies, Inc. | Automatic speech recognition |
US12033618B1 (en) * | 2021-11-09 | 2024-07-09 | Amazon Technologies, Inc. | Relevant context determination |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2823469B2 (ja) * | 1992-04-24 | 1998-11-11 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文脈依存型音声認識装置および方法 |
CN1365488A (zh) * | 2000-02-28 | 2002-08-21 | 索尼公司 | 语音识别方法和装置以及记录介质 |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
CN101253496A (zh) * | 2005-07-01 | 2008-08-27 | 微软公司 | 生成汉语对联 |
CN101836205A (zh) * | 2007-08-23 | 2010-09-15 | 谷歌股份有限公司 | 域词典创建 |
CN104462071A (zh) * | 2013-09-19 | 2015-03-25 | 株式会社东芝 | 语音翻译设备和语音翻译方法 |
CN104715005A (zh) * | 2013-12-13 | 2015-06-17 | 株式会社东芝 | 信息处理设备以及方法 |
US20150221305A1 (en) * | 2014-02-05 | 2015-08-06 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
CN104854654A (zh) * | 2012-10-18 | 2015-08-19 | 谷歌公司 | 用于使用搜索查询信息的言语识别处理的方法和系统 |
US20150234937A1 (en) * | 2012-09-27 | 2015-08-20 | Nec Corporation | Information retrieval system, information retrieval method and computer-readable medium |
CN105103221A (zh) * | 2013-03-05 | 2015-11-25 | 微软技术许可有限责任公司 | 对文本到语音发音问题检测的语音识别辅助评估 |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
RU2119196C1 (ru) * | 1997-10-27 | 1998-09-20 | Яков Юноевич Изилов | Способ лексической интерпретации слитной речи и система для его реализации |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US20020087315A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
JP4269625B2 (ja) * | 2002-10-08 | 2009-05-27 | 三菱電機株式会社 | 音声認識辞書作成方法及びその装置と音声認識装置 |
US8041566B2 (en) * | 2003-11-21 | 2011-10-18 | Nuance Communications Austria Gmbh | Topic specific models for text formatting and speech recognition |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
WO2008106655A1 (en) * | 2007-03-01 | 2008-09-04 | Apapx, Inc. | System and method for dynamic learning |
JP5377430B2 (ja) * | 2009-07-08 | 2013-12-25 | 本田技研工業株式会社 | 質問応答データベース拡張装置および質問応答データベース拡張方法 |
US20120215528A1 (en) * | 2009-10-28 | 2012-08-23 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
JP2011170087A (ja) * | 2010-02-18 | 2011-09-01 | Fujitsu Ltd | 音声認識装置 |
JP5148671B2 (ja) * | 2010-09-15 | 2013-02-20 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム |
JP5480760B2 (ja) * | 2010-09-15 | 2014-04-23 | 株式会社Nttドコモ | 端末装置、音声認識方法および音声認識プログラム |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US8996371B2 (en) * | 2012-03-29 | 2015-03-31 | Nice-Systems Ltd. | Method and system for automatic domain adaptation in speech recognition applications |
KR20140028174A (ko) * | 2012-07-13 | 2014-03-10 | 삼성전자주식회사 | 음성 인식 방법 및 이를 적용한 전자 장치 |
US9047868B1 (en) * | 2012-07-31 | 2015-06-02 | Amazon Technologies, Inc. | Language model data collection |
JP5396530B2 (ja) * | 2012-12-11 | 2014-01-22 | 株式会社Nttドコモ | 音声認識装置および音声認識方法 |
US9940927B2 (en) * | 2013-08-23 | 2018-04-10 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
US20150179169A1 (en) * | 2013-12-19 | 2015-06-25 | Vijay George John | Speech Recognition By Post Processing Using Phonetic and Semantic Information |
WO2015118645A1 (ja) * | 2014-02-06 | 2015-08-13 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
US20150242386A1 (en) * | 2014-02-26 | 2015-08-27 | Google Inc. | Using language models to correct morphological errors in text |
US20150371628A1 (en) * | 2014-06-23 | 2015-12-24 | Harman International Industries, Inc. | User-adapted speech recognition |
KR102292546B1 (ko) * | 2014-07-21 | 2021-08-23 | 삼성전자주식회사 | 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 |
RU153322U1 (ru) * | 2014-09-30 | 2015-07-10 | Закрытое акционерное общество "ИстраСофт" | Устройство для обучения разговорной(устной) речи с визуальной обратной связью |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10127904B2 (en) * | 2015-05-26 | 2018-11-13 | Google Llc | Learning pronunciations from acoustic sequences |
US9576578B1 (en) * | 2015-08-12 | 2017-02-21 | Google Inc. | Contextual improvement of voice query recognition |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
US9984677B2 (en) * | 2015-09-30 | 2018-05-29 | Nice Ltd. | Bettering scores of spoken phrase spotting |
-
2016
- 2016-02-05 US US15/016,609 patent/US20170229124A1/en not_active Abandoned
- 2016-11-18 JP JP2018524838A patent/JP6507316B2/ja active Active
- 2016-11-18 EP EP16809254.2A patent/EP3360129B1/en active Active
- 2016-11-18 WO PCT/US2016/062753 patent/WO2017136016A1/en active Application Filing
- 2016-11-18 RU RU2018117655A patent/RU2688277C1/ru active
- 2016-11-18 KR KR1020187013507A patent/KR102115541B1/ko active IP Right Grant
- 2016-12-29 CN CN201611243688.1A patent/CN107045871B/zh active Active
- 2016-12-30 DE DE202016008230.3U patent/DE202016008230U1/de active Active
- 2016-12-30 DE DE102016125954.3A patent/DE102016125954A1/de not_active Withdrawn
-
2017
- 2017-06-29 US US15/637,526 patent/US20170301352A1/en not_active Abandoned
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2823469B2 (ja) * | 1992-04-24 | 1998-11-11 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文脈依存型音声認識装置および方法 |
CN1365488A (zh) * | 2000-02-28 | 2002-08-21 | 索尼公司 | 语音识别方法和装置以及记录介质 |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
CN101253496A (zh) * | 2005-07-01 | 2008-08-27 | 微软公司 | 生成汉语对联 |
CN101836205A (zh) * | 2007-08-23 | 2010-09-15 | 谷歌股份有限公司 | 域词典创建 |
US20150234937A1 (en) * | 2012-09-27 | 2015-08-20 | Nec Corporation | Information retrieval system, information retrieval method and computer-readable medium |
CN104854654A (zh) * | 2012-10-18 | 2015-08-19 | 谷歌公司 | 用于使用搜索查询信息的言语识别处理的方法和系统 |
CN105103221A (zh) * | 2013-03-05 | 2015-11-25 | 微软技术许可有限责任公司 | 对文本到语音发音问题检测的语音识别辅助评估 |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
CN104462071A (zh) * | 2013-09-19 | 2015-03-25 | 株式会社东芝 | 语音翻译设备和语音翻译方法 |
CN104715005A (zh) * | 2013-12-13 | 2015-06-17 | 株式会社东芝 | 信息处理设备以及方法 |
US20150221305A1 (en) * | 2014-02-05 | 2015-08-06 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
Non-Patent Citations (3)
Title |
---|
TASUKU OONISHI等: "A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores", 《SPEECH COMMUNICATION》 * |
伍湘彬: "语音识别在电话网络中的应用", 《电声技术》 * |
魏爽: "一种利用人工神经网络优化语音识别的方法", 《数字技术与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022062595A1 (en) * | 2020-09-28 | 2022-03-31 | International Business Machines Corporation | Improving speech recognition transcriptions |
US20220101835A1 (en) * | 2020-09-28 | 2022-03-31 | International Business Machines Corporation | Speech recognition transcriptions |
US11580959B2 (en) | 2020-09-28 | 2023-02-14 | International Business Machines Corporation | Improving speech recognition transcriptions |
GB2614686A (en) * | 2020-09-28 | 2023-07-12 | Ibm | Improving speech recognition transcriptions |
Also Published As
Publication number | Publication date |
---|---|
DE202016008230U1 (de) | 2017-05-04 |
RU2688277C1 (ru) | 2019-05-21 |
DE102016125954A1 (de) | 2017-08-10 |
KR102115541B1 (ko) | 2020-05-26 |
US20170229124A1 (en) | 2017-08-10 |
CN107045871B (zh) | 2020-09-15 |
JP2019507362A (ja) | 2019-03-14 |
EP3360129B1 (en) | 2020-08-12 |
KR20180066216A (ko) | 2018-06-18 |
EP3360129A1 (en) | 2018-08-15 |
JP6507316B2 (ja) | 2019-04-24 |
US20170301352A1 (en) | 2017-10-19 |
WO2017136016A1 (en) | 2017-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107045871A (zh) | 利用外部数据源重新识别语音 | |
CN114578969B (zh) | 用于人机交互的方法、装置、设备和介质 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
EP3125234B1 (en) | Individualized hotword detection models | |
US9378738B2 (en) | System and method for advanced turn-taking for interactive spoken dialog systems | |
US8600749B2 (en) | System and method for training adaptation-specific acoustic models for automatic speech recognition | |
US20220301543A1 (en) | Unsupervised Parallel Tacotron Non-Autoregressive and Controllable Text-To-Speech | |
US9135231B1 (en) | Training punctuation models | |
US8346549B2 (en) | System and method for supplemental speech recognition by identified idle resources | |
WO2004057574A1 (en) | Sensor based speech recognizer selection, adaptation and combination | |
CN107533841A (zh) | 用于关键字的语音识别 | |
US20150170642A1 (en) | Identifying substitute pronunciations | |
US11017763B1 (en) | Synthetic speech processing | |
US11823685B2 (en) | Speech recognition | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
EP3921833A1 (en) | Joint automatic speech recognition and speaker diarization | |
CN113051426A (zh) | 音频信息分类方法、装置、电子设备及存储介质 | |
CN113066473A (zh) | 一种语音合成方法、装置、存储介质及电子设备 | |
JP2015230455A (ja) | 音声分類装置、音声分類方法、プログラム | |
US20240144917A1 (en) | Exporting modular encoder features for streaming and deliberation asr | |
US12039982B2 (en) | Joint automatic speech recognition and speaker diarization | |
WO2024086265A1 (en) | Context-aware end-to-end asr fusion of context, acoustic and text representations | |
CN116206601A (zh) | 基于语音识别的点餐方法、装置、存储介质及电子设备 | |
CN115188365A (zh) | 一种停顿预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |