CN105340004A - 用于发音学习的计算机实现的方法、计算机可读介质和系统 - Google Patents

用于发音学习的计算机实现的方法、计算机可读介质和系统 Download PDF

Info

Publication number
CN105340004A
CN105340004A CN201480030812.9A CN201480030812A CN105340004A CN 105340004 A CN105340004 A CN 105340004A CN 201480030812 A CN201480030812 A CN 201480030812A CN 105340004 A CN105340004 A CN 105340004A
Authority
CN
China
Prior art keywords
candidate
pronunciation
particular words
audio sample
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480030812.9A
Other languages
English (en)
Other versions
CN105340004B (zh
Inventor
彭福春
弗朗索瓦丝·博费
布莱恩·帕特里克·斯特罗普
雷欣
佩德罗·J·莫雷诺·门吉巴尔
特雷弗·D·施特勒曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN105340004A publication Critical patent/CN105340004A/zh
Application granted granted Critical
Publication of CN105340004B publication Critical patent/CN105340004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B17/00Teaching reading
    • G09B17/003Teaching reading electrically operated apparatus or devices
    • G09B17/006Teaching reading electrically operated apparatus or devices with audible presentation of the material to be studied

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

用于确定用于特定词语的发音的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。该方法、系统和装置包括获取与特定词语相对应的语音的音频样本和获取用于特定词语的候选发音的操作。进一步的操作包括:针对用于特定词语的每个候选发音和与特定词语相对应的语音的音频样本,生成反映该候选发音与音频样本之间的相似水平的评分。附加操作包括累积每个候选发音的评分,并且基于候选发音的累积评分,将用于特定词语的一个或多个候选发音添加到发音词典中。

Description

用于发音学习的计算机实现的方法、计算机可读介质和系统
技术领域
本公开总体涉及语音识别。
背景技术
自动语音识别系统试图匹配语音输入与词语的已知发音。当一个匹配被识别时,自动语音识别系统会输出其已知发音与语音输入匹配的特定词语,作为语音输入的转录。
发明内容
通常,本说明书中描述的主题的一个方面包含用于确定特定词语的发音的过程。发音可以为与说出该特定词语相对应的声音的描述。例如,系统可以包括用于词语“COLONEL”的“KER-NEL”的发音。系统将发音存储在发音词典中。发音词典可以被用作识别话语中的词语。例如,自动语音识别系统可以确定,来自用户的话语中的声音“KER-NEL”与存储在发音词典中的用于词语“COLONEL”的发音描述的声音匹配,并且因此将声音转录为“COLONEL”。
然而,系统可能缺乏用于一个或多个词语的合适发音。例如,用于特定词语的发音可能丢失,例如,用于这个特定词语的发音没有被包括进发音词典;或系统可以包括用于很少被使用的特定词语的发音,例如用于发音词典中的该特定词语的发音是不正确的。因此,系统可以识别缺少合适发音的特定词语,并可以确定用于特定词语的一个或多个发音。
一旦系统识别出特定词语以确定该特定词语的发音,则系统可以获取与该特定词语相对应的语音的音频样本,并且生成用于该特定词语的候选发音。候选发音可以描述特定词语的不同发音的不同声音。系统可以基于对特定词语中的字母发音的一个或多个规则来生成候选发音。
然后系统可以给对于特定词语生成的候选发音与该特定词语的音频样本之间的相似水平评分。对于特定候选发音与特定音频样本对的评分表示由该特定候选发音描述的声音与音频样本中的声音的匹配程度。
系统可以累积每个候选发音的评分。例如,对于特定候选发音,系统可以对所有音频样本的评分进行平均。而后系统可以基于候选发音的累积评分将一个或多个候选发音添加到发音词典中。例如,系统可以仅添加具有指示最接近的相似水平的累积评分的候选发音,或者连同它们的累积评分一起添加所有候选发音。可替代地,该系统可以确定没有具有合适的累积评分的候选发音,并且生成另外的候选发音来评分。
在某些方面,本说明书中所描述的主题可以体现在方法中,这些方法可以包括获取与特定词语相对应的语音的音频样本的操作和获取用于特定词语的多个候选发音的操作。进一步的操作包括,针对用于特定词语的每个候选发音和与特定词语相对应的语音的音频样本,生成反映该候选发音与音频样本之间的相似水平的评分。另外的操作可以包括累积每个候选发音的评分,并且基于所述多个候选发音的累积评分,将用于特定词语的一个或多个候选发音添加到发音词典中。
其它版本包括对应的系统、装置和计算机程序,所述计算机程序被编码在计算机存储设备中,被配置来执行方法中的操作。
这些和其它版本各自可以可选地包括下面的特征中的一个或多个。例如,在一些实现方式中,添加用于特定词语的一个或多个候选发音可以包括识别多个候选发音中的一个候选发音,其中该候选发音具有指示该候选发音与音频样本之间的相似水平比其它候选发音与音频样本之间的相似水平更接近的累积评分,并且将识别出的候选表达添加到发音词典中。
在另外的方面,添加用于特定词语的一个或多个候选发音可以包括将所有候选发音和所述多个候选发音的累积评分添加到发音词典中。
在一些实现方式中,获取用于特定词语的候选发音包括基于特定词语中的字母和发音的一个或多个规则,生成用于特定词语的候选发音。
在某些方面,获取用于特定词语的候选发音可以包括获取用于特定词语的候选发音的先前集合,并且针对先前集合中的特定词语的每个候选发音和与该特定词语相对应的语音的音频样本,生成反映先前集合中的该候选发音与音频样本之间的相似水平的评分。获取用于特定词语的候选发音可以进一步包括累积先前集合的每个候选发音的评分,确定没有先前集合的候选发音的累积评分反映比其它候选发音之间的相似水平更接近达预定量的候选发音与所述音频样本之间的相似水平,并且基于具有指示比其它候选发音与音频样本之间的相似水平更接近的候选发音与音频样本之间的相似水平的累积评分的候选发音,获取候选发音。
在另外的方面,获取音频样本可以包括访问查询转录日志,识别查询转录日志中的特定词语,并且识别出与查询转录日志中已经识别出的特定词语相对应的查询音频日志的一个或多个部分,作为音频样本。
在一些实现方式中,获取音频样本可以包括接收响应于说出特定词语的提示说出该特定词语的多个不同人的音频样本。
在某些方面,操作进一步包括确定发音词典没有包括用于特定词语的准确发音,其中获取与特定词语相对应的语音的音频样本响应于确定发音词典没有包括用于该特定词语的准确发音。
本说明中所描述的主题的一个或多个实现方式的细节在附图和下面的描述中阐述。主题的其它潜在的特征、方面和优点通过描述、附图和权利要求会变得显而易见。
附图说明
图1是用于确定用于特定词语的发音的示例系统的框图。
图2A和2B是示出用于特定词语的候选发音的评分的示例系统的框图。
图3是用于确定用于特定词语的发音的示例过程的流程图。
图4是示例性计算设备的图。
相同的附图标记在不同的图中指示相同的元素
具体实施方式
自动语音识别(ASR)系统可以使用包括用于特定词语的发音的发音词典来识别语音。发音可以将声音与特定词语相关联。然而,如果特定词语从发音词典中消失或发音词典包括了用于特定词语的不准确发音,自动语音识别系统可能不能准确识别与特定词语相对应的语音。
因此,系统可以被用于确定用于特定词语的发音。该系统可以初始地识别发音词典中没有包含其正确发音的特定词语。例如,该系统可以识别没有被包括进发音词典的单词,或者分析ASR的日志来识别没有被自动语音识别系统正确转录的单词,例如,识别用户纠正其初始转录的词语。
不管用于确定发音的特定词语如何被识别,该系统可以从不同的人那里获取与特定词语相对应的语音的音频样本。例如,该系统可以提示不同的用户说出特定词语,并且使用说出该特定词语的用户的记录作为该特定词语的音频样本。另外地或可替代地,该系统可以分析来自不同用户的话音查询日志的转录来识别何时特定词语在话音查询中被使用,并且使用话音记录的录音中对应的部分作为音频样本。
该系统还可以获取特定词语的候选发音。该系统可以分析特定词语中的字母、字素或其它单元,并应用发音字母的一个或多个规则来生成候选发音,该候选发音表示特定词语可以发出怎样的替代潜在发音。
该系统可以生成反映候选发音与音频样本之间的相似水平的评分,并累积每个候选发音的评分。相似也可以被称为符合或声学相似。例如,对于特定候选发音,该系统可以对其所有音频样本的评分进行平均。
然后该系统可以基于候选发音的累积评分将一个或多个候选发音添加到发音词典中。例如,该系统可以仅将具有指示候选发音与音频样本之间的最接近的相似水平的累积评分的候选发音添加到发音词典中,或者连同它们的累积评分一起添加所有候选发音。可替代的,该系统可以确定没有具有合适的累积评分的候选发音,并且生成另外的候选发音来评分,而且有可能添加到发音词典中。
图1是用于确定用于特定词语的发音的示例系统100的框图。系统100可以包括音频样本数据库130。数据库130可以包括不同人说出相同特定词语的音频样本。系统100可以提示不同的用户110说出特定词语,并且将说出该特定词语的用户110的记录作为该特定词语的音频样本存储在数据库130中。例如,系统100可以显示提示给用户110“请说‘QUVENZHANE’”,并将说出“QUVENZHANE”的用户110的记录作为音频样本来存储。
另外地或可替代地,系统100可以从音频和转录日志120中获取音频样本。系统100可以访问来自不同用户的话音查询日志的转录来识别何时特定词语在话音查询中被使用,并使用该话音查询的记录的对应的部分作为音频样本。例如,系统100可以识别具有包括特定词语“QUVENZHANE”的查询“HOWOLDISQUVENZHANEWALLIS”的转录日志,并且使用查询的记录的对应的部分作为音频样本。音频和转录日志120可以通过挖掘语音识别日志来获取,在语音识别日志中,用户手动纠正了语音识别结果。
系统100可以包括候选发音生成器140。系统100可以从生成器140获取特定词语的候选发音。生成器140可以分析特定词语中的字母、字素或其它单元,并应用发音字母的一个或多个规则来生成候选发音,该候选发音表示特定词语发出怎样的替代潜在发音。例如,生成器140可以确定特定词语“QUVENZHANE”包括字素“NE”,并且应用“NE”可以像“NAY”或“NE”一样发音的规则。因此,生成器140可以生成“QUVENZHANE”的第一候选发音为“QUE-VEN-ZHA-NE”,并且“QUVENZHANE”的第二候选发音为“QUE-VEN-ZHA-NAY”。
候选发音生成器140可以生成最大预定数目的候选发音。当候选发音生成器140生成最大预定数目的候选发音时,候选发音生成器140可以基于最有可能被应用的应用发音规则来生成发音。例如,候选发音生成器140可以仅应用被指示为对于特定字素最常是正确的规则。该规则可以表示电话序列中的字母或电话序列中的字素。基于向词语列表和包括列表中词语的发音的发音语料库的学习,候选发音生成器140可以学习到最有可能应用的序列。候选发音生成器140可以可替代地或另外地发现最弱的音素(phone)和提出替换弱音素的替代,例如,如下面关于图2B所描述的那样。在提出弱音素的替代的过程中,候选发音生成器140可以确定最有可能被应用的规则,这些规则还没有被应用到与弱音素相对应的字素或字母,并且将那些规则应用到所述字素或字母以生成替代的候选发音。
系统100可以包括候选发音评分器150。评分器150可以生成反映候选发音与音频样本之间的相似水平的评分。例如,第一候选发音“QUE-VEN-ZHA-NE可以对具有声音“KWAH-VEN-JA-NAY”的音频样本进行评分。评分器150可以基于第一候选发音与音频样本在声音上的差异确定相似性差并且分配“0.4”分,其中“0”分意味着没有相似性,例如声音完全不同,并且“1.0”分意味着完美相似性,即声音是相同的。评分器150还可以对部分评分,例如,如下面关于图2A和图2B进一步描述的候选发音的音素。
评分器150可以累积每个候选发音的评分。例如,对于特定候选发音,候选发音评分器150可以对所有音频样本的评分进行平均。可替代地,评分器150可以应用一些其它算法来计算累积评分,例如,计算中值或众数。
该系统可以包括候选发音选择器160。选择器160可以基于候选发音的累积评分选择一个或多个候选发音添加到发音词典170中。例如,选择器160可以选择具有指示候选发音与音频样本之间的最接近的相似水平的累积评分的候选发音,或者连同它们的累积评分一起添加所有候选发音。当将所有候选发音添加到发音词典170中时,存储在词典170中的累积评分可以在发音被用于识别语音时作为权重使用。例如,ASR可以使用存储在特定发音的发音词典170中的、指示很差的相似水平的累积评分作为对于使用此发音的权重。可替代地,选择器160可以确定没有具有合适的累积评分的候选发音,并且生成另外的候选发音来评分,如下面关于图2A和图2B进一步示出和说明的一样。
可以使用系统100的不同的配置,其中,音频样本数据库130、候选发音生成器140、候选发音评分器150、候选发音选择器160和发音词典170的功能可以结合,进一步地可以分布或互换。系统100可以在单个设备中实现,或分布在多个设备中实现。
图2A和图2B是示出用于特定词语的候选发音的评分的示例系统200和250的框图。在图2A中,系统200的候选发音生成器140生成用于特定词语的候选发音220。例如,生成器140可以生成用于词语“QUVENZHANE”的候选发音220,“QUE-VEN-ZHA-NE”、“QUE-VEN-ZHA-NAY”和“KWAH-VAN-ZHA-NE”。
候选发音评分器150可以获取已生成的候选发音220和音频样本210。音频样本210可以按照上面所述从数据库中获取。评分器150可以对候选发音分配评分230。评分器150可以为每个候选发音分配总评分。例如,评分器150可以对候选发音“QUE-VEN-ZHA-NE”分配总评分“0.2”。另外地或可替代地,评分器150可以为候选发音中的单独音素分配评分。例如,评分器150可以为候选发音“QUE-VEN-ZHA-NE”中的音素“QUE”、“VEN”、“ZHA”、“NE”分别分配“0.2”、“0.9”、“0.4”和“0.2”的评分。候选发音的总评分可以基于候选发音中音素的单独评分。例如,候选发音“QUE-VEN-ZHA-NE”的总评分“0.2”可以基于音素“QUE”、“VEN”、“ZHA”、“NE”的单独评分“0.2”、“0.9”、“0.4”和“0.2”。
评分器150可以为用于特定词语的每个候选发音和与该特定词语相对应的语音的音频样本计算评分。例如,如果有三个候选发音和四个音频样本,则评分器150可以计算全部十二个候选发音,三个候选发音中的每个四个评分。评分器150可以累积每个候选发音的评分。例如,对每个候选发音,评分器150可以对来自该候选发音的不同音频样本的评分取平均。评分器150还可以累积对每个候选发音的每个音素的评分。例如,评分器150可以通过累积来自所有四个音频样本的音素“NE”的评分,来计算候选表达“QUE-VEN-ZHA-NE”中的音素“NE”的评分“0.2”。
候选发音选择器160可以获取候选发音和评分,并且基于候选发音的累积评分将一个或多个候选发音添加到发音词典中。候选发音选择器160可以选择添加具有指示该候选发音与音频样本之间的最接近的相似水平的累积评分的候选发音,例如最高累积评分的候选发音。例如,选择器160可以确定候选发音“QUE-VEN-ZHA-NAY”具有最高的累积评分,并且将候选发音“QUE-VEN-ZHA-NAY”作为用于词语“QUEVENZHANE”的发音添加到发音词典中。可替代地,选择器160可以将多个候选发音连同它们的累积评分一起添加到发音词典中。例如,选择器160可以将所有候选发音连同它们的累积评分一起添加到发音词典中,作为用于特定词语的可能发音。
在一些实现方式中,选择器160可以确定候选发音连同音频样本的累积评分是否反映出候选发音与音频样本之间的相似水平比其它候选发音与音频样本之间的相似水平更接近达预定量。预定量可以是评分之间的减性差,例如,累积评分至少高出“0.1”;或者是乘性差,例如,累积评分至少高出10%。例如,选择器160可以确定候选发音“QUE-VEN-ZHA-NAY”的最高累积评分“0.4”比下一个最高累积评分“0.3”至少高出预定量“0.1”。基于这个确定,选择器160可以将候选发音“QUE-VEN-ZHA-NAY”添加到发音词典中,作为用于词语“QUEVENZHANE”的发音。
在一些实现方式中,选择器160可以确定是否累积评分自身大于预定阈值评分。例如,选择器160可以确定最高评分大于预定阈值评分“0.8”。基于这个确定,选择器160可以将候选发音“QUE-VEN-ZHA-NAY”添加到发音词典中。可替代地,选择器160可以连同具有高于预定阈值评分的累积评分的所有候选发音的其累积评分一起添加所有候选发音。
如果选择器160基于累积评分确定没有候选发音要被添加到发音词典中,例如,没有先前集合的候选发音的累积评分反映比其它候选发音与音频样本之间的相似水平更接近达预定量的候选发音与音频样本之间的相似水平,则选择器160可以基于候选发音的累积评分获取另外的候选发音。
图2B图示出了用于特定词语的另外的候选发音的评分的示例系统250的框图。在图2B中,候选发音生成器140可以基于如图2A所示的候选发音230的累积评分来生成另外的候选发音。生成器140可以接收可以与音频样本210具有高相似水平的候选发音的音素的指示。例如,生成器140可以接收累积评分,其中音素“VEN”的累积评分是“0.9”,音素“NAY”的累积评分是“0.9”,并且音素“KWAH”的累积评分是“0.8”,这就可以指示所有音素都与音频样本具有高相似水平。
生成器140可以生成包括被指示为与音频样本具有高相似水平的音素的另外的候选发音260。例如,生成器140可以生成包括音素“VEN”、“NAY”和“KWAH”的候选发音。例如,生成器140可以生成候选发音“KWAH-VEN-ZHA-NAY”、“KWAH-VEN-JA-NAY”和“KWAH-VEN-ZA-NAY”。
与上述类似,评分器150然后可以对另外生成的候选发音进行评分,并将累积评分连同另外生成的候选发音一起提供给候选发音选择器160。与上述类似,选择器160然后可以从另外生成的候选发音中选择候选发音添加到发音词典中。例如,选择器160可以选择候选发音“KWAH-VEN-JA-NAY”添加到发音词典中。
图3是用于确定用于特定词语的发音的示例过程的流程图。下面将过程300描述为由参考图1描述的系统100的组件执行。然而,过程300可以由其它系统或系统配置来执行。
过程300可以包括获取音频样本(302)。音频样本数据库130可以从响应于提示说出特定词语的用户110,或从音频和转录日志120中获取音频样本,并且候选发音评分器150可以从数据库130获取音频样本。例如,数据库130可以获取“QUVENZHANE”的音频样本,并且评分器150可以从数据库130获取“QUVENZHANE”的音频样本。
过程300可以包括获取候选发音(304)。例如,参考图2A,生成器140可以获取特定词语“QUVENZHANE”,并且对“QUVENZHANE”中的字母应用发音的一个或多个规则来生成候选发音“QUE-VEN-ZHA-NE”、“QUE-VEN-ZHA-NAY”和“KWAH-VEN-ZHA-NE”。评分器150可以获取由生成器140生成的候选发音。
过程300可以包括生成反映候选发音与音频样本之间的相似水平的评分(306)。例如,评分器150可以对每个候选发音与音频样本对生成反映该对中的候选发音与该对中的音频样本之间的相似水平的评分。
过程300可以包括累积每个候选发音的评分(308)。例如,对每个候选发音,评分器150可以累积具有不同音频样本的特定候选发音的评分。
过程300可以包括将特定词语的候选发音添加到发音词典中(310)。例如,候选发音选择器160可以确定候选发音“QUE-VEN-ZHA-NAY”具有累积评分“0.4”,它比所有其它的候选发音的累积评分至少高“0.1”,并且可以将候选发音“QUE-VEN-ZHA-NAY”添加到发音词典中,作为用于词语“QUVENZHANE”的发音。
图4示出了可用于实现在此描述的技术的计算设备400和移动计算设备450的示例。计算设备400意在表示各种形式的数字计算机,诸如笔记本、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适合的计算机。移动计算设备450意在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能手机以及其它类似的计算设备。这里示出的组件,它们的连接和关系,以及它们的功能,仅是示例,并不意味就仅限于此。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404的高速接口408和多个高速扩展端口410,以及连接到低速扩展端口414与存储设备406的低速接口412。处理器402、存储器404、存储设备406、高速接口408、高速扩展端口410以及低速接口412中的每个都使用各种总线互连,并且可以被安装在共同主板上,或是采用其它适合的方式安装。处理器402能处理在计算设备400内部执行的指令,包括存储在存储器404中或者存储在存储设备406上的指令用来在外部输入/输出设备(诸如,耦接到高速接口408的显示器416)上显示GUI的图形信息。在其它的实现方式中,多个处理器和/或多个总线以适合的方式连同多个存储器和多个类型的存储器一起被使用。还有,多个计算设备可以被连接,其中每个设备提供必要操作的部分(例如,作为服务器阵列、刀片服务器群组或多处理器系统)。
存储器404在计算设备400内存储信息。在一些实现方式中,存储器404是易失性存储器单元。在一些实现方式中,存储器404是非易失性存储器单元。存储器404也可以是另外一种形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供大容量存储。在一些实现方式中,存储设备406可以是或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备,闪存或其它类似的固态存储设备,或设备阵列,包括存储区域网络中的设备或其它配置。指令能被存储在信息载体中。所述指令当被一个或多个处理设备(例如,处理器402)执行时,执行一种或多种方法,诸如上述那些方法。指令也可以由诸如计算机或机器可读介质(例如,存储器404、存储设备406、或处理器402上的存储器)的一个或多个存储设备存储。
高速接口408管理计算设备400的带宽密集操作,而低速接口412管理较低的带宽密集操作。这样的功能分配仅是一个示例。在一些实现方式中,高速接口408被耦接到存储器404、显示器416(例如,通过图形处理器或加速度计)和高速扩展端口410,该高速扩展端口410可以接受各种扩展卡(未示出)。在该实现方式中,低速接口412被耦接到存储设备406和低速扩展端口414。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以被耦接到一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪,或者例如通过网络适配器被耦接到网络设备,诸如交换机或路由器。
如图所示,计算设备400可以以许多不同的形式实现。例如,它可以实现为标准服务器420,或是这样服务器群组的倍数。另外,它可以被实现为诸如笔记本电脑422的个人电脑。它还可以被实现为机架式服务器系统424的一部分。可替代地,可以将来自计算设备400的组件与诸如移动计算设备450的移动设备(未示出)中的其它组件进行组合。每个这样的设备可以包含计算设备400和移动计算设备450中的一个或多个,并且整个系统可以由彼此通信的多个计算设备构成。
移动计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发机468等等。移动计算设备450还可以被提供有存储设备,诸如微驱动设备或其它设备,用来提供额外的存储。处理器452、存储器464、显示器454、通信接口466和收发机468中的每个都使用各种总线互连,而且多个组件可以被安装在共同主板上,或是以其它适合的方式安装。
处理器452能执行移动计算设备450内的指令,包括存储在存储器464中的指令。处理器452可以被实现为芯片的芯片集,其包括单独的和多个模拟和数字处理器。处理器452可以提供,例如,对移动计算设备450中其他组件的协调,诸如用户接口的控制、由移动计算设备450运行的应用和通过移动计算设备450进行的无线通信。
处理器452可以通过控制接口458和耦接到显示器454的显示接口456与用户进行通信。显示器454可以是,例如,TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器,或其它适合的显示技术。显示接口456可以包括适合的电路来驱动显示器454以向用户呈现图形与其它信息。控制接口458可以从用户接收命令,并转换命令,用于向处理器452提交。另外,外部接口462可以提供与处理器452的通信,以便使得移动计算设备450能够与其它设备进行近区域通信。例如,在一些实现方式中,外部接口462可以提供有线通信,或在其它实现方式中,外部接口462可以提供无线通信,并且可以使用多个接口。
存储器464在移动计算设备450内存储信息。存储器464能被实现为计算机可读介质或媒介、易失性存储器单元或非易失性存储器单元中的一个或多个。还可以提供扩展存储器474,并且扩展存储器474通过扩展接口472与移动计算设备450连接,该扩展接口472可以包括,例如,SIMM(单列直插存储器模块)卡接口。扩展存储器474可以为移动计算设备450提供额外的存储空间,或者也可以为移动计算设备450存储应用或其它信息。特别地,扩展存储器474可以包含用于执行的指令或补充以上所述过程的指令,并且还可以包含安全信息。这样,例如,扩展存储器474可以作为移动计算设备450的安全模块被提供,并且可以用允许安全使用移动计算设备450的指令来编程。另外,可以经由SIMM卡连同额外的信息一起提供安全应用,诸如用以无法被黑客破坏的方式将识别信息放置在SIMM卡上。
如下所述,存储器可以包括,例如,闪存和/或NVRAM(非易失性随机存取存储器)。在一些实现方式中,指令被存储在信息载体中。所述指令当被一个或多个处理设备(例如,处理器452)执行时,执行一种或多种方法,诸如上述那些方法。指令还能被一个或多个存储设备存储,诸如一个或多个计算机或机器可读介质(例如,存储器464、扩展存储器474或处理器452上的存储器)。在一些实现方式中,指令能在传播信号中被接收,例如,通过收发机468或外部接口462。
移动计算设备450可以通过通信接口466进行无线通信,该通信接口466可以在必要位置包括数字信号处理电路。通信接口466可以在各种模式或协议下提供通信,诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线电服务)等。例如,这样的通信可以通过收发机468使用射频而发生。另外,短距离通信可以使用诸如蓝牙、WiFi或其它这样的收发机(未示出)而发生。此外,GPS(全球定位系统)接收机模块470可以向移动计算设备450提供额外的导航和与定位相关的无线数据,这可以以其它适合的方式被运行在移动计算设备450上的应用使用。
移动计算设备450还可以使用音频编解码器460进行可听地通信,音频编解码器460可以从用户接收说出的信息,并将它转换为可用的数字信息。音频编解码器460同样也可以生成用户的可听声音,诸如通过例如移动计算设备450的听筒上的扬声器。这样的声音可以包括来自语音电话呼叫的声音,可以包括所记录的声音(例如,语音消息、音乐文件等),并且也可以包括由运行在移动计算设备450上的应用生成的声音。
如图所示,移动计算设备450可以以多种不同的形式实现。例如,它可以实现为蜂窝电话480。它也可以实现为智能手机482、个人数字助理或其它类似移动设备的一部分。
说明书中所述的主题、功能操作和过程的实施例能被实现在数字电子电路中、有形体现的计算机软件或固件中、计算机硬件中,包括本说明书中公开的结构及其结构等同物,或是其一个或多个的组合。本说明书中所述的主题的实施例能被实现为一个或多个计算机程序,即,编码在有形非易失性程序载体上的用来被数据处理装置执行,或控制数据处理装置的操作的计算机程序指令的一个或多个模块。可替代地或另外地,程序指令能被编码在人工生成的传播信号上,例如机器生成的电、光、或电磁信号,该信号被生成以对信息进行编码,以便传输给合适的接收装置,以用于由数据处理装置来执行。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储器设备,或其一个或多个的组合。
词语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器,例如,包括可编程处理器、计算机、或多处理器或计算机。装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外,装置还可以包括,在所讨论的计算机程序中创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统,或其一种或多种的组合的代码。
计算机程序(也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本、或代码)能以任何形式的编程语言编写,包括汇编或解释语言,或声明或程序语言,而且它可以以任何形式被部署,包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。计算机程序能被存储在存有其它程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本),所讨论的程序专用的单个文件中,或多个协同文件中(例如,存储一个或多个模块、子程序或部分代码的文件)。计算机程序能被部署以在一个计算机上执行,或在位于同一个地点或是分布在多个地点并通过通信网络互连的多个计算机上执行。
本说明书中所描述的过程和逻辑流程能由执行一个或多个计算机程序的一个或多个可编程计算机来执行,以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程也能由专用逻辑电路执行,并且装置也能被实现为专用逻辑电路,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合执行计算机程序的计算机包括,举例来说,可以基于通用或专用微处理器或者两者,或任何其它种类的中央处理单元。通常,中央处理单元接收来自只读存储器或随机存取存储器的指令和数据或两者。计算机的基本元件是用于运行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。一般地,计算机也包括一个或多个大容量存储设备,或可操作地耦接到一个或多个大容量存储设备以从其接收数据或向其传送数据或两者,所述一个或多个大容量存储设备例如,磁盘、磁光盘或光盘。然而,计算机不必要具有这样的设备。此外,计算机可以嵌入另一台设备,例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收机或便携式存储设备(例如,通用串行总线(USB)闪存驱动器),等等。
适合于存储计算机程序指令和数据的计算机可读媒介包括所有形式的非易失性存储器、媒介和存储器设备,包括例如半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如,内部硬盘或可移动盘;磁光盘;和CD-ROM和DVD-ROM盘。处理器和存储器可以被专用逻辑电路补充,或被包含进专用逻辑电路中。
为提供与用户的交互,本说明中所述的主题的实施例能够在具有显示设备和键盘以及定点设备的计算机上实现,所述显示设备,例如CRT(阴极射线管)或LCD(液晶显示器)监视器,用来向用户显示信息;所述键盘和定点设备,例如鼠标或轨迹球,通过它们,用户能够向计算机提供输入。其它种类的设备也能用来提供与用户的交互;例如,提供给用户的反馈可以是任意形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入能以任一形式被接收,包括声学、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从用户的客户端设备上的web浏览器接收到的请求而向该web浏览器发送web页面。
本说明中所描述的主题的实施例能在包括后端组件的计算系统中实现,例如作为数据服务器;或包括中间件组件的计算系统中实现,例如应用服务器;或包括前端组件的计算系统中实现,例如具有图形用户界面或Web浏览器的客户端计算机,通过所述图形用户界面或Web浏览器,用户能与本说明书中所描述的主题的实现方式交互;或一个或多个这样的后端、中间件或前端组件的任一组合。系统的组件能通过任一形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如互联网。
计算系统可以包括客户端和服务器。客户端与服务器通常互相距离较远,并且典型的方式是通过通信网络交互。凭借运行在相应的计算机上并且互相具有客户端-服务器关系的计算机程序,客户端与服务器的关系得以产生。
虽然本说明包含许多特定的实现方式细节,但是这些不应该被理解为对所要求保护的内容的范围的限制,而应该作为对具体实施例所特定的特征的描述。在单独的实施例的背景下本说明书中所描述的某些特性也能以组合的形式在单个实施例中实现。反过来,在单个实施例背景下所描述的各种特征也能单独在多个实施例中或任一合适的子组合中实现。并且,虽然以上将特征描述为在某些组合中起作用并且甚至最初要求如此,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以被从该组合中排除,并且所要求保护的组合可以指其子组合或其子组合的变体。
类似地,虽然在附图中操作被用一种特定的顺序来描绘,但是这不应被理解成为了取得渴望的结果,这些操作需要以所示的特定顺序或连续顺序来执行,或所有图示的操作都要被执行。在某些情况下,多任务和并行处理可能是有利的。并且,上述实施例中的各种系统组件的分离不应被理解成在所有实施例中都需要这样的分离,而应该被理解成所述的程序组件和系统通常能在单个软件产品中被集成在一起或被封装进多个软件产品。
已描述了主题的特定的实施例。其它的实施例在所附权利要求的范围内。例如,权利要求中记载的操作能够以不同的顺序执行,并且仍然可以取得渴望的结果。作为一个示例,为了取得渴望的结果,附图中描绘的过程没有必要要求所示的特定顺序或连续顺序。在某些实现方式中,多任务和并行处理可能是有利的。可以提供其它步骤,或从描述的过程中删去一些步骤。因此,其它的实现方式也在所附权利要求的范围内。

Claims (20)

1.一种计算机实现的方法,包括:
获取与特定词语相对应的语音的音频样本;
获取用于所述特定词语的多个候选发音;
针对用于所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本,生成反映该候选发音与所述音频样本之间的相似水平的评分;
累积每个候选发音的评分;并且
基于所述多个候选发音的累积评分,将用于所述特定词语的一个或多个候选发音添加到发音词典中。
2.根据权利要求1所述的方法,其中,添加用于所述特定词语的一个或多个候选发音包括:
识别所述多个候选发音中的一个候选发音,该候选发音具有指示该候选发音与所述音频样本之间的相似水平比其它候选发音与所述音频样本之间的相似水平更接近的累积评分;并且
将所识别出的候选表达添加到所述发音词典中。
3.根据权利要求1所述的方法,其中,添加用于所述特定词语的一个或多个候选发音包括:
将所有的候选发音和所述多个候选发音的累积评分添加到所述发音词典中。
4.根据权利要求1所述的方法,其中,获取用于所述特定词语的多个候选发音包括:
基于所述特定词语中的字母、字素或其它单元、以及发音的一个或多个规则,生成用于所述特定词语的多个候选发音。
5.根据权利要求1所述的方法,其中,获取用于所述特定词语的多个候选发音包括:
获取用于所述特定词语的候选发音的先前集合;
针对所述先前集合中的所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本,生成反映所述先前集合的所述候选发音与所述音频样本之间的相似水平的评分;
累积所述先前集合的每个候选发音的评分;
确定没有所述先前集合的候选发音的累积评分反映比其它候选发音与所述音频样本之间的相似水平更接近达预定量的所述候选发音与所述音频样本之间的相似水平;并且
基于具有指示所述音频样本与其它候选发音之间的相似水平更接近的累积评分的所述候选发音,获取所述多个候选发音。
6.根据权利要求1所述的方法,其中,获取音频样本包括:
访问查询转录日志;
识别所述查询转录日志中的所述特定词语;并且
识别出与所述查询转录日志中已经识别出的特定词语相对应的查询音频日志的一个或多个部分,作为所述音频样本。
7.根据权利要求1所述的方法,其中,获取音频样本包括:
接收响应于说出所述特定词语的提示说出所述特定词语的多个不同人的音频样本。
8.根据权利要求1所述的方法,进一步包括:
确定所述发音词典没有包括用于所述特定词语的准确发音,
其中,获取与特定词语相对应的语音的音频样本响应于确定所述发音词典没有包括用于所述特定词语的准确发音。
9.一种存储包括指令的软件的计算机可读介质,所述指令可被一个或多个计算机执行,在这样的执行中,使得一个或多个计算机执行操作,包括:
获取与特定词语相对应的语音的音频样本;
获取用于所述特定词语的多个候选发音;
针对用于所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本,生成反映该候选发音与所述音频样本之间的相似水平的评分;并且
基于所述多个候选发音的累积评分,将用于所述特定词语的一个或多个候选发音添加到发音词典中。
10.根据权利要求9所述的介质,其中,添加用于所述特定词语的一个或多个候选发音包括:
识别所述多个候选发音中的一个候选发音,该候选发音具有指示该候选发音与所述音频样本之间的相似水平比其它候选发音与所述音频样本之间的相似水平更接近的累积评分;并且
将所识别出的候选表达添加到所述发音词典中。
11.根据权利要求9所述的介质,其中,添加用于所述特定词语的一个或多个候选发音包括:
将所有候选发音和所述多个候选发音的累积评分添加到所述发音词典中。
12.根据权利要求9所述的介质,其中,获取用于所述特定词语的多个候选发音包括:
获取用于所述特定词语的候选发音的先前集合;
针对所述先前集合中的所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本,生成反映所述先前集合的所述候选发音与所述音频样本之间的相似水平的评分;
累积所述先前集合的每个候选发音的评分;
确定没有所述先前集合的候选发音的累积评分反映比其它候选发音与所述音频样本之间的相似水平更接近达预定量的所述候选发音与所述音频样本之间的相似水平;并且
基于具有指示所述音频样本与其它候选发音之间的相似水平更接近的累积评分的所述候选发音,获取所述多个候选发音。
13.根据权利要求9所述的介质,其中,获取音频样本包括:
访问查询转录日志;
识别所述查询转录日志中的所述特定词语;并且
识别出与所述查询转录日志中已经识别出的特定词语相对应的查询音频日志的一个或多个部分,作为所述音频样本。
14.根据权利要求9所述的介质,其中,获取音频样本包括:
接收响应于说出所述特定词语的提示说出所述特定词语的多个不同人的音频样本。
15.一种系统,包括:
一个或多个计算机和一个或多个存储可操作的指令的存储设备,所述指令当被所述一个或多个计算机执行时,使得所述一个或多个计算机执行操作,包括:
获取与特定词语相对应的语音的音频样本;
获取用于所述特定词语的多个候选发音;
针对用于所述特定词语的每个候选发音和与所述特定词语相对应的语音音频样本,生成反映该候选发音与所述音频样本之间的相似水平的评分;
累积每个候选发音的评分;并且
基于所述多个候选发音的累积评分,将用于所述特定词语的一个或多个候选发音添加到发音词典中。
16.根据权利要求15所述的系统,其中,添加用于所述特定词语的一个或多个候选发音包括:
识别所述多个候选发音中的一个候选发音,该候选发音具有指示该候选发音与所述音频样本之间的相似水平比其它候选发音与所述音频样本之间的相似水平更接近的累积评分;并且
将所识别出的候选表达添加到所述发音词典中。
17.根据权利要求15所述的系统,其中,添加用于所述特定词语的一个或多个候选发音包括:
将所有候选发音和所述多个候选发音的累积评分添加到所述发音词典中。
18.根据权利要求15所述的系统,其中,获取用于所述特定词语的多个候选发音包括:
获取用于所述特定词语的候选发音的先前集合;
针对所述先前集合中的所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本,生成反映所述先前集合的所述候选发音与所述音频样本之间的相似水平的评分;
累积所述先前集合的每个候选发音的评分;
确定没有所述先前集合的候选发音的累积评分反映比其它候选发音与所述音频样本之间的相似水平更接近达预定量的所述候选发音与所述音频样本之间的相似水平;并且
基于具有指示所述音频样本与其它候选发音之间的相似水平更接近的累积评分的所述候选发音,获取所述多个候选发音。
19.根据权利要求15所述的系统,其中,获取所述音频样本包括:
访问查询转录日志;
识别所述查询转录日志中的所述特定词语;并且
识别出与所述查询转录日志中已经识别出的特定词语相对应的查询音频日志的一个或多个部分,作为所述音频样本。
20.根据权利要求15所述的系统,其中,获取音频样本包括:
接收响应于说出所述特定词语的提示说出所述特定词语的多个不同人的音频样本。
CN201480030812.9A 2013-06-28 2014-03-26 用于发音学习的计算机实现的方法、计算机可读介质和系统 Active CN105340004B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/930,495 2013-06-28
US13/930,495 US9741339B2 (en) 2013-06-28 2013-06-28 Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
PCT/US2014/031884 WO2014209449A1 (en) 2013-06-28 2014-03-26 Computer-implemented method, computer-readable medium and system for pronunciation learning

Publications (2)

Publication Number Publication Date
CN105340004A true CN105340004A (zh) 2016-02-17
CN105340004B CN105340004B (zh) 2019-09-10

Family

ID=50625199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480030812.9A Active CN105340004B (zh) 2013-06-28 2014-03-26 用于发音学习的计算机实现的方法、计算机可读介质和系统

Country Status (4)

Country Link
US (1) US9741339B2 (zh)
EP (1) EP3014608B1 (zh)
CN (1) CN105340004B (zh)
WO (1) WO2014209449A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189750A (zh) * 2018-02-23 2019-08-30 株式会社东芝 词语检测系统、词语检测方法以及记录介质
CN110930988A (zh) * 2019-12-13 2020-03-27 广州三人行壹佰教育科技有限公司 一种音素评分的确定方法及系统
CN111079428A (zh) * 2019-12-27 2020-04-28 出门问问信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质
CN112071302A (zh) * 2016-10-03 2020-12-11 谷歌有限责任公司 计算代理的合成语音选择

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10147414B1 (en) * 2014-05-15 2018-12-04 Namecoach, Inc Link-based audio-recording, collection, collaboration, embedding and delivery system
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) * 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9401142B1 (en) 2015-09-07 2016-07-26 Voicebox Technologies Corporation System and method for validating natural language content using crowdsourced validation jobs
US9786277B2 (en) 2015-09-07 2017-10-10 Voicebox Technologies Corporation System and method for eliciting open-ended natural language responses to questions to train natural language processors
WO2017044409A1 (en) 2015-09-07 2017-03-16 Voicebox Technologies Corporation System and method of annotating utterances based on tags assigned by unmanaged crowds
US9361887B1 (en) 2015-09-07 2016-06-07 Voicebox Technologies Corporation System and method for providing words or phrases to be uttered by members of a crowd and processing the utterances in crowd-sourced campaigns to facilitate speech analysis
US9519766B1 (en) 2015-09-07 2016-12-13 Voicebox Technologies Corporation System and method of providing and validating enhanced CAPTCHAs
US9448993B1 (en) * 2015-09-07 2016-09-20 Voicebox Technologies Corporation System and method of recording utterances using unmanaged crowds for natural language processing
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
KR102443087B1 (ko) * 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10152965B2 (en) * 2016-02-03 2018-12-11 Google Llc Learning personalized entity pronunciations
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US11056105B2 (en) 2017-05-18 2021-07-06 Aiqudo, Inc Talk back from actions in applications
US11043206B2 (en) 2017-05-18 2021-06-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
US11340925B2 (en) 2017-05-18 2022-05-24 Peloton Interactive Inc. Action recipes for a crowdsourced digital assistant system
EP3635578A4 (en) * 2017-05-18 2021-08-25 Aiqudo, Inc. SYSTEMS AND PROCEDURES FOR CRWODSOURCING ACTIONS AND COMMANDS
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10449440B2 (en) 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
JP6869835B2 (ja) * 2017-07-06 2021-05-12 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、端末装置、及び辞書管理方法
US10621317B1 (en) 2017-09-14 2020-04-14 Electronic Arts Inc. Audio-based device authentication system
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10546580B2 (en) 2017-12-05 2020-01-28 Toyota Motor Engineering & Manufacuturing North America, Inc. Systems and methods for determining correct pronunciation of dictated words
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10629192B1 (en) * 2018-01-09 2020-04-21 Electronic Arts Inc. Intelligent personalized speech recognition
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US10926173B2 (en) 2019-06-10 2021-02-23 Electronic Arts Inc. Custom voice control of video game character
CN110718210B (zh) * 2019-09-25 2022-06-07 北京字节跳动网络技术有限公司 一种英文错误发音的识别方法、装置、介质和电子设备
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11978434B2 (en) * 2021-09-29 2024-05-07 Microsoft Technology Licensing, Llc Developing an automatic speech recognition system using normalization
US11972758B2 (en) 2021-09-29 2024-04-30 Microsoft Technology Licensing, Llc Enhancing ASR system performance for agglutinative languages

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1202686A (zh) * 1997-06-13 1998-12-23 摩托罗拉公司 根据词汇发音生成后词汇发音的方法、设备和产品
CN1233803A (zh) * 1998-04-29 1999-11-03 松下电器产业株式会社 利用判定树生成拼写单词的发音和对其评分的方法和设备
CN1235458A (zh) * 1998-01-14 1999-11-17 索尼公司 信息发送和接收装置以及信息发送和接收方法
CN1270361A (zh) * 1999-04-09 2000-10-18 国际商业机器公司 使用内容和扬声器信息进行音频信息检索的方法和装置
CN1311881A (zh) * 1998-06-04 2001-09-05 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1312543A (zh) * 2000-02-28 2001-09-12 索尼公司 语音识别装置、识别方法以及记录介质
JP2001249679A (ja) * 2000-03-03 2001-09-14 Rikogaku Shinkokai 外国語自律学習システム
JP2003005625A (ja) * 2001-06-25 2003-01-08 Masahiro Mibu 語彙を視覚化して覚える英単語学習教材
CN1517978A (zh) * 2003-01-28 2004-08-04 ������������ʽ���� 利用发音记述语言执行声音合成的终端设备
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
CN101236743A (zh) * 2007-01-30 2008-08-06 国际商业机器公司 生成高质量话音的系统和方法
CN101572083A (zh) * 2008-04-30 2009-11-04 富士通株式会社 韵律词组词方法和装置
US20100145704A1 (en) * 2008-12-04 2010-06-10 At&T Intellectual Property I, L.P. System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling
CN102201235A (zh) * 2010-03-26 2011-09-28 三菱电机株式会社 发音词典的构建方法和系统
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20130059276A1 (en) * 2011-09-01 2013-03-07 Speechfx, Inc. Systems and methods for language learning
US8777626B2 (en) * 2012-05-03 2014-07-15 Maxscholar, Llc Interactive system and method for multi-sensory learning

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1202686A (zh) * 1997-06-13 1998-12-23 摩托罗拉公司 根据词汇发音生成后词汇发音的方法、设备和产品
CN1235458A (zh) * 1998-01-14 1999-11-17 索尼公司 信息发送和接收装置以及信息发送和接收方法
CN1233803A (zh) * 1998-04-29 1999-11-03 松下电器产业株式会社 利用判定树生成拼写单词的发音和对其评分的方法和设备
CN1311881A (zh) * 1998-06-04 2001-09-05 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1270361A (zh) * 1999-04-09 2000-10-18 国际商业机器公司 使用内容和扬声器信息进行音频信息检索的方法和装置
CN1312543A (zh) * 2000-02-28 2001-09-12 索尼公司 语音识别装置、识别方法以及记录介质
JP2001249679A (ja) * 2000-03-03 2001-09-14 Rikogaku Shinkokai 外国語自律学習システム
JP2003005625A (ja) * 2001-06-25 2003-01-08 Masahiro Mibu 語彙を視覚化して覚える英単語学習教材
CN1517978A (zh) * 2003-01-28 2004-08-04 ������������ʽ���� 利用发音记述语言执行声音合成的终端设备
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
CN101236743A (zh) * 2007-01-30 2008-08-06 国际商业机器公司 生成高质量话音的系统和方法
CN101572083A (zh) * 2008-04-30 2009-11-04 富士通株式会社 韵律词组词方法和装置
US20100145704A1 (en) * 2008-12-04 2010-06-10 At&T Intellectual Property I, L.P. System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling
CN102201235A (zh) * 2010-03-26 2011-09-28 三菱电机株式会社 发音词典的构建方法和系统
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112071302A (zh) * 2016-10-03 2020-12-11 谷歌有限责任公司 计算代理的合成语音选择
CN110189750A (zh) * 2018-02-23 2019-08-30 株式会社东芝 词语检测系统、词语检测方法以及记录介质
CN110189750B (zh) * 2018-02-23 2022-11-15 株式会社东芝 词语检测系统、词语检测方法以及记录介质
CN110930988A (zh) * 2019-12-13 2020-03-27 广州三人行壹佰教育科技有限公司 一种音素评分的确定方法及系统
CN111079428A (zh) * 2019-12-27 2020-04-28 出门问问信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质
CN111079428B (zh) * 2019-12-27 2023-09-19 北京羽扇智信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质

Also Published As

Publication number Publication date
WO2014209449A1 (en) 2014-12-31
US9741339B2 (en) 2017-08-22
US20150006178A1 (en) 2015-01-01
CN105340004B (zh) 2019-09-10
EP3014608A1 (en) 2016-05-04
EP3014608B1 (en) 2018-02-14

Similar Documents

Publication Publication Date Title
CN105340004A (zh) 用于发音学习的计算机实现的方法、计算机可读介质和系统
EP3121809B1 (en) Individualized hotword detection models
US11093813B2 (en) Answer to question neural networks
CN109844740B (zh) 跟进话音查询预测
US8543375B2 (en) Multi-mode input method editor
US20150073790A1 (en) Auto transcription of voice networks
US9837070B2 (en) Verification of mappings between phoneme sequences and words
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
CN111159364B (zh) 对话系统、对话装置、对话方法以及存储介质
US8060365B2 (en) Dialog processing system, dialog processing method and computer program
CN107112009B (zh) 用于生成混淆网络的方法、系统和计算机可读存储设备
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
US11211065B2 (en) System and method for automatic filtering of test utterance mismatches in automatic speech recognition systems
CN107533841A (zh) 用于关键字的语音识别
CN110998719A (zh) 信息处理设备和信息处理方法
US20190244610A1 (en) Factor graph for semantic parsing
US9747891B1 (en) Name pronunciation recommendation
EP4285272A1 (en) Root cause pattern recognition based model training
US20240071381A1 (en) Method and apparatus for multi-party dialogue discourse parsing as a sequence generation
CN114462364A (zh) 录入信息的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

GR01 Patent grant
GR01 Patent grant