CN114127841A - 根据先前发生的假设术语和/或场境数据的语音识别假设生成 - Google Patents
根据先前发生的假设术语和/或场境数据的语音识别假设生成 Download PDFInfo
- Publication number
- CN114127841A CN114127841A CN201980097908.XA CN201980097908A CN114127841A CN 114127841 A CN114127841 A CN 114127841A CN 201980097908 A CN201980097908 A CN 201980097908A CN 114127841 A CN114127841 A CN 114127841A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- term
- hypotheses
- hypothesis
- terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 105
- 230000000153 supplemental effect Effects 0.000 claims description 39
- 230000009471 action Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 12
- 239000013589 supplement Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 9
- 238000013507 mapping Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 21
- 235000015241 bacon Nutrition 0.000 description 10
- 235000013405 beer Nutrition 0.000 description 8
- 230000003993 interaction Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012913 prioritisation Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本文阐述的实现涉及语音识别技术,用于处理用户之间语音变化(例如,由于不同口音)和处理用户场境的特征以便在解释来自用户的口头话语时扩展多个语音识别假设。为了适应用户的口音,可以过滤掉多个语音识别假设共有的术语,以便识别一组假设中明显不一致的术语。不一致术语之间的映射可以作为术语对应数据为后续用户存储。以这种方式,可以生成补充语音识别假设并将其进行基于概率的评分,以识别与用户提供的口头话语最相关的语音识别假设。在一些实现中,在评分之前,可以基于场境数据(诸如屏幕内容和/或应用能力)补充假设。
Description
背景技术
人类可以与本文称为“自动助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“会话代理”等)的交互式软件应用进行人-计算机对话。例如,人类(当他们与自动助理交互时可以被称为“用户”)可以使用口头自然语言输入(即话语)和/或通过提供文本(例如,打字的)自然语言输入而提供命令和/或请求,口头自然语言输入在某些情况下可以被转换为文本且然后被处理。
在一些情况下,自动助理可以被具有其各自口音变化的各种用户访问,从而产生关于语音识别的准确性问题。例如,某些口音会导致语音识别过程始终错误地识别某些单词、短语和/或音素。结果,具有这种口音的用户可能不得不重复提供口头话语,直到语音识别过程为用户生成准确的响应。尽管某些语音识别过程可能会尝试适应某些口音,但此类过程可能仅从用户已明确识别的错误中学习。这会导致解决某些语音识别问题的延迟,并可能浪费计算资源。例如,处理针对自动助理的口头话语以促进纠正自动助理的识别错误对于资源有限的便携式电子设备来说可能是繁重的。
发明内容
鉴于用户之间的口音差异和/或其他语音差异,这里阐述的实现涉及用于补充各种语音识别假设的语音识别过程,以便减少语音内容误识别的发生。语音差异(诸如但不限于口音和语音障碍)可能跨用户基础存在,甚至位于相似地理区域的用户之间也是如此。通过减少误识别的发生,所公开的技术可以提供更有效的语音识别过程。能够准确地处理各种不同口音的语音可以减少口头话语被误识别、用户需要重复误识别的口头话语和/或计算设备初始化口头话语不想要的动作的情况。这些意外事件中的每一个都会浪费计算资源。然而,本文中讨论的实现可以减轻此类事件,从而保留必要的计算资源,诸如电池寿命、处理带宽和/或网络带宽。
最初,为了使设备的语音识别能力适应口音的变化和/或其他语音差异,可以处理对应于用户提供的口头话语的音频数据,以便生成多个不同的语音识别假设。多个不同的语音识别假设的每个语音识别假设可以包括被估计为对应于用户提供的口头话语的原始自然语言内容的自然语言内容。例如,具有爱尔兰口音的用户可以向计算设备提供口头话语以识别在计算设备的相机的视野内的对象。对象可以是例如位于城市闹市区的雕像,并且为了识别对象,用户可以提供口头话语,诸如“Assistant,what is the object to theright of the camera?(助理,相机右侧的对象是什么?)”。可以处理表征口头话语的音频数据以生成多个语音识别假设。作为响应生成的语音识别假设可以包括短语诸如“Assistant,what is the object to the Detroit of the camera(助理,相机的底特律的对象是什么)”和“Assistant,what is the object to the right of the camera(助理,相机的右侧的对象是什么)”。
为了根据用户的口音和/或其他语音差异来调整语音识别过程,可以在语音识别假设集合中识别一个或多个匹配的自然语言术语。此外,还可以识别语音识别假设集合内的两个或更多个不一致的自然语言术语。在一些实现中,可以根据两个或更多个不一致的自然语言术语在它们各自的语音识别假设内是否共享公共位置来识别两个或更多个不一致的自然语言术语。例如,术语“object to(的对象)”和术语“of the camera(相机的)”是与上面提供的两个语音识别假设相关的匹配术语。此外,术语“Detroit(底特律)”和“theright(右侧)”在两个语音识别假设之间是不一致的。此外,这两个不一致的术语在每个语音识别假设中提供的自然语言术语“object to”和“of the camera”之间共享公共位置,其中,术语“object to”被认为是匹配术语,因为该术语是存在于两个语音识别假设中,并且术语“of the camera”也被认为是匹配术语,因为该术语存在于两个语音识别假设中。
可以对多个语音识别假设进行优先化和/或排序,以便识别多个语音识别假设中的特定语音识别假设,其被估计为最对应或最准确地反映原始自然语言用户口头话语的内容。例如,可以例如基于大于其他语音识别假设的优先的语音识别假设的全部和/或部分的发生频率,和/或基于自然语言模型的输出,来选择语音识别假设“Assistant,what is theobject to the right of the camera(助理,相机的右侧的对象是什么)”。为了进一步使该语音识别过程适应用户的口音(例如,导致短语“the right”被解释为“Detroit”的口音),可以使用多个口头话语假设的特征(例如,之间的对应和/或不一致)以便提高后续语音识别过程的准确性。
在一些实现中,可以生成术语对应数据以表征在处理来自用户的口头话语期间识别的两个或更多个不一致的自然语言术语之间的关系。例如,术语对应数据可以将“Detroit”和“the right”识别为对应术语,候选术语“the right”为原始口头话语的误识别术语,相关术语“Detroit”为对应的预测术语。在一些实现中,术语对应数据还可以识别相关术语和/或候选术语在一个或多个语音识别假设内的相对位置。例如,术语“to(的……)”和/或术语“of(……的)”可以由术语对应数据识别,并且术语对应数据可以提供将先前识别的术语表征为位于两个术语“to”和“of”之间的位置指示符。在一些实现中,术语对应数据可以具有诸如“term[]=term_1(“Detroit”;“the right”;position[1,0,1]=“to”,“term_1”,“of”),”的形式,从而指示两个对应的术语是“Detroit”和“the right”,并且可选地,相关术语“Detroit”在术语“to”和“of”之间找到。
在生成术语对应数据之后,用户可以在稍后的某个时间提供根据这里讨论的语音识别技术处理的另一口头话语。可以处理对应于后续口头话语的音频数据以生成多个不同的语音识别假设。可以分析语音识别假设以确定在术语对应数据中识别的任何候选术语是否包括在一个或多个语音识别假设中。此外,可以分析语音识别假设以确定在多个语音识别假设中是否也识别出对应的相关术语,该对应的相关术语可以是与先前假设的候选术语相对应的先前预测的术语。
作为示例,来自用户的后续口头话语可以是“Assistant,navigate to Detroitfrom my current location(助理,从我的当前位置导航到底特律)”。可以处理对应于后续口头话语的音频数据以生成多个语音识别假设。这些语音识别假设可以包括“Assistant,navigate to the right of my cars’s location助理,导航到我汽车位置的右侧”、“Assistant,navigate to the right from my current location(助理,从我当前的位置向右导航)”以及“Assistant,navigate to the right for my current vacation(助理,导航到我当前假期的右侧)”。
当确定在一个或多个语音识别假设中识别出包括在术语对应数据中的候选术语(例如,“the right”)时,可以确定对应的相关术语(例如,“Detroit”)在多个语音识别假设的任何语音识别假设中是否被识别。当在术语对应数据中提供的相应相关术语(例如“Detroit”)在多个语音识别假设中未识别而候选术语(例如“the right”)被识别时,可以生成一个或多个补充语音识别假设(例如,“Assistant,navigate to Detroit from mycurrent location(助理,从我当前的位置导航到Detroit)”)。补充语音识别假设可以包括来自语音识别假设的其他已经生成的术语,以及在术语对应数据中与候选术语(例如“theright”)具有关系的相关术语(例如,“Detroit”)。以这种方式,可以用最初生成的语音识别假设进一步处理补充语音识别假设,以便识别应该优先于其他语音识别假设的特定语音识别假设(即,选择为正确的/最可能是正确的识别结果)。最高优先的语音识别假设然后可以用于响应于来自用户的后续口头话语来呈现进一步的内容和/或初始化动作。在一些实现中,可以通过使用现有语音识别假设并且用来自术语对应数据的对应术语替换来自现有语音识别假设的术语,来生成补充语音识别假设。
在一些实现中,可以基于一个或多个初始语音识别假设生成一个或多个补充语音识别假设,该一个或多个初始语音识别假设具有相对于在术语对应数据中识别的候选术语定位的术语。例如,可以基于候选术语位于语音识别假设内的两个特定术语之间,将相关术语并入补充语音识别假设中。替代地或附加地,基于候选术语位于第一初始语音识别假设内的第一特定术语附近并且候选术语也位于第二初始语音识别假设内的第二特定术语附近,相关术语可以被合并到补充语音识别假设中。例如,参考前述示例,可以基于初始语音识别假设包括与候选术语“the right”相邻的术语“to”并且另一语音识别假设包括与候选术语“the right”相邻的术语“of”,可以生成补充语音识别假设以包括相关术语“Detroit”。这些条件可以满足术语对应数据中阐述的位置数据,以用于在解释给定的口头话语时生成补充语音识别假设。
以上描述被提供作为本公开的一些实现的概述。下面更详细地描述那些实现和其他实现的进一步说明。
其他实现可以包括的非暂时性计算机可读存储介质,其存储可由一个或多个处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU))执行以执行诸如上述和/或本文其他地方描述的一种或多种方法的方法的指令。其他实现可以包括一台或多台计算机的系统,其包括一个或多个处理器,该一个或多个处理器可被操作以执行存储的指令以执行诸如上文和/或本文其他地方描述的一种或多种方法的方法。
应当理解,这里更详细描述的上述概念和附加概念的所有组合都被认为这里公开的主题的一部分。例如,发生在本公开末尾的要求保护的主题的所有组合都被认为是本文公开的主题的一部分。
附图说明
图1示出了语音识别过程的视图,该语音识别过程用于从各种语音识别假设生成术语对应数据,以便响应于随后的口头话语来补充语音识别假设集合。
图2图示了用户提供口头话语并且使一个或多个补充语音识别假设基于术语对应数据而被生成的视图。
图3图示了用于考虑到用户之间的口音差异和/或其他语音差异补充各种语音识别假设以便减少语音内容的误识别的发生的系统。
图4A和图4B图示了用于生成和/或使用术语对应数据以创建各种不同的语音识别假设以减少口头输入的误识别频率的方法。
图5是示例计算机系统的框图。
具体实施方式
图1示出了语音识别过程的视图100,该语音识别过程用于从各种语音识别假设116生成术语对应数据120,以便响应于随后的口头话语来补充语音识别假设集合。具体地,用户102可以操作计算设备104并且提供口头话语122以控制可经由计算设备104访问的自动助理112。口头话语122可以在计算设备104的音频接口处被接收以从口头话语122生成音频数据。音频数据可以由计算设备104的语音识别引擎108处理,其可以生成一个或多个语音识别假设116以促进表征口头话语122。每个语音识别假设116可以包括一个或多个术语118,其可以是由语音识别引擎108估计的词、短语、字母和/或音素,以表征来自用户102的口头话语122的一个或多个部分。.
一个或多个语音识别假设116和/或术语118可以由计算设备104的相关术语引擎110处理。相关术语引擎110可以识别两个或更多个语音识别假设共有的术语,并且,在一些实现中,为合并到两个或多个语音识别假设116中的每个术语生成计数。术语118的计数可以指示该术语118与被确定为具有较低计数的另一术语118之间的相关强度。当特定术语118相对于其他词性(诸如介词、代词和连词)而言是不太常见的术语时,该特定术语118可以进行计数或其他跟踪。例如,对于每个语音识别假设116,可以绕过更常见的词性(例如,介词、代词和连词)以便识别在生成术语对应数据120时使用的术语118。例如,当考虑在公共词类被消除(例如,在一个或多个公共词类的分布和/或频率达到或超过对应于用户和/或用户群的阈值之后被消除)之后剩余的术语118时,TERM_1可以在语音识别假设中出现X次并且TERM_2可能出现Y次。
相关术语引擎110可以确定这些计数(X和Y,其中,X和Y是任何数字)并且生成表征TERM_1和TERM_2之间的关系的术语对应数据120。例如,由相关术语引擎110生成的术语对应数据120可以包括将TERM_1表征为“RELATED_TERM_1”并且将TERM_2表征为“RELATED_TERM_2”的关系数据。此外,术语对应数据120可以将这两个术语表征为响应于来自用户102和/或一个或多个其他用户的一个或多个对应口头话语先前已被包括在一个或多个语音识别假设集合116中。以这种方式,当用户102提供随后的口头话语并且将语音识别假设集合生成为包括RELATED_TERM_2但不包括RELATED_TERM_1时,计算设备104可以使用术语对应数据120以生成包括RELATED_TERM_1的一个或多个补充语音识别假设116。这可以扩展语音识别假设的范围,当识别自动助理112提供给用户102的适当响应时将考虑该范围。
在生成术语对应数据120的过程中,自动助理112仍然可以用输出124来响应用户102,其可以包括经由计算设备104初始化一个或多个动作。来自自动助理112的响应考虑到TERM_1和TERM_2都存在于语音识别假设116中而可能或可能不取决于术语对应数据120。然而,如果特定相关术语在至少一个语音识别假设中被识别,并且在术语对应数据120中识别的另一术语在至少一个语音识别假设中未被识别,则计算设备104可以基于在术语对应数据120中识别的另一术语来生成一个或多个补充语音识别假设。
在一些实现中,术语对应数据120可以提供表征其中TERM_1和TERM_2都被识别为相关术语的场境的其他数据。例如,在一些实现中,可以生成术语对应数据120以包括表征TERM_1相对于其中识别出TERM_1的语音识别假设116中的一个或多个其他术语的位置的位置数据。例如,TERM_1和TERM_2可以被术语对应数据120识别为与语音识别假设116直接相邻或否则被包括在语音识别假设116中,具有分隔术语,其可以被术语对应数据120明确地识别。替代地或补充地,术语对应数据120可以将TERM_1和TERM_2识别为与当用户102提供导致TERM_1最初被包括在由语音识别引擎108生成的语音识别假设116中的口头话语122时用户102正在访问的应用106相关联。可替代地或附加地,当用户102提供导致TERM_1最初被包括在由语音识别引擎108生成的语音识别假设116中的口头话语122时,TERM_1和TERM_2可以由术语对应数据120识别为与网站、位置、时间、一个或多个其他用户和/或任何其他场境数据和/或其组合相关联。
图2图示了用户202的视图200,该用户202提供口头话语222并且使得基于术语对应数据220来生成一个或多个补充语音识别假设228。用户202可以在术语对应数据220被生成以用于诸如在关于图1描述的场景中表征两个或多个术语(例如,RELATE_TERM_1和RELATE_TERM_2)之间的关系之后提供口头话语222。响应于接收口头话语222,计算设备204的语音识别引擎208可以生成一个或多个语音识别假设216。每个语音识别假设216可以包括一个或多个术语,其可以是可用于编译假设以表征口头话语的自然语言内容的词、短语、字母和/或音素。
相关术语引擎210可以处理语音识别假设216以确定语音识别假设216中的术语218是否对应于术语对应数据220中识别的术语。当术语218(例如,“TERM_4)在术语对应数据220中被识别为具有相关术语(例如,“RELATE_TERM_4”)时,相关术语引擎210可以将该术语和相关术语传送给语音识别引擎208。例如,可以确定TERM_4具有对应的相关术语,RELATE_TERM_4,其可以由相关术语引擎210识别并提供给语音识别引擎208。语音识别引擎208可以使用该相关术语来生成补充语音识别假设228,其可以包括现有语音识别假设216的一个或多个术语,但可以用从术语对应数据220识别的一个或多个“相关术语”替换现有语音识别假设216的一个或多个其他术语。例如,TERM_1和TERM_N可以被包括在语音识别假设216和补充语音识别假设228中——然而,来自语音识别假设216的TERM_4可以被替换为来自术语对应数据220的RELATED_TERM_4 226。
在一些实现中,可以基于用户202是否在对应于术语对应数据220中提供的场境数据的场境内提供口头话语222来生成补充语音识别假设228。例如,如果场境数据指示当用户在访问应用206时RELATED_TERM_4 226与TERM_4相关,在下述时候RELATED_TERM_4 226可以被合并到补充语音识别假设228中:(i)在语音识别假设216中提供TERM_4并且(ii)响应于在用户202在访问应用206时由用户202提供的口头话语222而生成语音识别假设216。可替代地或附加地,可以基于相关术语引擎210根据包括在术语对应数据220中的位置数据确定TERM_4 218位于语音识别假设216内而生成补充语音识别假设228。例如,位置数据可以指示:当TERM_4在语音识别假设216中相对于一个或多个其他术语位于特定位置时(例如,位于两个特定术语之间、直接位于两个特定术语之间、位于特定术语的右侧或左侧、直接位于特定术语的右侧或左侧和/或术语的任何其他位置),TERM_4可以与在术语对应数据220中识别的RELATED_TERM_4相关。
当已经生成语音识别假设和/或一个或多个补充语音识别假设时,计算设备204和/或服务器设备可以对假设进行排序以便识别优先于其他语音识别假设的特定语音识别假设。最优先的语音识别假设可以是被确定为与口头话语222和/或用户202提供口头话语222的场境最相关的那个。然后自动助理212可以通过根据口头话语222初始化一个或多个动作来基于最优先的语音识别假设提供输出224。可以基于以下来确定每个语音识别假设的优先度:语音识别假设相对于口头话语和/或音频数据的预测准确度、每个语音识别假设与用户场境的相关性、表征用户与一个或多个应用之间先前交互的历史数据、应用数据、设备数据和/或可用于确定优先化特定语音识别假设的任何其他信息。
图3示出了系统300,用于考虑到用户之间的口音差异和/或其他语音差异,补充各种语音识别假设,以便减少语音内容误识别的发生。系统300可以可选地包括自动助理304,其可以作为在一个或多个计算设备(例如计算设备302)处提供的助理应用的一部分进行操作。用户可以经由助理接口320与自动助理304交互,助理接口320可以是麦克风、相机、触摸屏显示器、用户界面和/或能够在用户和应用之间提供接口的任何其他装置。例如,用户可以通过向助理接口提供口头、文本或图形输入以使自动助理304执行功能(例如,提供数据、控制外围设备、访问代理、生成输入和/或输出等)来初始化自动助理304。计算设备302可以包括显示设备,该显示设备可以是包括用于接收触摸输入和/或手势的触摸界面的显示面板,以允许用户通过触摸界面控制计算设备302的应用。在一些实现中,计算设备302可以没有显示设备,从而提供可听的用户界面输出,而不提供图形用户界面输出。此外,计算设备302可以提供用于从用户接收口头自然语言输入的用户接口,诸如麦克风。在一些实现中,计算设备302可以包括触摸界面并且可以没有相机,但是可以可选地包括一个或多个其他传感器。
计算设备302和/或其他计算设备可以通过诸如因特网的网络与服务器设备通信。此外,计算设备302和其他计算设备可以通过局域网(LAN)(例如Wi-Fi网络)彼此通信。计算设备302可以将计算任务卸载到服务器设备以节省计算设备302处的计算资源。例如,服务器设备可以托管自动助理304,并且计算设备302可以向服务器设备传输在一个或多个助理接口320处接收的输入。然而,在一些实现中,自动助理304可以作为客户端自动助理托管在计算设备302处。
在各种实现中,可以在计算设备302上实施自动助理304的所有方面或少于所有方面。在那些实现中的一些实现中,自动助理304的方面经由计算设备302的客户端自动助理实施且与实现自动助理304的其他方面的服务器设备对接。服务器设备可以可选地经由多个线程服务于多个用户及其相关联的助理应用。在自动助理304的所有或少于所有方面经由计算设备302处的客户端自动助理来实现的实现中,客户端自动助理可以是与计算设备302的操作系统分离的应用(例如,安装在操作系统的“顶部”)——或者可以替代地由计算设备302的操作系统直接实现(例如,被认为是操作系统的应用,但与操作系统集成在一起)。
在一些实现中,自动助理304和/或客户端自动助理可以包括输入处理引擎306,其可以采用多个不同的引擎来处理计算设备302和/或服务器设备的输入和/或输出。例如,输入处理引擎306可以包括语音处理引擎308,其可以处理在助理接口320处接收到的音频数据以识别包含在音频数据中的文本和/或根据这里讨论的实现生成语音识别假设。在一些实现中,音频数据可以从例如计算设备302传输到服务器设备以用于进一步处理以便节省在计算设备302处的计算资源。
用于将音频数据转换为文本的过程可以包括语音识别算法,该算法可以采用神经网络和/或用于识别对应于音素、单词和/或短语的音频数据组的统计模型。从音频数据转换的文本可以由数据解析引擎310解析,并作为可用于生成和/或识别来自用户的命令短语的文本数据提供给自动助理304。在一些实现中,由数据解析引擎310提供的输出数据可以被提供给参数引擎312以确定用户是否提供了对应于能够由自动助理304和/或能够被自动助理304访问的应用或代理执行的特定动作和/或例程的输入。例如,助理数据338可以作为设备数据332存储在服务器设备和/或计算设备302处,并且可以包括定义能够由自动助理304和/或客户自动助理执行的一个或多个动作的数据以及执行动作所需的参数。
在一些实现中,语音处理引擎308可以操作一个或多个引擎来生成和/或处理语音识别假设。例如,语音处理引擎308可以包括音素识别引擎316,其可以处理音频数据以便识别由音频数据表征的一个或多个音素、单词和/或短语。例如,用户可以提供口头话语,例如“Assistant,add bacon to my shopping list(助理,将培根添加到我的购物清单)”。作为响应,可以处理对应于口头话语的音频数据以便识别音频数据内的特定音素。每个音素和/或音素组合可以被分配分数,该分数可以表征特定音素和/或音素组合准确表征到音频数据的特定部分的概率。例如,对应于捕获用户说出单词“bacon(培根)”的音频数据的部分的第一音素集合可以包括“b”、“ee”、“ca”和“n”,并且第二音素集合可以包括“b”、“a”、“er”、“ca”和“n”。
在一些实现中,可以为一个或多个音素和/或音素集合分配分数,该分数基于表征用户和/或一个或多个其他用户的语音模式的语音识别数据。替代地或附加地,一个或多个音素和/或音素集合可以被分配基于场境数据336的分数,场境数据336可以由场境处理引擎322处理。场境处理引擎322可以处理场境数据336以确定用户将提供音素和/或音素组合的可能性。场境数据336可以表征由计算设备302和/或与用户相关联的另一计算设备的一个或多个应用呈现的数据。例如,当用户正在访问诸如食谱应用的应用334,并且应用334在计算设备302的图形用户界面处在呈现词或短语时,这些词或短语可以由场境处理引擎322处理,以便根据用户提供口头话语的场境来为音素集合分配分数。当场境数据表征由用户在口头话语中提供的单词时,可以组合以发音该单词的音素在该组合被可听地呈现时优先于不能组合以发音该单词的其他音素。
基于以音频数据基础生成的音素和/或音素的组合,语音识别假设引擎318可以生成一个或多个语音识别假设。例如,第一语音识别假设可以包括“Assistant,add beer canto my shopping list(助理,将啤酒罐添加到我的购物清单)”,而第二语音识别假设可以包括“Assistant,add bacon to my shopping list(助理,将培根添加到我的购物清单)”。在一些实现中,假设优先化引擎326可以将一个语音识别假设优先于其他语音识别假设。语音识别假设的优先级可以基于语音识别假设相对于口头话语和/或音频数据的预测准确度、每个语音识别假设与用户场境的相关性、表征用户和/或一个或多个应用334之间的先前交互的历史数据、应用数据330、设备数据332和/或可用于对特定语音识别假设进行优先化的任何其他信息。
在一些实现中,语音处理引擎308可以包括相关术语引擎324。相关术语引擎324可以识别一个或多个语音识别假设内与其他术语和其他语音识别假设相关的一个或多个术语。例如,并且根据之前的场景,相关术语引擎324可以确定除了术语“beer can(啤酒罐)”和术语“bacon”之外,第一语音识别假设和第二语音识别假设是相同的。基于该确定,相关术语引擎324可以生成表征术语“beer can”和术语“bacon”之间的关系的术语对应数据。替代地或附加地,相关术语引擎324可以确定第一语音识别假设和第二语音识别假设除了某些音素之外是相同的。例如,来自第一语音识别假设的音素术语“ee”与来自第二语音识别假设的音素术语“a”和“er”不同。基于相关术语引擎324识别这些音素之间的差异,相关术语引擎324可以生成表征音素术语“ee”与音素术语“a”和“er”之间的关系的术语对应数据。
在一些实现中,语音识别假设引擎318可以使用术语对应数据以便修改和/或补充语音识别假设。例如,如果用户提供相同的口头话语“Assistant,add beer can to myshopping list(助理,将培根添加到我的购物清单)”,并且语音识别假设引擎318生成不包括术语培根而是包括术语beer can和/或音素术语“ee”的假设,语音识别假设引擎318可以生成一个或多个补充语音识别假设。具体地,语音识别假设引擎318可以至少基于提供术语“beer can”和/或“ee”之间以及术语bacon和/或“a”和“er”之间的关系的术语对应数据而生成包括术语“bacon”和/或音素术语“ee”的至少一个语音识别假设。在一些实现中,术语对应数据可以识别相关术语的相对位置,以便语音识别假设引擎318可以根据术语之间的关系以及相关术语在某些语音识别假设内的相对位置来生成补充语音识别假设。例如,术语对应数据的位置数据可以指示术语(例如,音素“ee”)与当该术语是与现有术语(例如,“b”和/或“ca”)直接相邻时与另一术语(例如,音素“a”和/或“er”)相关。
当已经生成一个或多个补充语音识别假设时,可以通过假设优先化引擎326优先化已经生成的语音识别假设以及补充语音识别假设。在一些实现中,相对于所有其他语音识别假设优先化的语音识别假设可以是被确定为用户提供的口头话语的最准确呈现的语音识别假设。该确定可以基于场境数据336,诸如用户的位置、用户与计算设备302和/或自动助理304之间的历史交互、可通过计算设备302访问的数据、已经由计算设备302的一个或多个界面呈现的数据(例如,包括培根的食谱)、在与计算设备通信并由图像识别引擎和/或与计算设备302通信的另一设备处理的图形用户界面处呈现的图像(例如,一个或多个培根的图像)和/或可以与对语音识别假设进行排名或评分相关的任何其他信息。输出生成引擎314可以基于相对于所有其他语音识别假设优先化的语音识别假设来初始化一个或多个动作。例如,当语音识别假设“Assistant,add beer can to my shopping list(助理,将培根添加到我的购物清单)”是最高优先级的语音识别假设时,自动助理304可以初始化购物应用并使购物应用编辑购物清单文档以包括“bacon”。
图4A和图4B分别图示了用于生成和/或使用术语对应数据以创建各种不同的语音识别假设以减少口头输入的误识别频率的方法400和方法420。方法400和方法420可以由一个或多个计算设备、应用和/或能够响应来自用户的口头输入的任何其他装置或引擎来执行。方法400可以包括确定口头话语是否由用户提供的操作402。该确定可以在由用户控制并且包括音频接口(诸如一个或多个麦克风和/或一个或多个扬声器)的计算设备处执行。在一些实现中,计算设备可以提供对自动助理的访问,该自动助理可以响应于来自一个或多个用户的口头话语并且可以响应于来自一个或多个用户的口头话语来控制一个或多个应用和/或设备。当检测到口头话语时,方法400可以进行到操作404。然而,当未检测到口头话语时,可以进一步处理基于对音频接口的输入生成的音频数据以确定口头话语是否由一个或多个用户针对计算设备。
操作404可以包括生成多个语音识别假设以进一步确定来自用户的口头话语的自然语言内容。可以通过处理表征口头话语的音频数据来生成语音识别假设。音频数据可以被分成多个片段,其可以被单独分析以识别一个或多个音素,当用户说出这些音素时,创建类似于对应音频数据片段的可听声波。在一些实现中,特定音频片段的每个音素和/或音素组可以根据它们各自与相应音频数据片段的相似度来评分。根据评分,可以为每个假设选择一系列音素,并将音素转换为字符、单词和/或短语,从而为每个假设创建自然语言内容。
方法400可以从操作404进行到操作406,操作406可以包括确定第一语音识别假设的术语是否不同于第二语音识别假设的另一术语。作为示例,用户可以向计算设备提供口头话语以指示计算设备执行动作,诸如控制用户家中的灯。在这种情况下,口头话语可以是“Assistant,turn down the lights in the living room(助理,把客厅的灯关掉)”。基于口头话语生成的语音识别假设可以包括“Assistant,turn in the lights in the livingroom(助理,接通客厅的灯)”和“Assistant,turn on the lights in the living room(助理,打开客厅的灯))”。根据操作406,术语和/或音素“on”可以被识别为语音识别假设中与另一语音识别假设中识别的另一术语和/或音素“in”不同的术语。然而,当语音识别假设不包括术语变化时,方法400可以从操作406经由继续元素“B”进行到方法420处的操作416。
当确定语音识别假设包括与另一术语不同的术语时,方法400可以从操作406进行到操作408。操作408可以包括确定术语对应数据是否识别了该术语(例如,“in”)或其他术语(例如,“on”)。术语对应数据可以包括表征多个不同术语以及多个不同术语之间的关系的数据,至少用于生成补充语音识别假设的目的。当用户与其各自的计算设备交互时,可以随时间生成术语对应数据。这样,随着用户继续与他们的设备交互,可以为每个随后提供的口头话语扩展假设词典。
当术语对应数据没有识别术语或其他术语时,方法400可以从操作408进行到操作412。操作412可以包括生成表征(i)术语和相关术语和/或(ii)另一术语和另一相关术语之间的关系的术语对应数据。例如,相对于上述场景,术语“in”可以通过术语对应数据表征为与诸如“向下”的相关术语具有关系。在一些实现中,假设的其他内容也可以通过术语对应数据来识别和/或用于指示两个术语之间的关系。例如,与每个术语相邻的一个或多个词(例如,“turn”)可以通过术语对应数据来识别。这样,当随后的假设包括术语(例如,“on”)以及特定的相邻内容(例如,“turn”)时,可以基于相关术语生成补充假设以提供额外的假设(例如,“turn[down]...”),在进行语音识别时可以考虑这一点。方法400可以从操作412经由继续元素“A”进行到方法420的操作414。
然而,当在操作408确定术语对应数据以识别术语或其他术语时,方法400可以可选地从操作408进行到可选操作410。操作410可以包括确定是否根据术语对应数据定位术语或其他术语。例如,当存在一个或多个相邻术语时,术语对应数据可以将术语识别为与另一术语相关。因此,当一个或多个相邻术语与术语一起存在于特定语音识别假设中时,可以满足在操作410处的查询并且方法400可以经由继续元素“A”进行到操作414。然而,并且可选地,当一个或多个相邻词不与术语一起存在于特定语音识别假设中时,可以确定不满足操作410处的查询,因此,方法400可以经由继续元素“B”进行到操作416。
操作414可以包括生成包括相关术语的一个或多个补充语音识别假设。例如,补充语音识别假设可以包括“Assistant,turn down the lights in the living room(助理,关掉客厅里的灯)”。该补充语音识别假设可以基于定义术语“in”和术语“down”之间关系的术语对应数据而生成。替代地或附加地,可以基于确定术语“in”与一个或多个其他术语相邻来生成该补充语音识别假设,这可以在术语对应数据的位置数据中识别。例如,术语对应数据可以定义关系和/或条件,诸如:当术语“in”位于与术语“turn”直接相邻的“N”个语音识别假设中时,术语“in”与术语“down”相关,其中,N是任意数字。
方法420可以从操作414进行到操作416,操作416可以包括确定多个语音识别假设以及一个或多个补充语音识别假设的每个语音识别假设的优先级。分配给每个语音识别假设的优先级可以基于各个语音识别假设在历史数据中的发生频率和/或用户群和各种不同的计算设备,该历史数据是基于用户和计算设备之间的交互而生成的。在一些实现中,可以基于与用户的场境相关联的场境数据来确定分配给每个语音识别假设的优先级。例如,场境数据可以表征在与用户相关联的一个或多个计算设备的一个或多个图形用户界面处呈现的内容。例如,用户可能正在查看网站,该网站包括有关关闭(turn down)灯以节省能源的信息,从而导致具有术语“down(向下)”的假设优先于不具有术语“down”的不同假设的优先级。
方法420可以从操作416进行到可选操作418,操作418可以包括使一个或多个应用和/或设备根据优先的语音识别假设初始化一个或多个动作的执行。例如,可以选择补充语音识别假设“Assistant,turn down the lights in the living room(助理,把客厅的灯关掉)”作为最优先的语音识别假设。基于该选择,可经由该计算设备访问的自动助理可以响应所选假设的内容。具体地,自动助理可以根据所选择的语音识别假设来初始化用于控制用户家的客厅内的多盏灯的应用。以这种方式,虽然语音识别过程最初没有生成与口头话语的原始自然语言内容相匹配的假设,但是仍然执行了用户特别请求的动作,而无需用户重复他们的口头话语并导致计算设备再次处理另一口头话语。
图5是示例计算机系统510的框图。计算机系统510通常包括至少一个处理器514,其经由总线子系统512与多个外围设备通信。这些外围设备可以包括存储子系统524,包括例如,存储器525和文件存储子系统526、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入和输出设备允许用户与计算机系统510的交互。网络接口子系统516提供到外部网络的接口,并耦合到其他计算机系统中的对应接口设备。
用户接口输入设备522可以包括键盘,诸如鼠标、轨迹球、触摸板或图形输入板之类的定点设备,扫描仪,并入显示器的触摸屏,诸如语音识别系统、麦克风之类的音频输入设备以及/或者其他类型的输入设备。一般而言,术语“输入设备”的使用旨在包括将信息输入到计算机系统510或通信网络上的所有可能类型的设备和方式。
用户接口输出设备520可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可见图像的某个其他机构。显示子系统还可以例如经由音频输出设备提供非视觉显示。一般而言,术语“输出设备”的使用旨在包括将信息从计算机系统510输出到用户或另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统524存储提供本描述的一些或所有引擎的功能的编程和数据构造。例如,存储子系统524可以包括用于执行方法400的选定方面和/或实现计算设备104、计算设备204、系统300、自动助理304、输入处理引擎306和/或本文讨论的任何其他应用、设备、装置和/或引擎中的一个或多个的逻辑。
这些软件引擎通常由处理器514单独或与其他处理器组合执行。存储子系统524中使用的存储器525可以包括多个存储器,其包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530和其中存储固定指令的只读存储器(ROM)532。文件存储子系统526可以为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实现某些实现的功能的引擎可以由文件存储子系统526存储在存储子系统524中,或存储在处理器514可访问的其他机器中。
总线子系统512提供了一种机制,用于让计算机系统510的各种组件和子系统按预期相互通信。尽管总线子系统512被示意性地示为单条总线,但是总线子系统的替代实现可以使用多条总线。
计算机系统510可以是各种类型的,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,图5中描绘的计算机系统510的描述不仅旨在作为用于说明一些实现的目的的特定示例。计算机系统510的许多其他配置可能具有比图5中描绘的计算机系统更多或更少的组件。
在本文描述的系统收集关于用户(或如此处经常提到的“参与者”)的个人信息或可以使用个人信息的情况下,可以向用户提供机会来控制程序或功能是否收集用户信息(例如,有关用户的社交网络、社交行为或活动、职业、用户偏好或用户当前地理位置的信息),或控制是否和/或如何从可能与用户更相关的内容服务器接收内容。此外,某些数据可能会在它被存储或使用之前以一种或多种方式进行处理,从而删除个人身份信息。例如,用户的身份可能会被处理使得无法确定用户的个人身份信息,或者其中获取地理位置信息的位置(诸如城市、邮政编码或州级)用户的地理位置可以概括化,从而无法确定用户的特定地理位置。因此,用户可以控制如何收集和/或使用关于用户的信息。
虽然这里已经描述和图示了若干实现,但是可以利用用于执行功能和/或获得结果和/或这里描述的一个或多个优点中的各种其他装置和/或结构,并且每个此类变化和/或修改被认为在本文描述的实现的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置意在为示例性的并且实际参数、尺寸、材料和/或配置将取决于使用教导的特定应用。本领域技术人员将认识到或能够仅使用常规实验来确定此处描述的特定实现的许多等价物。因此,应当理解,前述实现仅通过示例的方式呈现,并且在所附权利要求及其等效物的范围内,可以以不同于具体描述和要求保护者的方式来实践实现。本公开的实现涉及本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外,两个或多个此类特征、系统、物品、材料、套件和/或方法的任何组合在如果此类特征、系统、物品、材料、套件和/或方法不相互矛盾的情况下被包括在本公开的范围内。
在一些实现中,由一个或多个处理器实现的方法被阐述为包括诸如在计算设备处处理对应于用户提供的口头话语的音频数据的操作。该方法还可以包括基于处理音频数据生成多个语音识别假设的操作,其中,多个语音识别假设的每个语音识别假设包括对应的自然语言内容,其被预测为表征来自用户的口头话语的原始自然语言内容。该方法还可以包括基于处理音频数据来确定多个语音识别假设的第一语音识别假设的第一术语是否不同于多个语音识别假设的第二语音识别假设的第二术语的操作。该方法还可以包括,当第一语音识别假设的第一术语与第二语音识别假设的第二术语不同时:基于确定第一术语与第二术语不同,生成表征第一术语和第二术语之间的关系的术语对应数据;并且在生成术语对应数据之后:处理术语对应数据以进一步补充识别第一术语而不是第二术语的后续语音识别假设,并为后续语音识别假设生成补充语音识别假设,其中,补充语音识别假设包括第二术语。
在一些实现中,该方法还可以包括确定第一术语和第二术语是否每个都至少部分地基于音频数据的同一片段而被预测的操作,其中,在第一术语和第二术语均至少部分地基于音频数据的同一片段来预测的情况下执行生成术语对应数据。在一些实现中,该方法还可以包括确定第一语音识别假设的第一术语是否与第二语音识别假设的第二术语共享公共位置的操作,其中,当第一语音识别假设的第一术语与第二语音识别假设的第二术语共享公共位置时执行生成术语对应数据。
在一些实现中,确定第一语音识别假设的第一术语是否与第二语音识别假设的第二术语共享公共位置包括:确定第一术语是否直接相邻于在多个语音识别假设的第一语音识别假设内的特定自然语言术语,并且确定第二术语也直接相邻于多个语音识别假设的第二语音识别假设内的特定自然语言术语。在一些实现中,确定第一语音识别假设的第一术语是否与第二语音识别假设的第二术语共享公共位置包括:确定第一术语直接在多个语音识别假设的第一语音识别假设内的两个自然语言术语之间,并且确定第二术语也直接在多个语音识别假设的第二语音识别假设内的两个自然语言术语之间。在一些实现中,该方法还可以包括以下操作:在生成术语对应数据之后,基于表征用户提供口头话语的场境的场境数据,从多个语音识别假设中确定优先的语音识别假设;并使计算设备基于优先的语音识别假设呈现输出。
在一些实现中,场境数据表征当用户提供口头话语时在计算设备的图形用户界面处呈现的图形内容。在一些实现中,场境数据进一步表征可经由计算设备访问的一个或多个应用,并且确定优先的语音识别假设包括:根据每个语音识别假设是否对应于能够经由可经由计算设备访问的一个或多个应用初始化的动作,确定多个语音识别假设中的每个语音识别假设的优先级。在一些实现中,第一术语包括对应于多个语音识别假设的第一语音识别假设中的一个或多个词的一个或多个音素。在一些实现中,第二术语包括对应于多个语音识别假设的第二语音识别假设中的一个或多个其他词的一个或多个其他音素。
在一些实现中,提供来自用户的口头话语以促进使计算设备的应用初始化一个或多个动作的执行。在一些实现中,该方法还可以包括当第一语音识别假设的第一术语与第二语音识别假设的第二术语不不同时的下述操作:基于现有术语对应数据,确定第一术语和/或第二术语是否与现有术语对应数据中的相关术语相关联。在一些实现中,该方法还可以包括以下操作:当第一语音识别假设的第一术语与第二语音识别假设的第二术语没有不同时,并且当第一术语和/或第二术语与现有术语对应数据中的相关术语相关时:基于现有术语对应数据生成包含相关术语的另一补充语音识别假设。在一些实现中,另一补充语音识别假设没有第一术语和第二术语。
在其他实现中,由一个或多个处理器实现的方法被阐述为包括诸如在计算设备处处理对应于用户提供的口头话语的音频数据的操作。该方法还可以包括基于处理音频数据来生成多个语音识别假设的操作,其中,多个语音识别假设的每个语音识别假设包括被预测为对应于来自用户的口头话语的原始自然语言内容的对应自然语言内容。该方法可以进一步包括至少基于处理音频数据来识别术语对应数据的操作,该术语对应数据表征在基于来自用户的一个或多个先前口头话语而生成的先前语音识别假设中提供的术语之间的关系。该方法还可以包括基于术语对应数据来确定在多个语音识别假设中是否提供了由术语对应数据识别的候选术语的操作。该方法还可以包括基于术语对应数据确定在多个语音识别假设中是否提供了由术语对应数据识别为对应于候选术语的相关术语的操作。该方法还可以包括当候选术语在多个语音识别假设中被识别而相关术语在语音识别假设中没有被识别时:生成补充语音识别假设的操作,其中,补充语音识别假设包括相关术语。
在一些实现中,确定是否在多个语音识别假设中提供了候选术语包括:确定候选术语直接在多个语音识别假设的第一语音识别假设内的两个自然语言术语之间,并且其中,确定在多个语音识别假设中是否提供相关术语包括:确定相关术语也直接在多个语音识别假设的第二语音识别假设内的两个自然语言术语之间,其中,第一语音识别假设不同于第二语音识别假设。在一些实现中,确定是否在多个语音识别假设中提供了候选术语包括:确定候选术语与多个语音识别假设的第一语音识别假设内的特定自然语言术语直接相邻,并且其中,确定多个语音识别假设中是否提供了相关术语包括:确定相关术语也与多个语音识别假设中的第二语音识别假设中的特定自然语言术语直接相邻,其中,第一语音识别假设不同于第二语音识别假设。
在一些实现中,该方法可以进一步包括以下操作:从多个语音识别假设和补充语音识别假设确定优先的语音识别假设,其中,至少部分地基于场境数据确定优先的语音识别假设,场境数据表征用户提供口头话语的场境;并使计算设备基于优先的语音识别假设来呈现输出。在一些实现中,场境数据表征当用户提供口头话语时在计算设备的图形用户界面处呈现的图形内容。在一些实现中,场境数据进一步表征可经由计算设备访问的一个或多个应用,并且确定优先的语音识别假设包括:根据每个语音识别假设是否对应于能够经由一个或多个可经由计算设备访问的应用初始化的动作,对多个语音识别假设和补充语音识别假设中的每个语音识别假设进行优先化。
在一些实现中,候选术语包括对应于多个语音识别假设中的一个或多个词的一个或多个音素。在一些实现中,相关术语包括对应于多个语音识别假设中的一个或多个其他词的一个或多个其他音素。
在其他实现中,由一个或多个处理器实施的方法被阐述为包括诸如在计算设备处访问表征多个不同语音识别假设的数据的操作,该多个不同语音识别假设是响应于由用户提供的口头话语而生成的。该方法还可以包括基于访问数据来确定在作为语音识别假设的子集的第一语音识别假设集合中提供一个或多个第一术语的操作。该方法还可以包括基于访问数据来确定在作为语音识别假设的另一子集的第二语音识别假设集合中提供一个或多个第二术语的操作,其中,一个或多个第一术语不同于一个或多个第二术语,并且其中,第一语音识别假设集合和第二语音识别假设集合共享与一个或多个第一术语和一个或多个第二术语不同的一个或多个公共术语。在一些实现中,该方法还可以包括基于一个或多个第一术语与一个或多个第二术语不同,生成表征一个或多个第一术语与一个或多个第二术语之间的关系的术语对应数据的操作。在一些实现中,该方法还可以包括在生成术语对应数据之后的操作:确定不是语音识别假设的子集的第三语音识别假设集合包括一个或多个第一术语,且基于表征一个或多个第一术语与一个或多个第二术语之间的关系的术语对应数据,生成包括一个或多个第二术语的一个或多个补充语音识别假设。
在一些实现中,一个或多个第一术语是一个或多个音素,并且一个或多个第二术语是一个或多个其他音素。在一些实现中,该方法还可以包括在生成术语对应数据之后的操作:确定第三语音识别假设集合没有一个或多个第二术语。
Claims (28)
1.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处处理与用户提供的口头话语相对应的音频数据;
基于处理所述音频数据,生成多个语音识别假设,
其中,所述多个语音识别假设中的每个语音识别假设包括对应的自然语言内容,所述对应的自然语言内容被预测为表征来自所述用户的所述口头话语的原始自然语言内容;
基于处理所述音频数据,确定所述多个语音识别假设中的第一语音识别假设的第一术语与所述多个语音识别假设中的第二语音识别假设的第二术语是否不同;以及
当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语不同时:
基于确定所述第一术语与所述第二术语不同,生成表征所述第一术语与所述第二术语之间的关系的术语对应数据;以及
在生成所述术语对应数据之后:
处理所述术语对应数据以进一步补充识别所述第一术语而不是所述第二术语的后续语音识别假设,以及
为所述后续语音识别假设生成补充语音识别假设,其中,所述补充语音识别假设包括所述第二术语。
2.根据权利要求1所述的方法,还包括:
确定所述第一术语和所述第二术语是否均至少部分地基于所述音频数据的相同片段被预测,
其中,当所述第一术语和所述第二术语均是至少部分地基于所述音频数据的相同片段被预测时,执行生成所述术语对应数据。
3.根据权利要求1或2所述的方法,还包括:
确定所述第一语音识别假设的所述第一术语是否与所述第二语音识别假设的所述第二术语共享公共位置,
其中,当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语共享所述公共位置时,执行生成所述术语对应数据。
4.根据权利要求3所述的方法,其中,确定所述第一语音识别假设的所述第一术语是否与所述第二语音识别假设的所述第二术语共享所述公共位置包括:
确定所述第一术语与所述多个语音识别假设中的所述第一语音识别假设内的特定自然语言术语直接相邻,以及
确定所述第二术语也与所述多个语音识别假设中的所述第二语音识别假设内的所述特定自然语言术语直接相邻。
5.根据权利要求3所述的方法,其中,确定所述第一语音识别假设的所述第一术语是否与所述第二语音识别假设的所述第二术语共享所述公共位置包括:
确定所述第一术语直接在所述多个语音识别假设中的所述第一语音识别假设内的两个自然语言术语之间,以及
确定所述第二术语也直接在所述多个语音识别假设中的所述第二语音识别假设内的所述两个自然语言术语之间。
6.根据前述权利要求中的任一项所述的方法,还包括:
在生成所述术语对应数据之后,基于表征所述用户提供所述口头话语的场境的场境数据,从所述多个语音识别假设确定优先的语音识别假设;以及
使所述计算设备基于所述优先的语音识别假设呈现输出。
7.根据权利要求6所述的方法,其中,当所述用户提供所述口头话语时,所述场境数据表征在所述计算设备的图形用户界面处呈现的图形内容。
8.根据权利要求6或7所述的方法,其中,所述场境数据进一步表征能够经由所述计算设备访问的一个或多个应用,并且确定所述优先的语音识别假设包括:
根据每个语音识别假设是否对应于能够经由所述计算设备能访问的所述一个或多个应用被初始化的动作,对所述多个语音识别假设中的每个语音识别假设进行优先化。
9.根据前述权利要求中的任一项所述的方法,其中,所述第一术语包括对应于所述多个语音识别假设中的所述第一语音识别假设中的一个或多个词的一个或多个音素。
10.根据前述权利要求中的任一项所述的方法,其中,所述第二术语包括对应于所述多个语音识别假设中的所述第二语音识别假设中的一个或多个其他词的一个或多个其他音素。
11.根据前述权利要求中的任一项所述的方法,其中,提供来自所述用户的所述口头话语以促进使所述计算设备的应用初始化一个或多个动作的执行。
12.根据前述权利要求中的任一项所述的方法,还包括:
当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语不同时:
基于现有术语对应数据,确定所述第一术语和/或所述第二术语是否与所述现有术语对应数据中的相关术语相关。
13.根据权利要求12所述的方法,还包括:
当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语不同时,并且当所述第一术语和/或所述第二术语与所述现有术语对应数据中的所述相关术语相关时:
基于所述现有术语对应数据,生成包含所述相关术语的另一补充语音识别假设。
14.根据权利要求13所述的方法,其中,所述另一补充语音识别假设没有所述第一术语和所述第二术语。
15.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处处理与用户提供的口头话语相对应的音频数据;
基于处理所述音频数据,生成多个语音识别假设,
其中,所述多个语音识别假设中的每个语音识别假设包括对应的自然语言内容,所述对应的自然语言内容被预测为对应于来自所述用户的所述口头话语的原始自然语言内容;
基于至少处理所述音频数据,识别表征在基于来自所述用户的一个或多个先前口头话语生成的先前语音识别假设中提供的术语之间的关系的术语对应数据;
基于所述术语对应数据,确定在所述多个语音识别假设中是否提供由所述术语对应数据识别的候选术语;
基于所述术语对应数据,确定在所述多个语音识别假设中是否提供由所述术语对应数据识别为对应于所述候选术语的相关术语;以及
当所述候选术语在所述多个语音识别假设中被识别而所述相关术语在所述语音识别假设中未被识别时:
生成补充语音识别假设,其中,所述补充语音识别假设包括所述相关术语。
16.根据权利要求15所述的方法,
其中,确定在所述多个语音识别假设中是否提供所述候选术语包括:
确定所述候选术语直接在所述多个语音识别假设中的第一语音识别假设内的两个自然语言术语之间,并且
其中,确定在所述多个语音识别假设中是否提供所述相关术语包括:
确定所述相关术语也直接在所述多个语音识别假设中的第二语音识别假设内的所述两个自然语言术语之间,其中,所述第一语音识别假设不同于所述第二语音识别假设。
17.根据权利要求15所述的方法,
其中,确定在所述多个语音识别假设中是否提供所述候选术语包括:
确定所述候选术语与所述多个语音识别假设中的第一语音识别假设内的特定自然语言术语直接相邻,并且
其中,确定在所述多个语音识别假设中是否提供所述相关术语包括:
确定所述相关术语也与所述多个语音识别假设中的第二语音识别假设内的所述特定自然语言术语直接相邻,其中,所述第一语音识别假设不同于所述第二语音识别假设。
18.根据权利要求15-17中的任一项所述的方法,还包括:
从所述多个语音识别假设和所述补充语音识别假设确定优先的语音识别假设,其中,所述优先的语音识别假设至少部分地基于表征所述用户提供所述口头话语的场境的场境数据被确定,以及
使所述计算设备基于所述优先的语音识别假设呈现输出。
19.根据权利要求18所述的方法,其中,当所述用户提供所述口头话语时,所述场境数据表征在所述计算设备的图形用户界面处呈现的图形内容。
20.根据权利要求18或19所述的方法,其中,所述场境数据进一步表征能够经由所述计算设备访问的一个或多个应用,并且确定所述优先的语音识别假设包括:
根据每个语音识别假设是否对应于能够经由经由所述计算设备能访问的所述一个或多个应用初始化的动作,对所述多个语音识别假设和所述补充语音识别假设中的每个语音识别假设进行优先化。
21.根据权利要求15-20中的任一项所述的方法,其中,所述候选术语包括对应于在所述多个语音识别假设中的一个或多个词的一个或多个音素。
22.根据前述权利要求中的任一项所述的方法,其中,所述相关术语包括对应于所述多个语音识别假设中的一个或多个其他词的一个或多个其他音素。
23.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处访问表征多个不同语音识别假设的数据,所述多个不同语音识别假设是响应于用户提供的口头话语而生成的;
基于访问所述数据,确定在作为所述语音识别假设的子集的第一语音识别假设集合中提供了一个或多个第一术语;
基于访问所述数据,确定在作为所述语音识别假设的另一子集的第二语音识别假设集合中提供了一个或多个第二术语,
其中,所述一个或多个第一术语不同于所述一个或多个第二术语,并且
其中,所述第一语音识别假设集合和所述第二语音识别假设集合共享与所述一个或多个第一术语和所述一个或多个第二术语不同的一个或多个公共术语;
基于所述一个或多个第一术语与所述一个或多个第二术语不同,生成表征在所述一个或多个第一术语与所述一个或多个第二术语之间的关系的术语对应数据;以及
在生成所述术语对应数据之后:
确定不是所述语音识别假设的子集的第三语音识别假设集合包括所述一个或多个第一术语,并且
基于表征所述一个或多个第一术语与所述一个或多个第二术语之间的关系的所述术语对应数据,生成包括所述一个或多个第二术语的一个或多个补充语音识别假设。
24.根据权利要求23所述的方法,其中,所述一个或多个第一术语是一个或多个音素,并且所述一个或多个第二术语是一个或多个其他音素。
25.根据权利要求23或24所述的方法,还包括:
在生成所述术语对应数据之后:
确定所述第三语音识别假设集合没有所述一个或多个第二术语。
26.一种包括指令的计算机程序产品,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据前述权利要求中的任一项所述的方法。
27.一种包括指令的计算机可读存储介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至25中的任一项所述的方法。
28.一种系统,包括一个或多个处理器,所述一个或多个处理器用于执行根据权利要求1至25中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962871571P | 2019-07-08 | 2019-07-08 | |
US62/871,571 | 2019-07-08 | ||
PCT/US2019/042204 WO2021006917A1 (en) | 2019-07-08 | 2019-07-17 | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114127841A true CN114127841A (zh) | 2022-03-01 |
Family
ID=67480470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980097908.XA Pending CN114127841A (zh) | 2019-07-08 | 2019-07-17 | 根据先前发生的假设术语和/或场境数据的语音识别假设生成 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220084503A1 (zh) |
EP (1) | EP3791384A1 (zh) |
CN (1) | CN114127841A (zh) |
WO (1) | WO2021006917A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI826031B (zh) * | 2022-10-05 | 2023-12-11 | 中華電信股份有限公司 | 基於歷史對話內容執行語音辨識的電子裝置及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US9224386B1 (en) * | 2012-06-22 | 2015-12-29 | Amazon Technologies, Inc. | Discriminative language model training using a confusion matrix |
US9576578B1 (en) * | 2015-08-12 | 2017-02-21 | Google Inc. | Contextual improvement of voice query recognition |
-
2019
- 2019-07-17 WO PCT/US2019/042204 patent/WO2021006917A1/en unknown
- 2019-07-17 CN CN201980097908.XA patent/CN114127841A/zh active Pending
- 2019-07-17 EP EP19746407.6A patent/EP3791384A1/en active Pending
-
2021
- 2021-11-29 US US17/536,938 patent/US20220084503A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021006917A1 (en) | 2021-01-14 |
EP3791384A1 (en) | 2021-03-17 |
US20220084503A1 (en) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11817085B2 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
US11817080B2 (en) | Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model | |
CN110998717B (zh) | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 | |
EP4224468A2 (en) | Task initiation using long-tail voice commands | |
CN112262430A (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
JP2021533397A (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
EP3956884B1 (en) | Identification and utilization of misrecognitions in automatic speech recognition | |
JP7170739B2 (ja) | リモートに生成された自動化アシスタントコンテンツのレンダリングにおけるクライアントデバイスレイテンシの軽減 | |
US20220284049A1 (en) | Natural language understanding clarifications | |
US20240055002A1 (en) | Detecting near matches to a hotword or phrase | |
CN115552516A (zh) | 校正口头话语的语音误识别 | |
AU2024200224A1 (en) | Detecting and handling failures in automated voice assistants | |
US20220084503A1 (en) | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data | |
US11189264B2 (en) | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data | |
CN114144789A (zh) | 图形用户界面中的内容的声控输入 | |
US20240112673A1 (en) | Identifying and correcting automatic speech recognition (asr) misrecognitions in a decentralized manner | |
US20220405488A1 (en) | Providing a well-formed alternate phrase as a suggestion in lieu of a not well-formed phrase | |
US20230402034A1 (en) | Correcting speech recognition errors by considering prior user edits and/or assessing fulfillment data | |
US20230290358A1 (en) | Biasing interpretations of spoken utterance(s) that are received in a vehicular environment | |
US20240194191A1 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
CN115668140A (zh) | 当使用默认建议模型不合理时使用临时机器学习模型生成能够选择的建议 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |