CN112992146A

CN112992146A - 语音识别系统

Info

Publication number: CN112992146A
Application number: CN202110154554.7A
Authority: CN
Inventors: 佩德罗·J·莫雷诺·门吉巴尔; 彼塔尔·阿列克西克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-01-06
Filing date: 2016-12-23
Publication date: 2021-06-18
Also published as: KR20180091056A; DE102016125831A1; JP2020042313A; US10269354B2; WO2017119965A1; JP2021182168A; US11996103B2; US20240282309A1; DE102016125831B4; CN107039040A; KR102150509B1; JP6637604B2; KR20200103876A; US10643617B2; DE202016008203U1; US11410660B2; EP3822965A1; EP3378061B1; EP3378061A1; JP2023099706A

Abstract

本公开涉及语音识别系统。提供了一种语音识别系统以及用于语音识别的方法和装置，其包括被编码在计算机存储介质上的计算机程序。在一个方面，一种方法包括下列步骤：接收语音输入；确定该语音输入的转录文字，其中，对于该语音输入的多个分段，确定该语音输入的转录文字的步骤包括：获取该语音输入的第一分段的第一候选转录文字；确定与该第一候选转录文字相关联的一个或多个场境；调整所述一个或多个场境中的每一个场境的相应权重；以及，部分地基于调整后的权重来确定该语音输入的第二分段的第二候选转录文字；以及，提供该语音输入的所述多个分段的转录文字以供输出。

Description

语音识别系统

分案说明

本申请属于申请日为2016年12月23日的中国发明专利申请201611207951.1的分案申请。

技术领域

本公开涉及语音识别。

背景技术

常规的语音识别系统旨在将来自用户的语音输入转换为文本输出。该文本输出可用于各种用途，例如包括：作为搜索查询、命令、文字处理输入等。在典型的语音搜索系统中，语音界面接收用户的语音输入并将该语音输入提供给语音识别引擎。语音识别引擎将该语音输入转换为文本搜索查询。语音搜索系统然后向搜索引擎提交该文本搜索查询，以获得一个或多个搜索结果。

发明内容

总的来说，本说明书中描述的主题的一个创新方面可以实施在以下方法中，该方法包括以下步骤：接收将语音输入编码的数据；确定该语音输入的转录文字(transcription)，其中，对于该语音输入的多个分段，确定该语音输入的转录文字包括：获取该语音输入的第一分段的第一候选转录文字；确定与该第一候选转录文字相关联的一个或多个场境(contexts)；调整所述一个或多个场境中的每一个场境的相应权重；以及部分地基于调整后的权重来确定该语音输入的第二分段的第二候选转录文字；以及，提供该语音输入的所述多个分段的转录文字以供输出。本说明书中描述的方法可以实施为计算机实现的方法。此方面的其他实施例包括相应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序中，该计算机系统、装置和计算机程序中的每一个均被配置为执行所述方法的步骤。对于要配置成执行特定操作或动作的一个或多个计算机的系统，意味着该系统已安装于在操作中使该系统执行所述操作或动作的软件、固件、硬件或其组合上。对于要配置成执行特定操作或动作的一个或多个计算机程序，意味着所述一个或多个程序包括如下的指令：当该指令被数据处理装置执行时，该指令使装置执行所述操作或动作。

本说明书中描述的主题的另一创新方面可以实施为存储有软件的计算机可读介质，该软件包括可由一个或多个计算机执行的指令，当进行这种执行时，该指令使所述一个或多个计算机执行以下操作，包括：接收将语音输入编码的数据；确定该语音输入的转录文字，其中，对于该语音输入的多个分段，确定该语音输入的转录文字包括：获取该语音输入的第一分段的第一候选转录文字；确定与第一候选转录文字相关联的一个或多个场境；调整所述一个或多个场境中的每一个场境的相应权重；以及，部分地基于调整后的权重来确定该语音输入的第二分段的第二候选转录文字；以及，提供该语音输入的所述多个分段的转录文字以供输出。

前述和其它实施例中的每一个均能够可选地包括以下特征中的一个或多个(单独地或以它们的任何组合)。例如，一个实施例包括以下所有特征的组合。所述方法包括获取语音输入的第一分段的第一候选转录文字：确定该语音输入的第一分段满足稳定性标准；以及，响应于确定该语音输入的第一分段满足稳定性标准来获取该语音输入的第一分段的第一候选转录文字。所述稳定性标准包括该语音输入的第一分段的一个或多个语义特征(semantic characteristics)。所述稳定性标准包括该语音输入的第一分段之后发生的时间延迟。该语音输入的第二分段出现在该语音输入的第一分段之后。所述一个或多个场境是从用户设备接收的。所述一个或多个场境包括以下的数据：该数据包括用户的地理位置、用户的搜索历史、用户的兴趣、或用户的活动。所述方法包括：存储对多个场境的多个评分；以及，响应于对所述一个或多个场境中的每一个场境的相应权重的调整来更新所述一个或多个场境的调整后的评分。所述方法还包括将该输出作为一个搜索查询(search query)来提供，例如提供给搜索引擎，然后，搜索引擎可以响应于该搜索查询而向用户设备提供一个或多个搜索结果。所述第一候选转录文字包括单词、子词或词组。

可以实施本说明书中描述的主题的特定实施例，以实现以下优点中的一个或多个。与常规的语音识别系统相比，该语音识别系统能够基于语音输入的分段来提供更准确的文本搜索查询。由于该系统基于语音输入的分段来调整场境的权重并且部分地基于调整后的权重来确定该语音输入的后续分段的转录文字，所以，该系统能够动态地提高识别性能。因此，该系统能够提高语音识别的准确性。这种提高的准确性减小了用户必须重复提供语音输入以供语音识别系统处理的过程的可能性，从而使该语音识别系统可处理其他的语音输入。

在附图和以下的描述中，阐述了本说明书的主题的一个或多个实施例的细节。从该描述、附图和权利要求书中，所述主题的其他特征、方面和优点将变得清楚。应当理解，这些方面和实施方式能够相互组合，并且，在一个方面或实施方式的上下文中描述的特征也可以在其他方面或实施方式的上下文中实施。

附图说明

图1是提供了示例性的语音识别系统的图。

图2是示出了示例性的场境的图。

图3是示出了用于确定是否满足稳定性标准的示例性过程的图。

图4是用于提供语音输入的转录文字的示例性方法的流程图。

图5是用于确定语音输入的转录文字的示例性方法的流程图。

在各个附图中，相同的附图标记表示相同的元件。

具体实施方式

图1是提供了示例性的语音识别系统100的图。语音识别系统100包括一个或多个计算机，所述一个或多个计算机被编程为：从用户设备120接收来自用户10的语音输入110，确定语音输入110的转录文字，并将语音输入110的该转录文字作提供为输出。在图1所示的示例中，该输出可以是一个搜索查询150，该搜索查询150被提供给搜索引擎160，以响应该搜索查询150来获取搜索结果170。然后，一个或多个搜索结果170被提供给用户设备120。该语音识别系统100例如可以实施在包括服务器的一个或多个计算机上或实施在用户设备上。

语音识别系统100包括通过一个或多个网络180与用户设备120通信的语音识别引擎140。所述一个或多个网络180可以是电话和/或计算机网络，包括无线蜂窝网络、无线局域网(WLAN)或Wi-Fi网络、有线以太网、其他有线网络、或它们的任何适当的组合。用户设备120可以是任何适当类型的计算设备，包括但不限于：移动电话、智能电话、平板计算机、音乐播放器、电子书阅读器、膝上型计算机或台式计算机、PDA或包括一个或多个处理器和计算机可读介质的其他手持设备或移动设备。用户设备120被配置为接收来自用户10的语音输入110。用户设备120可以包括或联接到例如声电换能器或传感器(例如，麦克风)。响应于用户10输入所述语音输入110，该语音输入可以被提交给语音识别引擎140。(总的来说，这可以通过向语音识别引擎140提交表示该语音输入或将该语音输入编码的数据来完成。语音识别引擎140可处理该数据，以从接收到的数据中提取所述语音输入)。

语音识别引擎140可以依次识别语音输入，例如，可以识别语音输入110的第一部分111，然后可以识别语音输入110的第二部分112。基于特定的稳定性标准，可以将语音输入110的一个或多个部分识别为语音输入110的独立分段。其一部分可以包括单词(word)、子词(sub-word)或词组。在一些实施方式中，如下文更详细描述的，语音输入110的一个或多个分段可以提供中间识别结果，该中间识别结果能够用于调整一个或多个场境。

虽然贯穿本文使用了一个搜索查询的示例来进行说明，但语音输入110可以表示任何类型的语音通信，包括基于语音的指令、搜索引擎查询词项(terms)、口述(dictation)、对话系统、或者使用转录的语音或调用使用转录的语音来执行动作的软件应用的任何其他输入。

语音识别引擎140可以是被配置为接收和处理语音输入110的语音识别系统100的软件组件。如图1所示，语音识别引擎140将语音输入110转换为被提供给搜索引擎160的文本搜索查询150。语音识别引擎140包括语音解码器142、场境模块144和场境调整模块146。语音解码器142、场境模块144和场境调整模块146可以是语音识别系统100的软件组件。

当语音识别引擎140接收到语音输入110时，语音解码器142确定该语音输入110的转录文字。然后，语音解码器142提供语音输入110的该转录文字作为输出，例如作为要提供给搜索引擎160的搜索查询150。

语音解码器142使用语言模型来生成语音输入110的候选转录文字。该语言模型包括与单词或单词的顺序相关的可能性值。例如，该语言模型可以是N元模型。在语音解码器142处理该语音输入时，可以确定中间识别结果。每个中间识别结果均对应于语音输入110的转录文字的一个稳定分段。下文将参照图3更详细地描述用于确定该转录文字的稳定分段的稳定性标准。

语音解码器142将每个稳定分段提供给场境调整模块146。场境调整模块146从场境模块144识别出相关的场境。所识别出的每个场境可以与一个权重相关联。可以根据各种标准，例如基于场境的普便性、场境的时间接近性(即，某个特定场境是否在最近的时间段内被频繁使用)、或该场境最近的或总体的使用来初始指定每个场境的基本权重。该基本权重可能基于用户的输入与特定场境相关联的可能性而产生一个初始偏差。一旦场境调整模块146识别出相关的场境，场境调整模块146就基于由语音解码器142提供的一个或多个稳定分段来调整该场境的权重。可以调整权重以指明语音输入的转录文字与特定场境相关联的程度。

场境模块144存储有场境148以及与场境148相关联的权重。场境模块144可以是语音识别引擎140的软件组件，该场境模块144被配置为使计算设备从用户设备120接收一个或多个场境148。语音识别引擎140可以配置为将接收到的场境148存储在场境模块144中。在一些情况下，场境模块144可以配置为生成为用户10定制的一个或多个场境148。语音识别引擎140可以配置为将所生成的场境148存储在场境模块144中。

场境148例如可以包括：(1)描述用户活动的数据，例如多个重复的语音输入之间的时间间隔、来自于用户设备的屏幕附近的前侧相机的反映眼睛运动的注视跟踪信息；(2)描述发出语音输入时的情形的数据，例如所使用的移动应用的类型、用户的位置、所使用的设备的类型、或当前时间；(3)提交给搜索引擎的先前的语音搜索查询；(4)描述提交给语音识别引擎的语音输入的类型的数据，例如对搜索引擎的命令、请求或搜索查询，以及(5)实体，例如特定类别的成员、地名等。例如，可以根据先前的搜索查询、用户信息、实体数据库等来形成多个场境。

图2是示出了示例性的场境的图。语音识别引擎被配置为将与“Tennis Players(网球运动员)”相关联的场境210以及与“Basketball Players(篮球运动员)”相关联的场境220例如存储在场境模块中，例如场境模块144。场境210包括与特定的网球运动员相对应的实体，例如“Roger Federer”、“Rafael Nadal”和“Novak Djokovic”。场境220包括与特定的篮球运动员相对应的实体，例如“Roger Bederer”、“Rafael Madall”和“NovakJokovich”。

场境模块144可以配置为存储场境210、220的权重。该权重可以表示语音输入的一个或多个转录文本与场境210、220关联的程度。当场境调整模块146识别出场境210、220时，该场境调整模块还识别与场境210、220相关联的权重。

当语音解码器142针对语音输入110的第一分段111获取第一候选转录文字“Howmany wins does tennis player(网球运动员胜多少次)”时，语音解码器142将第一分段111的该第一候选转录文字提供给场境调整模块146。场境调整模块146将场境210、220识别为场境模块144中的相关场境并识别与场境210、220相关联的权重。然后，场境调整模块146被配置为基于语音输入110的第一分段111的第一候选转录文字来调整场境210、220的相应权重。特别地，场境调整模块146能够调整场境210、220的相应权重，以用于识别语音输入110的后续分段。

各个场境的基本权重可能最初使语音识别偏向具有较高初始权重的“篮球”的场境，例如因为与网球相比而言的、与篮球相关的语音输入的历史流行度。然而，在基于该中间识别结果调整后，语音识别可偏向“网球”的场境。在本示例中，语音输入110的第一候选转录文字“How many wins does tennis player”包括词语“tennis player”。基于该第一候选转录文字的词语“tennis player”，场境调整模块146可以配置为调整一个或多个场境的权重。例如，场境调整模块146可以增加场境210的权重，例如从“10”增加到“90”，可以降低场境220的权重，例如从“90”降低到“10”，或者可以执行增加权重和降低权重的组合。

语音解码器142可以配置成部分地基于调整后的权重来确定语音输入110的第二分段112的第二候选转录文字。响应于对场境的相应权重的调整，语音识别引擎140可以配置为在场境模块144中更新场境210、220的调整后的权重。在上述示例中，为了确定语音输入110的第二分段112的第二候选转录文字，语音解码器142可以基于调整后的权重赋予场境210比场境220大的权重。基于场境210的权重，语音解码器142可以确定“Roger Federer”作为语音输入110的第二分段112的第二候选转录文字。

相比之下，如果场境调整模块146不基于第一分段111的第一候选转录文字来调整场境210、220的权重，则语音解码器142可基于存储在场境模块144中的场境210、220的基本权重来确定第二分段112的第二候选转录文字。如果场境220的权重比场境210的权重大，则语音解码器可能确定诸如“Roger Bederer”的篮球运动员名字作为第二分段112的第二候选转录文字。因此，语音解码器142可能提供不正确的识别结果。

在语音解码器142获取整个语音输入110的转录文字后，语音解码器142可以提供语音输入110的转录文字以供输出。该输出可以直接提供给用户设备或用于另外的处理。例如，在图1中，该输出识别被用作文本搜索查询150。例如，当语音解码器142将“RogerFederer”确定为语音输入110的第二分段112的第二候选转录文字时，语音解码器142可以输出整个转录文字“How many wins does tennis player Roger Federer have？(网球选手Roger Federer胜多少次？)”作为给搜索引擎160的搜索查询150。

搜索引擎160使用搜索查询150执行搜索。搜索引擎160可以包括耦合于语音识别系统100的web搜索引擎。搜索引擎160可以响应于搜索查询150来确定一个或多个搜索结果170。搜索引擎160将搜索结果170提供给用户设备120。用户设备120可以具有用于向用户10呈现搜索结果170的显示界面。在一些情况下，用户设备120可以具有音频界面，以将搜索结果170呈现给用户10。

图3是示出了用于确定给定的分段是否满足稳定性标准的示例性过程的图。语音解码器142被配置为确定语音输入110的该部分满足稳定性标准。

当语音解码器142接收语音输入310的部分311时，语音解码器142可以配置为确定语音输入310的部分311是否满足稳定性标准。给稳定性标准表示该部分是否可能被额外的语音识别改变。

该稳定性标准可以包括一个或多个语义特征。如果从语义上预计某个语音输入的一部分之后还会有一个词或多个词，则语音解码器142可以确定该部分不满足稳定性标准。例如，当语音解码器142接收到语音输入310的部分311时，语音解码器142可以确定从语义上预计该部分311之后会有一个词或多个词。然后，语音解码器142确定该部分311不满足稳定性标准。在一些实施方式中，当语音解码器142接收到“mine(我的)”而作为某个语音输入的一部分时，语音解码器142可以确定从语义上预计该部分“mine”之后不会再有一个词或多个词。然后，语音解码器142可以确定该部分“mine”满足分段的稳定性标准。语音解码器142可以将该分段提供给场境调整模块146以调整场境的权重。

如果从语义上预计一个部分之后会有另一个子词或多个子词，则语音解码器142也可以确定该部分不满足稳定性标准。例如，当语音解码器142接收到“play”作为语音输入310的部分312时，语音解码器142可以确定从语义上预计该部分312之后会有一个词或多个词，因为从语义上看，该部分312之后可以有诸如“play-er”、“play-ground”和“play-off”的一个子词或多个子词。然后，语音解码器142确定该部分311不满足稳定性标准。在一些实施方式中，当语音解码器142接收“player”作为语音输入的一部分时，语音解码器142可以确定从语义上预计该部分“player”之后不会有一个词或多个词。然后，语音解码器142可以确定该部分“player”满足分段的稳定性标准。语音解码器142可以将该分段提供给场境调整模块146以调整场境的权重。

在一些实施方式中，所述稳定性标准可以包括在语音输入310的一部分之后产生的时间延迟。如果语音输入310的该部分之后的时间延迟的长度(duration)满足阈值延迟值，则语音解码器142可以确定语音输入310的该部分满足稳定性标准。当语音解码器142接收语音输入310的该部分时，语音解码器142可以测量从接收到该部分的时刻到接收到语音输入310的后一部分的时刻的时间延迟。如果该时间延迟超过阈值延迟值，则语音解码器142可以确定该部分满足稳定性标准。

图4是用于确定所接收的语音输入的转录文字的示例性方法400的流程图。为了方便，将通过执行方法400的系统来描述方法400。

该系统按照其被说出的顺序来处理(410)所接收到的语音输入，以将语音输入的一部分确定为第一分段。该系统获取(420)该语音输入的第一分段的第一候选转录文字。为了获取第一分段的第一候选转录文字，系统可以确定该语音输入的第一分段是否满足稳定性标准。如果该语音输入的第一分段满足稳定性标准，则系统可以获取第一分段的第一候选转录文字。如果该语音输入的第一分段不满足稳定性标准，则系统可不获取第一候选转录文字。然后，系统可以接收该语音输入的一个或多个部分，并识别该语音输入新的第一分段以确定该语音输入的新的第一分段是否满足稳定性标准。如上所参照图3所描述的，该系统可以使用过程300确定该语音输入的第一分段满足稳定性标准。

该系统从场境的集合中确定(430)与第一分段相关的一个或多个场境。可以基于由第一分段提供的场境来确定与第一分段相关的特定场境。例如，第一分段的特定关键字可以被识别为与特定的场境相关。回到图2，该系统可以识别与“tennis players”相关联的场境以及与“basketball players”相关联的场境。网球运动员场境可以与诸如“RogerFederer”、“Rafael Nadal”和“Novak Djokovic”的关键词相关联。篮球运动员的场境可以与诸如“Roger Bederer”、“Rafael Madall”和“Novak Jocovich”的关键词相关联。该系统可以配置成存储每个场境的权重。当该系统识别出场境时，该系统还可以识别所述场境的相应权重。该场境的相应权重表示语音输入的一个或多个转录文本与场境关联的程度。

该系统调整(440)所述一个或多个场境中的每一个场境的相应权重。该系统可以基于语音输入的第一候选转录文字来调整每个场境的相应权重。例如，该语音输入的第一候选转录文字“How many wins does tennis player”包括词语“tennis player(网球运动员)”。基于第一候选转录文字的词语“tennis player”，该系统可以被配置为调整所述场境的权重。例如，该系统可以增加场境的权重，例如从“10”增加到“90”，可以降低场境的权重，例如从“90”降低到“10”，或者可以将增加权重和降低权重的组合。

在一些实施方式中，仅调整(例如，增加)最相关的场境的权重，而所有其它场境保持恒定。在一些其它实施方式中，所有其它的场境被降低权重，而最相关的场境保持恒定。此外，可以产生这两者的任何适当的组合。例如，一个相关的场境的提升值可以与另一场境的降低值不同。

该系统部分地基于调整后的权重来确定(450)该语音输入的第二分段的第二候选转录文字。响应于对所述场境的相应权重的调整，该系统可以更新所述场境的调整后的权重。例如，该系统可以基于调整后的权重赋予被识别为与第一分段更相关的第一场境比第二场境更多的权重。基于调整后的权重，语音解码器可以确定语音输入的第二分段的第二候选转录文字。该过程继续执行，直到不再有要识别的语音输入的额外部分。

图5是用于提供语音搜索的示例性方法500的流程图。为了方便起见，将针对执行方法500的系统来描述方法500。

该系统接收(510)语音输入。该系统可以配置成接收来自用户的语音输入。该系统可以在用户说话时实时地接收语音输入的每个分段。

当该系统接收到语音输入时，系统确定(520)该语音输入的转录文字。例如，如上文关于图4所描述的，该系统确定转录文字。一旦系统确定(520)该语音输入的整个转录文字，则该系统提供(530)语音输入的转录文字以供输出。系统可以将该输出提供为文本搜索查询。系统可以使用文本搜索查询来执行搜索并获取搜索结果。该系统可以向用户提供搜索结果。在一些实施方式中，该系统可以提供显示界面以向用户呈现搜索结果。在其他实施方式中，该系统可以提供音频界面以向用户呈现搜索结果。

本说明书中描述的主题和操作的实施例可以在数字电子电路中，或在计算机软件、固件或硬件中实现，包括本说明书中公开的结构及其结构等同物，或它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为在计算机存储介质上编码的一个或多个计算机程序，即，计算机程序指令的一个或多个模块、用于由数据处理设备执行或控制数据处理设备的操作。替选地或另外，所述程序指令可以被编码在人工生成的传播信号上，例如机器产生的电、光或电磁信号，生成该信号以编码用于传输至合适的接收器设备以供数据处理设备执行的信息。计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备中、或它们中的一个或多个的组合。此外，虽然计算机存储介质不是传播信号，但计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的来源或终点。计算机存储介质还可以是或包括于一个或多个单独的物理部件或介质内，例如多个CD、磁盘或其他存储设备。

在本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他来源接收的数据执行的操作。

术语“数据处理装置”包括用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理单元、计算机、芯片上系统、个人计算机系统、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、大型计算机系统、手持计算机、工作站、网络计算机、应用服务器、存储设备、消费电子设备如相机、摄像机、机顶盒、移动设备、视频游戏控制台、外围设备诸如交换机、调制解调器、路由器、或者通常任何类型的计算或电子设备、或者前述各项中的多个或它们的组合。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)。除了硬件之外，该装置还可以包括创建用于所述计算机程序的执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合。该装置和执行环境可以实现各种不同的计算模型基础设施，例如web服务、分布式计算和网格计算基础设施。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言、声明性或过程语言，并且可以以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程、对象或其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，专用于所述程序的单个文件中，或者存储在多个协同文件中(例如，存储一个或多个模块、子程序、或代码的一部分的文件)。计算机程序可以部署成在一个计算机上或在位于同一个地点或分布在多个地点处并通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理单元执行，以通过对输入数据进行操作并生成输出来执行行动。过程和逻辑流程也可以由专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)来执行，并且该装置也可以实现为专用逻辑电路。

适于执行计算机程序的处理单元例如包括通用和专用微处理器以及任何种类的数字计算机的任何一个或多个处理单元。通常，处理单元从只读存储器或随机存取存储器或这两者中接收指令和数据。计算机的基本元件是用于根据指令执行行动的处理单元和用于存储指令及数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘、或者可操作地耦合到该用于存储数据的一个或多个大容量存储设备，以从其接收数据或向其传送数据。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、掌上电脑(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、网络路由设备、或便携式存储设备，例如通用串行总线(USB)闪存驱动器，此仅为举的例子。适合用于存储计算机程序指令和数据设备包括任何形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；和CD-ROM盘以及DVD-ROM盘。所述处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示设备、例如CRT(阴极射线管)或LCD(液晶显示器)监视器的计算机上实现，以及在用户可以通过其向计算机提供输入的键盘和指示设备、例如鼠标或轨迹球上实现。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以为任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档，与用户交互；例如，通过响应于从web浏览器接收的请求，将网页发送到用户的客户端设备上的web浏览器。

在本说明书中描述的主题的实施例可以在包括后端组件(例如作为数据服务器)、或包括中间件组件(例如应用服务器)、或包括前端组件(例如具有图形用户界面或web浏览器的客户端计算机，用户可以通过该客户端计算机与本说明书中描述的主题的实施方式交互)的计算系统、或路由设备(例如网络路由器)、或者一个或多个这样的后端、中间件或前端组件的组合中实现。该系统的多个组件可以通过任何形式或数字数据通信(例如通信网络)的介质互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如Internet)和对等网络(例如，特设的对等网络)。

该计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离且通常通过通信网络交互。客户端和服务器的关系通过在相应的计算机上执行并具有客户端-服务器关系的计算机程序建立。在一些实施例中，服务器向客户端设备发送数据(例如，HTML页面)(例如，用于向与客户端设备交互的用户显示数据和从用户接收用户输入)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

一个或多个计算机的系统可以配置成通过安装在该系统上的、使得该系统在操作中执行动作的软件、固件、硬件或它们的组合来执行特定的动作。一个或多个计算机程序可以配置成通过包括在被数据处理装置执行时使该装置执行动作的指令来执行特定动作。

虽然本说明书包含许多具体实施细节，但不应解释为对任何发明或可要求保护范围的限制，而应解释为对特定发明的特定实施例的特定特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中的组合实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外，虽然特征可以在以上被描述为在某些组合中起作用并甚至如起初所要求保护的，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中删除，所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中以特定顺序描绘操作，但不应理解为要求这些操作以所示的特定顺序或以顺序次序执行，或者所有示出的操作被执行以实现预期的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中，各种系统组件的分离不应理解为在所有实施例中都需这样的分离，而应理解为：所描述的程序组件和系统通常可以集成在单个软件产品中或封装到多个软件产品中。

因此，描述了主题的特定实施例。其他实施例也在所附权利要求的范围内。在一些情况下，权利要求中描述的动作能够以不同的顺序执行并且仍然实现所期望的结果。另外，附图中描绘的过程不一定需要所示出的特定顺序或顺序次序来实现预期的结果。在某些实施方式中，多任务和并行处理可以是有利的。因此，其他实施例也在所附权利要求的范围内。

Claims

1.一种方法，包括：

在自动语音识别(ASR)系统处，接收来自用户的语音输入以调用软件应用以执行动作；

由所述ASR系统确定与所述语音输入相关联的特定场境，所述特定场境是为所述用户定制的并且包括与所述特定场境相对应的命名实体列表；以及

由所述ASR系统使用语言模型生成所述语音输入的转录，所述语言模型将所述语音输入的所述转录偏向以包括与所述特定场境相对应的所述命名实体列表中的命名实体中的一个。

2.根据权利要求1所述的方法，其中，所述语言模型包括N元模型。

3.根据权利要求1所述的方法，其中，来自所述用户的所述语音输入被配置为调用所述软件应用以使用所述语音输入的所述转录来执行所述动作。

4.根据权利要求1所述的方法，其中，与所述语音输入相关联的所述特定场境包括指示所述语音输入与特定场境相关联的可能性的相应权重。

5.根据权利要求1所述的方法，其中，确定与所述语音输入相关联的所述特定场境包括：基于由所述语音输入调用以执行所述动作的所述软件应用的类型来确定所述特定场境。

6.根据权利要求1所述的方法，其中，确定与所述语音输入相关联的所述特定场境包括：基于描述在所述ASR系统处接收的所述语音输入的类型的数据来确定所述特定场境。

7.根据权利要求1所述的方法，其中，所述ASR系统在与所述用户相关联的用户设备上实现。

8.根据权利要求7所述的方法，其中，所述用户设备包括麦克风，所述麦克风被配置为捕获由所述用户说出的所述语音输入并将所述语音输入提供给所述ASR系统。

9.根据权利要求7所述的方法，其中，包括所述命名实体列表的所述特定场境被存储在所述用户设备上。

10.根据权利要求7所述的方法，其中，确定与所述语音输入相关联的所述特定场境包括：基于所述用户设备的类型来确定所述特定场境。

11.一种自动语音识别(ASR)系统，包括：

数据处理硬件；以及

与所述数据处理硬件通信并且存储指令的存储器硬件，所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行包括以下的操作：

接收来自用户的语音输入以调用软件应用以执行动作；

确定与所述语音输入相关联的特定场境，所述特定场境是为所述用户定制的并且包括与所述特定场境相对应的命名实体列表；以及

使用语言模型生成所述语音输入的转录，所述语言模型将所述语音输入的所述转录偏向以包括与所述特定场境相对应的所述命名实体列表中的命名实体中的一个。

12.根据权利要求11所述的ASR系统，其中，所述语言模型包括N元模型。

13.根据权利要求12所述的ASR系统，其中，来自所述用户的所述语音输入被配置为调用所述软件应用以使用所述语音输入的所述转录来执行所述动作。

14.根据权利要求11所述的ASR系统，其中，与所述语音输入相关联的所述特定场境包括指示所述语音输入与特定场境相关联的可能性的相应权重。

15.根据权利要求11所述的ASR系统，其中，确定与所述语音输入相关联的所述特定场境包括：基于由所述语音输入调用以执行所述动作的所述软件应用的类型来确定所述特定场境。

16.根据权利要求11所述的ASR系统，其中，确定与所述语音输入相关联的所述特定场境包括：基于描述在所述ASR系统处接收的所述语音输入的类型的数据来确定所述特定场境。

17.根据权利要求11所述的ASR系统，其中，所述ASR系统在与所述用户相关联的用户设备上实现。

18.根据权利要求17所述的ASR系统，其中，所述用户设备包括麦克风，所述麦克风被配置为捕获由所述用户说出的所述语音输入并将所述语音输入提供给所述ASR系统。

19.根据权利要求17所述的ASR系统，其中，包括所述命名实体列表的所述特定场境被存储在所述用户设备上。

20.根据权利要求17所述的ASR系统，其中，确定与所述语音输入相关联的所述特定场境包括：基于所述用户设备的类型来确定所述特定场境。

21.一种方法，包括：

在自动语音识别(ASR)系统处，接收来自用户的当前语音输入，所述当前语音输入与至少两个场境相关联，所述至少两个场境中的每个场境具有相应权重，所述相应权重指示所述语音输入与相应场境相关联的可能性；

由所述ASR系统生成来自所述用户的所述当前语音输入的中间识别结果；

由所述ASR系统基于所述中间识别结果来调整所述至少两个场境的所述相应权重；以及

由所述ASR系统使用语言模型转录所述当前语音输入，所述语言模型基于所调整的权重来将所述语音输入的所述转录偏向所述至少两个场境中的一个场境。

22.根据权利要求21所述的方法，其中，所述语言模型包括N元模型。

23.根据权利要求21所述的方法，其中，调整与所述当前语音输入相关联的所述至少两个场境的所述相应权重包括提升所述至少两个场境中的至少一个场境的相应基本权重。

24.根据权利要求21所述的方法，其中，基于所述中间识别结果来调整所述至少两个场境的所述相应权重包括：

通过识别所述中间识别结果中的特定关键字来确定所述至少两个场境中的最相关的一个场境；以及

增加所述至少两个场境中的所述最相关的一个场境的相应权重。

25.根据权利要求21所述的方法，其中，来自所述用户的所述当前语音输入被配置为调用软件应用以使用所述当前语音输入的所述转录来执行动作。

26.根据权利要求21所述的方法，还包括将所述当前语音输入的所述转录提供给与所述用户交互的对话系统。

27.根据权利要求21所述的方法，其中，所述至少两个场境中的至少一个场境包括指示在所述ASR系统处接收到所述当前语音输入时的当前时间的数据。

28.根据权利要求21所述的方法，其中，与所述当前语音输入相关联的所述至少两个场境中的至少一个场境是基于在所述当前语音输入的过去时间段内来自所述用户的一个或多个先前语音输入。

29.根据权利要求21所述的方法，其中，所述至少两个场境中的至少一个场境包括与特定类别相关联的命名实体。

30.根据权利要求21所述的方法，其中，所述ASR系统驻留在与和所述用户相关联的计算设备通信的服务器上，所述计算设备被配置为捕获由所述用户说出的所述当前语音输入并将所捕获的语音输入传送到所述ASR系统。

31.一种自动语音识别(ASR)系统，包括：

数据处理硬件；以及

接收来自用户的当前语音输入，所述当前语音输入与至少两个场境相关联，所述至少两个场境中的每个场境具有相应权重，所述相应权重指示所述语音输入与相应场境相关联的可能性；

生成来自所述用户的所述当前语音输入的中间识别结果；

基于所述中间识别结果来调整所述至少两个场境的所述相应权重；以及

使用语言模型转录所述当前语音输入，所述语言模型基于所调整的权重来将所述语音输入的所述转录偏向所述至少两个场境中的一个场境。

32.根据权利要求31所述的ASR系统，其中，所述语言模型包括N元模型。

33.根据权利要求32所述的ASR系统，其中，调整与所述当前语音输入相关联的所述至少两个场境的所述相应权重包括提升所述至少两个场境中的至少一个场境的相应基本权重。

34.根据权利要求31所述的ASR系统，其中，基于所述中间识别结果来调整所述至少两个场境的所述相应权重包括：

35.根据权利要求31所述的ASR系统，其中，来自所述用户的所述当前语音输入被配置为调用软件应用以使用所述当前语音输入的所述转录来执行动作。

36.根据权利要求31所述的ASR系统，其中，所述操作还包括将所述当前语音输入的所述转录提供给与所述用户交互的对话系统。

37.根据权利要求31所述的ASR系统，其中，所述至少两个场境中的至少一个场境包括指示在所述ASR系统处接收到所述当前语音输入时的当前时间的数据。

38.根据权利要求31所述的ASR系统，其中，与所述当前语音输入相关联的所述至少两个场境中的至少一个场境是基于在所述当前语音输入的过去时间段内来自所述用户的一个或多个先前语音输入。

39.根据权利要求31所述的ASR系统，其中，所述至少两个场境中的至少一个场境包括与特定类别相关联的命名实体。

40.根据权利要求31所述的ASR系统，其中，所述数据处理硬件和所述存储器硬件驻留在与和所述用户相关联的计算设备通信的服务器上，所述计算设备被配置为捕获由所述用户说出的所述当前语音输入并将所述当前语音输入传送到所述ASR系统。

41.一种计算机实现的方法，包括：

接收与用户的语音输入相对应的音频数据，所述语音输入包括第一分段和第二分段；

提供所述用户的所述语音输入的转录以用于输出，所述转录包括与所述第一分段相对应的第一转录和与所述第二分段相对应的第二转录，其中：

所述第一分段的所述第一转录与一个或多个场境相关联，所述一个或多个场境分别与一个或多个基本权重相关联；以及

所述第二分段的所述第二转录是基于以所述第一转录为基础来调整针对所述一个或多个场境中的每一个场境的所述一个或多个基本权重中的相应基本权重来确定。

42.根据权利要求41所述的方法，其中，所述一个或多个场境包括数据，所述数据包括用户的地理位置、用户的搜索历史、用户的兴趣或用户的活动。

43.根据权利要求41所述的方法，还包括维持表示所述一个或多个场境的数据。

44.根据权利要求41所述的方法，还包括：

接收响应于所述转录的一个或多个搜索结果；以及

向所述用户提供所述一个或多个搜索结果。

45.根据权利要求41所述的方法，还包括：

确定所述语音输入的所述第一分段满足稳定性标准；以及

响应于确定所述语音输入的所述第一分段满足所述稳定性标准，获取所述第一分段的所述第一转录。

46.根据权利要求45所述的方法，其中，所述稳定性标准包括所述语音输入的所述第一分段的一个或多个语义特征。

47.根据权利要求45所述的方法，其中，所述稳定性标准包括在所述语音输入的所述第一分段之后发生的时间延迟。

48.一种系统，包括：

一个或多个计算机和一个或多个存储指令的存储设备，所述指令在由所述一个或多个计算机执行时能够操作以使所述一个或多个计算机执行操作，所述操作包括：

接收与用户的语音输入相对应的音频数据，所述语音输入包括第一分段和第二分段；以及

49.根据权利要求48所述的系统，其中，所述一个或多个场境包括数据，所述数据包括用户的地理位置、用户的搜索历史、用户的兴趣或用户的活动。

50.根据权利要求48所述的系统，其中，所述操作还包括维持表示所述一个或多个场境的数据。

51.根据权利要求48所述的系统，其中，所述操作还包括：

接收响应于所述转录的一个或多个搜索结果；以及

向所述用户提供所述一个或多个搜索结果。

52.根据权利要求48所述的系统，其中，所述操作还包括：

确定所述语音输入的所述第一分段满足稳定性标准；以及

53.根据权利要求52所述的系统，其中，所述稳定性标准包括所述语音输入的所述第一分段的一个或多个语义特征。

54.根据权利要求52所述的系统，其中，所述稳定性标准包括在所述语音输入的所述第一分段之后发生的时间延迟。

55.一种存储软件的非暂时性计算机可读介质，所述软件包括能够由一个或多个计算机执行的指令，所述指令在这样的执行时，使所述一个或多个计算机执行操作，所述操作包括：

56.根据权利要求55所述的非暂时性计算机可读介质，其中，所述操作还包括维持表示所述一个或多个场境的数据。

57.根据权利要求55所述的非暂时性计算机可读介质，其中，所述操作还包括：

接收响应于所述转录的一个或多个搜索结果；以及

向所述用户提供所述一个或多个搜索结果。

58.根据权利要求55所述的非暂时性计算机可读介质，其中，所述操作还包括：

确定所述语音输入的所述第一分段满足稳定性标准；以及

59.根据权利要求58所述的非暂时性计算机可读介质，其中，所述稳定性标准包括所述语音输入的所述第一分段的一个或多个语义特征。

60.根据权利要求58所述的非暂时性计算机可读介质，其中，所述稳定性标准包括在所述语音输入的所述第一分段之后发生的时间延迟。