CN112992146A - 语音识别系统 - Google Patents

语音识别系统 Download PDF

Info

Publication number
CN112992146A
CN112992146A CN202110154554.7A CN202110154554A CN112992146A CN 112992146 A CN112992146 A CN 112992146A CN 202110154554 A CN202110154554 A CN 202110154554A CN 112992146 A CN112992146 A CN 112992146A
Authority
CN
China
Prior art keywords
speech input
user
segment
contexts
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110154554.7A
Other languages
English (en)
Inventor
佩德罗·J·莫雷诺·门吉巴尔
彼塔尔·阿列克西克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN112992146A publication Critical patent/CN112992146A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及语音识别系统。提供了一种语音识别系统以及用于语音识别的方法和装置,其包括被编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括下列步骤:接收语音输入;确定该语音输入的转录文字,其中,对于该语音输入的多个分段,确定该语音输入的转录文字的步骤包括:获取该语音输入的第一分段的第一候选转录文字;确定与该第一候选转录文字相关联的一个或多个场境;调整所述一个或多个场境中的每一个场境的相应权重;以及,部分地基于调整后的权重来确定该语音输入的第二分段的第二候选转录文字;以及,提供该语音输入的所述多个分段的转录文字以供输出。

Description

语音识别系统
分案说明
本申请属于申请日为2016年12月23日的中国发明专利申请201611207951.1的分案申请。
技术领域
本公开涉及语音识别。
背景技术
常规的语音识别系统旨在将来自用户的语音输入转换为文本输出。该文本输出可用于各种用途,例如包括:作为搜索查询、命令、文字处理输入等。在典型的语音搜索系统中,语音界面接收用户的语音输入并将该语音输入提供给语音识别引擎。语音识别引擎将该语音输入转换为文本搜索查询。语音搜索系统然后向搜索引擎提交该文本搜索查询,以获得一个或多个搜索结果。
发明内容
总的来说,本说明书中描述的主题的一个创新方面可以实施在以下方法中,该方法包括以下步骤:接收将语音输入编码的数据;确定该语音输入的转录文字(transcription),其中,对于该语音输入的多个分段,确定该语音输入的转录文字包括:获取该语音输入的第一分段的第一候选转录文字;确定与该第一候选转录文字相关联的一个或多个场境(contexts);调整所述一个或多个场境中的每一个场境的相应权重;以及部分地基于调整后的权重来确定该语音输入的第二分段的第二候选转录文字;以及,提供该语音输入的所述多个分段的转录文字以供输出。本说明书中描述的方法可以实施为计算机实现的方法。此方面的其他实施例包括相应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序中,该计算机系统、装置和计算机程序中的每一个均被配置为执行所述方法的步骤。对于要配置成执行特定操作或动作的一个或多个计算机的系统,意味着该系统已安装于在操作中使该系统执行所述操作或动作的软件、固件、硬件或其组合上。对于要配置成执行特定操作或动作的一个或多个计算机程序,意味着所述一个或多个程序包括如下的指令:当该指令被数据处理装置执行时,该指令使装置执行所述操作或动作。
本说明书中描述的主题的另一创新方面可以实施为存储有软件的计算机可读介质,该软件包括可由一个或多个计算机执行的指令,当进行这种执行时,该指令使所述一个或多个计算机执行以下操作,包括:接收将语音输入编码的数据;确定该语音输入的转录文字,其中,对于该语音输入的多个分段,确定该语音输入的转录文字包括:获取该语音输入的第一分段的第一候选转录文字;确定与第一候选转录文字相关联的一个或多个场境;调整所述一个或多个场境中的每一个场境的相应权重;以及,部分地基于调整后的权重来确定该语音输入的第二分段的第二候选转录文字;以及,提供该语音输入的所述多个分段的转录文字以供输出。
前述和其它实施例中的每一个均能够可选地包括以下特征中的一个或多个(单独地或以它们的任何组合)。例如,一个实施例包括以下所有特征的组合。所述方法包括获取语音输入的第一分段的第一候选转录文字:确定该语音输入的第一分段满足稳定性标准;以及,响应于确定该语音输入的第一分段满足稳定性标准来获取该语音输入的第一分段的第一候选转录文字。所述稳定性标准包括该语音输入的第一分段的一个或多个语义特征(semantic characteristics)。所述稳定性标准包括该语音输入的第一分段之后发生的时间延迟。该语音输入的第二分段出现在该语音输入的第一分段之后。所述一个或多个场境是从用户设备接收的。所述一个或多个场境包括以下的数据:该数据包括用户的地理位置、用户的搜索历史、用户的兴趣、或用户的活动。所述方法包括:存储对多个场境的多个评分;以及,响应于对所述一个或多个场境中的每一个场境的相应权重的调整来更新所述一个或多个场境的调整后的评分。所述方法还包括将该输出作为一个搜索查询(search query)来提供,例如提供给搜索引擎,然后,搜索引擎可以响应于该搜索查询而向用户设备提供一个或多个搜索结果。所述第一候选转录文字包括单词、子词或词组。
可以实施本说明书中描述的主题的特定实施例,以实现以下优点中的一个或多个。与常规的语音识别系统相比,该语音识别系统能够基于语音输入的分段来提供更准确的文本搜索查询。由于该系统基于语音输入的分段来调整场境的权重并且部分地基于调整后的权重来确定该语音输入的后续分段的转录文字,所以,该系统能够动态地提高识别性能。因此,该系统能够提高语音识别的准确性。这种提高的准确性减小了用户必须重复提供语音输入以供语音识别系统处理的过程的可能性,从而使该语音识别系统可处理其他的语音输入。
在附图和以下的描述中,阐述了本说明书的主题的一个或多个实施例的细节。从该描述、附图和权利要求书中,所述主题的其他特征、方面和优点将变得清楚。应当理解,这些方面和实施方式能够相互组合,并且,在一个方面或实施方式的上下文中描述的特征也可以在其他方面或实施方式的上下文中实施。
附图说明
图1是提供了示例性的语音识别系统的图。
图2是示出了示例性的场境的图。
图3是示出了用于确定是否满足稳定性标准的示例性过程的图。
图4是用于提供语音输入的转录文字的示例性方法的流程图。
图5是用于确定语音输入的转录文字的示例性方法的流程图。
在各个附图中,相同的附图标记表示相同的元件。
具体实施方式
图1是提供了示例性的语音识别系统100的图。语音识别系统100包括一个或多个计算机,所述一个或多个计算机被编程为:从用户设备120接收来自用户10的语音输入110,确定语音输入110的转录文字,并将语音输入110的该转录文字作提供为输出。在图1所示的示例中,该输出可以是一个搜索查询150,该搜索查询150被提供给搜索引擎160,以响应该搜索查询150来获取搜索结果170。然后,一个或多个搜索结果170被提供给用户设备120。该语音识别系统100例如可以实施在包括服务器的一个或多个计算机上或实施在用户设备上。
语音识别系统100包括通过一个或多个网络180与用户设备120通信的语音识别引擎140。所述一个或多个网络180可以是电话和/或计算机网络,包括无线蜂窝网络、无线局域网(WLAN)或Wi-Fi网络、有线以太网、其他有线网络、或它们的任何适当的组合。用户设备120可以是任何适当类型的计算设备,包括但不限于:移动电话、智能电话、平板计算机、音乐播放器、电子书阅读器、膝上型计算机或台式计算机、PDA或包括一个或多个处理器和计算机可读介质的其他手持设备或移动设备。用户设备120被配置为接收来自用户10的语音输入110。用户设备120可以包括或联接到例如声电换能器或传感器(例如,麦克风)。响应于用户10输入所述语音输入110,该语音输入可以被提交给语音识别引擎140。(总的来说,这可以通过向语音识别引擎140提交表示该语音输入或将该语音输入编码的数据来完成。语音识别引擎140可处理该数据,以从接收到的数据中提取所述语音输入)。
语音识别引擎140可以依次识别语音输入,例如,可以识别语音输入110的第一部分111,然后可以识别语音输入110的第二部分112。基于特定的稳定性标准,可以将语音输入110的一个或多个部分识别为语音输入110的独立分段。其一部分可以包括单词(word)、子词(sub-word)或词组。在一些实施方式中,如下文更详细描述的,语音输入110的一个或多个分段可以提供中间识别结果,该中间识别结果能够用于调整一个或多个场境。
虽然贯穿本文使用了一个搜索查询的示例来进行说明,但语音输入110可以表示任何类型的语音通信,包括基于语音的指令、搜索引擎查询词项(terms)、口述(dictation)、对话系统、或者使用转录的语音或调用使用转录的语音来执行动作的软件应用的任何其他输入。
语音识别引擎140可以是被配置为接收和处理语音输入110的语音识别系统100的软件组件。如图1所示,语音识别引擎140将语音输入110转换为被提供给搜索引擎160的文本搜索查询150。语音识别引擎140包括语音解码器142、场境模块144和场境调整模块146。语音解码器142、场境模块144和场境调整模块146可以是语音识别系统100的软件组件。
当语音识别引擎140接收到语音输入110时,语音解码器142确定该语音输入110的转录文字。然后,语音解码器142提供语音输入110的该转录文字作为输出,例如作为要提供给搜索引擎160的搜索查询150。
语音解码器142使用语言模型来生成语音输入110的候选转录文字。该语言模型包括与单词或单词的顺序相关的可能性值。例如,该语言模型可以是N元模型。在语音解码器142处理该语音输入时,可以确定中间识别结果。每个中间识别结果均对应于语音输入110的转录文字的一个稳定分段。下文将参照图3更详细地描述用于确定该转录文字的稳定分段的稳定性标准。
语音解码器142将每个稳定分段提供给场境调整模块146。场境调整模块146从场境模块144识别出相关的场境。所识别出的每个场境可以与一个权重相关联。可以根据各种标准,例如基于场境的普便性、场境的时间接近性(即,某个特定场境是否在最近的时间段内被频繁使用)、或该场境最近的或总体的使用来初始指定每个场境的基本权重。该基本权重可能基于用户的输入与特定场境相关联的可能性而产生一个初始偏差。一旦场境调整模块146识别出相关的场境,场境调整模块146就基于由语音解码器142提供的一个或多个稳定分段来调整该场境的权重。可以调整权重以指明语音输入的转录文字与特定场境相关联的程度。
场境模块144存储有场境148以及与场境148相关联的权重。场境模块144可以是语音识别引擎140的软件组件,该场境模块144被配置为使计算设备从用户设备120接收一个或多个场境148。语音识别引擎140可以配置为将接收到的场境148存储在场境模块144中。在一些情况下,场境模块144可以配置为生成为用户10定制的一个或多个场境148。语音识别引擎140可以配置为将所生成的场境148存储在场境模块144中。
场境148例如可以包括:(1)描述用户活动的数据,例如多个重复的语音输入之间的时间间隔、来自于用户设备的屏幕附近的前侧相机的反映眼睛运动的注视跟踪信息;(2)描述发出语音输入时的情形的数据,例如所使用的移动应用的类型、用户的位置、所使用的设备的类型、或当前时间;(3)提交给搜索引擎的先前的语音搜索查询;(4)描述提交给语音识别引擎的语音输入的类型的数据,例如对搜索引擎的命令、请求或搜索查询,以及(5)实体,例如特定类别的成员、地名等。例如,可以根据先前的搜索查询、用户信息、实体数据库等来形成多个场境。
图2是示出了示例性的场境的图。语音识别引擎被配置为将与“Tennis Players(网球运动员)”相关联的场境210以及与“Basketball Players(篮球运动员)”相关联的场境220例如存储在场境模块中,例如场境模块144。场境210包括与特定的网球运动员相对应的实体,例如“Roger Federer”、“Rafael Nadal”和“Novak Djokovic”。场境220包括与特定的篮球运动员相对应的实体,例如“Roger Bederer”、“Rafael Madall”和“NovakJokovich”。
场境模块144可以配置为存储场境210、220的权重。该权重可以表示语音输入的一个或多个转录文本与场境210、220关联的程度。当场境调整模块146识别出场境210、220时,该场境调整模块还识别与场境210、220相关联的权重。
当语音解码器142针对语音输入110的第一分段111获取第一候选转录文字“Howmany wins does tennis player(网球运动员胜多少次)”时,语音解码器142将第一分段111的该第一候选转录文字提供给场境调整模块146。场境调整模块146将场境210、220识别为场境模块144中的相关场境并识别与场境210、220相关联的权重。然后,场境调整模块146被配置为基于语音输入110的第一分段111的第一候选转录文字来调整场境210、220的相应权重。特别地,场境调整模块146能够调整场境210、220的相应权重,以用于识别语音输入110的后续分段。
各个场境的基本权重可能最初使语音识别偏向具有较高初始权重的“篮球”的场境,例如因为与网球相比而言的、与篮球相关的语音输入的历史流行度。然而,在基于该中间识别结果调整后,语音识别可偏向“网球”的场境。在本示例中,语音输入110的第一候选转录文字“How many wins does tennis player”包括词语“tennis player”。基于该第一候选转录文字的词语“tennis player”,场境调整模块146可以配置为调整一个或多个场境的权重。例如,场境调整模块146可以增加场境210的权重,例如从“10”增加到“90”,可以降低场境220的权重,例如从“90”降低到“10”,或者可以执行增加权重和降低权重的组合。
语音解码器142可以配置成部分地基于调整后的权重来确定语音输入110的第二分段112的第二候选转录文字。响应于对场境的相应权重的调整,语音识别引擎140可以配置为在场境模块144中更新场境210、220的调整后的权重。在上述示例中,为了确定语音输入110的第二分段112的第二候选转录文字,语音解码器142可以基于调整后的权重赋予场境210比场境220大的权重。基于场境210的权重,语音解码器142可以确定“Roger Federer”作为语音输入110的第二分段112的第二候选转录文字。
相比之下,如果场境调整模块146不基于第一分段111的第一候选转录文字来调整场境210、220的权重,则语音解码器142可基于存储在场境模块144中的场境210、220的基本权重来确定第二分段112的第二候选转录文字。如果场境220的权重比场境210的权重大,则语音解码器可能确定诸如“Roger Bederer”的篮球运动员名字作为第二分段112的第二候选转录文字。因此,语音解码器142可能提供不正确的识别结果。
在语音解码器142获取整个语音输入110的转录文字后,语音解码器142可以提供语音输入110的转录文字以供输出。该输出可以直接提供给用户设备或用于另外的处理。例如,在图1中,该输出识别被用作文本搜索查询150。例如,当语音解码器142将“RogerFederer”确定为语音输入110的第二分段112的第二候选转录文字时,语音解码器142可以输出整个转录文字“How many wins does tennis player Roger Federer have?(网球选手Roger Federer胜多少次?)”作为给搜索引擎160的搜索查询150。
搜索引擎160使用搜索查询150执行搜索。搜索引擎160可以包括耦合于语音识别系统100的web搜索引擎。搜索引擎160可以响应于搜索查询150来确定一个或多个搜索结果170。搜索引擎160将搜索结果170提供给用户设备120。用户设备120可以具有用于向用户10呈现搜索结果170的显示界面。在一些情况下,用户设备120可以具有音频界面,以将搜索结果170呈现给用户10。
图3是示出了用于确定给定的分段是否满足稳定性标准的示例性过程的图。语音解码器142被配置为确定语音输入110的该部分满足稳定性标准。
当语音解码器142接收语音输入310的部分311时,语音解码器142可以配置为确定语音输入310的部分311是否满足稳定性标准。给稳定性标准表示该部分是否可能被额外的语音识别改变。
该稳定性标准可以包括一个或多个语义特征。如果从语义上预计某个语音输入的一部分之后还会有一个词或多个词,则语音解码器142可以确定该部分不满足稳定性标准。例如,当语音解码器142接收到语音输入310的部分311时,语音解码器142可以确定从语义上预计该部分311之后会有一个词或多个词。然后,语音解码器142确定该部分311不满足稳定性标准。在一些实施方式中,当语音解码器142接收到“mine(我的)”而作为某个语音输入的一部分时,语音解码器142可以确定从语义上预计该部分“mine”之后不会再有一个词或多个词。然后,语音解码器142可以确定该部分“mine”满足分段的稳定性标准。语音解码器142可以将该分段提供给场境调整模块146以调整场境的权重。
如果从语义上预计一个部分之后会有另一个子词或多个子词,则语音解码器142也可以确定该部分不满足稳定性标准。例如,当语音解码器142接收到“play”作为语音输入310的部分312时,语音解码器142可以确定从语义上预计该部分312之后会有一个词或多个词,因为从语义上看,该部分312之后可以有诸如“play-er”、“play-ground”和“play-off”的一个子词或多个子词。然后,语音解码器142确定该部分311不满足稳定性标准。在一些实施方式中,当语音解码器142接收“player”作为语音输入的一部分时,语音解码器142可以确定从语义上预计该部分“player”之后不会有一个词或多个词。然后,语音解码器142可以确定该部分“player”满足分段的稳定性标准。语音解码器142可以将该分段提供给场境调整模块146以调整场境的权重。
在一些实施方式中,所述稳定性标准可以包括在语音输入310的一部分之后产生的时间延迟。如果语音输入310的该部分之后的时间延迟的长度(duration)满足阈值延迟值,则语音解码器142可以确定语音输入310的该部分满足稳定性标准。当语音解码器142接收语音输入310的该部分时,语音解码器142可以测量从接收到该部分的时刻到接收到语音输入310的后一部分的时刻的时间延迟。如果该时间延迟超过阈值延迟值,则语音解码器142可以确定该部分满足稳定性标准。
图4是用于确定所接收的语音输入的转录文字的示例性方法400的流程图。为了方便,将通过执行方法400的系统来描述方法400。
该系统按照其被说出的顺序来处理(410)所接收到的语音输入,以将语音输入的一部分确定为第一分段。该系统获取(420)该语音输入的第一分段的第一候选转录文字。为了获取第一分段的第一候选转录文字,系统可以确定该语音输入的第一分段是否满足稳定性标准。如果该语音输入的第一分段满足稳定性标准,则系统可以获取第一分段的第一候选转录文字。如果该语音输入的第一分段不满足稳定性标准,则系统可不获取第一候选转录文字。然后,系统可以接收该语音输入的一个或多个部分,并识别该语音输入新的第一分段以确定该语音输入的新的第一分段是否满足稳定性标准。如上所参照图3所描述的,该系统可以使用过程300确定该语音输入的第一分段满足稳定性标准。
该系统从场境的集合中确定(430)与第一分段相关的一个或多个场境。可以基于由第一分段提供的场境来确定与第一分段相关的特定场境。例如,第一分段的特定关键字可以被识别为与特定的场境相关。回到图2,该系统可以识别与“tennis players”相关联的场境以及与“basketball players”相关联的场境。网球运动员场境可以与诸如“RogerFederer”、“Rafael Nadal”和“Novak Djokovic”的关键词相关联。篮球运动员的场境可以与诸如“Roger Bederer”、“Rafael Madall”和“Novak Jocovich”的关键词相关联。该系统可以配置成存储每个场境的权重。当该系统识别出场境时,该系统还可以识别所述场境的相应权重。该场境的相应权重表示语音输入的一个或多个转录文本与场境关联的程度。
该系统调整(440)所述一个或多个场境中的每一个场境的相应权重。该系统可以基于语音输入的第一候选转录文字来调整每个场境的相应权重。例如,该语音输入的第一候选转录文字“How many wins does tennis player”包括词语“tennis player(网球运动员)”。基于第一候选转录文字的词语“tennis player”,该系统可以被配置为调整所述场境的权重。例如,该系统可以增加场境的权重,例如从“10”增加到“90”,可以降低场境的权重,例如从“90”降低到“10”,或者可以将增加权重和降低权重的组合。
在一些实施方式中,仅调整(例如,增加)最相关的场境的权重,而所有其它场境保持恒定。在一些其它实施方式中,所有其它的场境被降低权重,而最相关的场境保持恒定。此外,可以产生这两者的任何适当的组合。例如,一个相关的场境的提升值可以与另一场境的降低值不同。
该系统部分地基于调整后的权重来确定(450)该语音输入的第二分段的第二候选转录文字。响应于对所述场境的相应权重的调整,该系统可以更新所述场境的调整后的权重。例如,该系统可以基于调整后的权重赋予被识别为与第一分段更相关的第一场境比第二场境更多的权重。基于调整后的权重,语音解码器可以确定语音输入的第二分段的第二候选转录文字。该过程继续执行,直到不再有要识别的语音输入的额外部分。
图5是用于提供语音搜索的示例性方法500的流程图。为了方便起见,将针对执行方法500的系统来描述方法500。
该系统接收(510)语音输入。该系统可以配置成接收来自用户的语音输入。该系统可以在用户说话时实时地接收语音输入的每个分段。
当该系统接收到语音输入时,系统确定(520)该语音输入的转录文字。例如,如上文关于图4所描述的,该系统确定转录文字。一旦系统确定(520)该语音输入的整个转录文字,则该系统提供(530)语音输入的转录文字以供输出。系统可以将该输出提供为文本搜索查询。系统可以使用文本搜索查询来执行搜索并获取搜索结果。该系统可以向用户提供搜索结果。在一些实施方式中,该系统可以提供显示界面以向用户呈现搜索结果。在其他实施方式中,该系统可以提供音频界面以向用户呈现搜索结果。
本说明书中描述的主题和操作的实施例可以在数字电子电路中,或在计算机软件、固件或硬件中实现,包括本说明书中公开的结构及其结构等同物,或它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为在计算机存储介质上编码的一个或多个计算机程序,即,计算机程序指令的一个或多个模块、用于由数据处理设备执行或控制数据处理设备的操作。替选地或另外,所述程序指令可以被编码在人工生成的传播信号上,例如机器产生的电、光或电磁信号,生成该信号以编码用于传输至合适的接收器设备以供数据处理设备执行的信息。计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备中、或它们中的一个或多个的组合。此外,虽然计算机存储介质不是传播信号,但计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的来源或终点。计算机存储介质还可以是或包括于一个或多个单独的物理部件或介质内,例如多个CD、磁盘或其他存储设备。
在本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他来源接收的数据执行的操作。
术语“数据处理装置”包括用于处理数据的所有类型的装置、设备和机器,例如包括可编程处理单元、计算机、芯片上系统、个人计算机系统、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、大型计算机系统、手持计算机、工作站、网络计算机、应用服务器、存储设备、消费电子设备如相机、摄像机、机顶盒、移动设备、视频游戏控制台、外围设备诸如交换机、调制解调器、路由器、或者通常任何类型的计算或电子设备、或者前述各项中的多个或它们的组合。该装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)。除了硬件之外,该装置还可以包括创建用于所述计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合。该装置和执行环境可以实现各种不同的计算模型基础设施,例如web服务、分布式计算和网格计算基础设施。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释语言、声明性或过程语言,并且可以以任何形式部署,包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程、对象或其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中,专用于所述程序的单个文件中,或者存储在多个协同文件中(例如,存储一个或多个模块、子程序、或代码的一部分的文件)。计算机程序可以部署成在一个计算机上或在位于同一个地点或分布在多个地点处并通过通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理单元执行,以通过对输入数据进行操作并生成输出来执行行动。过程和逻辑流程也可以由专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)来执行,并且该装置也可以实现为专用逻辑电路。
适于执行计算机程序的处理单元例如包括通用和专用微处理器以及任何种类的数字计算机的任何一个或多个处理单元。通常,处理单元从只读存储器或随机存取存储器或这两者中接收指令和数据。计算机的基本元件是用于根据指令执行行动的处理单元和用于存储指令及数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘、或者可操作地耦合到该用于存储数据的一个或多个大容量存储设备,以从其接收数据或向其传送数据。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、掌上电脑(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、网络路由设备、或便携式存储设备,例如通用串行总线(USB)闪存驱动器,此仅为举的例子。适合用于存储计算机程序指令和数据设备包括任何形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;和CD-ROM盘以及DVD-ROM盘。所述处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示设备、例如CRT(阴极射线管)或LCD(液晶显示器)监视器的计算机上实现,以及在用户可以通过其向计算机提供输入的键盘和指示设备、例如鼠标或轨迹球上实现。其他类型的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以为任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档,与用户交互;例如,通过响应于从web浏览器接收的请求,将网页发送到用户的客户端设备上的web浏览器。
在本说明书中描述的主题的实施例可以在包括后端组件(例如作为数据服务器)、或包括中间件组件(例如应用服务器)、或包括前端组件(例如具有图形用户界面或web浏览器的客户端计算机,用户可以通过该客户端计算机与本说明书中描述的主题的实施方式交互)的计算系统、或路由设备(例如网络路由器)、或者一个或多个这样的后端、中间件或前端组件的组合中实现。该系统的多个组件可以通过任何形式或数字数据通信(例如通信网络)的介质互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如Internet)和对等网络(例如,特设的对等网络)。
该计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离且通常通过通信网络交互。客户端和服务器的关系通过在相应的计算机上执行并具有客户端-服务器关系的计算机程序建立。在一些实施例中,服务器向客户端设备发送数据(例如,HTML页面)(例如,用于向与客户端设备交互的用户显示数据和从用户接收用户输入)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。
一个或多个计算机的系统可以配置成通过安装在该系统上的、使得该系统在操作中执行动作的软件、固件、硬件或它们的组合来执行特定的动作。一个或多个计算机程序可以配置成通过包括在被数据处理装置执行时使该装置执行动作的指令来执行特定动作。
虽然本说明书包含许多具体实施细节,但不应解释为对任何发明或可要求保护范围的限制,而应解释为对特定发明的特定实施例的特定特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中的组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外,虽然特征可以在以上被描述为在某些组合中起作用并甚至如起初所要求保护的,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中删除,所要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然在附图中以特定顺序描绘操作,但不应理解为要求这些操作以所示的特定顺序或以顺序次序执行,或者所有示出的操作被执行以实现预期的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中,各种系统组件的分离不应理解为在所有实施例中都需这样的分离,而应理解为:所描述的程序组件和系统通常可以集成在单个软件产品中或封装到多个软件产品中。
因此,描述了主题的特定实施例。其他实施例也在所附权利要求的范围内。在一些情况下,权利要求中描述的动作能够以不同的顺序执行并且仍然实现所期望的结果。另外,附图中描绘的过程不一定需要所示出的特定顺序或顺序次序来实现预期的结果。在某些实施方式中,多任务和并行处理可以是有利的。因此,其他实施例也在所附权利要求的范围内。

Claims (60)

1.一种方法,包括:
在自动语音识别(ASR)系统处,接收来自用户的语音输入以调用软件应用以执行动作;
由所述ASR系统确定与所述语音输入相关联的特定场境,所述特定场境是为所述用户定制的并且包括与所述特定场境相对应的命名实体列表;以及
由所述ASR系统使用语言模型生成所述语音输入的转录,所述语言模型将所述语音输入的所述转录偏向以包括与所述特定场境相对应的所述命名实体列表中的命名实体中的一个。
2.根据权利要求1所述的方法,其中,所述语言模型包括N元模型。
3.根据权利要求1所述的方法,其中,来自所述用户的所述语音输入被配置为调用所述软件应用以使用所述语音输入的所述转录来执行所述动作。
4.根据权利要求1所述的方法,其中,与所述语音输入相关联的所述特定场境包括指示所述语音输入与特定场境相关联的可能性的相应权重。
5.根据权利要求1所述的方法,其中,确定与所述语音输入相关联的所述特定场境包括:基于由所述语音输入调用以执行所述动作的所述软件应用的类型来确定所述特定场境。
6.根据权利要求1所述的方法,其中,确定与所述语音输入相关联的所述特定场境包括:基于描述在所述ASR系统处接收的所述语音输入的类型的数据来确定所述特定场境。
7.根据权利要求1所述的方法,其中,所述ASR系统在与所述用户相关联的用户设备上实现。
8.根据权利要求7所述的方法,其中,所述用户设备包括麦克风,所述麦克风被配置为捕获由所述用户说出的所述语音输入并将所述语音输入提供给所述ASR系统。
9.根据权利要求7所述的方法,其中,包括所述命名实体列表的所述特定场境被存储在所述用户设备上。
10.根据权利要求7所述的方法,其中,确定与所述语音输入相关联的所述特定场境包括:基于所述用户设备的类型来确定所述特定场境。
11.一种自动语音识别(ASR)系统,包括:
数据处理硬件;以及
与所述数据处理硬件通信并且存储指令的存储器硬件,所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行包括以下的操作:
接收来自用户的语音输入以调用软件应用以执行动作;
确定与所述语音输入相关联的特定场境,所述特定场境是为所述用户定制的并且包括与所述特定场境相对应的命名实体列表;以及
使用语言模型生成所述语音输入的转录,所述语言模型将所述语音输入的所述转录偏向以包括与所述特定场境相对应的所述命名实体列表中的命名实体中的一个。
12.根据权利要求11所述的ASR系统,其中,所述语言模型包括N元模型。
13.根据权利要求12所述的ASR系统,其中,来自所述用户的所述语音输入被配置为调用所述软件应用以使用所述语音输入的所述转录来执行所述动作。
14.根据权利要求11所述的ASR系统,其中,与所述语音输入相关联的所述特定场境包括指示所述语音输入与特定场境相关联的可能性的相应权重。
15.根据权利要求11所述的ASR系统,其中,确定与所述语音输入相关联的所述特定场境包括:基于由所述语音输入调用以执行所述动作的所述软件应用的类型来确定所述特定场境。
16.根据权利要求11所述的ASR系统,其中,确定与所述语音输入相关联的所述特定场境包括:基于描述在所述ASR系统处接收的所述语音输入的类型的数据来确定所述特定场境。
17.根据权利要求11所述的ASR系统,其中,所述ASR系统在与所述用户相关联的用户设备上实现。
18.根据权利要求17所述的ASR系统,其中,所述用户设备包括麦克风,所述麦克风被配置为捕获由所述用户说出的所述语音输入并将所述语音输入提供给所述ASR系统。
19.根据权利要求17所述的ASR系统,其中,包括所述命名实体列表的所述特定场境被存储在所述用户设备上。
20.根据权利要求17所述的ASR系统,其中,确定与所述语音输入相关联的所述特定场境包括:基于所述用户设备的类型来确定所述特定场境。
21.一种方法,包括:
在自动语音识别(ASR)系统处,接收来自用户的当前语音输入,所述当前语音输入与至少两个场境相关联,所述至少两个场境中的每个场境具有相应权重,所述相应权重指示所述语音输入与相应场境相关联的可能性;
由所述ASR系统生成来自所述用户的所述当前语音输入的中间识别结果;
由所述ASR系统基于所述中间识别结果来调整所述至少两个场境的所述相应权重;以及
由所述ASR系统使用语言模型转录所述当前语音输入,所述语言模型基于所调整的权重来将所述语音输入的所述转录偏向所述至少两个场境中的一个场境。
22.根据权利要求21所述的方法,其中,所述语言模型包括N元模型。
23.根据权利要求21所述的方法,其中,调整与所述当前语音输入相关联的所述至少两个场境的所述相应权重包括提升所述至少两个场境中的至少一个场境的相应基本权重。
24.根据权利要求21所述的方法,其中,基于所述中间识别结果来调整所述至少两个场境的所述相应权重包括:
通过识别所述中间识别结果中的特定关键字来确定所述至少两个场境中的最相关的一个场境;以及
增加所述至少两个场境中的所述最相关的一个场境的相应权重。
25.根据权利要求21所述的方法,其中,来自所述用户的所述当前语音输入被配置为调用软件应用以使用所述当前语音输入的所述转录来执行动作。
26.根据权利要求21所述的方法,还包括将所述当前语音输入的所述转录提供给与所述用户交互的对话系统。
27.根据权利要求21所述的方法,其中,所述至少两个场境中的至少一个场境包括指示在所述ASR系统处接收到所述当前语音输入时的当前时间的数据。
28.根据权利要求21所述的方法,其中,与所述当前语音输入相关联的所述至少两个场境中的至少一个场境是基于在所述当前语音输入的过去时间段内来自所述用户的一个或多个先前语音输入。
29.根据权利要求21所述的方法,其中,所述至少两个场境中的至少一个场境包括与特定类别相关联的命名实体。
30.根据权利要求21所述的方法,其中,所述ASR系统驻留在与和所述用户相关联的计算设备通信的服务器上,所述计算设备被配置为捕获由所述用户说出的所述当前语音输入并将所捕获的语音输入传送到所述ASR系统。
31.一种自动语音识别(ASR)系统,包括:
数据处理硬件;以及
与所述数据处理硬件通信并且存储指令的存储器硬件,所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行包括以下的操作:
接收来自用户的当前语音输入,所述当前语音输入与至少两个场境相关联,所述至少两个场境中的每个场境具有相应权重,所述相应权重指示所述语音输入与相应场境相关联的可能性;
生成来自所述用户的所述当前语音输入的中间识别结果;
基于所述中间识别结果来调整所述至少两个场境的所述相应权重;以及
使用语言模型转录所述当前语音输入,所述语言模型基于所调整的权重来将所述语音输入的所述转录偏向所述至少两个场境中的一个场境。
32.根据权利要求31所述的ASR系统,其中,所述语言模型包括N元模型。
33.根据权利要求32所述的ASR系统,其中,调整与所述当前语音输入相关联的所述至少两个场境的所述相应权重包括提升所述至少两个场境中的至少一个场境的相应基本权重。
34.根据权利要求31所述的ASR系统,其中,基于所述中间识别结果来调整所述至少两个场境的所述相应权重包括:
通过识别所述中间识别结果中的特定关键字来确定所述至少两个场境中的最相关的一个场境;以及
增加所述至少两个场境中的所述最相关的一个场境的相应权重。
35.根据权利要求31所述的ASR系统,其中,来自所述用户的所述当前语音输入被配置为调用软件应用以使用所述当前语音输入的所述转录来执行动作。
36.根据权利要求31所述的ASR系统,其中,所述操作还包括将所述当前语音输入的所述转录提供给与所述用户交互的对话系统。
37.根据权利要求31所述的ASR系统,其中,所述至少两个场境中的至少一个场境包括指示在所述ASR系统处接收到所述当前语音输入时的当前时间的数据。
38.根据权利要求31所述的ASR系统,其中,与所述当前语音输入相关联的所述至少两个场境中的至少一个场境是基于在所述当前语音输入的过去时间段内来自所述用户的一个或多个先前语音输入。
39.根据权利要求31所述的ASR系统,其中,所述至少两个场境中的至少一个场境包括与特定类别相关联的命名实体。
40.根据权利要求31所述的ASR系统,其中,所述数据处理硬件和所述存储器硬件驻留在与和所述用户相关联的计算设备通信的服务器上,所述计算设备被配置为捕获由所述用户说出的所述当前语音输入并将所述当前语音输入传送到所述ASR系统。
41.一种计算机实现的方法,包括:
接收与用户的语音输入相对应的音频数据,所述语音输入包括第一分段和第二分段;
提供所述用户的所述语音输入的转录以用于输出,所述转录包括与所述第一分段相对应的第一转录和与所述第二分段相对应的第二转录,其中:
所述第一分段的所述第一转录与一个或多个场境相关联,所述一个或多个场境分别与一个或多个基本权重相关联;以及
所述第二分段的所述第二转录是基于以所述第一转录为基础来调整针对所述一个或多个场境中的每一个场境的所述一个或多个基本权重中的相应基本权重来确定。
42.根据权利要求41所述的方法,其中,所述一个或多个场境包括数据,所述数据包括用户的地理位置、用户的搜索历史、用户的兴趣或用户的活动。
43.根据权利要求41所述的方法,还包括维持表示所述一个或多个场境的数据。
44.根据权利要求41所述的方法,还包括:
接收响应于所述转录的一个或多个搜索结果;以及
向所述用户提供所述一个或多个搜索结果。
45.根据权利要求41所述的方法,还包括:
确定所述语音输入的所述第一分段满足稳定性标准;以及
响应于确定所述语音输入的所述第一分段满足所述稳定性标准,获取所述第一分段的所述第一转录。
46.根据权利要求45所述的方法,其中,所述稳定性标准包括所述语音输入的所述第一分段的一个或多个语义特征。
47.根据权利要求45所述的方法,其中,所述稳定性标准包括在所述语音输入的所述第一分段之后发生的时间延迟。
48.一种系统,包括:
一个或多个计算机和一个或多个存储指令的存储设备,所述指令在由所述一个或多个计算机执行时能够操作以使所述一个或多个计算机执行操作,所述操作包括:
接收与用户的语音输入相对应的音频数据,所述语音输入包括第一分段和第二分段;以及
提供所述用户的所述语音输入的转录以用于输出,所述转录包括与所述第一分段相对应的第一转录和与所述第二分段相对应的第二转录,其中:
所述第一分段的所述第一转录与一个或多个场境相关联,所述一个或多个场境分别与一个或多个基本权重相关联;以及
所述第二分段的所述第二转录是基于以所述第一转录为基础来调整针对所述一个或多个场境中的每一个场境的所述一个或多个基本权重中的相应基本权重来确定。
49.根据权利要求48所述的系统,其中,所述一个或多个场境包括数据,所述数据包括用户的地理位置、用户的搜索历史、用户的兴趣或用户的活动。
50.根据权利要求48所述的系统,其中,所述操作还包括维持表示所述一个或多个场境的数据。
51.根据权利要求48所述的系统,其中,所述操作还包括:
接收响应于所述转录的一个或多个搜索结果;以及
向所述用户提供所述一个或多个搜索结果。
52.根据权利要求48所述的系统,其中,所述操作还包括:
确定所述语音输入的所述第一分段满足稳定性标准;以及
响应于确定所述语音输入的所述第一分段满足所述稳定性标准,获取所述第一分段的所述第一转录。
53.根据权利要求52所述的系统,其中,所述稳定性标准包括所述语音输入的所述第一分段的一个或多个语义特征。
54.根据权利要求52所述的系统,其中,所述稳定性标准包括在所述语音输入的所述第一分段之后发生的时间延迟。
55.一种存储软件的非暂时性计算机可读介质,所述软件包括能够由一个或多个计算机执行的指令,所述指令在这样的执行时,使所述一个或多个计算机执行操作,所述操作包括:
接收与用户的语音输入相对应的音频数据,所述语音输入包括第一分段和第二分段;以及
提供所述用户的所述语音输入的转录以用于输出,所述转录包括与所述第一分段相对应的第一转录和与所述第二分段相对应的第二转录,其中:
所述第一分段的所述第一转录与一个或多个场境相关联,所述一个或多个场境分别与一个或多个基本权重相关联;以及
所述第二分段的所述第二转录是基于以所述第一转录为基础来调整针对所述一个或多个场境中的每一个场境的所述一个或多个基本权重中的相应基本权重来确定。
56.根据权利要求55所述的非暂时性计算机可读介质,其中,所述操作还包括维持表示所述一个或多个场境的数据。
57.根据权利要求55所述的非暂时性计算机可读介质,其中,所述操作还包括:
接收响应于所述转录的一个或多个搜索结果;以及
向所述用户提供所述一个或多个搜索结果。
58.根据权利要求55所述的非暂时性计算机可读介质,其中,所述操作还包括:
确定所述语音输入的所述第一分段满足稳定性标准;以及
响应于确定所述语音输入的所述第一分段满足所述稳定性标准,获取所述第一分段的所述第一转录。
59.根据权利要求58所述的非暂时性计算机可读介质,其中,所述稳定性标准包括所述语音输入的所述第一分段的一个或多个语义特征。
60.根据权利要求58所述的非暂时性计算机可读介质,其中,所述稳定性标准包括在所述语音输入的所述第一分段之后发生的时间延迟。
CN202110154554.7A 2016-01-06 2016-12-23 语音识别系统 Pending CN112992146A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/989,642 2016-01-06
US14/989,642 US10049666B2 (en) 2016-01-06 2016-01-06 Voice recognition system
CN201611207951.1A CN107039040B (zh) 2016-01-06 2016-12-23 语音识别系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201611207951.1A Division CN107039040B (zh) 2016-01-06 2016-12-23 语音识别系统

Publications (1)

Publication Number Publication Date
CN112992146A true CN112992146A (zh) 2021-06-18

Family

ID=57589199

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201611207951.1A Active CN107039040B (zh) 2016-01-06 2016-12-23 语音识别系统
CN202110154554.7A Pending CN112992146A (zh) 2016-01-06 2016-12-23 语音识别系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201611207951.1A Active CN107039040B (zh) 2016-01-06 2016-12-23 语音识别系统

Country Status (7)

Country Link
US (6) US10049666B2 (zh)
EP (2) EP3822965A1 (zh)
JP (4) JP6637604B2 (zh)
KR (2) KR102268087B1 (zh)
CN (2) CN107039040B (zh)
DE (2) DE202016008203U1 (zh)
WO (1) WO2017119965A1 (zh)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN108447471B (zh) 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
CN107644095A (zh) * 2017-09-28 2018-01-30 百度在线网络技术(北京)有限公司 用于搜索信息的方法和装置
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
CN108182943B (zh) * 2017-12-29 2021-03-26 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10629205B2 (en) * 2018-06-12 2020-04-21 International Business Machines Corporation Identifying an accurate transcription from probabilistic inputs
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11627012B2 (en) 2018-10-09 2023-04-11 NewTekSol, LLC Home automation management system
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
KR102693925B1 (ko) * 2018-11-30 2024-08-08 구글 엘엘씨 스피치 프로세싱
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
WO2021040092A1 (ko) 2019-08-29 2021-03-04 엘지전자 주식회사 음성 인식 서비스 제공 방법 및 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11610588B1 (en) * 2019-10-28 2023-03-21 Meta Platforms, Inc. Generating contextually relevant text transcripts of voice recordings within a message thread
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
KR20210108098A (ko) 2020-02-25 2021-09-02 삼성전자주식회사 전자 장치 및 그 제어 방법
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266793A (zh) * 2007-03-14 2008-09-17 财团法人工业技术研究院 通过对话回合间上下文关系来减少辨识错误的装置与方法
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US20130110492A1 (en) * 2011-11-01 2013-05-02 Google Inc. Enhanced stability prediction for incrementally generated speech recognition hypotheses
WO2013192218A2 (en) * 2012-06-21 2013-12-27 Google Inc. Dynamic language model

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6444211B2 (en) 1991-04-03 2002-09-03 Connaught Laboratories, Inc. Purification of a pertussis outer membrane protein
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5986650A (en) 1996-07-03 1999-11-16 News America Publications, Inc. Electronic television program guide schedule system and method with scan feature
US6418431B1 (en) 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6360201B1 (en) * 1999-06-08 2002-03-19 International Business Machines Corp. Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US20020157116A1 (en) * 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
AU2003278431A1 (en) * 2002-11-22 2004-06-18 Koninklijke Philips Electronics N.V. Speech recognition device and method
KR20040055417A (ko) * 2002-12-21 2004-06-26 한국전자통신연구원 대화체 연속음성인식 장치 및 방법
WO2005122143A1 (ja) 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
JP2006050568A (ja) 2004-07-06 2006-02-16 Ricoh Co Ltd 画像処理装置、プログラム及び画像処理方法
US7433819B2 (en) * 2004-09-10 2008-10-07 Scientific Learning Corporation Assessing fluency based on elapsed time
US7195999B2 (en) 2005-07-07 2007-03-27 Micron Technology, Inc. Metal-substituted transistor gates
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
WO2008018556A1 (en) 2006-08-09 2008-02-14 Mitsubishi Tanabe Pharma Corporation Tablet
US8788267B2 (en) * 2009-09-10 2014-07-22 Mitsubishi Electric Research Laboratories, Inc. Multi-purpose contextual control
TWI403663B (zh) 2010-07-20 2013-08-01 Foxsemicon Integrated Tech Inc Led發光裝置
US8417530B1 (en) 2010-08-20 2013-04-09 Google Inc. Accent-influenced search results
IL209008A (en) * 2010-10-31 2015-09-24 Verint Systems Ltd A system and method for analyzing ip traffic of targets
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
EP3392876A1 (en) * 2011-09-30 2018-10-24 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9256396B2 (en) * 2011-10-10 2016-02-09 Microsoft Technology Licensing, Llc Speech recognition for context switching
US9152223B2 (en) 2011-11-04 2015-10-06 International Business Machines Corporation Mobile device with multiple security domains
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8515750B1 (en) 2012-06-05 2013-08-20 Google Inc. Realtime acoustic adaptation using stability measures
US20140011465A1 (en) 2012-07-05 2014-01-09 Delphi Technologies, Inc. Molded conductive plastic antenna
US9380833B2 (en) 2012-07-12 2016-07-05 Diana Irving Shoe insert
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
WO2014039106A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US20140122069A1 (en) * 2012-10-30 2014-05-01 International Business Machines Corporation Automatic Speech Recognition Accuracy Improvement Through Utilization of Context Analysis
WO2014093339A1 (en) * 2012-12-11 2014-06-19 Nuance Communications, Inc. System and methods for virtual agent recommendation for multiple persons
CN103871424A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN103064936B (zh) * 2012-12-24 2018-03-30 北京百度网讯科技有限公司 一种基于语音输入的图像信息提取分析方法及装置
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
US20150005801A1 (en) 2013-06-27 2015-01-01 Covidien Lp Microcatheter system
EP3361600B1 (en) 2013-08-15 2022-01-26 Fontem Holdings 4 B.V. Method, system and device for switchless detection and charging
EP2862164B1 (en) * 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
US10565984B2 (en) 2013-11-15 2020-02-18 Intel Corporation System and method for maintaining speech recognition dynamic dictionary
CA2939468A1 (en) * 2014-02-13 2015-08-20 Nec Corporation Communication system, communication device, communication method, and non-transitory computer readable medium storing program
US9679558B2 (en) * 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
US20160018085A1 (en) 2014-07-18 2016-01-21 Soraa, Inc. Compound light control lens field
US10628483B1 (en) * 2014-08-07 2020-04-21 Amazon Technologies, Inc. Entity resolution with ranking
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9805713B2 (en) * 2015-03-13 2017-10-31 Google Inc. Addressing missing features in models
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10491967B1 (en) * 2015-12-21 2019-11-26 Amazon Technologies, Inc. Integrating a live streaming video service with external computing systems
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266793A (zh) * 2007-03-14 2008-09-17 财团法人工业技术研究院 通过对话回合间上下文关系来减少辨识错误的装置与方法
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US20130110492A1 (en) * 2011-11-01 2013-05-02 Google Inc. Enhanced stability prediction for incrementally generated speech recognition hypotheses
CN103918026A (zh) * 2011-11-01 2014-07-09 谷歌公司 用于增量地生成的语音识别假设的增强的稳定性预测
WO2013192218A2 (en) * 2012-06-21 2013-12-27 Google Inc. Dynamic language model

Also Published As

Publication number Publication date
KR20180091056A (ko) 2018-08-14
DE102016125831A1 (de) 2017-07-06
JP2020042313A (ja) 2020-03-19
US10269354B2 (en) 2019-04-23
WO2017119965A1 (en) 2017-07-13
JP2021182168A (ja) 2021-11-25
US11996103B2 (en) 2024-05-28
US20240282309A1 (en) 2024-08-22
DE102016125831B4 (de) 2022-02-03
CN107039040A (zh) 2017-08-11
KR102150509B1 (ko) 2020-09-01
JP6637604B2 (ja) 2020-01-29
KR20200103876A (ko) 2020-09-02
US10643617B2 (en) 2020-05-05
DE202016008203U1 (de) 2017-04-27
US11410660B2 (en) 2022-08-09
EP3822965A1 (en) 2021-05-19
EP3378061B1 (en) 2021-01-06
EP3378061A1 (en) 2018-09-26
JP2023099706A (ja) 2023-07-13
US20170193999A1 (en) 2017-07-06
CN107039040B (zh) 2021-02-12
US20180190293A1 (en) 2018-07-05
JP2019504358A (ja) 2019-02-14
JP6965331B2 (ja) 2021-11-10
KR102268087B1 (ko) 2021-06-22
US20190214012A1 (en) 2019-07-11
US20220343915A1 (en) 2022-10-27
US10049666B2 (en) 2018-08-14
US20200227046A1 (en) 2020-07-16

Similar Documents

Publication Publication Date Title
CN107039040B (zh) 语音识别系统
US10210267B1 (en) Disambiguation of a spoken query term
US9043199B1 (en) Manner of pronunciation-influenced search results
US9123339B1 (en) Speech recognition using repeated utterances
US10152298B1 (en) Confidence estimation based on frequency
US10482876B2 (en) Hierarchical speech recognition decoder
US11935533B1 (en) Content-related actions based on context
US20230186898A1 (en) Lattice Speech Corrections
US20240013782A1 (en) History-Based ASR Mistake Corrections
US20240194188A1 (en) Voice-history Based Speech Biasing
US20240185842A1 (en) Interactive decoding of words from phoneme score distributions
US20240257799A1 (en) Training Speech Recognizers Based On Biased Transcriptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination