CN107430616A - 语音查询的交互式再形成 - Google Patents

语音查询的交互式再形成 Download PDF

Info

Publication number
CN107430616A
CN107430616A CN201680015366.3A CN201680015366A CN107430616A CN 107430616 A CN107430616 A CN 107430616A CN 201680015366 A CN201680015366 A CN 201680015366A CN 107430616 A CN107430616 A CN 107430616A
Authority
CN
China
Prior art keywords
inquiry
query
replacement
text
text query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680015366.3A
Other languages
English (en)
Other versions
CN107430616B (zh
Inventor
B·杜默林
A·阿哈玛迪
S·帕撒萨拉塞
N·克拉斯韦尔
U·奥泽特姆
M·斯霍科希
K·拉古纳森
R·琼斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107430616A publication Critical patent/CN107430616A/zh
Application granted granted Critical
Publication of CN107430616B publication Critical patent/CN107430616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了用于提供替代查询建议的方法和系统。例如,语音识别部件可以接收口头自然语言表达并将其转换成文本查询。口头自然语言表达可以包括一个或多个单词、术语和/或短语。文本查询的在发音上可混淆的段可以由分类器部件识别。分类器部件可以基于至少识别文本查询的在发音上可混淆的段来确定至少一个替代查询。分类器可以基于所述至少一个替代查询是否有意义和/或有用来进一步确定是否建议至少一个替代查询。当确定建议至少一个替代查询时,可以向用户界面显示提供至少一个备选查询并将其显示在用户界面显示上。

Description

语音查询的交互式再形成
背景技术
搜索应用可以接收文本和/或语音/话音形式的搜索查询。文本查询中的错误通常发生在用户键入搜索查询时。例如,用户在键入时可能拼错单词。在这种情况下,搜索应用可以识别拼错的单词,并向用户提供包括拼错的单词的校正的替代搜索查询。然而,话音查询经常与拼写校正语言模型进行比较,并且所提交的查询的文字记录通常被正确拼写。然而,用于将话音查询转录成文本的语音识别器可能会错误地识别话音输入,从而导致提交的查询所具有的含义与用户想要的含义不同。因此,虽然转录的单词可能被正确拼写,但它可能不是正确的单词,即,说话者实际讲出或想要的单词。在这方面,错误识别的话音输入不再仅仅是拼错的单词错误。这样,语音识别输出的特性和典型错误与键入的查询的特性和典型错误非常不同。
正是鉴于这些和其他的一般考虑,提出了实施例。此外,虽然已经讨论了相对具体的问题,但是应当理解,这些实施例不应被限于解决在背景技术中标识出的具体问题。
发明内容
总而言之,本公开通常涉及话音(例如,语音)查询的交互式再形成。更具体地,本公开涉及用于提供替代查询建议的方法和系统。例如,口头自然语言表达可以被语音识别部件接收并被转换成文本查询。口头自然语言表达可以包括一个或多个单词、术语和短语。文本查询的在发音上可混淆的段可以由分类器部件识别。分类器部件可以基于至少识别文本查询的在发音上可混淆的段来确定是否建议至少一个替代查询。当确定建议至少一个替代查询时,可以给用户界面显示提供并在用户界面显示上显示至少一个替代查询。
提供本“发明内容”以便以简化形式介绍在下面的具体实施方式中被进一步描述的概念的精华。本“发明内容”不旨在标识所要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求保护的技术方案的范围。
附图说明
参考以下附图描述非限制性和非穷尽性示例。
图1示出了根据示例性实施例的在服务器计算设备处实现的用于话音查询的交互式再形成的示例性话音识别系统。
图2示出了根据示例性实施例的用于话音查询的交互式再形成的用户界面显示。
图3示出了根据示例性实施例的用于显示最佳猜测文本查询候选的用户界面显示。
图4示出了根据示例性实施例的用于显示第一替代查询的用户界面显示。
图5示出了根据示例性实施例的用于显示第一文本查询的用户界面显示。
图6示出了根据示例性实施例的用于提供替代查询建议的示例性方法。
图7示出了根据示例性实施例的用于语音查询的再形成的示例性方法。
图8示出了根据示例性实施例的用于语音查询的再形成的示例性方法。
图9是示出可以实践本公开的实施例的计算设备的示例性物理部件的框图。
图10A和图10B是可以实践本公开的实施例的移动计算设备的简化框图。
图11是可以实践本公开的实施例的分布式计算系统的简化框图。
图12示出了用于执行本公开的一个或多个实施例的平板计算设备。
具体实施方式
在下面的详细描述中,参考形成其一部分的附图,并且在附图中,通过说明的方式示出了具体实施例或示例。可以组合这些方面,可以使用其他方面,并且可以在不背离本公开的精神或范围的情况下进行结构改变。实施例可以被实现为方法、系统或设备。因此,实施例可以采取硬件实现方式、完全软件实现方式或组合软件和硬件方面的实现方式的形式。因此,以下详细描述不应以限制意义被考虑,并且本公开的范围由所附权利要求及其等同物限定。
本公开通常涉及用于话音(例如,语音)查询的交互式再形成的话音识别系统。在一个示例中,话音识别系统可以被配置为向话音识别系统的用户提供替代查询建议。用于提供替代查询建议的现有技术包括用于在用户键入搜索查询时识别文本查询中的错误的解决方案。例如,用户在键入时可能拼错单词。在现有系统中,搜索应用可以识别拼错的单词,并向用户提供包括拼错的单词的校正的替代搜索查询。现有的话音识别系统可以将话音查询与拼写校正语言模型进行比较,并且提交的查询的文字记录通常被正确拼写。然而,用于将话音查询转录成用于提交查询的文本的语音识别器可能会错误地识别话音输入,从而导致提交具有与用户想要的含义不同的含义的查询。例如,虽然转录的单词或短语可以被正确拼写,但是这些转录的单词或短语可能不是用户想要的单词或短语。因此,本文描述的实施例包括用于为语音查询提供替代查询建议的话音识别系统。在实施例中,话音识别系统提供话音查询的交互式再形成。
参考图1,示出了用于话音查询的交互式再形成的话音识别系统100的一个方面。在各方面中,话音识别系统100可以在客户端计算设备104上被实现。在基本配置中,客户端计算设备104是具有输入元件和输出元件两者的手持式计算机。客户端计算设备104可以是用于实现用于上下文语言理解的统计系统100的任何合适的计算设备。例如,客户端计算设备104可以是以下中的至少一个:移动电话;智能电话;平板计算机;平板电话;智能手表;可穿戴计算机;个人计算机;台式计算机;膝上型计算机;游戏设备/计算机(例如,Xbox);电视机;等等。该列表仅是示例性的,不应被认为是限制性的。可以使用用于实现用于上下文语言理解的统计系统100的任何合适的客户端计算设备。
在各方面,如图1所示,话音识别系统100可以被实现在服务器计算设备108。服务器计算设备108可以通过网络105向客户端计算设备104提供数据以及从客户端计算设备104提供数据。在一个方面,网络105是分布式计算网络,如互联网。在各方面中,该话音识别系统100可以被实现在多于一个的服务器计算设备108上,例如,多个服务器计算设备108。如上所述,服务器计算设备108可以通过网络105向客户端计算设备104提供数据以及从客户端计算设备104提供数据。可以通过适于传输数据的任何网络传递数据。在一些方面,网络105是诸如互联网之类的计算机网络。在该方面,网络105可以包括局域网(LAN)、广域网(WAN)、互联网、无线和有线传输介质。在该方面,可以在客户端计算设备104处接收口头自然语言表达,并通过网络105发送口头自然语言表达,以便服务器计算设备108处的话音识别系统100进行处理。
如图1所示,话音识别系统100可以包括语音识别部件110、分类器部件120、替代部件130、UX选择器部件140、字典存储库122和上下文存储库124。可以使用硬件、软件或硬件和软件的组合来实现各种部件。话音识别系统100可以被配置为接收和处理口头自然语言表达。在一个示例中,自然语言表达可以包括口头语言输入(例如,用户话音查询和/或话音请求)形式的短语、单词和/或术语。在这方面,语音识别部件110可以被配置为接收口头自然语言表达。在各方面中,语音识别部件110可以被配置为将口头自然语言表达转换为文本查询。例如,语音识别部件110可以包括本领域技术人员已知的标准语音识别技术,例如“自动语音识别”(ASR)、“计算机语音识别”和“语音到文本”(STT)。在一些情况下,语音识别部件110可以包括本领域技术人员已知的标准文本到语音技术,例如“文本到语音”(TTS)。在一个示例中,文本查询被提供给搜索引擎,例如以获得搜索结果。
本领域技术人员将认识到,语音识别部件110可以包括各种不同类型的语音识别和/或文本识别部件中的一个或多个。在一些情况下,语音识别部件110被配置为接收口头自然语言表达,并且输出所接收到的口头自然语言表达的多个n-best文本查询候选(例如,候选的n-best列表)。例如,语音识别部件110可以接收口头自然语言表达“install applekeychain”,并且输出包括“install apple keychain”的第一文本查询候选和包括“install apple kitchen”的第二文本查询候选。可以使用单个ASR、SST或TTS或使用多个ASR、SST或TTS来生成文本查询候选的n-best列表。语音识别部件110可以输出与文本查询候选的n-best列表相关联的语音识别置信度分数。例如,由语音识别部件110输出的每个语音识别文本查询候选可以具有相关联的语音识别置信度分数。语音识别置信度分数可以表明将口头自然语言表达转换为文本查询的准确性的置信度水平。
在各方面,由语音识别部件110输出的文本查询可被发送到分类器部件120进行处理。在某些情况下,文本查询是最佳猜测文本查询候选。例如,最佳猜测文本查询候选可以是文本查询候选的n-best列表中具有最高关联语音识别置信度分数的文本查询候选。在其他情况下,可以将文本查询候选的n-best列表发送到分类器部件120进行处理。在一个方面,分类器部件120可以被配置为至少识别文本查询的在发音上可混淆的段。在发音上可混淆可以指同音异义词歧义。同音异义词歧义是在语音中发现的歧义,但在文本(例如键入)中不会被发现。例如,同音异义词是发音与另一单词相同但意义不同的单词。同音异义词也可以是发音与另一单词相同但在拼写上有差异的单词。例如,单词“whales”和“wales”是同音异义词。文本查询的在发音上可混淆的段可以是文本查询的任何部分,包括文本查询的单词、术语或短语。
在各方面中,至少识别文本查询的在发音上可混淆的段可以包括使用变音位、历史数据和多个语音识别置信度分数中的至少一个。例如,使用变音位可以通过计算至少两个查询的变音位的Levenshtein距离来提供查询段之间的发音相似度的测量。如上所讨论的,话音识别系统100包括字典存储库122和上下文存储库124。这样,历史数据可以包括字典存储库122和/或上下文存储库124。在各方面中,字典存储库122可以包括同音异义词、会话对等。如上所讨论的,同音异义词是与另一单词发音相同但具有不同含义和/或拼写的单词。在该方面,字典存储库122可以用于至少识别文本查询的在发音上可混淆的段。例如,分类器部件120可以搜索字典存储库122来获得在发音上类似的、属于同音异义词和/或具有类似散列值的术语。这样,当分类器部件120至少识别文本查询的在发音上可混淆的段时,分类器部件120可将文本查询的术语和/或段与存储在字典存储库122中的数据进行比较,以识别例如同音异义词、在发音上类似的术语和/或具有类似散列值的单词。在某些情况下,散列值可用于识别在发音上类似的话音查询。例如,在发音上类似的查询(例如,听起来类似的查询)可能具有类似的散列值。在某些情况下,在发音上类似的查询可能具有相同的散列值。就此,在字典存储库122中识别出相同和/或类似的散列值可以表明文本查询的在发音上可混淆的段。
如上所述,字典存储库122可以包括会话对。会话对可以包括在用户102和话音识别系统100之间的会话期间由用户102发布的一对查询。会话可以包括用户与话音识别系统100的应用(例如,数字助理应用)之间的对话。会话可以在应用被激活并且用户开始说话时开始,并在应用被去激活时结束。在各方面中,会话对可以包括一对口头自然语言表达、口头自然语言表达和再形成的查询和/或一对替代查询,等等。因此,在一个示例中,会话对可以包括话音查询和再形成的文本查询。例如,用户102可以发出口头自然语言表达“U2”,并且语音识别部件110可以将该口头自然语言表达转换为文本查询“youtube”。话音识别系统100可以确定发出查询“youtube”,并将与查询“youtube”相关联的搜索结果返回给用户102。在同一会话期间,用户102可以经由文本(例如,键入“U2”)将返回的查询“youtube”再形成为“U2”。在该示例中,话音识别系统100可以将话音查询“youtube”和再形成的文本查询“U2”作为会话对存储于字典存储库122中。接着,分类器部件120可以通过识别字典存储库122中的话音查询-文本查询会话对“youtube”和“U2”来将“Youtube”识别为文本查询的在发音上可混淆的段。在其他示例中,如下所述,用户102可以经由语音将返回的查询“youtube”再形成为“U2”。
在另一示例中,分类器部件120可以利用上下文存储库124来识别文本查询的在发音上可混淆的段。例如,上下文存储库124可以包括在一个会话和/或多个会话期间收集的会话历史数据。使用上述示例,用户102可以发出并想要口头自然语言表达“U2”,并且语音识别部件110可将该口头自然语言表达转换为文本查询“youtube”。话音识别系统100可以确定发出查询“youtube”,并将与查询“youtube”相关联的搜索结果返回给用户102。在同一会话期间,用户102可以经由话音(例如,讲出“U2”)来将返回的查询“youtube”交互地再形成为“U2”。在这方面,语音识别部件110可以接收第二口头自然语言表达“U2”。语音识别部件110可以再次将第二口头自然语言表达转换为文本查询“youtube”。话音识别系统100可以确定在第二口头自然语言表达(例如,再形成的话音查询“U2”)之前不久(例如,10秒)发出了第一口头自然语言表达(例如,由语音识别部件输出的文本查询“youtube”),而没有接收或接收到很少的参与(例如,没有点击),并且可以确定第一和第二口头自然语言表达听起来类似。话音识别系统100还可以确定用户102没有参与(例如,点击、滚动)返回给用户102的与第一口头自然语言表达相关联的任何搜索结果。在该方面,听起来类似的第一和第二口头自然语言表达(例如,的文本查询输出“youtube”)和与第一口头自然语言表达相关联的点击数据可以被存储在上下文存储库124中。导致相同的转换的文本查询并具有表明用户102没有点击任何搜索结果的相关联的点击数据的两个口头自然语言表达,可以表明该文本查询至少具有在发音上可混淆的段。接着,分类器部件120可以通过识别上下文存储库124中的话音查询-话音查询会话对“youtube”和“youtube”以及相关联的点击数据来将“youtube”识别为文本查询的在发音上可混淆的段。
如上所讨论的,可以通过使用变音位、历史数据和多个语音识别置信度分数中的至少一个来识别文本查询的在发音上可混淆的段。语音识别部件110可以输出与文本查询候选的n-best列表相关联的语音识别置信度分数。就此,分类器部件120可以确定语音识别置信度分数是否满足阈值。在一个示例中,当确定语音识别置信度分数满足阈值时,与满足阈值的语音识别置信度分数相关联的文本查询可以具有高置信度分数。高置信度分数可以向分类器部件120表明文本查询不具有在发音上可混淆的段。在其他示例中,当确定语音识别置信度分数不满足阈值时,与该语音识别置信度分数相关联的文本查询可以具有低置信度分数。低置信度分数可以向分类器部件120表明文本查询具有在发音上可混淆的段。用于确定高或低置信度分数的阈值可以通过任何合适的方式来确定。虽然不同的语音识别部件可能产生不同范围的置信度分数,但是这些置信度分数通常遵循特定分布,由此可以使用底部百分比来设置阈值。另外或替代地,来自不同语音识别部件的置信度分数可以被归一化以用于比较和/或用于设置阈值来确定高或低置信度分数。在其他示例中,分类器部件120可以分析文本查询候选的n-best列表及其相关联的语音识别置信分数,从而识别文本查询的在发音上可混淆的段。例如,分类器部件120可以确定语音识别部件110向用户102发出文本查询候选的一致性。以低一致性发布给用户102的文本查询可以表明文本查询候选包括在发音上可混淆的段。
当分类器部件120至少识别文本查询中的在发音上可混淆的段时,分类器部件120可以基于语音识别置信度分数来确定是否建议至少一个替代查询。例如,如上所述,语音识别部件110可以输出与文本查询候选的n-best列表相关联的语音识别置信度分数。就此,分类器部件120可以确定语音识别置信度分数是否满足阈值。在一个示例中,当确定语音识别置信度分数满足阈值时,与满足阈值的语音识别置信度分数相关联的文本查询可以具有高置信度分数。在一些情况下,当文本查询具有高置信度分数(例如,满足阈值的语音识别置信度分数)时,分类器部件120可以不建议至少一个替代查询。在各方面中,当分类器部件120确定不建议至少一个替代查询时,分类器部件120可以向用户102提供文本查询和与该文本查询相关联的搜索结果。在一些情况下,提供给用户102的文本查询是最佳猜测文本查询候选。当文本查询具有低置信度分数(例如,不满足阈值的语音识别置信度分数)时,分类器部件120可利用存储在字典存储库122和/或上下文存储库124中的历史数据来确定是否建议至少一个替代查询。例如,文本查询“youtube”可能与低置信度分数相关联。另外,字典存储库122可以包括具有会话特征的历史数据。例如,字典存储库122可以包括查询会话对“U2”和“youtube”。在该示例中,查询“youtube”是由语音识别部件110输出的文本查询,并且查询“U2”是再形成的查询。这样,当分类器部件120识别出利用会话对(例如上述的一个会话对)标识的、具有低置信度分数的文本查询(例如,“youtube”)时,分类器部件120可以建议至少一个替代查询(例如,“U2”)。
在其他方面,分类器部件120可以基于至少一个替代查询是否是有意义的来确定是否建议至少一个替代查询。“有意义的”可以指替代查询中的术语、单词或短语的组合是否具有逻辑意义。在一种情况下,具有逻辑意义的替代查询可以指该替代查询是否将促进文本查询与至少一个替代查询之间的消歧。例如,如果由语音识别部件110输出的文本查询是“picture of wales”,则建议替代查询的“picture of whales”是有意义的替代查询,其将帮助用户102在文本查询和替代查询之间消歧。然而,在由语音识别部件110输出的文本查询是“map of wales”的示例中,建议替代查询“map of whales”并不是有助于用户102在文本查询和替代查询之间消歧的有意义的替代查询。就此,当分类器部件120确定至少一个替代查询是有意义的时,分类器部件120可以建议至少一个替代查询。
在其他方面,分类器部件120可以基于至少一个替代查询是否有用来确定是否建议至少一个替代查询。有用可以指用户102是否找到有用和/或感兴趣的至少一个替代查询。例如,如果由语音识别部件110输出的文本查询是语音识别部件110标记为女演员的名和姓,则建议被标记为不著名的人的名和姓(例如,其在发音上类似于文本查询)的替代查询可能不是有帮助和/或感兴趣的。在该方面,即使替代查询可能在发音上类似于由识别部件110输出的文本查询,分类器部件120也可以确定至少一个替代查询对用户没有帮助和/或感兴趣(即使该替代查询是有效的搜索查询,并且将提供有效的关联搜索结果)。然而,当分类器部件120确定至少一个替代查询将是有用的(即,有帮助的和/或感兴趣的)时,分类器部件120可以建议该至少一个替代查询。
在其他方面,分类器部件120可以基于搜索结果的相似性来确定是否建议至少一个替代查询。例如,分类器部件120可以将与由语音识别部件110输出的文本查询相关联的搜索结果和与至少一个替代查询相关联的搜索结果进行比较。如果搜索结果基本上相同或类似,则分类器部件120可以确定不建议至少一个替代查询。例如,如果由语音识别部件110输出的文本查询是“youtube”并且至少一个替代查询是“you tube”,则两个查询的搜索结果可以是基本相同的。替代地,如果搜索结果不同,则分类器部件120可以确定建议至少一个替代查询。在一些情况下,基于搜索结果的相似性确定是否建议至少一个替代查询可以包括:计算在与由语音识别部件110输出的文本查询相关联的搜索结果和与至少一个替代查询相关联的搜索结果之间的重叠。例如,与由语音识别部件110输出的文本查询相关联的搜索结果和与至少一个替代查询相关联的搜索结果之间的重叠可以包括多个共同的搜索结果。在一些示例中,当共同的搜索结果的数目较少(例如,搜索结果之间的重叠较低)时,分类器部件120可以建议至少一个替代查询。在一些情况下,阈值可以用于确定共同的搜索结果的数目是否低(例如,从而分类器部件120决定建议至少一个替代查询)。在一种情况下,阈值可以基于分类器部件120的、表示什么时候应该建议替代查询以及什么时候不应该建议替代查询的规则。在一个示例中,规则可以包括诸如“如果存在少于10%的重叠,则建议替代查询”的陈述。该示例仅是示例性的,并且不应被认为是限制性的。可以利用用于设置阈值和/或确定是否建议替代查询的任何合适的规则和/或规则组合。
应当理解,可以使用上述方法/特征的任何组合来基于至少识别文本查询的在发音上可混淆的段来确定是否建议至少一个替代查询。例如,分类器部件120可以确定至少一个替代查询是有意义的且有用的,并且决定建议至少一个替代查询。在另一示例中,分类器部件120可以确定至少一个替代查询提供了不同于与由语音识别部件110输出的文本查询相关联的搜索结果的较大数目的搜索结果,并且决定建议至少一个替代查询。这只是示例性的,而不应被视为是限制性的。可以利用用于基于至少识别文本查询的在发音上可混淆的段来确定是否建议至少一个替代查询的数据、特征和/或方法的任何合适的组合。
如上所述,分类器部件120可以建议至少一个替代查询。在一个示例中,所建议的至少一个替代查询可以包括来自语音识别部件110的文本查询候选的n-best列表中的至少一个文本查询候选。在另一示例中,所建议的至少一个替代查询可以包括用发音上类似的术语替换文本查询的在发音上可混淆的段。例如,使用上述示例,当建议至少一个替代查询时,文本查询“picture of whales”的在发音上可混淆的段“whales”可以被替换为在发音上类似的术语“wales”。在又一示例中,所建议的至少一个替代查询可以包括用在字典存储库122和上下文存储库124中的至少一个内识别出的至少一个特征来替换文本查询的在发音上可混淆的段。例如,在会话对“youtube”和“U2”中,可以用在词典存储库122中识别出的特征“U2”来替换在发音上可混淆的段“youtube”。
如上所述,话音识别系统100可以包括变更部件130。在一个方面,变更部件130可以被配置为扩展由语音识别部件110示出的文本查询和/或至少一个替代查询。例如,如果文本查询是“Bill Gates Bio”,则变更部件130可将文本查询“Bill Gates Bio”扩展为“Bill Gates(bio or biography)”(例如“Bill Gates Biography”)。如上所述,话音识别系统100可以包括UX(用户体验)选择器部件140。UE选择器部件140可以被配置为确定用于向用户102呈现查询、替代查询和/或相关联的搜索结果的布局,这将在下文相对图2更详细地讨论。在一种情况下,可以基于分类器部件120的输出来确定用于呈现查询的布局。在第一示例中,如果分类器部件120确定不建议替代查询,则UX选择器部件140可以确定包括查询及其关联的搜索结果的用于呈现查询的布局。在第二示例中,如果分类器部件120确定建议替代查询,则UX选择器部件140可以确定包括最佳猜测文本查询候选、其相关联的搜索结果以及一个或多个替代查询建议的布局。在这种情况下,可以确定最佳猜测文本查询候选比替代查询建议更可能反映用户102的意图。在第三示例中,如果分类器部件120确定建议替代查询,则UX选择器部件140可以确定使用拆分布局。在这种情况下,可以确定最佳猜测文本查询候选和替代查询建议类似地和/或等同地反映了用户102的意图。这样,拆分布局的第一部分可以包括最佳猜测文本查询候选及其相关联的搜索结果。拆分布局的第二部分可以包括替代查询建议及其相关联的搜索结果。
在一种情况下,用于向用户102呈现查询、替代查询和/或相关联的搜索结果的布局可以包括最佳猜测文本查询候选及其相关联的搜索结果。在另一种情况下,用于向用户102呈现查询、替代查询和/或关联的搜索结果的布局可以包括拆分布局。拆分布局的第一部分可以包括文本查询(例如,最佳猜测文本查询候选)及其相关联的搜索结果。拆分布局的第二部分可以包括替代查询建议及其相关联的搜索结果。在另一情况下,用于向用户102呈现查询、替代查询和/或相关联的搜索结果的布局可以包括最佳猜测文本查询候选、其相关联的搜索结果以及一个或多个替代查询建议。
在各方面中,可以通过处理口头自然语言表达并建议替代查询来随着时间训练话音识别系统100。例如,话音识别系统100可以具有由来自用户-系统会话的数据提供的初始数据集。在一个示例中,可以对包括话音查询与再形成查询的历史搜索会话进行挖掘。在一种情况下,提取会话再形成,其中第一查询是语音查询,并且第二查询是基于其变音位具有在发音上类似的术语的再形成的查询(例如,话音或文本)。可以被保存和存储的用于训练话音识别系统100的数据可以包括:(1)第一查询没有点击数据(例如,用户没有点击与第一查询相关联的任何搜索结果)但再形成的查询具有点击数据(例如,用户确实点击了与再形成的查询相关联的至少一个搜索结果)的数据;以及(2)由用户键入的再形成的查询。所保存和存储的数据的子集可以与第一查询的原始记录音频一起呈现给人类裁判,从而人类裁判可以评价再形成的查询的质量以作为潜在的替代查询建议。这些数据可以被标记并用于训练话音识别系统100。当话音识别系统处理和评估口头自然语言表达、替代查询建议和用户数据(例如点击数据)时,话音识别系统100可以随时间聚合用于构建话音识别系统100的数据,以用于处理未来口头自然语言表达。接着,话音识别系统100可以随时间而包括更大的数据集,以便于提供更准确和可靠的替代查询和/或搜索结果。
图2示出了根据一个或多个方面的用于话音查询的交互式再形成的第一用户界面显示210和第二用户界面显示220。第一用户界面显示210具有包括最佳猜测文本查询候选212、与最佳猜测文本查询候选相关联的搜索结果216以及替代查询建议214的布局。如在第一用户界面显示210中所示,替代查询建议214包括与最佳猜测文本查询候选212中的术语“fish”在发音上类似的术语“phish”。第二用户界面显示220具有包括拆分布局的布局。拆分布局的第一部分可以包括最佳猜测文本查询候选212和与最佳猜测文本查询候选212相关联的搜索结果216。拆分布局的第二部分可以包括替代查询建议214和与替代查询建议214相关联的搜索结果218。如上所述,第一用户界面显示210和第二用户界面显示220可以被呈现在客户端计算设备104上。在各方面中,客户端计算设备104可以是以下中的至少一个:移动电话;智能电话;平板计算机;平板手机;智能手表;可穿戴计算机;个人计算机;台式计算机;膝上型计算机;游戏设备/计算机(例如,Xbox);电视机;等等。
图3示出了用于显示从语音识别部件110输出的最佳猜测文本查询候选312和与最佳猜测文本查询候选312相关联的搜索结果314的用户界面显示310。用户界面显示310还可以包括与最佳猜测文本查询候选312相关的一个或多个链接316。当分类器部件120确定与最佳猜测文本查询候选312相关联的语音识别置信度分数满足阈值(例如,具有高置信度分数)时,用户界面显示310示出了文本查询和与文本查询相关联的结果的呈现。这样,如图3所示,在本示例中不建议替代查询。
图4示出了用于显示第一替代查询412、与第一替代查询412相关联的搜索结果414以及第二替代查询418的用户界面显示410。例如,口头自然语言表达可以是“installapplication”。语音识别部件110可以将该口头自然语言表达转换为文本查询“installapple keychain”。然而,与文本查询“install apple keychain”相关联的语音识别置信度分数可能不满足阈值(例如,可能低)。这样,文本查询“install apple keychain”可能不被发布和显示给用户102。就此,分类器部件120可以将文本查询“install apple keychain”的段“apple keychain”识别为在发音上可混淆的段,如上所述。当文本查询“installapple keychain”的段“apple keychain”被识别为在发音上可混淆的段时,分类器部件130可以确定是否建议至少一个替代查询,如上所述。在图4的示例中,分类器部件120可以确定用术语“application”来替换在发音上可混淆的段“apple keychain”,并且建议第一替代查询412“install application”和相关联的搜索结果414。分类器部件120可以确定用术语“apple kitchen”来替换在发音上可混淆的段“apple keychain”,并建议第二替代查询418“install apple kitchen”。在该方面,如果“install apple kitchen”是用户102的意图,则用户102可以选择第二替代查询418。用户界面显示310还可以包括与第一替代查询412相关的一个或多个链接416。在一种情况下,与第一替代查询412相关的一个或多个链接416可以基于经由用户/系统会话随着时间获得的历史搜索数据和/或用户再形成。
图5示出了用于显示第一文本查询512、与第一文本查询512相关联的搜索结果514以及替代查询518的用户界面显示510。例如,分类器部件120可以将第一文本查询512中的段“application”识别为在发音上可混淆的段,并确定用术语“apple keychain”替换在发音上可混淆的段“application”,并建议“apple keychain”作为替代查询518。在一种情况下,当第一文本查询512显示在用户界面显示510上时,可以在用户界面显示510上显示替代查询518。例如,如上所述,分类器部件120可以确定建议替代查询,并且提供具有由语音识别部件110输出的文本查询的替代查询(例如,最佳猜测文本查询候选)。在另一种情况下,用户102可以选择第一文本查询512的至少一个段,并且可以基于第一文本查询512的所选段自动建议替代查询。例如,当用户102选择“application”段520时,替代查询518“applekeychain”可以被显示在用户界面显示510上。在该方面,如果用户102选择替代查询518,则可以生成再形成的查询“install apple keychain”,并且与再形成的查询“install applekeychain”相关联的搜索结果可以被显示在用户界面显示510上。在这方面,可以用替代术语“apple keychain”替换在发音上可混淆的段“application”以创建再形成的查询。
在其他方面,用户102可以选择第一文本查询512的至少一个段,并且可以基于从用户102接收到附加输入来建议替代查询。例如,当用户102选择“application”段520时,用户可以经由键入和话音建议中的至少一个来编辑所选段。当接收到用于编辑所选段的话音建议时,只有所选段被话音建议替换。在该方面,当用户102选择段520并发出话音建议“apple keychain”时,可以生成再形成的查询“install apple keychain”,并且与再形成的查询“install apple keychain”相关联的搜索结果可以被显示在用户界面显示510上(替换短语“install application”)。在一个示例中,当替代查询518与第一文本查询512一起被显示在用户界面显示510时,用户102可以选择“application”段520,并随后选择替代查询518来替换“application”段520。在该方面,可以生成再形成的查询“install applekeychain”,并且可以在用户界面显示510上显示与再形成的查询“install applekeychain”相关联的搜索结果。在各方面,用户界面显示510还可以包括与第一查询512相关的一个或多个链接516。在一种情况下,与第一文本查询512相关的一个或多个链接516可以基于经由用户/系统会话随时间获得的历史搜索数据/用户再形成。
如上所述,可以通过处理口头自然语言表达并建议替代查询来随着时间训练话音识别系统100。就此,可以通过查询的交互式再形成来训练话音识别系统100,如上文相对图2-图5所述。在一些情况下,可以为每个用户界面显示定义正相互作用和负相互作用。例如,用户102点击替代查询建议向话音识别系统100提供了正反馈。正反馈可以向话音识别系统100表明所建议的替代查询对于用户102是有用的。在另一示例中,用户102点击与替代查询建议相关联的搜索结果向话音识别系统100提供了正反馈。在又一示例中,用户102点击与由语音识别部件110输出的文本查询(例如,最佳猜测文本查询候选)相关联的搜索结果向话音识别系统100提供了负反馈。负反馈可以向话音识别系统100表明所建议的替代查询对用户102没有用。接着,可以随着时间训练话音识别系统100,以包括通过用户与多个查询(例如,语音识别部件110输出查询和再形成和/或替代查询)的交互而收集的特征和/或数据及其相关联的搜索结果。进而,话音识别系统100可以提供更准确和可靠的建议的替代查询和/或搜索结果,并且减少和/或防止重复错误。通过利用本公开的话音识别系统100,可以实现话音识别系统100和/或与话音识别系统100相关联的应用(例如,数字助理应用)的更好的用户体验。另外,话音识别系统100可以减少话音识别系统100和/或应用必须提供的澄清请求/话音查询和/或响应的数目。这样,话音识别系统100、客户端计算设备104和/或服务器计算设备108可以需要更少的计算。
应当理解,话音识别系统100的部件(例如,语音识别部件110、分类器部件120、变更部件130、UX选择器部件140、字典存储库122和上下文存储库124)可以以任意组合的方式位于客户端计算设备104、服务器计算设备108和/或客户端计算设备104和服务器计算设备108两者。例如,在一个方面,在一个配置中,客户端计算设备104可以包括语音识别部件110、分类器部件120、变更部件130和UX选择器部件140,并且服务器计算设备108可以包括字典存储库122和上下文存储库124。这只是示例性的,不应被视为是限制性的。可以利用话音识别系统的部件在客户端计算设备104和服务器计算设备108处的任意适当组合,用于话音查询的交互式再形成。
图6示出了根据本公开的一个或多个方面的用于提供替代查询建议的方法。方法600开始于操作602,其中接收口头自然语言表达。例如,口头自然语言表达可以由话音识别系统的语音识别部件接收,用于处理以将口语自然语言表达转换为文本查询。在一个示例中,自然语言表达可以包括口语输入(例如,用户话音查询和/或话音请求)形式的短语、单词和/或术语。
当在语音识别部件处接收到口头自然语言表达时,流程进行到操作604,在此将口头自然语言表达转换成文本查询。例如,语音识别部件可以被配置为将口头自然语言表达转换为文本查询。在一些情况下,语音识别部件可以被配置为接收口头自然语言表达,并且输出所接收的口头自然语言表达的多个n-best文本查询候选(例如,候选的n-best列表)。例如,语音识别部件可以接收口头自然语言表达“install apple keychain”,并输出包括“install apple keychain”的第一文本查询候选和包括“install apple kitchen”的第二文本查询候选。语音识别部件可以输出与文本查询候选的n-best列表相关联的语音识别置信度分数。例如,由语音识别部件输出的每个语音识别文本查询候选可以具有相关联的语音识别置信度分数。语音识别置信度分数可以表明将口头自然语言表达转换为文本查询的准确性的置信水平。
当口头自然语言表达被转换为文本查询时,流程进行到操作606,其中识别文本查询的至少一个在发音上可混淆的段。在一个方面,分类器部件可以被配置为至少识别文本查询的在发音上可混淆的段。在发音上可混淆可以指同音异义词歧义。同音异义词歧义是在语音中发现的歧义,但在文本中(例如,键入)不会被发现。例如,同音异义词是发音与另一单词相同但意义不同的单词。同音异义词也可能是发音与另一单词相同但在拼写上有差异的单词。例如,单词“whales”和“wales”是同音异义词。文本查询的在发音上可混淆的段可以是文本查询的任何部分,包括文本查询的单词、术语或短语。
在决策操作608处,确定是否建议至少一个替代查询。例如,分类器部件可以通过利用字典存储库和上下文存储库中的至少一个中所存储的历史数据和/或通过利用文本查询候选的n-best列表及其相关联的语音识别置信度分数,来确定是否建议至少一个替代查询。在一些情况下,历史数据可以用于确定至少一个替代查询是否是有意义的和/或有用的。在一些示例中,历史数据可以包括文本查询和至少一个替代查询(例如,会话对)的共同出现、会话历史、数据、同音异义词等。
如果基于确定至少一个替代查询是有意义和/或有用的而确定建议至少一个替代查询,则流程进行到操作610,其中将至少一个替代查询提供给用户界面显示。在一些情况下,可以将与至少一个替代查询相关联的搜索结果提供给用户界面显示。例如,用户可以选择用户界面显示上的至少一个替代查询。响应于用户选择至少一个替代查询,与至少一个替代查询相关联的搜索结果可以被提供给用户界面显示。如果基于确定至少一个替代查询是无意义的和/或没有用的而确定不建议至少一个替代查询,则流程进行到操作612,其中将文本查询和与文本查询相关联的搜索结果提供给用户界面显示。
图7示出了根据本公开的一个或多个实施例的用于语音查询的再形成的方法。方法700从操作702开始,其中在客户端设备的用户界面显示上呈现查询和与查询相关联的一个或多个搜索结果。在一些示例中,查询可以是由语音识别部件输出的文本查询和/或最佳猜测文本查询候选。用户界面显示可以具有多个布局。在一种情况下,用于向用户呈现查询、替代查询和/或相关联的搜索结果的布局可以包括最佳猜测文本查询候选及其相关联的搜索结果。在另一种情况下,用于向用户呈现文本查询、替代查询和/或相关联的搜索结果的布局可以包括拆分布局。拆分布局的第一部分可以包括文本查询(例如,最佳猜测文本查询候选)及其相关联的搜索结果。拆分布局的第二部分可以包括替代查询建议及其相关联的搜索结果。在另一种情况下,用于向用户呈现文本查询、替代查询、相关查询和/或相关联的搜索结果的布局可以包括最佳猜测文本查询候选、其相关联的搜索结果以及一个或多个替代查询建议。
当在客户端设备的用户界面显示上呈现查询和与查询相关联的一个或多个搜索结果时,流程进行到操作704,其中在用户界面显示上接收对所呈现的查询的至少一个段的选择。在一些示例中,用户可以选择所呈现的查询的至少一个段,并且可以基于从用户处接收到附加输入来建议替代查询。例如,当用户选择所呈现的查询“install application”的“application”段时,用户可以经由键入和话音建议中的至少一个来编辑所选段。
当在用户界面显示上接收到对所呈现的查询的至少一个段的选择时,流程进行到操作706,其中在客户端设备处接收用于替换所呈现的查询的所选段的一个或多个替代术语。例如,用户可以选择所呈现的查询的至少一个段,并且可以基于所呈现的查询的所选段(使用本文描述的方法/技术(例如,历史数据、会话对、语音识别分数等))自动建议一个或多个替代术语。例如,当用户选择所呈现的查询“install application”的“application”段时,可以在用户界面显示上显示替代术语“apple keychain”。
当在客户端设备处接收到用于替换所呈现的查询的所选段的一个或多个替代术语时,流程进行到操作708,其中在客户端设备的用户界面显示上显示一个或多个替代术语。例如,用户界面显示的布局可以包括最佳猜测文本查询候选、其相关联的搜索结果以及一个或多个替代查询。
在操作710处,接收对在客户端设备的用户界面显示上显示的一个或多个替代术语的选择。例如,可以在所呈现的查询的上方、下方或靠近所呈现的查询来显示替代术语“apple keychain”,作为用户可以选择的按钮、图标等。当接收到对在客户端设备的用户界面显示上显示的一个或多个替代术语的选择时,流程进行到操作712,其中接收再形成的查询和与再形成的查询相关联的一个或多个搜索结果。在一个示例中,再形成的查询包括所呈现的查询,其中所呈现的查询的所选段被替换为选择的一个或多个替代术语。在这方面,如果用户选择替代术语,则可以生成再形成的查询“install apple keychain”,并且可以在用户界面显示上显示与再形成的查询“install apple keychain”相关联的搜索结果。在这方面,在发音上可混淆的段“application”可以用替代术语“apple keychain”来替换以创建再形成的查询。在一种情况下,在发音上可混淆的段“application”和替代术语“applekeychain”可以作为会话对存储在字典存储库中。
当接收到再形成的查询和与再形成的查询相关联的一个或多个搜索结果时,流程进行到操作714,其中再形成的查询和与再形成的查询相关联的搜索结果被显示在用户界面显示上。在一个示例中,与再形成的查询相关联的搜索结果可以替换与先前显示的所呈现的查询相关联的搜索结果。
图8示出了根据本公开的一个或多个实施例的用于语音查询的再形成的方法。方法800从操作802开始,其中在客户端设备的用户界面显示上呈现查询和与查询相关联的一个或多个搜索结果。在一些示例中,查询可以是由语音识别部件输出的文本查询和/或最佳猜测文本查询候选。用户界面显示可以具有多个布局。在一种情况下,用于向用户呈现查询、替代查询和/或相关联的搜索结果的布局可以包括最佳猜测文本查询候选及其相关联的搜索结果。在另一种情况下,用于向用户呈现查询、替代查询和/或相关联的搜索结果的布局可以包括拆分布局。拆分布局的第一部分可以包括文本查询(例如,最佳猜测文本查询候选)及其相关联的搜索结果。拆分布局的第二部分可以包括替代查询建议及其相关联的搜索结果。在另一种情况下,用于向用户呈现查询、替代查询、相关查询和/或相关联的搜索结果的布局可以包括最佳猜测文本查询候选、其相关联的搜索结果以及一个或多个替代查询建议。
当在客户端设备的用户界面显示上呈现查询和与查询相关联的一个或多个搜索结果时,流程进行到操作804,其中在用户界面显示上接收对所呈现的查询的至少一个段的选择。在一些示例中,用户可以选择所呈现的查询的至少一个段,并且可以基于从用户接收到附加输入来建议替代查询。例如,当用户选择所呈现的查询“install application”的“application”段时,用户可以经由键入和话音建议中的至少一个来编辑所选段。
当在用户界面显示上接收到对所呈现的查询的至少一个段的选择时,流程进行到操作806,其中接收用于替换所选段的话音建议。当接收到用于编辑所选段的话音建议时,只有所选段被话音建议替换。在这方面,如果用户选择“application”段并发出话音建议“apple keychain”,则将“application”段替换为“apple keychain”。这样,可以生成再形成的查询“install apple keychain”,并且可以在用户界面显示上显示与再形成的查询“install apple keychain”相关联的搜索结果。
当接收到用于替换所选段的话音建议时,流程进行到操作808,其中将话音建议发送到语音识别部件以进行处理。语音识别部件可以将话音建议转换为文本查询。在一些情况下,语音识别部件可以被配置为输出话音查询的多个n-best文本查询候选(例如,候选的n-best列表)。例如,语音识别部件可以接收语音查询“apple keychain”,并且输出包括“apple keychain”的第一文本查询候选和包括“apple kitchen”的第二文本查询候选。
在一方面,可以接收对多个n-best文本查询候选中的一个的选择,例如,第一文本查询候选“apple keychain”或第二文本查询候选“apple kitchen”。当接收到选择时,流程进行到操作810,其中接收再形成的查询和与再形成的查询相关联的一个或多个搜索结果。在一个示例中,再形成的查询包括所呈现的查询,其中所呈现的查询的所选段被选择文本查询候选替换。在这方面,如果用户选择第一文本查询候选,则可以生成再形成的查询“install apple keychain”,并且可以在用户界面显示上显示与再形成的查询“installapple keychain”相关联的搜索结果。在该方面,在发音上可混淆的段“application”可以用“apple keychain”替换以创建再形成的查询。
当接收到再形成的查询和与再形成的查询相关联的一个或多个搜索结果时,流程进行到操作812,其中再形成的查询和与再形成的查询相关联的搜索结果被显示在用户界面显示上。在一个示例中,与再形成的查询相关联的搜索结果可以替换与先前显示的所呈现的查询相关联的搜索结果。在一些情况下,可以存储搜索结果以用于训练话音识别系统。
图9-图12和相关联的描述提供了可以在其中实践本公开的各方面的各种操作环境的讨论。然而,关于图9-图12示出和讨论的设备和系统用于示例和说明的目的,并不限制可用于实践本文所述的本公开的实施例的大量计算设备配置。
图9是示出可以实践本公开的各方面的计算设备900的物理部件(例如,硬件)的框图。下面描述的计算设备的部件可以具有用于例如客户端和/或计算机的数字助理应用913的计算机可执行指令,用于例如客户端的上下文语言理解模块911的可执行指令,其可以被执行以采用本文公开的方法600至800。在基本配置中,计算设备900可以包括至少一个处理单元902和系统存储器904。取决于计算设备的配置和类型,系统存储器904可以包括但不限于易失性存储设备(例如,随机存取存储器)、非易失性存储设备(例如,只读存储器)、闪速存储器、或这些存储器的任何组合。系统存储器904可以包括操作系统905以及适于运行软件应用920的一个或多个程序模块906,例如关于图1的话音识别应用,以及特别的,数字助理应用913或分类器部件911。例如,操作系统905可以适合于控制计算设备900的操作。此外,可以结合图形库、其他操作系统或任何其他应用程序来实践本公开的实施例,并且本公开的实施例不限于任何特定的应用或系统。该基本配置在图9中通过虚线908内的那些部件被示出。计算设备900可以具有附加的特征或功能。例如,计算设备900还可以包括额外的数据存储设备(可移除和/或不可移除),例如磁盘、光盘或磁带。在图9中通过可移除存储设备909和不可移除存储设备910示出了这种额外的存储设备。
如上所述,可以将多个程序模块和数据文件存储在系统存储器904中。当在处理单元902上执行时,程序模块906(例如,分类器部件911或数字助理应用913)可以执行过程,包括但不限于如本文所述的各方面。可以根据本公开的各方面使用的、特别是用于提供替代查询建议的其他程序模块可以包括机器学习模型、语音识别模型、UX选择器模型和/或计算机辅助应用程序等。
此外,本公开的实施例可以在包括离散电子元件的电路中、在包含逻辑门的封装或集成电子芯片中、在利用微处理器的电路中、或在包含电子元件或微处理器的单个芯片上实践。例如,可以经由片上系统(SOC)来实践本公开的实施例,其中图9中所示的每个或多个部件可以集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能,所有这些都被集成(或“烧制”)到作为单个集成电路的芯片基板上。当经由SOC进行操作时,这里描述的关于客户端切换协议的能力的功能可以经由与单个集成电路(芯片)上的计算设备600的其他部件集成的专用逻辑来操作。还可以使用能够执行诸如AND、OR和NOT的逻辑操作的其他技术来实践本公开的实施例,包括但不限于机械、光学、流体和量子技术。此外,可以在通用计算机内或在任何其他电路或系统中实践本公开的实施例。
计算设备900还可以具有一个或多个输入设备912,例如键盘、鼠标、笔、声音或话音输入设备、触摸或轻扫式输入设备等。还可以包括输出设备914,例如显示器、扬声器、打印机等。上述设备是示例,并且可以使用其他设备。计算设备900可以包括允许与其他计算设备918进行通信的一个或多个通信连接916。合适的通信连接916的示例包括但不限于RF发送器、接收器和/或收发器电路;通用串行总线(USB),并行和/或串行端口。
本文所用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构或程序模块之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器904、可移除存储设备909和不可移除存储设备910都是计算机存储介质示例(例如,存储器存储设备)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备,或可用于存储信息并且可由计算设备900访问的任何其它制品。任何这种计算机存储介质可以是计算设备900的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。
通信介质可以由计算机可读指令、数据结构、程序模块或诸如载波或其他传输机制之类的已调制数据信号中的其他数据来实现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述使一个或多个特性被设置或改变使得将信息编码在信号中得信号。通过示例而非限制,通信介质可以包括诸如有线网络或直接有线连接的有线介质,以及诸如声学、射频(RF)、红外和其他无线介质的无线介质。
图10A和图10B示出了移动计算设备800,例如,移动电话、智能电话、可穿戴计算机(例如智能手表)、平板计算机、膝上型计算机等,可以利用移动计算设备800实践本公开的实施例。在一些方面,客户端可以是移动计算设备。参考图10A,示出了用于实现各方面的移动计算设备1000的一个方面。在基本配置中,移动计算设备1000是具有输入元件和输出元件的手持式计算机。移动计算设备1000通常包括显示器1005以及允许用户将信息输入到移动计算设备1000中的一个或多个输入按钮1010。移动计算设备1000的显示器1005还可以用作输入设备(例如,触摸屏显示器)。如果被包括,则可选的侧面输入元件1015允许进一步的用户输入。侧面输入元件1015可以是旋转开关、按钮或任何其他类型的手动输入元件。在替代方面,移动计算设备1000可以并入更多或更少的输入元件。例如,在一些实施例中,显示器1005可以不是触摸屏。在另一替代实施例中,移动计算设备1000是便携式电话系统,例如蜂窝电话。移动计算设备1000还可以包括可选键区1035。可选键区1035可以是物理键区或在触摸屏显示器上生成的“软”键区。在各种实施例中,输出元件包括用于显示图形用户界面(GUI)的显示器1005、视觉指示器1020(例如,发光二极管)和/或音频换能器1025(例如,扬声器)。在一些方面,移动计算设备1000并入用于向用户提供触觉反馈的振动换能器。在另一方面,移动计算设备1000并入输入和/或输出端口,例如音频输入(例如,麦克风插孔)、音频输出(例如,耳机插孔)和视频输出(例如,HDMI端口),以用于向外部设备发送信号或从外部设备接收信号。
图10B是示出移动计算设备的一个方面的架构的框图。也就是说,移动计算设备1000可以并入系统(例如,架构)802以实现一些方面。在一个实施例中,系统1002被实现为能够运行一个或多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息传送客户端、游戏以及媒体客户端/播放器)的“智能电话”。在一些方面,系统1002被集成为计算设备,例如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序1066可以被加载到存储器1062中,并且在操作系统1064上运行或与操作系统1064相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传送程序等。系统1002还包括存储器1062内的非易失性存储区域1068。非易失性存储区域1068可用于存储在系统1002断电时不应丢失的持久信息。应用程序1066可以使用信息并将其存储在非易失性存储区域1068中,例如电子邮件或由电子邮件应用使用的其他消息等。同步应用(未示出)也驻留在系统1002上,并且被编程为与驻留在主计算机上的对应的同步应用进行交互,以使存储在非易失性存储区域1068中的信息与存储在主计算机上的对应信息保持同步。应当理解,其他应用可以被加载到存储器1062中,并且在移动计算设备1000上运行,包括如本文所述的用于提供替代查询建议的指令(例如,和/或可选的分类器部件911)。
系统1002具有电源1070,其可以被实现为一个或多个电池。电源1070还可以包括外部电源,例如,AC适配器或用于补充或对电池再充电的供电对接支架。
系统1002还可以包括执行发送和接收射频通信的功能的无线电设备1072。无线电设备1072经由通信运营商或服务提供商促进在系统1002和“外部世界”之间的无线连接。去往和来自无线电设备1072的传输在操作系统864的控制下进行。换句话说,由无线电设备1072接收到的通信可以经由操作系统1064传播到应用程序1066,反之亦然。
视觉指示器1020可以用于提供视觉通知,和/或音频接口1074可以用于经由音频换能器1025产生可听见的通知。在所示实施例中,视觉指示器1020是发光二极管(LED),并且音频换能器1025是扬声器。这些设备可以直接耦合到电源1070,从而当被激活时,即使处理器1060和其他部件可能关闭以保持电池电力,它们仍保持开启由通知机制指示的持续时间。LED可以被编程为无限期地保持开启,直到用户采取动作为止,以指示设备的通电状态。音频接口1074用于向用户提供可听见的信号并从其接收可听见的信号。例如,除了耦合到音频换能器1025之外,音频接口1074还可以耦合到麦克风以接收可听见的输入,以便于电话会话。根据本公开的实施例,麦克风还可以用作音频传感器以便于对通知的控制,如下所述。系统1002还可以包括视频接口1076,其支持机载照相机1030的操作以记录静止图像、视频流等。
实现系统1002的移动计算设备1000可以具有附加的特征或功能。例如,移动计算设备1000还可以包括诸如磁盘、光盘或磁带的额外数据存储设备(可移除和/或不可移除的)。在图10B中通过非易失性存储区域868示出了这种额外的存储设备。
如上所述,由移动计算设备800生成或捕获并经由系统1002存储的数据/信息可以被本地地存储在移动计算设备1000上,或者数据可以被存储在任意数量的存储介质上,其可以由设备经由无线电设备1072或经由移动计算设备1000和与移动计算设备1000相关联的单独计算设备(例如,在诸如互联网的分布式计算网络中的服务器计算机)之间的有线连接来访问。应当理解,这样的数据/信息可以经由无线电设备1072或经由分布式计算网络通过移动计算设备1000来访问。类似地,这样的数据/信息可以根据公知的数据/信息传输和存储方式(包括电子邮件和协作数据/信息共享系统)容易地在计算设备之间转移,以进行存储和使用。
图11示出了用于处理在计算系统处从诸如计算设备1104、平板计算机1106或移动设备1108之类的远程源接收到的数据的系统的架构的一个方面,如上所述。显示在服务器设备1102处的内容可以存储在不同的通信信道或其他存储类型中。例如,可以使用目录服务1122、门户网站1124、邮箱服务1126、即时消息传送存储库1128或社交网站1130来存储各种文档。数字助理应用913可以由与服务器1102通信的客户端使用。服务器1102可以通过网络1115向/从客户端计算设备(例如个人计算机1104、平板计算设备1106和/或移动计算设备1108(例如,智能电话))提供数据。通过示例,上面参照图1-图5描述的计算机系统可以体现在个人计算机1104、平板计算设备1106和/或移动计算设备1108(例如,智能电话)中。计算设备的这些实施例中的任一个可以从存储库1116获得内容,另外还接收可用于在图形起源系统中预处理或者在接收计算系统处后处理的图形数据。
图12示出了可以执行本文公开的一个或多个方面的示例性平板计算设备1200。另外,本文描述的各方面和功能可以通过分布式系统(例如,基于云的计算系统)运行,其中应用功能、存储器、数据存储和取回以及各种处理功能可以通过分布式计算网络(例如,互联网或内联网)彼此远程地进行操作。可以经由机载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示用户界面和各种类型的信息。例如,用户界面和各种类型的信息可以在墙壁表面上被显示和与墙壁表面交互,在所述墙壁表面上投射有用户界面和各种类型的信息。与可以实践本发明的实施例的多个计算系统的交互包括:击键输入、触摸屏输入、话音或其他音频输入、手势输入,其中相关联的计算设备配备有用于捕获和解释用于控制计算设备的功能的用户手势等的检测(例如,照相机)功能。
在其他示例中,本公开提出了一种用于提供替代查询建议的系统,包括:接收口头自然语言表达,其中所述口头自然语言表达包括单词、术语和短语中的至少一个;将口头自然语言表达转换为文本查询;至少识别文本查询的在发音上可混淆的段;确定是否建议至少一个替代查询;以及在确定建议所述至少一个替代查询时,将所述至少一个替代查询提供给用户界面显示。在其他示例中,至少识别所述文本查询的在发音上可混淆的段包括使用变音位、历史数据和多个语音识别置信度分数中的至少一个。在其他示例中,所述系统还包括:确定与最佳猜测文本查询候选相关联的语音识别置信度分数是否满足阈值。在其他示例中,当确定所述语音识别置信度分数满足所述阈值时,所述方法还包括返回与所述最佳猜测文本查询候选相关联的搜索结果。在其他示例中,确定是否建议所述至少一个替代查询包括:确定所述至少一个替代查询是否有意义。在其他示例中,确定是否建议所述至少一个替代查询包括:确定所述至少一个替代查询是否有用。在其他示例中,确定是否建议所述至少一个替代查询包括:识别所述文本查询和所述至少一个替代查询在字典存储库中的共同出现。在其他示例中,确定是否建议所述至少一个替代查询包括:确定所述至少一个替代查询是否提供与由所述文本查询提供的搜索结果不同的搜索结果。在其他示例中,所述至少一个替代查询包括多个文本查询候选中的至少一个。在其他示例中,至少一个替代查询包括用在发音上类似的术语替换文本查询的在发音上可混淆的段。在其他示例中,至少一个替代查询包括用在上下文存储库和词典存储库中的至少一个中识别出的至少一个特征来替换文本查询的在发音上可混淆的段。
本文公开的其他方面提供了一种用于语音查询的交互式再形成的示例性系统,包括:在客户端设备的用户界面显示上呈现查询以及与查询相关联的一个或多个搜索结果;在所述用户界面显示上接收对所呈现的查询的段的选择;在所述客户端设备处接收用于替换所呈现的查询的所选段的话音建议;以及在所述客户端设备的用户界面显示上显示与话音建议对应的一个或多个替代术语。在其他示例中,所述系统还包括:接收在客户端设备的用户界面显示上显示的一个或多个替代术语中的至少一个的选择;在客户端设备处用所选的至少一个替代术语替换所选段,以提供再形成的查询;接收与再形成的查询相关联的一个或多个搜索结果;以及在客户端设备的用户界面显示上显示再形成的查询以及与所述再形成的查询相关联的一个或多个搜索结果。在其他示例中,所述系统还包括:将话音建议发送到语音识别部件;以及在客户端设备处接收再形成的查询以及与所述再形成的查询相关联的一个或多个搜索结果,其中再形成的查询包括所呈现的查询,其中所呈现的查询的所选段被与话音建议对应的一个或多个替代术语替换。在其他示例中,基于变音位、历史数据以及多个语音识别置信度分数识别对应于话音建议的一个或多个替代术语。在其他示例中,所呈现的查询是来自语音识别部件的最佳猜测文本查询。在其他示例中,所呈现的查询是由分类器部件建议的替代查询。
本文公开的附加方面提供了用于语音查询的交互式再形成的示例性系统和方法,所述方法包括:在客户端设备的用户界面显示上呈现查询和与查询相关联的一个或多个搜索结果;接收对所述用户界面显示上的所呈现的查询的至少一段的选择;在所述客户端设备处接收用于替换所呈现的查询的所选段的话音建议;将所述话音建议发送到语音识别部件;在所述客户端设备处接收再形成的查询和与所述再形成的查询相关联的一个或多个搜索结果,其中所述再形成的查询包括所呈现的查询,其中所呈现的查询的所选段被所述话音建议的文本表示替换;以及在客户端设备的用户界面显示上显示再形成的查询和与所述再形成的查询相关联的一个或多个搜索结果。在其他示例中,所述方法还包括:接收对再形成的查询的一个或多个替代查询建议。在其他示例中,所述方法还包括:在客户端设备处接收用于替换所呈现查询的所选段的一个或多个替代术语;以及在客户端设备的用户界面显示上显示一个或多个替代术语。
上面例如参考根据本公开的各方面的方法、系统和计算机程序产品的框图和/或操作说明描述了本公开的各方面。在框中记载的功能/动作可能不以任何流程图所示的次序发生。例如,连续示出的两个框实际上可以基本同时执行,或者有时这些框可以以相反的次序执行,这取决于所涉及的功能/动作。
在本申请中提供的一个或多个方面的描述和说明不旨在以任何方式限制或约束本公开的范围。在本申请中提供的方面、示例和细节被认为足以传达所拥有的,并使其他人能够制作和使用所要求保护的技术方案的最佳模式。所要求包括的技术方案不应被解释为限于在本申请中提供的任何方面、示例或细节。无论是组合还是单独被显示和描述,(结构和方法上的)各种特征旨在选择性地被包括或省略,以产生具有特定特征集的实施例。在提供了本申请的描述和说明的情况下,本领域技术人员可以想到落入本申请中体现的总发明构思的更广泛方面的精神中的变化、修改和替代方面,这些变化、修改和替代方面不背离所要求保护的技术方案的更广范围。

Claims (10)

1.一种系统,包括:
至少一个处理器;以及
存储器,其编码计算机可执行指令,所述计算机可执行指令当被至少一个处理器执行时,使所述至少一个处理器执行用于提供替代查询建议的方法,所述方法包括:
接收口头自然语言表达;
将所述口头自然语言表达转换为文本查询;
至少识别所述文本查询的在发音上可混淆的段;
确定是否要建议至少一个替代查询;以及
在确定要建议所述至少一个替代查询时,将所述至少一个替代查询提供给用户界面显示。
2.根据权利要求1所述的系统,其中至少识别所述文本查询的所述在发音上可混淆的段包括:使用变音位、历史数据和多个语音识别置信度分数中的至少一个。
3.根据权利要求1-2中任一项所述的系统,还包括:确定与最佳猜测文本查询候选相关联的语音识别置信度分数是否满足阈值。
4.根据权利要求3所述的系统,其中当确定所述语音识别置信度分数满足所述阈值时,所述方法还包括:返回与所述最佳猜测文本查询候选相关联的搜索结果。
5.根据权利要求1-4中任一项所述的系统,其中确定是否要建议所述至少一个替代查询包括:确定所述至少一个替代查询是否有意义。
6.根据权利要求1-5中任一项所述的系统,其中确定是否要建议所述至少一个替代查询包括:确定所述至少一个替代查询是否有用。
7.根据权利要求1-6中任一项所述的系统,其中确定是否要建议所述至少一个替代查询包括:识别所述文本查询和所述至少一个替代查询在字典存储库中的共同出现。
8.根据权利要求1-7中任一项所述的系统,其中确定是否要建议所述至少一个替代查询包括:确定所述至少一个替代查询是否提供与所述文本查询所提供的搜索结果不同的搜索结果。
9.一种系统,包括:
至少一个处理器;以及
存储器,其编码计算机可执行指令,所述计算机可执行指令当被至少一个处理器执行时,使所述至少一个处理器执行用于语音查询的交互式再形成的方法,所述方法包括:
在客户端设备的用户界面显示上呈现查询以及与所述查询相关联的一个或多个搜索结果;
接收对所述用户界面显示上所呈现的查询的段的选择;
在所述客户端设备处接收用于替换所呈现的查询的所选段的话音建议;以及
在所述客户端设备的所述用户界面显示上显示与所述话音建议对应的一个或多个替代术语。
10.一种用于语音查询的交互式再形成的方法,包括至少一个处理器和编码计算机可执行指令的存储器,所述计算机可执行指令当被至少一个处理器执行时,使所述至少一个处理器执行所述方法,所述方法包括:
在客户端设备的用户界面显示上呈现查询以及与所述查询相关联的一个或多个搜索结果;
接收对所述用户界面显示上所呈现的查询的至少一个段的选择;
在所述客户端设备处接收用于替换所呈现的查询的所选段的话音建议;
将所述话音建议发送到语音识别部件;
在所述客户端设备处接收再形成的查询以及与所述再形成的查询相关联的一个或多个搜索结果,其中所述再形成的查询包括所呈现的查询,其中所呈现的查询的所选段被所述话音建议的文本表示替换;以及
在所述客户端设备的所述用户界面显示上显示所述再形成的查询以及与所述再形成的查询相关联的一个或多个搜索结果。
CN201680015366.3A 2015-03-13 2016-03-11 语音查询的交互式再形成 Active CN107430616B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/657,568 US10176219B2 (en) 2015-03-13 2015-03-13 Interactive reformulation of speech queries
US14/657,568 2015-03-13
PCT/US2016/021895 WO2016149052A1 (en) 2015-03-13 2016-03-11 Interactive reformulation of speech queries

Publications (2)

Publication Number Publication Date
CN107430616A true CN107430616A (zh) 2017-12-01
CN107430616B CN107430616B (zh) 2020-12-29

Family

ID=55629126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680015366.3A Active CN107430616B (zh) 2015-03-13 2016-03-11 语音查询的交互式再形成

Country Status (4)

Country Link
US (1) US10176219B2 (zh)
EP (1) EP3268955B1 (zh)
CN (1) CN107430616B (zh)
WO (1) WO2016149052A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119064A (zh) * 2018-09-05 2019-01-01 东南大学 一种适用于翻转课堂的英语口语教学系统的实现方法
CN115019787A (zh) * 2022-06-02 2022-09-06 中国第一汽车股份有限公司 一种交互式同音异义词消歧方法、系统、电子设备和存储介质
CN115019787B (zh) * 2022-06-02 2024-05-14 中国第一汽车股份有限公司 一种交互式同音异义词消歧方法、系统、电子设备和存储介质

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049099B2 (en) * 2015-04-10 2018-08-14 Facebook, Inc. Spell correction with hidden markov models on online social networks
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US9984075B2 (en) * 2015-10-06 2018-05-29 Google Llc Media consumption context for personalized instant query suggest
WO2018081633A1 (en) * 2016-10-28 2018-05-03 Roam Analytics, Inc. Semantic parsing engine
US10417492B2 (en) * 2016-12-22 2019-09-17 Microsoft Technology Licensing, Llc Conversion of static images into interactive maps
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
CN106992001B (zh) * 2017-03-29 2020-05-22 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统
US11695711B2 (en) * 2017-04-06 2023-07-04 International Business Machines Corporation Adaptive communications display window
US10916258B2 (en) * 2017-06-30 2021-02-09 Telegraph Peak Technologies, LLC Audio channel monitoring by voice to keyword matching with notification
US11263399B2 (en) * 2017-07-31 2022-03-01 Apple Inc. Correcting input based on user context
US10942954B2 (en) * 2017-12-22 2021-03-09 International Business Machines Corporation Dataset adaptation for high-performance in specific natural language processing tasks
US11068474B2 (en) * 2018-03-12 2021-07-20 Microsoft Technology Licensing, Llc Sequence to sequence conversational query understanding
US11294944B2 (en) * 2018-06-03 2022-04-05 Apple Inc. Correction and completion of search queries
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
US11431658B2 (en) * 2020-04-02 2022-08-30 Paymentus Corporation Systems and methods for aggregating user sessions for interactive transactions using virtual assistants
US11875780B2 (en) * 2021-02-16 2024-01-16 Vocollect, Inc. Voice recognition performance constellation graph

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1262502A (zh) * 1998-11-13 2000-08-09 清华大学 小词汇量语音识别方法及其模块
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1741132A (zh) * 2004-08-23 2006-03-01 美国电报电话公司 口头发音检索所用的基于格点搜索的系统和方法
US20090006345A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Voice-based search processing
CN102915733A (zh) * 2011-11-17 2013-02-06 微软公司 交互式语音识别
US8521526B1 (en) * 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
CN104199825A (zh) * 2014-07-23 2014-12-10 清华大学 一种信息查询方法和系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69423838T2 (de) 1993-09-23 2000-08-03 Xerox Corp Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7461059B2 (en) 2005-02-23 2008-12-02 Microsoft Corporation Dynamically updated search results based upon continuously-evolving search query that is based at least in part upon phrase suggestion, search engine uses previous result sets performing additional search tasks
US7672931B2 (en) 2005-06-30 2010-03-02 Microsoft Corporation Searching for content using voice search queries
JP2007057844A (ja) 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
US8165877B2 (en) 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
DE602007008912D1 (de) * 2007-10-24 2010-10-14 Harman Becker Automotive Sys Verfahren und System zur Spracherkennung zum Durchsuchen einer Datenbank
US8024179B2 (en) 2007-10-30 2011-09-20 At&T Intellectual Property Ii, L.P. System and method for improving interaction with a user through a dynamically alterable spoken dialog system
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090248627A1 (en) 2008-03-27 2009-10-01 Yahoo! Inc. System and method for query substitution for sponsored search
US9081868B2 (en) 2009-12-16 2015-07-14 Google Technology Holdings LLC Voice web search
US8589164B1 (en) 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
US9361363B2 (en) * 2012-12-31 2016-06-07 Facebook, Inc. Modifying structured search queries on online social networks
US9589562B2 (en) * 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1262502A (zh) * 1998-11-13 2000-08-09 清华大学 小词汇量语音识别方法及其模块
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1741132A (zh) * 2004-08-23 2006-03-01 美国电报电话公司 口头发音检索所用的基于格点搜索的系统和方法
US20090006345A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Voice-based search processing
US8521526B1 (en) * 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
CN102915733A (zh) * 2011-11-17 2013-02-06 微软公司 交互式语音识别
CN104199825A (zh) * 2014-07-23 2014-12-10 清华大学 一种信息查询方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NUANCE: "Dragon NaturallySpeaking 13 Installation Guide and User Guide", 《HTTP://WEB.ARCHIVE.ORG/WEB/20130701000000*/HTTP://WWW.NUANCE.FR/FOR-BUSINESS/BY-PRODUCT/DRAGON/PRODUCT-RESOURCES/USER-DOCUMENTATION/INDEX.HTM》 *
李宝祥: "语音关键词检索若干问题的研究", 《中国博士学位论文全文数据库 信息科技辑》 *
武玉峰: "易混淆语音识别技术的研究", 《万方》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119064A (zh) * 2018-09-05 2019-01-01 东南大学 一种适用于翻转课堂的英语口语教学系统的实现方法
CN115019787A (zh) * 2022-06-02 2022-09-06 中国第一汽车股份有限公司 一种交互式同音异义词消歧方法、系统、电子设备和存储介质
CN115019787B (zh) * 2022-06-02 2024-05-14 中国第一汽车股份有限公司 一种交互式同音异义词消歧方法、系统、电子设备和存储介质

Also Published As

Publication number Publication date
EP3268955B1 (en) 2020-01-08
EP3268955A1 (en) 2018-01-17
US20160267128A1 (en) 2016-09-15
CN107430616B (zh) 2020-12-29
US10176219B2 (en) 2019-01-08
WO2016149052A1 (en) 2016-09-22

Similar Documents

Publication Publication Date Title
CN107430616A (zh) 语音查询的交互式再形成
US11966986B2 (en) Multimodal entity and coreference resolution for assistant systems
US11842727B2 (en) Natural language processing with contextual data representing displayed content
US20190027147A1 (en) Automatic integration of image capture and recognition in a voice-based query to understand intent
JP6701206B2 (ja) ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
US10152965B2 (en) Learning personalized entity pronunciations
CN105531758B (zh) 使用外国单词语法的语音识别
US11017767B2 (en) Hierarchical attention for spoken dialogue state tracking
US11250839B2 (en) Natural language processing models for conversational computing
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US20210272553A1 (en) Methods for natural language model training in natural language understanding (nlu) systems
CN107077638A (zh) 基于先进的递归神经网络的“字母到声音”
US11626103B2 (en) Methods for natural language model training in natural language understanding (NLU) systems
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
CN113302628A (zh) 利用领域知识微移神经会话式模型
US11817093B2 (en) Method and system for processing user spoken utterance
KR102450816B1 (ko) 실시간 자동 통역 시스템 및 이의 발화 검증 방법
US20190073994A1 (en) Self-correcting computer based name entity pronunciations for speech recognition and synthesis
US20240029729A1 (en) Translation of voice commands using machine learning
US20240161742A1 (en) Adaptively Muting Audio Transmission of User Speech for Assistant Systems
US20240143678A1 (en) Intelligent content recommendation within a communication session
US20210217437A1 (en) Method and apparatus for processing voice
KR20190102484A (ko) 음성 인식 수정 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant