CN101630333A - 用于查询扩展的音译 - Google Patents

用于查询扩展的音译 Download PDF

Info

Publication number
CN101630333A
CN101630333A CN200910164542A CN200910164542A CN101630333A CN 101630333 A CN101630333 A CN 101630333A CN 200910164542 A CN200910164542 A CN 200910164542A CN 200910164542 A CN200910164542 A CN 200910164542A CN 101630333 A CN101630333 A CN 101630333A
Authority
CN
China
Prior art keywords
transliteration
word
words
inquiry
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910164542A
Other languages
English (en)
Other versions
CN101630333B (zh
Inventor
皮尤什·普拉拉德卡
拉利特什·卡特拉嘎达
维内特·古普塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN201410266074.XA priority Critical patent/CN104111972B/zh
Publication of CN101630333A publication Critical patent/CN101630333A/zh
Application granted granted Critical
Publication of CN101630333B publication Critical patent/CN101630333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及用于识别用于查询扩展的音译词语的候选同义词的方法、系统和装置,包括计算机程序产品。在一方面中,方法包括识别目标语言的多个音译词语。对于目标语言的多个音译词语中的每个音译词语,所述音译词语被映射到源语言的一个或多个词语。对于目标语言的多个音译词语中的第一音译词语,目标语言的多个音译词语中的一个或多个第二音译词语被识别为第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的源语言的至少一个词语。

Description

用于查询扩展的音译
技术领域
本说明涉及用于用户向搜索引擎提交查询的查询扩展。
背景技术
搜索引擎-以及,特别地,因特网搜索引擎-的目标在于识别与用户的需求相关的资源(例如,网页、图像、文本文档、多媒体内容(context))以及将与资源有关的信息以对用户最有用的方式进行呈现。因特网搜索引擎响应于用户提交的查询返回搜索结果。如果用户对于为查询返回的搜索结果不满意,那么用户能够尝试精化所述查询以更好地匹配用户的需求。
一些搜索引擎为用户提供搜索引擎识别为与用户的查询相关的建议的替选查询,例如扩展的查询。用于找到用于查询扩展的查询词的同义词的技术通常依赖于自然语言模型或者用户搜索日志数据。识别出的查询词的同义词能够在识别附加的或者更相关的资源的尝试中用于扩展查询以改进用户搜索体验。
电子文档通常用多种不同语言书写。通常在特定的书写系统(即文字(script))中表达每一种语言,所述书写系统的特征通常在于特定的字母表。例如,使用拉丁字母表来表达英语语言,而使用梵文字母表来表达印度语语言。一些语言所使用的文字包括已经被扩展为包括附加的标记或者字符的特定字母表。在音译(transliteration)中,一种语言的文字被用于表示通常以另一种语言的文字书写的词。例如,音译词语能够是从一种文字转换成另一种文字的词语或者以一种文字的词语的另一种文字的语音表示。用于找到用于查询扩展的查询词的同义词的技术可能对于找到音译词语的查询词语的同义词不能很好的工作。例如,当前的自然语言技术对于音译数据不能很好的工作,并且搜寻日志数据通常不能很好地覆盖大多数音译的变体。
发明内容
本发明描述了涉及识别用于查询扩展的音译词语的候选同义词的技术。
一般来说,在本说明中描述的主题的一方面能够被具体化为计算机实现的方法,该方法包括下述动作:使用一个或者多个计算机识别目标语言的多个音译词语;对于目标语言的多个音译词语中的每一个音译词语,将音译词语映射到源语言的一个或者多个词语;以及对于目标语言的多个音译词语中的第一音译词语,识别目标语言的多个音译词语的一个或多个第二音译词语作为第一音译词语的候选同义词,其中所述一个或者多个第二音译词语中的每一个被映射到也从第一音译词语映射的源语言的至少一个词语。该方面的其它实施例包括对应的系统、装置以及计算机程序产品。
这些和其它实施例能够可选地包括下述特征中的一个或多个。识别目标语言的多个音译词语能够进一步包括从web资源识别只包含目标语言的字符的词语。该方面能够进一步包括计算用于仅包含目标语言的字符的每个识别的词语的统计量,将用于每个识别的词语的统计量与指定的阈值进行比较,并且如果用于特定的识别词语的统计量超过指定的阈值,则将特定的识别的词语包括在目标语言的多个音译词语中。
用于每个识别的词语的统计量能够是与讲源语言的一个或多个地区(locale)相关联的顶级域的web资源中识别的词语的出现概率相对于与任何地区相关联的顶级域的web资源中识别的词语的出现概率的比率。用于每个识别的词语的统计量能够是与讲源语言的一个或多个地区相关联的web资源中识别的词语的出现概率相对于与任何地区相关联的web资源中识别的词语的出现概率的比率。web资源与讲源语言的地区的关联能够通过web资源的顶级域来确定。
将音译词语映射到源语言的一个或多个词语能够进一步包括将目标语言的音译词语音译为源语言的一个或多个词语。被识别为第一音译词语的候选同义词的一个或多个第二音译词语中的每一个能够具有超过指定的阈值的相对于第一音译词语的置信(confidence)值。第二音译词语的置信值能够是从第一音译词语和第二音译词语两者映射的源语言的词语的数目的函数。将目标语言的音译词语音译为源语言的词语能够进一步包括产生用于目标语言的音译词语到源语言的词语的音译的音译分值。第二音译词语的置信值能够是web资源中第二音译词语的出现概率、用于第二音译词语到也被从第一音译词语映射的源语言的词语的音译的音译分值、以及用于第一音译词语到源语言的词语的音译的音译分值中的一个或多个的函数。
所述方面能够进一步包括,对于目标语言的多个音译词语的第一音译词语,识别从第一音译词语映射的以及从一个或多个第二音译词语中的至少一个映射的源语言的一个或多个词语作为第一音译词语的候选同义词。该方面能够进一步包括接收包括第一音译词语的查询,用第一音译词语的候选同义词中的一个或多个扩展该查询,将扩展的查询提供给搜索引擎,并且接收用于扩展的查询的搜索结果。该方面能够进一步包括接收包括第一音译词语的查询,以及提供一个或多个扩展的查询用于供用户选择,每个扩展的查询包括所述查询以及第一音译词语的候选同义词中的一个或多个。
该方面能够进一步包括接收包括第一音译词语的查询;将该查询提供给搜索引擎,其中所述搜索引擎识别以下的web资源作为用于该查询的可能的搜索结果,所述web资源包括第一音译词语的候选同义词中的至少一个但是不包括查询中的任何词语;以及修改与所述web资源相关联的分值,所述分值用于在排名用于所述查询的可能的搜索结果中使用。该方面能够进一步包括接收包括第一音译词语的查询;将该查询提供给搜索引擎,其中所述搜索引擎识别以下的web资源作为用于该查询的可能的搜索结果,所述web资源包括从第一音译词语映射的以及从一个或多个第二音译词语中的至少一个映射的源语言的词语中的至少一个,但是不包括查询中的任何词语;以及修改与该web资源相关联的信息检索分值,所述信息检索分值用于在排名用于该查询的可能的搜索结果中使用。
在本说明中描述的主题的另一方面能够具体化为计算机实现的方法,所述方法包括下述动作:使用一个或多个计算机产生用于目标语言的可能的音译同义词的训练组;使用训练组来训练概率模型以学习音译同义词在目标语言中的拼写变体的概率;以及将概率模型应用于目标语言的特定音译词语以识别特定音译词语的一个或多个候选同义词。该方面的其它实施例包括对应的系统、装置以及计算机程序产品。
本说明中描述的主题的另一方面能够被具体化为计算机实现的方法,所述方法包括下述动作:使用一个或多个计算机识别目标语言的多个音译词语;对于目标语言的多个音译词语的第一音译词语,识别目标语言的多个音译词语的一个或多个第二音译词语作为第一音译词语的候选同义词;以及使用第一音译词语的候选同义词来扩展包括第一音译词语的查询。该方面的其它实施例包括对应的系统、装置以及计算机程序产品。
本说明中描述的主题的特定实施例能够被实现为实现下面优点中的一个或多个。音译词语被识别为用于特定音译词语的候选同义词,其中所述候选同义词能够被用于扩展包括特定音译词语的查询。能够为较新的音译词语(例如从源语言的词语音译词语、从当前新闻故事或当前文化参考而音译词语)识别音译目标语言的同义词,这可能在用户搜索日志数据中具有较差的覆盖。能够将用户的查询扩展为包括用于给定的音译词语的候选音译同义词的系统可以返回比不具有这样的查询扩展能力的搜索系统更好的搜索结果。
在附图以及下面的描述中阐述了本说明中描述的主题的一个或多个实施例的细节。根据说明书、附图以及权利要求,主题的其它特征、目标以及优点将更加明显。
附图说明
图1是示例搜索系统的框图。
图2A至2C示出用于识别音译词语的候选同义词的示例技术。
图3是用于识别音译词语的候选同义词的示例过程的流程图。
图4是用于提供用于包括音译词语和候选同义词的扩展的查询的搜索结果的示例过程的流程图。
图5是用于识别音译词语的候选同义词的示例过程的流程图。
各附图中的相同的附图符号和标记表示相同的元素。
具体实施方式
图1是如能够在因特网、内联网(intranet)、或者另外的客户端与服务器环境中实现的示例搜索系统114的框图,该搜索系统114能够用于提供与提交的查询相关的搜索结果。搜索系统114是信息检索系统的示例,在该信息检索系统中能够实现下面所述的系统、组件以及技术。
用户102能够通过客户端设备104与搜索系统114交互。例如,客户端104能够是通过局域网(LAN)或者例如因特网的广域网(WAN)耦接到搜索系统114的计算机。在一些实现方式中,搜索系统114和客户端设备104能够是一台机器。例如,用户能够将桌面搜索应用安装在客户端设备104上。客户端设备104通常将包括随机存取存储器(RAM)106和处理器108。
用户102能够将查询110提交到搜索系统114中的搜索引擎130。当用户102提交查询110时,查询110被通过网络发送到搜索系统114。搜索系统114能够被实现为例如运行在一个或多个位置中通过网络彼此耦接的一个或多个计算机上的计算机程序。搜索系统114包括索引数据库122以及搜索引擎130。搜索系统114通过生成搜索结果128来响应查询110,该搜索结果128被通过网络以能够呈现给用户102的形式(例如,作为要在客户端104上运行的web浏览器中显示的搜索结果网页)发送到客户端设备104。
当搜索引擎130接收到查询110时,搜索引擎130识别匹配查询110的资源。搜索引擎130通常包括索引资源(例如,因特网上的网页、图像、或者新闻文章)的索引引擎120、存储索引信息的索引数据库122、以及排名匹配查询110的资源的排名引擎152(或其他软件)。搜索引擎130能够通过网络将搜索结果128发送到客户端设备104以呈现给用户102。
在一些方案中,查询包括是音译词语的一个或多个词语。音译将源语言的词语转换为目标语言的音译词语。在转换之后,通过目标语言的字母或字符表示源语言的词语的字母或者字符。例如,在标题为“Machine Learning for Transliteration(用于音译的机器学习)”、于2008年3月6日提交的美国专利申请No.12/043854中描述了用于音译的机器学习技术。
从一种语言音译为另一种语言的词语能够在因特网资源中使用。例如,在因特网资源(例如,印度博客或者电子印度技术教科书)上像印度语、泰米尔语、泰卢固语、埃纳德语和马拉雅拉姆语的印度语言有时被音译为英语。这些语言和一些非印度语言(例如,中文或者其他语标书写系统)常常没有开发得很好的替选输入机制,从而输入这些语言的字符是很麻烦的。
音译没有校正拼写的概念。结果,对于源语言的词的音译常常存在目标语言的多个拼写。对于具有目标语言的多个音译源语言的特定词语,从目标语言的给定的音译词语变化的目标语言的音译词语能够被处理为给定的音译词语的候选同义词。这些候选的音译同义词是源语言的同一词语的不同可能的音译。
作为示例,印度语词能够被音译为英语“chakrabarti”或者“chakrabarty”。因此,音译词语“chakrabarty”能够被识别为给定的音译词语“chakrabarti”的候选同义词。
对给定的音译词语识别的候选同义词能够用于扩展包括给定的音译词语的查询。例如,如果在因特网上若干网站上存在可用的流行的新的印度语歌曲,那么如果网站将歌曲标题的印度语词音译为第一音译词语而用户输入带有用于同一印度语词的第二音译词语的查询,那么用户会发现很难查找到该歌曲。能够将用户的查询扩展为包括第二音译词语的候选音译同义词的搜索系统可以返回比不具有相同查询扩展能力的搜索系统更好的搜索结果。
图2A至2C示出用于识别音译词语的候选同义词的示例技术。为了方便,将参考执行该技术的系统描述该示例技术。该示例技术能够用于将包括音译词语的查询扩展以在尝试改进为该查询返回的搜索结果中包括音译词语的同义词。该示例技术使用音译技术来确定目标语言(例如,英语)的哪些词语是从源语言(例如,印度语)的同一词语音译的。若干技术能够被实现为增加候选同义词的精度或者质量。
图2A示出目标语言英语的可能的音译词语的列表210,其中源语言是印度语。系统能够以任何数目的不同方式产生或者识别可能的音译词语的列表210。
例如,系统能够识别来自web资源的列表210的可能的音译词语作为仅包含目标语言的字符(例如,拉丁字符)的词语。仅包含目标语言的字符的识别的词语包括在目标语言中有意义的词和在目标语言中没有意义的可能的音译词语。
为了从非音译词语(例如有意义的词)分离可能的音译词语,系统能够计算仅包含目标语言的字符的识别的词语的统计量并且能够将该统计量与指定的阈值比较。即,对于每个识别的词语,计算统计量并且将该统计量与阈值比较,其中如果识别的词语的统计量超过了指定的阈值则该系统将识别的词语包括在可能的音译词语的列表210中。
在英语是目标语言并且印度语是源语言的一个示例中,英语的音译词语在印度语的web资源上比在非印度语的web资源上具有更高的出现概率。在该示例中,仅包含拉丁字符的每个识别的词语的统计量能够是印度语的web资源上的出现概率的函数。
在一些实现方式中,用于每个识别的词语的统计量是与讲源语言的一个或多个地区(例如,国家或区域)相关联的顶级域的web资源中识别的词语的出现概率相对于与任何地区相关联的顶级域的web资源中识别的词语的出现概率的比率。例如,统计量能够是印度语网页上出现识别的词语的概率相对于任何网页上出现识别的词语的概率的比率。如果计算的用于特定识别的词语的统计量超过指定的阈值,则特定的识别词语能够被包括在可能的音译词语的列表210中。
在一些其他的实现方式中,用于每个识别的词语的统计量是与讲源语言的一个或多个地区(例如,国家或者区域)相关联的web资源中识别的词语的出现概率相对于与任何地区相关联的web资源中识别的词语的出现概率的比率。web资源与讲源语言的地区的关联能够通过web资源的顶级域来确定。例如,统计量能够是在印度语的web域上出现的识别的词语的概率相对于在任何web域上出现的识别的词语的概率的比率。如果为特定的识别的词语计算的统计量超过了指定的阈值,那么特定的识别的词语能够被包括在可能的音译词语的列表210中。
在一些方案中,特定的网页或者特定的web域可能使用特定的识别的词语非常多次,这可能使用于特定的识别的词语的统计量歪斜(skew)。在一些实施方式中,系统以指定的限制为用于每个识别的词语的统计量或者用于每个识别的词语的统计量的分量设定上限以防止使统计量歪斜。例如,系统能够给印度语的网页上的识别的词语的每页的贡献或者印度语的域上识别的词语的每域的贡献设定上限。
在一些实施方式中,用于每个识别的词语的统计量是被包括在提交到具有源语言的界面的搜索引擎的查询中的识别的词语的概率相对于被包括在提交到具有任何语言的界面的搜索引擎的查询中的识别的词语的概率的比率。例如,系统能够使用印度语和非印度语搜索日志来计算统计量。
在一些实施方式中,为了从非音译词语(例如,目标语言中有意义的词)分离可能的音译词语,系统计算用于每个仅包含目标语言的字符的识别的词语的多个统计量并且将该多个统计量与各阈值进行比较。如果用于特定的识别的词语的多个统计量每个都超过了相应阈值,那么系统能够将特定的识别的词语包括在可能的音译词语的列表210中。
列表210的可能的音译词语能够替选地通过只爬行(crawl)已知的与源语言相关联的web资源来进行识别。对于源语言是印度语的示例,系统能够通过爬行已知的印度语网站,例如印度语博客站点或者翻译印度语歌曲或者印度语技术教科书的网站,来识别可能的音译词语。
图2B示出列表210的每个可能的音译词语与源语言印度语的一个或多个词语220之间的关系215。每个关系215是将第一组(即目标语言的可能的音译词语)中的元素映射到第二组(即源语言的词语220)的一个或多个元素的结果。即,映射形成可能的目标语言的音译词语与源语言的一个或多个词语220之间的单向关系。在图2B的示例技术中,关系215是通过例如由被实现为系统的元素的英语到印度语机器音译器执行的音译映射的结果。
在一些实施方式中,映射包括为每个从目标语言的可能的音译词语到源语言的词语220的音译产生音译分值225。例如,图2B示出用于每个音译的音译分值225,包括从“sreeram”到H2的分值(例如,scoreE1 至H2),从“shriram”到H2的分值(例如,scoreE3至H2),以及从“shreeram”至H6的分值(例如,scoreE4至H6)。
如果通过映射产生音译分值225,那么列表210的给定的可能的音译词语的音译分值225能够是相对于另一可能的音译词语的给定的可能的音译词语的置信值。系统能够在识别应被认为用于特定的音译词语的候选同义词的可能的音译词语中使用这些置信值。相对于图2C更详细地描述音译分值225和置信值。
图2C示出为第一可能的音译词语230识别一个或多个第二可能的音译词语240作为第一可能的音译词语230的候选同义词。
如果音译器从目标语言的两个或更多可能的音译词语映射源语言的词语220,则这暗示了在目标语言的两个或更多可能的音译词语之间的同义词关系。例如,H2是通过音译器从三个可能的音译词语:“sreeram”、“shriram”以及“shreeram”映射的源语言的印度语词,暗示了这三个音译词语是同义词。
在图2C的示例技术中,系统通过识别被映射到源语言的至少一个词语220的列表210的可能的音译词语来识别第二可能的音译词语240作为第一可能的音译词语230的候选同义词,其中所述至少一个词语220也被从第一可能的音译词语230映射。源语言的词语220的交集给出了用于音译同义词的候选组。若干技术能够被实现以增加用于音译同义词的候选组的可靠性。
在一些实施方式中,除了第一可能的音译词语230之外,列表210的可能的音译词语的每一个具有相对于第一可能的音译词语230的置信值。在这些实施方式中,如果特定的可能的音译词语具有超过指定的阈值的相对于第一可能的音译词语230的置信值,那么特定的可能的音译词语是被识别为第一可能的音译词语230的候选同义词的第二可能的音译词语240。如果映射不为每个音译产生音译分值225,则用于给定的第二可能的音译词语240的置信值能够是从第一可能的音译词语230和给定的第二可能的音译词语240两者映射的源语言的词语220的数目的函数。
例如,“shriram”和“sriraam”每个映射到也是从第一可能的音译词语230“sreeram”映射的仅仅一个词语220(即,分别是H2和H6)。音译词语“shreeram”映射到也从第一可能的音译词语230“sreeram”映射的两个词语220(即,H2和H6)。与源语言的映射的词语220的“sreeram”的重叠对于“shreeram”情况大于对于“shriram”和“sriraam”的情况,暗示了“shreeram”可能是比“shriram”或者“sriraam”更可靠的用于“sreeram”的候选同义词。该增加的可靠性能够被反映在相对于“sreeram”更高的用于“shreeram”的置信值中。
如果映射为每个音译产生音译分值225,那么用于给定的第二可能的音译词语240的置信值能够是第一可能的音译词语230和给定的第二可能的音译词语240的音译分值225的函数。例如,第二可能的音译词语240“shriram”的相对于第一可能的音译词语230“sreeram”的置信值能够是音译分值225scoreE1至H2和scoreE3至H2的函数,其中两个音译词语映射到H2。
在一些实现方式中,用于给定的第二可能的音译词语240的置信值是web资源中给定的第二可能的音译词语240的出现概率的函数。例如,出现概率能够是给定的第二可能的音译词语240的web资源中每页的贡献或者web资源中每域的贡献。一般来说,较高的出现概率表示给定的第二可能的音译词语240是从源语言的词语音译更常见的形式。较高的概率表示常见的音译词语中较高的置信,这能够被反映在用于音译词语的较高的置信值中。
在一些实现方式中,用于给定的第二可能的音译词语240的置信值是例如音译分值225和出现概率的多个分量的函数。尽管图2C包括所有映射到也从第一可能的音译词语230映射的源语言的词语220的可能的音译词语作为第二可能的音译词语240,用于增加候选组的可靠性的上述技术中的任何一种的实现能够将候选同义词组减少到图2C中示出的第二可能的音译词语240的子组(subgroup)。
在一些实现方式中,系统识别从第一可能的音译词语230和从至少一个第二可能的音译词语240映射的源语言的词语220中的一个或多个作为除了第二可能的音译词语240之外的或者代替第二可能的音译词语240的第一可能的音译词语230的候选同义词。例如,对于第一可能的音译词语230“sreeram”,系统能够识别词语H2和H6作为“sreeram”的候选同义词。在一些实现方式中,系统识别从目标语言的同一音译词语映射的源语言的词语220作为候选同义词组。对于图2C的示例,系统能够识别从相同的音译词语“sreeram”和“shreeram”映射的词语H2和H6作为候选同义词。
系统能够使用候选音译同义词(即,第二可能的音译词语240)用于查询扩展。例如,当搜索系统(例如,图1的搜索系统114)接收包括第一可能的音译词语230的查询时,搜索系统能够识别第一可能的音译词语230的一个或多个候选音译同义词。该查询能够利用第一可能的音译词语230的所识别的候选音译同义词中的一个或多个来扩展。在图2C的示例中,该查询能够扩展包括“sreeram”的查询以包括“shriram”、“shreeram”以及“sriraam”中的一个或多个。在一些实现方式中,系统按置信值排名候选同义词,并且系统选择带有N个最高置信值的仅仅N个候选同义词以包括在扩展的查询中。该系统将扩展的查询提供给搜索引擎(例如,图1的搜索引擎130),并且接收用于该扩展的查询的搜索结果。
在一些实施方式中,如果系统选择可能的音译词语作为用于给定的音译词语的候选音译同义词,则系统还选择给定的音译词语作为用于可能的音译词语的候选音译同义词。在其他的实现方式中,如果系统选择可能的音译词语作为用于给定的音译词语的候选音译同义词,则系统不选择给定的音译词语作为用于可能的音译词语的候选的音译同义词。即,可能存在或者可能不存在音译同义词的逆映射。例如,如果第一音译词语“a”很少被使用并且第二音译词语“b”经常被使用,则带有“b”的“a”的查询扩展通常很有效,因为该扩展将导致返回更多的搜索结果。然而,自动地扩展带有“a”的“b”的查询可能不是很有效的,因为该扩展可能返回不相关的搜索结果。
在一些实现方式中,在查询搜索的文档侧发生将候选的音译同义词映射到给定的音译词语,代替利用一个或多个候选音译同义词扩展的查询。对于以上示例,如果用户提交包括音译词语“b”而不是音译词语“a”的查询并且如果web文档包含“a”而不包含“b”,那么搜索系统(例如,图1的搜索系统114)能够像web文档也包含“b”一样处理该web文档,从而该web文档是用于包括“b”的搜索的候选搜索结果。然而,由于web文档实际上不包括“b”,因此搜索系统能够减少与该web文档相关联的分值(例如,用于排名该web文档作为候选的搜索结果的信息检索分值),这因此能够减少该web文档对于该搜索返回的机会。
在一些实现方式中,候选同义词的文档级映射包括源语言的一个或多个词语220。对于图2C的示例,搜索系统能够像web文档也包含印度语H2或H6一样处理包含“sreeram”的web文档。该搜索系统也能够相应地减少与该web文档相关联的分值。
图3是用于识别用于音译词语的候选同义词的示例过程300的流程图。为了方便,示例过程300将参考图2A至2C的示例技术以及执行过程300的系统来进行描述。
系统识别目标语言的多个音译词语(步骤310)。例如,系统识别图2A中的列表210的可能的音译词语。
对于目标语言的多个音译词语中的每个音译词语,系统将音译词语映射到源语言的一个或多个词语(步骤320)。图2B示出使用英语到印度语音译器的映射的示例。
对于目标语言的多个音译词语的第一音译词语,系统识别多个音译词语的一个或多个第二音译词语作为第一音译词语的候选同义词(步骤330)。一个或多个第二音译词语中的每一个被映射到也被从第一音译词语映射的源语言的至少一个词语。例如,图2C示出被识别为第一可能的音译词语230(即“sreeram”)的候选同义词的第二可能的音译词语240(即,“shriram”、“shreeram”以及“sriraam”)。候选同义词能够被用于查询扩展,例如,如参考图4所描述的。
图4是用于为包括音译词语和候选同义词的扩展的查询提供搜索结果的示例过程400的流程图。为了方便,示例过程400将参考图2A至2C的示例技术以及执行该过程400的系统来进行描述。
系统接收包括第一音译词语的查询(步骤410)。例如,该查询能够包括图2C中使出的音译词语“sreeram”。
系统提供一个或多个扩展的查询用于供用户选择,其中每个扩展的查询包括该查询以及第一音译词语的一个或多个候选同义词(步骤420)。例如,候选同义词能够使用图3的示例过程300来进行识别。对于包括音译词语“sreeram”的查询,系统能够提供还包括“shriram”、“shreeram”以及“sriraam”中的一个或多个的扩展的查询,如图2C中所示。
系统从用户接收对扩展的查询的选择(步骤430)。例如,扩展的查询能够呈现给用户作为在运行在客户端设备(例如,图1的客户端设备104)上的web浏览器的界面上的可选择的超链接。系统能够作为用户对用于选择的扩展的查询的超链接做出的选择接收对扩展的查询的选择。在一些实现方式中,系统产生具有一个或多个候选同义词的扩展的查询并且前进到步骤440而不执行步骤420和430。
系统将扩展的查询提供给搜索引擎(步骤440)。例如,系统能够将扩展的查询提交到图1的搜索引擎130。搜索引擎执行搜索,将用于扩展的查询的搜索结果发送到系统。系统接收用于扩展的查询的搜索结果(步骤450)。
在一些实现方式中,系统将步骤410接收的的查询提供给搜索引擎而不扩展该查询。相反地,系统如以上参考图2C描述地执行文档级映射。例如,搜索引擎能够识别包括第一音译词语的候选同义词中的至少一个但是不包括查询中的任何词语(例如,第一音译词语)的web资源作为用于查询的可能的搜索结果。或者,搜索引擎能够识别不包括查询中的任何词语(例如第一音译词语)但是包括从第一音译词语映射的和从候选同义词中的至少一个映射的源语言的词语中的至少一个的web资源作为用于查询的可能的搜索结果。当实现文档级映射时,系统能够修改(例如,减少)用于排名中使用的与被识别为可能的搜索结果的web资源相关联的分值。
图5是用于识别用于音译词语的候选同义词的示例过程500的流程图。为了方便,将参考执行过程500的系统描述示例过程500。总的来说,过程500直接学习用于目标语言的音译词语的拼写中的可能变体。由于音译同义词通常在发音上相似,因此在音译同义词之间的变化是特定于语言的。
系统产生目标语言的可能的音译同义词的训练组(步骤510)。系统使用训练组来训练概率模型以学习目标语言的音译同义词中的拼写变化的概率(步骤520)。系统将概率模型应用于目标语言的特定的音译词语以识别特定的音译词语的一个或多个候选同义词(步骤530)。系统能够使用候选同义词用于如上所述的查询扩展。
在本说明中描述的主题以及功能操作的实施例可以实现在数字电子电路中,或实现在计算机软件、固件、或硬件中,包括在本说明中公开的结构和他们的结构等价物,或者实现在他们中的一个或多个的组合中。本说明中描述的主题的实施例可以被实现为一个或多个计算机程序产品,即用于由数据处理装置执行的或控制数据处理装置的操作的编码在有形程序载体上的计算机程序指令的一个或多个模块。有形程序载体能够是传播的信号或者计算机可读介质。传播信号是人工生成的信号,例如,机器生成的电的、光学或电磁的信号,其被生成以编码用于传送到适当接收器装置的信息以供计算机执行。计算机可读介质可以是机器可读的存储装置、机器可读的存储基片、存储器设备、实现机器可读的传播信号的物质成分或他们中的一个或多个的组合。
术语“数据处理装置”涵盖用于处理数据的所有装置、设备以及机器,例如包括可编程处理器、计算机或多处理器或计算机。除硬件之外,所述装置可以包括创建用于正讨论的计算机程序的执行环境的代码,例如组成处理器固件、协议栈、数据库管理系统、操作系统或他们中的一个或多个的组合的代码。
计算机程序(也称作程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释语言,或者声明或过程性语言,以及它可以以任何形式部署,包括作为独立程序或模块、组件、子程序或适合在计算环境中使用的其它单元。计算机程序没有必要对应于文件系统中的文件。程序可以被存储在保持其它程序或数据的文件(例如,存储在标记语言文档中的一个或多个脚本)的一部分、专用于正被讨论的程序的单个文件或者多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。
在本说明中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过操作输入数据和生成输出来执行功能。过程和逻辑流还可以通过专用的逻辑电路执行,以及装置还可以被实现为专用的逻辑电路,专用的逻辑电路例如FPGA(场可编程门阵列)或ASIC(专用集成电路)。
适合于计算机程序的执行的处理器包括例如通用和专用的微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还包括用于存储数据的一个或多个海量储存设备,例如磁盘、磁光盘或光盘,或可操作地耦接到所述一个或多个海量储存设备以从其接收数据或者向其传输数据,或者其两者。然而,计算机不必具有这样的设备。此外,计算机能够被嵌入在另外的设备中,举几个例子,例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、带有说话语言输入的设备。智能电话是带有说话语言输入的设备的示例,其能够接受语音输入(例如,说话输入到设备上的麦克风中的用户查询)。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒体和存储设备,例如包括:半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或活动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用的逻辑电路补充,或并入专用的逻辑电路。
为了提供与用户的交互,本说明中描述的主题的实施例可以在具有以下的计算机上实现:用于向用户显示信息的显示设备,例如,CRT(阴极射线管)或LCD(液晶显示)监视器,和用户通过其可以提供输入给计算机的键盘和指示设备,例如,鼠标或轨迹球。也可以使用其他类型的设备提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈,例如视觉反馈、听觉反馈或触觉反馈;以及可以以任何形式,包括声学的、话语或触觉的输入,接收来自用户的输入。
本说明中描述的主题的实施例可以在包括例如数据服务器的后端组件、或包括例如应用服务器的中间件组件或包括例如具有图形用户界面或用户通过其可以与在本说明中描述的主题的实施方式交互的Web浏览器的客户端计算机的前端组件、或这样的后端、中间件、或前端组件中的一个或多个的组合的计算系统中实现。系统的组件可以通过任何形式或介质的数字数据通信互连,例如通信网络。通信网络的示例包括局域网(″LAN″)和广域网(″WAN″),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系依靠在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。
尽管本说明包括许多特定实施方式细节,但是这些细节不应该被看作是对任何发明或者所要求的范围的限定,而应该看作针对特定发明的特定实施例的特征的描述。在本说明中在分立实施例的上下文中描述的某些特征还可以在单独实施例的组合中实现。相反地,在单个实施例的上下文中描述的各种特征还可以分立地在多个实施例中实现或者在任何适当的子组合中实现。此外,虽然特征可能在上面被描述为在某些组合中起作用,甚至最初要求这样,但是在一些情况下来自所要求的组合的一个或多个特征可以从组合中删去,并且所要求的组合可以指向子组合或者子组合的变体。
同样地,虽然在附图中以特定的顺序描述了操作,但是不应该理解为这样的操作需要以所示的特定顺序被执行或者以连续的顺序被执行、或者全部图示的操作要被执行以实现所希望的结果。在某些环境中,多任务并且并行处理可以是有利的。此外,在如上所述实施例中的各种系统组件的分离不应该被理解为在全部实施例中都需要这样的分离,并且应当理解的是描述的程序组件和系统通常可以被集成到一起成为单个软件产品或封装为多个软件产品。
已经描述了本说明中描述的主题的特定的实施例。其它实施例在所附权利要求的范围内。例如,权利要求中记载的动作能够以不同的顺序来执行并且仍然实现所希望的结果。作为一个示例,在附图中描绘的过程不必需要所示出的特定顺序,或者连续的顺序以实现所希望的结果。在某些实现方式中,多任务并且并行处理可以是有利的。

Claims (20)

1.一种计算机实现的方法,包括:
使用一个或多个计算机识别目标语言的多个音译词语;
对于所述目标语言的所述多个音译词语中的每个音译词语,将所述音译词语映射到源语言的一个或多个词语;以及
对于所述目标语言的所述多个音译词语中的第一音译词语,识别所述目标语言的所述多个音译词语中的一个或多个第二音译词语作为所述第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的所述源语言的至少一个词语。
2.根据权利要求1所述的方法,其中识别所述目标语言的所述多个音译词语进一步包括:
从web资源识别包含仅仅所述目标语言的字符的词语。
3.根据权利要求2所述的方法,进一步包括:
计算用于包含仅仅所述目标语言的字符的每个识别的词语的统计量;
将用于每个识别的词语的所述统计量与指定的阈值进行比较;以及
如果用于特定的识别的词语的统计量超过所指定的阈值,则将所述特定的识别的词语包括在所述目标语言的所述多个音译词语中。
4.根据权利要求3所述的方法,其中用于每个识别的词语的所述统计量是与讲所述源语言的一个或多个地区相关联的顶级域的web资源中所述识别的词语的出现概率相对于与任何地区相关联的顶级域的web资源中所述识别的词语的出现概率的比率。
5.根据权利要求3所述的方法,其中用于每个识别的词语的所述统计量是与讲所述源语言的一个或多个地区相关联的web资源中所述识别的词语的出现概率相对于与任何地区相关联的web资源中所述识别的词语的出现概率的比率。
6.根据权利要求5所述的方法,其中web资源与讲所述源语言的地区的关联通过所述web资源的顶级域来确定。
7.根据权利要求1所述的方法,其中将所述音译词语映射到所述源语言的一个或多个词语进一步包括:
将所述目标语言的所述音译词语音译为所述源语言的所述一个或多个词语。
8.根据权利要求7所述的方法,其中被识别为所述第一音译词语的候选同义词的所述一个或多个第二音译词语中的每一个具有超过指定阈值的相对于所述第一音译词语的置信值。
9.根据权利要求8所述的方法,其中第二音译词语的所述置信值是从所述第一音译词语和所述第二音译词语两者映射的所述源语言的词语的数目的函数。
10.根据权利要求8所述的方法,其中将所述目标语言的所述音译词语音译为所述源语言的词语进一步包括:
产生用于所述目标语言的所述音译词语到所述源语言的所述词语的所述音译的音译分值。
11.根据权利要求10所述的方法,其中第二音译词语的所述置信值是web资源中所述第二音译词语的出现概率、用于所述第二音译词语到也从所述第一音译词语映射的所述源语言的词语的所述音译的音译分值、以及用于所述第一音译词语到所述源语言的所述词语的所述音译的音译分值中的一个或多个的函数。
12.根据权利要求1所述的方法,进一步包括:
对于所述目标语言的所述多个音译词语中的所述第一音译词语,识别从所述第一音译词语映射的和从所述一个或多个第二音译词语中的至少一个映射的所述源语言的一个或多个词语作为所述第一音译词语的候选同义词。
13.根据权利要求1所述的方法,进一步包括:
接收包括所述第一音译词语的查询;
利用所述第一音译词语的所述候选同义词中的一个或多个扩展所述查询;
将所述扩展的查询提供到搜索引擎;以及
接收用于所述扩展的查询的搜索结果。
14.根据权利要求1所述的方法,进一步包括:
接收包括所述第一音译词语的查询;以及
提供一个或多个扩展的查询供用户选择,每个扩展的查询包括所述查询以及所述第一音译词语的所述候选同义词中的一个或多个。
15.根据权利要求1所述的方法,进一步包括:
接收包括所述第一音译词语的查询;
将所述查询提供到搜索引擎,其中所述搜索引擎识别以下的web资源作为用于所述查询的可能的搜索结果,所述web资源包括所述第一音译词语的所述候选同义词中的至少一个但是不包括所述查询中的任何词语;以及
修改与所述web资源相关联的分值,所述分值用于在对用于所述查询的可能的搜索结果进行排名中使用。
16.根据权利要求1所述的方法,进一步包括:
接收包括所述第一音译词语的查询;
将所述查询提供到搜索引擎,其中所述搜索引擎识别以下的web资源作为用于所述查询的可能的搜索结果,所述web资源包括从所述第一音译词语映射的和从所述一个或多个第二音译词语中的至少一个映射的所述源语言的所述词语中的至少一个但是不包括所述查询中的任何词语;以及
修改与所述web资源相关联的信息检索分值,所述信息检索分值用于在对用于所述查询的可能的搜索结果进行排名中使用。
17.一种计算机实现的方法,包括:
使用一个或多个计算机产生目标语言的可能的音译同义词的训练组;
使用所述训练组训练概率模型以学习所述目标语言的音译同义词中的拼写变化的概率;以及
将所述概率模型应用于所述目标语言的特定的音译词语以识别所述特定的音译词语的一个或多个候选同义词。
18.一种系统,包括:
一个或多个计算机,被配置为执行包括下述的操作:
识别目标语言的多个音译词语;
对于所述目标语言的所述多个音译词语中的每一个音译词语,将所述音译词语映射到源语言的一个或多个词语;以及
对于所述目标语言的所述多个音译词语中的第一音译词语,识别所述目标语言的所述多个音译词语中的一个或多个第二音译词语作为所述第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的所述源语言的至少一个词语。
19.一种系统,包括:
一个或多个计算机,被配置为执行包括下述的操作:
产生目标语言的可能的音译同义词的训练组;
使用所述训练组训练概率模型以学习所述目标语言的音译同义词中的拼写变化的概率;以及
将所述概率模型应用到所述目标语言的特定的音译词语以识别所述特定的音译词语的一个或多个候选同义词。
20.一种计算机实现的方法,包括:
使用一个或多个计算机识别目标语言的多个音译词语;
对于所述目标语言的所述多个音译词语中的第一音译词语,识别所述目标语言的所述多个音译词语中的一个或多个第二音译词语作为所述第一音译词语的候选同义词;以及
使用所述第一音译词语的所述候选同义词来扩展包括所述第一音译词语的查询。
CN200910164542.1A 2008-07-18 2009-07-20 用于查询扩展的音译 Active CN101630333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410266074.XA CN104111972B (zh) 2008-07-18 2009-07-20 用于查询扩展的音译

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US8216508P 2008-07-18 2008-07-18
US61/082,165 2008-07-18
US12/503,806 US8521761B2 (en) 2008-07-18 2009-07-15 Transliteration for query expansion
US12/503,806 2009-07-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201410266074.XA Division CN104111972B (zh) 2008-07-18 2009-07-20 用于查询扩展的音译

Publications (2)

Publication Number Publication Date
CN101630333A true CN101630333A (zh) 2010-01-20
CN101630333B CN101630333B (zh) 2014-07-16

Family

ID=41531175

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201410266074.XA Active CN104111972B (zh) 2008-07-18 2009-07-20 用于查询扩展的音译
CN200910164542.1A Active CN101630333B (zh) 2008-07-18 2009-07-20 用于查询扩展的音译

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201410266074.XA Active CN104111972B (zh) 2008-07-18 2009-07-20 用于查询扩展的音译

Country Status (3)

Country Link
US (2) US8521761B2 (zh)
KR (1) KR20100009520A (zh)
CN (2) CN104111972B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103140849A (zh) * 2011-03-04 2013-06-05 乐天株式会社 音译处理装置、程序、记录媒体及方法
CN103810993A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种文本注音方法及装置
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
CN110797027A (zh) * 2013-05-13 2020-02-14 谷歌有限责任公司 多识别器语音识别

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5558772B2 (ja) * 2009-10-08 2014-07-23 東レエンジニアリング株式会社 マイクロニードルシートのスタンパー及びその製造方法とそれを用いたマイクロニードルの製造方法
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CA2830338C (en) 2011-04-01 2016-11-15 Wyeth Llc Antibody-drug conjugates
US20120278302A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Multilingual search for transliterated content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
CN104272223B (zh) * 2012-02-28 2018-05-04 谷歌有限责任公司 用于将输入文本从第一字符集音译到第二字符集的技术
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8918308B2 (en) 2012-07-06 2014-12-23 International Business Machines Corporation Providing multi-lingual searching of mono-lingual content
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9411803B2 (en) * 2012-09-28 2016-08-09 Hewlett Packard Enterprise Development Lp Responding to natural language queries
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10186282B2 (en) * 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105786802B (zh) * 2014-12-26 2019-04-12 广州爱九游信息技术有限公司 一种外语的音译方法及装置
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10235432B1 (en) * 2016-07-07 2019-03-19 Google Llc Document retrieval using multiple sort orders
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11550751B2 (en) * 2016-11-18 2023-01-10 Microsoft Technology Licensing, Llc Sequence expander for data entry/information retrieval
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US11120344B2 (en) 2017-07-29 2021-09-14 Splunk Inc. Suggesting follow-up queries based on a follow-up recommendation machine learning model
US10565196B2 (en) 2017-07-29 2020-02-18 Splunk Inc. Determining a user-specific approach for disambiguation based on an interaction recommendation machine learning model
US10885026B2 (en) 2017-07-29 2021-01-05 Splunk Inc. Translating a natural language request to a domain-specific language request using templates
US11170016B2 (en) * 2017-07-29 2021-11-09 Splunk Inc. Navigating hierarchical components based on an expansion recommendation machine learning model
US10713269B2 (en) 2017-07-29 2020-07-14 Splunk Inc. Determining a presentation format for search results based on a presentation recommendation machine learning model
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11036938B2 (en) * 2017-10-20 2021-06-15 ConceptDrop Inc. Machine learning system for optimizing projects
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102192376B1 (ko) * 2019-02-18 2020-12-17 네이버 주식회사 음역 모델을 이용하여 외래 동의어를 자동 추출하는 방법 및 시스템
US11263208B2 (en) 2019-03-05 2022-03-01 International Business Machines Corporation Context-sensitive cross-lingual searches
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11443122B2 (en) * 2020-03-03 2022-09-13 Dell Products L.P. Image analysis-based adaptation techniques for localization of content presentation
US11455456B2 (en) 2020-03-03 2022-09-27 Dell Products L.P. Content design structure adaptation techniques for localization of content presentation
US11494567B2 (en) * 2020-03-03 2022-11-08 Dell Products L.P. Content adaptation techniques for localization of content presentation
CN117672190A (zh) * 2022-09-07 2024-03-08 华为技术有限公司 一种音译方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
US20070011154A1 (en) * 2005-04-11 2007-01-11 Textdigger, Inc. System and method for searching for a query
US20070288448A1 (en) * 2006-04-19 2007-12-13 Datta Ruchira S Augmenting queries with synonyms from synonyms map

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877173A (ja) 1994-09-01 1996-03-22 Fujitsu Ltd 文字列修正システムとその方法
US5787452A (en) 1996-05-21 1998-07-28 Sybase, Inc. Client/server database system with methods for multi-threaded data processing in a heterogeneous language environment
US7610189B2 (en) 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7031911B2 (en) 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
EP1692626A4 (en) * 2003-09-17 2008-11-19 Ibm IDENTIFICATION OF RELATED NAMES
US20050216253A1 (en) 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
US20070011154A1 (en) * 2005-04-11 2007-01-11 Textdigger, Inc. System and method for searching for a query
US20070288448A1 (en) * 2006-04-19 2007-12-13 Datta Ruchira S Augmenting queries with synonyms from synonyms map

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103140849A (zh) * 2011-03-04 2013-06-05 乐天株式会社 音译处理装置、程序、记录媒体及方法
CN103140849B (zh) * 2011-03-04 2015-01-14 乐天株式会社 音译处理装置及方法
CN103810993A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种文本注音方法及装置
CN103810993B (zh) * 2012-11-14 2020-07-10 北京百度网讯科技有限公司 一种文本注音方法及装置
CN110797027A (zh) * 2013-05-13 2020-02-14 谷歌有限责任公司 多识别器语音识别
CN110797027B (zh) * 2013-05-13 2023-11-21 谷歌有限责任公司 多识别器语音识别
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统

Also Published As

Publication number Publication date
US20100017382A1 (en) 2010-01-21
KR20100009520A (ko) 2010-01-27
CN104111972A (zh) 2014-10-22
US20130338996A1 (en) 2013-12-19
CN104111972B (zh) 2018-01-09
CN101630333B (zh) 2014-07-16
US8521761B2 (en) 2013-08-27

Similar Documents

Publication Publication Date Title
CN101630333B (zh) 用于查询扩展的音译
US8688698B1 (en) Automatic text suggestion
Bhat et al. Iiit-h system submission for fire2014 shared task on transliterated search
TWI454943B (zh) 一電腦實施方法及一用於自動搜尋條件校正之系統
TWI512502B (zh) 用於產生習慣語言模式之方法及系統及相關之電腦程式產品
CN107092615B (zh) 来自文档的查询建议
CN101868797B (zh) 跨语言搜索
US8745051B2 (en) Resource locator suggestions from input character sequence
CN101878476B (zh) 用于查询扩展的机器翻译
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US8392443B1 (en) Refining search queries
US8825571B1 (en) Multiple correlation measures for measuring query similarity
CN101842787A (zh) 在查询结果中建议替选查询
US20130177893A1 (en) Method and Apparatus for Responding to an Inquiry
CN105247516A (zh) 基于搜索数据的查询建议
JP5379138B2 (ja) 領域辞書の作成
WO2009000103A1 (en) Word probability determination
US20120330989A1 (en) Detecting source languages of search queries
CN101816000A (zh) 用于部分输入的搜索查询的自动完成和自动输入法校正
US11086866B2 (en) Method and system for rewriting a query
CN102124459A (zh) 词典词和短语确定
CN101743544A (zh) 跨语言信息检索
CN106095766A (zh) 使用选择性重新讲话来校正话音识别
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
WO2009152469A1 (en) Systems and methods for classifying search queries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder