CN104011712B - 对跨语言查询建议的查询翻译进行评价 - Google Patents
对跨语言查询建议的查询翻译进行评价 Download PDFInfo
- Publication number
- CN104011712B CN104011712B CN201180072566.XA CN201180072566A CN104011712B CN 104011712 B CN104011712 B CN 104011712B CN 201180072566 A CN201180072566 A CN 201180072566A CN 104011712 B CN104011712 B CN 104011712B
- Authority
- CN
- China
- Prior art keywords
- candidate
- language
- inquiry
- segmentation
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/134—Distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24535—Query rewriting; Transformation of sub-queries or views
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
描述了用于生成跨语言查询建议的用计算机实现的方法、系统、计算机程序产品。对于以第一自然语言书写的每个查询建议,根据查询建议生成候选分段,并且根据每个候选分段生成候选翻译。基于与得到每个候选翻译的各自的候选分段相关联的分段质量的度量,以及候选翻译在目标语言查询日志中出现的频率,对候选翻译进行评价。与每个候选分段相关联的分段质量的度量进一步基于候选分段在源语言查询日志中出现的频率。基于评价的结果,提供候选翻译,作为主要语言查询建议的跨语言查询建议。
Description
技术领域
本说明书涉及用计算机实现的查询建议服务,尤其涉及提供跨语言查询建议。
背景技术
搜索引擎可以提供与用户的查询输入相对应的输入建议(例如查询建议)。输入建议包括对用户提交的搜索查询的查询替选项和/或与用户输进的部分查询输入匹配的建议(例如自动完成)。为了提供可能与用户的兴趣和当前信息需要相关的输入建议,搜索引擎在选择特定输入建议候选对象以向用户呈现之前,基于各种标准对输入建议候选对象进行评价。
有关同一主题或信息的因特网内容在万维网上经常以不同的自然语言和/或书写系统而存在。多语言用户可以尝试以不同的语言和/或书写系统拟定相应的查询,并且向搜索引擎提供查询以定位不同语言和/或书写系统的相关内容。然而,即使有多语言字典的帮助,使用非母语语言或书写系统拟定有效搜索查询,对于许多多语言用户来说也可能是挑战。能够提供跨语言输入建议(例如跨语言查询建议)的搜索引擎可以帮助减轻这种困难。需要提高机器生成的跨语言查询建议的质量和有效性的技术。
发明内容
本说明书描述与跨语言查询建议的生成有关的技术。
通常,在本说明书中描述的主题的一个方面可以通过包括如下动作的方法来实施:接收以第一语言书写的查询,所述查询是基于向搜索引擎提交的用户输入生成的主要语言查询建议;获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;对于所述一个或更多个唯一候选分段中的每一个,通过翻译所述候选分段的片段的各自的序列,确定第二语言的一个或更多个候选翻译的各自的集合;对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:(1)至少部分基于从所述唯一候选分段的片段的各自的序列中去除了多少个停止词,以及所述唯一候选分段在第一查询日志中作为以所述第一语言书写的完整查询出现的各自的第一频率,确定所述唯一候选分段的各自的分段质量;以及(2)至少基于针对所述唯一候选分段确定的所述各自的分段质量,以及所述候选翻译在第二查询日志中作为以所述第二语言书写的完整查询出现的各自的第二频率,确定所述候选翻译的各自的评分;以及基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个,作为所述查询的跨语言查询建议。
通常,在本说明书中描述的主题的一个方面可以通过包括如下动作的方法来实施:接收以第一语言书写的查询;获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;对于所述一个或更多个唯一候选分段中的每一个:(1)确定所述唯一候选分段的分段质量的各自的度量;以及(2)通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合;对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:(1)确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;以及(2)至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率,以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个,作为所述查询的跨语言查询建议。
这些方面的其它实施例包括各自被配置为执行这些方法的动作的相应的计算机系统、装置和记录在一个或更多个计算机存储设备上的计算机程序。可以如此构成一个或更多个计算机的系统,通过将软件、固件、硬件或它们的组合安装在该系统上,在操作中使系统执行这些动作。可以如此构成一个或更多个计算机程序,通过具有指令,当由数据处理装置执行这些指令时,指令使装置执行这些动作。
这些和其它实施例可以任选地包括以下特征中的一个或更多个。
在一些实施方式中,获得所述第一语言的所述查询的一个或更多个唯一候选分段的动作还包括:获得作为所述第一语言的所述查询的分区的至少一个候选分段。在一些实施方式中,获得所述第一语言的所述查询的一个或更多个唯一候选分段的动作还包括:获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。
在一些实施方式中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量的动作还包括:至少部分基于从所述候选分段的片段的各自的序列中去除了多少个停止词,确定所述分段质量的各自的度量。
在一些实施方式中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量的动作还包括:确定所述候选分段在第二查询日志中作为以所述第一语言书写的完整查询出现的各自的第二频率;以及至少部分基于所述候选分段在所述第二查询日志中作为以所述第一语言书写的完整查询出现的所述各自的第二频率,确定所述分段质量的各自的度量。
可以实施在本说明书中描述的主题的特定实施例,以实现以下优点中的一个或更多个。
使用在本说明书中描述的技术的特定实施例,可以自动向以第一语言(例如用户的母语)输进查询输入的用户提供跨语言查询建议(即第二语言的查询建议)。可以与基于用户的初始查询输入提供的第一语言的相应查询建议一起,提供跨语言查询建议。每个跨语言查询建议已经由搜索引擎进行了评价,并且确定不仅是适当或准确的对第一语言的相应查询建议(例如主要语言查询建议)的翻译,还是用于检索与主要语言查询建议所针对的主题或信息相同的主题或信息有关的跨语言内容的有效搜索查询。通过选择跨语言查询建议,用户可以检索到可能比以第一语言可获得的内容更相关或全面的第二语言的内容。另外,可以以高效的方式实施搜索任务,并且搜索任务可以提供良好的用户体验。不仅可以避免人工翻译主要语言查询建议的需要,同样可以提高基于机器翻译生成的跨语言查询建议的有效性。
在附图和下面的描述中叙述在本说明书中描述的主题的一个或更多个实施例的细节。从文字描述、附图和权利要求,本主题的其它特征、方面和优点将变得明显。
附图说明
图1是示出生成不同自然语言的查询建议的示例系统中的数据流的示例的框图。
图2是示出呈现第一语言的第一查询建议组和不同的第二语言的第二查询建议组的示例网页的屏幕截图。
图3是示出基于由翻译子系统的细化模块进行的查询翻译评价,提供作为跨语言查询建议的查询(例如主要语言查询建议)的翻译的翻译子系统的示例的框图。
图4是示出如图3所示的翻译子系统中的细化模块的示例的框图。
图5是示出对作为潜在跨语言查询建议的查询翻译进行评价,并且基于评价提供作为跨语言查询建议的查询翻译的示例处理的流程图。
各个图中相同的附图标记和指定指示相同的元素。
具体实施方式
搜索引擎可以响应于用户输进的查询输入,提供主要语言查询建议。主要语言查询建议是使用用户的原始查询输入的语言或书写系统书写的查询建议。搜索引擎还可以针对每个主要语言查询建议提供跨语言查询建议,其中,跨语言查询建议是使用与主要语言查询建议的语言或书写系统不同的第二语言或书写系统书写的查询。当提供跨语言查询建议时,搜索引擎对主要语言查询建议的多个候选翻译进行评价,并且选择不仅是主要语言查询建议的准确翻译、而且还可能是用于检索跨语言内容的有效搜索查询的候选翻译,跨语言内容是关于与主要语言搜索查询所针对的主要语言内容相同的主题。
如在本说明书中所描述的,搜索引擎可以依靠包括根据主要语言查询建议生成的每个候选分段的分段质量以及根据每个候选分段生成的每个候选翻译的翻译质量的多个因素,来对作为主要语言查询建议的潜在跨语言查询建议的候选翻译进行评价。在其它因素中,候选分段的分段质量可以基于在主要语言查询日志(也称为“源语言查询日志”)中找到的并且与候选分段匹配(例如与候选分段一致,或者除了一个或更多个停止词之外与候选分段一致)的用户提交的搜索查询的查询频率(或查询计数)。类似地,候选分段的候选翻译的翻译质量可以基于在跨语言查询日志(也称为“目标语言查询日志”)中找到的并且与候选翻译匹配的用户提交的搜索查询的查询频率(或查询计数)。
查询频率不仅可以帮助搜索引擎评估特定翻译是否符合目标语言中的习惯语言使用,而且还可以帮助搜索引擎评估特定翻译是否符合以目标语言为母语的人拟定搜索查询的方式。
图1是示出以不同形式的自然语言表示生成输入建议(例如查询建议)的示例系统中的数据流的示例的框图。在客户设备115上运行的模块110、(例如JavaScript脚本)监视来自用户122的在搜索引擎查询输入栏中接收到的输入120。输入120以第一形式的自然语言表示,例如作为以英语单词、以中文字符、以拼音、以平假名或者以片假名书写的术语或短语书写。
更通常地,第一形式是第一自然语言使用的第一书写系统。作为示例,第一书写系统可以是汉字(使用汉字字符表示),并且用于第一自然语言中文。可选地,第一书写系统可以是音标拼写系统(例如使用英语字母表的字母表示),并且用于第一自然语言英语。一些书写系统可以用来表示多个自然语言。该书写系统可以与不同的声音系统(例如音素的系统)一起使用以对多种自然语言的含义进行编码。作为示例,第一书写系统可以是音标拼写系统(例如使用标准或扩展拉丁字母表的字符表示),并且用于自然语言英语、自然语言德语或者自然语言中文(例如如在中文罗马拼音或者拼音中使用)。
在一些实施方式中,模块110是在客户设备115上运行的web浏览器中安装的插件软件。在一些可选实施方式中,将模块110安装在例如从客户设备115接收输入120的中间服务器上。模块110接收输入120,并且在接收到输入120时自动将输入120发送到建议服务模块125。在一些实施方式中,建议服务模块125是在接收文本输入(例如用户提交的搜索查询)并且返回文本输入的替选项(例如查询建议)的服务器(例如与中间服务器不同的服务器)上运行的软件。
建议服务模块125确定第一形式的第一输入建议(例如主要语言查询建议)的集合,并且向翻译服务模块130发送第一输入建议中的一个或更多个。第一输入建议是输入120的替选项、例如扩展和完成。例如,如果输入120包括以英语书写的字母或单词,则第一输入建议可以包括作为与输入120匹配的相关可选查询或者自动完成的查询的、以英语书写的查询建议。
在一些实施方式中,翻译服务模块130是在接收文本输入(例如第一形式的查询建议)并且返回使用不同的书写系统或自然语言表示的文本输入的替选项(例如翻译和音译)的服务器上运行的软件。可以使用翻译服务130识别不同的第二形式的第一输入建议的表示。
不同的第二形式可以是与第一形式不同的书写系统,而用于与第一形式相同的自然语言。换句话说,不同的第二形式的第一输入建议的表示可以是音译。作为示例,第一输入建议可以是汉字字符“车”(例如英语中的“car”),并且相关联的第二输入建议可以是“chē”(例如“车”的中文罗马拼音表示)。
不同的第二形式也可以是与第一形式不同的书写系统,和/或用于与第一形式不同的自然语言。换句话说,不同的第二形式的第一输入建议的表示可以是使用不同的书写系统的翻译。作为示例,第一输入建议可以是英语单词“car”,并且相关联的第二输入建议可以是“车”(例如意为“car”的汉字字符)。
此外,不同的第二形式可以是与第一形式相同的书写系统,而用于与第一形式不同的自然语言。换句话说,不同的第二形式的第一输入建议的表示是使用同一书写系统的翻译。作为示例,第一输入建议可以是英语单词“car”,并且相关联的第二输入建议可以是“chē”(例如可以意为“car”的汉字字符“车”的中文罗马拼音表示)。
在一些实施方式中,用户122通过用户喜好的设置来指定不同的第二形式。在一些实施方式中,模块110从包括第一形式的频繁使用的语言对中,自动选择不同的第二形式。
识别不同的第二形式的第一输入建议的表示,作为第二输入建议(例如跨语言查询建议)。翻译服务模块130向建议服务模块125返回第二输入建议。翻译服务模块130还返回识别第一输入建议和第二输入建议之间的关联的数据。关联指示特定第二输入建议是第一形式的特定第一输入建议的第二形式的表示。
模块110接收来自建议服务125的第一输入建议、第二输入建议以及关联。第一输入建议和第二输入建议都与输入120不同。
模块110可以实时,即在用户122正在搜索引擎查询输入栏中键入字符时,向用户122呈现第一输入建议(例如主要语言查询建议)和第二输入建议(例如跨语言查询建议)。例如,模块110可以呈现与用户122键入的第一字符相关联的、第一组的第一输入建议和第二输入建议,并且响应于用户122键入第一字符和第二字符的序列中的第二字符,呈现与该序列相关联的、第二组的第一输入建议和第二输入建议等。
图1表示提供主要语言查询建议和跨语言查询建议两者的系统中的总体示例数据流。可以针对每个第一形式的查询建议(例如每个主要语言查询建议)生成多个候选翻译(例如使用机器翻译子系统),并且不是所有候选翻译都是针对关于与第一形式的查询建议相同的主题的内容的有效查询。如在本说明书中所描述的,翻译服务模块130对作为潜在跨语言查询建议的多个候选翻译进行评价,并且基于评价,识别既是对第一形式的查询建议的准确翻译、也是用于检索关于与第一形式的查询建议所针对的主题相同的主题的跨语言内容的有效查询的候选翻译。然后,通过建议服务模块125向用户提供识别的候选翻译。
图2是示出呈现第一形式的第一输入建议(例如主要语言查询建议)组和不同的第二形式的第二输入建议(例如跨语言查询建议)组的网页200的示例的屏幕截图。该网页包括搜索查询输入栏220。搜索查询输入栏220包括用户提交的查询输入“长”,例如在英语中意为“long”的中文罗马拼音“cháng”,或者在英语中意为“elder”的中文罗马拼音“zhǎng”。
响应于查询输入的输进,用户的设备(例如通过图1中的模块110)从建议服务模块(例如图1中的建议服务模块125)请求输入建议。在客户设备接收到第一输入建议之后,客户设备提供第一输入建议以在示出网页200的web浏览器的界面元素中进行显示。在图2的示例中,界面元素是示出作为汉字字符“长”的扩展(例如在英语中意为“ivy”的“长春藤”以及在英语中意为航空公司“Evergreen”的“长荣”等)的第一输入建议的下拉菜单。
在图2的示例中,客户设备还被配置为从建议服务模块请求与第一输入建议相对应的第二输入建议。在接收到第二输入建议之后,客户设备提供第一输入建议和第二输入建议以在网页200的不同部分并行地进行显示。例如,在同一界面元素(例如下拉菜单)的第一部分240中提供第一输入建议,并且在第二部分250中提供第二输入建议。
在图2的示例中,还通过第一输入建议和相应的第二输入建议的水平对齐,可视地表示每个第一输入建议和相应的第二输入建议之间的关联。例如,第一输入建议“长春藤”与作为“长春藤”的翻译的第二输入建议“ivy”水平地对齐。第一输入建议“长荣”与作为“长荣”的翻译的第二输入建议“Evergreen”水平地对齐。第一输入建议“长春藤大学”与作为“长春藤大学”的翻译的第二输入建议“ivy league”水平地对齐。
一个或更多个第一输入建议可能不与任何合适的第二输入建议相关联。在图2的示例中,不与任何第二输入建议相关联的第一输入建议不与任何第二输入建议对齐。作为示例,第一输入建议“长安汽车”不与第二输入建议对齐。汉字字符“长安汽车”的整个序列在英语中没有有意义的表示。然而,注意,分开来说,“长安”在英语中可以意为“Chang’an”(唐朝时期中国的首都),并且“汽车”可以在英语中意为“car”。
当用户从用户界面元素中选择了输入建议中的一个时,模块110在搜索请求中发送该选择,并且web浏览器实例重新指向显示搜索引擎针对所选择的输入建议所生成的搜索结果的网页。
如图2的示例所示,一些第一输入建议具有在第二形式中非常明确的翻译。例如,“长春藤”在英语中的字面翻译是“ivy”。当使用“长春藤”和“ivy”二者作为搜索查询时,“长春藤”和“ivy”两者分别在搜索中文和英语的与同一类型的常青植物相关的内容时同样有效。相反,“长春藤大学”可以翻译成“ivy university”、“ivy college”、“ivy league”、“ivy schools”。即使“ivy university”、“ivy college”和“ivy schools”是中文词语“长春藤”和“大学”更字面的翻译,但是“ivy league”是作为第二输入建议的更好的选择。原因是母语为英语的用户使用英语作为搜索查询更频繁地输进“ivyleague”,并且“ivyleague”在检索关于与中文查询“长春藤大学”所针对的主题相同的主题的英语内容时,比“ivy university”、“ivy college”和“ivy schools”更有效。
图3示出了基于对查询310的多个候选查询翻译的评价,提供作为跨语言查询建议的查询310的翻译380的子系统300的示例。查询310可以是图1中的建议服务模块125向翻译服务模块130提供的第一输入建议中的一个。子系统300可以用作图1中的翻译服务模块130。
如图3所示,示例子系统300包括分段模块320、翻译模块330、跨语言建议(下文中称为“CLS”)字典340、细化模块350、目标语言查询日志360和源语言查询日志370。
在包含在子系统300中的模块和元素中,分段模块320用于根据以第一形式(例如第一自然语言和相关联的书写系统)书写的查询310生成一个或更多个唯一候选分段。查询310的每个候选分段由通过在去除或者不去除停止词的情况下,以特定方式分割或划分输入的查询310而获得的片段的唯一序列构成。每个片段包括输入的查询310的一个或更多个构成n-gram(n元组)(例如英语或德语查询中的单词或者中文或韩文查询中的字符)。如果从分割或划分查询310的特定方式获得的片段包括一个或更多个停止词,则可以去除停止词,从而在获得的分段中仅保留不是停止词的片段。如果不从分段中去除停止词,则分段也是查询310的所谓的“分区”。查询310的分区包括从分割或划分输入的查询310的特定方式获得的所有片段。对于每个输入的查询,分段模块320可以生成一个或更多个候选分段。依据分段模块320使用的算法,一些候选分段具有比其它候选分段好的质量。分段的质量越高,使得在翻译模块330翻译分段的片段时,有越好的机会生成输入的查询310的正确翻译。
翻译模块330用于将一个或更多个唯一候选分段中的每一个候选分段的各个片段序列,翻译成第二形式(例如第二自然语言和相关联的书写系统)的一个或更多个候选翻译的各个集合。由于候选分段的一个或更多个片段可以具有多于一个的第二形式的翻译,因此每一个候选分段也可以具有多于一个的第二形式的翻译。
翻译模块330可以使用各种机器翻译技术,来基于输入的查询310的每个候选分段,生成输入的查询310的候选翻译。例如,翻译模块可以使用在线机器翻译服务或者多语言字典。在一些实施方式中,翻译模块320可以使用用于基于输入的查询310的候选分段翻译输入的查询310的专用字典(例如CLS字典340)。CLS字典340包括基于另一字典(例如在线字典)、在线发布信息和提供由第一语言的单词或短语和其相应的第二语言的翻译构成的翻译对的半结构化网页中的至少一个而创建的大量条目。
在翻译模块330基于候选分段中的每一个而生成输入的查询310的候选翻译之后,翻译模块330可以将候选翻译提供给细化模块350。细化模块350用于对作为潜在第二输入建议(例如跨语言查询建议)的候选翻译进行评价。细化模块350可以基于评价的结果,来识别既是输入的查询310的准确翻译而且还是用于搜索关于与输入的查询310相同的主题的跨语言内容的有效搜索查询的一个或更多个(例如一个)候选翻译。
当对由翻译模块320生成的候选翻译进行评价时,细化模块350可以依靠存储在一个或更多个查询日志中的信息。查询日志存储用户先前向搜索引擎提交的查询。在一些实施方式中,搜索引擎可以使用不同的域名,对不同的局部或者地理区域提供搜索界面(例如对英国提供www.search.com.uk;对香港提供www.search.com.hk;对法国提供www.search.com.fr等)。因此,可以按照地理区域或国家和/或与不同的地理区域或国家共同相关联的语言来划分查询日志。
如图3所示,源语言查询日志370存储以第一形式(例如第一语言和相关联的书写系统)书写的用户查询,并且目标语言查询日志360存储以第二形式(例如第二语言和相关联的书写系统)书写的用户查询。在一些实施方式中,每个查询日志还包括表示查询日志中的每个用户提交的搜索查询的各个查询频率的数据。用户提交的搜索查询的查询频率可以是在给定时间段内提交的搜索查询的查询计数,或者在查询日志中累积的搜索查询的总查询计数。在一些实施方式中,可以用新鲜度因子对查询频率进行调整,可以对近来在查询日志中中计数平平、但是在短时间段内查询计数显著上升的搜索查询的查询频率给予提升(例如大于1的乘数)。
如在下面的示例中更详细地描述的,分段模块320可以访问存储在查询日志中的信息以生成查询310的分段。细化模块350可以访问存储在查询日志中的信息,以对分段质量、翻译质量以及输入的查询310的作为跨语言查询建议的候选翻译的有效性进行评价。
在细化模块350结束对输入的查询310的不同候选翻译的评价之后,细化模块350可以识别候选查询翻译(例如翻译380)之一,作为输入的查询310的最合适的查询翻译,并且通过建议服务模块(例如图1中的建议服务模块125)返回向用户提供识别的候选查询翻译380作为跨语言查询建议。然后,可以将跨语言查询建议和输入的查询310一起进行呈现,作为第一查询建议和第二查询建议的列表中的查询建议对。
在一些实施方式中,可以将识别的查询建议对存储在索引中,其中,索引中的每个条目包括作为彼此的翻译、并且作为在检索关于同一主题的它们各自的语言的内容时有效的、用户提交的母语查询的查询建议对。在展开这种索引之后,可以在索引中查找,而不是急匆匆地得出第一语言输入建议的跨语言查询建议。
为了进行说明,下面,在第一语言是中文,第二语言是英语,并且输入的查询310是在英语中意为“travel destination”的中文字符序列“旅游目的地”的示例性场景下,详细讨论子系统300的操作。
在接收到输入的查询310“旅游目的地”(例如,其中,“旅游目的地”是响应于用户通过搜索引擎网页输进的查询输入“旅”而生成的主要语言查询建议)时,分段模块320通过将输入的查询310“旅游目的地”划分为片段的序列,来生成一个或更多个唯一候选分段。依据输入的查询“旅游目的地”的划分点的位置,可以获得不同的候选分段。
在一些实施方式中,可以通过列举输入的查询310的连续字符的所有可能组合,来获得候选分段。例如,可以将“旅游目的地”分割为以下片段的唯一序列:(1)“旅,游,目,的,地”;(2)“旅游,目,的,地”;(3)“旅游目,的,地”;(4)“旅游目的,地”;(5)“旅游目的地”;(6)“旅,游目,的,地”;(7)“旅,游目的,地”;(8)“旅,游目的地”;(9)“旅,游,目的,地”;(10)“旅,游,目的地”;(11)“旅游;目的地”;(12)“旅游,目,的地”;(13)“旅游,目的,地”等。
在一些实施方式中,分段模块320还可以查找CLS字典340,以判断特定分段是否将生成在CLS字典340中无法找到的片段。如果对输入的查询310的进行分割的特定方式将生成在CLS字典340中无法找到的(作为停止词的片段之外的)片段,则分段模块320可以判断为对输入的查询310的这种方式的分割将获得不正确的分段,并且避免基于这种方式的对输入的查询310的分割生成候选分段。例如,如果在CLS字典340中无法找到片段“游目的”,则分段模块320可以排除分段“旅,游目的,地”,作为输入的查询“旅游目的地”的候选分段。
在一些实施方式中,分段模块320还查找与中文语言相关联的查询日志(例如源语言查询日志370)。如果特定方式的对输入的查询的分割将生成在与中文语言相关联的查询日志中找不到的片段,则分段模块320可以判断为这种方式的对输入的查询310的分割将获得不正确的分段,并且避免基于这种方式的对输入的查询的分割生成候选分段。例如,如果在源语言查询日志370中无法找到片段“游目的”,则分段模块320可以排除分段“旅,游目的,地”,作为输入的查询“旅游目的地”的候选分段。
在一些实施方式中,分段模块320还可以查找与中文语言相关联的查询日志(例如源语言查询日志370),来查看特定分段是否在查询日志中存在。如果在中文语言的查询日志中特定分段存在,则很可能该特定分段是中文中的输入的查询310的正确分段。例如,如果许多用户作为搜索查询输进并且在源语言查询日志370中登记了“旅游目的地”,则分段模块320可以确定“旅游,目的地”是输入的查询“旅游目的地”的高质量的候选分段。
在一些实施方式中,如果在作为用户提交的搜索查询的第一语言的查询日志中找到了特定分段,则分段模块320可以将用户提交的搜索查询的查询频率和与该特定候选分段相关联地进行记录,从而细化模块350可以使用查询频率来评估该特定分段的分段质量。查询频率或查询计数越高,指示分段质量越高。在一些实施方式中,查询频率可以是基于用户提交的搜索查询的新鲜度调整后的查询频率。
假设在排除包括在CLS字典340中找不到的(作为停止词的片段之外的)片段的分段之后,分段模块340生成以下唯一候选分段:(1)“旅游,目,的,地”;(2)“旅游,目的,地”;和(3)“旅游,目的地”。
对于这些候选分段中的每一个,分段模块320判断候选分段是否包括任何停止词。在一些实施方式中,可以参阅预定停止词列表来判断候选分段是否包括作为停止词的任何片段。英语中的停止词的示例包括:“the”、“a”、“to”、“of”等。中文中的停止词的示例包括:“的”、“了”、“吗”等。在一些实施方式中,分段模块320可以从每个候选分段中去除识别为停止词的片段,以使得候选分段仅包括作为在CLS字典中找到的词语的片段。
例如,在分段(1)中,在去除停止词“的”之后,候选片段(1)变为“旅游,目,地”。CLS字典340包含例如“旅游:travel”、“旅游:trip”、“目:eye”、“目:catalogue”、“地:earth”和“地:ground”的翻译对。换句话说,翻译模块330稍后仅翻译片段“旅游”、“目”和“地”。
在一些实施方式中,分段模块340可以记录从候选分段中去除的停止词的数量,从而细化模块350可以使用该数量作为判断候选分段的质量和通过翻译分段的片段而获得的候选翻译的质量时的因子。通常,当去除的停止词越少时,认为获得的片段和相关联的候选翻译的质量越好。
类似地,在分段(2)“旅游,目的,地”中,在片段中没有识别出停止词。因此,候选分段仍然是“旅游,目的地”。由于没有去除停止词,因此该候选片段包括输入的查询的所有字符,因此是输入的查询310的分区。在所有内容相同的情况下,认为分区具有比去除了一个或更多个停止词的候选分段更高的分段质量。CLS字典340包含例如“旅游:travel”、“旅游:trip”、“目的:aim”、“目的:goal”、“目的:purpose”、“地:earth”和“地:ground”的翻译对。因此,翻译模块30将翻译片段“旅游”、“目的”和“地”,以基于该候选分段生成输入的查询310的候选翻译。
在分段(3)中,在CLS字典340中找到了片段“旅游”和“目的地”两者,并且分段(3)不包含任何作为停止词的片段。因此,分段(3)也是输入的查询310的分区。CLS字典340包含例如“旅游:travel”、“旅游:trip”和“目的地:destination”的针对这两个片段的翻译对。因此,翻译模块330将使用片段“旅游”和“目的地”,来基于该候选分段生成输入的查询310的候选翻译。
在一些实施方式中,分段模块340还可以使用与第一语言相关联的查询日志(例如源语言查询日志370)中的信息来判断分段质量。例如,当用户使用搜索引擎进行搜索时,有时一些用户将输进已经示出正确的分段的形式的搜索查询,而另一些用户将输进未分割的搜索查询。例如,对于搜索查询“旅游目的地”,一些用户可能在向搜索引擎提交查询时,在“旅游”和“目的地”之间插入空格。因此,在源语言查询日志中将找到候选分段“旅游,目的地”。如果查询“旅游目的地”具有高查询频率,则可以对候选分段“旅游目的地”给予高分段质量评分。
在一些实施方式中,分段模块320不对候选分段进行评分,而仅记录与该候选分段相关联的查询频率,从而细化模块可以使用查询频率,来判断候选分段的分段质量。在一些实施方式中,在对分段质量进行评分时,对查询频率给予比从候选分段中去除的停止词的数量更大的权重。
作为另一示例,可能以高查询频率在查询日志中找到的另一查询是“旅游目的”(在英语中意为“travel purpose”)。例如,在候选分段“旅游,目的,地”中可以找到该特定分段。在一些实施方式中,可以使用这种部分匹配,确定候选分段“旅游,目的,地”至少是部分正确的。在一些实施方式中,由于有时以与“的”类似的方式使用“地”,因此可以将字符“地”视为停止词,并且从候选分段中去除。因此,在这些实施方式中,根据源语言查询日志370中的数据,可以将“旅游目的”视为正确的分段。但是候选分段“旅游目的”的总体分段质量的打分,比候选分段“旅游,目的地”低,因为前者去除了一个停止词,而后者没有去除停止词。
基于上面的操作,分段模块320将查询310“旅游目的地”分割为三个唯一候选分段(1)“旅游,目的,地”;(2)“旅游,目,地”;和(3)“旅游,目的地”,并且将它们发送到翻译模块330进行翻译,并且发送到细化模块350进行评价。
在接收到三个唯一候选分段时,翻译模块330基于包含在CLS字典340中的翻译对,将它们翻译成英语中的各种翻译。在一些实施方式中,翻译基于对候选分段中的每个片段的直接翻译,而不管获得的翻译是否符合常规使用,或者是否在整体上有意义。例如,对于候选分段“旅游,目,地”,翻译模块330可能将其翻译成包括“trip eye earth”、“tripcatalogue earth”、“travel eye ground”和“travel catalogue ground”等的候选翻译,即使获得的这些翻译中的一些或全部不具有合理的含义,或者在平常说话或书写中的习惯使用中不出现。
虽然在一些实施方式中,翻译模块330可以使用传统翻译技术,尝试例如通过省略含义与其它片段的含义不相容的片段来得到合理的翻译,但是在其它实施方式中,优选候选翻译与候选分段的片段严格地相对应。保持不完全符合平常说话或书写中的常规使用的翻译的原因,是向搜索引擎提交的搜索查询经常具有与人们通常对另一人说话或书写的方式不同的结构。因此,虽然如此,有些脱离日常说话或书写中的习惯使用的候选翻译仍可能是有效搜索查询。
在一些实施方式中,当翻译模块330翻译候选分段时,获得的翻译可能包括第二语言中的停止词。例如,当使用传统机器翻译服务来翻译候选分段“旅游,目的”时,获得的翻译可能是诸如“the purpose of travel”的符合常规使用的短语。该翻译包括两个停止词“the”和“of”,并且两个单词“purpose”和“travel”的顺序相对于两个词语“旅游”和“目的”的顺序反转。在一些实施方式中,翻译模块可以从候选翻译中去除停止词,并且在翻译中将术语的顺序反转,使得候选翻译不包括任何停止词,并且术语的顺序与候选分段中的术语的顺序相对应。在一些实施方式中,忽略单词的顺序。
例如,对于候选分段“旅游,目的”,翻译模块330可以将其翻译成“thepurpose oftravel”,其在去除停止词“the”和“of”,并且反转单词顺序之后,获得翻译“travelpurpose”。去除停止词并且反转或忽略术语的顺序的一个原因,是当针对在与第二语言相关联的查询日志(例如目标语言查询日志360)中找到的查询对候选翻译进行评价时,查询日志中的查询已经去除了停止词。
在完成对候选分段的翻译后,将获得的一个或更多个候选翻译统一传送到细化模块350进行评价。评价至少基于得到候选翻译的分段的质量以及作为第二语言的搜索查询的翻译的质量。如稍早在本说明书中简要地叙述的,可以基于从候选分段中去除的停止词的数量,来判断候选分段的分段质量。在所有内容相同的情况下,去除的停止词的数量越大,对应于分段质量评分越低。另外或者可选地,如果可以在第一语言的查询日志(例如源语言查询日志370)中找到候选分段,则可以对该候选分段的分段质量评分给予提升。对分段质量评分给予的提升的量可以基于与和该特定候选分段匹配的查询相关联的查询频率。查询频率越高,可以给予的提升越大。在一些实施方式中,要求匹配是完全匹配(即分段作为在查询日志中没有修改的完整的查询而出现)。在一些实施方式中,可以将部分匹配同样视为匹配。
在一些实施方式中,可以基于是否可以在与第二语言相关联的查询日志(例如目标语言查询日志360)中找到候选翻译,如果可以找到,则基于与查询日志中的匹配查询相关联的查询频率,来判断作为搜索查询的候选翻译的质量。查询频率越高,与其相关联的候选翻译的翻译质量可以越高。在一些实施方式中,要求完全匹配。在一些实施方式中,可以同样考虑部分匹配。
在一些实施方式中,细化模块350可以从分段模块320和翻译模块330,获得用来对候选翻译进行评分的数据(例如查询频率、去除的停止词的数量、与查询日志中的查询的匹配程度)。在一些实施方式中,细化模块350可以直接从查询日志360和370获得这些数据中的一些。
图4是如图3所示的示例细化模块350的框图。如图4所示,细化模块350包括分段评价子模块410、翻译评价子模块420和评分子模块430。在各个实施方式中,细化模块350的子模块可以在细化模块350内彼此进行通信和交互、和/或与细化模块350外部的其它模块进行通信和交互。
继续使用在图3中使用的具体示例“旅游目的地”,对于一个或更多个唯一候选分段中的每一个的每个候选翻译,翻译评价子模块420通过从目标语言查询日志(例如图3中的查询日志360)检索数据,可以确定候选翻译作为以英语书写的完整查询在目标语言查询日志(例如英语查询日志)中出现的频率。例如,对于候选分段“旅游,目,地”的候选翻译“travel eyeground”,即使在目标语言查询日志中存在该翻译,与查询“travel eyeground”相关联的查询频率也应当非常小或可忽略。然而,对于候选分段“旅游,目的地”的候选翻译“travel destination”或“trip destination”,可以以相对显著的查询频率(例如总查询计数为一千万或者每个月的平均查询计数为一万)作为英语的查询在目标查询日志中找到每一个。翻译评价可以向评分子模块430提供针对每个候选翻译的子评分或者相关联的查询频率。然后,评分模块430可以基于每个候选翻译作为完整查询在目标查询日志160中出现的数量(如由实际或调整后的查询频率所表示的),对候选翻译进行评价。
分段评价子模块410确定一个或更多个唯一候选分段中的每一个的分段质量的各自的度量。如稍早在本说明书中所叙述的,该确定可以至少部分基于从候选分段的片段的各自的序列中去除了多少个停止词,和/或候选分段在源语言查询日志370中作为用中文书写的完整查询出现的各自的频率(例如如由实际或调整后的查询频率所表示的)。分段评价模块410可以从分段模块320或者直接从源语言查询日志370(例如中文语言查询日志)获得该数据。
继续使用示例“旅游目的地”。候选分段“旅游,目,地”去除了一个停止词(即“的”);候选分段“旅游,目的,地”和“旅游,目的地”没有去除停止词。因此,与其它两个分段相比,分段评价子模块410可以对候选分段“旅游,目,地”的分段质量给予较小的基本评分。评分子模块430可以在对从候选分段得到的候选翻译进行评价时使用基本评分。
另外,分段评价模块410确定候选分段在源语言查询日志(例如中文查询日志)中作为用第一语言书写的完整查询出现的各自的频率,假设分段“旅游目的地,”作为查询比分段“旅游目地”和“旅游目的地”在中文语言查询日志中更频繁地输入,可以对候选分段“旅游,目的地”给予比候选分段“旅游,目,地”和“旅游,目的,地”更高的分段质量评分的提升。
在一些实施方式中,分段评价子模块410可以从分段模块320获得用于对候选片段的分段质量进行评价的数据。在一些实施方式中,分段评价子模块410可以直接从源语言查询日志370获得该数据中的一些。
在翻译质量评价子模块420和分段评价模块410完成它们各自的评分之后,评分子模块430可以通过合成翻译评价模块420和分段评价模块410生成的子评分,来计算对每个候选翻译的最终评分。在各个实施方式中,可以将不同的权重与翻译评价模块420生成的子评分和分段评价模块410生成的子评分相关联。
在一些实施方式中,评分子模块330可以直接基于候选翻译在目标语言查询日志360中作为完整查询出现的频率、与该候选翻译相关联的分段在源语言查询日志370中出现的频率以及从分段中去除的停止词的数量,来确定评分。为了进行说明,在出现频率方面,发现与其它候选翻译相比,候选翻译“travel destination”与目标语言查询日志360中的最高查询频率相关联。同时,与翻译“travel destination”相关联的候选分段“旅游,目的地”相对于其它两个候选分段具有最高分段质量,因为其不仅没有去除停止词,还作为完整查询在源语言查询日志370中,相对于其它两个分段与最高查询频率相关联。因此,评分子模块430将对候选翻译“travel destination”分配最高评分。类似地,评分子模块330可以对其它候选翻译分配较低的评分。
在一些实施方式中,评分模块430得到每个候选翻译的最终评分,并且根据它们各自的最终评分对候选翻译进行排序。最后,细化模块350输出具有最高最终评分的候选翻译“travel destination”,作为主要语言查询建议“旅游目的地”的跨语言查询建议。
在一些实施方式中,可以针对由建议模块生成的每个主要语言查询建议重复进行上述处理,并且可以针对每个主要语言查询建议识别相应的跨语言查询建议。在一些实施方式中,可以建立阈值评分,从而如果没有主要语言查询建议的候选翻译超过该阈值评分,则不对主要语言查询建议提供跨语言查询建议。可以经由如图2所示的下拉菜单,向用户呈现获得的跨语言查询建议。在一些实施方式中,可以使用其它方式(例如在搜索界面上使用表)向用户呈现获得的跨语言查询建议。
通过选择或点击诸如“travel destination”的在搜索界面中呈现的跨语言查询建议,将搜索查询“travel destination”传送到搜索引擎,并且搜索引擎向用户返回基于搜索查询“travel destination”识别的搜索结果。
注意,上面的描述仅用于进行说明,本领域技术人员可以进行各种修改和变形,而不脱离所描述的技术的范围和精神。例如,在分段过程期间,可以预先设立其它适当的标准,来更好地识别一个或更多个唯一候选分段中的停止词,并且拒绝特定分段作为后续翻译的候选分段。另外,可以向用户呈现多于一个的候选翻译作为跨语言查询建议。在一些实施方式中,可以基于在本说明书中描述的方法,随着时间建立用于不同的源-目标语言对的查询建议对的数据库或索引,从而基于主要语言查询建议在数据库或索引中的简单查找可以获得相应的第二语言查询建议。
图5是示出对查询的候选翻译进行评价,并且基于评价提供候选翻译中的一个作为跨语言查询建议的示例处理500的流程图。例如,可以由图1所示的翻译服务模块130中的一个或更多个模块进行示例处理500。
当翻译模块接收到以第一语言书写的查询(510)时,处理500开始。查询可以是建议模块响应于用户输进的查询输入生成的主要语言查询建议。然后,处理500进行到步骤520。在步骤520,翻译模块获得第一语言的查询的一个或更多个唯一候选分段(例如如图3中的分段模块320所实现的)。每个唯一候选分段由通过对第一语言的查询进行分割而获得的片段的各个序列构成。对于一个或更多个唯一候选分段中的每一个,在步骤530,翻译服务模块确定该唯一候选分段的分段质量的各个度量(例如如图4中的分段评价子模块410所实现的)。另外,在步骤540,对于一个或更多个唯一候选分段中的每一个,翻译服务模块通过翻译候选分段的片段的各个序列,获得第二语言的一个或更多个候选翻译的各个集合。
然后,对于一个或更多个唯一候选分段中的每一个的每个候选翻译,在步骤550,翻译服务模块确定候选翻译在第一查询日志(例如目标语言查询日志)中作为以第二语言书写的完整查询出现的第一频率(例如如翻译评价子模块420所实现的)。另外,对于一个或更多个唯一候选分段中的每一个的每个候选翻译,在步骤560,翻译服务模块至少基于候选翻译在第一查询日志中作为以第二语言书写的完整查询出现的第一频率和候选分段的分段质量的度量,确定候选翻译的各自的评分(例如如图4中的评分子模块430所实现的)。
在步骤570,翻译服务模块基于候选翻译各自的评分,提供候选翻译中的至少一个作为查询的跨语言查询建议。
在本说明书的其它部分中,例如针对图1-4,描述上述示例处理和其它处理的其它特征。
可以使用数字电子线路,或者使用计算机软件、固件或硬件,包括在本说明书中公开的结构和它们的结构等同物、或者它们中的一个或更多个的组合,来实现在本说明书中描述的主题的实施例和功能操作。可以作为一个或更多个计算机程序产品,即在有形程序载体上编码的、由数据处理装置执行或者用于控制数据处理装置的操作的计算机程序指令的一个或更多个模块,来实现在本说明书中描述的主题的实施例。有形程序载体可以是计算机可读介质。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备或者它们中的一个或更多个的组合。
术语“数据处理装置”包含用于对数据进行处理的所有装置、设备和机器,作为示例包括可编程处理器、计算机或者多个处理器或计算机。除了硬件之外,装置还可以包括创建所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或更多个的组合的代码。
可以使用任何形式的编程语言,包括汇编或解释性语言或者声明或过程语言,来编写也已知为程序、软件、软件应用、脚本或代码的计算机程序,并且可以以任意形式(包括作为独立程序或者作为模块、部件、子例程或者适合在计算环境中使用的其它单元)来调用计算机程序。计算机程序不一定与文件系统中的文件相对应。可以将程序存储在保持其它程序或数据(例如存储在标记语言文档中的一个或更多个脚本的文件的一部分)中、所讨论的程序专用的单个文件中或者多个协作文件(例如存储一个或更多个模块、子程序或代码部分的文件)中。可以调用计算机程序,以在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。
可以通过一个或更多个可编程处理器执行用于通过对输入数据进行运算并生成输出来执行功能的一个或更多个计算机程序,来执行在本说明书中描述的处理和逻辑流。还可以由例如FPGA(场可编程门阵列)或ASIC(专用集成电路)的特殊用途逻辑线路执行这些处理和逻辑流,并且还可以作为例如FPGA(场可编程门阵列)或ASIC(专用集成电路)的特殊用途逻辑线路来实现装置。
作为示例,适合执行计算机程序的处理器包括通用和特殊用途微处理器以及任意种类的数字计算机的任意一个或更多个处理器两者。通常,处理器接收来自只读存储器或随机存取存储器或者两者的指令和数据。计算机的必要元素是用于执行指令的处理器以及用于存储指令和数据的一个或更多个存储器设备。通常,计算机还包括例如磁盘、磁光盘或者光盘的用于存储数据的一个或更多个大容量存储设备,或者计算机被操作性地耦接以从一个或更多个大容量存储设备接收数据或者向一个或更多个大容量存储设备传送数据或者进行数据接收和数据传送两者。然而,计算机不需要具有这些设备。此外,可以将计算机嵌入另一设备,仅举例来说,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器。
适合存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括:例如EPROM、EEPROM的半导体存储器设备和闪存设备;例如内部硬盘或可移动盘的磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由特殊用途逻辑线路进行补充或者包含在特殊用途逻辑线路中。
为了提供与用户的交互,可以在具有用于向用户显示信息的例如CRT(阴极射线管)或LCD(液晶显示器)监视器的显示设备以及用户可以用来向计算机提供输入的例如鼠标或跟踪球的键盘和指示设备的计算机上,实现在本说明书中描述的主题的实施例。还可以使用其它种类的设备,来提供与用户的交互;例如,向用户提供的反馈可以是任意形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任意形式接收来自用户的输入,包括声音、语音或触觉输入。
可以在包括例如作为数据服务器的后端部件、或包括例如应用服务器的中间件部件、或包括例如具有用户可以用来与在本说明书中描述的主题的实施方式进行交互的图形用户接口或Web浏览器的客户计算机的前端部件、或者一个或更多个这种后端部件、中间件部件或前端部件的任意组合的计算系统中,实现在本说明书中描述的主题的实施例。系统的这些部件可以用任意形式的数字数据通信或数字数据通信介质、例如通信网络互连。通信网络的示例包括局域网(“LAN”)和例如因特网的广域网(“WAN”)。
计算系统可以包括客户机和服务器。客户机和服务器通常彼此远离,并且一般通过通信网络进行交互。客户机和服务器的关系借助于在各自的计算机上运行并且彼此具有客户机-服务器关系的计算机程序形成。
虽然本说明书包含许多具体实施方式细节,但是这些细节不应当被解释为对任意实施方式的范围或要求保护的内容的限制,而是作为对具体到特定实施方式的特定实施例的特征的描述。在单独的实施例的情境下在本说明书中描述的某些特征,也可以在单个实施例中组合地实现。相反,在单个实施例的情境下描述的各个特征,也可以在多个实施例中单独或者以任意适当的子组合实现。此外,虽然上面作为在某些组合中进行动作、甚至最初要求这样进行保护,描述了特征,但是在一些情况下,可以从要求保护的组合中去除该组合中的一个或更多个特征,并且要求保护的组合可以针对子组合或者子组合的变化。
类似地,虽然按照特定顺序在附图中描绘了操作,但是这应当被理解为要求按照所示出的特定顺序或者按照相继的顺序进行这些操作,或者进行所有示出的操作,以获得希望的结果。在某些情形下,多任务和并行处理是有利的。此外,上面描述的实施例中的各个系统部件的分离,不应当被理解为要求在所有实施例中进行这种分离,而应当被理解为所描述的程序部件和系统通常可以在单个软件产品中被集成在一起,或者被打包到多个软件产品中。
对在本说明书中描述的主题的特定实施例进行了描述。其它实施例在所附权利要求的范围内。例如,可以按照不同的顺序进行在权利要求中叙述的动作,而仍然获得希望的结果。作为一个示例,在附图中描绘的处理不一定需要按照所示出的特定顺序或相继的顺序进行,以获得希望的结果。在某些实施方式中,多任务和并行处理是有利的。
Claims (9)
1.一种用计算机实现的方法,包括:
接收以第一语言书写的查询,所述查询是基于向搜索引擎提交的用户输入生成的主要语言查询建议;
获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;
对于所述一个或更多个唯一候选分段中的每一个,通过翻译所述候选分段的片段的各自的序列,确定第二语言的一个或更多个候选翻译的各自的集合;
对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:
至少部分基于从所述唯一候选分段的片段的各自的序列中去除了多少个停止词、以及所述唯一候选分段在第一查询日志中作为以所述第一语言书写的完整查询出现的各自的第一频率,确定所述唯一候选分段的各自的分段质量;及
至少基于针对所述唯一候选分段确定的所述各自的分段质量、以及所述候选翻译在第二查询日志中作为以所述第二语言书写的完整查询出现的各自的第二频率,确定所述候选翻译的各自的评分;以及
基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议,
其中,所述第一查询日志是对应于所述第一语言的查询日志,第二查询日志是对应于所述第二语言的查询日志。
2.一种用计算机实现的方法,包括:
接收以第一语言书写的查询;
获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;
对于所述一个或更多个唯一候选分段中的每一个:
确定所述唯一候选分段的分段质量的各自的度量;及
通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合;
对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:
确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;及
至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率、以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及
基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议,
其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括:
确定所述候选分段在第二查询日志中作为以所述第一语言书写的完整查询出现的各自的第二频率;以及
至少部分基于所述候选分段在所述第二查询日志中作为以所述第一语言书写的完整查询出现的所述各自的第二频率,确定所述分段质量的各自的度量,
其中,所述第一查询日志是对应于所述第一语言的查询日志,第二查询日志是对应于所述第二语言的查询日志。
3.根据权利要求2所述的用计算机实现的方法,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括:
获得作为所述第一语言的所述查询的分区的至少一个候选分段。
4.根据权利要求2所述的用计算机实现的方法,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括:
获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。
5.根据权利要求4所述的用计算机实现的方法,其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括:
至少部分基于从所述候选分段的片段的各自的序列中去除了多少个停止词,确定所述分段质量的各自的度量。
6.一种系统,包括:
一个或更多个处理器;以及
存储有指令的存储器,当由所述一个或更多个处理器执行所述指令时,所述指令使所述一个或更多个处理器进行包括如下步骤的操作:
接收以第一语言书写的查询;
获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;
对于所述一个或更多个唯一候选分段中的每一个:
确定所述唯一候选分段的分段质量的各自的度量;及
通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合;
对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:
确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;及
至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率、以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及
基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议,
其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括:
确定所述候选分段在第二查询日志中作为以所述第一语言书写的完整查询出现的各自的第二频率;以及
至少部分基于所述候选分段在所述第二查询日志中作为以所述第一语言书写的完整查询出现的所述各自的第二频率,确定所述分段质量的各自的度量,
其中,所述第一查询日志是对应于所述第一语言的查询日志,第二查询日志是对应于所述第二语言的查询日志。
7.根据权利要求6所述的系统,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括:
获得作为所述第一语言的所述查询的分区的至少一个分段。
8.根据权利要求6所述的系统,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括:
获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。
9.根据权利要求8所述的系统,其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括:
至少部分基于从所述候选分段的片段的各自的序列中去除了多少个停止词,确定所述分段质量的各自的度量。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2011/076275 WO2012174738A1 (en) | 2011-06-24 | 2011-06-24 | Evaluating query translations for cross-language query suggestion |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104011712A CN104011712A (zh) | 2014-08-27 |
CN104011712B true CN104011712B (zh) | 2018-04-24 |
Family
ID=47362834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180072566.XA Expired - Fee Related CN104011712B (zh) | 2011-06-24 | 2011-06-24 | 对跨语言查询建议的查询翻译进行评价 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20120330990A1 (zh) |
KR (1) | KR101850124B1 (zh) |
CN (1) | CN104011712B (zh) |
WO (1) | WO2012174738A1 (zh) |
Families Citing this family (196)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US9063931B2 (en) * | 2011-02-16 | 2015-06-23 | Ming-Yuan Wu | Multiple language translation system |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US9384184B2 (en) * | 2012-01-11 | 2016-07-05 | International Business Machines Corporation | Predicting a command in a command line interface |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9684653B1 (en) | 2012-03-06 | 2017-06-20 | Amazon Technologies, Inc. | Foreign language translation using product information |
US9036888B2 (en) * | 2012-04-30 | 2015-05-19 | General Electric Company | Systems and methods for performing quality review scoring of biomarkers and image analysis methods for biological tissue |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN104412203A (zh) * | 2012-06-29 | 2015-03-11 | 微软公司 | 跨语言输入法编辑器 |
US8918308B2 (en) * | 2012-07-06 | 2014-12-23 | International Business Machines Corporation | Providing multi-lingual searching of mono-lingual content |
US9081762B2 (en) * | 2012-07-13 | 2015-07-14 | Enyuan Wu | Phrase-based dictionary extraction and translation quality evaluation |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US8914395B2 (en) * | 2013-01-03 | 2014-12-16 | Uptodate, Inc. | Database query translation system |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9183198B2 (en) | 2013-03-19 | 2015-11-10 | International Business Machines Corporation | Customizable and low-latency interactive computer-aided translation |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP2015172792A (ja) * | 2014-03-11 | 2015-10-01 | 株式会社リコー | 翻訳システム、情報処理装置、情報処理方法およびプログラム |
CN103885608A (zh) * | 2014-03-19 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 一种输入方法及系统 |
US10140282B2 (en) | 2014-04-01 | 2018-11-27 | Verisign, Inc. | Input string matching for domain names |
US9836554B2 (en) * | 2014-04-30 | 2017-12-05 | Excalibur Ip, Llc | Method and system for providing query suggestions including entities |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) * | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) * | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9524293B2 (en) * | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10102269B2 (en) * | 2015-02-27 | 2018-10-16 | Microsoft Technology Licensing, Llc | Object query model for analytics data access |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9965569B2 (en) * | 2015-03-13 | 2018-05-08 | Microsoft Technology Licensing, Llc | Truncated autosuggest on a touchscreen computing device |
CN104850545A (zh) * | 2015-04-29 | 2015-08-19 | 均康(上海)信息科技有限公司 | 一种进行网络资源翻译的在线协作系统及方法 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10545958B2 (en) * | 2015-05-18 | 2020-01-28 | Microsoft Technology Licensing, Llc | Language scaling platform for natural language processing systems |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US20170075998A1 (en) * | 2015-09-14 | 2017-03-16 | Ebay Inc. | Assessing translation quality |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US9830384B2 (en) * | 2015-10-29 | 2017-11-28 | International Business Machines Corporation | Foreign organization name matching |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
CN105335358B (zh) * | 2015-11-18 | 2018-07-06 | 成都优译信息技术有限公司 | 翻译系统中使用语料等级评价方法 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN106021239B (zh) * | 2016-04-29 | 2018-10-26 | 北京创鑫旅程网络技术有限公司 | 一种翻译质量实时评价方法 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US9922029B1 (en) * | 2016-06-30 | 2018-03-20 | Facebook, Inc. | User feedback for low-confidence translations |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10686750B2 (en) * | 2017-03-07 | 2020-06-16 | Verisign, Inc. | Alternate character set domain name suggestion and registration using translation and transliteration |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10552547B2 (en) * | 2017-10-10 | 2020-02-04 | International Business Machines Corporation | Real-time translation evaluation services for integrated development environments |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US11157564B2 (en) * | 2018-03-02 | 2021-10-26 | Thoughtspot, Inc. | Natural language question answering systems |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
KR102353381B1 (ko) * | 2019-04-30 | 2022-01-19 | 정철환 | 작명을 지원하는 전자 장치, 방법, 및 컴퓨터 프로그램 |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11442932B2 (en) | 2019-07-16 | 2022-09-13 | Thoughtspot, Inc. | Mapping natural language to queries using a query grammar |
US11328132B2 (en) * | 2019-09-09 | 2022-05-10 | International Business Machines Corporation | Translation engine suggestion via targeted probes |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN112749316B (zh) * | 2019-10-29 | 2024-06-14 | 阿里巴巴集团控股有限公司 | 翻译质量的确定方法、装置、存储介质和处理器 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US20240152511A1 (en) * | 2022-11-03 | 2024-05-09 | Bank Of America Corporation | Transliteration of machine interpretable languages for enhanced compaction |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101743544A (zh) * | 2007-05-16 | 2010-06-16 | 谷歌公司 | 跨语言信息检索 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6466232B1 (en) | 1998-12-18 | 2002-10-15 | Tangis Corporation | Method and system for controlling presentation of information to a user based on the user's condition |
US7836044B2 (en) | 2004-06-22 | 2010-11-16 | Google Inc. | Anticipated query generation and processing in a search engine |
US20060129531A1 (en) * | 2004-12-09 | 2006-06-15 | International Business Machines Corporation | Method and system for suggesting search engine keywords |
US7716201B2 (en) * | 2006-08-10 | 2010-05-11 | Yahoo! Inc. | Method and apparatus for reconstructing a search query |
CN101271461B (zh) * | 2007-03-19 | 2011-07-13 | 株式会社东芝 | 跨语言检索请求的转换及跨语言信息检索方法和系统 |
US8051061B2 (en) * | 2007-07-20 | 2011-11-01 | Microsoft Corporation | Cross-lingual query suggestion |
US20090043741A1 (en) * | 2007-08-09 | 2009-02-12 | Dohyung Kim | Autocompletion and Automatic Input Method Correction for Partially Entered Search Query |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
-
2011
- 2011-06-24 CN CN201180072566.XA patent/CN104011712B/zh not_active Expired - Fee Related
- 2011-06-24 WO PCT/CN2011/076275 patent/WO2012174738A1/en active Application Filing
- 2011-06-24 KR KR1020147001968A patent/KR101850124B1/ko active IP Right Grant
- 2011-09-29 US US13/248,775 patent/US20120330990A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101743544A (zh) * | 2007-05-16 | 2010-06-16 | 谷歌公司 | 跨语言信息检索 |
Also Published As
Publication number | Publication date |
---|---|
US20120330990A1 (en) | 2012-12-27 |
KR101850124B1 (ko) | 2018-04-19 |
KR20140061357A (ko) | 2014-05-21 |
CN104011712A (zh) | 2014-08-27 |
WO2012174738A1 (en) | 2012-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104011712B (zh) | 对跨语言查询建议的查询翻译进行评价 | |
KR101744861B1 (ko) | 합성어 분할 | |
US8386237B2 (en) | Automatic correction of user input based on dictionary | |
US9164983B2 (en) | Broad-coverage normalization system for social media language | |
US8799307B2 (en) | Cross-language information retrieval | |
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
US8745051B2 (en) | Resource locator suggestions from input character sequence | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
US8463598B2 (en) | Word detection | |
US8010344B2 (en) | Dictionary word and phrase determination | |
US8515731B1 (en) | Synonym verification | |
US20080312911A1 (en) | Dictionary word and phrase determination | |
KR102569760B1 (ko) | 온라인 게이밍을 위한 사용자 입력 텍스트의 언어 감지 | |
KR20100009520A (ko) | 쿼리 확장을 위한 음역 | |
WO2012166417A1 (en) | Method and system for text message normalization based on character transformation and unsupervised of web data | |
CN102779135B (zh) | 跨语言获取搜索资源的方法和装置及对应搜索方法和装置 | |
US9336317B2 (en) | System and method for searching aliases associated with an entity | |
US20120254209A1 (en) | Searching method, searching device and recording medium recording a computer program | |
WO2013130623A2 (en) | Broad-coverage normalization system for social media language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180424 Termination date: 20190624 |
|
CF01 | Termination of patent right due to non-payment of annual fee |