CN104205093B - 经翻译的新闻 - Google Patents

经翻译的新闻 Download PDF

Info

Publication number
CN104205093B
CN104205093B CN201280071302.7A CN201280071302A CN104205093B CN 104205093 B CN104205093 B CN 104205093B CN 201280071302 A CN201280071302 A CN 201280071302A CN 104205093 B CN104205093 B CN 104205093B
Authority
CN
China
Prior art keywords
news
cluster
language
news article
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280071302.7A
Other languages
English (en)
Other versions
CN104205093A (zh
Inventor
米哈伊尔·弗拉基米罗维奇·列乌托夫
丁晨
卢西亚诺·F·琼卡
瓦德齐姆·巴祖约
阿瓦尼什·韦尔马
雅罗斯拉夫·伊戈列维奇·库罗夫采夫
安德烈·罗厄
德米特里·阿列克谢耶维奇·利佐金
德米特里·米哈伊洛维奇·切尔年科夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN104205093A publication Critical patent/CN104205093A/zh
Application granted granted Critical
Publication of CN104205093B publication Critical patent/CN104205093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于用经翻译的新闻文章来增大新闻文章集群的方法、系统以及设备,其包括被编码在计算机存储介质上的计算机程序。一方面,一种方法包括:获得表征使用呈现语言的电子发布的第一新闻文章集群的数据,其中表征第一新闻文章集群的数据包括呈现语言的一个或更多个词语以及标识与第一集群相关联的第一地理区域的区域数据;通过将词语中的一个或更多个词语从呈现语言翻译为第一语言来生成经翻译的词语,其中第一语言对应于第一地理区域;以及响应于根据一个或更多个经翻译的词语得出的搜索查询来获得使用第一语言的一个或更多个新闻文章。

Description

经翻译的新闻
技术领域
本说明书涉及呈现电子新闻文章。
背景技术
新闻服务可以对由各种新闻源例如在英特网上电子发布的或直接电子发布至新闻服务的新闻文章进行聚类。新闻服务抓取资源来识别新闻文章并且将新闻文章聚类以使得每个集群包括描述、报道或涉及相应新闻事件的新闻文章。按语言来聚类新闻文章,使得给定集群包括特定语言的新闻文章。
新闻服务维护分别以相应的地理区域为目标的版本。每个版本包括以地理区域为目标并且用与地理区域对应的呈现语言例如用地理区域的官方语言之一来呈现的新闻文章的一个或更多个呈现。呈现中的每个呈现从该呈现语言的新闻文章的一个或更多个集群中识别一个或更多个最高得分新闻文章。新闻服务可以基于例如用户偏好或用户通过其与新闻服务交互的界面来确定将哪个版本呈现给用户。例如,如果用户使用以特定地理区域为目标的界面来提交查询,则新闻服务可以响应于该查询来生成被包括在以该区域为目标的版本中的呈现。
新闻服务可以响应于接收到的标识待搜索的版本的搜索查询,例如通过用标识与搜索查询匹配的集群中的新闻文章的信息来对呈现进行填充,以动态地生成呈现。新闻服务可以对集群中的新闻文章打分并且选择最高得分集群以用于呈现。新闻服务还可以维护并更新下述呈现,该呈现针对特定种类的新闻(例如,头条新闻、当地新闻或国际新闻),并且用标识与特定种类匹配的集群的新闻文章的信息来填充该呈现。
可以对呈现所标识的集群中的新闻文章打分,使得提升由版本以其为目标的地理区域中的发布者的文章。例如,与在以美国为目标的集群的呈现中识别的新闻文章相比,在以澳大利亚为目标的新闻文章的集群的呈现中识别的新闻文章趋向于包括更多由澳大利亚发布者发布的新闻文章。类似地,与响应于指定要搜索美国版本的搜索查询而识别的新闻文章相比,在响应于指定要搜索澳大利亚版本的搜索查询而生成的呈现中识别的新闻文章趋向于识别更多来自澳大利亚发布者的文章。
发明内容
本说明书描述了与交叉语言搜索以及用经翻译的新闻文章来增大新闻文章集群的呈现有关的技术。
观看以特定地理区域为目标的新闻文章的呈现的用户可能期望从例如与该事件相关的国家或区域中的新闻源获得对新闻事件的当地观点,这是因为事件当地的媒体出口进行的媒体覆盖可能与国际新闻出口不同地描绘事件。例如,观看以来自美国的用户为目标的呈现的用户可能对阅读在巴西发生的法国队与荷兰队之间的足球比赛感兴趣。用户可能期望从法国新闻源、荷兰新闻源或巴西新闻源中的一个或更多个新闻源获得关于足球比赛的信息以确定例如这些国家中的当地媒体是否相信比赛是被公平地裁判的。本说明书中描述的技术涉及尤其用以满足用户对这种信息的期望的系统、方法以及计算机程序。
总的来说,本说明书中描述的主题内容的一个方面可以实施为包括下述动作的方法:获得表征以呈现语言电子发布的第一新闻文章集群的数据,其中表征第一新闻文章集群的数据包括呈现语言的一个或更多个词语以及标识与第一集群相关联的第一地理区域的区域数据;通过将词语中的一个或更多个词语从呈现语言翻译为第一语言来生成经翻译的词语,其中第一语言对应于第一地理区域;以及响应于根据一个或更多个经翻译的词语得到的搜索查询来获得第一语言的一个或更多个新闻文章。
这些方面以及其他方面可以可选地包括下列特征中的一个或更多个特征。该方法还可以包括:确定与第一地理区域对应的第一语言与呈现语言不同。获得第一语言的一个或更多个新闻文章可以包括:响应于搜索查询来获得一个或更多个新闻结果,其中每个新闻结果标识第一语言的相应的第二新闻文章集群,以及相应的第二集群中的一个或更多个新闻文章;以及从新闻结果所标识的新闻文章中选择一个或更多个新闻文章。第一集群可以是由新闻服务定义的呈现语言的多个集群之一,并且可以从新闻服务获得表征第一集群的数据。第二集群中的每个集群可以是由新闻服务定义的第一语言的多个集群中之一。根据一个或更多个经翻译的词语得到的搜索查询可以指定待搜索的版本,并且该版本可以由新闻服务维护。从由新闻结果标识的新闻文章中选择一个或更多个新闻文章可以包括:根据被分配给第二集群中的每个集群的相应得分从第二集群中识别最高得分集群;以及从最高得分新闻文章集群中选择一个或更多个新闻文章。该方法还可以包括:确定被分配给最高得分集群的得分超过指定阈值。该方法还可以包括:生成针对第一新闻文章集群的新闻结果,其中针对第一新闻文章集群的新闻结果包括标识一个或更多个所获得的新闻文章中的每个新闻文章的数据。该方法还可以包括:将新闻结果发送至客户端装置以用于呈现给用户。标识一个或更多个所获得的新闻文章中的每个新闻文章的数据可以包括至所获得的新闻文章的机器翻译的链接。标识一个或更多个所获得的新闻文章中的每个新闻文章的数据可以包括下述链接,在客户端装置的用户选择该链接时,该链接向翻译服务发出将所获得的新闻文章从第一语言机器翻译成呈现语言的请求。标识一个或更多个所获得的新闻文章中的每个新闻文章的数据可以包括所获得的新闻文章的标题从第一语言到呈现语言的翻译。该方法还可以包括:获得所获得的新闻文章中的一个或更多个新闻文章中的每个新闻文章从第一语言到呈现语言的相应的机器翻译;以及针对机器翻译中的每个机器翻译,确定机器翻译未充分地匹配第一新闻文章集群中的任何新闻文章。确定机器翻译未充分地匹配第一新闻文章集群中的任何新闻文章可以包括:确定机器翻译的标题以及来自机器翻译的文本片段中的至少之一不与第一新闻文章集群中的任何新闻文章的标题以及文本的对应片段充分相似。根据一个或更多个经翻译的词语得到的搜索查询可以包括一个或更多个经翻译的词语中的每个词语以及下述数据,该数据指定通过响应于搜索查询获得的新闻结果而识别的集群的日期范围或最小尺寸中的至少之一。
可以实现本说明书中描述的主题内容的特定实施方式以实现下列优点中的一个或更多个。可以在用户以自动方式以单一语言提交查询时,用多种语言将来自包括内容例如新闻文章的语料库的相关搜索结果提供给用户。可以以带宽和存储有效的方式来实现特定实施方式。特别是如果事件发生在具有很少的国际新闻覆盖的国家,则可以将新闻事件的广泛观点提供给用户。讲一种语言的用户可以容易地获得对发生在媒体主要用与该语言不同的语言来发布新闻文章的区域中的新闻事件的当地观点。对于给定的外国新闻事件,通过用户能够容易地阅读由事件当地的发布者发布的新闻文章,能够将当地观点给予用户。发布者可以在不需要将其新闻文章翻译成多种语言的情况下达到更广泛的受众。在附图和下列描述中阐述本说明书中描述的主题内容的一个或更多个实施方式的细节。根据说明书、附图以及权利要求,本主题的其他特征、方面以及优势将变得明显。
附图说明
图1A示出了示例新闻呈现的部分。
图1B示出了示例新闻呈现的部分。
图1C示出了示例新闻呈现的部分。
图2是示出在使用的环境中的示例新闻服务的框图。
图3是用于选择要被包括在标识新闻文章的集群的新闻结果中的用其他语言的新闻文章的示例过程的流程图。
图4是用于选择新闻文章的示例过程的流程图。
在各种附图中的类似的附图标记和标识指示类似的元件。
具体实施方式
图1A示出了示例新闻呈现的部分100。示例新闻呈现可以是例如超文本标记语言(HTML)网页、可扩展标记语言(XML)页面、便携文件格式(PDF)文件等。部分100示出了分别标识新闻文章的相应集群中的一个或更多个新闻文章的新闻结果102、新闻结果104以及新闻结果116。选择了该新闻结果以用于包括在新闻服务的示例新闻呈现中。新闻文章被聚类使得集群中的新闻文章描述、报道或涉及同一新闻事件。
新闻呈现以特定地理区域为目标。也就是说,新闻服务用很可能是与该地理区域相关联的用户例如在该地理区域中、来自该地理区域或对该地理区域感兴趣的用户的感兴趣的新闻结果来填充新闻呈现。例如,地理区域可以是城市、国家、州或包括一个或更多个地理位置(例如旧金山湾区或中东)的其他区域。在一些实现方式中,新闻呈现被包括在以特定地理区域为目标的新闻服务所维护的版本中。
新闻服务可以动态地生成新闻呈现并且响应于由客户端装置的用户提交的搜索查询例如由新闻服务提供给客户端装置的界面而提交的搜索查询来将新闻呈现传送至客户端装置以用于呈现。客户端装置可以是例如个人计算机、移动通信装置或能够通过网络发送和接收数据的另一装置。包括在新闻呈现中的新闻结果可以是新闻服务确定了与搜索查询匹配的新闻结果。
或者,新闻呈现可以针对特定种类的新闻,例如头条新闻、国内新闻、国际新闻、体育新闻、财经新闻等。在这些情况下,包括在新闻呈现中的新闻结果可以是新闻服务确定了与该特定种类的新闻匹配的新闻结果。
新闻结果102、新闻结果104以及新闻结果116中的每个新闻结果标识新闻文章的相应的集群中的新闻文章,每个集群包括用适于特定新闻呈现的目标的地理区域的呈现语言的新闻文章。特别地,图1的示例新闻呈现以英语是其对应的语言的地理区域例如美国、英国或加利福尼亚为目标。因此,在示例新闻呈现的部分100中所示的新闻结果102、新闻结果104以及新闻结果116中的每个新闻结果标识英语的新闻文章的集群。
新闻结果可以包括来自新闻文章的集群中的一个或更多个新闻文章中的每个新闻文章的文本片段、至集群中的一个或更多个新闻文章的链接、与集群中的新闻文章有关的新闻事件的有关图像等。链接可以是至由发布包括相应新闻文章的全文的新闻文章的新闻源所维护的网页的链接。
特别地,包括在部分100中的新闻结果104标识包括关于即将到来的法国与荷兰之间的足球比赛的新闻文章的集群。新闻结果104包括至来自各种电子发布者例如报纸、杂志、在线新闻代理等的关于比赛的新闻文章的链接以及来自这些新闻文章的片段。新闻结果104标识包括在集群中的新闻文章106、新闻文章108以及新闻文章110。新闻结果104还标识并且包括至两个经翻译的新闻文章的链接112和链接114。经翻译的新闻文章是这样的新闻文章:其原本以与足球比赛相关的地理区域例如法国或荷兰对应的语言撰写,但是被翻译成英语并被新闻服务包括在新闻结果104中。或者,链接112和链接114可以是至翻译服务的链接,当用户选择该链接时,该链接向翻译服务发出请求以获得将文章从其原始语言到另一语言例如英语的翻译。也就是说,尽管文章的标题被翻译成英语并且被新闻服务被包括在新闻结果104中,但可以不翻译新闻文章直到用户通过选择链接112或链接114中之一来向翻译服务提交请求。
图1B示出了示例新闻呈现的部分150。部分150示出了标识包括关于在泰国的洪水的新闻文章的集群的新闻结果152。虽然新闻文章的集群包含英语,即与新闻呈现的目标的地理区域的语言匹配的语言的新闻文章,新闻结果152还标识并且包括至用对应于作为洪水正在发生的区域的泰国的语言撰写的新闻文章154的链接。虽然新闻文章154未被包括在关于泰国洪水的英语文章的集群中,新闻文章154被识别为与新闻事件相关联并且被新闻服务被包括在新闻结果152中。新闻结果152还包括用户界面元件156,当用户选择用户界面元件156时,使得所显示的新闻文章154的标题被翻译成英语。对用户界面元件的选择还可以修正至新闻文章154的链接,例如使得由用户进行的对链接的选择发出请求以从翻译服务获得文章从其原始语言到英语的翻译。
图1C示出了示例新闻呈现的部分170。部分170示出了图1B的新闻结果152。然而,用户选择了使客户端装置显示经翻译的标题174而不是图1B的新闻文章154的原始标题的用户界面元件。此外,修改了至新闻文章154的链接,使得由用户进行的对链接的选择发出请求以从翻译服务获得文章从其原始语言到呈现语言的翻译。新闻结果152还包括用户界面元件176,当用户选择用户界面元件176时,用户界面元件176将所显示的标题恢复成用原始语言的标题并且将链接恢复成至新闻文章154的原始版本的链接。
图2是示出了使用环境中的示例新闻服务220的框图。可以将新闻服务220实现为例如安装在通过网络彼此耦合的一个或更多个位置上的一个或更多个计算机的系统中的一个或更多个计算机程序。
用户202可以通过客户端装置204与新闻服务220通信。例如,客户端装置204可以是通过数据通信网络210耦合至新闻服务220的数据处理设备。网络210可以包括例如局域网(LAN)、无线网或广域网(WAN)例如英特网。客户端装置204通常包括随机存取存储器(RAM)206和处理器208。客户端装置204通常还包括软件应用例如web浏览器或其他通信软件,以利于通过网络来发送和接收数据。
新闻服务220维护一种或更多种语言的新闻文章的集群。新闻服务220可以维护多种语言的新闻文章的集群,每个集群包括用单一语言的文章。也就谁说,新闻服务可以维护用一种语言描述特定事件的新闻文章的一个集群以及用另一语言描述该事件的文章的另一集群。新闻服务220还维护一个或更多个版本,每个版本以相应的地理区域为目标。每个版本包括由新闻服务220生成的新闻文章的一个或更多个呈现,该呈现以地理区域为目标并且被用适于该地理区域的呈现语言来呈现。例如,呈现语言可以是地理区域的官方语言之一。
用户202可以向新闻服务220提交查询。当用户202提交查询时,通过网络210将该查询传送至新闻服务220。新闻服务220进行搜索以识别与查询匹配的新闻文章的集群。新闻服务220给与查询匹配的新闻文章的集群分配得分。新闻服务220还给与查询匹配的集群中的文章分配得分。新闻服务220通过生成新闻结果对查询做出响应,该新闻结果通过网络被发送至客户端装置204以用于呈现给用户202,例如作为要在客户端装置204上运行的web浏览器中显示的新闻呈现。每个新闻结果标识新闻文章的相应的集群以及包括在集群中的一个或更多个文章。所标识的文章可以是例如根据其所分配的得分排名最高的文章。
新闻服务220生成并存储表征新闻文章的每个集群的数据。例如,数据可以包括一个或更多个地理区域以及与新闻文章的每个集群相关联的一个或更多个关键词。地理区域是与集群中的新闻文章与其相关的新闻事件有关的区域,例如新闻事件发生的地理区域或者与新闻事件中涉及的一个或更多个实体有关的地理区域。例如对于与在巴西进行的法国队和荷兰队之间的足球比赛有关的新闻文章的集群来说,与集群相关联的地理区域可以包括法国、荷兰以及巴西。类似地,与集群相关联的一个或更多个关键词是与集群中的新闻文章与其有关的新闻事件有关的词语。可以对相关联的关键词排名例如使得排名最高的关键词是新闻服务确定为最好地呈现新闻事件的关键词。在一些实现方式中,数据还包括日期的范围,例如在其间发布了集群中的阈值比例的新闻文章的日期范围。当新闻文章被添加进给定集群或被从给定集群移除时,新闻服务220可以更新表征集群的数据。
新闻服务220还包括新闻翻译引擎230或者可以与新闻翻译引擎230通信。针对新闻服务220所维护的集群中的一个或更多个集群,新闻翻译引擎230可以选择关于与集群中的新闻文章有关的新闻事件的新闻文章,该新闻文章是用与要被包括在标识集群的新闻结果中的集群的语言不同的语言撰写的。以下参照图3更详细地描述选择这些新闻文章。在一些实现方式中,新闻服务220可以确定被包括在由新闻服务220维护的新闻呈现中的一个或更多个新闻呈现中的每个新闻结果中是否包括其他语言的新闻文章。例如,当生成是特定版本的部分的头条新闻呈现时,新闻服务220还可以确定是否应该将与版本对应的语言不同的语言的新闻文章包括在头条新闻呈现中识别的新闻结果中的任何新闻结果中。
为了选择用其他语言的新闻文章,翻译新闻引擎230可以与翻译服务240通信。翻译服务240是提供文本从源语言到一个或更多个目标语言的机器翻译例如统计机器翻译的服务。翻译新闻引擎230可以将例如用源语言的新闻文章的文本或用源语言的新闻文章的标题以及标识目标语言的数据提供至翻译服务240并且从翻译服务240获得对新闻文章的文本或标题到目标语言的机器翻译。或者,翻译新闻引擎230可以将标识目标语言的数据以及标识新闻文章的数据例如与新闻文章相关联的资源定位符提供至翻译服务240。
在一些实现方式中,客户端装置204的用户202可以通过网络210与翻译服务240通信以获得新闻文章的机器翻译。例如,用户202可以选择被包括在新闻服务220所提供的新闻呈现中的链接以通过网络210向翻译服务240传送请求将新闻文章从源语言翻译成新闻呈现的语言。此外,新闻呈现可以包括用户界面元件,当用户202选择该用户界面元件时,该用户界面元件使客户端装置204从翻译服务240获得并显示新闻文章的部分例如新闻文章的标题、来自新闻文章的片段或者新闻文章的标题和来自新闻文章的片段两者的翻译。这可以通过限制被传送至客户端装置的数据的量来减小所需带宽。
图3是用于选择要被包括在标识新闻文章集群的新闻结果中的其他语言的新闻文章的示例过程300的流程图。为方便起见,相对于执行过程300的一个或更多个位置处的一个或更多个计算机的系统来描述过程300。例如,可以使用新闻服务例如图2的新闻服务220来进行过程300。
系统从新闻服务获得表征新闻文章的集群的数据(步骤302)。新闻文章的集群包括呈现语言的文章。所获得的数据包括与新闻文章的集群相关联的一个或更多个关键词以及与集群相关联的一个或更多个地理区域的名称。可以将所获得的关键词进行排名例如按顺序放置,使得最高排名的关键词是新闻服务确定为最好地呈现新闻事件的关键词。在一些实现方式中,表征集群的数据还包括与集群中的新闻文章与其有关的新闻事件相对应的日期的范围。集群可以是被选择用于包括在新闻呈现中的集群。
系统可以确定与集群相关联的地理区域中的任何地理区域所对应的语言是否与呈现语言不同(步骤304)。与特定地理区域对应的语言可以是例如(由新闻服务或由用户)与地理区域相关联的语言。例如可以将俄语与例如俄罗斯和乌克兰中的一个或更多个地理区域相关联,因为俄语是俄罗斯的官方语言,并且因为尽管俄语不是乌克兰的官方语言,但是在乌克兰有阈值数量的用户使用俄语或者通常用户将俄语与乌克兰相关联。
如果与集群相关联的地理区域所对应的语言中没有任何语言与呈现语言不同,则系统确定不添加任何经翻译的新闻文章至新闻文章的集群(步骤306)。
如果与集群相关联的地理区域所对应的语言中的任意语言与集群中的新闻文章的语言不同,则系统将与集群相关联的关键词中的一个或更多个关键词翻译成那些与集群中新闻文章的语言不同的语言(步骤308)。系统可以基于关键词的排名来从所获得的关键词中选择要被翻译的关键词。例如,系统可以获得针对排名高于预定阈值排名的每个关键词的翻译。可以从翻译服务例如图2的翻译服务240来获得翻译。
在一些实现方式中,系统可以维护或能够访问针对成对的地理区域识别下述可能性的数据:与来自成对的地理区域中的其他区域的新闻源相比,来自成对的地理区域中的一个区域的新闻源对新闻事件具有不同的观点。可以例如使用传统的机器学习技术来生成该数据。在这些实现方式中,如果集群要被包括在以特定地理区域为目标的新闻呈现中,则系统访问数据以确定下述可能性:与来自新闻呈现以其为目标的地理区域的新闻源相比,来自与集群相关联的地理区域中的任何地理区域的新闻源具有对事件的不同的观点。如果针对地理区域中的任何地理区域的可能性低于指定阈值,则系统可以确定不包括到与集群中的这些地理区域相对应的语言的翻译。
系统使用经翻译的关键词来识别来自区域中的发布者的新闻文章(步骤310)。例如,针对关键词被翻译成的每种语言,系统可以生成根据用该语言的关键词的翻译而得到的搜索查询。然后,系统可以从响应于搜索查询而接收的搜索结果中识别该语言的新闻文章。系统可以从搜索服务接收针对所生成的搜索查询中的每个搜索查询的搜索结果。例如,搜索服务可以是对编入索引的资源进行搜索和打分的通用搜索引擎。或者,搜索可以是对新闻服务所维护的新闻文章的集群进行识别的新闻服务所进行的搜索。以下参照图4对使用根据经翻译的关键词得到的搜索查询来识别新闻文章的示例过程进行描述。
系统选择要被包括在标识新闻文章的集群的新闻结果中的新闻文章(步骤312)。系统基于例如通过从其获得搜索结果的服务而分配给新闻文章的得分来从所识别的新闻文章中选择新闻文章。在一些实现方式中,如果响应于特定搜索查询而获得的新闻文章中的任何新闻文章都不具有超过预定阈值的所分配的得分,则系统确定不对新闻结果中的响应于该搜索查询而获得的任何新闻文章进行识别。
系统生成对集群进行识别并且包括所选择的文章的新闻结果(步骤314)。例如,新闻结果可以标识呈现语言的集群中的一个或更多个新闻文章以及所选择的新闻文章。然后可以通过网络将标识集群的新闻结果传送至客户端装置以用于呈现给用户,例如作为要被显示于在客户端装置上运行的web浏览器中的新闻呈现的部分。
在一些实现方式中,系统从翻译服务获得对所选择的新闻文章到呈现语言的机器翻译。例如,系统可以将标识新闻文章的数据例如针对新闻文章的资源定位符例如URL提供至翻译服务并且获得对新闻文章到呈现语言的机器翻译。或者,系统可以将所选择的新闻文章的文本提供至翻译服务并且获得呈现语言的经翻译的文本。在这些实现方式中,标识集群的新闻结果可以包括至所选择的文章的机器翻译的链接。可以用下述信息来呈现该至机器翻译的链接,该信息指定其是从特定源语言的新闻文章的翻译并且该标识源语言所对应的地理区域。
在一些其他实现方式中,系统获得对每个所选择的文章的部分例如文章的标题或来自文章的文本片段的翻译。在这些实现方式中,新闻结果可以包括所选择的文章的经翻译的标题、经翻译的文本片段或者经翻译的标题和经翻译的文本片段二者以及下述链接,当用户选择该链接时,该链接使请求被提交至翻译服务以获得对文章从原始语言到呈现语言的翻译。
在一些实现方式中,当在新闻结果中包括所选择的新闻文章之一之前,系统确定对每个所选择的新闻文章的机器翻译是否充分地匹配已包括在新闻文章的集群中的新闻文章。如果该翻译匹配,则系统不将该文章包括在新闻结果中。例如,系统可以将每个机器翻译的经翻译的标题与集群中的新闻文章的标题进行比较。如果机器翻译的标题充分地匹配集群中的新闻文章的标题,则系统可以将来自机器翻译的文本片段与来自集群中的新闻文章的文本的对应片段进行比较。如果两个片段充分地匹配,则系统确定两个新闻文章充分地匹配并且免于将该新闻文章包括在标识集群的新闻结果中。这不仅可以增强呈现给用户的搜索结果即新闻结果的质量,而且可以减少存储新闻文章的集群所需的存储空间并且可以在将集群的新闻文章传送至客户端装置时节省带宽。
通过使用过程300,系统可以提供改进的自动交叉语言搜索。系统可以在以自动方式以单一语言提交查询时,用多种语言将来自语料库的相关搜索结果例如标识相关新闻文章的新闻结果提供给用户。
图4是用于选择新闻文章的示例过程400的流程图。为方便起见,将相对于进行过程400的位于一个或更多个位置的一个或更多个计算机的系统来描述过程400。例如,可以使用新闻服务例如图2的新闻服务220来进行过程400。
系统获得对与新闻文章的集群相关联的一个或更多个关键词的从集群的呈现语言到每种区域地相关的语言的翻译,每种区域地相关的语言即与呈现语言不同并且与和新闻文章的集群相关联的一个或更多个地理区域对应的每种语言(步骤402)。
系统针对每种区域地相关的语言生成根据对关键词到该语言的翻译而得到的搜索查询(步骤404)。搜索查询是针对包括在新闻服务所维护的新闻文章的集群中的新闻文章的查询。对于给定语言,搜索查询可以包括对关键词到该语言的翻译中的每个翻译。可选地,搜索查询还指定一个或更多个附加的搜索参数。
例如,搜索查询可以指定日期范围例如由表征集群的数据指示的日期范围,使得对查询的响应将识别在特定日期范围内发布的新闻文章。作为另一示例,搜索查询可以指定响应于搜索查询而获得的新闻文章的集群的最小尺寸。例如,搜索查询可以指定每个返回的集群必须包括至少最小数量的新闻文章。
作为另一示例,搜索查询可以指定响应于查询而获得的新闻结果应该与其相关的地理区域。如果新闻服务维护多个版本,则搜索查询可以指定新闻结果要以其为目标的版本,例如,与针对其生成查询的地理区域对应的版本。在一些实现方式中,如果不存在对应于和集群相关联的地理区域中的一个或更多个地理区域的版本,则系统确定不将来自该区域中的发布者的经翻译的文章添加至集群。
系统响应于搜索查询中的每个搜索查询来获得新闻结果(步骤406)。如上所述,新闻结果分别从新闻服务所限定的新闻文章的相应的集群中识别一个或更多个新闻文章。例如根据响应于搜索查询而由新闻服务分配给新闻文章的相应集群的得分,将所获得的新闻结果排名。在一些实现方式中,如果由响应于特定查询而获得的新闻结果识别的集群都不具有超过阈值的得分,则系统丢弃响应于该查询而获得的新闻结果。
系统选择要被包括在标识集群的新闻结果中的新闻文章(步骤408)。如果仅生成了一个搜索查询,则系统可以在针对该查询的最高排名的新闻结果所标识的集群中选择指定数量的最高排名的新闻文章。如果针对多个搜索查询获得了新闻结果,则系统可以例如从针对查询中的所有查询获得的新闻结果所标识的集群中的所有集群中识别具有最高得分的新闻文章的集群。然后,系统可以从该集群中选择多个最高排名的新闻文章。或者,系统可以从响应于每个搜索查询而返回的最高得分集群中选择多个最高排名的新闻文章。所选择的新闻文章的数量可以是预先确定的数量。
可以在包括本说明书中公开的结构以及其结构等同方案的数字电路或计算机软件、固件或硬件或其中一个或更多个的组合中实现本说明书中描述的主题及操作的实施方式。可以将本说明书中描述的主题的实施方式实现为在计算机存储介质上编码以用于由数据处理设备执行或控制数据处理设备的操作的一个或更多个计算机程序,即计算机程序指令的一个或更多个模块。替换地或附加地,可以将程序指令编码在人工生成的传播信号例如机器生成的电信号、光信号或电磁信号上,该人工生成的传播信号被生成以对传送至适当的接收器设备以用于由数据处理设备执行的信息进行编码。计算机存储介质可以是下述装置或被包括在下述装置中:计算机可读存储装置、计算机可读存储基质、随机存取存储器阵列或装置、序列存取存储器阵列或装置或者其中一个或更多个的组合。此外,当计算机存储介质不是传播信号时,计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质还可以是或者被包括在一个或更多个单独的物理部件或介质(例如,多个CD、盘或其他存储装置)。
可以将本说明书中描述的操作实现为由数据处理设备对在一个或更多个计算机可读存储装置上存储的数据或从其他源接收到的数据进行的操作。
术语“数据处理设备”包括用于处理数据的所有种类的设备、装置以及机器,作为示例,包括可编程处理器、计算机、片上系统或上述的多个或上述的组合。设备可以包括专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件以外,设备还可以包括针对所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、交叉平台运行时间环境、虚拟机或其中一个或更多个的组合的代码。设备和执行环境可以实现各种不同的计算模型基础设施如web服务、分布式计算基础设施以及网格计算基础设施。
可以用任何形式的编程语言来编写计算机程序(也被称为程序、软件、软件应用、脚本或代码),该任何形式的编程语言包括编译型语言或解释性语言、声明式语言或过程化语言,并且可以以任何形式配置计算机程序,该任何形式包括作为独立程序或作为适于在计算环境中使用的模块、部件、子程序、对象或其他单元。计算机程序可以但不必须与文件系统中的文件对应。可以将程序存储在保存其他程序或数据(例如存储在置标语言文档中的一个或更多个脚本)的文件的部分中、用于所讨论的程序的单个文件中或者多个经协调的文件(例如存储一个或更多个模块、子程序或代码的部分的文件)中。可以将计算机程序配置成在位于一个站点或分布式交叉的多个站点处并且通过通信网络互相连接的一个计算机或多个计算机上被执行。
可以通过下述一个或更多个可编程处理器来进行本说明书中描述的处理以及逻辑流,该一个或更多个可编程处理器通过对输入数据进行操作并且生成输出来执行一个或更多个计算机程序以进行动作。还可以通过专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来进行处理以及逻辑流,并且还可以将设备实现为专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
作为示例,适于执行计算机程序的处理器包括:通用微处理器和专用微处理器二者以及任何种类的数字计算机中的任何一个或更多个处理器。通常,处理器从只读存储器或随机存取存储器或只读存储器和随机存取存储器二者接收指令和数据。计算机的基本元件是用于根据指令进行动作的处理器以及用于存储指令和数据的一个或更多个存储器装置。通常,计算机还包括用于存储数据的一个或更多个大容量存储装置例如磁盘、磁光盘或光盘或工作上被耦接以从一个或更多个大容量存储装置接收数据或将数据传送至一个或更多个大容量存储装置,或既接收又传送。然而,计算机不必须具有这些装置。此外,计算机可以被嵌入另一装置中,仅举几例,例如移动电话、个人数码助理(PDA)、移动音频播放器或移动视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储装置(例如通用串行总线(USB)闪存驱动)。适于存储计算机程序指令和数据的装置包括所有形式的非易失性存储器、介质以及存储装置,作为示例,包括:半导体存储器装置例如EPROM、EEPROM以及闪存装置;磁盘例如内部硬盘或可移动盘;磁光盘;CD-ROM盘以及DVD-ROM盘。可以通过专用逻辑电路对处理器和存储器进行补充或者可以将处理器和存储器并入专用逻辑电路中。
为了提供与用户的交互,可以在具有用于将信息显示给用户的显示装置例如CRT(阴极射线管)或LCD(液晶显示器)监视器、键盘以及指示设备例如鼠标或跟踪球的计算机上实现本说明书中描述的主题内容的实施方式,用户可以通过键盘以及指示设备将输入提供给计算机。也可以使用其他种类的装置以提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式包括声音输入、语音输入或触觉输入来接收来自用户的输入。此外,计算机可以通过将文档发送至用户使用的装置或从用户使用的装置接收文档来与用户进行交互;例如,通过响应于从web浏览器接收到的请求来将网页发送至用户客户端装置上的web浏览器。
可以在下述计算系统中实现本说明书中描述的主题内容的实施方式,该计算系统包括后端部件例如作为数据服务器,或包括中间件部件例如应用服务器,或包括前端部件例如具有通过其用户可以与本说明书中描述的主题内容的实现进行交互的图形用户界面或web浏览器的客户端计算机,或包括一个或更多个这样的后端部件、中间件部件或前端部件的任何组合。可以以数字数据通信的任何形式或介质例如通信网络来将系统的部件互相连接。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、内部网络(例如英特网)以及对等网络(例如特别对等网络)。
计算系统可以包括客户端和服务器。客户端和服务器通常距彼此较远并且通常通过通信网络进行交互。通过在相应的计算机上运行并且具有到彼此的客户端-服务器关系的计算机程序来形成客户端与服务器的关系。在一些实施方式中,服务器将数据(例如HTML页面)传送至客户端装置(例如,以用于将数据显示给与客户端装置进行交互的用户并且从与客户端装置进行交互的用户接收用户输入)。可以从服务器处的客户端装置接收客户端装置处生成的数据(例如用户交互的结果)。
尽管本说明书包含许多特定的实现细节,但是这些细节不应当被解释为对任何发明的范围或所要求保护的范围的限制,而是作为对特定发明的特定实施方式所特有的特征的描述。还可以在单个实施方式中以组合形式来实现在单独的实施方式的使用环境下在本说明书中描述的某些特征。相反地,还可以单独地或以任何适合的子组合来在多个实施方式中实现在单一实施方式的使用环境下描述的各种特征。此外,尽管上文可能将特征描述为以某种组合产生效果并且甚至初始地被要求为这样,但是在一些情况下可以将根据所要求保护的组合的一个或更多个特征从组合中删除,并且所要求保护的组合可以致力于子组合或子组合的变型。
类似地,尽管在附图中以特定顺序描绘了操作,但是不应该将此理解为要求按所示出的特定顺序或按连续的顺序来进行这些操作或者理解为要求进行示出的所有操作以实现期望的结果。在某些情况下,多任务处理和并行处理可能是最好的。此外,不应该将上文描述的实施方式中的对各个系统部件的分离理解为在所有实施方式中都要求这样的分离,并且应该理解的是,通常可以将所描述的程序部件和系统一起集成在单个软件产品中或者封装在多个软件产品中。
这样,描述了主题内容的特定实施方式。
尽管在所附权利要求中限定了本发明,但是要理解的是,可替换地,还可以根据下述实施方式来限定本发明:
1.一种由包括一个或更多个计算机的系统进行的方法,所述方法包括:
获得表征使用呈现语言的电子发布的第一新闻文章集群的数据,其中表征所述第一新闻文章集群的所述数据包括所述呈现语言的一个或更多个词语以及标识与所述第一集群相关联的第一地理区域的区域数据;
通过将所述词语中的一个或更多个词语从所述呈现语言翻译为第一语言来生成经翻译的词语,其中所述第一语言对应于所述第一地理区域;以及响应于根据所述一个或更多个经翻译的词语得出的搜索查询来获得使用所述第一语言的一个或更多个新闻文章。
2.根据实施例1所述的方法,还包括:
确定与所述第一地理区域对应的所述第一语言与所述呈现语言不同。
3.根据实施例1或2所述的方法,其中,获得使用所述第一语言的一个或更多个新闻文章包括:
响应于所述搜索查询来获得一个或更多个新闻结果,其中每个新闻结果标识使用所述第一语言的相应的第二新闻文章集群以及所述相应的第二集群中的一个或更多个新闻文章;以及
从所述新闻结果所标识的所述新闻文章中选择所述一个或更多个新闻文章。
4.根据实施例1至3中任一项所述的方法,其中,所述第一集群是由新闻服务定义的使用所述呈现语言的多个集群之一,并且其中表征所述第一集群的所述数据是从所述新闻服务获得的。
5.根据实施例2至4中任一项所述的方法,其中,所述第二集群中的每个集群是由所述新闻服务定义的使用所述第一语言的多个集群之一。
6.根据实施例1至5中任一项所述的方法,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询指定待搜索的版本,并且其中由所述新闻服务来维护所述版本。
7.根据实施例1至6中任一项所述的方法,其中,从所述新闻结果所标识的所述新闻文章中选择一个或更多个新闻文章包括:
根据被分配给所述第二集群中的每个集群的相应得分从所述第二集群中识别最高得分集群;以及
从所述最高得分新闻文章集群中选择一个或更多个新闻文章。
8.根据实施例7所述的方法,还包括:
确定被分配给所述最高得分集群的所述得分超过指定阈值。
9.根据实施例1至8中任一项所述的方法,还包括:
针对所述第一新闻文章集群生成新闻结果,其中针对所述第一新闻文章集群的所述新闻结果包括标识所述一个或更多个所获得的新闻文章中的每个新闻文章的数据。
10.根据实施例9所述的方法,还包括:
将所述新闻结果传送至客户端装置以用于呈现给用户。
11.根据实施例9或10所述的方法,其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括至所获得的新闻文章的机器翻译的链接。
12.根据实施例9至11中任一项所述的方法,其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括下述链接:所述链接在被客户端装置的用户选择时向翻译服务发出将所获得的新闻文章从所述第一语言机器翻译成所述呈现语言的请求。
13.根据实施例9至12中任一项所述的方法,其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括所获得的新闻文章的标题从所述第一语言到所述呈现语言的翻译。
14.根据实施例1至13中任一项所述的方法,还包括:
获得所获得的新闻文章中的一个或更多个新闻文章中的每个新闻文章从所述第一语言到所述呈现语言的相应机器翻译;以及
针对所述机器翻译中的每个机器翻译,确定该机器翻译未充分地匹配所述第一新闻文章集群中的任何新闻文章。
15.根据实施例14所述的方法,其中,确定所述机器翻译未充分地匹配新闻文章的所述第一集群中的任何新闻文章包括:确定所述机器翻译的标题以及来自所述机器翻译的文本片段中的至少之一不与所述第一新闻文章集群中的任何新闻文章的标题以及相应文本片段充分地相似。
16.根据实施例1至15中任一项所述的方法,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询包括所述一个或更多个经翻译的词语中的每个词语以及下述数据:该数据指定响应于所述搜索查询获得的新闻结果所标识的集群的日期范围或最小尺寸中的至少之一。
17.一种包括一个或更多个计算机以及一个或更多个存储装置的系统,所述一个或更多个存储装置存储指令,当由所述一个或更多个计算机执行所述指令时,所述指令使所述一个或更多个计算机执行操作,所述操作包括:
获得表征使用呈现语言的电子发布的第一新闻文章集群的数据,其中表征所述第一新闻文章集群的所述数据包括所述呈现语言的一个或更多个词语以及标识与所述第一集群相关联的第一地理区域的区域数据;
通过将所述词语中的一个或更多个词语从所述呈现语言翻译为第一语言来生成经翻译的词语,其中所述第一语言对应于所述第一地理区域;以及响应于根据所述一个或更多个经翻译的词语得出的搜索查询来获得使用所述第一语言的一个或更多个新闻文章。
18.根据实施例17所述的系统,所述操作还包括:
确定与所述第一地理区域对应的所述第一语言与所述呈现语言不同。
19.根据实施例17或18所述的系统,其中,获得使用所述第一语言的一个或更多个新闻文章包括:
响应于所述搜索查询来获得一个或更多个新闻结果,其中每个新闻结果标识使用所述第一语言的相应的第二新闻文章集群,以及所述相应的第二集群中的一个或更多个新闻文章;以及
从所述新闻结果所标识的所述新闻文章中选择所述一个或更多个新闻文章。
20.根据实施例17至19中任一项所述的系统,其中,所述第一集群是由新闻服务定义的使用所述呈现语言的多个集群之一,并且其中表征所述第一集群的所述数据是从所述新闻服务获得的。
21.根据实施例19或20所述的系统,其中,所述第二集群中的每个集群是由所述新闻服务定义的使用所述第一语言的多个集群之一。
22.根据实施例17至21中任一项所述的系统,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询指定待搜索的版本,并且其中由所述新闻服务来维护所述版本。
23.根据实施例19至22中任一项所述的系统,其中,从所述新闻结果所标识的所述新闻文章中选择一个或更多个新闻文章包括:
根据被分配给所述第二集群中的每个集群的相应得分从所述第二集群中识别最高得分集群;以及
从所述最高得分新闻文章集群中选择一个或更多个新闻文章。
24.根据实施例23所述的系统,所述操作还包括:
确定被分配给所述最高得分集群的所述得分超过指定阈值。
25.根据实施例17至24中任一项所述的系统,所述操作还包括:
针对所述第一新闻文章集群生成新闻结果,其中针对所述第一新闻文章集群的所述新闻结果包括标识所述一个或更多个所获得的新闻文章中的每个新闻文章的数据。
26.根据实施例25所述的系统,所述操作还包括:
将所述新闻结果传送至客户端装置以用于呈现给用户。
27.根据实施例25至26中任一项所述的系统,其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括至所获得的新闻文章的机器翻译的链接。
28.根据实施例25至27中任一项所述的系统,其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括下述链接:所述链接在被客户端装置的用户选择时向翻译服务发出将所获得的新闻文章从所述第一语言机器翻译成所述呈现语言的请求。
29.根据实施例25至28中任一项所述的系统,其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括所获得的新闻文章的标题从所述第一语言到所述呈现语言的翻译。
30.根据实施例17至29中任一项所述的系统,所述操作还包括:
获得所获得的新闻文章中的一个或更多个新闻文章中的每个新闻文章从所述第一语言到所述呈现语言的相应机器翻译;以及
针对所述机器翻译中的每个机器翻译,确定该机器翻译未充分地匹配所述第一新闻文章集群中的任何新闻文章。
31.根据实施例30所述的系统,其中,确定所述机器翻译未充分地匹配所述第一新闻文章集群中的任何新闻文章包括:确定所述机器翻译的标题以及来自所述机器翻译的文本片段中的至少之一不与所述第一新闻文章集群中的任何新闻文章的标题以及相应文本片段充分地相似。
32.根据实施例17至31中任一项所述的系统,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询包括所述一个或更多个经翻译的词语中的每个词语以及下述数据:该数据指定响应于所述搜索查询获得的新闻结果所标识的集群的日期范围或最小尺寸中的至少之一。
33.一种编码有计算机程序的计算机存储介质,所述程序包括指令,当由一个或更多个计算机执行所述指令时,所述指令使所述一个或更多个计算机根据实施例1至16中任一项执行操作。
其他实施方式在下述权利要求的范围内。在一些情况下,可以以不同的顺序来进行权利要求中详述的动作并且仍可以实现期望的结果。此外,在附图中描绘的处理不必须要求所示出的特定顺序或连续的顺序来实现期望的结果。在某些实现方式中,多任务处理和并行处理可能是有利的。

Claims (33)

1.一种由包括一个或更多个计算机的系统进行的方法,所述方法包括:
接收电子发布的新闻文章的查询,所述查询使用一种呈现语言;
识别与所述查询匹配的多个集群的第一集群,其中所述多个集群中的每个集群包括一个或更多个电子公布的新闻文章,并且其中每个集群中的一个或更多个新闻文章使用相同的呈现语言;
获得表征使用所述呈现语言的电子发布的第一新闻文章集群的数据,其中表征所述第一新闻文章集群的所述数据包括所述呈现语言的一个或更多个词语以及标识与所述第一集群相关联的第一地理区域的区域数据;
识别对应于第一地理区域的第一语言;
确定第一语言是否不同于呈现语言;
当第一种语言与呈现语言不同时:
通过将所述词语中的一个或更多个词语从所述呈现语言翻译为第一语言来生成经翻译的词语;以及
响应于根据所述一个或更多个经翻译的词语得出的搜索查询来获得使用所述第一语言的一个或更多个新闻文章,
针对所述第一新闻文章集群生成新闻结果,其中针对所述第一新闻文章集群的所述新闻结果包括标识所述一个或更多个所获得的新闻文章中的每个新闻文章的数据,
其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括以下中的至少之一:至所获得的新闻文章的机器翻译的链接;下述链接:所述链接在被客户端装置的用户选择时向翻译服务发出将所获得的新闻文章从所述第一语言机器翻译成所述呈现语言的请求;所获得的新闻文章的标题从所述第一语言到所述呈现语言的翻译。
2.根据权利要求1所述的方法,其中,获得使用所述第一语言的一个或更多个新闻文章包括:
响应于所述搜索查询来获得一个或更多个新闻结果,其中每个新闻结果标识使用所述第一语言的相应新闻文章的第二集群,以及所述相应的第二集群中的一个或更多个新闻文章;以及
从所述新闻结果所标识的所述新闻文章中选择所述一个或更多个新闻文章。
3.根据权利要求2所述的方法,其中,由新闻服务定义所述多个集群,并且其中表征所述第一集群的所述数据是从所述新闻服务获得的。
4.根据权利要求3所述的方法,其中,所述第二集群中的每个集群是所述多个集群之一并且使用所述第一语言。
5.根据权利要求4所述的方法,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询指定待搜索的版本,并且其中由所述新闻服务来维护所述版本。
6.根据权利要求2所述的方法,其中,从所述新闻结果所标识的所述新闻文章中选择一个或更多个新闻文章包括:
根据被分配给所述第二集群中的每个集群的相应得分从所述第二集群中识别最高得分集群;以及
从新闻文章的所述最高得分集群中选择一个或更多个新闻文章。
7.根据权利要求6所述的方法,还包括:
确定被分配给所述最高得分集群的所述得分超过指定阈值。
8.根据权利要求1所述的方法,还包括:
将所述新闻结果传送至客户端装置以用于呈现给用户。
9.根据权利要求1所述的方法,还包括:
获得所获得的新闻文章中的一个或更多个新闻文章中的每个新闻文章从所述第一语言到所述呈现语言的相应机器翻译;以及
针对所述机器翻译中的每个机器翻译,确定该机器翻译未匹配所述第一新闻文章集群中的任何新闻文章。
10.根据权利要求9所述的方法,其中,确定所述机器翻译未匹配所述第一新闻文章集群中的任何新闻文章包括:确定所述机器翻译的标题以及来自所述机器翻译的文本片段中的至少之一不与所述第一新闻文章集群中的任何新闻文章的标题以及相应文本片段相似。
11.根据权利要求1所述的方法,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询包括所述一个或更多个经翻译的词语中的每个词语以及下述数据:该数据指定响应于所述搜索查询获得的新闻结果所标识的集群的日期范围或最小尺寸中的至少之一。
12.一种包括一个或更多个计算机以及一个或更多个存储装置的系统,所述一个或更多个存储装置存储指令,当由所述一个或更多个计算机执行所述指令时,所述指令使所述一个或更多个计算机执行操作,所述操作包括:
接收电子发布的新闻文章的查询,所述查询使用一种呈现语言;
识别与所述查询匹配的多个集群的第一集群,其中所述多个集群中的每个集群包括一个或更多个电子公布的新闻文章,并且其中每个集群中的一个或更多个新闻文章使用相同的呈现语言;
获得表征使用所述呈现语言的电子发布的第一新闻文章集群的数据,其中表征所述第一新闻文章集群的所述数据包括所述呈现语言的一个或更多个词语以及标识与所述第一集群相关联的第一地理区域的区域数据;
识别对应于第一地理区域的第一语言;
确定第一语言是否不同于呈现语言;
当第一种语言与呈现语言不同时:
通过将所述词语中的一个或更多个词语从所述呈现语言翻译为第一语言来生成经翻译的词语;
响应于根据所述一个或更多个经翻译的词语得出的搜索查询来获得使用所述第一语言的一个或更多个新闻文章,以及
针对所述第一新闻文章集群生成新闻结果,其中针对所述第一新闻文章集群的所述新闻结果包括标识所述一个或更多个所获得的新闻文章中的每个新闻文章的数据,
其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括以下中的至少之一:至所获得的新闻文章的机器翻译的链接;下述链接:所述链接在被客户端装置的用户选择时向翻译服务发出将所获得的新闻文章从所述第一语言机器翻译成所述呈现语言的请求;所获得的新闻文章的标题从所述第一语言到所述呈现语言的翻译。
13.根据权利要求12所述的系统,其中,获得使用所述第一语言的一个或更多个新闻文章包括:
响应于所述搜索查询来获得一个或更多个新闻结果,其中每个新闻结果标识使用所述第一语言的相应的新闻文章的第二集群,以及所述相应的第二集群中的一个或更多个新闻文章;以及
从所述新闻结果所标识的所述新闻文章中选择所述一个或更多个新闻文章。
14.根据权利要求13所述的系统,其中,由新闻服务定义所述多个集群之一,并且其中表征所述第一集群的所述数据是从所述新闻服务获得的。
15.根据权利要求14所述的系统,其中,所述第二集群中的每个集群是所述多个集群之一,并且使用所述第一语言。
16.根据权利要求15所述的系统,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询指定待搜索的版本,并且其中由所述新闻服务来维护所述版本。
17.根据权利要求13所述的系统,其中,从所述新闻结果所标识的所述新闻文章中选择一个或更多个新闻文章包括:
根据被分配给所述第二集群中的每个集群的相应得分从所述第二集群中识别最高得分集群;以及
从新闻文章的所述最高得分集群中选择一个或更多个新闻文章。
18.根据权利要求17所述的系统,所述操作还包括:
确定被分配给所述最高得分集群的所述得分超过指定阈值。
19.根据权利要求12所述的系统,所述操作还包括:
将所述新闻结果传送至客户端装置以用于呈现给用户。
20.根据权利要求12所述的系统,所述操作还包括:
获得所获得的新闻文章中的一个或更多个新闻文章中的每个新闻文章从所述第一语言到所述呈现语言的相应机器翻译;以及
针对所述机器翻译中的每个机器翻译,确定该机器翻译未匹配所述第一新闻文章集群中的任何新闻文章。
21.根据权利要求20所述的系统,其中,确定所述机器翻译未匹配所述第一新闻文章集群中的任何新闻文章包括:确定所述机器翻译的标题以及来自所述机器翻译的文本片段中的至少之一不与所述第一新闻文章集群中的任何新闻文章的标题以及相应文本片段相似。
22.根据权利要求12所述的系统,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询包括所述一个或更多个经翻译的词语中的每个词语以及下述数据:该数据指定响应于所述搜索查询获得的新闻结果所标识的集群的日期范围或最小尺寸中的至少之一。
23.一种编码有计算机程序的计算机存储介质,所述程序包括指令,当由一个或更多个计算机执行所述指令时,所述指令使所述一个或更多个计算机执行操作,所述操作包括:
接收电子发布的新闻文章的查询,所述查询使用一种呈现语言;
识别与所述查询匹配的多个集群的第一集群,其中所述多个集群中的每个集群包括一个或更多个电子公布的新闻文章,并且其中每个集群中的一个或更多个新闻文章使用相同的呈现语言;
获得表征使用所述呈现语言的电子发布的第一新闻文章集群的数据,其中表征所述第一新闻文章集群的所述数据包括所述呈现语言的一个或更多个词语以及标识与所述第一集群相关联的第一地理区域的区域数据;
识别对应于第一地理区域的第一语言;
确定第一语言是否不同于呈现语言;
当第一种语言与呈现语言不同时:
通过将所述词语中的一个或更多个词语从所述呈现语言翻译为第一语言来生成经翻译的词语;以及
响应于根据所述一个或更多个经翻译的词语得出的搜索查询来获得使用所述第一语言的一个或更多个新闻文章,
针对所述第一新闻文章集群生成新闻结果,其中针对所述第一新闻文章集群的所述新闻结果包括标识所述一个或更多个所获得的新闻文章中的每个新闻文章的数据,
其中,标识所述一个或更多个所获得的新闻文章中的每个新闻文章的所述数据包括以下中的至少之一:至所获得的新闻文章的机器翻译的链接;下述链接:所述链接在被客户端装置的用户选择时向翻译服务发出将所获得的新闻文章从所述第一语言机器翻译成所述呈现语言的请求;所获得的新闻文章的标题从所述第一语言到所述呈现语言的翻译。
24.根据权利要求23所述的计算机存储介质,其中,获得使用所述第一语言的一个或更多个新闻文章包括:
响应于所述搜索查询来获得一个或更多个新闻结果,其中每个新闻结果标识使用所述第一语言的相应新闻文章的第二集群,以及所述相应的第二集群中的一个或更多个新闻文章;以及
从所述新闻结果所标识的所述新闻文章中选择所述一个或更多个新闻文章。
25.根据权利要求24所述的计算机存储介质,其中,由新闻服务定义所述多个集群,并且其中表征所述第一集群的所述数据是从所述新闻服务获得的。
26.根据权利要求25所述的计算机存储介质,其中,所述第二集群中的每个集群是所述多个集群之一并且使用所述第一语言。
27.根据权利要求26所述的计算机存储介质,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询指定待搜索的版本,并且其中由所述新闻服务来维护所述版本。
28.根据权利要求24所述的计算机存储介质,其中,从所述新闻结果所标识的所述新闻文章中选择一个或更多个新闻文章包括:
根据被分配给所述第二集群中的每个集群的相应得分从所述第二集群中识别最高得分集群;以及
从新闻文章的所述最高得分集群中选择一个或更多个新闻文章。
29.根据权利要求28所述的计算机存储介质,所述操作还包括:
确定被分配给所述最高得分集群的所述得分超过指定阈值。
30.根据权利要求23所述的计算机存储介质,所述操作还包括:
将所述新闻结果传送至客户端装置以用于呈现给用户。
31.根据权利要求23所述的计算机存储介质,所述操作还包括:
获得所获得的新闻文章中的一个或更多个新闻文章中的每个新闻文章从所述第一语言到所述呈现语言的相应机器翻译;以及
针对所述机器翻译中的每个机器翻译,确定该机器翻译未匹配所述第一新闻文章集群中的任何新闻文章。
32.根据权利要求31所述的计算机存储介质,其中,确定所述机器翻译未匹配所述第一新闻文章集群中的任何新闻文章包括:确定所述机器翻译的标题以及来自所述机器翻译的文本片段中的至少之一不与所述第一新闻文章集群中的任何新闻文章的标题以及相应文本片段相似。
33.根据权利要求23所述的计算机存储介质,其中,根据所述一个或更多个经翻译的词语得出的所述搜索查询包括所述一个或更多个经翻译的词语中的每个词语以及下述数据:该数据指定响应于所述搜索查询获得的新闻结果所标识的集群的日期范围或最小尺寸中的至少之一。
CN201280071302.7A 2012-02-03 2012-02-03 经翻译的新闻 Active CN104205093B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2012/000059 WO2013115670A1 (en) 2012-02-03 2012-02-03 Translated news

Publications (2)

Publication Number Publication Date
CN104205093A CN104205093A (zh) 2014-12-10
CN104205093B true CN104205093B (zh) 2018-04-20

Family

ID=46754745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280071302.7A Active CN104205093B (zh) 2012-02-03 2012-02-03 经翻译的新闻

Country Status (4)

Country Link
US (1) US9569429B2 (zh)
KR (1) KR101953812B1 (zh)
CN (1) CN104205093B (zh)
WO (1) WO2013115670A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427672B (zh) * 2018-02-07 2019-05-07 平安科技(深圳)有限公司 文字翻译的方法、终端设备及计算机可读存储介质
WO2021184249A1 (en) * 2020-03-18 2021-09-23 Citrix Systems, Inc. Machine translation of digital content
US20230029058A1 (en) * 2021-07-26 2023-01-26 Microsoft Technology Licensing, Llc Computing system for news aggregation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101443759A (zh) * 2006-05-12 2009-05-27 乐图集团有限公司 多语言信息检索
CN101657810A (zh) * 2007-02-14 2010-02-24 谷歌公司 机器翻译反馈
CN101868797A (zh) * 2007-09-21 2010-10-20 谷歌公司 跨语言搜索

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668144A (ja) * 1992-08-14 1994-03-11 Fujitsu Ltd 電子ニュース翻訳配送装置
SG93868A1 (en) * 2000-06-07 2003-01-21 Kent Ridge Digital Labs Method and system for user-configurable clustering of information
KR100335570B1 (ko) * 2000-06-23 2002-05-08 이홍길 인터넷 방송 장치 및 그 방법
JP3982736B2 (ja) * 2000-06-30 2007-09-26 沖電気工業株式会社 翻訳システム
US7627479B2 (en) * 2003-02-21 2009-12-01 Motionpoint Corporation Automation tool for web site content language translation
US9495358B2 (en) * 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101443759A (zh) * 2006-05-12 2009-05-27 乐图集团有限公司 多语言信息检索
CN101657810A (zh) * 2007-02-14 2010-02-24 谷歌公司 机器翻译反馈
CN101868797A (zh) * 2007-09-21 2010-10-20 谷歌公司 跨语言搜索

Also Published As

Publication number Publication date
KR101953812B1 (ko) 2019-03-04
US9569429B2 (en) 2017-02-14
KR20140119808A (ko) 2014-10-10
CN104205093A (zh) 2014-12-10
WO2013115670A1 (en) 2013-08-08
US20150120280A1 (en) 2015-04-30

Similar Documents

Publication Publication Date Title
CN105051732B (zh) 本地应用内容的排名
JP6257690B2 (ja) 検索結果とともに知識パネルを提供すること
CN105260420B (zh) 一种用于在移动应用中提供目标页面的方法与设备
CN106446005B (zh) 因子分解模型
KR101617814B1 (ko) 이미지 내에서의 개체 식별
US9443008B2 (en) Clustering of search results
CN104428765B (zh) 减少重定向
US20140195893A1 (en) Method and Apparatus for Generating Webpage Content
CN107231816A (zh) 减少时延
CN105027121A (zh) 对本机应用的应用页面建索引
CN106688215A (zh) 针对内容效能优化的自动点击类型选择
CN108874931A (zh) 与搜索结果一起提供知识面板
CN105745643A (zh) 用于以基于文本的内容为基础创建基于图像的内容的系统和方法
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
US9536445B2 (en) System and method for visually tracking a learned process
US20120089457A1 (en) Search Container
US20140123075A1 (en) System and method for generating and accessing trails
CN110249324A (zh) 在多个网页上维护会话标识符以进行内容选择
CN104205093B (zh) 经翻译的新闻
JPWO2014155688A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN106233284B (zh) 生成用于主要内容的稳定标识符的方法和系统
Highfield et al. Interactive web-based mapping: bridging technology and data for health
CN103339583A (zh) 利用地理ip信息选择默认化身
US9020970B2 (en) Embeddable web application agent
US11007443B2 (en) Method for performing game by using activity count

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant