CN104620241B - 多语言文档聚类 - Google Patents

多语言文档聚类 Download PDF

Info

Publication number
CN104620241B
CN104620241B CN201380047819.7A CN201380047819A CN104620241B CN 104620241 B CN104620241 B CN 104620241B CN 201380047819 A CN201380047819 A CN 201380047819A CN 104620241 B CN104620241 B CN 104620241B
Authority
CN
China
Prior art keywords
document
language
computing device
basic
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380047819.7A
Other languages
English (en)
Other versions
CN104620241A (zh
Inventor
基里尔·布里亚克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN104620241A publication Critical patent/CN104620241A/zh
Application granted granted Critical
Publication of CN104620241B publication Critical patent/CN104620241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种技术,能够包括:识别待聚类的文档集。所述文档集能够包括外语文档和基础语言文档。在基础语言翻译模块处能够将外语文档翻译成基础语言。在文档索引模块处能够确定基础语言文档中的关键字和经翻译的外语文档中的关键字。基于基础语言文档中的确定的关键字和经翻译的外语文档中的确定的关键字,能够将基础语言文档与外语文档聚类在文档聚类的公共集合中。响应于第一语言的搜索查询,能够提供搜索结果的列表,其包括公共文档聚类中的第一语言的文档和另一语言的文档。

Description

多语言文档聚类
相关申请的交叉引用
本申请要求于2012年7月16日提交的美国实用专利申请第13/549,624号的优先权。以上申请的公开内容通过引用被整体合并到本文中。
背景技术
文档聚类(document clusters)可以用于增强搜索查询。可以基于共同特征来聚类文档集。聚类中的文档可以是一种语言的。例如,因为关键字被用于形成文档聚类,所以文档可能是针对一种语言来聚类。当用户输入搜索查询时,提供的结果将仅与一种语言的一组文档有关。因此,响应于搜索查询,与搜索有关的、但是不同语言的文档将不会被提供给用户。
发明内容
在本公开内容的多个实施方式中,技术能够包括在计算装置中的文档收集模块处确定待聚类的文档集。文档集能够包括外语文档和基础语言文档。在计算装置中的基础语言翻译模块处,外语文档能够被机器翻译成基础语言。在计算装置中的文档索引模块处能够确定基础语言文档中的关键字和经翻译的外语文档中的关键字。在文档索引模块处,与语言无关的关键字索引能够被分配给每个确定的关键字。在计算装置中的聚类模块处,基于与语言无关的关键字索引,能够将基础语言文档与外语文档聚类在文档聚类的公共集合中。文档聚类的集合能够包括基础语言文档和外语文档两者,并且文档聚类的集合能够被存储在数据库中。
在本公开内容的多个实施方式中,技术能够包括在计算装置中的文档收集模块处识别待聚类的文档集。文档集能够包括外语文档和基础语言文档。在计算装置中的基础语言翻译模块处,外语文档能够被翻译成基础语言。在计算装置中的文档索引模块处能够确定基础语言文档中的关键字和经翻译的外语文档中的关键字。在计算装置中的聚类模块处,基于基础语言文档中的确定的关键字和经翻译的外语文档中的确定的关键字,能够将基础语言文档与外语文档聚类在文档聚类的公共集合中。文档聚类的集合能够包括基础语言文档和外语文档两者,并且文档聚类的集合能够被存储在数据库中。
技术还能够包括:在计算装置中的重复文档确定模块处确定文档聚类之一中的第一语言的第一文档何时对应于所述文档聚类之一中的不同于第一语言的第二语言的第二文档的翻译,并且当第一文档对应于第二文档的翻译时在计算装置处提供指示。确定第一文档何时对应于第二文档的翻译包括确定所述文档聚类之一中的文档之间的距离,并且当第一文档和第二文档之间的距离在预定阈值以内时提供指示。第一文档和第二文档之间的距离能够对应于第一文档和第二文档之间的相似水平。
将外语文档翻译成基础语言能够包括将外语文档机器翻译成基础语言。可替选地,将外语文档翻译成基础语言能够包括将外语文档发送至翻译引擎,以及从翻译引擎接收外语文档的基础语言翻译。技术还能够包括将与语言无关的关键字索引应用于关键字。与语言无关的关键字索引能够包括数字关键字索引。在将与语言无关的关键字索引应用于关键字之后能够进行聚类,并且能够基于与语言无关的关键字索引将外语文档和基础语言文档分组到文档聚类的集合中。
识别待聚类的文档集能够包括访问包括电子商务产品数据库的封闭系统中的产品数据库。每个文档聚类能够包括基础语言和至少一种外语的产品数据库中相关产品的产品信息。技术还能够包括临时存储经翻译的外语文档,以及在确定经翻译的外语文档中的关键字之后删除经翻译的外语文档。
在本公开内容的多个实施方式中,技术能够包括文档收集模块、基础语言翻译模块、文档索引模块、聚类模块以及数据库。文档收集模块能够识别来自网络的待聚类的文档集,其包括多种语言的文档,并且文档收集模块能够识别基础语言。基础语言翻译模块能够与文档收集模块通信,并且能够识别基础语言,以及能够提供文档集中的外语文档的基础语言翻译。文档索引模块能够与文档收集模块和基础语言翻译模块通信,并且能够从文档集中的基础语言文档以及外语文档的翻译中确定关键字。聚类模块能够与文档索引模块通信,并且能够基于来自文档索引模块的所确定的关键字,产生针对文档集的文档聚类。文档聚类能够包括文档集中的基础语言文档和外语文档。数据库能够与聚类模块通信,并且能够存储文档聚类。
技术还能够包括与数据库通信的重复文档确定模块,其确定文档聚类之一中的第一语言的第一文档何时对应于不同于第一语言的第二语言的第二文档的翻译,并且当第一文档对应于第二文档的翻译时能够在数据库中提供指示。重复文档确定模块能够确定第一文档和第二文档之间的距离,并且当第一文档和第二文档之间的距离在预定阈值以内时能够提供指示。第一文档和第二文档之间的距离能够对应于第一文档和第二文档之间的相似水平。
基础语言翻译模块能够提供将外语文档机器翻译成基础语言。文档索引模块能够将与语言无关的关键字索引提供给每个关键字。聚类模块能够基于与语言无关的关键字索引生成针对文档集的文档聚类。网络能够包括形成电子商务产品数据库的封闭系统中的产品数据库。每个文档聚类能够包括基础语言和至少一种外语的产品数据库中相关产品的产品信息。
在本公开内容的多个实施方式中,技术能够包括:在计算装置中的通信模块处接收来自与用户装置交互的用户的对翻译网页的请求,其中用户装置与计算装置通信。能够在通信模块处接收来自用户的第一语言的搜索查询。能够在计算装置中的文档识别模块处识别与搜索查询有关的第一语言的至少一个文档,以及来自与计算装置通信的数据库的至少一个文档聚类。至少一个文档能够包括被用户请求从第一语言翻译成不同于第一语言的第二语言的第一文档。文档聚类能够包括第一语言的第一文档和第二语言的另外文档。能够通过以下操作产生文档聚类:(ⅰ)在计算装置中的文档收集模块处识别待聚类的文档集,文档集包括外语文档和基础语言文档;(ⅱ)在计算装置中的基础语言翻译模块处将外语文档翻译成基础语言,以得到经翻译的外语文档;(ⅲ)在计算装置中的文档索引模块处确定基础语言文档中的关键字和经翻译的外语文档中的关键字;(ⅳ)在计算装置中的聚类模块处,基于基础语言文档中的所确定的关键字和经翻译的外语文档中的所确定的关键字,将基础语言文档与外语文档聚类在文档聚类的公共集合中,文档聚类的集合包括基础语言文档和外语文档两者;以及(ⅴ)将文档聚类的集合存储在数据库中。能够在聚类评估模块处针对与第一文档的距离在预定阈值内的第二语言的第二文档来评估至少一个文档聚类,其中第一文档与第二文档之间的距离对应于第一文档与第二文档之间的相似水平。当第二文档与第一文档的距离在预定阈值内时,能够响应于搜索查询,通过计算装置中的用户接口模块提供第二文档给用户装置。
在本公开内容的多个实施方式中,技术能够包括在计算装置中的通信模块处接收来自与用户装置交互的用户的第一语言的搜索查询,其中用户装置与计算装置通信。在计算装置的文档识别模块处,能够识别与搜索查询有关的第一语言的至少一个文档以及来自与计算装置通信的数据库的至少一个文档聚类。文档聚类能够包括第一语言的至少一个文档以及不同于第一语言的第二语言的另外文档。响应于搜索查询,能够从计算设备将搜索结果的列表提供给用户装置。搜索结果的列表能够包括至少两种语言的文档,其中至少两种语言包括第一语言和第二语言。
搜索查询能够包括来自用户的翻译网页的请求,并且至少一个文档能够包括被用户请求从第一语言翻译成第二语言的第一文档。技术还可以包括针对与第一文档的距离在预定阈值内的第二语言的第二文档来评估至少一个文档聚类,以及当第二文档与第一文档的距离在预定阈值内时,响应于搜索查询将第二文档提供给用户。第一文档和第二文档之间的距离能够对应于第一文档和第二文档之间的相似水平。
能够通过下述步骤产生文档聚类:(ⅰ)在计算装置中的文档收集模块处识别待聚类的文档集,文档集包括外语文档和基础语言文档;(ⅱ)在计算装置中的基础语言翻译模块处将外语文档翻译成基础语言,以得到经翻译的外语文档;(ⅲ)在计算装置中的文档索引模块处确定基础语言文档中的关键字和经翻译的外语文档中的关键字;(ⅳ)在计算装置中的聚类模块处,基于基础语言文档中的所确定的关键字和经翻译的外语文档中的所确定的关键字,将基础语言文档与外语文档聚类在文档聚类的公共集合中,文档聚类的集合包括基础语言文档和外语文档两者;以及(ⅴ)将文档聚类的集合存储在数据库中。第一语言能够是用于产生文档聚类的基础语言,或者能够是对应于外语文档之一的语言。
提供搜索结果的列表能够包括:将包括第一语言的文档和至少第二语言的文档的结果的列表提供给用户装置。可替选地,提供搜索结果的列表能够包括:将包括第一语言的文档的结果的列表提供给用户装置,以及为用户提供查看包括至少第二语言的文档的相关外语文档的选项。
搜索查询能够包括识别电子商务网站上的第一产品。至少一个文档能够对应于第一产品,并且至少一个文档聚类能够包括与第一产品有关的另外产品的信息,所述信息采用不同于第一语言的语言。提供搜索结果的列表能够包括响应于搜索查询将另外产品的列表提供给用户装置。
在本公开内容的多个实施方式中,技术能够包括通信模块、文档识别模块和用户接口模块。通信模块能够接收来自与用户装置交互的用户的第一语言的搜索查询,其中用户装置与计算装置通信。文档识别模块能够与通信模块通信,并且能够识别与搜索查询有关的第一语言的至少一个文档以及来自与计算装置通信的数据库的至少一个文档聚类。文档聚类能够包括第一语言的至少一个文档和不同于第一语言的第二语言的另外文档。用户接口模块能够与文档识别模块通信,并且能够产生搜索结果的列表并且将搜索结果的列表提供给用户装置。搜索结果的列表能够包括至少两种语言的文档,所述至少两种语言包括第一语言和第二语言。
通信模块能够接收来自用户的翻译网页的请求,并且至少一个文档能够包括被用户请求从第一语言翻译成第二语言的第一文档。技术还能够包括与文档识别模块通信的聚类评估模块,其针对与第一文档的距离在预定阈值内的第二语言的第二文档来评估至少一个文档聚类,并且当第二文档与第一文档的距离在预定阈值内时,响应于搜索查询将第二文档提供给用户。第一文档与第二文档之间的距离能够对应于第一文档与第二文档之间的相似水平。
技术还能够包括文档收集模块、基础语言翻译模块、文档索引模块以及聚类模块。能够通过以下步骤生成至少一个文档聚类:(ⅰ)在文档收集模块处识别待聚类的文档集,文档集包括外语文档和基础语言文档;(ⅱ)在基础语言翻译模块处将外语文档翻译成基础语言;(ⅲ)在文档索引模块处确定基础语言文档中的关键字和经翻译的外语文档中的关键字;(ⅳ)在聚类模块处,基于基础语言文档中的所确定的关键字和经翻译的外语文档中的所确定的关键字,将基础语言文档与外语文档聚类在文档聚类的公共集合中,文档聚类的集合包括基础语言文档和外语文档两者;以及(ⅴ)将文档聚类的集合存储在数据库中。
第一语言能够是用于产生文档聚类的基础语言,或者能够是对应于外语文档之一的语言。搜索结果的列表能够包括第一语言的文档和至少第二语言的文档。可替选地,搜索结果的列表能够包括第一语言的文档,以及供用户查看包括至少第二语言的文档的相关外语文档的选项。
搜索查询能够包括识别电子商务网站上的第一产品。至少一个文档能够对应于第一产品,并且至少一个文档聚类能够包括与第一产品有关的另外产品的信息,所述信息采用不同于第一语言的第二语言。响应于搜索查询,文档识别模块能够将另外产品的列表提供给用户装置。
这些和其它实现可以提供以下优势中的一个或多个优势。在一些实现中,例如,技术可以通过返回被认为是响应于查询的、以搜索查询的语言以外的语言的文档,来提供增强的搜索结果。以这种方式,可以向用户返回与搜索查询相关的、但是以不同于查询语言的语言的文档。
从下文提供的详细描述将会明显看出本公开内容的另外的应用领域。应当理解的是详细描述和具体示例仅意图用于说明的目的,而不意图限制本公开内容的范围。
附图说明
根据详细描述以及附图将更加全面地理解本公开内容,其中:
图1是能够应用本公开内容的技术的示例环境的示意图;
图2是图1中的第一示例计算装置的功能框图;
图3是根据本公开内容的示例文档聚类技术的流程图;
图4是示出了图3的聚类技术的示例文档集的示意图;
图5是图1中的第二示例计算装置的功能框图;以及
图6是根据本公开内容的示例技术的流程图。
具体实施方式
现在参考图1,图示了能够使用根据本公开内容的一些实施方式的技术的环境。例如,用户10能够与用户装置12交互以访问网络14。网络14的示例包括因特网、广域网、局域网以及专用网络,但不限于此。第一计算装置16和第二计算装置18可以连接到网络14,并且也可以由用户10经由用户装置12来访问。如本公开内容中所使用的,计算装置可以包括一个或更多个计算装置,如服务器和/或处理器。第一和第二计算装置16、18可以包括彼此共有或彼此不同的服务器和/或处理器的任何组合。第一和第二计算装置16、18中的每一个可以与数据库20通信,以存储和/或访问文档聚类集合。本领域的技术人员将会理解图1中示出的环境仅仅是说明性的,并且不同的环境可以与本公开内容一起使用(如包括更多或更少部件的环境、包括另外的连接的环境,和/或以不同的结构来布置的环境)。
参考图2,第一计算装置16可以包括文档收集模块22、基础语言翻译模块24、文档索引模块26、聚类模块28以及重复文档确定模块30。文档收集模块22与网络14通信并且识别待聚类的文档集。文档收集模块22可以与基础语言翻译模块24和聚类模块28通信,并且可以提供文档给基础语言翻译模块24和聚类模块28。文档集可以包括不同语言的文档。可以包括任何数目的不同语言的文档。第一计算装置16提供了用于聚类不同语言的文档的技术。文档索引模块26、聚类模块28以及重复文档确定模块30中的每一个可以与数据库20通信。文档索引模块26也可以与基础语言翻译模块24以及聚类模块28通信。
图3示出的流程图中图示了示例聚类技术100。在110处,由文档收集模块22识别待聚类的文档集。文档集包括多种语言的文档。文档集可以包括万维网上的文档的全部或其任何子集。可替选地,文档集能够包括封闭系统(诸如产品数据库)中的文档的集合。在识别文档之后,在112处文档被翻译成公共(基础)语言。
翻译可以包括将外国(非基础)语言文档机器翻译成基础语言。翻译可以由基础语言翻译模块24在本地完成,或者可以被发送至翻译引擎32。翻译可以被存储在数据库20中。在114处由文档索引模块26确定文档中的关键字。可以对翻译的文档和基础语言文档使用网络爬虫(web crawling),以产生关键字列表。对于关键字确定,可以省去考虑不重要的词语,如停用词(stop word)“一个”、“一”和“该”。
然后,在116处文档索引模块26以与语言无关(language-agnostic)的方式来给关键字编索引。图4提供了文档索引的简化表示。文档索引可以包括将数字关键字标识符分配给文档中的每个关键字。只出于举例的目的,基础语言可以是英语。图4中的“文档1”可以是德语文档的英语翻译,“文档2”可以是母语英语文档,“文档n”可以是西班牙语文档的英语翻译。在114处,本技术针对经翻译的文档和基础语言(在示例中是英语)文档,确定基础语言的关键字(示例中的关键字1、2、3、4、5)。
在116处,本技术将与语言无关的关键字索引(示例中的ld1、ld2、ld3、ld4、ld5)分配给关键字。然后可以通过关键字来对经翻译的文档集编索引。文档索引模块26可以将针对文档的与语言无关的关键字索引存储在数据库20中。因此,数据库20具有原始文档集的与语言无关的关键字索引,该原始文档集包括基础语言文档和外语文档(以它们本国的语言)。在完成关键字索引之后,可以删除外语文档的翻译。因此,文档集可以是多种语言的(在示例中是英语、德语和西班牙语),并且可以以与语言无关的方式来对文档集编索引。
然后,在118处聚类模块28通过关键字索引来聚类文档。聚类模块28可以以包括任何数目的聚类算法的多种方式对文档进行操作。作为非限制性示例,文档聚类算法可以包括连通模型、重心模型、分布模型、密度模型、子空间模型或群组模型。根据所使用的聚类技术,文档可以被分组在一个或更多个文档聚类中。本公开内容不限于任何具体的聚类技术,并且能够通过使用多种已知聚类技术中的任何技术来应用本公开内容。
当文档被分成文档聚类时,聚类模块28可以通过距离函数在每个聚类中排列文档。距离函数可以产生与两个文档之间的相似水平相对应的两个文档之间的距离。仅出于举例的目的,假设图4中的“文档1,2,…,n”中的每一个在一个聚类中。以简化的形式,可以通过文档共有的关键字的数目来定义文档之间的距离:
距离(文档1,文档2)=4
距离(文档1,文档n)=2
距离(文档2,文档n)=2
然后,因为“文档1”和“文档2”具有最多的共有关键字,所以在聚类中以图4中示出的顺序(文档1,文档2,文档n)排列文档。
上述示例仅仅用于说明目的。应当理解的是,实际中,文档中的术语的频率可被纳入考虑,并且可进一步相对于文档中的词语的总数目而被归一化。当分配关键字索引时,可以通过考虑关键字位置和元数据来进一步改善上面示出的“文档1,2,…,n”的示例。在创建文档聚类并且在文档聚类中排列文档之后,在120处文档聚类被存储在数据库20中。
文档聚类也可以被用于估计文档聚类中的第一语言的第一文档何时对应于文档聚类中的第二文档,该第二文档是不同于第一语言的第二语言。重复文档确定模块30可以与聚类模块28通信,以估计第一文档和第二文档何时是不同语言的“相同”文档。重复文档确定模块30可以将上述距离函数应用于估计第一文档和第二文档何时是不同语言的相同文档。例如,可以建立预定阈值以确定文档何时是不同语言的相同文档。在图4示出的示例中,如果预定阈值被设定为“4”,则“文档1”被估计为英语“文档2”的德语等同物。重复文档确定模块30可以更新数据库20,以指示第一文档和第二文档是不同语言的相同文档。
重复文档确定模块30还可以与机器学习算法引擎34通信。重复文档确定模块30可以将被估计为不同语言的“相同”文档的文档对(document pair)作为平行文本(paralleltext)提供给机器学习算法引擎34,以用于训练机器学习算法引擎34进行机器翻译。
如上所述,技术100可以被普遍应用于万维网,或可以被应用于封闭系统。封闭系统应用的示例包括电子商务网站。作为非限制示例,在封闭系统应用中,由文档收集模块22识别的文档集可以包括电子商务产品数据库的产品。上述技术100可以被应用于电子商务产品数据库,并且可以创建多种语言的相关产品的聚类。
由图5中可以看到,第二计算装置18可以包括通信模块200、文档识别模块202、用户接口模块204和聚类评估模块206。通信模块200可以与文档识别模块202通信。文档识别模块202可以与用户接口模块204和聚类评估模块206通信。
图6示出的流程图中图示了示例技术300。技术300通过以下方式来提供扩展的搜索结果:在文档聚类中根据用户搜索查询找出一文档,以及将该文档的预定阈值内的文档包括进来。由于使用了多语言文档聚类,所以搜索中包括的另外文档可以是不同于搜索语言的任何语言。
通信模块200可以经由网络14与用户装置12通信,并且在302处接收来自用户装置12的搜索查询。搜索查询可以是第一语言的。在304处,文档识别模块202识别与搜索查询有关的第一语言的第一文档。然后文档识别模块202在306处识别包括第一文档的数据库20中的文档聚类,以及识别该文档聚类中的至少一个不同于第一语言的第二语言的文档(第二文档)。在308处,用户接口模块204生成包括至少两种语言的文档的搜索结果,该至少两种语言包括第一语言和第二语言。然后结果可以被提供给用户装置12。可以以多种方式提供结果。在第一非限制性示例中,搜索结果包括不同语言的结果的列表。在第二非限制性示例中,搜索结果包括第一语言的搜索结果的列表,其具有选项以供用户10显示不同于第一语言的一种或更多种语言的另外的参考。
当被应用于与上面论述的电子商务产品数据库有关的文档聚类时,技术300可以根据产品数据库的文档聚类提供包括外语描述的产品。在电子商务应用中,在302处,搜索查询可以包括用户指定的产品。在304处,找出文档聚类中的用户指定的产品,并且识别产品数据库中的产品。在306处,确定产品数据库文档聚类中的相关产品。可以在308处产生对于用户的推荐产品,包括具有不同于搜索语言(第一语言)的语言的说明或产品信息的产品。在310处将推荐产品列表提供给用户装置12。
上述技术300也可以被应用于用户10的翻译请求。例如,当应用于翻译请求时,通信模块200接收来自用户10的翻译网页的请求和文档翻译请求。在302处文档翻译请求包括将文档从第一语言翻译成第二语言的请求。在304处由文档识别模块202识别文档。在306处,由聚类评估模块206在数据库20的文档聚类中找出文档。
然后,聚类评估模块206确定文档聚类中的第二语言的第二文档与第一文档的距离是否在预定阈值内。如果第二文档在预定阈值内,则第一文档和第二文档被确定为彼此互为翻译,并且第二文档被提供给用户10作为对翻译请求的响应。此外,如果第二文档包括元数据或提供关于文档来源的信息的一些其它指示,诸如第二文档是否是人工翻译,则该信息可以被提供给用户10。
上面讨论的第一语言和第二语言可以与基础语言和外语有关,该基础语言和外语被用于以多种方式产生文档聚类。此外,应当理解的是任何数目的不同语言可以被包括在上面论述的示例中。在一个示例中,第一语言是基础语言,且第二语言是外语中的一种。在第二示例中,第一语言是外语中的一种,且第二语言是基础语言。在第三示例中,第一语言是外语中的一种,且第二语言是不同于第一语言的外语中的另一种。
提供了示例实施方式,使得本公开内容将会是全面的,并且向本领域的技术人员充分传达范围。阐述了大量的具体细节,诸如特定部件、装置以及方法的示例,以提供对本公开内容的实施方式的全面理解。本领域的技术人员明白的是,不需要采用具体细节,可以以许多不同的形式来体现示例实施方式,并且它们都不应当被理解为限制本公开内容的范围。
本文所使用的用词仅用于描述特定示例实施方式的目的,并不意图进行限制。如本文所使用的,除非上下文明确指出,否则单数形式“一个”、“一”和“该”也可以意图包括复数形式。术语“和/或”包括列出的相关项目中的一个或更多个的任何组合和全部组合。术语“包括(comprises)”、“包括(comprising)”、“包含”和“具有”是包括性的,因此指定所描述的特征、整数、步骤、操作、元件和/或部件的存在,但是不排除一个或更多个其它特征、整数、步骤、操作、元件、部件和或它们的组的存在或添加。除非具体标识为执行的顺序,否则本文所述的方法步骤、处理和操作不应被理解为必须要求按照所论述或所示出的特定顺序来执行。还应当理解的是可以采用另外的或替选的步骤。
虽然本文可以使用术语第一、第二、第三等来描述各种元件、部件、区域、层和/或部分,但是这些元件、部件、区域、层和/或部分不应当被这些术语所限制。这些术语仅用于将一个元件、部件、区域、层或部分与另一个区域、层或部分区分开来。除非上下文明确指出,否则诸如“第一”、“第二”和其它数字术语的术语在本文中使用时并不暗示次序或顺序。因此,在不偏离示例实施方式的教导的情况下,下面论述的第一元件、部件、区域、层或部分可以被称为第二元件、部件、区域、层或部分。
如本文所使用的,术语模块可以是指以下项目,或是以下项目的一部分,或者包括以下项目:专用集成电路(ASIC);电子电路;组合逻辑电路;现场可编程门阵列(FPGA);执行代码或过程的处理器、或处理器(共享的、专用的或成组的)与网络集群或数据中心中的存储器的分布式网络;提供所述功能的其它合适部件;或者上述中的一些或全部的组合,例如在片上系统中。术语模块也可以包括存储由一个或更多个处理器执行的代码的存储器(共享的、专用的或分组的)。
如上面使用,术语代码可以包括软件、固件、字节代码和/或微代码,并且可以指程序、例程、函数、类和/或对象。如上面使用的,术语共享意味着可以通过使用一个(共享的)处理器执行来自多个模块的一些或全部代码。此外,可以由一个(共享的)存储器存储来自多个模块的一些或全部代码。如上面使用的,术语“组”意味着可以通过使用一组处理器执行来自一个模块的一些或全部代码。此外,可以通过使用一组存储器存储来自一个模块的一些或全部代码。
可以通过由一个或更多个处理器执行的一个或更多个计算机程序来实现本文所述的技术。计算机程序包括存储在非暂态有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括存储的数据。非暂态有形计算机可读介质的非限制性示例是非易失存储器、磁存储器和光存储器。
就对信息操作的算法和符号表示方面,上述描述的一些部分呈现了本文所述的技术。这些算法描述和表示是数据处理领域的技术人员所使用的手段,以将他们的工作的实质最有效地传达给本领域的其它技术人员。这些操作在被功能性地或逻辑上地描述时,应被理解为可以通过计算机程序来实现。此外,已证明在不失一般性的情况下,将操作的这些布置称为模块或由功能名称来指代有时是便利的。
除非明确示出,否则从上面的论述可以明显看出,应当理解的是在整个说明书中,使用诸如“处理”或“运算”或“计算”或“确定”或“显示”等的术语的讨论指的是如下计算机系统或类似电子计算装置的动作和处理:该计算机系统或类似电子计算装置对在计算机系统存储器或寄存器或其它这样的信息存储器、传输或显示设备中被表示为物理(电子)量的数据进行操作和变换。
所述技术的特定方面包括在本文中以算法形式描述的处理步骤和指令。应当注意的是,所述处理步骤和指令能够以软件、固件或硬件来体现,并且在以软件体现时,能够被下载,以驻留在实时网络操作系统所使用的不同的平台上以及从该不同的平台来操作。
本公开内容还涉及用于执行本文的操作的设备。可以针对所需目的来特别地构建装置,或者该装置可以包括通用计算机,可以利用存储在计算机可以访问的计算机可读介质上的计算机程序来有选择地激活或重新配置该通用计算机。这种计算机程序可以被存储在有形计算机可读存储介质中,诸如但不限于包括软盘、光盘、CD-ROM、磁光盘的任何种类的盘、只读存储器(ROM)、随机存取存储器(RAM)、电可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、磁卡或光卡、专用集成电路(ASIC)、或者适合于存储电子指令的任何类型的介质,并且每一个都耦合到计算机系统总线。此外,本说明中提及的计算机可以包括一个处理器,或者可以是采用多处理器设计以提高计算能力的架构。
本文呈现的算法和操作并非固有地与任何特定计算机或其它装置相关。根据本文的教导,各种通用系统也可以与程序一起使用,或者可以证明构建更多专用设备来执行所需的方法步骤是方便的。本领域的技术人员将会明白多个这些系统的所需结构以及等同变化。此外,没有参考任何特定的编程语言来描述本公开内容。应当理解的是可以使用各种编程语言来实现如本文所述的本公开内容的教导,提供对特定语言的任何参考是为了公开本公开内容的实现和最佳模式。
本公开内容非常适用于许多拓扑结构的广泛的计算机网络系统。在本领域中,大型网络的配置和管理包括下述存储装置和计算机:该存储装置和计算机通过网络(如因特网)通信地耦合到不同的计算机和存储装置。
出于图示和说明的目的,已经提供了本实施方式的以上说明。它不意图穷举或限制本公开内容。虽然没有具体示出或描述,但是特定实施方式的各个元件或特征通常并不限于该特定实施方式,而是在适用的情况下是可互换的并且能够被用在所选择的实施方式中。特定实施方式的各个元件或特征也可以以许多方式变化。这样的变化并不被认为是对本公开内容的偏离,所有这些修改意图被包括在本公开内容的范围中。

Claims (18)

1.一种计算机实现的方法,包括:
在计算装置中的通信模块处接收来自与用户装置交互的用户的对翻译网页的请求,其中所述用户装置与所述计算装置通信;
在所述计算装置中的所述通信模块处接收来自所述用户的第一语言的搜索查询;
在所述计算装置中的文档识别模块处识别与所述搜索查询有关的一个或多个文档以及来自与所述计算装置通信的数据库的至少一个文档聚类,所述一个或多个文档来自文档集并且包括被用户请求从所述第一语言翻译成不同于所述第一语言的第二语言的第一文档,所述文档聚类包括所述第一语言的第一文档和所述第二语言的一个或多个另外文档,其中通过以下操作产生所述文档聚类:
(ⅰ)在所述计算装置中的文档收集模块处识别待聚类的文档集,所述文档集包括外语文档和基础语言文档;
(ⅱ)在所述计算装置中的基础语言翻译模块处将所述外语文档翻译成所述基础语言,以得到经翻译的外语文档;
(ⅲ)在所述计算装置中的文档索引模块处确定所述基础语言文档中的关键字和所述经翻译的外语文档中的关键字;
(ⅳ)在所述计算装置中的聚类模块处,基于所述基础语言文档中的确定的关键字和所述经翻译的外语文档中的确定的关键字,将所述基础语言文档与所述外语文档聚类在文档聚类的公共集合中,所述文档聚类的集合包括所述基础语言文档和所述外语文档两者,以及
(ⅴ)将所述文档聚类的集合存储在数据库中;
在所述计算装置中的聚类评估模块处评估所述至少一个文档聚类以从与所述第一文档的距离在预定阈值内的所述第二语言的所述一个或多个另外文档识别第二文档,其中所述第一文档与所述第二文档之间的距离对应于所述第一文档与所述第二文档之间的相似水平;
从所述至少一个文档聚类选择所述第二文档,以及
当所述第二文档与所述第一文档的距离在所述预定阈值内时,响应于所述搜索查询从所述计算装置中的用户接口模块处提供所述第二文档给所述用户装置。
2.一种计算机实现的方法,包括:
在计算装置中的通信模块处接收来自与用户装置交互的用户的第一语言的搜索查询,其中所述用户装置与所述计算装置通信;
在所述计算装置中的文档识别模块处识别与所述搜索查询有关的所述第一语言的一个或多个文档以及来自与所述计算装置通信的数据库的至少一个文档聚类,所述一个或多个文档来自文档集,所述文档聚类从所述文档集产生并且包括所述第一语言的所述一个或多个文档和不同于所述第一语言的第二语言的一个或多个另外文档;以及
评估所述至少一个文档聚类以从与所述第一语言的所述一个或多个文档的第一文档的距离在预定阈值内的所述第二语言的所述一个或多个另外文档识别第二文档,其中所述第一文档与所述第二文档之间的距离对应于所述第一文档与所述第二文档之间的相似水平
响应于所述搜索查询,从所述计算装置将搜索结果的列表提供给所述用户装置,所述搜索结果的列表包括只来自所述文档集并且至少两种语言的文档,其中所述至少两种语言包括所述第一语言和所述第二语言,当所述第二文档与所述第一文档的距离在所述预定阈值内时所述搜索结果的列表包括所述第二文档。
3.如权利要求2所述的计算机实现的方法,其中所述搜索查询包括来自所述用户的翻译网页的请求,并且所述第一文档被所述用户请求从所述第一语言翻译成所述第二语言。
4.如权利要求2所述的计算机实现的方法,其中通过以下步骤产生所述文档聚类:
(ⅰ)在所述计算装置中的文档收集模块处识别待聚类的文档集,所述文档集包括外语文档和基础语言文档;
(ⅱ)在所述计算装置中的基础语言翻译模块处将所述外语文档翻译成所述基础语言,以得到经翻译的外语文档;
(ⅲ)在所述计算装置中的文档索引模块处确定所述基础语言文档中的关键字和所述经翻译的外语文档中的关键字;
(ⅳ)在所述计算装置中的聚类模块处,基于所述基础语言文档中的确定的关键字和所述经翻译的外语文档中的确定的关键字,将所述基础语言文档与所述外语文档聚类在文档聚类的公共集合中,所述文档聚类的集合包括所述基础语言文档和所述外语文档,以及
(ⅴ)将所述文档聚类的集合存储在所述数据库中。
5.如权利要求4所述的计算机实现的方法,其中所述第一语言是用于产生所述文档聚类的所述基础语言。
6.如权利要求4所述的计算机实现的方法,其中所述第一语言是对应于所述外语文档之一的语言。
7.如权利要求2所述的计算机实现的方法,其中提供所述搜索结果的列表包括:将包括所述第一语言的文档和至少所述第二语言的文档的结果的列表提供给所述用户装置。
8.如权利要求2所述的计算机实现的方法,其中提供所述搜索结果的列表包括:将包括所述第一语言的文档的结果的列表提供给所述用户装置,以及为用户提供查看包括至少所述第二语言的文档的相关外语文档的选项。
9.如权利要求2所述的计算机实现的方法,其中所述搜索查询包括识别电子商务网站上的第一产品,所述至少一个文档对应于所述第一产品,并且所述一个或多个文档聚类包括与所述第一产品有关的另外产品的信息,所述信息采用不同于所述第一语言的语言。
10.如权利要求9所述的计算机实现的方法,其中提供所述搜索结果的列表包括响应于所述搜索查询将所述另外产品的列表提供给所述用户装置。
11.一种计算机实现的方法,包括:
在具有一个或更多个处理器的计算装置处识别待聚类的文档集,所述文档集包括外语文档和基础语言文档;
在所述计算装置处将所述外语文档翻译成所述基础语言,以得到经翻译的外语文档;
在所述计算装置处确定所述基础语言文档中的关键字和所述经翻译的外语文档中的关键字;
临时存储所述经翻译的外语文档并且在确定所述经翻译的外语文档中的关键字后删除所述经翻译的外语文档;
在所述计算装置处基于所述基础语言文档中的所确定的关键字和所述经翻译的外语文档中的所确定的关键字,将所述基础语言文档与所述外语文档聚类在文档聚类的公共集合中,所述文档聚类的集合包括所述基础语言文档和所述外语文档;以及
存储所述文档聚类的集合。
12.如权利要求11所述的计算机实现的方法,还包括:
在所述计算装置处确定所述文档聚类中的一个文档聚类中的第一语言的第一文档何时对应于在所述一个文档聚类中的不同于所述第一语言的第二语言的第二文档的翻译;以及
当所述第一文档对应于所述第二文档的翻译时,在所述计算装置处提供指示。
13.如权利要求12所述的计算机实现的方法,其中确定所述第一文档何时对应于所述第二文档的翻译包括:确定所述文档聚类中的一个文档聚类中的文档之间的距离,以及当所述第一文档与所述第二文档之间的所述距离在预定阈值内时提供所述指示,其中所述第一文档与所述第二文档之间的距离对应于所述第一文档与所述第二文档之间的相似水平。
14.如权利要求11所述的计算机实现的方法,其中将所述外语文档翻译成所述基础语言包括将所述外语文档机器翻译成所述基础语言。
15.如权利要求11所述的计算机实现的方法,其中将所述外语文档翻译成所述基础语言包括:将所述外语文档发送至翻译引擎,以及从所述翻译引擎接收所述外语文档的所述基础语言翻译。
16.如权利要求11所述的计算机实现的方法,还包括将与语言无关的关键字索引应用于所述关键字。
17.如权利要求16所述的计算机实现的方法,其中所述与语言无关的关键字索引包括数字关键字索引。
18.如权利要求16所述的计算机实现的方法,其中在将所述与语言无关的关键字索引应用于所述关键字之后进行聚类,并且基于所述与语言无关的关键字索引,所述外语文档和所述基础语言文档被分组在所述文档聚类的集合中。
CN201380047819.7A 2012-07-16 2013-07-11 多语言文档聚类 Active CN104620241B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/549,624 US8639698B1 (en) 2012-07-16 2012-07-16 Multi-language document clustering
US13/549,624 2012-07-16
PCT/US2013/050018 WO2014014732A1 (en) 2012-07-16 2013-07-11 Multi-language document clustering

Publications (2)

Publication Number Publication Date
CN104620241A CN104620241A (zh) 2015-05-13
CN104620241B true CN104620241B (zh) 2018-12-07

Family

ID=49914892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380047819.7A Active CN104620241B (zh) 2012-07-16 2013-07-11 多语言文档聚类

Country Status (5)

Country Link
US (1) US8639698B1 (zh)
EP (1) EP2873009A4 (zh)
KR (1) KR102152312B1 (zh)
CN (1) CN104620241B (zh)
WO (1) WO2014014732A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI810513B (zh) * 2021-01-14 2023-08-01 首岳資訊網路股份有限公司 網站自動翻譯生成系統及其方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9349135B2 (en) * 2013-07-30 2016-05-24 Intuit Inc. Method and system for clustering similar items
CN107430504A (zh) * 2015-04-08 2017-12-01 利斯托株式会社 数据变换系统及方法
US9984068B2 (en) 2015-09-18 2018-05-29 Mcafee, Llc Systems and methods for multilingual document filtering
CN105320646A (zh) * 2015-11-17 2016-02-10 天津大学 一种基于增量聚类的新闻话题挖掘方法及其装置
CN106855807B (zh) * 2016-12-16 2020-04-21 北京创世乐享科技有限公司 多语言表单的呈现方法及系统
US10691734B2 (en) * 2017-11-21 2020-06-23 International Business Machines Corporation Searching multilingual documents based on document structure extraction
CN109063184B (zh) * 2018-08-24 2020-09-01 广东外语外贸大学 多语言新闻文本聚类方法、存储介质及终端设备
CN111738022B (zh) * 2020-06-23 2023-04-18 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及系统
US20230029058A1 (en) * 2021-07-26 2023-01-26 Microsoft Technology Licensing, Llc Computing system for news aggregation
CN113643573B (zh) * 2021-08-16 2023-03-10 广州番禺职业技术学院 可学习的外语翻译词汇查询装置及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2261818A1 (en) * 2009-06-09 2010-12-15 Dudu Communications FZ-LLC A method for inter-lingual electronic communication
CN102053991A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 用于多语言文档检索的方法及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0856175A4 (en) 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US5956711A (en) 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US20020002452A1 (en) 2000-03-28 2002-01-03 Christy Samuel T. Network-based text composition, translation, and document searching
JP2003076710A (ja) 2001-09-04 2003-03-14 Japan Science & Technology Corp 多言語情報検索システム
KR20040059240A (ko) 2002-12-28 2004-07-05 엔에이치엔(주) 다국어 검색 번역 서비스 제공 방법 및 이를 위한 시스템
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
JP3856778B2 (ja) 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
WO2006008733A2 (en) 2004-07-21 2006-01-26 Equivio Ltd. A method for determining near duplicate data objects
US7844566B2 (en) 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US7720856B2 (en) 2007-04-09 2010-05-18 Sap Ag Cross-language searching
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
CN101868797B (zh) 2007-09-21 2013-05-01 谷歌公司 跨语言搜索
US20110295857A1 (en) 2008-06-20 2011-12-01 Ai Ti Aw System and method for aligning and indexing multilingual documents
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
KR20110116790A (ko) 2010-04-20 2011-10-26 삼성전자주식회사 휴대용 단말기에서 번역 서비스 제공을 위한 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2261818A1 (en) * 2009-06-09 2010-12-15 Dudu Communications FZ-LLC A method for inter-lingual electronic communication
CN102053991A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 用于多语言文档检索的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI810513B (zh) * 2021-01-14 2023-08-01 首岳資訊網路股份有限公司 網站自動翻譯生成系統及其方法

Also Published As

Publication number Publication date
CN104620241A (zh) 2015-05-13
US20140019451A1 (en) 2014-01-16
EP2873009A1 (en) 2015-05-20
KR102152312B1 (ko) 2020-09-04
KR20150036566A (ko) 2015-04-07
US8639698B1 (en) 2014-01-28
EP2873009A4 (en) 2015-12-02
WO2014014732A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
CN104620241B (zh) 多语言文档聚类
US20180232443A1 (en) Intelligent matching system with ontology-aided relation extraction
US10025819B2 (en) Generating a query statement based on unstructured input
CN103049575B (zh) 一种主题自适应的学术会议搜索系统
CN109522465A (zh) 基于知识图谱的语义搜索方法及装置
CN103064838B (zh) 数据搜索方法和装置
US20130226846A1 (en) System and Method for Universal Translating From Natural Language Questions to Structured Queries
US10558707B2 (en) Method for discovering relevant concepts in a semantic graph of concepts
US20100161601A1 (en) Semantically weighted searching in a governed corpus of terms
Das et al. Multi-step entity-centric information retrieval for multi-hop question answering
Yuan et al. Efficient distributed subgraph similarity matching
US20200272674A1 (en) Method and apparatus for recommending entity, electronic device and computer readable medium
JP2022073981A (ja) ソースコード取得
CN103020074A (zh) 基于本体的对象级搜索技术
CN105095381A (zh) 新词识别方法和装置
CN102915381B (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
CN106021306B (zh) 基于本体匹配的案例搜索系统
Xu et al. Lightweight tag-aware personalized recommendation on the social web using ontological similarity
Ajoudanian et al. Deep web content mining
Zhou et al. LODDO: using linked open data description overlap to measure semantic relatedness between named entities
Casanova et al. On materialized sameas linksets
CN104462519A (zh) 搜索查询方法和装置
CN107766414B (zh) 多文档交集获取方法、装置、设备及可读存储介质
Wang et al. A graph-based approach for semantic similar word retrieval
Kalloubi et al. Named entity linking in microblog posts using graph-based centrality scoring

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

GR01 Patent grant
GR01 Patent grant