CN103970732B

CN103970732B - 新词译文的挖掘方法和装置

Info

Publication number: CN103970732B
Application number: CN201410218936.1A
Authority: CN
Inventors: 刘占; 刘占一; 刘红雨; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-05-22
Filing date: 2014-05-22
Publication date: 2017-05-10
Anticipated expiration: 2034-05-22
Also published as: CN103970732A

Abstract

本发明公开了一种新词译文的挖掘方法和装置。所述新词译文的挖掘方法包括：将包含新词的源语言语句，通过语义分析和翻译，构造目标语言检索语句；利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句；通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文。本发明实施例所提供的新词译文的挖掘方法和装置通过对源语言语句和目标语言语句的反复语义分析和匹配提高了获取的新词译文的准确率。

Description

新词译文的挖掘方法和装置

技术领域

本发明实施例涉及机器翻译技术领域，尤其涉及一种新词译文的挖掘方法和装置。

背景技术

语言会随着时间的推移而不断的进化。世界上的每一种语言都会经历不断演化的过程。而且，这种演化不仅表现在人们日常的口头用语的演化，还表现在人们书面用语的演化。在这方面，新词的不断出现就是一个很好的例证。所谓新词，具体是在另一语种中无对应译文、或者其含义已经变更而原有译文不准确的词汇。

在机器翻译的实践中，获取新词的译文往往是技术上的一个难点。因为新词才刚刚出现，所以在现有的译文数据库或者工具书中很难找到它对应的译文。互联网是现今大家沟通交流的不可或缺的重要方式。由于互联网已经为普通人所了解和使用，所以人们在生活中使用的新词、热词也会出现在互联网上。所以，从互联网上获取新词的译文不失为一种好的获取新词译文的方式。

但是，现有的从互联网上获取新词译文的方式对原文的处理较为粗糙，造成获得的结果译文的准确率不高。

发明内容

有鉴于此，本发明实施例提出一种新词译文的挖掘方法和装置，以提高从互联网上获得的新词译文的准确性。

第一方面，本发明实施例提供了一种新词译文的挖掘方法，所述方法包括：

将包含新词的源语言语句，通过语义分析和翻译，构造目标语言检索语句；

利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句；

通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文。

第二方面，本发明实施例提供了一种新词译文的挖掘装置，所述装置包括：

检索语句构造模块，用于将包含新词的源语言语句，通过语义分析和翻译，构造目标语言检索语句；

数据源搜索模块，用于利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句；

译文获取模块，用于通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文。

本发明实施例提供的新词译文的挖掘方法和装置将包含新词的源语言语句，通过语义分析和翻译，构造目标语言检索语句，然后利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句，最后通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文，由于源语言语句和目标语言语句反复进行了语义分析和匹配，并且使用语句进行目标语言语句的搜索，提高了获取的新词译文的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的新词译文的挖掘方法的流程图；

图2是本发明第一实施例提供的新词译文的挖掘方法的处理实例流程图；

图3是本发明第二实施例提供的新词译文的挖掘方法中检索语句构造的流程图；

图4是本发明第二实施例提供的检索语句构造过程中的语句构造的流程图；

图5是本发明第二实施例提供的新词译文挖掘方法中检索语句构造的处理实例流程图；

图6是本发明第三实施例提供的新词译文的挖掘方法中数据源搜索的流程图；

图7是本发明第三实施例提供的新词译文的挖掘方法中数据源搜索的处理实例流程图；

图8是本发明第四实施例提供的新词译文的挖掘方法中译文获取的流程图；

图9是本发明第四实施例提供的新词译文的挖掘方法中译文获取的处理实例流程图；

图10是本发明第五实施例提供的新词译文的挖掘装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1及图2示出了本发明的第一实施例。

图1是本发明第一实施例提供的新词译文的挖掘方法的流程图。本实施例的方法可以由新词译文的挖掘装置来实现，该装置通常可配置在诸如机器翻译服务器等计算装置中，并且上述机器翻译服务器优选是与互联网连接，具有网络检索功能。参见图1，所述新词译文的挖掘方法包括：

S110，将包含新词的源语言语句，通过语义分析和翻译，构造目标语言检索语句。

所述新词是指在另一语种中无对应译文、或者其含义已经变更而原有译文不准确的词汇。新词是属于源语言语种的词汇，而对所述新词进行的新词译文的挖掘就是在目标语言中搜寻与源语言的新词语义匹配的词汇。

在本发明的实施例中，以语句为单位对新词的译文进行处理。这样做的原因在于，在语句中除了包含所述新词以外，还包含了更多的上下文信息，而这些上下文信息可以作为对新词译文的搜寻的依据。构造形成的目标语言检索语句中包括了源语言语句中存在已有译文的词，也包括了新词，这样可以在检索目标语言检索语句时，结合原有词汇的上下文含义。

构造目标语言检索语句的方式有多种，例如：

对于大多数语言的语句，其句子结构都可以被区分为施事、谓词以及受事三个语义元素。例如，在“Chinese dama have even brought square dance to Europeancities”的英文语句中，“Chinese dama”可以被认为是施事，“brought”可以被认为是谓词，而“square dance”可以被认为是受事。

在同一个语句中可以同时有多个施事、谓词或者受事。例如，在英文语句“Chinesedama have spent100billion yuan($16billion)to buy300tons of gold within10daysafter gold prices started to decline on April10”中，“Chinese dama”可以被认为是施事，“spend”可以被认为是谓词，而“100billion yuan”可以被认为是受事。同时，“buy”也可以被认为是谓词，而“300tons of gold”也可以被认为是受事。

可以通过对源语言语句的语义分析确定所述源语言语句的施事、谓词以及受事三个语义元素。

在本实施例中，首先对包含新词的源语言语句进行语义分析和翻译，从而构造目标语言检索语句。优选的，可以对包含新词的源语言语句进行语义分析，确定施事、谓词以及受事三个语义元素。然后从所述源语言语句中去除包含所述新词的语义元素，由剩余的语义元素构成源语言检索语句。最后利用机器翻译的手段将所述源语言检索语句翻译为目标语言检索语句。

S120，利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句。

所述目标语言数据源可以是任意可能存在新词译文的数据源，由于互联网的信息更新快，通常包括新词译文，所以互联网是主要的目标语言数据源，即目标语言数据源具体包括互联网上采用目标语言写成的网页，目标语言的语句数据库等。因此，对所述目标语言语句的检索包括互联网检索和/或数据库检索。

利用目标语言检索语句在目标语言数据源中进行检索得到的检索结果有可能在语义上与源语言语句并不匹配。例如，利用语句“购买300吨黄金”检索目标语言数据源得到的结果可能是“中国大妈，1000亿人民币，300吨黄金瞬间被扫”。显然，该结果与源语言语句在语义上相去甚远，并不符合要求。因此，可以将对目标语言数据源的检索结果作为候选目标语言语句，并对所述候选目标语言语句进行过滤，得到目标语言语句。

S130，通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文。

经过对目标语言数据源的检索，得到了与所述源语言语句在语义上匹配的目标语言语句后，对所述目标语言语句与所述源语言语句进行语义匹配，以获取所述新词的目标语言译文。

优选的，可以对所述目标语言语句进行语义分析，获取所述目标语言语句中包含新词的语义元素，再从中获得可能是新词的译文的目标语言词汇，最后对可能是新词的译文的目标语言词汇进行评价，得到所述新词的译文。

图2是本发明第一实施例提供的新词译文的挖掘方法的处理实例流程图。参见图2，对源语言语句“Chinese dama have spent100billion yuan($16billion)tobuy300tons of gold within10days after gold prices started to decline onApril10”进行目标语言检索语句构造，得到了目标语言检索语句“花费1000亿”以及“购买300吨黄金”；利用所述目标语言检索语句“花费1000亿”以及“购买300吨黄金”进行数据源搜索，得到了目标语言语句“中国大妈们花费了1000亿元人民币买入了300吨黄金”以及“中国大妈10天购买300吨实物黄金”；最后，对所述目标语言语句进行译文获取，得到了新词“dama”的中文译文“大妈”。

本实施例通过对包含新词的源语言语句进行语义分析和翻译，从目标语言数据源中检索目标语言语句，最后从所述目标语言语句中获取所述新词的译文，对源语言语句和目标语言语句反复进行了语义分析和匹配，提高了获取的新词译文的准确率。

图3至图5示出了本发明的第二实施例。

图3是本发明第二实施例提供的新词译文的挖掘方法中检索语句构造的流程图。所述新词译文的挖掘方法以本发明第一实施例为基础，进一步的，将包含新词的源语言语句，通过语义分析和翻译，构造目标语言检索语句包括：

S111，对所述源语言语句进行语义分析，确定源语言语义元素。

所述源语言语句包括施事、谓词以及受事三个语义元素。在构造目标语言检索语句的过程中，需要首先对所述源语言语句进行语义分析，以确定所述源语言语句所包含的上述三个语义元素。

S112，将非新词的源语言语义元素翻译为目标语言，构成所述目标语言检索语句，其中，所述目标语言检索语句中保留或去除所述新词的源语言语义元素。

通过语义分析确定所述源语言语句中的语义元素后，将非新词的源语言语义元素翻译为目标语言，以构成所述目标语言检索语句。所述目标语言检索语句是保留或者去除所述新词所属的语义元素的检索语句。优选的，所述目标语言检索语句是去除所述新词所属的语义元素的检索语句。

图4是本发明第二实施例提供的检索语句构造过程中的语句构造的流程图。参见图4，优选的，将非新词的源语言语义元素翻译为目标语言，构成所述目标语言检索语句包括：

S1121，如果包含所述新词的所述源语言语义元素为施事或受事，则将非新词的源语言语义元素的谓语以及剩余的受事或施事构造成源语言检索语句。

由于源语言语句包括施事、谓词和受事三个语义元素，所以所述新词必定包含在施事、谓词和受事三个语义元素中的一个当中。由于尚不能确定所述新词所对应的译文，所以不选择包含所述新词的语义元素来构造源语言检索语句。

如果包含新词的所述源语言语义元素为施事或者受事，则将谓词以及剩余的施事或者受事构造成源语言检索语句。

如果包含新词的所述源语言语义元素为谓词，则将作为施事以及受事的源语言语义元素构造成源语言检索语句。

S1122，将所述源语言检索语句翻译为目标语言检索语句。

完成源语言检索语句的构造后，将构造好的源语言检索语句翻译为目标语言检索语句。优选的，通过机器翻译的方式将所述源语言检索语句翻译为目标语言检索语句。

图5是本发明第二实施例提供的新词译文挖掘方法中检索语句构造的处理实例流程图。参见图5，首先对源语言语句“Chinese dama have spent100billion yuan($16billion)to buy300tons of gold within10days after gold prices started todecline on April10”进行语义分析，获得两组源语言语义元素；再根据语义分析得到的两组源语言语义元素构造源语言检索语句“spend100billion yuan”以及“buy300tons ofgold”；最后将源语言检索语句“spend100billion yuan”以及“buy300tons of gold”进行翻译，得到目标语言检索语句“花费1000亿元”以及“购买300吨黄金”。

本实施例通过对源语言语句进行语义分析以及构造目标语言检索语句，实现了新词译文挖掘过程中的检索语句构造，提高了获取的新词译文的准确率。

构造目标语言检索语句的方式并不限于上述提供的优选实例，例如还可以在目标语言检索语句中保留源语言的新词，或者在目标语言检索语句中保留源语言语句中的其他语义成分。

图6及图7示出了本发明的第三实施例。

图6是本发明第三实施例提供的新词译文的挖掘方法中数据源搜索的流程图。所述新词译文的挖掘方法以本发明第一实施例为基础，进一步的，利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句包括：

S121，利用所述目标语言检索语句从互联网检索得到与所述目标语言检索语句相关的至少一条候选目标语言语句。

通过检索语句构造得到所述目标语言检索语句后，可以利用所述目标语言检索语句从互联网检索与所述目标语言检索语句相关的至少一条候选目标语言语句。

之所以选择互联网作为目标语言数据源是因为互联网网页数量众多，其中包含的语料数据量也十分大。因此，将互联网作为目标语言数据源，可以使得检索所述目标语言语句的数据范围较大，对于提高对目标语言语句检索的检全率更为有利。

所述候选目标语言语句是至少包括一组施事、谓词和受事三个语义元素的完整的语句，而并不像是所述目标语言语句那样，是缺少了其中某些成分的语句。获取完成的候选目标语言语句的方式可以是通过对所述候选目标语言语句的上下文的标点符号的分析。例如，可以定义句号、问号以及惊叹号中任意两者之间，并且本身不包括上述三种标点符号的文本为候选目标语言语句。

S122，通过关键字对所述至少一条候选目标语言语句进行过滤，得到与所述源语言语句的语义匹配的至少一条目标语言语句。

虽然采用互联网作为目标语言数据源对于提高目标语言语句检索的检全率更为有利，但是不可避免的可能会影响对目标语言语句检索的检准率。也就是说，检索得到的候选目标语言语句中可能会包括与源语言语句在语义上并不匹配的语句。因此，需要对所述至少一条候选目标语言语句进行过滤，以保留与所述源语言语句的语义匹配的至少一条目标语言语句。

优选的，可以通过关键字对所述至少一条候选目标语言语句进行过滤。所述关键字是通过对源语言语句的语义分析结果进行翻译而得到的。

图7是本发明第三实施例提供的新词译文的挖掘方法中数据源搜索的处理实例流程图。参见图7，利用目标语言检索语句“花费1000亿元”以及“购买300吨黄金”对互联网进行检索，得到候选目标语言语句“中国大妈们花费了1000亿元人民币买入了300吨黄金”、“中国大妈4月扫金并未达300吨”、“中国大妈，1000亿人民币，300吨黄金瞬间被扫”以及“中国大妈10天购买300吨实物黄金”；再对上述候选目标语言语句进行过滤，得到最终的目标语言语句“中国大妈们花费了1000亿元人民币买入了300吨黄金”以及“中国大妈10天购买300吨实物黄金”。

本实施例通过利用目标语言检索语句对互联网进行检索，并对检索得到的候选目标语言语句进行过滤，得到了与源语言语句在语义上匹配的目标语言语句，提高了获取的新词译文的准确率。

图8及图9示出了本发明的第四实施例。

图8是本发明第四实施例提供的新词译文的挖掘方法中译文获取的流程图。所述新词译文的挖掘方法以本发明第一实施例为基础，进一步的，通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文包括：

S131，对所述目标语言语句进行语义分析，并通过与源语言语句的匹配获取所述新词的至少一个候选目标语言译文。

确定目标语言语句以后，对所述目标语言语句再进行语义分析，获取所述目标语言语句的施事、谓词以及受事三个语义元素。再将在源语言语句中包含新词的语义元素在所述目标语言语句中所对应的语义元素从所述目标语言语句中取出。比如，在源语言语句中包含所述新词的语义元素是受事语义元素，则将目标语言语句中的受事语义元素取出。将所述对应的语义元素从目标语言语句中取出后，将取出的语义元素中的词与源语言语句进行匹配，得到所述新词的至少一个候选目标语言译文。

S132，对所述至少一个候选目标语言译文进行评价，并根据候选目标语言译文的置信度获得所述新词的结果目标语言译文。

获取了所述新词的至少一个候选目标语言译文以后，对所述至少一个候选目标语言译文进行评价。对所述至少一个候选目标语言译文进行评价的目的在于从多个候选目标语言译文中选取一个作为所述新词最终的结果目标语言译文。一般情况下，将目标语言译文所属的网页与所述新词出现的网页的相似度最高的目标语言译文作为所述新词的结果目标语言译文。

优选的，通过候选目标语言译文所在数据源中的关键词、网页结构信息及时间信息来确定所在数据源的语义匹配度，并通过所述语义匹配度对候选目标语言译文进行评价。

对所述候选目标语言译文进行评价的指标是所述候选目标语言译文的置信度，所述置信度的计算公式如下：

Confidence＝α×sim_key_word+β×sim_struct+γ×sim_time。

其中，sim_key_word表示候选目标语言译文与数据源中关键词的相似程度，sim_struct表示网页结构信息的相似程度，sim_time表示时间信息的相似程度。α、β和γ是上述三种相似程度的加权系数，并且，它们之间满足α+β+γ＝1的关系。

图9是本发明第四实施例提供的新词译文的挖掘方法中译文获取的处理实例流程图。参见图9，对目标语言语句“中国大妈们花费了1000亿元人民币买入了300吨黄金”以及“中国大妈10天购买300吨实物黄金”进行语义分析后，得到三组目标语言语义元素，经过与源语言语句的匹配，获得了“中国大妈”以及“大妈”两个候选目标语言译文，最后经过对上述候选目标语言译文的评价，确定“大妈”为新词“dama”的结果目标语言译文。

本实施例通过对目标语言语句进行语义分析获取至少一个候选目标语言译文，再对所述候选目标语言译文进行评级获取所述新词的结果目标语言译文，进一步提高了获取的新词译文的准确率。

图10示出了本发明的第五实施例。

图10是本发明第五实施例提供的新词译文的挖掘装置的结构图。参见图10，所述新词译文的挖掘装置包括：检索语句构造模块1010、数据源搜索模块1020以及译文获取模块1030。

所述检索语句构造模块1010用于将包含新词的源语言语句，通过语义分析和翻译，构造目标语言检索语句。

所述数据源搜索模块1020用于利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句。

所述译文获取模块1030用于通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文。

优选的，所述检索语句构造模块1010包括：语义元素确定单元1011以及语句构造单元1012。

所述语义元素确定单元1011用于对所述源语言语句进行语义分析，确定源语言语义元素。

所述语句构造单元1012用于将非新词的源语言语义元素翻译为目标语言，构成所述目标语言检索语句，其中，所述目标语言检索语句中保留或去除所述新词的源语言语义元素。

优选的，所述语句构造单元1012具体用于：

如果包含所述新词的所述源语言语义元素为施事或受事，则将非新词的源语言语义元素的谓语以及剩余的受事或施事构造成源语言检索语句；

将所述源语言检索语句翻译为目标语言检索语句。

优选的，所述数据源搜索模块1020包括：语句检索单元1021以及语句过滤单元1022。

所述语句检索单元1021用于利用所述目标语言检索语句从互联网检索得到与所述目标语言检索语句相关的至少一条候选目标语言语句。

所述语句过滤单元1022用于通过关键字对所述至少一条候选目标语言语句进行过滤，得到与所述源语言语句的语义匹配的至少一条目标语言语句。

优选的，所述译文获取模块1030包括：语义分析单元1031以及译文评价单元1032。

所述语义分析单元1031用于对所述目标语言语句进行语义分析，并通过与源语言语句的匹配获取所述新词的至少一个候选目标语言译文。

所述译文评价单元1032用于对所述至少一个候选目标语言译文进行评价，并根据候选目标语言译文的置信度获得所述新词的结果目标语言译文。

优选的，所述译文评价单元1032具体用于：

通过候选目标语言译文所在数据源中的关键词、网页结构信息及时间信息来确定所在数据源的语义匹配度，并通过所述语义匹配度对候选目标语言译文进行评价。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种新词译文的挖掘方法，其特征在于，包括：

对包含新词的源语言语句进行语义分析，确定源语言语义元素；

如果包含所述新词的所述源语言语义元素为施事或受事，则将非新词的源语言语义元素的谓语，以及剩余的不包含新词的受事或施事构造成源语言检索语句；

将所述源语言检索语句翻译为目标语言检索语句，其中，所述目标语言检索语句中去除所述新词的源语言语义元素；

2.根据权利要求1所述的方法，其特征在于，利用所述目标语言检索语句在目标语言数据源中进行检索，获取目标语言语句包括：

利用所述目标语言检索语句从互联网检索得到与所述目标语言检索语句相关的至少一条候选目标语言语句；

通过关键字对所述至少一条候选目标语言语句进行过滤，得到与所述源语言语句的语义匹配的至少一条目标语言语句。

3.根据权利要求1所述的方法，其特征在于，通过将所述目标语言语句与所述源语言语句进行语义匹配，获取所述新词的目标语言译文包括：

对所述目标语言语句进行语义分析，并通过与源语言语句的匹配获取所述新词的至少一个候选目标语言译文；

对所述至少一个候选目标语言译文进行评价，并根据候选目标语言译文的置信度获得所述新词的结果目标语言译文。

4.根据权利要求3所述的方法，其特征在于，对所述至少一个候选目标语言译文进行评价包括：

5.一种新词译文的挖掘装置，其特征在于，包括：

语义元素确定单元，用于对包含新词的源语言语句进行语义分析，确定源语言语义元素；语句构造单元，用于如果包含所述新词的所述源语言语义元素为施事或受事，则将非新词的源语言语义元素的谓语，以及剩余的不包含新词的受事或施事构造成源语言检索语句；将所述源语言检索语句翻译为目标语言检索语句，其中，所述目标语言检索语句中去除所述新词的源语言语义元素；

6.根据权利要求5所述的装置，其特征在于，所述数据源搜索模块包括：

语句检索单元，用于利用所述目标语言检索语句从互联网检索得到与所述目标语言检索语句相关的至少一条候选目标语言语句；

语句过滤单元，用于通过关键字对所述至少一条候选目标语言语句进行过滤，得到与所述源语言语句的语义匹配的至少一条目标语言语句。

7.根据权利要求5所述的装置，其特征在于，所述译文获取模块包括：

语义分析单元，用于对所述目标语言语句进行语义分析，并通过与源语言语句的匹配获取所述新词的至少一个候选目标语言译文；

译文评价单元，用于对所述至少一个候选目标语言译文进行评价，并根据候选目标语言译文的置信度获得所述新词的结果目标语言译文。

8.根据权利要求7所述的装置，其特征在于，所述译文评价单元具体用于：