CN110866407B - 确定互译文本及文本间相似度分析方法、装置及设备 - Google Patents

确定互译文本及文本间相似度分析方法、装置及设备 Download PDF

Info

Publication number
CN110866407B
CN110866407B CN201810942172.9A CN201810942172A CN110866407B CN 110866407 B CN110866407 B CN 110866407B CN 201810942172 A CN201810942172 A CN 201810942172A CN 110866407 B CN110866407 B CN 110866407B
Authority
CN
China
Prior art keywords
text
word
language
pairs
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810942172.9A
Other languages
English (en)
Other versions
CN110866407A (zh
Inventor
陆军
施杨斌
龙旺钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810942172.9A priority Critical patent/CN110866407B/zh
Publication of CN110866407A publication Critical patent/CN110866407A/zh
Application granted granted Critical
Publication of CN110866407B publication Critical patent/CN110866407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本公开提出了一种确定互译文本及文本间相似度分析方法、装置及设备。获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,文本中包括多个字或词;分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定属于互译关系的文本。由此,可以减少计算量,提高互译文本的识别效率。

Description

确定互译文本及文本间相似度分析方法、装置及设备
技术领域
本公开涉及互联网技术领域,特别是涉及一种确定互译文本及文本间相似度分析方法、装置及设备。
背景技术
机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。主要是由训练好的机器翻译模型实现自动翻译,因此与人工翻译相比,可以以相对短的时间处理大量的翻译工作。
语料是机器翻译模型的训练数据,无论是统计机器翻译(SMT),还是神经网络机器翻译(NMT)都极端依赖于语料数据。在机器翻译中,多语种的支持、每个语言方向翻译质量的优劣,都与语料数据的规模和质量息息相关。这里述及的语料通常指的是大规模双语种的语句对集合。
目前,主要通过如下3种方式获取这种语料数据。
1.直接购买。成本很高,买到的语料和机器翻译中需要的数据会有一定的差异,并且不是每个语种方向都有,尤其是小语种。
2.找人工译员制作。能获得较高质量的语料,但成本非常高,生产的量级几乎达不到机器翻译需要的规模。
3.从互联网上下载/挖掘。网络上存在大量多语言网站,比如苹果官网(https://www.apple.com/choose-your-country/),这类多语言网站上有很多语言的网页版本,并且其中很多内容是互为翻译的,因此可以抓取这些数据形成双语语料。
在实际应用中,通常是采用以上三种方案来获取较为丰富的语料。其中,第1、第2种方式比较简单,在通过第3种方式获取语料时比较复杂,存在网页自动对齐问题。
具体来说,对于互联网上的多语言网站,首先可以通过爬虫将其各个语种分站的所有网页抓取下来。在获得不同语种分站网页后,需要挖掘(识别)出互为翻译的网页,这一步便称作“网页自动对齐”。最后,在互译的两个网页中,可以抽取出双语句对,最终形成双语句对库,作为机器翻译的语料。
可见,在通过第3种方式获取语料时,如何快速确定互译文本,以实现网页自动对齐,是方案实现的关键。
发明内容
本公开的一个目的在于,提供一种能够快速确定互译文本的方案。
根据本公开的第一个方面,提出了一种确定互译文本的方法,包括:获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,多个文本中包括多个字或词;分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定属于互译关系的文本。
可选地,文本对中的两个文本标识符所对应的文本分属于不同的文本集合。
可选地,出现次数为文本对中的两个文本具有相同键的个数。
可选地,确定属于互译关系的文本的步骤包括:对于第一文本,将出现次数最多的第一文本对中的第二文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;以及/或者对于第二文本,将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本的互译文本,其中,第二文本对为包含该第二文本的文本对。
可选地,确定属于互译关系的文本对的步骤包括:对于第一文本,将出现次数最多的第一预定数量个第一文本对中的第二文本,作为该第一文本的候选文本集合,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;计算候选文本集合中每个第二文本与第一文本之间的相似度;以及选取相似度最大的第二文本作为该第一文本对应的使用第一语言编写的文本的互译文本。
可选地,确定属于互译关系的文本的步骤包括:对于第二文本,依据出现次数排名,将出现次数最多的第二预定数量个第二文本对中的第一文本,作为该第二文本的候选文本集合,其中,第二文本对为包含该第二文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;计算候选文本集合中每个第一文本与第二文本之间的相似度;以及选取相似度最大的第一文本,将该第一文本对应的使用第一语言编写的文本作为第二文本的互译文本。
可选地,该方法还包括:从多语言网站获取不同语言的网页文本,其中,第一文本集合中的文本是从多语言网站获取的第一语言的网页文本对应第二语言的翻译文本,第二文本集合中的文本是从多语言网站获取的第二语言的网页文本。
可选地,该方法还包括:去除第一文本集合中的停用词和/或高频用词;以及/或者去除第二文本集合中的停用词和/或高频用词。
可选地,该方法还包括:为各个字或词分别设定权重,其中,确定属于互译关系的文本的步骤包括:基于文本对的出现次数及每次出现时对应的字或词的权重,确定属于互译关系的文本。
可选地,确定属于互译关系的文本的步骤包括:计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值;基于文本对的权重值,确定属于互译的文本。
根据本公开的第二个方面,还提供了一种确定互译文本的方法,包括:获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第三语言,第二文本集合使用第二语言编写且被翻译为第三语言,第一文本集合和第二文本集合包括多个第二文本,多个文本中包括多个字或词;分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定属于互译关系的文本。
根据本公开的第三个方面,还提供了一种文本间相似度的分析方法,包括:获取文本集合,文本集合包括多个文本,多个文本中包括多个字或词;分别以文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建索引;将索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定该文本对中两个文本之间的相似度,其中,相似度与出现次数正相关。
根据本公开的第四个方面,还提供了一种确定互译文本的装置,包括:获取模块,用于获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,多个文本中包括多个字或词;第一构建模块,用于分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;第二构建模块,用于分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;统计模块,将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及确定模块,用于基于文本对的出现次数,确定属于互译关系的文本。
可选地,文本对中的两个文本标识符所对应的文本分属于不同的文本集合。
可选地,出现次数为文本对中的两个文本具有的相同键的个数。
可选地,对于第一文本,确定模块将出现次数最多的第一文本对中的第二文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本,并且/或者对于第二文本,确定模块将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本的互译文本,其中,第二文本对为包含该第二文本的文本对。
可选地,确定模块包括:候选文本集合确定模块,用于对于第一文本,将出现次数最多的第一预定数量个第一文本对中的第二文本,作为该第一文本的候选文本集合,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;第一计算模块,用于计算候选文本集合中每个第二文本与第一文本之间的相似度;以及选取模块,用于选取相似度最大的第二文本作为该第一文本对应的使用第一语言编写的文本的互译文本。
可选地,确定模块包括:候选文本集合确定模块,用于对于第二文本,将出现次数最多的第二预定数量个第二文本对中的第一文本,作为该第二文本的候选文本集合,其中,第二文本对为包含该第二文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;第一计算模块,计算候选文本集合中每个第一文本与第二文本之间的相似度;以及选取模块,用于选取相似度最大的第一文本,将该第一文本对应的使用第一语言编写的文本作为第二文本的互译文本。
可选地,该装置还包括:文本获取模块,用于从多语言网站获取不同语言的网页文本,其中,第一文本集合中的文本是从多语言网站获取的第一语言的网页文本对应第二语言的翻译文本,第二文本集合中的文本是从多语言网站获取的第二语言的网页文本。
可选地,该装置还包括:第一去除模块,用于去除第一文本集合中的停用词和/或高频用词;和/或第二去除模块,用于去除第二文本集合中的停用词和/或高频用词。
可选地,该装置还包括:权重设定模块,用于为各个字或词分别设定权重,其中,确定模块基于文本对的出现次数及每次出现时对应的字或词的权重,确定属于互译关系的文本。
可选地,确定模块包括:第二计算模块,用于计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值;和确定子模块,用于基于文本对的权重值,确定属于互译关系的文本。
根据本公开的第五个方面,还提供了一种确定互译文本的装置,包括:获取模块,用于获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第三语言,第二文本集合使用第二语言编写且被翻译为第三语言,第一文本集合和第二文本集合均包括多个文本,多个文本中包括多个字或词;第一构建模块,用于分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引,以第一文本的文本标识符为值,构建第一索引;第二构建模块,用于分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;统计模块,用于将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及确定模块,用于基于文本对的出现次数,确定属于互译关系的文本。
根据本公开的第六个方面,还提供了一种文本间相似度的分析装置,包括:获取模块,用于获取文本集合,文本集合包括多个文本,多个文本中包括多个字或词;构建模块,用于分别以文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建索引;统计模块,用于将索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及相似度确定模块,用于基于文本对的出现次数,确定该文本对中两个文本之间的相似度,其中,相似度与出现次数正相关。
根据本公开的第七个方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如本公开第一个方面至第三个方面中任一个方面述及的方法。
根据本公开的第八个方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如本公开第一个方面至第三个方面中任一个方面述及的方法。
本公开通过引入倒排索引,基于较少的计算量就可以识别属于互译文本的网页文本对,因此可以提高互译文本的识别效率。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是示出了根据本公开一实施例的确定互译文本的方法的示意性流程图。
图2是示出了根据本公开一实施例的网页文本对齐方法的示意性流程图。
图3是示出了根据本公开一实施例的文本间相似度的分析方法的示意性流程图。
图4是示出了根据本公开一实施例的确定互译文本的装置的结构的示意性方框图。
图5是示出了根据本公开一实施例的确定模块可以具有的功能的模块的结构示意图。
图6是示出了根据本公开另一实施例的确定模块可以具有的功能的模块的结构示意图。
图7是示出了根据本公开一实施例的文本间相似度的分析装置的结构的示意性方框图。
图8是示出了根据本公开一实施例的计算设备的结构的示意性方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
【术语解释】
语句对:互译的两个句子,也称为双语句对,例如,“今天天气很好”和“It's anice day today”属于双语句对。
网页文本对:语种不同、互为翻译的两个网页。
倒排索引:一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。
机器翻译:借由计算机程序将文字从一种自然语言翻译成另一种自然语言。
爬虫:一种抓取互联网上网页的系统工具。
【方案概述】
如背景技术部分所述,用于训练机器翻译模型的语料是指语种不同、互为翻译的语句对。在从互联网上的一个或多个多语言网站获取不同语言的网页文本后,需要确定属于互译文本的网页文本对(即网页对齐),以便根据网页文本对进一步得到能够用于训练机器翻译模型的语料数据。
有鉴于此,本公开提出了一种能够快速确定属于互译文本的网页文本对的互译文本确定方案(也即网页文本对齐方案)。具体地,可以利用爬虫等方式获取互联网上多语言网站的各个语种分站的网页文本,对于获取的网页文本中的两组分别对应不同语言的网页文本集合,可以针对其中一组进行翻译,将该组内的文本翻译为与另一组内的文本的语言相对应的文本,也可以分别针对这两组进行翻译,将这两组内的文本翻译为不同于这两组文本的语言的另一语言的文本。然后可以针对这两组文本构建倒排索引,即以文本ID为值,以文本中的字或词为键,构建索引。针对两组倒排索引,可以将相同键对应的两个不同组的文本ID合并在一起,以得到多个文本对。最后可以统计每个文本对的出现次数,文本对的出现次数可以反映出两个文本具有相同或相似的字或词的共现数量,因此,可以根据出现次数确定互译文本。
例如,对于文本A,可以直接将包含该文本A的所有文本对中出现次数最多的文本对中不同于文本A的另一个文本,确定为该文本A的互译文本。再例如,针对文本A,也可以将包含该文本A的所有文本对中出现次数最多的前N个文本对中的文本,作为该文本A的相似文本,也即候选文本集,然后可以基于预定的判断方式(例如可以是现有的互译文本计算方式)从候选文本集进一步选取属于文本A的互译文本。
由此,本公开通过引入倒排索引,基于较少的计算量就可以识别属于互译文本的网页文本对,因此可以提高互译文本的识别效率。下面就本公开涉及的各方面做进一步说明。
【确定互译文本的方法】
图1是示出了根据本公开一实施例的确定互译文本的方法的示意性流程图。
参见图1,在步骤S110,获取第一文本集合和第二文本集合。
第一文本集合和第二文本集合均包括多个文本,并且这多个文本中可以包括多个字或词。为了便于区分,第一文本集合中的文本可以称之为第一文本,第二文本集合中的文本可以称之为第二文本。
作为本公开的一个示例,第一文本集合可以使用第一语言编写且被翻译为第二语言,也就是说,第一文本集合中的文本(即第一文本)可以是第一语言编写的文本的第二语言的翻译版本。第二文本集合使用第二语言编写。第一语言和第二语言是指用于人类交流使用的语言,可以包括自然地随文化演化的语言(也即自然语言,如汉语、英语、法语等)和人造语言(如世界语),但不包括计算机编程语言。由此,在本示例中,对于基于第一语言编写的文本的集合和基于第二语言编写的文本的第二集合,可以将其中一个集合翻译为另一个集合对应的语言的文本,以得到第一文本集合和第二文本集合。
作为本公开的另一个示例,第一文本集合可以使用第一语言编写且被翻译为第三语言,第二文本集合可以使用第二语言编写且被翻译为第三语言。也就是说,第一文本集合中的文本(即第一文本)可以是第一语言编写的文本的第三语言的翻译版本,第二文本集合中的文本(即第二文本)可以是第二语言编写的文本的第三语言的翻译版本。其中,第三语言是指不同于第一语言、第二语言的语言。第一语言、第二语言以及第三语言可以是指用于人类交流使用的语言,可以包括自然地随文化演化的语言(也即自然语言,如汉语、英语、法语等)和人造语言(如世界语),但不包括计算机编程语言。由此,在本示例中,对于基于第一语言编写的文本的集合和基于第二语言编写的文本的集合,可以分别将其翻译为不同于第一语言和第二语言的第三语言的文本,以得到第一文本集合和第二文本集合。
第一文本和第二文本可以从多语言网站获取。例如,可以从多语言网站获取不同语言的网页文本,第一文本可以是从一个或多个多语言网站获取的第一语言的网页文本对应第二语言的翻译文本,第二文本可以是从多语言网站获取的第二语言的网页文本。再例如,可以从多语言网站获取不同语言的网页文本,第一文本可以是从一个或多个多语言网站获取的第一语言的网页文本对应第三语言的翻译文本,第二文本可以是从多语言网站获取的第二语言的网页文本对应第三语言的翻译文本。
在步骤S120,分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引。
具体可以以字为粒度建立倒排索引,也可以以词为粒度建立倒排索引,还可以以字和词为粒度建立倒排索引,即,第一索引中的键可以仅包括字、仅包括词、或包括字和词。作为一个示例,可以对翻译后得到的第二语言的文本进行分词处理,以每个分词结果(可以是字或词)为键(key),以第一文本的文本标识符为值(value),构建第一索引。其中,本公开述及的字可以是指语法学用语中与词组对应的单词,如可以是汉语中的单个汉字,也可以是英语中的单词(word),本公开述及的词可以是指两个或更多个字的组合,如可以是汉语中多个汉字组成的词语、短句,也可以是英语中多个单词(word)构成的词组。
需要说明的是,本公开述及的文本标识符可以是为文本配置的编码值,也可以是其他能够唯一表征文本的数据形式。如在第一文本是网页文本的翻译文本,第二文本是网页文本的情况下,文本标识符还可以是网页文本的统一资源定位符(URL)。另外,需要说明的是,第一文本集合中的第一文本为第一语言编写的原文本的第二语言的翻译文本,翻译的过程仅改变了文本的编写语言,而不会改变文本的标识符,即,第一文本与原文本的文本标识符相同,仅编写语言不同。由于第一文本与原文本的文本标识符相同,因此,在本发明的确定互译文本的方法中,针对任意一个第一文本,可以根据该第一文本的文本标识符确定该第一文本对应的采用第一语言编写的原文本。
作为本公开的一个示例,在建立倒排索引前,还可以去除第一文本集合中的停用词和/或高频用词。其中,停用词可以是指无实际意义的字或词,如英语中的不定冠词a、an,汉语中的“的”、“地”等。高频用词可以是指经过统计得出的使用较为频繁的字或词。第二语言中的停用词和/或高频用词可以是已知的,可以通过查表(如停用词表和/或高频用词表)的方式确定停用词和/或高频用词。
在步骤S130,分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引。
具体可以以字为粒度建立倒排索引,也可以以词为粒度建立倒排索引,还可以以字和词为粒度建立倒排索引,即,第二索引中的键可以仅包括字、仅包括词、或包括字和词。优选地,第二索引的键的粒度与前述第一索引的键的粒度相同。作为一个示例,可以对第二文本进行分词处理,以每个分词结果(可以是字或词)为键(key),以第一文本的文本标识符为值(value),构建第二索引。
同样地,在建立倒排索引时,也可以去除第二文本集合中的停用词和/或高频用词。其中,具体的构建过程及相关细节可以参见步骤S120的说明,此处不再赘述。
在步骤S140,将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数。其中,文本对中的两个文本标识符可以分属于不同的文本集合,出现次数为文本对中的两个文本具有的相同键的个数。
第一索引和第二索引均是以字或词为键,以文本的文本标识符为值(value)构建的。因此,基于第一索引和第二索引,可以快速将对应相同键(字或词)的文本的文本标识符合并在一起,以得到多个文本组。其中,每个键对应一个文本组,每个文本组中不同的第一文本和第二文本可以视为一个文本对。可以统计多个文本组中每个文本对的出现次数。每个文本对的出现次数可以表征该文本对中的第一文本和第二文本具有相同键(字或词)的个数(也即共现数量)。
在步骤S150,基于文本对的出现次数,确定属于互译关系的文本。
每个文本对的出现次数可以表征第一文本和第二文本具有相同键的共现数量,也即具有相同字或词的个数,因此可以基于文本对的出现次数,确定属于互译关系的文本。
具体可以通过如下两种方式确定属于互译关系的文本。
1、第一种
可以直接基于文本对的出现次数确定属于互译关系的文本。
例如,在第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写的情况下,对于第一文本,可以将出现次数最多的第一文本对中的第二文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,第一文本对为包含该第一文本的文本对。另外,也可以对于第二文本,将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本的互译文本,其中,第二文本对为包含该第二文本的文本对。
再例如,在第一文本集合使用第一语言编写且被翻译为第三语言,第二文本集合使用第二语言编写且被翻译为第三语言的情况下,对于第一文本,可以将出现次数最多的第一文本对中的第二文本对应的使用第一语言编写的文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,第一文本对为包含该第一文本的文本对。另外,也可以对于第二文本,将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本对应的使用第一语言编写的文本的互译文本,其中,第二文本对为包含该第二文本的文本对。
2、第二种
可以基于文本对的出现次数筛选属于互译文本的可能性较大的文本对,然后再通过其他方式对筛选出的文本对做进一步处理,以进一步查找其中属于互译关系的文本。其中,其他方式可以是现有的互译文本确定方式。
作为示例,在第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写的情况下,可以对于第一文本,依据出现次数排名,将出现次数最多的第一预定数量个第一文本对中的第二文本,作为该第一文本的候选文本集合,其中,第一文本对为包含该第一文本的文本对,然后可以基于多种方式从候选文本集合中进一步选取属于第一文本对应的使用第一语言编写的文本的互译文本的第二文本。例如,可以计算候选文本集合中每个第二文本与第一文本之间的相似度,然后可以选取相似度最大的第二文本作为该第一文本对应的使用第一语言编写的文本的互译文本。其中,第一预定数量的具体数值可以根据实际情况设定,此处不再赘述。
同样地,也可以对于第二文本,依据出现次数排名,将出现次数最多的第二预定数量个第二文本对中的第一文本,作为该第二文本的候选文本集合,其中,第二文本对为包含该第二文本的文本对,然后可以基于多种方式从候选文本集中进一步选取与第二文本最相似的第一文本,所选取的第一文本对应的使用第一语言编写的文本即为第二文本的互译文本。例如,可以计算候选文本集合中每个第一文本与第二文本之间的相似度,选取相似度最大的第一文本,该第一文本对应的使用第一语言编写的文本即为第二文本的互译文本。其中,第二预定数量的具体数值可以根据实际情况设定,此处不再赘述。
另外,在第一文本集合使用第一语言编写且被翻译为第三语言,第二文本集合使用第二语言编写且被翻译为第三语言的情况下,也可以按照该方式确定互译关系的文本,具体实现过程,这里不再赘述。
需要说明的是,在构建第一索引和第二索引时,还可以为各个键(即字或词)设定权重,如可以根据字或词在文本中的出现次数设定权重,也可以根据字或词的语义内容的重要性设定权重。由此,在执行步骤S150时,可以基于文本对的出现次数及每次出现时对应的字或词的权重,确定属于互译关系的文本。例如,可以计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值,可以基于文本对的权重值,确定属于互译关系的文本。其中,基于文本对的权重值确定互译文本时,与上文提及的两种确定方式类似,可以直接基于文本对的权重值的大小,确定互译关系的文本,也可以基于文本对的权重值筛选属于互译文本的可能性较大的文本对,然后再通过其他方式对筛选出的文本对做进一步处理,以进一步确定属于互译关系的文本,具体确定过程不再赘述。
至此,结合图1就本公开的确定互译文本的方法的基本实现流程做了详细说明。
【应用例】
图2是示出了根据本公开一实施例的网页文本对齐方法的示意性流程图。本实施例主要通过构建双倒排索引的方法来识别互译的双语网页,主要流程如下:
1.首先输入为两种语言的网页集合。如图2所示,分别为A语言的网页文本和B语言的网页文本。其中,A语言的网页文本和B语言的网页文本可以是从一个或多个多语言网站获取的。ed1、ed2、zd1、zd2分别表示网页文本的ID(每个文本有一个唯一的ID),该ID即相当于步骤S120、S130中的文本标识符,ew1、ew2、ew3、ew4、zw1、zw2、zw3、zw4分别表示文本中的字或词,ew开头的表示A语言网页文本中的字或词,zw开头的表示B语言网页文本中的字或词。
2.在获得两个语言的网页文本后,首先选取某一个语言的文本做翻译,如可以将B语言的网页文本翻译成A语言的文本(当然也可以反过来做)。翻译过程可以采用多种方式,比如可以使用词典逐词翻译或使用机器翻译引擎进行翻译。由此,B语言的网页文本中的单词(word)都变成了A语言的单词(word)了。
3.然后,再将两组文本构建倒排索引。倒排索引即以字或词作为key,文本ID作为value的索引。这样的索引方式可以很快速的通过字或词来查找到文本ID。构建倒排索引时,可以去除停用词和/或特别高频的词或短语。
4.将两组倒排索引(分别由A语言文本和B语言翻译成A语言后的文本构建)根据key做合并,将相同key对应的文本ID合并在一起,这样可以得到很多文本组,同一个组里面的不同语言的文本对可以称为候选文本对。如图3所示,将ew1对应的文本ID合并在一起得到的文本组为{ed1、ed3、zd1、zd3},其中,(ed1,zd1)、(ed1,zd3)、(ed3,zd1)、(ed3,zd3)均是候选文本对。
5.统计每个候选文本对出现的次数。例如,每个文本组内来自两个不同语言的网页文本可以构成一个候选文本对,可以遍历步骤4得到的所有文本组,同一候选文本对中的两个网页文本出现在不同文本组内的次数,即为该候选文本对的出现次数,候选文本对的出现次数也即两个网页文本具有相同key的个数。在得到每个候选文本对的出现次数后,可以按照出现次数从高到低排序,每个候选文本对的出现次数可以表征共现字或词的数量,因此可以基于候选文本对的出现次数,确定属于互译文本的文本对。如对于某个文本来说,可以将包含该文本的文本对中出现次数最大的文本对作为属于互译文本的文本对。
传统的双语网页对齐方法一般采用两个步骤完成:
1.首先设计一种双语平行网页互译度计算方法。一般从三个角度来计算两个网页的互译度:1)网页的URL相似度,某些互译的网页的URL有一定的相似性;2)网页的结构相似度,互译的两个网页的网页结构往往是相似的;3)网页的内容互译度,互译的网页之间会有较多的字词、句子互译
2.计算两组不同语言网页的两两相似度,最后获得互译网页对。在这类方法中,一个致命缺点是计算量非常大。在第2步骤中,计算复杂度为O(n^2)。例如,如果有n个中文网页和m个英文网页,在计算获得互译网页对时,需要将每个中文网页和每个英文网页计算互译度(采用步骤1的方法),总共计算次数为n*m。在实际应用时,非常耗费时间,对于某些网页量很大的情况几乎无法在合理的时间内获得结果。
本公开通过引入倒排索引,在识别互译网页时大大减少了计算量。经过验证,使用本公开(100万网页数据)的计算量相对于单纯使用传统方法的计算量可以减少1000倍以上。
作为本公开的一个示例,针对每个网页文本,如ed1,也可以从包含ed1的文本对中选取出现次数最多的N个文本对,然后可以使用传统的计算互译网页文本的方法从这N个文本对中进一步选取与ed1属于互译文本的B语言的网页文本。也就是说,本公开还可以与传统方法结合使用,本公开可以作为一个候选互译文档对的粗选方案,传统方法可以作为候选的精选方案。由此,在减少计算量的同时还可以保证计算结果的精准度。
【文本间相似度的分析方法】
本公开还可以实现为一种文本间相似度的分析方案。图3是示出了根据本公开一实施例的文本间相似度的分析方法的示意性流程图。
参见图3,在步骤S310,获取文本集合。
文本集合包括多个文本,多个文本中包括多个字或词。
在步骤S320,分别以文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建索引。
文本集中的文本可以是基于同一语言的文本。此处述及的字可以是指语法学用语中与词组对应的单词,如可以是汉语中的单个汉字,也可以是英语中的单词(word),本公开述及的词可以是指两个或更多个字的组合,如可以是汉语中多个汉字组成的词语、短句,也可以是英语中多个单词(word)构成的词组。
在步骤S330,将索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数。
步骤S320所构建的索引是以文本中的字或词为键(key)、以文本的文本标识符为值(key)构建的,因此可以快速查找相同键对应的两个值,作为文本对。文本对的出现次数为两个文本具有相同键的数量,也即具有相同字或词的个数,因此文本对的出现次数可以在一定程度上表征两个文本之间的相似程度。
在步骤S340,基于文本对的出现次数,确定该文本对中两个文本之间的相似度。
文本对的出现次数可以在一定程度上表征两个文本之间的相似程度,因此可以基于文本对的出现次数,确定该文本对中两个文本之间的相似度,其中,相似度与出现次数正相关,即出现次数越多文本间越为相似。
进一步地,还可以为索引中的各个键(即字或词)设定权重,如可以根据字或词在文本中的出现次数设定权重,也可以根据字或词的语义内容的重要性设定权重。由此,在执行步骤S430时,可以基于文本对的出现次数及每次出现时对应的字或词的权重,确定该文本对中两个文本之间的相似度。例如,可以计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值,可以基于文本对的权重值,确定该文本对中两个文本之间的相似度。其中,相似度与文本对的权重值正相关。
【确定互译文本的装置】
图4是示出了根据本公开一实施例的确定互译文本的装置的结构的示意性方框图。其中,装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图4所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关的描述,这里不再赘述。
参见图4,确定互译文本的装置400包括获取模块410、第一构建模块420、第二构建模块430、统计模块440以及确定模块450。
作为本公开的一个示例,获取模块410用于获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,多个文本中包括多个字或词。第一构建模块420用于分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引。第二构建模块430用于分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引。统计模块440用于将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数。其中,文本对中的两个文本标识符所对应的文本分属于不同的文本集合,出现次数为文本对中的两个文本具有的相同键的个数。确定模块450用于基于所述文本对的出现次数,确定属于互译关系的文本。
可选地,确定模块450可以对于第一文本,将出现次数最多的第一文本对中的第二文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本。并且/或者,确定模块450也可以对于第二文本,将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本的互译文本,其中,第二文本对为包含该第二文本的文本对。
如图5所示,确定模块450可以可选地包括候选文本集合确定模块451、第一计算模块453以及选取模块455。
作为示例,候选文本集合确定模块451用于对于第一文本,将出现次数最多的第一预定数量个第一文本对中的第二文本,作为该第一文本的候选文本集合,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本。第一计算模块453用于计算候选文本集合中每个第二文本与第一文本之间的相似度。选取模块455用于选取相似度最大的第二文本作为该第一文本对应的使用第一语言编写的文本的互译文本。
作为另一个示例,候选文本集合确定模块451也可以用于对于第二文本,将出现次数最多的第二预定数量个第二文本对中的第一文本,作为该第二文本的候选文本集合,其中,第二文本对为包含该第二文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本。第一计算模块453可以用于计算候选文本集合中每个第一文本与第二文本之间的相似度。选取模块455可以用于选取相似度最大的第一文本,该第一文本对应的使用第一语言编写的文本即为第二文本的互译文本。
如图4所示,装置400还可以可选地包括图中虚线框所示的文本获取模块460。文本获取模块460用于从多语言网站获取不同语言的网页文本,其中,第一文本集合中的文本是从多语言网站获取的第一语言的网页文本对应第二语言的翻译文本,第二文本集合中的文本是从多语言网站获取的第二语言的网页文本。
如图4所示,装置400还可以可选地包括图中虚线框所示的第一去除模块470和/或第二去除模块480。第一去除模块470用于去除第一文本集合中的停用词和/或高频用词,第二去除模块480用于去除第二文本集合中的停用词和/或高频用词。
如图4所示,装置400还可以可选地包括图中虚线框所示的权重设定模块490。权重设定模块490用于为各个字或词分别设定权重,其中,确定模块450可以基于文本对的出现次数及每次出现时对应的字或词的权重,确定属于互译关系的文本。
如图6所示,作为示例,确定模块450可以包括第二计算模块457和确定子模块459。第二计算模块457用于计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值。确定子模块459用于基于文本对的权重值,确定属于互译关系的文本。
作为本公开的另一个示例,对于获取模块410获取的第一文本集合和第二文本集合,第一文本集合可以使用第一语言编写且被翻译为第三语言,第二文本集合可以使用第二语言编写且被翻译为第三语言,第一文本集合包括多个第一文本,第二文本集合包括多个第二文本,所多个第一文本和多个第二文本中均包括多个字或词。关于第一构建模块420、第二构建模块430、统计模块440以及确定模块450可以执行的操作可以参见上文说明,此处不再赘述。
【分析装置】
图7是示出了根据本公开一实施例的文本间相似度的分析装置的结构的示意性方框图。其中,装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图7所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关的描述,这里不再赘述。
参见图7,分析装置700可以包括获取模块710、构建模块720、统计模块730以及相似度确定模块740。
获取模块710用于获取文本集合,文本集合包括多个文本,多个文本中包括多个字或词。构建模块720用于分别以文本集中的各个字或词为键,以字或词所在文本的文本标识符为值,构建索引。统计模块730用于将索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数。相似度确定模块740用于基于文本对的出现次数,确定该文本对中两个文本之间的相似度,其中,相似度与出现次数正相关。
【计算设备】
图8示出了根据本发明一实施例可用于实现上述确定互译文本的方法或文本间相似度的分析方法的计算设备的结构示意图。
参见图8,计算设备800包括存储器810和处理器820。
处理器820可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器820可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器810可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器810可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器810可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器810上存储有可执行代码,当可执行代码被处理器820执行时,可以使处理器820执行上文述及的确定互译文本的方法或文本间相似度的分析方法。
上文中已经参考附图详细描述了根据本公开的确定互译文本及文本间相似度分析方法、装置及设备。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

1.一种确定互译文本的方法,包括:
获取第一文本集合和第二文本集合,所述第一文本集合使用第一语言编写且被翻译为第二语言,所述第二文本集合使用第二语言编写,所述第一文本集合和所述第二文本集合均包括多个文本,所述多个文本中包括多个字或词;
分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引;
分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引;
将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及
基于所述文本对的出现次数,确定属于互译关系的文本,
其中,将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数,包括:
将对应相同键的文本的文本标识符合并在一起,以得到多个文本组,每个键对应一个文本组;
统计所述多个文本组中每个文本对的出现次数,所述文本对中的两个文本标识符所对应的文本分属于不同的文本集合。
2.根据权利要求1所述的方法,其中,
所述出现次数为文本对中的两个文本具有的相同键的个数。
3.根据权利要求1所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
对于第一文本,将出现次数最多的第一文本对中的第二文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,所述第一文本对为包含该第一文本的文本对,所述第一文本为所述第一文本集合中的文本,所述第二文本为所述第二文本集合中的文本;以及/或者
对于第二文本,将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本的互译文本,其中,所述第二文本对为包含该第二文本的文本对。
4.根据权利要求1所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
对于第一文本,将出现次数最多的第一预定数量个第一文本对中的第二文本,作为该第一文本的候选文本集合,其中,所述第一文本对为包含该第一文本的文本对,所述第一文本为所述第一文本集合中的文本,所述第二文本为所述第二文本集合中的文本;
计算所述候选文本集合中每个第二文本与所述第一文本之间的相似度;以及
选取相似度最大的第二文本作为该第一文本对应的使用第一语言编写的文本的互译文本。
5.根据权利要求1所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
对于第二文本,将出现次数最多的第二预定数量个第二文本对中的第一文本,作为该第二文本的候选文本集合,其中,所述第二文本对为包含该第二文本的文本对,所述第一文本为所述第一文本集合中的文本,所述第二文本为所述第二文本集合中的文本;
计算所述候选文本集合中每个第一文本与所述第二文本之间的相似度;以及
选取相似度最大的第一文本,将该第一文本对应的使用第一语言编写的文本作为所述第二文本的互译文本。
6.根据权利要求1所述的方法,还包括:
从多语言网站获取不同语言的网页文本,其中,
所述第一文本集合中的文本是从所述多语言网站获取的第一语言的网页文本对应第二语言的翻译文本,所述第二文本集合中的文本是从所述多语言网站获取的第二语言的网页文本。
7.根据权利要求1所述的方法,还包括:
去除所述第一文本集合中的停用词和/或高频用词;以及/或者
去除所述第二文本集合中的停用词和/或高频用词。
8.根据权利要求1所述的方法,还包括:
为各个字或词分别设定权重,
其中,所述确定属于互译关系的文本的步骤包括:基于所述文本对的出现次数及每次出现时对应的字或词的权重,确定属于互译关系的文本。
9.根据权利要求1所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值;以及
基于所述文本对的权重值,确定属于互译关系的文本。
10.一种确定互译文本的方法,包括:
获取第一文本集合和第二文本集合,所述第一文本集合使用第一语言编写且被翻译为第三语言,所述第二文本集合使用第二语言编写且被翻译为第三语言,所述第一文本集合和所述第二文本集合均包括多个文本,所述多个文本中包括多个字或词;
分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引;
分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引;
将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及
基于所述文本对的出现次数,确定属于互译关系的文本,
其中,将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数,包括:
将对应相同键的文本的文本标识符合并在一起,以得到多个文本组,每个键对应一个文本组;
统计所述多个文本组中每个文本对的出现次数,所述文本对中的两个文本标识符所对应的文本分属于不同的文本集合。
11.一种确定互译文本的装置,包括:
获取模块,用于获取第一文本集合和第二文本集合,所述第一文本集合使用第一语言编写且被翻译为第二语言,所述第二文本集合使用第二语言编写,所述第一文本集合和所述第二文本集合均包括多个文本,所述多个文本中包括多个字或词;
第一构建模块,用于分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引;
第二构建模块,用于分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引;
统计模块,将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及
确定模块,用于基于所述文本对的出现次数,确定属于互译关系的文本对,其中,
所述统计模块将对应相同键的文本的文本标识符合并在一起,以得到多个文本组,并统计所述多个文本组中每个文本对的出现次数,每个键对应一个文本组,所述文本对中的两个文本标识符所对应的文本分属于不同的文本集合。
12.一种确定互译文本的装置,包括:
获取模块,用于获取第一文本集合和第二文本集合,所述第一文本集合使用第一语言编写且被翻译为第三语言,所述第二文本集合使用第二语言编写且被翻译为第三语言,所述第一文本集合和所述第二文本集合均包括多个文本,所述多个文本中包括多个字或词;
第一构建模块,用于分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引;
第二构建模块,用于分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引;
统计模块,用于将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及
确定模块,用于基于所述文本对的出现次数,确定属于互译关系的文本,其中,
所述统计模块将对应相同键的文本的文本标识符合并在一起,以得到多个文本组,并统计所述多个文本组中每个文本对的出现次数,每个键对应一个文本组,所述文本对中的两个文本标识符所对应的文本分属于不同的文本集合。
13.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-10中任何一项所述的方法。
14.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至10中任一项所述的方法。
CN201810942172.9A 2018-08-17 2018-08-17 确定互译文本及文本间相似度分析方法、装置及设备 Active CN110866407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810942172.9A CN110866407B (zh) 2018-08-17 2018-08-17 确定互译文本及文本间相似度分析方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810942172.9A CN110866407B (zh) 2018-08-17 2018-08-17 确定互译文本及文本间相似度分析方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110866407A CN110866407A (zh) 2020-03-06
CN110866407B true CN110866407B (zh) 2024-03-01

Family

ID=69650890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810942172.9A Active CN110866407B (zh) 2018-08-17 2018-08-17 确定互译文本及文本间相似度分析方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110866407B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913912A (zh) * 2020-07-16 2020-11-10 北京字节跳动网络技术有限公司 文件处理方法、文件匹配方法、装置、电子设备和介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661593A (zh) * 2004-02-24 2005-08-31 北京中专翻译有限公司 一种计算机语言翻译方法及其翻译系统
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN102929891A (zh) * 2011-08-11 2013-02-13 阿里巴巴集团控股有限公司 处理文本的方法和装置
CN105224518A (zh) * 2014-06-17 2016-01-06 腾讯科技(深圳)有限公司 文本相似度的计算方法及系统、相似文本的查找方法及系统
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN106933824A (zh) * 2015-12-29 2017-07-07 伊姆西公司 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN107025218A (zh) * 2017-04-07 2017-08-08 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US20120047172A1 (en) * 2010-08-23 2012-02-23 Google Inc. Parallel document mining

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661593A (zh) * 2004-02-24 2005-08-31 北京中专翻译有限公司 一种计算机语言翻译方法及其翻译系统
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
CN102929891A (zh) * 2011-08-11 2013-02-13 阿里巴巴集团控股有限公司 处理文本的方法和装置
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN105224518A (zh) * 2014-06-17 2016-01-06 腾讯科技(深圳)有限公司 文本相似度的计算方法及系统、相似文本的查找方法及系统
CN106933824A (zh) * 2015-12-29 2017-07-07 伊姆西公司 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN107025218A (zh) * 2017-04-07 2017-08-08 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
扎西拉旦 等.基于XML文档的藏文网页倒排索引的研究与实现.软件工程.2017,第20卷(第6期),全文. *

Also Published As

Publication number Publication date
CN110866407A (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
Guzmán et al. The flores evaluation datasets for low-resource machine translation: Nepali-english and sinhala-english
CN111723215A (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN105426539A (zh) 一种基于词典的lucene中文分词方法
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
CN105279277A (zh) 知识数据的处理方法和装置
CN104239286A (zh) 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN102253930A (zh) 一种文本翻译的方法及装置
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN106407195B (zh) 用于网页消重的方法和系统
Ljubešić et al. Corpus-based diacritic restoration for south slavic languages
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN116050397A (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN105224624A (zh) 一种实现倒排链快速归并的方法和装置
CN102550049A (zh) 通过动态学习提取规则来获取词表外的翻译
CN106569994B (zh) 地址的分析方法及装置
CN110866407B (zh) 确定互译文本及文本间相似度分析方法、装置及设备
CN106776590A (zh) 一种获取词条译文的方法及系统
CN107577667B (zh) 一种实体词处理方法和装置
Casacuberta et al. The Covid-19 MLIA@ Eval initiative: Overview of the machine translation task
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN113779200A (zh) 目标行业词库的生成方法、处理器及装置
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
CN102622405A (zh) 基于语言实义单元数估计的短文本间文本距离的计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant