CN112395856B - 文本匹配方法、装置、计算机系统及可读存储介质 - Google Patents

文本匹配方法、装置、计算机系统及可读存储介质 Download PDF

Info

Publication number
CN112395856B
CN112395856B CN201910703715.6A CN201910703715A CN112395856B CN 112395856 B CN112395856 B CN 112395856B CN 201910703715 A CN201910703715 A CN 201910703715A CN 112395856 B CN112395856 B CN 112395856B
Authority
CN
China
Prior art keywords
text
language
original
conjunctions
stock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910703715.6A
Other languages
English (en)
Other versions
CN112395856A (zh
Inventor
葛鑫
施杨斌
赵宇
骆卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910703715.6A priority Critical patent/CN112395856B/zh
Publication of CN112395856A publication Critical patent/CN112395856A/zh
Application granted granted Critical
Publication of CN112395856B publication Critical patent/CN112395856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种文本匹配方法、装置、计算机系统及可读存储介质,所述文本匹配方法包括:获取第一文本和第二文本的数据;通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。

Description

文本匹配方法、装置、计算机系统及可读存储介质
技术领域
本公开涉及计算机技术领域,具体涉及一种文本匹配方法、装置、计算机系统及可读存储介质。
背景技术
随着全球化进程的继续深入,对于语言之间翻译的需求越来越多,机器翻译发挥着越来越大的作用。在机器翻译中,双语平行语料对于训练机器翻译模型有着非常重要的作用。语料系统的建设最早来源于新闻机构和政府机构提供的双语语料等。随着互联网的飞速发展以及全球化的深化,从互联网获取的双语语料成了各个语料系统的重要来源。互联网上的双语语料具有数量巨大、语法真实、语料种类丰富、易获取等特性,所以已经成为今年来各语料系统最重要的语料来源。其中,对下载网页进行网页匹配,找到潜在匹配的网页对是非常关键的步骤。
在提出本公开的过程中,发明人发现,在真实的语料系统中,网页的数目极其庞大,可以达到数百亿的量级,网页匹配的工作量十分巨大。而且,随着网络上的网页数越来越多,每次对有网页更新的站点进行一次全量的网页匹配会浪费过多的机器资源,甚至在有限的机器资源下根本无法做到全量有更新站点的网页匹配,这会严重影响语料系统的稳步建设和增长。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种文本匹配方法、装置、计算机系统及可读存储介质。
第一方面,本公开实施例中提供了一种文本匹配方法。
具体地,所述文本匹配方法,包括:获取第一文本和第二文本的数据;
通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;
至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第一方面,本公开在第一方面的第一种实现方式中,所述n连词至少包括N1连词N2连词,其中,N1≠N2。
结合第一方面,本公开在第一方面的第二种实现方式中,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:
根据同时出现在所述第一文本和所述第二文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度。
结合第一方面,本公开在第一方面的第三种实现方式中,所述第一文本是从第一语言的第一原始文本转换得到的;和/或
所述第二文本是从第二语言的第二原始文本转换得到的;和/或
所述第一语言和所述第二语言是不同的语言;和/或
所述第一文本和所述第二文本是所述第二语言的文本。
结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或
对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。
结合第一方面的第三种实现方式,本公开在第一方面的第五种实现方式中,所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者
所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。
结合第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第一方面的第三种实现方式,本公开在第一方面的第七种实现方式中,所述第一原始文本是从第一网页获得的;
所述第二原始文本是从第二网页获得的;
所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而言的增量网页,所述第二网页是所述第二语言的当前网页集合中的增量网页或存量网页;或者
所述第一网页是所述第一语言的当前网页集合中的增量网页或存量网页,所述第二网页是所述第二语言的当前网页集合中相比于所述第二语言的存量网页而言的增量网页。
结合第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第一方面,本公开在第一方面的第九种实现方式中,针对所述潜在匹配文本对,根据以下至少一项,确定所述最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数;所述潜在匹配文本中的第一文本和第二文本的法律声明。
第二方面,本公开实施例中提供了一种文本匹配装置。
具体地,所述文本匹配装置,包括:
数据获取模块,用于获取第一文本和第二文本的数据;
n连词重合程度确定模块,通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;
潜在匹配文本对确定模块,用于至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第二方面,本公开在第二方面的第一种实现方式中,所述n连词至少包括N1连词N2连词,其中,N1≠N2。
结合第二方面,本公开在第二方面的第二种实现方式中,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:
根据同时出现在所述第一文本和所述第二文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度。
结合第二方面,本公开在第二方面的第三种实现方式中,所述第一文本是从第一语言的第一原始文本转换得到的;和/或
所述第二文本是从第二语言的第二原始文本转换得到的;和/或
所述第一语言和所述第二语言是不同的语言;和/或
所述第一文本和所述第二文本是所述第二语言的文本。
结合第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或
对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。
结合第二方面的第三种实现方式,本公开在第二方面的第五种实现方式中,所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者
所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。
结合第二方面的第五种实现方式,本公开在第二方面的第六种实现方式中,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第二方面的第三种实现方式,本公开在第二方面的第七种实现方式中,所述第一原始文本是从第一网页获得的;
所述第二原始文本是从第二网页获得的;
所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而言的增量网页,所述第二网页是所述第二语言的当前网页集合中的增量网页或存量网页;或者
所述第一网页是所述第一语言的当前网页集合中的增量网页或存量网页,所述第二网页是所述第二语言的当前网页集合中相比于所述第二语言的存量网页而言的增量网页。
结合第二方面的第七种实现方式,本公开在第二方面的第八种实现方式中,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第二方面,本公开在第二方面的第九种实现方式中,所述文本匹配装置还包括:最终匹配文本对确定模块,用于针对所述潜在匹配文本对,根据以下至少一项,确定所述最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数;所述潜在匹配文本中的第一文本和第二文本的法律声明。
第三方面,本公开实施例中提供了一种计算机系统。具体地,所述计算机系统,包括:处理器;存储器,存储有可执行指令,当所述可执行指令被处理器执行时,实现以下方法步骤:
获取第一文本和第二文本的数据;
通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;
至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第三方面,本公开在第三方面的第一种实现方式中,所述n连词至少包括N1连词N2连词,其中,N1≠N2。
结合第三方面,本公开在第三方面的第二种实现方式中,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:
根据同时出现在所述第一文本和所述第二文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度。
结合第三方面,本公开在第三方面的第三种实现方式中,所述第一文本是从第一语言的第一原始文本转换得到的;和/或
所述第二文本是从第二语言的第二原始文本转换得到的;和/或
所述第一语言和所述第二语言是不同的语言;和/或
所述第一文本和所述第二文本是所述第二语言的文本。
结合第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或
对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。
结合第三方面的第三种实现方式,本公开在第三方面的第五种实现方式中,所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者
所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。
结合第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第三方面的第三种实现方式,本公开在第三方面的第七种实现方式中,所述第一原始文本是从第一网页获得的;
所述第二原始文本是从第二网页获得的;
所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而言的增量网页,所述第二网页是所述第二语言的当前网页集合中的增量网页或存量网页;或者
所述第一网页是所述第一语言的当前网页集合中的增量网页或存量网页,所述第二网页是所述第二语言的当前网页集合中相比于所述第二语言的存量网页而言的增量网页。
结合第三方面的第七种实现方式,本公开在第三方面的第八种实现方式中,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
结合第三方面,本公开在第三方面的第九种实现方式中,针对所述潜在匹配文本对,根据以下至少一项,确定所述最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数;所述潜在匹配文本中的第一文本和第二文本的法律声明。
第四方面,本公开实施例中提供了一种计算机可读存储介质。
具体地,所述计算机可读存储介质,存储有可执行指令,当所述可执行指令被处理器执行时,实现如第一方面、第一方面的第一种实现方式到第一方面的第九种实现方式中任一项所述的方法。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它目的和优点将变得更加明显。在附图中:
图1示出了根据本公开实施例的应用场景的示意图;
图2示出了根据本公开实施例的文本匹配方法的流程图;
图3示出了根据本公开实施例的文本匹配方法的流程图;
图4示出了根据本公开实施例的文本匹配装置的框图;
图5示出了根据本公开实施例的文本匹配装置的框图;
图6示出根据本公开实施例的计算机系统的结构框图;
图7示出根据本公开实施例适于文本匹配方法的计算机体系架构的结构框图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
在提出本公开的过程中,发明人发现,在真实的语料系统中,网页的数目极其庞大,可以达到数百亿的量级,网页匹配的工作量十分巨大。而且,随着网络上的网页数越来越多,每次对有网页更新的站点进行一次全量的网页匹配会浪费过多的机器资源,甚至在有限的机器资源下根本无法做到全量有更新站点的网页匹配,这会严重影响语料系统的稳步建设和增长。为至少部分解决上述问题而提出本公开。
图1示出了根据本公开实施例的应用场景的示意图。可以理解,图1所示应用场景仅为了说明本公开的概念和原理,而并非意味着本公开仅适用于这样的应用场景。
在本应用场景中,可以使用相同内容的不同语言版本作为用于训练机器翻译的语料库。例如,可以从网站的中、英文版本提取网页并进行匹配,选取描述内容相同的中、英文网页,为中、英文机器翻译提供训练语料。
如图1所示,在步骤S101中,提交源+语向任务,例如提供网页数据源和中文到英文的语向任务。
在步骤S102中,筛选源+语向的增量源网页数据src_delta_pages和增量目标网页数据tgt_delta_pages,例如,参考数据100中的该语向的存量网页uid记录,从本次源+语向任务获得的网页中筛选增量源网页数据src_delta_pages和增量目标网页数据tgt_delta_pages。存量网页是在本次源+语向任务之前已处理过的网页,增量网页是在本次源+语向任务之前未处理过的网页。由于本示例中的语向是中文到英文,所以增量源网页数据是增量中文网页数据,增量目标网页数据是增量英文网页数据。网页的uid是网页的唯一标识。将筛选出来的增量源网页数据src_delta_pages和增量目标网页数据tgt_delta_pages加入数据100,作为以后任务中使用的存量网页。
结合数据200中已处理uid分词记录,在步骤S103中,对未分词网页进行分词,合并历史分词得到分词结果delta_toks。例如,可以结合数据200中已处理uid分词记录,对未分词的增量源网页数据src_delta_pages和增量目标网页数据tgt_delta_pages进行分词,合并历史分词得到分词结果delta_toks。由于在步骤S102中获取的增量源网页数据和增量目标网页数据是基于中文到英文语向的,在该增量源网页数据和增量目标网页数据中,有部分可能是在其它语向中(例如在中文到法文的语向中)已经做过分词了,即部分增量中文网页数据已经做过分词,该分词记录存在数据200的已处理uid分词记录中,因此,步骤S103中可以使用这部分已分词增量中文网页数据中的历史分词,而不必进行重复分词,从而节约计算资源。
根据本公开的实施例,分词是将网页中的文字按照语言规则和语言习惯划分为词,例如句子“I love work”分成“I”、“love”、“work”三个词,“我热爱这个国家”分成“我”、“热爱”、“这个”、“国家”四个词。在步骤S103的分词处理完成后,将此次处理的分词结果存入数据200,扩充数据200中的已处理uid分词记录,以备后续使用。
在步骤S104中,通过从源语言翻译到目标语言,去除停用词,生成两张表src_delta_toks和tgt_delta_toks。停用词可以根据需要自行设定,例如可以是没有显著含义的词,例如“this”、“that”、“the”、“a”、“an”等等。从源语言翻译到目标语言,可以是针对增量源网页的分词结果进行词粒度的机器翻译,以将源语言的分词结果翻译到目标语言,在本示例中是将中文翻译到英文,并去除停用词以生成增量源网页分词表src_delta_toks。针对增量目标网页的分词结果去除停用词以生成增量目标网页分词表tgt_delta_toks。步骤S104也生成了两组增量文本:数据300为从增量源网页提取并进行了分词、翻译和去停用词之后得到的增量源文本,即src_lang增量文本,包括文本src_delta_uid1,src_delta_uid2,……;数据400为从增量目标网页提取并进行了分词和去停用词的增量目标文本,即tgt_lang增量文本,包括文本tgt_delta_uid1,tgt_delta_uid2,……。
在步骤S105中,进行n连词(即,n-gram)统计,例如,对数据300和数据400的两组增量文本分别进行n-gram统计,得到数据500和数据600。数据500包括n-gram:src_delta_uids,即增量源文本src_delta_uid1,src_delta_uid2,……的n-gram统计结果,数据600包括n-gram:tgt_delta_uids,即增量目标文本tgt_delta_uid1,tgt_delta_uid2,……的n-gram统计结果。根据本公开的实施例,n连词是文本中n个连续的词,例如,1-gram包含一个词,2-gram包含连续的两个词……以此类推。例如,句子“I love work”的1-gram是“I”、“love”、“work”,2-gram是“I love”、“love work”。然后,可以将数据500和数据600加入数据700,即存量源文本的n-gram库n-gram:src_total_uids和存量目标文本的n-gram库n-gram:tgt_total_uids,以供以后的任务使用。
在步骤S106中,计算文本之间相同的n-gram数,例如源文本和目标文本的一方的增量文本与另一方的增量或存量文本之间相同的n-gram数。其中,存量文本的n-gram统计结果来自数据700:存量源文本的n-gram库n-gram:src_total_uids和存量目标文本的n-gram库n-gram:tgt_total_uids。在统计时,可以统计n-gram:src_delta_uids与n-gram:tgt_total_uids间相同的n-gram数目,n-gram:src_delta_uids与n-gram:tgt_delta_uids间相同的n-gram数目,以及n-gram:src_total_uids与n-gram:tgt_delta_uids间相同的n-gram数目。之所以要在源文本和目标文本的一方的增量文本与另一方的增量或存量文本之间进行匹配,是因为对于同一网站的中、英文版本的更新时间可以不同,导致相同内容的不同语言版本可能一个在存量网页中,一个在增量网页中。因此,除了统计增量源文本src_delta_uids和增量目标文本tgt_delta_uids间的相同n-gram外,还可以在存量文本和增量文本间进行交叉统计。换言之,可以在src_delta_uids与tgt_total_uids间进行相同n-gram的统计和在src_total_uids与tgt_delta_uids间进行相同n-gram的统计。
在步骤S107中,在某个存量一方文本匹配的k个增量另一方文本和前k个匹配的存量另一方文本中,选取前k个匹配的文本,k≥1。例如,在所有增量目标文本中,某个存量源文本可能与k个增量目标文本的匹配最好,但该存量源文本可以与某些存量目标文本的匹配更好。因此,可以获取与该存量源文本具有最大的相同n-gram数的k个增量目标文本,再获取与该存量源文本具有最大的相同n-gram数的k个存量目标文本,在这2k个目标文本中选取相同的n-gram数最大的k个目标文本。类似地,对每个存量目标文本,也进行相同处理。具体地,可以获取与该存量目标文本具有最大的相同n-gram数的k个增量源文本,再获取与该存量源文本具有最大的相同n-gram数的k个存量源文本,在这2k个目标文本中选取相同的n-gram数最大的k个源文本。这样,可以针对每个存量源文本和存量目标文本得到的优化的k个文本对。此外,针对每个增量源文本和增量目标文本也已获得若干个文本对及相应的n-gram数。
在步骤S108中,选取相同的n-gram数最大的前p个文本对,即从针对每个存量源文本和存量目标文本得到的优化的k个文本对和针对每个增量源文本和增量目标文本获得的若干个文本对中,选取相同的n-gram数最大的p个源文本和目标文本间的文本对,p≥1。
在步骤S109中,对前p个文本对中出现次数多于m的文本,选取n-gram数最大的前m个文本对,m≥1。这是为了防止同一个文本进入太多的文本对而加大匹配错误概率,因此,对同一个文本进入文本对的次数进行限定,例如对出现次数多于m=4的文本,选取n-gram数最大的前4个文本对,而剔除其它n-gram数较小的文本对。
在步骤S110中,过滤出新增文本对。在匹配的文本对中,部分有可能是本次任务之前就已经存在的存量源文本与存量目标文本之间的已有文本对,例如数据800中的已有文本对(src_uid,tgt_uid,count),可以将这样的已有文本对剔除,过滤出新增文本对。
针对新增文本对,在步骤S111中,进行句匹配、句对过滤,在匹配的文本中提取匹配的句子。
图2示出了根据本公开实施例的文本匹配方法的流程图。
在步骤S201中,获取第一文本和第二文本的数据。
在步骤S202中,通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1。
在步骤S203中,至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
例如,在文本匹配处理中,可以对两种不同语言的文本进行匹配处理,例如对某款手机的中文说明书和英文说明书进行匹配处理,用于中、英文机器翻译的语料库。此时,第一文本的数据可以是将中文说明书经过分词、词粒度翻译成英文、并去除停用词而得到的英文文本,第二文本的数据可以是将英文说明书经过分词和去除停用词得到的英文文本。对第一文本的数据进行处理,确定其中的n连词。对第二文本的数据进行处理,确定其中的n连词。n连词是n个连续的词,例如句子“I love work”中的1连词是“I”、“love”、“work”,2连词是“I love”、“love work”。可以通过比较两个文本中的n连词,来确定第一文本和第二文本是否为潜在匹配文本对。例如,当第一文本和第二文本的n连词重合程度较高,即第一文本和第二文本具有较多的相同的n连词时,可以认为第一文本和第二文本描述了相近的内容,从而确定第一文本和第二文本属于潜在匹配文本对。通过上述步骤确定的潜在匹配文本,可以用于机器翻译的语料库。而上述步骤可以通过程序自动化实现,使得语料库的扩充更加便捷、高效。
根据本公开实施例,所述n连词至少包括N1连词N2连词,其中,N1≠N2。例如,为了第一文本和第二文本的n连词匹配过程更为准确,可以采用至少两种不同长度的连词,即N1连词和N2连词,N1≠N2。根据本公开实施例,N1=1,N2=2,这样可以使得计算较为简化,利于提高系统实现效率。
表1通过一个示例示出了对第一文本和第二文本进行分词并统计n连词的结果。
文本id 分词结果 1-gram 2-gram
src_delta_uid1 I love work I,love,work I love,love work
src_delta_uid2 I come from China I,come,from,China I come,come from,from China
tgt_delta_uid1 I love Country I,love,Country I love,love Country
tgt_delta_uid2 I am from China I,am,from,China I am,am from,from China
表1
n-gram 第一文本id
I src_delta_uid1,src_delta_uid2
love src_delta_uid1
work src_delta_uid1
come src_delta_uid2
from src_delta_uid2
China src_delta_uid2
I love src_delta_uid1
love work src_delta_uid1
I come src_delta_uid2
come from src_delta_uid2
from China src_delta_uid2
表2
n-gram 第二文本id
I tgt_delta_uid1,tgt_delta_uid2
love tgt_delta_uid1
Country tgt_delta_uid1
am tgt_delta_uid2
from tgt_delta_uid2
China tgt_delta_uid2
I love tgt_delta_uid1
love country tgt_delta_uid1
I am tgt_delta_uid2
amfrom tgt_delta_uid2
from China tgt_delta_uid2
表3
表2和表3示出了每个n连词在文本中的出现情况。例如,在第一文本src_delta_uid1和第二文本tgt_delta_uid1中都出现的1连词为“I”、“love”,在第一文本src_delta_uid1和第二文本tgt_delta_uid1中都出现的2连词为“I love”。在第一文本src_delta_uid2和第二文本tgt_delta_uid2中都出现的1连词为“I”、“love”,在第一文本src_delta_uid1和第二文本tgt_delta_uid1中都出现的2连词为“I love”、“from China”。
根据本公开实施例,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:根据同时出现在所述第一文本和所述第二文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度。同时出现在第一文本和第二文本中的n连词个数越多,表示第一文本和第二文本重合程度越高,也即第一文本和第二文本描述相同内容的可能性越大。用n连词的个数描述重合程度,运算较为简洁,利于计算机实现。
在上面的示例中,在第一文本src_delta_uid1和第二文本tgt_delta_uid1中都出现的1连词为“I”、“love”,在第一文本src_delta_uid1和第二文本tgt_delta_uid1中都出现的2连词为“I love”,因此,在第一文本src_delta_uid1和第二文本tgt_delta_uid1中都出现的n连词个数为3。在第一文本src_delta_uid2和第二文本tgt_delta_uid2中都出现的1连词为“I”、“love”,在第一文本src_delta_uid1和第二文本tgt_delta_uid1中都出现的2连词为“I love”、“from China”,因此,在第一文本src_delta_uid1和第二文本tgt_delta_uid2中都出现的n连词个数为4。
根据本公开实施例,可以将同时出现在第一文本和第二文本中的n连词个数除以第一文本和第二文本的总词数,以得到第一文本与第二文本中的n连词的归一化重合程度,减小文本长度不同对重合程度的影响。根据本公开实施例,也可以对于不同的n连词分配不同权重,例如在计算重合程度时,对于2连词的个数分配比1连词的个数更大的权重,等等。
根据本公开实施例,可以至少根据第一文本与第二文本中的n连词的重合程度,确定第一文本和第二文本是否为潜在匹配文本对。例如,可以设置重合程度阈值,当第一文本与第二文本中的n连词的重合程度达到或超过该阈值时,认为第一文本和第二文本是潜在匹配文本对。或者,对于多个第一文本与多个第二文本进行匹配的情况,可以针对每个第一文本与第二文本的文本对,确定其n连词的重合程度,将所有文本对的重合程度排序,取最大的几个文本对作为潜在文本对。
根据本公开实施例,步骤S201~S203也可用于相同语言的第一文本和第二文本的处理,例如用于两篇文章间的相似度分析,从而高效寻找匹配度较高,即有较大抄袭可能的文章。或者,也可以用于在互联网上的海量网页中寻找对合法网站进行模仿、伪造的欺诈网站等。
根据本公开实施例,所述第一文本是从第一语言的第一原始文本转换得到的;和/或所述第二文本是从第二语言的第二原始文本转换得到的;和/或所述第一语言和所述第二语言是不同的语言;和/或所述第一文本和所述第二文本是所述第二语言的文本。
例如,当本公开的文本匹配方法用于寻找不同语言的潜在匹配文本,为机器翻译提供语料库时,初始得到的可以是第一语言的第一原始文本和第二语言的第二原始文本。第一原始文本和第二原始文本可以是自然语言的文本,或者是从网页中提取的文本。第一语言和第二语言可以是相同语言,或者第一语言和第二语言可以是不同的语言,例如第一语言是汉语,第二语言是英语。第一语言和第二语言不同时,第一原始文本和第二原始文本可能无法直接进行匹配处理,此时,可以将第一原始文本和第二原始文本转换成相同的第二语言的第一文本和第二文本,或者,也可以将第一原始文本和第二原始文本转换成相同的第一语言的第一文本和第二文本,利于匹配处理。
根据本公开实施例,对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。
以第一原始文本为中文手机说明书,第二原始文本为英文手机说明书为例,在将中文手机说明书转换为英文的第一文本时,可以包括以下至少一种处理:对中文手机说明书进行分词,以词粒度将中文词翻译到英文词、去除没有显著意义的词即停用词。在将英文手机说明书转换为英文的第二文本时,可以包括以下至少一种处理:对英文手机说明书进行分词,获取其中的n连词、然后去除停用词。例如,假设第一语言的第一原始文本是“我热爱这个国家”,经过分词后可以得到“我热爱这个国家”,以词粒度翻译到第二语言后得到“Ilove this country”,去除停用词后得到第一文本为“I love country”。假设第二语言的第二原始文本是“I love the work”,经过分词后可以得到四个词“I love the work”,去除停用词后得到第二文本“I love work”。
相比于基于整个句子或语段的翻译来确定文本之间的重合度,词粒度翻译的算法更加简单,效率更高,对计算资源的要求更低。通过去除停用词,可以在形成n连词时,有效减小缺乏显著含义的词对统计结果的干扰。
根据本公开实施例,所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。根据本公开的实施例,存量原始文本是指在本次任务之前已获得并进行过匹配处理的原始文本,增量原始文本是指在本次任务中新获得的原始文本,当前原始文本集合是存量原始文本和增量原始文本的集合。
相比于每次对所有文本进行全量匹配,针对增量文本进行匹配能够大大降低存储、计算资源的消耗,在满足性能要求的前提下处理海量的网页数据,满足每天新增网页的处理需求。在将匹配网页用于生产语料时,能够在大规模的生产环境中,以显著降低的资源消耗保证语料的平稳产出。
跟本公开的实施例,在对一种语言的增量原始文本进行匹配时,不但考虑另一语言的增量原始文本,也考虑该另一语言的存量原始文本。例如,当针对某品牌手机的中文说明书和英文说明书进行匹配时,中文说明书的更新和英文说明书的更新可能是不同步的。因此,在第一原始文本和第二原始文本的匹配过程中,除了考虑增量原始文本,还可以考虑存量原始文本,以实现增量原始文本和存量原始文本的可能匹配。例如,当第一原始文本是新获得的中文说明书(属于增量原始文本)时,第二原始文本可以是以前获得并处理过的英文说明书(属于存量原始文本)或新获得的英文说明书(属于增量原始文本)。或者,当第二原始文本是新获得的英文说明书(属于增量原始文本)时,第一原始文本可以是以前获得并处理过的中文说明书(属于存量原始文本)或新获得的中文说明书(属于增量原始文本)。
根据本公开的实施例,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
例如,当第一原始文本是以前获得并处理过的中文说明书(属于存量原始文本)时,第一文本是第一原始文本经过分词、从中文翻译到英文和去停用词处理得到的,第二文本是增量英文说明书经过分词、去停用词处理得到的。考虑到第一文本是存量的,第二文本是增量的,表述内容可能并不相同,第一文本和第二文本的n连词重合程度可能不如第一文本和存量英文说明书经过分词、去停用词处理得到的文本间的n连词重合程度高。因此,可以根据第一文本和第二文本的n连词重合程度和第一文本和存量英文说明书经过分词、去停用词处理得到的文本间的n连词重合程度,确定第一文本和第二文本是否为潜在匹配文本对。
具体地,当第一文本和第二文本的n连词重合程度低于第一文本和第二语言的存量原始文本经过分词、去停用词处理得到的文本间的n连词重合程度时,可以不认为第一文本和第二文本属于潜在匹配文本对。
或者,对于从存量原始文本获得的第一文本,可以按照n连词重合程度从高到低的顺序选择多个第一文本和第二文本的文本对,以及n连词重合程度最高的k个第一文本和第二语言的存量原始文本经过分词、去停用词处理得到的文本的文本对,对这些文本对的n连词重合程度进行排名,以排名从高到低的顺序取k文本对作为候选潜在匹配文本对。对于从增量原始文本获取的第一文本,可以将选取n连词重合程度最高的k个第一文本和第二文本的文本对作为候选潜在匹配文本对,也可以将所有第一文本和第二文本的文本对作为候选潜在匹配文本对。针对多个第一文本,可以将所有多个第一文本的候选潜在匹配文本对按照n连词重合程度从高到低的顺序排名,选择前p个文本对作为潜在文本对。
当第二原始文本是以前获得并处理过的英文说明书(属于存量原始文本)时,处理方式参考前述以前获得并处理过的中文说明书。
根据本公开的实施例,所述第一原始文本是从第一网页获得的;所述第二原始文本是从第二网页获得的;所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而言的增量网页,所述第二网页是所述第二语言的当前网页集合中的增量网页或存量网页;或者所述第一网页是所述第一语言的当前网页集合中的增量网页或存量网页,所述第二网页是所述第二语言的当前网页集合中相比于所述第二语言的存量网页而言的增量网页。
例如,在获取用于机器翻译的语料库时,网页可以是一种有效的获取途径。对于同一产品(例如某品牌手机产品)的中、英文说明书,可以是从中文说明书网页和英文说明书网页获取的。中文说明书网页的更新和英文说明书网页的更新可以是不同步的。因此,在第一原始文本和第二原始文本的获取过程中,除了考虑增量网页,还可以考虑存量网页,以实现增量网页和存量网页的可能匹配。也即第一原始文本是相比于在先汉语说明书网页的增量网页,第二原始文本是在先的英语说明书的网页(存量网页);或者第一原始文本是在先的汉语说明书网页的文本(存量网页),第二原始文本是相比于在先英语说明书网页的增量网页;或者第一原始文本是相比于在先汉语说明书网页的增量网页,第二原始文本是相比于在先英语说明书网页的增量网页。从网页获取第一原始文本和第二原始文本,扩充了原始文本的获取来源,而且更新非常及时,利于语料库的更新迭代。
根据本公开实施例,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或当所述第二网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
例如,当第一网页是以前获得并处理过的中文说明书网页(属于存量网页)时,第一文本是从第一网页提取的原始文本经过分词、从中文翻译到英文和去停用词处理得到的,第二文本是从增量英文说明书网页提取的原始文本经过分词、去停用词得到的。考虑到第一网页是存量的,第二网页是增量的,表述内容可能并不相同,第一文本和第二文本的n连词重合程度可能不如第一文本和从存量英文说明书网页提取的网页经过分词、去停用词处理得到的文本间的n连词重合程度。因此,可以根据第一文本和第二文本的n连词重合程度和第一文本和存量英文说明书网页经过分词、去停用词处理得到的文本间的n连词重合程度,确定第一文本和第二文本是否为潜在匹配文本对。
具体地,当第一文本和第二文本的n连词重合程度低于第一文本和第二语言的存量网页提取的原始文本经过分词、去停用词处理得到的文本间的n连词重合程度时,可以不认为第一文本和第二文本属于潜在匹配文本对。
或者,对于从第一语言的存量网页提取的原始文本获得的第一文本,可以按照n连词重合程度从高到低的顺序选择多个第一文本和第二文本的文本对,以及n连词重合程度最高的k个第一文本和第二语言的存量网页提取的原始文本经过分词、去停用词处理得到的文本的文本对,对这些文本对的n连词重合程度进行排名,以排名从高到低的顺序取k文本对作为候选潜在匹配文本对。对于从第一语言的增量网页提取的原始文本获取的第一文本,可以将选取n连词重合程度最高的k个第一文本和第二文本的文本对作为候选潜在匹配文本对,也可以将所有第一文本和第二文本的文本对作为候选潜在匹配文本对。针对多个第一文本,可以将所有多个第一文本的候选潜在匹配文本对按照n连词重合程度从高到低的顺序排名,选择前p个文本对作为潜在文本对。
当第二网页是以前获得并处理过的英文说明书网页(属于存量网页)时,处理方式参考前述以前获得并处理过的中文说明书网页。
图3示出了根据本公开实施例的文本匹配方法的流程图。
图3中除了与图2相同的步骤S201~S203之外,还增加了步骤S204。
在步骤S204中,针对所述潜在文本对,根据以下至少一项,确定所述最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数;所述潜在匹配文本中的第一文本和第二文本的法律声明。
例如,在确定上述潜在匹配文本后,可以根据以下至少一项确定最终匹配文本:
潜在匹配文本的来源网页的统一资源定位符(URL):在发布同一内容网页的不同语言版本时,经常会遇到不同语言版本的URL基本相同,只是个别关键字不同。因此,潜在匹配文本的来源网页的URL可以作为判断最终匹配文本的依据之一。
获取潜在匹配文本的网页数据文件的结构:对应同一内容网页的不同语言版本,网页数据文件的html语法结构经常是相同的。因此,获取潜在匹配文本的网页的数据文件的结构可以作为判断最终匹配文本的依据之一。
对应同一内容网页的不同语言版本,翻译到同一语言后的文本长度经常是相近的,长度相差太大,例如一半以上的,同一内容的可能性较低。因此,潜在匹配文本长度可以作为判断最终匹配文本的依据之一。
潜在匹配文本对中的某一文本如果在所有潜在匹配文本对中出现次数过多,其部分误匹配的概率较大,可以将其属于的相同n连词数目较小的潜在匹配文本对剔除。
同一内容网页的不同版本,法律声明经常是相同的。因此,法律声明可以作为判断最终匹配文本对的依据之一。
通过以上至少一项的综合判断,可以从潜在匹配文本中确定最终匹配文本。以上判断方式与前述基于n连词匹配程度的判断方式不同,不是基于网页具体内容的,因此和基于具体内容的判断方式相比具有独立性,提高了判断匹配文本的准确率。而使用以上多项进行综合判断,进一步提高了判断最终匹配文本的的成功概率。
图4示出了根据本公开实施例的文本匹配装置的框图。
如图4所示,文本匹配装置400包括:
数据获取模块401,用于获取第一文本和第二文本的数据;
n连词重合程度确定模块402,通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;
潜在匹配文本对确定模块403,用于至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
根据本公开实施例,所述n连词至少包括N1连词N2连词,其中,N1≠N2。
根据本公开实施例,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:根据同时出现在所述第一文本和所述第二文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度。
根据本公开实施例,所述第一文本是从第一语言的第一原始文本转换得到的;和/或所述第二文本是从第二语言的第二原始文本转换得到的;和/或所述第一语言和所述第二语言是不同的语言;和/或所述第一文本和所述第二文本是所述第二语言的文本。
根据本公开实施例,对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。
根据本公开实施例,所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。
根据本公开实施例,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
根据本公开实施例,所述第一原始文本是从第一网页获得的;所述第二原始文本是从第二网页获得的;所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而言的增量网页,所述第二网页是所述第二语言的当前网页集合中的增量网页或存量网页;或者所述第一网页是所述第一语言的当前网页集合中的增量网页或存量网页,所述第二网页是所述第二语言的当前网页集合中相比于所述第二语言的存量网页而言的增量网页。
根据本公开实施例,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或当所述第二网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
图5示出了根据本公开实施例的文本匹配装置的框图。
图5包括与图4相同的模块401~403,还包括附加模块:
最终匹配文本对确定模块404,用于针对所述潜在匹配文本对,根据以下至少一项,确定所述最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数。
图6示出根据本公开实施例的计算机系统的结构框图。
如图6中所示,该计算机系统600可以包括一个或多个处理器601以及一个或多个存储器602。所述一个或多个存储器602用于存储一条或多条可执行指令,当所述可执行指令被所述一个或多个处理器601执行时,可以实现以下步骤:
一种文本匹配方法,其特征在于,包括:获取第一文本和第二文本的数据;通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
根据本公开实施例,所述n连词至少包括N1连词N2连词,其中,N1≠N2。
根据本公开实施例,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:根据同时出现在所述第一文本和所述第二文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度。
根据本公开实施例,所述第一文本是从第一语言的第一原始文本转换得到的;和/或所述第二文本是从第二语言的第二原始文本转换得到的;和/或所述第一语言和所述第二语言是不同的语言;和/或所述第一文本和所述第二文本是所述第二语言的文本。
根据本公开实施例,对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。
根据本公开实施例,所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。
根据本公开实施例,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
根据本公开实施例,所述第一原始文本是从第一网页获得的;所述第二原始文本是从第二网页获得的;所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而言的增量网页,所述第二网页是所述第二语言的当前网页集合中的增量网页或存量网页;或者所述第一网页是所述第一语言的当前网页集合中的增量网页或存量网页,所述第二网页是所述第二语言的当前网页集合中相比于所述第二语言的存量网页而言的增量网页。
根据本公开实施例,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或当所述第二网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
根据本公开实施例,针对所述潜在匹配文本对,根据以下至少一项,确定所述最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数;所述潜在匹配文本中的第一文本和第二文本的法律声明。
根据本公开实施例,上述文本匹配装置可以在分布式计算机系统中实现。该分布式计算机系统可以使用多台计算机实现。
图7示出根据本公开实施例适于文本匹配方法的计算机体系架构的结构框图。
如图7所示,计算机系统700包括处理器(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述方法。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
另外,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
根据本公开的实施例,可以采用一个如上文描述的计算机体系架构来实现根据本公开实施例的方法,也可以采用多个如上文描述的计算机体系架构彼此协作来实现根据本公开实施例的方法。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种文本匹配方法,其特征在于,包括:
获取第一文本和第二文本的数据,所述第一文本包括第一增量文本和第一存量文本,所述第二文本包括第二增量文本和第二存量文本;
通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;
至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;
其中,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:
根据同时出现在所述第一增量文本和所述第二增量文本中的n连词个数,以及同时出现在所述第一存量文本和所述第二增量文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度;或
根据同时出现在所述第一增量文本和所述第二存量文本中的n连词个数,以及同时出现在所述第一存量文本和所述第二存量文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度;
所述根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一文本与第二文本中的n连词的重合程度达到或超过预设的重合程度阈值时,确定第一文本和第二文本是潜在匹配文本对。
2.根据权利要求1所述的方法,其特征在于:
所述n连词至少包括N1连词N2连词,其中,N1≠N2。
3.根据权利要求1所述的方法,其特征在于:
所述第一文本是从第一语言的第一原始文本转换得到的;和/或
所述第二文本是从第二语言的第二原始文本转换得到的;和/或
所述第一语言和所述第二语言是不同的语言;和/或
所述第一文本和所述第二文本是所述第二语言的文本。
4.根据权利要求3所述的方法,其特征在于:
对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或
对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。
5.根据权利要求3所述的方法,其特征在于:
所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者
所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。
6.根据权利要求5所述的方法,其特征在于,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
7.根据权利要求3所述的方法,其特征在于:
所述第一原始文本是从第一网页获得的;
所述第二原始文本是从第二网页获得的;
所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而言的增量网页,所述第二网页是所述第二语言的当前网页集合中的增量网页或存量网页;或者
所述第一网页是所述第一语言的当前网页集合中的增量网页或存量网页,所述第二网页是所述第二语言的当前网页集合中相比于所述第二语言的存量网页而言的增量网页。
8.根据权利要求7所述的方法,其特征在于,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:
当所述第一网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或
当所述第二网页是存量网页时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量网页获得的原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。
9.根据权利要求1所述的方法,其特征在于,还包括:
针对所述潜在匹配文本对,根据以下至少一项,确定最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数;所述潜在匹配文本中的第一文本和第二文本的法律声明。
10.一种文本匹配装置,其特征在于,包括:
数据获取模块,用于获取第一文本和第二文本的数据,所述第一文本包括第一增量文本和第一存量文本,所述第二文本包括第二增量文本和第二存量文本;
n连词重合程度确定模块,通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;
潜在匹配文本对确定模块,用于至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;
其中,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:
根据同时出现在所述第一增量文本和所述第二增量文本中的n连词个数,以及同时出现在所述第一存量文本和所述第二增量文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度;或
根据同时出现在所述第一增量文本和所述第二存量文本中的n连词个数,以及同时出现在所述第一存量文本和所述第二存量文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度;
所述根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一文本与第二文本中的n连词的重合程度达到或超过预设的重合程度阈值时,确定第一文本和第二文本是潜在匹配文本对。
11.根据权利要求10所述的装置,其特征在于,还包括:
最终匹配文本对确定模块,用于针对所述潜在匹配文本对,根据以下至少一项,确定所述最终匹配文本对:所述潜在匹配文本对中的第一文本和第二文本的来源;从其获取所述潜在匹配文本对中的第一文本和第二文本的数据文件的结构;所述潜在匹配文本对中的第一文本和第二文本的长度;所述潜在匹配文本对中的文本在所有潜在匹配文本对中出现的次数;所述潜在匹配文本中的第一文本和第二文本的法律声明。
12.一种计算机系统,包括:
处理器;
存储器,存储有可执行指令,当所述可执行指令被处理器执行时,实现根据权利要求1~9中任一项所述的文本匹配方法。
13.一种计算机可读存储介质,存储有可执行指令,当所述可执行指令被处理器执行时,实现根据权利要求1~9中任一项所述的文本匹配方法。
CN201910703715.6A 2019-07-31 2019-07-31 文本匹配方法、装置、计算机系统及可读存储介质 Active CN112395856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910703715.6A CN112395856B (zh) 2019-07-31 2019-07-31 文本匹配方法、装置、计算机系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910703715.6A CN112395856B (zh) 2019-07-31 2019-07-31 文本匹配方法、装置、计算机系统及可读存储介质

Publications (2)

Publication Number Publication Date
CN112395856A CN112395856A (zh) 2021-02-23
CN112395856B true CN112395856B (zh) 2022-09-13

Family

ID=74601212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910703715.6A Active CN112395856B (zh) 2019-07-31 2019-07-31 文本匹配方法、装置、计算机系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN112395856B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887192B (zh) * 2021-12-06 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 文本匹配方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914447A (zh) * 2013-01-09 2014-07-09 富士通株式会社 信息处理设备和信息处理方法
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
US10108697B1 (en) * 2013-06-17 2018-10-23 The Boeing Company Event matching by analysis of text characteristics (e-match)
CN109460455A (zh) * 2018-10-25 2019-03-12 第四范式(北京)技术有限公司 一种文本检测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591857B (zh) * 2011-01-10 2015-06-24 富士通株式会社 一种平行语料资源获取方法及系统
CN102930031B (zh) * 2012-11-08 2015-10-07 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统
CN103646117B (zh) * 2013-12-27 2016-09-28 苏州大学 一种基于链接的双语平行网页识别方法及系统
CN109271641B (zh) * 2018-11-20 2023-09-08 广西三方大供应链技术服务有限公司 一种文本相似度计算方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914447A (zh) * 2013-01-09 2014-07-09 富士通株式会社 信息处理设备和信息处理方法
US10108697B1 (en) * 2013-06-17 2018-10-23 The Boeing Company Event matching by analysis of text characteristics (e-match)
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN109460455A (zh) * 2018-10-25 2019-03-12 第四范式(北京)技术有限公司 一种文本检测方法及装置

Also Published As

Publication number Publication date
CN112395856A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN106168965B (zh) 知识图谱构建系统
CN107357777B (zh) 提取标签信息的方法和装置
CN104063387A (zh) 在文本中抽取关键词的装置和方法
US11971912B2 (en) System for uniform structured summarization of customer chats
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
CN106649308B (zh) 一种分词词库更新方法及系统
Singh et al. Sentiment analysis using lexicon based approach
CN115186654A (zh) 一种公文文本摘要生成方法
CN112395856B (zh) 文本匹配方法、装置、计算机系统及可读存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Ashari et al. Document summarization using TextRank and semantic network
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN109992647B (zh) 一种内容搜索方法及装置
CN106776590A (zh) 一种获取词条译文的方法及系统
CN114860872A (zh) 数据处理方法、装置、设备以及存储介质
Ung et al. Combination of features for vietnamese news multi-document summarization
CN113590792A (zh) 用户问题的处理方法、装置和服务器
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN110765239B (zh) 热词识别方法、装置及存储介质
CN106897271B (zh) 新闻正文噪音去除方法及系统
CN111914536B (zh) 观点分析方法、装置、设备及存储介质
CN117056458B (zh) 基于向量空间算法进行前端检索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant