CN113887192B - 文本匹配方法、装置及存储介质 - Google Patents

文本匹配方法、装置及存储介质 Download PDF

Info

Publication number
CN113887192B
CN113887192B CN202111472529.XA CN202111472529A CN113887192B CN 113887192 B CN113887192 B CN 113887192B CN 202111472529 A CN202111472529 A CN 202111472529A CN 113887192 B CN113887192 B CN 113887192B
Authority
CN
China
Prior art keywords
text
matched
sentence
original
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111472529.XA
Other languages
English (en)
Other versions
CN113887192A (zh
Inventor
葛鑫
姜鹏
赵宇
骆卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202111472529.XA priority Critical patent/CN113887192B/zh
Publication of CN113887192A publication Critical patent/CN113887192A/zh
Application granted granted Critical
Publication of CN113887192B publication Critical patent/CN113887192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文本匹配方法、装置及存储介质,其中,文本匹配方法包括:获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。

Description

文本匹配方法、装置及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种文本匹配方法、装置及存储介质。
背景技术
随着信息交流全球化的深入,机器翻译的需求量大幅度提升,例如,翻译跨国公司的技术资料、电商的商品信息等。而基于神经网络的机器翻译需要大量的双语互译的句对数据,获取双语句对数据的前置条件就是获取到语义平行的多语言文档对,即内容相同语种不同的多语言文档对。示例性地,随着互联网的高速发展,海量网页数据可以提供语义平行的多语言文档对,而基于大数据量、语种异构话等挑战,如何从海量的网页中挖掘互相平行的网页对是亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种文本匹配方法、装置及存储介质,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种文本匹配方法,包括:获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。
根据本申请实施例的第二方面,提供了一种文本匹配装置,包括:获取模块,用于获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;语句匹配模块,用于在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;相似度模块,用于根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;文本匹配模块,用于根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。
根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面的文本匹配方法对应的操作。
根据本申请实施例的第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如第一方面的文本匹配方法。
根据本申请实施例的第五方面,提供了一种计算机程序产品,该计算机程序产品被处理器执行时,实现如第一方面的文本匹配方法。
本申请实施例提供的文本匹配方法、装置及存储介质,获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种文本匹配方法的场景示意图;
图2为本申请实施例一提供的一种文本匹配方法的流程图;
图3为本申请实施例一提供的一种文本匹配方法的流程图;
图4为本申请实施例二提供的一种文本匹配装置的结构图;
图5为本申请实施例三提供的一种电子设备的结构图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一
本申请实施例一提供一种文本匹配方法,应用于电子设备,为了便于理解,对本申请实施例一所提供的文本匹配方法的应用场景进行说明,参照图1所示,图1为本申请实施例一提供的一种文本匹配方法的场景示意图。图1所示的场景中包括电子设备101,电子设备101可以是执行本申请实施例一提供的文本匹配方法的设备。
电子设备101可以是智能手机、平板电脑、笔记本电脑、车载终端等终端设备,电子设备101也可以是服务器等网络设备,当然,此处只是示例性说明,并不代表本申请局限于此。
电子设备101可以接入网络,通过网络与云端连接,并进行数据交互,或者,电子设备101可以是云端的设备。本申请中,网络包括局域网(英文:Local Area Network,LAN)、广域网(英文:Wide Area Network,WAN)、移动通信网络;如万维网(英文:World Wide Web,WWW)、长期演进(英文:Long Term Evolution,LTE)网络、2G网络(英文:2th GenerationMobile Network)、3G网络(英文:3th Generation Mobile Network),5G网络(英文:5thGeneration Mobile Network)等。云端可以包括通过网络连接的各种设备,例如,服务器、中继设备、端到端(英文:Device-to-Device,D2D)设备等。当然,此处只是示例性说明,并不代表本申请局限于此。
结合图1所示的场景,详细说明本申请实施例一提供的文本匹配方法,需要说明的是,图1只是本申请实施例一提供的文本匹配方法的一种应用场景,并不代表该文本匹配方法必须应用于图1所示的场景,具体可以应用于电子设备,参照图2所示,图2为本申请实施例一提供的一种文本匹配方法的流程图,该方法包括以下步骤:
步骤201、获取原文本和至少一个待匹配文本。
其中,原文本和待匹配文本均包含至少一个语句。可选地,原文本和待匹配文本的语种不同,例如,原文本为中文文本,待匹配文本可以包括英文文本、日文文本、德文文本等,此处只是示例性说明,本申请实施例提供的方法能够检测与原文本内容相同、语种不同的文本,在检测之前,不能确定原文本和待匹配文本是否为语种不同、内容相同的相互匹配的文本。
需要说明的是,在一种应用场景中,原文本和待匹配文本可以是网页中的文本,即网页内容,示例性地,获取原文本和至少一个待匹配文本,包括:获取原网页和至少一个候选网页;在至少一个候选网页中确定与原网页一级域名相同的网页作为待匹配网页;从原网页中提取原文本,从待匹配网页中提取待匹配文本。域名可以包括域名后缀、一级域名、二级域名等,例如,域名后缀可以包括“.com”、“.net”、“.org”等。一级域名由字符串和域名后缀组成,例如,一级域名的结构为“abcd.com”、“abcd.net”等。在候选网页中确定与原网页一级域名相同的网页作为待匹配网页,可以减少运算量,通常,语种不同、内容相同的网页一级域名是相同的,因此通过一级域名进行筛选,在准确性较高的前提下,减少了运算量。
步骤202、在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对。
需要说明的是,在本申请中,相匹配的语句对表示内容相似度超过预设阈值的两个语句,对语句进行匹配,可以是相似度匹配,或者可以称为近邻搜索或近邻检索的匹配,目的是为了找到内容相同或相近的语句对,一个语句可以对应一个或多个与之匹配的语句对。可选地,在进行语句匹配之前,可以先对原文本和待匹配文本进行语句分割。示例性地,该方法还包括:对原文本和待匹配文本进行段落划分得到原文本的段落和待匹配文本的段落;根据句末标点将原文本的段落和待匹配文本的段落进行语句分割得到原文本的语句和目标文本的语句。进一步地,结合步骤201中的应用场景,对原文本和待匹配文本进行段落划分可以基于原网页和待匹配网页中的超文本标记语言(英文:Hyper Text MarkupLanguage,HTML)标签进行划分,然后去除HTML标签,因为HTML标签用于段落划分,但没有实际含义,因此,去除HTML标签可以减少匹配过程中的噪音,提高匹配的准确度。
此处,列举一具体的实现方式说明如何进行匹配。可选地,在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对,包括:将原文本的语句与待匹配文本的语句进行编码得到原文本的语句向量和待匹配文本的语句向量;对原文本的语句向量和待匹配文本的语句向量进行近邻检索,根据检索结果确定相互匹配的至少一个语句对。
需要说明的是,对语句进行编码是将语句转化为向量,可以根据字节对编码(英文:Byte Pair Encoder,BPE)技术,利用BPE词表对语句进行编码得到向量。具体地,在建立BPE词表的过程中,可以获取样本语句,可以将样本语句中出现频率最高的字节对进行合并,循环执行,直到最高频率的字节对在样本语句中出现频率为1,即出现1次。例如,
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w e s t </w>': 6, 'w i de s t </w>': 3},其中,停止符"</w>"的意义在于表示该字/词位于词尾,字节对"e"和"s"共出现了9次,将其合并成"es",输出,
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w es t </w>': 6, 'w i des t </w>': 3},字节对"es"和"t"出现了9次,合并为"est",输出,
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est </w>': 6, 'w i dest </w>': 3}以此类推,出现频率最高的字节对为"est"和"</w>",出现了9次,合并为"est</w>",输出:
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3},如此循环直行,直到最高频率的字节对的出现频率为1,然后按照最终合并好的样本语句,对每一个字节可以设置一个比特位。然后根据BPE词表对原文本的语句和待匹配文本的语句进行编码,对于语句包含的字节对,将字节对对应的比特位设置为1,否则设置为0,即可得到该语句的编码。此处只是示例性说明,也可以通过其他方式编码。
进一步可选地,在对语句向量进行近邻检索之前,可以对语句向量进行降维处理或者特征提取,例如,该方法还包括:利用神经网络模型对原文本的语句向量和待匹配文本的语句向量进行降维处理,得到降维后的原文本的语句向量和待匹配文本的语句向量。对语句向量进行降维处理,可以减小数据量,进一步减小运算量,提高匹配效率。
还需要说明的是,对语句向量进行近邻检索,可以是对每个原文本的语句向量确定与该原文本的语句向量相近的k个待匹配文本的语句向量。例如,将语句向量进行分割,对分割的每一个向量段建立索引号,利用索引号进行聚类检索,这样只需要在同一个聚类中检索相近的语句向量,大大提高了检索效率。当然,此处只是示例性说明。
步骤203、根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值。
需要说明的是,相似度分值用于指示一个原文本与一个待匹配文本之间的相似程度,本申请实施例以一个原文本为例,因此,将原文本和待匹配文本的相似度分值简称为待匹配文本的相似度分值,如果原文本有多个,则需明确是原文本和待匹配文本之间的相似度分值。如果原文本和待匹配文本中相互匹配的语句对的数量越大,则原文本和待匹配文本的相似度分值越高,反之,相似度分值越低。
可选地,在一种示例中,根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值,包括:为语句对增加文本对标记,文本对标记包括语句对中包含的语句所属的原文本和待匹配文本;根据文本对标记,确定待匹配文本与原文本相互匹配的语句对数量;根据待匹配文本与原文本相互匹配的语句对数量计算待匹配文本的相似度分值。其中,文本对标记用于指示一个文本对,即一个原文本和一个待匹配文本形成的文本对,文本对标记可以包含原文本标识(英文:Identifier,ID)和待匹配文本ID,对每一个语句对添加文本对标记后,根据文本对标记,可以明确每一个文本对包含的语句对,便于统计每一个文本对中相互匹配的语句对的数量。
进一步地,基于上述示例,说明如何计算相似度分值,根据待匹配文本与原文本相互匹配的语句对数量计算待匹配文本的相似度分值,包括:将原文本的语句数量和待匹配文本的语句数量中的较大值作为基数;待匹配文本与原文本相互匹配的语句对数量与基数的比值作为待匹配文本的相似度分值。可以通过公式计算相似度分值,相似度分值=(相互匹配的语句对数量)/max(原文本的语句数量,待匹配文本的语句数量),其中,max()表示取最大值,例如,对于原文本A和待匹配文本B,将A的语句数量和B的语句数量中的较大值作为基数,利用A和B中相互匹配的语句对数量与基数作比即可得到A和B之家的相似度分值。这样计算可以使得相似度分值归一化,计算的相似度分值更准确。
步骤204、根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。
需要说明的是,可以将相似度分值大于预设分值的待匹配文本确定为与原文本匹配的目标文本,目标文本的数量可以是一个或多个。示例性地,根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本,包括:按照相似度分值从大到小的顺序对M个待匹配文本进行排序得到待匹配文本序列;在待匹配文本序列中,将排序在前N位的待匹配文本作为目标文本,M和N为正整数,且N小于M。将M个待匹配文本按照相似度分值排序,更利于筛选出目标文本,提高处理效率。
结合上述步骤201-204所描述地文本匹配方法,此处列举一具体应用场景,详细说明该方法的具体实现过程,如图3所示,图3为本申请实施例一提供的一种文本匹配方法的流程图。在此应用场景中,以网页中的文本为例,对多个网页进行匹配。图3示出了网页库,该网页库包含各个网站的网页,每个网站可以包含多个不同语种的网页,本申请实施例可以在这些不同语种的网页中进行匹配,确定出内容相同的网页,即相互匹配的网页(也可以称为文本)。
对至少一个网页进行预处理,根据网页中的HTML标签对网页进行段落划分,并删除HTML标签;对段落划分后的网页进行语种识别,图3示出了T个语种,T为大于2的整数,此处只是示意性说明,为每一个网页分配一个标识符,即文本ID,根据网页的一级域名,将至少一个网页中,域名相同的网页分为一组,在每一组网页中确定相互匹配的网页,不同组的网页之间不需要进行匹配,大大减少了运算量。
对于同一个组中的每个网页的文本,根据句末标点进行分割,也就是断句,得到至少一个语句。对每个文本的语句进行过滤,去除掉噪音语句,可以得到每一个组的语句库,噪音语句可以表示包括价钱、数字、时间等类型的语句,还可以包括非当前文本的语种的语句,还可以包括长度小于预设长度的语句。对语句进行噪声过滤,可以减小噪声,提高匹配的准确率。
对于同一个组中,经过噪声过滤后的每个网页的文本,利用BPE词表对每个文本的语句进行编码得到语句向量;利用神经网络模型对语句向量进行降维处理。
对于同一个组中,经过降维处理后的文本的语句向量,可以基于同一组中所有文本的语句向量进行近邻检索,确定出相互匹配的语句对。
对于每个相互匹配的语句对,添加文本对标记,即原文本ID+待匹配文本ID;基于文本对标记对同一组中的所有的相互匹配的语句对进行聚合,统计出每个文本对中相互匹配的语句对数量,并计算每个文本对的相似度分值,可以得到每个原文本对应的待匹配文本。
对于每个原文本对应的M个待匹配文本,按照相似度分值从大到小的顺序进行排序,并将排序在前N位的待匹配文本作为与该原文本相互匹配的目标文本。
本申请实施例提供的文本匹配方法,获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。
实施例二
基于上述实施例一所描述的方法,本申请实施例二提供一种文本匹配装置,用于执行上述实施例一所描述的方法,参照图4所示,文本匹配装置40,包括:
获取模块401,用于获取原文本和至少一个待匹配文本,所述原文本和所述待匹配文本均包含至少一个语句;
语句匹配模块402,用于在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;
相似度模块403,用于根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值;
文本匹配模块404,用于根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本。
可选地,在一种具体示例中,语句匹配模块402,用于将原文本的语句与待匹配文本的语句进行编码得到原文本的语句向量和待匹配文本的语句向量;对原文本的语句向量和待匹配文本的语句向量进行近邻检索,根据检索结果确定相互匹配的至少一个语句对。
可选地,在一种具体示例中,语句匹配模块402,还用于利用神经网络模型对原文本的语句向量和待匹配文本的语句向量进行降维处理,得到降维后的原文本的语句向量和待匹配文本的语句向量。
可选地,在一种具体示例中,相似度模块403,用于为语句对增加文本对标记,文本对标记包括语句对中包含的语句所属的原文本和待匹配文本;根据文本对标记,确定待匹配文本与原文本相互匹配的语句对数量;根据待匹配文本与原文本相互匹配的语句对数量计算待匹配文本的相似度分值。
可选地,在一种具体示例中,相似度模块403,用于将原文本的语句数量和待匹配文本的语句数量中的较大值作为基数;待匹配文本与原文本相互匹配的语句对数量与基数的比值作为待匹配文本的相似度分值。
可选地,在一种具体示例中,文本匹配模块404,用于按照相似度分值从大到小的顺序对M个待匹配文本进行排序得到待匹配文本序列;在待匹配文本序列中,将排序在前N位的待匹配文本作为目标文本,M和N为正整数,且N小于M。
可选地,在一种具体示例中,获取模块401,用于获取原网页和至少一个候选网页;在至少一个候选网页中确定与原网页一级域名相同的网页作为待匹配网页;从原网页中提取原文本,从待匹配网页中提取待匹配文本。
本申请实施例提供的文本匹配装置,获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。
实施例三
基于上述实施例一所描述的方法,本申请实施例三提供一种电子设备,用于执行上述实施例一所描述的方法,参照图5,示出了根据本申请实施例三的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备50可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述文本匹配方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以实现实施例一中所描述的文本匹配方法。程序510中各步骤的具体实现可以参见上述文本匹配方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例提供的电子设备,获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。
实施例四
基于上述实施例一所描述的方法,本申请实施例四提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所描述的方法。
实施例五
基于上述实施例一所描述的方法,本申请实施例五提供一种计算机程序产品,该计算机程序产品被处理器执行时实现如实施例一所描述的方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的导航方法。此外,当通用计算机访问用于实现在此示出的导航方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的导航方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (9)

1.一种文本匹配方法,其中,所述方法用于机器翻译模型的训练,所述方法包括:
获取原文本和至少一个待匹配文本,所述原文本和所述待匹配文本均包含至少一个语句,其中,所述原文本和所述待匹配文本的语种不同;
在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;
根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值;
根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本,所述原文本和所述目标文本为内容相同语种不同的文本;
其中,所述在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对,包括:将所述原文本的语句与所述待匹配文本的语句进行编码得到所述原文本的语句向量和所述待匹配文本的语句向量;对所述原文本的语句向量和所述待匹配文本的语句向量进行近邻检索,根据检索结果确定相互匹配的至少一个语句对;
其中,对所述原文本的语句向量和所述待匹配文本的语句向量进行近邻检索,包括:将所述原文本的语句向量和所述待匹配文本的语句向量分别进行分割;对分割获得的每一个向量段建立索引号,通过对索引号进行聚类检索以实现所述原文本的语句向量和所述待匹配文本的语句向量的近邻检索。
2.根据权利要求1所述的方法,其中,所述方法还包括:
利用神经网络模型对所述原文本的语句向量和所述待匹配文本的语句向量进行降维处理,得到降维后的所述原文本的语句向量和所述待匹配文本的语句向量。
3.根据权利要求1所述的方法,其中,所述根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值,包括:
为所述语句对增加文本对标记,所述文本对标记包括所述语句对中包含的语句所属的原文本和待匹配文本;
根据所述文本对标记,确定所述待匹配文本与所述原文本相互匹配的语句对数量;
根据所述待匹配文本与所述原文本相互匹配的语句对数量计算所述待匹配文本的相似度分值。
4.根据权利要求3所述的方法,其中,所述根据所述待匹配文本与所述原文本相互匹配的语句对数量计算所述待匹配文本的相似度分值,包括:
将所述原文本的语句数量和所述待匹配文本的语句数量中的较大值作为基数;
所述待匹配文本与所述原文本相互匹配的语句对数量与所述基数的比值作为所述待匹配文本的相似度分值。
5.根据权利要求1所述的方法,其中,所述根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本,包括:
按照相似度分值从大到小的顺序对M个所述待匹配文本进行排序得到待匹配文本序列;
在所述待匹配文本序列中,将排序在前N位的待匹配文本作为所述目标文本,M和N为正整数,且N小于M。
6.根据权利要求1-5任一项所述的方法,其中,所述获取原文本和至少一个待匹配文本,包括:
获取原网页和至少一个候选网页;
在至少一个候选网页中确定与原网页一级域名相同的网页作为待匹配网页;
从所述原网页中提取所述原文本,从所述待匹配网页中提取所述待匹配文本。
7.一种文本匹配装置,所述装置用于机器翻译模型的训练,所述装置包括:
获取模块,用于获取原文本和至少一个待匹配文本,所述原文本和所述待匹配文本均包含至少一个语句,其中,所述原文本和所述待匹配文本的语种不同;
语句匹配模块,用于在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对,包括:将所述原文本的语句与所述待匹配文本的语句进行编码得到所述原文本的语句向量和所述待匹配文本的语句向量;对所述原文本的语句向量和所述待匹配文本的语句向量进行近邻检索,根据检索结果确定相互匹配的至少一个语句对;其中,对所述原文本的语句向量和所述待匹配文本的语句向量进行近邻检索,包括:将所述原文本的语句向量和所述待匹配文本的语句向量分别进行分割;对分割获得的每一个向量段建立索引号,通过对索引号进行聚类检索以实现所述原文本的语句向量和所述待匹配文本的语句向量的近邻检索;
相似度模块,用于根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值;
文本匹配模块,用于根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本,所述原文本和所述目标文本为内容相同语种不同的文本。
8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的文本匹配方法对应的操作。
9.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-6中任一项 所述的文本匹配方法对应的操作。
CN202111472529.XA 2021-12-06 2021-12-06 文本匹配方法、装置及存储介质 Active CN113887192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111472529.XA CN113887192B (zh) 2021-12-06 2021-12-06 文本匹配方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111472529.XA CN113887192B (zh) 2021-12-06 2021-12-06 文本匹配方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113887192A CN113887192A (zh) 2022-01-04
CN113887192B true CN113887192B (zh) 2022-05-27

Family

ID=79016277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111472529.XA Active CN113887192B (zh) 2021-12-06 2021-12-06 文本匹配方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113887192B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488126B (zh) * 2008-12-31 2011-05-11 深圳市点通数据有限公司 双语语句对齐方法及装置
CN109710834B (zh) * 2018-11-16 2020-01-10 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN112395856B (zh) * 2019-07-31 2022-09-13 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算机系统及可读存储介质
CN112149424A (zh) * 2020-08-10 2020-12-29 招联消费金融有限公司 语义匹配方法、装置、计算机设备和存储介质
CN113656547B (zh) * 2021-08-17 2023-06-30 平安科技(深圳)有限公司 文本匹配方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113887192A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN112800201B (zh) 自然语言的处理方法、装置及电子设备
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN114860942B (zh) 文本意图分类方法、装置、设备及存储介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN111475608A (zh) 一种基于功能语义关联计算的Mashup服务特征表示方法
CN112926340A (zh) 一种用于知识点定位的语义匹配模型
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN113568969B (zh) 信息抽取方法、装置、设备以及计算机可读存储介质
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN111160445B (zh) 投标文件相似度计算方法及装置
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN113887192B (zh) 文本匹配方法、装置及存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN111291208B (zh) 前端页面元素的命名方法、装置及电子设备
CN113553852A (zh) 一种基于神经网络的合同信息提取方法、系统和存储介质
CN114492390A (zh) 基于关键词识别的数据扩充方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant