CN112380832A - 文本匹配方法、装置、电子设备及计算机可读存储介质 - Google Patents

文本匹配方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112380832A
CN112380832A CN202011272435.3A CN202011272435A CN112380832A CN 112380832 A CN112380832 A CN 112380832A CN 202011272435 A CN202011272435 A CN 202011272435A CN 112380832 A CN112380832 A CN 112380832A
Authority
CN
China
Prior art keywords
text
view matching
view
matching
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011272435.3A
Other languages
English (en)
Other versions
CN112380832B (zh
Inventor
李寿山
殷亚珏
王晶晶
张民
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202011272435.3A priority Critical patent/CN112380832B/zh
Publication of CN112380832A publication Critical patent/CN112380832A/zh
Application granted granted Critical
Publication of CN112380832B publication Critical patent/CN112380832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本匹配方法、装置、电子设备及存储介质,包括:获取第一文本和第二文本,第一文本和第二文本具有相同的文本结构,提取与第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与第二文本中多个版块一一对应的多个第二单视角匹配特征,将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;融合多个拼接后的单视角匹配特征得到第一文本和第二文本的多视角匹配特征;利用多视角匹配特征计算第一文本与第二文本的多视角匹配概率;通过多视角匹配概率确定第一文本与第二文本是否匹配。由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。

Description

文本匹配方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及人工智能领域,具体涉及一种文本匹配方法、装置、电子设备及计算机可读存储介质。
背景技术
自然语言处理(NLP)具有广泛的应用场景,比如用于网页检索、医疗案例检索、专利匹配以及论文匹配等等。
传统的专利匹配、论文匹配等文本匹配大多采用基于规则模板或特征构建的方式,也有一些研究者致力于采用机器学习的方法来对专利、论文等进行匹配,不过现有机器学习方法只使用了局部的信息,或者仅是对文本表征学习进行改进,其使用的特征对于句子层面或许是足够的,而对于专利、论文这种基于文档层面的语料是很难捕获到充足的信息的,这将会导致专利、论文的匹配准确率低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中匹配准确率低的缺陷,从而提供一种文本匹配方法,包括如下步骤:
获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块;
提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应;
将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;
融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征;
利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率;
通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
优选地,所述利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率,包括:
将所述多视角匹配特征输入到预先训练得到的网络模型中,利用所述网络模型计算得到所述第一文本与所述第二文本的多视角匹配概率,其中,所述网络模型的目标函数是基于所述拼接后的单视角匹配特征的代价函数和基于所述多视角匹配特征的代价函数组成。
优选地,还包括:
将多个拼接后的单视角匹配特征输入到所述网络模型中,利用所述网络模型基于所述多个拼接后的单视角匹配特征计算得到所述第一文本与所述第二文本的单视角匹配概率;
利用所述单视角匹配概率对所述多视角匹配概率进行优化调整,得到优化后的多视角匹配概率。
优选地,所述融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征,包括:
采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到所述多视角匹配特征。
优选地,所述通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配,包括:
判断所述多视角匹配概率是否大于等于预设阈值;
当所述多视角匹配概率大于等于所述预设阈值时,确定所述第一文本与所述第二文本匹配。
优选地,所述将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,包括:
将所述属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行标准化处理,形成具有标准格式的特征语句,其中,所述特征语句包括句头标签和句尾标签,所述句头标签位于所述特征语句的头部,所述句尾标签位于所述第一单视角匹配特征与第二单视角匹配特征之间,以及所述特征语句的末端。
本发明要解决的另一个技术问题在于克服现有技术中匹配准确率低的缺陷,从而提供一种文本匹配装置,包括:
获取模块,用于获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块;
提取模块,用于提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应;
拼接模块,用于将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;
融合模块,用于融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征;
计算模块,用于利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率;
判断模块,用于通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
优选地,所述融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征,包括:
采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到所述多视角匹配特征。
本发明还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行上述的文本匹配方法。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行上述的文本匹配方法。
本发明技术方案,具有如下优点:
1.本发明提供的文本匹配方法,提取第一文本中多个不同版块中的多个第一单视角匹配特征,提取第二文本中多个不同版块中的多个第二单视角匹配特征,并将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
2.本发明提供的文本匹配装置,提取模块提取第一文本中多个不同版块中的多个第一单视角匹配特征,并提取第二文本中多个不同版块中的多个第二单视角匹配特征,拼接模块将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。融合模块将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。计算模块利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,判断模块最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中文本匹配方法的流程图;
图2为本发明实施例2中文本匹配装置的原理框图;
图3为本发明实施例3中电子设备的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供了一种文本匹配方法,图1是说明根据本发明某些实施例,通过对多个不同文本序列进行提取、拼接、融合、计算以及判断多个不同文本是否匹配的流程图。虽然下文描述的过程包括以特定的顺序出现的多个操作,但是应该清楚地了解到,这些过程也可以包括更多或者更少的操作,这些操作可以顺序执行或者并行执行(例如使用并行处理器或者多线程环境)。
本实施例提供的文本匹配方法,如图1所示,包括如下步骤:
S101、获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块。
在上述实施方式中,第一文本和第二文本为所需要判断是否匹配的文本,第一文本和第二文本可以为专利申请文本、论文文本等,在本实施例中,用专利申请文本作为例子来阐述本实施例的具体实施方案。
所获得的第一文本和第二文本具有相同的文本结构,并且在文本结构中包括多个用于写入不同规定内容类型的版块,例如,专利申请文本中,包括说明书摘要、权利要求书、说明书以及说明书附图等版块,在这些版块中,每个版块都是写入有特定的内容,说明书摘要简述了本专利申请的技术方案以及所能带来的技术效果等,权利要求书记载了本专利申请所要求保护的技术方案,说明书清楚完整地记载了本申请所要解决的技术问题、采用的技术方案、技术方案所能带来的技术效果等,说明书附图记载了与本专利申请相关的设计图纸。每个专利申请文本都具有上述几部分,缺一不可。
S102、提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应。
在上述实施方式中,可以使用BERT模型、ALBERT模型等网络模型来对第一文本和第二文本进行单视角特征提取,在本实施例中,采用BERT模型来对第一文本和第二文本进行单视角特征提取。BERT模型不需要用一个很庞大的训练集就能获得几乎所有的对分类起关键作用的特征,这将使得在现实应用中特征提取的效率非常高,也将会直接提高整个文本匹配任务的效率。
使用BERT模型中的Transfomer层对第一文本和第二文本进行特征提取,包括:将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行标准化处理,形成具有标准格式的特征语句。其中,特征语句包括句头标签和句尾标签,句头标签位于特征语句的头部,句尾标签位于第一单视角匹配特征与第二单视角匹配特征之间,以及特征语句的末端。
举个例子,使用BERT模型中的Transfomer层对第一专利申请文本和第二专利申请文本中的权利要求进行单视角匹配特征提取,对第一专利申请文本和第二专利申请文本中的权利要求各截取特定长度的字数,例如64个字、50个字或者30个字等等,在本实施例中,进行单视角匹配特征提取时截取64个字。并且在本实施例中,句头标签用CLS表示,句尾标签用SEP表示,标准格式的特征语句可以表示为:CLS T1 SEP T2 SEP,其中T1为第一专利申请文本中权利要求的第一单视角匹配特征,T2为第二专利申请文本中权利要求的第二单视角匹配特征。所提取的第一专利申请文本和第二专利申请文本中的说明书摘要以及说明书的单视角匹配特征均处理成标准格式的特征语句,将所提取到的单视角匹配特征处理成BERT模型的输入格式,使得BERT模型能够更好地获取专利申请文本的单视角匹配特征。
在本步骤中,使用BERT模型中的Transfomer层对第一专利申请文本和第二专利申请文本中的权利要求、说明书摘要以及说明书进行单视角匹配特征提取,并将相同版块的的单视角匹配特征进行标准化处理,形成具有标准格式的特征语句如下:
CLS T1 SEP T2 SEP,其中T1为第一专利申请文本中权利要求的第一单视角匹配特征,T2为第二专利申请文本中权利要求的第二单视角匹配特征;
CLS M1 SEP M2 SEP,其中M1为第一专利申请文本中说明书摘要的第一单视角匹配特征,M2为第二专利申请文本中说明书摘要的第二单视角匹配特征;
CLS N1 SEP N2 SEP,其中N1为第一专利申请文本中说明书的第一单视角匹配特征,N2为第二专利申请文本中说明书的第二单视角匹配特征。
将特征处理成上述具有标准格式的特征语句作为BERT模型的输入格式,使得BERT模型能够更好地获取到单视角匹配特征。
本步骤所提取到的多个版块的单视角匹配特征,可以提取第一文本和第二文本中的两个版块、三个版块或四个版块的单视角匹配特征,在一些实施例中,所提取到的版块数量可以超过四个。第一文本和第二文本中所提取的版块位置一一对应,例如第一专利申请文本和第二专利申请文本中,都提取权利要求、说明书摘要及说明书的单视角匹配特征,而不是第一专利申请文本中提取说明书及说明书摘要的单视角匹配特征,第二专利申请文本中却提取权利要求、说明书摘要及说明书的单视角匹配特征。
S103、将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征。
在上述实施方式中,将在步骤S102中所提取到的相同板块的单视角匹配特征拼接,得到多个拼接后的单视角匹配特征。在本实施例中,拼接在步骤S102中所提取到的单视角匹配特征可表示为:
CLS-T1-SEP-T2-SEP,其中T1为第一专利申请文本中权利要求的第一单视角匹配特征,T2为第二专利申请文本中权利要求的第二单视角匹配特征;
CLS-M1-SEP-M2-SEP,其中M1为第一专利申请文本中说明书摘要的第一单视角匹配特征,M2为第二专利申请文本中说明书摘要的第二单视角匹配特征;
CLS-N1-SEP-N2-SEP,其中N1为第一专利申请文本中说明书的第一单视角匹配特征,N2为第二专利申请文本中说明书的第二单视角匹配特征。
经过该步骤,对第一专利申请文本和第二专利申请文本所提取到的单视角匹配特征进行拼接,得到三个单视角匹配特征。
S104、融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征。
在上述实施方式中,对经步骤S103拼接后的多个单视角匹配特征进行融合,在本实施例中,采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到多视角匹配特征,多头注意力机制能够同时注意到来自不同版块的单视角匹配特征,综合考虑多个不同视角下的单视角匹配特征对最终结果的影响大小,以此来提高最终的匹配准确率。例如,在专利申请文本中,融合从第一专利申请文本和第二专利申请文本中提取到的多个单视角匹配特征,并采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,可以设定说明书摘要所占的权重最轻,说明书所占的权重其次,权利要求书所占的权重最重。当然,在一些实施例中,也可以采用加权平均的方式来对各个单视角匹配特征进行配重,以此来提高最终的匹配概率,例如在同一专利申请文本的相同板块中,提取多个单视角匹配特征,加权平均多个单视角匹配特征的权重。
S105、利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率。
在上述实施方式中,利用多视角匹配特征计算第一文本与第二文本的多视角匹配概率,包括:
将经步骤S104融合得到的多视角匹配特征输入到预先训练得到的网络模型中,利用网络模型计算得到第一文本与所述第二文本的多视角匹配概率,其中,网络模型的目标函数是基于拼接后的单视角匹配特征的代价函数和基于多视角匹配特征的代价函数组成。训练及识别过程中网络模型可能会逐渐倾向于选择一部分特征进行学习,为代价函数的各个组成部分赋予一定的权重来调节各视角结果的平衡,可以帮助网络模型充分利用所有的特征信息,优化多视角匹配特征预测得到的结果。虽然在计算第一文本与第二文本的多视角匹配概率的时候,只利用到了第一文本与所述第二文本的多视角匹配概率,但是,由于网络模型的目标函数是基于拼接后的单视角匹配特征的代价函数和基于多视角匹配特征的代价函数组成,因此网络模型的目标函数中参数受到单视角匹配特征的影响,从而使得最终的多视角匹配特征计算得到的匹配概率中融合了单视角的因素,进一步提高了最终的匹配的准确率。
在训练过程中,使用优化器最小化单视角匹配特征的代价函数和多视角匹配特征的代价函数,使得网络模型最终收敛,从而获得效果最好的网络模型。
在一些实施例中,还包括将多个拼接后的单视角匹配特征输入到网络模型中,利用网络模型基于多个拼接后的单视角匹配特征计算得到第一文本与第二文本的单视角匹配概率,即利用单视角匹配概率对多视角匹配概率进行优化调整,得到优化后的多视角匹配概率,并以优化后的多视角匹配概率作为最终结果。
举例来说,将经步骤S103所拼接得到的单视角匹配特征CLS-T1-SEP-T2-SEP、CLS-M1-SEP-M2-SEP以及CLS-N1-SEP-N2-SEP输入到训练好的网络模型的中,并且将融合后的多视角匹配特征输入到训练好的网络模型中,多个单视角匹配特征和融合后的多视角匹配特征经过线性变换,使用sigmoid函数分别从单视角和多视角出发预测得到文本的匹配概率,并最终采用多视角预测得到的匹配概率作为文本匹配的结果,以此进一步提高最终文本匹配的结果准确率。
S106、通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
在上述实施方式中,判断多视角匹配概率是否大于等于预设阈值,当多视角匹配概率大于等于预设阈值时,确定第一文本与第二文本匹配,当多视角匹配概率小于预设阈值时,确定第一文本与第二文本不匹配。
举例来说,设定预设阈值T为0.5,当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.5时,则第一专利申请文本与第二专利申请文本匹配;当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.6时,则第一专利申请文本与第二专利申请文本匹配;而当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.45时,则第一专利申请文本与第二专利申请文本不匹配。预设阈值T的范围大于等于0并且小于等于1,预设阈值T的具体数值在此不作限定,本领域技术人员可根据具体情况进行合理的选择。基于实验结果和实验样本正负平衡的考虑,建议将阈值T取为0.5附近。
在一些实施例中,还可以再预设一个阈值,当第一专利申请文本与第二专利申请文本的多视角匹配概率大于该阈值时,可以确定该第一专利申请文本与第二专利申请文本属于最接近的文件。举例来说,设定阈值T为0.8,当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.9时,可以确定该第一专利申请文本与第二专利申请文本不仅匹配,而且还属于最接近的文件。
在本实施例中,提取第一文本中多个不同版块中的多个第一单视角匹配特征,提取第二文本中多个不同版块中的多个第二单视角匹配特征,并将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
实施例2
本实施例提供了一种文本匹配装置,如图2所示,包括:
获取模块201,用于获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块。详细内容请参见实施例1中步骤S101的相关描述,此处不再赘述。
提取模块202,用于提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应。详细内容请参见实施例1中步骤S102的相关描述,此处不再赘述。
拼接模块203,用于将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征。详细内容请参见实施例1中步骤S103的相关描述,此处不再赘述。
融合模块204,用于融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征。详细内容请参见实施例1中步骤S104的相关描述,此处不再赘述。
计算模块205,用于利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率。详细内容请参见实施例1中步骤S105的相关描述,此处不再赘述。
判断模块206,用于通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。详细内容请参见实施例1中步骤S106的相关描述,此处不再赘述。
在本实施例中,提取模块202提取第一文本中多个不同版块中的多个第一单视角匹配特征,并提取第二文本中多个不同版块中的多个第二单视角匹配特征,拼接模块203将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。融合模块204将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。计算模块205利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,判断模块206最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
实施例3
本实施例提供了一种电子设备,如图3所示,该设备包括处理器301和存储器302,其中处理器301和存储器302可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器301可以为中央处理器(Central Processing Unit,CPU)。处理器301还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、图形处理器(Graphics Processing Unit,GPU)、嵌入式神经网络处理器(Neural-network ProcessingUnit,NPU)或者其他专用的深度学习协处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器302作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中文本匹配方法对应的程序指令/模块(如图2所示的获取模块201、提取模块202、拼接模块203、融合模块204、计算模块205以及判断模块206)。处理器301通过运行存储在存储器302中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例1中的文本匹配方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器301所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至处理器301。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器302中,当被所述处理器301执行时,执行如图1所示实施文本匹配方法。
在本实施例中,存储器302存储有文本匹配方法的程序指令或模块,处理器301执行存储在存储器302内的程序指令或模块时,提取第一文本中多个不同版块中的多个第一单视角匹配特征,提取第二文本中多个不同版块中的多个第二单视角匹配特征,并将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本匹配方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种文本匹配方法,其特征在于,包括如下步骤:
获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块;
提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应;
将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;
融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征;
利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率;
通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
2.如权利要求1所述的文本匹配方法,其特征在于,所述利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率,包括:
将所述多视角匹配特征输入到预先训练得到的网络模型中,利用所述网络模型计算得到所述第一文本与所述第二文本的多视角匹配概率,其中,所述网络模型的目标函数是基于所述拼接后的单视角匹配特征的代价函数和基于所述多视角匹配特征的代价函数组成。
3.如权利要求2所述的文本匹配方法,其特征在于,还包括:
将多个拼接后的单视角匹配特征输入到所述网络模型中,利用所述网络模型基于所述多个拼接后的单视角匹配特征计算得到所述第一文本与所述第二文本的单视角匹配概率;
利用所述单视角匹配概率对所述多视角匹配概率进行优化调整,得到优化后的多视角匹配概率。
4.如权利要求1所述的文本匹配方法,其特征在于,所述融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征,包括:
采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到所述多视角匹配特征。
5.如权利要求1所述的文本匹配方法,其特征在于,所述通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配,包括:
判断所述多视角匹配概率是否大于等于预设阈值;
当所述多视角匹配概率大于等于所述预设阈值时,确定所述第一文本与所述第二文本匹配。
6.如权利要求1所述的文本匹配方法,其特征在于,所述将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,包括:
将所述属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行标准化处理,形成具有标准格式的特征语句,其中,所述特征语句包括句头标签和句尾标签,所述句头标签位于所述特征语句的头部,所述句尾标签位于所述第一单视角匹配特征与第二单视角匹配特征之间,以及所述特征语句的末端。
7.一种文本匹配装置,其特征在于,包括:
获取模块,用于获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块;
提取模块,用于提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应;
拼接模块,用于将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;
融合模块,用于融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征;
计算模块,用于利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率;
判断模块,用于通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
8.如权利要求7所述的文本匹配装置,其特征在于,所述融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征,包括:
采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到所述多视角匹配特征。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-6中任一项所述的文本匹配方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-6中任一项所述的文本匹配方法。
CN202011272435.3A 2020-11-13 2020-11-13 文本匹配方法、装置、电子设备及计算机可读存储介质 Active CN112380832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011272435.3A CN112380832B (zh) 2020-11-13 2020-11-13 文本匹配方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011272435.3A CN112380832B (zh) 2020-11-13 2020-11-13 文本匹配方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112380832A true CN112380832A (zh) 2021-02-19
CN112380832B CN112380832B (zh) 2024-01-30

Family

ID=74582387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011272435.3A Active CN112380832B (zh) 2020-11-13 2020-11-13 文本匹配方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112380832B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348017A (zh) * 2019-07-15 2019-10-18 苏州大学 一种文本实体检测方法、系统及相关组件
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
CN111259144A (zh) * 2020-01-16 2020-06-09 中国平安人寿保险股份有限公司 多模型融合文本匹配方法、装置、设备和存储介质
CN111444319A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 文本匹配方法、装置和电子设备
CN111460833A (zh) * 2020-04-01 2020-07-28 合肥讯飞数码科技有限公司 文本生成方法、装置和设备
CN111597779A (zh) * 2020-04-23 2020-08-28 腾讯科技(深圳)有限公司 文本生成方法、装置、设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348017A (zh) * 2019-07-15 2019-10-18 苏州大学 一种文本实体检测方法、系统及相关组件
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
CN111259144A (zh) * 2020-01-16 2020-06-09 中国平安人寿保险股份有限公司 多模型融合文本匹配方法、装置、设备和存储介质
CN111460833A (zh) * 2020-04-01 2020-07-28 合肥讯飞数码科技有限公司 文本生成方法、装置和设备
CN111597779A (zh) * 2020-04-23 2020-08-28 腾讯科技(深圳)有限公司 文本生成方法、装置、设备以及存储介质
CN111444319A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 文本匹配方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG XU, QIYUAN LIU, DONG ZHANG, SHOUSHAN LI, GUODONG ZHOU: "Many vs. Many Query Matching with Hierarchical BERT and Transformer", NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING, pages 155 - 167 *

Also Published As

Publication number Publication date
CN112380832B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CA3166784A1 (en) Human-machine interactive speech recognizing method and system for intelligent devices
KR20190085098A (ko) 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
CN104331442A (zh) 视频分类方法和装置
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN116259075A (zh) 基于提示微调预训练大模型的行人属性识别方法
CN111310464A (zh) 词向量获取模型生成方法、装置及词向量获取方法、装置
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
WO2022216462A1 (en) Text to question-answer model system
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN115422324A (zh) 一种文本处理方法及设备
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN114078468A (zh) 语音的多语种识别方法、装置、终端和存储介质
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN117094383A (zh) 一种语言模型的联合训练方法、系统、设备及存储介质
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
US11176327B2 (en) Information processing device, learning method, and storage medium
CN115510193B (zh) 查询结果向量化方法、查询结果确定方法及相关装置
CN112380832A (zh) 文本匹配方法、装置、电子设备及计算机可读存储介质
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
US20220335274A1 (en) Multi-stage computationally efficient neural network inference
US20240013769A1 (en) Vocabulary selection for text processing tasks using power indices
CN113220825B (zh) 面向个人推文的话题情感倾向性预测模型的建模方法及系统
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant