CN115545001A - 一种文本匹配方法及装置 - Google Patents

一种文本匹配方法及装置 Download PDF

Info

Publication number
CN115545001A
CN115545001A CN202211508210.2A CN202211508210A CN115545001A CN 115545001 A CN115545001 A CN 115545001A CN 202211508210 A CN202211508210 A CN 202211508210A CN 115545001 A CN115545001 A CN 115545001A
Authority
CN
China
Prior art keywords
semantic
node
target
sentence
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211508210.2A
Other languages
English (en)
Other versions
CN115545001B (zh
Inventor
赵闻飙
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202211508210.2A priority Critical patent/CN115545001B/zh
Publication of CN115545001A publication Critical patent/CN115545001A/zh
Application granted granted Critical
Publication of CN115545001B publication Critical patent/CN115545001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种文本匹配方法及装置,该方法包括:针对两个目标文本,构建语义关系图;目标文本包括多个句子;语义关系图包括多个语义节点及其间的连接边,单个语义节点关联有与该节点的语义相匹配的句子集;连接边表示两个语义节点的节点相似度满足预设条件;根据各语义节点关联的句子集中分别对应于两个目标文本的句子子集的差异情况,确定各语义节点的编码表征;利用图神经网络,根据语义关系图及编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征;利用各语义节点的聚合表征和分类网络,确定分类结果,其表征两个目标文本在语义上是否匹配。

Description

一种文本匹配方法及装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种文本匹配方法及装置。
背景技术
长文本一般可以指包括较多句子的文本,例如:学术论文、新闻文章、小说等等。目前在新闻、学术等领域,出于多种应用目的,存在对两个长文本进行匹配识别的需求,即确定两个长文本是否在描述同一事件或者有关联。在一个示例性的场景中,考虑到网络的发展,网络文章被传播的速度较快速,对于其中可能存在涉及个人隐私信息的文章,其被广泛传播的话,对个人会造成较严重的后果,那么为了对个人隐私信息的保护,则需要对网络中的文章进行匹配识别,以召回被广泛传播的涉及个人隐私信息的文章,减少个人隐私的传播。
那么,如何提供一种结果准确的文本匹配方法成为亟待解决的问题。
发明内容
本说明书一个或多个实施例提供了一种文本匹配方法及装置,以实现提高文本匹配结果的准确性。
根据第一方面,提供一种文本匹配方法,包括:
针对两个目标文本,构建语义关系图;所述目标文本包括多个句子;所述语义关系图包括多个语义节点及其间的连接边,单个语义节点关联有与该节点的语义相匹配的句子集;所述连接边表示,两个语义节点的节点相似度满足预设条件;
根据各语义节点关联的句子集中分别对应于所述两个目标文本的句子子集的差异情况,确定各语义节点的编码表征;
利用图神经网络,根据所述语义关系图及所述编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征;
利用各语义节点的聚合表征和分类网络,确定分类结果,其表征所述两个目标文本在语义上是否匹配。
根据第二方面,提供一种文本匹配装置,包括:
构建模块,配置为针对两个目标文本,构建语义关系图;所述目标文本包括多个句子;所述语义关系图包括多个语义节点及其间的连接边,单个语义节点关联有与该节点的语义相匹配的句子集;所述连接边表示,两个语义节点的节点相似度满足预设条件;
第一确定模块,配置为根据各语义节点关联的句子集中分别对应于所述两个目标文本的句子子集的差异情况,确定各语义节点的编码表征;
聚合模块,配置为利用图神经网络,根据所述语义关系图及所述编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征;
第二确定模块,配置为利用各语义节点的聚合表征和分类网络,确定分类结果,其表征所述两个目标文本在语义上是否匹配。
根据第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面所述的方法。
根据第四方面,提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。
根据本说明书实施例提供的方法及装置,针对两个目标文本,构建语义关系图,其中的单个语义节点关联有与该节点的语义相匹配的句子集,并且连接边表示两个语义节点的节点相似度满足预设条件,即连接边可以表征出语义节点关联的句子集之间的语义关联性;根据各语义节点关联的句子集中分别对应于两个目标文本的句子子集的差异情况,确定各语义节点的编码表征,该编码表征可以表征两个目标文本在该语义节点的语义的匹配情况,进而,利用图神经网络,根据语义关系图及编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征,该聚合表征融合聚合有语义节点自身的编码表征、及作为其邻居节点的语义节点的编码表征,即利用图神经网络对目标文本中句子级别的语义存在相似性的编码表征进行了汇聚整合,之后利用各语义节点的聚合表征和分类网络,确定表征两个目标文本在语义上是否匹配的分类结果,该过程中更好的利用了文本的整体信息(例如句子本身的语义信息以及句子之间的关联关系),所得到的分类结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书披露的一个实施例的实施框架示意图;
图2为实施例提供的文本匹配方法的一种流程示意图;
图3为实施例提供的图聚类的一种场景示意图;
图4为实施例提供的确定目标语义节点的编码表征过程的示意图;
图5为实施例提供的文本匹配装置的一种示意性框图。
具体实施方式
下面将结合附图,详细描述本说明书实施例的技术方案。
本说明书实施例披露一种文本匹配方法及装置,下面首先对方法的应用场景和技术构思进行介绍,具体如下:
长文本中一般包括的句子较多。目前,对任意的两个长文本进行匹配,即确定两个长文本是否在描述同一件事或者有关联的过程,一般为:分别对两个长文本进行划分,得到两个长文本各自对应的一串短文本串,之后利用预训练的文本模型,分别对两串短文本串进行编码,得到两个长文本各自对应的特征编码,之后利用两个长文本各自对应的特征编码,得到表征两个长文本在语义上是否匹配的分类结果。
上述过程中,所得的特征编码无法体现短文本之间的关系即无法体现长文本的全部信息,相应的,所得的分类结果不够准确。
鉴于此,发明人提出一种文本匹配方法,图1示出根据本说明书披露的一个实施例的实施场景示意图。在该实施场景中,电子设备需要针对任意的两个长文本进行处理,以确定该两个文本是否在描述同一事件或者存在关联。具体的,电子设备获得待匹配的两个文本即两个目标文本(如图1所示,分别为第一文本和第二文本),该两个目标文本均各自包括多个句子。之后为了保证所确定结果的准确性,需要结合考虑两个目标文本的整体信息,相应的,针对该两个目标文本,构建包括多个语义节点及其间的连接边的语义关系图,其中单个语义节点关联有与该节点的语义相匹配(存在一定相似度)的句子集,该句子集中的句子属于该两个目标文本,连接边表示两个语义节点的节点相似度满足预设条件,两个语义节点的节点相似度可以基于两个语义节点关联的句子集确定,连接边可以将语义存在一定相似性的语义节点连接在一起,即将语义存在一定相似性的句子集连接在一起。
可以理解的,对于单个语义节点而言,其中分别对应于两个目标文本的句子子集的差异情况(例如包括分别对应于两个目标文本的句子子集的分布差异,和/或其中句子的真实句子语义的差异),可以反映出两个目标文本在该语义节点的语义下的匹配情况。具体的,一种情况,若分别对应于两个目标文本的句子子集中句子的真实句子语义差异不大,且分别对应于两个目标文本的句子子集分布较均匀(例如分别对应于两个目标文本的句子子集之间的句子数量差异小于第一数量阈值),则可以确定两个目标文本在该语义节点的语义上相匹配的可能性较大。另一种情况,若分别对应于两个目标文本的句子子集中句子的真实句子语义差异不大,但分别对应于两个目标文本的句子子集分布差异较大(例如仅包含两个目标文本中其中一个文本的句子,即仅包含第一文本的句子或仅包含第二文本的句子),则可以确定两个目标文本在该语义节点的语义上相匹配的可能性不大。又一种情况,若分别对应于两个目标文本的句子子集分布较均匀,且分别对应于两个目标文本的句子子集中句子的真实句子语义差异较大,则可以确定两个目标文本在该语义节点的语义相匹配的可能性不大。
鉴于此,电子设备可以根据各语义节点关联的句子集中分别对应于两个目标文本的句子子集的差异情况,确定各语义节点的编码表征,各语义节点的编码表征可以表征该语义节点分别对应于两个目标文本的句子子集之间的匹配情况,在一定程度上可以表征两个目标文本在该语义节点的语义下的匹配情况。
之后,利用图神经网络,根据语义关系图及编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征,进而利用各语义节点的聚合表征和分类网络,确定表征两个目标文本在语义上是否匹配的分类结果。其中,各语义节点的聚合表征聚合有语义节点自身的编码表征、及作为其邻居节点的语义节点的编码表征,其可以更准确的表征出各个语义节点关联的句子集中分别对应于两个目标文本的句子子集的匹配情况。
上述过程中,通过图神经网络,将具有一定语义相似性的语义节点的编码表征(即目标文本中句子级别的语义存在一定相似性的编码表征)聚合在一起,使得各语义节点的聚合表征在一定程度上增加融合了目标文本的整体信息(句子之间的关联关系),聚合表征所表征的两个目标文本在语义节点的语义下的匹配情况更准确。相应的,利用各语义节点的聚合表征和分类网络,可以确定出更准确的分类结果。
下面结合具体实施例,对本说明书提供的文本匹配方法进行详细阐述。
图2示出了本说明书一个实施例中文本匹配方法的流程图。该方法可以通过电子设备执行,该电子设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。如图2所示,所述方法包括如下步骤S210- S240:
在步骤S210,针对两个目标文本,构建语义关系图。该目标文本包括多个句子;语义关系图包括多个语义节点及其间的连接边,单个语义节点关联有与该节点的语义相匹配的句子集;连接边表示,两个语义节点的节点相似度满足预设条件。
其中,电子设备获得待匹配的两个文本,确定为两个目标文本(可以分别称为第一文本和第二文本),之后针对该两个目标文本,构建语义关系图。在一种情况中,该目标文本可以是论文、新闻文章、小说或者其他类型的文本。两个目标文本均各自包括多个句子。
在一个实施例中,构建语义关键图的具体过程可以是:电子设备基于两个目标文本中所包括的句子涉及的语义,构建多个语义节点,其中各语义节点分别对应一种语义;将两个目标文本中的句子分别关联至语义相匹配的语义节点,之后基于各个语义节点之间的节点相似度确定连接边,具体的将节点相似度满足预设条件的两个语义节点通过连接边连接,以构建得到语义关系图。其中,该预设条件可以根据实际情况设置,在一种情况中,可以是将节点相似度超过预设相似度阈值的两个语义节点通过连接边连接,还可以是,在某一语义节点与其他所有语义节点的节点相似度均未超过预设相似度阈值时,将该语义节点与其节点相似度最大的语义节点通过连接边连接。
在又一个实施例中,构建语义关键图(在步骤S210)的具体过程,可以包括如下步骤11-14,在步骤11,从两个目标文本提取关键词。一种实现中,关键词为预设停用词之外的词,举例而言,所提取的关键词中可以包括人名、建筑名、地理名称等等命名实体以及其他名词类的词、各种动词以及各种形容词等等。该预设停用词例如可以包括如下类型的词:语气词、连接词。举例而言:对于句子“AA和BB在XX(日期)一起去MM(地名)的NN(饭店名称)吃饭”,所提取出的关键词可以包括“AA”、“BB”、“XX”、“一起”、“去”、“MM”、“NN”以及“吃饭”。
提取出关键词之后,接着在步骤12,根据提取的关键词,生成多个语义节点,各语义节点的语义根据对应的关键词确定。本步骤中,考虑到所提取的关键词中可能存在语义相近和/或存在属于同一个句子的关联关系的词,而两个文本的匹配程度,在一定程度上可以通过其所包含句子之间的匹配程度来体现,也可以通过其各自包含的关键词的重合度以及出现重合的关键词的数量(或者占比)来体现。鉴于此,在一个实施例中,在步骤12,可以包括:在步骤121,对提取的关键词形成的关键词集合进行聚类,得到n个关键词类簇。在步骤122,基于n个关键词类簇,生成多个语义节点。
在一种实现方式中,可以基于关键词的语义是否相近和/或关键词是否处于同一个句子,对提取的关键词进行聚类,其中,将语义相近和/或处于同一个句子中的关键词归为一类,以得到n个关键词类簇,进而基于n个关键词类簇,生成多个语义节点。
在一种情况中,生成多个语义节点的过程,可以是,基于n个关键词类簇和两个目标文本的句子,生成n个语义节点,其中,一个语义节点对应一个关键词类簇,并关联有与其语义(基于所对应的关键词类簇确定)相匹配的句子集。在另一种情况中,考虑到可能存在部分句子与任一关键词类簇均不匹配的情况,鉴于此,为了更好的利用目标文本的整体信息,相应的,可以基于n个关键词类簇,生成n+1个语义节点,其中,n个语义节点分别对应n个关键词类簇,并关联有与其语义(基于所对应的关键词类簇确定)相匹配的句子集,一个语义节点(例如后续提到的虚拟语义节点)关联有与所有关键词类簇均不匹配的句子集。
在一种实现方式中,为了更好的实现对关键词的聚类,在步骤121,可以包括:在步骤1211,基于关键词集合构建关键词关系图,其中单个关键词节点对应一个关键词,边表示关键词属于同一个句子。在步骤1212,对关键词关系图中的节点进行图聚类。
本实现方式中,电子设备基于提取的关键词,构建关键词节点,其中,单个关键词节点对应一个关键词;电子设备基于所对应关键词是否属于同一个句子,构建关键词节点之间的边,具体的通过边连接所对应关键词属于同一个句子的关键词节点,以此构建得到关键词关系图,该关键词关系图可以表征出各关键词是否属于同一个句子的关联关系。
之后对关键词关系图中的关键词进行图聚类。一种实现中,可以通过预设社区发现算法,对关键词关系图中的关键词进行图聚类,其中,该预设社区发现算法可以是预训练的神经网络,用于对关键词进行聚类,理论上可以将属于同一个句子的关键词聚类到一起,形成关键词类簇。
电子设备通过图聚类,得到n个关键词类簇之后,在步骤13,将两个目标文本中的各个句子关联至语义相匹配的语义节点,得到各个语义节点关联的句子集。本步骤中,电子设备可以分别针对两个目标文本中的各个句子,计算各个句子与各个语义节点之间的相似度,基于各个句子与各个语义节点之间的相似度,将各个句子关联至语义相匹配的语义节点,以得到各个语义节点关联的句子集。
可以理解的,针对两个目标文本中任意的一个句子,确定其关联的语义节点的过程均相同,为了描述清楚,下面对任意的一个句子(目标句子)被关联至语义相匹配的关语义节点的过程进行描述,其他句子被关联至语义相匹配的关语义节点的过程可以参见该过程。在一个实施例中,该多个语义节点包括,与n个关键词类簇分别对应的n个语义节点,和一个虚拟语义节点;在步骤13,可以包括步骤131-133:在步骤131,确定任意目标句子与各个关键词类簇的第一相似度。
在一个实现方式中,在步骤131,可以包括:分别计算目标句子与各个关键词类簇之间的文本相似度,作为第一相似度。具体的,本实现方式中,电子设备可以针对各个关键词类簇,确定该目标句子中的关键词与该关键词类簇中的关键词的重合度,举例而言,可以是:首先统计目标句子中与关键词类簇中出现重合的关键词的个数(称为第一个数),之后计算该第一个数与目标句子中关键词总个数的比值,并基于该比值确定目标句子与关键词类簇的关键词重合度,例如目标句子中包括4个关键词,该4个关键词均属于该关键词类簇,则可以确定关键词重合度为100%;也可以是:计算前述的第一个数与关键词类簇中的关键词总个数的比值,并基于该比值确定目标句子与关键词类簇的关键词重合度,例如:目标句子包括4个关键词,关键词类簇包括5个关键词,则可以确定关键词重合度为80%。
其中,目标句子中与关键词类簇中出现重合的关键词,可以是目标句子中包括的与关键词类簇中任一关键词相同的词,也可以是包括的与关键词类簇中任一关键词同(近)义的词,例如关键词类簇中包括“开心”这个关键词,目标句子中的“快乐”和“愉快”等词,可以作为与关键词类簇出现重合的关键词。
之后电子设备可以基于计算所得的目标句子与关键词类簇的关键词重合度确定文本相似度,例如将关键词重合度确定为文本相似度,即第一相似度。
在又一个实现方式中,在步骤131,可以包括:确定目标句子对应的第一编码向量,以及各个关键词类簇对应的第二编码向量;分别计算第一编码向量与各个第二编码向量的余弦相似度,作为第一相似度。
本实现方式中,电子设备还可以利用预设编码算法,分别对目标句子以及各个关键词类簇进行编码,确定出目标句子对应的第一编码向量,以及各个关键词类簇对应的第二编码向量,之后针对各个第二编码向量,计算第一编码向量与该第二编码向量的余弦相似度,作为第一相似度。一种实现中,该预设编码算法可以是预训练的用于对文本进行编码的编码模型,或者其他任一可以实现对文本进行编码的编码算法,本说明书实施例并不对此进行限定。
通过上述方式确定出目标句子与各个关键词类簇的第一相似度之后,在步骤132,若与目标关键词类簇的第一相似度高于预设第一阈值,则确定目标句子与目标关键词类簇之间的语义相匹配,相应的,将该目标句子匹配至该目标关键词类簇对应的目标语义节点。
其中,在一种情况中,可能出现目标句子与多个关键词类簇的第一相似度都高于预设第一阈值的情况,针对该情况,一种实现可以是,将该目标句子匹配至第一相似度最高的关键词类簇;另一种实现可以是,将该目标句子分别匹配至各个第一相似度高于预设第一阈值的关键词类簇。
在步骤133,若与n个关键词类簇的第一相似度均不高于第一阈值,将该目标句子匹配至虚拟语义节点。本步骤中,若与n个关键词类簇的第一相似度均不高于第一阈值,则可以表征,该目标句子的语义与该多个关键词类簇的语义均不匹配,为了更好的利用目标文本的整体信息,将该目标句子匹配至虚拟语义节点。
在通过步骤13,将各个句子关联至语义相匹配的语义节点,使得各个语义节点对应具有关联句子集之后,在步骤14,根据各个语义节点的句子集确定节点相似度,根据节点相似度确定连接边。本步骤中,为了更好的利用目标文本的整体信息,电子设备可以基于各个语义节点的句子集确定各个语义节点之间的节点相似度,进而根据节点相似度确定连接边。一种情况中,可以将节点相似度超过预设节点相似度阈值的两个语义节点之间通过连接边联系。在另一种情况中,若存在某一语义节点(例如语义节点A)与其他语义节点(除语义节点A之外的其他节点)之间的节点相似度,均低于预设节点相似度阈值,此时,为了更好的利用目标文本的整体信息,可以从其他语义节点中,确定出与该语义节点A的节点相似度最大的语义节点(例如为语义节点B),将语义节点A和语义节点B通过连接边连接。
下面对语义节点之间的节点相似性的确定过程进行介绍。具体的,在一个实施例中,在步骤14确定任意的两个语义节点(如后续的第一语义节点和第二语义节点)之间的节点相似性的过程,可以包括:针对多个语义节点中任意的第一语义节点和第二语义节点,分别计算第一语义节点对应的第一句子集中的各个第一句子,与第二语义节点对应的第二句子集中的各个第二句子之间的各个句子相似度;基于各个句子相似度,确定第一语义节点和第二语义节点之间的节点相似性。其中,将第一语义节点对应的句子集称为第一句子集,其中的句子称为第一句子;将第二语义节点对应的句子集称为第二句子集,其中的句子称为第二句子。
举例而言,第一句子集包括2个第一句子,分别为第一句子a和b,第二句子集包括3个第二句子,分别为第二句子c、d和e,计算第一语义节点和第二语义节点之间的节点相似性的过程,可以是:计算第一句子a分别与第二句子c、d和e的句子相似度,分别为ac相似度、ad相似度和ae相似度;计算第一句子b分别与第二句子c、d和e的句子相似度,分别为bc相似度、bd相似度和be相似度;之后,基于ac相似度、ad相似度、ae相似度、bc相似度、bd相似度和be相似度,确定第一语义节点和第二语义节点之间的节点相似性。一种实现中,可以将ac相似度、ad相似度、ae相似度、bc相似度、bd相似度和be相似度的平均值或者和值,确定为第一语义节点和第二语义节点之间的节点相似性。之后,电子设备通过前述的确定方式,确定出各个语义节点之间的节点相似性,接着根据节点相似性确定连接边,以此构建出语义关系图。
下面结合图3,简单回顾一下整个语义关系图的构建过程。其中,通过步骤1211基于关键词集合构建的关键词关系图,如图3的上方所展示的关系图,其中单个关键词节点对应一个关键词“A、B、C、D、E、F、G、H、I、J、K、L、M、N、O和P”,边表示关键词属于同一个句子。之后,对关键词关系图中的节点进行图聚类,如图3(中间所展示的图)所示,将关键词“A、B、C和D”聚类为一个关键词类簇(对应如图3最下方的图所示的语义节点1),将关键词“D、E和F”聚类为一个关键词类簇(对应如图3最下方的图所示的语义节点5),将关键词“H、I、J和K”聚类为一个关键词类簇(对应如图3最下方的图所示的语义节点4),将关键词“L和M”聚类为一个关键词类簇(对应如图3最下方的图所示的语义节点3),将关键词“N、O和P”聚类为一个关键词类簇(对应如图3最下方的图所示的语义节点2)。如图3最下方的图所示的语义节点6为虚拟语义节点。
之后,通过步骤13,将两个目标文本的各个句子关联至语义相匹配的语义节点。如图3最下方的图所示,语义节点1关联有2个第一文本的句子以及3个第二文本的句子;语义节点2关联有3个第一文本的句子以及3个第二文本的句子;语义节点3关联有4个第一文本的句子以及1个第二文本的句子;语义节点4关联有5个第二文本的句子;语义节点5关联有3个第一文本的句子;语义节点6关联有1个第一文本的句子以及4个第二文本的句子。
接着基于各个语义节点所关联的句子集确定节点相似度,根据节点相似度确定连接边,如图3最下方的图所示,构建得到语义关系图。
接着,电子设备构建出语义关系图之后,在步骤S220,根据各语义节点关联的句子集中分别对应于两个目标文本的句子子集的差异情况,确定各语义节点的编码表征。其中,各个语义节点关联的句子集中可以包括分别属于两个目标文本的句子(即其中的部分句子属于两个目标文本中的第一文本,另一部分句子属于两个目标文本中的第二文本),也可以包括仅属于两个目标文本中其中一个文本的句子(例如其中的全部句子均属于第一文本,或者其中的全部句子均属于第二文本)。
本步骤中,考虑到单个语义节点分别对应于两个目标文本的句子子集的差异情况可以反映出两个目标文本在该语义节点的语义下的匹配情况,相应的,电子设备根据各语义节点关联的句子集中分别对应于两个目标文本的句子子集的差异情况,确定各语义节点的编码表征,语义节点的编码表征可以表征该语义节点分别对应于两个目标文本的句子子集之间的匹配情况,在一定程度上可以表征两个目标文本在该语义节点的语义下的匹配情况。其中,该差异情况可以包括:分别对应于两个目标文本的句子子集的分布差异,和/或其中句子的真实句子语义的差异。
在一个实施例中,该多个语义节点包括任意的目标语义节点,该目标语义节点关联目标句子集;相应的,在步骤S220,可以包括:利用孪生网络,分别处理目标句子集中对应于两个目标文本的句子子集,得到该目标语义节点的编码表征。其中,该孪生网络可以是预先训练的神经网络。
在一个实施例中,如图4所示,该孪生网络可以包括融合层以及并行设置的第一编码层和第二编码层;在步骤S220,可以包括:将目标句子集划分为分别对应于两个目标文本的第一子集和第二子集,将第一子集中的句子输入第一编码层,得到第一表征;将第二子集中句子输入第二编码层,得到第二表征;将第一表征和第二表征输入融合层,得到该目标语义节点对应的编码表征。
在一种实现中,该第一编码层和第二编码层可以是,可保留句子中各词的上下文信息及各个句子之间的关联关系的网络,例如分别为LSTM(Long short term memory,长短时记忆)网络。电子设备通过第一编码层和第二编码层,分别得到第一子集的第一表征和第二子集的第二表征之后,将第一表征和第二表征输入融合层,融合层可以对第一表征和第二表征进行融合(例如进行拼接、逐点相乘、相减和/或相加等等),得到目标语义节点对应的可以表征其分别对应于两个目标文本的句子子集之间的匹配情况的融合表征,将其作为编码表征。在一种情况中,该融合层可以是基于DNN或者self-attention架构的融合层。
在一个实施例中,难免出现某一个语义节点关联的句子集中的句子仅属于某一个目标文本,相应的,可能存在前述的目标语义节点的第一子集和第二子集之一为空,此时,第一表征和第二表征中对应空集的表征为预设句子表征,即若第一子集为空,则第一表征为预设句子表征,若第二子集为空,则第二表征为预设句子表征,以保证后续流程的执行。
电子设备得到各个语义节点对应的编码表征之后,接着在步骤S230,利用图神经网络,根据语义关系图及编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征。本步骤中,电子设备可以将语义关系图及各个语义节点对应的编码表征,输入图神经网络,图神经网络基于输入数据对各语义节点进行表征聚合,得到各语义节点的聚合表征。
在一个实施例中,在步骤S230,可以包括:利用图神经网络包括的若干级聚合层,分别将各语义节点作为目标节点,至少基于语义关系图中目标节点的邻居节点对应的编码表征,对该目标节点进行若干级表征聚合。其中,目标节点的邻居节点为在语义关系图中与目标节点通过连接边相连的节点。
本实现方式中,将各语义节点对应的编码表征作为其初级聚合向量,利用图神经网络包括的若干级聚合层,分别将各语义节点作为目标节点v,至少基于语义关系图中目标节点v的邻居节点u对应的编码表征(即初级聚合向量hu 0),对该目标节点v进行若干级表征聚合,得到最后一级(例如第k级)聚合层的聚合向量hv k,作为目标节点v的聚合表征。
在一种实现中,可以仅基于目标节点v的邻居节点u的初级聚合向量hu 0,针对目标节点v执行若干级表征聚合,得到最后一级聚合层的聚合向量hv k,作为目标节点v的聚合表征。另一种实现中,可以基于目标节点v的初级聚合向量hv 0和目标节点v的邻居节点u的初级聚合向量hu 0,共同针对目标节点v执行若干级表征聚合,得到最后一级聚合层的聚合向量hv k,作为目标节点v的聚合表征。
举例而言,一种实现中,对于目标节点v,确定其第i级表征聚合(即第i个聚合层的表征聚合)的过程可以包括,首先利用第i个聚合层的聚合函数AGGi,根据该目标节点v的邻居节点u的上一级(即i-1级)聚合表征hu i-1,得到邻居聚合表征hN(v) i-1,其中N(v)表示目标节点v的邻居节点集,即:
Figure DEST_PATH_IMAGE001
(1)
然后,根据该邻居聚合表征hN(v) i-1,以及该目标节点v的上一级(即i-1级)聚合表征hv i-1,确定该目标节点v的本级(i级)聚合表征hv i,即:
Figure 436138DEST_PATH_IMAGE002
(2)
其中,f表示对邻居聚合表征hN(v) i-1,和目标节点v上一级聚合表征hv i-1施加的综合函数, Wi是第i级聚合的参数。在不同实施例中,函数f中的综合操作可以包括,将hN(v) i-1与hv i-1拼接,或者求和,或者求平均,等等。
以上进行邻居聚合的聚合函数AGGi可以采取不同的形式和算法,例如:聚合函数AGGi可以为但不限于池化操作,求和操作等。
考虑到目标节点v的各个邻居节点u相对于目标节点v来说,其之间的节点相似性不同,并邻居节点u与目标节点v之间的节点相似性越大,该邻居节点u对目标节点v的重要性可能越大,相应的,可以根据各个邻居节点u分别与目标节点v之间的节点相似性,来确定各个邻居节点u在针对目标节点v进行表征聚合时所占的比重。在一种实现中,对于目标节点v,确定其第i级表征聚合(即第i个聚合层的表征聚合)的过程可以包括,基于各个邻居节点u分别与目标节点v之间的节点相似性,确定各个邻居节点u相对于目标节点v的权重值,其中,节点相似性越大,权重值越大;根据目标节点v的上一级聚合表征hv i-1,以及各个邻居节点u的上一级聚合表征hu i-1及其相对于目标节点v的权重值,确定目标节点v的本级聚合表征hv i
通过前述的方式,可以确定得到各个语义节点的聚合表征,该聚合表征可以更准确的表征出,各个语义节点关联的句子集中分别对应于两个目标文本的句子子集的匹配情况,接着在步骤S240,利用各语义节点的聚合表征和分类网络,确定分类结果,其表征两个目标文本在语义上是否匹配。该分类网络可以为预先训练的神经网络。电子设备获得各语义节点的聚合表征之后,可以对各语义节点的聚合表征进行融合,得到整体表征。在一种实现方式中,电子设备可以通过预设融合函数对各聚合表征进行融合(例如,拼接、逐点相乘、相加等等),得到整体表征,该预设融合函数可以是预先训练所得的融合函数。
整体表征融合有各个语义节点关联的句子集中分别对应于两个目标文本的句子子集的匹配情况,将整体表征输入分类网络,得到两个目标文本是否匹配的分类结果。该分类网络可以是任意的可以实现分类的网络,例如可以由两个全连接层构成,本说明书实施例并不对分类网络的具体结构进行限定。
本实施例,通过图神经网络,将具有一定语义相似性的语义节点的编码表征(即目标文本中句子级别的语义存在一定相似性的编码表征)聚合在一起,使得各语义节点的聚合表征在一定程度上增加融合了目标文本的整体信息(句子之间的关联关系),聚合表征所表征的两个目标文本在语义节点的语义的匹配情况更准确。相应的,利用各语义节点的聚合表征和分类网络,可以确定出更准确的分类结果。
在一个实施例中,为了得到准确性更高地表征两个目标文本是否匹配的分类结果,可以计算各语义节点对应的词频/逆文档概率TF-IDF向量(辅助表征),结合其与通过孪生网络所确定的各语义节点对应的融合表征(编码表征),联合确定分类结果,相应的,所述方法还可以包括如下步骤:在步骤31,基于各个语义节点对应的句子集中分别对应于两个目标文本的句子子集,计算各个语义节点对应的节点TF-IDF向量,作为其辅助表征。
相应的,在步骤S230,可以包括:在步骤32,基于各语义节点对应的编码表征和辅助表征,确定各语义节点对应的初级表征;在步骤33,利用图神经网络,根据语义关系图以及各语义节点对应的初级表征进行表征聚合。
本实现方式中,各个语义节点对应有句子集,其中包括分别对应于两个目标文本(第一文本和第二文本)的句子子集,可以针对各个语义节点,基于该语义节点对应的句子集中分别对应于两个目标文本的句子子集,计算两个句子子集(也即两个目标文本在该语义节点的语义下)对应的TF-IDF向量,之后利用两个句子子集对应的TF-IDF向量确定语义节点对应的节点TF-IDF向量,该节点TF-IDF向量可以表征出语义节点对应的句子集中分别对应于两个目标文本的句子子集之间的差异以及匹配情况,将各个语义节点对应的节点TF-IDF向量作为其辅助表征。
进而,将各语义节点对应的编码表征和辅助表征进行融合(例如拼接、逐点相乘、相加等等),确定得到各语义节点对应的初级表征,该初级表征可以更准确的表征出、语义节点对应的句子集中分别对应于两个目标文本的句子子集之间的匹配情况(即两个目标文本在该语义节点的语义下的匹配情况),之后将语义关系图以及各语义节点对应的初级表征输入图神经网络,以通过图神经网络对各语义节点进行表征聚合,得到各语义节点的聚合表征。
下面对语义节点的节点TF-IDF向量的确定过程进行介绍。在一种实现方式中,该两个目标文本选自待匹配文本集;该多个语义节点包括任意的目标语义节点,其关联目标句子集,该目标句子集包括分别对应于两个目标文本的两个目标句子子集;在步骤31,可以包括:在步骤311,基于任意目标句子子集中任意第一词在待匹配文本集中的出现情况,确定任意第一词对应的TF-IDF值;基于该任意目标句子子集中各第一词对应的TF-IDF值和待匹配文本集对应的目标词序列,确定该任意目标句子子集对应的TF-IDF向量。
其中,该待匹配文本集对应的目标词序列,包括从待匹配文本集中提取的词,目标词序列可以表示为[d1,d2……dm],m表示目标词序列中关键词的总个数。该目标词序列[d1,d2……dm]可以包括从待匹配文本集中的各文本所提取的所有或者部分关键词。部分关键词例如可以包括除待匹配文本集中的所有文本均包含且词频相差不大(例如低于预设词频阈值)的词之外的关键词。
第一词为从目标句子子集中提取的关键词。第一词在待匹配文本集中的出现情况,可以包括:第一词在其所属文本中的出现次数,以及待匹配文本集中各文本是否包含第一词的确定结果。其中,若目标句子子集对应目标文本中的第一文本,第一词所属文本为第一文本;若目标句子子集对应目标文本中的第二文本,第一词所属文本为第二文本。
一种实现中,电子设备确定任意第一词对应的TF-IDF值的过程中,需要首先确定任意第一词对应的TF值以及IDF值,之后基于任意第一词对应的TF值以及IDF值,该第一词对应的TF-IDF值。其中,第一词(例如w)对应的TF值的确定方式,可以通过如下公式(3)表示:
Figure DEST_PATH_IMAGE003
(3)
其中,count(w)表示第一词w在其所属文本中的出现次数,|D1|表示与第一词w所属文本中所有关键词的总出现次数。
第一词w对应的IDFw值的确定方式,可以通过如下公式(4)表示:
Figure 415596DEST_PATH_IMAGE004
(4)
其中,N表示待匹配文本集中文本总个数,I(w,Di)表示待匹配文本集中的文本Di是否包含第一词w,若包含,I(w,Di)取1,若不包含,I(w,Di)取0。
电子设备确定出任意第一词对应的TF值以及IDF值之后,将任意第一词对应的TF值和IDF值的乘积,确定为该第一词对应的TF-IDF值。
之后电子设备基于该任意目标句子子集中各第一词对应的TF-IDF值和目标词序列,确定该任意目标句子子集对应的TF-IDF向量。可以理解的,对于任意目标句子子集,目标词序列中包括该目标句子子集的所有第一词,并且包括未包含于该目标句子子集的其他词;基于目标词序列中各个词之间的相对位置,确定该目标句子子集对应的TF-IDF向量,其中,各第一词对应的位置填充该第一词对应的TF-IDF值,其他词对应的位置填充0。该目标句子子集对应的TF-IDF向量[TF-IDFd1,TF-IDFd2……TF-IDFdm],其中,dj为第一词时,TF-IDFdj即为该第一词对应的TF-IDF值,若dj不为第一词时,TF-IDFdj取0。
或者,在另一种实现方式中,电子设备针对任意目标句子子集,依次确定目标词序列[d1,d2……dm]中的各个词是否属于该目标句子子集;若确定目标词dj属于该目标句子子集,则基于目标词dj在其所属文本(目标句子子集对应的文本)中的出现次数,和待匹配文本集中各文本是否包含目标词dj的确定结果,得到目标词dj的对应的TF-IDF值;若目标词不属于该目标句子子集,则确定该目标词dj对应的TF-IDF值为0,由此得到目标句子子集对应的TF-IDF向量。
电子设备通过前述方式,得到目标语义节点对应的两个目标句子子集各自的TF-IDF向量之后,在步骤312,基于该目标语义节点对应的两个目标句子子集各自的TF-IDF向量,确定该目标语义节点对应的节点TF-IDF向量。具体的可以是,对目标语义节点对应的两个句子子集各自的TF-IDF向量进行融合(例如拼接或相加等),得到该目标语义节点对应的节点TF-IDF向量。
在又一个实施例中,电子设备还可以直接将各语义节点对应的节点TF-IDF向量,作为编码表征,直接基于各语义节点对应的节点TF-IDF向量,执行后续的表征聚合过程(步骤S230),进而确定分类结果。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
相应于上述方法实施例,本说明书实施例,提供了一种文本匹配装置500,其示意性框图如图5所示,包括:
构建模块510,配置为针对两个目标文本,构建语义关系图;所述目标文本包括多个句子;所述语义关系图包括多个语义节点及其间的连接边,单个语义节点关联有与该节点的语义相匹配的句子集;所述连接边表示,两个语义节点的节点相似度满足预设条件;
第一确定模块520,配置为根据各语义节点关联的句子集中分别对应于所述两个目标文本的句子子集的差异情况,确定各语义节点的编码表征;
聚合模块530,配置为利用图神经网络,根据所述语义关系图及所述编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征;
第二确定模块540,配置为利用各语义节点的聚合表征和分类网络,确定分类结果,其表征所述两个目标文本在语义上是否匹配。
在一种可选的实施方式中,所述构建模块510,包括:
提取单元(图中未示出),配置为从所述两个目标文本提取关键词;
生成单元(图中未示出),配置为根据提取的关键词,生成所述多个语义节点,各语义节点的语义根据对应的关键词确定;
关联单元(图中未示出),配置为将所述两个目标文本中的各个句子关联至语义相匹配的语义节点,得到各个语义节点关联的句子集;
确定单元(图中未示出),配置为根据各个语义节点的句子集确定所述节点相似度,根据所述节点相似度确定所述连接边。
在一种可选的实施方式中,所述关键词是预设停用词之外的词,其中,所述预设停用词包括如下类型的词:语气词、连接词。
在一种可选的实施方式中,所述生成单元,包括:
聚类子模块(图中未示出),配置为对提取的关键词形成的关键词集合进行聚类,得到n个关键词类簇;
生成子模块(图中未示出),配置为基于n个关键词类簇,生成所述多个语义节点。
在一种可选的实施方式中,所述对聚类子模块,具体配置为基于所述关键词集合构建关键词关系图,其中单个关键词节点对应一个关键词,边表示关键词属于同一个句子;
对所述关键词关系图中的节点进行图聚类。
在一种可选的实施方式中,所述多个语义节点包括,与n个关键词类簇分别对应的n个语义节点,和一个虚拟语义节点;所述关联单元,包括:
第一确定子模块(图中未示出),配置为确定任意目标句子与各个关键词类簇的第一相似度;
第一匹配子模块(图中未示出),配置为若与目标关键词类簇的第一相似度高于预设第一阈值,将该目标句子匹配至该目标关键词类簇对应的目标语义节点;
第二匹配子模块(图中未示出),配置为若与n个关键词类簇的第一相似度均不高于所述第一阈值,将该目标句子匹配至所述虚拟语义节点。
在一种可选的实施方式中,所述第一确定子模块,具体配置为分别计算所述目标句子与各个关键词类簇之间的文本相似度,作为所述第一相似度;或
确定所述目标句子对应的第一编码向量,以及各个关键词类簇对应的第二编码向量;分别计算所述第一编码向量与各个第二编码向量的余弦相似度,作为所述第一相似度。
在一种可选的实施方式中,所述确定单元,具体配置为针对所述多个语义节点中任意的第一语义节点和第二语义节点,分别计算所述第一语义节点对应的第一句子集中的各个第一句子,与所述第二语义节点对应的第二句子集中的各个第二句子之间的各个句子相似度;基于所述各个句子相似度,确定所述第一语义节点和所述第二语义节点之间的节点相似性。
在一种可选的实施方式中,所述多个语义节点包括任意的目标语义节点,所述目标语义节点关联目标句子集;所述第一确定模块520,具体配置为利用孪生网络,分别处理所述目标句子集中对应于所述两个目标文本的句子子集,得到该目标语义节点的编码表征。
在一种可选的实施方式中,所述孪生网络包括融合层以及并行设置的第一和第二编码层;
所述第一确定模块520,具体配置为将所述目标句子集划分为分别对应于所述两个目标文本的第一子集和第二子集,将第一子集中的句子输入第一编码层,得到第一表征;将第二子集中句子输入第二编码层,得到第二表征;将第一表征和第二表征输入所述融合层,得到该目标语义节点对应的编码表征。
在一种可选的实施方式中,所述第一子集和第二子集之一为空;所述第一表征和第二表征中对应空集的表征为预设句子表征。
在一种可选的实施方式中,还包括:
计算模块(图中未示出),配置为基于各个语义节点对应的句子集中分别对应于所述两个目标文本的句子子集,计算各个语义节点对应的节点TF-IDF向量,作为其辅助表征;
所述聚合模块530,具体配置为基于各语义节点对应的编码表征和辅助表征,确定各语义节点对应的初级表征;
利用图神经网络,根据所述语义关系图以及各语义节点对应的初级表征进行表征聚合。
在一种可选的实施方式中,所述两个目标文本选自待匹配文本集;
所述计算模块,具体配置为基于任意目标句子子集中任意第一词在所述待匹配文本集中的出现情况,确定任意第一词对应的TF-IDF值;基于该任意目标句子子集中各第一词对应的TF-IDF值和所述待匹配文本集对应的目标词序列,确定该任意目标句子子集对应的TF-IDF向量;
基于该目标语义节点对应的两个目标句子子集各自的TF-IDF向量,确定该目标语义节点对应的节点TF-IDF向量。
在一种可选的实施方式中,所述聚合模块530,具体配置为利用图神经网络包括的若干级聚合层,分别将各语义节点作为目标节点,至少基于所述语义关系图中所述目标节点的邻居节点对应的编码表征,对该目标节点进行若干级表征聚合。
在一种可选的实施方式中,所述第二确定模块540,具体配置为对各语义节点的聚合表征进行融合,得到整体表征;
将所述整体表征输入所述分类网络,得到所述分类结果。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书所提供的所述文本匹配方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书所提供的所述文本匹配方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (17)

1.一种文本匹配方法,包括:
针对两个目标文本,构建语义关系图;所述目标文本包括多个句子;所述语义关系图包括多个语义节点及其间的连接边,单个语义节点关联有与该节点的语义相匹配的句子集;所述连接边表示,两个语义节点的节点相似度满足预设条件;
根据各语义节点关联的句子集中分别对应于所述两个目标文本的句子子集的差异情况,确定各语义节点的编码表征;
利用图神经网络,根据所述语义关系图及所述编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征;
利用各语义节点的聚合表征和分类网络,确定分类结果,其表征所述两个目标文本在语义上是否匹配。
2.如权利要求1所述的方法,其中,所述构建语义关系图,包括:
从所述两个目标文本提取关键词;
根据提取的关键词,生成所述多个语义节点,各语义节点的语义根据对应的关键词确定;
将所述两个目标文本中的各个句子关联至语义相匹配的语义节点,得到各个语义节点关联的句子集;
根据各个语义节点的句子集确定所述节点相似度,根据所述节点相似度确定所述连接边。
3.如权利要求2所述的方法,其中,所述关键词是预设停用词之外的词,其中,所述预设停用词包括如下类型的词:语气词、连接词。
4.如权利要求2所述的方法,其中,所述根据提取的关键词,生成所述多个语义节点,包括:
对提取的关键词形成的关键词集合进行聚类,得到n个关键词类簇;
基于n个关键词类簇,生成所述多个语义节点。
5.如权利要求4所述的方法,其中,所述对提取的关键词形成的关键词集合进行聚类,包括:
基于所述关键词集合构建关键词关系图,其中单个关键词节点对应一个关键词,边表示关键词属于同一个句子;
对所述关键词关系图中的节点进行图聚类。
6.如权利要求4所述的方法,其中,所述多个语义节点包括,与n个关键词类簇分别对应的n个语义节点,和一个虚拟语义节点;所述将所述两个目标文本中的各个句子关联至语义相匹配的语义节点,包括:
确定任意目标句子与各个关键词类簇的第一相似度;
若与目标关键词类簇的第一相似度高于预设第一阈值,将该目标句子匹配至该目标关键词类簇对应的目标语义节点;
若与n个关键词类簇的第一相似度均不高于所述第一阈值,将该目标句子匹配至所述虚拟语义节点。
7.如权利要求6所述的方法,其中,所述确定任意目标句子与各个关键词类簇的第一相似度,包括:
分别计算所述目标句子与各个关键词类簇之间的文本相似度,作为所述第一相似度;或
确定所述目标句子对应的第一编码向量,以及各个关键词类簇对应的第二编码向量;分别计算所述第一编码向量与各个第二编码向量的余弦相似度,作为所述第一相似度。
8.如权利要求2所述的方法,其中,根据各个语义节点的句子集确定所述节点相似度,包括:
针对所述多个语义节点中任意的第一语义节点和第二语义节点,分别计算所述第一语义节点对应的第一句子集中的各个第一句子,与所述第二语义节点对应的第二句子集中的各个第二句子之间的各个句子相似度;基于所述各个句子相似度,确定所述第一语义节点和所述第二语义节点之间的节点相似性。
9.如权利要求1-8任一项所述的方法,其中,所述多个语义节点包括任意的目标语义节点,所述目标语义节点关联目标句子集;所述根据各语义节点关联的句子集中分别对应于所述两个目标文本的句子子集的差异情况,确定各语义节点的编码表征,包括:
利用孪生网络,分别处理所述目标句子集中对应于所述两个目标文本的句子子集,得到该目标语义节点的编码表征。
10.如权利要求9所述的方法,其中,所述孪生网络包括融合层以及并行设置的第一和第二编码层;
所述利用孪生网络,分别处理所述目标句子集中对应于所述两个目标文本的句子子集,包括:
将所述目标句子集划分为分别对应于所述两个目标文本的第一子集和第二子集,将第一子集中的句子输入第一编码层,得到第一表征;将第二子集中句子输入第二编码层,得到第二表征;将第一表征和第二表征输入所述融合层,得到该目标语义节点对应的编码表征。
11.如权利要求10所述的方法,其中,所述第一子集和第二子集之一为空;所述第一表征和第二表征中对应空集的表征为预设句子表征。
12.如权利要求1-8任一项所述的方法,还包括:
基于各个语义节点对应的句子集中分别对应于所述两个目标文本的句子子集,计算各个语义节点对应的节点TF-IDF向量,作为其辅助表征;
所述利用图神经网络,根据所述语义关系图以及所述编码表征对各语义节点进行表征聚合,包括:
基于各语义节点对应的编码表征和辅助表征,确定各语义节点对应的初级表征;
利用图神经网络,根据所述语义关系图以及各语义节点对应的初级表征进行表征聚合。
13.如权利要求12所述的方法,其中,所述两个目标文本选自待匹配文本集;所述多个语义节点包括任意的目标语义节点,其关联目标句子集,该目标句子集包括分别对应于所述两个目标文本的两个目标句子子集;
所述计算各个语义节点对应的节点TF-IDF向量,包括:
基于任意目标句子子集中任意第一词在所述待匹配文本集中的出现情况,确定任意第一词对应的TF-IDF值;基于该任意目标句子子集中各第一词对应的TF-IDF值和所述待匹配文本集对应的目标词序列,确定该任意目标句子子集对应的TF-IDF向量;
基于该目标语义节点对应的两个目标句子子集各自的TF-IDF向量,确定该目标语义节点对应的节点TF-IDF向量。
14.如权利要求1-8任一项所述的方法,其中,所述利用图神经网络,根据所述语义关系图及所述编码表征对各语义节点进行表征聚合,包括:
利用图神经网络包括的若干级聚合层,分别将各语义节点作为目标节点,至少基于所述语义关系图中所述目标节点的邻居节点对应的编码表征,对该目标节点进行若干级表征聚合。
15.如权利要求1-8任一项所述的方法,其中,所述利用各语义节点的聚合表征和分类网络,得到分类结果,包括:
对各语义节点的聚合表征进行融合,得到整体表征;
将所述整体表征输入所述分类网络,得到所述分类结果。
16.一种文本匹配装置,包括:
构建模块,配置为针对两个目标文本,构建语义关系图;所述目标文本包括多个句子;所述语义关系图包括多个语义节点及其间的连接边,单个语义节点关联有与该节点的语义相匹配的句子集;所述连接边表示,两个语义节点的节点相似度满足预设条件;
第一确定模块,配置为根据各语义节点关联的句子集中分别对应于所述两个目标文本的句子子集的差异情况,确定各语义节点的7编码表征;
聚合模块,配置为利用图神经网络,根据所述语义关系图及所述编码表征对各语义节点进行表征聚合,得到各语义节点的聚合表征;
第二确定模块,配置为利用各语义节点的聚合表征和分类网络,确定分类结果,其表征所述两个目标文本在语义上是否匹配。
17.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-15中任一项所述的方法。
CN202211508210.2A 2022-11-29 2022-11-29 一种文本匹配方法及装置 Active CN115545001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211508210.2A CN115545001B (zh) 2022-11-29 2022-11-29 一种文本匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211508210.2A CN115545001B (zh) 2022-11-29 2022-11-29 一种文本匹配方法及装置

Publications (2)

Publication Number Publication Date
CN115545001A true CN115545001A (zh) 2022-12-30
CN115545001B CN115545001B (zh) 2023-04-07

Family

ID=84722708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211508210.2A Active CN115545001B (zh) 2022-11-29 2022-11-29 一种文本匹配方法及装置

Country Status (1)

Country Link
CN (1) CN115545001B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304749A (zh) * 2023-05-19 2023-06-23 中南大学 基于图卷积的长文本匹配方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337262A1 (en) * 2016-05-19 2017-11-23 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
CN110245342A (zh) * 2018-03-07 2019-09-17 阿里巴巴集团控股有限公司 文本匹配的方法、装置和存储介质
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN111274822A (zh) * 2018-11-20 2020-06-12 华为技术有限公司 语义匹配方法、装置、设备及存储介质
CN112699658A (zh) * 2020-12-31 2021-04-23 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
US20210406475A1 (en) * 2020-06-30 2021-12-30 Microsoft Technology Licensing, Llc Fact checking based on semantic graphs
US20220019745A1 (en) * 2020-07-17 2022-01-20 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for training service model and determining text classification category
CN114428850A (zh) * 2022-04-07 2022-05-03 之江实验室 一种文本检索匹配方法和系统
WO2022121171A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 相似文本匹配方法、装置、电子设备及计算机存储介质
CN114661861A (zh) * 2022-02-23 2022-06-24 华院计算技术(上海)股份有限公司 文本匹配方法及装置、存储介质、终端
CN114936277A (zh) * 2022-01-28 2022-08-23 中国银联股份有限公司 相似问题匹配方法和户相似问题匹配系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20170337262A1 (en) * 2016-05-19 2017-11-23 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
CN110245342A (zh) * 2018-03-07 2019-09-17 阿里巴巴集团控股有限公司 文本匹配的方法、装置和存储介质
CN111274822A (zh) * 2018-11-20 2020-06-12 华为技术有限公司 语义匹配方法、装置、设备及存储介质
US20210406475A1 (en) * 2020-06-30 2021-12-30 Microsoft Technology Licensing, Llc Fact checking based on semantic graphs
US20220019745A1 (en) * 2020-07-17 2022-01-20 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for training service model and determining text classification category
WO2022121171A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 相似文本匹配方法、装置、电子设备及计算机存储介质
CN112699658A (zh) * 2020-12-31 2021-04-23 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
CN114936277A (zh) * 2022-01-28 2022-08-23 中国银联股份有限公司 相似问题匹配方法和户相似问题匹配系统
CN114661861A (zh) * 2022-02-23 2022-06-24 华院计算技术(上海)股份有限公司 文本匹配方法及装置、存储介质、终端
CN114428850A (zh) * 2022-04-07 2022-05-03 之江实验室 一种文本检索匹配方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张弛;周艳玲;张贯虹;: "基于加权语义网的文本相似度计算方法研究" *
韩普;王东波;朱恒民;: "基于复杂网络的汉语相似词挖掘和相似度计算研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304749A (zh) * 2023-05-19 2023-06-23 中南大学 基于图卷积的长文本匹配方法
CN116304749B (zh) * 2023-05-19 2023-08-15 中南大学 基于图卷积的长文本匹配方法

Also Published As

Publication number Publication date
CN115545001B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111460783B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN115545001B (zh) 一种文本匹配方法及装置
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
CN108804617A (zh) 领域术语抽取方法、装置、终端设备及存储介质
CN114417865A (zh) 灾害事件的描述文本处理方法、装置、设备及存储介质
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN116561570A (zh) 一种多模态模型的训练方法、装置、设备及可读存储介质
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN110827078B (zh) 一种信息推荐方法、装置、设备及存储介质
CN112766288B (zh) 图像处理模型构建方法、装置、电子设备和可读存储介质
CN112686339B (zh) 一种基于起诉状的案由确定方法和装置
CN114385901A (zh) 一种用于推荐系统的解离化异构图注意力的方法及系统
CN114328820A (zh) 信息搜索方法以及相关设备
Ceylan et al. Combining feature weighting and semantic similarity measure for a hybrid movie recommender system
Salama et al. A Novel Feature Selection Measure Partnership-Gain.
CN113111178A (zh) 无监督的基于表示学习的同名作者消歧方法及装置
CN112989815A (zh) 基于信息交互的文本相似度识别方法、装置、设备及介质
US20240045895A1 (en) Information processing device, information processing method, and program
US20210264264A1 (en) Learning device, learning method, learning program, evaluation device, evaluation method, and evaluation program
Garg et al. On-Device Document Classification using multimodal features
CN116361470B (zh) 一种基于话题描述的文本聚类清洗和合并方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant