CN113935312A - 长文本匹配方法及装置、电子设备及计算机可读存储介质 - Google Patents
长文本匹配方法及装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113935312A CN113935312A CN202111119737.1A CN202111119737A CN113935312A CN 113935312 A CN113935312 A CN 113935312A CN 202111119737 A CN202111119737 A CN 202111119737A CN 113935312 A CN113935312 A CN 113935312A
- Authority
- CN
- China
- Prior art keywords
- sub
- text
- matched
- vector corresponding
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种长文本匹配方法及装置、电子设备及计算机可读存储介质,涉及数据处理技术领域,在进行目标长文本和待匹配问题的匹配时,先将目标长文本划分为多个子文本段,并获取每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量;然后根据各个子文本段对应的句向量和待匹配问题对应的句向量,确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重,进而确定目标长文本与待匹配问题的匹配结果。这样通过引入序列权重和相关性权重,充分考虑了目标长文本的各种文本信息,因此解决了现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题,提高了匹配结果的准确度。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种长文本匹配方法及装置、电子设备及计算机可读存储介质。
背景技术
文本匹配是自然语言处理的基础任务之一,在许多NLP(Natural LanguageProcessing,自然语言处理)任务,都可以适用文本匹配的思路去解决,比如:文本检索、语义识别、语言推理以及问答匹配等。文本匹配的任务目标是:给定一个问题query和文本document,给出二者之间的匹配度,判断二者的匹配关系。按照query和document的长度,可以将文本匹配任务分为长文本匹配和短文本匹配。一般情况下,在具体任务中query的长度不会过长,所以长文本匹配在实际任务中多指document较长的情况。
现有的文本匹配任务大多指短文本匹配,因此关于短文本匹配的技术相对来说已经较为成熟,比如:表示型文本匹配算法、交互型文本匹配算法、基于预训练模型的文本匹配。预训练模型强大的编码能力,可以大大提高文本匹配的效果,因此目前预训练模型的文本匹配算法应用最为广泛。
将预训练模型应用于长文本匹配时,通常的方法包括:
1.对长文本直接进行截断,采取头部阶段,或者尾部截断,或者中间截断的方式,转为短文本匹配。
2.对长文本进行关键词或者关键句的抽取,获取关键词或者关键句组成的文本,转为短文本匹配。
3.将长文本划分为多个子文本段分别做短文本匹配,选择匹配度最高的作为匹配分数,判断匹配关系。
从上述基于预训练模型的长文本匹配算法可以看出,进行长文本匹配的基本思路均是将长文本转为技术相对成熟的短文本匹配,不同点在于如何将长文本转为短文本。直接截断、关键词句的抽取都会造成信息的丢失;而将长文本划分为多个子文本段,使用子文本段分别进行文本匹配,选择最高匹配度作为匹配分数,仍然存在信息丢失的问题。因此现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题。
发明内容
本发明的目的在于提供一种长文本匹配方法及装置、电子设备及计算机可读存储介质,以提高匹配结果的准确度。
第一方面,本发明实施例提供了一种长文本匹配方法,包括:
获取目标长文本和待匹配问题;
将所述目标长文本划分为多个子文本段;
获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;
根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重;
根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果。
进一步地,所述获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量的步骤,包括:
将多个所述子文本段和所述待匹配问题输入至预训练的编码模型,得到所述编码模型输出的每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;所述编码模型包括BERT模型、ERNIE模型或RoBERTa模型。
进一步地,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,包括:
按照各个所述子文本段的前后顺序,对各个所述子文本段对应的句向量进行拼接,得到拼接向量;
将所述拼接向量输入到BiLSTM网络,得到每个所述子文本段的上下文序列信息;
通过线性层和softmax函数,将每个所述子文本段的上下文序列信息转换为每个所述子文本段对应的序列权重。
进一步地,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,还包括:
分别计算每个所述子文本段对应的句向量与所述待匹配问题对应的句向量的内积,得到每个所述子文本段对应的内积值;
对各个所述子文本段对应的内积值进行归一化处理,得到每个所述子文本段对应的与所述待匹配问题之间的相关性权重。
进一步地,所述根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果的步骤,包括:
根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个所述子文本段的子增强向量;
根据各个所述子文本段对应的序列权重,对各个所述子文本段对应的子增强向量进行拼接,得到所述目标长文本对应的第一特征向量;
根据各个所述子文本段对应的相关性权重,对所述待匹配问题对应的对应于各个所述子文本段的子增强向量进行合并,得到所述待匹配问题对应的第二特征向量;
对所述第一特征向量和所述第二特征向量进行匹配,得到所述目标长文本与所述待匹配问题的匹配结果。
进一步地,所述根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个所述子文本段的子增强向量的步骤,包括:
对于每个所述子文本段,根据该子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到该子文本段与所述待匹配问题之间的相似度矩阵;
根据所述相似度矩阵和所述待匹配问题对应的字向量,计算得到该子文本段对应的子增强向量;
根据所述相似度矩阵和该子文本段对应的字向量,计算得到所述待匹配问题对应的对应于该子文本段的子增强向量。
进一步地,所述方法还包括:
获取训练样本,所述训练样本包括长文本样本、问题样本和匹配标签;
将所述长文本样本划分为多个子样本段;
将多个所述子样本段和所述问题样本输入至待训练的编码网络,得到样本匹配数据,所述样本匹配数据包括每个所述子样本段对应的句向量和字向量,以及所述问题样本对应的句向量和字向量;
根据所述样本匹配数据,确定所述长文本样本与所述问题样本的预测匹配结果;
根据所述预测匹配结果和所述匹配标签调整所述编码网络的网络参数,以得到训练后的编码模型。
第二方面,本发明实施例还提供了一种长文本匹配装置,包括:
第一获取模块,用于获取目标长文本和待匹配问题;
字段划分模块,用于将所述目标长文本划分为多个子文本段;
第二获取模块,用于获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;
权重确定模块,用于根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重;
文本匹配模块,用于根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的长文本匹配方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面所述的长文本匹配方法。
本发明实施例提供的长文本匹配方法及装置、电子设备及计算机可读存储介质,在进行目标长文本和待匹配问题的匹配时,先将目标长文本划分为多个子文本段,并获取每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量;然后根据各个子文本段对应的句向量和待匹配问题对应的句向量,确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重;进而根据每个子文本段对应的序列权重和与待匹配问题之间的相关性权重,以及每个子文本段对应的字向量和待匹配问题对应的字向量,确定目标长文本与待匹配问题的匹配结果。这样在进行目标长文本和待匹配问题的匹配时,引入了序列权重和相关性权重,充分考虑了目标长文本的各种文本信息,因此解决了现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题,提高了匹配结果的准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种长文本匹配方法的流程示意图;
图2为本发明实施例提供的另一种长文本匹配方法的流程示意图;
图3为本发明实施例提供的一种获取序列权重的示意图;
图4为本发明实施例提供的一种获取相关性权重的示意图;
图5为本发明实施例提供的一种获取子增强向量的示意图;
图6为本发明实施例提供的一种匹配过程的示意图;
图7为本发明实施例提供的一种长文本匹配装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前将长文本划分为多个子文本段是一个可以采取的方式,但是如果使用子文本段分别进行文本匹配,选择最高匹配度作为匹配分数,仍然存在信息丢失的问题,比如,子文本段本身的上下文信息。这些不适当的处理方式都会给匹配结果带来不利的干扰。基于此,本发明实施例提供的一种长文本匹配方法及装置、电子设备及计算机可读存储介质,通过长文本分割,并利用孪生网络获取文本编码的方式来打破模型对长文本的输入限制,引入序列权重和相关性权重,并通过聚合充分考虑各种文本信息,可以解决现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题,提高匹配结果的准确度。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种长文本匹配方法进行详细介绍。
本发明实施例提供了一种长文本匹配方法,该方法可以由具有数据处理能力的电子设备执行。参见图1所示的一种长文本匹配方法的流程示意图,该方法包括如下步骤:
步骤S101,获取目标长文本和待匹配问题。
步骤S102,将目标长文本划分为多个子文本段。
可以按照既定长度对目标长文本进行切分,将其划分为若干个子文本段。
步骤S103,获取每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量。
可以将多个子文本段和待匹配问题输入至预训练的编码模型,得到编码模型输出的每个子文本段对应的句向量(即CLS向量)和字向量(即字粒度向量),以及待匹配问题对应的句向量和字向量。该编码模型有多种预训练语言模型可以选择,例如该编码模型可以是BERT(Bidirectional Encoder Representations from Transformers,双向Transformer的编码器)模型、ERNIE模型或RoBERTa模型。
步骤S104,根据各个子文本段对应的句向量和待匹配问题对应的句向量,确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重。
本实施例中的权重包含两类,一类是子文本段之间的序列权重,另一类是各子文本段与待匹配问题之间的相关性权重。其中,序列权重反映了各被拆分的子文本段之间的上下文信息;相关性权重反映了待匹配问题与目标长文本在sentence-level(句子水平)的交互,代表了每个子文本段对于待匹配问题的重要性。
在一种可能的实现方式中,可以通过如下过程获取每个子文本段对应的序列权重:按照各个子文本段的前后顺序,对各个子文本段对应的句向量进行拼接,得到拼接向量;将拼接向量输入到BiLSTM网络,得到每个子文本段的上下文序列信息;通过线性层和softmax函数,将每个子文本段的上下文序列信息转换为每个子文本段对应的序列权重。
可以通过如下过程获取每个子文本段对应的与待匹配问题之间的相关性权重:分别计算每个子文本段对应的句向量与待匹配问题对应的句向量的内积,得到每个子文本段对应的内积值;对各个子文本段对应的内积值进行归一化处理,得到每个子文本段对应的与待匹配问题之间的相关性权重。
步骤S105,根据每个子文本段对应的序列权重和与待匹配问题之间的相关性权重,以及每个子文本段对应的字向量和待匹配问题对应的字向量,确定目标长文本与待匹配问题的匹配结果。
在一些可能的实施例中,步骤S105可以通过如下过程实现:(1)根据每个子文本段对应的字向量和待匹配问题对应的字向量,计算得到每个子文本段对应的子增强向量和待匹配问题对应的对应于每个子文本段的子增强向量;(2)根据各个子文本段对应的序列权重,对各个子文本段对应的子增强向量进行拼接,得到目标长文本对应的第一特征向量;(3)根据各个子文本段对应的相关性权重,对待匹配问题对应的对应于各个子文本段的子增强向量进行合并,得到待匹配问题对应的第二特征向量;(4)对第一特征向量和第二特征向量进行匹配,得到目标长文本与待匹配问题的匹配结果。
上述步骤(1)中,增强矩阵(即子增强向量)定义为两个向量利用二者之间的相似度矩阵分别表示出另一方的向量,步骤(1)的过程主要进行了子文本段与待匹配问题在word-level(字水平)的交互。上述步骤(1)的具体实现方式可以如下:对于每个子文本段,根据该子文本段对应的字向量和待匹配问题对应的字向量,计算得到该子文本段与待匹配问题之间的相似度矩阵;根据相似度矩阵和待匹配问题对应的字向量,计算得到该子文本段对应的子增强向量;根据相似度矩阵和该子文本段对应的字向量,计算得到待匹配问题对应的对应于该子文本段的子增强向量。
上述步骤(4)的具体实现方式可以如下:分别对第一特征向量和第二特征向量进行池化操作(例如最大池化或平均池化或同时使用最大池化和平均池化),对二者的池化结果进行拼接,并将拼接结果接入线性层进行匹配,得到目标长文本与待匹配问题的匹配结果。匹配结果可以是0或1,0表示目标长文本与待匹配问题不匹配,1表示目标长文本与待匹配问题相匹配。
需要说明的是,上述步骤中的(2)和(3)无先后执行顺序。
本发明实施例提供的长文本匹配方法,在进行目标长文本和待匹配问题的匹配时,先将目标长文本划分为多个子文本段,并获取每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量;然后根据各个子文本段对应的句向量和待匹配问题对应的句向量,确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重;进而根据每个子文本段对应的序列权重和与待匹配问题之间的相关性权重,以及每个子文本段对应的字向量和待匹配问题对应的字向量,确定目标长文本与待匹配问题的匹配结果。这样在进行目标长文本和待匹配问题的匹配时,引入了序列权重和相关性权重,充分考虑了目标长文本的各种文本信息,因此解决了现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题,提高了匹配结果的准确度。
为了便于理解,本发明提供了一种基于BERT孪生网络的长文本匹配方法,采用对长文本切分成子文本段的方式,使用BERT孪生网络对应的BERT模型获取不同子文本段的向量表示,用于下游匹配任务的进行。在下游匹配中,分别对子文本段与query进行sentence-level和word-level的交互,同时使用双向LSTM(Long Short-Term Memory,长短期记忆网络)保证子文本段的上下文信息,解决了现有使用预训练模型进行长文本匹配过程中因信息丢失而造成的匹配结果不准确的问题。
具体地,参见图2所示的另一种长文本匹配方法的流程示意图,该长文本匹配方法的具体流程如下:
1、数据输入:获取目标长文本document和待匹配问题query,按照既定长度对document进行切分,将其划分为若干个子文本段(后续以3个子文本段为例进行说明)。
2、权重获取:
(1)子文本段之间的序列权重:如图3所示,各子文本段经由BERT孪生网络编码,获取BERT模型输出的CLS向量:CLS1、CLS2、CLS3,CLS向量可以表示子文本段的整体语义;将各子文本段对应的CLS向量进行拼接,经由BILSTM(即双向LSTM)获取每个子文本段的上下文序列信息,再由线性层和softmax函数转为序列权重:v1、v2、v3。
(2)子文本段与query的相关性权重:如图4所示,首先获取各子文本段经由BERT模型编码的CLS向量:CLS1、CLS2、CLS3,同时获取query经由BERT模型编码的CLS向量:CLSq;然后分别计算CLS1、CLS2、CLS3与CLSq的内积,并进行归一化,得到相关性权重:w1、w2、w3。
3、增强向量(以子文本段1为例介绍增强向量的获取过程):
如图5所示,分别获取子文本段1与query经由BERT模型编码后的字向量s1、字向量sq,按照如下公式计算相似度矩阵e1:
e1=s1·sqT。
由相似度矩阵e1和字向量sq计算出子文本段1对应的增强向量s1z,由相似度矩阵e1和字向量s1计算出query对应的增强向量sqz1:
s1z=softmax(e1)·sq;
sqz1=softmax(e1T)·s1。
同样的,可以获取子文本段2和子文本段3对应的增强向量s2z、增强向量s3z,以及query对应的分别对应于子文本段2和子文本段3的增强向量sqz2、增强向量sqz3。
4、聚合:聚合过程主要是增强向量的合并以及拼接过程,包括query对应的若干个(本例为3个)增强向量的合并,以及若干个(本例为3个)子文本段对应的增强向量的拼接,目的是为了对各部分信息进行整合。这一步需要用到获取的相关性权重以及序列权重,具体的合并以及拼接过程如下:
合并:sqz=w1×sqz1+w2×sqz2+w3×sqz3;
拼接:sz=concat([v1×s1z,v2×s2z,v3×s3z])。
5、匹配:由聚合过程获取的sqz、sz分别代表了在两个层面进行交互后的query以及目标长文本的特征向量,用于匹配过程。具体的,如图6所示,分别对sqz和sz进行最大池化(maxpooling)操作,然后对二者的池化结果进行拼接(concat),接入线性层进行匹配,得到匹配结果。
本发明实施例提供了一种基于BERT孪生网络的长文本匹配方法,该方法采用对长文本进行分割的方式,使用BERT孪生网络对应的BERT模型获取子文本段和query的编码,使得模型不再受到文本长度的限制。为了充分利用每个子文本段的信息以及序列信息,增加了在sentence-level和word-level两个层面与query的充分交互,并利用权重信息对子文本段和query进行聚合,该方法可以有效提高长文本匹配的准确度。
另外,本发明实施例还提供了上述编码模型的训练过程,如下:
(1)获取训练样本,该训练样本包括长文本样本、问题样本和匹配标签,该匹配标签为0或1;(2)将长文本样本划分为多个子样本段;(3)将多个子样本段和问题样本输入至待训练的编码网络,得到样本匹配数据,该样本匹配数据包括每个子样本段对应的句向量和字向量,以及问题样本对应的句向量和字向量;(4)根据样本匹配数据,确定长文本样本与问题样本的预测匹配结果;(5)根据预测匹配结果和匹配标签调整编码网络的网络参数,以得到训练后的编码模型。
上述训练过程中未详细描述的部分可以参照前述实施例的相应内容,这里不再赘述。
对应于上述的长文本匹配方法,本发明实施例还提供了一种长文本匹配装置,参见图7所示的一种长文本匹配装置的结构示意图,该装置包括:
第一获取模块71,用于获取目标长文本和待匹配问题;
字段划分模块72,用于将目标长文本划分为多个子文本段;
第二获取模块73,用于获取每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量;
权重确定模块74,用于根据各个子文本段对应的句向量和待匹配问题对应的句向量,确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重;
文本匹配模块75,用于根据每个子文本段对应的序列权重和与待匹配问题之间的相关性权重,以及每个子文本段对应的字向量和待匹配问题对应的字向量,确定目标长文本与待匹配问题的匹配结果。
本发明实施例提供的长文本匹配装置,在进行目标长文本和待匹配问题的匹配时,先将目标长文本划分为多个子文本段,并获取每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量;然后根据各个子文本段对应的句向量和待匹配问题对应的句向量,确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重;进而根据每个子文本段对应的序列权重和与待匹配问题之间的相关性权重,以及每个子文本段对应的字向量和待匹配问题对应的字向量,确定目标长文本与待匹配问题的匹配结果。这样在进行目标长文本和待匹配问题的匹配时,引入了序列权重和相关性权重,充分考虑了目标长文本的各种文本信息,因此解决了现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题,提高了匹配结果的准确度。
进一步地,上述第二获取模块73具体用于:将多个子文本段和待匹配问题输入至预训练的编码模型,得到编码模型输出的每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量;该编码模型包括BERT模型、ERNIE模型或RoBERTa模型。
进一步地,上述权重确定模块74具体用于:按照各个子文本段的前后顺序,对各个子文本段对应的句向量进行拼接,得到拼接向量;将拼接向量输入到BiLSTM网络,得到每个子文本段的上下文序列信息;通过线性层和softmax函数,将每个子文本段的上下文序列信息转换为每个子文本段对应的序列权重。
进一步地,上述权重确定模块74还用于:分别计算每个子文本段对应的句向量与待匹配问题对应的句向量的内积,得到每个子文本段对应的内积值;对各个子文本段对应的内积值进行归一化处理,得到每个子文本段对应的与待匹配问题之间的相关性权重。
进一步地,上述文本匹配模块75具体用于:根据每个子文本段对应的字向量和待匹配问题对应的字向量,计算得到每个子文本段对应的子增强向量和待匹配问题对应的对应于每个子文本段的子增强向量;根据各个子文本段对应的序列权重,对各个子文本段对应的子增强向量进行拼接,得到目标长文本对应的第一特征向量;根据各个子文本段对应的相关性权重,对待匹配问题对应的对应于各个子文本段的子增强向量进行合并,得到待匹配问题对应的第二特征向量;对第一特征向量和第二特征向量进行匹配,得到目标长文本与待匹配问题的匹配结果。
进一步地,上述文本匹配模块75还用于:对于每个子文本段,根据该子文本段对应的字向量和待匹配问题对应的字向量,计算得到该子文本段与待匹配问题之间的相似度矩阵;根据相似度矩阵和待匹配问题对应的字向量,计算得到该子文本段对应的子增强向量;根据相似度矩阵和该子文本段对应的字向量,计算得到待匹配问题对应的对应于该子文本段的子增强向量。
进一步地,上述装置还包括与第二获取模块73连接的模型训练模块,模型训练模块用于:获取训练样本,该训练样本包括长文本样本、问题样本和匹配标签;将长文本样本划分为多个子样本段;将多个子样本段和问题样本输入至待训练的编码网络,得到样本匹配数据,样本匹配数据包括每个子样本段对应的句向量和字向量,以及问题样本对应的句向量和字向量;根据样本匹配数据,确定长文本样本与问题样本的预测匹配结果;根据预测匹配结果和匹配标签调整编码网络的网络参数,以得到训练后的编码模型。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
参见图8,本发明实施例还提供一种电子设备100,包括:处理器80,存储器81,总线82和通信接口83,所述处理器80、通信接口83和存储器81通过总线82连接;处理器80用于执行存储器81中存储的可执行模块,例如计算机程序。
其中,存储器81可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory,简称NVM),例如至少一个磁盘存储器。通过至少一个通信接口83(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线82可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器81用于存储程序,所述处理器80在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器80中,或者由处理器80实现。
处理器80可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器80中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器80可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器81,处理器80读取存储器81中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前面方法实施例中所述的长文本匹配方法。该计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种长文本匹配方法,其特征在于,包括:
获取目标长文本和待匹配问题;
将所述目标长文本划分为多个子文本段;
获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;
根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重;
根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果。
2.根据权利要求1所述的长文本匹配方法,其特征在于,所述获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量的步骤,包括:
将多个所述子文本段和所述待匹配问题输入至预训练的编码模型,得到所述编码模型输出的每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;所述编码模型包括BERT模型、ERNIE模型或RoBERTa模型。
3.根据权利要求1所述的长文本匹配方法,其特征在于,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,包括:
按照各个所述子文本段的前后顺序,对各个所述子文本段对应的句向量进行拼接,得到拼接向量;
将所述拼接向量输入到BiLSTM网络,得到每个所述子文本段的上下文序列信息;
通过线性层和softmax函数,将每个所述子文本段的上下文序列信息转换为每个所述子文本段对应的序列权重。
4.根据权利要求1所述的长文本匹配方法,其特征在于,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,还包括:
分别计算每个所述子文本段对应的句向量与所述待匹配问题对应的句向量的内积,得到每个所述子文本段对应的内积值;
对各个所述子文本段对应的内积值进行归一化处理,得到每个所述子文本段对应的与所述待匹配问题之间的相关性权重。
5.根据权利要求1所述的长文本匹配方法,其特征在于,所述根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果的步骤,包括:
根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个所述子文本段的子增强向量;
根据各个所述子文本段对应的序列权重,对各个所述子文本段对应的子增强向量进行拼接,得到所述目标长文本对应的第一特征向量;
根据各个所述子文本段对应的相关性权重,对所述待匹配问题对应的对应于各个所述子文本段的子增强向量进行合并,得到所述待匹配问题对应的第二特征向量;
对所述第一特征向量和所述第二特征向量进行匹配,得到所述目标长文本与所述待匹配问题的匹配结果。
6.根据权利要求5所述的长文本匹配方法,其特征在于,所述根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个所述子文本段的子增强向量的步骤,包括:
对于每个所述子文本段,根据该子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到该子文本段与所述待匹配问题之间的相似度矩阵;
根据所述相似度矩阵和所述待匹配问题对应的字向量,计算得到该子文本段对应的子增强向量;
根据所述相似度矩阵和该子文本段对应的字向量,计算得到所述待匹配问题对应的对应于该子文本段的子增强向量。
7.根据权利要求2所述的长文本匹配方法,其特征在于,所述方法还包括:
获取训练样本,所述训练样本包括长文本样本、问题样本和匹配标签;
将所述长文本样本划分为多个子样本段;
将多个所述子样本段和所述问题样本输入至待训练的编码网络,得到样本匹配数据,所述样本匹配数据包括每个所述子样本段对应的句向量和字向量,以及所述问题样本对应的句向量和字向量;
根据所述样本匹配数据,确定所述长文本样本与所述问题样本的预测匹配结果;
根据所述预测匹配结果和所述匹配标签调整所述编码网络的网络参数,以得到训练后的编码模型。
8.一种长文本匹配装置,其特征在于,包括:
第一获取模块,用于获取目标长文本和待匹配问题;
字段划分模块,用于将所述目标长文本划分为多个子文本段;
第二获取模块,用于获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;
权重确定模块,用于根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重;
文本匹配模块,用于根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119737.1A CN113935312A (zh) | 2021-09-24 | 2021-09-24 | 长文本匹配方法及装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119737.1A CN113935312A (zh) | 2021-09-24 | 2021-09-24 | 长文本匹配方法及装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113935312A true CN113935312A (zh) | 2022-01-14 |
Family
ID=79276633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111119737.1A Pending CN113935312A (zh) | 2021-09-24 | 2021-09-24 | 长文本匹配方法及装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113935312A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050383A (zh) * | 2023-03-29 | 2023-05-02 | 珠海金智维信息科技有限公司 | 一种理财产品销售环节飞单话术检测方法及系统 |
CN116186562A (zh) * | 2023-04-27 | 2023-05-30 | 中南大学 | 基于编码器的长文本匹配方法 |
-
2021
- 2021-09-24 CN CN202111119737.1A patent/CN113935312A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050383A (zh) * | 2023-03-29 | 2023-05-02 | 珠海金智维信息科技有限公司 | 一种理财产品销售环节飞单话术检测方法及系统 |
CN116186562A (zh) * | 2023-04-27 | 2023-05-30 | 中南大学 | 基于编码器的长文本匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109661664B (zh) | 一种信息处理的方法及相关装置 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN113268586A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
CN113935312A (zh) | 长文本匹配方法及装置、电子设备及计算机可读存储介质 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN111967264B (zh) | 一种命名实体识别方法 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
CN113836992A (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN111626065A (zh) | 神经机器翻译模型的训练方法、装置及存储介质 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN113158687A (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN112364664A (zh) | 意图识别模型的训练及意图识别方法、装置、存储介质 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN117076946A (zh) | 一种短文本相似度确定方法、装置及终端 | |
CN115640399A (zh) | 一种文本分类的方法、装置、设备及存储介质 | |
CN114925175A (zh) | 基于人工智能的摘要生成方法、装置、计算机设备及介质 | |
US11321527B1 (en) | Effective classification of data based on curated features | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN114220505A (zh) | 病历数据的信息抽取方法、终端设备及可读存储介质 | |
CN113051935A (zh) | 智能翻译方法、装置、终端设备及计算机可读存储介质 | |
CN110866106A (zh) | 一种文本推荐方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |