CN113806471A - 文本匹配方法、装置、电子设备及存储介质 - Google Patents
文本匹配方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113806471A CN113806471A CN202010554942.XA CN202010554942A CN113806471A CN 113806471 A CN113806471 A CN 113806471A CN 202010554942 A CN202010554942 A CN 202010554942A CN 113806471 A CN113806471 A CN 113806471A
- Authority
- CN
- China
- Prior art keywords
- text
- matching
- drcn
- trained
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本匹配方法、装置、电子设备及存储介质,其中,方法包括:获取待匹配的第一文本和第二文本;利用预训练的DRCN匹配模型分别识别第一文本和第二文本的匹配信息;根据第一文本和第二文本匹配信息确定第一文本和第二文本之间的匹配程度。由此,解决了相关技术中文本匹配模型由于是无监督的方法,容易导致分析错误,并且特征损失较大的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种文本匹配方法、装置、电子设备及存储介质。
背景技术
文本匹配是自然语言处理中重要的一部分,其中,自然语言文本匹配的目标是通过上文句子预测下文合适句子,通过使用文本匹配的语言模型可以解决(在数百万种可能性中)哪个下文可能匹配上文,语言模型是对单词序列的概率分布。语言模型可以在字符级别、语法级别、句子级别甚至段落级别构建自然语言匹配模型。在自然语言处理领域中文本匹配被应用于大量的任务中,例如信息检索、问答系统、对话系统、复述问题、机器翻译等。不同任务下的自然语言文本匹配也不一样,又例如在在信息检索中匹配检索词和文档资源、问答系统匹配问题和答案、对话系统匹配上一句和下一句、机器翻译可以匹配两种语言。
相关技术中,文本匹配技术通常根据词频方式对文本进行匹配计算,例如BM25、TF-IDF(term frequency-inverse document frequency)。
然而,相关技术的关键特征提取往往是基于词袋模型的,其建立的特征向量空间也是词汇的集合,词语之间是独立的,特征损失较大;并且由于基于计算词频的文本匹配模型是无监督的方法,并且计算过程简单、容易分析错误,亟待改进。
发明内容
本申请提供一种文本匹配方法、装置、电子设备及存储介质,以解决相关技术中文本匹配模型由于是无监督的方法,容易导致分析错误,并且特征损失较大的问题。
本申请第一方面实施例提供一种文本匹配方法,包括以下步骤:
获取待匹配的第一文本和第二文本;
利用预训练的DRCN(Densely-connected Recurrent and Co-attentiveInformation,密集连接的循环和联合注意力网络)匹配模型分别识别所述第一文本和所述第二文本的匹配信息;
根据所述第一文本和所述第二文本匹配信息确定所述第一文本和所述第二文本之间的匹配程度。
可选地,在本申请的一个实施例中,所述第一文本为文案的主标题,所述第二文本为所述文案的副标题,其中,在利用所述预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本匹配信息之前,还包括:
采集多个文案的主标题和副标题;
将所述多个文案的主标题和副标题作为训练数据,训练初始DRCN匹配模型,生成所述预训练的DRCN匹配模型。
可选地,在本申请的一个实施例中,所述利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本匹配信息,包括:
使用编码器对所述第一文本和所述第二文本进行压缩表示,以通过co-attention(协同注意力)的方式获取文本间的交互信息,并根据所述交互信息计算COS(Cosine,余弦)距离,以得到评价函数。
可选地,在本申请的一个实施例中,述使用编码器对所述第一文本和所述第二文本进行压缩表示,包括:
获取文本的查询向量、键向量和值向量;
根据所述文本的查询向量、键向量和值向量计算按比例缩放的乘积,生成缩放点积Attention注意力机制。
可选地,在本申请的一个实施例中,所述通过co-attention的方式获取文本间的交互信息,包括:
将所述文本的查询向量、键向量和值向量输入至每个多头块,并根据预设掩码使用缩放点积Attention注意力,生成Mult-head Attention注意力机制。
可选地,在本申请的一个实施例中,所述生成所述预训练的DRCN匹配模型,包括:
将单词嵌入、字符嵌入和匹配标志链接,构建单词表示层;
由顺序堆叠的递归神经网络构建密集连接的递归网络;
基于关注机制在所述递归网络的每层的句子的相关部分上计算上下文向量生成共同关注网络;
将自动编码器作为瓶颈组件,且将所述递归网络使用所有层的输出作为语义知识社区,生成瓶颈处理层;以及
对所述密集连接的递归网络和所述共同关注网络合并,并生成获取每个句子提取表示的交互和预测层。
可选地,在本申请的一个实施例中,所述利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本匹配信息,包括:
根据聚合的特征利用两个具有ReLU(Rectified Linear Unit,线性整流函数)激活的完全连接层及完全连接的输出层,应用softmax函数以获得每个类别的概率分布。
本申请第二方面实施例提供一种文本匹配装置,包括:
获取模块,用于获取待匹配的第一文本和第二文本;
识别模块,用于利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本的匹配信息;
匹配模块,用于根据所述第一文本和所述第二文本匹配信息确定所述第一文本和所述第二文本之间的匹配程度。
本申请第三方面实施例提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行如上述实施例所述的文本匹配方法。
本申请第四方面实施例提供一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的文本匹配方法。
可以预先将采集到的文案作为训练数据,以训练得到预训练的DRCN匹配模型,并将获取到的待匹配的第一文本和第二文本输入至预训练的DRCN匹配模型,从而得到第一文本和第二文本之间的匹配程度,有效实现通过上文句子预测下文句子的目的,保证匹配的准确性和精确性,提升文本匹配效果,有效满足用户使用需求。由此,解决了相关技术中文本匹配模型由于是无监督的方法,容易导致分析错误,并且特征损失较大的问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例的文本匹配方法的流程图;
图2为根据本申请一个实施例的文本匹配方法的流程图;
图3为根据本申请一个具体实施例的文本匹配方法的流程图;
图4为根据本申请一个实施例的基于DRCN的文本匹配模型示意图;
图5为根据本申请实施例的文本匹配装置的方框示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文本匹配方法、装置、电子设备及存储介质。针对上述背景技术中心提到的相关技术中文本匹配模型由于是无监督的方法,容易导致分析错误,并且特征损失较大的问题,本申请提供了一种文本匹配方法,在该方法中,可以预先将采集到的文案作为训练数据,以训练得到预训练的DRCN匹配模型,并将获取到的待匹配的第一文本和第二文本输入至预训练的DRCN匹配模型,从而得到第一文本和第二文本之间的匹配程度,有效实现通过上文句子预测下文句子的目的,保证匹配的准确性和精确性,提升文本匹配效果,有效满足用户使用需求。由此,解决了相关技术中文本匹配模型由于是无监督的方法,容易导致分析错误,并且特征损失较大的问题。
图1为本申请实施例所提供的一种文本匹配方法的流程示意图。
该实施例中,本申请实施例可以基于DRCN匹配模型实现文本匹配。具体地,如图2所示,DRCN匹配模型可以预先采集多个文案,并且将采集到的文案作为训练数据,以在训练后得到DRCN匹配模型,然后通过将文本对输入至DRCN匹配模型,即可得到匹配结果,如结果为匹配,或者是不匹配。
具体而言,如图1所示,该文本匹配方法包括以下步骤:
在步骤S101中,获取待匹配的第一文本和第二文本。
可以理解的是,待匹配的第一文本和第二文本可以由用户进行输入。可选地,第一文本可以为文案的主标题,第二文本可以为文案的副标题,例如,第一文本为:洗碗机、优质服务等;第二文本为:三年保修,终身维修等。
在一些示例中,为保证本申请实施例可以利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息,因此,在利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息之前,本申请实施例可以采集多个文案的主标题和副标题;将多个文案的主标题和副标题作为训练数据,训练初始DRCN匹配模型,生成预训练的DRCN匹配模型。
例如,如图3所示,采集到的其中一个文案的主标题为:洗碗机带集油盆,确保三年免清洗;副标题为:全方位优质服务,三年保修,终身维修等;通过将采集到的多个文案的主标题和和副标题作为训练数据,通过训练初始DRCN匹配模型,最终得到预训练的DRCN匹配模型。
在步骤S102中,利用预训练的DRCN匹配模型分别识别第一文本和第二文本的匹配信息。
一些实施例中,匹配信息可以理解为文本特征,以预测出两个文本是否匹配,下文会进行详细描述。
在步骤S103中,根据第一文本和第二文本匹配信息确定第一文本和第二文本之间的匹配程度。
部分实施例中,在获取待匹配的第一文本和第二文本,并且得到预训练的DRCN匹配模型后,本申请实施例即可利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息,例如,将第一文本为:洗碗机、优质服务;第二文本为:三年保修,终身维修;输入至预训练的DRCN匹配模型,由于预训练的DRCN匹配模型采集到了主标题为:洗碗机带集油盆,确保三年免清洗;对应匹配程度最高的副标题为:全方位优质服务,三年保修,终身维修等。
需要说明的是,此次匹配程度可以指匹配结果如匹配或者不匹配,也可以指匹配值,具体可以由本领域技术人员根据实际情况进行设置,在此不作具体限制。
进一步地,在本申请的一个实施例中,利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息,包括:使用编码器对第一文本和第二文本进行压缩表示,以通过co-attention的方式获取文本间的交互信息,并根据交互信息计算COS距离,以得到评价函数。其中,COS距离(余弦距离),也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。评价函数是用于评价节点重要性的函数。
其中,协同注意力Co-Attention是注意力机制的一种变体,以机器阅读理解为例,注意力机制就很像人在做阅读理解时所使用的一种技巧——带着问题去阅读,先看问题,再去文本中有目标地阅读以寻找答案。而机器阅读理解则是通过结合问题和文本段落二者的信息,生成一个关于文本段落各部分的注意力权重,对文本信息进行加权,该注意力机制可以帮助更好的去捕捉文本段落中和问题相关的信息。
而协同注意力Co-Attention则是一种双向的注意力,不仅要给阅读的文本段落生成一个注意力权重,还要给问句也生成一个注意力权重。该技巧在很多的多模态问题中都可以使用,诸如VQA(Visual Question Answering,,视觉问答),同时去生成关于图片和问句的Attention。
协同注意力一般可以分为两种方式:
Parallel Co-Attention:将数据源A和数据源B的信息结合(Bilinear等方式),再基于结合的信息分别对两种数据源生成其对应的Attention。
Alternating Co-Attention:先基于数据源A的信息,产生数据源B的Attention,再基于加入Attention之后的数据源B的信息,去生成数据源A的Attention,类似交替使用两次传统的Attention。
可以理解的是,DRCN匹配模型是基于Densely-connectedco-attentiveRNN,密集连接StackRNN,具体地,如图4所示,Embedding Layer为嵌入层,RNN Layer为RNN层,CONCAT为合并函数,Auto Encoder为自动编码器,Pooling为池层,Interction Layer为网络层,Fully-connected Layer为全连接层;从最底层到最顶层一直保留着原始信息,在StackRNN的每一个block中,用co-attention的方式获取两个句子之间的交互信息,评价函数是使用COS距离计算,因为StackRNN的参数量会迅速增加,影响模型训练的时间,因此,本申请实施例使用自编码器对参数进行压缩表示。
进一步地,在本申请的一个实施例中,使用编码器对第一文本和第二文本进行压缩表示,包括:获取文本的查询向量、键向量和值向量;根据文本的查询向量、键向量和值向量计算按比例缩放的乘积,生成缩放点积Attention注意力机制。需要说明的是,比例缩放可以由本领域技术人员根据实际情况进行处理,例如,原始得分数据为[8,16,32],缩放后的数据[1,2,3]。
可以理解的是,本申请实施例中Transformer使用的可以是按比例缩放的乘积Attention需要三个输入,即文本的查询向量(Q)、键向量(K)和值向量(V),Attention可以通过公式计算。当对键向量进行归一化,其值决定了赋予查询向量的重要性。输出值表示Attention的权重和值向量的乘积。由此,不仅可以保证要关注的单词保持原样,而无关的或者没有被关注的单词会被清除。点积的注意程度由决定,这样做是因为对于较大的深度值dk,QKT也较大,可能会将softmax函数推入梯度极小的区域。
进一步地,在本申请的一个实施例中,通过co-attention的方式获取文本间的交互信息,包括:将文本的查询向量、键向量和值向量输入至每个多头块,并根据预设掩码使用缩放点积Attention注意力,生成Mult-headAttention注意力机制。
一些示例中,Mult-headAttention注意力机制可以包括四个部分:线性层和heads的分割、缩放点积Attention、Heads的串联、最后线性层。每个多头(mult-head)块获得三个输入值Q(查询向量),K(键向量),V(值向量)。这些通过线性密集层放置被分成多个头。每一head都使用之前提及的缩放点积Attention注意力。另外,一个合适的掩码被使用在每一个注意力的计算步骤中,然后将每一个头部的注意力输出连接起来,并且通过最后一层Dense层输出。查询向量、键向量、值向量被多个头分割,因为它被允许模型共同关注来自不同表示空间的不同信息,分割后,每个头的维数减少,因此,它能扩展模型专注不同位置的能力并且获得注意力层的多个子空间表示。
进一步地,在本申请的一个实施例中,生成预训练的DRCN匹配模型,包括:将单词嵌入、字符嵌入和匹配标志链接,构建单词表示层;
在一些情况下,本申请实施例的DRCN匹配模型在构建单词表示层时,需要将单词嵌入(wordembedding),字符嵌入(characterembedding)和所使用的精确匹配标志连接起来。在单词嵌入中,每个单词都使用预先训练的单词嵌入方法(例如GloVe或Word2vec)。在DRCN匹配模型中,单词嵌入向量可以在训练期间被更新或固定。使预训练单词嵌入是否可训练的策略在很大程度上取决于任务。可训练的单词嵌入很好地捕捉了训练数据的特征,但可能导致过拟合。另一方面,固定的(不可训练的)单词嵌入在特定于任务的数据上缺乏灵活性,而对于过度拟合(特别是对于频率较低的单词)而言则很健壮。本申请实施例同时使用可训练的嵌入和固定(不可训练的)嵌入以使它们在增强模型性能方面发挥互补作用。使用混合可训练和不可训练单词嵌入的这种技术简单有效。字符表示是通过使用最大池操作将随机初始化的字符嵌入馈送到卷积神经网络来计算的。在训练期间共同学习字符嵌入和卷积权重。如果在另一个句子中找到相同的单词,则激活完全匹配标志单词pi的最终单词表示特征由以下公式得到:与模型一起训练的Glove词向量:固定的Glove词向量:CNN(Convolutional Neural Networks,卷积神经网络)训练得到的字向量cpi=CharConv(pi);最终的表示是上述多个部分串在一起,得到的向量表示:其中,“;”为串联运算符,串联运算符可以将多个字符串联接为一个字符串。对于两个句子中的每个单词,使用与上述相同的过程来提取单词特征。
由顺序堆叠的递归神经网络构建密集连接的递归网络;
示意性说明,由于DRCN匹配模型可以包含循环神经网络,密集连接的递归网络包含顺序堆叠的RNN(递归神经网络)可以由彼此顶部的多个RNN层组成,上一层的输出序列构成下一层的输入序列。更具体地说,令Hl为堆叠式RNN中的第lth个RNN层。需要说明的是,本申请实施例可以采用双向LSTM(BiLSTM)作为Hl的基础块,在时间步t,顺序堆叠的RNN表示如下:从而能够建立更高级别的表示,但由于爆炸和消失的梯度问题,较深的网络在训练方面有困难。
为了激励梯度在反向传递中传播,引入了残差连接,该残差连接通过映射绕过了非线性变换。但是,剩余连接中的求和操作可能会阻碍网络中的信息流。因此最后采用了从任何层到所有后续层的级联操作的直接连接,这样就无需修改前层的功能,而是保留它们的原样,因此紧密连接的递归神经网络可以通过公式为串联操作使隐藏的特征得以保留,直到它们传递达最上层,并且所有先前的特征都作为集体知识进行预测。
基于关注机制在递归网络的每层的句子的相关部分上计算上下文向量生成共同关注网络。
在实际执行过程中,DRCN的紧密连接的共同关注网络是通过给定两个句子,基于关注机制在每个RNN层的两个句子的相关部分上计算上下文向量。计算出的注意信息表示两个句子之间的软对齐。在DRCN匹配模型中,使用串联操作将注意力集中的信息合并到密集连接的循环网络中提取特征,以免丢失任何信息。本申请实施例通过将要素从最下层到最上层紧密连接而获得的这种并发的重复性和共同关注性特征,丰富了词汇和组合语义的集体知识。具体地,Attention机制可以在两个句子间建立对应关系,本申请可以在多层RNN的每层中计算P和Q的attention信息,通过拼接得到每层RNN的输出。对于P中的第i个单词pi,考虑与句子Q的attention过程后表示为具体计算过程如下:
ei,j=cos(hpi,hqj);
其中,hpi分别为句子P、Q中的词pi,qj在RNN对应层中的表示。
类似于紧密连接的RNN隐藏特征,模型将注意力上下文向量api与触发向量hpi连接起来,以便保留注意力信息作为下一层的输入:
;。将自动编码器作为瓶颈组件,且将递归网络使用所有层的输出作为语义知识社区,生成瓶颈处理层。
本领域技术人员应该理解到的是,DRCN匹配模型的网络使用所有层的输出作为语义知识社区。但是,该网络是随着层的加深而增加输入特征的结构,并且具有大量参数,尤其是在全连接的层中。为了解决此问题,本申请实施例将自动编码器用作瓶颈组件。其中,自动编码器是一种压缩技术,可在保留原始信息的同时减少功能数量,这些信息可用作模型中的提炼语义知识。
对密集连接的递归网络和共同关注网络合并,并生成获取每个句子提取表示的交互和预测层。
以下列举实施例,本申请实施例为了获取每个句子提取适当的表示,对密集连接的递归和共同注意功能应用逐步最大合并操作。具体地,如图4所示,如果最终RNN层的输出是一个包含30个单词的句子的100维向量,则将获得30×100的矩阵,该矩阵按列进行最大池化,以使所得向量p或q的大小为100。然后,在交互层中以各种方式聚合两个句子P和Q的这些表示p和q,并获得语义句子匹配的最终特征向量v,结果可以通过计算:v=[p;q;p+q;p-q;|p-q|]在这里,操作+,-和|·|以元素方式执行以推断两个句子之间的关系。逐元素减法p-q是用于单向型任务(例如自然语言推理或答案句子选择)的不对称算子。
进一步地,在本申请的一个实施例中,利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息,包括:根据聚合的特征利用两个具有ReLU激活的完全连接层及完全连接的输出层,应用softmax函数以获得每个类别的概率分布。其中,线性整流函数ReLU,又称修正线性单元,是一种人工神经网络中常用的激活函数(activationfunction),通常指代以斜坡函数及其变种为代表的非线性函数;Softmax函数,又称归一化指数函数,在数学,尤其是概率论和相关领域中,它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1,该函数多于多分类问题中。
在某些实施例中,本申请实施例可以根据先前聚合的特征v,使用两个具有ReLU激活的完全连接层,然后是一个完全连接的输出层。然后,应用softmax函数以获得每个类别的概率分布,该模型是通过最小化多级交叉熵损失与自动编码的重建损失训练端至端。
根据本申请实施例提出的文本匹配方法,可以预先将采集到的文案作为训练数据,以训练得到预训练的DRCN匹配模型,并将获取到的待匹配的第一文本和第二文本输入至预训练的DRCN匹配模型,从而得到第一文本和第二文本之间的匹配程度,有效实现通过上文句子预测下文句子的目的,保证匹配的准确性和精确性,提升文本匹配效果,有效满足用户使用需求。由此,基于交互型模型,通过学习大量的文本数据,获取其两个文的匹配信息,自动匹配输入的两个文本,解决了相关技术中文本匹配模型由于是无监督的方法,容易导致分析错误,并且特征损失较大的问题。
其次参照附图描述根据本申请实施例提出的文本匹配装置。
图5是本申请实施例的文本匹配装置的方框示意图。
如图5所示,该文本匹配装置10包括:获取模块100、识别模块200和匹配模块300。
具体地,获取模块100用于获取待匹配的第一文本和第二文本。
识别模块200用于利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息。
匹配模块300用于根据第一文本和第二文本匹配信息确定第一文本和第二文本之间的匹配程度。
进一步地,在本申请的一个实施例中,第一文本可以为文案的主标题,第二文本可以为文案的副标题,其中,在利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息之前,识别模块200,还用于:采集多个文案的主标题和副标题;将多个文案的主标题和副标题作为训练数据,训练初始DRCN匹配模型,生成预训练的DRCN匹配模型。
进一步地,在本申请的一个实施例中,识别模块200,具体用于:使用编码器对第一文本和第二文本进行压缩表示,以通过co-attention的方式获取文本间的交互信息,并根据交互信息计算COS距离,以得到评价函数。
进一步地,在本申请的一个实施例中,识别模块200,还用于:获取文本的查询向量、键向量和值向量;根据文本的查询向量、键向量和值向量计算按比例缩放的乘积,生成缩放点积Attention注意力机制。
进一步地,在本申请的一个实施例中,识别模块200,还用于:将文本的查询向量、键向量和值向量输入至每个多头块,并根据预设掩码使用缩放点积Attention注意力,生成Mult-head Attention注意力机制。
进一步地,在本申请的一个实施例中,识别模块200,还用于:将单词嵌入、字符嵌入和匹配标志链接,构建单词表示层;由顺序堆叠的递归神经网络构建密集连接的递归网络;基于关注机制在递归网络的每层的句子的相关部分上计算上下文向量生成共同关注网络;将自动编码器作为瓶颈组件,且将递归网络网络使用所有层的输出作为语义知识社区,生成瓶颈处理层;以及对密集连接的递归网络和共同关注网络合并,并生成获取每个句子提取表示的交互和预测层。
进一步地,在本申请的一个实施例中,识别模块200,还用于:根据聚合的特征利用两个具有ReLU激活的完全连接层及完全连接的输出层,应用softmax函数以获得每个类别的概率分布。
需要说明的是,前述对文本匹配方法实施例的解释说明也适用于该实施例的文本匹配装置,此处不再赘述。
根据本申请实施例提出的文本匹配装置,可以预先将采集到的文案作为训练数据,以训练得到预训练的DRCN匹配模型,并将获取到的待匹配的第一文本和第二文本输入至预训练的DRCN匹配模型,从而得到第一文本和第二文本之间的匹配程度,有效实现通过上文句子预测下文句子的目的,保证匹配的准确性和精确性,提升文本匹配效果,有效满足用户使用需求。由此,基于交互型模型,通过学习大量的文本数据,获取其两个文的匹配信息,自动匹配输入的两个文本,解决了相关技术中文本匹配模型由于是无监督的方法,容易导致分析错误,并且特征损失较大的问题。
为了实现上述实施例,本申请还提出了一种电子设备,包括:至少一个处理器和存储器。其中,存储器与至少一个处理器通信连接,其中,存储器存储有可被至少一个处理器执行的指令,指令被设置为用于执行上述实施例的文本匹配方法,如以用于:
获取待匹配的第一文本和第二文本。
利用预训练的DRCN匹配模型分别识别第一文本和第二文本匹配信息。
根据第一文本和第二文本匹配信息确定第一文本和第二文本之间的匹配程度。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其存储计算机指令,计算机指令用于使计算机执行上述实施例的文本匹配装置。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种文本匹配方法,其特征在于,包括以下步骤:
获取待匹配的第一文本和第二文本;
利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本的匹配信息;以及
根据所述第一文本和所述第二文本匹配信息确定所述第一文本和所述第二文本之间的匹配程度。
2.根据权利要求1所述的方法,其特征在于,所述第一文本为文案的主标题,所述第二文本为所述文案的副标题,其中,在利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本匹配信息之前,还包括:
采集多个文案的主标题和副标题;
将所述多个文案的主标题和副标题作为训练数据,训练初始DRCN匹配模型,生成所述预训练的DRCN匹配模型。
3.根据权利要求1或2所述的方法,其特征在于,所述利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本匹配信息,包括:
使用编码器对所述第一文本和所述第二文本进行压缩表示,以通过co-attention的方式获取文本间的交互信息,并根据所述交互信息计算COS距离,以得到评价函数。
4.根据权利要求3所述的方法,其特征在于,所述使用编码器对所述第一文本和所述第二文本进行压缩表示,包括:
获取文本的查询向量、键向量和值向量;
根据所述文本的查询向量、键向量和值向量计算按比例缩放的乘积,生成缩放点积Attention注意力机制。
5.根据权利要求4所述的方法,其特征在于,所述通过co-attention的方式获取文本间的交互信息,包括:
将所述文本的查询向量、键向量和值向量输入至每个多头块,并根据预设掩码使用缩放点积Attention注意力,生成Mult-head Attention注意力机制。
6.根据权利要求5所述的方法,其特征在于,所述生成所述预训练的DRCN匹配模型,包括:
将单词嵌入、字符嵌入和匹配标志链接,构建单词表示层;
由顺序堆叠的递归神经网络构建密集连接的递归网络;
基于关注机制在所述递归网络的每层的句子的相关部分上计算上下文向量生成共同关注网络;
将自动编码器作为瓶颈组件,且将所述递归网络使用所有层的输出作为语义知识社区,生成瓶颈处理层;以及
对所述密集连接的递归网络和所述共同关注网络合并,并生成获取每个句子提取表示的交互和预测层。
7.根据权利要求6所述的方法,其特征在于,所述利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本匹配信息,包括:
根据聚合的特征利用两个具有ReLU激活的完全连接层及完全连接的输出层,应用softmax函数以获得每个类别的概率分布。
8.一种文本匹配装置,其特征在于,包括:
获取模块,用于获取待匹配的第一文本和第二文本;
识别模块,用于利用预训练的DRCN匹配模型分别识别所述第一文本和所述第二文本的匹配信息;以及
匹配模块,用于根据所述第一文本和所述第二文本匹配信息确定所述第一文本和所述第二文本之间的匹配程度。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-7任一项所述的文本匹配方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任一项所述的文本匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554942.XA CN113806471A (zh) | 2020-06-17 | 2020-06-17 | 文本匹配方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554942.XA CN113806471A (zh) | 2020-06-17 | 2020-06-17 | 文本匹配方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113806471A true CN113806471A (zh) | 2021-12-17 |
Family
ID=78892659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010554942.XA Withdrawn CN113806471A (zh) | 2020-06-17 | 2020-06-17 | 文本匹配方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806471A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780709A (zh) * | 2022-03-22 | 2022-07-22 | 北京三快在线科技有限公司 | 文本匹配方法、装置及电子设备 |
CN117874175A (zh) * | 2024-03-12 | 2024-04-12 | 武汉纺织大学 | 一种基于信息瓶颈的信息检索鲁棒性方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086423A (zh) * | 2018-08-08 | 2018-12-25 | 北京神州泰岳软件股份有限公司 | 一种文本匹配方法及装置 |
CN109885670A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种面向话题文本的交互注意力编码情感分析方法 |
CN110442872A (zh) * | 2019-08-06 | 2019-11-12 | 中科鼎富(北京)科技发展有限公司 | 一种文本要素完整性审核方法及装置 |
CN110825901A (zh) * | 2019-11-11 | 2020-02-21 | 腾讯科技(北京)有限公司 | 基于人工智能的图文匹配方法、装置、设备及存储介质 |
CN110941945A (zh) * | 2019-12-02 | 2020-03-31 | 百度在线网络技术(北京)有限公司 | 语言模型预训练方法和装置 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
-
2020
- 2020-06-17 CN CN202010554942.XA patent/CN113806471A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086423A (zh) * | 2018-08-08 | 2018-12-25 | 北京神州泰岳软件股份有限公司 | 一种文本匹配方法及装置 |
CN109885670A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种面向话题文本的交互注意力编码情感分析方法 |
CN110442872A (zh) * | 2019-08-06 | 2019-11-12 | 中科鼎富(北京)科技发展有限公司 | 一种文本要素完整性审核方法及装置 |
CN110825901A (zh) * | 2019-11-11 | 2020-02-21 | 腾讯科技(北京)有限公司 | 基于人工智能的图文匹配方法、装置、设备及存储介质 |
CN110941945A (zh) * | 2019-12-02 | 2020-03-31 | 百度在线网络技术(北京)有限公司 | 语言模型预训练方法和装置 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780709A (zh) * | 2022-03-22 | 2022-07-22 | 北京三快在线科技有限公司 | 文本匹配方法、装置及电子设备 |
CN114780709B (zh) * | 2022-03-22 | 2023-04-07 | 北京三快在线科技有限公司 | 文本匹配方法、装置及电子设备 |
CN117874175A (zh) * | 2024-03-12 | 2024-04-12 | 武汉纺织大学 | 一种基于信息瓶颈的信息检索鲁棒性方法和系统 |
CN117874175B (zh) * | 2024-03-12 | 2024-06-04 | 武汉纺织大学 | 一种基于信息瓶颈的信息检索方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109874029B (zh) | 视频描述生成方法、装置、设备及存储介质 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN110852256B (zh) | 时序动作提名的生成方法、装置、设备及存储介质 | |
CN107844481B (zh) | 识别文本检错方法及装置 | |
CN111897939B (zh) | 视觉对话方法、视觉对话模型的训练方法、装置及设备 | |
RU2707147C1 (ru) | Обучение нейронной сети посредством специализированных функций потерь | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112257437B (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN107480144A (zh) | 具备跨语言学习能力的图像自然语言描述生成方法和装置 | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
Colas et al. | TutorialVQA: Question answering dataset for tutorial videos | |
CN113268586A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
AU2019101138A4 (en) | Voice interaction system for race games | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN113806471A (zh) | 文本匹配方法、装置、电子设备及存储介质 | |
CN111695053A (zh) | 序列标注方法、数据处理设备、可读存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN111309893A (zh) | 基于源问题生成相似问题的方法和装置 | |
CN114997181A (zh) | 一种基于用户反馈修正的智能问答方法及系统 | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN112732942A (zh) | 一种面向用户的多轮问答法律文书实体关系抽取方法 | |
CN117315249A (zh) | 指代图像分割模型训练和分割方法、系统、设备及介质 | |
CN115687576A (zh) | 一种主题约束表示的关键词抽取方法及装置 | |
CN113609355B (zh) | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211217 |
|
WW01 | Invention patent application withdrawn after publication |