CN112949284B - 一种基于Transformer模型的文本语义相似度预测方法 - Google Patents

一种基于Transformer模型的文本语义相似度预测方法 Download PDF

Info

Publication number
CN112949284B
CN112949284B CN201911263362.9A CN201911263362A CN112949284B CN 112949284 B CN112949284 B CN 112949284B CN 201911263362 A CN201911263362 A CN 201911263362A CN 112949284 B CN112949284 B CN 112949284B
Authority
CN
China
Prior art keywords
text
text object
word segmentation
participle
sen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911263362.9A
Other languages
English (en)
Other versions
CN112949284A (zh
Inventor
彭俊杰
胡敬响
张换香
胡淼
谭书华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201911263362.9A priority Critical patent/CN112949284B/zh
Publication of CN112949284A publication Critical patent/CN112949284A/zh
Application granted granted Critical
Publication of CN112949284B publication Critical patent/CN112949284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Transformer模型的文本语义相似度预测方法,包括:S1、对两个文本对象进行分词和词性标注;S2、分别得到分词向量表示和词性向量表示;S3、分别得到各文本对象的位置信息以及文本对象之间的相似度矩阵;S4、从相似度矩阵获取各文本对象的附加语句;S5、将附加语句与主语句进行拼接,并将位置信息嵌入到主语句中,得到两个文本对象的嵌入信息;S6、将两个嵌入信息输入模型,以输出两个文本对象的语义相似度预测结果。与现有技术相比,本发明利用分词关系和词性关系,能够获取到深层次隐含信息;通过语句拼接以及嵌入位置信息,提高了模型的语义信息捕捉能力,从而保证语义相似度预测结果的准确性。

Description

一种基于Transformer模型的文本语义相似度预测方法
技术领域
本发明涉及文本分析技术领域,尤其是涉及一种基于Transformer模型的文本语义相似度预测方法。
背景技术
文本语义相似度作为自然语言处理领域的一个基础课题,对文本分类、文本聚类、信息检索以及自动问答系统等研究方向具有重要的应用价值。对于任意两个文本对象——自然语言话语或者两段描述性的短文本,去判断这两个对象是否具有某种关系、是否具有相同的表达意图或者描述的是否是同一件事,即为这两个文本对象的语义相似度预测研究。
对于文本语义相似度的预测研究,传统方法大致分为三个阶段:数据统计、词向量优化、深度学习。在数据统计阶段,常常利用TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文本频率)技术、LDA文档主题生成模型等方法,通过对文本的词进行定量分析,基于词频率、逆文本频率以及表达主题等方面,来判断两个文本对象是否具有相同或者相似的意图或描述,上述这些方法更加侧重于对词表面意思的挖掘,即利用广泛的语言表达,对每个词进行数据统计,以获得词的丰富信息,并推广到句子中,进行意图或描述的识别,由于只关注了词的表面信息,对于一些深层次隐含信息,则存在获取不到或者获取不足的问题;
在词向量优化阶段,一般利用文本嵌入技术,将词映射到高维空间,让每个词都能够拥有自己的数据分布,这就意味着词的信息被扩大了,也更加容易计算词与词之间的关系,在此阶段具有代表性就是Word2vec(词向量模型)、GloVe模型等,这种方式不但可以获取词的向量表示,还可以计算词之间的距离,以及对词进行聚类分析,在一定程度上增加了隐含语义关系,但其依旧局限于词表面信息,不能充分获取深层次隐含信息;
在深度学习阶段,目前通常使用深度神经网络对文本特征进行抽取,并进行模式学习,以实现较好的特征提取效果,无论从语义信息捕获还是从泛化能力,都比传统的方法要好,常用的特征提取器主要有RNN(Recurrent Neural Network,递归神经网络)、CNN(Convolutional Neural Networks,卷积神经网络)和Transformer模型,其中,RNN因其网络结构,使得其天生具有很好的长距离依赖捕获能力,在处理文本序列上具有很好的优势,但也因此损失了部分加速优化训练的能力;而CNN在加速优化方面优于RNN,但其对长距离依赖的处理能力欠佳;Transformer模型则在处理文本数据上具有良好的泛化性能,且结合了RNN和CNN的优点,既具有良好的长距离依赖捕获能力,同时能够进行加速优化,但其语义信息捕捉能力较差,无法识别特定标识。
综上所述,对于文本语义相似度的预测研究,主要存在两方面问题:1、无法获取到文本深层次隐含信息;2、语义捕捉能力不足,上述两个问题最终将导致文本语义相似度预测结果的准确度不高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种文本语义相似度预测方法,基于Transformer模型良好的泛化性能,通过在嵌入信息上丰富向量表示,以提高特征捕获能力,从而保证文本语义相似度预测结果的准确性。
本发明的目的可以通过以下技术方案来实现:一种基于Transformer模型的文本语义相似度预测方法,包括以下步骤:
S1、输入两个文本对象,对各文本对象进行分词和词性标注;
S2、将各文本对象的分词和词性标注分别输入Word2Vec模型,得到各文本对象的分词向量表示和词性向量表示;
S3、根据各文本对象的分词向量表示和词性向量表示,得到各文本对象对应的位置信息以及文本对象之间的相似度矩阵;
S4、从文本对象之间的相似度矩阵获取对应于各文本对象的附加语句;
S5、将附加语句分别与各文本对象的主语句进行拼接,并将各文本对象的位置信息嵌入到各文本对象的主语句中,得到两个文本对象对应的嵌入信息,其中,主语句由该文本对象的所有分词按顺序排列组成;
S6、将两个文本对象对应的嵌入信息输入Transformer模型,以输出两个文本对象的语义相似度预测结果。
进一步地,所述步骤S3具体包括以下步骤:
S31、根据各文本对象的分词向量表示和词性向量表示,基于各文本对象中分词之间的关系以及词性之间的关系,计算得到各文本对象的位置信息;
S32、根据各文本对象的分词向量表示,计算得到文本对象之间的分词相似矩阵;
S33、根据各文本对象的词性向量表示,计算得到文本对象之间的词性相似矩阵;
S34、结合分词相似矩阵和词性相似矩阵,计算得到文本对象之间的相似度矩阵。
进一步地,所述步骤S31的具体过程为:
S311、根据各文本对象的分词向量表示和词性向量表示,对于各文本对象,基于文本对象中所有分词的排列顺序,使用已知的分词依次对每一个分词进行编码,具体为:对于第一个分词,根据其后所有分词对其进行编码,从第二个分词开始,则使用当前分词前面的所有分词对当前分词进行编码,即得到文本对象中各分词的位置信息;
S312、利用softmax函数平衡文本对象中各分词位置信息的概率分布,得到该文本对象的位置信息。
进一步地,所述步骤S311具体是根据文本对象的分词向量表示和词性向量表示,通过计算文本对象中分词之间的相似度、欧式距离以及对应词性之间的相似度和欧式距离,并基于文本对象中所有分词的排列顺序,使用已知的分词依次对每一个分词进行编码,具体为:对于第一个分词,根据其后所有分词对其进行编码,从第二个分词开始,则使用当前分词前面的所有分词对当前分词进行编码,得到文本对象中各分词的位置信息:
PE1=pe1(A-1)
Figure BDA0002312182840000031
Figure BDA0002312182840000032
Figure BDA0002312182840000041
Figure BDA0002312182840000042
psumij=i+sim(wi,wj)+sim(pi,pj)+dist(wi,wj)+dist(pi,pj)
pmulij=i×sim(wi,wj)×sim(pi,pj)×dist(wi,wj)×dist(pi,pj)
其中,PE1为文本对象中第一个分词的位置信息,A为文本对象中分词的总数量,PEl为文本对象中除第一个分词外的第l个分词的位置信息,pei(k)为第i个分词的编码,k为已知分词的数量,对于第一个分词而言,其对应的已知分词数量为位于第一个分词之后的所有分词的数量,从第二个分词开始,其对应的已知分词数量为位于该分词之前的所有分词的数量;
pesumik为第i个分词与其已知分词之间求和关系的累加值,pemulik为第i个分词与其已知分词之间求积关系的累积值,psumij为同一个文本对象中第i个分词和第j个分词之间的求和关系值,pmulij为同一个文本对象中第i个分词和第j个分词之间的求积关系值;
sim(wi,wj)、dist(wi,wj)分别为同一个文本对象中第i个分词向量表示wi和第j个分词向量表示wj之间的相似度、欧氏距离,sim(pi,pj)、dist(pi,pj)分别为同一个文本对象中第i个分词词性向量表示pi和第j个分词词性向量表示pj之间的相似度、欧式距离。
进一步地,所述步骤S312中文本对象的位置信息具体为:
PE=softmax([PE1,PE2,PE3...PEA])。
进一步地,所述步骤S32中文本对象之间的分词相似矩阵具体为:
matrixαβ-sim=sim(wαμ,wβτ)(μ=1,2...m,τ=1,2...n)
其中,matrixαβ-sim为文本对象α与文本对象β之间的分词相似矩阵,wαμ为文本对象α中第μ个分词向量表示,wβτ为文本对象β中第τ个分词向量表示,sim(wαμ,wβτ)为文本对象α中第μ个分词与文本对象β中第τ个分词的相似度,m为文本对象α中分词总数量,n为文本对象β中分词总数量。
进一步地,所述步骤S33中文本对象之间的词性相似矩阵具体为:
matrixαβ-pos=sim(pαμ,pβτ)(μ=1,2...m,τ=1,2...n)
其中,matrixαβ-pos为文本对象α与文本对象β之间的词性相似矩阵,pαμ为文本对象α中第μ个分词词性向量表示,pβτ为文本对象β中第τ个分词词性向量表示,sim(pαμ,pβτ)为文本对象α中第μ个分词词性与文本对象β中第τ个分词词性的相似度。
进一步地,所述步骤S34中文本对象之间的相似度矩阵具体为:
matrixαβ=softmax(matrixαβ-sim+matrixαβ-pos)
其中,matrixαβ为文本对象α与文本对象β之间的相似度矩阵。
进一步地,所述步骤S6中的模型由依次连接的双线性采样模块、TransformerBlock和线性发生器组成,其中,双线性采样模块用于对两个文本对象的嵌入信息进行信息交互,Transformer Block采用八个注意力头的结构。
进一步地,所述双线性采样模块对两个文本对象的嵌入信息进行信息交互的计算公式为:
Bilinear(sen′α,sen′β)=sen′α×R×sen′β+b
sen′α={PEα+senα,senβ-sim}
sen′β={PEβ+senβ,senα-sim}
Figure BDA0002312182840000051
senα-sim=matrixαβ×senβ
其中,Bilinear(sen′α,sen′β)为文本对象α的嵌入信息sen′α与文本对象β的嵌入信息sen′β之间的信息交互,R为权重矩阵,b为偏置值,
Figure BDA0002312182840000052
为文本对象α与文本对象β之间相似度矩阵matrixαβ的转置;
PEα为文本对象α的位置信息,senα为文本对象α的主语句,senα-sim为文本对象α的附加语句;
PEβ为文本对象β的位置信息,senβ为文本对象β的主语句,senβ-sim为文本对象β的附加语句。
与现有技术相比,本发明具有以下优点:
一、本发明通过对文本对象进行分词和词性的向量表征,基于文本对象中分词之间以及词性之间的相互关系,首先对文本对象中分词进行编码,后续扩展得到整个文本对象的位置信息,基于分词之间以及词性信息之间的相似度和欧式距离进行挖掘,能够全面有效地获取到文本对象的深层次隐含信息。
二、本发明利用文本对象之间的相似度矩阵得到附加语句,基于信息融合方法,将该附加语句对应地与文本对象的主语句进行拼接,同时嵌入对应的文本对象位置信息,既能够提高文本对象之间的交互性,同时丰富了文本对象表征,在嵌入信息上增加了特殊的有关位置信息的输入标识,有利于提高Transformer模型对语义信息的捕捉能力。
三、本发明通过对文本对象的嵌入信息进行再一次地信息交互,能够进一步促进Transformer模型对文本对象内部信息以及文本对象之间的信息进行关联,从而保证语义相似度预测结果的准确性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中的应用过程示意图;
图3为实施例中的应用效果示意图;
图4为实施例中文本对象的附加语句示意图;
图5为实施例中文本对象的嵌入信息示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,一种基于Transformer模型的文本语义相似度预测方法,包括以下步骤:
S1、输入两个文本对象,对各文本对象进行分词和词性标注;
S2、将各文本对象的分词和词性标注分别输入Word2Vec模型,得到各文本对象的分词向量表示和词性向量表示;
S3、根据各文本对象的分词向量表示和词性向量表示,得到各文本对象对应的位置信息以及文本对象之间的相似度矩阵;
S4、从文本对象之间的相似度矩阵获取对应于各文本对象的附加语句;
S5、将附加语句分别与各文本对象的主语句进行拼接,并将各文本对象的位置信息嵌入到各文本对象的主语句中,得到两个文本对象对应的嵌入信息,其中,主语句由该文本对象的所有分词按顺序排列组成;
S6、将两个文本对象对应的嵌入信息输入Transformer模型,以输出两个文本对象的语义相似度预测结果。
将上述方法应用于本实施例,其具体应用过程如图2所示,主要分为嵌入层、信息融合层和预测层:
采用第三方中文处理工具,分别将待进行预测判断的一对文本对象进行分词和词性标注,得到每个文本对象的分词列表和词性列表;
分别将每个文本对象的分词列表和词性列表输入Word2vec模型中进行训练,以获得嵌入表示,其中,分词列表和词性列表分别作为待学习的嵌入数据,且词性列表的词性顺序与分词列表的词顺序相同;
根据文本对象中分词之间的关系以及词性之间的关系,从嵌入表示中获得文本对象之间的相似度矩阵和文本对象各自的位置信息;
从文本对象之间的相似度矩阵获得文本对象各自对应的附加语句;
对获得的信息进行融合:将附加语句对应地与文本对象的主语句进行拼接,并将文本对象的位置信息对应地嵌入到主语句的向量表示中,以得到两个文本对象的嵌入信息;
将两个文本对象的嵌入信息输入Transformer模型中进行训练,以输出文本语义相似度预测结果,其中,模型采用包含两个Transformer Block堆叠的形式,并在Transformer Block之前对两个文本对象的嵌入信息再一次进行信息交互。
本实施例中,在嵌入层输入的两个文本对象为s1和s2,如图3所示,首先对s1和s2进行分词和词性标注,得到对应的分词列表和词性列表,s1的分词总数量为n,s2的分词总数量为m,之后利用训练好的Word2vec词向量模型,分别得到对应的分词向量表示和词性向量表示:sen1={w11,w12,…w1n},sen2={w21,w22,…w2m},p1={p11,p12,…p1n},p2={p21,p22,…p2m},利用s1和s2对应的分词向量表示和词性向量表示,获得s1和s2各自的位置信息PE、s1和s2之间的相似度矩阵matrix:
1、获取s1和s2之间的分词相似矩阵和词性相似矩阵,分词相似矩阵matrixsim的计算如公式(1)所示:
matrixsim=sim(w1i,w2j)(i=1,2…m,j=1,2…n) (1)
即文本对象s1的第i个分词和文本对象s2的第j个分词的相似度,本实施例中,得到的matrixsim的维度为m×n。
词性相似矩阵matrixpos的计算如公式(2)所示:
matrixpos=sim(p1i,P2j)(i=1,2…m,j=1,2…n) (2)
即文本对象s1的第i个分词的词性p1i和文本对象s2的第j个分词的词性p2j的相似度,本实施例中,得到的matrixpos的维度为m×n。
按照公式(3)计算得到最终的相似度矩阵matrix,本实施例中,相似度矩阵matrix的维度为m×n:
matrix=softmax(matrixsim+matrixpos) (3)
2、在单个文本对象中,对于每一个分词的生成信息,均使用已知的分词对每一个分词进行编码,具体做法如下所示:
psumij=i+sim(wi,wj)+sim(pi,pj)+dist(wi,wj)+dist(pi,pj) (4)
pmulij=i×sim(wi,wj)×sim(pi,pj)×dist(wi,wj)×dist(pi,pj) (5)
Figure BDA0002312182840000081
Figure BDA0002312182840000082
Figure BDA0002312182840000083
其中,sim(wi,wj)、dist(wi,wj)分别表示同一文本对象中第i个词和第j个词之间的相似度、欧氏距离,sim(pi,pj)、dist(pi,pj)则分别表示同一文本对象中第i个词性和第j个词性之间的相似度、欧式距离;
k表示用于信息计算的已知分词数量,pei(k)表示在使用已知k个分词的情况下,得到第i个词的位置信息,wj为除去当前词wi之外的已知的其他分词,相应的pi,pj即为当前分词wi和其他分词wj所对应的词性;
对于第一个分词的位置信息PE1,我们使用其后的所有分词为先验知识,则有:
PE1=pe1(A-1) (9)
A为文本对象包含的分词数量,相应的其他单词的位置信息PEl(l=2,3…A)如下所示:
Figure BDA0002312182840000084
利用上述的公式,可以得到文本对象中所有分词的位置信息,最后使用softmax函数平衡概率分布,得到文本对象的位置信息:
PE=softmax([PE1,PE2…PEA]) (11)
在信息融合层,如图4所示,从s1和s2之间的相似度矩阵matrix中分别获取s1和s2的附加语句,之后将s1和s2的附加语句分别对应地拼接到s1和s2的主语句之后,并将s1和s2各自的位置信息PE对应地嵌入到s1和s2的主语句向量表示中,得到如图5所示的s1和s2的嵌入信息。
在预测层,使用了2层传统的变换块(Transformer Block),每层变换块均采用八个注意力头,并使用双线性采样模块(Bilinear)对两个嵌入信息sen′1和sen′2进行再一次信息交互:
Bilinear(x1,x2)=x1×R×x2+b (12)
Input=Bilinear(sen′1,sen′2) (13)
其中,R为权重矩阵,b为偏置值,x1,x2为输入的变量,即为输入的嵌入信息sen′1和sen′2
综上所述,利用先验模型对文本内容的信息进行扩充,利用分词级别的编码,扩展到整个文本对象级别的编码,并利用词性信息对文本对象之间的关系进行挖掘,从语法、句法和词法的角度去获取这种关系;同时,应用信息融合策略,增强了文本对象之间的交互信息,以及基于生成关系的位置信息,将文本对象内部分词之间的关系添加到位置信息中,以便Transformer模型能够学习到分词的顺序关系,并能够对文本对象内部和文本对象之间的信息进行关联;
本发明利用Transformer模型的特征提取能力,利用其自身的自注意力优势以及对长距离依赖关系的捕获,在处理文本数据上具有良好的泛化性能,以及对比文本对象的结构特征,包括语法、句法、词法、句序(对比的顺序,采用主语句和附加语句拼接的形式)等信息,丰富了文本对象表征,提高了文本对象内部信息和文本对象之间信息的利用率;
并通过增加特殊输入标识,比如相似度矩阵、位置信息(设计了基于生成关系的位置信息,不同的分词在不同的文本对象的位置信息是不同的,并在设计位置信息时,将分词之间的关系以及词性之间的关系,包括相似度、欧式距离等信息添加到位置信息中),将语法、句法和词法的信息直接进行向量表征,让Transformer模型在已有的信息上进行学习,能够增强Transformer模型对语义信息的捕捉能力,从而提高语义相似度预测结果的准确性。

Claims (7)

1.一种基于Transformer模型的文本语义相似度预测方法,其特征在于,包括以下步骤:
S1、输入两个文本对象,对各文本对象进行分词和词性标注;
S2、将各文本对象的分词和词性标注分别输入Word2Vec模型,得到各文本对象的分词向量表示和词性向量表示;
S3、根据各文本对象的分词向量表示和词性向量表示,得到各文本对象对应的位置信息以及文本对象之间的相似度矩阵;
S4、从文本对象之间的相似度矩阵获取对应于各文本对象的附加语句;
S5、将附加语句分别与各文本对象的主语句进行拼接,并将各文本对象的位置信息嵌入到各文本对象的主语句中,得到两个文本对象对应的嵌入信息,其中,主语句由该文本对象的所有分词按顺序排列组成;
S6、将两个文本对象对应的嵌入信息输入Transformer模型,以输出两个文本对象的语义相似度预测结果;
所述步骤S3具体包括以下步骤:
S31、根据各文本对象的分词向量表示和词性向量表示,基于各文本对象中分词之间的关系以及词性之间的关系,计算得到各文本对象的位置信息;
S32、根据各文本对象的分词向量表示,计算得到文本对象之间的分词相似矩阵;
S33、根据各文本对象的词性向量表示,计算得到文本对象之间的词性相似矩阵;
S34、结合分词相似矩阵和词性相似矩阵,计算得到文本对象之间的相似度矩阵;
所述步骤S31的具体过程为:
S311、根据各文本对象的分词向量表示和词性向量表示,对于各文本对象,基于文本对象中所有分词的排列顺序,使用已知的分词依次对每一个分词进行编码,具体为:对于第一个分词,根据其后所有分词对其进行编码,从第二个分词开始,则使用当前分词前面的所有分词对当前分词进行编码,即得到文本对象中各分词的位置信息;
S312、利用softmax函数平衡文本对象中各分词位置信息的概率分布,得到该文本对象的位置信息;
所述步骤S311具体是根据文本对象的分词向量表示和词性向量表示,通过计算文本对象中分词之间的相似度、欧式距离以及对应词性之间的相似度和欧式距离,并基于文本对象中所有分词的排列顺序,使用已知的分词依次对每一个分词进行编码,具体为:对于第一个分词,根据其后所有分词对其进行编码,从第二个分词开始,则使用当前分词前面的所有分词对当前分词进行编码,得到文本对象中各分词的位置信息:
PE1=pe1(A-1)
Figure FDA0003818706470000021
Figure FDA0003818706470000022
Figure FDA0003818706470000023
Figure FDA0003818706470000024
psumij=i+sim(wi,wj)+sim(pi,pj)+dist(wi,wj)+dist(pi,pj)
pmulij=i×sim(wi,wj)×sim(pi,pj)×dist(wi,wj)×dist(pi,pj)
其中,PE1为文本对象中第一个分词的位置信息,A为文本对象中分词的总数量,PEl为文本对象中除第一个分词外的第l个分词的位置信息,pei(k)为第i个分词的编码,k为已知分词的数量,对于第一个分词而言,其对应的已知分词数量为位于第一个分词之后的所有分词的数量,从第二个分词开始,其对应的已知分词数量为位于该分词之前的所有分词的数量;
pesumik为第i个分词与其已知分词之间求和关系的累加值,pemulik为第i个分词与其已知分词之间求积关系的累积值,psumij为同一个文本对象中第i个分词和第j个分词之间的求和关系值,pmulij为同一个文本对象中第i个分词和第j个分词之间的求积关系值;
sim(wi,wj)、dist(wi,wj)分别为同一个文本对象中第i个分词向量表示wi和第j个分词向量表示wj之间的相似度、欧氏距离,sim(pi,pj)、dist(pi,pj)分别为同一个文本对象中第i个分词词性向量表示pi和第j个分词词性向量表示pj之间的相似度、欧式距离。
2.根据权利要求1所述的一种基于Transformer模型的文本语义相似度预测方法,其特征在于,所述步骤S312中文本对象的位置信息具体为:
PE=soffmax([PE1,PE2,PE3...PEA])。
3.根据权利要求1所述的一种基于Transformer模型的文本语义相似度预测方法,其特征在于,所述步骤S32中文本对象之间的分词相似矩阵具体为:
matrixαβ-sim=sim(wαμ,wβτ)(μ=1,2…m,τ=1,2...n)
其中,matrixαβ-sim为文本对象α与文本对象β之间的分词相似矩阵,w为文本对象α中第μ个分词向量表示,wβτ为文本对象β中第τ个分词向量表示,sim(w,wβτ)为文本对象α中第μ个分词与文本对象β中第τ个分词的相似度,m为文本对象α中分词总数量,n为文本对象β中分词总数量。
4.根据权利要求3所述的一种基于Transformer模型的文本语义相似度预测方法,其特征在于,所述步骤S33中文本对象之间的词性相似矩阵具体为:
matrixαβ-pos=sim(pαμ,pβτ)(μ=1,2...m,τ=1,2...n)
其中,matrixαβ-pos为文本对象α与文本对象β之间的词性相似矩阵,pαμ为文本对象α中第μ个分词词性向量表示,pβτ为文本对象β中第τ个分词词性向量表示,sim(pαμ,pβτ)为文本对象α中第μ个分词词性与文本对象β中第τ个分词词性的相似度。
5.根据权利要求4所述的一种基于Transformer模型的文本语义相似度预测方法,其特征在于,所述步骤S34中文本对象之间的相似度矩阵具体为:
matrixαβ=softmax(matrixαβ-sim+matrixαβ-pos)
其中,matrixαβ为文本对象α与文本对象β之间的相似度矩阵。
6.根据权利要求1所述的一种基于Transformer模型的文本语义相似度预测方法,其特征在于,所述步骤S6中的模型由依次连接的双线性采样模块、Transformer Block和线性发生器组成,其中,双线性采样模块用于对两个文本对象的嵌入信息进行信息交互,Transformer Block采用八个注意力头的结构。
7.根据权利要求6所述的一种基于Transformer模型的文本语义相似度预测方法,其特征在于,所述双线性采样模块对两个文本对象的嵌入信息进行信息交互的计算公式为:
Bilinear(sen′α,sen′β)=sen′α×R×sen′β+b
sen′α={PEα+senα,senβ-sim}
sen′β={PEβ+senβ,senα-sim}
Figure FDA0003818706470000041
senα-sim=matrixαβ×senβ
其中,Bilinear(sen′α,sen′β)为文本对象α的嵌入信息sen′α与文本对象β的嵌入信息sen′β之间的信息交互,R为权重矩阵,b为偏置值,
Figure FDA0003818706470000042
为文本对象α与文本对象β之间相似度矩阵matrixαβ的转置;
PEα为文本对象α的位置信息,senα为文本对象α的主语句,senα-sim为文本对象α的附加语句;
PEβ为文本对象β的位置信息,senβ为文本对象β的主语句,senβ-sim为文本对象β的附加语句。
CN201911263362.9A 2019-12-11 2019-12-11 一种基于Transformer模型的文本语义相似度预测方法 Active CN112949284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911263362.9A CN112949284B (zh) 2019-12-11 2019-12-11 一种基于Transformer模型的文本语义相似度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911263362.9A CN112949284B (zh) 2019-12-11 2019-12-11 一种基于Transformer模型的文本语义相似度预测方法

Publications (2)

Publication Number Publication Date
CN112949284A CN112949284A (zh) 2021-06-11
CN112949284B true CN112949284B (zh) 2022-11-04

Family

ID=76226068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911263362.9A Active CN112949284B (zh) 2019-12-11 2019-12-11 一种基于Transformer模型的文本语义相似度预测方法

Country Status (1)

Country Link
CN (1) CN112949284B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486176B (zh) * 2021-07-08 2022-11-04 桂林电子科技大学 一种基于二次特征放大的新闻分类方法
CN114417838B (zh) * 2022-04-01 2022-06-21 北京语言大学 基于transformer模型提取同义语块对的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210032B (zh) * 2019-05-31 2023-10-31 鼎富智能科技有限公司 文本处理方法及装置
CN110543639B (zh) * 2019-09-12 2023-06-02 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法

Also Published As

Publication number Publication date
CN112949284A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110210016B (zh) 基于风格引导的双线性神经网络虚假新闻检测方法及系统
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN111831790B (zh) 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111177366A (zh) 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统
Chen et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition
CN113705218B (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN115563290B (zh) 一种基于语境建模的智能情感识别方法
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN112347269A (zh) 基于BERT和Att-BiLSTM的论点对识别方法
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN111061873B (zh) 一种基于Attention机制的多通道的文本分类方法
Chen et al. Towards unsupervised automatic speech recognition trained by unaligned speech and text only
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant