CN113486645A - 一种基于深度学习的文本相似度检测方法 - Google Patents
一种基于深度学习的文本相似度检测方法 Download PDFInfo
- Publication number
- CN113486645A CN113486645A CN202110640512.4A CN202110640512A CN113486645A CN 113486645 A CN113486645 A CN 113486645A CN 202110640512 A CN202110640512 A CN 202110640512A CN 113486645 A CN113486645 A CN 113486645A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- matrix
- sentence
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的文本相似度检测方法,该方法能够基于深度学习,细粒度地比较目标文本与待测文本的相似度。本发明首先利用XLNet模型获得文本的词向量表示,然后在此基础上使用BiLSTM模型学习词语的双向依赖以获得基于句粒度的文本表示矩阵;同时,在词嵌入阶段引入对抗训练,以增强模型的鲁棒性;其次,利用自注意力层提取不同句子对文本表示的贡献度,生成文本的深层语义特征;最后,融合目标文本与相似文本的深层文本表示矩阵得到交互矩阵,并利用卷积神经网络对特征进行抽取,实现基于句粒度的文本相似度判定。本发明从句粒度对文本建模,可以挖掘文本之间的深层语义特征,提高文本相似度判定的准确性。
Description
技术领域
本发明涉及一种检测方法,具体涉及一种基于深度学习的文本相似度检测方法,属于互联网与人工智能技术领域。
背景技术
随着互联网技术的不断推广和人们参与时事积极性的提高,自媒体模式得到了快速发展。但是,自媒体平台审查能力欠缺以及创作者自律性不足导致自媒体行业畸形发展,自媒体作品抄袭现象时有发生。为了有效地对这些文本进行深入地挖掘和利用,很多学者针对文本相似度的计算提出不同的解决策略。传统方法往往采取对文本建模,进而比较提取的文本特征得到文本相似度。但是由于传统方法只考虑文本的浅层信息进行相似度计算,容易造成准确率难以提高的问题。随着深度学习技术在自然语言处理领域的发展,采用文本表层信息和语义信息相结合方式对文本进行建模,可以增强文本的表征信息,为后续文本相似度检测的计算提供基础。
但是,基于深度学习方法也存在某些问题。首先,传统方法大多使用Word2Vec模型得到词语的向量表示,但是Word2Vec模型基于大量语料库训练得到的是静态的词向量表示,无法针对不同文本中词语所处的上下文而进行修正,难以解决一词多义问题,导致得到的词向量对词语的语义特征表示不精确,最终检测结果精确度不高。然后,文本从句粒度对文本建模,常常是将不同句子的向量表示进行整合得到文本表示矩阵。这样的做法无法突出文本中不同句子的重要程度,缺乏对句子之间信息的考虑,导致文本建模精度不高,会影响到文本相似度检测的准确度。最后,对于文本抄袭的种类很多,例如近义词替换,但是常见的数据集无法包含不同的抄袭种类,会导致模型检测的准确度不高,模型的泛化能力不强。针对以上问题,亟需设计新的模型架构,以便有效地检测目标文本与待测文本的深层语义相似度。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于深度学习的文本相似度检测方法,该技术方案首先利用XLNet模型得到文本的词向量表示,然后使用BiLSTM捕获句子中词语的双向依赖,得到句向量表示。通过对基于句粒度的文本表示进行分析,得到两文本基于句粒度的相似度值。
为了实现上述目的,本发明的技术方案如下,一种基于深度学习的文本相似度检测方法,所述方法包括以下步骤:
步骤1,构建基于句粒度的文本表示矩阵,首先利用XLNet预训练模型得到单词的动态词向量表示,然后利用BiLSTM模型获取词语的上下文语义,构建基于句粒度的文本表示矩阵;
步骤2,对抗训练,在原训练集的基础上,文本对抗训练的加入可以添加对抗样本,增强模型的鲁棒性;
步骤3,自注意力模型的引入,由于基于句粒度的文本表示矩阵忽略句子之间的关系,故通过自注意力模型可以对文本中句子的贡献赋予不同的权重,学习到文本的深层语义;
步骤4,文本相似度判定,文本相似度判定模块主要将得到的文本交互矩阵输入卷积神经网络,进行特征抽取,将对文本相似度判定没有帮助的特征进行去除,最后利用softmax函数得到文本相似度值。
相对于现有技术,本发明具有如下优点,1)该技术方案利用XLNet模型获取词语的动态向量表示,并且文本抄袭主要是基于句粒度的借鉴,继而使用BiLSTM模型分析句子中词语的上下文信息得到基于句粒度的文本表示矩阵,这些信息可产生更准确的特征表示,从而带来更好的模型性能;2)在文本表示矩阵的基础上,利用自注意力机制学习不同句子之间的关系。将句子对文本的不同影响赋予不同的权重,增强文本的表征信息;3)引入对抗训练的思路,通过添加扰动构造一些对抗样本,提高模型在遇到对抗样本时的鲁棒性,同时在一定程度上提高模型的泛化能力。
附图说明
图1为本发明实施例的整体框架图。
图2为本发明实施例的自注意力模型单元计算图。
具体实施方式
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:如图1所示,本发明是一种基于深度学习的文本相似度检测方法,具体实施步骤如下:
步骤1,基于句粒度的文本表示矩阵构建。文本表示模型的优劣程度会严重影响到文本相似度计算的结果,本实例从句粒度构建文本的表示模型。首先利用XLNet获得文本的词向量表示,然后构建基于双向长短时记忆网络(BiLSTM)的语义提取模块,得到文本的句向量表示。
子步骤1-1,基于XLNet模型的词向量表示。在本实例中,使用哈尔滨工业大学讯飞联合实验室提出的XLNet-mid模型。同时,在XLNet模型的单词编码、段编码和位置编码三层编码层基础上添加词性编码,将四种编码层叠加作为最终词向量来表征词汇的语义信息。其中,词性编码如表1所示。最终,将经过预处理之后的文本作为模型的输入,使每个单词得到一个固定长度的词向量表示。
表1词性编码
子步骤1-2,基于BiLSTM模型的句向量表示。假设在XLNet模型中,利用“SEP”对文本划分,得到多个句子。其中第i个句子包含特征词的数量为l,那么第i句的词向量集可表示为Xi={x1,x2,…,xt,…,xl},将第i个句子的词向量集Xi依次输入BiLSTM模型,经过全连接层进行线性映射得到第i个句子的句向量表示。
步骤2,对抗训练。本实例中选择在XLNet的Token Embedding阶段的引入FreeLB方法来生成对抗样本。通过用样本集和对抗样本共同对模型进行训练,使得模型能识别出对抗样本,增强模型的鲁棒性,应对多种抄袭检测方法。FreeLB的公式可以表示:
其中,D代表训练集,x代表输入,y代表标签,θ表示模型参数,L(x+radv,y;θ)表示样本添加扰动之后的损失函数,radv表示对抗扰动。
步骤3,自注意力模型引入。本实例引入了自注意力模型学习文本中句子之间的依赖关系,改进模型的特征学习能力。如果对文本中句子之间的关系进行分析,自注意力模型可以根据句子对文本表征贡献的不同,对文本中的关键句子设置较高的权重,对没有意义的句子赋予较低的权重。假设Attention模型输入的特征表示为xi,获得对应的yi的步骤过程分为4个子步骤:
子步骤3-1,将输入特征的向量表示xi与三个权值矩阵WQ、WK和WV相乘获得三个向量qi、ki和vi。
子步骤3-2,将qi向量与不同特征的kj向量进行点积运算,得到一个分数scoreij。
子步骤3-4,将vi向量与子步骤3-3中不同的权重值wij相乘累计得到输出yi,可以表示为:
步骤4,文本相似度判定。利用步骤3处理后的深层文本表示矩阵获得交互矩阵,进而获得文本相似度的结果。该步骤的实施可以分为以下3个子步骤:
子步骤4-1,基于句粒度的交互矩阵表示。使用目标文本与待测文本获得文本交互矩阵。如果目标文本表示矩阵表示为待测文本表示矩阵表示为本实例采取将目标文本与待测文本进行矩阵相乘得到文本交互矩阵,表示为计算可以表示为:
Z=XYT (4)
同时,交互矩阵的维度采用50*50,对于不足长度的矩阵进行填充,超过50长度进行截取。
子步骤4-2,特征提取与判定。对交互矩阵进行三层卷积层与池化层的交替操作来提取两个文本基于句粒度的多样性交互特征。其中,在单个通道中,在卷积层对输入的向量进行一维卷积得到特征,然后在池化层选取特征中的最大值。最后将每个通道中得到的特征进行拼接构成新的向量来表示文本;
子步骤4-3,损失函数设置。本实例选取交叉熵函数作为损失函数,对模型进行训练。并且,为了防止发生过拟合,在损失函数中添加L2正则化。损失函数最终可以表示为公式:
其中,在交叉熵函数部分,N表示样本的总数,yi表示第i个样本期望的标签类别,是模型经过softmax函数后得到的概率值,它的取值范围是yi∈{0,1},表示第i个样本预测的标签类别,在实验中,如果目标文本与待测文本是相似文本,则标记为1,反之,标记为0。在L2正则化部分,w表示权重系数。
在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,参数值为β1=0.9、β2=0.99、eps=1e-8。
基于相同的发明构思,本发明实施例还提供一种基于深度学习的文本相似度检测方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于深度学习的文本相似度检测方法。
需要说明的是,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
Claims (9)
1.一种基于深度学习的文本相似度检测方法,其特征在于,所述方法包括以下步骤:
步骤1,构建基于句粒度的文本表示矩阵,
步骤2,对抗训练,
步骤3,自注意力模型的引入,
步骤4,文本相似度判定。
2.根据权利要求1所述的基于深度学习的文本相似度检测方法,其特征在于,所述步骤1,构建基于句粒度的文本表示矩阵,首先利用XLNet预训练模型得到单词的动态词向量表示,然后利用BiLSTM模型获取词语的上下文语义,构建基于句粒度的文本表示矩阵。
3.根据权利要求1所述的基于深度学习的文本相似度检测方法,其特征在于,步骤2,对抗训练,在原训练集的基础上,文本对抗训练的加入可以添加对抗样本,增强模型的鲁棒性。
4.根据权利要求1所述的基于深度学习的文本相似度检测方法,其特征在于,步骤3,自注意力模型的引入,由于基于句粒度的文本表示矩阵忽略句子之间的关系,故通过自注意力模型可以对文本中句子的贡献赋予不同的权重,学习到文本的深层语义。
5.根据权利要求1所述的基于深度学习的文本相似度检测方法,其特征在于,步骤4,文本相似度判定,文本相似度判定模块主要将得到的文本交互矩阵输入卷积神经网络,进行特征抽取,将对文本相似度判定没有帮助的特征进行去除,最后利用softmax函数得到文本相似度值。
6.根据权利要求1所述的基于深度学习的文本相似度检测方法,其特征在于,所述步骤1,具体如下:
子步骤1-1,基于XLNet模型的词向量表示,使用哈尔滨工业大学讯飞联合实验室提出的XLNet-mid模型,同时,在XLNet模型的单词编码、段编码和位置编码三层编码层基础上添加词性编码,将四种编码层叠加作为最终词向量来表征词汇的语义信息,其中,词性编码如表1所示,最终,将经过预处理之后的文本作为模型的输入,使每个单词得到一个固定长度的词向量表示;
表1词性编码
子步骤1-2,基于BiLSTM模型的句向量表示,假设在XLNet模型中,利用“SEP”对文本划分,得到多个句子,其中第i个句子包含特征词的数量为l,那么第i句的词向量集可表示为Xi={x1,x2,…,xt,…,xl},将第i个句子的词向量集Xi依次输入BiLSTM模型,经过全连接层进行线性映射得到第i个句子的句向量表示;
8.根据权利要求1所述的基于深度学习的文本相似度检测方法,其特征在于,步骤3,自注意力模型引入,具体如下:引入了自注意力模型学习文本中句子之间的依赖关系,改进模型的特征学习能力,如果对文本中句子之间的关系进行分析,自注意力模型可以根据句子对文本表征贡献的不同,对文本中的关键句子设置较高的权重,对没有意义的句子赋予较低的权重,假设Attention模型输入的特征表示为xi,获得对应的yi的步骤过程分为4个子步骤:
子步骤3-1,将输入特征的向量表示xi与三个权值矩阵WQ、WK和WV相乘获得三个向量qi、ki和vi;
子步骤3-2,将qi向量与不同特征的kj向量进行点积运算,得到一个分数scoreij;
子步骤3-4,将vi向量与子步骤3-3中不同的权重值wij相乘累计得到输出yi,可以表示为:
9.根据权利要求1所述的基于深度学习的文本相似度检测方法,其特征在于,步骤4,文本相似度判定,具体如下,利用步骤3处理后的深层文本表示矩阵获得交互矩阵,进而获得文本相似度的结果,该步骤的实施分为以下3个子步骤:
子步骤4-1,基于句粒度的交互矩阵表示,使用目标文本与待测文本获得文本交互矩阵,如果目标文本表示矩阵表示为待测文本表示矩阵表示为采取将目标文本与待测文本进行矩阵相乘得到文本交互矩阵,表示为计算可以表示为:
Z=XYT (4)
同时,交互矩阵的维度采用50*50,对于不足长度的矩阵进行填充,超过50长度进行截取;
子步骤4-2,特征提取与判定,对交互矩阵进行三层卷积层与池化层的交替操作来提取两个文本基于句粒度的多样性交互特征,其中,在单个通道中,在卷积层对输入的向量进行一维卷积得到特征,然后在池化层选取特征中的最大值;最后将每个通道中得到的特征进行拼接构成新的向量来表示文本;
子步骤4-3,损失函数设置,选取交叉熵函数作为损失函数,对模型进行训练,并且,为了防止发生过拟合,在损失函数中添加L2正则化,损失函数最终表示为公式:
其中,在交叉熵函数部分,N表示样本的总数,yi表示第i个样本期望的标签类别,是模型经过softmax函数后得到的概率值,它的取值范围是yi∈{0,1},表示第i个样本预测的标签类别,在实验中,如果目标文本与待测文本是相似文本,则标记为1,反之,标记为0;在L2正则化部分,w表示权重系数;
在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,参数值为β1=0.9、β2=0.99、eps=1e-8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110640512.4A CN113486645A (zh) | 2021-06-08 | 2021-06-08 | 一种基于深度学习的文本相似度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110640512.4A CN113486645A (zh) | 2021-06-08 | 2021-06-08 | 一种基于深度学习的文本相似度检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486645A true CN113486645A (zh) | 2021-10-08 |
Family
ID=77934871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110640512.4A Pending CN113486645A (zh) | 2021-06-08 | 2021-06-08 | 一种基于深度学习的文本相似度检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486645A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003698A (zh) * | 2021-12-27 | 2022-02-01 | 成都晓多科技有限公司 | 一种文本检索方法、系统、设备及存储介质 |
CN114357158A (zh) * | 2021-12-09 | 2022-04-15 | 南京中孚信息技术有限公司 | 基于句粒度语义和相对位置编码的长文本分类技术 |
CN114398867A (zh) * | 2022-03-25 | 2022-04-26 | 北京大学 | 一种两阶段的长文本相似度计算方法 |
-
2021
- 2021-06-08 CN CN202110640512.4A patent/CN113486645A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357158A (zh) * | 2021-12-09 | 2022-04-15 | 南京中孚信息技术有限公司 | 基于句粒度语义和相对位置编码的长文本分类技术 |
CN114357158B (zh) * | 2021-12-09 | 2024-04-09 | 南京中孚信息技术有限公司 | 基于句粒度语义和相对位置编码的长文本分类技术 |
CN114003698A (zh) * | 2021-12-27 | 2022-02-01 | 成都晓多科技有限公司 | 一种文本检索方法、系统、设备及存储介质 |
CN114003698B (zh) * | 2021-12-27 | 2022-04-01 | 成都晓多科技有限公司 | 一种文本检索方法、系统、设备及存储介质 |
CN114398867A (zh) * | 2022-03-25 | 2022-04-26 | 北京大学 | 一种两阶段的长文本相似度计算方法 |
CN114398867B (zh) * | 2022-03-25 | 2022-06-28 | 北京大学 | 一种两阶段的长文本相似度计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948165B (zh) | 基于混合注意力网络的细粒度情感极性预测方法 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN110532557B (zh) | 一种无监督的文本相似度计算方法 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
CN113486645A (zh) | 一种基于深度学习的文本相似度检测方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN110516070B (zh) | 一种基于文本纠错与神经网络的中文问句分类方法 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN112990296A (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111984791A (zh) | 一种基于注意力机制的长文分类方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
Wang et al. | Deep Semantics Sorting of Voice-Interaction-Enabled Industrial Control System | |
Tashu et al. | Deep Learning Architecture for Automatic Essay Scoring | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN114169447B (zh) | 基于自注意力卷积双向门控循环单元网络的事件检测方法 | |
CN112749566A (zh) | 一种面向英文写作辅助的语义匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |