CN111723572A - 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 - Google Patents

基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 Download PDF

Info

Publication number
CN111723572A
CN111723572A CN202010534862.8A CN202010534862A CN111723572A CN 111723572 A CN111723572 A CN 111723572A CN 202010534862 A CN202010534862 A CN 202010534862A CN 111723572 A CN111723572 A CN 111723572A
Authority
CN
China
Prior art keywords
layer
chinese
text
bilstm
chinese short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010534862.8A
Other languages
English (en)
Other versions
CN111723572B (zh
Inventor
朱新华
吴晗
张兰芳
陈宏朝
郭青松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoyu Protest Technology (Guangzhou) Co.,Ltd.
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202010534862.8A priority Critical patent/CN111723572B/zh
Publication of CN111723572A publication Critical patent/CN111723572A/zh
Application granted granted Critical
Publication of CN111723572B publication Critical patent/CN111723572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于CNN卷积层和BiLSTM的中文短文本相关性度量方法,通过孪生神经网络作为框架,使用Word2vec训练的中文字向量作为输入,首先会经过去掉池化层的CNN提取到文本的n‑gram信息,用于模拟中文文本的分词过程;然后输入到BiLSTM网络中继续提取不同粒度的文本特征,更准确的对文本语义进行编码。最终将文本向量化,通过计算两个向量的距离来表示相关性。本发明采用去掉池化层的CNN提取文本的n‑gram信息,可有效避免池化层所造成的特征损失,在中文短文本的相关性度量上具有较好的准确性,且在计算效率上较快,不要求很高的配置。

Description

基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于CNN(卷积神经网)卷积层和BiLSTM(双向长短期记忆网络)的中文短文本相关性度量方法。
背景技术
文本数据在互联网数据中占很大部分,目前实时新闻、文章标题、聊天记录、搜索问题、商品评论等等均可以称为文本。对于这些文本的相关性度量研究在如问答系统、信息检索等自然语言处理任务中具有关键性的作用。对于文本语义相关性度量,目前大多采用基于卷积神经网络(CNN)的方法,然而卷积神经网络模型的卷积层主要提取的是文本中的局部特征,而非全局特征,而且经过池化层往往会丢失一部分特征,比如位置信息、空间相对关系信息等。对于图像处理来说,可能并不一定需要这些丢失的信息,只要可以提取出主要特征就可以完成相应任务。而对于具有时序性的文本来说,这些丢失的信息却起着至关重要的作用,例如“事半功倍”意思为只用一半的力气,而收到了加倍的功效,若将其位置打乱,可能就变为“事倍功半”,即做事的方法费力大,收效小。因此,现有基于卷积神经网络的文本相关性度量方法的准确性还有待提升。
发明内容
本发明所要解决的是现有基于卷积神经网络的文本相关性度量方法会丢失部分特征,而影响其准确性的问题,提供一种基于CNN卷积层和BiLSTM的中文短文本相关性度量方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于CNN卷积层和BiLSTM的中文短文本相关性度量方法,包括步骤如下:
步骤1、基于孪生神经网络作为框架,将CNN卷积层用于模拟中文文本的分词过程,并通过将CNN卷积层与BiLSTM网络层采取串行的方式相结合,即将CNN卷积层的输出作为BiLSTM网络的输入,构建CBiLSTM神经网络模型;所CBiLSTM神经网络模型包括输入层、字向量嵌入层、CNN卷积层、BiLSTM网络层、文本语义向量表示层及向量相似性度量层;
在输入层,对输入的中文短文本进行预处理,将中文短文本进行语句切割,处理为以字为单位的形式,得到预处理后的中文短文本;
在字向量嵌入层,先利用Word2vec训练中文维基百科语料得到字向量,再将预处理后的中文短文本中的每个字与字向量进行映射,将中文短文本向量化;
在CNN卷积层,对向量化的中文短文本进行特征提取,得到中文短文本向的浅层特征;
在BiLSTM网络层,对中文短文本向的浅层特征进行特征提取,得到中文短文本的语义向量;
在向量相似性度量层,利用向量相似性度量公式计算2个中文短文本的语义向量的距离;
步骤2、将给定的中文语料集输入到步骤1所构建的CBiLSTM神经网络模型中,对CBiLSTM神经网络模型进行训练,通过最小化模型的损失函数,不断迭代并利用梯度更新参数,得到最终的CBiLSTM神经网络模型;
步骤3、将2个待比较中文短文本输入到步骤2所得到的最终的CBiLSTM神经网络模型中,得到2个待比较中文短文本的语义向量的距离。
上述步骤1中,经BiLSTM网络层处理后,中文短文本语义向量T为各时间步输出门向量的平均值,即:
Figure BDA0002536712190000021
其中:p为BiLSTM网络的隐藏层节点数;n为BiLSTM网络的时间步数,该时间步数与中文短文本中字的个数相同;
Figure BDA0002536712190000022
代表时间步的其中一个方向→、第n个时间步输出门向量的第i维的值,
Figure BDA0002536712190000023
代表时间步的另一个方向←、第n个时间步输出门向量的第i维的值。
上述步骤1中,向量相似性度量公式为:
Figure BDA0002536712190000024
其中:d为2个中文短文本的语义向量的距离,
Figure BDA0002536712190000025
Figure BDA0002536712190000026
分别为2个中文短文本的语义向量Tx和Ty第i维的值,p为BiLSTM网络的隐藏层节点数。
上述步骤2中,损失函数Loss为:
Figure BDA0002536712190000027
其中:N为中文语料集中中文短文本样本的个数,y为2个中文短文本样本是否匹配的标签,d为2个中文短文本样本的语义向量的距离,margin为设定的距离阈值,且margin>0。
与现有技术相比,本发明针对中文提出了串行结合CNN卷积层和BiLSTM的文本相关性度量算法,该算法通过孪生神经网络作为框架,使用Word2vec训练的中文字向量作为输入,首先会经过去掉池化层的CNN提取到文本的n-gram信息,然后输入到BiLSTM网络中继续提取不同粒度的文本特征,更准确的对文本语义进行编码。最终将文本向量化,通过计算两个向量的距离来表示相关性。本发明采用去掉池化层的CNN提取文本的n-gram信息,可有效避免池化层所造成的特征损失,在中文短文本的相关性度量上具有较好的准确性,且在计算效率上较快,不要求很高的配置。
附图说明
图1为Siamese结构示意图。
图2为卷积操作示意图。
图3为BiLSTM结构示意图。
图4为本发明CBiLSTM神经网络的结构示意图。
图5为CCKS2018数据集BiLSTM节点数对准确率影响。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。
一、Siamese网络结构
Siamese网络是一种神经网络的框架,用于非线性度量学习相似性信息,Siamese本意为“暹罗人”或“泰国人”,后在英语中为“孪生”、“连体”,首次提出是用于验证支票签名与预留在银行的签名是否一致,后被应用于多个领域。Siamese网络一般有两个输入,这两个输入会进入到两个相同的神经网络结构中,可以为CNN或LSTM等,而且这两个子网络可以共享权值,最终将输入映射到新的空间,形成新空间中的向量表示,再根据向量相似性度量公式计算两者的相关性。Siamese结构如图1所示。
二、卷积神经网络
卷积神经网络(CNN)实质是多层感知机的变体,首次应用是LeCun提出的LeNet-5,其后在图像处理领域掀起热潮,可以直接将图片作为输入,省去了传统识别算法中复杂的特征提取以及数据建模过程,且可以取得较优的结果。卷积神经网络关键在于其局部感受野、权值共享及池化层(Pooling层)。局部感受野可以提取到局部特征,然后综合起来即可得到全局信息,减少连接;而权值共享则是利用同一卷积核进行卷积操作,有效减少了网络的参数,同时拥有平移不变性;经过池化层可以有效减少数据处理量,且保留有用特征,得到特征映射层。卷积神经网络主要包括输入层、卷积层、激励层、池化层、全连接层和输出层。
(1)输入层
主要对输入数据进行预处理,以便卷积层进行操作,对于图片输入可能需要进行去均值、归一化及PCA降维操作,而对于文本输入则可能需要数据清洗去噪声、词嵌入等操作。
(2)卷积层
卷积操作是卷积神经网络中关键的步骤之一,在输入上进行局部加权,可以提取文本的n-gram信息,卷积核的选择对特征的提取也非常重要,图2为卷积操作示意图。
(3)激励层
激励层的主要作用是将卷积层输出的结果做非线性映射,解决线性模型不能解决的问题,模拟更细微的变化。常用的激活函数有sigmoid、ReLU、tanh等,但是卷积神经网络中一般使用RELU函数。
(4)池化层
池化层主要作用是将特征进行降维,把冗余信息去除,提取其中最重要的作用,除此之外,还保证特征不变性以及防止过拟合,一般分为最大池化和均值池化。但是同时也会存在丢失一些特征的问题,这些特征有可能是比较重要的特征。
(5)全连接层
全连接层中神经元与前一层所有神经元都存在权重连接,连接所有特征,输出到输出层进行具体的任务操作。
三、长短期记忆神经网络
长短期记忆神经网络(LSTM)是在原始循环神经网络中加入了记忆单元,解决了原始循环神经网络长期依赖、梯度消失、梯度爆炸等问题,循环神经网络展开后由多个相同的结构连接,每次会将上一次的状态与当前输入数据一同进行训练和学习,直至结束。LSTM神经网络中加入了记忆单元,用来决定遗忘哪些信息或需要记住哪些信息,数据输入之后,会首先判断是否需要遗忘,剩下的信息会储存在记忆单元中,该记忆单元的信息会一直传递到训练结束,LSTM包括输入门、遗忘门、输出门和单元状态。
LSTM有效解决了循环神经网络面临的问题,也存在很多变体,其中效果不错且应用广泛的是双向长短期记忆网络(BiLSTM),可以同时获取上下文信息,提取更丰富的特征,BiLSTM实际是将前向LSTM和后向LSTM叠加组成,结构如图3所示。
四、基于CNN卷积层和BiLSTM串行结合的中文短文本相关性算法
本发明所提出的一种基于CNN卷积层和BiLSTM的中文短文本相关性度量方法,包括步骤如下:
(1)基于孪生神经网络作为框架构建CBiLSTM神经网络模型。
CBiLSTM神经网络模型,如图4所示,包括输入层、字向量嵌入层、CNN卷积层、BiLSTM网络层、文本语义向量表示层及向量相似性度量层。其中,CNN卷积层用于模拟中文文本的分词过程,并将CNN卷积层与BiLSTM网络层采取串行的方式相结合,即将CNN卷积层的输出作为BiLSTM网络的输入。
1.1)在输入层,对输入的中文短文本进行预处理,将中文短文本进行语句切割,处理为以字为单位的形式,得到预处理后的中文短文本。
相较于英文文本,中文短文本的分词往往会产生误差,而这些误差会叠加到最终结果上,而影响文本相关性度量的准确性。为此,本发明决定在输入层将基于字向量来对中文短文本进行预处理,以消除在分词阶段产生的误差,最终形成文本t={w1,w2,...,wn},其中wi表示中文短文本中的第i个字,n为中文短文本中字的个数。
1.2)在字向量嵌入层,先利用Word2vec训练中文维基百科语料得到字向量,再将预处理后的中文短文本中的每个字与字向量进行映射,将中文短文本向量化。
字向量嵌入层主要将文本中的每个字映射为一个低维的表示向量。其首先利用Word2vec训练中文维基百科语料,从而得到字向量。在本实施例中,选取的字向量为300维。然后将输入层输入的文本t={w1,w2,...,wn}通过查表将每个字与字向量进行映射,转化为低维向量,形如
Figure BDA0002536712190000051
m为向量的维度大小。
1.3)在CNN卷积层,对向量化的中文短文本进行特征提取,得到中文短文本向的浅层特征。
考虑到传统卷积神经网络CNN中池化层可能会将部分特征丢失,本发明将其去掉,而仅利用关键的卷积层来提取文本的特征。设置卷积核尺寸为cs,提取不同的特征,卷积核的个数与字向量的维度m相同,对输入的向量化文本
Figure BDA0002536712190000052
使用滤波器Wc∈Rm*cs进行2维卷积,即对输入层的文本向量自左向右滑动计算,最终会产生一个特征向量C∈Rn -cs+1,其中每个元素的卷积计算如下所示:
ci=f(Wc*vi:j+b)
其中:Wc和b为卷积神经网络中的参数,分别是权重和偏置。而vi:j表示窗口内字向量矩阵,j为i+cs-1,窗口长度即为该向量矩阵的列数,*表示点积。在卷积过程中,在卷积过程中,使用有效填充,对文本向量进行窄卷积。经以过m个卷积核的卷积计算后,得到特征矩阵x=[C1,C2,…,Cm]∈Rm*(n-cs+1)
为了增加特征的表达能力,将卷积后的值输入到激活函数中。本发明选取修正线性函数(ReLU)作为激活函数,计算公式如下所示:
xo=max(0,x)
ReLU函数是分段的线性函数,收敛速度较快,当输入为负数时,神经元不会被激活,相应的参数也不会更新。
1.4)在BiLSTM网络层,对中文短文本向的浅层特征进行特征提取,得到中文短文本的语义向量。
将CNN卷积层提取的浅层特征xo(xo∈Rm*(n-cs+1))输入到BiLSTM网络层,其中设置BiLSTM网络层的网络层数为l,隐藏层节点数为p,长短期记忆网络主要利用输入门、遗忘门、输出门机制实现特征提取,因此将特征向量xo输入到三个门中,经过计算之后输出文本语义向量。
①遗忘门
通过遗忘门,可以决定在上一时间步的单元状态ct-1中需要保留多少信息到当前时间步的状态中,计算公式如下所示:
ft=σ(Wf·[ht-1,xt]+bf)
其中:σ为激活函数sigmoid,·表示普通矩阵相乘,Wf表示遗忘门的权重,Wf∈Rp *(p+m),ht-1指的是上一时间步隐藏层的输出,ht-1∈Rp*1,xt则是当前时间步输入层的输入,xt∈Rm*1,bf是指偏置,bf∈Rp*1,[ht-1,xt]表示向量ht-1与向量xt的拼接运算。
②输入门
输入门主要决定当前时间步输入层的输入xt中应该保存哪些信息it到记忆单元ct中,同时需要计算得出当前时间步的暂时状态
Figure BDA0002536712190000061
最终更新记忆单元ct,其中,it,
Figure BDA0002536712190000062
ct∈Rp *1,·表示普通矩阵相乘,*表示矩阵点积。双曲正切函数tanh值域为(-1,1),输出均值为0,收敛速度快。计算公式如下所示:
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002536712190000063
Figure BDA0002536712190000064
③输出门
输出门主要决定记忆单元ct中有哪些信息ot需要输出到当前输出值ht中,计算公式如下所示:
ot=σ(Wo·[ht-1,xt]+bo)
而LSTM网络最终输出则是由输出门与记忆单元共同作用的,最终输出的ht∈Rp*1,计算公式如下所示:
ht=ot*tanh(ct)
④中文短文本语义向量
经BiLSTM处理后,中文短文本语义向量T为各时间步输出门向量的平均值,计算公式如下:
Figure BDA0002536712190000065
其中:p为BiLSTM网络的隐藏层节点数;n为BiLSTM网络的时间步数,该时间步数与中文短文本中字的个数相同;←和→分别代表一个时间步的两个不同的方向,
Figure BDA0002536712190000066
代表→方向、第n个时间步输出门向量的第i维的值。
1.5)在向量相似性度量层,利用向量相似性度量公式计算2个中文短文本的语义向量的距离。
本实施例中,选取的相似性度量公式为欧式距离,两个文本通过以上网络训练后输出各自的文本向量Tx和Ty,然后利用以下公式进行计算:
Figure BDA0002536712190000071
其中:d为2个中文短文本的语义向量的距离,
Figure BDA0002536712190000072
Figure BDA0002536712190000073
分别为2个中文短文本的语义向量第i维的值,p为BiLSTM网络的隐藏层节点数。
(2)将给定的中文语料集输入到步骤1所构建的CBiLSTM神经网络模型中,对CBiLSTM神经网络模型进行训练,通过最小化模型的损失函数,不断迭代并利用梯度更新参数,得到最终的CBiLSTM神经网络模型。其中损失函数为:
Figure BDA0002536712190000074
其中:N为中文语料集中中文短文本样本的个数,y为2个中文短文本样本是否匹配的标签,d为2个中文短文本样本的语义向量的距离,margin为设定的距离阈值,且要求margin>0。
(3)将2个待比较中文短文本输入到步骤2所得到的最终的CBiLSTM神经网络模型中,得到2个待比较中文短文本的语义向量的距离。
五、实验结果与分析
1)实验数据集
为了验证本发明提出的CBiLSTM神经网络模型,现使用了三种数据集进行测试,分别是ChineseSTS、ChineseLCQMC和CCKS2018。如表1所示:
表1 用于评估本文模型的数据集
Figure BDA0002536712190000075
2)评价指标
为了评估本文设计的网络模型,引入了精确率(Precision)、召回率(Recall)、F1值(F-Measure)以及准确率(Accuracy)。在分类任务中,各个指标的计算都依据正负样本的分类结果,用混淆矩阵表2示如下:
表2 正负样本分类结果
Figure BDA0002536712190000076
Figure BDA0002536712190000081
其中TP为正确分类到正例的样本数,FP为错误分为正例的负样本数,FN为错误分为反例的正样本数,TN为正确分类到反例的样本数。
精确率(Precision)计算公式如下:
Figure BDA0002536712190000082
召回率(Recall)计算公式如下:
Figure BDA0002536712190000083
F1值(F-Measure)计算公式如下:
Figure BDA0002536712190000084
准确率(Accuracy)计算公式如下:
Figure BDA0002536712190000085
3)实验结果与分析
表3列举了本实验的配置要求,经在多个平台中测试,发现本发明所构建的神经网络模型模型并不要求非常高的配置,实验中并没有使用GPU。
表3 实验配置情况
实验环境 具体配置
操作系统 Ubuntu18.04/Windows10
CPU Intel(R)Core(TM)i5-5200
内存 12GB
开发语言 Python3.6
开发平台 Tensorflow框架
字向量训练工具 Word2vec
因为本发明选取的小规模样本集(几万量级),所以将数据集划分为训练集、验证集和测试集,使用交叉验证来调整模型。使用Word2vec预训练的300维字向量初始化文本表示,实验中使用的参数如表4所示。同时对参数使用网格搜索确定,卷积层中滑动窗口在[2,3,4,5]之间选择,对于隐藏层节点数在[50,150,200,300]之间选择,节点数对准确率的影响如图5所示,设置BiLSTM层的网络层数为3。另外本发明还选取了初始学习率为1e-3的Adam优化器调整参数。
表4 本文模型参数选取情况
Figure BDA0002536712190000091
分别对数据集ChineseSTS、ChineseLCQMC和CCKS2018进行了测试,将①卷积神经网络模型(简称CNN,源于文献Shen Y,He X,Gao J,Deng L,Mesnil G.Learning semanticrepresentations using convolutional neural networks for web search[C].InProceedings of the 23rd International Conference on World Wide Web.ACM,NewYork,NY,USA,2014,pp 373-374)、②双向长短期记忆网络模型(简称BiLSTM,源于文献Neculoiu P,Versteegh M,Rotaru M.Learning text similarity with siameserecurrent networks[C].In Proceedings of the1st Workshop on RepresentationLearning for NLP,Berlin,2016,pp148-157)、③带有池化层的标准CNN与BiLSTM直接串行组合网络模型(简称CNN-BiLSTM,源于文献Rhanoui M,Mikram M,Yousfi S,Barzali S.Acnn-bilstm model for document-level sentiment analysis[J].Mach.Learn.Knowl.Extr,2019,1:832-847)、④带有池化层的标准CNN与BiLSTM并行组合网络模型(简称CNN∪BiLSTM,源于文献郭浩,许伟,卢凯,唐球.基于CNN和BiLSTM的短文本相似度计算方法[J].信息技术与网络安全,2019,38(6):61-64+68)与⑤本发明模型(简称CBiLSTM)与进行对比,如表5、6和7所示:
表5 ChineseTST数据集实验结果
Figure BDA0002536712190000092
Figure BDA0002536712190000101
表6 ChineseLCQMC数据集实验结果
Figure BDA0002536712190000102
表7 CCKS2018数据集实验结果
Figure BDA0002536712190000103
从表中可以看出,本发明CBiLSTM神经网络模型使用去掉池化层的卷积神经网络与长短期记忆网络的串行结合,其模型在对中文数据集进行处理时,从精确率(Precision)、召回率(Recall)、F1值(F-Measure)以及准确率(Accuracy)上均相优于其他网络模型,证明本发明采取去掉池化层的CNN提取文本n-gram信息的方法,可有效避免池化层所造成的特征损失。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (4)

1.基于CNN卷积层和BiLSTM的中文短文本相关性度量方法,其特征是,包括步骤如下:
步骤1、基于孪生神经网络作为框架,将CNN卷积层用于模拟中文文本的分词过程,并通过将CNN卷积层与BiLSTM网络层采取串行的方式相结合,即将CNN卷积层的输出作为BiLSTM网络的输入,构建CBiLSTM神经网络模型;所CBiLSTM神经网络模型包括输入层、字向量嵌入层、CNN卷积层、BiLSTM网络层、文本语义向量表示层及向量相似性度量层;
在输入层,对输入的中文短文本进行预处理,将中文短文本进行语句切割,处理为以字为单位的形式,得到预处理后的中文短文本;
在字向量嵌入层,先利用Word2vec训练中文维基百科语料得到字向量,再将预处理后的中文短文本中的每个字与字向量进行映射,将中文短文本向量化;
在CNN卷积层,对向量化的中文短文本进行特征提取,得到中文短文本向的浅层特征;
在BiLSTM网络层,对中文短文本向的浅层特征进行特征提取,得到中文短文本的语义向量;
在向量相似性度量层,利用向量相似性度量公式计算2个中文短文本的语义向量的距离;
步骤2、将给定的中文语料集输入到步骤1所构建的CBiLSTM神经网络模型中,对CBiLSTM神经网络模型进行训练,通过最小化模型的损失函数,不断迭代并利用梯度更新参数,得到最终的CBiLSTM神经网络模型;
步骤3、将2个待比较中文短文本输入到步骤2所得到的最终的CBiLSTM神经网络模型中,得到2个待比较中文短文本的语义向量的距离。
2.根据权利要求1所述的基于CNN卷积层和BiLSTM的中文短文本相关性度量方法,其特征是,步骤1中,经BiLSTM网络层处理后,中文短文本语义向量T为各时间步输出门向量的平均值,即:
Figure FDA0002536712180000011
其中:p为BiLSTM网络的隐藏层节点数;n为BiLSTM网络的时间步数,该时间步数与中文短文本中字的个数相同;
Figure FDA0002536712180000012
代表时间步的其中一个方向→、第n个时间步输出门向量的第i维的值,
Figure FDA0002536712180000013
代表时间步的另一个方向←、第n个时间步输出门向量的第i维的值。
3.根据权利要求1或2所述的基于CNN卷积层和BiLSTM的中文短文本相关性度量方法,其特征是,步骤1中,向量相似性度量公式为:
Figure FDA0002536712180000021
其中:d为2个中文短文本的语义向量的距离,
Figure FDA0002536712180000022
Figure FDA0002536712180000023
分别为2个中文短文本的语义向量Tx和Ty第i维的值,p为BiLSTM网络的隐藏层节点数。
4.根据权利要求1所述的基于CNN卷积层和BiLSTM的中文短文本相关性度量方法,其特征是,步骤2中,损失函数Loss为:
Figure FDA0002536712180000024
其中:N为中文语料集中中文短文本样本的个数,y为2个中文短文本样本是否匹配的标签,d为2个中文短文本样本的语义向量的距离,margin为设定的距离阈值,且margin>0。
CN202010534862.8A 2020-06-12 2020-06-12 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 Active CN111723572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010534862.8A CN111723572B (zh) 2020-06-12 2020-06-12 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010534862.8A CN111723572B (zh) 2020-06-12 2020-06-12 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法

Publications (2)

Publication Number Publication Date
CN111723572A true CN111723572A (zh) 2020-09-29
CN111723572B CN111723572B (zh) 2021-11-19

Family

ID=72568093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534862.8A Active CN111723572B (zh) 2020-06-12 2020-06-12 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法

Country Status (1)

Country Link
CN (1) CN111723572B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800777A (zh) * 2021-04-14 2021-05-14 北京育学园健康管理中心有限公司 语义确定方法
CN114647726A (zh) * 2022-03-04 2022-06-21 贵州大学 一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质
CN116028596A (zh) * 2023-03-27 2023-04-28 云筑信息科技(成都)有限公司 一种实体匹配分块的实现方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN109299462A (zh) * 2018-09-20 2019-02-01 武汉理工大学 基于多维卷积特征的短文本相似度计算方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN109918652A (zh) * 2019-02-20 2019-06-21 上海方立数码科技有限公司 一种语句相似度判断方法及判断系统
CN110162635A (zh) * 2019-05-28 2019-08-23 广东工业大学 一种文本中全局特征的提取方法、系统及相关装置
CN110222184A (zh) * 2019-06-13 2019-09-10 广东工业大学 一种文本的情感信息识别方法及相关装置
CN110717330A (zh) * 2019-09-23 2020-01-21 哈尔滨工程大学 基于深度学习的词句级短文本分类方法
CN110874410A (zh) * 2019-11-01 2020-03-10 河南理工大学 一种基于长短时记忆网络和卷积神经网络的文本分类方法
CN111150372A (zh) * 2020-02-13 2020-05-15 云南大学 一种结合快速表示学习和语义学习的睡眠阶段分期系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN109299462A (zh) * 2018-09-20 2019-02-01 武汉理工大学 基于多维卷积特征的短文本相似度计算方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN109918652A (zh) * 2019-02-20 2019-06-21 上海方立数码科技有限公司 一种语句相似度判断方法及判断系统
CN110162635A (zh) * 2019-05-28 2019-08-23 广东工业大学 一种文本中全局特征的提取方法、系统及相关装置
CN110222184A (zh) * 2019-06-13 2019-09-10 广东工业大学 一种文本的情感信息识别方法及相关装置
CN110717330A (zh) * 2019-09-23 2020-01-21 哈尔滨工程大学 基于深度学习的词句级短文本分类方法
CN110874410A (zh) * 2019-11-01 2020-03-10 河南理工大学 一种基于长短时记忆网络和卷积神经网络的文本分类方法
CN111150372A (zh) * 2020-02-13 2020-05-15 云南大学 一种结合快速表示学习和语义学习的睡眠阶段分期系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
於张闲等: "基于深度学习的虚假健康信息识别", 《软件导刊》 *
郭浩 等: "基于 CNN 和 BiLSTM 的短文本相似度计算方法", 《信息技术与网络安全》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800777A (zh) * 2021-04-14 2021-05-14 北京育学园健康管理中心有限公司 语义确定方法
CN112800777B (zh) * 2021-04-14 2021-07-30 北京育学园健康管理中心有限公司 语义确定方法
CN114647726A (zh) * 2022-03-04 2022-06-21 贵州大学 一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质
CN116028596A (zh) * 2023-03-27 2023-04-28 云筑信息科技(成都)有限公司 一种实体匹配分块的实现方法
CN116028596B (zh) * 2023-03-27 2023-08-18 云筑信息科技(成都)有限公司 一种实体匹配分块的实现方法

Also Published As

Publication number Publication date
CN111723572B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112232053B (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
Benzebouchi et al. Multi-classifier system for authorship verification task using word embeddings
WO2023004528A1 (zh) 一种基于分布式系统的并行化命名实体识别方法及装置
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN110276396A (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
Miao et al. Application of CNN-BiGRU Model in Chinese short text sentiment analysis
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN113901802A (zh) Crnn网络融合注意力机制的短文本相似度匹配方法
Zhang et al. An attention-based word-level interaction model: Relation detection for knowledge base question answering
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN114757183A (zh) 一种基于对比对齐网络的跨领域情感分类方法
Nazarizadeh et al. Using Group Deep Learning and Data Augmentation in Persian Sentiment Analysis
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220826

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Patentee before: Guangxi Normal University

Effective date of registration: 20220826

Address after: Room 601-1, Building 3, No. 28, Qinglan Street, Xiaoguwei Street, Panyu District, Guangzhou City, Guangdong Province, 511400

Patentee after: Xiaoyu Protest Technology (Guangzhou) Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

TR01 Transfer of patent right