CN109299462B - 基于多维卷积特征的短文本相似度计算方法 - Google Patents
基于多维卷积特征的短文本相似度计算方法 Download PDFInfo
- Publication number
- CN109299462B CN109299462B CN201811100976.0A CN201811100976A CN109299462B CN 109299462 B CN109299462 B CN 109299462B CN 201811100976 A CN201811100976 A CN 201811100976A CN 109299462 B CN109299462 B CN 109299462B
- Authority
- CN
- China
- Prior art keywords
- similarity
- convolution
- layer
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 129
- 238000011176 pooling Methods 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 30
- 235000019580 granularity Nutrition 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多维卷积特征的短文本相似度计算方法,包括:利用训练数据构建多粒度卷积神经网络模型;在多粒度卷积神经网络模型的输入层输入两个训练样本,获得各自的词向量矩阵;在卷积层进行多粒度卷积操作,提取各自的特征向量;在池化层使用K‑Block‑Max池化和平均池化方法完成二次特征向量提取;在相似度计算层使用融合方向与距离的计算方法得到两个训练样本的相似度向量;在全连接层计算两个训练样本的相似度值,并与训练数据中标注的相似度值进行比较,对模型进行更新;将需要计算相似度的两段短文本,输入到经过训练的多粒度卷积神经网络模型中,则在全连接层输出相似度值。本发明采用不同粒度卷积核对短文本数据进行特征提取,提高准确性。
Description
技术领域
本发明涉及计算机技术领域,具体地指一种基于多维卷积特征的短文本相似度计算方法。
背景技术
基于词频的特征提取是指在最初的词项集合中,根据给定的特征评估函数计算,从而挑选最能反映短文本特征的特征词项集合的过程。词频-逆向文档频率(TF-IDF)和互信息(MI)是比较常用的两种词频特征提取方法。来源于统计热力学的信息熵(IE)的概念,用于度量体系的混乱程度,它本身并不直接用于文本的特征提取,但是经常融入到其它短文本词频特征提取方法中。
主题模型是一种比较常用的短文本语义特征提取模型。首先,为了解决数据稀疏问题,主题模型结合一元混合模型的优点:所有短文本共享一个主题分布;其次,为了消除每个短文本只有一个主题的弊端,在整个语料库上的共现词对上建模;最后,将短文本映射到相应的语义空间(或主题空间),从而对短文本语义进行分析和判断。
随着深度学习的发展,短文本处理过程逐步转向提取文本间的语义特征。卷积神经网络结构中卷积-池化结构可以用于完成短文本的特征提取。卷积核是一个作用于输入矩阵的滑动窗口函数,在卷积操作中,卷积核按照一定的运动方式扫过输入矩阵完成卷积运算。池化操作一般位于卷积运算后,作用是对卷积层提取到的特征向量进行降采样,完成特征的二次提取。常用的池化方式为最大池化,该池化方式仅取池化窗口范围内的最大特征值,其余特征值全部抛弃。卷积-池化结构的共同作用完成短文本输入数据的特征提取。
短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点,它是NLP中一个重要任务,既可以当成一个单独的任务,又可以作为其它NLP应用的基础。传统的处理方法如基于词频模型的方法无法挖掘出短文本中的隐含信息,基于主题模型的处理方法不能准确建模文本匹配中的语义相近程度。在基于卷积神经网络的处理方法中,由于模型的输入是短文本转化后的文本矩阵,其输入矩阵的行与列由输入的短文本长度以及词向量的维度决定,传统的卷积核确定方式不仅会破坏词向量的信息,而且无法提取每个词语上下文的信息;另外,在池化层中最大池化操作仅保留一个特征最强的值,从而忽略其余出现的重要特征,对特征相似度计算造成不利影响;且传统的卷积-池化特征提取是从单一粒度进行,提取到的特征向量不足以代表短文本的语义,因此,在相似度计算过程中,会丢失短文本的部分语义特征,导致相似度计算的准确性受到影响。
发明内容
本发明的目的是为了解决上述背景技术存在的不足,而提出的一种基于多维卷积特征的短文本相似度计算方法,该方法构建了一种多粒度卷积神经网络模型结构,模型的训练过程采用不同粒度卷积核对短文本数据进行特征提取,并利用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式进行池化操作,从而有效的解决目前存在的问题。
为实现上述目的,本发明所设计的基于多维卷积特征的短文本相似度计算方法,其特殊之处在于,所述方法包括训练步骤和计算步骤,所述训练步骤包括:
1)使用业内开放的标准短文本数据集作为训练数据;
2)利用训练数据,构建多粒度卷积神经网络模型,所述多粒度卷积神经网络模型包括输入层、卷积层、池化层、相似度计算层和全连接层;
3)在所述多粒度卷积神经网络模型的输入层输入用于短文本相似度计算的两个训练样本AS和BS,利用开源Skip-Gram模型进行处理,获得各自的词向量矩阵AM和BM;
4)对于两个训练样本的词向量矩阵AM和BM,在多粒度卷积神经网络模型卷积层进行多粒度卷积操作,提取各自的特征向量ALh和BLh,其中,h表示不同结构的卷积核个数;
5)对两个训练样本的特征向量ALh和BLh,在多粒度卷积神经网络模型的池化层使用K-Block-Max池化和平均池化方法完成二次特征向量AOlh和BOlh的提取,l表示使用的池化方式个数;
6)对两个训练样本AS和BS的二次特征向量AOlh和BOlh,在多粒度卷积神经网络模型的相似度计算层使用融合方向与距离的计算方法得到两个训练样本的相似度向量;
7)在多粒度卷积神经网络模型的全连接层计算两个训练样本的相似度值,并与训练数据中标注的相似度值进行比较,误差值通过反向传播到多粒度卷积神经网络模型的卷积层和池化层,对模型进行更新;
所述计算步骤包括:
8)将需要计算相似度的两段短文本,输入到经过训练的多粒度卷积神经网络模型中,则在全连接层输出相似度值。
优选地,所述步骤3)中针对两个训练样本AS和BS,分别进行如下处理:
32)载入利用开源Skip-Gram模型获得的词向量表WordVectors;
33)依次判断Arr中每个词语wj(j=1,2,...n1)是否在词向量表WordVectors中,如果在,则将词语wj(j=1,2,...n1)的词向量WordVectors[wj]放入词向量矩阵AM;如果不在,就将生僻词词向量WordVectors[unknown]放入词向量矩阵AM;
34)重复执行步骤33),直到训练样本中的每个词语都转化完毕;
35)返回训练样本AS的词向量矩阵AM,AM是n1×k的矩阵,其中n1表示样本AS分词后词语个数,k表示词向量维度;
36)利用同样的方法,对训练样本BS做31)~35)同样的处理,并返回它的词向量矩阵BN,BN是n2×k的矩阵,其中n2表示样本BS分词后词语个数,k表示词向量维度。
优选地,所述步骤4)在多粒度卷积神经网络模型卷积层设计三种不同结构的卷积核以便从词语的不同组合粒度中提取短文本特征,三种卷积核结构为h×k,其中:h=1,2,3,对于这三种卷积核,每次卷积运算时结合的词语个数分别是1,2,3个,k表示词向量维度。
优选地,所述步骤5)的具体处理包括:
51)对于两个训练样本在卷积层提取的特征向量ALh和BLh,初始化其分块数p=0与每分块取得的特征个数m=0;
52)判断若特征向量ALh长度小于3或者特征向量BLh长度小于3,将p赋值为1,m赋值为1;否则取特征向量ALh和BLh长度中的最小值l将其除以3赋值给p,m赋值为2;
53)依据分块数p值将特征向量ALh和BLh分块,并依据特征个数m值取特征值;
54)分别利用K-Block-Max池化和平均池化方法,完成两个训练样本的二次特征向量AOlh和BOlh的提取,分别生成池化特征向量。
优选地,所述步骤6)中两个训练样本AS和BS的相似度向量计算,是对于5)中获得的6种池化特征向量AOlh和BOlh,进行如下处理:
61)设X,Y分别表示任意一个池化特征向量AOlh和BOlh(l=1,2,h=1,2,3),并且X=(x1,x2,...,xn),Y=(y1,y2,...,yn)(n表示每个特征向量中的特征项个数),利用改进的余弦相似度计算X,Y在方向上相似度值Simc(X,Y),
62)利用欧式距离计算X,Y在距离上相似度值Simd(X,Y),
63)融合方向与距离计算X,Y的相似度Sim(X,Y),
Sim(X,Y)=Simc(X,Y)*Simd(X,Y)
64)利用61)~63)所述方法,对所有池化特征向量AOlh和BOlh,对应求相似度,获得相似度向量V。
优选地,所述步骤7)在全连接层中使用Softmax函数进行映射,vi表示V中的第i个元素,vj表示V中第j个元素,则
其中,si表示元素vi的Softmax值,Softmax函数将相似度向量中多个特征映射到(0,1)区间,并且映射后的特征值相加为1,经过Softmax函数处理,每一个映射后的特征值即视为概率,从而可以获得多个相似度分数的概率,取其中最大值作为两段训练样本相似度值并与训练数据中标注的相似度值进行比较,误差值通过反向传播到多粒度卷积神经网络模型的卷积层和池化层,对模型进行更新。
本发明提出的一种基于多维卷积特征的短文本相似度计算方法,构建了一种多粒度卷积神经网络模型。该模型卷积核结构以词向量维度为最小单位,保证词向量的完整性不被破坏;依据短文本特点,构造三种结构卷积核,以不同粒度提取词语上下文信息;同时,在最大池化方法的基础上,设计K-Block-Max池化方式,该方式取得了卷积后的多个特征值,同时保留了多个特征值之间的位置信息。通过三种结构的卷积核,以及K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式,最终共产生六种不同结构的特征向量。在进行特征向量相似度计算时,设计融合方向与距离的多维卷积特征相似度计算方法,使用该方法对六种不同结构的特征向量对应求相似度。模型的这种设计保证了从特征提取到相似度计算的全面性,结果更加准确。
本发明的优点在于:
(1)本专利构造的多粒度卷积神经网络的卷积核结构以词向量维度为最小单位,保证词向量的完整性不被破坏。对于输入的词向量矩阵,依据短文本特点,构造三种结构卷积核,使得每次卷积运算所涉及的上下文词语数分别为1,2,3,从而以不同粒度提取词语上下文信息。这种卷积核构建方式保留了每个词语的词向量完整信息,同时,由于采用三种结构卷积核,可以提取到不同粒度的词语上下文信息。
(2)本专利所设计的K-Block-Max池化方式不仅取得了卷积后的多个特征值,同时保留了多个特征值之间的位置信息,这对于文本数据至关重要。
(3)本专利依据短文本特点,构建三种结构的卷积核,并使用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式,最终共产生六种不同结构的特征向量。在进行特征向量相似度计算时,设计融合方向与距离的多维卷积特征相似度计算方法,使用该方法对六种不同结构的特征向量对应求相似度,并通过归一函数得到相似度值。这种设计方式使得两段短文本的相似性度量更加全面、准确。
附图说明
图1为本发明所构建的多粒度卷积神经网络模型架构图。
图2为本发明所构建的多粒度卷积神经网络模型的卷积层示意图。
图3为本发明所构建的多粒度卷积神经网络模型的池化层示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细描述。
普通的卷积神经网络对短文本处理存在以下几个问题:首先,普通卷积核无法直接对短文本数据进行特征提取;其次,最大池化方法会丢失部分重要特征以及词语之间的位置信息;最后,传统的卷积-池化特征提取是从单一粒度进行,提取到的特征向量不足以代表短文本语义。因此,本发明提出一种基于多维卷积特征的相似度计算方法,构建一种多粒度卷积神经网络模型,该模型采用不同粒度卷积核对短文本数据进行特征提取,采用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式进行池化操作,有效的解决了上述问题。
图1为本发明所构建的多粒度卷积神经网络模型架构图。该图展示了待比较相似度的两段短文本在多粒度卷积神经网络模型中特征提取以及相似度计算过程。多粒度卷积神经网络模型共包括五层,从左到右依次是:输入层、卷积层、池化层、相似度计算层以及全连接层。其中输入层、卷积层与池化层对两段短文本进行独立处理,分别输出二者的多维特征向量,随后相似度计算层对二者的特征向量进行相似性度量,最终全连接层输出两段短文本的相似度值。
本发明提出的一种基于多维卷积特征的短文本相似度计算方法,包括训练步骤和计算步骤。
训练步骤包括:
1)使用业内开放的标准短文本数据集(例如SemEval STS数据集)作为训练数据;
2)利用训练数据,构建多粒度卷积神经网络模型,该模型包括输入层、卷积层、池化层、相似度计算层和全连接层,经过步骤3)~7),对模型进行训练。
3)输入用于短文本相似度计算的两个训练样本AS和BS,分别进行如下处理:
32)载入利用开源Skip-Gram模型获得的词向量表WordVectors(该词向量表利用维基百科作为语料训练);
33)依次判断Arr中每个词语wj(j=1,2,...n1)是否在词向量表WordVectors中,如果在,则将词语wj(j=1,2,...n1)的词向量WordVectors[wj]放入词向量矩阵AM;如果不在,就将生僻词词向量WordVectors[unknown](所有生僻词的词向量均用unknown的词向量代替)放入词向量矩阵AM;
34)重复执行步骤33),直到训练样本中的每个词语都转化完毕;
35)返回训练样本AS的词向量矩阵AM,AM是n1×k的矩阵,其中n1表示样本AS分词后词语个数,k表示词向量维度。
36)利用同样的方法,对训练样本BS做31)~35)同样的处理,并返回它的词向量矩阵BN,BN是n2×k的矩阵,其中n2表示样本BS分词后词语个数,k表示词向量维度;
4)对于输入的两个训练样本AS和BS,利用3)获得各自的词向量矩阵AM和BM后,在多粒度卷积神经网络模型卷积层进行多粒度卷积操作,提取各自的特征向量ALh和BLh,其中,h表示不同结构的卷积核个数,即每次卷积运算所涉及的上下文词语数,对于短文本,h=1,2,3。
普通的CNN结构中,一个卷积层往往只包含一种结构的多个卷积核。对于同种结构的卷积核,即使数量有多个,仍然只能提取出同一种类型的特征向量,因为卷积操作结合的上下文信息是相同的,这种方式对于上下文语义信息丰富的短文本并不适用。为了充分考虑短文本数据的上下文信息以及词语组合的情况,本发明设计三种不同结构的卷积核以便从词语的不同组合粒度中提取短文本特征。设三种卷积核结构为h×k,其中:h=1,2,3,h为每次卷积运算所涉及的上下文词语数,即对于这三种卷积核,每次卷积运算时结合的词语个数分别是1,2,3个,k表示词向量维度。如图2所示,展示了h×k(其中:h=2,k=5)的卷积核结构。经过三种不同卷积核结构的卷积操作,提取到的短文本特征值更加全面,更具有代表性。
5)对两个训练样本AS和BS的特征向量,在多粒度卷积神经网络模型的池化层使用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)方法完成二次特征向量AOlh和BOlh的提取,其中,l=1,2,表示使用的池化方式个数;h=1,2,3,表示不同结构的卷积核个数:
普通的最大池化方式不能直接作用于短文本数据。为了提取多个重要特征值,并保留特征值之间的位置信息,本发明设计K-Block-Max池化方法对卷积层输出的特征向量(以下简称为卷积特征向量)进行特征的二次提取(池化层二次提取的特征向量以下简称为池化特征向量)。K-Block-Max方法对任意一个卷积特征向量,首先将其分块成若干块,然后对于每一个分块取其最大的若干个值并保持原有顺序依此放入池化特征向量中。K-Block-Max池化方法的关键在于分块数和每块取得特征值个数的确定,其具体步骤如下:
51)对于两个训练样本在卷积层提取的特征向量ALh和BLh(h=1,2,3),初始化其分块数p=0与每分块取得的特征个数m=0;
52)判断若特征向量ALh(h=1,2,3)长度小于3或者特征向量BLh(h=1,2,3)长度小于3,将p赋值为1,m赋值为1;否则取特征向量ALh和BLh(h=1,2,3)长度中的最小值l将其除以3赋值给p,m赋值为2;
53)依据分块数p值将特征向量ALh和BLh(h=1,2,3)分块,并依据特征个数m值取特征值;
54)分别利用K-Block-Max池化(K-Block-Max Pooling)和平均池化(MeanPooling)方法,完成两个训练样本的二次特征向量AOlh和BOlh(l=1,2,h=1,2,3)的提取,即生成6种池化特征向量;
6)对两个训练样本AS和BS的二次特征向量AOlh和BOlh(l=1,2,h=1,2,3),在多粒度卷积神经网络模型的相似度计算层使用融合方向与距离的计算方法得到两个训练样本的相似度向量。
传统余弦相似度计算方法主要从方向角度衡量两个向量相似度,欧氏距离计算方法主要从距离的角度衡量两个向量相似度。单独应用两种相似度计算方法之一都不能全面和准确衡量向量相似度,因此本发明考虑从方向与距离两个角度共同衡量向量相似度,即融合余弦相似度计算方法与欧氏距离计算方法,使其从方向和距离两个角度衡量相似度,其具体步骤如下:
61)设X,Y分别表示任意一个池化特征向量AOlh和BOlh(l=1,2,h=1,2,3),并且X=(x1,x2,...,xn),Y=(y1,y2,...,yn)(n表示每个特征向量中的特征项个数),利用改进的余弦相似度计算X,Y在方向上相似度值Simc(X,Y),
62)利用欧式距离计算X,Y在距离上相似度值Simd(X,Y),
63)融合方向与距离计算X,Y的相似度Sim(X,Y),
Sim(X,Y)=Simc(X,Y)*Simd(X,Y)
64)利用61)~63)所述方法,对6个池化特征向量AOlh和BOlh(l=1,2,h=1,2,3),对应求相似度,获得相似度向量V。
7)在多粒度卷积神经网络模型中的全连接层计算两个样本的相似度值得分,并与训练数据中标注的相似度值进行比较,误差值通过反向传播到多粒度卷积神经网络模型的卷积层和池化层,对模型进行更新。
卷积神经网络一般将卷积-池化后的特征向量直接输入全连接层。本方法针对短文本相似度计算任务,在池化层与全连接层中间加入相似度计算层。相似度计算层主要完成两段短文特征向量相似度度量,生成两段短文本的相似度向量。在全连接层中使用Softmax函数进行映射。vi表示V中的第i个元素,vj表示V中第j个元素,则
其中,si表示元素vi的Softmax值。Softmax函数将相似度向量中多个特征映射到(0,1)区间,并且映射后的特征值相加为1。经过Softmax函数处理,每一个映射后的特征值即可视为概率,从而可以获得多个相似度分数的概率,取其中最大值作为两个样本的相似度值,并将与训练数据中标注的相似度值的误差通过反向传播到多粒度卷积神经网络模型,对模型进行更新。
多粒度卷积神经网络模型训练完成后,即可进行短文本相似度计算,计算步骤包括:
8)将需要计算相似度的两段短文本,输入到经过训练的多粒度卷积神经网络模型中,则在全连接层输出相似度值。
本领域的技术人员应当理解,此处所述的具体实施方案仅用解释本发明专利,并不用于限制本发明专利。在本发明专利的精神和原则之内作出的任何修改、等同替换和改进等,均应包含在本发明专利的保护范围之中。
Claims (6)
1.一种基于多维卷积特征的短文本相似度计算方法,其特征在于:所述方法包括训练步骤和计算步骤,所述训练步骤包括:
1)使用业内开放的标准短文本数据集作为训练数据;
2)利用训练数据,构建多粒度卷积神经网络模型,所述多粒度卷积神经网络模型包括输入层、卷积层、池化层、相似度计算层和全连接层;
3)在所述多粒度卷积神经网络模型的输入层输入用于短文本相似度计算的两个训练样本AS和BS,利用开源Skip-Gram模型进行处理,获得各自的词向量矩阵AM和BM;
4)对于两个训练样本的词向量矩阵AM和BM,在多粒度卷积神经网络模型卷积层进行多粒度卷积操作,提取各自的特征向量ALh和BLh,其中,h表示不同结构的卷积核个数;
5)对两个训练样本的特征向量ALh和BLh,在多粒度卷积神经网络模型的池化层使用K-Block-Max池化和平均池化方法完成二次特征向量AOlh和BOlh的提取,l表示使用的池化方式个数;
6)对两个训练样本AS和BS的二次特征向量AOlh和BOlh,在多粒度卷积神经网络模型的相似度计算层使用融合方向与距离的计算方法得到两个训练样本的相似度向量;
7)在多粒度卷积神经网络模型的全连接层计算两个训练样本的相似度值,并与训练数据中标注的相似度值进行比较,误差值通过反向传播到多粒度卷积神经网络模型的卷积层和池化层,对模型进行更新;
所述计算步骤包括:
8)将需要计算相似度的两段短文本,输入到经过训练的多粒度卷积神经网络模型中,则在全连接层输出相似度值。
2.根据权利要求1所述的基于多维卷积特征的短文本相似度计算方法,其特征在于:所述步骤3)中针对两个训练样本AS和BS,分别进行如下处理:
32)载入利用开源Skip-Gram模型获得的词向量表WordVectors;
33)依次判断Arr中每个词语wj(j=1,2,...n1)是否在词向量表WordVectors中,如果在,则将词语wj(j=1,2,...n1)的词向量WordVectors[wj]放入词向量矩阵AM;如果不在,就将生僻词词向量WordVectors[unknown]放入词向量矩阵AM;
34)重复执行步骤33),直到训练样本中的每个词语都转化完毕;
35)返回训练样本AS的词向量矩阵AM,AM是n1×k的矩阵,其中n1表示样本AS分词后词语个数,k表示词向量维度;
36)利用同样的方法,对训练样本BS做31)~35)同样的处理,并返回它的词向量矩阵BN,BN是n2×k的矩阵,其中n2表示样本BS分词后词语个数,k表示词向量维度。
3.根据权利要求1所述的基于多维卷积特征的短文本相似度计算方法,其特征在于:所述步骤4)在多粒度卷积神经网络模型卷积层设计三种不同结构的卷积核以便从词语的不同组合粒度中提取短文本特征,三种卷积核结构为h×k,其中:h=1,2,3,对于这三种卷积核,每次卷积运算时结合的词语个数分别是1,2,3个,k表示词向量维度。
4.根据权利要求1述的基于多维卷积特征的短文本相似度计算方法,其特征在于:所述步骤5)的具体处理包括:
51)对于两个训练样本在卷积层提取的特征向量ALh和BLh,初始化其分块数p=0与每分块取得的特征个数m=0;
52)判断若特征向量ALh长度小于3或者特征向量BLh长度小于3,将p赋值为1,m赋值为1;否则取特征向量ALh和BLh长度中的最小值l将其除以3赋值给p,m赋值为2;
53)依据分块数p值将特征向量ALh和BLh分块,并依据特征个数m值取特征值;
54)分别利用K-Block-Max池化和平均池化方法,完成两个训练样本的二次特征向量AOlh和BOlh的提取,分别生成池化特征向量。
5.根据权利要求1所述的基于多维卷积特征的短文本相似度计算方法,其特征在于:所述步骤6)中两个训练样本AS和BS的相似度向量计算,是对于5)中获得的6种池化特征向量AOlh和BOlh,进行如下处理:
61)设X,Y分别表示任意一个池化特征向量AOlh和BOlh(l=1,2,h=1,2,3),并且X=(x1,x2,...,xn),Y=(y1,y2,...,yn)(n表示每个特征向量中的特征项个数),利用改进的余弦相似度计算X,Y在方向上相似度值Simc(X,Y),
62)利用欧式距离计算X,Y在距离上相似度值Simd(X,Y),
63)融合方向与距离计算X,Y的相似度Sim(X,Y),
Sim(X,Y)=Simc(X,Y)*Simd(X,Y)
64)利用61)~63)所述方法,对所有池化特征向量AOlh和BOlh,对应求相似度,获得相似度向量V。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811100976.0A CN109299462B (zh) | 2018-09-20 | 2018-09-20 | 基于多维卷积特征的短文本相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811100976.0A CN109299462B (zh) | 2018-09-20 | 2018-09-20 | 基于多维卷积特征的短文本相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299462A CN109299462A (zh) | 2019-02-01 |
CN109299462B true CN109299462B (zh) | 2022-11-29 |
Family
ID=65163920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811100976.0A Active CN109299462B (zh) | 2018-09-20 | 2018-09-20 | 基于多维卷积特征的短文本相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299462B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978072A (zh) * | 2019-04-03 | 2019-07-05 | 青岛伴星智能科技有限公司 | 一种基于深度学习的字符比对方法和比对系统 |
CN110134965B (zh) * | 2019-05-21 | 2023-08-18 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110298037B (zh) * | 2019-06-13 | 2023-08-04 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110348014B (zh) * | 2019-07-10 | 2023-03-24 | 电子科技大学 | 一种基于深度学习的语义相似度计算方法 |
CN111460827B (zh) * | 2020-04-01 | 2020-12-15 | 北京爱咔咔信息技术有限公司 | 文本信息处理方法、系统、设备及计算机可读存储介质 |
CN111797589B (zh) * | 2020-05-29 | 2024-10-18 | 华为技术有限公司 | 一种文本处理网络、神经网络训练的方法以及相关设备 |
CN111723572B (zh) * | 2020-06-12 | 2021-11-19 | 广西师范大学 | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 |
CN113762301A (zh) * | 2020-07-01 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 信息匹配模型的训练、信息匹配方法和装置 |
CN112149405B (zh) * | 2020-09-28 | 2023-10-10 | 西安工程大学 | 一种基于卷积神经网络的程序编译错误信息特征提取方法 |
CN114490396B (zh) * | 2022-01-27 | 2023-05-05 | 北京京航计算通讯研究所 | 一种软件测试需求挖掘方法和系统 |
CN114925157B (zh) * | 2022-03-07 | 2024-09-13 | 武汉理工大学 | 一种基于预训练模型的核电站维修经验文本匹配方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915386B (zh) * | 2015-05-25 | 2018-04-27 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN104834747B (zh) * | 2015-05-25 | 2018-04-27 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN107102989B (zh) * | 2017-05-24 | 2020-09-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
-
2018
- 2018-09-20 CN CN201811100976.0A patent/CN109299462B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109299462A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299462B (zh) | 基于多维卷积特征的短文本相似度计算方法 | |
CN107562812B (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
JP7360497B2 (ja) | クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム | |
CN112989708B (zh) | 一种基于lstm神经网络的测井岩性识别方法及系统 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN109902714B (zh) | 一种基于多图正则化深度哈希的多模态医学图像检索方法 | |
CN107168955A (zh) | 利用基于词上下文的字嵌入与神经网络的中文分词方法 | |
CN107391495B (zh) | 一种双语平行语料的句对齐方法 | |
CN113688631B (zh) | 一种嵌套命名实体识别方法、系统、计算机和存储介质 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN110019795B (zh) | 敏感词检测模型的训练方法和系统 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN113779996A (zh) | 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 | |
CN111611395A (zh) | 一种实体关系的识别方法及装置 | |
CN112579783A (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN113780006B (zh) | 医学语义匹配模型的训练方法、医学知识匹配方法及装置 | |
Balaji et al. | Text summarization using NLP technique | |
CN115344695A (zh) | 一种基于领域bert模型的服务文本分类方法 | |
Bortnikova et al. | Search Query Classification Using Machine Learning for Information Retrieval Systems in Intelligent Manufacturing. | |
CN118397351A (zh) | 一种小样本分类方法、系统、介质及设备 | |
CN118227798A (zh) | 基于金融文本数据分类存储方法及系统 | |
CN114463587A (zh) | 一种异常数据检测方法、装置、设备及存储介质 | |
CN109446334A (zh) | 一种实现英文文本分类的方法及相关设备 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |