CN110287317A - 一种基于cnn-dbn的层次多标签医疗问题分类方法 - Google Patents
一种基于cnn-dbn的层次多标签医疗问题分类方法 Download PDFInfo
- Publication number
- CN110287317A CN110287317A CN201910490855.XA CN201910490855A CN110287317A CN 110287317 A CN110287317 A CN 110287317A CN 201910490855 A CN201910490855 A CN 201910490855A CN 110287317 A CN110287317 A CN 110287317A
- Authority
- CN
- China
- Prior art keywords
- layer
- classification
- input
- dbn
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 110
- 238000013459 approach Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 239000003814 drug Substances 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000013517 stratification Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002682 general surgery Methods 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 238000002406 microsurgery Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于CNN‑DBN的层次多标签医疗问题分类方法,属于计算机自然语言处理技术领域。本发明首先将构建好的词向量矩阵导入CNN中构建第一层卷积神经网络分类模型,再将第一层的分类输出概率向量拼接CNN抽取出的文本特征向量作为第二层标签分类器DBN的输入,根据CNN和DBN的分类结果调用基于SVM的底层分类器完成最终分类。最终模型提高了层次多标签分类的准确率。
Description
技术领域
本发明涉及一种基于CNN-DBN的层次多标签医疗问题分类方法,属于计算机自然语言处理技术领域。
背景技术
如今网络上存在着巨大数量的文本形式的资源,根据文本的内容将文本分到不同的类别对有效利用文本资源起到了巨大的作用。现实生活中分类问题的输出标签往往以层次结构组织构成层次化多标签分类问题,医疗问答以层次化标签树组织。这棵标签树中的节点分为两类,一类是底层节点,是最细粒度的类别标签,另一类是内部节点,它们最少有一个儿子节点,代表该类别标签下的一个或多个子类别标签。其中,第一层标签包括外科、内科、妇产科、儿科、皮肤性病科、中医科、五官科、其它科室8个类别标签,第二层标签包括普外科、骨科、神经外科、显微外科等57个类别标签,第三层包括肝胆外科、肛肠科、足踝外科等一共202个类别标签。
医层次分类主要使用局部方法和全局方法,局部方法可以使用任何分类器,并且可以组合不同的分类器,但是这种方法的缺点在于,高层次结构的错误随着层次结构向叶子节点遍历向叶子节点传播。相反的,全局方法避免了这种错误传播,并且计算更快,然而,全局方法难于实现并且全局方法不使用局部信息,而局部信息常用于区分类别层次。
医疗问题文本分类属于短文本分类短文本的分类问题相比长文本具有一定的难度,许多在长文本表现较好的方法在短文本上都会出现准确度大大下降的问题。如今针对短文本的分类方法大多都在如何解决文本的特征稀疏性上进行研究,主要方法有通过知识库等对短文本进行同近义词扩充,但其往往会引入一些无关特征,且没有考虑相关词语的语义。除此外还有通过各种方法对文本特征进行选择,抽取等操作,降低文本特征表示维度,这些方法往往只考虑了统计特征,同样忽略了文本的句法语义特征。随着深度学习的发展,深度模型有效地解决了传统机器学习方法存在的特征提取复杂,移植性差,短文本特征表示稀疏等问题。但由于深度模型过强的学习能力,Cheng(<Wide&Deep Learning forRecommender Systems>,2016)指出了深度模型对某些出现频率较低的特征难以学习到有效的特征向量表示,存在过于泛化的问题,浅层模型如SVM,线性模型等可以对出现次数较少的特征进行较好的学习,Cheng等人将逻辑回归模型与多层的感知机网络结合,提升了谷歌应用商店的软件应用推荐准确率。Silla(<A survey of hierarchical classicationacross dierent application domains,Data Mining and Knowledge Discovery>,2010)指出在同一层次上训练多个子分类器容易导致训练是过分关注局部信息而丢失重要的全局信息影响分类的准确性。
发明内容
本发明提供了一种基于CNN-DBN的层次多标签医疗问题分类方法,以用于针对医疗问答语料的特点,使用卷积神经网络结合深度信念网络作为高层节点的分类器以保持高层节点之间的依赖性,逐层训练分类器,避开了局部方法和全局方法的一些缺陷,提高了层次多标签分类的准确率。
本发明的技术方案是:一种基于CNN-DBN的层次多标签医疗问题分类方法,所述方法的具体步骤如下:
Step1、首先对医疗问题文本进行预处理,再利用处理好的问题文本构建词向量矩阵,作为卷积网络的输入;
Step2、将Step1构建好的词向量矩阵导入CNN中构建第一层卷积神经网络分类模型,为了更好地捕捉问题的文本特征,使用2,3,4三种不同长度卷积窗口的卷积核各两个,对词向量矩阵进行卷积计算,卷积核的宽度与词向量的维度相同,这种对句子的卷积操作可以捕获句子的局部特征;通过max-pooling层提取出每个特征中最具有代表性的特征组合后作为Softmax函数的输入,输出一个概率的分布,最后选取输出概率最大的三个类别标签作为第一层的分类输出;
Step3、在第二层标签分类时为了保持标签的层次信息和问句文本信息,使用Step2中第一层的分类输出概率向量拼接CNN抽取出的文本特征向量作为第二层标签分类器DBN的输入,逐层训练得出第二层的分类结果,同样的最后选取输出概率最大的三个类别标签作为第二层的分类输出;
Step4、经过Step2,Step3完成高层结点的分类后,再调用基于SVM的底层分类器完成分类,得到最终的分类结果。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、对医疗问题文本进行数据清洗,专业领域分词,停用词等预处理。
Step1.2、利用Step1.1处理好的问题文本构建词向量矩阵,矩阵的行数为句子中词的个数,列数为词向量的维度;
Step1.3、利用Step1.2中构建的词向量矩阵表示问题文本,作为卷积网络的输入。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、使用Step2中第一层的分类输出概率向量拼接CNN抽取出的文本特征向量作为第二层标签分类器DBN的输入,保持标签的层次信息和问句文本信息;
Step3.2、Step3.1输入后,逐层训练得出第二层的分类结果;
Step3.3、选取Step3.2输出概率最大的三个类别标签作为第二层的分类输出。
进一步地,所述第一层卷积神经网络分类模型由输入层、卷积层、池化层和softmax输出层组成;所述输入层,卷积网络的输入是用词向量矩阵表示的问句句子,矩阵的行数为句子中词的个数,列数为词向量的维度;所述卷积层,为了卷积出更具代表性的特征,用2,3,4三种不同长度卷积窗口的卷积核各两个,对词向量矩阵进行卷积计算;所述池化层,在池化操作时本发明使用max-pooling操作抽取出最具有代表性的特征;所述softmax输出层,将输入的最终的特征值进行组合后通过全连接的方式输入到Softmax层中得到最终的分类结果,并且在全连接部分使用Dropout减少过拟合;所述第二层标签分类器DBN使用一个两层RBM构成的深度信念网络作为第二层节点分类器,DBN模型一共有四层,使用卷积神经网络的输出层y1和文本特征向量X结合作为可视层同时也是模型的输入层v0,h1和h2对应模型的两个隐藏层,两个相邻的层被视为一个RBM。
本发明的有益效果是:
1、在高层节点部分,使用卷积神经网络的输出层y1和文本特征向量X结合作为可视层同时也是模型的输入层v0,这样不仅在层次分类时保存了标签之间的层次结构,并且保证了文本局部信息不丢失;
2、针对医疗问答中叶子节点中在某些标签下的样本较多而另一些标签下的样本较少的特点,本发明使用SVM作为底层节点的分类器。
综上,这种基于卷积神经网络结合深度信念网络的层次多标签医疗问题分类方法,针对了医疗问答语料的特点,结合深度学习和传统机器各自的优点,通过使用逐层训练分类器的策略,避开了局部方法和全局方法的一些缺陷,与全局方法不同,在第一层使用卷积神经网络作为分类器可以捕获局部信息。除此之外,相较于局部分类器每一个节点都训练一个分类器的方法,我们没有将原始分类问题转化为大量的子分类问题,解决了在同一层次上训练多个子分类器容易导致训练是过分关注局部信息而丢失重要的全局信息影响分类的准确性的问题。最终模型提高了层次多标签问题分类的准确率。
附图说明
图1为本发明模型的结构图;
图2为本发明中医疗问答层次化标签树组织图;
图3为本发明中深度信念网络模型参数分析图。
具体实施方式
实施例1:如图1-3所示,一种基于CNN-DBN的层次多标签医疗问题分类方法,所述方法的具体步骤如下:
Step1、首先对医疗问题文本进行预处理,再利用处理好的问题文本构建词向量矩阵,作为卷积网络的输入;
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、对医疗问题文本进行数据清洗,专业领域分词,停用词等预处理;
本发明对医疗问答语料进行数据清洗,分词,去特殊符号和停用词等预处理,分词时引入专业医疗领域的词库,为了保证模型生成答案的可读性本发明只对问题做停用词处理。
Step1.2、利用Step1.1处理好的问题文本构建词向量矩阵,矩阵的行数为句子中词的个数,列数为词向量的维度;
为了将文本内容转换成计算机能计算的表示形式,本发明利用word2vec来训练词向量。为每一个文本生成三个类别标签向量,将属于此类别的标记为1,其它标记为0。
Step1.3、利用Step1.2中构建的词向量矩阵表示问题文本,作为卷积网络的输入。
由于词向量的维度过大会增加词之间的区分度,较小的维度会使得其相关性更大,本发明在词与词之间的区分度和相关性之间进行折中选取,将每个词的词向量设置为200维。
Step2、将Step1构建好的词向量矩阵导入CNN中构建第一层卷积神经网络分类模型,为了更好地捕捉问题的文本特征,使用2,3,4三种不同长度卷积窗口的卷积核各两个,对词向量矩阵进行卷积计算,卷积核的宽度与词向量的维度相同,这种对句子的卷积操作可以捕获句子的局部特征;通过max-pooling层提取出每个特征中最具有代表性的特征组合后作为Softmax函数的输入,输出一个概率的分布,最后选取输出概率最大的三个类别标签作为第一层的分类输出;
本发明的模型使用goole的tensorflow实现,模型参数如下所述,在卷积网络部分,卷积核设置为128个,卷积窗口长度设置为2,3,4三种。模型训练循环迭代次数设置为200次。卷积计算公式为:ci=Relu(∑W*x+bias)其中,bias为偏置向,选用Relu非线性函数作为激活函数。
本发明通过max-pooling层提取出每个特征中最具有代表性的特征,最后通过Softmax全连接层,将输入的最终的特征值进行组合后通过全连接的方式输入到Softmax层中得到最终的分类结果,并且在全连接部分使用Dropout减少过拟合。Softmax函数接收这个特征向量作为输入,输出一个概率的分布。
Step3、在第二层标签分类时为了保持标签的层次信息和问句文本信息,使用Step2中第一层的分类输出概率向量拼接CNN抽取出的文本特征向量作为第二层标签分类器DBN的输入,逐层训练得出第二层的分类结果,同样的最后选取输出概率最大的三个类别标签作为第二层的分类输出;
进一步地,所述第一层卷积神经网络分类模型由输入层、卷积层、池化层和softmax输出层组成;所述输入层,卷积网络的输入是用词向量矩阵表示的问句句子,矩阵的行数为句子中词的个数,列数为词向量的维度;所述卷积层,为了卷积出更具代表性的特征,用2,3,4三种不同长度卷积窗口的卷积核各两个,对词向量矩阵进行卷积计算;所述池化层,在池化操作时本发明使用max-pooling操作抽取出最具有代表性的特征;所述softmax输出层,将输入的最终的特征值进行组合后通过全连接的方式输入到Softmax层中得到最终的分类结果,并且在全连接部分使用Dropout减少过拟合;所述第二层标签分类器DBN使用一个两层RBM构成的深度信念网络作为第二层节点分类器,DBN模型一共有四层,使用卷积神经网络的输出层y1和文本特征向量X结合作为可视层同时也是模型的输入层v0,h1和h2对应模型的两个隐藏层,两个相邻的层被视为一个RBM。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、使用Step2中第一层的分类输出概率向量拼接CNN抽取出的文本特征向量作为第二层标签分类器DBN的输入,保持标签的层次信息和问句文本信息;
本发明使用一个两层RBM构成的深度信念网络作为第二层节点分类器,DBN模型一共有四层,使用卷积神经网络的输出层y1和文本特征向量X结合作为可视层同时也是模型的输入层v0这样不仅在层次分类时保存了标签之间的层次结构并且保证了文本局部信息不丢失,这里标签层是模型的输出层对应模型预测的标签输出。h1和h2对应模型的两个隐藏层,最后一个隐藏层的输出作为Softmax函数的输入。W1,W2和W3分别对应层间的连接权重。设置深度信念网络的隐藏层为200维,相同层间的节点间不连接,不同层之间节点全连接,这就对应了医疗分类标签相同层次的类别标签相互独立的特点。隐藏层h和下一个RBM的可视层v1计算公式如下所示:
h1=(W·v0+b)
v1=(WT·h1+a)
隐藏层第j个神经元被开启的概率为
首先产生一个[0,1]上的阈值rj,根据计算的概率分布确定隐藏层神经元是否开启,如公式XX所示:
然后我们利用h1重构下一个RBM的可见层,计算公式如下所示:
通过逐层的迭代训练最终可以得到新的权重和偏置如公式如下所示:
b←b+λ[p(h1=1|v0)-p(h2=1|v1)]
a←a+λ[v0-v1]
其中λ为学习率,W为权重向量,a为可见层的偏置向量,b为隐藏层偏置变量。
Step3.2、Step3.1输入后,逐层训练得出第二层的分类结果;
本发明中DBN可以使用一部分标记数据在训练过程中进行微调,通过全局优化获得更准确的模型。在训练时我们首先充分训练第一个RBN,为了充分利用标签的信息在训练顶层的RBM时,RBM的可视层中除了显性神经元,还设置代表分类标签的神经元一起训练。两个相邻的层被视为一个RBM。逐层训练RBM,上一层RBM的输出作为下一层RBM的输入数据并初始化DBN的网络参数。
最终将RBM的输出作为softmax回归分类器的输入数据,得到最终的输出结果接下来使用全局监督反向传播算法来进一步优化和调整网络的自上而下方向的相关参数。这里采用最小均方误差准则的反向误差传播算法来更新整个网络参数,损失函数公式如下所示:
其中表示网络模型的输出,yi表示真实的输出,i为样本索引,(Wl,bl)表示在第1层的权重和偏置参数。最终使用梯度下降法来更新网络的权重和偏置参数。
Step3.3、选取Step3.2输出概率最大的三个类别标签作为第二层的分类输出。
Step4、经过Step2,Step3完成高层结点的分类后,再调用基于SVM的底层分类器完成分类,得到最终的分类结果。
多标签学习系统中的性能评价指标与经典的单标签学习问题中不同,在多标签学习中,评估会更加复杂,常用的评估标准有:
(1)汉明损失(Hamming loss)
汉明损失反映了被误分类的样本-标签对的个数。汉明损失定义如下所示:
其中Δ代表预测标签集合和真实标签集合的对称差异,实际上就是统计真实标签没有出现在预测标签集中的次数,i为样本索引。Hloss的值越小,代表分类器性能越好。
(2)准确率(Accuracy):
对于第i个样本来说,代表分类器预测的标签集与真实标签集的交集,代表分类器预测的标签与真实标签集的并集。由此可见准确率的值越大代表分类器的性能也就越好
(3)F值(F-measure)
F-measure能较好的平衡分类器对不同类别是精度和召回的调和平均,能比较好地平衡分类器对不同实例在不同类上的表现,因此更适合于不平衡的数据。
F-measure的值越大表明分类器的性能越好。F-measure定义为:
为了验证模型对于医疗问题文本分类的效果,文本通过爬虫从某公开医疗网站上爬取了45769条问题语料,通过对与医疗问答语料的分析可以看出医疗问题文本以层次化的类别标签组织,如图2所示,第一层标签包括外科、内科、妇产科、儿科、皮肤性病科、中医科、五官科、其它科室8个类别标签,第二层标签包括普外科、骨科、神经外科、显微外科等57个类别标签,第三层包括肝胆外科、肛肠科、足踝外科等一共202个类别标签。为了验证本发明所提模型的有效性,在对比实验时引入了层次多标签分类常用的两个数据集enron数据集和revlv2数据集的子集,试验数据集如表1所示:
表1
实验一:为了分析参数设置对深度信念网络模型的影响,对于第二层深度信念网络训练时,隐藏层神经元是否开启由计算得出的概率和阈值参数rj确定,对于参数rj设置其大小在[0,1]区间,设置对比实验参数为{0.0,0.02,0.04,…,1.0},从中选取最优值,实验结果如图3所示。由阈值参数对比可以看出,随着参数rj的逐渐增大平均分类精度逐渐提高经过一个峰值后平均分类精度又逐渐变低,由图可以看出参数rj的最佳区间为[0.54,0.64],实验得出最佳阈值参数rj为0.62。
实验二:对比HCNN,HSVM和CNN-DBN进行层次多标签分类的的效果及优缺点。HSVM:该算法针对每个标签结点训练一个二分类器自上而下训练HSVM模型,得出最后的分类结果;HCNN:该算法针对每层标签训练分类器,自上而下训练HCNN模型得出最后的分类结果。实验结果如下所示:
表2不同算法在所有数据集上的汉明损失对比
表3不同算法在所有数据集上的F-measure值
表4不同算法在所有数据集上的准确率
从表2汉明损失的对比中可以看出除了在医疗问答数据集上本发明所提出的CNN-DBN与HSVM和HCNN差别不大以外,本发明所提出的模型在其它数据集上相较于HSVM和HCNN都有着较好的表现。从表3 F-measure值的对比中可以看出,在所有的数据集上本发明所提出的模型都有着最优的表现,HSVM的表现次之。从表4不同算法在所有数据集上的准确率对比中,可以看出在准确率的对比上本发明所提出的模型有着较优的表现。相较于针对每个标签结点训练一个二分类器自上而下训练HSVM模型,本发明所提出的模型简单易于训练。相较于简单堆叠的HCNN,本发明提出的模型在每一层分类都考虑了文本特征信息,因此在所有评价指标上都有着较优表现。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.一种基于CNN-DBN的层次多标签医疗问题分类方法,其特征在于:所述方法的具体步骤如下:
Step1、首先对医疗问题文本进行预处理,再利用处理好的问题文本构建词向量矩阵,作为卷积网络的输入;
Step2、将Step1构建好的词向量矩阵导入CNN中构建第一层卷积神经网络分类模型,为了更好地捕捉问题的文本特征,使用2,3,4三种不同长度卷积窗口的卷积核各两个,对词向量矩阵进行卷积计算,卷积核的宽度与词向量的维度相同,这种对句子的卷积操作可以捕获句子的局部特征;通过max-pooling层提取出每个特征中最具有代表性的特征组合后作为Softmax函数的输入,输出一个概率的分布,最后选取输出概率最大的三个类别标签作为第一层的分类输出;
Step3、在第二层标签分类时为了保持标签的层次信息和问句文本信息,使用Step2中第一层的分类输出概率向量拼接CNN抽取出的文本特征向量作为第二层标签分类器DBN的输入,逐层训练得出第二层的分类结果,同样的最后选取输出概率最大的三个类别标签作为第二层的分类输出;
Step4、经过Step2,Step3完成高层结点的分类后,再调用基于SVM的底层分类器完成分类,得到最终的分类结果。
2.根据权利要求1所述的基于CNN-DBN的层次多标签医疗问题分类方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、对医疗问题文本进行数据清洗,专业领域分词,停用词等预处理;
Step1.2、利用Step1.1处理好的问题文本构建词向量矩阵,矩阵的行数为句子中词的个数,列数为词向量的维度;
Step1.3、利用Step1.2中构建的词向量矩阵表示问题文本,作为卷积网络的输入。
3.根据权利要求1所述的基于CNN-DBN的层次多标签医疗问题分类方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、使用Step2中第一层的分类输出概率向量拼接CNN抽取出的文本特征向量作为第二层标签分类器DBN的输入,保持标签的层次信息和问句文本信息;
Step3.2、Step3.1输入后,逐层训练得出第二层的分类结果;
Step3.3、选取Step3.2输出概率最大的三个类别标签作为第二层的分类输出。
4.根据权利要求1或3所述的基于CNN-DBN的层次多标签医疗问题分类方法,其特征在于:所述第一层卷积神经网络分类模型由输入层、卷积层、池化层和softmax输出层组成;所述输入层,卷积网络的输入是用词向量矩阵表示的问句句子,矩阵的行数为句子中词的个数,列数为词向量的维度;所述卷积层,为了卷积出更具代表性的特征,用2,3,4三种不同长度卷积窗口的卷积核各两个,对词向量矩阵进行卷积计算;所述池化层,在池化操作时本发明使用max-pooling操作抽取出最具有代表性的特征;所述softmax输出层,将输入的最终的特征值进行组合后通过全连接的方式输入到Softmax层中得到最终的分类结果,并且在全连接部分使用Dropout减少过拟合;所述第二层标签分类器DBN使用一个两层RBM构成的深度信念网络作为第二层节点分类器,DBN模型一共有四层,使用卷积神经网络的输出层y1和文本特征向量X结合作为可视层同时也是模型的输入层v0,h1和h2对应模型的两个隐藏层,两个相邻的层被视为一个RBM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490855.XA CN110287317A (zh) | 2019-06-06 | 2019-06-06 | 一种基于cnn-dbn的层次多标签医疗问题分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490855.XA CN110287317A (zh) | 2019-06-06 | 2019-06-06 | 一种基于cnn-dbn的层次多标签医疗问题分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287317A true CN110287317A (zh) | 2019-09-27 |
Family
ID=68003481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910490855.XA Pending CN110287317A (zh) | 2019-06-06 | 2019-06-06 | 一种基于cnn-dbn的层次多标签医疗问题分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287317A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475648A (zh) * | 2020-03-30 | 2020-07-31 | 东软集团股份有限公司 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
CN111581300A (zh) * | 2020-05-09 | 2020-08-25 | 山东健康医疗大数据有限公司 | 一种基于健康医疗数据的标签矩阵构建及更新方法 |
CN111966823A (zh) * | 2020-07-02 | 2020-11-20 | 华南理工大学 | 一种面向标签噪声的图节点分类方法 |
CN112182218A (zh) * | 2020-09-30 | 2021-01-05 | 中国平安财产保险股份有限公司 | 文本数据的分类方法及装置 |
CN112241493A (zh) * | 2020-10-28 | 2021-01-19 | 浙江集享电子商务有限公司 | 商品检索方法、装置、计算机设备和存储介质 |
CN113139532A (zh) * | 2021-06-22 | 2021-07-20 | 中国地质大学(武汉) | 一种基于多输出分类模型的分类方法、计算机设备及介质 |
CN113821634A (zh) * | 2021-07-23 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 内容分类方法、装置、电子设备和存储介质 |
CN114880462A (zh) * | 2022-02-25 | 2022-08-09 | 北京百度网讯科技有限公司 | 医用文档的分析方法、装置、设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894018A (zh) * | 2016-03-29 | 2016-08-24 | 西安电子科技大学 | 基于深度多示例学习的极化sar图像分类方法 |
US20170032247A1 (en) * | 2015-07-31 | 2017-02-02 | Qualcomm Incorporated | Media classification |
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
CN108573068A (zh) * | 2018-05-02 | 2018-09-25 | 重庆邮电大学 | 一种基于深度学习的文本表示与分类方法 |
CN108764138A (zh) * | 2018-05-29 | 2018-11-06 | 南京信息工程大学 | 一种基于多维多粒度级联森林的高原地区云雪分类方法 |
-
2019
- 2019-06-06 CN CN201910490855.XA patent/CN110287317A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032247A1 (en) * | 2015-07-31 | 2017-02-02 | Qualcomm Incorporated | Media classification |
CN105894018A (zh) * | 2016-03-29 | 2016-08-24 | 西安电子科技大学 | 基于深度多示例学习的极化sar图像分类方法 |
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
CN108573068A (zh) * | 2018-05-02 | 2018-09-25 | 重庆邮电大学 | 一种基于深度学习的文本表示与分类方法 |
CN108764138A (zh) * | 2018-05-29 | 2018-11-06 | 南京信息工程大学 | 一种基于多维多粒度级联森林的高原地区云雪分类方法 |
Non-Patent Citations (1)
Title |
---|
S. ZHANG 等: "Learning Affective Video Features for Facial Expression Recognition via Hybrid Deep Learning", 《IEEE ACCESS》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475648A (zh) * | 2020-03-30 | 2020-07-31 | 东软集团股份有限公司 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
CN111475648B (zh) * | 2020-03-30 | 2023-11-14 | 东软集团股份有限公司 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
CN111581300A (zh) * | 2020-05-09 | 2020-08-25 | 山东健康医疗大数据有限公司 | 一种基于健康医疗数据的标签矩阵构建及更新方法 |
CN111966823A (zh) * | 2020-07-02 | 2020-11-20 | 华南理工大学 | 一种面向标签噪声的图节点分类方法 |
CN111966823B (zh) * | 2020-07-02 | 2022-04-22 | 华南理工大学 | 一种面向标签噪声的图节点分类方法 |
CN112182218A (zh) * | 2020-09-30 | 2021-01-05 | 中国平安财产保险股份有限公司 | 文本数据的分类方法及装置 |
CN112241493A (zh) * | 2020-10-28 | 2021-01-19 | 浙江集享电子商务有限公司 | 商品检索方法、装置、计算机设备和存储介质 |
CN113139532A (zh) * | 2021-06-22 | 2021-07-20 | 中国地质大学(武汉) | 一种基于多输出分类模型的分类方法、计算机设备及介质 |
CN113139532B (zh) * | 2021-06-22 | 2021-09-21 | 中国地质大学(武汉) | 一种基于多输出分类模型的分类方法、计算机设备及介质 |
CN113821634A (zh) * | 2021-07-23 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 内容分类方法、装置、电子设备和存储介质 |
CN114880462A (zh) * | 2022-02-25 | 2022-08-09 | 北京百度网讯科技有限公司 | 医用文档的分析方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287317A (zh) | 一种基于cnn-dbn的层次多标签医疗问题分类方法 | |
Araque et al. | A semantic similarity-based perspective of affect lexicons for sentiment analysis | |
CN109992783B (zh) | 中文词向量建模方法 | |
Heidarysafa et al. | Analysis of railway accidents' narratives using deep learning | |
Gens et al. | Discriminative learning of sum-product networks | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN110502749A (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN105808524A (zh) | 一种基于专利文献摘要的专利自动分类方法 | |
CN110097000A (zh) | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 | |
CN108595602A (zh) | 基于浅层模型与深度模型结合的问句文本分类方法 | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
Reyes-Galaviz et al. | A supervised gradient-based learning algorithm for optimized entity resolution | |
CN111460157A (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
Fu et al. | Visual cortex inspired CNN model for feature construction in text analysis | |
CN117725261A (zh) | 一种视频文本跨模态检索方法、装置、设备与介质 | |
Wei et al. | (Retracted) Image analysis and pattern recognition method of three-dimensional process in physical education teaching based on big data | |
CN113221531B (zh) | 一种多模型动态协同的语义匹配方法 | |
CN110489624A (zh) | 基于句子特征向量的汉越伪平行句对抽取的方法 | |
KR20230163983A (ko) | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 | |
Menon et al. | Improving ranking in document based search systems | |
CN116049349B (zh) | 基于多层次注意力和层次类别特征的小样本意图识别方法 | |
CN114692615B (zh) | 一种针对小语种的小样本意图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190927 |
|
RJ01 | Rejection of invention patent application after publication |