CN113449106A

CN113449106A - 一种基于att-cn的医疗文本分类方法及装置

Info

Publication number: CN113449106A
Application number: CN202110718147.4A
Authority: CN
Inventors: 章慧; 单黎明; 张发; 王文川; 陈浩霖; 刘冰涛
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-09-28

Abstract

本发明公开了一种基于ATT‑CN的医疗文本分类方法及装置，基于已构建好的人工实体标注的医疗文本标签数据，对医疗文本数据进行数据处理，首先采用结巴分词工具对获得的医疗文本进行分词处理，采用word2vec对分词后的医疗文本训练词向量模型并构建包含所有医疗文本数据词的汇表；其次，对标签数据集和医疗文本进行向量化和归一化操作并获得文本归一化后的语义特征；最后将医疗文本数据集划分为训练集和测试集，将训练集进行ATT‑CN分类训练，使用测试集对分类训练模型进行测试并获得分类结果。本发明方法适用于医疗文本分类领域能够对医疗文本准确的分类。

Description

一种基于ATT-CN的医疗文本分类方法及装置

技术领域

本发明属于文本分类技术领域，特别涉及一种基于ATT-CN的医疗文本分类方法。

背景技术

在文本分类技术领域中，研究者们从文本中的多元语法和语义之间的相似度，通过构建相似度模型并采用有监督机器学习和深度学习方法研究文本之间的关系，提高文本分类的准确度。

近年来，注意力机制被广泛的应用于深度学习的任务中。在人工智能领域，注意力机制也已成为神经网络的重要组成部分。2014年谷歌团队将循环神经网络引入注意力机制，并在图像分类任务中取得很好的效果。2017年，Ashish Vaswani等人在注意力机制的基础上提出了一种缩放点积和多头注意力机制，并在机器翻译的任务中取得较好结果。

胶囊神经网络是一种卷积神经网络的改进，为改变卷积神经网络的缺点(如平移不变性，特征丢失等)，2011年，Hinton等人提出“胶囊”的概念，Sara Sabour等人将胶囊定义为一组神经元，其活动向量的表示特定类型的实体(如对象或对象部分)的实例化参数，活动向量的长度表示实体存在的概率，方向表示实例化参数。一个简单的胶囊网络有输出层，卷积层，初级胶囊层，路由胶囊层，输出层。其中卷积层输出的特征图由初级胶囊层转化为向量胶囊，在初级胶囊层与全连接层由动态路由算法输出最终的结果。

在医疗文本分类问题中，已有论文基于特征选择和特征抽取通过聚类，分类来完成医疗文本的分类任务；由于医疗领域具有较多的专业术语，以及不同疾病之间的相似性以及语义相似性往往会造成医疗文本分类不准确，也有相关论文提出利用机器学习方法来挖掘医疗文本知识，结合医学领域知识构建词典便于更准确识别医学新词以及改进机器学习的文本分类算法。也有研究针对不同机器学习方法对医疗文本的分类研究，并研发出远程医疗机器人智能导诊系统，通过比较各种机器学习算法在医疗领域的分类效果，发现朴素贝叶斯算法用于疾病诊断算法的效果更好。以上研究都是基于传统的文本处理方法并结合机器学习算法，来实现文本分类。本发明基于注意力机制和胶囊网络，通过对医疗文本进行训练，优化网络结构，来提高医疗文本分类的准确度。

发明内容

发明目的：针对上述问题，本发明提出一种基于ATT-CN的医疗文本分类方法，通过引入注意力机制提高医疗专业词汇之间的关系，经实验证明可以提高医疗文本分类的准确度。

技术方案：本发明提出一种基于ATT-CN的医疗文本分类方法，具体包括以下步骤：

(1)对医疗文本数据预处理，得到人工实体标注的文本标签数据集L，医疗文本数据集T，使用结巴分词工具处理医疗文本数据集T后得到分词后的医疗文本数据集T₁；

(2)将T₁训练word2vec模型并构建词汇表，得到词向量模型M；将词汇表编号处理，对T₁向量化表示得到T₂，并将T₂归一化，得到数据集矩阵T₃；将与医疗文本对应的标签数据使用one-hot向量化，得到标签数据集L₁；

(3)构建ATT-CN医疗文本分类训练模型；

(4)将T₃和L₁分别都划分为训练集和测试集，将训练集输入到ATT-CN医疗文本分类训练模型，并将训练好的模型使用测试集进行测试，得到测试结果r，进而得到分类结果，然后由r计算得到分类准确率p。

进一步地，所述步骤(2)包括以下步骤：

(21)使用word2vec工具将步骤1预处理后的T₁进行词向量模型训练，得到词向量模型M；

(22)构建文本总词汇表，提取词向量模型M中的词汇并将词向量模型中的所有词写入vocab中，并对vocab进行编号处理；

(23)对医疗文本数据集和标签数据集向量化表示，得到与医疗文本对应的矩阵T₂，标签数据集采用one-hot独热编码，得到标签矩阵L₁。

(24)对向量化后的医疗文本矩阵T₂归一化表示，单个文本的长度为S；医疗文本数据集中嵌入已训练完成的词向量，得到文本数据矩阵T₃；

进一步地，所述步骤(3)包括以下步骤：

(31)ATT-CN的网络结构为输入层、注意力层、卷积层、初级胶囊层、路由胶囊层、全连接胶囊层和输出层；

(32)构建输入层Input，将每个医疗文本对步骤2中的词向量模型M实现词向量的映射，得到医疗文本特征图F₁，每个医疗文本矩阵T_S×V，其中S为单个文本的长度，V为词向量的维度；

(33)构建注意力层，根据注意力机制计算医疗文本特征，得到医疗文本注意力特征图F₂；

(34)将(32)和(33)得到的特征图合并为一个总医疗文本特征图F；

(35)构建卷积层，卷积层使用不同的卷积核尺寸提取医疗文本的多元语法特征

其中K₁为卷积核尺寸，B为过滤器的个数；

(36)构建初级胶囊层，其中胶囊以向量形式输出来取代卷积的标量输出特征检测器，如句子局部序列，单词之间的语义表示，生成的胶囊特征图为：

其中N为过滤器的个数，d是胶囊向量的维数；

(37)构建路由胶囊层，采用动态路由算法将初级胶囊层中的每个胶囊使用转换矩阵学习子胶囊与父胶囊之间的关系，通过路由协议进行路由，生成父胶囊；

(38)构建全连接胶囊层，将路由胶囊层的父胶囊平整为一个胶囊列表，并输入全连接胶囊层，通过动态路由算法，由转换矩阵分别将父胶囊转换为最终的分类胶囊及其概率；

(39)输出层，采用softmax分类器输医疗出文本对应标签的概率。

进一步地，所述步骤(4)包括以下步骤：

(41)划分数据集，将步骤2中的医疗文本数据T₂和标签集L₁分别按照8:2比例划分训练集和测试集，分别表示为train，test，train_label，test_label；

(42)设置训练轮次epoch以及批处理的轮次batch；

(43)训练医疗文本分类模型，将train,train_label输入ATT-CN网络进行训练，保存已训练完成的模型；

(44)将训练好的模型使用测试集进行测试，得到测试结果r，进而得到分类结果，然后由r计算得到分类准确率p；

(45)输出分类结果r和准确率p，优化模型参数进而完成ATT-CN医疗文本分类模型的构建。

进一步地，所述输入层，用来表示每个医疗文本中的词对应的预训练词向量；所述注意力层，用来强化输入层的医疗文本特征；所述卷积层，对输入层和注意力层文本特征进行卷积运算，通过不同的卷积核尺寸提取医疗文本多元语法特征F；所述初级胶囊层，卷积层输出的特征F，由初级胶囊层转化为子胶囊；所述路由胶囊层，根据路由算法将初级胶囊层的每个子胶囊转换为父胶囊；所述全连接胶囊层，将路由胶囊层中的胶囊平整为一个胶囊列表；所述输出层使用softmax函数获取文本分类到不同类别的概率。

基于相同的发明构思，本发明还提供一种基于ATT-CN的医疗文本分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述的基于ATT-CN的医疗文本分类方法。

有益效果：与现有技术相比，本发明的有益效果：本发明基于人工实体标注的标签数据集，利用ATT-CN网络模型进行训练使医疗文本数据能够准确分类，具体描述如下：本发明利用结巴分词技术对爬取的医疗文本数据进行分词，该分词技术内置专业词典，能够准确的对中文文本分词。利用预训练的词向量模型并结合ATT-CN网络进行有监督训练，实现医疗文本较高准确度的分类，减少了医疗行业工作人员的工作时长，提高了医疗文本分类效率。

附图说明

图1为本发明的流程图；

图2为文本预处理流程图；

图3为文本和标签向量化的流程图；

图4为构建ATT-CN网络流程图；

图5为ATT-CN网络训练和测试流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。为了方便说明，现将本发明涉及到的参数作以下说明，如表1所示：

表1参数说明表

本发明提供一种基于ATT-CN(Attention Capsule Network，注意力胶囊网络)的医疗文本分类方法，如图1所示，具体包括以下步骤：

步骤1：对医疗文本数据预处理，得到人工实体标注文本标签数据集L，文本数据集T，使用结巴分词工具处理文本数据集T后得到分词后的文本数据集T₁。具体方法如图2所示：

步骤1.1：获取医疗文本数据集和标签数据集，定义T为医疗文本数据集，L为标签数据集，对T进行数据清洗，包括去除重复数据，填补缺失数据。

步骤1.2：对步骤1.1清洗后的文本数据，使用结巴分词工具对T作分词处理，去除停用词以及非语言符号，得到预处理后医疗文本T₁。

步骤2：将T₁训练word2vec模型并构建词汇表，得到词向量模型M；将词汇表编号处理，对T₁向量化表示得到T₂，并将T₂归一化，得到数据集矩阵T₃，将文本对应的标签数据使用one-hot向量化，得到标签数据集L₁。具体方法如图3所示：

步骤2.1：使用word2vec工具将步骤1预处理后的T₁进行词向量模型训练，得到词向量模型M。

步骤2.2：构建文本总词汇表，提取词向量模型M中的词汇并将词向量模型中的所有词写入vocab中，并对vocab进行编号处理。

步骤2.3：对医疗文本数据集和标签数据集向量化表示，得到与医疗文本对应的矩阵T₂，标签数据集采用one-hot独热编码，得到标签矩阵L₁。

步骤2.4：对向量化后的医疗文本矩阵T₂归一化表示，单个文本的最大长度为S。医疗文本数据集中嵌入已训练完成的词向量，得到文本数据矩阵T₃。

步骤3：构建ATT-CN文本分类训练模型。具体方法如图4所示：

步骤3.1：ATT-CN具体的网络结构为输入层，注意力层，卷积层，初级胶囊层，路由胶囊层，全连接胶囊层，输出层。

第一层：输入层，用来表示每个医疗文本中的词对应的预训练词向量；

第二层：注意力层，用来强化输入层的医疗文本特征；

第三层：卷积层，对输入层和注意力层文本特征进行卷积运算，通过不同的卷积核尺寸提取医疗文本多元语法特征F；

第四层：初级胶囊层，卷积层输出的特征F，由初级胶囊层转化为子胶囊。

第五层：路由胶囊层，根据路由算法将初级胶囊层的每个子胶囊转换为父胶囊。

第六层：全连接胶囊层，将路由胶囊层中的胶囊平整为一个胶囊列表。

第七层：使用softmax函数获取文本分类到不同类别的概率。

步骤3.2：构建输入层Input，将每个医疗文本对步骤2中的词向量模型M实现词向量的映射，得到医疗文本特征图F₁，每个医疗文本矩阵T_S×V，其中S为文本长度，V为词向量的维度。

步骤3.3：构建注意力层，根据注意力机制计算医疗文本特征，得到医疗文本注意力特征图F₂。

步骤3.4：将步骤3.2和3.3得到的特征图合并为一个总医疗文本特征图F。

步骤3.5：构建卷积层，卷积层使用不同的卷积核尺寸提取医疗文本的多元语法特征

其中K₁为卷积核尺寸，B为过滤器的个数。

步骤3.6：构建初级胶囊层，其中胶囊以向量形式输出来取代卷积的标量输出特征检测器，如句子局部序列，单词之间的语义表示，生成的胶囊特征图为：

其中N为过滤器的个数，d是胶囊向量的维数。

步骤3.7：构建路由胶囊层，采用动态路由算法将初级胶囊层中的每个胶囊使用转换矩阵学习子胶囊与父胶囊之间的关系，通过路由协议进行路由，生成父胶囊。

步骤3.8：构建全连接胶囊层，将路由胶囊层的父胶囊平整为一个胶囊列表，并输入全连接胶囊层，通过动态路由算法，由转换矩阵分别将父胶囊转换为最终的分类胶囊及其概率。

步骤3.9：输出层，采用softmax分类器输医疗出文本对应标签的概率。

步骤4：将T₃和L₁划分为训练集和测试集，将测试集输入到ATT-CN训练分类模型，并将训练好的模型使用测试集进行预测，得到预测结果r,由r计算得到准确率p，进而得到分类结果。具体方法如图5所示：

步骤4.1：划分数据集，将步骤2中的医疗文本数据T₂和标签集L₁分别按照8:2比例划分训练集和测试集，分别表示为train，test，train_label，test_label。

步骤4.2：设置训练轮次epoch以及批处理的轮次batch。

步骤4.3：训练医疗文本分类模型，将train,train_label输入ATT-CN网络进行训练，保存已训练完成的模型。

步骤4.4：将训练好的模型使用测试集进行测试，得到测试结果r，进而得到分类结果，然后由r计算得到分类准确率p。

步骤4.5：输出分类结果r和准确率p，优化模型参数进而完成ATT-CN医疗文本分类模型的构建。

为了更好的说明本方法的有效性，通过对120000条医疗文本数据处理，利用word2vec训练医疗文本词向量模型，引入注意力机制提取医疗文本特征，结合胶囊网络对医疗文本数据集分类，基于ATT-CN医疗文本分类方法准确率相比较传统的机器学习和深度学习文本分类算法有显著提高，对120000条医疗文本分类的准确率达到了94.56％。

本发明创造性的提出了一种基于改进ATT-CN模型，通过增强文本特征来提高医疗文本分类的准确度的方法，经过多次对实验参数的调整，得到最优的医疗文本分类结果。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种基于ATT-CN的医疗文本分类方法，其特征在于，包括以下步骤：

(3)构建ATT-CN医疗文本分类训练模型；

2.根据权利要求1所述的基于ATT-CN的医疗文本分类方法，其特征在于，所述步骤(2)包括以下步骤：

3.根据权利要求1所述的基于ATT-CN的医疗文本分类方法，其特征在于，所述步骤(3)包括以下步骤：

(34)将(32)和(33)得到的特征图合并为一个总医疗文本特征图F；

其中K₁为卷积核尺寸，B为过滤器的个数；

其中N为过滤器的个数，d是胶囊向量的维数；

4.根据权利要求1所述的基于ATT-CN的医疗文本分类方法，其特征在于，所述步骤(4)包括以下步骤：

(42)设置训练轮次epoch以及批处理的轮次batch；

5.根据权利要求3所述的基于ATT-CN的医疗文本分类方法，其特征在于，所述输入层，用来表示每个医疗文本中的词对应的预训练词向量；所述注意力层，用来强化输入层的医疗文本特征；所述卷积层，对输入层和注意力层文本特征进行卷积运算，通过不同的卷积核尺寸提取医疗文本多元语法特征F；所述初级胶囊层，卷积层输出的特征F，由初级胶囊层转化为子胶囊；所述路由胶囊层，根据路由算法将初级胶囊层的每个子胶囊转换为父胶囊；所述全连接胶囊层，将路由胶囊层中的胶囊平整为一个胶囊列表；所述输出层使用softmax函数获取文本分类到不同类别的概率。

6.一种基于ATT-CN的医疗文本分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于ATT-CN的医疗文本分类方法。