CN113449106A - 一种基于att-cn的医疗文本分类方法及装置 - Google Patents

一种基于att-cn的医疗文本分类方法及装置 Download PDF

Info

Publication number
CN113449106A
CN113449106A CN202110718147.4A CN202110718147A CN113449106A CN 113449106 A CN113449106 A CN 113449106A CN 202110718147 A CN202110718147 A CN 202110718147A CN 113449106 A CN113449106 A CN 113449106A
Authority
CN
China
Prior art keywords
medical text
layer
capsule
text
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110718147.4A
Other languages
English (en)
Inventor
章慧
单黎明
张发
王文川
陈浩霖
刘冰涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202110718147.4A priority Critical patent/CN113449106A/zh
Publication of CN113449106A publication Critical patent/CN113449106A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于ATT‑CN的医疗文本分类方法及装置,基于已构建好的人工实体标注的医疗文本标签数据,对医疗文本数据进行数据处理,首先采用结巴分词工具对获得的医疗文本进行分词处理,采用word2vec对分词后的医疗文本训练词向量模型并构建包含所有医疗文本数据词的汇表;其次,对标签数据集和医疗文本进行向量化和归一化操作并获得文本归一化后的语义特征;最后将医疗文本数据集划分为训练集和测试集,将训练集进行ATT‑CN分类训练,使用测试集对分类训练模型进行测试并获得分类结果。本发明方法适用于医疗文本分类领域能够对医疗文本准确的分类。

Description

一种基于ATT-CN的医疗文本分类方法及装置
技术领域
本发明属于文本分类技术领域,特别涉及一种基于ATT-CN的医疗文本分类方法。
背景技术
在文本分类技术领域中,研究者们从文本中的多元语法和语义之间的相似度,通过构建相似度模型并采用有监督机器学习和深度学习方法研究文本之间的关系,提高文本分类的准确度。
近年来,注意力机制被广泛的应用于深度学习的任务中。在人工智能领域,注意力机制也已成为神经网络的重要组成部分。2014年谷歌团队将循环神经网络引入注意力机制,并在图像分类任务中取得很好的效果。2017年,Ashish Vaswani等人在注意力机制的基础上提出了一种缩放点积和多头注意力机制,并在机器翻译的任务中取得较好结果。
胶囊神经网络是一种卷积神经网络的改进,为改变卷积神经网络的缺点(如平移不变性,特征丢失等),2011年,Hinton等人提出“胶囊”的概念,Sara Sabour等人将胶囊定义为一组神经元,其活动向量的表示特定类型的实体(如对象或对象部分)的实例化参数,活动向量的长度表示实体存在的概率,方向表示实例化参数。一个简单的胶囊网络有输出层,卷积层,初级胶囊层,路由胶囊层,输出层。其中卷积层输出的特征图由初级胶囊层转化为向量胶囊,在初级胶囊层与全连接层由动态路由算法输出最终的结果。
在医疗文本分类问题中,已有论文基于特征选择和特征抽取通过聚类,分类来完成医疗文本的分类任务;由于医疗领域具有较多的专业术语,以及不同疾病之间的相似性以及语义相似性往往会造成医疗文本分类不准确,也有相关论文提出利用机器学习方法来挖掘医疗文本知识,结合医学领域知识构建词典便于更准确识别医学新词以及改进机器学习的文本分类算法。也有研究针对不同机器学习方法对医疗文本的分类研究,并研发出远程医疗机器人智能导诊系统,通过比较各种机器学习算法在医疗领域的分类效果,发现朴素贝叶斯算法用于疾病诊断算法的效果更好。以上研究都是基于传统的文本处理方法并结合机器学习算法,来实现文本分类。本发明基于注意力机制和胶囊网络,通过对医疗文本进行训练,优化网络结构,来提高医疗文本分类的准确度。
发明内容
发明目的:针对上述问题,本发明提出一种基于ATT-CN的医疗文本分类方法,通过引入注意力机制提高医疗专业词汇之间的关系,经实验证明可以提高医疗文本分类的准确度。
技术方案:本发明提出一种基于ATT-CN的医疗文本分类方法,具体包括以下步骤:
(1)对医疗文本数据预处理,得到人工实体标注的文本标签数据集L,医疗文本数据集T,使用结巴分词工具处理医疗文本数据集T后得到分词后的医疗文本数据集T1
(2)将T1训练word2vec模型并构建词汇表,得到词向量模型M;将词汇表编号处理,对T1向量化表示得到T2,并将T2归一化,得到数据集矩阵T3;将与医疗文本对应的标签数据使用one-hot向量化,得到标签数据集L1
(3)构建ATT-CN医疗文本分类训练模型;
(4)将T3和L1分别都划分为训练集和测试集,将训练集输入到ATT-CN医疗文本分类训练模型,并将训练好的模型使用测试集进行测试,得到测试结果r,进而得到分类结果,然后由r计算得到分类准确率p。
进一步地,所述步骤(2)包括以下步骤:
(21)使用word2vec工具将步骤1预处理后的T1进行词向量模型训练,得到词向量模型M;
(22)构建文本总词汇表,提取词向量模型M中的词汇并将词向量模型中的所有词写入vocab中,并对vocab进行编号处理;
(23)对医疗文本数据集和标签数据集向量化表示,得到与医疗文本对应的矩阵T2,标签数据集采用one-hot独热编码,得到标签矩阵L1
(24)对向量化后的医疗文本矩阵T2归一化表示,单个文本的长度为S;医疗文本数据集中嵌入已训练完成的词向量,得到文本数据矩阵T3
进一步地,所述步骤(3)包括以下步骤:
(31)ATT-CN的网络结构为输入层、注意力层、卷积层、初级胶囊层、路由胶囊层、全连接胶囊层和输出层;
(32)构建输入层Input,将每个医疗文本对步骤2中的词向量模型M实现词向量的映射,得到医疗文本特征图F1,每个医疗文本矩阵TS×V,其中S为单个文本的长度,V为词向量的维度;
(33)构建注意力层,根据注意力机制计算医疗文本特征,得到医疗文本注意力特征图F2
(34)将(32)和(33)得到的特征图合并为一个总医疗文本特征图F;
(35)构建卷积层,卷积层使用不同的卷积核尺寸提取医疗文本的多元语法特征
Figure BDA0003135679890000031
其中K1为卷积核尺寸,B为过滤器的个数;
(36)构建初级胶囊层,其中胶囊以向量形式输出来取代卷积的标量输出特征检测器,如句子局部序列,单词之间的语义表示,生成的胶囊特征图为:
Figure BDA0003135679890000032
其中N为过滤器的个数,d是胶囊向量的维数;
(37)构建路由胶囊层,采用动态路由算法将初级胶囊层中的每个胶囊使用转换矩阵学习子胶囊与父胶囊之间的关系,通过路由协议进行路由,生成父胶囊;
(38)构建全连接胶囊层,将路由胶囊层的父胶囊平整为一个胶囊列表,并输入全连接胶囊层,通过动态路由算法,由转换矩阵分别将父胶囊转换为最终的分类胶囊及其概率;
(39)输出层,采用softmax分类器输医疗出文本对应标签的概率。
进一步地,所述步骤(4)包括以下步骤:
(41)划分数据集,将步骤2中的医疗文本数据T2和标签集L1分别按照8:2比例划分训练集和测试集,分别表示为train,test,train_label,test_label;
(42)设置训练轮次epoch以及批处理的轮次batch;
(43)训练医疗文本分类模型,将train,train_label输入ATT-CN网络进行训练,保存已训练完成的模型;
(44)将训练好的模型使用测试集进行测试,得到测试结果r,进而得到分类结果,然后由r计算得到分类准确率p;
(45)输出分类结果r和准确率p,优化模型参数进而完成ATT-CN医疗文本分类模型的构建。
进一步地,所述输入层,用来表示每个医疗文本中的词对应的预训练词向量;所述注意力层,用来强化输入层的医疗文本特征;所述卷积层,对输入层和注意力层文本特征进行卷积运算,通过不同的卷积核尺寸提取医疗文本多元语法特征F;所述初级胶囊层,卷积层输出的特征F,由初级胶囊层转化为子胶囊;所述路由胶囊层,根据路由算法将初级胶囊层的每个子胶囊转换为父胶囊;所述全连接胶囊层,将路由胶囊层中的胶囊平整为一个胶囊列表;所述输出层使用softmax函数获取文本分类到不同类别的概率。
基于相同的发明构思,本发明还提供一种基于ATT-CN的医疗文本分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的基于ATT-CN的医疗文本分类方法。
有益效果:与现有技术相比,本发明的有益效果:本发明基于人工实体标注的标签数据集,利用ATT-CN网络模型进行训练使医疗文本数据能够准确分类,具体描述如下:本发明利用结巴分词技术对爬取的医疗文本数据进行分词,该分词技术内置专业词典,能够准确的对中文文本分词。利用预训练的词向量模型并结合ATT-CN网络进行有监督训练,实现医疗文本较高准确度的分类,减少了医疗行业工作人员的工作时长,提高了医疗文本分类效率。
附图说明
图1为本发明的流程图;
图2为文本预处理流程图;
图3为文本和标签向量化的流程图;
图4为构建ATT-CN网络流程图;
图5为ATT-CN网络训练和测试流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。为了方便说明,现将本发明涉及到的参数作以下说明,如表1所示:
表1参数说明表
Figure BDA0003135679890000041
Figure BDA0003135679890000051
Figure BDA0003135679890000061
本发明提供一种基于ATT-CN(Attention Capsule Network,注意力胶囊网络)的医疗文本分类方法,如图1所示,具体包括以下步骤:
步骤1:对医疗文本数据预处理,得到人工实体标注文本标签数据集L,文本数据集T,使用结巴分词工具处理文本数据集T后得到分词后的文本数据集T1。具体方法如图2所示:
步骤1.1:获取医疗文本数据集和标签数据集,定义T为医疗文本数据集,L为标签数据集,对T进行数据清洗,包括去除重复数据,填补缺失数据。
步骤1.2:对步骤1.1清洗后的文本数据,使用结巴分词工具对T作分词处理,去除停用词以及非语言符号,得到预处理后医疗文本T1
步骤2:将T1训练word2vec模型并构建词汇表,得到词向量模型M;将词汇表编号处理,对T1向量化表示得到T2,并将T2归一化,得到数据集矩阵T3,将文本对应的标签数据使用one-hot向量化,得到标签数据集L1。具体方法如图3所示:
步骤2.1:使用word2vec工具将步骤1预处理后的T1进行词向量模型训练,得到词向量模型M。
步骤2.2:构建文本总词汇表,提取词向量模型M中的词汇并将词向量模型中的所有词写入vocab中,并对vocab进行编号处理。
步骤2.3:对医疗文本数据集和标签数据集向量化表示,得到与医疗文本对应的矩阵T2,标签数据集采用one-hot独热编码,得到标签矩阵L1
步骤2.4:对向量化后的医疗文本矩阵T2归一化表示,单个文本的最大长度为S。医疗文本数据集中嵌入已训练完成的词向量,得到文本数据矩阵T3
步骤3:构建ATT-CN文本分类训练模型。具体方法如图4所示:
步骤3.1:ATT-CN具体的网络结构为输入层,注意力层,卷积层,初级胶囊层,路由胶囊层,全连接胶囊层,输出层。
第一层:输入层,用来表示每个医疗文本中的词对应的预训练词向量;
第二层:注意力层,用来强化输入层的医疗文本特征;
第三层:卷积层,对输入层和注意力层文本特征进行卷积运算,通过不同的卷积核尺寸提取医疗文本多元语法特征F;
第四层:初级胶囊层,卷积层输出的特征F,由初级胶囊层转化为子胶囊。
第五层:路由胶囊层,根据路由算法将初级胶囊层的每个子胶囊转换为父胶囊。
第六层:全连接胶囊层,将路由胶囊层中的胶囊平整为一个胶囊列表。
第七层:使用softmax函数获取文本分类到不同类别的概率。
步骤3.2:构建输入层Input,将每个医疗文本对步骤2中的词向量模型M实现词向量的映射,得到医疗文本特征图F1,每个医疗文本矩阵TS×V,其中S为文本长度,V为词向量的维度。
步骤3.3:构建注意力层,根据注意力机制计算医疗文本特征,得到医疗文本注意力特征图F2
步骤3.4:将步骤3.2和3.3得到的特征图合并为一个总医疗文本特征图F。
步骤3.5:构建卷积层,卷积层使用不同的卷积核尺寸提取医疗文本的多元语法特征
Figure BDA0003135679890000071
其中K1为卷积核尺寸,B为过滤器的个数。
步骤3.6:构建初级胶囊层,其中胶囊以向量形式输出来取代卷积的标量输出特征检测器,如句子局部序列,单词之间的语义表示,生成的胶囊特征图为:
Figure BDA0003135679890000072
其中N为过滤器的个数,d是胶囊向量的维数。
步骤3.7:构建路由胶囊层,采用动态路由算法将初级胶囊层中的每个胶囊使用转换矩阵学习子胶囊与父胶囊之间的关系,通过路由协议进行路由,生成父胶囊。
步骤3.8:构建全连接胶囊层,将路由胶囊层的父胶囊平整为一个胶囊列表,并输入全连接胶囊层,通过动态路由算法,由转换矩阵分别将父胶囊转换为最终的分类胶囊及其概率。
步骤3.9:输出层,采用softmax分类器输医疗出文本对应标签的概率。
步骤4:将T3和L1划分为训练集和测试集,将测试集输入到ATT-CN训练分类模型,并将训练好的模型使用测试集进行预测,得到预测结果r,由r计算得到准确率p,进而得到分类结果。具体方法如图5所示:
步骤4.1:划分数据集,将步骤2中的医疗文本数据T2和标签集L1分别按照8:2比例划分训练集和测试集,分别表示为train,test,train_label,test_label。
步骤4.2:设置训练轮次epoch以及批处理的轮次batch。
步骤4.3:训练医疗文本分类模型,将train,train_label输入ATT-CN网络进行训练,保存已训练完成的模型。
步骤4.4:将训练好的模型使用测试集进行测试,得到测试结果r,进而得到分类结果,然后由r计算得到分类准确率p。
步骤4.5:输出分类结果r和准确率p,优化模型参数进而完成ATT-CN医疗文本分类模型的构建。
基于相同的发明构思,本发明还提供一种基于ATT-CN的医疗文本分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的基于ATT-CN的医疗文本分类方法。
为了更好的说明本方法的有效性,通过对120000条医疗文本数据处理,利用word2vec训练医疗文本词向量模型,引入注意力机制提取医疗文本特征,结合胶囊网络对医疗文本数据集分类,基于ATT-CN医疗文本分类方法准确率相比较传统的机器学习和深度学习文本分类算法有显著提高,对120000条医疗文本分类的准确率达到了94.56%。
本发明创造性的提出了一种基于改进ATT-CN模型,通过增强文本特征来提高医疗文本分类的准确度的方法,经过多次对实验参数的调整,得到最优的医疗文本分类结果。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (6)

1.一种基于ATT-CN的医疗文本分类方法,其特征在于,包括以下步骤:
(1)对医疗文本数据预处理,得到人工实体标注的文本标签数据集L,医疗文本数据集T,使用结巴分词工具处理医疗文本数据集T后得到分词后的医疗文本数据集T1
(2)将T1训练word2vec模型并构建词汇表,得到词向量模型M;将词汇表编号处理,对T1向量化表示得到T2,并将T2归一化,得到数据集矩阵T3;将与医疗文本对应的标签数据使用one-hot向量化,得到标签数据集L1
(3)构建ATT-CN医疗文本分类训练模型;
(4)将T3和L1分别都划分为训练集和测试集,将训练集输入到ATT-CN医疗文本分类训练模型,并将训练好的模型使用测试集进行测试,得到测试结果r,进而得到分类结果,然后由r计算得到分类准确率p。
2.根据权利要求1所述的基于ATT-CN的医疗文本分类方法,其特征在于,所述步骤(2)包括以下步骤:
(21)使用word2vec工具将步骤1预处理后的T1进行词向量模型训练,得到词向量模型M;
(22)构建文本总词汇表,提取词向量模型M中的词汇并将词向量模型中的所有词写入vocab中,并对vocab进行编号处理;
(23)对医疗文本数据集和标签数据集向量化表示,得到与医疗文本对应的矩阵T2,标签数据集采用one-hot独热编码,得到标签矩阵L1
(24)对向量化后的医疗文本矩阵T2归一化表示,单个文本的长度为S;医疗文本数据集中嵌入已训练完成的词向量,得到文本数据矩阵T3
3.根据权利要求1所述的基于ATT-CN的医疗文本分类方法,其特征在于,所述步骤(3)包括以下步骤:
(31)ATT-CN的网络结构为输入层、注意力层、卷积层、初级胶囊层、路由胶囊层、全连接胶囊层和输出层;
(32)构建输入层Input,将每个医疗文本对步骤2中的词向量模型M实现词向量的映射,得到医疗文本特征图F1,每个医疗文本矩阵TS×V,其中S为单个文本的长度,V为词向量的维度;
(33)构建注意力层,根据注意力机制计算医疗文本特征,得到医疗文本注意力特征图F2
(34)将(32)和(33)得到的特征图合并为一个总医疗文本特征图F;
(35)构建卷积层,卷积层使用不同的卷积核尺寸提取医疗文本的多元语法特征
Figure FDA0003135679880000021
其中K1为卷积核尺寸,B为过滤器的个数;
(36)构建初级胶囊层,其中胶囊以向量形式输出来取代卷积的标量输出特征检测器,如句子局部序列,单词之间的语义表示,生成的胶囊特征图为:
Figure FDA0003135679880000022
其中N为过滤器的个数,d是胶囊向量的维数;
(37)构建路由胶囊层,采用动态路由算法将初级胶囊层中的每个胶囊使用转换矩阵学习子胶囊与父胶囊之间的关系,通过路由协议进行路由,生成父胶囊;
(38)构建全连接胶囊层,将路由胶囊层的父胶囊平整为一个胶囊列表,并输入全连接胶囊层,通过动态路由算法,由转换矩阵分别将父胶囊转换为最终的分类胶囊及其概率;
(39)输出层,采用softmax分类器输医疗出文本对应标签的概率。
4.根据权利要求1所述的基于ATT-CN的医疗文本分类方法,其特征在于,所述步骤(4)包括以下步骤:
(41)划分数据集,将步骤2中的医疗文本数据T2和标签集L1分别按照8:2比例划分训练集和测试集,分别表示为train,test,train_label,test_label;
(42)设置训练轮次epoch以及批处理的轮次batch;
(43)训练医疗文本分类模型,将train,train_label输入ATT-CN网络进行训练,保存已训练完成的模型;
(44)将训练好的模型使用测试集进行测试,得到测试结果r,进而得到分类结果,然后由r计算得到分类准确率p;
(45)输出分类结果r和准确率p,优化模型参数进而完成ATT-CN医疗文本分类模型的构建。
5.根据权利要求3所述的基于ATT-CN的医疗文本分类方法,其特征在于,所述输入层,用来表示每个医疗文本中的词对应的预训练词向量;所述注意力层,用来强化输入层的医疗文本特征;所述卷积层,对输入层和注意力层文本特征进行卷积运算,通过不同的卷积核尺寸提取医疗文本多元语法特征F;所述初级胶囊层,卷积层输出的特征F,由初级胶囊层转化为子胶囊;所述路由胶囊层,根据路由算法将初级胶囊层的每个子胶囊转换为父胶囊;所述全连接胶囊层,将路由胶囊层中的胶囊平整为一个胶囊列表;所述输出层使用softmax函数获取文本分类到不同类别的概率。
6.一种基于ATT-CN的医疗文本分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于ATT-CN的医疗文本分类方法。
CN202110718147.4A 2021-06-28 2021-06-28 一种基于att-cn的医疗文本分类方法及装置 Pending CN113449106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110718147.4A CN113449106A (zh) 2021-06-28 2021-06-28 一种基于att-cn的医疗文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110718147.4A CN113449106A (zh) 2021-06-28 2021-06-28 一种基于att-cn的医疗文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN113449106A true CN113449106A (zh) 2021-09-28

Family

ID=77813171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110718147.4A Pending CN113449106A (zh) 2021-06-28 2021-06-28 一种基于att-cn的医疗文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN113449106A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、系统及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN110413781A (zh) * 2019-07-19 2019-11-05 淮阴工学院 一种基于LD和ANN-SoftMax Regressor的中医药短文本多分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN110413781A (zh) * 2019-07-19 2019-11-05 淮阴工学院 一种基于LD和ANN-SoftMax Regressor的中医药短文本多分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾旭东等: "基于多头注意力胶囊网络的文本分类模型", 《清华大学学报(自然科学版)》, vol. 60, no. 5, pages 415 - 421 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、系统及介质

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
Hu et al. Writer independent on-line handwriting recognition using an HMM approach
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
Paul et al. A modern approach for sign language interpretation using convolutional neural network
CN116340513A (zh) 一种基于标签与文本交互的多标签情感分类方法和系统
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN113449106A (zh) 一种基于att-cn的医疗文本分类方法及装置
Devi et al. Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN111858939A (zh) 一种基于上下文信息和卷积神经网络的文本情感分类方法
Nouhaila et al. Arabic sentiment analysis based on 1-D convolutional neural network
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
Sakib et al. Offline Bengali handwritten sentence recognition using BiLSTM and CTC networks
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination