CN114996461B - 医学不良事件文本分类方法、装置、电子设备及介质 - Google Patents
医学不良事件文本分类方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN114996461B CN114996461B CN202210839075.3A CN202210839075A CN114996461B CN 114996461 B CN114996461 B CN 114996461B CN 202210839075 A CN202210839075 A CN 202210839075A CN 114996461 B CN114996461 B CN 114996461B
- Authority
- CN
- China
- Prior art keywords
- tensor
- feature
- text
- adverse event
- medical adverse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013145 classification model Methods 0.000 claims abstract description 59
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 94
- 238000000605 extraction Methods 0.000 claims description 27
- 230000002411 adverse Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 230000003213 activating effect Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000017105 transposition Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000037403 Blood and lymphatic system disease Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000005374 Poisoning Diseases 0.000 description 1
- 208000032327 Respiratory, thoracic and mediastinal disease Diseases 0.000 description 1
- 208000019498 Skin and subcutaneous tissue disease Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 208000017520 skin disease Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种医学不良事件文本分类方法、装置、电子设备及介质,属于深度学习技术领域。所述方法包括:构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果。本发明构建的文本分类模型融合了深度金字塔卷积神经网络和循环卷积神经网络,可以基于深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果对医学不良事件文本进行有效分类。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种医学不良事件文本分类方法、装置、电子设备及介质。
背景技术
医学不良事件的管理在全世界范围内一直饱受关注,并成为医疗卫生发展领域一个重要的课题。医学不良事件管理的核心环节和首要环节为医学不良事件文本分类。由于医学不良事件的上报内容和形式尚无统一的规范,造成大量的医学不良事件文本中存在大量非结构化文本,这些文本分类特征不明显,这给医学不良事件文本分类任务增加了难度。
目前,现有技术提出了基于k最邻近分类算法(K-NearestNeighbor,KNN)等机器学习方法对结构化的医学不良事件文本进行分类,而对于非结构化的医学不良事件文本的分类,还尚未提出有效的解决方案。因此,亟需研发一种能够对医学不良事件文本进行有效分类的方案。
发明内容
本发明提供一种医学不良事件文本分类方法、装置、电子设备及介质,用以解决现有技术中对于非结构化的医学不良事件文本的分类,还尚未提出有效的解决方案的缺陷,可以实现基于深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果对医学不良事件文本进行有效分类。
本发明提供一种医学不良事件文本分类方法,包括:
构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果。
根据本发明提供的一种医学不良事件文本分类方法,所述文本分类模型还包括:词嵌入层;
所述将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果,包括:
将医学不良事件文本输入所述词嵌入层,得到医学不良事件文本语义向量;
将所述医学不良事件文本语义向量输入所述深度金字塔卷积神经网络中进行特征提取,得到第一特征张量;
将所述医学不良事件文本语义向量输入所述循环卷积神经网络中进行特征提取,得到第二特征张量;
将所述第一特征张量和所述第二特征张量进行特征拼接,得到第三特征张量;
将所述第三特征张量进行特征融合,得到特征融合张量;
将所述特征融合张量输入所述分类层,得到医学不良事件文本分类结果。
根据本发明提供的一种医学不良事件文本分类方法,所述将所述医学不良事件文本语义向量输入所述深度金字塔卷积神经网络中进行特征提取,得到第一特征张量,包括:
对所述医学不良事件文本语义向量的两端进行补零操作,得到第一张量;
对所述第一张量进行一次等长卷积操作,得到第二张量;
将所述第一张量与所述第二张量进行相加,得到第三张量;
对所述第三张量的两端进行补零操作,得到第四张量;
对所述第四张量进行一次等长卷积操作,得到第五张量;
将所述第四张量与所述第五张量进行相加,得到第六张量;
循环执行以下步骤,直至第一特征张量的长度为1:
将所述第六张量进行一次等长卷积操作,得到第七张量;其中,在循环次数大于一次时,将上一次得到的第一特征张量进行一次等长卷积操作,得到第七张量;
将所述第七张量进行1/2池化操作,得到第八张量;
将所述第八张量进行至少两次卷积操作,得到第九张量;
将所述第八张量和所述第九张量进行相加,得到第一特征张量。
根据本发明提供的一种医学不良事件文本分类方法,所述将所述医学不良事件文本语义向量输入所述循环卷积神经网络中进行特征提取,得到第二特征张量,包括:
将所述医学不良事件文本语义向量输入双向长短期记忆人工神经网络,得到左前后文向量和右前后文向量;
将所述左前后文向量、右前后文向量以及所述医学不良事件文本语义向量进行拼接,得到第十六张量;
将所述第十六张量进行激活操作,得到所述第十六张量的语义向量;
将所述语义向量进行维度交换;
将维度交换后的所述语义向量进行最大池化操作,得到第二特征张量。
根据本发明提供的一种医学不良事件文本分类方法,所述将所述第三特征张量进行特征融合,得到特征融合张量,包括:
将所述第三特征张量进行维度换位与线性变换,得到第十张量;
将所述第十张量进行激活操作,得到门控矩阵;
将所述第一特征张量输入第一全连接层,得到第十一张量;
将所述门控矩阵和所述第十一张量进行相乘,得到第十二张量;
所述第二特征张量输入第二全连接层,得到第十三张量;
将1减去所述门控矩阵的差值与所述第十三张量进行相乘,得到第十四张量;
将所述第十二张量与所述十四张量进行相加,得到第十五张量;
将所述第十五张量输入第三全连接层,得到特征融合张量。
根据本发明提供的一种医学不良事件文本分类方法,所述方法还包括:对原始医学不良事件文本数据进行包括数据清洗、中文分词、去停用词、索引表示以及截断与填充的预处理,得到所述医学不良事件文本。
本发明还提供一种医学不良事件文本分类装置,包括:
构建模块,用于构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
分类模块,用于将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的医学不良事件文本分类方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的医学不良事件文本分类方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医学不良事件文本分类方法。
本发明提供的一种医学不良事件文本分类方法、装置、电子设备及介质,由于构建的文本分类模型融合了深度金字塔卷积神经网络和循环卷积神经网络,将医学不良事件文本输入文本分类模型,基于深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果,可以对医学不良事件文本进行有效分类。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的医学不良事件文本分类方法的流程示意图;
图2是本发明提供的文本分类模型的示意图;
图3是本发明提供的医学不良事件文本分类装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2描述本发明的医学不良事件文本分类方法。
请参考图1,图1是本发明提供的医学不良事件文本分类方法的流程示意图。如图1所示,本发明提供的医学不良事件文本分类方法可以包括以下步骤:
步骤101、构建文本分类模型,文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,分类层用于基于深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
步骤102、将医学不良事件文本输入文本分类模型,经过文本分类模型处理后,获得医学不良事件文本分类结果。
在步骤101中,循环卷积神经网络(Recurrent Convolutional Neural Network,RCNN)在局部特征获取上具有相对优势,而深度金字塔卷积神经网络(Deep PyramidConvolutional Neural Networks,DPCNN)则在全局语义的获取上表现较好,二者优势互补。将深度金字塔卷积神经网络和循环卷积神经网络融合到文本分类模型中,能够获取到丰富多样的文本特征信息,尤其对于非结构化的医学不良事件文本,能够有效提升非结构化的医学不良事件文本的特征提取效果。
在步骤102中,医学不良事件指的是:与所施行的医学治疗或程序有时序关联性的任何不利或者非预期的事件,且事件与医学程序之间不一定有因果性。在将医学不良事件文本输入文本分类模型之前,对原始医学不良事件文本数据进行包括数据清洗、中文分词、去停用词、索引表示以及截断与填充的预处理,得到医学不良事件文本。
将医学不良事件文本输入文本分类模型,基于深度金字塔卷积神经网络和循环卷积神经网络得到特征融合结果,将特征融合结果输入分类层,可以对医学不良事件文本进行有效分类。
在本实施例中,由于构建的文本分类模型融合了深度金字塔卷积神经网络和循环卷积神经网络,将医学不良事件文本输入文本分类模型,基于深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果,可以对医学不良事件文本进行有效分类。
可选地,如图2所示,文本分类模型包括:词嵌入层1、深度金字塔卷积神经网络2、循环卷积神经网络3、特征拼接模块4、特征融合模块5和分类层6。
步骤102可以包括如下子步骤:
步骤1021、将医学不良事件文本输入词嵌入层,得到医学不良事件文本语义向量;
步骤1022、将医学不良事件文本语义向量输入深度金字塔卷积神经网络中进行特征提取,得到第一特征张量;
步骤1023、将医学不良事件文本语义向量输入循环卷积神经网络中进行特征提取,得到第二特征张量;
步骤1024、将第一特征张量和第二特征张量进行特征拼接,得到第三特征张量;
步骤1025、将第三特征张量进行特征融合,得到特征融合张量;
步骤1026、将特征融合张量输入分类层,得到医学不良事件文本分类结果。
在步骤1021中,可以采用BERT(Bidirectional Encoder Representation fromTransformers)预训练模型作为词嵌入层1,词嵌入层1用于将输入的医学不良事件文本映射成医学不良事件文本语义向量。通过BERT预训练模型得到的医学不良事件文本语义向量,考虑了上下文的语境,可以有效解决同一词在不同语境和文段中不同语义的问题。
在步骤1022中,深度金字塔卷积神经网络2通常使用区域嵌入来为模型生成词向量,但是区域嵌入不能对语义充分提取,并且由于将词向量都进行了压缩,可能导致共线的问题。为了解决上述问题,本实施例以BERT预训练模型生成的动态分布式文本表示(即医学不良事件文本语义向量)作为深度金字塔卷积神经网络2的输入。
将医学不良事件文本语义向量输入深度金字塔卷积神经网络2中进行特征提取,由于深度金字塔卷积神经网络在全局语义的获取上表现较好,提取的第一特征张量能够包含医学不良事件文本的全局语义信息。
在步骤1023中,将医学不良事件文本语义向量输入循环卷积神经网络3中进行特征提取,由于循环卷积神经网络3在局部特征获取上具有相对优势,提取的第二特征张量能够包含医学不良事件文本的局部特征。
在步骤1024中,将第一特征张量和第二特征张量输入特征拼接模块4,通过特征拼接得到第三特征张量。
在步骤1025中,将第三特征张量输入特征融合模块5,通过特征融合得到特征融合张量。
可选地,医学不良事件类别可以包括:感染和传染性疾病、一般病情与用药部位、皮肤和皮下组织疾病、肠胃道疾病、呼吸道、胸腔和纵隔疾病、创伤、中毒和操作并发症、医学检查、血液与淋巴系统疾病和神经系统疾病等。
在本实施例中,一方面,基于词嵌入层1将输入的医学不良事件文本映射成医学不良事件文本语义向量。考虑了上下文的语境,可以有效解决同一词在不同语境和文段中不同语义的问题;另一方面,将深度金字塔卷积神经网络和循环卷积神经网络融合到文本分类模型中,能够获取到丰富多样的文本特征信息,尤其对于非结构化的医学不良事件文本,能够有效提升非结构化的医学不良事件文本的特征提取效果。
可选地,上述步骤1022可以包括以下子步骤:
步骤10221、对医学不良事件文本语义向量的两端进行补零操作,得到第一张量,并对第一张量进行一次等长卷积操作,得到第二张量;
步骤10222、将第一张量与第二张量进行相加,得到第三张量;
步骤10223、对第三张量的两端进行补零操作,得到第四张量,并对第四张量进行一次等长卷积操作,得到第五张量;
步骤10224、将第四张量与第五张量进行相加,得到第六张量;
步骤10225、判断第一特征张量的长度是否为1,若否,执行步骤10226-步骤10229,若是,输出第一特征张量;
步骤10226、将第六张量进行一次等长卷积操作,得到第七张量;其中,在循环次数大于一次时,将上一次得到的第一特征张量进行一次等长卷积操作,得到第七张量;
步骤10227、将第七张量进行1/2池化操作,得到第八张量;
步骤10228、将第八张量进行至少两次卷积操作,得到第九张量;
步骤10229、将第八张量和第九张量进行相加,得到第一特征张量。
在步骤10221和10222中,对医学不良事件文本语义向量的两端进行补零操作,使得输入和输出的长度一致。如图2所示,对第一张量进行一次等长卷积操作,即对第一张量进行压缩和降维,得到第二张量。在本实施例中,可以将卷积的步长设置为3,每经过一次等长卷积操作,当前词位就能够获得相邻3个文本区域的语义信息。这样,就使每个词位包含了上下文信息,得到更加丰富的语义信息。如图2所示,将第一张量与第二张量进行相加,得到第三张量。
在步骤10223和10224中,对第三张量的两端进行补零操作,使得输入和输出的长度一致。如图2所示,对第四张量进行一次等长卷积操作,即对第四张量进行压缩和降维,得到第五张量。
在步骤10225中,循环执行步骤10226-步骤10229,直至第一特征张量的长度为1。
在步骤10227中,如图2所示,将第七张量输入1/2池化层,通过1/2池化操作使第七张量的长度L变为1/2L,得到第八张量,可以使模型能够感知到两倍于原本的文本片段。在具体实施中,1/2池化操作可以为1/2最大池化。
在步骤10228中,如图2所示,将第八张量输入两层卷积层进行两次卷积操作,得到第九张量。在具体实施中,卷积层的层数还可以大于两层。
如图2所示,设置两层卷积层和1/2池化层,可以使得每层的计算量呈倒三角趋势下降。
在本实施例中,一方面,通过等长卷积操作使每个词位包含了上下文信息,可以得到更加丰富的语义信息;另一方面,通过卷积层和1/2池化层,可以使得每层的计算量呈倒三角趋势下降。
可选地,上述步骤1023可以包括以下子步骤:
步骤10231、将医学不良事件文本语义向量输入双向长短期记忆人工神经网络,得到左前后文向量和右前后文向量;
步骤10232、将左前后文向量、右前后文向量以及医学不良事件文本语义向量进行拼接,得到第十六张量;
步骤10233、将第十六张量进行激活操作,得到第十六张量的语义向量;
步骤10234、将语义向量进行维度交换;
步骤10235、将维度交换后的语义向量进行最大池化操作,得到第二特征张量。
在步骤10232中,如图2所示,通过以下表达式将左前后文向量、右前后文向量以及医学不良事件文本语义向量进行拼接,得到第十六张量:
在步骤10233中,通过以下表达式将第六张量进行激活操作,得到第十六张量的语义向量:
在步骤10235中,如图2所示,将维度交换后的语义向量进行最大池化操作。具体地,可以通过以下表达式将维度交换后的语义向量进行最大池化操作,得到第二特征张量:
在本实施例中,将医学不良事件文本语义向量输入循环卷积神经网络3中,可以提取出医学不良事件文本的局部特征。
在步骤1024中,通过以下表达式将第一特征张量和第二特征张量进行特征拼接得到第三特征张量:
可选地,上述步骤1025可以包括以下子步骤:
步骤10251、将第三特征张量进行维度换位与线性变换,得到第十张量;
步骤10252、将第十张量进行激活操作,得到门控矩阵;
步骤10253、将第一特征张量输入第一全连接层,得到第十一张量;
步骤10254、将门控矩阵和第十一张量进行相乘,得到第十二张量;
步骤10255、第二特征张量输入第二全连接层,得到第十三张量;
步骤10256、将1减去门控矩阵的差值与第十三张量进行相乘,得到第十四张量;
步骤10257、将第十二张量与十四张量进行相加,得到第十五张量;
步骤10258、将第十五张量输入第三全连接层,得到特征融合张量。
在步骤10251中,通过以下表达式将第三特征张量进行维度换位与线性变换,得到第十张量:
在步骤10252中,通过以下表达式将第十张量进行激活操作,得到门控矩阵:
在步骤10257中,通过以下表达式将第十二张量与第十四张量进行相加,得到第十五张量:
在本实施例中,通过门控矩阵将深度金字塔卷积神经网络和循环卷积神经网络的特征提取结果进行特征融合,可以对医学不良事件文本进行有效分类。
下面对本发明提供的医学不良事件文本分类装置进行描述,下文描述的医学不良事件文本分类装置与上文描述的医学不良事件文本分类方法可相互对应参照。
请参照图3,图3是本发明提供的医学不良事件文本分类装置的结构示意图。如图3所示,本发明提供的医学不良事件文本分类装置可以包括:
构建模块10,用于构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
分类模块20,用于将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果。
可选地,所述文本分类模型还包括:词嵌入层;
分类模块20包括:
文本输入单元,用于将医学不良事件文本输入所述词嵌入层,得到医学不良事件文本语义向量;
第一特征提取单元,用于将所述医学不良事件文本语义向量输入所述深度金字塔卷积神经网络中进行特征提取,得到第一特征张量;
第二特征提取单元,用于将所述医学不良事件文本语义向量输入所述循环卷积神经网络中进行特征提取,得到第二特征张量;
特征拼接单元,用于将所述第一特征张量和所述第二特征张量进行特征拼接,得到第三特征张量;
特征融合单元,用于将所述第三特征张量进行特征融合,得到特征融合张量;
文本分类单元,用于将所述特征融合张量输入所述分类层,得到医学不良事件文本分类结果。
可选地,第一特征提取单元具体用于:
对所述医学不良事件文本语义向量的两端进行补零操作,得到第一张量;
对所述第一张量进行一次等长卷积操作,得到第二张量;
将所述第一张量与所述第二张量进行相加,得到第三张量;
对所述第三张量的两端进行补零操作,得到第四张量;
对所述第四张量进行一次等长卷积操作,得到第五张量;
将所述第四张量与所述第五张量进行相加,得到第六张量;
循环执行以下步骤,直至第一特征张量的长度为1:
将所述第六张量进行一次等长卷积操作,得到第七张量;其中,在循环次数大于一次时,将上一次得到的第一特征张量进行一次等长卷积操作,得到第七张量;
将所述第七张量进行1/2池化操作,得到第八张量;
将所述第八张量进行至少两次卷积操作,得到第九张量;
将所述第八张量和所述第九张量进行相加,得到第一特征张量。
可选地,第二特征提取单元具体用于:
将所述医学不良事件文本语义向量输入双向长短期记忆人工神经网络,得到左前后文向量和右前后文向量;
将所述左前后文向量、右前后文向量以及所述医学不良事件文本语义向量进行拼接,得到第十六张量;
将所述第十六张量进行激活操作,得到所述第十六张量的语义向量;
将所述语义向量进行维度交换;
将维度交换后的所述语义向量进行最大池化操作,得到第二特征张量。
可选地,特征融合单元具体用于:
将所述第三特征张量进行维度换位与线性变换,得到第十张量;
将所述第十张量进行激活操作,得到门控矩阵;
将所述第一特征张量输入第一全连接层,得到第十一张量;
将所述门控矩阵和所述第十一张量进行相乘,得到第十二张量;
所述第二特征张量输入第二全连接层,得到第十三张量;
将1减去所述门控矩阵的差值与所述第十三张量进行相乘,得到第十四张量;
将所述第十二张量与所述十四张量进行相加,得到第十五张量;
将所述第十五张量输入第三全连接层,得到特征融合张量。
可选地,所述装置还包括:
预处理模块,用于对原始医学不良事件文本数据进行包括数据清洗、中文分词、去停用词、索引表示以及截断与填充的预处理,得到所述医学不良事件文本。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行医学不良事件文本分类方法,该方法包括:
构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的医学不良事件文本分类方法,该方法包括:
构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的医学不良事件文本分类方法,该方法包括:
构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种医学不良事件文本分类方法,其特征在于,包括:
构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果;
其中,所述文本分类模型还包括:词嵌入层;
所述将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果,包括:
将医学不良事件文本输入所述词嵌入层,得到医学不良事件文本语义向量;
将所述医学不良事件文本语义向量输入所述深度金字塔卷积神经网络中进行特征提取,得到第一特征张量;
将所述医学不良事件文本语义向量输入所述循环卷积神经网络中进行特征提取,得到第二特征张量;
将所述第一特征张量和所述第二特征张量进行特征拼接,得到第三特征张量;
将所述第三特征张量进行特征融合,得到特征融合张量;
将所述特征融合张量输入所述分类层,得到医学不良事件文本分类结果;
其中,所述将所述医学不良事件文本语义向量输入所述深度金字塔卷积神经网络中进行特征提取,得到第一特征张量,包括:
对所述医学不良事件文本语义向量的两端进行补零操作,得到第一张量;
对所述第一张量进行一次等长卷积操作,得到第二张量;
将所述第一张量与所述第二张量进行相加,得到第三张量;
对所述第三张量的两端进行补零操作,得到第四张量;
对所述第四张量进行一次等长卷积操作,得到第五张量;
将所述第四张量与所述第五张量进行相加,得到第六张量;
循环执行以下步骤,直至第一特征张量的长度为1:
将所述第六张量进行一次等长卷积操作,得到第七张量;其中,在循环次数大于一次时,将上一次得到的第一特征张量进行一次等长卷积操作,得到第七张量;
将所述第七张量进行1/2池化操作,得到第八张量;
将所述第八张量进行至少两次卷积操作,得到第九张量;
将所述第八张量和所述第九张量进行相加,得到第一特征张量;
其中,所述将所述医学不良事件文本语义向量输入所述循环卷积神经网络中进行特征提取,得到第二特征张量,包括:
将所述医学不良事件文本语义向量输入双向长短期记忆人工神经网络,得到左前后文向量和右前后文向量;
将所述左前后文向量、右前后文向量以及所述医学不良事件文本语义向量进行拼接,得到第十六张量;
将所述第十六张量进行激活操作,得到所述第十六张量的语义向量;
将所述语义向量进行维度交换;
将维度交换后的所述语义向量进行最大池化操作,得到第二特征张量;
其中,所述将所述第三特征张量进行特征融合,得到特征融合张量,包括:
将所述第三特征张量进行维度换位与线性变换,得到第十张量;
将所述第十张量进行激活操作,得到门控矩阵;
将所述第一特征张量输入第一全连接层,得到第十一张量;
将所述门控矩阵和所述第十一张量进行相乘,得到第十二张量;
所述第二特征张量输入第二全连接层,得到第十三张量;
将1减去所述门控矩阵的差值与所述第十三张量进行相乘,得到第十四张量;
将所述第十二张量与所述十四张量进行相加,得到第十五张量;
将所述第十五张量输入第三全连接层,得到特征融合张量。
2.根据权利要求1所述的医学不良事件文本分类方法,其特征在于,所述方法还包括:
对原始医学不良事件文本数据进行包括数据清洗、中文分词、去停用词、索引表示以及截断与填充的预处理,得到所述医学不良事件文本。
3.一种医学不良事件文本分类装置,其特征在于,包括:
构建模块,用于构建文本分类模型,所述文本分类模型包括:深度金字塔卷积神经网络、循环卷积神经网络和分类层,所述分类层用于基于所述深度金字塔卷积神经网络和循环卷积神经网络的特征融合结果进行分类;
分类模块,用于将医学不良事件文本输入所述文本分类模型,经过所述文本分类模型处理后,获得医学不良事件文本分类结果;
所述文本分类模型还包括:词嵌入层;
所述分类模块包括:
文本输入单元,用于将医学不良事件文本输入所述词嵌入层,得到医学不良事件文本语义向量;
第一特征提取单元,用于将所述医学不良事件文本语义向量输入所述深度金字塔卷积神经网络中进行特征提取,得到第一特征张量;
第二特征提取单元,用于将所述医学不良事件文本语义向量输入所述循环卷积神经网络中进行特征提取,得到第二特征张量;
特征拼接单元,用于将所述第一特征张量和所述第二特征张量进行特征拼接,得到第三特征张量;
特征融合单元,用于将所述第三特征张量进行特征融合,得到特征融合张量;
文本分类单元,用于将所述特征融合张量输入所述分类层,得到医学不良事件文本分类结果;
其中,所述第一特征提取单元具体用于:
对所述医学不良事件文本语义向量的两端进行补零操作,得到第一张量;
对所述第一张量进行一次等长卷积操作,得到第二张量;
将所述第一张量与所述第二张量进行相加,得到第三张量;
对所述第三张量的两端进行补零操作,得到第四张量;
对所述第四张量进行一次等长卷积操作,得到第五张量;
将所述第四张量与所述第五张量进行相加,得到第六张量;
循环执行以下步骤,直至第一特征张量的长度为1:
将所述第六张量进行一次等长卷积操作,得到第七张量;其中,在循环次数大于一次时,将上一次得到的第一特征张量进行一次等长卷积操作,得到第七张量;
将所述第七张量进行1/2池化操作,得到第八张量;
将所述第八张量进行至少两次卷积操作,得到第九张量;
将所述第八张量和所述第九张量进行相加,得到第一特征张量;
其中,所述第二特征提取单元具体用于:
将所述医学不良事件文本语义向量输入双向长短期记忆人工神经网络,得到左前后文向量和右前后文向量;
将所述左前后文向量、右前后文向量以及所述医学不良事件文本语义向量进行拼接,得到第十六张量;
将所述第十六张量进行激活操作,得到所述第十六张量的语义向量;
将所述语义向量进行维度交换;
将维度交换后的所述语义向量进行最大池化操作,得到第二特征张量;
其中,所述特征融合单元具体用于:
将所述第三特征张量进行维度换位与线性变换,得到第十张量;
将所述第十张量进行激活操作,得到门控矩阵;
将所述第一特征张量输入第一全连接层,得到第十一张量;
将所述门控矩阵和所述第十一张量进行相乘,得到第十二张量;
所述第二特征张量输入第二全连接层,得到第十三张量;
将1减去所述门控矩阵的差值与所述第十三张量进行相乘,得到第十四张量;
将所述第十二张量与所述十四张量进行相加,得到第十五张量;
将所述第十五张量输入第三全连接层,得到特征融合张量。
4.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述的医学不良事件文本分类方法。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1或2所述的医学不良事件文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210839075.3A CN114996461B (zh) | 2022-07-18 | 2022-07-18 | 医学不良事件文本分类方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210839075.3A CN114996461B (zh) | 2022-07-18 | 2022-07-18 | 医学不良事件文本分类方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114996461A CN114996461A (zh) | 2022-09-02 |
CN114996461B true CN114996461B (zh) | 2023-01-06 |
Family
ID=83022617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210839075.3A Active CN114996461B (zh) | 2022-07-18 | 2022-07-18 | 医学不良事件文本分类方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996461B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10817669B2 (en) * | 2019-01-14 | 2020-10-27 | International Business Machines Corporation | Automatic classification of adverse event text fragments |
CN110534192B (zh) * | 2019-07-24 | 2023-12-26 | 大连理工大学 | 一种基于深度学习的肺结节良恶性识别方法 |
CN111859936B (zh) * | 2020-07-09 | 2022-09-20 | 大连理工大学 | 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法 |
CN112560503B (zh) * | 2021-02-19 | 2021-07-02 | 中国科学院自动化研究所 | 融合深度特征和时序模型的语义情感分析方法 |
CN113486943B (zh) * | 2021-07-01 | 2024-09-06 | 有米科技股份有限公司 | 基于多模态数据的服装商品性别识别方法及装置 |
CN113899987A (zh) * | 2021-10-21 | 2022-01-07 | 华北电力大学 | 基于深度金字塔卷积神经网络的电网故障诊断方法 |
-
2022
- 2022-07-18 CN CN202210839075.3A patent/CN114996461B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114996461A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022134759A1 (zh) | 关键词生成方法、装置、电子设备及计算机存储介质 | |
Li et al. | Factorizable net: an efficient subgraph-based framework for scene graph generation | |
CN108830211A (zh) | 基于深度学习的人脸识别方法及相关产品 | |
CN111243050B (zh) | 肖像简笔画生成方法、系统及绘画机器人 | |
CN113378580B (zh) | 文档版面分析方法、模型训练方法、装置和设备 | |
CN110276408B (zh) | 3d图像的分类方法、装置、设备及存储介质 | |
CN107145485B (zh) | 用于压缩主题模型的方法和装置 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
US11887216B2 (en) | High resolution conditional face generation | |
CN116487031A (zh) | 一种多模态融合的肺炎辅助诊断方法及其系统 | |
CN106202854A (zh) | 规则管理方法、规则管理装置及疾病叙词表生成方法 | |
CN113095038A (zh) | 基于多任务辨别器生成对抗网络的字体生成方法及装置 | |
CN114996461B (zh) | 医学不良事件文本分类方法、装置、电子设备及介质 | |
Kumar et al. | Pair wise training for stacked convolutional autoencoders using small scale images | |
US11615247B1 (en) | Labeling method and apparatus for named entity recognition of legal instrument | |
Rajamani et al. | Deformable attention (DANet) for semantic image segmentation | |
CN115130038A (zh) | 网页分类方法及装置 | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 | |
CN112560490A (zh) | 知识图谱关系抽取方法、装置、电子设备及存储介质 | |
CN115409041B (zh) | 一种非结构化数据提取方法、装置、设备及存储介质 | |
CN114581467A (zh) | 一种基于残差膨胀空间金字塔网络算法的图像分割方法 | |
CN113962221A (zh) | 一种文本摘要的提取方法、装置、终端设备和存储介质 | |
CN113626603A (zh) | 文本分类的方法和装置 | |
CN114328885A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
US20230420089A1 (en) | Synthetically generated healthcare documents for classifier training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |