CN113571199A - 医疗数据分类分级方法、计算机设备及存储介质 - Google Patents
医疗数据分类分级方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113571199A CN113571199A CN202111126082.0A CN202111126082A CN113571199A CN 113571199 A CN113571199 A CN 113571199A CN 202111126082 A CN202111126082 A CN 202111126082A CN 113571199 A CN113571199 A CN 113571199A
- Authority
- CN
- China
- Prior art keywords
- medical data
- classification
- word
- convolution
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012886 linear function Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 6
- 206010011224 Cough Diseases 0.000 description 3
- 208000000059 Dyspnea Diseases 0.000 description 2
- 206010013975 Dyspnoeas Diseases 0.000 description 2
- 206010033557 Palpitations Diseases 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000035606 childbirth Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种医疗数据分类分级方法、计算机设备及存储介质,其中方法包括:医疗数据预处理:对医疗数据进行分词、过滤和词袋化处理;提取词向量:对预处理后的医疗数据进行词向量化,即将预处理后的医疗数据映射为词向量,再根据生成的词向量构建词向量语料库;构建分类模型:将所述词向量语料库中的词向量输入至TextCNN模型进行训练;分类分级预测:调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率,并输出分类分级结果。本发明可很好地解决数据稀疏、维度庞大进而导致的医疗数据分类结果准确率较低的问题。
Description
技术领域
本发明涉及电数字数据技术领域,尤其涉及一种医疗数据分类分级方法、计算机设备及存储介质。
背景技术
传统的医疗数据分类方法主要分为两类。一是基于词典的数据分类,将数据与建立的词典库进行比对从而进行分类。二是基于机器学习的数据分类,该方法通过文本预处理、特征提取、文本表示等特征工程,如通过词袋模型计算词的出现频率,通过TF-IDF模型计算文本中词的权重。在特征工程的基础上,使用SVM、朴素贝叶斯、K最近邻分类等分类模型进行分类。
但是,上述方案存在如下缺陷:
基于词典的数据分类该方法简单,但需要建立繁琐的规则且需要人工维护规则库,无法解决医疗数据文本复杂多样,语法结构不规范的问题。基于机器学习的数据分类方法中使用的词袋模型、TF-IDF模型将每个词汇看成是独立的特征,无法根据文本的语句序列来进行建模,无法获得文本的上下文关系,不仅丢失了词序信息,而且存在数据稀疏和维度灾难等问题。此外,SVM、朴素贝叶斯等算法属于有监督的机器学习方法,需要人工标注训练数据,人工标注数据的数量及质量将影响文本分类任务的性能,当数据训练不足时会影响分类效果。
因此,针对传统的医疗数据分类方法造成分类准确性不高的问题,需要提供一种新的医疗数据分类算法与模型。
发明内容
为了解决上述问题,本发明提出一种医疗数据分类分级方法、计算机设备及存储介质,用于解决数据稀疏、维度庞大进而导致的医疗数据分类结果准确率较低的问题。
本发明采用的技术方案如下:
一种医疗数据分类分级方法,包括以下步骤:
S1. 医疗数据预处理:利用分词工具,根据医疗类数据集中的医疗数据进行分词;根据需要过滤掉的字词和标点符号建立停用词语料库,在分词之后,根据所述停用词语料库将分词结果中的停用词过滤掉;将过滤后的医疗数据词袋化,统计词频并建立词典;
S2. 提取词向量:对预处理后的医疗数据进行词向量化,即将预处理后的医疗数据映射为词向量,再根据生成的词向量构建词向量语料库;
S3. 构建分类模型:将所述词向量语料库中的词向量输入至TextCNN模型进行训练,所述TextCNN模型包括输入层、卷积层、池化层、全连接层;所述输入层的输入为n*m的矩阵V,其中n为预处理后的医疗数据的词语数,m为每个词语对应的词向量维度;所述卷积层采用多个高度不同、宽度固定为词向量维度m的卷积核,以在不同长度的语句中提取不同视野尺寸的特征,所述卷积核与所述输入层进行卷积运算后获得特征序列;所述池化层对所述特征序列进行降维操作,生成所述特征序列的池化结果;所述全连接层通过Softmax函数将所述池化层的输出映射到(0,1)的范围内,即映射为概率;
S4. 分类分级预测:调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率,并输出分类分级结果。
进一步地,步骤S2中,基于Word2Vec模型,通过Skip-gram算法将预处理后的医疗数据映射为词向量;读取预处理后的医疗数据作为输入,训练一个m维的Word2Vec模型,将每个词映射到n维的向量空间并存储结果作为字典。
进一步地,在所述输入层中,对词向量进行padding即填充操作,使得每个句子的长度都一样。
进一步地,在所述卷积层中,不同高度的所述卷积核提取特征的方法包括以下步骤:
S301. 采用1维卷积,公式如下:
其中,Lin为输入序列长度,Lout为输出序列长度,Padding为填充,dilation为卷积的扩张率,kernel_size为所述卷积核大小,stride为步长;
S302. 所述卷积核沿着预处理后的医疗数据的文本方向进行移动,所述卷积核与所述输入层进行卷积运算后获得的特征序列为:
其中,Ci的计算公式为:
其中,f为非线性函数,W为所述卷积核的权重矩阵,Xi:i+h-1为预处理后的医疗数据中的第i个词到第i+h-1个词对应的词向量,h为所述卷积核的高度,b为偏置项。
进一步地,所述非线性函数设置为Relu函数,即修正线性单元函数,其计算公式如下:
当输入小于0时,输出都是0;当输入大于0时,输出与输入相等。
进一步地,所述卷积核设置为3个,分别是2*m、3*m和4*m,其中m为词向量的维度。
进一步地,所述池化层对所述特征序列进行的降维操作包括:首先提取所述特征序列中的最大值Cmax,然后对所述特征序列中除最大值以外的剩余数据求平均值Cavg,再将最大值Cmax和平均值Cavg拼接在一起作为所述特征序列的池化结果,其中:
进一步地,在所述全连接层中,所述Softmax函数的计算公式如下:
其中,zj为第j个节点的输出值,k为输出节点的个数即分类分级的类别个数。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述医疗数据分类分级方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述医疗数据分类分级方法的步骤。
本发明的有益效果在于:
(1)本发明提出的医疗数据分类分级方法可很好地解决数据稀疏、维度庞大进而导致的医疗数据分类结果准确率较低的问题。
(2)本发明在提取词向量的过程中,基于Word2Vec模型,通过Skip-gram算法将预处理后的医疗数据映射为词向量。具体读取预处理后的医疗数据作为输入,训练一个n维的Word2Vec模型,将每个词映射到n维的向量空间并存储结果作为字典。这样做能有效降低运算量,使高纬的稀疏表示,映射到低维的向量表示,保存了更多的语义信息。
(3)本发明在池化层进行降维操作的过程中,提出了一种新的融合剩余信息的最大值池化方法,首先提取特征序列中的最大值,然后对特征序列中除最大值以外的剩余数据求平均值,再将最大值和剩余数据平均值拼接在一起,作为特征序列的池化结果,可避免信息丢失的问题,兼顾性能与效率。
(4)本发明在进行卷积运算时,采用的非线性函数为Relu函数,可减少参数间相互依赖的关系,缓解梯度消失的问题,收敛速度与Sigmoid和Tanh函数相比较快。
(5)本发明与传统基于机器学习算法的分类相比,传统机器学习算法准确率为61%左右,本发明的医疗数据分类分级方法的准确率为72.1%,准确率提升了18.2%左右。
附图说明
图1是本发明实施例1的医疗数据分类分级方法流程图。
图2是本发明实施例1的TextCNN分类流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供了一种医疗数据分类分级方法,包括以下步骤:
S1. 医疗数据预处理,包括以下子步骤:
S101. 利用分词工具,根据医疗类数据集中的医疗数据进行分词;
S102. 根据需要过滤掉的字词和标点符号建立停用词语料库,在分词之后,根据停用词语料库将分词结果中的停用词过滤掉;
S103. 将过滤后的医疗数据词袋化,统计词频并建立词典,例如:
{unkown:0,不适:1,术后:2,复查:3,疼痛:4,复诊:5,咳嗽:6,......}
S2. 提取词向量:
分类模型的输入是词向量,需要构建词向量语料库。对预处理后的医疗数据进行词向量化,即将预处理后的医疗数据映射为词向量,再根据生成的词向量构建词向量语料库。优选地,基于Word2Vec模型,通过Skip-gram算法将预处理后的医疗数据映射为词向量。具体读取预处理后的医疗数据作为输入,训练一个n维的Word2Vec模型,将每个词映射到n维的向量空间并存储结果作为字典。这样做能有效降低运算量,使高纬的稀疏表示,映射到低维的向量表示,保存了更多的语义信息。
S3. 构建分类模型:
将词向量语料库中的词向量输入至TextCNN模型进行训练,TextCNN是一种用于文本分类任务的卷积神经网络,其优势在于可以捕捉医疗文本中的局部相关性,对于短文本分类任务较友好。
如图2所示,TextCNN模型包括输入层、卷积层、池化层、全连接层。
(1)TextCNN模型的第一层为输入层,输入层的输入为n*m的矩阵V,其中n为预处理后的医疗数据的词语数,m为每个词语对应的词向量维度。优选地,对词向量进行padding即填充操作,使得每个句子的长度都一样。
(2)TextCNN的第二层为卷积层,例如在电子病历的文本中,相邻词语的关联度总是很高的,可以通过一维卷积来提取语句汇总的特征。本实施例的卷积层采用多个高度不同、宽度固定为词向量维度m的卷积核,以在不同长度的语句中提取不同视野尺寸的特征。以卫生综合信息为例,电子病历、电子健康档案中包括患者对于病情的描述、现病史、既往病史、家族史、新生儿情况描述、分娩记录等描述性的文本,且文本的长度不一致,值域为AN10~AN100。优选地,本实施例的卷积核设置为3个,分别是2*m、3*m和4*m,其中m为词向量的维度。
优选地,不同高度的卷积核提取特征的方法包括以下步骤:
S301. 采用1维卷积,公式如下:
其中,Lin为输入序列长度,Lout为输出序列长度,Padding为填充,dilation为卷积的扩张率,kernel_size为卷积核大小,stride为步长。具体地,如图2所示,输入文本“患者张三反复咳嗽偶尔心悸气促”,分别经过2*m、3*m、4*m的卷积核处理,在该场景中,Lin为10,padding为0,Dilation和stride为1, kernel_size为2、3、4,则一维卷积后得到的输出序列长度Lout分别为9、8、7。
S302. 所述卷积核沿着预处理后的医疗数据的文本方向进行移动,所述卷积核与所述输入层进行卷积运算后获得的特征序列为:
其中,Ci的计算公式为:
其中,f为非线性函数,W为卷积核的权重矩阵,Xi:i+h-1为预处理后的医疗数据中的第i个词到第i+h-1个词对应的词向量,h为卷积核的高度,b为偏置项。更为优选地,非线性函数f设置为Relu函数,即修正线性单元函数,其计算公式如下:
当输入小于0时,输出都是0;当输入大于0时,输出与输入相等。Relu函数具有神经网络的稀疏性,减少了参数间相互依赖的关系,缓解了梯度消失的问题,收敛速度与Sigmoid和Tanh函数相比较快。
具体地,如“患者/张三/反复/咳嗽/偶尔/心悸/气促”所对应的10*m矩阵与卷积核2*m、3*m、4*m分别做乘法再求和,然后将窗口向下滑动做如上动作,这便是卷积操作,操作之后将10*m矩阵分别映射输出为一个9*1、8*1、7*1的矩阵。
(3)TextCNN的第三层为池化层,池化层是对卷积层得到的特征序列进行降维操作,传统使用的池化操作是最大池化操作(Maxpooling),从卷积操作后产生的特征向量中筛选出最大值,其他数据全部舍弃。该方法存在的问题是信息丢失。为了解决这个问题,有学者提出使用K-Max Pooling来进行池化操作,即选取特征系列中前K个最大值来代表这个序列,但仍然存在部分数据的丢失。为了使特征数据不丢失,还有学者将池化层遗弃,通过增加卷积层来提取更深层次的特征。该方法随着卷积层的增加网络复杂度也增加,在训练网络时花费的时间会更长。
为了避免信息丢失的问题,兼顾性能与效率,本实施例提出了一种新的融合剩余信息的最大值池化方法:首先提取所述特征序列中的最大值Cmax,然后对所述特征序列中除最大值以外的剩余数据求平均值Cavg,再将最大值Cmax和平均值Cavg拼接在一起作为所述特征序列的池化结果,其中:
(4)TextCNN的第四层为全连接层,全连接层通过Softmax函数将池化层的输出映射到(0,1)的范围内,即映射为概率,Softmax函数的计算公式如下:
其中,zj为第j个节点的输出值,k为输出节点的个数即分类分级的类别个数。
S4. 分类分级预测:调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率,并输出分类分级结果。其中,分类分级概率的概率越高,则待分类医疗数据属于该分类分级的概率越高。
优选地,为了评估本实施例的分类模型的性能,采用的评价指标是正确率与F1值,其中:
正确率=分类正确的样本数/所有样本数.
F1值是对分类器的整体评价,受到精确率和召回率的影响。精确率是指正确分类到某类别的样本数占所有被分类到某类别样本的比率。召回率是指正确分类到某类别的样本数占所有属于某类别的比率。例如,对于“疾病描述”类别,分类结果一般是4种情况:
(1)属于“疾病描述”类的样本被正确分类到“疾病描述”类,记这一类样本数为TP;
(2)不属于“疾病描述”类的样本被错误分类到“疾病描述”类,这一类样本数为FP;
(3)属于“疾病描述”类的样本被错误分类到除“疾病描述”类的其他类,这一类样本数为FN;
(4)不属于“疾病描述”类的样本被正确分类到除“疾病描述”类的其他类,这一类样本数为TN。
那么,对于“疾病描述”类的精确率与召回率为:
精确率=TP/TP+FP;
召回率=TP/TP+FN。
F1值是综合衡量准确率与召回率的指标,F1=(2*准确率*召回率)/(准确率+召回率)。
关于本实施例对医疗数据的分类,类别标签多达110个,计算所有类别的F1值,求算术平均值,即可得到整个分类器的综合F1值。
实验参数如下:
参数名称 | 说明 | 取值 |
Embedding_dim | 词向量维度 | 128 |
Batch_size | 批训练样本数 | 64 |
Filter_size | 卷积核大小 | 2,3,4 |
Num_filters | 卷积核数量 | 128 |
Dropout | 丢弃率 | 0.5 |
与传统基于机器学习算法的分类相比,传统机器学习算法准确率为61%左右,本发明的医疗数据分类分级方法的准确率为72.1%,准确率提升了18.2%左右。
需要说明的是,对于本实施例,为了简便描述,故将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
实施例2
本实施例在实施例1的基础上:
本实施例提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现实施例1的医疗数据分类分级方法的步骤。其中,计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。
实施例3
本实施例在实施例1的基础上:
本实施例提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现实施例1的医疗数据分类分级方法的步骤。其中,计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。存储介质包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,存储介质不包括电载波信号和电信信号。
Claims (10)
1.一种医疗数据分类分级方法,其特征在于,包括以下步骤:
S1. 医疗数据预处理:利用分词工具,根据医疗类数据集中的医疗数据进行分词;根据需要过滤掉的字词和标点符号建立停用词语料库,在分词之后,根据所述停用词语料库将分词结果中的停用词过滤掉;将过滤后的医疗数据词袋化,统计词频并建立词典;
S2. 提取词向量:对预处理后的医疗数据进行词向量化,即将预处理后的医疗数据映射为词向量,再根据生成的词向量构建词向量语料库;
S3. 构建分类模型:将所述词向量语料库中的词向量输入至TextCNN模型进行训练,所述TextCNN模型包括输入层、卷积层、池化层、全连接层;所述输入层的输入为n*m的矩阵V,其中n为预处理后的医疗数据的词语数,m为每个词语对应的词向量维度;所述卷积层采用多个高度不同、宽度固定为词向量维度m的卷积核,以在不同长度的语句中提取不同视野尺寸的特征,所述卷积核与所述输入层进行卷积运算后获得特征序列;所述池化层对所述特征序列进行降维操作,生成所述特征序列的池化结果;所述全连接层通过Softmax函数将所述池化层的输出映射到(0,1)的范围内,即映射为概率;
S4. 分类分级预测:调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率,并输出分类分级结果。
2.根据权利要求1所述的医疗数据分类分级方法,其特征在于,步骤S2中,基于Word2Vec模型,通过Skip-gram算法将预处理后的医疗数据映射为词向量;读取预处理后的医疗数据作为输入,训练一个m维的Word2Vec模型,将每个词映射到n维的向量空间并存储结果作为字典。
3.根据权利要求1所述的医疗数据分类分级方法,其特征在于,在所述输入层中,对词向量进行padding即填充操作,使得每个句子的长度都一样。
4.根据权利要求1所述的医疗数据分类分级方法,其特征在于,在所述卷积层中,不同高度的所述卷积核提取特征的方法包括以下步骤:
S301. 采用1维卷积,公式如下:
其中,Lin为输入序列长度,Lout为输出序列长度,Padding为填充,dilation为卷积的扩张率,kernel_size为所述卷积核大小,stride为步长;
S302. 所述卷积核沿着预处理后的医疗数据的文本方向进行移动,所述卷积核与所述输入层进行卷积运算后获得的特征序列为:
其中,Ci的计算公式为:
其中,f为非线性函数,W为所述卷积核的权重矩阵,Xi:i+h-1为预处理后的医疗数据中的第i个词到第i+h-1个词对应的词向量,h为所述卷积核的高度,b为偏置项。
6.根据权利要求4所述的医疗数据分类分级方法,其特征在于,所述卷积核设置为3个,分别是2*m、3*m和4*m,其中m为词向量的维度。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一项所述的医疗数据分类分级方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的医疗数据分类分级方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111126082.0A CN113571199A (zh) | 2021-09-26 | 2021-09-26 | 医疗数据分类分级方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111126082.0A CN113571199A (zh) | 2021-09-26 | 2021-09-26 | 医疗数据分类分级方法、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113571199A true CN113571199A (zh) | 2021-10-29 |
Family
ID=78174498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111126082.0A Pending CN113571199A (zh) | 2021-09-26 | 2021-09-26 | 医疗数据分类分级方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113571199A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114020910A (zh) * | 2021-11-03 | 2022-02-08 | 北京中科凡语科技有限公司 | 基于TextCNN的医疗文本特征提取方法及装置 |
CN114020914A (zh) * | 2021-11-03 | 2022-02-08 | 北京中科凡语科技有限公司 | 医疗文本分类方法、装置、电子设备及存储介质 |
CN116386857A (zh) * | 2023-06-07 | 2023-07-04 | 深圳市森盈智能科技有限公司 | 一种病理分析系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN109934200A (zh) * | 2019-03-22 | 2019-06-25 | 南京信息工程大学 | 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统 |
CN110135160A (zh) * | 2019-04-29 | 2019-08-16 | 北京邮电大学 | 软件检测的方法、装置及系统 |
CN110569511A (zh) * | 2019-09-22 | 2019-12-13 | 河南工业大学 | 基于混合神经网络的电子病历特征提取方法 |
-
2021
- 2021-09-26 CN CN202111126082.0A patent/CN113571199A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN109934200A (zh) * | 2019-03-22 | 2019-06-25 | 南京信息工程大学 | 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统 |
CN110135160A (zh) * | 2019-04-29 | 2019-08-16 | 北京邮电大学 | 软件检测的方法、装置及系统 |
CN110569511A (zh) * | 2019-09-22 | 2019-12-13 | 河南工业大学 | 基于混合神经网络的电子病历特征提取方法 |
Non-Patent Citations (3)
Title |
---|
何玉洁: "基于命名实体识别的医学病例自动生成研究与实现", 《中国优秀硕士学位论文全文数据库》 * |
李逾严: "网球场景语义分割方法研究", 《中国优秀硕士学位论文全文数据库》 * |
沈远星: "基于WMAB和CNN的网络评论方面级情感分析", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114020910A (zh) * | 2021-11-03 | 2022-02-08 | 北京中科凡语科技有限公司 | 基于TextCNN的医疗文本特征提取方法及装置 |
CN114020914A (zh) * | 2021-11-03 | 2022-02-08 | 北京中科凡语科技有限公司 | 医疗文本分类方法、装置、电子设备及存储介质 |
CN116386857A (zh) * | 2023-06-07 | 2023-07-04 | 深圳市森盈智能科技有限公司 | 一种病理分析系统及方法 |
CN116386857B (zh) * | 2023-06-07 | 2023-11-10 | 深圳市森盈智能科技有限公司 | 一种病理分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qayyum et al. | Medical image retrieval using deep convolutional neural network | |
CN113571199A (zh) | 医疗数据分类分级方法、计算机设备及存储介质 | |
Wang et al. | Tuta: Tree-based transformers for generally structured table pre-training | |
CN113035362B (zh) | 一种基于语义图网络的医疗预测方法及系统 | |
Song et al. | Research on text classification based on convolutional neural network | |
CN109036577A (zh) | 糖尿病并发症分析方法及装置 | |
CN106886576B (zh) | 一种基于预分类的短文本关键词提取方法及系统 | |
CN111177386B (zh) | 一种提案分类方法及系统 | |
Subramanian et al. | A survey on sentiment analysis | |
He et al. | Deep learning analytics for diagnostic support of breast cancer disease management | |
Estevez-Velarde et al. | AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
Arora et al. | A comparative study of fourteen deep learning networks for multi skin lesion classification (MSLC) on unbalanced data | |
Chen et al. | Clustering-based feature subset selection with analysis on the redundancy–complementarity dimension | |
Thinsungnoen et al. | Deep autoencoder networks optimized with genetic algorithms for efficient ECG clustering | |
CN117688974A (zh) | 基于知识图谱的生成式大模型建模方法、系统及设备 | |
Kumar et al. | Deep learning based sentiment classification on user-generated big data | |
Ayata et al. | Busem at semeval-2017 task 4a sentiment analysis with word embedding and long short term memory rnn approaches | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN116431816A (zh) | 一种文献分类方法、装置、设备和计算机可读存储介质 | |
CN110555209A (zh) | 训练词向量模型的方法及装置 | |
JP7181439B2 (ja) | 臨床試験の解析プログラムの生成を補助するためのプログラム生成補助システム | |
Zhang et al. | Text summarization based on sentence selection with semantic representation | |
Sadek et al. | Cubic-splines neural network-based system for image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211029 |
|
RJ01 | Rejection of invention patent application after publication |