CN116259422A - 基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备 - Google Patents
基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备 Download PDFInfo
- Publication number
- CN116259422A CN116259422A CN202310233482.4A CN202310233482A CN116259422A CN 116259422 A CN116259422 A CN 116259422A CN 202310233482 A CN202310233482 A CN 202310233482A CN 116259422 A CN116259422 A CN 116259422A
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- model
- training
- treatment opinion
- treatment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 162
- 201000010099 disease Diseases 0.000 title claims abstract description 154
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000010276 construction Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000000586 desensitisation Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 208000030533 eye disease Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000002177 Cataract Diseases 0.000 description 1
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 208000010412 Glaucoma Diseases 0.000 description 1
- 201000002154 Pterygium Diseases 0.000 description 1
- 208000002367 Retinal Perforations Diseases 0.000 description 1
- 201000007527 Retinal artery occlusion Diseases 0.000 description 1
- 206010038848 Retinal detachment Diseases 0.000 description 1
- 206010064930 age-related macular degeneration Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002489 hematologic effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 208000002780 macular degeneration Diseases 0.000 description 1
- 208000029233 macular holes Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004264 retinal detachment Effects 0.000 description 1
- 208000004644 retinal vein occlusion Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioethics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备,该方法的步骤包括:获取医疗文本数据并进行预处理;构建语料库,基于语料库预训练BERT模型;基于BERT模型进行多标签文本分类,输出对应的疾病分类;将医疗文本数据训练集根据不同的疾病种类进行划分,得到训练子集;采用Seq2seq结构构建眼科疾病的诊疗意见生成模型;基于训练子集训练诊疗意见生成模型;构建并训练双塔结构的眼科疾病诊疗意见生成模型;将医疗文本数据输入至训练后的双塔结构的眼科疾病诊疗意见生成模型,输出眼科疾病诊疗意见。本发明能够有效扩增训练样本的特征空间,提升眼科疾病诊疗意见的生成质量。
Description
技术领域
本发明涉及疾病诊疗意见生成技术领域,具体涉及一种基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备。
背景技术
由于大量有价值的临床信息主要以非结构化的自由文本的形式存在于临床叙述中,传统的数据收集方法无法高效捕捉和整理,而人工智能领域的自然语言处理技术将为此提供动力,实现在快速筛选和识别信息的同时,有效地提取和关联疾病相关数据。在此基础上,结合深度学习方法,能够实现智能化的疾病诊断和诊疗意见生成,从而辅助临床医生的决策过程,以期最大限度地避免临床实践的失误。
目前,基于深度学习的智能疾病诊疗意见自动生成模型大多具有高参数量的特点,为了使模型更具备泛化性能,往往需要大量的有标签数据进行训练。而收集带有标签的训练数据需要耗费巨额的人力、物力,因此数据增强技术应运而生。数据增强是指根据现有的训练数据,根据相应的算法,生成更多的训练样本以满足模型训练需求。现有的数据增强算法虽然能够取得良好的性能,但存在效率低下、样本多样性差等问题,因此,研究一种基于虚拟数据增强的疾病诊疗意见自动生成的新技术是迫切需要的。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于虚拟数据增强的眼科疾病诊疗意见生成方法,本发明构建双塔结构的眼科疾病诊疗意见生成模型,使用Dropout算法增加模型输出的不确定性,扩展训练样本的特征空间,其次利用欧几里得相似度算法,计算双塔结构的眼科疾病诊疗意见生成模型不同输出的空间距离,通过损失优化函数,最小化不同输出的空间距离,进一步优化模型性能,使得生成的诊疗意见更接近专业的医生所撰写的真实诊疗意见。
本发明的第二目的在于提供一种基于虚拟数据增强的眼科疾病诊疗意见生成系统;
本发明的第三目的在于提供一种计算机可读存储介质;
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于虚拟数据增强的眼科疾病诊疗意见生成方法,包括下述步骤:
在医疗电子病历系统中筛选获取医疗文本数据,对医疗文本数据进行预处理;
利用公开发表的眼科中文文献摘要构建语料库,以BERT深度神经网络为基础构建BERT模型,基于语料库预训练BERT模型;
基于BERT模型进行多标签文本分类,每个输入文本对应一个或多个疾病诊断,使用多个全连接层连接Softmax激活函数作为输出,将输出映射为相应的疾病;
将医疗文本数据训练集根据不同的疾病种类进行划分,得到训练子集,每一个训练子集将对应着一种眼科疾病,相同疾病训练样本的特征分布空间一致;
构建眼科疾病的诊疗意见生成模型,所述诊疗意见生成模型采用Seq2seq的结构,Seq2seq结构由一个Encoder端和Decoder端构成,预训练BERT模型作为疾病诊疗意见自动生成模型的Encoder端,Encoder端用于将输入的文本数据进行编码、压缩,并提取相应的疾病特征,Decoder端用于解码,并生成对应的诊疗意见,所述Decoder端采用多层随机初始化堆叠的Transformer网络;
基于不同的眼科疾病对应的训练子集训练诊疗意见生成模型;
将单一的诊疗意见生成模型的结构复刻为双塔的形式,构建并训练双塔结构的眼科疾病诊疗意见生成模型;
将医疗文本数据输入至训练后的双塔结构的眼科疾病诊疗意见生成模型,输出眼科疾病诊疗意见。
作为优选的技术方案,在医疗电子病历系统中筛选获取医疗文本数据,具体根据各个病种的ICD编码在医疗电子病历系统中筛选获取医疗文本数据。
作为优选的技术方案,所述对医疗文本数据进行预处理,具体步骤包括:
利用正交匹配算法对医疗文本数据进行脱敏化处理;
检查数据的一致性,剔除超出预设范围的异常值,核对并统一文本的格式内容,识别文本中的缺失值,采用删除法或填充法进行处理;
对医疗文本数据进行拆分,拆分得到子数据内容,包括基本信息、主诉、现病史、既往史、眼科专科检查和辅助检查信息;
利用Jieba分词库对脱敏化后和数据拆分后的医疗文本数据进行分词处理和词性标注,根据医学中文及英文主题词表创建词典,对医疗文本数据进行依存句法分析,通过识别否定关系和时间关系筛选否定和对既往病情的陈述;
利用TF-IDF算法计算训练样本中词语的权重,过滤虚词,提取关键字,以及进行命名实体识别。
作为优选的技术方案,在基于BERT模型进行多标签文本分类的步骤之后,还包括数据截断或填补步骤,具体包括:
使用滑动窗口方法把医疗文本数据分成有重叠的若干段,将每一段都当作独立的数据输入BERT模型进行处理,再将各个独立数据得到的结果进行整合,作为医疗文本数据的最终分类输出,对于长度不满足预设条件的医疗文本数据则进行填补,使得模型输入长度保持一致。
作为优选的技术方案,基于不同的眼科疾病对应的训练子集训练诊疗意见生成模型,利用Dropout算法,以欧几里得相似度作为正则项优化模型损失;
双塔结构的眼科疾病诊疗意见生成模型在每个诊疗意见生成网络结构中添加Dropout算法,采用统一的损失函数,具体表示为:
Loss=lossmodel1+lossmodel2+βE(q,p)
其中,model1和model2表示两个结构相同的诊疗意见生成网络,q和p分别表示双塔模型训练输出,β表示欧几里得相似度权重,y表示标准参考诊疗意见,pi表示诊疗意见生成模型输出,M表示样本数量。
作为优选的技术方案,在构建并训练双塔结构的眼科疾病诊疗意见生成模型之后,还包括性能测试步骤,性能指标包括BLEU指标和ROUGE指标,其中,BLEU指标比较候选诊疗意见和眼科医师专业诊疗意见里的n-gram的重合程度,重合程度越高表示生成的诊疗意见质量越高,ROUGE指标根据模型输出诊疗意见和标准参考诊疗意见的公共子序列长度,衡量模型生成意见的质量。
为了达到上述第二目的,本发明采用以下技术方案:
本发明提供一种基于虚拟数据增强的眼科疾病诊疗意见生成系统,包括:医疗文本数据获取模块、数据预处理模块、语料库构建模块、BERT模型构建模块、预训练模块、疾病分类模块、数据划分模块、诊疗意见生成模型构建模块、诊疗意见生成模型训练模块、双塔结构模型构建模块、双塔结构模型训练模块、眼科疾病诊疗意见输出模块;
所述医疗文本数据获取模块用于在医疗电子病历系统中筛选获取医疗文本数据;
所述数据预处理模块用于对医疗文本数据进行预处理;
所述语料库构建模块用于利用公开发表的眼科中文文献摘要构建语料库;
所述BERT模型构建模块用于以BERT深度神经网络为基础构建BERT模型;
所述预训练模块用于基于语料库预训练BERT模型;
所述疾病分类模块用于基于BERT模型进行多标签文本分类,每个输入文本对应一个或多个疾病诊断,使用多个全连接层连接Softmax激活函数作为输出,将输出映射为相应的疾病;
所述数据划分模块用于将医疗文本数据训练集根据不同的疾病种类进行划分,得到训练子集,每一个训练子集将对应着一种眼科疾病,相同疾病训练样本的特征分布空间一致;
所述诊疗意见生成模型构建模块用于构建眼科疾病的诊疗意见生成模型,所述诊疗意见生成模型采用Seq2seq的结构,Seq2seq结构由一个Encoder端和Decoder端构成,预训练BERT模型作为疾病诊疗意见自动生成模型的Encoder端,Encoder端用于将输入的文本数据进行编码、压缩,并提取相应的疾病特征,Decoder端用于解码,并生成对应的诊疗意见,所述Decoder端采用多层随机初始化堆叠的Transformer网络;
所述诊疗意见生成模型训练模块用于基于不同的眼科疾病对应的训练子集训练诊疗意见生成模型;
所述双塔结构模型构建模块用于将单一的诊疗意见生成模型的结构复刻为双塔的形式,构建双塔结构的眼科疾病诊疗意见生成模型;
所述双塔结构模型训练模块用于训练双塔结构的眼科疾病诊疗意见生成模型;
所述眼科疾病诊疗意见输出模块用于将医疗文本数据输入至训练后的双塔结构的眼科疾病诊疗意见生成模型,输出眼科疾病诊疗意见。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现如上述基于虚拟数据增强的眼科疾病诊疗意见生成方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述基于虚拟数据增强的眼科疾病诊疗意见生成方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明从数据增强的角度出发,结合数据驱动的建模思路,在保证智能医疗模型输出的诊疗意见的质量的同时,构建双塔结构的眼科疾病诊疗意见生成模型,使用Dropout算法增加模型输出的不确定性,扩展训练样本的特征空间,利用欧几里得相似度算法,计算双塔模型不同输出的空间距离,通过损失优化函数,最小化不同输出的空间距离,进一步优化模型性能,使得系统生成的诊疗意见更接近专业的医生所撰写的真实诊疗意见。
(2)本发明基于预训练BERT模型和Seq2seq结构,采用了双塔结构虚拟数据增强的技术方案,使在有限的电子病历文书的数据集上,达到更高效的眼科常见疾病智能诊断和诊疗意见生成的技术效果。
附图说明
图1为本发明基于虚拟数据增强的眼科疾病诊疗意见生成方法的流程示意图;
图2为本发明眼科疾病分类的流程示意图;
图3为本发明采用Seq2seq的结构的诊疗意见生成模型的架构示意图;
图4为本发明基于双塔结构的眼科疾病诊疗意见生成模型的架构示意图;
图5为本发明眼科疾病诊疗意见生成的结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于虚拟数据增强的眼科疾病诊疗意见生成方法,包括下述步骤:
S1:医疗文本数据预处理:
S11:数据脱敏化处理:根据各个病种的ICD编码在医疗电子病历系统中筛选获取医疗文本数据,为保护患者的信息安全,利用正交匹配算法对所获得的数据进行脱敏化处理,确保训练样本不包含患者的个人信息;
语料清洗:检查数据的一致性,剔除超出预设范围的异常值;核对并统一文本的格式内容;识别文本中的缺失值,采用删除法或填充法进行处理;
划分数据:对训练样本进行拆分,包括基本信息(性别、年龄等)、主诉、现病史、既往史、眼科专科检查(视力、眼压、裂隙灯检查等)和辅助检查(眼科影像检查、血液学检查、放射科检查等);
S12:文本预处理:本实施例利用Jieba分词库对已脱敏化和数据划分后的文本资料进行分词处理和词性标注,对于分词结果不符合医学环境特定需求的文本,运用命名实体识别技术根据医学中文及英文主题词表创建自定义词典,包含实体的中英文缩写等,亦便于后续模型的预训练,之后对训练样本进行依存句法分析,通过识别否定关系和时间关系来筛选否定和对既往病情的陈述。
利用TF-IDF算法计算训练样本中词语的权重,过滤虚词,提取关键字。
命名实体识别:识别实体包括解剖位置、疾病名称、症状和体征描述、检查检验、手术和药品等,方便后续模型的建立。
S2:建立眼科疾病分类模型:
S21:基于BERT网络结构,利用公开发表的眼科中文文献摘要,预训练语言模型,具体步骤包括:
本实施例收集中华医学会旗下7本眼科学期刊(《中华眼科杂志》、《中华眼底病杂志》、《中华视光学与视觉科学杂志》、《中华实验眼科杂志》、《中华眼外伤职业眼病杂志》、《国际眼科纵览》和《中国实用眼科杂志》)近十年发表的文章的摘要构成特定的语料库,以BERT深度神经网络为基础,利用所构建的中文医学语料库为数据,重新进行预训练,构建一个BERT预训练模型,该模型能够更好地挖掘文本数据之间的语义关系,探索与疾病相关的影响因素,搭建眼科领域的特定语料库,让BERT学到中文环境下眼科学领域的知识。
考虑到大规模预训练语言模型在深度学习领域的广泛应用,本发明利用大量无标签的医疗文本数据进行预训练,预训练模型的好处在于能够使模型自动挖掘文本数据之间的潜在的语义关系,结合眼部疾病的文本数据,可以更好地探索影响患者疾病的必要因素。
为了让BERT预训练模型应用到下游特定任务时能取得更好的结果,需要结合带标签的病历文本资料根据下游分类任务进行有监督的模型微调,让模型学到下游具体任务应该具备的专业知识与能力,本实施例结合目标眼科病历文本数据集,微调预训练语言模型:在上述预训练模型的基础之上,将带有诊断标签的病历文本作为输入进行有监督学习的模型微调,使模型更好地提取输入特征,并将该特征转换为相应的输出,通过深度学习模型解码输出,生成的疾病分类更为准确。
S22:基于BERT网络构建眼科疾病分类模型:本实施例使用BERT模型做多标签文本分类,每个输入文本可对应一个或多个疾病诊断,使用多个全连接层连接Softmax激活函数作为输出,最后将输出映射为相应的疾病。
如图2所示,在BERT模型的[CLS]位置输出后接入全连接层,使用Softmax作为激活函数,该函数输出的单元数与具体的疾病种类标签数一致,最后将输入的电子病历文本的分类结果输出并转化为文字,得到最终的疾病类别。本实施例能够实现的眼科疾病分类包括以下十个临床常见诊断:白内障、青光眼、糖尿病视网膜病变、视网膜脱离、老年性黄斑变性、视网膜静脉阻塞、视网膜动脉阻塞、黄斑前膜、黄斑裂孔、翼状胬肉;每一种疾病对应一个标签。
本实施例对眼科疾病分类模型的性能进行测试:评价指标包括混淆矩阵(confusion matrix)、准确率(accuracy score)、召回率(recall score)、F1 Score、ROC曲线和ACU面积。
S23:进行数据截断或填补:考虑到样本长度可能超过BERT模型输入所限制的512,使用滑动窗口(sliding window)方法把长文本分成有重叠的若干段,将每一段都当作独立的样本输入BERT模型进行处理,最后再将各个独立文档得到的结果进行整合,作为长文本的最终分类输出;对于长度不足的文本则进行填补,使得模型输入长度保持一致。
S3:如图3所示,基于Seq2seq结构并结合Transformer网络,建立双塔结构的眼科疾病的诊疗意见生成模型,利用Dropout算法,以欧几里得相似度作为正则项优化模型损失,实现虚拟数据增强,提高模型准确性,具体步骤包括:
S31:将原始训练数据集根据不同的疾病种类进行划分,得到10个训练子集,每一个训练子集将对应着一种眼科疾病,相同疾病训练样本的特征分布空间一致,因此训练模型更具备高效性,且模型输出的质量更高,本实施例能包涵10种眼科疾病;
{D1,...,Di,...,DN}∈D
其中,Di表示不同情况下的训练集,N表示眼科疾病的种类,相比较于统一的数据集,更细粒度的训练集划分能够更好的促使模型学习样本特征,加速模型优化,提高生成诊疗意见的质量。
S32:基于划分后的训练集,针对不同的眼科疾病训练10组诊疗意见生成模型;
本实施例的诊疗意见生成模型采用Seq2seq的结构,具体而言,Seq2seq结构是由一个Encoder端和Decoder端构成,预训练的语言模型作为疾病诊疗意见自动生成模型的Encoder端,Encoder端用于将输入的文本数据进行编码、压缩,并提取相应的疾病特征,输入的文本数据也就是步骤S21所预处理的文本数据,Decoder端用于解码,并生成对应的输出,即诊疗意见。
本实施例采用8层随机初始化堆叠的Transformer网络作为诊疗意见生成模型的Decoder端,该网络使用自注意力机制能够更好地捕获病历特征,生成高质量的诊疗意见。
经过相关实验验证,层数过少会影响生成诊疗意见的质量,层数过多则会导致参数量过高,影响模型运行速率,因此综合两方面因素,本实施例优选采用8层随机初始化堆叠的Transformer网络,使得最终的效果和性能最优。
在本实施例中,诊疗意见生成模型的损失函数为:
其中,y表示标准参考诊疗意见,pi表示模型输出,M表示样本数量;
S33:如图4所示,构建双塔结构的眼科疾病诊疗意见生成模型,将单一的诊疗意见生成模型的结构复刻为双塔的形式,即该模型拥有两个相同的诊疗意见生成模型的网络结构;
为了增加训练样本的特征空间,提升模型生成诊疗意见的质量,本实施例在每个诊疗意见生成网络结构中添加了Dropout算法,该算法能够随机将特征表示置零,从而使训练样本的特征空间随机发生改变,在有限的样本中提高特征多样性。而双塔结构的模型采用统一的损失函数,能够限制模型输出的不确定性,从而实现虚拟数据增强的目的。
S34:构建双塔结构的眼科疾病诊疗意见生成模型的损失优化函数;由于上一步骤采用的Dropout算法,虽然增加了样本空间的不确定性,但是同时也增加的模型输出的不确定性,为了更好的控制模型输出的诊疗意见的质量,本实施例将通过计算双塔模型输出的欧几里得相似度,并通过模型损失优化该相似度,保证输出概率的一致性,模型损失计算如下:
Loss=lossmodel1+lossmodel2+βE(q,p)
其中,model1和model2是结构相同的诊疗意见生成网络,q和p分别表示双塔模型训练输出,β表示欧几里得相似度权重,通过上式可知,当模型输出的q和p越相似时,其空间距离越小,因此可以极大程度上约束输出的不确定性。
S35:如图5所示,将医疗文本数据输入至训练后的双塔结构的眼科疾病诊疗意见生成模型,输出眼科疾病诊疗意见。
S36:对双塔结构的眼科疾病诊疗意见生成模型的性能进行测试:性能指标包括BLEU和ROUGE,其中BLEU的核心思想是比较候选诊疗意见和眼科医师专业诊疗意见里的n-gram的重合程度,重合程度越高就认为模型生成的诊疗意见质量越高,ROUGE根据模型输出诊疗意见和标准参考诊疗意见的公共子序列长度,来衡量模型生成意见的质量,这两种评价指标能帮助了解模型的基础性能,方便进一步优化模型。
实施例2
本实施例提供一种基于虚拟数据增强的眼科疾病诊疗意见生成系统,包括:医疗文本数据获取模块、数据预处理模块、语料库构建模块、BERT模型构建模块、预训练模块、疾病分类模块、数据划分模块、诊疗意见生成模型构建模块、诊疗意见生成模型训练模块、双塔结构模型构建模块、双塔结构模型训练模块、眼科疾病诊疗意见输出模块;
在本实施例中,医疗文本数据获取模块用于在医疗电子病历系统中筛选获取医疗文本数据;
在本实施例中,数据预处理模块用于对医疗文本数据进行预处理;
在本实施例中,语料库构建模块用于利用公开发表的眼科中文文献摘要构建语料库;
在本实施例中,BERT模型构建模块用于以BERT深度神经网络为基础构建BERT模型;
在本实施例中,预训练模块用于基于语料库预训练BERT模型,使模型能够更好地挖掘文本数据之间的语义关系,探索与疾病相关的影响因素;
在本实施例中,疾病分类模块用于基于BERT模型进行多标签文本分类,每个输入文本对应一个或多个疾病诊断,使用多个全连接层连接Softmax激活函数作为输出,将输出映射为相应的疾病;
在本实施例中,数据划分模块用于将医疗文本数据训练集根据不同的疾病种类进行划分,得到训练子集,每一个训练子集将对应着一种眼科疾病,相同疾病训练样本的特征分布空间一致,因此训练模型更具备高效性,且模型输出诊疗意见的质量更高;
在本实施例中,诊疗意见生成模型构建模块用于构建眼科疾病的诊疗意见生成模型,诊疗意见生成模型采用Seq2seq的结构,Seq2seq结构由一个Encoder端和Decoder端构成,预训练BERT模型作为疾病诊疗意见自动生成模型的Encoder端,Encoder端用于将输入的文本数据进行编码、压缩,并提取相应的疾病特征,Decoder端用于解码,并生成对应的诊疗意见,所述Decoder端采用多层随机初始化堆叠的Transformer网络;
在本实施例中,诊疗意见生成模型训练模块用于基于不同的眼科疾病对应的训练子集训练诊疗意见生成模型;
在本实施例中,双塔结构模型构建模块用于将单一的诊疗意见生成模型的结构复刻为双塔的形式,构建双塔结构的眼科疾病诊疗意见生成模型,该模块将单一的诊疗意见生成结构复刻为双塔的形式,这样做能有效扩增训练样本的特征空间,提升模型生成诊疗意见的质量,同时,本发明在每个诊疗意见生成网络结构中添加了Dropout算法,该算法能够使训练样本的特征空间随机发生改变,在有限的样本中提升特征多样性,从而实现虚拟数据增强的目的。
在本实施例中,双塔结构模型训练模块用于训练双塔结构的眼科疾病诊疗意见生成模型;
在本实施例中,眼科疾病诊疗意见输出模块用于将医疗文本数据输入至训练后的双塔结构的眼科疾病诊疗意见生成模型,输出眼科疾病诊疗意见。
本发明通过数据预处理和预训练,能够更好的捕获样本特征,利用疾病分类又能将训练样本进一步细致化,最后结合双塔结构和Dropout算法,能够充分扩充样本空间,提高特征的多样性,从而生成高质量的诊疗意见,本发明在生成诊疗意见时能够利用虚拟数据增强技术深层次扩增样本特征空间,能够有效缓解训练样本不足的问题,较现有技术更具有针对性和有效性。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,程序被处理器执行时,实现实施例1的基于虚拟数据增强的眼科疾病诊疗意见生成方法。
实施例4
本实施例提供一种计算设备,该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的基于虚拟数据增强的眼科疾病诊疗意见生成方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于虚拟数据增强的眼科疾病诊疗意见生成方法,其特征在于,包括下述步骤:
在医疗电子病历系统中筛选获取医疗文本数据,对医疗文本数据进行预处理;
利用公开发表的眼科中文文献摘要构建语料库,以BERT深度神经网络为基础构建BERT模型,基于语料库预训练BERT模型;
基于BERT模型进行多标签文本分类,每个输入文本对应一个或多个疾病诊断,使用多个全连接层连接Softmax激活函数作为输出,将输出映射为相应的疾病;
将医疗文本数据训练集根据不同的疾病种类进行划分,得到训练子集,每一个训练子集将对应着一种眼科疾病,相同疾病训练样本的特征分布空间一致;
构建眼科疾病的诊疗意见生成模型,所述诊疗意见生成模型采用Seq2seq的结构,Seq2seq结构由一个Encoder端和Decoder端构成,预训练BERT模型作为疾病诊疗意见自动生成模型的Encoder端,Encoder端用于将输入的文本数据进行编码、压缩,并提取相应的疾病特征,Decoder端用于解码,并生成对应的诊疗意见,所述Decoder端采用多层随机初始化堆叠的Transformer网络;
基于不同的眼科疾病对应的训练子集训练诊疗意见生成模型;
将单一的诊疗意见生成模型的结构复刻为双塔的形式,构建并训练双塔结构的眼科疾病诊疗意见生成模型;
将医疗文本数据输入至训练后的双塔结构的眼科疾病诊疗意见生成模型,输出眼科疾病诊疗意见。
2.根据权利要求1所述的基于虚拟数据增强的眼科疾病诊疗意见生成方法,其特征在于,在医疗电子病历系统中筛选获取医疗文本数据,具体根据各个病种的ICD编码在医疗电子病历系统中筛选获取医疗文本数据。
3.根据权利要求1所述的基于虚拟数据增强的眼科疾病诊疗意见生成方法,其特征在于,所述对医疗文本数据进行预处理,具体步骤包括:
利用正交匹配算法对医疗文本数据进行脱敏化处理;
检查数据的一致性,剔除超出预设范围的异常值,核对并统一文本的格式内容,识别文本中的缺失值,采用删除法或填充法进行处理;
对医疗文本数据进行拆分,拆分得到子数据内容,包括基本信息、主诉、现病史、既往史、眼科专科检查和辅助检查信息;
利用Jieba分词库对脱敏化后和数据拆分后的医疗文本数据进行分词处理和词性标注,根据医学中文及英文主题词表创建词典,对医疗文本数据进行依存句法分析,通过识别否定关系和时间关系筛选否定和对既往病情的陈述;
利用TF-IDF算法计算训练样本中词语的权重,过滤虚词,提取关键字,以及进行命名实体识别。
4.根据权利要求1所述的基于虚拟数据增强的眼科疾病诊疗意见生成方法,其特征在于,在基于BERT模型进行多标签文本分类的步骤之后,还包括数据截断或填补步骤,具体包括:
使用滑动窗口方法把医疗文本数据分成有重叠的若干段,将每一段都当作独立的数据输入BERT模型进行处理,再将各个独立数据得到的结果进行整合,作为医疗文本数据的最终分类输出,对于长度不满足预设条件的医疗文本数据则进行填补,使得模型输入长度保持一致。
6.根据权利要求1所述的基于虚拟数据增强的眼科疾病诊疗意见生成方法,其特征在于,在构建并训练双塔结构的眼科疾病诊疗意见生成模型之后,还包括性能测试步骤,性能指标包括BLEU指标和ROUGE指标,其中,BLEU指标比较候选诊疗意见和眼科医师专业诊疗意见里的n-gram的重合程度,重合程度越高表示生成的诊疗意见质量越高,ROUGE指标根据模型输出诊疗意见和标准参考诊疗意见的公共子序列长度,衡量模型生成意见的质量。
7.一种基于虚拟数据增强的眼科疾病诊疗意见生成系统,其特征在于,包括:医疗文本数据获取模块、数据预处理模块、语料库构建模块、BERT模型构建模块、预训练模块、疾病分类模块、数据划分模块、诊疗意见生成模型构建模块、诊疗意见生成模型训练模块、双塔结构模型构建模块、双塔结构模型训练模块、眼科疾病诊疗意见输出模块;
所述医疗文本数据获取模块用于在医疗电子病历系统中筛选获取医疗文本数据;
所述数据预处理模块用于对医疗文本数据进行预处理;
所述语料库构建模块用于利用公开发表的眼科中文文献摘要构建语料库;
所述BERT模型构建模块用于以BERT深度神经网络为基础构建BERT模型;
所述预训练模块用于基于语料库预训练BERT模型;
所述疾病分类模块用于基于BERT模型进行多标签文本分类,每个输入文本对应一个或多个疾病诊断,使用多个全连接层连接Softmax激活函数作为输出,将输出映射为相应的疾病;
所述数据划分模块用于将医疗文本数据训练集根据不同的疾病种类进行划分,得到训练子集,每一个训练子集将对应着一种眼科疾病,相同疾病训练样本的特征分布空间一致;
所述诊疗意见生成模型构建模块用于构建眼科疾病的诊疗意见生成模型,所述诊疗意见生成模型采用Seq2seq的结构,Seq2seq结构由一个Encoder端和Decoder端构成,预训练BERT模型作为疾病诊疗意见自动生成模型的Encoder端,Encoder端用于将输入的文本数据进行编码、压缩,并提取相应的疾病特征,Decoder端用于解码,并生成对应的诊疗意见,所述Decoder端采用多层随机初始化堆叠的Transformer网络;
所述诊疗意见生成模型训练模块用于基于不同的眼科疾病对应的训练子集训练诊疗意见生成模型;
所述双塔结构模型构建模块用于将单一的诊疗意见生成模型的结构复刻为双塔的形式,构建双塔结构的眼科疾病诊疗意见生成模型;
所述双塔结构模型训练模块用于训练双塔结构的眼科疾病诊疗意见生成模型;
所述眼科疾病诊疗意见输出模块用于将医疗文本数据输入至训练后的双塔结构的眼科疾病诊疗意见生成模型,输出眼科疾病诊疗意见。
8.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一项所述基于虚拟数据增强的眼科疾病诊疗意见生成方法。
9.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-6任一项所述基于虚拟数据增强的眼科疾病诊疗意见生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310233482.4A CN116259422B (zh) | 2023-03-13 | 2023-03-13 | 基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310233482.4A CN116259422B (zh) | 2023-03-13 | 2023-03-13 | 基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116259422A true CN116259422A (zh) | 2023-06-13 |
CN116259422B CN116259422B (zh) | 2024-02-06 |
Family
ID=86686105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310233482.4A Active CN116259422B (zh) | 2023-03-13 | 2023-03-13 | 基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116259422B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014121188A (ja) * | 2012-12-18 | 2014-06-30 | Koichi Suchi | 組織体のヘレン針深度法(H.N.D.M.:HellenNeedleDepthMethod)による制御方法 |
CN111462896A (zh) * | 2020-03-31 | 2020-07-28 | 重庆大学 | 一种基于病案的实时智能辅助icd编码系统和方法 |
CN112164446A (zh) * | 2020-10-13 | 2021-01-01 | 电子科技大学 | 一种基于多网络融合的医疗影像报告生成方法 |
CN112185564A (zh) * | 2020-10-20 | 2021-01-05 | 福州数据技术研究院有限公司 | 一种基于结构化电子病历的眼科疾病预测方法和存储设备 |
CN112608925A (zh) * | 2020-12-24 | 2021-04-06 | 黄欢 | 一种骨发育异常疾病的致病基因col1a2突变及其检测试剂 |
CN112802568A (zh) * | 2021-02-03 | 2021-05-14 | 紫东信息科技(苏州)有限公司 | 基于病历文本的多标签胃部疾病分类方法及装置 |
CN113257410A (zh) * | 2021-06-10 | 2021-08-13 | 南京大经中医药信息技术有限公司 | 一种基于中医临床医疗知识库和深度学习模型的问诊方法 |
CN113284613A (zh) * | 2021-05-24 | 2021-08-20 | 暨南大学 | 一种基于深度学习的人脸诊断系统 |
CN113705191A (zh) * | 2021-04-14 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 样本语句的生成方法、装置、设备及存储介质 |
CN114202061A (zh) * | 2021-12-01 | 2022-03-18 | 北京航空航天大学 | 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质 |
CN114297986A (zh) * | 2021-12-14 | 2022-04-08 | 重庆大学 | 一种基于强化学习的icd自动合并编码系统和方法 |
CN114510559A (zh) * | 2022-01-27 | 2022-05-17 | 福建博思软件股份有限公司 | 一种基于深度学习语义蕴含的商品检索方法及存储介质 |
CN114530223A (zh) * | 2022-01-18 | 2022-05-24 | 华南理工大学 | 一种基于nlp的心血管疾病病历结构化系统 |
CN114842957A (zh) * | 2022-03-28 | 2022-08-02 | 暨南大学 | 一种基于情绪识别的老年痴呆症辅助诊断系统及其方法 |
CN115270718A (zh) * | 2022-07-26 | 2022-11-01 | 中国医学科学院阜外医院 | 一种疾病编码的自动编目方法及系统 |
CN115392259A (zh) * | 2022-10-27 | 2022-11-25 | 暨南大学 | 一种基于对抗训练融合bert的微博文本情感分析方法及系统 |
CN115394393A (zh) * | 2022-09-09 | 2022-11-25 | 中国平安人寿保险股份有限公司 | 智能诊疗数据处理方法、装置、电子设备及存储介质 |
WO2023029506A1 (zh) * | 2021-08-30 | 2023-03-09 | 康键信息技术(深圳)有限公司 | 病情分析方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-13 CN CN202310233482.4A patent/CN116259422B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014121188A (ja) * | 2012-12-18 | 2014-06-30 | Koichi Suchi | 組織体のヘレン針深度法(H.N.D.M.:HellenNeedleDepthMethod)による制御方法 |
CN111462896A (zh) * | 2020-03-31 | 2020-07-28 | 重庆大学 | 一种基于病案的实时智能辅助icd编码系统和方法 |
CN112164446A (zh) * | 2020-10-13 | 2021-01-01 | 电子科技大学 | 一种基于多网络融合的医疗影像报告生成方法 |
CN112185564A (zh) * | 2020-10-20 | 2021-01-05 | 福州数据技术研究院有限公司 | 一种基于结构化电子病历的眼科疾病预测方法和存储设备 |
CN112608925A (zh) * | 2020-12-24 | 2021-04-06 | 黄欢 | 一种骨发育异常疾病的致病基因col1a2突变及其检测试剂 |
CN112802568A (zh) * | 2021-02-03 | 2021-05-14 | 紫东信息科技(苏州)有限公司 | 基于病历文本的多标签胃部疾病分类方法及装置 |
CN113705191A (zh) * | 2021-04-14 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 样本语句的生成方法、装置、设备及存储介质 |
CN113284613A (zh) * | 2021-05-24 | 2021-08-20 | 暨南大学 | 一种基于深度学习的人脸诊断系统 |
CN113257410A (zh) * | 2021-06-10 | 2021-08-13 | 南京大经中医药信息技术有限公司 | 一种基于中医临床医疗知识库和深度学习模型的问诊方法 |
WO2023029506A1 (zh) * | 2021-08-30 | 2023-03-09 | 康键信息技术(深圳)有限公司 | 病情分析方法、装置、电子设备及存储介质 |
CN114202061A (zh) * | 2021-12-01 | 2022-03-18 | 北京航空航天大学 | 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质 |
CN114297986A (zh) * | 2021-12-14 | 2022-04-08 | 重庆大学 | 一种基于强化学习的icd自动合并编码系统和方法 |
CN114530223A (zh) * | 2022-01-18 | 2022-05-24 | 华南理工大学 | 一种基于nlp的心血管疾病病历结构化系统 |
CN114510559A (zh) * | 2022-01-27 | 2022-05-17 | 福建博思软件股份有限公司 | 一种基于深度学习语义蕴含的商品检索方法及存储介质 |
CN114842957A (zh) * | 2022-03-28 | 2022-08-02 | 暨南大学 | 一种基于情绪识别的老年痴呆症辅助诊断系统及其方法 |
CN115270718A (zh) * | 2022-07-26 | 2022-11-01 | 中国医学科学院阜外医院 | 一种疾病编码的自动编目方法及系统 |
CN115394393A (zh) * | 2022-09-09 | 2022-11-25 | 中国平安人寿保险股份有限公司 | 智能诊疗数据处理方法、装置、电子设备及存储介质 |
CN115392259A (zh) * | 2022-10-27 | 2022-11-25 | 暨南大学 | 一种基于对抗训练融合bert的微博文本情感分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
康莉: "基于知识图谱的心血管病问答系统的研究与实现", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》, no. 02, pages 062 - 22 * |
汪晨等: "基于深度学习和遥感影像的松材线虫病疫松树目标检测", 《南京师大学报》, vol. 44, no. 03, pages 84 - 89 * |
Also Published As
Publication number | Publication date |
---|---|
CN116259422B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN111709233B (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
US10929420B2 (en) | Structured report data from a medical text report | |
CN107705839B (zh) | 疾病自动编码方法及系统 | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
CN110162779B (zh) | 病历质量的评估方法、装置及设备 | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
CN107577826A (zh) | 基于原始诊断数据的疾病分类编码方法及系统 | |
CN107731269A (zh) | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 | |
CN106874643A (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 | |
CN111028934B (zh) | 诊断质检方法、装置、电子设备和存储介质 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN111651991B (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN111259111B (zh) | 基于病历的辅助决策方法、装置、电子设备和存储介质 | |
CN111191415A (zh) | 基于原始手术数据的手术分类编码方法 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN115691786A (zh) | 基于电子病历的眼科疾病信息提取方法和辅助诊断装置 | |
CN112037909A (zh) | 诊断信息复核系统 | |
CN112562809A (zh) | 一种基于电子病历文本进行辅助诊断的方法及系统 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN116259422B (zh) | 基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备 | |
CN115862897A (zh) | 一种基于临床数据的症候群监测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |