CN111785387A - 一种使用Bert做疾病标准化映射分类的方法及系统 - Google Patents
一种使用Bert做疾病标准化映射分类的方法及系统 Download PDFInfo
- Publication number
- CN111785387A CN111785387A CN202010627402.XA CN202010627402A CN111785387A CN 111785387 A CN111785387 A CN 111785387A CN 202010627402 A CN202010627402 A CN 202010627402A CN 111785387 A CN111785387 A CN 111785387A
- Authority
- CN
- China
- Prior art keywords
- disease
- name
- standard
- training
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 290
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 290
- 238000013507 mapping Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000003745 diagnosis Methods 0.000 claims abstract description 108
- 238000012549 training Methods 0.000 claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 8
- 230000008707 rearrangement Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000021110 pickles Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种使用Bert做疾病标准化映射分类的方法及系统,所述方法包括:对获取的原始疾病诊断数据进行标注,将其映射到预设的标准规范上,以形成两个训练数据集;通过Bert对两个训练数据集进行学习训练以得到两层训练模型;通过两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果;再对中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称;其效果是:通过形成的两个训练数据集为形成两层模型训练提供了可行性,能够对疾病诊断数据做标准化映射,使得医疗病案专家在对医院的疾病诊断名称做标准化映射时,可提高处理效率,同时对待处理的疾病诊断名称进行处理,也相应提高了最终映射的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种使用Bert做疾病标准化映射分类的方法及系统。
背景技术
在医院的临床诊断中,医生根据病人情况给出疾病的诊断名称。由于地域、文化、习惯等差异,医生对疾病诊断名称的书写和录入并不规范,具有较大的随意性。而且各个医院因为医学研究和临床上的需求,编制了各自的疾病名称和编码体系,虽然我国也有统一的标准:“疾病诊断分类与代码”,但在很多实际应用场景下需要在不同标准之间进行映射。当前的处理方式多采用人工处理的方式,即由专业的医疗病案专家逐一确定疾病的标准名称,或者映射到其他标准。进而造成效率极低和带来的成本极高的缺陷。虽然现有技术中,也出现了一些计算机软件辅助工具,但也多是字符级的模糊匹配,准确率不高,对医疗病案专家的帮助有限,仍存在效率不高的缺陷。
发明内容
本发明实施例的目的是提供一种使用Bert做疾病标准化映射分类的方法及系统,以解决现有技术中,医疗病案专家处理时,仍存在效率不高的缺陷。
第一方面:本发明实施例提供了一种使用Bert做疾病标准化映射分类的方法,所述方法包括:
对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码;
通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型;
通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果;
对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称。
作为本发明的一个优选的技术方案,所述方法还包括:
在学习训练前进行预处理,所述预处理具体包括:
去掉空值;
去掉空格;
去掉停用词;
对于编码与疾病诊断名称位置错乱的,调换编码与疾病诊断名称的位置。
作为本发明的一个优选的技术方案,对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集,具体包括:
通过病案专家进行标注,将所述疾病诊断名称映射到国家疾病标准名称上,以形成所述疾病诊断名称映射到疾病标准名称的标准疾病名称训练数据集;
再根据所映射的国家疾病标准名称,基于疾病诊断分类与代码为每条原始疾病诊断数据进行标准化分类,以形成所述疾病诊断名称映射到疾病标准分类的标准疾病分类训练数据集。
作为本发明的一个优选的技术方案,通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型,具体包括:
使用Bert针对所述标准疾病名称训练数据集进行学习训练,获得疾病名称模型;
使用Bert针对所述标准疾病分类训练数据集进行学习训练,获得疾病分类模型。
作为本发明的一个优选的技术方案,通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果,具体包括:
通过所述疾病名称模型为待处理的疾病诊断名称进行分类计算,以获得该疾病诊断名称数据所映射的疾病标准名称,并选取概率排名前n个疾病标准名称;
通过所述疾病分类模型为待分类的疾病诊断名称进行分类,以获得该疾病诊断名称数据所映射的疾病标准分类,选取概率排名前m个疾病标准分类;
所述n个疾病标准名称和m个疾病标准分类即为所述中间处理结果。
作为本发明的一个优选的技术方案,对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称,具体包括:
对n个疾病标准名称中的各元素计算其疾病名称权重值;
对m个疾病标准分类中的各元素计算其疾病分类权重值;
再根据所述疾病名称权重值和疾病分类权重值计算n个疾病标准名称中各元素的二次权重,并根据所述二次权重的大小进行排序,以得到所述最终排列。
作为本发明的一个优选的技术方案,所述方法还包括:
接收并展示所述最终排列的多个疾病标准名称。
第二方面:本发明实施例提供了一种使用Bert做疾病标准化映射分类的系统,所述系统包括:
数据预处理模块,用于对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码;
Bert训练学习模块,用于通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型;
数据分类模块,用于通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果;
分类结果重排模块,用于对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称;
用户界面模块,用于接收并展示所述最终排列的多个疾病标准名称。
作为本发明的一个优选的技术方案,所述数据预处理模块,还用于在学习训练前进行预处理,所述预处理具体包括:
去掉空值;
去掉空格;
去掉停用词;
对于编码与疾病诊断名称位置错乱的,调换编码与疾病诊断名称的位置。
采用上述技术方案,具有以下优点:本发明提出的一种使用Bert做疾病标准化映射分类的方法及系统,通过形成的训练数据集为模型训练提供了可行性,能够对疾病诊断数据做标准化映射,使得医疗病案专家在对医院的疾病诊断名称做标准化映射时,可提高处理效率,同时对待处理的疾病诊断名称进行双重处理,也相应提高了最终映射的准确度。
附图说明
图1为本发明实施例提供的一种使用Bert做疾病标准化映射分类的方法流程图;
图2为本发明实施例提供的一种疾病诊断分类的分层结构示意图;
图3为本发明实施例提供的一种使用Bert做疾病标准化映射分类的系统结构图。
具体实施方式
为了使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
参考图1至图2所示,本发明实施例提供的一种使用Bert做疾病标准化映射分类的方法,所述方法包括:
S101,对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码。
具体地,从医院收集原始疾病诊断数据,由病案专家人工进行标注,数据格式例如:“I49.200房室交界性逸搏”。所提供的数据存储在excel格式的表格中,由病案专家人工进行标注,映射到国家疾病标准名称和编码上,例如前述“I49.200房室交界性逸搏”由专家判断映射为“I49.403结性逸搏”,并填写在excel表格中,形成疾病诊断名称映射到疾病标准名称的“标准疾病名称”训练数据集,excel表格中有四列:诊断疾病编码,诊断疾病名称,标准疾病编码,标准疾病名称;
同时,根据所映射的国家疾病标准名称,通过python程序,基于“疾病诊断分类与代码国家临时版本1.1”为每条疾病语料标注疾病的“分类”。“疾病诊断分类与代码国家临时版本1.1”共分四个层级:“分类”、“类目”、“亚目”、“疾病”。可参照图2所示;“分类”共有311种,“疾病”共有34969种;
例如前文所述的例子“I49.200房室交界性逸搏”映射的病标准名称为“I49.403结性逸搏”,其所属的疾病“分类”为“I30-I52其他类型的心脏病”。(标准化疾病分类共计311种)形成疾病诊断名称映射到疾病标准分类的“标准疾病分类”训练数据集,可存储在单独的一个excel表格中,excel表格中有四列:诊断疾病编码,诊断疾病名称,标准疾病分类编码,标准疾病分类名称;其中,python程序中所用到的库包括pandas和numpy。
所述“标准疾病名称”训练数据集和“标准疾病分类”训练数据集即为形成的两个训练数据集。
应用时,为了后期更好的训练效果,所述方法还包括:
在学习训练前进行预处理;可对原始疾病诊断数据和映射得到的国家疾病标准数据进行预处理,具体为:
去除掉excel表格中诊断疾病名称数据中的空值,删除掉空格,并根据特殊字符停用词表去除特殊字符;对于编码与名称错位的情况作出判断,如果诊断名称单元格中检测不到中文字符,而诊断编码单元格中存在中文字符,则对编码和名称的位置做调换,预处理完成后,生成新的excel数据表格;其中,在数据预处理中还使用Sklearn包用于切分数据集、打乱数据集和复制数据等处理,使用Pickle包,对目标列进行序列化生成数据字典,提高数据类别的检索效率。
S102,通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型。
具体地,通过前文描述可知,所述两个训练数据集包括包括标准疾病名称训练数据集和标准疾病分类训练数据集,Bert是自然语言处理中的一种技术,Bert是经过预训练的Transformer,预训练中使用了“语言遮蔽”和“下句预测”技术,所以在多项自然语言处理任务中取得了极好的效果;
使用Bert-Base Chinese预训练模型,针对标注的“标准疾病名称”数据训练集进行学习训练,获得“疾病名称模型”;
使用Bert-Base Chinese预训练模型,使用Bert针对标注的“标准疾病分类”数据训练集进行学习训练,获得“疾病分类模型”。
S103,通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果。
具体地,通过前文描述可知,所述两层训练模型包括疾病名称模型和疾病分类模型,即形成一个二层模型,在这个二层模型中,由于每一种“疾病名称”一定属于唯一一种“分类”,“分类”是包含“疾病名称”的更大的概念,因此,可以理解疾病名称模型为小分类模型,疾病分类模型为大分类模型;
使用生成的“疾病名称模型”为待分类的一条疾病诊断名称进行分类,以获得该疾病诊断名称数据所映射的疾病标准名称,可选取概率排名前10的疾病标准名称;
同样的,使用生成的“疾病分类模型”为待分类的疾病诊断名称进行分类,以获得该疾病诊断名称数据所映射的疾病标准分类,可选取概率排名前10的疾病标准分类;需要说明的是,这里的个数只是举例说明,并不是对其进行限制。
S104,对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称。
具体地,对n个疾病标准名称中的各元素计算其疾病名称权重值;
对m个疾病标准分类中的各元素计算其疾病分类权重值;
再根据所述疾病名称权重值和疾病分类权重值计算n个疾病标准名称中各元素的二次权重,并根据所述二次权重的大小进行排序,以得到所述最终排列;
应用时,根据前文所述,n与m均取10,更为细致的步骤为:
使用大分类模型“疾病分类模型”预测获得的“疾病分类”值为集合C={c1.......c10},其中ci是一个子集合,其中包含了多个“疾病名称”元素;
使用小分类模型“疾病名称模型”预测的“疾病名称”为集合D={d1......d10},其中di是一个元素,代表一个“疾病名称”。任何一个di“疾病名称”必须唯一属于一个“疾病分类”,可从“疾病诊断分类与代码国家临时版本1.1”中查找到di对应的“疾病分类”;
应用时,一种更简单的重排方法为,可只选取概率排名前3的疾病标准分类,假设为cj,j=0-2;
重新排序后标准疾病名称的前3假设为ro,o=0-2;
针对c0按照i的大小顺序检索di中是否存在d∈c0,如果有,则按i顺序取前3,构成集合即为ro;如果d∈c0的数量不足3个,则针对c1按照i的大小顺序检索di中是否存在d∈c1,按i顺序取d的值与d∈c0的值合并,且总数为3,三个di的值为最终结果;如果总数不足3,则针对c2按照i的大小顺序检索di中是否存在d∈c2,按i顺序取d的值与d∈c0和d∈c1的值合并,且总数达到3,三个di的值为最终结果;如果总数不足3,则按i顺序取di,与d∈c0和d∈c1和d∈c2的值合并,取总数为3,三个di的值为最终结果ro。
最后,在基于Django框架开发的web交互页面上展现生成的3个结果,推荐给医疗病案专家,供其选择正确的疾病名称,此步骤还使用Fastapi提供接口,为Web用户界面提供数据。
通过Bert预训练为小样本下模型训练提供了可行性,对诊断疾病名称数据的标准化映射自动化,起到了很好的效果,一条命中准确率可达到91%;
二层模型进一步解决了“疾病”条目过多,单条条目下可用训练的标注语料过少的问题,结合“二层模型分类结果重排机制”三条命中准确率可达到97%。
通过上述方案,通过形成的两个训练数据集为形成两层模型训练提供了可行性,能够对疾病诊断数据做疾病名称和疾病分类的两层标准化映射,使得医疗病案专家在对医院的疾病诊断名称做标准化映射时,可提高处理效率,同时对待处理的疾病诊断名称进行分层预测处理,并通过重排机制对预测结果进行排序,也相应提高了最终映射的准确度。
参考图3,基于上述同样的发明构思,本发明实施例还提供了一种使用Bert做疾病标准化映射分类的系统,所述系统包括:
数据预处理模块,用于对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码。
具体地,通过病案专家进行标注,将所述疾病诊断名称映射到国家疾病标准名称上,以形成所述疾病诊断名称映射到疾病标准名称的标准疾病名称训练数据集;
再根据所映射的国家疾病标准名称,基于疾病诊断分类与代码为每条原始疾病诊断数据进行标准化分类,以形成所述疾病诊断名称映射到疾病标准分类的标准疾病分类训练数据集。
Bert训练学习模块,用于通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型。
具体地,使用Bert-Base Chinese预训练模型,针对标注的“标准疾病名称”数据训练集进行学习训练,获得“疾病名称模型”;
使用Bert-Base Chinese预训练模型,使用Bert针对标注的“标准疾病分类”数据训练集进行学习训练,获得“疾病分类模型”。
数据分类模块,用于通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果。
具体地,通过所述疾病名称模型为待处理的疾病诊断名称进行分类计算,以获得该疾病诊断名称数据所映射的疾病标准名称,并选取概率排名前n个疾病标准名称;
通过所述疾病分类模型为待分类的疾病诊断名称进行分类,以获得该疾病诊断名称数据所映射的疾病标准分类,选取概率排名前m个疾病标准分类;
所述n个疾病标准名称和m个疾病标准分类即为所述中间处理结果。
分类结果重排模块,用于对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称;
具体地,对n个疾病标准名称中的各元素计算其疾病名称权重值;
对m个疾病标准分类中的各元素计算其疾病分类权重值;
再根据所述疾病名称权重值和疾病分类权重值计算n个疾病标准名称中各元素的二次权重,并根据所述二次权重的大小进行排序,以得到所述最终排列;其细致的处理步骤,参见前文所述,在此不再赘述。
用户界面模块,用于接收并展示所述最终排列的多个疾病标准名称。
具体地,基于Django框架开发的web交互页面,用于接收需要分类的疾病诊断名称数据,并传递到数据分类模块,最终接收从分类结果重排模块生成的n个疾病标准名称结果,并展现在web页面上。
进一步的,所述数据预处理模块,还用于在学习训练前进行预处理,所述预处理具体包括:
去掉空值;
去掉空格;
去掉停用词;
对于编码与疾病诊断名称位置错乱的,调换编码与疾病诊断名称的位置。
需要说明的是,上述各模块中,相关的具体实施方式可参见前文所述,在此不再重复描述;本系统使用python语言开发,其训练和预测基于pytorch框架下实现,其web使用Django框架。
上述系统的应用,将门诊提供的疾病诊断名称数据映射到标准化疾病名称和编码上,提供可能性最高的多条标准化名称和编码,推荐给病案专家,供病案专家甄选,解决了纯手工作业的低效问题和计算机辅助工具准确率不高,只能起到有限帮助的缺陷。在将Bert技术应用到疾病标准化映射和推荐中,解决了标准化“疾病”类目过多,针对每一种“疾病”类目的训练数据过少的问题。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体地”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
最后需要说明的是,以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。
Claims (9)
1.一种使用Bert做疾病标准化映射分类的方法,其特征在于,所述方法包括:
对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码;
通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型;
通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果;
对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称。
2.根据权利要求1所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,所述方法还包括:
在学习训练前进行预处理,所述预处理具体包括:
去掉空值;
去掉空格;
去掉停用词;
对于编码与疾病诊断名称位置错乱的,调换编码与疾病诊断名称的位置。
3.根据权利要求1所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集,具体包括:
通过病案专家进行标注,将所述疾病诊断名称映射到国家疾病标准名称上,以形成所述疾病诊断名称映射到疾病标准名称的标准疾病名称训练数据集;
再根据所映射的国家疾病标准名称,基于疾病诊断分类与代码为每条原始疾病诊断数据进行标准化分类,以形成所述疾病诊断名称映射到疾病标准分类的标准疾病分类训练数据集。
4.根据权利要求3所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型,具体包括:
使用Bert针对所述标准疾病名称训练数据集进行学习训练,获得疾病名称模型;
使用Bert针对所述标准疾病分类训练数据集进行学习训练,获得疾病分类模型。
5.根据权利要求4所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果,具体包括:
通过所述疾病名称模型为待处理的疾病诊断名称进行分类计算,以获得该疾病诊断名称数据所映射的疾病标准名称,并选取概率排名前n个疾病标准名称;
通过所述疾病分类模型为待分类的疾病诊断名称进行分类,以获得该疾病诊断名称数据所映射的疾病标准分类,选取概率排名前m个疾病标准分类;
所述n个疾病标准名称和m个疾病标准分类即为所述中间处理结果。
6.根据权利要求5所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称,具体包括:
对n个疾病标准名称中的各元素计算其疾病名称权重值;
对m个疾病标准分类中的各元素计算其疾病分类权重值;
再根据所述疾病名称权重值和疾病分类权重值计算n个疾病标准名称中各元素的二次权重,并根据所述二次权重的大小进行排序,以得到所述最终排列。
7.根据权利要求1至6任一所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,所述方法还包括:
接收并展示所述最终排列的多个疾病标准名称。
8.一种使用Bert做疾病标准化映射分类的系统,其特征在于,所述系统包括:
数据预处理模块,用于对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码;
Bert训练学习模块,用于通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型;
数据分类模块,用于通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果;
分类结果重排模块,用于对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称;
用户界面模块,用于接收并展示所述最终排列的多个疾病标准名称。
9.根据权利要求8所述的一种使用Bert做疾病标准化映射分类的系统,其特征在于,所述数据预处理模块,还用于在学习训练前进行预处理,所述预处理具体包括:
去掉空值;
去掉空格;
去掉停用词;
对于编码与疾病诊断名称位置错乱的,调换编码与疾病诊断名称的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010627402.XA CN111785387B (zh) | 2020-07-02 | 2020-07-02 | 一种使用Bert做疾病标准化映射分类的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010627402.XA CN111785387B (zh) | 2020-07-02 | 2020-07-02 | 一种使用Bert做疾病标准化映射分类的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111785387A true CN111785387A (zh) | 2020-10-16 |
CN111785387B CN111785387B (zh) | 2024-06-11 |
Family
ID=72757946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010627402.XA Active CN111785387B (zh) | 2020-07-02 | 2020-07-02 | 一种使用Bert做疾病标准化映射分类的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785387B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687369A (zh) * | 2020-12-31 | 2021-04-20 | 杭州依图医疗技术有限公司 | 医学数据的训练方法、装置及存储介质 |
CN112700880A (zh) * | 2020-12-31 | 2021-04-23 | 杭州依图医疗技术有限公司 | 优化方法、训练方法、模型、处理装置及存储介质 |
CN113823404A (zh) * | 2021-08-26 | 2021-12-21 | 山东健康医疗大数据有限公司 | 基于医疗大数据的专病建设医疗术语标准化的方法 |
CN114388085A (zh) * | 2021-11-23 | 2022-04-22 | 皖南医学院第一附属医院(皖南医学院弋矶山医院) | 一种基于病案的实时智能辅助icd编码方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446260A (zh) * | 2018-02-06 | 2018-08-24 | 天津艾登科技有限公司 | 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN110277147A (zh) * | 2019-04-25 | 2019-09-24 | 胡盛寿 | 一种实现病案诊断智能化编目的系统及方法 |
CN110299202A (zh) * | 2019-07-01 | 2019-10-01 | 泰康保险集团股份有限公司 | 智能疾病诊断方法、装置、设备及存储介质 |
CN110322969A (zh) * | 2019-07-03 | 2019-10-11 | 北京工业大学 | 一种基于宽度学习的fMRI数据分类方法 |
CN110491465A (zh) * | 2019-08-20 | 2019-11-22 | 山东众阳健康科技集团有限公司 | 基于深度学习的疾病分类编码方法、系统、设备及介质 |
US20190374160A1 (en) * | 2017-01-05 | 2019-12-12 | The Trustees Of Princeton University | Hierarchical health decision support system and method |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
US20200065384A1 (en) * | 2018-08-26 | 2020-02-27 | CloudMinds Technology, Inc. | Method and System for Intent Classification |
CN110991170A (zh) * | 2019-12-05 | 2020-04-10 | 清华大学 | 基于电子病历信息的中文疾病名称智能标准化方法与系统 |
CN111046882A (zh) * | 2019-12-05 | 2020-04-21 | 清华大学 | 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统 |
CN111180062A (zh) * | 2019-12-12 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 基于原始诊断数据的疾病分类编码智能推荐方法 |
CN111180060A (zh) * | 2019-11-25 | 2020-05-19 | 云知声智能科技股份有限公司 | 一种疾病诊断自动编码方法及装置 |
RU2723674C1 (ru) * | 2019-11-29 | 2020-06-17 | Денис Станиславович Тарасов | Способ прогнозирования диагноза на основе обработки данных, содержащих медицинские знания |
-
2020
- 2020-07-02 CN CN202010627402.XA patent/CN111785387B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190374160A1 (en) * | 2017-01-05 | 2019-12-12 | The Trustees Of Princeton University | Hierarchical health decision support system and method |
CN108446260A (zh) * | 2018-02-06 | 2018-08-24 | 天津艾登科技有限公司 | 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
US20200065384A1 (en) * | 2018-08-26 | 2020-02-27 | CloudMinds Technology, Inc. | Method and System for Intent Classification |
CN110277147A (zh) * | 2019-04-25 | 2019-09-24 | 胡盛寿 | 一种实现病案诊断智能化编目的系统及方法 |
CN110299202A (zh) * | 2019-07-01 | 2019-10-01 | 泰康保险集团股份有限公司 | 智能疾病诊断方法、装置、设备及存储介质 |
CN110322969A (zh) * | 2019-07-03 | 2019-10-11 | 北京工业大学 | 一种基于宽度学习的fMRI数据分类方法 |
CN110491465A (zh) * | 2019-08-20 | 2019-11-22 | 山东众阳健康科技集团有限公司 | 基于深度学习的疾病分类编码方法、系统、设备及介质 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111180060A (zh) * | 2019-11-25 | 2020-05-19 | 云知声智能科技股份有限公司 | 一种疾病诊断自动编码方法及装置 |
RU2723674C1 (ru) * | 2019-11-29 | 2020-06-17 | Денис Станиславович Тарасов | Способ прогнозирования диагноза на основе обработки данных, содержащих медицинские знания |
CN110991170A (zh) * | 2019-12-05 | 2020-04-10 | 清华大学 | 基于电子病历信息的中文疾病名称智能标准化方法与系统 |
CN111046882A (zh) * | 2019-12-05 | 2020-04-21 | 清华大学 | 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统 |
CN111180062A (zh) * | 2019-12-12 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 基于原始诊断数据的疾病分类编码智能推荐方法 |
Non-Patent Citations (2)
Title |
---|
刘潇霞;杨媛媛;侯飞;李林涛;比确子拉;李晓喻;刘罡;: "国际疾病分类(肿瘤)智能编码体系及质量评价系统设计", 肿瘤预防与治疗, no. 02, 25 February 2020 (2020-02-25), pages 78 - 82 * |
李玉萍;: "疾病诊断名称与分类编码对照对提升病案首页质量的意义", 医学信息, no. 09, 1 May 2020 (2020-05-01), pages 26 - 27 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687369A (zh) * | 2020-12-31 | 2021-04-20 | 杭州依图医疗技术有限公司 | 医学数据的训练方法、装置及存储介质 |
CN112700880A (zh) * | 2020-12-31 | 2021-04-23 | 杭州依图医疗技术有限公司 | 优化方法、训练方法、模型、处理装置及存储介质 |
CN112700880B (zh) * | 2020-12-31 | 2024-06-18 | 杭州依图医疗技术有限公司 | 优化方法、训练方法、模型、处理装置及存储介质 |
CN113823404A (zh) * | 2021-08-26 | 2021-12-21 | 山东健康医疗大数据有限公司 | 基于医疗大数据的专病建设医疗术语标准化的方法 |
CN114388085A (zh) * | 2021-11-23 | 2022-04-22 | 皖南医学院第一附属医院(皖南医学院弋矶山医院) | 一种基于病案的实时智能辅助icd编码方法及系统 |
CN114388085B (zh) * | 2021-11-23 | 2022-09-09 | 皖南医学院第一附属医院(皖南医学院弋矶山医院) | 一种基于病案的实时智能辅助icd编码方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111785387B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
CN109935336B (zh) | 一种儿童呼吸科疾病的智能辅助诊断系统 | |
CN111785387A (zh) | 一种使用Bert做疾病标准化映射分类的方法及系统 | |
Syeda-Mahmood et al. | Chest x-ray report generation through fine-grained label learning | |
JP3856778B2 (ja) | 複数言語を対象とした文書分類装置及び文書分類方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN108062978B (zh) | 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法 | |
CN110838368A (zh) | 一种基于中医临床知识图谱的机器人主动问诊方法 | |
CN109994216A (zh) | 一种基于机器学习的icd智能诊断编码方法 | |
JPH07295989A (ja) | データを解析するためのインタプリタを形成する装置 | |
CN113779179B (zh) | 一种基于深度学习和知识图谱的icd智能编码的方法 | |
CN112352243A (zh) | 专家报告编辑器 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Hoogi et al. | Natural language generation model for mammography reports simulation | |
CN112215007B (zh) | 基于leam模型的机构命名实体归一化方法和系统 | |
Rodin et al. | Multitask and multimodal neural network model for interpretable analysis of x-ray images | |
CN113342973A (zh) | 一种基于疾病二分类器的辅助诊断模型的诊断方法 | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN113643825B (zh) | 基于临床关键特征信息的医疗案例知识库构建方法和系统 | |
US20210174027A1 (en) | Assertion Detection in Multi-Labelled Clinical Text using Scope Localization | |
Kivotova et al. | Extracting clinical information from chest X-ray reports: A case study for Russian language | |
CN114582449A (zh) | 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |