CN113643825B - 基于临床关键特征信息的医疗案例知识库构建方法和系统 - Google Patents
基于临床关键特征信息的医疗案例知识库构建方法和系统 Download PDFInfo
- Publication number
- CN113643825B CN113643825B CN202110765456.7A CN202110765456A CN113643825B CN 113643825 B CN113643825 B CN 113643825B CN 202110765456 A CN202110765456 A CN 202110765456A CN 113643825 B CN113643825 B CN 113643825B
- Authority
- CN
- China
- Prior art keywords
- knowledge base
- case
- case knowledge
- medical
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明提供一种基于临床关键特征信息的医疗案例知识库构建方法、系统、存储介质和电子设备,涉及医疗案例知识库技术领域。本发明在医疗案例知识库的构建过程中充分融合了医生的临床诊断推理过程,实现了医生的专业知识与机器算法的协同,使案例构建流程符合医生知识推理的过程并实现了案例知识的“可解释”;提出的医疗案例知识库构建的整体化框架,包括案例筛选、分类、评价,根据案例构建的全流程而不仅是某一子任务的优化,以总体案例质量保证的为总目标实现医疗案例知识库的智能化构建,实现了案例的质量控制。
Description
技术领域
本发明涉及医疗案例知识库技术领域,具体涉及一种基于临床关键特征信息的医疗案例知识库构建方法、系统、存储介质和电子设备。
背景技术
电子病历是由医疗机构以电子化方式创建、保存和使用的,针对患者临床诊疗和指导干预信息的数据所集成,是患者在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,蕴含着丰富的疾病知识。为更好的提供医生诊断过程中的知识支持,医疗机构常根据电子病历,对其进行人工处理进而构建临床诊断案例知识库,将其用于临床教学。
目前,为实现医疗案例知识库的智能化构建,研究人员常结合自然语言处理技术提出构建方案,构建流程一般包括:医学词典的构建、医学分词、医学词性标注、医学命名实体识别、关键特征信息抽取等步骤。
但是,现有方式大多仅从技术的视角进行案例知识库的构建,难以满足实际需要,如何结合新一代信息技术进行案例知识库的智能化构建成为当下研究的热点问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于临床关键特征信息的医疗案例知识库构建方法、系统、存储介质和电子设备,解决了现有构建方式大多仅从技术的视角进行案例知识库的构建,难以满足实际需要的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于临床关键特征信息的医疗案例知识库构建方法,包括:
S1、获取并预处理电子病历数据,得到规范化数据;
S2、根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;
S3、根据所述关键特征信息,得到初始案例知识库;
S4、根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
S5、根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库。
优选的,所述步骤S2具体包括:
S21、根据医生给予的权威疾病知识,确定所述规范化数据中的关键特征信息;
S22、采用正则表达式抽取所述规范化数据中的结构化数值数据以及对应的指标名,得到关键数据信息;
S23、采用命名实体识别方法抽取所述规范化数据中的非结构化文本数据以及对应的实体提及,得到关键文本信息;
S24、按照患者ID匹配所述关键数据信息和关键文本信息,得到所述关键特征信息。
优选的,所述步骤S23具体包括:
S231、根据预先训练的医学领域字向量词典,得到所述非结构化文本数据的字向量矩阵;
S232、将所述字向量矩阵输入多个预先构建的分词器,得到分词后的句子序列;
S233、将所述分词后的句子序列输入多个预先构建好的词性标记器,得到词性标记结果;
S234、根据所述词性标记结果,获取所述关键文本信息。
优选的,所述步骤S4具体包括:
根据所述审核指标X=(x1,x2,…,xi,…),其中x1表示知识丰富度、x2表示疗效或者治疗时间、xn表示其他审核指标子项,采用命名实体识别方法在所述初始案例知识库中筛选高质量案例,得到高质案例知识库。
优选的,所述步骤S5具体包括:
根据医生针对案例易理解程度提出的名医堂案例分类指标Z=(z1,z2,…,zi,…),其中z1表示案例的用词准确性、z2表示简洁性、zi表示其他名医堂案例分类指标子项,采用句法分析方法将所述高质案例知识库进行分类,得到名医堂案例知识库;
根据医生针对罕见程度提出的罕见疾病分类指标,所述罕见疾病分类指标包括疾病出现频率Y,采用统计方法将所述高质案例知识库进行分类,得到罕见疾病案例知识库。
优选的,所述预先构建的分词器训练过程中的第一损失函数为:
其中,为正确字符标签对应概率值,/>户表示字符总数,p表示第p个字符;
所述预先构建的词性标记器训练过程中的第二损失函数为:
其中,为正确词性标签对应的概率值,/>Q表示句子分词后词的个数,q表示分词后的第q个词;
总体损失函数的计算:
Loss=Loss1+Loss2 (3)。
优选的,所述步骤S1中预处理过程包括数据的去重、缺失值处理、异常值处理。
一种基于临床关键特征信息的医疗案例知识库构建系统,包括:
预处理模块,用于获取并预处理电子病历数据,得到规范化数据;
抽取模块,用于根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;
获取模块,用于根据所述关键特征信息,得到初始案例知识库;
筛选模块,用于根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
分类模块,用于根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库。
一种存储介质,其存储有用于基于临床关键特征信息的医疗案例知识库构建的计算机程序,其中,所述计算机程序使得计算机执行如上所述的医疗案例知识库构建方法。
一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的医疗案例知识库构建方法。
(三)有益效果
本发明提供了一种基于临床关键特征信息的医疗案例知识库构建方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;根据所述关键特征信息,得到初始案例知识库;根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库。即在医疗案例知识库的构建过程中充分融合了医生的临床诊断推理过程,实现了医生的专业知识与机器算法的协同,使案例构建流程符合医生知识推理的过程并实现了案例知识的“可解释”;提出的医疗案例知识库构建的整体化框架,包括案例筛选、分类、评价,根据案例构建的全流程而不仅是某一子任务的优化,以总体案例质量保证为总目标实现医疗案例知识库的智能化构建,实现了案例的质量控制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于临床关键特征信息的医疗案例知识库构建方法的流程示意图;
图2为本发明实施例提供的另一种基于临床关键特征信息的医疗案例知识库构建方法的详细流程示意图;
图3为本发明实施例提供的一种基于临床关键特征信息的医疗案例知识库构建系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于临床关键特征信息的医疗案例知识库构建方法、系统、存储介质和电子设备,解决了现有构建方式大多仅从技术的视角进行案例知识库的构建,难以满足实际需要的技术问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;根据所述关键特征信息,得到初始案例知识库;根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库。即在医疗案例知识库的构建过程中充分融合了医生的临床诊断推理过程,实现了医生的专业知识与机器算法的协同,使案例构建流程符合医生知识推理的过程并实现了案例知识的“可解释”;提出的医疗案例知识库构建的整体化框架,包括案例筛选、分类、评价,根据案例构建的全流程而不仅是某一子任务的优化,以总体案例质量保证为总目标实现医疗案例知识库的智能化构建,实现了案例的质量控制。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例:
第一方面,如图1所示,本发明实施例提供了一种基于临床关键特征信息的医疗案例知识库构建方法,包括:
S1、获取并预处理电子病历数据,得到规范化数据;
S2、根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;
S3、根据所述关键特征信息,得到初始案例知识库;
S4、根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
S5、根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库。
本发明实施例在医疗案例知识库的构建过程中充分融合了医生的临床诊断推理过程,实现了医生的专业知识与机器算法的协同,使案例构建流程符合医生知识推理的过程并实现了案例知识的“可解释”;提出的医疗案例知识库构建的整体化框架,包括案例筛选、分类、评价,根据案例构建的全流程而不仅是某一子任务的优化,以总体案例质量保证为总目标实现医疗案例知识库的智能化构建,实现了案例的质量控制。
下面将结合具体的内容详细介绍各个步骤:
S1、获取并预处理电子病历数据,得到规范化数据。
本发明实施例通过接口程序对医院HIS、LIS、PACS等系统中包含的各类病历数据进行获取,并对报告中的内容进行数据清洗。所述HIS、LIS、PACS系统分别是指医院信息系统(Hospital Information System,HIS),实验室信息管理系统(Laboratory InformationManagement System,LIS),医学影像存档与通讯系统(Picture archiving andcommunication systems,PACS)。
所述数据清洗包括数据的去重(如“否认否认遗传病史”改为“否认遗传病史”)、缺失值处理(剔除含有缺失值的病历)、异常值处理(“60.0岁”改为“60岁”),得到规范化电子病历数据,即所述规范化数据。
S2、根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息。
本步骤对规范化的电子病历数据进行关键特征信息抽取,抽取过程充分融合医生给予的权威疾病知识,包括:(1)确定关键特征信息:医生根据权威的疾病知识(包括临床路径、诊断指南、疾病共识)确定规范化数据中的关键特征信息(如糖尿病的空腹血糖,餐后血糖,糖化血红蛋白及口服葡萄糖耐量试验等关键指标);(2)抽取关键特征信息:根据确定的关键特征信息结合自然语言处理技术进行算法设计,实现关键特征信息的智能抽取,得到后续构建初始案例知识库的案例数据。
所述步骤S2具体包括:
S21、根据医生给予的权威疾病知识,确定所述规范化数据中的关键特征信息。
S22、采用正则表达式抽取所述规范化数据中的结构化数值数据以及对应的指标名,得到关键数据信息。
S23、采用命名实体识别方法抽取所述规范化数据中的非结构化文本数据(如主述、既往史、现病史)以及对应的实体提及,得到关键文本信息;具体包括:
S231、根据预先训练的医学领域字向量词典,得到所述非结构化文本数据的字向量矩阵。
采用已有研究基于skip-gram训练方法训练好的医学领域字向量词典,所述医学领域字向量词典维度为Z×d,每个字的维度为d,字典大小为Z,输入字符数为P的规范化数据,经过词嵌入后的句子S=(c(1),c(2),…,c(p),…c(P)),维度为P×d。
S232、将所述字向量矩阵输入多个预先构建的分词器,得到分词后的句子序列。
所述多个预先构建的分词器权重矩阵WS=(WS(1),WS(2),…,WS(i),…WS(M)),WS(i)为第i个分词器权重,取值为0~1,字向量矩阵S经过多个分词器训练,输出向量H=(h(1),h(1),…,h(p),…,h(P)),h(p)代表第p个字符的向量(h(p)∈R4×M),每一行分别表示字符p属于{B:开始字符,M:中间字符,E:结束字符,S:单独一个词}的概率,列表示不同的分词器。将h(p)中的每一列元素均乘以对应分词器的权重WS(i)得到h(p)′,再将h(p)′每一行的所有元素相加,然后按列归一化,得到向量 中值最大的元素对应行即为该字符所对应的{B,M,E,S}标签,得到最终分词结果。
S233、将所述分词后的句子序列输入多个预先构建好的词性标记器,得到词性标记结果。
若分词序列为Sws=(ws(1),ws(2),…,ws(q),…wS(Q)),wS(q)对应第q个词,ws(q)对应字符数为T,ws(q)每一个字符对应向量为/>将ws(q)每一行元素相加,并按列归一化得到每个词的列向量wq(wq∈R4×1),分词序列Sws的向量表示为SV=(w(1),w(2),…,w(q),…w(Q))。
将SV输入多个词性标记器中进行训练,标记器权重为WT=(WT(1),WT(2),…,WT(j),…WT(N)),WT(j)为第j个标记器权重,取值为0-1。每多个标记器训练后输出向量E=(e(1),e(1),...,e(q),...,e(Q))。
e(q)代表第q个字符的向量(e(q)∈R7×N),每一行分别表示词q属于{CL1:患者信息,CL2:时间,CL3:疾病,CL4:症状,CL5:检查检验,CL6:治疗方案,CL7:其它}的概率,列表示不同的分词器对应的向量。将e(q)中的每一列元素均乘以对应分词器的权重WT(j)得到e(q)′,再将e(q)′每一行的所有元素相加,然后按列归一化,得到向量 中值最大的元素对应行即为该字符所对应的{CL1,CL2,CL3,CL4,CL5,CL6,CL7}类别标签,得到最终词性标记结果。
S234、根据所述词性标记结果,获取所述关键文本信息。
所述预先构建的分词器训练过程中的第一损失函数为:
其中,为正确字符标签对应概率值,/>P表示字符总数,p表示第p个字符;
所述预先构建的词性标记器训练过程中的第二损失函数为:
其中,为正确词性标签对应的概率值,/>Q表示句子分词后词的个数,q表示分词后的第q个词;
总体损失函数的计算:
Loss=Loss1+Loss2 (3)。
最小化总体损失函数从而更新所述多个分词器、多个标记器的权重。本发明实施例通过分配不同权重的方式融合多个分词器、多个词性标记器的优势,并以命名实体识别的最终目标进行损失函数的设计,实现了医疗命名实体的有效识别。
S24、按照患者ID匹配所述关键数据信息和关键文本信息,得到所述关键特征信息。
S3、根据所述关键特征信息,得到初始案例知识库。
S4、根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;具体包括:
根据所述审核指标X=(x1,x2,…,xi,…),其中x1表示知识丰富度、x2表示疗效或者治疗时间、xn表示其他审核指标子项,采用命名实体识别方法在所述初始案例知识库中抽取案例评价关键信息,计算案例得分Score1,
Score1=sigmoid(a1x1+a2x2+a3x3+…+anxn) (4)
其中,a1、a2......an表示权重;公式(5)表示归一化函数。
当Score1≥σ(0≤σ≤100)时,将对应案例标记并筛选出高质量案例,得到高质案例知识库;σ表示第一目标得分阈值,可根据需要设置。
S5、根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库;具体包括:
根据医生针对案例易理解程度提出的名医堂案例分类指标Z=(z1,z2,…,zi,…),其中z1表示案例的用词准确性、z2表示简洁性、zi表示其他名医堂案例分类指标子项,采用句法分析方法,例如LAC工具从所述高质案例知识库中获取名医堂案例分类指标信息,计算案例得分Score2,
Score2=sigmoid(b1z1+b222+b323+…+bnzn) (6)
其中,b1、b2......bn表示权重。
当Score2≥γ(0≤γ≤100)时,将对应案例标记并筛选出名医堂案例,得到名医堂案例知识库案例;γ表示第二目标得分阈值,可根据需要设置。
根据医生针对罕见程度提出的罕见疾病分类指标,所述罕见疾病分类指标包括疾病出现频率Y,采用统计方法统计疾病出现频率ω,当出现频率Y低于ω(0<ω<1,ω表示第三目标得分阈值,可根据需要设置)时,案例标记为罕见病案例,完成将所述高质案例知识库进行分类,得到罕见疾病案例知识库。
需要说明的是,如图2所示,本发明实施例提供的初始案例知识库可用于医学研究,初始案例知识库包含不同类型的疾病关键指标数据,以及医生的干预意见等内容,能充分满足科研人员医学研究的高质量数据需求;高质案例知识库以及罕见病案例知识库、名医堂案例知识库可用于实习医生的临床教学以及医疗人员的辅助诊断,该三类案例知识库融合了大量医疗专家的疾病知识,能充分满足医疗人员的大规模知识需求。
第二方面,如图3所示,本发明实施例提供了一种基于临床关键特征信息的医疗案例知识库构建系统,包括:
预处理模块,用于获取并预处理电子病历数据,得到规范化数据;
取模块,用于根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;
获取模块,用于根据所述关键特征信息,得到初始案例知识库;
筛选模块,用于根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
分类模块,用于根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库。
可理解的是,本发明实施例提供的基于临床关键特征信息的医疗案例知识库构建系统与本发明实施例提供的基于临床关键特征信息的医疗案例知识库构建方法相对应,其有关内容的解释、举例和有益效果等部分可以参考医疗案例知识库构建方法中的相应部分,此处不再赘述。
第三方面,本发明实施例提供了一种存储介质,其存储有用于基于临床关键特征信息的医疗案例知识库构建的计算机程序,其中,所述计算机程序使得计算机执行如上所述的医疗案例知识库构建方法。
第四方面,本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的医疗案例知识库构建方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;根据所述关键特征信息,得到初始案例知识库;根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库。即在医疗案例知识库的构建过程中充分融合了医生的临床诊断推理过程,实现了医生的专业知识与机器算法的协同,使案例构建流程符合医生知识推理的过程并实现了案例知识的“可解释”;提出的医疗案例知识库构建的整体化框架,包括案例筛选、分类、评价,根据案例构建的全流程而不仅是某一子任务的优化,以总体案例质量保证为总目标实现医疗案例知识库的智能化构建,实现了案例的质量控制。
2、本发明实施例通过分配不同权重的方式融合多个分词器、多个词性标记器的优势,并以命名实体识别的最终目标进行损失函数的设计,实现了医疗命名实体的有效识别。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于临床关键特征信息的医疗案例知识库构建方法,其特征在于,包括:
S1、获取并预处理电子病历数据,得到规范化数据;
S2、根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;
S3、根据所述关键特征信息,得到初始案例知识库;
S4、根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
S5、根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库;
所述步骤S2具体包括:
S21、根据医生给予的权威疾病知识,确定所述规范化数据中的关键特征信息;
S22、采用正则表达式抽取所述规范化数据中的结构化数值数据以及对应的指标名,得到关键数据信息;
S23、采用命名实体识别方法抽取所述规范化数据中的非结构化文本数据以及对应的实体提及,得到关键文本信息;
S24、按照患者ID匹配所述关键数据信息和关键文本信息,得到所述关键特征信息;
所述步骤S23具体包括:
S231、根据预先训练的医学领域字向量词典,得到所述非结构化文本数据的字向量矩阵;
S232、将所述字向量矩阵输入多个预先构建的分词器,得到分词后的句子序列;
S233、将所述分词后的句子序列输入多个预先构建好的词性标记器,得到词性标记结果;
S234、根据所述词性标记结果,获取所述关键文本信息;
所述步骤S4具体包括:
根据所述审核指标X=(x1,x2,…,xi,…),其中x1表示知识丰富度、x2表示疗效或者治疗时间、xi表示其他审核指标子项,采用命名实体识别方法在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
所述步骤S5具体包括:
根据医生针对案例易理解程度提出的名医堂案例分类指标Z=(z1,z2,…,zi,…),其中z1表示案例的用词准确性、z2表示简洁性、zi表示其他名医堂案例分类指标子项,采用句法分析方法将所述高质案例知识库进行分类,得到名医堂案例知识库;
根据医生针对罕见程度提出的罕见疾病分类指标,所述罕见疾病分类指标包括疾病出现频率Y,采用统计方法将所述高质案例知识库进行分类,得到罕见疾病案例知识库;
所述预先构建的分词器训练过程中的第一损失函数为:
其中,为正确字符标签对应概率值,/>P表示字符总数,p表示第p个字符;
所述预先构建的词性标记器训练过程中的第二损失函数为:
其中,为正确词性标签对应的概率值,/>Q表示句子分词后词的个数,q表示分词后的第q个词;
总体损失函数的计算:
Loss=Loss1+Loss2 (3)。
2.如权利要求1所述的医疗案例知识库构建方法,其特征在于,所述步骤S1中预处理过程包括数据的去重、缺失值处理、异常值处理。
3.一种基于临床关键特征信息的医疗案例知识库构建系统,其特征在于,包括:
预处理模块,用于获取并预处理电子病历数据,得到规范化数据;
抽取模块,用于根据医生给予的权威疾病知识,采用自然语言处理方法抽取所述规范化数据中的关键特征信息;
获取模块,用于根据所述关键特征信息,得到初始案例知识库;
筛选模块,用于根据医生针对疾病知识提出的审核指标,在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
分类模块,用于根据医生针对案例易理解程度以及罕见程度提出的分类指标,将所述高质案例知识库进行分类,得到名医堂案例知识库和罕见疾病案例知识库;
所述抽取模块具体用于:
S21、根据医生给予的权威疾病知识,确定所述规范化数据中的关键特征信息;
S22、采用正则表达式抽取所述规范化数据中的结构化数值数据以及对应的指标名,得到关键数据信息;
S23、采用命名实体识别方法抽取所述规范化数据中的非结构化文本数据以及对应的实体提及,得到关键文本信息;
S24、按照患者ID匹配所述关键数据信息和关键文本信息,得到所述关键特征信息;
所述步骤S23具体包括:
S231、根据预先训练的医学领域字向量词典,得到所述非结构化文本数据的字向量矩阵;
S232、将所述字向量矩阵输入多个预先构建的分词器,得到分词后的句子序列;
S233、将所述分词后的句子序列输入多个预先构建好的词性标记器,得到词性标记结果;
S234、根据所述词性标记结果,获取所述关键文本信息;
所述筛选模块具体用于:
根据所述审核指标X=(x1,x2,…,xi,…),其中x1表示知识丰富度、x2表示疗效或者治疗时间、xi表示其他审核指标子项,采用命名实体识别方法在所述初始案例知识库中筛选高质量案例,得到高质案例知识库;
所述分类模块具体用于:
根据医生针对案例易理解程度提出的名医堂案例分类指标Z=(z1,z2,…,zi,…),其中z1表示案例的用词准确性、z2表示简洁性、zi表示其他名医堂案例分类指标子项,采用句法分析方法将所述高质案例知识库进行分类,得到名医堂案例知识库;
根据医生针对罕见程度提出的罕见疾病分类指标,所述罕见疾病分类指标包括疾病出现频率Y,采用统计方法将所述高质案例知识库进行分类,得到罕见疾病案例知识库;
所述预先构建的分词器训练过程中的第一损失函数为:
其中,为正确字符标签对应概率值,/>P表示字符总数,p表示第p个字符;
所述预先构建的词性标记器训练过程中的第二损失函数为:
其中,为正确词性标签对应的概率值,/>Q表示句子分词后词的个数,q表示分词后的第q个词;
总体损失函数的计算:
Loss=Loss1+Loss2 (3)。
4.一种存储介质,其特征在于,其存储有用于基于临床关键特征信息的医疗案例知识库构建的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1或者2所述的医疗案例知识库构建方法。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1或者2所述的医疗案例知识库构建方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021107131456 | 2021-06-25 | ||
CN202110713145 | 2021-06-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113643825A CN113643825A (zh) | 2021-11-12 |
CN113643825B true CN113643825B (zh) | 2023-08-01 |
Family
ID=78416781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110765456.7A Active CN113643825B (zh) | 2021-06-25 | 2021-07-06 | 基于临床关键特征信息的医疗案例知识库构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643825B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580339A (zh) * | 2019-08-21 | 2019-12-17 | 华东理工大学 | 一种医疗术语知识库完善的方法和装置 |
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2279478A1 (en) * | 2008-05-12 | 2011-02-02 | Koninklijke Philips Electronics N.V. | A medical analysis system |
US8886726B2 (en) * | 2010-12-28 | 2014-11-11 | General Electric Company | Systems and methods for interactive smart medical communication and collaboration |
CN102880727A (zh) * | 2012-10-24 | 2013-01-16 | 房学东 | 一种医疗知识管理系统及其构建实现方法 |
CN105608091B (zh) * | 2014-11-21 | 2019-02-05 | 中国移动通信集团公司 | 一种动态医疗知识库的构建方法及装置 |
CN109378053B (zh) * | 2018-11-30 | 2021-07-06 | 安徽影联云享医疗科技有限公司 | 一种用于医学影像的知识图谱构建方法 |
CN109727651A (zh) * | 2018-12-30 | 2019-05-07 | 李文玲 | 癫痫病例数据库管理方法及终端设备 |
CN109948680B (zh) * | 2019-03-11 | 2021-06-11 | 合肥工业大学 | 病历数据的分类方法及系统 |
CN110782996A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 医疗数据库的构建方法、装置、计算机设备和存储介质 |
CN110968650A (zh) * | 2019-10-30 | 2020-04-07 | 清华大学 | 基于医生协助的医疗领域知识图谱构建方法 |
CN111767410B (zh) * | 2020-06-30 | 2023-05-30 | 深圳平安智慧医健科技有限公司 | 临床医疗知识图谱的构建方法、装置、设备及存储介质 |
CN111785342A (zh) * | 2020-07-14 | 2020-10-16 | 丁佳丽 | 一种基于数据仓库的医疗数据整合方法及系统 |
CN111950285B (zh) * | 2020-07-31 | 2024-01-23 | 合肥工业大学 | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 |
CN112687397B (zh) * | 2020-12-31 | 2023-05-09 | 四川大学华西医院 | 罕见病知识库的处理方法及装置、可读存储介质 |
-
2021
- 2021-07-06 CN CN202110765456.7A patent/CN113643825B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580339A (zh) * | 2019-08-21 | 2019-12-17 | 华东理工大学 | 一种医疗术语知识库完善的方法和装置 |
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113643825A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN109599185B (zh) | 疾病数据处理方法、装置、电子设备及计算机可读介质 | |
CN106874643B (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 | |
Yang et al. | Knowledge matters: Chest radiology report generation with general and specific knowledge | |
US10929420B2 (en) | Structured report data from a medical text report | |
CN110459282B (zh) | 序列标注模型训练方法、电子病历处理方法及相关装置 | |
Yu et al. | Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
Liu et al. | Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
CN111222340A (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
CN111477320B (zh) | 治疗效果预测模型的构建系统、治疗效果预测系统及终端 | |
CN110444261B (zh) | 序列标注网络训练方法、电子病历处理方法及相关装置 | |
Chen et al. | A bibliometric analysis of the development of ICD-11 in medical informatics | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
Kaswan et al. | AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data | |
Pathak et al. | Post-structuring radiology reports of breast cancer patients for clinical quality assurance | |
Liu et al. | Knowledge-aware deep dual networks for text-based mortality prediction | |
Gavrilov et al. | Feature extraction method from electronic health records in Russia | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
CN111597789A (zh) | 一种电子病历文本的评估方法及设备 | |
Leng et al. | Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data | |
CN114420279A (zh) | 一种医疗资源推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |