CN111048167B - 一种层级式病例结构化方法及系统 - Google Patents
一种层级式病例结构化方法及系统 Download PDFInfo
- Publication number
- CN111048167B CN111048167B CN201911056458.8A CN201911056458A CN111048167B CN 111048167 B CN111048167 B CN 111048167B CN 201911056458 A CN201911056458 A CN 201911056458A CN 111048167 B CN111048167 B CN 111048167B
- Authority
- CN
- China
- Prior art keywords
- entity
- medical
- entities
- structured data
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种层级式病例结构化方法及系统,该方法包括构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。该方法可根据构建医疗术语层级体系,基于实体与关系抽取模型,抽取医疗实体及属性准确率高,实现了将非结构化与半结构化病例自动转换为结构化电子病例,可满足智能医疗市场的需求。
Description
技术领域
本发明涉及医疗大数据及计算机应用技术领域,特别涉及一种层级式病例结构化方法及系统。
背景技术
病例是病人病情发生、发展和转归全过程的记录,不仅是医疗、教学的重要依据,对药品使用、新药研发等也有着重要的辅助作用。随着医药系统的推广,电子病例也在多数医院得到普及。然而日益膨胀的医疗数据,因数据格式不统一与数据质量等问题,无法满足智能医疗市场的需求。
但是目前将医疗数据格式统一,提高数据质量,因人而已,也无法在制度上达到很好的统一标准;而基于计算机技术的进步,将医疗数据格式统一,也面临困难。首先,医疗行业不同与其它领域的知识抽取,医疗领域的实体各个品类所包含的实体过于庞大,其属性也较为复杂,普通的抽取方式效果很差。例如,病例中一句对病人病情的描述,可能包括病人体征、疾病名称、用药等多个医学术语,并且每个医学术语都可能有各种状态;而且不同的医生所撰写的同一病例,表达的方式也存在区别;这都是需要识别的重要语言单元,通用的实体识别准确率较低。另外,由于医疗领域的文本,一个句子中还存在多对关系,通用的关系抽取方法效果效差。
因此,如何解决医疗病例中的上述属性抽取差、实体识别准确率低及实体关系抽取差,成为同行从业人员亟待解决的问题。
发明内容
鉴于上述问题,本发明提出了一种层级式病例结构化方法,通过层级式知识抽取,有效改善了现有技术的问题,实现了将非结构化与半结构化病例自动转换为结构化电子病例,可满足智能医疗市场的需求。
本发明实施例提供一种层级式病例结构化方法,包括:
S10、构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;
S20、根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。
在一个实施例中,所述步骤S10,包括:
根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述下位实体依存于所述上位实体;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。
在一个实施例中,所述步骤S20,包括:
根据语义对病例文本进行预处理,分为不同语义单元;
在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;
根据所述层级体系,确定每一个所述上位实体对应的下位实体及下位实体所属类别;
将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;
根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据。
在一个实施例中,所述方法还包括:
S30、将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;
S40、将所述结构化数据及对应的质量级别,存储入所述数据仓库。
在一个实施例中,在所述将所述结构化数据及对应的质量级别,存储入所述数据仓库之前,所述方法还包括:
S35、获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。
在一个实施例中,还包括:当所述预设实体模型为神经网络模型时,将人工校验后的所述结构化数据,加入所述神经网络模型的训练集。
第二方面,本发明还提供一种层级式病例结构化系统,包括:
构建模块,用于构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;
实体与关系抽取模块,用于根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。
在一个实施例中,所述构建模块,具体用于根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述下位实体依存于所述上位实体;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。
在一个实施例中,所述实体与关系抽取模块,包括:
预处理单元,用于根据语义对病例文本进行预处理,分为不同语义单元;
识别单元,用于在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;
确定单元,用于根据所述层级体系,确定至少一个所述上位实体对应的下位实体及下位实体所属类别;
抽取单元,用于将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;
区分单元,用于根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据。
在一个实施例中,所述系统还包括:
数据质量检测模块,用于将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;
存储模块,用于将所述结构化数据及对应的质量级别,存储入所述数据仓库。
在一个实施例中,所述系统还包括:
获取人工质量检测模块,用于获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。
在一个实施例中,当所述预设实体模型为神经网络模型时,所述获取人工质量检测模块,还用于将人工校验后的所述结构化数据,加入所述神经网络模型的训练集。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的一种层级式病例结构化方法,包括构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。该方法可根据构建医疗术语层级体系,基于实体与关系抽取模型,抽取医疗实体及属性准确率高,实现了将非结构化与半结构化病例自动转换为结构化电子病例,可满足智能医疗市场的需求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的层级式病例结构化方法流程图;
图2为本发明实施例提供的实体与关系抽取模型的数据流向示意图;
图3为本发明实施例提供的另一种层级式病例结构化方法流程图;
图4为本发明实施例提供的层级式病例结构化系统的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1所示,本发明实施例提供的一种层级式病例结构化方法,包括:S10~S20;
S10、构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;
S20、根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。
其中,医疗实体可参照表1所示:
医疗实体 | 举例 |
疾病 | 血栓闭塞性脉管炎;胸降主动脉动脉瘤 |
药品 | 京万红痔疮膏;布林佐胺滴眼液 |
症状 | 乳腺组织肥厚;脑实质深部出血 |
检查项目 | 支气管造影;关节镜检查 |
表1
医疗实体关系可参照表2所示:
医疗实体关系 | 举例 |
属于 | <妇科,属于,妇产科> |
疾病常用药品 | <阳强,常用,甲硫酸酚妥拉明分散片> |
疾病宜吃食物 | <胸椎骨折,宜吃,黑鱼> |
疾病发生部位 | <细菌感染,发生,右肺> |
表2
医疗实体属性可参照表3所示:
医疗实体关系 | 举例 |
疾病易感人群 | 无特定人群 |
疾病病因 | 常见的有合胞病毒等 |
治疗周期 | 6-12个月 |
治疗方式 | 药物治疗,支持性治疗 |
表3
本实施例中,该方法可根据构建医疗术语层级体系,基于实体与关系抽取模型,抽取医疗实体及属性准确率高,实现了将非结构化与半结构化病例自动转换为结构化电子病例,可满足智能医疗市场的需求。
下面分别对上述各个步骤进行详细的说明。
上述步骤S10中,可根据医学相关词典,比如生物医药大词典、医学专业词典;也可以根据医疗知识图谱,结合预设病例的结构化需求(比如只需要心脏病这个病例的结构化数据),进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;其中,下位实体依存于上位实体;
本实施例中,其中上位实体表示疾病名称、药品名称、症状名称;下位实体为上位实体的相关信息,比如部位、持续时间、次数、程度和病因等等。
定义各个上下位实体及其所属类别,不同于具体医学实体的上下位概念或是分类等。如脉搏、呼吸、体温等同属于生命体征类别。
还定义了上下位实体所属关系,下位实体依赖于上位实体。如发热为一个上位实体,其类别为症状,与其相关的下位实体及所属类别如:<两天,持续时间>,其中两天表示下位实体,持续时间表示“两天”的所属类别。
其中,医疗知识图谱是指将非结构化/半结构化的数据表示成知识图谱的形式,其中包括将医学文献知识转变为医疗知识图谱,也包括将海量病例中挖掘的经验知识转变为机器可以理解的表示形式。比如医疗知识图谱包括五大知识库,即药品库、疾病库、处方库、风险因子库和医疗资源库。集纳了海量的知识,并将知识之间建立关联,形成的一个完整的知识体系。
例如中文医学知识图谱中常见病品类下有“右肺炎症”。“右肺炎症”作为一个上位实体,其类别为常见病,与其相关的下位实体有“右肺”,下位实体类别为部位,再如下位实体“细菌感染”,类别为“病因”。
在一个实施例中,上述步骤S20包括:
a)基于语义对病例文本进行预处理,分为不同语义单元;该语义单元可以是一个自然句,也可以是多个自然句构成的段落。根据语义对病例文本进行粗粒度划分,例如在病例文本中,根据主诉、初步诊断、既往史、现病史等语义描述单元进行划分。
病例文本预处理,可根据具体的文本格式采用不同的方法,例如处理非格式化数据时,需要统一字符编码、去除无意义的特殊符号等噪音数据、使用word2vec等工具将文本转换为词向量等工作。
b)在一个语义单元内进行上位实体识别及上位实体的所属类别的识别。可通过预设实体模型,抽取上位实体,可以使用传统机器学习模型,如CRF、知识图谱、或者神经网络模型(如CNN、Bi-LSTM等)。
c)将上述步骤所得上位实体与其类别形成上述预设实体模型所需要的词表示,与当前句的表示进行融合,作为下位实体及其所属类别抽取的输入。
词表示根据预设实体模型可以是基于词袋法语言模型的向量表示,也可以是词向量或是字向量。根据向量计算的性质,融合方式可以为拼接操作或是向量加法、向量乘法等。
d)根据步骤S10中构建的层次体系结构,匹配层次体系中所抽取的上位实体所对应的下位实体及其所属的类别。其中,也采用与上位实体相同的模型结构建模,完成下位实体及其所属的类别的抽取。
e)基于自注意力机制(self-attention),识别语义单元内多个上位实体分别与多个下位实体是否存在关系。
参照图2所示,所涉及到的各个模型,表示实体与关系抽取模型中数据流向关系。
比如自注意力关系抽取模型输入为上述步骤b)中生成第一信息的向量,该第一信息的向量由病例文本紧凑表示及位置编码构成。
其中,位置编码向量是一个与病例文本紧凑表示相同维度的向量,每个位置都是一个-1到1的数。偶数位为正弦函数生成,奇数为余弦函数生成,/>dmodel是自注意力关系抽取模型的维度,pos是单词在句子中的位置。
具体地,病例文本在前述步骤预处理时,转化为紧凑表示(词向量或是字向量):x作为自注意力机制的输入,由文本的紧凑表示与位置编码构成,如字向量与前述步骤所得位置编码向量的按位相加。
x=(x1,…,xn)
获取当前输入的注意力表示eij,为每个xi计算权重αij,计算方法通过下式表示:
其中xi表示上位实体,xj表示下位实体,表示词向量的维度,WQ、Wk均表示权重矩阵,T表示转置矩阵;基于注意力结果可计算出隐藏层状态zi。
WV表示权重矩阵,最后经过输出层可确定上位实体与下位实体的关系类别。
以如下病例文本为例:“胸廓两侧对称,无畸形,两侧呼吸动度一致,左侧触觉语颤减弱,双肺呼吸音粗,闻及少许痰鸣音,右肺底湿啰音明显……”这样的病例文本中,身体部位上位实体“湿啰音”(类别为“症状”)与下位实体“右肺底”的关系类别为“部位”,而上位实体“湿啰音”则与下位实体“胸廓”的关系类别则为无。
如上述病例例子中,当一个语义单元中,如存在多对上下位实体时,注意力机制可以准确区分其所属关系。
进一步地,参照图1所示,该方法还包括:
S30、将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;
S40、将所述结构化数据及对应的质量级别,存储入所述数据仓库。
本实施例中,将上述步骤所得到的结构化数据与数据仓库中的标准化医疗术语数据模板进行比对,比如通过对各个字段相似度的计算,及空值查验,进行数据质量检测。例如体格检查模板,包括血压等项目,记录人类血压可能出现数值的正常范围为0~300。匹配模板中各个项目,计算正确率,获得输入文本的质量评分。可通过句法分析算法及知识图谱来进行语义维度数据质量检测;并将结构化病例存入数据仓库,供数据挖掘及其它智能医疗应用或服务调用。比如可利用Kylin提供的接口进行高效调用。
为了进一步提高数据质量,在步骤S30和步骤S40之间,还包括:
S35、获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。
即:通过自动化数据质量检测与人工数据质量检测,可保证数据质量,为后续智能医疗应用,提供高质量数据。
在一个实施例中,当上述预设实体模型为神经网络模型时,将人工校验后的结构化数据,加入该神经网络模型的训练集,可优化自动化抽取结果。
参照图3所示,为本发明实施例提供的另一种层级式病例结构化方法流程图;包括:
S100、医疗术语层级体系构建;
S200、医疗实体与实体属性的层级抽取及关联构建;
S300、大数据平台数据质量检测;
S400、获取人工数据质量检测;
S500、存储入数据仓库;
其中:S200依次包括:医疗术语字符向量生成、模型训练、实体识别和关系抽取步骤。
基于同一发明构思,本发明实施例还提供了一种层级式病例结构化系统,由于该系统所解决问题的原理与一种层级式病例结构化方法相似,因此该系统的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供的一种层级式病例结构化系统,参照图4,包括:
构建模块41,用于构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;
实体与关系抽取模块42,用于根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。
在一个实施例中,所述构建模块41,具体用于根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述下位实体依存于所述上位实体;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。
在一个实施例中,所述实体与关系抽取模块42,包括:
预处理单元421,用于根据语义对病例文本进行预处理,分为不同语义单元;
识别单元422,用于在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;
确定单元423,用于根据所述层级体系,确定至少一个所述上位实体对应的下位实体及下位实体所属类别;
抽取单元424,用于将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;
区分单元425,用于根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据。
在一个实施例中,所述系统还包括:
数据质量检测模块43,用于将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;
存储模块44,用于将所述结构化数据及对应的质量级别,存储入所述数据仓库。
在一个实施例中,所述系统还包括:
获取人工质量检测模块45,用于获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。
在一个实施例中,当所述预设实体模型为神经网络模型时,所述获取人工质量检测模块45,还用于将人工校验后的所述结构化数据,加入所述神经网络模型的训练集。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种层级式病例结构化方法,其特征在于,包括:
S10、构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;下位实体依存于上位实体;
S20、根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别;所述步骤S20具体包括:根据语义对病例文本进行预处理,分为不同语义单元;
在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;
根据所述层级体系,确定每一个所述上位实体对应的下位实体及下位实体所属类别;
将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;
根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据;
S30、将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;
S40、将所述结构化数据及对应的质量级别,存储入所述数据仓库。
2.如权利要求1所述的一种层级式病例结构化方法,其特征在于,所述步骤S10,包括:根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。
3.如权利要求1所述的一种层级式病例结构化方法,其特征在于,在所述将所述结构化数据及对应的质量级别,存储入所述数据仓库之前,所述方法还包括:
S35、获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。
4.如权利要求3所述的一种层级式病例结构化方法,其特征在于,还包括:当所述预设实体模型为神经网络模型时,将人工校验后的所述结构化数据,加入所述神经网络模型的训练集。
5.一种层级式病例结构化系统,其特征在于,包括:
构建模块,用于构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;下位实体依存于上位实体;
实体与关系抽取模块,用于根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别;所述实体与关系抽取模块具体包括:
预处理单元,用于根据语义对病例文本进行预处理,分为不同语义单元;
识别单元,用于在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;
确定单元,用于根据所述层级体系,确定至少一个所述上位实体对应的下位实体及下位实体所属类别;
抽取单元,用于将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;
区分单元,用于根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据;
数据质量检测模块,用于将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;
存储模块,用于将所述结构化数据及对应的质量级别,存储入所述数据仓库。
6.如权利要求5所述的一种层级式病例结构化系统,其特征在于,所述构建模块,具体用于根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述下位实体依存于所述上位实体;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911056458.8A CN111048167B (zh) | 2019-10-31 | 2019-10-31 | 一种层级式病例结构化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911056458.8A CN111048167B (zh) | 2019-10-31 | 2019-10-31 | 一种层级式病例结构化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111048167A CN111048167A (zh) | 2020-04-21 |
CN111048167B true CN111048167B (zh) | 2023-08-18 |
Family
ID=70231990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911056458.8A Active CN111048167B (zh) | 2019-10-31 | 2019-10-31 | 一种层级式病例结构化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111048167B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798948B (zh) * | 2020-07-01 | 2024-02-27 | 微医云(杭州)控股有限公司 | 病历信息处理方法、装置、设备和存储介质 |
CN112309519B (zh) * | 2020-10-26 | 2021-06-08 | 浙江大学 | 基于多模型的电子病历用药结构化处理系统 |
CN113380424A (zh) * | 2020-12-07 | 2021-09-10 | 北京左医科技有限公司 | 随访计划的自动生成方法、自动生成装置及存储介质 |
CN112582073B (zh) * | 2020-12-30 | 2022-10-11 | 天津新开心生活科技有限公司 | 医疗信息获取方法、装置、电子设备和介质 |
CN113505236B (zh) * | 2021-06-29 | 2023-08-04 | 朱一帆 | 医疗知识图谱的构建方法、装置、设备及计算机可读介质 |
CN113539414A (zh) * | 2021-07-30 | 2021-10-22 | 中电药明数据科技(成都)有限公司 | 一种抗生素用药合理性预测方法及系统 |
CN113515927B (zh) * | 2021-09-14 | 2021-12-03 | 北京欧应信息技术有限公司 | 用于生成结构化文本的方法、计算设备和存储介质 |
CN115171835B (zh) * | 2022-09-02 | 2022-12-23 | 北京智源人工智能研究院 | 病例结构化模型训练方法、装置和病例结构化方法 |
CN115983228B (zh) * | 2022-12-28 | 2023-10-13 | 北京欧应科技有限公司 | 用于生成病历模板的方法、系统、计算设备和存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6757692B1 (en) * | 2000-06-09 | 2004-06-29 | Northrop Grumman Corporation | Systems and methods for structured vocabulary search and classification |
CN105808525A (zh) * | 2016-03-29 | 2016-07-27 | 国家计算机网络与信息安全管理中心 | 一种基于相似概念对的领域概念上下位关系抽取方法 |
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN106844413A (zh) * | 2016-11-11 | 2017-06-13 | 南京缘长信息科技有限公司 | 实体关系抽取的方法及装置 |
CN107679042A (zh) * | 2017-11-15 | 2018-02-09 | 北京灵伴即时智能科技有限公司 | 一种面向智能语音对话系统的多层级对话分析方法 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN108733748A (zh) * | 2018-04-04 | 2018-11-02 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN108874984A (zh) * | 2018-06-11 | 2018-11-23 | 浙江大学 | 一种对质量较差电网设备缺陷文本的质量提升方法 |
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN110209832A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(北京)有限公司 | 上下位关系的判别方法、系统和计算机设备 |
CN110210038A (zh) * | 2019-06-13 | 2019-09-06 | 北京百度网讯科技有限公司 | 核心实体确定方法及其系统、服务器和计算机可读介质 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110263167A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 医疗实体分类模型生成方法、装置、设备和可读存储介质 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100666A1 (en) * | 2002-08-22 | 2007-05-03 | Stivoric John M | Devices and systems for contextual and physiological-based detection, monitoring, reporting, entertainment, and control of other devices |
CA2462664A1 (en) * | 2003-03-31 | 2004-09-30 | Ldt Systems, Inc. | Secure network gateway for accessible patient data and transplant donor data |
BR112014015666A8 (pt) * | 2011-12-27 | 2017-07-04 | Koninklijke Philips Nv | sistema de análise de texto, estação de trabalho, sistema de informações de serviço de saúde para a provisão de um fluxo de trabalho de relatório eletrônico, método de análise de texto, e produto de programa de computador |
US10169325B2 (en) * | 2017-02-09 | 2019-01-01 | International Business Machines Corporation | Segmenting and interpreting a document, and relocating document fragments to corresponding sections |
-
2019
- 2019-10-31 CN CN201911056458.8A patent/CN111048167B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6757692B1 (en) * | 2000-06-09 | 2004-06-29 | Northrop Grumman Corporation | Systems and methods for structured vocabulary search and classification |
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN105808525A (zh) * | 2016-03-29 | 2016-07-27 | 国家计算机网络与信息安全管理中心 | 一种基于相似概念对的领域概念上下位关系抽取方法 |
CN106844413A (zh) * | 2016-11-11 | 2017-06-13 | 南京缘长信息科技有限公司 | 实体关系抽取的方法及装置 |
CN107679042A (zh) * | 2017-11-15 | 2018-02-09 | 北京灵伴即时智能科技有限公司 | 一种面向智能语音对话系统的多层级对话分析方法 |
CN108733748A (zh) * | 2018-04-04 | 2018-11-02 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN108874984A (zh) * | 2018-06-11 | 2018-11-23 | 浙江大学 | 一种对质量较差电网设备缺陷文本的质量提升方法 |
CN110209832A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(北京)有限公司 | 上下位关系的判别方法、系统和计算机设备 |
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN110210038A (zh) * | 2019-06-13 | 2019-09-06 | 北京百度网讯科技有限公司 | 核心实体确定方法及其系统、服务器和计算机可读介质 |
CN110263167A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 医疗实体分类模型生成方法、装置、设备和可读存储介质 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
代印唐.层级分类概率句法分析.《 软件学报》.2011,第22卷(第2期),第245-256页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111048167A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111048167B (zh) | 一种层级式病例结构化方法及系统 | |
Alicante et al. | Unsupervised entity and relation extraction from clinical records in Italian | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
CN106919793A (zh) | 一种医疗大数据的数据标准化处理方法及装置 | |
US11670420B2 (en) | Drawing conclusions from free form texts with deep reinforcement learning | |
Huddar et al. | Predicting complications in critical care using heterogeneous clinical data | |
CN111316281A (zh) | 基于机器学习的自然语言情境中数值数据的语义分类 | |
Friedman et al. | Natural language and text processing in biomedicine | |
Shakhovska et al. | Development of mobile system for medical recommendations | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
Alobaidi et al. | Automated ontology generation framework powered by linked biomedical ontologies for disease-drug domain | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
CN110838368A (zh) | 一种基于中医临床知识图谱的机器人主动问诊方法 | |
CN113688255A (zh) | 一种基于中文电子病历的知识图谱构建方法 | |
CN116013534A (zh) | 一种基于医学指南和数据的临床辅助决策方法及系统 | |
CN114864088B (zh) | 一种基于医疗健康的数字孪生建立方法、装置和存储介质 | |
CN113658662A (zh) | 基于用药大数据的配药方法、装置、设备及存储介质 | |
CN114420279A (zh) | 一种医疗资源推荐方法、装置、设备及存储介质 | |
Nasiri et al. | A medical case-based reasoning approach using image classification and text information for recommendation | |
CN116383413B (zh) | 基于医疗数据提取的知识图谱更新方法和系统 | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
Kong et al. | Ai assisted clinical diagnosis & treatment, and development strategy | |
Thieu et al. | Inductive identification of functional status information and establishing a gold standard corpus: A case study on the Mobility domain | |
Meng et al. | Utilizing narrative text from electronic health records for early warning model of chronic disease | |
CN112669961A (zh) | 一种基于大数据推理的智能分诊方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |