CN106909783A - 一种基于时间线的病历文本医学知识发现方法 - Google Patents
一种基于时间线的病历文本医学知识发现方法 Download PDFInfo
- Publication number
- CN106909783A CN106909783A CN201710101225.XA CN201710101225A CN106909783A CN 106909783 A CN106909783 A CN 106909783A CN 201710101225 A CN201710101225 A CN 201710101225A CN 106909783 A CN106909783 A CN 106909783A
- Authority
- CN
- China
- Prior art keywords
- text
- case history
- time
- storehouse
- medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
为了解决当前电子病历中非结构化文本难以用于诊疗预测和决策的问题,本发明提供一种基于时间线的病历文本知识发现方法,包括以下步骤:构建病历样本库,用于存储结构化后的文本数据;构建病历时间文本规则库;构建包含疾病、药品和不良反应的医学知识库;对病历文本按句式拆分;使用语义分析工具进行词性标注;标注时间名词并进行根据时间先后对病历文本中拆分的文本块重新进行排序;依据医学知识库标注文本中的药品、疾病和不良反应;对文本中词语组合,提取其中患者的生理化验指标和事件。本发明帮助医学研究者更容易地发现病历文本中的医学知识。
Description
技术领域
本发明涉及一种基于时间线的病历文本医学知识发现方法,特别是涉及对包含时间信息的电子病历文本结构化和医疗知识发现的方法。
背景技术
随着医疗信息系统的发展,电子病历中数据的复杂性不断增强、数据量不断增大。电子病历包含许多有价值的信息,比如说,电子病历的诊断过程、诊断结果以及其中尚未发现的医疗知识。其中,包含时间信息的叙事性病历文本是非常重要的信息。在电子病历中,一般会记录患者患病的时间、症状和不良反应,而这些信息一般存在于以自然语言描述的文本中,在文本中基于时间信息的医疗知识挖掘是本方法的重点。
本专利提出基于时间信息的电子病历文本结构化和知识发现方法,通过基于规则匹配的语义分析技术,自动从电子病历中现病史、家族史中提取患者的病情发展时间线,在每一个时间点描述发生的生理信息变化和发生的事件,并通过关联疾病库、药品库等信息,用于疾病分析和预测。该方法的提出,能解决非结构化的电子病历文本中患者信息难以定量分析的问题,对有效利用电子病历的非结构化数据具有借鉴意义。
发明内容
针对上述问题,本发明的目的是提供一种能识别电子病历非结构化文本中时间信息,并构建基于时间线的患者病情发展模型,用于识别其中医疗知识的方法。
为实现上述目的,本发明采取以下技术方案:提供一种基于时间线的病历文本医学知识发现方法,包括以下步骤:
(1)构建病历文本分析库存储患者的电子病历信息,包括现病史、个人史和家族史的病历叙事性文本信息;
(2)构建病历时间文本规则库,其中定义能识别中文时间表达式的正则表达式;
(3)构建医学知识库,其中,本方法包括疾病知识库、药品知识库和不良反应库;
(4)对病历样本库中的病历文本进行按句号、逗号进行拆分;
(5)对步骤(4)中的产生的文本块(没有标点符号的文本)使用语义分析工具进行中文分词,并对每个词的词性标注,标注成名词、动词、介词等;
(6)对步骤(5)中各个词语依据步骤(2)的时间规则进行正则表达式匹配,寻找出时间名词,并进行标记;
(7)根据步骤(5)中识别的时间文本先后顺序,从句子的层次重新对病历文本进行排序,构建基于时间线的XML文本结构;
(8)依据步骤(3)的医学知识库,从已经标注词性的文本中进行二次标注,将其中的药品、疾病知识和不良反应进一步在文本中标注出来;
(9)从文本块中取连续两个词、三个词或n个词,提取中其中的生理指标和事件信息。
所述的步骤(3)中,疾病知识库采用基于ICD-10编码的国际疾病分类库,结合了每种疾病对应的详细信息。药品知识库包含西药、中成药和中草药三类信息。药品不良反应库采用《WHO药品不良反应术语集》。
所述的步骤(5)中采用的语义分析工具是Stanford Natural LanguageProcessing(Stanford NLP)语义分析工具包进行实现,先进行中文分词,然后利用语义分析工具对其中词语进行词性标注。
所述的步骤(6)使用的时间规则,包括计算具有年月日的绝对时间,如“2016年1月1日”,也包括识别如“几天后”的相对模糊的时间信息。对非绝对时间,根据最近的时间点,计算出该模糊时间的绝对时间。
所述的步骤(8)中第一次标注的形式如(W,T),其中W表示词语,T表示W的词性。第二次使用医学知识库记性标注,采用(W,T,C)表达,其中,C表示与医学知识库的关联关系,表示该词属于哪个词库,哪种信息(疾病、不良反应、药品)。
所述的步骤(9),在提取步骤(8)的内容后,对每一个文本块中的词语序列中相邻两词、相邻三词组合进行文本规则挖掘,其中具体包括以下步骤:
(91)按两个相邻词(键,值)来匹配,匹配Key-Value的键值对文本。
(92)按照三个词,匹配(时间、事件、描述)来寻找患者医学事件。
本发明由于采取以上技术方案,其具有以下优点:本发明根据电子病历中包含时间信息的文本的特征,(1)提取其中的时间信息节点,并根据时间顺序构建患者的病情发展模型,使得病情预测更容易;(2)利用现有的医学知识库,依赖时间信息标注其中的疾病、药品和不良反应信息,帮助医学研究者更好地发现潜在的医学知识。
附图说明
图1是本发明的流程图;
图2是步骤4病历文本按句式拆分的流程;
图3是步骤6匹配病历文本中时间信息流程;
图4是病历文本在结构化过程中数据模型的变化;
图5是步骤8中最终输出的XML结构。
具体实施方式
下面结合附图和实施例对本发明的进行详细的描述。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外,应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供一种构建便于医学知识发现的基于时间线患者病情发展模型的方法,如图1所示,包括以下步骤:
步骤1、定义了病历文本存储的数据结构,便于从医院中的电子病历系统中导出对应的数据和保存图1流程中产生的处理结果。分析库中的表结构至少包含的字段包括:电子病历ID、原始病历文本、句式拆分后的病历文本、词性标注后的病历文本,医学知识标注后的病历文本这五个字段;
步骤2、根据电子病历常见的中文时间信息表述形式,手动构建描述时间表达式的正则表达式规则库;
步骤3、构建医学知识库,在这里,主要包含三种医学知识,包括疾病知识、药品知识和不良反应文本。其中,疾病知识是基于国际疾病分类编码(ICD-10)构建的疾病词条库;药品知识库的药品分为三种:西药、中草药和中成药;不良反应库的词条来源于《WHO药品不良反应术语集》;
步骤4、对待分析的整段病历文本进行按句式进行拆分,如图2,其中,分隔符是中文的句号和逗号。如:病历文本“否认肝炎、结核、疟疾病史,高血压史、冠心病史20年。1992年曾患甲状腺癌根治术(中)。”,可以拆分成两句,第一句再拆分两个文本块。按照语法结构,一个句子包含若干用逗号分开的文本块。
步骤5、依据已拆分的病历文本,对其中的每一个文本块(不包含任何句号、逗号)使用语义分析工具,进行该文本块的词性标注。并将标注后的词语集合重新按照出现顺序排序,拼合成文本。其结果如:“高血压/NR,史/NN,、/PU,冠心/NN,病史/VV,20年/NT”。其中/NN等表示前面词的词性标记符号。
步骤6、根据从步骤5、中标注好的文本,依据时间表达规则库,识别其中术语时间信息的词语。对于模糊的时间信息,依据同属一句话或一段话的时间信息进行修正补充,其过程如图3所示;
步骤7、依据病历文本中的时间先后,重新对文本信息进行排序,构建出按时间先后排序的结构化XML文本。从原始文本到步骤7、过程中文本结构的形式变化如图4所示。
步骤8、在时间排序后的病历文本模型中,依据医学知识库,对药品术语、疾病术语和不良反应属于进行二次标注,也保留其词性;
步骤9、对文本块中词语进行两连续词、三连续词的获取,并依据规则分析,区分出其中的患者生理检验指标和特殊医疗事件,生理检验指标的文本如“WBC2.13×109/L、Hb102g/L、PLT177×10^9/L/L”。最终拆分的XML形式如图5所示。
步骤10、在上述步骤的构建的基于时间线的患者病情发展模型中,进行医学知识发现和分析。
Claims (6)
1.一种基于时间线的病历文本医学知识发现方法,其特征包括以下步骤:
(1)构建病历样本库,用于存储电子病历中原始病历文本、词性标记后的文本、时间信息标记后的文本和知识发现后的文本,以XML格式存储;
(2)构建病历时间文本规则库,描述时间信息的使用正则表达式进行描述;
(3)构建相关医学知识库,本方法包括疾病知识、药品知识和药品不良反应库三种库;
(4)对病历样本库中的病历文本按句式进行拆分;其中,一个句子根据逗号拆分成若干个文本块。
(5)使用语义分析工具对拆分后的文本块进行分词和词性标注;
(6)词性标注后的各个词语进行时间规则的匹配,找出时间名词,存储时间名词;
(7)根据时间信息的先后,从句子的层次重新对文本的句子进行排序,构建基于时间线的XML文本结构;对于模糊的时间文本,进行确定时间的修正。
(8)依据医学知识库,从已经标注词性的文本中进行二次标注,将其中的药品、疾病知识和不良反应进一步标注出来;
(9)从文本块中取连续两个词、三个词或n个词,提取中其中的生理指标和事件信息。
2.根据权利要求(1)所述的构建医学知识库,疾病知识库采用基于ICD-10编码的国际疾病分类库,结合了每种疾病对应的详细信息。药品知识库包含西药、中成药和中草药三类信息。药品不良反应库采用《WHO药品不良反应术语集》。
3.根据权利要求(1)所述采用的语义分析工具是Stanford Natural LanguageProcessing语义分析工具包进行实现,先进行中文分词,然后利用语义分析工具对其中词语进行词性标注。
4.根据权利要求(1)所述的步骤(6)使用的时间规则,包括计算具有年月日的绝对时间,如“2016年1月1日”,也包括识别如“几天后”的相对模糊的时间信息,根据最近的时间点,计算出该模糊时间的绝对时间。
5.根据权利要求(1)所述的步骤(8)中第一次标注的形式如(W,T),其中W表示词语,T表示W的词性。第二次使用医学知识库记性标注,采用(W,T,C)表达,其中,C表示与医学知识库的关联关系,表示该词属于哪个词库,哪种信息(疾病、不良反应、药品)。
6.根据权利要求(1)所述的步骤(9),在提取步骤(8)的内容后,对每一个文本块中的词语两两相近选择来匹配,进行文本规则挖掘,其中具体包括以下步骤:
(91)按两个相邻词(键,值)来匹配,匹配Key-Value的键值对文本。
(92)按照三个相邻词,匹配(时间、事件、描述)来寻找患者医学事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101225.XA CN106909783A (zh) | 2017-02-24 | 2017-02-24 | 一种基于时间线的病历文本医学知识发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101225.XA CN106909783A (zh) | 2017-02-24 | 2017-02-24 | 一种基于时间线的病历文本医学知识发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106909783A true CN106909783A (zh) | 2017-06-30 |
Family
ID=59209013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710101225.XA Pending CN106909783A (zh) | 2017-02-24 | 2017-02-24 | 一种基于时间线的病历文本医学知识发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909783A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705849A (zh) * | 2017-11-27 | 2018-02-16 | 泰康保险集团股份有限公司 | 远程会诊意见整合方法和装置 |
CN107818815A (zh) * | 2017-10-30 | 2018-03-20 | 北京康夫子科技有限公司 | 电子病历的检索方法及系统 |
CN109003682A (zh) * | 2018-06-25 | 2018-12-14 | 广州市品毅信息科技有限公司 | 基于领域本体知识库的药品不良反应智能监测方法 |
CN109003677A (zh) * | 2018-06-11 | 2018-12-14 | 清华大学 | 病历数据结构化分析处理方法 |
CN109273062A (zh) * | 2018-08-09 | 2019-01-25 | 北京爱医声科技有限公司 | Icd智能辅助编码系统 |
CN110428907A (zh) * | 2019-07-31 | 2019-11-08 | 济南大学 | 一种基于非结构化电子病历的文本挖掘方法及系统 |
CN111079420A (zh) * | 2019-12-19 | 2020-04-28 | 天津新开心生活科技有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN111177309A (zh) * | 2019-12-05 | 2020-05-19 | 宁波紫冬认知信息科技有限公司 | 病历数据的处理方法及装置 |
CN111402971A (zh) * | 2020-03-06 | 2020-07-10 | 浙江大学医学院附属第一医院 | 一种基于大数据的药物不良反应快速识别方法及系统 |
CN112507722A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 电子病历内涵质控方法和装置 |
CN112669991A (zh) * | 2020-12-28 | 2021-04-16 | 山东健康医疗大数据有限公司 | 一种药品不良反应信号检出方法 |
CN113823371A (zh) * | 2021-09-18 | 2021-12-21 | 上海保链科技有限公司 | 医疗数据结构化处理方法、装置及设备 |
CN116453637A (zh) * | 2023-03-20 | 2023-07-18 | 杭州市卫生健康事业发展中心 | 一种基于区域大数据的健康数据治理方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345576A (zh) * | 2013-06-25 | 2013-10-09 | 上海交通大学 | 基于四模态医学影像的病例库诊断系统 |
CN106295187A (zh) * | 2016-08-11 | 2017-01-04 | 中国科学院计算技术研究所 | 面向智能临床辅助决策支持系统的知识库构建方法与系统 |
-
2017
- 2017-02-24 CN CN201710101225.XA patent/CN106909783A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345576A (zh) * | 2013-06-25 | 2013-10-09 | 上海交通大学 | 基于四模态医学影像的病例库诊断系统 |
CN106295187A (zh) * | 2016-08-11 | 2017-01-04 | 中国科学院计算技术研究所 | 面向智能临床辅助决策支持系统的知识库构建方法与系统 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818815A (zh) * | 2017-10-30 | 2018-03-20 | 北京康夫子科技有限公司 | 电子病历的检索方法及系统 |
CN107818815B (zh) * | 2017-10-30 | 2022-05-20 | 北京康夫子健康技术有限公司 | 电子病历的检索方法及系统 |
CN107705849A (zh) * | 2017-11-27 | 2018-02-16 | 泰康保险集团股份有限公司 | 远程会诊意见整合方法和装置 |
CN109003677B (zh) * | 2018-06-11 | 2021-11-05 | 清华大学 | 病历数据结构化分析处理方法 |
CN109003677A (zh) * | 2018-06-11 | 2018-12-14 | 清华大学 | 病历数据结构化分析处理方法 |
CN109003682A (zh) * | 2018-06-25 | 2018-12-14 | 广州市品毅信息科技有限公司 | 基于领域本体知识库的药品不良反应智能监测方法 |
CN109273062A (zh) * | 2018-08-09 | 2019-01-25 | 北京爱医声科技有限公司 | Icd智能辅助编码系统 |
CN110428907A (zh) * | 2019-07-31 | 2019-11-08 | 济南大学 | 一种基于非结构化电子病历的文本挖掘方法及系统 |
CN111177309B (zh) * | 2019-12-05 | 2024-04-12 | 宁波紫冬认知信息科技有限公司 | 病历数据的处理方法及装置 |
CN111177309A (zh) * | 2019-12-05 | 2020-05-19 | 宁波紫冬认知信息科技有限公司 | 病历数据的处理方法及装置 |
CN111079420B (zh) * | 2019-12-19 | 2023-04-07 | 天津新开心生活科技有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN111079420A (zh) * | 2019-12-19 | 2020-04-28 | 天津新开心生活科技有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN111402971B (zh) * | 2020-03-06 | 2021-03-05 | 浙江大学医学院附属第一医院 | 一种基于大数据的药物不良反应快速识别方法及系统 |
CN111402971A (zh) * | 2020-03-06 | 2020-07-10 | 浙江大学医学院附属第一医院 | 一种基于大数据的药物不良反应快速识别方法及系统 |
CN112507722A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 电子病历内涵质控方法和装置 |
CN112507722B (zh) * | 2020-11-30 | 2023-08-01 | 北京百度网讯科技有限公司 | 电子病历内涵质控方法和装置 |
CN112669991A (zh) * | 2020-12-28 | 2021-04-16 | 山东健康医疗大数据有限公司 | 一种药品不良反应信号检出方法 |
CN113823371A (zh) * | 2021-09-18 | 2021-12-21 | 上海保链科技有限公司 | 医疗数据结构化处理方法、装置及设备 |
CN116453637A (zh) * | 2023-03-20 | 2023-07-18 | 杭州市卫生健康事业发展中心 | 一种基于区域大数据的健康数据治理方法和系统 |
CN116453637B (zh) * | 2023-03-20 | 2023-11-07 | 杭州市卫生健康事业发展中心 | 一种基于区域大数据的健康数据治理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
CN106919793B (zh) | 一种医疗大数据的数据标准化处理方法及装置 | |
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
CN109192255B (zh) | 病历结构化方法 | |
Friedman et al. | Automated encoding of clinical documents based on natural language processing | |
Ohta et al. | Open-domain anatomical entity mention detection | |
CN111048167B (zh) | 一种层级式病例结构化方法及系统 | |
CN111538845A (zh) | 一种构建肾病专科医学知识图谱的方法、模型及系统 | |
CN106919794B (zh) | 面向多数据源的药品类实体识别方法及装置 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
Wang et al. | A framework and its empirical study of automatic diagnosis of traditional Chinese medicine utilizing raw free-text clinical records | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN107122582B (zh) | 面向多数据源的诊疗类实体识别方法及装置 | |
CN116805013A (zh) | 一种基于知识图谱的中医药视频检索模型 | |
CN111597789A (zh) | 一种电子病历文本的评估方法及设备 | |
Ke et al. | Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
CN111222325A (zh) | 一种双向栈式循环神经网络的医疗语义标注方法和系统 | |
CN110060749A (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 | |
CN113761899A (zh) | 一种医疗文本生成方法、装置、设备及存储介质 | |
CN111180076B (zh) | 一种基于多层语义分析的医疗信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170630 |
|
RJ01 | Rejection of invention patent application after publication |