CN112992303A - 人类表型标准用语提取方法 - Google Patents

人类表型标准用语提取方法 Download PDF

Info

Publication number
CN112992303A
CN112992303A CN201911287912.0A CN201911287912A CN112992303A CN 112992303 A CN112992303 A CN 112992303A CN 201911287912 A CN201911287912 A CN 201911287912A CN 112992303 A CN112992303 A CN 112992303A
Authority
CN
China
Prior art keywords
human
record
human phenotype
standard
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911287912.0A
Other languages
English (en)
Inventor
杨亚平
于惠
李广震
王夏
徐卫志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Aisheng Biotechnology Co ltd
Original Assignee
Suzhou Aisheng Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Aisheng Biotechnology Co ltd filed Critical Suzhou Aisheng Biotechnology Co ltd
Priority to CN201911287912.0A priority Critical patent/CN112992303A/zh
Publication of CN112992303A publication Critical patent/CN112992303A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种基于熵的人类表型标准用语的提取方法,首先对电子病历进行分析提取获得疾病特征字符串,将提取出的疾病特征字符串与人类表型标准用语库中的记录进行对齐,在对齐之后进行块划分操作得到块划分文件,然后根据块划分文件进行熵计算获得疾病特征字符串与人类表型标准用语库中每个记录的相似度,最后根据最高相似度提取出相对应的人类表型标准用语。本发明的方法可以获得最大匹配长度的字符串,经过试验证实,可以显著提高提取的准确率。

Description

人类表型标准用语提取方法
技术领域
本发明属于生物信息领域,尤其涉及医学电子病历中人类表型标准用语的提取方法。
背景技术
本部分的陈述仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
人类表型是临床数据和医学文献数据中重要的实体性信息,是医生诊断与治疗的主要依据。而电子病历中的表型信息往往都是非结构化数据,且以自然语言形式存在,给后续进行病历数据的应用带来困难。因此,对于病历数据的应用,需要根据具体情况进行文本的分析和信息抽取。
人类遗传性疾病的发病率和死亡率有逐年增高的趋势,人类的遗传性疾病已经成为威胁人类健康的一个重要因素,严重的遗传性疾病每年影响全世界700多万新生儿,而这些疾病往往又进展很快。因此,诊断这些疾病迫在眉睫,并且要求疾病诊断的时间要尽可能缩短。但是,手动诊断和评估病历会浪费大量时间及精力。一般来说,识别患者的致病基因一般需要花费一周左右的时间,而且还可能受到临床医生的主观影响,受限于临床医疗专家的医疗水平,无法针对相关性不明显的疾病做出诊断。如果能自动对患者的疾病进行识别,或者自动找出患者疾病和自身基因变异的对应关系,来辅助医生诊断,将大大减少医生做出诊断的时间,给患者赢得宝贵的治疗时间。但是,电子病历、医学文献等信息中对病人疾病表型的描述往往都是非结构化数据,且以自然语言形式存在,这严重阻碍了使用自动方法对疾病进行识别、或者对基因突变和疾病的对应关系识别。因此,临床数据中人类表型标准用语的自动提取非常重要。
传统方法中,基于规则的方法依赖于现有的医学词汇,如正则表达式的运用,但基于人工总结的规则和模板常常难以覆盖各种语言现象,且泛化能力较差,领域可移植性不佳,研究者们很难设计出完整的规则来覆盖各种情况。基于字典的方法因简单性被广泛使用,通过计算语义相似度,可以通过字典中已有的词来对目标概念进行标注;但是,该方法过分依赖外部数据的规模和质量,且搜集语料的过程耗费大量人力资源。
目前,自动提取人类表型标准用语的方法大多将自然语言的描述与标准用语库进行匹配,根据计算所得的相似度找出相对应的HPO标准词汇。Human Phenotype Ontology(HPO)是人类表型本体论,HPO目前包含13000多个术语和156000多个遗传病注释,提供了人类疾病中遇到的表型异常的标准化词汇。HPO的每个术语都描述一种表型异常,例如:HP:0001250是Seizures(癫痫发作)的ID。
发明内容
针对现有技术中存在的问题,本公开提供了一种从临床电子病历进行人类表型标准用语提取的方法。
通常,对于非结构化的电子病历,需要先利用自然语言处理算法进行分词、词形还原以及去除停用词等预处理。在预处理完的电子病历中,再进行疾病特征字符串的识别与人类表型标准用语的转换。
本发明的实施例提供了一种基于熵的人类表型标准用语的提取方法,包括如下步骤:
(1)对电子病历数据进行分析提取,获得疾病特征字符串;
(2)将疾病特征字符串与人类表型标准用语库中的每个记录进行字符串匹配,标记出疾病特征字符串与人类表型标准用语库中每个记录的匹配关系,生成对齐文件;
(3)对生成的对齐文件进行块划分,得到块划分文件;
(4)根据块划分文件进行熵计算,获得疾病特征字符串与人类表型标准用语库中每个记录的相似度,根据最高相似度提取对应的人类表型标准用语。
步骤(1)中,对电子病历数据进行分析提取,根据自定义规则:由标点符号、否定词以及连接词(包括and,but等)进行电子病历数据的切分。首先按照第一类标点符号和否定词进行第一级切分,然后在第一级切分结果中,若出现否定词(比如not)则直接筛除,然后在这个基础上按照第二类标点符号以及连接词进行第二级拆分,从而得到疾病特征字符串;其中,第一类标点符号包括句号、感叹号和分号,第二类标点符号包括逗号和顿号。
本公开中,人类表型标准用语库包括:人类表型标准用语的名称及其定义,以及人类表型标准用语的同义词。其中,人类表型标准用语库中每一个标准用语及其对应的定义以及同义词,划分为一组,组内的每一项为一条记录。部分示例如图2所示。将提取出的疾病特征字符串与人类表型标准用语库中的记录进行对齐,在对齐之后进行块划分操作得到块划分文件,然后根据块划分文件进行熵计算获得疾病特征字符串与人类表型标准用语库中的记录的相似度,最后根据最高相似度提取出相对应的人类表型标准用语。本发明的方法摆脱了N-gram的限制,可以获得最大匹配长度的字符串,经过试验证实,可以显著提高提取的准确率。相较于ClinPhen方法,本发明在精确率上有明显提高。
附图说明
图1为本公开实施例中人类表型标准用语提取方法的流程图;
图2为人类表型标准用语库部分示意图;
图3为本公开的实施方式中对齐方法示意图;
图4为本公开的实施方式中块划分方法示意图。
具体实施方式
为了使本发明更加清楚,下面将结合附图和具体实例对本发明进行详细描述。
需要说明,以下实施例中采用的人类表型标准用语库是英文的,以英文电子病历进行验证,但本公开的方法同样适用于中文版本的人类表型标准用语库和病历。
本公开的实施例提供一种基于熵的人类表型标准用语提取方法,以提高人类表型标准用语提取的精确度。
香农将信息熵定义为离散随机事件出现的概率,假设X是一个离散型随机变量,取值空间为R,其概率分布为:
p(x)=P(X=x),x∈R (1.1)
X的熵H(X)定义为:
Figure BDA0002318549710000031
在公式(1.2)中,对数以2为底,公式定义的熵的单位为二进制位,即比特,通常将log2p(x)简写为logp(x)。
熵是一个变量不确定性度量,在本公开的方法中,熵可以用来反应提取出的疾病特征字符串和人类表型标准用语库中的记录所匹配上的片段的分布情况。熵越低,说明匹配上的片段的分布情况越集中,即匹配块越完整;反之,熵越高,说明匹配上的片段的分布情况越分散,匹配块越分散,流利性越差。
如图1所示,本实施例提供了一种人类表型标准用语的提取方法,包括如下步骤:
(1)对电子病历数据进行分析提取,获得疾病特征字符串;
根据自定义规则:由标点符号,否定词(not)以及连接词(包括and和but)进行电子病历数据的切分,首先按照第一类标点符号(包括句号、感叹号和分号)进行第一级切分,第一级切分结果中若出现否定词(比如not),直接筛除,然后在这个基础上,按照第二类标点符号(包括逗号、顿号)以及连接词进行第二级拆分,从而得到疾病特征字符串。
(2)将疾病特征字符串与人类表型标准用语库中的每个记录进行字符串匹配,标记出疾病特征字符串与人类表型标准用语库中每个记录的匹配关系,生成对齐文件;
首先,标记出在疾病特征字符串和人类表型标准用语库中每个记录的匹配情况,在标记出所有的匹配关系之后,在匹配关系的集合中,通过一定的规则找出每一个对齐,具体规则如下:每一个匹配都对应着疾病特征字符串与人类表型标准用语库中记录的一条连线,对于每个记录,选取交叉线最少的一组匹配关系,作为该记录与疾病特征字符串的对齐,对齐方式如图3所示。疾病特征字符串和人类表型标准用语库中每个记录的对齐为一一对应,即疾病特征字符串的一个词最多与人类表型标准用语库中一个记录的一个词相匹配,反之,人类表型标准用语库中一个记录的一个词也最多与疾病特征字符串中的一个词相匹配。
(3)对生成的对齐文件进行块划分,得到块划分文件;
块划分方式如图4所示,在做完对齐后,需要将对齐文件划分为块,要求每个块内的两个字符串中匹配上的词在疾病特征字符串内的位置是连续的,并且映射到人类表型标准用语库中的记录上的位置也是连续的,并且每个块应为最大连续的字符串匹配,从而得到块划分文件。
(4)根据块划分文件进行熵计算,获得疾病特征字符串与人类表型标准用语库中的每个记录的相似度,然后提取相似度最高的一条记录所对应的组中的人类表型标准用语。
在做好对齐文件与块划分后,对分块情况进行熵计算。所示熵计算包括:根据块划分文件的分块信息计算熵,对熵进行归一化,结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中的每个记录的相似度。
根据分块信息计算熵的公式如下:其中,li代表第i个块的长度,即词的个数;c代表块的个数;L代表所有匹配上的词的个数。
Figure BDA0002318549710000051
为了把熵的值限定在(0,1)之间,需要对上述获得的熵进行归一化,采取的方法是对上述公式应用以e为底的指数函数。使用entropy来表示归一化后的熵。对分块信息的熵进行归一化,计算公式如下,
entropy=e-H (1.4)
最后,结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中的每个记录的相似度。具体如下:
步骤A:用F度量值来评价疾病特征字符串和人类表型标准用语库中每个记录的一致性。计算方式如(1.5)所示,其中β为精确率分配的权重,0﹤β﹤1,precision是精确率,recall是召回率。
Figure BDA0002318549710000052
步骤B:将F度量值引入entropy中,通过结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中的每个记录的最终相似度,得到Sim即相似度,计算公式如(1.6)所示
Sim=e-H×F-score (1.6)
通过相似度大小便可以提取出与疾病特征字符串相对应的相似度最高的人类表型标准用语。
步骤A中使用参数β,可以动态调整精确率和召回率的权重,从而得到更高的F度量值,进而得到更高的相似度Sim,使结果更加精确。
在本公开的一种实施方式中,β为1/2。

Claims (10)

1.一种人类表型标准用语的提取方法,包括如下步骤:
(1)对电子病历数据进行分析提取,获得疾病特征字符串;
(2)将疾病特征字符串与人类表型标准用语库中的每个记录进行字符串匹配,标记出疾病特征字符串与人类表型标准用语库中每个记录的匹配关系,生成对齐文件;
(3)对生成的对齐文件进行块划分,得到块划分文件;
(4)根据块划分文件进行熵计算,获得疾病特征字符串与人类表型标准用语库中每个记录的相似度,根据最高相似度提取对应的人类表型标准用语。
2.如权利要求1所述的人类表型标准用语的提取方法,其特征在于,步骤(1)中对电子病历数据进行分析提取包括:首先按照第一类标点符号和否定词进行第一级切分,然后在第一级切分结果中,若出现否定词则直接筛除,然后在这个基础上按照第二类标点符号以及连接词进行第二级拆分,从而得到疾病特征字符串;其中,第一类标点符号包括句号、感叹号和分号,第二类标点符号包括逗号和顿号。
3.如权利要求1所述的人类表型标准用语的提取方法,其特征在于,所述人类表型标准用语库包括:人类表型标准用语的名称及其定义,以及人类表型标准用语的同义词。
4.如权利要求1所述的人类表型标准用语的提取方法,其特征在于,步骤(2)中所述生成对齐文件的步骤包括:首先,标记出在疾病特征字符串和人类表型标准用语库中每个记录的匹配情况,在标记出所有的匹配关系之后,在匹配关系的集合中,通过一定的规则找出对齐,所述规则为:每一个匹配都对应着疾病特征字符串与人类表型标准用语库中的记录的一条连线;对于每个记录,选取交叉线最少的一组匹配关系,作为该记录与疾病特征字符串的对齐。
5.如权利要求1所述的人类表型标准用语的提取方法,其特征在于,步骤(3)中所述块划分方法是将对齐文件划分为块,要求每个块内的两个字符串中匹配上的词在疾病特征字符串内的位置是连续的,并且映射到人类表型标准用语库中的记录上的位置也是连续的,并且每个块应为最大连续的字符串匹配,从而得到块划分文件。
6.如权利要求1所述的人类表型标准用语的提取方法,其特征在于,步骤(4)中所述熵计算包括:根据块划分文件的分块信息计算熵,对熵进行归一化,结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中每个记录的相似度。
7.如权利要求6所述的人类表型标准用语的提取方法,其特征在于,根据块划分文件的分块信息计算熵的公式为:
Figure FDA0002318549700000021
其中,li代表第i个块的长度,即词的个数;c代表块的个数;L代表所有匹配上的词的个数。
8.如权利要求6所述的人类表型标准用语的提取方法,其特征在于,对熵进行归一化的计算公式为:entropy=e-H
9.如权利要求6所述的人类表型标准用语的提取方法,其特征在于,结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中每个记录的相似度的计算方法包括:
步骤A:用F度量值评价疾病特征字符串和人类表型标准用语库中每个记录的一致性,计算公式为:
Figure FDA0002318549700000022
其中,β为精确率分配的权重,0﹤β﹤1,precision是精确率,recall是召回率;
步骤B:将F度量值引入entropy中,通过结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中的每个记录的相似度Sim,计算公式为:
Sim=e-H×F-score。
10.如权利要求9所述的人类表型标准用语的提取方法,其特征在于,β为1/2。
CN201911287912.0A 2019-12-15 2019-12-15 人类表型标准用语提取方法 Pending CN112992303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911287912.0A CN112992303A (zh) 2019-12-15 2019-12-15 人类表型标准用语提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911287912.0A CN112992303A (zh) 2019-12-15 2019-12-15 人类表型标准用语提取方法

Publications (1)

Publication Number Publication Date
CN112992303A true CN112992303A (zh) 2021-06-18

Family

ID=76342771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911287912.0A Pending CN112992303A (zh) 2019-12-15 2019-12-15 人类表型标准用语提取方法

Country Status (1)

Country Link
CN (1) CN112992303A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910213A (zh) * 2022-10-26 2023-04-04 广州金域医学检验中心有限公司 人类表型本体的筛选方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235392A1 (en) * 2009-03-16 2010-09-16 Mccreight Shawn System and Method for Entropy-Based Near-Match Analysis
CN102929930A (zh) * 2012-09-24 2013-02-13 南京大学 小样本自动化Web文本数据抽取模板生成与抽取方法
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法
CN108710663A (zh) * 2018-05-14 2018-10-26 北京大学 一种基于本体模型的数据匹配方法及系统
US20190005026A1 (en) * 2016-10-28 2019-01-03 Boe Technology Group Co., Ltd. Information extraction method and apparatus
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
CN110020005A (zh) * 2019-03-28 2019-07-16 云知声(上海)智能科技有限公司 一种病历中主诉和现病史中症状匹配方法
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235392A1 (en) * 2009-03-16 2010-09-16 Mccreight Shawn System and Method for Entropy-Based Near-Match Analysis
CN102929930A (zh) * 2012-09-24 2013-02-13 南京大学 小样本自动化Web文本数据抽取模板生成与抽取方法
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
US20190005026A1 (en) * 2016-10-28 2019-01-03 Boe Technology Group Co., Ltd. Information extraction method and apparatus
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法
CN108710663A (zh) * 2018-05-14 2018-10-26 北京大学 一种基于本体模型的数据匹配方法及系统
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
CN110020005A (zh) * 2019-03-28 2019-07-16 云知声(上海)智能科技有限公司 一种病历中主诉和现病史中症状匹配方法
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910213A (zh) * 2022-10-26 2023-04-04 广州金域医学检验中心有限公司 人类表型本体的筛选方法、装置、设备及介质
CN115910213B (zh) * 2022-10-26 2023-12-29 广州金域医学检验中心有限公司 人类表型本体的筛选方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110993081B (zh) 一种医生在线推荐方法及系统
CN106874643B (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
US20220044812A1 (en) Automated generation of structured patient data record
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN111737975A (zh) 文本内涵质量的评估方法、装置、设备及存储介质
US20220301670A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN110442840B (zh) 序列标注网络更新方法、电子病历处理方法及相关装置
CN107193919A (zh) 一种电子病历的检索方法及系统
CN105184053B (zh) 一种中文医疗服务项目信息的自动编码方法及系统
CN112541056B (zh) 医学术语标准化方法、装置、电子设备及存储介质
CN112037909B (zh) 诊断信息复核系统
CN112270988B (zh) 一种罕见病辅助诊断的方法
CN111259664B (zh) 医学文本信息的确定方法、装置、设备及存储介质
Pathak et al. Post-structuring radiology reports of breast cancer patients for clinical quality assurance
Gavrilov et al. Feature extraction method from electronic health records in Russia
CN113539414A (zh) 一种抗生素用药合理性预测方法及系统
CN115083550B (zh) 基于多源信息的病人相似度分类方法
Hsu et al. Multi-label classification of ICD coding using deep learning
CN111524570A (zh) 一种基于机器学习的超声随访患者筛选方法
CN113643825B (zh) 基于临床关键特征信息的医疗案例知识库构建方法和系统
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
CN112992303A (zh) 人类表型标准用语提取方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN113111660A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination