CN111986759A - 电子病历的解析方法、系统、计算机设备与可读存储介质 - Google Patents

电子病历的解析方法、系统、计算机设备与可读存储介质 Download PDF

Info

Publication number
CN111986759A
CN111986759A CN202010895611.2A CN202010895611A CN111986759A CN 111986759 A CN111986759 A CN 111986759A CN 202010895611 A CN202010895611 A CN 202010895611A CN 111986759 A CN111986759 A CN 111986759A
Authority
CN
China
Prior art keywords
keywords
target
query
electronic medical
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010895611.2A
Other languages
English (en)
Inventor
寿毅宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202010895611.2A priority Critical patent/CN111986759A/zh
Publication of CN111986759A publication Critical patent/CN111986759A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种电子病历的解析方法,包括:获取用户输入的查询问题;对所述查询问题进行分词处理,以得到多个关键词;对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词;根据上下文无关法对所述目标标准词进行解析,得到文法解析树;将所述文法解析树转换为对应的目标问题语义图;根据所述目标问题语义图生成所述查询问题对应的查询语言;根据所述查询语言从电子病历数据库中获取所述查询问题对应的查询结果。本发明还公开了一种电子病历的解析系统、计算机设备与可读存储介质。本发明的有益效果在于:便于用户进行相关问题的查看。

Description

电子病历的解析方法、系统、计算机设备与可读存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种电子病历的解析方法、系统、计算机设备与可读存储介质。
背景技术
随着信息技术的快速发展,医疗信息化呈现出前所未有的发展趋势,医院在医疗服务过程中会产生海量的数据,从而形成医疗大数据,大数据的意义不仅是掌握海量数据,更重要的是通过数据挖掘等专业方法进行分析来实现数据的价值和意义,因此,将数据挖掘与分析技术应用于医疗领域并与传统医学数据相结合,可实现精准化、个性化的健康医疗服务。
目前,大多是传统的纸质记录,但是纸质病例数据量冗余,格式标准不统一,医生工作强度大、效率低。现有技术中也使用了电子病历的方式,但是电子病历的存储方式各不一致,解析比较耗时,用户查看不便,也不利于数据资源整合以及后期数据处理与机器学习,不符合人工智能的发展趋势。
发明内容
有鉴于此,本发明实施例的目的是提供一种电子病历的解析方法、系统、计算机设备与可读存储介质,便于用户进行相关问题的查看。
为实现上述目的,本发明实施例提供了一种电子病历的解析方法,包括:
获取用户输入的查询问题;
对所述查询问题进行分词处理,以得到多个关键词;
对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词;
根据上下文无关法对所述目标标准词进行解析,得到文法解析树;
将所述文法解析树转换为对应的目标问题语义图;
根据所述目标问题语义图生成所述查询问题对应的查询语言;
根据所述查询语言从电子病历数据库中获取所述查询问题对应的查询结果。
进一步地,所述对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
确定所述多个关键词对应的类型;
根据每个所述关键词对应的类型对每个所述关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词,其中,所述链接抽取包括时间链接抽取、关系链接抽取、属性链接抽取以及实体链接抽取。
进一步地,所述根据每个所述关键词对应的类型对每个所述关键词进行时间链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为时间的第一目标关键词;
根据正则表达式将所述第一目标关键词转化为第一目标标准词,其中,所述目标关键词包括第一目标标准词。
进一步地,所述根据每个所述关键词对应的类型对每个所述关键词进行关系链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为关系的第二目标关键词;
根据预设规则将所述第二目标关键词转化为第二目标标准词,其中,所述目标关键词包括第二目标标准词。
进一步地,所述根据每个所述关键词对应的类型对每个所述关键词进行属性链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为属性的第三目标关键词;
根据相似度算法将所述第三目标关键词转化为第三目标标准词,其中,所述目标关键词包括第三目标标准词。
进一步地,所述根据每个所述关键词对应的类型对每个所述关键词进行实体链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为实体的第四目标关键词;
获取临床基础知识库,所述临床基础知识库包括多个候选标准词;
计算每个所述第四目标关键词与所述多个候选标准词的相似度;
将相似度最高的候选标准词作为第四目标标准词,其中,所述目标关键词包括第四目标标准词。
进一步地,所述方法还包括:
将所述查询问题对应的查询结果存储至区块链中。
为实现上述目的,本发明实施例还提供了一种电子病历的解析系统,包括:
第一获取模块,用于获取用户输入的查询问题;
分词模块,用于对所述查询问题进行分词处理,以得到多个关键词;
抽取模块,用于对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词;
解析模块,用于根据上下文无关法对所述目标标准词进行解析,得到文法解析树;
转换模块,用于将所述文法解析树转换为对应的目标问题语义图;
生成模块,用于根据所述目标问题语义图生成所述查询问题对应的查询语言;
第二获取模块,用于根据所述查询语言从电子病历数据库中获取所述查询问题对应的查询结果。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的电子病历的解析方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的电子病历的解析方法的步骤。
本发明实施例提供的电子病历的解析方法、系统、计算机设备与可读存储介质,通过查询问题在电子病历数据库查询对应的答案,在查询过程中,对查询问题进行分词及链接抽取,统一化处理后得到对应的目标标准词,再根据上下文无关文法对目标标准词进行解析,生成对应的目标问题语义图,翻译目标问题语义图后,从电子病历数据库查询对应的目标电子病历,以方便用户进行查看,高效快捷。
附图说明
图1为本发明电子病历的解析方法实施例一的流程图。
图2为本发明实施例一中步骤S14的流程图。
图3为本发明实施例一中步骤S142的第一实施例的流程图。
图4为本发明实施例一中步骤S142的第二实施例的流程图。
图5为本发明实施例一中步骤S142的第三实施例的流程图。
图6为本发明实施例一中步骤S142的第四实施例的流程图。
图7为本发明电子病历的解析系统实施例二的程序模块示意图。
图8为本发明计算机设备实施例三的硬件结构示意图。
图9为本发明实施例一中文法解析树的示意图。
图10为本发明实施例一中目标问题语义图的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之电子病历的解析方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备3为执行主体进行示例性描述。具体如下。
步骤S10,获取用户输入的查询问题。
具体地,通过电子终端获取用户输入的查询问题,查询的问题为查询语句,根据用户意愿随机组合,主要为患者相关的问题。
步骤S12,对所述查询问题进行分词处理,以得到多个关键词。
具体地,进行分词时,由于大量的医疗术语没有被收录到数据库中,分词的结果不准确。例如,“复方甘草口服溶液”的分词结果为“复方”、“甘草”、“口服”、“溶液”。根据知识库体系与EMR(电子病历)库训练得到领域专业词典,使用基于字符串匹配的分词方法根据领域专业词典对目标文本进行分词处理,可以使用分词与词性标注相结合的一体化方法。把问题Q看作向量空间中的一个n维向量(w1,w2,...,wn),其wi为第i个特征的权重;wi可以是布尔值,用来表示特征t是否出现在问题Q中;也可以是TF,来表示特征t在问题Q中的重要程度。知识库体系与EMR库包括药品、疾病等各种类型的数据库。对于输入的问题Q,例如是否服用药物,分词后的词语序列为tokenList=<token1,token2,…tokeni,…>,即上述的“复方”、“甘草”、“口服”、“溶液”。
步骤S14,对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词。
具体地,根据知识体系及电子病历(EMR,Electronic Medical Record)库从多个关键词中,抽取到对应的词汇,计算关键词与标准词的相似度,若相似度符合预设阈值,则将关键词转换成对应的目标标准词,以形成对应的目标标准词。可以理解为,只要关键词符合标准词的近义词,即可进行抽取,再统一处理处理成标准词。链接抽取包括时间链接抽取、关系链接抽取、属性链接抽取以及实体链接抽取,其中,实体链接抽取包括概念链接抽取与实例链接抽取。知识体系及电子病历,依托于平安现存的大量知识库数据,包含各地方基表,平安基表以及各国家版本基表等,为现有模型提供了大量训练数据。
示例性地,参阅图2,所述步骤S14具体包括:
步骤S141,确定所述多个关键词对应的类型。
具体地,根据每个关键词在查询问题中的词性得到每个关键词的类型,包括:实体词、关系词、时间词与属性词。
步骤S142,根据每个所述关键词对应的类型对每个所述关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词,其中,所述链接抽取包括时间链接抽取、关系链接抽取、属性链接抽取以及实体链接抽取。
具体地,为每种类型的关键词设置统一标准的格式,以标准格式变换后的关键词即为目标标准词,关键词抽取时,一并将关键词转换为对应的目标标准词。
示例性地,参阅图3,所述步骤S142的第一实施例,具体包括:
步骤S142A1,获取所述多个关键词中类型为时间的第一目标关键词。
具体地,时间词容易抽取,一般看到数字、年月日或者日期格式相关形式的词即可进行抽取,作为第一目标关键词。
步骤S142A2,根据正则表达式将所述第一目标关键词转化为第一目标标准词,其中,所述目标关键词包括第一目标标准词。
具体地,进行时间链接抽取时,由于用户输入的查询问题发自然语言中时间的格式比较多样,如2015年6月l0日、20l5/6/10、2015-6-10等格式,需要定义规则模板(例如:正则表达式)以抽取查询问题中的时间,将其处理为统一的数值格式20150610,以便于在电子病历库中进行比较查询。例如:使用java中的Pattern、Matcher类来进行正则替换,就是把所有的时间统一格式:20150610。
示例性地,参阅图4,所述步骤S142的第二实施例,具体包括:
步骤S142B1,获取所述多个关键词中类型为关系的第二目标关键词。
具体地,关系词即连接词,一般为动词,将关系词进行抽取作为第二目标关键词。
步骤S142B2,根据预设规则将所述第二目标关键词转化为第二目标标准词,其中,所述目标关键词包括第二目标标准词。
具体地,进行关系链接抽取时,因为关系在查询问题的自然语言的表达方式多种多样,例如,病历库中的关系“用药”,可以抽取的词汇为“吃过**”、“服用了**”、“用了**”。若查询问题中的用词为后者,抽取后将其统一成“用药”。
示例性地,参阅图5,所述步骤S142的第三实施例,具体包括:
步骤S142C1,获取所述多个关键词中类型为属性的第三目标关键词。
具体地,属性词为描述事物属性的词语,一般为形容词,将属性词进行抽取作为第三目标关键词。
步骤S142C2,根据相似度算法将所述第三目标关键词转化为第三目标标准词,其中,所述目标关键词包括第三目标标准词。
具体地,进行属性链接抽取时,将与属性词相关的词语进行抽取,例如“住院次数”,可以抽取的词汇为“住了**次院”、“住院次数为**”、“住了**回院”等,抽取后进行统一用词处理。
示例性地,参阅图6,所述步骤S142的第四实施例,具体包括:
步骤S142D1,获取所述多个关键词中类型为实体的第四目标关键词。
具体地,实体词一般包括名词和代词,将实体词进行抽取,作为第四目标关键词。
步骤S142D2,获取临床基础知识库,所述临床基础知识库包括多个候选标准词。
具体地,设K为EMR库,Set=<e1,e2,…ej.…>为K中实体和属性名称集合(候选关键词集),S(ej)为候选关键词ej及其同义词构成的集合,EMR库中包含有多个S(ej)。
用平台医疗实体同义词,作为临床基础知识库中实例的同义词补充到基础知识库中。考虑到EMR中疾病名称的书写并不规范,在EMR中同一个疾病(相同ICD编码)常常有多种写法。例如,心力衰竭,在EMR常见的有:“心衰”、“慢性心力衰竭”、“慢性心衰”等。因此以ICD中疾病名称为标准,将EMR中对于同一实体的不同描述也作为同义词补充到临床基础知识库中。
步骤S142D3,计算每个所述第四目标关键词与所述多个候选标准词的相似度。
具体地,对于查询问题中的第四目标关键词tokeni和候选标准词ej,计算tokeni与S(ej)中所有值的相似度,eh表示任意标准词,其计算公式的形式化表示如下所示:
Figure BDA0002658337770000081
其中,由于第四目标关键词的书写不一致,计算相似度的函数σ考虑了编辑距离(Levenshtein distance)、三元语法(trigram)以及最长公共子字符串(LCS,LongestCommon Substring),编辑距离将第四目标关键词与候选标准词的转换距离计算出来,若编辑距离小,表示第四目标关键词转换的候选标准词次数少,其相似度越高;三元语法比较第四目标关键词的集合与候选标准词集合之间的相似性与差异性,以Jaccard系数表示,Jaccard系数值越大,相似度越高;最长公共子字符串将第四目标关键词与候选标准词集合中的每个标准词进行比较,比较两者之间的长度,长度越大说明越相似。计算公式的形式化表示为如下所示:
Figure BDA0002658337770000083
T(tokeni,eh)=Jaccard(trigram(tokeni),trigram(eh));
Figure BDA0002658337770000084
其中,L函数为1减去编辑距离与tokeni、eh中长度最大值的比值,T函数为tokeni的trigram集合和eh的trigram集合的Jaccard相似度,LCS函数为最长公共子串的长度与tokeni、eh中长度最大值的比值。
相似度的函数σ将第四目标关键词的每种形式都考虑到了,例如,若第四目标关键词为慢性心衰,候选标准词集中只包括有“心衰”、“慢性心力衰竭”两个候选关键词,若单使用编辑距离,两个候选关键词的编辑距离一致(都需转换两次得到),就需要考虑三元语法与长公共子字符串,找寻更为合适的候选标准词。
步骤S142D4,将相似度最高的候选标准词作为第四目标标准词,其中,所述目标关键词包括第四目标标准词。
具体地,将相似度的值作为候选标准词ej的得分,最终从Set中选择得分最高的候选标准词ek,作为输出tokeni在知识库中对应的第四目标标准词。
步骤S16,根据上下文无关法对所述目标标准词进行解析,得到文法解析树。
具体地,根据上下文无关文法对目标标准词进行解析,得到多种问题组合。将上下文无关文法使用BNF(Backus-Naur Form,巴克斯范式)表示,将查询问题分成三部分:可选的组合条件(即患者的定语修饰条件),概念(即患者)和可选的查询项,以得到文法解析树。组合条件由子条件组成,其中子条件包含关系子条件、属性子条件和关系属性子条件。关系子条件由关系和实例组成,例如“服用复方甘草口服溶液”,其中“服用”表示关系,“复方甘草口服溶液”表示实例。也可以是否定的关系子条件,例如“没有服用复方甘草口服溶液”。属性条件由属性名和属性值组成,属性包括数值型属性,字符串型属性和日期型属性。例如,属性条件“住院天数超过10天”,其中“住院天数”表示数值属性,“超过10天”表示数值属性值。关系属性条件由实例和属性条件组成,例如“平均血红蛋白浓度偏低”,其中“平均血红蛋白浓度”为实例,“偏低”为枚举属性值,根据上述方法可抽取到枚举属性名“提示”,属性名称补全后得到属性子条件“提示偏低”。查询项表示对满足组合条件的病历做的具体统计内容,即临床症一治一效统计,如发病情况(人口统计学山西大学学报(自然科学版)情况)、诊断情况、治疗情况、疗效情况的统计。参阅图9,例如,发病问题,如“心力衰竭患者的年龄分布”,其中“年龄”表示数值型属性,对应文法<查询项>中的<数值型属性><分布>;诊断问题,如“患有高血压、糖尿病、冠心病的病人发生心衰的比例”,对应文法中<关系><实例><比例>;治疗问题,如“直肠癌患者做了肠镜下肠活检术后服用平消胶囊的比例”,对应文法中<事件时间><关系条件><比例>,其中事件时间由事件即关系和实例组成,在这里指“服用平消胶囊”;疗效问题,如“心衰患者中服用ACEI+8阻剂的再入率”,对应文法中<关系条件><再入院率>,女性直肠癌患者做了肠镜下肠活检术后癌胚抗原正常的比例,对应文法中<事件时间><子条件><比例>等。使用上下文无关文法生成文法解析树后,通过对其进行自上而下的遍历,可以得到查询问题的所有子条件和查询内容。在查询问题中,有些子条件没有明确指明时间,这些子条件有两种情况,一种是本身无限制,例如性别;另一种子条件的时间需要参考上下文。然而由于查询问题的自然语言本身的歧义性,问题子条件的时间可以有多种情况。
步骤S18,将所述文法解析树转换为对应的目标问题语义图。
具体地,将文法解析树进行解析处理,生成对应的目标问题语义图。问题语义图生成包括概念节点生成和概念之间的关系生成。目标问题语义图中,对文法解析树进行分类,每个节点上对应于文法解析树上的相关关系。首先根据问题中子条件所属概念,生成概念节点(患者:男或女),并根据子条件的值(年龄、住院时间、疾病等),填充属性值(60~80,2019011等)。然后根据知识库中各概念与患者之间的关系将概念节点进行关联,最终生成问题语义图。概念节点生成具体如下:对于关系子条件,根据关系子条件中实体所属概念生成概念节点。例如,查询问题为“60-90岁女性直肠癌患者做了肠镜下肠活检术后服用乎消胶囊的比例”,由于该查询问题并没有涉及时间,因此可以根据上下文无关文法解析树直接生成问题语义图,如下图10所示,该语义图包含两个子图,其中(1)表示“60-90岁女性直肠癌患者做了肠镜下肠活检术后服用平消胶囊”,(2)表示“60-90岁女性直肠癌患者做了肠镜下肠活检术”,该问题可表示为满足子图(1)的患者总人数占满足子图(2)的患者总人数的比例。
步骤S20,根据所述目标问题语义图生成所述查询问题对应的查询语言。
具体地,问题翻译是将查询问题的目标问题语义图翻译为属性图数据库Neo4j的查询语言Cypher。翻译过程主要包括三个部分:match子句翻译,where子句翻译和return子句翻译。问题的语义图结构和Cypher查询语句中match子句结构相似,问题语义图由节点和边构成,match子句也是由节点和边构成,其中“()”表示节点,“<—()—>”表示边。问题语义图中概念的属性值约束对应where子句中的条件,条件中的变量名分别对应match子句中的节点变量和边变量。问题语义图中节点的未知属性对应查询语句中的return子句。例如:问题语义图中患者节点连接有住院信息节点、疾病详情节点、药品详情节点和手术详情节点,再将其结构对应到match子句中;where子句中的年龄约束、性别约束、疾病约束、药品约束和手术约束分别对应语义图中概念节点中的属性约束;return子句最终返回满足子图的患者人数。
步骤S22,根据所述查询语言从电子病历数据库中获取所述查询问题对应的查询结果。
具体地,电子病历数据库包括有多个电子病历,从电子病历数据库查询到对应的目标电子病历,便于后续用户根据查询问题进行查看。查询答案即对应输入问题的电子病历,可根据需求进行图形绘制。
示例性地,所述方法还包括:
将所述查询问题对应的查询结果存储至区块链中。
具体地,将查询结果上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该查询结果,以便查证查询问题对应的查询结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
请继续参阅图7,示出了本发明电子病历的解析系统实施例二的程序模块示意图。在本实施例中,电子病历的解析系统30可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述电子病历的解析方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述电子病历的解析系统30在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
第一获取模块300,用于获取用户输入的查询问题。
具体地,通过电子终端获取用户输入的查询问题,查询的问题为查询语句,根据用户意愿随机组合,主要为患者相关的问题。
分词模块302,用于对所述查询问题进行分词处理,以得到多个关键词。
具体地,进行分词时,由于大量的医疗术语没有被收录到数据库中,分词的结果不准确。例如,“复方甘草口服溶液”的分词结果为“复方”、“甘草”、“口服”、“溶液”。根据知识库体系与EMR(电子病历)库训练得到领域专业词典,使用基于字符串匹配的分词方法根据领域专业词典对目标文本进行分词处理,可以使用分词与词性标注相结合的一体化方法。把问题Q看作向量空间中的一个n维向量(w1,w2,...,wn),其wi为第i个特征的权重;wi可以是布尔值,用来表示特征t是否出现在问题Q中;也可以是TF,来表示特征t在问题Q中的重要程度。知识库体系与EMR库包括药品、疾病等各种类型的数据库。对于输入的问题Q,例如是否服用药物,分词后的词语序列为tokenList=<token1,token2,…tokeni,…>,即上述的“复方”、“甘草”、“口服”、“溶液”。
抽取模块304,用于对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词。
具体地,根据知识体系及电子病历(EMR,Electronic Medical Record)库从多个关键词中,抽取到对应的词汇,计算关键词与标准词的相似度,若相似度符合预设阈值,则将关键词转换成对应的目标标准词,以形成对应的目标标准词。可以理解为,只要关键词符合标准词的近义词,即可进行抽取,再统一处理处理成标准词。链接抽取包括时间链接抽取、关系链接抽取、属性链接抽取以及实体链接抽取,其中,实体链接抽取包括概念链接抽取与实例链接抽取。知识体系及电子病历,依托于平安现存的大量知识库数据,包含各地方基表,平安基表以及各国家版本基表等,为现有模型提供了大量训练数据。
示例性地,所述抽取模块304具体用于:
确定所述多个关键词对应的类型。
具体地,根据每个关键词在查询问题中的词性得到每个关键词的类型,包括:实体词、关系词、时间词与属性词。
根据每个所述关键词对应的类型对每个所述关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词,其中,所述链接抽取包括时间链接抽取、关系链接抽取、属性链接抽取以及实体链接抽取。
具体地,为每种类型的关键词设置统一标准的格式,以标准格式变换后的关键词即为目标标准词,关键词抽取时,一并将关键词转换为对应的目标标准词。
解析模块306,用于根据上下文无关法对所述目标标准词进行解析,得到文法解析树。
具体地,根据上下文无关文法对目标标准词进行解析,得到多种问题组合。将上下文无关文法使用BNF(Backus-Naur Form,巴克斯范式)表示,将查询问题分成三部分:可选的组合条件(即患者的定语修饰条件),概念(即患者)和可选的查询项,以得到文法解析树。组合条件由子条件组成,其中子条件包含关系子条件、属性子条件和关系属性子条件。关系子条件由关系和实例组成,例如“服用复方甘草口服溶液”,其中“服用”表示关系,“复方甘草口服溶液”表示实例。也可以是否定的关系子条件,例如“没有服用复方甘草口服溶液”。属性条件由属性名和属性值组成,属性包括数值型属性,字符串型属性和日期型属性。例如,属性条件“住院天数超过10天”,其中“住院天数”表示数值属性,“超过10天”表示数值属性值。关系属性条件由实例和属性条件组成,例如“平均血红蛋白浓度偏低”,其中“平均血红蛋白浓度”为实例,“偏低”为枚举属性值,根据上述方法可抽取到枚举属性名“提示”,属性名称补全后得到属性子条件“提示偏低”。查询项表示对满足组合条件的病历做的具体统计内容,即临床症一治一效统计,如发病情况(人口统计学山西大学学报(自然科学版)情况)、诊断情况、治疗情况、疗效情况的统计。参阅图9,例如,发病问题,如“心力衰竭患者的年龄分布”,其中“年龄”表示数值型属性,对应文法<查询项>中的<数值型属性><分布>;诊断问题,如“患有高血压、糖尿病、冠心病的病人发生心衰的比例”,对应文法中<关系><实例><比例>;治疗问题,如“直肠癌患者做了肠镜下肠活检术后服用平消胶囊的比例”,对应文法中<事件时间><关系条件><比例>,其中事件时间由事件即关系和实例组成,在这里指“服用平消胶囊”;疗效问题,如“心衰患者中服用ACEI+8阻剂的再入率”,对应文法中<关系条件><再入院率>,女性直肠癌患者做了肠镜下肠活检术后癌胚抗原正常的比例,对应文法中<事件时间><子条件><比例>等。使用上下文无关文法生成文法解析树后,通过对其进行自上而下的遍历,可以得到查询问题的所有子条件和查询内容。在查询问题中,有些子条件没有明确指明时间,这些子条件有两种情况,一种是本身无限制,例如性别;另一种子条件的时间需要参考上下文。然而由于查询问题的自然语言本身的歧义性,问题子条件的时间可以有多种情况。
转换模块308,用于将所述文法解析树转换为对应的目标问题语义图。
具体地,将文法解析树进行解析处理,生成对应的目标问题语义图。问题语义图生成包括概念节点生成和概念之间的关系生成。目标问题语义图中,对文法解析树进行分类,每个节点上对应于文法解析树上的相关关系。首先根据问题中子条件所属概念,生成概念节点(患者:男或女),并根据子条件的值(年龄、住院时间、疾病等),填充属性值(60~80,2019011等)。然后根据知识库中各概念与患者之间的关系将概念节点进行关联,最终生成问题语义图。概念节点生成具体如下:对于关系子条件,根据关系子条件中实体所属概念生成概念节点。例如,查询问题为“60-90岁女性直肠癌患者做了肠镜下肠活检术后服用乎消胶囊的比例”,由于该查询问题并没有涉及时间,因此可以根据上下文无关文法解析树直接生成问题语义图,如下图10所示,该语义图包含两个子图,其中(1)表示“60-90岁女性直肠癌患者做了肠镜下肠活检术后服用平消胶囊”,(2)表示“60-90岁女性直肠癌患者做了肠镜下肠活检术”,该问题可表示为满足子图(1)的患者总人数占满足子图(2)的患者总人数的比例。
生成模块310,用于根据所述目标问题语义图生成所述查询问题对应的查询语言。
具体地,问题翻译是将查询问题的目标问题语义图翻译为属性图数据库Neo4j的查询语言Cypher。翻译过程主要包括三个部分:match子句翻译,where子句翻译和return子句翻译。问题的语义图结构和Cypher查询语句中match子句结构相似,问题语义图由节点和边构成,match子句也是由节点和边构成,其中“()”表示节点,“<—()—>”表示边。问题语义图中概念的属性值约束对应where子句中的条件,条件中的变量名分别对应match子句中的节点变量和边变量。问题语义图中节点的未知属性对应查询语句中的return子句。例如:问题语义图中患者节点连接有住院信息节点、疾病详情节点、药品详情节点和手术详情节点,再将其结构对应到match子句中;where子句中的年龄约束、性别约束、疾病约束、药品约束和手术约束分别对应语义图中概念节点中的属性约束;return子句最终返回满足子图的患者人数。
第二获取模块312,用于根据所述查询语言从电子病历数据库中获取所述查询问题对应的查询结果。
具体地,电子病历数据库包括有多个电子病历,从电子病历数据库查询到对应的目标电子病历,便于后续用户根据查询问题进行查看。查询答案即对应输入问题的电子病历,可根据需求进行图形绘制。
实施例三
参阅图8,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备3是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备3可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图8所示,所述计算机设备3至少包括,但不限于,可通过系统总线相互通信连接存储器31、处理器32、网络接口33、以及电子病历的解析系统30。其中:
本实施例中,存储器31至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器31可以是计算机设备3的内部存储单元,例如该计算机设备3的硬盘或内存。在另一些实施例中,存储器31也可以是计算机设备3的外部存储设备,例如该计算机设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器31还可以既包括计算机设备3的内部存储单元也包括其外部存储设备。本实施例中,存储器31通常用于存储安装于计算机设备3的操作系统和各类应用软件,例如实施例二的电子病历的解析系统30的程序代码等。此外,存储器31还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器32在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器32通常用于控制计算机设备3的总体操作。本实施例中,处理器32用于运行存储器31中存储的程序代码或者处理数据,例如运行电子病历的解析系统30,以实现实施例一的电子病历的解析方法。
所述网络接口33可包括无线网络接口或有线网络接口,该网络接口33通常用于在所述服务器3与其他电子装置之间建立通信连接。例如,所述网络接口33用于通过网络将所述服务器3与外部终端相连,在所述服务器3与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是,图8仅示出了具有部件20-23的计算机设备3,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器31中的所述电子病历的解析系统30还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器31中,并由一个或多个处理器(本实施例为处理器32)所执行,以完成本发明。
例如,图7示出了所述实现电子病历的解析系统30实施例二的程序模块示意图,该实施例中,所述电子病历的解析系统30可以被划分为第一获取模块300、分词模块302、抽取模块304、解析模块306、转换模块308、生成模块310以及第二获取模块312。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述电子病历的解析系统30在所述计算机设备3中的执行过程。所述程序模块300-312的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储计算机程序,被处理器执行时实现实施例一的电子病历的解析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种电子病历的解析方法,其特征在于,包括:
获取用户输入的查询问题;
对所述查询问题进行分词处理,以得到多个关键词;
对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词;
根据上下文无关法对所述目标标准词进行解析,得到文法解析树;
将所述文法解析树转换为对应的目标问题语义图;
根据所述目标问题语义图生成所述查询问题对应的查询语言;
根据所述查询语言从电子病历数据库中获取所述查询问题对应的查询结果。
2.根据权利要求1所述的电子病历的解析方法,其特征在于,所述对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
确定所述多个关键词对应的类型;
根据每个所述关键词对应的类型对每个所述关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词,其中,所述链接抽取包括时间链接抽取、关系链接抽取、属性链接抽取以及实体链接抽取。
3.根据权利要求2所述的电子病历的解析方法,其特征在于,所述根据每个所述关键词对应的类型对每个所述关键词进行时间链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为时间的第一目标关键词;
根据正则表达式将所述第一目标关键词转化为第一目标标准词,其中,所述目标关键词包括第一目标标准词。
4.根据权利要求2所述的电子病历的解析方法,其特征在于,所述根据每个所述关键词对应的类型对每个所述关键词进行关系链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为关系的第二目标关键词;
根据预设规则将所述第二目标关键词转化为第二目标标准词,其中,所述目标关键词包括第二目标标准词。
5.根据权利要求2所述的电子病历的解析方法,其特征在于,所述根据每个所述关键词对应的类型对每个所述关键词进行属性链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为属性的第三目标关键词;
根据相似度算法将所述第三目标关键词转化为第三目标标准词,其中,所述目标关键词包括第三目标标准词。
6.根据权利要求2所述的电子病历的解析方法,其特征在于,所述根据每个所述关键词对应的类型对每个所述关键词进行实体链接抽取,并将所述多个关键词转换为对应的目标标准词包括:
获取所述多个关键词中类型为实体的第四目标关键词;
获取临床基础知识库,所述临床基础知识库包括多个候选标准词;
计算每个所述第四目标关键词与所述多个候选标准词的相似度;
将相似度最高的候选标准词作为第四目标标准词,其中,所述目标关键词包括第四目标标准词。
7.根据权利要求1所述的电子病历的解析方法,其特征在于,所述方法还包括:
将所述查询问题对应的查询结果存储至区块链中。
8.一种电子病历的解析系统,其特征在于,包括:
第一获取模块,用于获取用户输入的查询问题;
分词模块,用于对所述查询问题进行分词处理,以得到多个关键词;
抽取模块,用于对所述多个关键词进行链接抽取,并将所述多个关键词转换为对应的目标标准词;
解析模块,用于根据上下文无关法对所述目标标准词进行解析,得到文法解析树;
转换模块,用于将所述文法解析树转换为对应的目标问题语义图;
生成模块,用于根据所述目标问题语义图生成所述查询问题对应的查询语言;
第二获取模块,用于根据所述查询语言从电子病历数据库中获取所述查询问题对应的查询结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的电子病历的解析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的电子病历的解析方法的步骤。
CN202010895611.2A 2020-08-31 2020-08-31 电子病历的解析方法、系统、计算机设备与可读存储介质 Pending CN111986759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895611.2A CN111986759A (zh) 2020-08-31 2020-08-31 电子病历的解析方法、系统、计算机设备与可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895611.2A CN111986759A (zh) 2020-08-31 2020-08-31 电子病历的解析方法、系统、计算机设备与可读存储介质

Publications (1)

Publication Number Publication Date
CN111986759A true CN111986759A (zh) 2020-11-24

Family

ID=73440463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895611.2A Pending CN111986759A (zh) 2020-08-31 2020-08-31 电子病历的解析方法、系统、计算机设备与可读存储介质

Country Status (1)

Country Link
CN (1) CN111986759A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361254A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种自动化电子病历解析方法与装置
CN114021563A (zh) * 2021-11-19 2022-02-08 浙江太美医疗科技股份有限公司 医疗信息中数据的抽取方法、装置、设备和存储介质
CN116304217A (zh) * 2023-03-31 2023-06-23 易智瑞信息技术有限公司 地理空间数据查询方法、装置、电子设备和可读存储介质
CN116312915A (zh) * 2023-05-19 2023-06-23 之江实验室 一种电子病历中药物术语标准化关联方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268580A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 基于知识图谱的问答方法及装置
CN109684448A (zh) * 2018-12-17 2019-04-26 北京北大软件工程股份有限公司 一种智能问答方法
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法
CN110659366A (zh) * 2019-09-24 2020-01-07 Oppo广东移动通信有限公司 语义解析方法、装置、电子设备以及存储介质
CN110727839A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 自然语言查询的语义解析
CN111459967A (zh) * 2020-03-03 2020-07-28 深圳壹账通智能科技有限公司 结构化查询语句生成方法、装置、电子设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268580A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 基于知识图谱的问答方法及装置
CN110727839A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 自然语言查询的语义解析
CN109684448A (zh) * 2018-12-17 2019-04-26 北京北大软件工程股份有限公司 一种智能问答方法
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法
CN110659366A (zh) * 2019-09-24 2020-01-07 Oppo广东移动通信有限公司 语义解析方法、装置、电子设备以及存储介质
CN111459967A (zh) * 2020-03-03 2020-07-28 深圳壹账通智能科技有限公司 结构化查询语句生成方法、装置、电子设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361254A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种自动化电子病历解析方法与装置
CN114021563A (zh) * 2021-11-19 2022-02-08 浙江太美医疗科技股份有限公司 医疗信息中数据的抽取方法、装置、设备和存储介质
CN116304217A (zh) * 2023-03-31 2023-06-23 易智瑞信息技术有限公司 地理空间数据查询方法、装置、电子设备和可读存储介质
CN116304217B (zh) * 2023-03-31 2024-04-26 易智瑞信息技术有限公司 地理空间数据查询方法、装置、电子设备和可读存储介质
CN116312915A (zh) * 2023-05-19 2023-06-23 之江实验室 一种电子病历中药物术语标准化关联方法及系统
CN116312915B (zh) * 2023-05-19 2023-09-19 之江实验室 一种电子病历中药物术语标准化关联方法及系统

Similar Documents

Publication Publication Date Title
US10169454B2 (en) Unsupervised ontology-based graph extraction from texts
CN110134796B (zh) 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN111986759A (zh) 电子病历的解析方法、系统、计算机设备与可读存储介质
US20220044812A1 (en) Automated generation of structured patient data record
US9165116B2 (en) Patient data mining
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
US10417240B2 (en) Identifying potential patient candidates for clinical trials
CN113360671B (zh) 一种基于知识图谱的医保医疗单据审核方法及其系统
US20140250047A1 (en) Authoring system for bayesian networks automatically extracted from text
US20110179032A1 (en) Conceptual world representation natural language understanding system and method
US20140337355A1 (en) Indexed Natural Language Processing
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
Friedman et al. Natural language and text processing in biomedicine
Levy et al. Annotating relation inference in context via question answering
CN108427702B (zh) 目标文档获取方法及应用服务器
CN112447300B (zh) 基于图神经网络的医疗查询方法、装置、计算机设备及存储介质
CN112307216B (zh) 药品知识图谱的构建方法和装置
CN116257610B (zh) 基于行业知识图谱的智能问答方法、装置、设备及介质
Kalla et al. Chatbot for medical treatment using NLTK Lib
EP4078407A1 (en) Unsupervised taxonomy extraction from medical clinical trials
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
CN112035757A (zh) 医疗瀑布流推送方法、装置、设备及存储介质
CN115995281A (zh) 一种基于数据治理的专病数据库的数据检索方法及装置
CN113657086B (zh) 词语处理方法、装置、设备及存储介质
Liu et al. Extracting patient demographics and personal medical information from online health forums

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220602

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20201124

RJ01 Rejection of invention patent application after publication