CN109857992A - 医疗数据结构化解析方法、装置、可读介质及电子设备 - Google Patents
医疗数据结构化解析方法、装置、可读介质及电子设备 Download PDFInfo
- Publication number
- CN109857992A CN109857992A CN201811636538.6A CN201811636538A CN109857992A CN 109857992 A CN109857992 A CN 109857992A CN 201811636538 A CN201811636538 A CN 201811636538A CN 109857992 A CN109857992 A CN 109857992A
- Authority
- CN
- China
- Prior art keywords
- text data
- regular expression
- keywords
- file
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract 1
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000008520 organization Effects 0.000 description 18
- 238000013523 data management Methods 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 11
- 239000002184 metal Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医疗数据结构化解析方法、装置、可读介质及电子设备,方法包括:预先设置正则表达式;从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据;根据所述正则表达式从所述文本数据提取关键词及内容值;建立从所述文本数据提取的所述关键词及所述内容值的关联关系。通过本发明的技术方案,对携带医疗数据的文件进行解析时,不再依赖于携带医疗数据的文件的标签结构,能够得到更为准确的解析结果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及医疗数据结构化解析方法、装置、可读介质及电子设备。
背景技术
随着计算机应用技术的发展,医疗机构通常会部署多个不同的医疗数据管理系统分别实现相应的业务。为了实现不同医疗数据管理系统之间进行数据互通或满足大数据研究需求,通常需要对医疗数据管理系统提供的医疗数据进行结构化解析。
医疗数据管理系统可能以XML文件、HTML文件等多种不同的文件格式向外部提供医疗数据,通常基于携带医疗数据的文件的标签结构对该文件进行结构化解析,得到由若干关键词以及与关键词相关联的内容值构成的解析结果。
不同文件的标签结构各不相同,且文件中可能存在具有相同名称但具有不同属性的标签,因此,基于文件的标签结构解析携带医疗数据的文件时,可能导致解析结果不准确。
发明内容
本发明提供一种医疗数据结构化解析方法、装置、可读介质及电子设备,对携带医疗数据的文件进行解析时,不再依赖于携带医疗数据的文件的标签结构,能够得到更为准确的解析结果。
第一方面,本发明提供了一种医疗数据结构化解析方法,包括:
预先设置正则表达式;
从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据;
根据所述正则表达式从所述文本数据提取关键词及内容值;
建立从所述文本数据提取的所述关键词及所述内容值的关联关系。
优选地,
还包括:
获取携带医疗数据的待解析文件;
根据指定的编码规则对所述待解析文件进行转码处理;
则,所述从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据,包括:从完成转码处理的所述待解析文件中提取与所述正则表达式相匹配的文本数据。
优选地,
所述根据所述正则表达式从所述文本数据提取关键词及内容值,包括:
根据与所述文本数据相匹配的所述正则表达式对所述文本数据进行分词处理以得到分词词组,从得到的分词词组中确定关键词及内容值。
优选地,
在所述建立从同一个所述文本数据提取的所述关键词及所述内容值的关联关系之前,还包括:
预先设置所述正则表达式对应的样本关键词;
检测与所述文本数据相匹配的所述正则表达式对应的所述样本关键词中是否存在从所述文本数据提取的所述关键词,如果否,则舍弃从所述文本数据提取的所述关键词及所述内容值。
优选地,
还包括:以指定数据格式存储或提供完成建立关系的所述关键词及所述内容值。
第二方面,本发明提供了一种医疗数据结构化解析装置,包括:
规则定义模块,用于预先设置正则表达式;
第一解析模块,用于从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据;
第二解析模块,用于根据所述正则表达式从所述文本数据提取关键词及内容值;
关联处理模块,用于建立从同一个所述文本数据提取的所述关键词及所述内容值的关联关系。
优选地,
还包括:获取模块及转码处理模块;其中,
所述获取模块,用于获取携带医疗数据的待解析文件;
所述转码处理模块,用于根据指定的编码规则对所述待解析文件进行转码处理;
则,所述第一解析模块,用于从完成转码处理的所述待解析文件中提取与所述正则表达式相匹配的文本数据。
优选地,
所述第二解析模块,用于根据与所述文本数据相匹配的所述正则表达式对所述文本数据进行分词处理以得到分词词组,从得到的分词词组中确定关键词及内容值。
优选地,
还包括:检测处理模块;其中,
所述规则定义模块,进一步用于预先设置所述正则表达式对应的样本关键词;
所述检测处理模块,用于检测与所述文本数据相匹配的所述正则表达式对应的所述样本关键词中是否存在从所述文本数据提取的所述关键词,如果是,则触发所述关联处理模块,如果否,则舍弃从所述文本数据提取的所述关键词及所述内容值。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
本发明提供了一种医疗数据结构化解析方法、装置、可读介质及电子设备,可根据医疗数据管理系统下医疗数据可能存在的各种组织结构,设置具有相应组织结构的一个或多个正则表达式;在得到携带医疗数据的待解析文件之后,即可通过设置的各个正则表达式与待解析文件进行模糊匹配,从待解析文件提取与任一个正则表达式相匹配的文本数据,实现从待解析文件中提取与设置的任一个正则表达式在组织结构上相同的文本数据(即实现提取文件中具有一定组织结构的原始医疗数据);对于提取的每一个文本数据,即可根据与其相匹配的正则表达式本身的组织结构对该文本数据再次进行解析,以从该文本数据中提取出关键词及内容值;最后建立从同一个文本数据中提取的关键词、内容值之间的关联关系,得到由若干关键词以及与关键词相关联的内容值构成的解析结果。综上可见,对携带医疗数据的文件进行解析时,不再依赖于携带医疗数据的文件的标签结构,能够得到更为准确的解析结果。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种医疗数据结构化解析方法的流程示意图;
图2为本发明一实施例提供的另一种医疗数据结构化解析方法的流程示意图;
图3为本发明一实施例提供的一种医疗数据结构化解析装置的结构示意图;
图4为本发明一实施例提供的另一种医疗数据结构化解析装置的结构示意图;
图5为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种医疗数据结构化解析方法,包括如下各个步骤:
步骤101,预先设置正则表达式;
步骤102,从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据;
步骤103,根据所述正则表达式从所述文本数据提取关键词及内容值;
步骤104,建立从所述文本数据提取的所述关键词及所述内容值的关联关系。
如图1所示的实施例,可根据医疗数据管理系统下医疗数据可能存在的各种组织结构,设置具有相应组织结构的一个或多个正则表达式;在得到携带医疗数据的待解析文件之后,即可通过设置的各个正则表达式与待解析文件进行模糊匹配,从待解析文件提取与任一个正则表达式相匹配的文本数据,实现从待解析文件中提取与设置的任一个正则表达式在组织结构上相同的文本数据(即实现提取文件中具有一定组织结构的原始医疗数据);对于提取的每一个文本数据,即可根据与其相匹配的正则表达式本身的组织结构对该文本数据再次进行解析,以从该文本数据中提取出关键词及内容值;最后建立从同一个文本数据中提取的关键词、内容值之间的关联关系,得到由若干关键词以及与关键词相关联的内容值构成的解析结果。综上可见,对携带医疗数据的文件进行解析时,不再依赖于携带医疗数据的文件的标签结构,能够得到更为准确的解析结果。
本领域技术人员应当理解的,设置的正则表达式的数量可以一个或多个,但通常是多个,这里并未对正则表达式的数量进行限定。
本领域技术人员应当理解的,将设置的正则表达式与待解析文件进行模糊匹配时,每一个正则表达式均可能匹配到一个或多个文本数据,即针对于设置的任意一个正则表达式,可能从待解析文件中提取出多个与其相匹配的文本数据;但是,对于预先设置的任意一个正则表达式,待解析文件中也并不是必然存在与该正则表达式相匹配的文本数据,即针对该正则表达式,将其与待解析文件进行模糊匹配时,可能无法匹配到与其组织结构相同的文本数据,即无法提取到与其相匹配的文本数据。
显而易见的,当提取的文本数据为多个时,步骤104具体指的是:针对从同一个文本数据中提取的关键词及内容值,建立该关键词以及该内容值的关联关系。
举例来说,医疗数据管理系统提供的待解析文件中的医疗数据,可能通过如下几种方式实现描述患者的诊疗结果及患者姓名:“诊疗结果:XXX”、“患者姓名:YYY”,其中,“诊疗结果”及“患者姓名”对应的字符串长度为均m,且“XXX”与“YYY”在文件中对应的字符串长度均为n,此时,即可设置一组织结构与“诊疗结果:XXX”、“患者姓名:YYY”相对应的正则表达式为“AAAA:BBB”,该正则表达中“AAAA”可以匹配出指定符号“:”之前的m个非换行字符,“BBB”可以匹配出指定符号“:”之后的n个非换行字符;当待解析文件存在与该正则表达式为“AAAA:BBB”组织结构相同的文本数据“诊疗结果:XXX”、“患者姓名:YYY”时,这些文本数据即可被提取。后续仅需要对提取的文本数据进行进一步的解析以提取关键词及内容值,并对应的构建关联关系即可。
本发明各个实施例中用于举例描述的正则表达式及文本数据,仅仅是为了方便描述及理解本发明的技术方案,主要是针对正则表达式、文本数据的组织结构或结合其组织结构实现某一技术目的而进行举例分析,并不用于对实际业务场景中设置的一个或多个正则表达式进行限定,待解析文件中的文本数据也可以具有其他结构。
本发明一个实施例中,还包括:
获取携带医疗数据的待解析文件;
根据指定的编码规则对所述待解析文件进行转码处理;
则,所述从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据,包括:从完成转码处理的所述待解析文件中提取与所述正则表达式相匹配的文本数据。
携带医疗数据的待解析文件可以由医疗数据管理系统提供,不同医疗数据管理系统提供的待解析文件可能具有不同的文件格式,该实施例通过指定的编码规则待解析文件进行转码处理,后续则可通过设置的正则表达式与完成转码处理的待解析文件进行模糊匹配,并继续进行的流程实现对携带医疗数据的文件进行结构化解析。可见,本发明实施例提供的技术方案能够实现对具有不同文件格式、携带医疗数据的待解析文件进行更为准确的结构化解析。
具体地,指定编码规则包括但不限于UTF-8(8-bit Unicode TransformationFormat)。待解析文件的文件格式包括但不限于XML(Extensible Markup Language,可扩展标记语言)、HTML(HyperTextMarkup Language,超文本标记语言)。
为了实现从文本数据中准确提取关键词及内容值,本发明一个实施例中,所述根据所述正则表达式从所述文本数据提取关键词及内容值,包括:根据与所述文本数据相匹配的所述正则表达式对所述文本数据进行分词处理以得到分词词组,从得到的分词词组中确定关键词及内容值。
举例来说,对于组织结构与正则表达式“AAAA:BBB”的组织结构相同的文本数据,该正则表达式中指定符号“:”用于分断该文本数据中携带的关键词及内容值,且关键词通常位于指定字符“:”之前,而内容值位于指定字符“:”之后;那么,对于与正则表达式“AAAA:BBB”相匹配的一个文本数据,即可将指定字符“:”为分词依据,将该文本数据中位于指定字符“:”之前的字符串划分为一个分词词组,将指定字符“:”之后的字符串划分为一个分词词组,并将位于指定字符“:”之前的字符串所对应的分词词组确定为关键词,将位于指定字符“:”之后的字符串所对应的分词词组确定为内容值。
为了实现结合实际业务需求,对携带医疗数据的待解析文件进行结构化解析而准确提取符合业务需求的结构化数据,本发明一个实施例中,在所述建立从同一个所述文本数据提取的所述关键词及所述内容值的关联关系之前,还包括:
预先设置所述正则表达式对应的样本关键词;
检测与所述文本数据相匹配的所述正则表达式对应的所述样本关键词中是否存在从所述文本数据提取的所述关键词,如果否,则舍弃从所述文本数据提取的所述关键词及所述内容值。
举例来说,用户或某个医疗数据管理系统需要从携带医疗数据的待解析文件中提取患者姓名、诊疗结果等信息,但并不需要提取家庭住址等其他信息,正则表达式“AAAA:BBB”可能匹配到携带患者姓名、诊疗结果或家庭住址的文本数据,此时,可设置正则表达式“AAAA:BBB”对应的样本关键词包括“患者姓名”、“诊疗结果”,该正则表达式可能从待解析文件中匹配出文本数据“诊疗结果:XXX”、“患者姓名:YYY”、“家庭住址:ZZZ”;此时,对于文本数据“家庭住址:ZZZ”,从该文本数据中提取到关键词“家庭住址”及内容值“ZZZ”,通过检测正则表达式“AAAA:BBB”对应的样本关键词“患者姓名”、“诊疗结果”,可确定出检测的样本关键词中并不存在该关键词“家庭住址”,此时,即可舍弃从该文本数据提取的关键词“家庭住址”以及内容值“ZZZ”;仅针对从文本数据“诊疗结果:XXX”、“患者姓名:YYY”中提取的关键词及内容值构建相应的关联关系即可。
本发明一个实施例中,在完成对各个关键词及内容值建立关联关系之后,还包括:以指定数据格式存储或提供完成建立关系的所述关键词及所述内容值。
比如,以XML或EXCEL格式存储或提供完成建立关联关系的关键词及内容值,也可以根据各个关键词与数据库表中各个字段之间的映射关系,将内容值作为相应字段的字段值存储至数据库表中。
为了更加清楚的说明本发明的技术方案,请参考图2,本发明实施例提供了另一种医疗数据结构化解析方法,具体可以包括如下各个步骤。
步骤201,根据医疗数据管理系统下医疗数据可能存在的一种或多种组织结构,设置分别具有相应组织结构的一个或多个正则表达式。
步骤202,根据实际业务场景的数据需求,针对设置的一个或多个正则表达式分别设置其对应的一个或多个样本关键词。
步骤203,获取医疗数据管理系统提供的携带医疗数据的待解析文件。
步骤204,以指定的转码规则对待解析文件进行转码处理。
步骤205,针对设置的每一个正则表达式,利用该正则表达式与完成转码处理的待解析文件进行模糊匹配,当完成转码处理的待解析文件中存在一个或多个文本数据与该正则表达式相匹配时,提取与该正则表达式相匹配的各个文本数据。
步骤206,针对提取的每一个文本数据,根据与该文本数据相匹配的正则表达式对该文本数据进行分词处理以提取两个分词词组,从提取的两个分词词组中确定出关键词及内容值。
步骤207,针对提取的每一个文本数据,检测与该文本数据相匹配的正则表达式对应的各个样本关键词中是否存在从该文本数据提取的关键词,如果否,则舍弃从该文本数据提取的关键词及内容值。
步骤208,针对未被舍弃的各个关键词及内容值,建立从同一个文本数据提取的关键词及内容值的关联关系,形成由若干关键词以及与关键词相关联的内容值构成的解析结果。
步骤209,以指定格式存储或提供解析结果。
如图2所示实施例中各个步骤的实现原理及优点均在前述各个实施例中进行举例或说明,这里不再赘述。
基于与本发明方法实施例相同的构思,请参考图3,本发明实施例还提供了一种医疗数据结构化解析装置,包括:
规则定义模块301,用于预先设置正则表达式;
第一解析模块302,用于从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据;
第二解析模块303,用于根据所述正则表达式从所述文本数据提取关键词及内容值;
关联处理模块304,用于建立从同一个所述文本数据提取的所述关键词及所述内容值的关联关系。
请参考图4,本发明一个实施例中,还包括:获取模块401及转码处理模块402;其中,
所述获取模块401,用于获取携带医疗数据的待解析文件;
所述转码处理模块402,用于根据指定的编码规则对所述待解析文件进行转码处理;
则,所述第一解析模块302,用于从完成转码处理的所述待解析文件中提取与所述正则表达式相匹配的文本数据。
本发明一个实施例中,所述第二解析模块303,用于根据与所述文本数据相匹配的所述正则表达式对所述文本数据进行分词处理以得到分词词组,从得到的分词词组中确定关键词及内容值.
本发明一个实施例中,还包括:检测处理模块;其中,所述规则定义模块301,进一步用于预先设置所述正则表达式对应的样本关键词;
所述检测处理模块,用于检测与所述文本数据相匹配的所述正则表达式对应的所述样本关键词中是否存在从所述文本数据提取的所述关键词,如果是,则触发所述关联处理模块304,如果否,则舍弃从所述文本数据提取的所述关键词及所述内容值。
为了描述的方便,描述以上装置实施例时以功能分为各种单元或模块分别描述,在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。
图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry StandardArchitecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended IndustryStandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成医疗数据结构化解析装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的医疗数据结构化解析方法。
上述如本发明图3、图4所示实施例提供的医疗数据结构化解析装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的医疗数据结构化解析方法,并具体用于执行如图1或图2所示的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种医疗数据结构化解析的方法,其特征在于,包括:
预先设置正则表达式;
从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据;
根据所述正则表达式从所述文本数据提取关键词及内容值;
建立从所述文本数据提取的所述关键词及所述内容值的关联关系。
2.根据权利要求1所述的方法,其特征在于,
还包括:
获取携带医疗数据的待解析文件;
根据指定的编码规则对所述待解析文件进行转码处理;
则,所述从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据,包括:从完成转码处理的所述待解析文件中提取与所述正则表达式相匹配的文本数据。
3.根据权利要求1所述的方法,其特征在于,
所述根据所述正则表达式从所述文本数据提取关键词及内容值,包括:
根据与所述文本数据相匹配的所述正则表达式对所述文本数据进行分词处理以得到分词词组,从得到的分词词组中确定关键词及内容值。
4.根据权利要求1所述的方法,其特征在于,
在所述建立从同一个所述文本数据提取的所述关键词及所述内容值的关联关系之前,还包括:
预先设置所述正则表达式对应的样本关键词;
检测与所述文本数据相匹配的所述正则表达式对应的所述样本关键词中是否存在从所述文本数据提取的所述关键词,如果否,则舍弃从所述文本数据提取的所述关键词及所述内容值。
5.根据权利要求1至4中任一所述的方法,其特征在于,
还包括:以指定数据格式存储或提供完成建立关系的所述关键词及所述内容值。
6.一种医疗数据结构化解析装置,其特征在于,包括:
规则定义模块,用于预先设置正则表达式;
第一解析模块,用于从携带医疗数据的待解析文件提取与所述正则表达式相匹配的文本数据;
第二解析模块,用于根据所述正则表达式从所述文本数据提取关键词及内容值;
关联处理模块,用于建立从同一个所述文本数据提取的所述关键词及所述内容值的关联关系。
7.根据权利要求6所述的装置,其特征在于,
还包括:获取模块及转码处理模块;其中,
所述获取模块,用于获取携带医疗数据的待解析文件;
所述转码处理模块,用于根据指定的编码规则对所述待解析文件进行转码处理;
则,所述第一解析模块,用于从完成转码处理的所述待解析文件中提取与所述正则表达式相匹配的文本数据。
8.根据权利要求6所述的装置,其特征在于,
所述第二解析模块,用于根据与所述文本数据相匹配的所述正则表达式对所述文本数据进行分词处理以得到分词词组,从得到的分词词组中确定关键词及内容值;
和/或,
还包括:检测处理模块;其中,
所述规则定义模块,进一步用于预先设置所述正则表达式对应的样本关键词;
所述检测处理模块,用于检测与所述文本数据相匹配的所述正则表达式对应的所述样本关键词中是否存在从所述文本数据提取的所述关键词,如果是,则触发所述关联处理模块,如果否,则舍弃从所述文本数据提取的所述关键词及所述内容值。
9.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至5中任一所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811636538.6A CN109857992B (zh) | 2018-12-29 | 2018-12-29 | 医疗数据结构化解析方法、装置、可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811636538.6A CN109857992B (zh) | 2018-12-29 | 2018-12-29 | 医疗数据结构化解析方法、装置、可读介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857992A true CN109857992A (zh) | 2019-06-07 |
CN109857992B CN109857992B (zh) | 2023-08-04 |
Family
ID=66893184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811636538.6A Active CN109857992B (zh) | 2018-12-29 | 2018-12-29 | 医疗数据结构化解析方法、装置、可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857992B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660395A (zh) * | 2019-08-26 | 2020-01-07 | 天津开心生活科技有限公司 | 一种基于语音识别的安全报告生成方法和装置 |
CN110674244A (zh) * | 2019-08-20 | 2020-01-10 | 南京医渡云医学技术有限公司 | 一种医疗文本的结构化处理方法及装置 |
CN110704632A (zh) * | 2019-08-26 | 2020-01-17 | 南京医渡云医学技术有限公司 | 临床数据的处理方法、装置、可读介质和电子设备 |
CN110993116A (zh) * | 2019-12-16 | 2020-04-10 | 北京懿医云科技有限公司 | 诊疗数据提取方法及装置、电子设备、存储介质 |
CN111199805A (zh) * | 2019-12-25 | 2020-05-26 | 北京懿医云科技有限公司 | 一种基于医疗数据的类型层级提取方法及装置 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
CN111428497A (zh) * | 2020-03-31 | 2020-07-17 | 卓尔智联(武汉)研究院有限公司 | 一种自动抽取出资信息的方法、装置及设备 |
CN111753548A (zh) * | 2020-03-04 | 2020-10-09 | 北京沃东天骏信息技术有限公司 | 信息获取方法及装置、计算机存储介质、电子设备 |
CN111985836A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 医保评分指标体系构建方法、装置、设备及存储介质 |
CN112364621A (zh) * | 2020-09-22 | 2021-02-12 | 北京新橙科技有限公司 | 基于ruta规则语言进行法规文本解析的方法及系统 |
CN112733651A (zh) * | 2020-12-30 | 2021-04-30 | 医渡云(北京)技术有限公司 | 一种医学数据识别方法、装置、存储介质及设备 |
CN113033177A (zh) * | 2019-12-24 | 2021-06-25 | 医渡云(北京)技术有限公司 | 一种电子病历数据的解析方法及装置 |
CN113434674A (zh) * | 2021-06-25 | 2021-09-24 | 平安国际智慧城市科技股份有限公司 | 数据解析方法、装置、电子设备及可读存储介质 |
CN115910316A (zh) * | 2022-09-08 | 2023-04-04 | 杭州脉兴医疗科技有限公司 | 一种基于电子病历推断发病时间的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407443A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN107729319A (zh) * | 2017-10-18 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108711443A (zh) * | 2018-05-07 | 2018-10-26 | 成都智信电子技术有限公司 | 电子病历的文本数据解析方法和装置 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
-
2018
- 2018-12-29 CN CN201811636538.6A patent/CN109857992B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN106407443A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
CN107729319A (zh) * | 2017-10-18 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108711443A (zh) * | 2018-05-07 | 2018-10-26 | 成都智信电子技术有限公司 | 电子病历的文本数据解析方法和装置 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674244A (zh) * | 2019-08-20 | 2020-01-10 | 南京医渡云医学技术有限公司 | 一种医疗文本的结构化处理方法及装置 |
CN110674244B (zh) * | 2019-08-20 | 2023-02-03 | 南京医渡云医学技术有限公司 | 一种医疗文本的结构化处理方法及装置 |
CN110660395A (zh) * | 2019-08-26 | 2020-01-07 | 天津开心生活科技有限公司 | 一种基于语音识别的安全报告生成方法和装置 |
CN110704632A (zh) * | 2019-08-26 | 2020-01-17 | 南京医渡云医学技术有限公司 | 临床数据的处理方法、装置、可读介质和电子设备 |
CN110660395B (zh) * | 2019-08-26 | 2022-04-29 | 天津开心生活科技有限公司 | 一种基于语音识别的安全报告生成方法和装置 |
CN110993116A (zh) * | 2019-12-16 | 2020-04-10 | 北京懿医云科技有限公司 | 诊疗数据提取方法及装置、电子设备、存储介质 |
CN110993116B (zh) * | 2019-12-16 | 2024-08-02 | 北京懿医云科技有限公司 | 诊疗数据提取方法及装置、电子设备、存储介质 |
CN113033177B (zh) * | 2019-12-24 | 2024-05-10 | 医渡云(北京)技术有限公司 | 一种电子病历数据的解析方法及装置 |
CN113033177A (zh) * | 2019-12-24 | 2021-06-25 | 医渡云(北京)技术有限公司 | 一种电子病历数据的解析方法及装置 |
CN111199805A (zh) * | 2019-12-25 | 2020-05-26 | 北京懿医云科技有限公司 | 一种基于医疗数据的类型层级提取方法及装置 |
CN111199805B (zh) * | 2019-12-25 | 2024-06-07 | 北京懿医云科技有限公司 | 一种基于医疗数据的类型层级提取方法及装置 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
CN111753548A (zh) * | 2020-03-04 | 2020-10-09 | 北京沃东天骏信息技术有限公司 | 信息获取方法及装置、计算机存储介质、电子设备 |
CN111428497A (zh) * | 2020-03-31 | 2020-07-17 | 卓尔智联(武汉)研究院有限公司 | 一种自动抽取出资信息的方法、装置及设备 |
CN111985836A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 医保评分指标体系构建方法、装置、设备及存储介质 |
CN111985836B (zh) * | 2020-08-31 | 2024-04-05 | 平安医疗健康管理股份有限公司 | 医保评分指标体系构建方法、装置、设备及存储介质 |
CN112364621A (zh) * | 2020-09-22 | 2021-02-12 | 北京新橙科技有限公司 | 基于ruta规则语言进行法规文本解析的方法及系统 |
CN112733651A (zh) * | 2020-12-30 | 2021-04-30 | 医渡云(北京)技术有限公司 | 一种医学数据识别方法、装置、存储介质及设备 |
CN113434674A (zh) * | 2021-06-25 | 2021-09-24 | 平安国际智慧城市科技股份有限公司 | 数据解析方法、装置、电子设备及可读存储介质 |
CN115910316A (zh) * | 2022-09-08 | 2023-04-04 | 杭州脉兴医疗科技有限公司 | 一种基于电子病历推断发病时间的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109857992B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857992A (zh) | 医疗数据结构化解析方法、装置、可读介质及电子设备 | |
US8296124B1 (en) | Method and apparatus for detecting incorrectly translated text in a document | |
US20190196811A1 (en) | Api specification generation | |
CN108711443B (zh) | 电子病历的文本数据解析方法和装置 | |
CN111352907A (zh) | 流水文件解析方法、装置、计算机设备和存储介质 | |
CN102662966B (zh) | 一种面向主题的获取动态页面内容的方法及系统 | |
EP1504369A1 (en) | System and method for processing of xml documents represented as an event stream | |
CN111079043A (zh) | 一种关键内容定位方法 | |
CN112015900A (zh) | 医学属性知识图谱构建方法、装置、设备及介质 | |
CN111367595B (zh) | 数据处理方法、程序运行方法、装置及处理设备 | |
CN115081440B (zh) | 文本中变种词的识别及提取原敏感词的方法、装置及设备 | |
CN111444349A (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
CN108804487A (zh) | 一种提取目标字符的方法及装置 | |
CN101895517B (zh) | 一种脚本语义提取方法和提取装置 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN111126058A (zh) | 文本信息自动抽取方法、装置、可读存储介质和电子设备 | |
CN112579937A (zh) | 一种字符的高亮显示方法及装置 | |
CN112882707B (zh) | 一种渲染方法、装置、存储介质及电子设备 | |
CN115801455B (zh) | 一种基于网站指纹的仿冒网站检测方法及装置 | |
CN109947751B (zh) | 一种医疗数据处理方法、装置、可读介质及电子设备 | |
CN113033177A (zh) | 一种电子病历数据的解析方法及装置 | |
US20160277430A1 (en) | System and method for detecting mobile cyber incident | |
CN111552783A (zh) | 内容分析查询方法、装置、设备和计算机存储介质 | |
CN110598115A (zh) | 一种基于人工智能多引擎的敏感网页识别方法及系统 | |
CN113032836B (zh) | 数据脱敏方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |