CN114927180A - 病历结构化方法、装置及存储介质 - Google Patents
病历结构化方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114927180A CN114927180A CN202210257490.8A CN202210257490A CN114927180A CN 114927180 A CN114927180 A CN 114927180A CN 202210257490 A CN202210257490 A CN 202210257490A CN 114927180 A CN114927180 A CN 114927180A
- Authority
- CN
- China
- Prior art keywords
- medical record
- regular expression
- node
- matching result
- leaf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000014509 gene expression Effects 0.000 claims abstract description 99
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 208000024891 symptom Diseases 0.000 claims description 3
- 238000002910 structure generation Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000036772 blood pressure Effects 0.000 description 8
- 206010030113 Oedema Diseases 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 210000004877 mucosa Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 208000010201 Exanthema Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 201000005884 exanthem Diseases 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 206010037844 rash Diseases 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开一种病历结构化方法、装置及存储介质,包括:将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,形成树状结构;根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式的出现次数,以及与其匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的匹配结果的数量为1或者0,循环结束。本发明一方面可以借助病历模板的结构化信息,一方面又能获得超出模板固定限制的自由语句,可大大提高结构化的效果。
Description
技术领域
本方法涉及自然语言处理领域,具体是提出了一种病历结构化方法、装置及存储介质,可以实现对医院文本电子病历进行关键词抽取和结构化解析,形成结构化信息表格。
背景技术
病历结构化是指将医院产生的患者电子病历(通常为自然语言描述的文本)转换成结构化的形式,从而方便计算机进行统计建模分析,用以支持临床科研、临床辅助决策、病历质控等实际应用。
病历结构化技术根据实现方式不同可以分为病历前结构化和病历后结构化。病历前结构化是指通过改进电子病历编辑器的交互方式,医生在录入电子病历过程中,在定制的病历模板录入界面下,通过点选、模板定义等输入方式,在录入病历的过程中直接将病历按信息固定结构进行输入和保存。病历前结构化技术是一种传统的结构化技术,由于直接采用了结构化的模板来限制输入内容的顺序和输入范围,生成结构化信息准确率高,但结构化录入能表示的数据维度有限,很多信息类型很难通过点选等交互形式进行录入。此外,预定义的模板数量有限,无法充分覆盖临床不同疾病不同特殊情况的病历书写需求,通用性和可扩展性弱。
病历后结构化则是利用自然语言处理技术,将医生以自然语言形式录入、存储的电子病历进行分析,解析其内在结构、并按结构顺序抽取相应信息。病历后结构化是近年来随着人工智能自然语言处理技术的兴起而发展起来的一种电子病历信息抽取技术,对原始病历录入与保存形态没有限制,后结构化对抽取的信息维度也没有限制,可以通过不断优化自然语言处理技术对医学文本的处理和理解能力来实现信息抽取广度和精度的提升。
考虑到许多医院已经有一些前结构化或近似前结构化的工作模式在被实际使用,比如一些预设的病历模板在临床上被广泛使用,医生通过复制粘贴病历模板并按患者实际病情进行修改和补充,即可快速完成病历书写。这些模板虽然在具体实施过程中医生会因为个人习惯有相应改动,但大体结构还是有的,只是医生在实际病历描述上仍个性灵活,导致病历文本不能直接结构化或结构化效果不好。
发明内容
为解决以上问题,本发明提供一种病历结构化方法,包括以下步骤:
将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;
对所述树状结构列出每个叶子节点直到根节点的父节点路径;
根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;
使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从所述父节点路径中,结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的出现次数以及匹配结果的数量都为1或者0,循环结束。
可选的,所述将正则表达式与匹配结果保存,是指将正则表达式与匹配结果以键值对的形式保存。
可选的,所述将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,将所述病历模板转换成树状结构,包括:
将病历模板作为根节点,将病历模板中的标题、固定描述字段或者关键词作为树节点,将症状、结果或非固定描述结果作为叶子节点,按照医学关系理解进行归属组成树状结构。
可选的,所述根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式,包括:
统计叶子节点在采用该病历模板的不同实际病历中的书写内容,确定叶子节点的正则表达式。
可选的,从病历模板的设计文档中获取叶子节点限定的录入选项,作为叶子节点的正则表达式。
可选的,叶子节点与其父节点组合正则表达式符合正则双向最短匹配规则,所述正则双向最短匹配规则是指匹配字符串a_string到b_string的最短距离,其正则表达式为:a_string+((?!cc).)*?+b_string,
?!表示负向预查,在任何不匹配字符串cc开始处匹配查找字符串;
*?表示最短匹配;
其中,a_string表示叶子节点的字符串;
b_string表示父节点的字符串;
cc=该叶子节点的逐级父节点的兄弟节点拼接形成的字符串。
本发明还提供一种病历结构化装置,包括:
树状结构生成模块,用于将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;
父节点路径生成模块,用于对所述树状结构列出每个叶子节点直到根节点的父节点路径;
正则表达式生成模块,用于根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;
病历数据抽取模块,用于使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从所述父节点路径中,结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的匹配结果的数量为1或者0,循环结束。
本发明还提供一种电子装置,包括处理器和存储器,在所述存储器中存储有病历结构化程序,所述病历结构化程序被所述处理器执行时,实现如上所述的病历结构化方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如上所述的病历结构化方法。
本发明一方面可以借助已有的定制模板中隐含的结构化信息,另一方面又能获得那些医生出于个人习惯或病情需求书写的超出模板固定限制的自由语句,作为病历后结构化相关技术的补充,可大大提高结构化的效果。
本发明采用现有的定制化的模板,通过创建树状结构构造了各个字段的关系映射,而键值对中的value值通过正则表达式和组合路径里的父节点,循环请求实现了准确定位提取,解决了当前医院有定制模板但实际病历描述仍个性灵活不能直接结构化的问题。作为通过深度学习进行结构化的补充,提高了结构化的效果。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的病历结构化方法的流程图;
图2是表示本发明实施例的树状结构的示意图;
图3是表示本发明实施例的电子装置的硬件架构示意图;
图4是表示本发明实施例的病历结构化程序的程序模块示意图。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
本实施例的病历结构化方法,用于病历结构化解析,完成从实际病历中相关信息的抽取,包括以下步骤:
步骤S1,将病历模板从根节点开始按照特征描述层级梳理成树状结构;
具体的,不同的病历模板可以作为不同的根节点,形成不同的树状结构。在各个病历模板中,可以将病历模板中的标题、固定描述字段或者关键词作为树节点,将症状、结果或非固定描述结果作为叶子节点,按照医学关系理解进行归属组成各个树状结构。
以一个病历模板为例,以根节点代表整个病历模板,第一层的节点有“现病史”、“体格检查”、“既往史”、“家族史”等。第二层节点如“体格检查”之下的节点包括“一般情况”、“头部五官”、“胸部”、“腹部”等。第三层节点如“一般情况”之下包括“身高”、“体重”、“血压”、“心律”等,最下一层级的节点即为叶子节点,各个节点的分支数量和次级分枝的深度视病历模板的具体结构而定。
步骤S2,对树状结构列出从叶子节点直到根节点的父节点路径。
即对于任一叶子节点,列出从叶子节点到根节点的路径上的所有节点,构成了该叶子节点的父节点路径。
例如图2的树状结构中,对于[regex](有|无)水肿的父节点依次为皮肤黏膜、体格检查。一个[regex](正常|异常)的父节点依次为颜色、皮肤黏膜、体格检查,另一个[regex](正常|异常)的父节点依次为弹性、皮肤黏膜、体格检查。
步骤S3,根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式。
可以是统计该叶子节点在采用该病历模板的不同病历中的实际书写内容,例如“血压”,其对应的正则表达式应该是一个常规的血压范围。可以从不同病历中大量查询而获得血压范围,作为“血压”这个叶子节点的正则表达式。
或者也可以直接从该病历模板的设计文档中获取该叶子节点限定的录入选项,将一个能够适配该叶子节点不同书写内容的正则表达式记录并对应到该叶子节点。例如“血压”,其对应的正则表达式应该是一个常规的血压范围。可以是在设计该病历模板时就已经限定了其填写范围,可以从其设计文档中查找到该填写范围,作为“血压”这个叶子节点的正则表达式。
这样就建造了一个由正则表达式构成的叶子节点和医学理解上构成的上层父节点共同组成的树。
步骤S4,使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的个数相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果以键值对的形式保存,否则从所述父节点路径中,结合其逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的出现次数以及匹配结果的个数都为1或者0,循环结束。其中个数为1,表示匹配成功,个数为0,表示匹配失败。
这是因为考虑到有时候不同父节点路径下的叶子节点有可能出现相似的表达。
例如第一个实际的病历为:
体格检查:皮肤黏膜:颜色正常,无水肿,弹性异常,无皮疹。
第二个实际的病历为:
体格检查:皮肤黏膜:颜色异常,有水肿,弹性正常,有皮疹。
其梳理构成的树状结构都是如图2所示。
叶子节点分别是以下四个正则表达式:[regex](正常|异常),[regex](有|无)水肿,[regex](正常|异常),[regex](有|无)皮疹,其中[regex]是正则式的意思。
在图2中,对应第一个实际病历,
其中[regex](有|无)水肿的正则表达式数目是1,而实际病历的结果是水肿,匹配的结果也是1,则匹配成功,并将其转换为k-v格式:水肿:无;
同样的,[regex](有|无)皮疹的正则表达式数目和匹配结果为1,匹配成功,并将其转换为k-v格式:皮疹:无。
而[regex](正常|异常)该正则表达式统计次数和匹配结果均为2,无法判断对应关系,需要从树状结构中获取其上层父节点,然后与其上层父节点组合成如下表达式:
[regex]颜色((?!弹性).)*?(正常|异常)
[regex]弹性((?!颜色).)*?(正常|异常)
此时该正则表达式统计次数和匹配结果均为1,匹配成功,不再向树状结构查询请求父节点“皮肤黏膜”来组合正则表达式进行匹配定位了,此时可以将匹配结果转换为k-v格式:颜色:正常;弹性:异常。
如此即可把所有的叶子节点的通过正则表达式从实际病历获取到结果,并将其转换为键值对形式的如下结构化数据:
在一个可选实施例中,叶子节点与其父节点组合正则表达式符合正则双向最短匹配规则。所述正则双向最短匹配规则是指,匹配字符串a_string到b_string的最短距离时,其正则表达式为:a_string+((?!cc).)*?+b_string,
?!表示负向预查,在任何不匹配字符串cc开始处匹配查找字符串;
a_string+((?!cc).)表示a_string后面跟着不是cc的字符串才会匹配,从而实现左向趋近最短;
*?表示表示右向趋近最短匹配;
其中,a_string表示叶子节点的字符串;
b_string表示父节点的字符串;
cc=a_string。
或者也可以采用以下正则表达式:a_string+(.(?!cc))*?+b_string,但a_string+(.(?!cc))表示a_string后面跟字符串,该字符串后面不能跟cc,不能实现左向趋近最短,所以无法实现双向趋近,故不是最优的。
进一步的,为了防止匹配交叉错乱,考虑到该叶子节点和父节点之间的文本描述可能会用到逐级父节点的字段,所以负向预查里面只包括路径中各个节点的兄弟节点,不包括当前节点,即cc=逐级父节点的兄弟节点全部以“|”拼接成的字符串。
参阅图3所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机等。如图3所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述病历结构化程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的病历结构化程序等。
需要指出的是,图3仅示出了具有组件21-22的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作系统、病历结构化程序50等。处理器22执行存储器21中病历结构化程序50时实现以上病历结构化方法所述的步骤。在本实施例中,存储于存储器21中的所述病历结构化程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图4示出了所述病历结构化程序的程序模块示意图,该实施例中,所述病历结构化程序50可以被分割为树状结构生成模块501、父节点路径生成模块502、正则表达式生成模块503、病历数据抽取模块504,其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述病历结构化程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。
树状结构生成模块501用于将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;
父节点路径生成模块502用于对所述树状结构列出每个叶子节点直到根节点的父节点路径;
正则表达式生成模块503用于根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;
病历数据抽取模块504用于使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从所述父节点路径中,结合正则表达式上层父节点重新组合正则表达式遍历实际病历,直至正则表达式的匹配结果的数量为1或者0,循环结束。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括病历结构化程序,病历结构化程序被处理器22执行时实现病历结构化方法。本发明之计算机可读存储介质的具体实施方式与上述病历结构化方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种病历结构化方法,其特征在于,包括以下步骤:
将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;
对所述树状结构列出每个叶子节点直到根节点的父节点路径;
根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;
使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从所述父节点路径中,结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的出现次数以及匹配结果的数量都为1或者0,循环结束。
2.根据权利要求1所述的病历结构化方法,其特征在于,所述将正则表达式与匹配结果保存,是指将正则表达式与匹配结果以键值对的形式保存。
3.根据权利要求1所述的病历结构化方法,其特征在于,所述将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,将所述病历模板转换成树状结构,包括:
将病历模板作为根节点,将病历模板中的标题、固定描述字段或者关键词作为树节点,将症状、结果或非固定描述结果作为叶子节点,按照医学关系理解进行归属组成树状结构。
4.根据权利要求1所述的病历结构化方法,其特征在于,所述根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式,包括:
统计叶子节点在采用该病历模板的不同实际病历中的书写内容,确定叶子节点的正则表达式。
5.根据权利要求1所述的病历结构化方法,其特征在于,从病历模板的设计文档中获取叶子节点限定的录入选项,作为叶子节点的正则表达式。
6.根据权利要求1所述的病历结构化方法,其特征在于,叶子节点与其父节点组合正则表达式符合正则双向最短匹配规则,所述正则双向最短匹配规则是指匹配字符串a_string到b_string的最短距离,其正则表达式为:a_string+((?!cc).)*?+b_string,
?!表示负向预查,在任何不匹配字符串cc开始处匹配查找字符串;
*?表示最短匹配;
其中,a_string表示叶子节点的字符串;
b_string表示父节点的字符串;
cc=该叶子节点的逐级父节点的兄弟节点拼接形成的字符串。
7.一种病历结构化装置,其特征在于,包括:
树状结构生成模块,用于将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;
父节点路径生成模块,用于对所述树状结构列出每个叶子节点直到根节点的父节点路径;
正则表达式生成模块,用于根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;
病历数据抽取模块,用于使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从所述父节点路径中,结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的匹配结果的数量为1或者0,循环结束。
8.一种电子装置,其特征在于,包括处理器和存储器,在所述存储器中存储有病历结构化程序,所述病历结构化程序被所述处理器执行时,实现权利要求1至6中任一项所述的病历结构化方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现权利要求1至6中任一项所述的病历结构化方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022101697578 | 2022-02-23 | ||
CN202210169757 | 2022-02-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114927180A true CN114927180A (zh) | 2022-08-19 |
Family
ID=82805243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210257490.8A Pending CN114927180A (zh) | 2022-02-23 | 2022-03-16 | 病历结构化方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114927180A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983228A (zh) * | 2022-12-28 | 2023-04-18 | 北京欧应科技有限公司 | 用于生成病历模板的方法、系统、计算设备和存储介质 |
CN116543865A (zh) * | 2023-05-15 | 2023-08-04 | 衡反修 | 一种数据处理方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057163A (ja) * | 1998-08-12 | 2000-02-25 | Nec Corp | 構造化文書データベースシステム |
US20040205605A1 (en) * | 2002-03-12 | 2004-10-14 | International Business Machines Corporation | Method and system for stylesheet rule creation, combination, and removal |
CN103425771A (zh) * | 2013-08-12 | 2013-12-04 | 深圳市华傲数据技术有限公司 | 一种数据正则表达式的挖掘方法及装置 |
CN109726185A (zh) * | 2018-12-28 | 2019-05-07 | 杭州安恒信息技术股份有限公司 | 一种基于语法树的日志解析方法、系统和计算机可读介质 |
CN110428907A (zh) * | 2019-07-31 | 2019-11-08 | 济南大学 | 一种基于非结构化电子病历的文本挖掘方法及系统 |
CN113515927A (zh) * | 2021-09-14 | 2021-10-19 | 北京欧应信息技术有限公司 | 用于生成结构化文本的方法、计算设备和存储介质 |
JP2021189872A (ja) * | 2020-06-02 | 2021-12-13 | TXP Medical株式会社 | 情報処理システム |
-
2022
- 2022-03-16 CN CN202210257490.8A patent/CN114927180A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057163A (ja) * | 1998-08-12 | 2000-02-25 | Nec Corp | 構造化文書データベースシステム |
US20040205605A1 (en) * | 2002-03-12 | 2004-10-14 | International Business Machines Corporation | Method and system for stylesheet rule creation, combination, and removal |
CN103425771A (zh) * | 2013-08-12 | 2013-12-04 | 深圳市华傲数据技术有限公司 | 一种数据正则表达式的挖掘方法及装置 |
CN109726185A (zh) * | 2018-12-28 | 2019-05-07 | 杭州安恒信息技术股份有限公司 | 一种基于语法树的日志解析方法、系统和计算机可读介质 |
CN110428907A (zh) * | 2019-07-31 | 2019-11-08 | 济南大学 | 一种基于非结构化电子病历的文本挖掘方法及系统 |
JP2021189872A (ja) * | 2020-06-02 | 2021-12-13 | TXP Medical株式会社 | 情報処理システム |
CN113515927A (zh) * | 2021-09-14 | 2021-10-19 | 北京欧应信息技术有限公司 | 用于生成结构化文本的方法、计算设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
包小源等: "非结构化电子病历中信息抽取的定制化方法", 《北京大学学报(医学版)》, vol. 50, no. 2, 31 December 2018 (2018-12-31), pages 256 - 263 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983228A (zh) * | 2022-12-28 | 2023-04-18 | 北京欧应科技有限公司 | 用于生成病历模板的方法、系统、计算设备和存储介质 |
CN115983228B (zh) * | 2022-12-28 | 2023-10-13 | 北京欧应科技有限公司 | 用于生成病历模板的方法、系统、计算设备和存储介质 |
CN116543865A (zh) * | 2023-05-15 | 2023-08-04 | 衡反修 | 一种数据处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220382752A1 (en) | Mapping Natural Language To Queries Using A Query Grammar | |
CN109906449B (zh) | 一种查找方法及装置 | |
Tu et al. | A practical method for transforming free-text eligibility criteria into computable criteria | |
US9613125B2 (en) | Data store organizing data using semantic classification | |
US9239872B2 (en) | Data store organizing data using semantic classification | |
CN114927180A (zh) | 病历结构化方法、装置及存储介质 | |
WO2022222943A1 (zh) | 科室推荐方法、装置、电子设备及存储介质 | |
CN103530840A (zh) | 一种准确快速的电子病历录入系统 | |
US9081847B2 (en) | Data store organizing data using semantic classification | |
WO2022160454A1 (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
CN103513781A (zh) | 一种准确快速的电子病历录入系统 | |
CN103530358A (zh) | 一种基于递增式术语库的电子病历快速录入系统 | |
US20210202111A1 (en) | Method of classifying medical records | |
CN115995281A (zh) | 一种基于数据治理的专病数据库的数据检索方法及装置 | |
CN112183104A (zh) | 编码推荐方法、系统及相应设备和存储介质 | |
CN117542467B (zh) | 基于患者数据的专病标准数据库自动构建方法 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
EP3343396A1 (en) | Database management device and method therefor | |
Sreevalli et al. | Prediction of diseases using random forest classification algorithm | |
JP4661415B2 (ja) | 表現ゆれ処理システム | |
Satti et al. | Semantic bridge for resolving healthcare data interoperability | |
Zhang et al. | Constructing covid-19 knowledge graph from a large corpus of scientific articles | |
CN111415750A (zh) | 一种基于规则的用户信息结构化和快速检索的方法及系统 | |
CN103544384A (zh) | 一种基于递增式术语库的电子病历快速录入系统 | |
CN106503457A (zh) | 基于转化医学分析平台的临床数据集成技术数据导入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |