CN105678107A - 一种电子病历后结构化知识发现方法和装置 - Google Patents
一种电子病历后结构化知识发现方法和装置 Download PDFInfo
- Publication number
- CN105678107A CN105678107A CN201610235082.7A CN201610235082A CN105678107A CN 105678107 A CN105678107 A CN 105678107A CN 201610235082 A CN201610235082 A CN 201610235082A CN 105678107 A CN105678107 A CN 105678107A
- Authority
- CN
- China
- Prior art keywords
- true
- logic
- write line
- event
- read write
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种电子病历后结构化知识发现方法和装置,该方法包括:将原始电子病历文本语料数据写入文本语料库,通过事实元素逻辑读写器读取文本语料库中的事实元素语料写入事实元素库,通过事件元素逻辑读写器读取事实元素库中事件元素语料写入事件元素库,通过事实结构逻辑读写器读取事件元素库中事实结构语料写入事实结构库。其中,事件元素逻辑读写器的规则库部署有“敏数与超数之间点对群数据锁规则”。本发明基于数论研究利用超敏定律中独特的数据锁结构,将简单机械的从语言到语言的机器学习能力转变为从事实到语言的知识发现能力,借助这种能力实现知识发现过程的自动化管理,可大幅度提高医学教育科研管理水平。
Description
技术领域
本发明涉及医学教育科研管理领域,尤其涉及一种电子病历后结构化知识发现方法和装置。
背景技术
随着计算机应用普及,医学知识的管理包括对已知知识的机器总结和对未知知识的机器抽取,其已成为医学发展进步的关键技术手段。
电子病历是由医疗机构以电子化方式创建、保存和使用的,重点针对门诊、住院患者临床诊疗和指导干预信息的数据集成系统。是居民个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源。
随着物联网技术的发展,大量家用穿戴式健康监测设备(比如3D-CELL宇航员检测仪能同时检测出人体12000多项指标)在指导辅助居民个人进行健康自我管理过程中会产生大量健康数据简称物联网健康大数据。
物联网电子病历包括:由非医疗机构产生的物联网健康大数据属于自由格式的“治未病电子病历”,和由医疗机构产生的临床电子诊疗记录属于规范格式的“治已病电子病历”。为了使电子病历的数据结构化,医生被迫一边尽量详细客观观察病情一边要在模棱两可术语集中尽量精简选择取舍。但问题是结构化录入电子病历不是医生的本职工作,电子病历的结构化录入是对临床医生诊疗行为的信息化绑架。因此,临床医生希望不受干扰的书写电子病历,再利用软件技术对文本自动进行后结构化处理。申请号为201210544345.4的中国发明专利申请“基于本体技术的结构化电子病历生成方法”提供了一种基于“关键词词库”和“病历特征索引库”的后结构化电子病历生成方法。但该技术应用局限于诊疗病历而无法针对自由格式文档的后结构化,并且,如何从后结构化数据中抽取有价值信息辅助医学管理以及如何从中发现新知识开展教学科研仍然缺少基于病历数据后结构化的知识发现技术手段。
目前,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理技术难点包括:单词的边界界定,词义的消歧,句法的模糊性,有瑕疵的或不规范的输入,语言的行为计划。自然语言处理的基础是各类自然语言处理数据集,通过分词器、分类器和统计学习产生语料库训练集。常用的分类算法为:决策树,贝叶斯,Rocchio,kNN,神经网络,支持向量机等。
但各种自然语言处理技术努力呈现的是对语言本身的机器理解能力,只关注机器对语法和语义的抽取识别学习,而对语言依存的事实环境(语境)毫无觉察能力,现行自然语言处理技术关注和强调“语言的表述规律抽取”而忽略“语言中所要表达的事实元素抽取”,这是为语言而语言的机器学习方法,不是为事实而语言的知识发现方法。
发明内容
鉴于此,本发明的一个目的是提供一种电子病历后结构化知识发现方法和装置,以克服因现有技术中的至少一个缺陷。
为了实现本发明的目的,根据本发明的一方面,本发明提供了一种电子病历后结构化知识发现方法,该方法包括以下步骤:
构建包括文本语料库、第一逻辑读写器以及事实元素库的事实后结构化编辑器的步骤,其中,所述文本语料库容纳电子病历文本语料的集合,所述第一逻辑读写器用于根据其知识库关键词列表从所述文本语料库找出相匹配的关键词,并根据其规则库逻辑将逻辑值为真的匹配关键词识别为事实元素写入所述事实元素库;
获取事件元素的步骤,该步骤中第二逻辑读写器根据其知识库关键词列表从所述事实元素库找出相匹配的关键词,并根据其规则库逻辑将逻辑值为真的匹配关键词识别为事件元素写入事件元素库;
编码步骤,用超数编码事实元素库中的事实元素,并按照所述事件元素库中的事件元素与事实元素库中事实元素的关联逻辑用敏数编码事件元素库中的事件元素;以及
构建包括事件元素库、第三逻辑读写器以及事实结构库的事件后结构化编辑器的步骤,其中所述第三逻辑读写器用于根据其知识库关键词列表从所述事件元素库找出相匹配的关键词,并根据其规则库逻辑确定相匹配的关键词之间的逻辑关系,基于所述逻辑关系确定事实结构,写入事实结构库。
进一步地,在构建事实后结构化编辑器之前还可包括:建立电子病历文本语料库,该文本语料库包括原始文本语料的集合。
进一步地,所述第一逻辑读写器、所述第二逻辑读写器、所述第三逻辑读写器中的每一个包括:读字板、写字板、第一知识库、第一规则库和逻辑读写笔。
进一步地,所述电子病历文本语料可采用统一格式进行存储于所述文本语料库。
进一步地,所述方法还可包括:生成知识报告模板的步骤,该步骤从事实结构库选择逻辑值为真的事实结构作为报告对象知识点主索引,通过第二逻辑读写器和第三逻辑读写器从事件底层事实元素推导到上级事件元素,并由事件元素推导到所述事实结构。
进一步地,所述第三逻辑读写器根据其规则库逻辑确定相匹配的关键词之间的逻辑关系,在逻辑值为真的情况下将事件地址赋值为1,写入事实结构库。
根据本发明的另一方面,还提供一种电子病历后结构化知识发现装置,该装置包括:
构建包括文本语料库、第一逻辑读写器以及事实元素库的事实后结构化编辑器的单元,其中,所述文本语料库容纳电子病历文本语料的集合,所述第一逻辑读写器用于根据其知识库关键词列表从所述文本语料库找出相匹配的关键词,并根据其规则库逻辑将逻辑值为真的匹配关键词识别为事实元素写入所述事实元素库;
获取事件元素的单元,该单元利用第二逻辑读写器根据第二逻辑读写器的知识库关键词列表从所述事实元素库找出相匹配的关键词,并根据第二逻辑读写器的规则库逻辑将逻辑值为真的匹配关键词识别为事件元素写入事件元素库;
编码单元,该单元用超数编码事实元素库中的事实元素,并按照所述事件元素库中的事件元素与事实元素库中事实元素的关联逻辑用敏数编码事件元素库中的事件元素;以及
构建包括事件元素库、第三逻辑读写器以及事实结构库的事件后结构化编辑器的单元,其中所述第三逻辑读写器用于根据其知识库关键词列表从所述事件元素库找出相匹配的关键词,并根据其规则库逻辑确定相匹配的关键词之间的逻辑关系,基于所述逻辑关系确定事实结构,写入事实结构库。
本发明基于超敏定律,将简单机械的从语言到语言的机器学习能力转变为从事实到语言的知识发现能力,借助这种能力实现知识发现过程的自动化管理,可大幅度提高医学教育科研管理水平。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
图1示出本发明实施例中电子病历后结构化知识发现装置的框图示意图;
图2示出三个逻辑读写器(事实元素逻辑读写器、事件元素逻辑读写器和事实结构逻辑读写器)的共同构造示意图;
图3示出本发明实施例的知识报告模板设计的示意图;以及
图4示出了本发明实施例中电子病历后结构化知识发现方法的流程示意图。
具体实施方式
下面,对本发明的优选实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的,并且本发明的技术精神及其主要操作不限于这些实施方式。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明为解决现有技术中存在的不足之处,提供了一种电子病历双螺旋后结构化知识发现装置。图1是物联网电子病历双螺旋后结构化知识发现装置顶层设计示意图,其中重点描述事实后结构化编辑器10(它包括文本语料库101、事实元素逻辑读写器301、事实元素库102)和事件后结构化编辑器20(它包括事件元素库201、事实结构逻辑读写器303、事实结构库202)及两个编辑器之间通过事件元素逻辑读写器302链接构成双螺旋的彼此组织结构关系示意。从文本语料库101、事实元素库102、事件元素库201、事实结构库202,关键信息被依次逐级判别传真抽取,最后形成新知识点报告。
换言之,如图1所示,电子病历双螺旋后结构化知识发现装置包括两个基本组件:事实后结构化编辑器10和事件后结构化编辑器20。在两个编辑器之间嵌套三个逻辑读写器组成双螺旋构造。这三个逻辑读写器包括:事实元素逻辑读写器301、事件元素逻辑读写器302和事实结构逻辑读写器303。图2示出了三个逻辑读写器(301、302、303)的共同构造的示例。三个逻辑读写器的共同构造包括读字板、知识库、规则库、逻辑读写笔、写字板。在此,三个逻辑读写器的构造仅为示例,本发明并不限于此。
本文中,事实是指事情的真实情况,事件是指已经发生的事情,事实元素是指记录事实的具体概念、属性、关系及表达方式。例如,“有用”是肯定表达方式,“无用”是否定表达方式,“非无用”是否定之否定的肯定表达方式。
事件元素是由两个或两个以上的事实元素组成。而事实结构是指一系列事实元素组成事件真伪的唯一构造关系。
参照图1,本发明的物联网电子病历双螺旋后结构化知识发现装置是通过以下技术方案达到其目的的,即,该装置执行以下步骤(参照图4):
步骤S100,建立物联网电子病历文本语料集。
文本语料集包括原始本文语料数据,即为各种原始本文语料数据的集合。将“治已病电子病历”和“治未病电子病历”本文语料数据统一转换为同一种文件格式,如转换为HTML格式文件或/和PDF格式文件,并进行集中存储或分布式存储。本发明支持本地集中计算和云计算。
在另一实施方式中,物联网电子病历文本语料集可以预先建立,并可进行数据的更改、删除和补充。
步骤S110,构建事实后结构化编辑器10,该事实后结构化编辑器10包括:文本语料库101、事实元素逻辑读写器301和事实元素库102。
其中,文本语料库101用来存放原始文本语料数据集。
事实元素库102用来存放一级再生语料数据集。一级再生语料是经过效验的事实元素,而非文本语料。
事实元素逻辑读写器301用于根据其知识库中的关键词列表从文本语料库101找出相匹配的关键词,并根据其规则库的逻辑将逻辑值为真的相匹配关键词识别为事实元素写入事实元素库102。
事实元素逻辑读写器301例如可包括读字版、写字版、规则库、知识库和逻辑读写笔,参见附图2所示。
事实元素逻辑读写器301的工作原理是:事实元素逻辑读写器301可通过逻辑读写笔首先依据知识库中的关键词列表搜索文本语料库101,读出与文本语料库101相匹配的关键词(或者说从文本语料库101找出与知识库中的关键词列表相匹配的关键词)临时贴在读字板上,再依据规则库列表搜索判别相匹配关键词与词之间的逻辑关系,将逻辑值为真的匹配关键词从读字板剪贴到写字板上识别为事实元素写入事实元素库102,将逻辑值为假的匹配关键词从读字板上删除,完成关于事实元素的逻辑读写任务。
事实后结构化编辑器的工作模式可包括:本地工作模式和云工作模式。本地工作模式指将文本语料库101、事实元素逻辑读写器301、事实元素库102集中部署在同一设备中运作。云工作模式指将文本语料库101、事实元素逻辑读写器301、事实元素库102分散部署在不同设备中通过网络协同运作。
步骤S120,获取事件元素,将获取的事件元素写入事件元素库201,并分别用超数和敏数对事实元素和事件元素进行编码。
在事实元素库102和事件元素库201之间设置有事件元素逻辑读写器302。该步骤S120利用事件元素逻辑读写器302来基于事实元素库102获取事件元素并写入事件元素库201。
事件元素逻辑读写器302用于根据其知识库中的关键词列表从事实元素库102找出相匹配的关键词,并根据其规则库逻辑将逻辑值为真的相匹配关键词识别为事件元素写入事件元素库201。
事实元素库102用来存放一级再生语料数据集。根据数论中的超敏定律,将每个事实元素的中文名称都使用超数进行编码,比如1、2、4、8、16、32等。
事件元素库201用来存放二级再生语料数据集。根据数论中的超敏定律,将每个事件元素的中文名称都按照事件元素库中的事件元素与事实元素库中事实元素的关联逻辑使用敏数进行编码,比如3、5、6、7、9、10、11、12、13、14、15等。
下面对超敏定律进行说明(转引:王泽文王锡宁,一进位制数学研究[J].科技信息,2008,32:2248)。在数论研究中,设K∈2n{n|n=0,n=自然数},K所代表的自然数被称为“超数”,如1、2、4、8、16、32等,K以外的自然数被称为“敏数”,如3、5、6、7、9、10等,超数∪敏数∈自然数。如每个超数只能使用一次,超数与敏数之间有一种特殊的规律是:“所有敏数均可表示为超数和形式而且只能有唯一的一种表示形式。”这是因为任意敏数的超数和形式恰好是这个敏数的二进位数,而任意自然数只能有一个对应的二进位数。如敏数3表示为超数和的唯一形式是2+1,敏数7表示为超数和的唯一形式是4+2+1,依次类推。因此敏数与超数之间存在点对群逻辑锁定、物理分离的数据锁结构。从超数和计算敏数值没有计算过程,这种无计算过程的求和能力是一进制数学构造的特殊产物。超数与敏数之间这种特殊的规律称为“超敏定律”。
事件元素逻辑读写器302例如可包括读字版、写字版、规则库、知识库和逻辑读写笔,参见附图2所示。
事件元素逻辑读写器302的规则库允许使用自定义规则,常规使用“敏数与超数之间点对群数据锁规则”,让一组事实元素与特定事件逻辑锁定、物理分离。即基于事实元素库中相互关联的一组事实元素的超数编码获得事件元素库中特定事件元素的敏数编码。
事件元素逻辑读写器302的工作原理是:事件元素逻辑读写器302可通过逻辑读写笔首先依据知识库中的关键词列表搜索事实元素库102,读出与事实元素库102相匹配的关键词(或者说从事实元素库102找出与知识库的关键词列表相匹配的关键词)临时贴在读字板上,再依据规则库列表搜索判别匹配关键词之间逻辑关系,将逻辑值为真的匹配关键词从读字板剪贴到写字板上识别为事件元素写入事件元素库201,将逻辑值为假的匹配关键词从读字板上删除,完成关于事件元素的逻辑读写任务。
事件元素逻辑读写器302的工作模式可包括:本地工作模式和云工作模式。本地工作模式指将事实元素库102、事件元素逻辑读写器302、事件元素库201集中部署在同一设备中运作。云工作模式指将将事实元素库102、事件元素逻辑读写器302、事件元素库201分散部署在不同设备中通过网络协同运作。
步骤S130,构建事件后结构化编辑器20。该事件后结构化编辑器20包括:事件元素库201、事件元素逻辑读写器303和事实结构库202,如图1所示。
事件元素库201用来存放二级再生语料数据集。二级再生语料是经过效验的事件元素,而非文本语料。
事实结构库202用来存放三级再生语料数据集。三级再生语料是经过效验的事实结构,而非文本语料。
事实结构逻辑读写器303用于根据其知识库的关键词列表从事件元素库201找出相匹配的关键词,并根据其规则库的逻辑确定相匹配的关键词之间的逻辑关系,基于所述逻辑关系确定事实结构,写入事实结构库202。
事实结构逻辑读写器303例如可包括读字版、写字版、规则库、知识库和逻辑读写笔,参见附图2所示。
事实结构逻辑读写器303的工作原理是:事实结构逻辑读写器303可通过逻辑读写笔首先依据知识库关键词列表搜索事件元素库201,读出与事件元素库201匹配的关键词(或者说从事件元素库201找出与知识库关键词列表相匹配的关键词)临时贴在读字板上,再依据规则库列表搜索判别匹配关键词与词之间逻辑关系,如果逻辑值为真就在写字板上对应地址写入计算机符号1,如果逻辑值为假就在写字板上对应地址写入计算机符号0,将写字板上的计算机符号1或0写入事实结构库202。事实结构库202事件对应地址默认值为0,因此只要将逻辑值为真的计算机符号1替换对应地址的默认值0就可以完成关于事实结构的逻辑读写任务。
事实结构逻辑读写器303的工作模式包括:本地工作模式和云工作模式。本地工作模式指将事件元素库201、事实结构逻辑读写器303、事实结构库202集中部署在同一设备中运作。云工作模式指将事件元素库201、事实结构逻辑读写器303、事实结构库202分散部署在不同设备中通过网络协同运作。
步骤S140,生成知识报告模板。从事实结构库202事件对应地址中选择计算机赋值为1的事件作为报告对象知识点主索引,通过事件元素逻辑读写器302和事实结构逻辑读写器303从该事件底层事实元素逐级推导上级事件元素,再从事件元素逐级推导演绎出事实结构。
附图3是物联网电子病历双螺旋后结构化知识发现装置工作流程结构模型。先将原始物联网电子病历文本语料数据a、b、c、d、……、m写入文本语料库101,通过事实元素逻辑读写器301读取文本语料库101中的事实元素语料再写入事实元素库102,通过事件元素逻辑读写器302读取事实元素库102中事件元素语料再写入事件元素库201,通过事实结构逻辑读写器303读取事件元素库201中事实结构语料再写入事实结构库202。其中,事件元素逻辑读写器302的规则库常规部署有“敏数与超数之间点对群数据锁规则”。图中事实元素库102中的带圆圈的数字1、2、4、8、16、32分别代表事实元素后结构化编码代码。图中事件元素库201中的带圆圈的数字10、11、52分别代表事件元素后结构化编码代码,事件元素10涉及有2个事实元素2、8(2+8=10)互相关联,事件元素52涉及有3个事实元素4、16、32(4+16+32=52)互相关联,事件元素10、52属于一级事件元素编码代码,11是由1个事件元素10和一个事实元素1(10+1=11)互相关联构成二级事件元素后结构化编码代码。图中示出的事件元素库201中带圆圈的数字10、11、52这一串事件元素结构化数据代表文本内容中反映事实结构需要判定的一个复杂的潜藏事件信息,如果事件信息存在矛盾则判定存在错误逻辑,即错误逻辑为真,被标记为1,代表潜藏事件存在,如果时间信息不矛盾则判定不存在错误逻辑,即错误逻辑为假,被标记为0,代表潜藏事件不存在。
图4中示出的流程示意图中,一些步骤的执行顺序并不限于按照上面的顺序进行,而是可以改变先后的,或者可以并行进行。
上述可知,本发明涉及一种大数据知识发现方法的架构顶层设计,提供一种物联网电子病历双螺旋后结构化知识发现装置,包括两个基本组件:事实后结构化编辑器和事件后结构化编辑器;在两个编辑器之间嵌套三个逻辑读写器组成双螺旋构造;三个逻辑读写器包括:事实元素逻辑读写器,事件元素逻辑读写器,事实结构逻辑读写器。本发明基于数论研究利用超敏定律中独特的数据锁结构,将简单机械的从语言到语言的机器学习能力转变为从事实到语言的知识发现能力——指从原始语料集抽取事实元素、事件元素到事实结构的机器自动感知能力,借助这种机器自动感知能力实现知识发现过程的自动化管理,克服现有技术中机器学习能力的不足,可大幅度提高医学教育科研管理水平。
下面给出具体示例对电子病历双螺旋后结构化知识发现装置执行的后结构化知识发现进行举例说明,该方法包括如下步骤:
第1步:构建事实后结构化编辑器
文本语料库101中包括的原始文本语料:患者xxx,男性,25岁,月经史:14岁初次来月经……
逻辑读写器301的知识库关键词列表:男、女、月经、……
逻辑读写器301的规则库规则列表:……,男性,女性,来月经
逻辑读写器301的逻辑读写笔依据逻辑读写器301知识库关键词列表从文本语料库101逐一读出匹配关键词“男”“月经1”“月经2”临时贴在301读字板上。
逻辑读写器301的逻辑读写笔依据逻辑读写器301的规则库逻辑判别逻辑读写器301的读字板匹配关键词:男性为真(指患者是个男人的事实)、月经1为假(不是指来月经,而是关于月经史的主题分类词)、月经2为真(是指来月经的事实)、将逻辑值为真的匹配关键词识别为事实元素剪贴到写字版写入事实元素库102。
事实元素库102一级再生语料:男、月经2
第2步:获取事件元素,写入事件元素库,并对事实元素和事件元素进行编码
事实元素库102一级再生语料:男、月经、……
逻辑读写器302知识库关键词列表:男、女、月经、……
逻辑读写器302规则库规则列表:……,男性来月经
逻辑读写器302逻辑读写笔依据逻辑读写器302知识库关键词列表从事实元素库102逐一读出匹配关键词“男”“月经”临时贴在逻辑读写器302读字板上。
逻辑读写器302逻辑读写笔依据逻辑读写器302规则库逻辑判别逻辑读写器302读字板匹配关键词:男性来月经为真(指患者是个男人和来月经的一组事实),将逻辑值为真的匹配关键词识别为事件元素剪贴到写字版写入事件元素库201。
事件元素库201二级再生语料:男性来月经、……
逻辑读写器302逻辑读写笔用超数编码事实元素库102的语料,男编码为2、月经编码为8。
逻辑读写器302逻辑读写笔用敏数编码事件元素库201的语料,按照事件元素库中的一组事件元素“男”、“月经”与事实元素库中事实元素“男性来月经”的关联逻辑将男性来月经编码为10。
逻辑读写器302逻辑读写笔(计算机)不是从文字内容而是从编码内容阅读理解数据关系为10=2+8,更复杂的情况可以以此类推。
因为超数和2+8是敏数10的唯一表述值,不会与其他事件元素混淆,因此,因此可防止出现事件元素冗余。
第3步:构建事件后结构化编辑器
事件元素库201二级再生语料:男性来月经,……
逻辑读写器303知识库关键词列表:……,男性来月经
逻辑读写器303规则库规则列表:……,男性来月经为“真”写入1,男性来月经为“假”写入0。
逻辑读写器303的逻辑读写笔依据逻辑读写器303的知识库关键词列表从事件元素库201逐一读出匹配关键词“男性来月经”临时贴在逻辑读写器303读字板上。
逻辑读写器303的逻辑读写笔依据逻辑读写器303的规则库逻辑判别逻辑读写器303读字板匹配关键词:男性来月经为真(指患者是个男人和来月经的一组事实)、将逻辑值为真的匹配关键词用计算机在写字版对应地址赋值为1写入事实结构库202。
事实结构库202三级再生语料:男性来月经(对应地址被赋值为1)。
第4步:生成知识点报告
知识点报告:从事实结构库202事件对应地址中只选择计算机赋值为1的顶层事件(事实结构)作为报告对象知识点主索引,通过逻辑读写器302和303从该事件底层事实元素逐级推导演绎上级事件元素直到顶层事件。该推导过程包括:
a)文本语料库101原始文本语料:患者xxx,男性,25岁,月经史:
14岁初次来月经……
b)事实元素库102一级再生语料:男、月经
c)事件元素库201二级再生语料:男性来月经……
d)事实结构库202三级再生语料:1
e)结论:该病历文件含有严重逻辑错误。
如上过程可用于医学文件质量管理,用计算机手段大规模自动筛查文件中的缺陷。如果没有这项管理技术创新,就只能用人工抽查发现缺陷,则不全面不精确且效率低。上述方法可列入教学专用案例集。
本发明可用于教学科研管理,用计算机手段大规模辅助搜集阳性标本编写典型教案。如果没有这项管理技术创新,就只能用普通文献检索,先找出相关文件,再用人工审核逐一发现阳性标本。
本发明的各部分可以用硬件、软件、固件或者它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可以用本领域共知的下列技术中的任一项或者他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在流程图中表示或者在此以其它方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
需要说明的是,上述实施例仅为说明本发明而非限制本发明的专利范围,任何基于本发明的等同变换技术,均应在本发明的专利保护范围内。
Claims (12)
1.一种电子病历后结构化知识发现方法,其特征在于,该方法包括:
构建包括文本语料库、第一逻辑读写器以及事实元素库的事实后结构化编辑器的步骤,其中,所述文本语料库容纳电子病历文本语料的集合,所述第一逻辑读写器用于根据其知识库关键词列表从所述文本语料库找出相匹配的关键词,并根据其规则库逻辑将逻辑值为真的匹配关键词识别为事实元素写入所述事实元素库;
获取事件元素的步骤,该步骤中第二逻辑读写器根据其知识库关键词列表从所述事实元素库找出相匹配的关键词,并根据其规则库逻辑将逻辑值为真的匹配关键词识别为事件元素写入事件元素库;
编码步骤,用超数编码事实元素库中的事实元素,并按照所述事件元素库中的事件元素与事实元素库中事实元素的关联逻辑用敏数编码事件元素库中的事件元素;以及
构建包括事件元素库、第三逻辑读写器以及事实结构库的事件后结构化编辑器的步骤,其中所述第三逻辑读写器用于根据其知识库关键词列表从所述事件元素库找出相匹配的关键词,并根据其规则库逻辑确定相匹配的关键词之间的逻辑关系,基于所述逻辑关系确定事实结构,写入事实结构库。
2.根据权利要求1所述的方法,其特征在于,在构建事实后结构化编辑器之前还包括:
建立电子病历文本语料库,该文本语料库包括原始文本语料的集合。
3.根据权利要求1所述的方法,其特征在于,所述第一逻辑读写器、所述第二逻辑读写器、所述第三逻辑读写器中的每一个包括:读字板、写字板、第一知识库、第一规则库和逻辑读写笔。
4.根据权利要求1所述的方法,其特征在于:
所述电子病历文本语料采用统一格式进行存储于所述文本语料库。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
生成知识报告模板的步骤,该步骤从事实结构库选择逻辑值为真的事实结构作为报告对象知识点主索引,通过第二逻辑读写器和第三逻辑读写器从事件底层的事实元素推导到上级事件元素,并由事件元素推导到所述事实结构。
6.根据权利要求5所述的方法,其特征在于:
所述第三逻辑读写器根据其规则库逻辑确定相匹配的关键词之间的逻辑关系,在逻辑值为真的情况下将事件地址赋值为1,写入事实结构库。
7.一种电子病历后结构化知识发现装置,其特征在于,该装置包括:
构建包括文本语料库、第一逻辑读写器以及事实元素库的事实后结构化编辑器的单元,其中,所述文本语料库容纳电子病历文本语料的集合,所述第一逻辑读写器用于根据其知识库关键词列表从所述文本语料库找出相匹配的关键词,并根据其规则库逻辑将逻辑值为真的匹配关键词识别为事实元素写入所述事实元素库;
获取事件元素的单元,该单元利用第二逻辑读写器根据第二逻辑读写器的知识库关键词列表从所述事实元素库找出相匹配的关键词,并根据第二逻辑读写器的规则库逻辑将逻辑值为真的匹配关键词识别为事件元素写入事件元素库;
编码单元,该单元用超数编码事实元素库中的事实元素,并按照所述事件元素库中的事件元素与事实元素库中事实元素的关联逻辑用敏数编码事件元素库中的事件元素;以及
构建包括事件元素库、第三逻辑读写器以及事实结构库的事件后结构化编辑器的单元,其中所述第三逻辑读写器用于根据其知识库关键词列表从所述事件元素库找出相匹配的关键词,并根据其规则库逻辑确定相匹配的关键词之间的逻辑关系,基于所述逻辑关系确定事实结构,写入事实结构库。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
建立电子病历文本语料库的单元,该文本语料库包括原始文本语料的集合。
9.根据权利要求7所述的装置,其特征在于:
所述第一逻辑读写器、所述第二逻辑读写器、所述第三逻辑读写器中的每一个包括:读字板、写字板、第一知识库、第一规则库和逻辑读写笔。
10.根据权利要求7所述的装置,其特征在于:
所述电子病历文本语料采用统一格式进行存储于所述文本语料库。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
生成知识报告模板的单元,该单元从事实结构库选择逻辑值为真的事实结构作为报告对象知识点主索引,通过第二逻辑读写器和第三逻辑读写器从事件的底层事实元素推导到上级事件元素,并由事件元素推导到所述事实结构。
12.根据权利要求11所述的装置,其特征在于:
所述第三逻辑读写器根据其规则库逻辑确定相匹配的关键词之间的逻辑关系,在逻辑值为真的情况下将事件地址赋值为1,写入事实结构库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610235082.7A CN105678107B (zh) | 2016-04-15 | 2016-04-15 | 一种电子病历后结构化知识发现方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610235082.7A CN105678107B (zh) | 2016-04-15 | 2016-04-15 | 一种电子病历后结构化知识发现方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105678107A true CN105678107A (zh) | 2016-06-15 |
CN105678107B CN105678107B (zh) | 2018-12-04 |
Family
ID=56309126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610235082.7A Active CN105678107B (zh) | 2016-04-15 | 2016-04-15 | 一种电子病历后结构化知识发现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105678107B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562732A (zh) * | 2017-10-26 | 2018-01-09 | 北京康夫子科技有限公司 | 电子病历的处理方法及系统 |
CN108572944A (zh) * | 2017-11-24 | 2018-09-25 | 北京金山云网络技术有限公司 | 一种文档生成方法、装置、电子设备及存储介质 |
CN108763197A (zh) * | 2018-05-10 | 2018-11-06 | 杭州依图医疗技术有限公司 | 一种医疗术语库的形成方法和装置 |
CN110459328A (zh) * | 2019-07-05 | 2019-11-15 | 梁俊 | 一种评估心脏骤停的临床决策支持系统 |
CN111739599A (zh) * | 2020-06-19 | 2020-10-02 | 北京嘉和海森健康科技有限公司 | 一种教学病历生成方法和装置 |
CN111986751A (zh) * | 2020-07-31 | 2020-11-24 | 北京天健源达科技股份有限公司 | 一种电子病历逻辑锁的处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1426221A (zh) * | 2002-12-27 | 2003-06-25 | 王锡宁 | 三维通讯机 |
US20040243545A1 (en) * | 2003-05-29 | 2004-12-02 | Dictaphone Corporation | Systems and methods utilizing natural language medical records |
US7802183B1 (en) * | 2001-05-17 | 2010-09-21 | Essin Daniel J | Electronic record management system |
CN104050615A (zh) * | 2014-07-10 | 2014-09-17 | 首都医科大学附属北京佑安医院 | 一种生成结构化电子病历的系统 |
CN105159917A (zh) * | 2015-07-21 | 2015-12-16 | 东华大学 | 一种电子病历的非结构化信息转化为结构化的泛化方法 |
-
2016
- 2016-04-15 CN CN201610235082.7A patent/CN105678107B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7802183B1 (en) * | 2001-05-17 | 2010-09-21 | Essin Daniel J | Electronic record management system |
CN1426221A (zh) * | 2002-12-27 | 2003-06-25 | 王锡宁 | 三维通讯机 |
US20040243545A1 (en) * | 2003-05-29 | 2004-12-02 | Dictaphone Corporation | Systems and methods utilizing natural language medical records |
CN104050615A (zh) * | 2014-07-10 | 2014-09-17 | 首都医科大学附属北京佑安医院 | 一种生成结构化电子病历的系统 |
CN105159917A (zh) * | 2015-07-21 | 2015-12-16 | 东华大学 | 一种电子病历的非结构化信息转化为结构化的泛化方法 |
Non-Patent Citations (1)
Title |
---|
王泽文: "《一进位制数学研究》", 《科技信息》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562732A (zh) * | 2017-10-26 | 2018-01-09 | 北京康夫子科技有限公司 | 电子病历的处理方法及系统 |
CN108572944A (zh) * | 2017-11-24 | 2018-09-25 | 北京金山云网络技术有限公司 | 一种文档生成方法、装置、电子设备及存储介质 |
CN108763197A (zh) * | 2018-05-10 | 2018-11-06 | 杭州依图医疗技术有限公司 | 一种医疗术语库的形成方法和装置 |
CN108763197B (zh) * | 2018-05-10 | 2021-11-09 | 上海依智医疗技术有限公司 | 一种医疗术语库的形成方法和装置 |
CN110459328A (zh) * | 2019-07-05 | 2019-11-15 | 梁俊 | 一种评估心脏骤停的临床决策支持系统 |
CN110459328B (zh) * | 2019-07-05 | 2020-07-28 | 浙江大学 | 临床监护设备 |
CN111739599A (zh) * | 2020-06-19 | 2020-10-02 | 北京嘉和海森健康科技有限公司 | 一种教学病历生成方法和装置 |
CN111739599B (zh) * | 2020-06-19 | 2023-08-08 | 北京嘉和海森健康科技有限公司 | 一种教学病历生成方法和装置 |
CN111986751A (zh) * | 2020-07-31 | 2020-11-24 | 北京天健源达科技股份有限公司 | 一种电子病历逻辑锁的处理方法 |
CN111986751B (zh) * | 2020-07-31 | 2023-11-07 | 北京天健源达科技股份有限公司 | 一种电子病历逻辑锁的处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105678107B (zh) | 2018-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Banerjee et al. | Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort | |
Varma et al. | Snuba: Automating weak supervision to label training data | |
CN105678107A (zh) | 一种电子病历后结构化知识发现方法和装置 | |
KR102153920B1 (ko) | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 | |
Chattopadhyay et al. | A comparative study of fuzzy c-means algorithm and entropy-based fuzzy clustering algorithms | |
Datta et al. | Understanding spatial language in radiology: Representation framework, annotation, and spatial relation extraction from chest X-ray reports using deep learning | |
CN107644011A (zh) | 用于细粒度医疗实体提取的系统和方法 | |
Agu et al. | AnaXNet: anatomy aware multi-label finding classification in chest X-ray | |
Simoff et al. | Ontology-based multimedia data mining for design information retrieval | |
CN108319605A (zh) | 医学检查数据的结构化处理方法及系统 | |
CN116860987A (zh) | 基于生成式大语言模型的领域知识图谱构建方法和系统 | |
JP2021193617A (ja) | 医療データ検証方法、装置及び電子機器 | |
Jatav | An algorithm for predictive data mining approach in medical diagnosis | |
Yanık et al. | Active learning for sketch recognition | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
Mahajan | Applications of pattern recognition algorithm in health and medicine | |
CN113658720A (zh) | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 | |
Ullah et al. | Detecting High‐Risk Factors and Early Diagnosis of Diabetes Using Machine Learning Methods | |
Humayun et al. | Deep Learning Based Sentiment Analysis of COVID-19 Tweets via Resampling and Label Analysis. | |
D’Anniballe et al. | Multi-label annotation of text reports from computed tomography of the chest, abdomen, and pelvis using deep learning | |
JP2021149935A (ja) | 情報処理装置および方法 | |
CN112562849B (zh) | 一种基于层次结构和共现结构的临床自动诊断方法及系统 | |
Wang et al. | A computational framework towards medical image explanation | |
Nunes et al. | Explaining Artificial Intelligence Predictions of Disease Progression with Semantic Similarity. | |
CN114429822A (zh) | 病历质检方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |