CN112700830B - 从电子病历中提取结构化信息的方法、装置及存储介质 - Google Patents
从电子病历中提取结构化信息的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112700830B CN112700830B CN202011599792.0A CN202011599792A CN112700830B CN 112700830 B CN112700830 B CN 112700830B CN 202011599792 A CN202011599792 A CN 202011599792A CN 112700830 B CN112700830 B CN 112700830B
- Authority
- CN
- China
- Prior art keywords
- keywords
- unknown
- determining
- chapters
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种从电子病历中提取结构化信息的方法、装置及计算机可读存储介质,该方法包括根据现有医学词典或知识库,从电子病历中提取关键词,其中包括现有医学词典或知识库中已知的关键词和未收录在医学词典或知识库中的未知的关键词;对于其中未知的关键词,可先确定出与未知的关键词关系最为紧密的若干个章节,然后利用特定算法对上述若干个章节进行评分,并从若干个章节中选取一个超过阈值的章节作为该关键词对应的章节。如此,即使现有医学词典或知识库中所收录的关键词不够,也可以通过上述方法确定未知关键词和未知关键词所对应的章节,从而获取到足够的结构化信息以用于后续的分析和统计等。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种对电子病历数据进行解析并从中提取结构化信息的方法、装置及计算机可读存储介质。
背景技术
对电子病历进行整理和分析,具有非常重要的意义,而关键词的提取和所属章节的确定更是重中之重。
但由于医疗信息数字化起步较晚,相应的医学词典和医学知识库建设还不尽完善,常常造成根据现有的医学词典和医学知识库无法准确识别出电子病历中所包含的某些关键词,或无法准确地确定关键词所在的具体章节而造成信息遗漏或缺失。
发明内容
本发明实施例为了解决电子病历中提取关键词并确定关键词所属的章节时存在的上述问题,创造性地提供一种从电子病历中提取结构化信息的方法、装置及计算机可读存储介质。
根据本发明实施例的第一方面,提供了一种从电子病历中提取结构化信息的方法,该方法包括:获取待提取结构化信息的电子病历,结构化信息包括关键词和关键词所属的章节;从电子病历中提取关键词;从关键词中确定出未知关键词以及与每个未知关键词关联的K个章节,其中K为大于等于1的整数;对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明实施例一实施方式,从关键词中确定出未知关键词以及与每个未知关键词关联的K个章节,包括:从关键词中确定出未知关键词;计算每个未知关键词与已知关键词的相似度,并根据相似度从大到小的排序确定出与未知关键词最为相似的L个已知关键词;获取每个已知关键词所属的章节得到与相应的未知关键词关联的K个章节,其中K小于等于L。
根据本发明实施例一实施方式,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节,包括:确定每个章节对应的关联度;确定每个章节对应的相似度;根据所述关联度和相似度,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明实施例一实施方式,确定每个章节对应的关联度,包括:确定相应的未知关键词的前序章节或后序章节;根据前序章节或后续章节以及预先建立的前后章节的关联关系和关联关系的概率,确定每个章节对应的关联度。
根据本发明实施例一实施方式,确定相应的未知关键词的前序章节或后序章节,包括:根据未知关键词之前的已知关键词确定前序章节,或根据未知关键词之后的已知关键词确定后序章节。
根据本发明实施例一实施方式,确定相应的未知关键词的前序章节或后序章节,包括:根据第一未知关键词的前序章节或后序章节确定第二未知关键词的前序章节或后续章节。
根据本发明实施例一实施方式,在根据前序章节或后续章节以及预先建立的前后章节的关联关系和关联关系的概率之前,该方法还包括:根据章节相关的统计数据确定前后章节的关联关系和关联关系的概率。
根据本发明实施例一实施方式,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节,包括:使用自然语言处理模型对K个章节进行端到端的评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明实施例第二方面,还提供了一种从电子病历中提取结构化信息的装置,该装置包括:电子病历获取模块,用于获取待提取结构化信息的电子病历,结构化信息包括关键词和关键词所属的章节;关键词提取模块,用于从电子病历中提取关键词;未知关键词确定模块,用于从关键词中确定出未知关键词以及与每个未知关键词关联的K个章节,其中K为大于等于1的整数;归属章节确定模块,用于对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明实施例一实施方式,未知关键词确定模块包括:位置关键词确定子模块,用于从关键词中确定出未知关键词;相似度计算子模块,用于计算每个未知关键词与已知关键词的相似度,并根据相似度从大到小的排序确定出与未知关键词最为相似的L个已知关键词;章节获取子模块,用于获取每个已知关键词所属的章节得到与相应的未知关键词关联的K个章节,其中K小于等于L。
根据本发明实施例一实施方式,归属章节确定模块包括:关联度确定子模块,用于确定每个章节对应的关联度;相似度确定子模块,用于确定每个章节对应的相似度;评分子模块,用于根据所述关联度和相似度,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明实施例一实施方式,关联度确定子模块包括:关联章节确定单元,用于确定相应的未知关键词的前序章节或后序章节;关联度确定单元,用于根据前序章节或后续章节以及预先建立的前后章节的关联关系和关联关系的概率,确定每个章节对应的关联度。
根据本发明实施例一实施方式,关联章节确定单元具体用于根据未知关键词之前的已知关键词确定前序章节,或根据未知关键词之后的已知关键词确定后序章节。
根据本发明实施例一实施方式,关联章节确定单元具体用于根据第一未知关键词的前序章节或后序章节确定第二未知关键词的前序章节或后续章节。
根据本发明实施例一实施方式,在根据前序章节或后续章节以及预先建立的前后章节的关联关系和关联关系的概率之前,该方法还包括:根据章节相关的统计数据确定前后章节的关联关系和关联关系的概率。
根据本发明实施例一实施方式,归属章节确定模块具体用于使用自然语言处理模型对K个章节进行端到端的评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明第三方面,又提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述任一项从电子病历中提取结构化信息的方法。
本发明实施例提供了一种从电子病历中提取结构化信息的方法、装置及计算机可读存储介质,其中,该方法包括根据现有医学词典或知识库,从电子病历中提取关键词,其中包括现有医学词典或知识库中已知的关键词和未收录在医学词典或知识库中的未知的关键词;对于其中未知的关键词,可先确定出与未知的关键词关系最为紧密的若干个章节,然后利用特定算法对上述若干个章节进行评分,并从若干个章节中选取一个超过阈值且评分最高的章节作为该关键词对应的章节。如此,即使现有医学词典或知识库中所收录的关键词不够,也可以通过上述方法确定未知关键词和未知关键词所对应的章节,从而获取到足够的结构化信息以用于后续的分析和统计等;此外,通过上述方法确定的未知关键词和未知关键词所对应的章节,还可以存入现有医学词典或知识库对或知识库进行不断扩充,从而弥补了医学词典和医学知识中收录的内容有限,无法准确识别出电子病历中所包含的未知关键词及其章节而造成信息遗漏或缺失。
需要理解的是,本发明的实施并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例从电子病历中提取结构化信息的方法的实现流程示意图一;
图2示出了本发明实施例从电子病历中提取结构化信息的方法的实现流程示意图二;
图3示出了本发明实施例从电子病历中提取结构化信息的方法的实现流程示意图三;
图4示出了本发明实施例从电子病历中提取结构化信息的设备的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
在以下的实施例说明中,电子病历主要指数字化的病历,例如,临床文档结构(Clinical Document Architecture,CDA)或电子医学病历(Electronic Medical Record,EMR),可以是二维表形式,直接存储在数据库中;也可以是以xml、html或纯文本格式存储的文件。本发明实施例主要针对于以xml、html或纯文本格式存储的文件。
结构化信息主要指在文本信息基础上提取到的具有一定表示形式的数据结构,例如,“关键词1:章节1”或“章节1:关键词1,关键词2,关键词3”这样的键值对。
从电子病历中提取结构化信息时,除了关键词和关键词所属的章节也还可能需要提取其他信息,但本发明实施例主要针对关键词和关键词所属的章节。
其中,关键词指表征后续内容的词语,一般具有章节的指向意义的词,例如“家族遗传病史”。
章节是电子病历结构化数据的一个数据单元的定义,例如“家族史”,章节的名称及不同文档类型的章节定义有国标或标准文件,但是每个章节的具体表征词,会根据不同厂商,或医院,或科室,甚至不同的医生有不同的调整,例如:“既往史”章节,的表征词可能是“既往史”、也可能是“过去史”等。
通常,纯文本、Html或xml文件所存储的电子病历数据,是一种半结构化的数据。如果想要对上述半结构化的电子病历数据进行大数据挖掘、统计或分析等后续处理时,通常需要将其中的半结构化数据进行结构化的处理,也就是提取结构化信息的过程,这个过程也被称为章节解析。
从电子病历中提取结构化信息,是电子病历数据挖掘和科研研究的重要环节之一。而本发明实施例提供的一种从电子病历中提取结构化信息的方法、装置及计算机可读存储介质,对于电子病历数据的章节解析而言具有重要的作用和意义。
图1示出了本发明实施例从电子病历中提取结构化信息的方法的实现流程。参考图1,本发明实施例从电子病历中提取结构化信息的方法,至少包括如下操作流程:
操作110,获取待提取结构化信息的电子病历,结构化信息包括关键词和关键词所属的章节;
可通过读取纯文本、Html或xml文件获取待提取结构化信息的电子病历,本发明实施例主要想从该电子病历中提取关键词和关键词所属的章节这样的结构化数据。
之后,还可以进一步基于上述关键词和关键词所属的章节提取到每个章节所包含的关键词,实现电子病历的解析,为大数据挖掘、统计或分析等后续处理做准备。
操作120,从电子病历中提取关键词;
其中,可以使用任何现有的或任何适用的提取关键词的方法,举例如下:
假设电子病历的文本内容为:
术前诊断:1.痛风性关节炎;2.腰痛病;3.高血压病
术后诊断:1.痛风性关节炎;2.腰痛病;3.高血压病手术的名称:小针刀松解术
首先,使用类似的差异规则(比如,分割符号为“:”等)对文档内容进行分词处理得到备选关键词列表如下:
[
术前诊断,
1.痛风性关节炎;2.腰痛病;3.高血压病,术后诊断,
术后诊断,
1.痛风性关节炎;2.腰痛病;3.高血压病,
手术的名称,
小针刀松解术
]
其中,每一个行就是一个分词的结果。
之后,基于上述分词的结果进行关键词初过滤;
由于关键词应该是一种简单的词,一般不会有部分连续性标点符号、数字序号等,以不会过长,因此可以根据需要设定一些过滤规则过滤掉一些明显不符合要求的关键词,比如:
1.长度2-10
2.不包含“。”
3.不包含“,”
4.不包含数字或字母
需要说明的是,以上仅是一些常见规则的示例,在实际实施过程中,实施者可根据具体的实施条件和应用场景下具体数据的不同特性,进行相应配置。
如此,就可以从电子病历中提取出关键词了。
但上述过程提取到的关键词中可能包含现有医学词典或医学知识库中已收录的关键词,即已知关键词;也可能包含医学词典或医学知识库中未收录的关键词,即未知关键词。由于医学词典或医学知识库中已收录的关键词,通过简单的字符串匹配等现有技术就可以很容易地获取其所属的章节,因此,本发明实施例主要针对医学词典或医学知识库中未收录的关键词。
操作130,从关键词中确定出未知关键词以及与每个未知关键词关联的K个章节,其中K为大于等于1的整数;
其中,从关键词中确定出未知关键词可以通过以下方式:
首先,将关键词与现有医学词典或医学知识库中已收录的关键词进行比对,先筛选掉已经收录的关键词;
之后,再通过相似度计算,筛选掉与已收录的关键词相似度较低的词(这些词与已收录的关键词区别较大,大概率是不需要的关键词)。
在确定了未知关键词之后,下一步就是如何确定未知关键词所属的章节,由于未知关键词并未收录在现有医学词典或医学知识库中,没有历史统计数据,无法根据统计信息判断该关键词属于哪一章节,而这正是本发明实施例要处理的难点。
为此,本发明的发明人创造性地想到通过未知关键词与现有医学词典或医学知识库中已收录的已知关键词的关联关系(例如相似度)找到与已知关键词存在关联关系的若干个章节作为备选章节,或者直接通过语义相似度找到与未知关键词存在关联关系的若干个章节作为备选章节,之后再利用某种算法从中确定出最为合适的章节。
操作140,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
在上述操作获得的与未知关键词的关联关系的若干个章节,是一个粗粒度的筛选备选章节,还不能准确地确定出未知关键词所属的章节。因此,还需要进一步对K个章节进行评分,并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
其中,阈值是根据经验值指定的一个评分标准,只有当章节评分超过该准确度阈值时,才能将该章节确定为相应的未知关键词所属的章节。该准确度阈值类似于及格线,只有评分超过了该准确度阈值,才说明该未知关键词有可能是属于该章节的,否则,可能性不大,勉强将该章节确定相应的未知关键词所属的章节也没有太大意义。为此,如何确定一个合适的评分标准来从对K个章节中确定出最合适的章节也至关重要。
下面会选出两个使用不同评分标准进行评分的具体实施例加以说明。
图2示出了本发明另一实施例从电子病历中提取结构化信息的方法的实现流程。参考图2,本发明实施例从电子病历中提取结构化信息的方法,至少包括如下操作流程:
操作2010,获取待提取结构化信息的电子病历;
操作2020,从电子病历中提取关键词;
操作2030,从关键词中确定出未知关键词;
上述过程已在前文进行了详细说明,故在此不再赘述。
操作2040,计算每个未知关键词与已知关键词的相似度,并根据相似度从大到小的排序确定出与未知关键词最为相似的L个已知关键词;
操作2050,获取每个已知关键词所属的章节得到与相应的未知关键词关联的K个章节,其中K小于等于L;
在本实施例中通过操作2040和操作2050,从现有医学词典或医学知识库中筛选出与未知关键词最为接近的L个已知关键词,然后将这些最为接近的已知关键词的章节确定为相应的未知关键词关联的K个章节,其中多个已知关键词可能属于同一个章节,因此这里的K小于等于L。
通常,相近的对象往往属于相同的分类,而这一方式依据这一规律,通过相似的已知关键词来确定备选的若干章节,这样确定出来的章节准确度较高。且这种方式可重复利用之前确定未知关键词时所进行相似度计算的结果,而无需重复计算,也大大提高了运算效率,缩短了处理时间。
操作2060,判断未知关键词之前或未知关键词之后是否有已知的关键词,若是,则继续操作270,若否,则继续操作280;
操作2070,根据未知关键词之前的已知关键词确定前序章节,或根据未知关键词之后的已知关键词确定后序章节;
操作2080,判断是否存在已经确定了前序章节或后序章节的未知关键词,若存在,则继续操作2090,若不存在,则继续操作2130;
操作2090,根据第一未知关键词的前序章节或后序章节确定第二未知关键词的前序章节或后续章节;
其中,第一未知关键词指已经确定了前序章节或后序章节的未知关键词,而第二未知关键词则指还未确定了前序章节或后序章节的未知关键词。
根据已经确定了前序章节或后序章节的未知关键词去推算还未确定了前序章节或后序章节的未知关键词得前序章节或后序章节,可进一步利用之前得到得中间结果,扩大了获取前序章节或后续章节得途径和可能性。
操作2100,根据前序章节或后续章节以及预先建立的前后章节的关联关系和关联关系的概率,确定每个章节对应的关联度;
其中,前后章节的关联关系和关联关系的概率是通过大数据的技术,从现有的医学词典或医学知识库,以及使用本发明实施例上述方法沉淀或收集的关键词表统计到的一个章节之间的语义关系概率,例如:术前诊断—>术后诊断0.8;术后诊断—>手术名称0.7;术后诊断—>术后注意事项0.0。
其中,箭头前的章节为前序章节;箭头后的章节为后序章节;后序章节之后的数字,代表出现这种情况的概率,即所述关联度。
操作2110,确定每个章节对应的相似度;
其中,这里的相似度也可以重复利用每个章节对应的已知关键词与未知关键词之间的相似度结果来判断,以进一步节省计算。
操作2120,根据所述关联度和相似度,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节;
例如,之前确定的未知关键词为“家族史及遗传病史”,出现的位置之前存在“现病史”章节下的已知关键词,则可认定“家族史及遗传病史”的前序章节为“现病史”;之后,在确定“家族史及遗传病史”属于哪个章节的判断的时候,就可以通过“现病史”章节和“家族史及遗传病史”关联章节的相似系数与这个“现病史”与该章节关联的权重相乘得到相应的评分,之后从中选取超过阈值且得分最高的章节作为“家族史及遗传病史”的章节。
在上述操作中,操作2060至操作2020试图通过从未知关键词的上下文确定其前序章节或后序章节,然后再根据预先建立的前后章节的关联关系,以及关联关系的概率来确定每个章节对应的关联度;之后根据关联度与相似度的高低共同决定最适合的章节。通过上述实施方式,可通过上下文推演出一个较为合适的章节,并只需利用已有的相似度结果和已建立好的前后章节关联关系即可得出,无需大量的训练数据,计算过程较为简单,所需的计算资源也较少。
操作2130,使用自然语言处理模型对K个章节进行端到端的评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
则是在无法通过上述步骤确定一个前序章节或后序章节时,所采取的替代方案,即在全文中都找不到前序章节或后序章节时使用自然语言处理模型进行端到端的评分。例如,使用隐马尔可夫模型(Hidden Markov model,HMM)进行建模,进而使用Viterbi算法进行解码运算,来计算最优的匹配结果,得到最优的章节。
该方法也可以直接在确定了若干个备选章节之后直接使用,如图3所示的另一实施例。参考图3,本发明实施例从电子病历中提取结构化信息的方法,至少包括如下操作流程:
操作301,获取待提取结构化信息的电子病历,结构化信息包括关键词和关键词所属的章节;
操作302,从电子病历中提取关键词;
操作303,从关键词中确定出未知关键词;
操作304,计算每个未知关键词与已知关键词的相似度,并根据相似度从大到小的排序确定出与未知关键词最为相似的L个已知关键词;
操作305,获取每个已知关键词所属的章节得到与相应的未知关键词关联的K个章节,其中K小于等于L;
操作306,使用自然语言处理模型对K个章节进行端到端的评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
其中,上述操作均已在前文进行了详细描述,故在此不再赘述。
在这一实施例中,使用自然语言处理模型进行端到端的评分,可利用自然语言处理模型的强大学习能力从大量的训练数据中学习到未知关键词与各个章节之间的内在联系,随之数据的不断丰富和通过应用结果进行反馈,可不断修正模型精度,从而可以达到一个较高的准确度。
综上所述,本发明实施例从电子病历中提取结构化信息的方法,通过上述操作可以提取到未知的关键词,并确定出未知关键词所属的章节,即使现有医学词典或知识库中所收录的关键词不够,也可以获取到足够的结构化信息以用于后续的分析和统计等;此外,通过上述方法确定的未知关键词和未知关键词所对应的章节,还可以存入现有医学词典或知识库对或知识库进行不断扩充,从而弥补了医学词典和医学知识中收录的内容有限,无法准确识别出电子病历中所包含的未知关键词及其章节而造成信息遗漏或缺失。
同理,基于上文一种从电子病历中提取结构化信息的方法,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如上所述的操作步骤。
进一步,基于上文一种从电子病历中提取结构化信息的方法,本发明实施例还提供一种从电子病历中提取结构化信息的装置,如图4所述,该装置40包括:电子病历获取模块401,用于获取待提取结构化信息的电子病历,结构化信息包括关键词和关键词所属的章节;关键词提取模块402,用于从电子病历中提取关键词;未知关键词确定模块403,用于从关键词中确定出未知关键词以及与每个未知关键词关联的K个章节,其中K为大于等于1的整数;归属章节确定模块404,用于对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明实施例一实施方式,未知关键词确定模块403包括:位置关键词确定子模块,用于从关键词中确定出未知关键词;相似度计算子模块,用于计算每个未知关键词与已知关键词的相似度,并根据相似度从大到小的排序确定出与未知关键词最为相似的L个已知关键词;章节获取子模块,用于获取每个已知关键词所属的章节得到与相应的未知关键词关联的K个章节,其中K小于等于L。
根据本发明实施例一实施方式,归属章节确定模块404包括:关联度确定子模块,用于确定每个章节对应的关联度;相似度确定子模块,用于确定每个章节对应的相似度;评分子模块,用于根据所述关联度和相似度,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
根据本发明实施例一实施方式,关联度确定子模块包括:关联章节确定单元,用于确定相应的未知关键词的前序章节或后序章节;关联度确定单元,用于根据前序章节或后续章节以及预先建立的前后章节的关联关系和关联关系的概率,确定每个章节对应的关联度。
根据本发明实施例一实施方式,关联章节确定单元具体用于根据未知关键词之前的已知关键词确定前序章节,或根据未知关键词之后的已知关键词确定后序章节。
根据本发明实施例一实施方式,关联章节确定单元具体用于根据第一未知关键词的前序章节或后序章节确定第二未知关键词的前序章节或后续章节。
根据本发明实施例一实施方式,在根据前序章节或后续章节以及预先建立的前后章节的关联关系和关联关系的概率之前,该方法还包括:根据章节相关的统计数据确定前后章节的关联关系和关联关系的概率。
根据本发明实施例一实施方式,归属章节确定模块404具体用于使用自然语言处理模型对K个章节进行端到端的评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
这里需要指出的是:以上对针对一种从电子病历中提取结构化信息的装置实施例的描述和对计算机可读存储介质实施例的描述,与前述图1至3所示的方法实施例的描述是类似的,具有同前述图1至3所示的方法实施例相似的有益效果,因此不做赘述。对于本发明一种从电子病历中提取结构化信息的装置实施例和对计算机可读存储介质实施例中未披露的技术细节,请参照本发明前述图1至3所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种从电子病历中提取结构化信息的方法,其特征在于,所述方法包括:
获取待提取结构化信息的电子病历,所述结构化信息包括关键词和关键词所属的章节;
从所述电子病历中提取关键词;
从所述关键词中确定出未知关键词;
基于每个未知关键词与已知关键词的相似度确定出与所述未知关键词最为相似的L个已知关键词;
将每个已知关键词所属的章节作为与相应的未知关键词关联的K个章节,其中L和K均为大于等于1的整数;
确定相应的未知关键词的前序章节或后序章节;
根据所述前序章节或后续章节以及预先建立的前后章节的关联关系和所述关联关系的概率,确定每个章节对应的关联度;
根据与未知关键词之间的相似度,确定每个章节对应的相似度;
根据所述关联度和所述相似度,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
2.根据权利要求1所述的方法,其特征在于,所述确定相应的未知关键词的前序章节或后序章节,包括:
根据未知关键词之前的已知关键词确定前序章节,或
根据未知关键词之后的已知关键词确定后序章节。
3.根据权利要求1所述的方法,其特征在于,所述确定相应的未知关键词的前序章节或后序章节,包括:
根据第一未知关键词的前序章节或后序章节确定第二未知关键词的前序章节或后续章节。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述前序章节或后续章节以及预先建立的前后章节的关联关系和所述关联关系的概率之前,所述方法还包括:
根据章节相关的统计数据确定前后章节的关联关系和所述关联关系的概率。
5.根据权利要求1所述的方法,其特征在于,对所述K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节,包括:
使用自然语言处理模型对K个章节进行端到端的评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
6.一种从电子病历中提取结构化信息的装置,其特征在于,该装置包括:
电子病历获取模块,用于获取待提取结构化信息的电子病历,所述结构化信息包括关键词和关键词所属的章节;
关键词提取模块,用于从所述电子病历中提取关键词;
未知关键词确定模块,用于从所述关键词中确定出未知关键词;
归属章节确定模块,用于基于每个未知关键词与已知关键词的相似度确定出与所述未知关键词最为相似的L个已知关键词;将每个已知关键词所属的章节作为与相应的未知关键词关联的K个章节,其中L和K均为大于等于1的整数;确定相应的未知关键词的前序章节或后序章节;根据所述前序章节或后续章节以及预先建立的前后章节的关联关系和所述关联关系的概率,确定每个章节对应的关联度;根据与未知关键词之间的相似度,确定每个章节对应的相似度;根据所述关联度和所述相似度,对K个章节进行评分并将评分超过阈值的章节确定为相应的未知关键词所属的章节。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599792.0A CN112700830B (zh) | 2020-12-30 | 2020-12-30 | 从电子病历中提取结构化信息的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599792.0A CN112700830B (zh) | 2020-12-30 | 2020-12-30 | 从电子病历中提取结构化信息的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112700830A CN112700830A (zh) | 2021-04-23 |
CN112700830B true CN112700830B (zh) | 2023-03-24 |
Family
ID=75512119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011599792.0A Active CN112700830B (zh) | 2020-12-30 | 2020-12-30 | 从电子病历中提取结构化信息的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700830B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309886B (zh) * | 2012-03-13 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 一种基于交易平台的结构化信息搜索方法和装置 |
US10602215B1 (en) * | 2018-12-17 | 2020-03-24 | Rovi Guides, Inc. | Systems and methods for recording relevant portions of a media asset |
CN111046131B (zh) * | 2019-12-27 | 2023-09-26 | 杭州依图医疗技术有限公司 | 一种文档处理方法及装置 |
CN111863267B (zh) * | 2020-07-08 | 2024-01-26 | 首都医科大学附属北京天坛医院 | 数据信息获取方法、数据分析方法、装置以及存储介质 |
-
2020
- 2020-12-30 CN CN202011599792.0A patent/CN112700830B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112700830A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
Pomikálek | Removing boilerplate and duplicate content from web corpora | |
CN107341264B (zh) | 一种支持自定义实体的电子病历检索系统及方法 | |
US7231388B2 (en) | Similar document retrieving method and system | |
CN107818815B (zh) | 电子病历的检索方法及系统 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
JP5010885B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN111027323A (zh) | 一种基于主题模型和语义分析的实体指称项识别方法 | |
CN108427702B (zh) | 目标文档获取方法及应用服务器 | |
CN115983233B (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CA3061826A1 (en) | Computerized methods of data compression and analysis | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN101248433B (zh) | 具有签名产生及关联性检测的匹配引擎 | |
CN117131383A (zh) | 一种提高双塔模型搜索精排性能的方法 | |
CN112700830B (zh) | 从电子病历中提取结构化信息的方法、装置及存储介质 | |
CN110941713B (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN113157946B (zh) | 实体链接方法、装置、电子设备及存储介质 | |
CN115796146A (zh) | 一种文件对比方法及装置 | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN111341404B (zh) | 一种基于ernie模型的电子病历数据组解析方法及系统 | |
JP5214985B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
CN118569254B (zh) | 基于nlp的公文数据采集分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |