CN112749277B - 医学数据的处理方法、装置及存储介质 - Google Patents
医学数据的处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112749277B CN112749277B CN202011604357.2A CN202011604357A CN112749277B CN 112749277 B CN112749277 B CN 112749277B CN 202011604357 A CN202011604357 A CN 202011604357A CN 112749277 B CN112749277 B CN 112749277B
- Authority
- CN
- China
- Prior art keywords
- disease information
- medical data
- standard
- disease
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本公开涉及医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,处理方法包括获取原始医学数据,所述原始医学数据包含疾病信息;基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;解析所述中间医学数据,通过归一化处理得到目标医学数据。处理装置包括获取单元;解析模块;匹配模块;处理模块。通过本公开的各实施例,能够准确地实现同一疾病概念的不同表达归一化表达。
Description
技术领域
本公开涉及医学数据智能处理技术领域,具体涉及一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质。
背景技术
目前,在书写病历的时候针对的医学数据以及疾病信息,对诊断的疾病名称会有多种多样的写法,不同医院的不同医生对同一种疾病的描述方式多种多样,甚至于形式完全不同。因此,针对繁杂、细节多元化的疾病信息,在相应的医学数据处理过程中需要考虑将同一概念的医学数据的不同表达进行统一化处理。
发明内容
本公开意图提供一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,能够准确地实现同一疾病概念的不同表达归一化表达。
根据本公开的方案之一,提供一种医学数据的处理方法,包括:
获取原始医学数据,所述原始医学数据包含疾病信息;
基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;
根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;
解析所述中间医学数据,通过归一化处理得到目标医学数据。
在一些实施例中,其中,当所述原始医学数据包含至少M个疾病信息,且M≥2的情况下,所述基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息,包括:
基于分句方式,从M个疾病信息中解析出N个第一疾病信息。
在一些实施例中,其中,所述基于分句方式,包括基于深度学习训练的分句模型;
所述深度学习训练的分句模型的构建方式,包括:
提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
在一些实施例中,其中,所述基于分句方式,包括:
根据医学数据所包含的特定标识进行分句,所述特定标识包括标点符号。
在一些实施例中,其中,所述根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据,包括:
将每个第一疾病信息与每个标准疾病信息两两组合;
分别计算匹配度;
将匹配度满足预设条件的组合用于构建所述中间医学数据。
在一些实施例中,其中,所述解析所述中间医学数据,通过归一化处理得到目标医学数据,具体为通过神经网络分类模型实现,包括:
解析所述中间医学数据包含的每一组第一疾病信息与标准疾病信息;
基于神经网络分析每一组第一疾病信息与标准疾病信息是否对应;
输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果。
在一些实施例中,其中,所述输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果,包括:
以标准疾病信息的格式,表征第一疾病信息;
输出目标医学数据以更新原始医学数据。
根据本公开的方案之一,提供医学数据的处理装置,包括:
获取单元,其配置为用于获取原始医学数据,所述原始医学数据包含疾病信息;
解析模块,其配置为用于基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;
匹配模块,其配置为用于根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;
处理模块,其配置为用于解析所述中间医学数据,通过归一化处理得到目标医学数据。
在一些实施例中,其中,
所述处理模块,包括神经网络分类模型,其进一步配置为:
解析所述中间医学数据包含的每一组第一疾病信息与标准疾病信息;
基于神经网络分析每一组第一疾病信息与标准疾病信息是否对应;
输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果。
根据本公开的方案之一,提供计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,实现:
根据上述的医学数据的处理方法。
本公开的各种实施例的医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,通过获取原始医学数据,所述原始医学数据包含疾病信息;基于深度学习训练的分句模型,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;解析所述中间医学数据,通过归一化处理得到目标医学数据,从而能够根据原始输入的医学数据,对其进行分句处理,并通过匹配标准疾病信息,统一原始输入的医学数据,避免因为习惯或者规范的差异而造成的医学数据混乱、错误等情况发生。同时,通过归一化处理,对同一疾病概念的不同表达进行归一编码,精准、有效并且直观地向用户呈现归一化结果,提供疾病分析高度统一的医学数据,从而提升医学研究、医疗诊治的精确性和效率。
应当理解,前面的大体描述以及后续的详细描述只是示例性的和说明性的,并非对所要求保护的本公开的限制。
附图说明
在未必按照比例绘制的附图中,不同视图中相似的附图标记可以表示相似的构件。具有字母后缀的相似附图标记或具有不同字母后缀的相似附图标记可以表示相似构件的不同实例。附图通常作为示例而非限制地图示各种实施例,并且与说明书和权利要求书一起用于解释所公开的实施例。
图1示出本公开实施例涉及的医学数据的处理方法的一种流程图;
图2示出本公开实施例涉及的医学数据的处理装置的一种架构图;
图3示出本公开实施例涉及的ICD10标准表,其中以部分示出的方式以示例说明。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。
在书写电子病历的时候针对的医学数据以及疾病信息,涉及非常多的表达形式、书写内容,例如针对电子病历,疾病描述细节内容非常繁杂,也非常多样,不同医院的不同医生对同一种疾病的描述方式多种多样,甚至于形式完全不同。举例来说,针对肺癌,有些原始医学数据中会记录成“肺恶性肿瘤”,而有些医学数据中会记录成“肺CA”等等。面对这些情况,经过大量实际临床中出现的问题以及解决方案,考虑将包含疾病信息的医学数据进行统一表达,例如,针对病历进行归一处理。从临床角度考虑,需要把同一疾病诊断概念的不同表达进行归一编码。编码可以采用统一发布疾病信息分类编码,例如编码采用统一发布的《疾病分类与代码国家临床版2.0》,该编码体系是基于国际通用的ICD10扩充构建的。
作为方案之一,如图1所示,本公开的实施例提供了一种医学数据的处理方法,包括:
S101:获取原始医学数据,所述原始医学数据包含疾病信息;
S102:基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;
S103:根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;
S104:解析所述中间医学数据,通过归一化处理得到目标医学数据。
本公开的发明构思之一,旨在对来自于各种数据源的原始医学数据进行统一表达处理,通过这些医学数据所包含的疾病信息与标准疾病信息来确定相互之间对应关系的程度,从而来根据标准疾病信息对原始医学数据进行统一化表达处理。
本公开各实施例中的原始医学数据,其所属的数据源并不需要特别加以限定,可以是历史数据,也可以是当前实时的数据。从数据格式上,可以是病历文本数据、视频数据、音频数据等等,只要能够通过识别手段,例如文本识别(例如,NLP识别,OCR识别等方式)识别其中能够包含的疾病信息,语音识别、视频图像识别等方式识别其中记载的诊断内容、治疗内容等一些疾病信息,抑或是通过字符拆分、词句拆分等方式识别的疾病信息内容等。在一些实施例中,本公开的原始医学数据也可以是包含于病历、诊断书,这些数据可以是结构化数据,也可以是非结构化数据,针对非结构化数据只要对其进行包括结构化处理在内的手段,使其满足能够提取出相应的疾病信息即可作为本公开的处理对象。在病历处理的场景下,本公开实施例中的原始医学数据可以是用户通过交互界面、输入设备输入的病历记录等内容,其中包含有单独或者多个、多种疾病信息,例如用户输入包含有两条或者两条以上的诊断内容,疾病名称、用药记录、用药名称等数据中包含疾病信息。
本公开各实施例需要基于标准疾病信息予以实现,从而在基于分句方式的情况下,以标准疾病信息为指引,能够从原始疾病信息中解析出第一疾病信息。在一些实施例中,当本公开的所述原始医学数据包含至少M个疾病信息,且M≥2的情况下,所述基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息,包括:
基于分句方式,从M个疾病信息中解析出N个第一疾病信息。
本公开更关注于针对原始医学数据包含多个、多种原始疾病信息的情况,即至少针对M≥2的场景,从M个原始疾病信息中解析出N个第一疾病信息,根据原始医学数据所能够记载的疾病信息的实际情况,解析出来的第一疾病信息的数量N,从理论上可以等于M,可以小于M,当然在一些方面可以大于M,只要符合医学概念以及临床诊断意义即可。
在一些实施例中,本公开的所述基于分句方式,包括基于深度学习训练的分句模型;
所述深度学习训练的分句模型的构建方式,包括:
提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
具体的,本实施例的医学数据以记录多个、多种类,甚至于多科室,多部位下的疾病信息为例,疾病信息在这种情况无法通过规则方式完成分句,只存在特定场景下适用的规则,而场景的区分需要医学判断。因此,本实施例中可以采用分句模型进行分句操作。分句模型可以基于深度学习训练构建,具体可以通过由专业人工以疾病诊断金标准为基础标注一批数据,将原始的包含疾病名称的数据进行分句,得到数据二元组实例,二元组可以包括原始文本和分句后文本,例如形成“原始文本,一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量,例如一次或多次批量性、批次性或者是海量标注的二元组,即可训练本实施例的分句模型。本实施例汇中通过分句模型进行分句处理的优势,在于能够把一个长句子复杂的编码拆解成短句子,让每个短句去进行编码。这样句子的复杂度降低,算法学习起来就相对容易,使得下游的算法模块可以获得高性能。
在一些实施例中,本公开的所述对这些医学数据进行分句,包括:
根据医学数据所包含的特定标识进行分句,所述特定标识包括标点符号。
本公开的发明构思之一旨在根据标点符号进行分句,针对包含疾病信息的数据处理,其中语义明确,表征的疾病信息清楚,通过整句从形式上分句就能够达到非常高效的目的,且准确率也非常高。因此,本公开各实施例中,针对分句处理并非以通过分句模型处理为唯一目的。
针对输入为“室性早搏;陈旧性心肌梗死;肝囊肿;甲状腺结节;胆总管增宽;慢性浅表性胃炎伴窦散在糜烂;二尖瓣轻度关闭不全;高血压病3级”,在标注分句过程中,认为这一段表征各种类型疾病信息的医学数据中,以“;”号作为这一段疾病数据的特定标识对疾病信息进行了分隔,其中体现出来的疾病信息有“疾病信息:室性早搏;陈旧性心肌梗死;肝囊肿;甲状腺结节;胆总管增宽;慢性浅表性胃炎伴窦散在糜烂;二尖瓣轻度关闭不全;高血压病3级”。
在其他一些场景中,会涉及到疾病信息通过其他符号,例如“+”符号分隔,在这一类输入的疾病数据中,可以基于医学上对于疾病诊断概念考虑是否需要跨加号“+”延续的信息,从医学诊断角度分析,每个加号前后都是独立、完整的疾病名称,可以通过分句缩短句子的长度。
在本实施例中,分句结果可以认为是分成如下分句对象:
“1.室性早搏
2.陈旧性心肌梗死
3.肝囊肿
4.甲状腺结节
5.胆总管增宽
6.慢性浅表性胃炎伴窦散在糜烂
7.二尖瓣轻度关闭不全
8.高血压病3级”
此外,本公开在一些实施例中并不排除针对相关联的疾病信息的语义处理模式。例如,在针对这些医学数据进行分句的过程中,可以包括:
解析医学数据包含的疾病信息;
根据疾病信息的语义,确定出存在关联关系的疾病信息;
基于存在关联关系的疾病信息,确定分句对象。
具体的,由于疾病信息的记录和书写,会出现习惯性书写或者简写的情况,导致数据中包含的疾病信息前后存在关联,但是从字面上又显现为存在分隔形式,由此难以判断其中包含的准确疾病信息。本实施例通过解析出疾病信息中各部分的疾病信息的语义,提取这些疾病信息在医学概念上的表征内容,根据所有表征内容判断其中是否存在关联关系,例如疾病信息1和疾病信息2是否存在相互包含的关系,又如疾病信息1至疾病信息n之间是否存在共用信息,再如疾病信息1至疾病信息x之间是否存在相悖信息等。在基于例如规则分句等情况下,面对包含例如“+”这一类分句标识的情况下,本实施例可以结合医学概念,根据疾病信息的语义,确定出存在关联关系的疾病信息,确定出符合信息完整、准确的分句对象。
作为优选的方案,本公开的所述根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据,包括:
将每个第一疾病信息与每个标准疾病信息两两组合;
分别计算匹配度;
将匹配度满足预设条件的组合用于构建所述中间医学数据。
具体的,本实施例的标准疾病信息可以通过ICD-10标准表得到,如图3所示出部分的ICD-10标准表,以示出ICD-10标准表能够详细标定疾病信息以及给出了相应的疾病编码。
针对原始医学数据中包含的第一疾病信息,优选的,可以是通过本公开各实施例深度学习训练的分句模型分句后的多个第一疾病信息,将每个分句,也就是每个第一疾病信息和ICD-10标准表中标准疾病信息,或者称为标准词进行两两组合。
继续结合上述示例,例如,经过分句后的分句对象:
“1.室性早搏
2.陈旧性心肌梗死
3.肝囊肿
4.甲状腺结节
5.胆总管增宽
6.慢性浅表性胃炎伴窦散在糜烂
7.二尖瓣轻度关闭不全
8.高血压病3级”
将每一条分句与ICD-10标准表每个标准词两两组合,例如以“室性早搏,舌下神经良性肿瘤”等这样的形式组合。对每一个这样形式的组合计算匹配度,对匹配度低于预先设定阈值的组合,将其舍弃,不作为数据归一化对象。对匹配度满足预先设定阈值的组合,将其认为可能属于同一疾病诊断概念,作为待选的归一化对象。
具体的,本实施例中匹配度的确定方式,可以基于分句和标准词各自所包含的字数进行计算,例如通过两者之间交集的字数以及两者并集的字数来计算匹配度,或者称为两者的相似度。举例来说,分句结果为“室性早搏,”,经过两两组合后的一个标准词为“室性期前收缩”,两者的交集是“室性”,其字数是2个字,两者的并集为两个字符串的长度求和减去交集字数:4+6-2=8,因此这一两两组合对的相似度为“4/8”。
在此基础上,将这些待选对象构建为本实施例的中间医学数据,例如:
“1.(室性早搏,室性期前收缩I49.300×002)
2.(室性早搏,房性期前收缩[房性早搏]I49.100×001)
3.(室性早搏,室性自搏I49.302)
4.(室性早搏,室性逸搏I49.800×016)
5.……”。
通过上述过程,实现待选(candidate)生成,通过简单的方法,把疑似可能会匹配在一起的标准词给筛选出来,这样下游的算法模型就可以少计算一些匹配对,从而使得整个系统的计算时间大幅降低。如果不通过这个方案进行筛选的话,以具体实例来说,假设:每个分句要与标准表中3万多个标准词进行配对,下游算法模型需要计算3万多个匹配对。而通过引入上述candidate生成过程以后,每个分句只需要和数十个到数百个标准词进行配对就行,成100倍的降低的计算时间。可以认为,基于上述构建本公开各实施例中的中间医学数据过程,本公开的目标至少旨在即使可能发生错误的情况,也不漏失匹配对象。
作为进一步的实施方式,本公开的所述解析所述中间医学数据,通过归一化处理得到目标医学数据,具体为通过神经网络分类模型实现,包括:
解析所述中间医学数据包含的每一组第一疾病信息与标准疾病信息;
基于神经网络分析每一组第一疾病信息与标准疾病信息是否对应;
输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果。
具体的,继续结合上述示例,本公开可以构建神经网络分类模型,配置相应的架构以及神经元个数等方式,对中间医学数据进行解析以及归一化处理。
继续以上述示例说明,针对例如形式为
“1.(室性早搏,室性期前收缩I49.300×002)
2.(室性早搏,房性期前收缩[房性早搏]I49.100×001)
3.(室性早搏,室性自搏I49.302)
4.(室性早搏,室性逸搏I49.800×016)
5.……”。
这样的中间医学数据,对其中每一组信息进行分类,判断来自于原始的原始医学数据和从标准信息表中筛选出来的标准词是否属于同一概念。如果神经网络分类模型认为两者属于同一医学概念,则神经网络分类模型输出相应的结果,例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于同一医学概念,则神经网络分类模型输出相应的结果,例如输出“0”以表征否定结论。
在本公开的多种实施例中,可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的,可以采集大规模的医疗预料数据,数据来源包括但不限于:各医疗结构的病历数据、各医学研究机构的医学数据、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中,可以构建预训练模型对采集的大规模医疗预料数据进行预训练,从而让模型从大规模的数据中学习各种医学知识,在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于:BERT模型、XLNET模型、roBERTa等模型。
再具体到本公开各实施例的神经网络分类模型,结合前述内容实现完成最终的分类,判断原始医学数据和待选标准词是不是表征同一个疾病诊断概念。如果采用本公开实施例的预训练模型,那么本实施例中的神经网络分类模型基本上和预训练模型可以是一致的,需要用预训练的模型来初始化本实施例的神经网络分类模型。如果在不采用预训练模型的情况下,本实施例的神经网络分类模型则可以使用任何其他的分类模型,包括但不限于:CNN、LSTM、transformer等模型。
进一步的,本公开的所述输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果,包括:
以标准疾病信息的格式,表征第一疾病信息;
输出目标医学数据以更新原始医学数据。
具体的,继续结合上述内容,在本实施例的神经网络分类模型输出相应的结果基础上,针对输出结果为肯定结论的组合,本实施例可以提取ICD-10标准表中的疾病名称以及疾病编码,对原始输入的疾病数据进行统一化表达处理。针对上述原始输入的“疾病信息:室性早搏;陈旧性心肌梗死;肝囊肿;甲状腺结节;胆总管增宽;慢性浅表性胃炎伴窦散在糜烂;二尖瓣轻度关闭不全;高血压病3级”,本实施例从ICD-10标准表中提取“疾病编码疾病名称”对这些信息分别进行更新,表现为输出目标医学数据:
“1.室性期前收缩I49.300×002
2.陈旧性心肌梗死I25.200
3.肝囊肿K76.807
4.甲状腺结节E04.101
5.胆总管扩张K83.817
6.慢性浅表性胃炎K29.300
7.糜烂性胃炎K29.603
8.二尖瓣轻度关闭不全I34.000
9.高血压3级I10.×05”
对照于原始输入的疾病数据,可以直观看到,目标数据相比与原始数据,以标准词和标准编码的方式对原数据中“胃炎”这类疾病的描述,更加精确。通过本实施例输出的目标医学数据,完整、详细地依照统一化表达方式对医学数据进行了标准化。
作为本公开的方案之一,如图2所示,本公开还提供了一种医学数据的处理装置,包括:
获取单元,其配置为用于获取原始医学数据,所述原始医学数据包含疾病信息;
解析模块,其配置为用于基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;
匹配模块,其配置为用于根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;
处理模块,其配置为用于解析所述中间医学数据,通过归一化处理得到目标医学数据。
在一些实施例中,本公开的获取单元,可以为输入设备、屏幕截取装置、文本识别装置等,旨在实现能够获取包含有第一疾病信息的医学数据。
在一些实施例中,本公开的解析模块,可以进一步配置为:当所述原始医学数据包含至少M个疾病信息,且M≥2的情况下,所述基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息,包括:
基于分句方式,从M个疾病信息中解析出N个第一疾病信息。
在一些实施例中,本公开的解析模块可以基于深度学习训练的分句模型实现相应的解析过程,深度学习训练的分句模型,可以是:通过由专业人工以疾病金标准为基础标注一批数据,将原始的包含疾病名称的数据进行分句,得到数据二元组实例,二元组可以包括原始文本和分句后文本,例如形成“原始文本,一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量,例如一次或多次批量性、批次性或者是海量标注的二元组,即可训练本实施例的分句模型。
在一些实施例中,本公开的处理模块,可以具体配置为:
所述处理模块,包括神经网络分类模型,其进一步配置为:
解析所述中间医学数据包含的每一组第一疾病信息与标准疾病信息;
基于神经网络分析每一组第一疾病信息与标准疾病信息是否对应;
输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果,并且还可以
以标准疾病信息的格式,表征第一疾病信息;
输出目标医学数据以更新原始医学数据。
具体来说,本公开的发明构思之一,旨在通过获取原始医学数据,所述原始医学数据包含疾病信息;基于深度学习训练的分句模型,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;解析所述中间医学数据,通过归一化处理得到目标医学数据,从而能够根据原始输入的医学数据,对其进行分句处理,并通过匹配标准疾病信息,统一原始输入的医学数据,避免因为习惯或者规范的差异而造成的医学数据混乱、错误等情况发生。同时,通过归一化处理,对同一疾病概念的不同表达进行归一编码,精准、有效并且直观地向用户呈现归一化结果,提供疾病分析高度统一的医学数据,从而提升医学研究、医疗诊治的精确性和效率。
作为本公开的方案之一,本公开还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,主要实现根据上述的医学数据的处理方法,至少包括:
获取原始医学数据,所述原始医学数据包含疾病信息;
基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;
根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据;
解析所述中间医学数据,通过归一化处理得到目标医学数据。
作为本公开的方案之一,本公开还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,主要实现根据上述的深度学习训练的分句模型的构建方式,至少包括:
批量提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
在一些实施例中,执行算机可执行指令处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。
在一些实施例中,计算机可读存储介质可以为存储器,诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备,或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。
在一些实施例中,计算机可执行指令可以实现为多个程序模块,多个程序模块共同实现根据本公开中任何一项所述的医学影像的显示方法。
本公开描述了各种操作或功能,其可以实现为软件代码或指令或者定义为软件代码或指令。显示单元可以实现为在存储器上存储的软件代码或指令模块,其由处理器执行时可以实现相应的步骤和方法。
这样的内容可以是可以直接执行(“对象”或“可执行”形式)的源代码或差分代码(“delta”或“patch”代码)。这里描述的实施例的软件实现可以通过其上存储有代码或指令的制品提供,或者通过操作通信接口以通过通信接口发送数据的方法提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作,并且包括以可由机器(例如,计算显示设备、电子系统等)访问的形式存储信息的任何机制,例如可记录/不可记录介质(例如,只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存显示设备等)。通信接口包括与硬连线、无线、光学等介质中的任何一种接口以与其他显示设备通信的任何机制,例如存储器总线接口、处理器总线接口、因特网连接、磁盘控制器等。通信接口可以通过提供配置参数和/或发送信号来配置以准备通信接口,以提供描述软件内容的数据信号。可以通过向通信接口发送一个或多个命令或信号来访问通信接口。
本公开的实施例的计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。可以用这类组件或模块的任何数量和组合来实现本公开的各方面。例如,本公开的各方面不限于附图中示出的和本文描述的特定的计算机可执行指令或特定组件或模块。其他实施例可以包括具有比本文所示出和描述的更多或更少功能的不同的计算机可执行指令或组件。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本公开的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本公开的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上实施例仅为本公开的示例性实施例,不用于限制本公开,本公开的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内,对本公开做出各种修改或等同替换,这种修改或等同替换也应视为落在本公开的保护范围内。
Claims (8)
1.医学数据的处理方法,包括:
获取原始医学数据,所述原始医学数据包含疾病信息;
基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;对于相关联的疾病信息,根据疾病信息的语义,确定出存在关联关系的疾病信息,基于存在关联关系的疾病信息,确定分句对象;
根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据,所述中间医学数据表示为由一条第一疾病信息和一条标准疾病信息组成的二元组;
解析所述中间医学数据,通过归一化处理得到目标医学数据,包括:解析所述中间医学数据包含的每一组第一疾病信息与标准疾病信息;基于神经网络分析每一组第一疾病信息与标准疾病信息是否对应;输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果。
2.根据权利要求1所述的方法,其中,当所述原始医学数据包含至少M个疾病信息,且M≥2的情况下,所述基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息,包括:
基于分句方式,从M个疾病信息中解析出N个第一疾病信息。
3.根据权利要求2所述的方法,其中,所述基于分句方式,包括基于深度学习训练的分句模型;
所述深度学习训练的分句模型的构建方式,包括:
提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
4.根据权利要求1至3中任一项所述的方法,其中,所述基于分句方式,包括:
根据医学数据所包含的特定标识进行分句,所述特定标识包括标点符号。
5.根据权利要求1所述的方法,其中,所述根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据,包括:
将每个第一疾病信息与每个标准疾病信息两两组合;
分别计算匹配度;
将匹配度满足预设条件的组合用于构建所述中间医学数据。
6.根据权利要求1所述的方法,其中,所述输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果,包括:
以标准疾病信息的格式,表征第一疾病信息;
输出目标医学数据以更新原始医学数据。
7.医学数据的处理装置,包括:
获取单元,其配置为用于获取原始医学数据,所述原始医学数据包含疾病信息;
解析模块,其配置为用于基于分句方式,从所述原始医学数据包含的疾病信息中解析出第一疾病信息;对于相关联的疾病信息,根据疾病信息的语义,确定出存在关联关系的疾病信息,基于存在关联关系的疾病信息,确定分句对象;
匹配模块,其配置为用于根据所述第一疾病信息与标准疾病信息的匹配结果,得到中间医学数据,所述中间医学数据表示为由一条第一疾病信息和一条标准疾病信息组成的二元组;
处理模块,其配置为用于解析所述中间医学数据,通过归一化处理得到目标医学数据,包括:解析所述中间医学数据包含的每一组第一疾病信息与标准疾病信息;基于神经网络分析每一组第一疾病信息与标准疾病信息是否对应;输出分析结果,将对应的第一疾病信息与标准疾病信息作为归一化结果。
8.一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,实现:
根据权利要求1至6任一项所述的医学数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604357.2A CN112749277B (zh) | 2020-12-30 | 2020-12-30 | 医学数据的处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604357.2A CN112749277B (zh) | 2020-12-30 | 2020-12-30 | 医学数据的处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749277A CN112749277A (zh) | 2021-05-04 |
CN112749277B true CN112749277B (zh) | 2023-08-04 |
Family
ID=75647199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011604357.2A Active CN112749277B (zh) | 2020-12-30 | 2020-12-30 | 医学数据的处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749277B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362918A (zh) * | 2021-06-02 | 2021-09-07 | 复旦大学附属肿瘤医院 | 一种医学数据的处理方法、系统及其存储介质 |
CN115631868B (zh) * | 2022-11-17 | 2023-04-21 | 神州医疗科技股份有限公司 | 一种基于提示学习模型的传染病预警直报方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472021A (zh) * | 2018-10-12 | 2019-03-15 | 北京诺道认知医学科技有限公司 | 基于深度学习的医学文献中关键句筛选方法及装置 |
CN109670177A (zh) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | 一种基于lstm实现医学语义归一化的控制方法及控制装置 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110263169A (zh) * | 2019-03-27 | 2019-09-20 | 青岛大学 | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 |
JP2019212034A (ja) * | 2018-06-05 | 2019-12-12 | 株式会社日立製作所 | 分析方法、分析装置及びプログラム |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
CN110688493A (zh) * | 2019-09-26 | 2020-01-14 | 京东方科技集团股份有限公司 | 一种关联关系构建方法、装置及电子设备 |
CN111445968A (zh) * | 2020-03-16 | 2020-07-24 | 平安国际智慧城市科技股份有限公司 | 电子病历查询方法、装置、计算机设备和存储介质 |
CN111767410A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 临床医疗知识图谱的构建方法、装置、设备及存储介质 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
JP2020180954A (ja) * | 2019-04-26 | 2020-11-05 | 学校法人順天堂 | 疾患解析を支援する方法、装置、及びコンピュータプログラム、並びにコンピュータアルゴリズムを訓練する方法、装置、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11670420B2 (en) * | 2017-04-12 | 2023-06-06 | Koninklijke Philips N.V. | Drawing conclusions from free form texts with deep reinforcement learning |
CN110021439B (zh) * | 2019-03-07 | 2023-01-24 | 平安科技(深圳)有限公司 | 基于机器学习的医疗数据分类方法、装置和计算机设备 |
-
2020
- 2020-12-30 CN CN202011604357.2A patent/CN112749277B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
JP2019212034A (ja) * | 2018-06-05 | 2019-12-12 | 株式会社日立製作所 | 分析方法、分析装置及びプログラム |
CN109472021A (zh) * | 2018-10-12 | 2019-03-15 | 北京诺道认知医学科技有限公司 | 基于深度学习的医学文献中关键句筛选方法及装置 |
CN109670177A (zh) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | 一种基于lstm实现医学语义归一化的控制方法及控制装置 |
CN110263169A (zh) * | 2019-03-27 | 2019-09-20 | 青岛大学 | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
JP2020180954A (ja) * | 2019-04-26 | 2020-11-05 | 学校法人順天堂 | 疾患解析を支援する方法、装置、及びコンピュータプログラム、並びにコンピュータアルゴリズムを訓練する方法、装置、及びプログラム |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
CN110688493A (zh) * | 2019-09-26 | 2020-01-14 | 京东方科技集团股份有限公司 | 一种关联关系构建方法、装置及电子设备 |
CN111445968A (zh) * | 2020-03-16 | 2020-07-24 | 平安国际智慧城市科技股份有限公司 | 电子病历查询方法、装置、计算机设备和存储介质 |
CN111767410A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 临床医疗知识图谱的构建方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
语义文本相似度计算方法;韩程程,李磊,刘婷婷,高明;《华东师范大学学报(自然科学版)》;20200925;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749277A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
CN110162786B (zh) | 构建配置文件以及抽取结构化信息的方法、装置 | |
WO2021046536A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
CN110609910B (zh) | 医学知识图谱构建方法及装置、存储介质和电子设备 | |
CN112749277B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN112735544A (zh) | 病历数据的处理方法、装置及存储介质 | |
Wadud et al. | Non-autoregressive end-to-end neural modeling for automatic pronunciation error detection | |
Nguyen et al. | Openvivqa: Task, dataset, and multimodal fusion models for visual question answering in vietnamese | |
CN112735545A (zh) | 自训练方法、模型、处理方法、装置及存储介质 | |
CN116842953A (zh) | 一种基于提示多模型协同的零样本关系抽取方法 | |
CN111063445A (zh) | 基于医疗数据的特征提取方法及装置、设备和介质 | |
CN112735543A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN114492386A (zh) | 网络文本中药物名称及药物不良反应的联合检测方法 | |
CN112712868A (zh) | 医学数据的分析方法、装置及存储介质 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112115719A (zh) | 基于多头注意力机制的中医医案命名实体识别方法及系统 | |
Xie et al. | Enhancing multimodal deep representation learning by fixed model reuse | |
CN112700825B (zh) | 医学数据的处理方法、装置及存储介质 | |
Al-Saadawi et al. | TER-CA-WGNN: Trimodel Emotion Recognition Using Cumulative Attribute-Weighted Graph Neural Network | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN112749545A (zh) | 医学数据的处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |