CN111063446B - 用于标准化医疗文本数据的方法、装置、设备及存储介质 - Google Patents
用于标准化医疗文本数据的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111063446B CN111063446B CN201911299358.8A CN201911299358A CN111063446B CN 111063446 B CN111063446 B CN 111063446B CN 201911299358 A CN201911299358 A CN 201911299358A CN 111063446 B CN111063446 B CN 111063446B
- Authority
- CN
- China
- Prior art keywords
- data
- structured
- medical text
- text data
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开提供了一种用于标准化医疗文本数据的方法、装置、设备及存储介质。该方法包括:获取待标准化的医疗文本数据;基于预先建立的属性词词库,对医疗文本数据进行切词;基于医疗文本数据的切词结果,生成与医疗文本数据对应的第一结构化数据;基于第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与第一结构化数据匹配的至少一个结构化标注数据;分别确定至少一个结构化标注数据的分级信息;以及基于分级信息,从至少一个结构化标注数据中,筛选出结构化标注数据,作为医疗文本数据的标准化数据。该方法可以将医疗文本数据转化为标准化数据,进而可以将其映射到相应的医学标准表体系中。
Description
技术领域
本公开涉及计算机应用技术领域技术领域,尤其涉及一种用于标准化医疗文本数据的方法、装置、设备及存储介质。
背景技术
医疗原始数据通常来源于无规范的临床书写,很难将其映射到相应医学标准表体系中,如ICD10(International Classification of Diseases,国际疾病分类)标准表、MedDRA(Medical Dictionary for Regulatory Activities,监管活动医学词典)标准表等。
为了将其映射到相应标准表体系中,以用于后续诸如大数据挖掘等操作,需要将原始的医疗文本数据进行标准化处理,从而便于将其映射到相应标准表体系中。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种用于标准化医疗文本数据的方法、装置、设备及存储介质。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种用于标准化医疗文本数据的方法,包括:获取待标准化的医疗文本数据;基于预先建立的属性词词库,通过切词模型,对所述医疗文本数据进行切词;基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据;基于所述第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与所述第一结构化数据匹配的至少一个结构化标注数据;分别确定所述至少一个结构化标注数据的分级信息;以及基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据;其中,所述第一结构化数据包含所述属性词词库中的属性词;其中,所述属性词词库中的属性词包含医学标准词。
在本公开一个实施例中,所述方法还包括:基于所述属性词词库,通过所述切词模型,对预先获取的标注数据进行切词;基于所述标注数据的切词结果,对所述标注数据进行结构化处理,生成与所述标注数据对应的结构化标注数据;以及基于所述结构化标注数据,建立所述结构化标注数据索引;其中,所述结构化标注数据包含所述属性词词库中的属性词,且所述结构化标注数据包含至少一个结构体数据。
在本公开一个实施例中,分别确定所述至少一个结构化标注数据的分级信息包括:基于与所述第一结构化数据的结构化匹配度,分别确定所述至少一个结构化标注数据的第一分数;基于与所述第一结构化数据中各属性词的文本相似程度,分别确定所述至少一个结构化标注数据的第二分数;以及分别根据所述第一分数、所述第二分数,确定所述至少一个结构化标注数据的分级信息。
在本公开一个实施例中,基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据包括:去除所述至少一个结构化标注数据中重复的结构化标注数据;基于预设的条件,对去除了重复的结构化标注数据进行筛选;去除筛选出的结构化标注数据中重复的医学标准词;以及以去除了重复的医学标准词的结果,作为所述医疗文本数据的标准化数据输出;其中,所述条件是基于各结构化标注数据的分级信息和/或各结构化标注数据中包含的医学标准词的个数建立的。
在本公开一个实施例中,所述结构化匹配度基于各属性类型的权重比例确定。
在本公开一个实施例中,所述文本相似程度基于余弦相似度算法确定或者基于相似性度量方式确定。
在本公开一个实施例中,所述方法还包括:基于各医疗文本数据的标准化数据包含的医学标准词,对各标准化数据进行分类,确定各标准化数据的类型;依据各医疗文本数据的分词结果,对各医疗文本数据进行聚类,确定各医疗文本数据的类型;从各类型的医疗文本数据中抽样出待确认的医疗文本数据;获取待确认的医疗文本数据与对应类型的标准化数据的确认结果;以及基于所述确认结果,确定所述标准化数据的准确率。
根据本公开的另一个方面,提供一种用于标准化医疗文本数据的装置,包括:医疗数据获取模块,用于获取待标准化的医疗文本数据;医疗数据切词模块,用于基于预先建立的属性词词库,通过切词模型,对所述医疗文本数据进行切词;数据结构化模块,用于基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据;标注数据查找模块,用于基于所述第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与所述第一结构化数据匹配的至少一个结构化标注数据;分级信息确定模块,用于分别确定所述至少一个结构化标注数据的分级信息;以及数据标准化模块,用于基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据;其中,所述第一结构化数据包含所述属性词词库中的属性词;其中,所述属性词词库中的属性词包含医学标准词。
根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的用于标准化医疗文本数据的方法。
根据本公开的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的用于标准化医疗文本数据的方法。
根据本公开实施例提供的用于标准化医疗文本数据的方法,基于预先建立的属性词词库对医疗文本数据进行分词,并基于分词结果,对医疗文本数据进行结构化处理,进而从结构化标注数据索引中查找与其匹配的至少一个结构化标注数据,并最终从至少一个结构化标注数据中筛选出结构化标注数据,作为该医疗文本数据的标准化数据。通过该方法,可以自动地将原始的医疗文本数据转换为标准化数据,从而将其映射到相应的医学标准表体系中。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开实施例中一种用于标准化医疗文本数据的方法流程图。
图2示出本公开实施例中另一种用于标准化医疗文本数据的方法流程图。
图3示出本公开实施例中再一种用于标准化医疗文本数据的方法流程图。
图4示出本公开实施例中再一种用于标准化医疗文本数据的方法流程图。
图5示出本公开实施例中再一种用于标准化医疗文本数据的方法流程图。
图6示出本公开实施例中一种用于标准化医疗文本数据的装置的框图。
图7示出本公开实施例中一种电子设备的结构示意图。
图8示出本公开实施例中一种计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开提供的方案,设计人工智能和自然语言学习技术。为了便于理解,下面首先对本公开涉及到的几种技术进行解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本公开实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明。
首先,将结合附图及实施例对本示例实施方式中的用于标准化医疗文本数据的方法的各个步骤进行更详细的说明。
图1示出本公开实施例中一种用于标准化医疗文本数据的方法流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行。
参考图1,用于标准化医疗文本数据的方法10包括:
在步骤S102中,获取待标准化的医疗文本数据。
待标准化的医疗文本数据例如为原始的、临床书写的医疗文本数据。
在步骤S104中,基于预建立的属性词词库,通过切词模型,对医疗文本数据进行切词。
该预建立的属性词词库例如可以是基于上述的医学标准表(如上述的ICD10医学标准表、MedDRA医学标准表)建立的,也即属性词词库中包含有医学标准表中的医学标准词。
此外,该属性词词库还可以包括从原始医疗文本数据中挖掘出的属性词。
基于加载了该属性词词库的切词模型,对该医疗文本数据进行切词。
在步骤S106中,基于医疗文本数据的切词结果,对医疗文本数据进行结构化处理,生成与医疗文本数据对应的第一结构化数据。
其中,第一结构化数据包含属性词词库中的属性词。
属性词词库中的属性词基于其属性被分为不同的类型(如检查描述数据类型、诊断数据类型等)。
基于属性词词库中各属性词的类型,可以对医疗文本数据进行结构化处理,生成该第一结构化数据。该第一结构化数据分别包含不同类型的属性词。例如,第一结构化数据可以表示为:
{
检查描述数据;
}
在步骤S108中,基于第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与第一结构化数据匹配的至少一个结构化标注数据。
结构化标注数据索引例如可以是基于大量标注数据训练样本建立的。这些标注数据训练样本例如为通过诸如人工标注等方式对大量原始医疗数据的标注结果数据。但本公开不限于此,例如也可以为通过其他自动化标注方法对大量原始医疗数据的标注结果数据。
该索引中指示的各结构化标注数据也均为结构化数据,且包含属性词词库中的属性词。
基于第一结构化数据中的属性词,在结构化标注数据索引中找出与其属性词匹配的至少一个结构化标准数据。至少一个结构化标准数据构成该第一结构化数据的候选集合。
在步骤S110中,分别确定至少一个结构化标注数据的分级信息。
例如,可以基于结构化匹配程度、文本相似度等方面,对查找出的各结构化标注数据进行分级。该分级信息例如可以为诸如不同的等级信息,如第一等级、第二等级、……、第N等级等;或者,还可以为具体的分数值。本公开不以此为限。
在步骤S112中,基于分级信息,从至少一个结构化标注数据中,筛选出结构化标注数据,作为医疗文本数据的标准化数据。
基于上述的分级信息,进一步从查找出的至少一个结构化标注数据中筛选出结构化标注数据,作为医疗文本数据的标准化数据。
根据本公开实施例提供的用于标准化医疗文本数据的方法,基于预先建立的属性词词库对医疗文本数据进行分词,并基于分词结果,对医疗文本数据进行结构化处理,进而从结构化标注数据索引中查找与其匹配的至少一个结构化标注数据,并最终从至少一个结构化标注数据中筛选出结构化标注数据,作为该医疗文本数据的标准化数据。通过该方法,可以自动地将原始的医疗文本数据转换为标准化数据,从而将其映射到相应的医学标准表体系中。
图2示出本公开实施例中另一种用于标准化医疗文本数据的方法流程图。与图1所示的用于标准化医疗文本数据的方法10的不同的是,图2进一步提供了如何建立上述的结构化标注数据索引的一种示例性实施例。
参考图2,用于标准化医疗文本数据的方法20还进一步包括:
在步骤S202中,基于属性词词库,通过切词模型,对预先获取的标注数据进行切词。
如上述,这些标注数据例如为通过诸如人工标注等方式对大量原始医疗数据的标注结果数据。但本公开不限于此,例如也可以为通过其他自动化标注方法对大量原始医疗数据的标注结果数据。
如上述,该属性词词库例如可以是基于上述的医学标准表(如上述的ICD10医学标准表、MedDRA医学标准表)建立的,也即属性词词库中包含有医学标准表中的医学标准词。
此外,该属性词词库还可以包括从原始医疗文本数据中挖掘出的属性词。
在步骤S204中,基于标注数据的切词结果,对标注数据进行结构化处理,生成与标注数据对应的结构化标注数据。
其中,结构化标注数据包含属性词词库中的属性词,且结构化标注数据包含至少一个结构体数据。
对于标注数据的切词结果,可以分别识别其所述的属性类型,然后依据配置的结构化策略,输出其结构化标注数据。该结构化标注数据可能包含一个或多个结构体数据。例如可以依据其主属性类型(例如可以为上述的诊断数据类型)在文本中的位置,来判定拆分出多少个结构体数据。
在步骤S206中,基于结构化标注数据,建立结构化标注数据索引。
例如,用结构体数据中若干类型属性的词,建立属性词到标注数据的索引,其中索引的标注数据包含其至少一个结构体数据。
图3示出本公开实施例中再一种用于标准化医疗文本数据的方法流程图。与图1所示的用于标准化医疗文本数据的方法10的不同的是,图3所示的方法进一步提供了如何分别确定至少一个结构化标注数据的分级信息的一个示例性实施例,也即提供了步骤S110的一个实施例。
参考图3,步骤S110包括:
在步骤S1102中,基于与第一结构化数据的结构化匹配度,分别确定至少一个结构化标注数据的第一分数。
在一些实施例中,结构化匹配度基于各属性类型的权重比例确定。例如,在对第一结构化数据与结构化标注数据的结构化匹配程度进行确定时,可以先对结构化数据中各属性类型的权重进行配置,并基于各属性词之间的关系,从结构化数据的匹配程度上进行打分,以分别确定至少一个结构化标注数据的第一分数。
在步骤S1104中,基于与第一结构化数据中各属性词的文本相似程度,分别确定至少一个结构化标注数据的第二分数。
在一些实施例中,例如可以基于余弦相似度算法来确定各结构化标注数据与第一结构化数据中各属性词的文本相似程度。或者,也可以采用相似性度量方式,来确定各结构化标注数据与第一结构化数据中各属性词的文本相似程度。
在步骤S1106中,分别根据第一分数、第二分数,确定至少一个结构化标注数据的分级信息。
例如,可以将第一分数和第二分数按照一定比例进行组合计算,得到该分级信息。此外,还可以同时存储第一分数和第二分数,一起作为候选集合(至少一个结构化标注数据)的分级信息。
图4示出本公开实施例中再一种用于标准化医疗文本数据的方法流程图。与图1所示的用于标准化医疗文本数据的方法10的不同的是,图4所示的方法进一步提供了如何基于分级信息,从至少一个结构化标注数据中,筛选出结构化标注数据,作为医疗文本数据的标准化数据的一个示例性实施例,也即提供了步骤S112的一个实施例。
参考图4,步骤S112包括:
在步骤S1122中,去除至少一个结构化标注数据中重复的结构化标注数据。
在去除重复的结构化标注数据之前,例如还可以基于上述的分级信息,对各结构化标注数据进行排序,进而在按照该排序,去除重复的结构化标注数据。
在步骤S1124中,基于预设的条件,对去除了重复的结构化标注数据进行筛选。
该预设的条件例如可以是基于各结构化标注数据的分级信息和/或各结构化标注数据中包含的医学标准词的个数建立的。
例如,设定分级信息的阈值,筛选出满足该阈值的结构化标注数据。如该分级信息为不同等级时,该阈值例如为一预设的等级或等级范围。如该分级信息为具体打分时,该阈值例如为预设的分数阈值或分数范围。
或者,可以设置医学标准词个数阈值,筛选出满足该个数阈值的结构化标注数据。
再或者,还可以筛选出同时满足上述两个条件的结构化标注数据。
在步骤S1126中,去除筛选出的结构化标注数据中重复的医学标准词。
将筛选出来的结构化标注数据对应的医学标准词汇总去重。
在步骤S1128中,以去除了重复的医学标准词的结果,作为医疗文本数据的标准化数据输出。
图5示出本公开实施例中再一种用于标准化医疗文本数据的方法流程图。与图1所示的用于标准化医疗文本数据的方法10的不同的是,图5所示的用于标准化医疗文本数据的方法30还进一步提供了如何对上述标准化方法的准确程度进行判断的方法。
参考图5,用于标准化医疗文本数据的方法30还包括:
在步骤S302中,基于各医疗文本数据的标准化数据包含的医学标准词,对各标准化数据进行分类,确定各标准化数据的类型。
在依照上述的各方法,确定出各原始的医疗文本数据的标准化数据后,基于各标准化数据包含的医学标准词,对各标准化数据进行分类,确定出各标准化数据的类型。
需要说明的是,每个标准化数据中包含多个医学标准词,可以依据多个医学标准词的联合结果进行分类,或者也可以从中选出属于上述主属性类型的医学标准词,依据该医学标准词进行分类。
在步骤S304中,依据各医疗文本数据的分词结果,对各医疗文本数据进行聚类,确定各医疗文本数据的类型。
依据各原始的医疗文本数据的分词结果,例如通过词向量的方法,对各医疗文本数据进行聚类。
在步骤S306中,从各类型的医疗文本数据中抽样出待确认的医疗文本数据。
例如,可以抽样选取出距离各聚类中心最近的医疗文本数据。
在步骤S308中,获取待确认的医疗文本数据与对应类型的标准化数据的确认结果。
例如,可以通过人工确认的方式,对抽取出的医疗文本数据与其对应的标准化数据的结果进行确认,并获取该确认结果。
在步骤S310中,基于确认结果,确定标准化数据的准确率。
可以对所有抽样出的数据的确认结果进行统计,计算上述标准化方法的准确率和需召回率等。
本公开实施例提供的用于标准化医疗文本数据的方法,进一步提供了对标准化方法的验证方法,从而可以确保该标准化方法的准确性。
需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图6示出本公开实施例中一种用于标准化医疗文本数据的装置的框图。该装置可以应用于任意具备计算处理能力的电子设备中。
参照图6,用于标准化医疗文本数据的装置40包括:医疗数据获取模块402、医疗数据切词模块404、数据结构化模块406、标注数据查找模块408、分级信息确定模块410及数据标准化模块412。
其中,医疗数据获取模块402用于获取待标准化的医疗文本数据。
医疗数据切词模块404用于基于预先建立的属性词词库,通过切词模型,对医疗文本数据进行切词。
数据结构化模块406用于基于医疗文本数据的切词结果,对医疗文本数据进行结构化处理,生成与医疗文本数据对应的第一结构化数据。
标注数据查找模块408用于基于第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与第一结构化数据匹配的至少一个结构化标注数据。
分级信息确定模块410用于分别确定至少一个结构化标注数据的分级信息。
数据标准化模块412用于基于分级信息,从至少一个结构化标注数据中,筛选出结构化标注数据,作为医疗文本数据的标准化数据。
其中,第一结构化数据包含属性词词库中的属性词;属性词词库中的属性词包含医学标准词。
在一些实施例中,用于标准化医疗文本数据的装置40还包括:标注数据切词模块、结构化标注数据生成模块及索引建立模块。其中,标注数据切词模块用于基于属性词词库,通过切词模型,对预先获取的标注数据进行切词。结构化标注数据生成模块用于基于标注数据的切词结果,对标注数据进行结构化处理,生成与标注数据对应的结构化标注数据。索引建立模块用于基于结构化标注数据,建立结构化标注数据索引。其中,结构化标注数据包含属性词词库中的属性词,且结构化标注数据包含至少一个结构体数据。
在一些实施例中,分级信息确定模块410包括:第一分数确定单元、第二分数确定单元及分级信息确定单元。其中,第一分数确定单元用于基于与第一结构化数据的结构化匹配度,分别确定至少一个结构化标注数据的第一分数。第二分数确定单元用于基于与第一结构化数据中各属性词的文本相似程度,分别确定至少一个结构化标注数据的第二分数。分级信息确定单元用于分别根据第一分数、第二分数,确定至少一个结构化标注数据的分级信息。
在一些实施例中,结构化匹配度基于各属性类型的权重比例确定。
在一些实施例中,文本相似程度基于余弦相似度算法确定或者基于相似性度量方式确定。
在一些实施例中,数据标准化模块412包括:第一去除单元、数据筛选单元、第二去除单元及标准化数据输出单元。其中,第一去除单元用于去除至少一个结构化标注数据中重复的结构化标注数据。数据筛选单元用于基于预设的条件,对去除了重复的结构化标注数据进行筛选;该预设的条件是基于各结构化标注数据的分级信息和/或各结构化标注数据中包含的医学标准词的个数建立的。第二去除单元用于去除筛选出的结构化标注数据中重复的医学标准词。标准化数据输出单元用于以去除了重复的医学标准词的结果,作为医疗文本数据的标准化数据输出。
在一些实施例中,用于标准化医疗文本数据的装置40还包括:标注数据类型确定模块、文本数据类型确定模块、文本数据抽样模块、结果确认模块及准确率确认模块。其中,标注数据类型确定模块用于基于各医疗文本数据的标准化数据包含的医学标准词,对各标准化数据进行分类,确定各标准化数据的类型。文本数据类型确定模块用于依据各医疗文本数据的分词结果,对各医疗文本数据进行聚类,确定各医疗文本数据的类型。文本数据抽样模块用于从各类型的医疗文本数据中抽样出待确认的医疗文本数据。结果确认模块用于获取待确认的医疗文本数据与对应类型的标准化数据的确认结果。准确率确认模块用于基于确认结果,确定标准化数据的准确率。
根据本公开实施例提供的用于标准化医疗文本数据的装置,基于预先建立的属性词词库对医疗文本数据进行分词,并基于分词结果,对医疗文本数据进行结构化处理,进而从结构化标注数据索引中查找与其匹配的至少一个结构化标注数据,并最终从至少一个结构化标注数据中筛选出结构化标注数据,作为该医疗文本数据的标准化数据。通过该方法,可以自动地将原始的医疗文本数据转换为标准化数据,从而将其映射到相应的医学标准表体系中。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的S102,获取待标准化的医疗文本数据;S104,基于预建立的属性词词库,通过切词模型,对医疗文本数据进行切词;S106,基于医疗文本数据的切词结果,对医疗文本数据进行结构化处理,生成与医疗文本数据对应的第一结构化数据;S108,基于第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与第一结构化数据匹配的至少一个结构化标注数据;S110,分别确定至少一个结构化标注数据的分级信息;S112,基于分级信息,从至少一个结构化标注数据中,筛选出结构化标注数据,作为医疗文本数据的标准化数据。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图8所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (9)
1.一种用于标准化医疗文本数据的方法,其特征在于,包括:
获取待标准化的医疗文本数据;
基于预先建立的属性词词库,通过切词模型,对所述医疗文本数据进行切词;
基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据;
基于所述第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与所述第一结构化数据匹配的至少一个结构化标注数据;
分别确定所述至少一个结构化标注数据的分级信息;以及
基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据;
基于各医疗文本数据的标准化数据包含的医学标准词,对各标准化数据进行分类,确定各标准化数据的类型;
依据各医疗文本数据的分词结果,对各医疗文本数据进行聚类,确定各医疗文本数据的类型;
从各类型的医疗文本数据中抽样出待确认的医疗文本数据;
获取待确认的医疗文本数据与对应类型的标准化数据的确认结果;以及
基于所述确认结果,确定所述标准化数据的准确率;
其中,所述第一结构化数据包含所述属性词词库中的属性词;
其中,所述属性词词库中的属性词包含医学标准词;
其中,所述属性词词库中的属性词基于其属性被分为不同的类型,所述基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据,包括:基于属性词词库中各属性词的类型,对医疗文本数据进行结构化处理,生成包含不同类型属性词的第一结构化数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于所述属性词词库,通过所述切词模型,对预先获取的标注数据进行切词;
基于所述标注数据的切词结果,对所述标注数据进行结构化处理,生成与所述标注数据对应的结构化标注数据;以及
基于所述结构化标注数据,建立所述结构化标注数据索引;
其中,所述结构化标注数据包含所述属性词词库中的属性词,且所述结构化标注数据包含至少一个结构体数据。
3.根据权利要求1所述的方法,其特征在于,分别确定所述至少一个结构化标注数据的分级信息包括:
基于与所述第一结构化数据的结构化匹配度,分别确定所述至少一个结构化标注数据的第一分数;
基于与所述第一结构化数据中各属性词的文本相似程度,分别确定所述至少一个结构化标注数据的第二分数;以及
分别根据所述第一分数、所述第二分数,确定所述至少一个结构化标注数据的分级信息。
4.根据权利要求3所述的方法,其特征在于,基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据包括:
去除所述至少一个结构化标注数据中重复的结构化标注数据;
基于预设的条件,对去除了重复的结构化标注数据进行筛选;
去除筛选出的结构化标注数据中重复的医学标准词;以及
以去除了重复的医学标准词的结果,作为所述医疗文本数据的标准化数据输出;
其中,所述条件是基于各结构化标注数据的分级信息和/或各结构化标注数据中包含的医学标准词的个数建立的。
5.根据权利要求3所述的方法,其特征在于,所述结构化匹配度基于各属性类型的权重比例确定。
6.根据权利要求3所述的方法,其特征在于,所述文本相似程度基于余弦相似度算法确定或者基于相似性度量方式确定。
7.一种用于标准化医疗文本数据的装置,其特征在于,包括:
医疗数据获取模块,用于获取待标准化的医疗文本数据;
医疗数据切词模块,用于基于预先建立的属性词词库,通过切词模型,对所述医疗文本数据进行切词;
数据结构化模块,用于基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据;
标注数据查找模块,用于基于所述第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与所述第一结构化数据匹配的至少一个结构化标注数据;
分级信息确定模块,用于分别确定所述至少一个结构化标注数据的分级信息;以及
数据标准化模块,用于基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据;
标注数据类型确定模块,用于基于各医疗文本数据的标准化数据包含的医学标准词,对各标准化数据进行分类,确定各标准化数据的类型;
文本数据类型确定模块,用于依据各医疗文本数据的分词结果,对各医疗文本数据进行聚类,确定各医疗文本数据的类型;
文本数据抽样模块,用于从各类型的医疗文本数据中抽样出待确认的医疗文本数据;
结果确认模块,用于获取待确认的医疗文本数据与对应类型的标准化数据的确认结果;
准确率确认模块用于基于确认结果,确定标准化数据的准确率;
其中,所述第一结构化数据包含所述属性词词库中的属性词;
其中,所述属性词词库中的属性词包含医学标准词;
其中,所述属性词词库中的属性词基于其属性被分为不同的类型,所述数据结构化模块,还用于基于属性词词库中各属性词的类型,对医疗文本数据进行结构化处理,生成包含不同类型属性词的第一结构化数据。
8.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299358.8A CN111063446B (zh) | 2019-12-17 | 2019-12-17 | 用于标准化医疗文本数据的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299358.8A CN111063446B (zh) | 2019-12-17 | 2019-12-17 | 用于标准化医疗文本数据的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111063446A CN111063446A (zh) | 2020-04-24 |
CN111063446B true CN111063446B (zh) | 2023-06-16 |
Family
ID=70301057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911299358.8A Active CN111063446B (zh) | 2019-12-17 | 2019-12-17 | 用于标准化医疗文本数据的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111063446B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033155B (zh) * | 2021-05-31 | 2021-10-26 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种结合序列生成和层级词表的医学概念自动编码方法 |
CN113658710B (zh) * | 2021-08-11 | 2024-07-26 | 东软集团股份有限公司 | 一种数据匹配方法及其相关设备 |
CN113808758B (zh) * | 2021-08-31 | 2024-06-07 | 联仁健康医疗大数据科技股份有限公司 | 一种检验数据标准化的方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015049769A1 (ja) * | 2013-10-03 | 2015-04-09 | 株式会社日立製作所 | データ分析システム及びその方法 |
CN106844671A (zh) * | 2017-01-22 | 2017-06-13 | 北京理工大学 | 医学文献智能处理方法及系统 |
CN109299472A (zh) * | 2018-11-09 | 2019-02-01 | 天津开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030130873A1 (en) * | 2001-11-19 | 2003-07-10 | Nevin William S. | Health care provider information system |
US20070081699A1 (en) * | 2005-09-29 | 2007-04-12 | General Electric Company | Systems, methods and apparatus for diagnosis of disease from categorical indices |
CN106919793B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN107341264B (zh) * | 2017-07-19 | 2020-09-25 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
CN108021553A (zh) * | 2017-09-30 | 2018-05-11 | 北京颐圣智能科技有限公司 | 疾病术语的词处理方法、装置及计算机设备 |
CN108920453B (zh) * | 2018-06-08 | 2023-03-24 | 国家食品药品监督管理总局药品评价中心 | 数据处理方法、装置、电子设备及计算机可读介质 |
CN109344250B (zh) * | 2018-09-07 | 2021-11-19 | 北京大学 | 基于医保数据的单病种诊断信息快速结构化方法 |
CN109524069B (zh) * | 2018-11-09 | 2021-09-10 | 南京医渡云医学技术有限公司 | 医疗数据处理方法、装置、电子设备和存储介质 |
CN109522552B (zh) * | 2018-11-09 | 2023-08-29 | 天津开心生活科技有限公司 | 一种医疗信息的归一化方法、装置、介质及电子设备 |
CN109599185B (zh) * | 2018-11-14 | 2021-05-25 | 金色熊猫有限公司 | 疾病数据处理方法、装置、电子设备及计算机可读介质 |
CN109857736A (zh) * | 2018-12-29 | 2019-06-07 | 苏州市环亚数据技术有限公司 | 医院异构系统的数据编码统一化方法及系统、设备、介质 |
CN110059185B (zh) * | 2019-04-03 | 2022-10-04 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
-
2019
- 2019-12-17 CN CN201911299358.8A patent/CN111063446B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015049769A1 (ja) * | 2013-10-03 | 2015-04-09 | 株式会社日立製作所 | データ分析システム及びその方法 |
CN106844671A (zh) * | 2017-01-22 | 2017-06-13 | 北京理工大学 | 医学文献智能处理方法及系统 |
CN109299472A (zh) * | 2018-11-09 | 2019-02-01 | 天津开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
一种面向医学文本数据的结构化信息抽取方法;杨兵等;《小型微型计算机系统》;第40卷(第7期);杨兵 * |
Also Published As
Publication number | Publication date |
---|---|
CN111063446A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN111063446B (zh) | 用于标准化医疗文本数据的方法、装置、设备及存储介质 | |
US20180373692A1 (en) | Method for parsing query based on artificial intelligence and computer device | |
CN111767366B (zh) | 问答资源挖掘方法、装置、计算机设备及存储介质 | |
CN106897439B (zh) | 文本的情感识别方法、装置、服务器以及存储介质 | |
KR102353545B1 (ko) | 재난대응 추천방법 및 그 장치 | |
CN111143226B (zh) | 自动化测试方法及装置、计算机可读存储介质、电子设备 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN111177186B (zh) | 基于问题检索的单句意图识别方法、装置和系统 | |
CN110245232B (zh) | 文本分类方法、装置、介质和计算设备 | |
CN111401066A (zh) | 基于人工智能的词分类模型训练方法、词处理方法及装置 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN111125363B (zh) | 用于医疗文本数据标注的方法、装置、设备及存储介质 | |
CN111563172B (zh) | 基于动态知识图谱构建的学术热点趋势预测方法和装置 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
CN112182220A (zh) | 基于深度学习的客服预警分析方法、系统、设备及介质 | |
CN118013963A (zh) | 敏感词的识别和替换方法及其装置 | |
CN113590771A (zh) | 一种数据挖掘方法、装置、设备及存储介质 | |
CN112507075A (zh) | 一种病例数据搜索方法、系统、设备及存储介质 | |
CN112100360A (zh) | 一种基于向量检索的对话应答方法、装置和系统 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
WO2019246252A1 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN114925757A (zh) | 多源威胁情报融合方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |