CN112735543A - 医学数据的处理方法、装置及存储介质 - Google Patents
医学数据的处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112735543A CN112735543A CN202011604313.XA CN202011604313A CN112735543A CN 112735543 A CN112735543 A CN 112735543A CN 202011604313 A CN202011604313 A CN 202011604313A CN 112735543 A CN112735543 A CN 112735543A
- Authority
- CN
- China
- Prior art keywords
- medical
- medical information
- medical data
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000010606 normalization Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013135 deep learning Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000013145 classification model Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 abstract description 11
- 230000002146 bilateral effect Effects 0.000 description 24
- 238000002271 resection Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 7
- 208000025247 virus-associated trichodysplasia spinulosa Diseases 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 210000005075 mammary gland Anatomy 0.000 description 5
- 210000001685 thyroid gland Anatomy 0.000 description 5
- 210000004291 uterus Anatomy 0.000 description 5
- 206010035588 Pleural adhesion Diseases 0.000 description 4
- 238000007486 appendectomy Methods 0.000 description 4
- 230000000849 parathyroid Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 238000013538 segmental resection Methods 0.000 description 4
- 210000002978 thoracic duct Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 208000000821 Parathyroid Neoplasms Diseases 0.000 description 2
- 206010033964 Parathyroid tumour benign Diseases 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 201000003686 parathyroid adenoma Diseases 0.000 description 2
- 208000014643 parathyroid gland adenoma Diseases 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013276 bronchoscopy Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/40—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Surgery (AREA)
- Urology & Nephrology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开涉及医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,处理方法包括获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;基于深度学习训练的分句模型,从M个原始医学信息中解析出N个第一医学信息;根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;解析所述第二医学数据,通过归一化处理得到目标医学数据。处理装置包括获取单元;深度学习训练的分句模型;匹配模块;处理模块。通过本公开的各实施例能够准确地实现医学数据的归一化表达。
Description
技术领域
本公开涉及医学数据智能处理技术领域,具体涉及一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质。
背景技术
目前,在书写病历的时候针对的医学数据以及医学信息,涉及非常多的细节,例如针对手术病历,手术细节内容非常繁杂。此外,加上一些习惯或规范的差异,不同医院的不同医生对同一个手术的描述多种多样,根据患者病灶部位的不同,一个标准手术名称可能有多种情况。因此,需要考虑将同一概念的医学数据的不同表达进行统一化处理。
发明内容
本公开意图提供一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,能够准确地实现医学数据的归一化表达。
根据本公开的方案之一,提供一种医学数据的处理方法,包括:
获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;
基于深度学习训练的分句模型,从M个原始医学信息中解析出N个第一医学信息;
根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;
解析所述第二医学数据,通过归一化处理得到目标医学数据。
在一些实施例中,其中,所述深度学习训练的分句模型的构建方式,包括:
提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
在一些实施例中,其中,所述对这些医学数据进行分句,包括:
根据医学数据所包含的特定标识进行分句。
在一些实施例中,其中,所述对这些医学数据进行分句,包括:
解析医学数据包含的医学信息;
根据医学信息的语义,确定出存在关联关系的医学信息;
基于存在关联关系的医学信息,确定分句对象。
在一些实施例中,其中,所述根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据,包括:
将每个第一医学信息与每个标准医学信息两两组合;
分别计算匹配度;
将匹配度满足预设条件的组合用于构建所述第二医学数据。
在一些实施例中,其中,所述解析所述第二医学数据,通过归一化处理得到目标医学数据,具体为通过神经网络分类模型实现,包括:
解析所述第二医学数据包含的每一组第一医学信息与标准医学信息;
基于神经网络分析每一组第一医学信息与标准医学信息是否对应;
输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果。
在一些实施例中,其中,所述输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果,包括:
以标准医学信息的格式,表征第一医学信息;
输出目标医学数据以更新第一医学数据。
根据本公开的方案之一,提供医学数据的处理装置,包括:
获取单元,其配置为用于获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;
深度学习训练的分句模型,其配置为用于从M个原始医学信息中解析出N个第一医学信息;
匹配模块,其配置为用于根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;
处理模块,其配置为用于解析所述第二医学数据,通过归一化处理得到目标医学数据。
在一些实施例中,其中,
所述处理模块,包括神经网络分类模型,其进一步配置为:
解析所述第二医学数据包含的每一组第一医学信息与标准医学信息;
基于神经网络分析每一组第一医学信息与标准医学信息是否对应;
输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果。
根据本公开的方案之一,提供计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,实现:
根据上述的医学数据的处理方法。
本公开的各种实施例的医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,通过获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;基于深度学习训练的分句模型,从M个原始医学信息中解析出N个第一医学信息;根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;解析所述第二医学数据,通过归一化处理得到目标医学数据,从而能够根据原始输入的医学数据,对其进行分句处理,并通过匹配标准医学信息,统一原始输入的医学数据,避免因为习惯或者规范的差异而造成的医学数据混乱、错误等情况发生。同时,通过归一化处理,对同一医学概念的不同表达进行归一编码,精准、有效并且直观地向用户呈现归一化结果,提供诊断和手术指征高度统一的医学数据,从而提升医学研究、医疗诊治的精确性和效率。
应当理解,前面的大体描述以及后续的详细描述只是示例性的和说明性的,并非对所要求保护的本公开的限制。
附图说明
在未必按照比例绘制的附图中,不同视图中相似的附图标记可以表示相似的构件。具有字母后缀的相似附图标记或具有不同字母后缀的相似附图标记可以表示相似构件的不同实例。附图通常作为示例而非限制地图示各种实施例,并且与说明书和权利要求书一起用于解释所公开的实施例。
图1示出本公开实施例涉及的医学数据的处理方法的一种流程图;
图2示出本公开实施例涉及的医学数据的处理装置的一种架构图;
图3示出本公开实施例涉及的ICD-9-CM-3标准表,其中以部分示出的方式以示例说明。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。
在书写病历的时候针对的医学数据以及医学信息,涉及非常多的细节,例如针对手术病历,手术细节内容非常繁杂。此外,加上一些习惯或规范的差异,不同医院的不同医生对同一个手术的描述多种多样。举例来说,根据患者病灶部位的不同,一个标准手术名称可能有多种情况,“肺叶切除术”,实际手术名称可能是“左上肺叶切除术”,也可能是“右下肺叶切除术”。又如,根据医生书写习惯不同,“胸腔镜下肺叶切除术”这个手术,在病历中可能是“左下肺叶切除(胸腔镜辅助)”,也可能是“VATS左下肺叶切除术”(VATS代表胸腔镜)。面对这些情况,经过大量实际临床中出现的问题以及解决方案,考虑将医学数据进行统一表达,例如,针对手术病历进行归一处理。从临床角度考虑,手术归一需要把同一手术概念的不同表达进行归一编码。编码可以采用统一发布手术操作分类编码,相应的编码体系是基于国际通用的ICD9-CM-3扩充构建的。
作为方案之一,如图1所示,本公开的实施例提供了一种医学数据的处理方法,包括:
S101:获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;
S102:基于深度学习训练的分句模型,从M个原始医学信息中解析出N个第一医学信息;
S103:根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;
S104:解析所述第二医学数据,通过归一化处理得到目标医学数据。
本公开的发明构思之一,旨在对来自于各种数据源的原始医学数据进行统一表达处理,通过这些医学数据所包含的医学信息与标准医学信息来确定相互之间对应关系的程度,从而来根据标准医学信息对原始医学数据进行统一化表达处理。
本公开各实施例中的第一医学数据,其所属的数据源并不需要特别加以限定,可以是历史数据,也可以是当前实时的数据。从数据格式上,可以是病历文本数据、视频数据、音频数据等等,只要能够通过识别手段,例如文本识别(例如,NLP识别,OCR识别等方式)识别其中能够包含的医学信息,语音识别、视频图像识别等方式识别其中记载的诊断内容、手术内容等一些医学信息,抑或是通过字符拆分、词句拆分等方式识别的医学信息内容等。在一些实施例中,本公开的第一医学数据也可以是包含于病历、诊断书,这些数据可以是结构化数据,也可以是非结构化数据,针对非结构化数据只要对其进行包括结构化处理在内的手段,使其满足能够提取出相应的医学信息即可作为本公开的处理对象。在病历处理的场景下,本公开实施例中的第一医学数据可以是用户通过交互界面、输入设备输入的病历记录等内容,其中包含有M个医学信息,例如用户输入包含有两条或者两条以上的诊断内容,手术名称、用药记录、用药名称等。
在一些方面,本公开各实施例需要基于标准医学信息予以实现,从而在基于深度学习训练的分句模型处理的情况下,以标准医学信息为指引,能够从M个原始医学信息中解析出N个第一医学信息。本公开更关注于针对原始医学数据包含多个原始医学信息的情况,即至少针对M≥2的场景,从M个原始医学信息中解析出N个第一医学信息,根据原始医学数据所能够记载的医学信息的实际情况,解析出来的第一医学信息的数量N,从理论上可以等于M,可以小于M,当然在一些方面可以大于M,只要符合医学概念以及临床诊断意义即可。
在一些实施例中,本公开的所述深度学习训练的分句模型的构建方式,包括:
提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
具体的,本实施例的医学数据以记录手术内容、手术名称等针对手术操作的手术数据为例,手术数据无法通过规则方式完成分句,只存在特定场景下适用的规则,而场景的区分需要医学判断。因此,本实施例中可以采用分句模型进行分句操作。分句模型可以基于深度学习训练构建,具体可以通过由专业人工以手术金标准为基础标注一批数据,将原始的包含手术名称的数据进行分句,得到数据二元组实例,二元组可以包括原始文本和分句后文本,例如形成“原始文本,一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量,例如一次或多次批量性、批次性或者是海量标注的二元组,即可训练本实施例的分句模型。
在一些实施例中,本公开的所述对这些医学数据进行分句,包括:
根据医学数据所包含的特定标识进行分句。
针对输入为“手术名称:双侧甲状腺部分切除+左上甲状旁腺腺瘤切除+右乳腺体区段切除”,在标注分句过程中,认为这一段手术数据中,以“+”号作为这一段手术数据中的特定标识对手术信息进行了分隔,其中体现出来的手术信息有“手术名称:双侧甲状腺部分切除、左上甲状旁腺腺瘤切除、右乳腺体区段切除”。在这段输入的手术数据中,没有需要跨加号“+”延续的信息,从医学诊断角度分析,每个加号前后都是独立、完整的手术名称,可以通过分句缩短句子的长度。因此,分句结果可以认为是分成三个分句对象“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”。
在一些实施例中,本公开的所述对这些医学数据进行分句,包括:
解析医学数据包含的医学信息;
根据医学信息的语义,确定出存在关联关系的医学信息;
基于存在关联关系的医学信息,确定分句对象。
具体的,由于手术数据录入或者记载过程中会出现习惯性书写或者简写的情况,导致数据中包含的手术信息前后存在关联,但是从字面上又显现为存在分隔形式,由此难以判断其中包含的准确手术信息。本实施例通过解析出医学信息中各部分的医学信息的语义,提取这些医学信息在医学概念上的表征内容,根据所有表征内容判断其中是否存在关联关系,例如手术信息1和手术信息2是否存在相互包含的关系,又如手术信息1至手术信息n之间是否存在共用信息,再如手术信息1至手术信息x之间是否存在相悖信息等。
举例来说,输入的医学数据包括“腹腔镜下全子宫+双侧附件切除术”,如果采用规则分句,那么其中包含了“+”这一标识,则通过分句解析出的分句结果即为“腹腔镜下全子宫”和“双侧附件切除术”。结合医学概念,可以确定的是“腹腔镜下全子宫”这一手术信息只能够表述“腹腔镜和部位”,而无法明确具体的术式。另外,“双侧附件切除术”这一手术信息则缺失了手术操作信息,比如“腹腔镜”这一信息。在这种情况下,如果按特征标识以分隔形式来分句,虽然输入的医学数据“腹腔镜下全子宫+双侧附件切除术”中完整地包含了各种手术能够涉及到的信息,但按照规则分句的分句结果是错误的,会使得最终手术标准名称转换错误,无法准确、详尽并且智能地表达手术过程的准确信息,也就无法符合实际的语义。如果采用本实施例的分句模型,针对“腹腔镜下全子宫+双侧附件切除术”按实际语义进行分句,分句模型在训练阶段学习到了相关知识,在此就能够判断这里的“+”并不是分句标志,从而不会按照“+”分句。
又比如,输入的医学数据包含“VATS右肺上叶切除+右肺中叶和右肺下叶楔形切除+胸膜粘连烙断术+胸导管结扎术”,如果采用规则分句,那么其中也包含了多个“+”这一标识,则通过分句解析出的分句结果即为“VATS右肺上叶切除”、“右肺中叶和右肺下叶楔形切除”、“胸膜粘连烙断术”和“胸导管结扎术”。结合医学概念,可以确定的是句首的“VATS”代表胸腔镜,而后面的烙断术、结扎术都是在胸腔镜下完成的,如果单独将“胸膜粘连烙断术”和“胸导管结扎术”分别予以手术记录,则后面的烙断术、结扎术就会丢失胸腔镜信息,那么该分句结果是错误的,会使得最终手术标准名称转换错误,无法完整准确地形成精准数据,无法与标准医学数据对应。如果采用本实施例的分句模型,针对“VATS右肺上叶切除+右肺中叶和右肺下叶楔形切除+胸膜粘连烙断术+胸导管结扎术”,分句模型在训练阶段学习到了相关知识,在此就能够判断句首的“VATS”胸腔镜这一信息需要向后延续,在此就能够判断这里的“+”并不是分句标志,从而不会按照“+”分句。
作为优选的方案,本公开的所述根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据,包括:
将每个第一医学信息与每个标准医学信息两两组合;
分别计算匹配度;
将匹配度满足预设条件的组合用于构建所述第二医学数据。
具体的,本实施例的标准医学信息可以通过ICD-9-CM-3标准表得到,如图3所示出部分的ICD-9-CM-3标准表,以示出ICD-9-CM-3标准表能够详细标定手术信息以及给出了相应的手术编码。
针对第一医学数据中包含的第一医学信息,优选的,可以是通过本公开各实施例深度学习训练的分句模型分句后的多个第一医学信息,将每个分句,也就是每个第一医学信息和ICD-9-CM-3标准表中标准医学信息,或者称为标准词进行两两组合。例如,经过分句模型后的分句包括“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”,将“双侧甲状腺部分切除”与ICD-9-CM-3标准表每个标准词两两组合,如“双侧甲状腺部分切除,支气管病损破坏术”等这样的形式。对每一个这样形式的组合计算匹配度,对匹配度低于预先设定阈值的组合,将其舍弃,不作为数据归一化对象。对匹配度满足预先设定阈值的组合,将其认为可能属于同一医学概念,作为待选的归一化对象。
具体的,本实施例中匹配度的确定方式,可以基于分句和标准词各自所包含的字数进行计算,例如通过两者之间交集的字数以及两者并集的字数来计算匹配度,或者称为两者的相似度。举例来说,分句结果为“双侧甲状腺部分切除”,经过两两组合后的一个标准词为“甲状腺切开探查术”,两者的交集是“甲状腺切”,其字数是4个字,两者的并集为两个字符串的长度求和减去交集字数:9+8-4=13,因此这一两两组合对的相似度为“4/13”。
在此基础上,将这些待选对象构建为本实施例的第二医学数据,例如“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5.……”。
作为进一步的实施方式,本公开的所述解析所述第二医学数据,通过归一化处理得到目标医学数据,具体为通过神经网络分类模型实现,包括:
解析所述第二医学数据包含的每一组第一医学信息与标准医学信息;
基于神经网络分析每一组第一医学信息与标准医学信息是否对应;
输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果。
具体的,继续结合上述示例,本公开可以构建神经网络分类模型,配置相应的架构以及神经元个数等方式,对第二医学数据进行解析以及归一化处理。针对例如形式为“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5.……”的第二医学数据,对其中每一组信息进行分类,判断来自于原始的第一医学数据和从标准信息表中筛选出来的标准词是否具有相关或者相近的医学概念,例如两者是否存在包含关系。如果神经网络分类模型认为两者属于存在包含关系的情形,则神经网络分类模型输出相应的结果,例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形,则神经网络分类模型输出相应的结果,例如输出“0”以表征否定结论。
在本公开的多种实施例中,可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的,可以采集大规模的医疗预料数据,数据来源包括但不限于:各医疗结构的病历数据、各医学研究机构的医学数据、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中,可以构建预训练模型对采集的大规模医疗预料数据进行预训练,从而让模型从大规模的数据中学习各种医学知识,在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于:BERT模型、XLNET模型、roBERTa等模型。
再具体到本公开各实施例的神经网络分类模型,结合前述内容实现完成最终的分类,判断原始医学数据和待选标准词是不是表征同一个医学信息概念,例如手术信息之间是否存在重叠描述、相悖描述、缺失描述等。如果采用本公开实施例的预训练模型,那么本实施例中的神经网络分类模型基本上和预训练模型可以是一致的,需要用预训练的模型来初始化本实施例的神经网络分类模型。如果在不采用预训练模型的情况下,本实施例的神经网络分类模型则可以使用任何其他的分类模型,包括但不限于:CNN、LSTM、transformer等模型。
进一步的,本公开的所述输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果,包括:
以标准医学信息的格式,表征第一医学信息;
输出目标医学数据以更新第一医学数据。
具体的,继续结合上述内容,在本实施例的神经网络分类模型输出相应的结果基础上,针对输出结果为肯定结论的组合,本实施例可以提取ICD-9-CM-3标准表中的手术名称以及手术编码,对原始输入的手术数据进行统一化表达处理。针对上述原始输入的“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”,本实施例从ICD-9-CM-3标准表中提取“手术编码手术名称”对这些信息分别进行更新,表现为输出目标医学数据:
“1.06.3900×012|双侧甲状腺部分切除术
2.06.8903|甲状旁腺病损切除术
3.85.2100×019|乳房腺体区段切除术”
对照于原始输入的手术数据,可以看到,通过本实施例输出的目标医学数据,完整、详细地依照统一化表达方式对医学数据进行了标准化。
作为本公开的方案之一,如图2所示,本公开还提供了一种医学数据的处理装置,包括:
获取单元,其配置为用于获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;
深度学习训练的分句模型,其配置为用于从M个原始医学信息中解析出N个第一医学信息;
匹配模块,其配置为用于根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;
处理模块,其配置为用于解析所述第二医学数据,通过归一化处理得到目标医学数据。
在一些实施例中,本公开的获取单元,可以为输入设备、屏幕截取装置、文本识别装置等,旨在实现能够获取包含有多个第一医学信息的医学数据。
在一些实施例中,本公开的深度学习训练的分句模型,可以是:通过由专业人工以手术金标准为基础标注一批数据,将原始的包含手术名称的数据进行分句,得到数据二元组实例,二元组可以包括原始文本和分句后文本,例如形成“原始文本,一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量,例如一次或多次批量性、批次性或者是海量标注的二元组,即可训练本实施例的分句模型。
在一些实施例中,本公开的处理模块,可以具体配置为:
包括神经网络分类模型,其进一步配置为:
解析所述第二医学数据包含的每一组第一医学信息与标准医学信息;
基于神经网络分析每一组第一医学信息与标准医学信息是否对应;
输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果,并且还可以
以标准医学信息的格式,表征第一医学信息;
输出目标医学数据以更新第一医学数据。
具体来说,本公开的发明构思之一,旨在通过获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;基于深度学习训练的分句模型,从M个原始医学信息中解析出N个第一医学信息;根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;解析所述第二医学数据,通过归一化处理得到目标医学数据,从而能够根据原始输入的医学数据,对其进行分句处理,并通过匹配标准医学信息,统一原始输入的医学数据,避免因为习惯或者规范的差异而造成的医学数据混乱、错误等情况发生。同时,通过归一化处理,对同一医学概念的不同表达进行归一编码,精准、有效并且直观地向用户呈现归一化结果,提供诊断和手术指征高度统一的医学数据,从而提升医学研究、医疗诊治的精确性和效率。
作为本公开的方案之一,本公开还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,主要实现根据上述的医学数据的处理方法,至少包括:
获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;
基于深度学习训练的分句模型,从M个原始医学信息中解析出N个第一医学信息;
根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;
解析所述第二医学数据,通过归一化处理得到目标医学数据。
作为本公开的方案之一,本公开还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,主要实现根据上述的深度学习训练的分句模型的构建方式,至少包括:
批次提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
在一些实施例中,执行算机可执行指令处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。
在一些实施例中,计算机可读存储介质可以为存储器,诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备,或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。
在一些实施例中,计算机可执行指令可以实现为多个程序模块,多个程序模块共同实现根据本公开中任何一项所述的医学影像的显示方法。
本公开描述了各种操作或功能,其可以实现为软件代码或指令或者定义为软件代码或指令。显示单元可以实现为在存储器上存储的软件代码或指令模块,其由处理器执行时可以实现相应的步骤和方法。
这样的内容可以是可以直接执行(“对象”或“可执行”形式)的源代码或差分代码(“delta”或“patch”代码)。这里描述的实施例的软件实现可以通过其上存储有代码或指令的制品提供,或者通过操作通信接口以通过通信接口发送数据的方法提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作,并且包括以可由机器(例如,计算显示设备、电子系统等)访问的形式存储信息的任何机制,例如可记录/不可记录介质(例如,只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存显示设备等)。通信接口包括与硬连线、无线、光学等介质中的任何一种接口以与其他显示设备通信的任何机制,例如存储器总线接口、处理器总线接口、因特网连接、磁盘控制器等。通信接口可以通过提供配置参数和/或发送信号来配置以准备通信接口,以提供描述软件内容的数据信号。可以通过向通信接口发送一个或多个命令或信号来访问通信接口。
本公开的实施例的计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。可以用这类组件或模块的任何数量和组合来实现本公开的各方面。例如,本公开的各方面不限于附图中示出的和本文描述的特定的计算机可执行指令或特定组件或模块。其他实施例可以包括具有比本文所示出和描述的更多或更少功能的不同的计算机可执行指令或组件。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本公开的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本公开的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上实施例仅为本公开的示例性实施例,不用于限制本公开,本公开的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内,对本公开做出各种修改或等同替换,这种修改或等同替换也应视为落在本公开的保护范围内。
Claims (10)
1.医学数据的处理方法,包括:
获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;
基于深度学习训练的分句模型,从M个原始医学信息中解析出N个第一医学信息;
根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;
解析所述第二医学数据,通过归一化处理得到目标医学数据。
2.根据权利要求1所述的方法,其中,所述深度学习训练的分句模型的构建方式,包括:
提取医学数据;
对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
迭代训练模型。
3.根据权利要求2所述的方法,其中,所述对这些医学数据进行分句,包括:
根据医学数据所包含的特定标识进行分句。
4.根据权利要求2所述的方法,其中,所述对这些医学数据进行分句,包括:
解析医学数据包含的医学信息;
根据医学信息的语义,确定出存在关联关系的医学信息;
基于存在关联关系的医学信息,确定分句对象。
5.根据权利要求1所述的方法,其中,所述根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据,包括:
将每个第一医学信息与每个标准医学信息两两组合;
分别计算匹配度;
将匹配度满足预设条件的组合用于构建所述第二医学数据。
6.根据权利要求1所述的方法,其中,所述解析所述第二医学数据,通过归一化处理得到目标医学数据,具体为通过神经网络分类模型实现,包括:
解析所述第二医学数据包含的每一组第一医学信息与标准医学信息;
基于神经网络分析每一组第一医学信息与标准医学信息是否对应;
输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果。
7.根据权利要求6所述的方法,其中,所述输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果,包括:
以标准医学信息的格式,表征第一医学信息;
输出目标医学数据以更新第一医学数据。
8.医学数据的处理装置,包括:
获取单元,其配置为用于获取第一医学数据,所述第一医学数据包含至少M个原始医学信息,M≥2;
深度学习训练的分句模型,其配置为用于从M个原始医学信息中解析出N个第一医学信息;
匹配模块,其配置为用于根据所述第一医学信息与标准医学信息的匹配结果,得到第二医学数据;
处理模块,其配置为用于解析所述第二医学数据,通过归一化处理得到目标医学数据。
9.根据权利要求8所述的装置,其中,
所述处理模块,包括神经网络分类模型,其进一步配置为:
解析所述第二医学数据包含的每一组第一医学信息与标准医学信息;
基于神经网络分析每一组第一医学信息与标准医学信息是否对应;
输出分析结果,将对应的第一医学信息与标准医学信息作为归一化结果。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,实现:
根据权利要求1至7任一项所述的医学数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604313.XA CN112735543B (zh) | 2020-12-30 | 2020-12-30 | 医学数据的处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604313.XA CN112735543B (zh) | 2020-12-30 | 2020-12-30 | 医学数据的处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735543A true CN112735543A (zh) | 2021-04-30 |
CN112735543B CN112735543B (zh) | 2024-07-19 |
Family
ID=75610642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011604313.XA Active CN112735543B (zh) | 2020-12-30 | 2020-12-30 | 医学数据的处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735543B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362918A (zh) * | 2021-06-02 | 2021-09-07 | 复旦大学附属肿瘤医院 | 一种医学数据的处理方法、系统及其存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256216A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 医学数据处理方法、装置、计算机设备和存储介质 |
CN109472021A (zh) * | 2018-10-12 | 2019-03-15 | 北京诺道认知医学科技有限公司 | 基于深度学习的医学文献中关键句筛选方法及装置 |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN109670177A (zh) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | 一种基于lstm实现医学语义归一化的控制方法及控制装置 |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
US20200118682A1 (en) * | 2018-10-12 | 2020-04-16 | Fujitsu Limited | Medical diagnostic aid and method |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
CN112035637A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医学领域意图识别方法、装置、设备及存储介质 |
-
2020
- 2020-12-30 CN CN202011604313.XA patent/CN112735543B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256216A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 医学数据处理方法、装置、计算机设备和存储介质 |
CN109472021A (zh) * | 2018-10-12 | 2019-03-15 | 北京诺道认知医学科技有限公司 | 基于深度学习的医学文献中关键句筛选方法及装置 |
US20200118682A1 (en) * | 2018-10-12 | 2020-04-16 | Fujitsu Limited | Medical diagnostic aid and method |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN109670177A (zh) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | 一种基于lstm实现医学语义归一化的控制方法及控制装置 |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
CN112035637A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医学领域意图识别方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
李博;文敦伟;王珂;刘景鑫;: "基于隐含主题和语义树的医学文本自动批注", 吉林大学学报(工学版), pages 2 * |
聂莉莉;李传富;许晓倩;朱川川;徐志鹏;武红利;: "人工智能在医学诊断知识图谱构建中的应用研究", 医学信息学杂志, no. 06 * |
陆鹏;刘金星;: "具有自学习能力的电子病历后结构化技术研究", 世界最新医学信息文摘, no. 73, 7 September 2018 (2018-09-07) * |
陈永莉;洪漪;: "检索语言在医学信息管理与检索中的应用综述", 图书情报知识, no. 03, 10 May 2015 (2015-05-10) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362918A (zh) * | 2021-06-02 | 2021-09-07 | 复旦大学附属肿瘤医院 | 一种医学数据的处理方法、系统及其存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112735543B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001177B (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
JP7392120B2 (ja) | 自然言語処理を使用する病理報告内の自動化された情報の抽出及び改良 | |
CN105184053B (zh) | 一种中文医疗服务项目信息的自动编码方法及系统 | |
CN112015917A (zh) | 基于知识图谱的数据处理方法、装置及计算机设备 | |
CN112749277B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN111538845A (zh) | 一种构建肾病专科医学知识图谱的方法、模型及系统 | |
CN111259897A (zh) | 知识感知的文本识别方法和系统 | |
CN110609910B (zh) | 医学知识图谱构建方法及装置、存储介质和电子设备 | |
CN109299467B (zh) | 医学文本识别方法及装置、语句识别模型训练方法及装置 | |
CN115859914A (zh) | 基于病历语义理解的诊断icd自动编码方法及系统 | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
CN117151088A (zh) | 文本的处理方法、装置、电子设备及存储介质 | |
CN114912887A (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
CN112560400A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN112735545B (zh) | 自训练方法、模型、处理方法、装置及存储介质 | |
Lin et al. | Skin medical image captioning using multi-label classification and siamese network | |
CN112735543A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN116306655A (zh) | 基于汉字字形和词语边界特征的命名实体识别方法及系统 | |
CN112700825B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN112749545B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN115130466A (zh) | 分类和实体识别联合抽取方法、计算机设备及存储介质 | |
CN115101158A (zh) | 基于超声检查报告的乳腺癌诊断知识图谱构建方法及系统 | |
CN114328485A (zh) | 改进BiLSTM-CRF的电子病历命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |