CN111724873B - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN111724873B CN111724873B CN202010559649.2A CN202010559649A CN111724873B CN 111724873 B CN111724873 B CN 111724873B CN 202010559649 A CN202010559649 A CN 202010559649A CN 111724873 B CN111724873 B CN 111724873B
- Authority
- CN
- China
- Prior art keywords
- information
- medical record
- disease
- identification
- diseases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 201000010099 disease Diseases 0.000 claims abstract description 171
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 171
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000003058 natural language processing Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000003745 diagnosis Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 28
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 238000011282 treatment Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000003748 differential diagnosis Methods 0.000 description 12
- 230000010365 information processing Effects 0.000 description 5
- 208000007814 Unstable Angina Diseases 0.000 description 4
- 230000001154 acute effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 208000010125 myocardial infarction Diseases 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 208000002251 Dissecting Aneurysm Diseases 0.000 description 3
- 208000010378 Pulmonary Embolism Diseases 0.000 description 3
- 206010002895 aortic dissection Diseases 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 208000008494 pericarditis Diseases 0.000 description 3
- 206010002388 Angina unstable Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 201000004332 intermediate coronary syndrome Diseases 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 206010008479 Chest Pain Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- SNIOPGDIGTZGOP-UHFFFAOYSA-N Nitroglycerin Chemical compound [O-][N+](=O)OCC(O[N+]([O-])=O)CO[N+]([O-])=O SNIOPGDIGTZGOP-UHFFFAOYSA-N 0.000 description 1
- 239000000006 Nitroglycerin Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 229960003711 glyceryl trinitrate Drugs 0.000 description 1
- 230000007721 medicinal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002107 myocardial effect Effects 0.000 description 1
- 208000037920 primary disease Diseases 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种数据处理方法及装置,获取待处理病历数据;对待处理病历数据进行预处理,得到第一新信息和第二信息;将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息;将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息;根据第一关联信息和第二关联信息,生成目标信息。在本发明中第一信息包括患者病历特点的信息,第二信息包括患者疾病信息,通过对样本病历数据进行自然语言处理可以得到疾病特征库和鉴别信息库,并通过这些数据库对获得第一信息和第二信息进行自动识别和处理,提升针对病历数据的分析效率和分析准确性的目的。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种数据处理方法及装置。
背景技术
病历是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医疗活动过程的记录。随着技术的发展,目前通过电子病历来记录患者对应的诊疗信息。其中,首次病程记录为患者入院后8小时内需完成的病程记录,一般包括病历特点、疾病与鉴别疾病、诊疗计划等章节。
医生可以根据电子病历数据中记录的首次病程记录数据先分析获得关联信息,然后根据该关联信息确定对患者的进一步检查,通过检查结果来得到最终的诊断信息。在现有技术中需要通过将电子病历数据与鉴别诊断库中的信息进行比对,基于比对结果获得对应的关联信息。现有的鉴别诊断库中的信息均来自医学教科书等文献,由于文献种类较广可能会存在记录不全面的问题,另一方面由于不同的医生对鉴别诊断库中信息的理解不同,使得对鉴别诊断库中信息的利用率较低,这些都会造成针对病历数据的分析效率低、准确度低的问题。
发明内容
针对于上述问题,本发明提供一种数据处理方法及装置,实现了能够自动分析获得病历数据的关联信息,提升分析效率和准确性的目的。
为了实现上述目的,本发明提供了如下技术方案:
一种数据处理方法,所述方法包括:
获取待处理病历数据;
对所述待处理病历数据进行预处理,得到第一信息和第二信息,其中,所述第一信息包括患者病历特点的信息,第二信息包括患者疾病信息;
将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息,所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库,所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据;
将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息,所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库;
根据所述第一关联信息和所述第二关联信息,生成目标信息。
可选地,所述方法还包括:
基于样本病历数据创建疾病特征库,包括:
对样本病历数据中的首次病程记录信息进行信息提取,得到疾病与鉴别疾病的章节信息;
将所述疾病与鉴别疾病的章节信息输入至预设分词模型,使得所述预设分词模型输出具有层次的结构化数据;
基于所述结构化数据,生成疾病特征库。
可选地,所述方法还包括:
基于样本病历数据创建鉴别信息库,包括:
对所述结构化数据进行信息提取,得到鉴别疾病信息;
通过疾病与鉴别疾病之间的对应关系,对所述鉴别疾病信息进行聚合处理,得到鉴别信息库。
可选地,所述方法还包括:
基于样本病历数据创建分词模型,包括:
对样本病历数据进行信息提取,得到层次信息;
根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练,得到分词模型。
可选地,所述根据所述第一关联信息和所述第二关联信息,生成目标信息,包括:
根据所述第一关联信息和所述第二关联信息,确定权重参数;
基于所述权重参数,生成目标信息。
一种数据处理装置,所述装置包括:
数据获取单元,用于获取待处理病历数据;
处理单元,用于对所述待处理病历数据进行预处理,得到第一信息和第二信息,其中,所述第一信息包括患者病历特点的信息,第二信息包括患者疾病信息;
第一识别单元,用于将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息,所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库,所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据;
第二识别单元,用于将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息,所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库;
生成单元,用于根据所述第一关联信息和所述第二关联信息,生成目标信息。
可选地,所述装置还包括:
第一创建单元,用于基于样本病历数据创建疾病特征库,所述第一创建单元包括:
第一提取子单元,用于对样本病历数据中的首次病程记录信息进行信息提取,得到疾病与鉴别疾病的章节信息;
模型处理子单元,用于将所述疾病与鉴别疾病的章节信息输入至预设分词模型,使得所述预设分词模型输出具有层次的结构化数据;
第一生成子单元,用于基于所述结构化数据,生成疾病特征库。
可选地,所述方法还包括:
第二创建单元,用于基于样本病历数据创建鉴别信息库,所述第二创建单元包括:
第二提取子单元,用于对所述结构化数据进行信息提取,得到鉴别疾病信息;
聚合处理子单元,用于通过疾病与鉴别疾病之间的对应关系,对所述鉴别疾病信息进行聚合处理,得到鉴别信息库。
可选地,所述装置还包括:
第三创建单元,用于基于样本病历数据创建分词模型,所述第三创建单元包括:
第三提取子单元,用于对样本病历数据进行信息提取,得到层次信息;
模型训练子单元,用于根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练,得到分词模型。
可选地,所述生成单元包括:
参数确定子单元,用于根据所述第一关联信息和所述第二关联信息,确定权重参数;
第二生成子单元,用于基于所述权重参数,生成目标信息。
相较于现有技术,本发明提供了一种数据处理方法及装置,获取待处理病历数据;对待处理病历数据进行预处理,得到第一新信息和第二信息;将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息;将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息;根据第一关联信息和第二关联信息,生成目标信息。在本发明中第一信息包括患者病历特点的信息,第二信息包括患者疾病信息,通过对样本病历数据进行自然语言处理可以得到疾病特征库和鉴别信息库,并通过这些数据库对获得第一信息和第二信息进行自动识别和处理,提升针对病历数据的分析效率和分析准确性的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的流程示意图;
图2为本发明实施例提供的一种电子病历数据的截取示意图;
图3为本发明实施例提供的一种患者病历数据的处理流程示意图;
图4为本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了便于对本发明的实施例进行解释说明,现将本发明用到的术语进行说明。
电子病历是以电子设备保存、管理、传输、重现病人的医疗记录,为传统纸质病历的数字化版本。
电子病历中的结构化数据是指在电子病历中的计算机可读数据,包括医嘱、检验数据、病案首页的数据等。
电子病历中的非结构化数据是指在电子病历中的自由文本,如首次病程记录、入院记录等文书及其章节内容,也包括检查报告中的检查所见和检查结论,如心电图报告中的文字描述部分。
医疗文书文档指存在于病历中的文书文档,包括入院记录、首次病程记录、日常病程记录、手术记录、出院记录等。
医疗文书文档章节指医疗文书文档中表述不同内容的文本结构,如首次病程记录中包含病历特征、疾病与鉴别疾病、诊疗计划等章节。
首次病程记录,首次病程记录为患者入院后八小时内需完成的病程记录,一般包括病历特点、疾病与鉴别疾病、诊疗计划等章节。
鉴别疾病,指记录与首次病程记录中的,与当前已经下的诊断疾病相鉴别的疾病,为医生排除诊断思路记录,即当前诊断得到的疾病信息是在排除了哪些疾病(鉴别疾病)之后才确立的。
疾病与鉴别疾病章节,指首次病程记录中的疾病与鉴别疾病章节,该章节记录了初步疾病诊断及疾病诊断依据;鉴别疾病及鉴别诊断疾病特点,鉴别诊断疾病特点与患者病情对比的情况。
信息抽取是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。
在本发明实施例中提供了一种数据处理方法,该方法可以对患者的病历数据(如,电子病历信息)进行自动分析,从而获得与该病历数据相匹配的目标关联信息。以辅助医生根据该目标关联信息确定与该患者对应的疾病结果。参见图1,该方法可以包括以下步骤:
S101、获取待处理病历数据。
在本发明实施例中的待处理病历数据来源于患者的电子病历数据,也可以是来自关于该患者记录的其他诊疗数据,在本发明实施例中可以是患者的首次病程记录数据。
S102、对待处理病历数据进行预处理,得到第一信息和第二信息。
其中,对待处理病历数据进行预处理可以是对病历数据进行筛选、格式化统一等处理,也可以是通过分词模型对这些数据进行处理,其中,所述分词模型表征能够对信息进行自然语言处理,且输出结构化数据的模型。
所述第一信息为与所述待处理病历数据具有第一预设关系的信息,包括患者病历特点的信息。所述第二信息表征为待处理病历数据的特征信息,可以包括患者疾病信息。
通过预设分词模型对待处理病历数据进行处理时,由于病历数据的结构并不统一,或者信息录入的格式并没有统一的标准。需要先对数据进行结构化处理,即通过所述预设分词模型对所述待处理病历数据进行处理,得到与所述待处理病历数据相匹配的结构化数据;依据所述结构化数据,确定第一信息和第二信息。其中,分词模型是依据历史电子病历数据的内容作为训练样本得到的模型,可以通过分词模型输出电子病历数据对应的具有层次关系的结构化数据。
举例说明,以电子病历历史病历库中的首次病程记录中自由文本医疗文书文档为基础,提取文档中的疾病与鉴别疾病章节并进行分析处理,获得文档中的逻辑层次关系,形成适用于该章节的分词模型,通过分词模型进行自然语言处理,输出具有层次关系的结构化数据。具体的,如对历史病历中的首次病程记录进行处理,提取其中的疾病与鉴别疾病章节,对其中描述的逻辑层次关系进行分析,构建出用于疾病与鉴别疾病章节的分词模型,历史疾病中的首次病程记录输入分词模型后,可输出为语义明确、层次清晰的结构化数据。
S103、将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息。
S104、将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息。
所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库,所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据;所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库。
具体的,在本发明中可以基于样本病历数据创建疾病特征库和鉴别信息库。其中,样本病历数据是指历史病历数据,即包括医生的诊断信息的病历数据。
具体的,基于样本病历数据创建疾病特征库,可以包括以下步骤:
S201、对样本病历数据中的首次病程记录信息进行信息提取,得到疾病与鉴别疾病的章节信息;
S202、将所述疾病与鉴别疾病的章节信息输入至预设分词模型,使得所述预设分词模型输出具有层次的结构化数据;
S203、基于所述结构化数据,生成疾病特征库。
对应的,基于样本病历数据创建鉴别信息库,可以包括以下步骤:
S301、对所述结构化数据进行信息提取,得到鉴别疾病信息;
S302、通过疾病与鉴别疾病之间的对应关系,对所述鉴别疾病信息进行聚合处理,得到鉴别信息库。
在本发明实施例中还可以基于样本病历数据创建分词模型,包括:获取样本病历数据进行信息提取,得到层次信息;根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练,得到分词模型。
其中,疾病特征库为利用样本病历数据对应的结构化数据,进行疾病特征特征处理得到的数据库,该疾病特征库中包括若干疾病特征信息。具体的,可以对历史病历通过分词模型输出的结构化数据进行处理,提取鉴别疾病(在某些病历数据中也记为鉴别诊断)章节中的诊断、症状、体征、检验结果、检查结果之间的关系,以疾病为单位,进行聚合,输出为疾病特征库。
鉴别信息库为对结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库,如,对历史病历通过分词模型输出的结构化数据进行处理,提取鉴别疾病章节中,疾病与鉴别疾病的关系,通过融合,形成鉴别信息库。需要说明的是,这里的鉴别疾病是排除其他疾病的处理过程,若要得到患者对应的准确的疾病信息,还需要需要医生根据该获取到的患者特征结合其他诊断信息,如超声诊断信息进行判断,才能够得出最终的疾病诊断结果。
具体的,对输出的结构化数据中的关于能够进行鉴别疾病与疾病特征的关联信息进行处理,形成鉴别信息库。其中,能够进行鉴别诊断与疾病特征的关联信息为分词模型输出的结构化数据,该结构化数据可以包括症状信息、体征信息、检验信息、检查结果信息、用药信息、用药效果信息等。可以对历史病历通过分词模型输出的结构化数据进行处理,提取鉴别诊断章节(也可以是鉴别疾病章节)中,其中的诊断、症状、体征、检验结果、检查结果之间的关系,以疾病为单位,进行聚合,输出为疾病特征库。
参见图2,其示出了本发明实施例提供的一种电子病历数据截图,其记录了诊断与鉴别诊断的信息。该病例诊断为急性下壁心肌梗死,鉴别诊断为1)不稳定性心绞痛2)主动脉夹层3)肺栓塞4)急性心包炎。结构化数据输出后,鉴别诊断中的疾病特征,如:不稳定型心绞痛(诊断)聚合后具有胸痛(症状)、硝酸甘油(用药)、缓解(用药效果)、心肌酶无变化(检验结果)心电图无动态演变(检查结果)等特征。
将该病历数据通过分词模型输出的结构化数据进行处理,提取鉴别诊断章节中,诊断与鉴别诊断的关系,通过聚合,形成鉴别诊断库。以图2中的病历数据,该病历诊断为急性下壁心肌梗死,鉴别诊断为不稳定性心绞痛、主动脉夹层、肺栓塞、急性心包炎,取5份诊断为急性下壁心肌梗死的病历,对其数据进行分析,得到表1的分析结果。
表1
如表1所示,聚合后,需要与急性下壁心肌梗死鉴别的疾病依次为:不稳定性心绞痛(5份)、肺栓塞(4份)、急性心包炎(3份)、主动脉夹层(2份),扩大样本量后可了解到真实的鉴别疾病排行。但是上述信息输出后只能作为判断诊断结果的关联信息,并不能作为最终的诊断结果输出。
S105、根据所述第一关联信息和所述第二关联信息,生成目标信息。
在得到第一关联信息和第二关联信息之后,可以根据两个关联信息之间的对应关系,确定目标关联信息,也可以根据其中的一个的关联信息,对另一个关联信息的权重值进行调整,即获得一个最可能的关联信息,来作为目标关联信息。例如,基于所述第二信息对所述第一信息的信息权重进行调整,获得目标关联信息。由于鉴别疾病的信息处理是对排除其他疾病的一种信息处理方式,其得到的是鉴别疾病的相关信息,而并不是直接的诊断结果,属于对电子病历信息的数据处理过程中的中间信息。
参见图3,其示出了一种患者病历数据的处理流程示意图,在该应用示例中对新输入的患者病历数据,经过自然语言处理(分词模型)处理后,包括初步诊断和病历特点两部分,初步诊断输入鉴别信息库,输出为与该初步诊断相匹配的鉴别疾病列表及其概率;病例特点输入疾病特征库,输出为具有病历特点的相似诊断列表,将诊断列表中诊断对应上述形成的鉴别疾病列表的疾病,增加其权重,最终形成与患者病历数据相适应的修正后的鉴别疾病列表(也可以作为鉴别诊断的关联信息)。在该应用实例中,由于患者的病历特点即患者病情数据作为输入参数,通过该方法可以得到与该患者病情相适应的鉴别疾病都有哪些,该患者的病情在历史病历库中又是一个人群特征,该类特征的人群,都应该跟哪些疾病做鉴别也可明确,即可以明确知道与该患者病情相适应的鉴别诊断次序,哪些最应该做鉴别,哪些其次。从而可以提升患者诊断过程中信息分析的效率和准确性。
参见图4,在本发明实施例中还提供了一种数据处理装置,该装置包括:
数据获取单元10,用于获取待处理病历数据;
处理单元20,用于对所述待处理病历数据进行预处理,得到第一信息和第二信息,其中,所述第一信息包括患者病历特点的信息,第二信息包括患者疾病信息;
第一识别单元30,用于将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息,所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库,所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据;
第二识别单元40,用于将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息,所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库;
生成单元50,用于根据所述第一关联信息和所述第二关联信息,生成目标信息。
在上述实施例的基础上,所述装置还包括:
第一创建单元,用于基于样本病历数据创建疾病特征库,所述第一创建单元包括:
第一提取子单元,用于对样本病历数据中的首次病程记录信息进行信息提取,得到疾病与鉴别疾病的章节信息;
模型处理子单元,用于将所述疾病与鉴别疾病的章节信息输入至预设分词模型,使得所述预设分词模型输出具有层次的结构化数据;
第一生成子单元,用于基于所述结构化数据,生成疾病特征库。
在上述实施例的基础上,所述方法还包括:
第二创建单元,用于基于样本病历数据创建鉴别信息库,所述第二创建单元包括:
第二提取子单元,用于对所述结构化数据进行信息提取,得到鉴别疾病信息;
聚合处理子单元,用于通过疾病与鉴别疾病之间的对应关系,对所述鉴别疾病信息进行聚合处理,得到鉴别信息库。
在上述实施例的基础上,所述装置还包括:
第三创建单元,用于基于样本病历数据创建分词模型,所述第三创建单元包括:
第三提取子单元,用于对样本病历数据进行信息提取,得到层次信息;
模型训练子单元,用于根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练,得到分词模型。
在上述实施例的基础上,所述生成单元包括:
参数确定子单元,用于根据所述第一关联信息和所述第二关联信息,确定权重参数;
第二生成子单元,用于基于所述权重参数,生成目标信息。
本发明提供了一种数据处理装置,数据获取单元获取待处理病历数据;处理单元对待处理病历数据进行预处理,得到第一新信息和第二信息;第一识别单元将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息;第二识别单元将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息;生成单元根据第一关联信息和第二关联信息,生成目标信息。在本发明中第一信息包括患者病历特点的信息,第二信息包括患者疾病信息,通过对样本病历数据进行自然语言处理可以得到疾病特征库和鉴别信息库,并通过这些数据库对获得第一信息和第二信息进行自动识别和处理,提升针对病历数据的分析效率和分析准确性的目的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理病历数据;
对所述待处理病历数据进行预处理,得到第一信息和第二信息,其中,所述第一信息包括患者病历特点的信息,第二信息包括患者疾病信息;
将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息,所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库,所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据;
将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息,所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库,所述鉴别疾病为记录与首次病程记录中的,与当前已经下的诊断疾病相鉴别的疾病,为医生排除诊断思路记录;
根据所述第一关联信息和所述第二关联信息,生成目标信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于样本病历数据创建疾病特征库,包括:
对样本病历数据中的首次病程记录信息进行信息提取,得到疾病与鉴别疾病的章节信息;
将所述疾病与鉴别疾病的章节信息输入至预设分词模型,使得所述预设分词模型输出具有层次的结构化数据;
基于所述结构化数据,生成疾病特征库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于样本病历数据创建鉴别信息库,包括:
对所述结构化数据进行信息提取,得到鉴别疾病信息;
通过疾病与鉴别疾病之间的对应关系,对所述鉴别疾病信息进行聚合处理,得到鉴别信息库。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于样本病历数据创建分词模型,包括:
对样本病历数据进行信息提取,得到层次信息;
根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练,得到分词模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一关联信息和所述第二关联信息,生成目标信息,包括:
根据所述第一关联信息和所述第二关联信息,确定权重参数;
基于所述权重参数,生成目标信息。
6.一种数据处理装置,其特征在于,所述装置包括:
数据获取单元,用于获取待处理病历数据;
处理单元,用于对所述待处理病历数据进行预处理,得到第一信息和第二信息,其中,所述第一信息包括患者病历特点的信息,第二信息包括患者疾病信息;
第一识别单元,用于将所述第一信息输入至预设疾病特征库进行信息识别,获得第一关联信息,所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库,所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据;
第二识别单元,用于将所述第二信息输入至预设鉴别信息库进行信息识别,获得第二关联信息,所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库,所述鉴别疾病为记录与首次病程记录中的,与当前已经下的诊断疾病相鉴别的疾病,为医生排除诊断思路记录;
生成单元,用于根据所述第一关联信息和所述第二关联信息,生成目标信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一创建单元,用于基于样本病历数据创建疾病特征库,所述第一创建单元包括:
第一提取子单元,用于对样本病历数据中的首次病程记录信息进行信息提取,得到疾病与鉴别疾病的章节信息;
模型处理子单元,用于将所述疾病与鉴别疾病的章节信息输入至预设分词模型,使得所述预设分词模型输出具有层次的结构化数据;
第一生成子单元,用于基于所述结构化数据,生成疾病特征库。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二创建单元,用于基于样本病历数据创建鉴别信息库,所述第二创建单元包括:
第二提取子单元,用于对所述结构化数据进行信息提取,得到鉴别疾病信息;
聚合处理子单元,用于通过疾病与鉴别疾病之间的对应关系,对所述鉴别疾病信息进行聚合处理,得到鉴别信息库。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三创建单元,用于基于样本病历数据创建分词模型,所述第三创建单元包括:
第三提取子单元,用于对样本病历数据进行信息提取,得到层次信息;
模型训练子单元,用于根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练,得到分词模型。
10.根据权利要求6所述的装置,其特征在于,所述生成单元包括:
参数确定子单元,用于根据所述第一关联信息和所述第二关联信息,确定权重参数;
第二生成子单元,用于基于所述权重参数,生成目标信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559649.2A CN111724873B (zh) | 2020-06-18 | 2020-06-18 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559649.2A CN111724873B (zh) | 2020-06-18 | 2020-06-18 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111724873A CN111724873A (zh) | 2020-09-29 |
CN111724873B true CN111724873B (zh) | 2024-01-09 |
Family
ID=72567414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010559649.2A Active CN111724873B (zh) | 2020-06-18 | 2020-06-18 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111724873B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185586A (zh) * | 2020-11-17 | 2021-01-05 | 北京嘉和海森健康科技有限公司 | 一种传染病监测预警方法及装置 |
CN118098475B (zh) * | 2024-04-22 | 2024-08-02 | 来未来科技(浙江)有限公司 | 一种鉴别诊断文书生成方法、装置、设备及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243736A (zh) * | 2011-04-28 | 2011-11-16 | 大连亿创天地科技发展有限公司 | 基于互联网和视频电子病历的健康管理系统 |
WO2014145234A2 (en) * | 2013-03-15 | 2014-09-18 | Vigenetech, Inc. | Systems and apparatus for integrated and comprehensive biomedical annotation of bioassay data |
CN107193996A (zh) * | 2017-06-09 | 2017-09-22 | 广州慧扬健康科技有限公司 | 相似病历匹配检索系统 |
CN108091399A (zh) * | 2017-12-25 | 2018-05-29 | 深圳市慧康医信科技有限公司 | 一种动态疾病模型库的分析方法及系统 |
CN108154928A (zh) * | 2017-12-27 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种疾病诊断方法及装置 |
CN108960640A (zh) * | 2018-07-10 | 2018-12-07 | 重庆医科大学附属儿童医院 | 一种云数据临床医学教育培训过程的形成性评价优化系统 |
CN109119160A (zh) * | 2018-08-20 | 2019-01-01 | 重庆柚瓣家科技有限公司 | 多重推理方式的专家分诊系统及其方法 |
CN109166608A (zh) * | 2018-09-17 | 2019-01-08 | 新华三大数据技术有限公司 | 电子病历信息提取方法、装置和设备 |
CN106339602B (zh) * | 2016-08-26 | 2019-02-26 | 丁腊春 | 一种智能咨询机器人 |
CN109509551A (zh) * | 2018-11-01 | 2019-03-22 | 新博卓畅技术(北京)有限公司 | 一种常见疾病智能诊断方法及系统 |
CN110111902A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 急性传染病的发病周期预测方法、装置及存储介质 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN110504031A (zh) * | 2019-08-28 | 2019-11-26 | 首都医科大学 | 用于健康行为干预的云端管理数据库建立方法及系统 |
CN110534206A (zh) * | 2019-08-26 | 2019-12-03 | 北京好医生云医院管理技术有限公司 | 一种医疗诊断辅助系统的工作方法 |
CN110827941A (zh) * | 2019-11-06 | 2020-02-21 | 山东众阳健康科技集团有限公司 | 电子病历信息校正方法及系统 |
CN111180026A (zh) * | 2019-12-23 | 2020-05-19 | 卫宁健康科技集团股份有限公司 | 专科诊疗视图系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120011156A1 (en) * | 2010-06-29 | 2012-01-12 | Indiana University Research And Technology Corporation | Inter-class molecular association connectivity mapping |
-
2020
- 2020-06-18 CN CN202010559649.2A patent/CN111724873B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243736A (zh) * | 2011-04-28 | 2011-11-16 | 大连亿创天地科技发展有限公司 | 基于互联网和视频电子病历的健康管理系统 |
WO2014145234A2 (en) * | 2013-03-15 | 2014-09-18 | Vigenetech, Inc. | Systems and apparatus for integrated and comprehensive biomedical annotation of bioassay data |
CN106339602B (zh) * | 2016-08-26 | 2019-02-26 | 丁腊春 | 一种智能咨询机器人 |
CN107193996A (zh) * | 2017-06-09 | 2017-09-22 | 广州慧扬健康科技有限公司 | 相似病历匹配检索系统 |
CN108091399A (zh) * | 2017-12-25 | 2018-05-29 | 深圳市慧康医信科技有限公司 | 一种动态疾病模型库的分析方法及系统 |
CN108154928A (zh) * | 2017-12-27 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种疾病诊断方法及装置 |
CN108960640A (zh) * | 2018-07-10 | 2018-12-07 | 重庆医科大学附属儿童医院 | 一种云数据临床医学教育培训过程的形成性评价优化系统 |
CN109119160A (zh) * | 2018-08-20 | 2019-01-01 | 重庆柚瓣家科技有限公司 | 多重推理方式的专家分诊系统及其方法 |
CN109166608A (zh) * | 2018-09-17 | 2019-01-08 | 新华三大数据技术有限公司 | 电子病历信息提取方法、装置和设备 |
CN109509551A (zh) * | 2018-11-01 | 2019-03-22 | 新博卓畅技术(北京)有限公司 | 一种常见疾病智能诊断方法及系统 |
CN110111902A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 急性传染病的发病周期预测方法、装置及存储介质 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN110534206A (zh) * | 2019-08-26 | 2019-12-03 | 北京好医生云医院管理技术有限公司 | 一种医疗诊断辅助系统的工作方法 |
CN110504031A (zh) * | 2019-08-28 | 2019-11-26 | 首都医科大学 | 用于健康行为干预的云端管理数据库建立方法及系统 |
CN110827941A (zh) * | 2019-11-06 | 2020-02-21 | 山东众阳健康科技集团有限公司 | 电子病历信息校正方法及系统 |
CN111180026A (zh) * | 2019-12-23 | 2020-05-19 | 卫宁健康科技集团股份有限公司 | 专科诊疗视图系统及方法 |
Non-Patent Citations (1)
Title |
---|
深度学习在电子病历抗菌药物使用方法分类中的应用;梁治钢等;《甘肃省人民医院网络中心》;第71-77页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111724873A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN107247881B (zh) | 一种多模态智能分析方法及系统 | |
JP5952835B2 (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
US9165116B2 (en) | Patient data mining | |
Garvin et al. | Automated extraction of ejection fraction for quality measurement using regular expressions in Unstructured Information Management Architecture (UIMA) for heart failure | |
CN106407443B (zh) | 一种结构化医疗数据生成方法及装置 | |
CN109920540A (zh) | 辅助诊疗决策系统的构建方法、装置及计算机设备 | |
CN110827941A (zh) | 电子病历信息校正方法及系统 | |
CN112635011A (zh) | 疾病诊断方法、疾病诊断系统和可读存储介质 | |
CN112349369A (zh) | 医疗影像大数据智能分析方法、系统及存储介质 | |
CN111724873B (zh) | 一种数据处理方法及装置 | |
CN116860987A (zh) | 基于生成式大语言模型的领域知识图谱构建方法和系统 | |
CN113488180B (zh) | 一种临床指南知识建模方法及系统 | |
CN112466462B (zh) | 一种基于图深度学习的emr信息关联及演化方法 | |
CN114913942A (zh) | 患者招募项目智能匹配方法及装置 | |
Follett et al. | Quantifying risk associated with clinical trial termination: A text mining approach | |
CN115083550B (zh) | 基于多源信息的病人相似度分类方法 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN116775897A (zh) | 知识图谱构建和查询方法、装置、电子设备及存储介质 | |
CN111524570A (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
JP2022504508A (ja) | モデル支援型事象予測のためのシステム及び方法 | |
JP2017167738A (ja) | 診断処理装置、診断処理システム、サーバ、端末装置、診断処理方法及びプログラム | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
US20230377697A1 (en) | System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |