CN111724873B

CN111724873B - 一种数据处理方法及装置

Info

Publication number: CN111724873B
Application number: CN202010559649.2A
Authority: CN
Inventors: 孟庆伟; 胡可云; 陈联忠
Original assignee: Beijing Jiahesen Health Technology Co ltd
Current assignee: Beijing Jiahesen Health Technology Co ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2024-01-09
Anticipated expiration: 2040-06-18
Also published as: CN111724873A

Abstract

本发明公开了一种数据处理方法及装置，获取待处理病历数据；对待处理病历数据进行预处理，得到第一新信息和第二信息；将所述第一信息输入至预设疾病特征库进行信息识别，获得第一关联信息；将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息；根据第一关联信息和第二关联信息，生成目标信息。在本发明中第一信息包括患者病历特点的信息，第二信息包括患者疾病信息，通过对样本病历数据进行自然语言处理可以得到疾病特征库和鉴别信息库，并通过这些数据库对获得第一信息和第二信息进行自动识别和处理，提升针对病历数据的分析效率和分析准确性的目的。

Description

一种数据处理方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种数据处理方法及装置。

背景技术

病历是医务人员对患者疾病的发生、发展、转归，进行检查、诊断、治疗等医疗活动过程的记录。随着技术的发展，目前通过电子病历来记录患者对应的诊疗信息。其中，首次病程记录为患者入院后8小时内需完成的病程记录，一般包括病历特点、疾病与鉴别疾病、诊疗计划等章节。

医生可以根据电子病历数据中记录的首次病程记录数据先分析获得关联信息，然后根据该关联信息确定对患者的进一步检查，通过检查结果来得到最终的诊断信息。在现有技术中需要通过将电子病历数据与鉴别诊断库中的信息进行比对，基于比对结果获得对应的关联信息。现有的鉴别诊断库中的信息均来自医学教科书等文献，由于文献种类较广可能会存在记录不全面的问题，另一方面由于不同的医生对鉴别诊断库中信息的理解不同，使得对鉴别诊断库中信息的利用率较低，这些都会造成针对病历数据的分析效率低、准确度低的问题。

发明内容

针对于上述问题，本发明提供一种数据处理方法及装置，实现了能够自动分析获得病历数据的关联信息，提升分析效率和准确性的目的。

为了实现上述目的，本发明提供了如下技术方案：

一种数据处理方法，所述方法包括：

获取待处理病历数据；

对所述待处理病历数据进行预处理，得到第一信息和第二信息，其中，所述第一信息包括患者病历特点的信息，第二信息包括患者疾病信息；

将所述第一信息输入至预设疾病特征库进行信息识别，获得第一关联信息，所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库，所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据；

将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息，所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库；

根据所述第一关联信息和所述第二关联信息，生成目标信息。

可选地，所述方法还包括：

基于样本病历数据创建疾病特征库，包括：

对样本病历数据中的首次病程记录信息进行信息提取，得到疾病与鉴别疾病的章节信息；

将所述疾病与鉴别疾病的章节信息输入至预设分词模型，使得所述预设分词模型输出具有层次的结构化数据；

基于所述结构化数据，生成疾病特征库。

可选地，所述方法还包括：

基于样本病历数据创建鉴别信息库，包括：

对所述结构化数据进行信息提取，得到鉴别疾病信息；

通过疾病与鉴别疾病之间的对应关系，对所述鉴别疾病信息进行聚合处理，得到鉴别信息库。

可选地，所述方法还包括：

基于样本病历数据创建分词模型，包括：

对样本病历数据进行信息提取，得到层次信息；

根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练，得到分词模型。

可选地，所述根据所述第一关联信息和所述第二关联信息，生成目标信息，包括：

根据所述第一关联信息和所述第二关联信息，确定权重参数；

基于所述权重参数，生成目标信息。

一种数据处理装置，所述装置包括：

数据获取单元，用于获取待处理病历数据；

处理单元，用于对所述待处理病历数据进行预处理，得到第一信息和第二信息，其中，所述第一信息包括患者病历特点的信息，第二信息包括患者疾病信息；

第一识别单元，用于将所述第一信息输入至预设疾病特征库进行信息识别，获得第一关联信息，所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库，所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据；

第二识别单元，用于将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息，所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库；

生成单元，用于根据所述第一关联信息和所述第二关联信息，生成目标信息。

可选地，所述装置还包括：

第一创建单元，用于基于样本病历数据创建疾病特征库，所述第一创建单元包括：

第一提取子单元，用于对样本病历数据中的首次病程记录信息进行信息提取，得到疾病与鉴别疾病的章节信息；

模型处理子单元，用于将所述疾病与鉴别疾病的章节信息输入至预设分词模型，使得所述预设分词模型输出具有层次的结构化数据；

第一生成子单元，用于基于所述结构化数据，生成疾病特征库。

可选地，所述方法还包括：

第二创建单元，用于基于样本病历数据创建鉴别信息库，所述第二创建单元包括：

第二提取子单元，用于对所述结构化数据进行信息提取，得到鉴别疾病信息；

聚合处理子单元，用于通过疾病与鉴别疾病之间的对应关系，对所述鉴别疾病信息进行聚合处理，得到鉴别信息库。

可选地，所述装置还包括：

第三创建单元，用于基于样本病历数据创建分词模型，所述第三创建单元包括：

第三提取子单元，用于对样本病历数据进行信息提取，得到层次信息；

模型训练子单元，用于根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练，得到分词模型。

可选地，所述生成单元包括：

参数确定子单元，用于根据所述第一关联信息和所述第二关联信息，确定权重参数；

第二生成子单元，用于基于所述权重参数，生成目标信息。

相较于现有技术，本发明提供了一种数据处理方法及装置，获取待处理病历数据；对待处理病历数据进行预处理，得到第一新信息和第二信息；将所述第一信息输入至预设疾病特征库进行信息识别，获得第一关联信息；将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息；根据第一关联信息和第二关联信息，生成目标信息。在本发明中第一信息包括患者病历特点的信息，第二信息包括患者疾病信息，通过对样本病历数据进行自然语言处理可以得到疾病特征库和鉴别信息库，并通过这些数据库对获得第一信息和第二信息进行自动识别和处理，提升针对病历数据的分析效率和分析准确性的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种数据处理方法的流程示意图；

图2为本发明实施例提供的一种电子病历数据的截取示意图；

图3为本发明实施例提供的一种患者病历数据的处理流程示意图；

图4为本发明实施例提供的一种数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

为了便于对本发明的实施例进行解释说明，现将本发明用到的术语进行说明。

电子病历是以电子设备保存、管理、传输、重现病人的医疗记录，为传统纸质病历的数字化版本。

电子病历中的结构化数据是指在电子病历中的计算机可读数据，包括医嘱、检验数据、病案首页的数据等。

电子病历中的非结构化数据是指在电子病历中的自由文本，如首次病程记录、入院记录等文书及其章节内容，也包括检查报告中的检查所见和检查结论，如心电图报告中的文字描述部分。

医疗文书文档指存在于病历中的文书文档，包括入院记录、首次病程记录、日常病程记录、手术记录、出院记录等。

医疗文书文档章节指医疗文书文档中表述不同内容的文本结构，如首次病程记录中包含病历特征、疾病与鉴别疾病、诊疗计划等章节。

首次病程记录，首次病程记录为患者入院后八小时内需完成的病程记录，一般包括病历特点、疾病与鉴别疾病、诊疗计划等章节。

鉴别疾病，指记录与首次病程记录中的，与当前已经下的诊断疾病相鉴别的疾病，为医生排除诊断思路记录，即当前诊断得到的疾病信息是在排除了哪些疾病(鉴别疾病)之后才确立的。

疾病与鉴别疾病章节，指首次病程记录中的疾病与鉴别疾病章节，该章节记录了初步疾病诊断及疾病诊断依据；鉴别疾病及鉴别诊断疾病特点，鉴别诊断疾病特点与患者病情对比的情况。

信息抽取是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。

在本发明实施例中提供了一种数据处理方法，该方法可以对患者的病历数据(如，电子病历信息)进行自动分析，从而获得与该病历数据相匹配的目标关联信息。以辅助医生根据该目标关联信息确定与该患者对应的疾病结果。参见图1，该方法可以包括以下步骤：

S101、获取待处理病历数据。

在本发明实施例中的待处理病历数据来源于患者的电子病历数据，也可以是来自关于该患者记录的其他诊疗数据，在本发明实施例中可以是患者的首次病程记录数据。

S102、对待处理病历数据进行预处理，得到第一信息和第二信息。

其中，对待处理病历数据进行预处理可以是对病历数据进行筛选、格式化统一等处理，也可以是通过分词模型对这些数据进行处理，其中，所述分词模型表征能够对信息进行自然语言处理，且输出结构化数据的模型。

所述第一信息为与所述待处理病历数据具有第一预设关系的信息，包括患者病历特点的信息。所述第二信息表征为待处理病历数据的特征信息，可以包括患者疾病信息。

通过预设分词模型对待处理病历数据进行处理时，由于病历数据的结构并不统一，或者信息录入的格式并没有统一的标准。需要先对数据进行结构化处理，即通过所述预设分词模型对所述待处理病历数据进行处理，得到与所述待处理病历数据相匹配的结构化数据；依据所述结构化数据，确定第一信息和第二信息。其中，分词模型是依据历史电子病历数据的内容作为训练样本得到的模型，可以通过分词模型输出电子病历数据对应的具有层次关系的结构化数据。

举例说明，以电子病历历史病历库中的首次病程记录中自由文本医疗文书文档为基础，提取文档中的疾病与鉴别疾病章节并进行分析处理，获得文档中的逻辑层次关系，形成适用于该章节的分词模型，通过分词模型进行自然语言处理，输出具有层次关系的结构化数据。具体的，如对历史病历中的首次病程记录进行处理，提取其中的疾病与鉴别疾病章节，对其中描述的逻辑层次关系进行分析，构建出用于疾病与鉴别疾病章节的分词模型，历史疾病中的首次病程记录输入分词模型后，可输出为语义明确、层次清晰的结构化数据。

S103、将所述第一信息输入至预设疾病特征库进行信息识别，获得第一关联信息。

S104、将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息。

所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库，所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据；所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库。

具体的，在本发明中可以基于样本病历数据创建疾病特征库和鉴别信息库。其中，样本病历数据是指历史病历数据，即包括医生的诊断信息的病历数据。

具体的，基于样本病历数据创建疾病特征库，可以包括以下步骤：

S201、对样本病历数据中的首次病程记录信息进行信息提取，得到疾病与鉴别疾病的章节信息；

S202、将所述疾病与鉴别疾病的章节信息输入至预设分词模型，使得所述预设分词模型输出具有层次的结构化数据；

S203、基于所述结构化数据，生成疾病特征库。

对应的，基于样本病历数据创建鉴别信息库，可以包括以下步骤：

S301、对所述结构化数据进行信息提取，得到鉴别疾病信息；

S302、通过疾病与鉴别疾病之间的对应关系，对所述鉴别疾病信息进行聚合处理，得到鉴别信息库。

在本发明实施例中还可以基于样本病历数据创建分词模型，包括：获取样本病历数据进行信息提取，得到层次信息；根据所述层次信息和与所述层次信息对应的结构化数据进行模型训练，得到分词模型。

其中，疾病特征库为利用样本病历数据对应的结构化数据，进行疾病特征特征处理得到的数据库，该疾病特征库中包括若干疾病特征信息。具体的，可以对历史病历通过分词模型输出的结构化数据进行处理，提取鉴别疾病(在某些病历数据中也记为鉴别诊断)章节中的诊断、症状、体征、检验结果、检查结果之间的关系，以疾病为单位，进行聚合，输出为疾病特征库。

鉴别信息库为对结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库，如，对历史病历通过分词模型输出的结构化数据进行处理，提取鉴别疾病章节中，疾病与鉴别疾病的关系，通过融合，形成鉴别信息库。需要说明的是，这里的鉴别疾病是排除其他疾病的处理过程，若要得到患者对应的准确的疾病信息，还需要需要医生根据该获取到的患者特征结合其他诊断信息，如超声诊断信息进行判断，才能够得出最终的疾病诊断结果。

具体的，对输出的结构化数据中的关于能够进行鉴别疾病与疾病特征的关联信息进行处理，形成鉴别信息库。其中，能够进行鉴别诊断与疾病特征的关联信息为分词模型输出的结构化数据，该结构化数据可以包括症状信息、体征信息、检验信息、检查结果信息、用药信息、用药效果信息等。可以对历史病历通过分词模型输出的结构化数据进行处理，提取鉴别诊断章节(也可以是鉴别疾病章节)中，其中的诊断、症状、体征、检验结果、检查结果之间的关系，以疾病为单位，进行聚合，输出为疾病特征库。

参见图2，其示出了本发明实施例提供的一种电子病历数据截图，其记录了诊断与鉴别诊断的信息。该病例诊断为急性下壁心肌梗死，鉴别诊断为1)不稳定性心绞痛2)主动脉夹层3)肺栓塞4)急性心包炎。结构化数据输出后，鉴别诊断中的疾病特征，如：不稳定型心绞痛(诊断)聚合后具有胸痛(症状)、硝酸甘油(用药)、缓解(用药效果)、心肌酶无变化(检验结果)心电图无动态演变(检查结果)等特征。

将该病历数据通过分词模型输出的结构化数据进行处理，提取鉴别诊断章节中，诊断与鉴别诊断的关系，通过聚合，形成鉴别诊断库。以图2中的病历数据，该病历诊断为急性下壁心肌梗死，鉴别诊断为不稳定性心绞痛、主动脉夹层、肺栓塞、急性心包炎，取5份诊断为急性下壁心肌梗死的病历，对其数据进行分析，得到表1的分析结果。

表1

如表1所示，聚合后，需要与急性下壁心肌梗死鉴别的疾病依次为：不稳定性心绞痛(5份)、肺栓塞(4份)、急性心包炎(3份)、主动脉夹层(2份)，扩大样本量后可了解到真实的鉴别疾病排行。但是上述信息输出后只能作为判断诊断结果的关联信息，并不能作为最终的诊断结果输出。

S105、根据所述第一关联信息和所述第二关联信息，生成目标信息。

在得到第一关联信息和第二关联信息之后，可以根据两个关联信息之间的对应关系，确定目标关联信息，也可以根据其中的一个的关联信息，对另一个关联信息的权重值进行调整，即获得一个最可能的关联信息，来作为目标关联信息。例如，基于所述第二信息对所述第一信息的信息权重进行调整，获得目标关联信息。由于鉴别疾病的信息处理是对排除其他疾病的一种信息处理方式，其得到的是鉴别疾病的相关信息，而并不是直接的诊断结果，属于对电子病历信息的数据处理过程中的中间信息。

参见图3，其示出了一种患者病历数据的处理流程示意图，在该应用示例中对新输入的患者病历数据，经过自然语言处理(分词模型)处理后，包括初步诊断和病历特点两部分，初步诊断输入鉴别信息库，输出为与该初步诊断相匹配的鉴别疾病列表及其概率；病例特点输入疾病特征库，输出为具有病历特点的相似诊断列表，将诊断列表中诊断对应上述形成的鉴别疾病列表的疾病，增加其权重，最终形成与患者病历数据相适应的修正后的鉴别疾病列表(也可以作为鉴别诊断的关联信息)。在该应用实例中，由于患者的病历特点即患者病情数据作为输入参数，通过该方法可以得到与该患者病情相适应的鉴别疾病都有哪些，该患者的病情在历史病历库中又是一个人群特征，该类特征的人群，都应该跟哪些疾病做鉴别也可明确，即可以明确知道与该患者病情相适应的鉴别诊断次序，哪些最应该做鉴别，哪些其次。从而可以提升患者诊断过程中信息分析的效率和准确性。

参见图4，在本发明实施例中还提供了一种数据处理装置，该装置包括：

数据获取单元10，用于获取待处理病历数据；

处理单元20，用于对所述待处理病历数据进行预处理，得到第一信息和第二信息，其中，所述第一信息包括患者病历特点的信息，第二信息包括患者疾病信息；

第一识别单元30，用于将所述第一信息输入至预设疾病特征库进行信息识别，获得第一关联信息，所述预设疾病特征库表征对样本病历数据的结构化数据进行特征处理得到的数据库，所述结构化数据表征通过对所述样本病历数据进行关联处理及自然语言处理得到的数据；

第二识别单元40，用于将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息，所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库；

生成单元50，用于根据所述第一关联信息和所述第二关联信息，生成目标信息。

在上述实施例的基础上，所述装置还包括：

在上述实施例的基础上，所述方法还包括：

在上述实施例的基础上，所述装置还包括：

在上述实施例的基础上，所述生成单元包括：

第二生成子单元，用于基于所述权重参数，生成目标信息。

本发明提供了一种数据处理装置，数据获取单元获取待处理病历数据；处理单元对待处理病历数据进行预处理，得到第一新信息和第二信息；第一识别单元将所述第一信息输入至预设疾病特征库进行信息识别，获得第一关联信息；第二识别单元将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息；生成单元根据第一关联信息和第二关联信息，生成目标信息。在本发明中第一信息包括患者病历特点的信息，第二信息包括患者疾病信息，通过对样本病历数据进行自然语言处理可以得到疾病特征库和鉴别信息库，并通过这些数据库对获得第一信息和第二信息进行自动识别和处理，提升针对病历数据的分析效率和分析准确性的目的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待处理病历数据；

将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息，所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库，所述鉴别疾病为记录与首次病程记录中的，与当前已经下的诊断疾病相鉴别的疾病，为医生排除诊断思路记录；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于样本病历数据创建疾病特征库，包括：

基于所述结构化数据，生成疾病特征库。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于样本病历数据创建鉴别信息库，包括：

对所述结构化数据进行信息提取，得到鉴别疾病信息；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于样本病历数据创建分词模型，包括：

对样本病历数据进行信息提取，得到层次信息；

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一关联信息和所述第二关联信息，生成目标信息，包括：

基于所述权重参数，生成目标信息。

6.一种数据处理装置，其特征在于，所述装置包括：

数据获取单元，用于获取待处理病历数据；

第二识别单元，用于将所述第二信息输入至预设鉴别信息库进行信息识别，获得第二关联信息，所述预设鉴别信息库表征对所述结构化数据进行疾病与鉴别疾病的聚合处理得到的数据库，所述鉴别疾病为记录与首次病程记录中的，与当前已经下的诊断疾病相鉴别的疾病，为医生排除诊断思路记录；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6所述的装置，其特征在于，所述生成单元包括：

第二生成子单元，用于基于所述权重参数，生成目标信息。