CN112735544A

CN112735544A - 病历数据的处理方法、装置及存储介质

Info

Publication number: CN112735544A
Application number: CN202011604367.6A
Authority: CN
Inventors: 郑永升; 梁平
Original assignee: Hangzhou Yitu Medical Technology Co ltd
Current assignee: Hangzhou Yitu Medical Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-30

Abstract

本公开涉及病历数据的处理方法、病历数据的处理装置及计算机可读存储介质，处理方法包括提取病历数据中的原始手术信息；提取病历数据中的原始诊断信息；提取病历数据中的原始病历首页信息；基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码。通过本公开的各实施例能够准确高效地标准化处理完整的病历数据，得到有序的诊断和手术信息。

Description

病历数据的处理方法、装置及存储介质

技术领域

本公开涉及医学数据智能处理技术领域，具体涉及一种病历数据的处理方法、病历数据的处理装置及计算机可读存储介质。

背景技术

临床医生会在病历中记录检查报告-检查结论，手术记录、手术名称、手术经过等原始手术信息和原始诊断信息，在病历首页上填写患者出院时候的临床诊断名称和手术名称，往往都是不规范记录方式，需要专门的编码人员人工进行标准化的编码。

发明内容

本公开意图提供一种病历数据的处理方法、病历数据的处理装置及计算机可读存储介质，能够准确高效地标准化处理完整的病历数据，得到有序的诊断和手术信息。

根据本公开的方案之一，提供一种病历数据的处理方法，包括：

提取病历数据中的原始手术信息；

提取病历数据中的原始诊断信息；

提取病历数据中的原始病历首页信息；

基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码。

在一些实施例中，其中，所述原始手术信息、原始诊断信息和原始病历首页信息的整合，包括：

从所述原始手术信息、原始诊断信息和原始病历首页信息得到相应的编码；

基于编码进行整合；

其中：从原始手术信息中得到相应的编码，包括：

将所述原始手术信息与标准手术信息表的标准词匹配，获得匹配关系；

基于匹配关系，筛选出分别包含原始手术信息和标准词的待处理手术信息；

通过分类算法对所述待处理手术信息处理，以得到第一手术编码。

在一些实施例中，其中，病历数据中的原始手术信息，包括以下至少一种：

手术记录、术后首次病程、收费项目、非药品医嘱、诊疗经过。

基于编码进行整合；

其中：从原始诊断信息中得到相应的编码，包括：

将所述原始诊断信息与标准诊断信息表的标准词匹配，获得匹配关系；

基于匹配关系，筛选出分别包含原始诊断信息和标准词的待处理诊断信息；

通过分类算法对所述待处理诊断信息处理，以得到第一诊断编码。

在一些实施例中，其中，病历数据中的原始诊断信息，包括以下至少一种：

出院记录、病理报告、术后诊断、诊疗经过、影像报告、检验报告。

基于编码进行整合；

其中：从原始病历首页信息中得到相应的编码，包括：

基于分句方式，解析所述原始病历首页信息包含的诊断信息；

根据解析到的诊断信息与标准诊断信息的匹配结果，通过归一化处理得到第二诊断编码。

基于编码进行整合；

其中：从原始病历首页信息中得到相应的编码，包括：

基于深度学习训练的分句模型，解析所述原始病历首页信息包含的手术信息；

根据解析到的手术信息与标准手术信息的匹配结果，通过归一化处理得到第二手术编码。

在一些实施例中，其中，所述基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码，包括：

分别基于所述原始手术信息、原始诊断信息和原始病历首页信息，结合ICD表得到第一手术编码、第一诊断编码，以及第二手术编码和第二诊断编码；

对第一手术编码和第二手术编码，以及第一诊断编码和第二诊断编码处理，得到转换后的编码；

基于DRG分组信息，得到具有排序特征的目标手术编码和目标诊断编码。

根据本公开的方案之一，提供病历数据的处理装置，包括：

第一提取模块，其配置为用于提取病历数据中的原始手术信息；

第二提取模块，其配置为用于提取病历数据中的原始诊断信息；

第三提取模块，其配置为用于提取病历数据中的原始病历首页信息；

处理模块，其配置为用于基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码。

根据本公开的方案之一，提供计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据上述的病历数据的处理方法。

本公开的各种实施例的病历数据的处理方法、病历数据的处理装置及计算机可读存储介质，通过提取病历数据中的原始手术信息；提取病历数据中的原始诊断信息；提取病历数据中的原始病历首页信息；基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码，从而能够在提取病历数据中的原始手术信息、原始诊断信息、原始病历首页信息的基础上，对包含所有手术信息和诊断信息的完整病历数据进行处理，通过信息整合得到有序的手术信息和诊断信息。本公开通过上述处理方法，不仅仅实现把临床医生写出来的临床诊断和手术名称编码到标准的术语上，针对临床医生写的临床诊断和手术名称不够详细，以及临床医生漏填写一些临床诊断和手术名称的情况，还能够智能地结合病历文书进行细化和完善，输出有序的主要诊断和主要手术，从数据处理性能上准召率可以达到93％以上，和高级编码员的水平相当，完整、准确、高效地表达各种医学信息，从而提升医学研究、医疗诊治的精确性和效率。

应当理解，前面的大体描述以及后续的详细描述只是示例性的和说明性的，并非对所要求保护的本公开的限制。

附图说明

在未必按照比例绘制的附图中，不同视图中相似的附图标记可以表示相似的构件。具有字母后缀的相似附图标记或具有不同字母后缀的相似附图标记可以表示相似构件的不同实例。附图通常作为示例而非限制地图示各种实施例，并且与说明书和权利要求书一起用于解释所公开的实施例。

图1示出本公开实施例涉及的病历数据的处理方法的一种流程图；

图2示出本公开实施例涉及的病历数据的处理装置的一种架构图；

图3示出本公开实施例一种病例数据处理流程图；

图4示出本公开各种实施例应用于病历处理业务的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

本公开涉及病历数据的处理，用于针对医学信息的解析以及整合。临床医生会在病历中记录检查报告-检查结论，手术记录、手术名称、手术经过等原始手术信息和原始诊断信息，在病历首页上填写患者出院时候的临床诊断名称和手术名称，例如包括门急诊诊断、出院诊断、损伤、中毒外因、病理诊断等，往往这些都会存在不规范记录方式，需要专门的编码人员人工进行标准化的编码。

作为方案之一，如图1所示，结合图3和图4，本公开的实施例提供了一种病历数据的处理方法，包括：

S101：提取病历数据中的原始手术信息；

S102：提取病历数据中的原始诊断信息；

S103：提取病历数据中的原始病历首页信息；

S104：基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码。

本公开的发明构思之一，旨在能够在提取病历数据中的原始手术信息、原始诊断信息、原始病历首页信息的基础上，对包含所有手术信息和诊断信息的完整病历数据进行处理，通过信息整合得到有序的手术信息和诊断信息。

本公开各实施例中的病历数据，其所属的数据源并不需要特别加以限定，可以是历史数据，也可以是当前实时的数据。从数据格式上，可以是病历文本数据、视频数据、音频数据等等，只要能够通过识别手段，例如文本识别(例如，NLP识别，OCR识别等方式)识别其中能够包含的原始医学检查信息，语音识别、视频图像识别等方式识别其中记载的原始手术信息、原始诊断信息，以及原始病历首页信息等一些医学信息，抑或是通过字符拆分、词句拆分等方式识别的医学信息内容等。可以参考于ICD10、ICD9-CM-3标准信息表。在一些实施例中，本公开的病历数据也可以是包含于病历、诊断书，本公开实施例中的病历数据可以是用户通过交互界面、输入设备输入的病历数据的医学文本，可以用于人工、机器等通过标注或者解析方式进行相关医学信息的判读。

在各实施例中，本公开在实现过程中，可以通过神经网络模型提取本实施例的原始手术信息、原始诊断信息、原始病历首页信息。在实现过程中，具体的神经网络模型不做特别限定，可以采用符合要求且架构匹配的神经网络模型实现。更优选的方案，可以进一步基于在预训练模型的基础上，通过适配的神经网络模型优化各种信息的提取精度。针对提取医学实体内容，可以基于文本识别的方式，例如NLP(自然语言处理)等文本识别方式进行实体提取，并结合医学概念对实体进行分句、分类。更优选的，可以结合标准医学信息表，例如ICD各类信息表对实体进行解析，并结合合适的医学规则解析结果的基础上进行提取。

在一些实施例中，本公开的所述原始手术信息、原始诊断信息和原始病历首页信息的整合，包括：

基于编码进行整合；

其中：从原始手术信息中得到相应的编码，包括：

具体的，本实施例的病历数据中的原始手术信息，包括以下至少一种：手术记录、术后首次病程、收费项目、非药品医嘱、诊疗经过。

本实施例旨在从包含但不限于这些原始手术信息中，结合标准手术信息表得到手术编码作为本公开各实施例的第一手术编码，以符合ICD-9-CM-3标准表，例如得到“1.36.0700”这样的第一手术编码，来表征病历中关于“药物洗脱冠状动脉支架置入”内容的原始手术信息。

在一些实施例中，本公开的所述获得匹配关系，包括：将所述原始手术信息与标准手术信息表的每个标准词两两组合，分别计算匹配度；

所述基于匹配关系，筛选出分别包含原始手术信息和标准词的待处理手术信息，包括：在匹配度满足预设条件的情况下，将所述原始手术信息与标准手术信息表的标准词作为待处理手术信息。

具体的，本实施例的标准手术信息表可以通过ICD-9-CM-3标准表得到，通过ICD-9-CM-3标准表能够详细标定手术信息以及给出了相应的手术编码。

针对原始手术信息，和ICD-9-CM-3标准表中标准医学信息，或者称为标准词进行两两组合。例如，本实施例中的输入为手术病历数据，其中原文中记录手术信息为

“手术名称：冠脉造影+PCI术

手术经过：术区常规消毒，铺无菌洞巾，右桡动脉穿刺成功，造影示：左主干正常，前降支7-8段80﹪狭窄，回旋支11段80﹪狭窄，右冠2-3段40﹪狭窄，PDA开口70﹪狭窄。PCI术：更换AL1guiding6F至左冠口，送BMW导丝至前降支远端，另一BMW至D2远端，送Tazuna2.0×15mm球囊于7-8段病变处以12-13atm扩张7-8秒，后于该处植入Firenbird3.0×20mm支架以14atm扩张8秒释放，3.5×18mm支架于7段12atm8秒释放，3.0×10mm后扩球囊扩张支架18atm7-8秒，BMW导丝至回旋支远端2.0×15mm球囊扩张回旋支病变16atm8秒，3.5×15mm支架于回旋支病变12atm8秒释放，重复造影示支架扩张良好，无残余狭窄，血流TIMI3级，撤除导管及鞘管，局部压迫止血，术毕”，

手术名称中只写了“PCT术”，但根据手术经过的记载内容结合医学知识可以明确这是什么类型的支架，实际植入了几根支架，以及患者还做了经皮冠状动脉球囊扩张成形术。那么，就可以基于本公开的数据处理方法，针对该输入至少实现根据手术经过对手术名称进行纠错。

本实施例的标准手术信息表包括多行数据条目，包含主要编码、附加编码、手术名称、类别等信息。将上述输入的文本原文与标准手术信息表中的每条标准词两两组合，形成格式为“原文，标准词”的数据条目。例如形成

“1.(原文，非-药物洗脱冠状动脉支架置入)

2.(原文，冠状动脉药物涂层支架置入术)

3.(原文，药物洗脱冠状动脉支架置入)

……”这样的信息对(pair对)。

由于手术经过信息通过文本描述，其本身就是手术名称的细化内容，两者存在对应关系。基于这种对应关系，每个组合后的pair对就可以作为本实施例的一条训练数据。

对每一个这样形式的pair对组合计算匹配度，对匹配度低于预先设定阈值的组合，将其舍弃，不作为数据归一化对象。对匹配度满足预先设定阈值的组合，将其作为待选的归一化对象。

具体的，本实施例中匹配度的确定方式，可以基于原文和标准词各自所包含的字数进行计算，例如通过两者之间交集的字数以及两者并集的字数来计算匹配度，或者称为两者的相似度。以简单的文字数量举例说明，原文中包含“双侧甲状腺部分切除”，经过两两组合后的一个标准词为“甲状腺切开探查术”，两者的交集是“甲状腺切”，其字数是4个字，两者的并集为两个字符串的长度求和减去交集字数：9+8-4＝13，因此这一两两组合对的相似度为“4/13”。本实施例可以针对长文本手术经过，例如上千字的手术描述文字进行相似度判断。

在一些实施例中，本公开的所述通过分类算法，对所述待处理手术信息进行归一化处理，包括：

将所述待处理手术信息输入神经网络分类模型；

分析待处理手术信息中原始手术信息和标准词是否对应；

根据分析结果，将对应的原始手术信息和标准词进行归一化处理；

输出用于生成目标病历数据的与原始手术信息对应的标准手术信息。

具体的，继续结合上述示例说明，假设以上述pair对作为待处理手术信息，本实施例可以将

“1.(原文，非-药物洗脱冠状动脉支架置入)

2.(原文，冠状动脉药物涂层支架置入术)

3.(原文，药物洗脱冠状动脉支架置入)

……”

输入神经网络分类模型。本公开可以构建适配的神经网络分类模型，同时适应性的配置相应的架构以及神经元个数等方式，对待处理手术信息进行解析以及归一化处理。

例如，对其中每一组信息进行分类，判断来自于病历数据的手术信息和从标准信息表中筛选出来的标准词是否具有相关或者相近的医学概念，例如两者是否存在包含关系。如果神经网络分类模型认为两者属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“0”以表征否定结论。

为了优化神经网络分类模型的性能，在本公开的多种实施例中，可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的，可以采集大规模的医疗预料数据，数据来源以手术信息为目标，包括但不限于：各医疗结构的病历数据、各医学研究机构的医学数据、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中，可以构建预训练模型对采集的大规模医疗预料数据进行预训练，从而让模型从大规模的数据中学习各种医学知识，在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于：BERT模型、XLNET模型、roBERTa等模型。

基于上述本实施例的神经网络分类模型，针对前述输入神经网络分类模型的“1.(原文，非-药物洗脱冠状动脉支架置入)

2.(原文，冠状动脉药物涂层支架置入术)

3.(原文，药物洗脱冠状动脉支架置入)

……”，可以输出与原文对应的标准手术信息。由于本公开能够借助ICD-9-CM-3表，这些标准手术信息可以包括标准手术名称，标准手术名称编码等信息，例如输出以下信息，从而能够实现得到本公开各实施例的第一手术编码：

“1. 36.0700|药物洗脱冠状动脉支架置入

2. 00.6600×004|经皮冠状动脉球囊扩张成形术

3. 00.4700|置入三根血管的支架

4. 88.5700|其他和未特指的冠状动脉造影术”

直观地能够理解，通过本实施例神经网络分类模型输出的上述结果，就能够得到本次手术的准确信息描述，包含了关于是什么类型的支架，实际植入了几根支架，以及患者还做了经皮冠状动脉球囊扩张成形术等这些详细内容。

在一些实施例中，本公开的所述神经网络分类模型，基于预训练得到，所述预训练的方式，包括：

采集包含原始手术信息的病历数据；

提取原始手术信息中的手术名称信息和手术经过信息；

将所述手术经过信息与手术名称库中的标准词组合，所述手术名称库基于所述手术名称信息构建，包含原始手术信息的原始手术名称和标准手术名称；

将组合后的所述手术经过信息与手术名称库中的标准词，作为训练数据训练预训练模型；

基于所述预训练模型得到所述神经网络分类模型。

具体的，本公开的实施例可以基于满足训练的足够数据量，例如一次或多次批量性、批次性或者是海量的采集包含原始手术信息的病历数据，来构建以及迭代训练本公开所涉及的训练模型。

在一些实施方案中，本公开的所述手术名称库的构建方式，包括：

将所述手术名称信息输入编码手术名称的神经网络模型，以从手术名称信息中提取标准的手术名称编码；

基于所述手术名称信息和标准的手术名称编码，构建包含原始手术名称和编码后的标准手术名称的手术名称库。

具体的，以手术名称为“冠脉造影+PCI术”，可以优选地通过编码手术名称的神经网络模型，从病历数据中的手术名称文本中提取ICD标准的手术名称编码，结合手术名称“冠脉造影+PCI术”，根据原始手术名称文本编码的结果

“1.其他和未特指的冠状动脉造影术

2.非-药物洗脱冠状动脉支架置入”

构建本实施例的手术名称库，其中包含原始手术名称，以及编码后的标准手术名称。

本实施例的神经网络分类模型则可以使用任何其他的分类模型，包括但不限于：CNN、LSTM、transformer等模型。在一些实施例中基于预训练模型finetune，模型收敛更快，性能有2％的提升。

在一些实施例中，本公开的所述标准手术信息表的构建方式，包括：基于对ICD标准表的标注构建，标注的结果包括根据手术名称和经过编码的结果。结合前述内容，本实施例可以基于标注结果构建标准信息表，包含主要编码、附加编码、手术名称、类别等信息。

基于编码进行整合；

其中：从原始诊断信息中得到相应的编码，包括：

具体的，本实施例的病历数据中的原始诊断信息，包括以下至少一种：出院记录、病理报告、术后诊断、诊疗经过、影像报告、检验报告。

本实施例旨在从包含但不限于这些原始诊断信息中，结合标准诊断信息表得到诊断编码作为本公开各实施例的第一诊断编码，以符合ICD10标准表。例如得到依据“多发性肝囊肿”而来的“K76.806”这样的第一诊断编码，来表征病历中关于“肝脏多发小囊肿”内容的原始诊断信息，或者得到依据“非毒性多个甲状腺结节”而来的“E04.200×003”这样的第一诊断编码来表征病历中关于“甲状腺多发小结节灶”内容的原始诊断信息。

可以结合前述内容，本实施例的原始诊断信息的提取方式可以但不限于与手术信息的提取方式类似。包括：

在一些实施例中，本公开的所述获得匹配关系，包括：将所述原始诊断信息与标准诊断信息表的每个标准词两两组合，分别计算匹配度；

所述基于匹配关系，筛选出分别包含原始诊断信息和标准词的待处理诊断信息，包括：在匹配度满足预设条件的情况下，将所述原始诊断信息与标准诊断信息表的标准词作为待处理诊断信息。

具体的，本实施例的标准诊断信息表可以通过ICD10标准表得到，通过ICD10标准表能够详细标定诊断信息以及给出了相应的诊断编码。

本实施例的标准诊断信息表包括多行数据条目，包含主要编码、附加编码、诊断名称、类别等信息。将上述输入的文本原文与标准诊断信息表中的每条标准词两两组合，形成格式为“原文，标准词”的数据条目。例如形成信息对(pair对)。对每一个这样形式的pair对组合计算匹配度，对匹配度低于预先设定阈值的组合，将其舍弃，不作为数据归一化对象。对匹配度满足预先设定阈值的组合，将其作为待选的归一化对象。

在一些实施例中，本公开的所述通过分类算法，对所述待处理诊断信息进行归一化处理，包括：

将所述待处理诊断信息输入神经网络分类模型；

分析待处理诊断信息中原始诊断信息和标准词是否对应；

根据分析结果，将对应的原始诊断信息和标准词进行归一化处理；

输出用于生成目标病历数据的与原始诊断信息对应的标准诊断信息。

如果神经网络分类模型认为两者属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“0”以表征否定结论。

采集包含原始诊断信息的病历数据；

提取原始诊断信息中的诊断名称信息和诊断经过信息；

将所述诊断经过信息与诊断名称库中的标准词组合，所述诊断名称库基于所述诊断名称信息构建，包含原始诊断信息的原始诊断名称和标准诊断名称；

将组合后的所述诊断经过信息与诊断名称库中的标准词，作为训练数据训练预训练模型；

基于所述预训练模型得到所述神经网络分类模型。

在一些实施方案中，本公开的所述诊断名称库的构建方式，包括：

将所述诊断名称信息输入编码诊断名称的神经网络模型，以从诊断名称信息中提取标准的诊断名称编码；

基于所述诊断名称信息和标准的诊断名称编码，构建包含原始诊断名称和编码后的标准诊断名称的诊断名称库。

在一些实施例中，本公开的所述标准诊断信息表的构建方式，包括：基于对ICD标准表的标注构建，标注的结果包括根据诊断名称和经过编码的结果。结合前述内容，本实施例可以基于标注结果构建标准信息表，包含主要编码、附加编码、诊断名称、类别等信息。

基于编码进行整合；

其中：从原始病历首页信息中得到相应的编码，包括：

本实施例旨在从原始病历首页信息中包含的，但不限于诸如出院主诊断以及出院其他诊断所记载的手术名称、出院诊断中，结合标准诊断信息表得到诊断编码作为本公开各实施例的第二诊断编码，以符合ICD10标准表。例如得到依据“室性期前收缩”而来的“I49.300×002”这样的第二诊断编码，来表征病历中关于“室性早搏”内容的原始病历首页信息等。

在一些实施例中，当本公开的所述原始病历首页信息包含至少M个诊断信息，且M≥2的情况下，所述基于分句方式，从所述原始病历首页信息包含的诊断信息中解析出第一诊断信息，包括：

基于分句方式，从M个诊断信息中解析出N个第一诊断信息。

本公开更关注于针对原始病历首页信息包含多个、多种原始诊断信息的情况，即至少针对M≥2的场景，从M个原始诊断信息中解析出N个第一诊断信息，根据原始病历首页信息所能够记载的诊断信息的实际情况，解析出来的第一诊断信息的数量N，从理论上可以等于M，可以小于M，当然在一些方面可以大于M，只要符合医学概念以及临床诊断意义即可。

在一些实施例中，本公开的所述基于分句方式，包括基于深度学习训练的分句模型；

所述深度学习训练的分句模型的构建方式，包括：

提取医学数据；

对这些医学数据分别进行分句，得到包含原始文本和分句后文本的二元组；

迭代训练模型。

具体的，本实施例的病历数据以记录多个、多种类，甚至于多科室，多部位下的诊断信息为例，诊断信息在这种情况无法通过规则方式完成分句，只存在特定场景下适用的规则，而场景的区分需要医学判断。因此，本实施例中可以采用分句模型进行分句操作。分句模型可以基于深度学习训练构建，具体可以通过由专业人工以诊断诊断金标准为基础标注一批数据，将原始的包含诊断名称的数据进行分句，得到数据二元组实例，二元组可以包括原始文本和分句后文本，例如形成“原始文本，一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量，例如一次或多次批量性、批次性或者是海量标注的二元组，即可训练本实施例的分句模型。本实施例汇中通过分句模型进行分句处理的优势，在于能够把一个长句子复杂的编码拆解成短句子，让每个短句去进行编码。这样句子的复杂度降低，算法学习起来就相对容易，使得下游的算法模块可以获得高性能。

在一些实施例中，本公开的所述对这些病历数据进行分句，包括：

根据病历数据所包含的特定标识进行分句，所述特定标识包括标点符号。

本公开的发明构思之一旨在根据标点符号进行分句，针对包含诊断信息的数据处理，其中语义明确，表征的诊断信息清楚，通过整句从形式上分句就能够达到非常高效的目的，且准确率也非常高。因此，本公开各实施例中，针对分句处理并非以通过分句模型处理为唯一目的。

针对输入为“室性早搏；陈旧性心肌梗死；肝囊肿；甲状腺结节；胆总管增宽；慢性浅表性胃炎伴窦散在糜烂；二尖瓣轻度关闭不全；高血压病3级”，在标注分句过程中，认为这一段表征各种类型诊断信息的病历数据中，以“；”号作为这一段诊断数据的特定标识对诊断信息进行了分隔，其中体现出来的诊断信息有“诊断信息：室性早搏；陈旧性心肌梗死；肝囊肿；甲状腺结节；胆总管增宽；慢性浅表性胃炎伴窦散在糜烂；二尖瓣轻度关闭不全；高血压病3级”。

在其他一些场景中，会涉及到诊断信息通过其他符号，例如“+”符号分隔，在这一类输入的诊断数据中，可以基于医学上对于诊断诊断概念考虑是否需要跨加号“+”延续的信息，从医学诊断角度分析，每个加号前后都是独立、完整的诊断名称，可以通过分句缩短句子的长度。

在本实施例中，分句结果可以认为是分成如下分句对象：

“1.室性早搏

2.陈旧性心肌梗死

3.肝囊肿

4.甲状腺结节

5.胆总管增宽

6.慢性浅表性胃炎伴窦散在糜烂

7.二尖瓣轻度关闭不全

8.高血压病3级”

此外，本公开在一些实施例中并不排除针对相关联的诊断信息的语义处理模式。例如，在针对这些病历数据进行分句的过程中，可以包括：

解析病历数据包含的诊断信息；

根据诊断信息的语义，确定出存在关联关系的诊断信息；

基于存在关联关系的诊断信息，确定分句对象。

具体的，由于诊断信息的记录和书写，会出现习惯性书写或者简写的情况，导致数据中包含的诊断信息前后存在关联，但是从字面上又显现为存在分隔形式，由此难以判断其中包含的准确诊断信息。本实施例通过解析出诊断信息中各部分的诊断信息的语义，提取这些诊断信息在医学概念上的表征内容，根据所有表征内容判断其中是否存在关联关系，例如诊断信息1和诊断信息2是否存在相互包含的关系，又如诊断信息1至诊断信息n之间是否存在共用信息，再如诊断信息1至诊断信息x之间是否存在相悖信息等。在基于例如规则分句等情况下，面对包含例如“+”这一类分句标识的情况下，本实施例可以结合医学概念，根据诊断信息的语义，确定出存在关联关系的诊断信息，确定出符合信息完整、准确的分句对象。

作为优选的方案，本公开的所述根据所述第一诊断信息与标准诊断信息的匹配结果，得到中间数据，包括：

将每个第一诊断信息与每个标准诊断信息两两组合；

分别计算匹配度；

将匹配度满足预设条件的组合用于构建所述中间数据。

具体的，本实施例的标准诊断信息可以通过ICD-10标准表得到。

针对原始病历首页信息中包含的第一诊断信息，优选的，可以是通过本公开各实施例深度学习训练的分句模型分句后的多个第一诊断信息，将每个分句，也就是每个第一诊断信息和ICD-10标准表中标准诊断信息，或者称为标准词进行两两组合。

继续结合上述示例，例如，经过分句后的分句对象：

“1.室性早搏

2.陈旧性心肌梗死

3.肝囊肿

4.甲状腺结节

5.胆总管增宽

6.慢性浅表性胃炎伴窦散在糜烂

7.二尖瓣轻度关闭不全

8.高血压病3级”

将每一条分句与ICD-10标准表每个标准词两两组合，例如以“室性早搏,舌下神经良性肿瘤”等这样的形式组合。对每一个这样形式的组合计算匹配度，对匹配度低于预先设定阈值的组合，将其舍弃，不作为数据归一化对象。对匹配度满足预先设定阈值的组合，将其认为可能属于同一诊断诊断概念，作为待选的归一化对象。

具体的，本实施例中匹配度的确定方式，可以基于分句和标准词各自所包含的字数进行计算，例如通过两者之间交集的字数以及两者并集的字数来计算匹配度，或者称为两者的相似度。举例来说，分句结果为“室性早搏,”，经过两两组合后的一个标准词为“室性期前收缩”，两者的交集是“室性”，其字数是2个字，两者的并集为两个字符串的长度求和减去交集字数：4+6-2＝8，因此这一两两组合对的相似度为“4/8”。

在此基础上，将这些待选对象构建为本实施例的中间数据，例如：

“1.(室性早搏,室性期前收缩I49.300×002)

2.(室性早搏,房性期前收缩[房性早搏]I49.100×001)

3.(室性早搏,室性自搏I49.302)

4.(室性早搏,室性逸搏I49.800×016)

5.……”。

通过上述过程，实现待选(candidate)生成，通过简单的方法，把疑似可能会匹配在一起的标准词给筛选出来，这样下游的算法模型就可以少计算一些匹配对，从而使得整个系统的计算时间大幅降低。如果不通过这个方案进行筛选的话，以具体实例来说，假设：每个分句要与标准表中3万多个标准词进行配对，下游算法模型需要计算3万多个匹配对。而通过引入上述candidate生成过程以后，每个分句只需要和数十个到数百个标准词进行配对就行，成100倍的降低的计算时间。可以认为，基于上述构建本公开各实施例中的中间数据过程，本公开的目标至少旨在即使可能发生错误的情况，也不漏失匹配对象。

作为进一步的实施方式，本公开的所述解析所述中间数据，通过归一化处理得到目标病历数据，具体为通过神经网络分类模型实现，包括：

解析所述中间数据包含的每一组第一诊断信息与标准诊断信息；

基于神经网络分析每一组第一诊断信息与标准诊断信息是否对应；

输出分析结果，将对应的第一诊断信息与标准诊断信息作为归一化结果。

具体的，继续结合上述示例，本公开可以构建神经网络分类模型，配置相应的架构以及神经元个数等方式，对中间数据进行解析以及归一化处理。

继续以上述示例说明，针对例如形式为

“1.(室性早搏,室性期前收缩I49.300×002)

2.(室性早搏,房性期前收缩[房性早搏]I49.100×001)

3.(室性早搏,室性自搏I49.302)

4.(室性早搏,室性逸搏I49.800×016)

5.……”。

这样的中间数据，对其中每一组信息进行分类，判断来自于原始的原始病历首页信息和从标准信息表中筛选出来的标准词是否属于同一概念。如果神经网络分类模型认为两者属于同一医学概念，则神经网络分类模型输出相应的结果，例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于同一医学概念，则神经网络分类模型输出相应的结果，例如输出“0”以表征否定结论。

在本公开的多种实施例中，可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的，可以采集大规模的医疗预料数据，数据来源包括但不限于：各医疗结构的病历数据、各医学研究机构的病历数据、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中，可以构建预训练模型对采集的大规模医疗预料数据进行预训练，从而让模型从大规模的数据中学习各种医学知识，在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于：BERT模型、XLNET模型、roBERTa等模型。

再具体到本公开各实施例的神经网络分类模型，结合前述内容实现完成最终的分类，判断原始病历首页信息和待选标准词是不是表征同一个诊断诊断概念。如果采用本公开实施例的预训练模型，那么本实施例中的神经网络分类模型基本上和预训练模型可以是一致的，需要用预训练的模型来初始化本实施例的神经网络分类模型。如果在不采用预训练模型的情况下，本实施例的神经网络分类模型则可以使用任何其他的分类模型，包括但不限于：CNN、LSTM、transformer等模型。

进一步的，本公开的所述输出分析结果，将对应的第一诊断信息与标准诊断信息作为归一化结果，包括：

输出第二诊断编码。

具体的，继续结合上述内容，在本实施例的神经网络分类模型输出相应的结果基础上，针对输出结果为肯定结论的组合，本实施例可以提取ICD-10标准表中的诊断名称以及诊断编码，对原始输入的诊断数据进行统一化表达处理。针对上述原始输入的“诊断信息：室性早搏；陈旧性心肌梗死；肝囊肿；甲状腺结节；胆总管增宽；慢性浅表性胃炎伴窦散在糜烂；二尖瓣轻度关闭不全；高血压病3级”，本实施例从ICD-10标准表中提取“诊断编码诊断名称”对这些信息分别进行更新，从而能够实现得到本公开各实施例的第二诊断编码：

“1.室性期前收缩I49.300×002

2.陈旧性心肌梗死I25.200

3.肝囊肿K76.807

4.甲状腺结节E04.101

5.胆总管扩张K83.817

6.慢性浅表性胃炎K29.300

7.糜烂性胃炎K29.603

8.二尖瓣轻度关闭不全I34.000

9.高血压3级I10.×05”

对照于原始输入的诊断数据，可以直观看到，目标数据相比与原始数据，以标准词和标准编码的方式对原数据中“胃炎”这类诊断的描述，更加精确。通过本实施例输出的目标病历数据，完整、详细地依照统一化表达方式对病历数据进行了标准化。

基于编码进行整合；

其中：从原始病历首页信息中得到相应的编码，包括：

本实施例旨在从原始病历首页信息中包含的，但不限于诸如出院主诊断以及出院其他诊断所记载的手术名称、出院诊断中，结合标准手术信息表得到手术编码作为本公开各实施例的第二手术编码，以符合ICD-9-CM-3标准表。例如得到依据“其他和未特指的冠状动脉造影术”而来的“88.5700”、依据“经皮冠状动脉腔内血管成形术[PTCA]”而来的“00.6600”、依据“冠状动脉裸支架置入术”而来的“36.0602”这样的第二手术编码，来表征病历中关于“手术名称：冠状动脉造影术，冠脉狭窄处行PTCA+支架植入术/手术等级：三级手术”内容的原始病历首页信息等。

在一些方面，本公开各实施例需要基于标准医学信息予以实现，从而在基于深度学习训练的分句模型处理的情况下，以标准医学信息为指引，能够从M个原始病历首页信息中解析出N个手术信息。本公开更关注于针对至少针对M≥2的场景，从M个原始病历首页信息中解析出N个手术信息，根据病历数据所能够记载的医学信息的实际情况，解析出来的手术信息的数量N，从理论上可以等于M，可以小于M，当然在一些方面可以大于M，只要符合医学概念以及临床诊断意义即可。

在一些实施例中，本公开的所述深度学习训练的分句模型的构建方式，包括：

提取医学数据；

迭代训练模型。

具体的，本实施例的医学数据以记录手术内容、手术名称等针对手术操作的手术数据为例，手术数据无法通过规则方式完成分句，只存在特定场景下适用的规则，而场景的区分需要医学判断。因此，本实施例中可以采用分句模型进行分句操作。分句模型可以基于深度学习训练构建，具体可以通过由专业人工以手术金标准为基础标注一批数据，将原始的包含手术名称的数据进行分句，得到数据二元组实例，二元组可以包括原始文本和分句后文本，例如形成“原始文本，一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量，例如一次或多次批量性、批次性或者是海量标注的二元组，即可训练本实施例的分句模型。

在一些实施例中，本公开的所述对这些医学数据进行分句，包括：

根据医学数据所包含的特定标识进行分句。

针对输入为“手术名称：双侧甲状腺部分切除+左上甲状旁腺腺瘤切除+右乳腺体区段切除”，在标注分句过程中，认为这一段手术数据中，以“+”号作为这一段手术数据中的特定标识对手术信息进行了分隔，其中体现出来的手术信息有“手术名称：双侧甲状腺部分切除、左上甲状旁腺腺瘤切除、右乳腺体区段切除”。在这段输入的手术数据中，没有需要跨加号“+”延续的信息，从医学诊断角度分析，每个加号前后都是独立、完整的手术名称，可以通过分句缩短句子的长度。因此，分句结果可以认为是分成三个分句对象“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”。

解析医学数据包含的医学信息；

根据医学信息的语义，确定出存在关联关系的医学信息；

基于存在关联关系的医学信息，确定分句对象。

具体的，由于手术数据录入或者记载过程中会出现习惯性书写或者简写的情况，导致数据中包含的手术信息前后存在关联，但是从字面上又显现为存在分隔形式，由此难以判断其中包含的准确手术信息。本实施例通过解析出医学信息中各部分的医学信息的语义，提取这些医学信息在医学概念上的表征内容，根据所有表征内容判断其中是否存在关联关系，例如手术信息1和手术信息2是否存在相互包含的关系，又如手术信息1至手术信息n之间是否存在共用信息，再如手术信息1至手术信息x之间是否存在相悖信息等。

举例来说，病历数据包括“腹腔镜下全子宫+双侧附件切除术”，如果采用规则分句，那么其中包含了“+”这一标识，则通过分句解析出的分句结果即为“腹腔镜下全子宫”和“双侧附件切除术”。结合医学概念，可以确定的是“腹腔镜下全子宫”这一手术信息只能够表述“腹腔镜和部位”，而无法明确具体的术式。另外，“双侧附件切除术”这一手术信息则缺失了手术操作信息，比如“腹腔镜”这一信息。在这种情况下，如果按特征标识以分隔形式来分句，虽然病历数据“腹腔镜下全子宫+双侧附件切除术”中完整地包含了各种手术能够涉及到的信息，但按照规则分句的分句结果是错误的，会使得最终手术标准名称转换错误，无法准确、详尽并且智能地表达手术过程的准确信息，也就无法符合实际的语义。如果采用本实施例的分句模型，针对“腹腔镜下全子宫+双侧附件切除术”按实际语义进行分句，分句模型在训练阶段学习到了相关知识，在此就能够判断这里的“+”并不是分句标志，从而不会按照“+”分句。

又比如，病历数据包含“VATS右肺上叶切除+右肺中叶和右肺下叶楔形切除+胸膜粘连烙断术+胸导管结扎术”，如果采用规则分句，那么其中也包含了多个“+”这一标识，则通过分句解析出的分句结果即为“VATS右肺上叶切除”、“右肺中叶和右肺下叶楔形切除”、“胸膜粘连烙断术”和“胸导管结扎术”。结合医学概念，可以确定的是句首的“VATS”代表胸腔镜，而后面的烙断术、结扎术都是在胸腔镜下完成的，如果单独将“胸膜粘连烙断术”和“胸导管结扎术”分别予以手术记录，则后面的烙断术、结扎术就会丢失胸腔镜信息，那么该分句结果是错误的，会使得最终手术标准名称转换错误，无法完整准确地形成精准数据，无法与标准医学数据对应。如果采用本实施例的分句模型，针对“VATS右肺上叶切除+右肺中叶和右肺下叶楔形切除+胸膜粘连烙断术+胸导管结扎术”，分句模型在训练阶段学习到了相关知识，在此就能够判断句首的“VATS”胸腔镜这一信息需要向后延续，在此就能够判断这里的“+”并不是分句标志，从而不会按照“+”分句。

作为优选的方案，本公开的所述根据所述手术信息与标准医学信息的匹配结果，得到中间数据，包括：

将每个手术信息与每个标准医学信息两两组合；

分别计算匹配度；

将匹配度满足预设条件的组合用于构建所述中间数据。

具体的，本实施例的标准医学信息可以通过ICD-9-CM-3标准表得到。

针对病历数据中包含的手术信息，优选的，可以是通过本公开各实施例深度学习训练的分句模型分句后的多个手术信息，将每个分句，也就是每个手术信息和ICD-9-CM-3标准表中标准医学信息，或者称为标准词进行两两组合。例如，经过分句模型后的分句包括“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”，将“双侧甲状腺部分切除”与ICD-9-CM-3标准表每个标准词两两组合，如“双侧甲状腺部分切除,支气管病损破坏术”等这样的形式。对每一个这样形式的组合计算匹配度，对匹配度低于预先设定阈值的组合，将其舍弃，不作为数据归一化对象。对匹配度满足预先设定阈值的组合，将其认为可能属于同一医学概念，作为待选的归一化对象。

具体的，本实施例中匹配度的确定方式，可以基于分句和标准词各自所包含的字数进行计算，例如通过两者之间交集的字数以及两者并集的字数来计算匹配度，或者称为两者的相似度。举例来说，分句结果为“双侧甲状腺部分切除”，经过两两组合后的一个标准词为“甲状腺切开探查术”，两者的交集是“甲状腺切”，其字数是4个字，两者的并集为两个字符串的长度求和减去交集字数：9+8-4＝13，因此这一两两组合对的相似度为“4/13”。

在此基础上，将这些待选对象构建为本实施例的中间数据，例如“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5.……”。

解析所述中间数据包含的每一组手术信息与标准医学信息；

基于神经网络分析每一组手术信息与标准医学信息是否对应；

输出分析结果，将对应的手术信息与标准医学信息作为归一化结果。

具体的，继续结合上述示例，本公开可以构建神经网络分类模型，配置相应的架构以及神经元个数等方式，对中间数据进行解析以及归一化处理。针对例如形式为“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5.……”的中间数据，对其中每一组信息进行分类，判断来自于原始的病历数据和从标准信息表中筛选出来的标准词是否具有相关或者相近的医学概念，例如两者是否存在包含关系。如果神经网络分类模型认为两者属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“0”以表征否定结论。

在本公开的多种实施例中，可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的，可以采集大规模的医疗预料数据，数据来源包括但不限于：各医疗结构的病历数据、各医学研究机构的医学数据、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中，可以构建预训练模型对采集的大规模医疗预料数据进行预训练，从而让模型从大规模的数据中学习各种医学知识，在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于：BERT模型、XLNET模型、roBERTa等模型。

再具体到本公开各实施例的神经网络分类模型，结合前述内容实现完成最终的分类，判断病历数据和待选标准词是不是表征同一个医学信息概念，例如手术信息之间是否存在重叠描述、相悖描述、缺失描述等。如果采用本公开实施例的预训练模型，那么本实施例中的神经网络分类模型基本上和预训练模型可以是一致的，需要用预训练的模型来初始化本实施例的神经网络分类模型。如果在不采用预训练模型的情况下，本实施例的神经网络分类模型则可以使用任何其他的分类模型，包括但不限于：CNN、LSTM、transformer等模型。

进一步的，本公开的所述输出分析结果，将对应的手术信息与标准医学信息作为归一化结果，包括：

输出第二手术编码。

具体的，继续结合上述内容，在本实施例的神经网络分类模型输出相应的结果基础上，针对输出结果为肯定结论的组合，本实施例可以提取ICD-9-CM-3标准表中的手术名称以及手术编码，对原始输入的手术数据进行统一化表达处理。针对上述原始输入的“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”，本实施例从ICD-9-CM-3标准表中提取“手术编码手术名称”对这些信息分别进行更新，从而能够实现得到本公开各实施例的第二手术编码：

“1. 06.3900×012|双侧甲状腺部分切除术

2. 06.8903|甲状旁腺病损切除术

3. 85.2100×019|乳房腺体区段切除术”

对照于原始输入的手术数据，可以看到，通过本实施例输出的目标病历数据，完整、详细地依照统一化表达方式对医学数据进行了标准化。

在一些实施例中，本公开的所述基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码，包括：

具体的，结合前述示例中涉及的第一手术编码、第二手术编码、第一诊断编码和第二诊断编码，本实施例可以对得到的这些手术编码和诊断编码进行编码转换以及排序。

在一些实施例中，本公开对存在多个编码的情况下，对编码进行整合，整合方式包括：

对编码之间存在包含关系的情况，选择父关系的编码；和/或

对编码之间存在并列关系的情况，合并编码生成新的编码。

具体的，结合前文描述内容，在进行编码转换过程中，只要满足形式f(A,B,C,D....)＝X,Y,Z均符合本实施例中编码转换的对象，包括但不限于父子节点合并，合并编码等。

父子节点合并：f(A,B)＝B,也就是一个粗编码节点和细编码节点，且它们在医学编码上存在包含关系，需要进行合并，删除粗节点保留细节点。例如，针对粗节点“92.1300|甲状旁腺扫描”和细节点“92.1300x001|甲状旁腺核素扫描”，当这两个节点同时出现的时候，只保留细节点。

合并编码：f(A,B)＝C，也就是至少两个编码之间存在并列关系，需要进行合并。例如，针对“胆道超声检查”、“肝超声检查”、“胰腺超声检查”，需要合并为“肝胆胰超声检查”这个标准信息所对应的编码。

在一些实施例中，本公开实施例基于编码映射表中的标准合并编码，将所述病历数据中多个表征原始医学信息的编码组合拆分成标准编码；

依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码；

基于逻辑算法，从所述待选合并编码中确定目标编码组合；

根据所述目标编码组合，生成整合后的目标医学检查信息。

具体的，本公开各实施例中基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码，可以是对输入数据里的组合编码按照ICD标准表中合并编码进行拆分，以“ab->a+b”的格式进行拆分，从拆分成最小单元的标准编码。当拆分出有相同的标准编码的情况下，对相同的标准编码进行去重处理。

遍历编码映射表中所有合并编码，以及编码1至编码n，通过表中记录方式、记录格式，可以解析到每一条标准合并编码的合并方式。本实施例中，当所述编码映射表中标准合并编码对应的标准编码属于所述拆分得到的标准编码，也就是在遍历编码映射表后，如果某一条合并记录中所有的编码都出现在原始输入数据中，则依照这条合并记录进行编码。通过这种重新组合编码的方式，就能够实现在标准合并方式的引导下，对所有符合临床诊断意义的编码合并可能都执行编码合并，从而避免不必要的繁杂编码合并，很大程度上避免产生大量无用的编码数据，提高了数据处理和信息整理的效率。为了得到精确的编码信息，本公开的所述基于逻辑算法，从所述待选合并编码中确定目标编码组合，包括：基于贪心算法对所述待选合并编码进行逻辑运算处理。具体可以为：编码组合和编码的排列呈现“abc,bcd,bc,ab,cd,a,b,c,d,e”，根据贪心删除策略，从左至右将该排列进行处理，所有被左侧编码组合包含的编码，例如“bc”被位于其左侧的“abc”和“bcd”包含，“ab”被位于其左侧的“ab”包含，“cd”被位于其左侧的“bcd”包含等，这些被包含的编码组合或者编码，从医学概念上都与位于前左侧的编码含义存在冲突，无法表征更多、更有临床意义的医学信息，因此都被认为是没有意义的编码。本实施例将这些没有意义的编码删除。

本实施例对目标手术编码和目标诊断编码的排序，可以根据手术的严重程度和费用，以目标手术编码为排序对象，选择主要手术，从而对手术记录内容进行排序。可以根据本次住院主要治疗什么疾病、手术和诊断的对应关系进行排序，选择主要诊断，以目标诊断编码为排序对象，选择主要诊断，从而对诊断记录内容进行排序。

在一些实施例中，本公开的基于DRG分组信息，得到具有排序特征的目标手术编码和目标诊断编码，包括：

对照基于DRG分组信息构建的手术诊断关联表，以手术编码为索引从所述病历数据中的诊断编码中确定目标诊断编码；

以目标诊断编码对应的诊断信息为主要诊断信息，生成目标病历数据。

在一些实施例中，本公开的所述手术诊断关联表的构建方式，包括：

基于DRG分组的最小分组信息，将同属于该最小分组的手术编码和诊断编码建立第一关联关系。

具体的，本公开利用DRG中分组信息建立手术编码和诊断编码的关联关系，从而根据这些关联关系以手术编码为索引来确定主要诊断。

本实施例中，可以基于ICD10编码和ICD-9-CM-3编码，在DRG分组的最小分组信息实现第一关联关系的建立。

在一些实施例中，本公开的所述以手术编码为索引确定目标诊断编码，包括：

以主要手术信息的手术编码作为索引信息；

基于所述第一关联关系，索引诊断编码；

将索引到的诊断编码作为所述目标诊断编码。

根据病历首页中关于主要手术信息的手术编码，解析其所在的DRGs分组里是否能够找到同属于该DRG分组的最小分组的诊断编码。如果能够找到相应的诊断编码，就可以将该诊断编码作为主要诊断的诊断编码，从而为生成用于导入DRG分组的目标病历数据提供准确的主要诊断。

在一些实施例中，本公开的所述手术诊断关联表的构建方式，还包括：

基于与所述DRG分组的最小分组信息上一级的ADRG分组信息，将同属于该ADRG分组信息的手术编码和诊断编码建立第二关联关系。

具体的，本公开可以进一步利用ADRG分组信息建立手术编码和诊断编码的关联关系，从而根据这些关联关系以手术编码为索引来确定主要诊断。

继续结合前述示例，基于ICD10编码和ICD-9-CM-3编码，在DRG分组的最小分组信息实现第一关联关系建立的基础上，再利用此级分组ADRG分组信息，将同属于一个ADRG小组的诊断编码和手术编码建立第二关联关系，基于本公开的处理流程和逻辑判断病历数据中主要诊断的过程中，本公开的第一关联关系的优先级高于第二关联关系。

以主要手术信息的手术编码作为索引信息；

基于所述第一关联关系，索引诊断编码；

在没有索引到诊断编码的情况下，基于所述第二关联关系，索引诊断编码；

将基于所述第二关联系索引到的诊断编码作为所述目标诊断编码。

具体的，继续结合前述示例，本公开各实施例中可以优选地针对具有顺序特征的手术编码实现本公开的数据处理方法。该顺序特征与实际数据在病历报告、病历首页中的排列位置没有必要联系，旨在体现主要手术的特征。即，可以假定主要手术(MajorProcedure)已经确定。

如果基于本实施例中的第一关联关系不能找到诊断编码，本公开的实施例可以继续根据病历首页中关于主要手术信息的手术编码，解析其所在的ADRG分组里是否能够找到同属于该ADRG分组的诊断编码。如果能够找到相应的诊断编码，就可以将该诊断编码作为主要诊断的诊断编码，从而为生成用于导入DRG分组的目标病历数据提供准确的主要诊断。

如果仍然找不到相应的诊断编码，基于上述处理方法可以结合医学知识推断，本实施例的病历数据，例如病历首页中记载的手术和诊断内容，对于主要诊断的记录大概率是正确的。

在一些实施例中，结合前述示例，本公开的所述病历数据包含多个手术编码和多个诊断编码，所述手术编码具有排序特征；确定出的目标诊断编码具有对应于所述手术编码的排序特征，从而通过本实施例的数据处理方法，能够基于手术编码的顺序特征，对原始病历中诊断信息内容进行相应的排序。

作为本公开的方案之一，如图2所示，结合图3和图4，本公开还提供了一种病历数据的处理装置，包括：

结合前文所述内容，在一些实施例中，本公开还可包括输入层，可以构造为用于记录并输入手术名称相关的病历文书，包括手术记录、收费项目、医嘱等；诊断名称相关的病历文书，病理报告、影像检查报告、检验报告等；病案首页上本身已经相对规整的临床诊断和手术名称。

处理模块，可以进一步配置有基础编码抽取层，包括病历手术编码提取器、病历诊断编码提取器，以及归一模块，以分别基于所述原始手术信息、原始诊断信息和原始病历首页信息，结合ICD表得到第一手术编码、第一诊断编码，以及第二手术编码和第二诊断编码。

处理模块，还可以进一步配置有推理系统层，包括编码转化模块和排序模块，用于对第一手术编码和第二手术编码，以及第一诊断编码和第二诊断编码处理，得到转换后的编码；基于DRG分组信息，得到具有排序特征的目标手术编码和目标诊断编码。

具体来说，本公开的发明构思之一，旨在通过提取病历数据中的原始手术信息；提取病历数据中的原始诊断信息；提取病历数据中的原始病历首页信息；基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码，从而能够在提取病历数据中的原始手术信息、原始诊断信息、原始病历首页信息的基础上，对包含所有手术信息和诊断信息的完整病历数据进行处理，通过信息整合得到有序的手术信息和诊断信息。本公开通过上述处理方法，不仅仅实现把临床医生写出来的临床诊断和手术名称编码到标准的术语上，针对临床医生写的临床诊断和手术名称不够详细，以及临床医生漏填写一些临床诊断和手术名称的情况，还能够智能地结合病历文书进行细化和完善，输出有序的主要诊断和主要手术，从数据处理性能上准召率可以达到93％以上，和高级编码员的水平相当，完整、准确、高效地表达各种医学信息，从而提升医学研究、医疗诊治的精确性和效率。

作为本公开的方案之一，本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，主要实现根据上述的病历数据的处理方法，至少包括：

提取病历数据中的原始手术信息；

提取病历数据中的原始诊断信息；

提取病历数据中的原始病历首页信息；

在一些实施例中，执行算机可执行指令处理器可以是包括一个以上通用处理设备的处理设备，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地，该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。

在一些实施例中，计算机可读存储介质可以为存储器，诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备，或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。

在一些实施例中，计算机可执行指令可以实现为多个程序模块，多个程序模块共同实现根据本公开中任何一项所述的医学影像的显示方法。

本公开描述了各种操作或功能，其可以实现为软件代码或指令或者定义为软件代码或指令。显示单元可以实现为在存储器上存储的软件代码或指令模块，其由处理器执行时可以实现相应的步骤和方法。

这样的内容可以是可以直接执行(“对象”或“可执行”形式)的源代码或差分代码(“delta”或“patch”代码)。这里描述的实施例的软件实现可以通过其上存储有代码或指令的制品提供，或者通过操作通信接口以通过通信接口发送数据的方法提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作，并且包括以可由机器(例如，计算显示设备、电子系统等)访问的形式存储信息的任何机制，例如可记录/不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存显示设备等)。通信接口包括与硬连线、无线、光学等介质中的任何一种接口以与其他显示设备通信的任何机制，例如存储器总线接口、处理器总线接口、因特网连接、磁盘控制器等。通信接口可以通过提供配置参数和/或发送信号来配置以准备通信接口，以提供描述软件内容的数据信号。可以通过向通信接口发送一个或多个命令或信号来访问通信接口。

本公开的实施例的计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。可以用这类组件或模块的任何数量和组合来实现本公开的各方面。例如，本公开的各方面不限于附图中示出的和本文描述的特定的计算机可执行指令或特定组件或模块。其他实施例可以包括具有比本文所示出和描述的更多或更少功能的不同的计算机可执行指令或组件。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本公开的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本公开的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本公开的示例性实施例，不用于限制本公开，本公开的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内，对本公开做出各种修改或等同替换，这种修改或等同替换也应视为落在本公开的保护范围内。

Claims

1.病历数据的处理方法，包括：

提取病历数据中的原始手术信息；

提取病历数据中的原始诊断信息；

提取病历数据中的原始病历首页信息；

2.根据权利要求1所述的方法，其中，所述原始手术信息、原始诊断信息和原始病历首页信息的整合，包括：

基于编码进行整合；

其中：从原始手术信息中得到相应的编码，包括：

3.根据权利要求2所述的方法，其中，病历数据中的原始手术信息，包括以下至少一种：

4.根据权利要求1所述的方法，其中，所述原始手术信息、原始诊断信息和原始病历首页信息的整合，包括：

基于编码进行整合；

其中：从原始诊断信息中得到相应的编码，包括：

5.根据权利要求4所述的方法，其中，病历数据中的原始诊断信息，包括以下至少一种：

6.根据权利要求1所述的方法，其中，所述原始手术信息、原始诊断信息和原始病历首页信息的整合，包括：

基于编码进行整合；

其中：从原始病历首页信息中得到相应的编码，包括：

7.根据权利要求1所述的方法，其中，所述原始手术信息、原始诊断信息和原始病历首页信息的整合，包括：

基于编码进行整合；

其中：从原始病历首页信息中得到相应的编码，包括：

8.根据权利要求1所述的方法，其中，所述基于所述原始手术信息、原始诊断信息和原始病历首页信息的整合，得到目标手术编码和目标诊断编码，包括：

9.病历数据的处理装置，包括：

10.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据权利要求1至8任一项所述的病历数据的处理方法。