CN116992839B

CN116992839B - 病案首页自动生成方法、装置及设备

Info

Publication number: CN116992839B
Application number: CN202311239605.1A
Authority: CN
Inventors: 沈丹婷; 张灏; 赵礼悦; 柏沁言; 郑佳琪
Original assignee: Beijing Asiainfo Data Co ltd
Current assignee: Beijing Asiainfo Data Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-01-26
Anticipated expiration: 2043-09-25
Also published as: CN116992839A

Abstract

本发明公开了一种病案首页自动生成方法，包括：获取患者信息和病案首页模板；提取患者信息中结构化数据，并填入病案首页模板；判断病案首页模板中的字段名对应的数据是否缺失，若是，则提取患者信息中非结构化数据，对非结构化数据进行预处理，并存储至大语言模型中；获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行筛选，输出与缺失字段名对应的数据并填入，生成病案首页。本发明通过上述过程，实现病案首页的完整性，不需要手动审核，提高病案首页信息的完整性和准确性，解决现有技术中需要对病案首页进行手动审核和填报质量差，不能保证病案首页中数据完整性和准确性的问题。

Description

病案首页自动生成方法、装置及设备

技术领域

本发明属于医疗信息处理技术领域，具体地说，涉及一种病案首页自动生成方法、装置及设备。

背景技术

随着医疗领域的智能化发展，病案首页是一份完整的简要病历资料，是病案信息最集中、最核心、最主要的部分。但是目前部分医疗机构存在首页内容填写不全、疾病诊断或手术名称不准确等问题，病案首页的数据无法准确科学的汇总统计，导致大量病案首页数据质量较差，而且病案首页质量直接影响DRG最终分组结果，DRG的分组质量对医院的业务收入有直接影响，这已经成为医疗信息化建设的短板，严重制约医疗整体发展能力提升。

现有技术中，很多医疗机构通过HIS系统来记录医疗数据，根据住院患者的医疗记录自动收集相关数据，如个人基本信息、住院时间、主诊断、治疗方案等；根据国家相关规定和标准，自动计算病案质量指标，如病死率、手术并发症率等；在系统中设置相应参数和规则，自动判断是否需要填写外院转入、并行症、二诊断、住院费用等信息；系统自动根据收集到的数据在预设的病案首页格式中生成病案首页；生成的病案首页可以通过系统自动打印、发送电子版或存储在云端等多种方式进行管理和使用。

但在实际操作中，有些数据并不完整，导致病案首页的准确性可能有所降低。尤其是在对缺失数据进行补充时，在对大量非结构化数据进行处理过程中，存在较大问题，会出现主要选择错误、重复、漏填等问题，这些问题严重影响住院病案首页填报质量，所以仍需要医务人员对病案首页进行一次手动审核，以确保病案首页数据的完整性和准确性。

有鉴于此特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种病案首页自动生成方法，通过获取患者信息和病案首页模板，提取患者信息中的结构化数据和非结构化数据，输入到病案首页模板中，在判断病案首页模板中的字段名对应的数据缺失后，通过对非结构化数据进行预处理，通过大语言模型对预处理后的非结构化数据进行筛选，输出所述病案首页模板中缺失的数据并填入，实现病案首页的完整性，不需要手动审核，提高病案首页信息的完整性和准确性。

为解决上述技术问题，本发明采用技术方案的基本构思是：本发明提供一种病案首页自动生成方法，包括：

获取患者信息和病案首页模板；

提取患者信息中结构化数据，并填入病案首页模板；

判断病案首页模板中的字段名对应的数据是否缺失，若是，则提取患者信息中非结构化数据，对非结构化数据进行预处理，并存储至大语言模型中；

获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行筛选，输出与缺失字段名对应的数据并填入，生成病案首页。

进一步地，提取患者信息中结构化数据包括以下步骤：

从系统中获取患者信息，通过设定的限制条件，提取患者信息中的结构化数据；

所述设定的限制条件包括：非空约束，用于限定该数据采集项不可为空；

数据类型约束，用于限定该数据采集项的存储数据类型；

阈值约束，用于限定该数据采集项的取值范围；

语义约束，用于根据特定的数据采集项，限定数据内容的合理性。

进一步地，所述非结构化数据包括：病程记录、入院记录、诊断证明书、出院记录、手术记录和报告单。

进一步地，提取患者信息中非结构化数据，对非结构化数据进行预处理，包括：

从系统中提取患者的非结构化数据；

删除非结构化数据中的无用的字符，并对重复数据信息进行去重，获得处理后的非结构化数据；

将处理后的非结构化数据进行切分，并存储到大语言模型中。

进一步地，获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行提问，包括：

获取病案首页缺失数据的字段名，将缺失的字段名按照符合提示工程的方式进行处理；

将处理后的字段名自动输入至大语言模型中对大语言模型进行提问；大语言模型根据输入的提问字段名对存储的预处理后的非结构化数据进行筛选，输出缺失数据的字段名和缺失数据字段名对应的数据。

进一步地，在输出缺失数据的字段名和缺失数据字段名对应的数据后，还包括：

对输出的输出缺失数据的字段名和缺失数据字段名对应的数据进行约束和标准化处理。

进一步地，对输出结果进行约束和标准化处理，包括：

判断输出结果是否包括缺失的字段名的结构，若否，则对输出结果进行切分，并分行处理；

根据分行处理结果，判断各单行的结果是否有设定符号，若否，则直接略过，若是，则对每行进行关键字匹配搜索，再根据设定符号对数据进行切分取得需要的数据；

根据切分后的数据，判断输出数据是否具有多个，若否，则直接输出，若是，则根据输出的数据取并集输出，或，根据输出的数据对应的数据类型进行优先级排序，并输出优先级靠前的结果。

进一步地，在所述生成病案首页之前，还包括：

判断编码员是否调整出院诊断中的主要诊断与其他诊断顺序，若是，则继续判断生成的病案首页中的数据是否缺失或错误，若否，则输出最终病案首页；

在判断生成的病案首页中的数据是否缺失或错误时，若是，则提醒医护人员修改或补全，若否，则输出最终病案首页。

本发明还提供一种病案首页自动生成装置，包括：

储存模块，用于接收、储存患者信息，储存病案首页模板；

提取模块，用于提取患者信息中的结构化数据和非结构化数据；

判断模块，用于病案首页模板中的字段名对应的数据是否缺失；

处理模块，用于对在判断病案首页模板中的字段名对应的数据缺失时，对非结构化数据进行预处理，并通过处理模块中的大语言模型对预处理后的非结构化数据进行筛选，输出所述病案首页模板中缺失的数据，并填入到病案首页模板；

输出模块，用于对生成病案首页进行输出。

本发明还提供一种计算机设备，包括：处理器以及与所述处理器连接存储介质，所述存储介质中储存有可执行指令，所述可执行指令执行时，使所述处理器执行所述的病案首页自动生成方法。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

（1）本发明通过获取患者信息和病案首页模板，提取患者信息中的结构化数据和非结构化数据，在判断没有缺失后，输入到病案首页模板中，在判断病案首页模板中的字段名对应的数据缺失后，通过对非结构化数据进行预处理，并存储至大语言模型中；获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行筛选，输出与缺失字段名对应的数据并填入，降低填写病案首页信息的流程复杂性，减少人工的参与，通过智能化填写实现病案首页的完整性，不需要手动审核，提高病案首页信息的完整性和准确性。

（2）本发明通过在提取结构化数据时，设定限制条件，提高病案首页信息的准确性和专业性；通过对非结构化数据进行预处理，减少相同数据对病案首页填报数据的影响，避免重复选择。

（3）本发明通过增加大语言模型，将预处理后的非结构化数据保存到大语言模型，方便自动对数据进行提取，并在大语言模型中设定输出文本格式和对输出结果约束和标准化处理，提高在对非结构化数据输出时，文本格式稳定统一，保证输出结果的专业性和准确性。

下面结合附图对本发明的具体实施方式作进一步详细的描述。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1是本发明一种病案首页自动生成方法流程图；

图2是本发明一种病案首页自动生成方法具体流程图；

图3是本发明中对输出结果进行约束和标准化处理的流程图；

图4是本发明一种病案首页自动生成方法时序图；

图5是本发明中病案首页模板中一页模板示意图；

图6是本发明中病案首页模板中另一页模板示意图；

图7是本发明一种病案首页自动生成装置框图。

需要说明的是，这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件（包括固件、微代码等）的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

如图1至图4所示，本发明所述的一种病案首页自动生成方法，包括：

步骤S1、获取患者信息和病案首页模板。

在步骤S1中，在患者进行治疗期间，会产生多种病例信息，医护人员在进行诊断和治疗过程中，通过询问、诊断等方式，对患者的信息进行录入，并针对患者的信息，制定治疗方案或者药物等，共同保存在医疗机构的HIS系统中，在需要生成病案首页时，可自动通过HIS系统，对患者的信息进行提取，同时，也可在LIS、PACS、EMR等不同的医疗系统中对应提取相同患者的信息。

其中，HIS：医院管理信息系统（全称为Hospital Information System），指利用计算机软硬件技术和网络通信技术等现代化手段，对医院及其所属各部门的人流、物流、财流进行综合管理，对在医疗活动各阶段产生的数据进行采集、存储、处理、提取、传输、汇总，加工形成各种信息，从而为医院的整体运行提供全面的自动化管理及各种服务的信息系统。

LIS：实验室信息管理系统（全称为Laboratory Information ManagementSystem），是专为医院检验科设计的一套信息管理系统，是HIS系统的一个重要的组成部分，其主要功能是将检验的实验仪器传出的检验数据经分析，生成检验报告，通过网络存储在数据库中，传给HIS。

PACS：医学影像信息系统（全称为Picture Archiving and CommunicationSystem），是基于医学影像存储与通信系统，从技术上解决图像处理技术的管理系统。狭义的PACS是指从医学影像检查设备中获取影像数据，然后进行加工、存贮、检索、呈现，以及医学影像的智能识别等，不包括检查预约登记等业务过程。广义的PACS则包括检查业务过程管理和影像信息管理两大部份。

EMR：电子病历系统（全称为Electronic Medical Record），是由医疗机构以电子化方式创建、保存和使用的，重点针对患者临床诊疗和指导干预信息的数据集成系统。狭义的EMR是指帮助医生完成入院记录、出院记录、病程记录、手术记录等等需要由医生书写的、主要是自由文本或者固定格式的表格来记录的患者在院期间疾病诊疗情况的记录，通常由“电子病历编辑器”来完成，包括病历文书管理、病历查询、病历统计等模块。广义的电子病历是指患者门诊、住院期间产生的所有与该患者诊疗活动相关的记录信息。

如图5至图6所示，病案首页模板包括患者姓名、年龄、身份证号、地址等必填的结构化名称，同时也包括，患者的诊断信息、手术及操作等非结构化名称，保证了患者病案首页的完整性。

步骤S2、提取患者信息中结构化数据，并填入病案首页模板。

在本申请中结构化数据是指具有固定模式和格式的数据，可以在表格中轻松地组织和存储，这些数据可被大多数关系型数据库管理系统(RDBMS)所管理。例如，数字、日期、文本和时间戳都可以算是结构化数据。

在步骤S2中，本申请在医疗系统HIS中，通过提取患者的结构化数据包括：患者的基本信息，例如：患者的姓名、年纪、现住址、户口住址和联系电话等必要的信息，与病案首页上的必填项相对；同时，还可有：患者的医疗费用，例如：总费用和总费用下的各个分类，如：中医类中的中成药费用和中医治疗费用、西医类中的西药费用和医疗用品耗材等，确保病案首页的质量和完整性。

步骤S3、判断病案首页模板中的字段名对应的数据是否缺失，若是，则提取患者信息中非结构化数据，对非结构化数据进行预处理，并存储至大语言模型中。

在步骤S3中，本发明在自动提取患者信息中的结构化数据，系统会通过病案首页模板中的字段名进行匹配判断，判断字段名对应的数据是否缺失，实现对病案首页中的数据完整行的判断，不需要进行人工审核，提高智能化效果。

在步骤S3中，在判定字段名对应的数据没有缺失时，直接将提取的结构化数据填入到病案首页模板中，例如：患者的姓名为张三、年龄为30岁，系统在获取到相应的结构化数据后，直接将“张三”和“30岁”填入到病例首页模板中的字段名“姓名”和“年龄”的一栏中；在判定字段名对应的缺失时，例如：患者的转科情况、患者的住院时间等，在HIS系统中没有获取到时，就会通过其他系统中的非结构化数据中进行获取，实现对结构化数据的补充，提高病案首页的准确性和完整性。

也可通过在判断病案首页模板中字段名对应的数据是否缺失时，还可通过检查是否存在空值，检查病案首页模板中的所有字段，检查相应数据是否为空或缺失，如果数据为空，则表示字段数据缺失；或，检查字段长度，对于有固定长度要求的字段，例如身份证号码、手机号码等，可以检查字段长度是否符合规定长度，如果长度不符合，则表示字段缺失等其他，例如：根据数据类型判断，根据字段的数据类型进行判断；检查字段是否存在默认值，部分字段在病案首页模板中可能有默认值，可以检查字段数据是否是默认值，如果不是默认值，则表示字段缺失等其他缺失判断方式，在判断病案首页中的字段名没有缺失时，直接生成病案首页。

步骤S4、获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行筛选，输出与缺失字段名对应的数据并填入，生成病案首页。

大语言模型（英文：Large Language Model，缩写LLM），也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。常见的大语言模型包括：GPT-3(OpenAl)：Generative Pre-trained Transformer 3 (GPT-3)；BERT (谷歌)：Bidirectional Encoder Representations from Transformers (BERT)等大语言模型。

本申请在步骤S3判断字段名对应的数据缺失后，通过HIS、LIS、PACS、EMR对患者信息中的非结构化数据进行提取，例如：病程记录和手术记录等数据进行提取，然后对提取后的数据进行预处理，例如：删除重复的数据、删除多余的字符等处理过程，然后通过大语言模型对处理后的非结构化数据进行提问，例如：病案首页模板中的患者住院天数缺失，在大语言模型中就会产生问答，即患者的住院天数为多少天的问句，然后大语言模型，通过对预处理后的非结构化信息进行筛选，如：手术记录和病程记录等数据结合后显示住院天数为10天，大语言模型会对问句进行输出结果，为10天，然后将输出的信息填入到病案首页中的结构化名称“住院天数”的一栏，实现对病案首页缺失部分的自动补充，提高病案首页的填报质量，避免因为病案首页的质量影响DRG最终分组结果，确保病案首页数据的完整性和准确性。

其中，DRG：疾病诊断相关组（全称为Diagnosis Related Groups），是用于衡量医疗服务质量效率以及进行医保支付的一个重要工具。DRG实质上是一种病例组合分类方案，即根据年龄、疾病诊断、合并症、并发症、治疗方式、病症严重程度及转归和资源消耗等因素，将患者分入若干诊断组进行管理的体系。按疾病诊断相关分组付费，是对各疾病诊断相关组制定支付标准，也就是将相关疾病划分为一个组，进行打包付费，不再按项目逐项付费。

进一步地，提取患者信息中结构化数据包括：

步骤S21、从HIS系统中获取患者信息，通过设定的限制条件，提取患者信息中的结构化数据。

在步骤S21中，在获取到患者的信息后，系统中通过设定的限制条件，进行相应的提取，例如：患者信息中的结构化数据中的身份证号必须是18位字符类型；年纪必须是大于0的数值等限制类的条件，保证提取到的结构化数据是准确的。

在步骤S21中设定的限制条件包括：非空约束，用于限定该数据采集项不可为空，例如：患者的病号是必填项，不可以为空项等。设定非空约束可以确保必填项不为空，保证了提取到的患者信息中的结构化数据的完整性。通过限制缺失数据的存在，可以避免在后续分析和处理过程中出现问题。

数据类型约束，用于限定该数据采集项的存储数据类型，例如：患者的身份证号，是18位字符类型、患者的联系电话必须是11位字符类型等。通过设定限制数据类型约束，可以确保提取到的患者信息中的结构化数据是准确有效的，提高数据准确性。

阈值约束，用于限定该数据采集项的取值范围，例如：住院天数，是大于0的整数。通过限制数据采集项的取值范围和语义约束，可以保证提取到的患者信息中的结构化数据的合理性。

语义约束，用于根据特定的数据采集项，限定数据内容的合理性，例如：患者的医疗总费用，应等于所有分类费用的总和。

通过在系统中提取结构化数据将固定模式或格式的数据，进行优先填入到病案首页模板中，限制数据采集项的存储数据类型可以保证数据的格式和数据类型的一致性，避免数据类型错误导致的后续问题，设定限制条件和约束可以提高提取到的患者信息中的结构化数据的准确性、完整性、一致性和合理性，从而提升后续分析和处理的质量和效果。

在本申请中非结构化数据为：是一种没有固定格式的无序数据。这些数据不适合在传统关系型数居库中进行存储，它们不能经松地被行号或列名所标示和问，没有固定的数居控式和组织形式。非结构化数据的数据分类很广泛，包括音频、视频、图像、电子邮件、社交媒体信息、博客、文件、日志、文档等等。

进一步地，在步骤S3中，非结构化数据包括：病程记录、入院记录、诊断证明书、出院记录、手术记录和报告单。

本申请在步骤S3中，在提取患者信息中的非结构化数据后，包括病程记录、入院记录、诊断证明书、出院记录、手术记录和报告单，不限制非结构化的类型和数量。

在通过对系统中的非结构化数据进行提取和处理时，非结构化数据种类多而复杂，可在不同的系统中对多个非结构化数据信息进行提取，例如：HIS、LIS、PACS、EMR系统，然后系统对患者的非结构数据进行切分，提高对非结构数据提取的便捷性和时效性。例如：患者的诊断信息由病程记录、入院记录、诊断证明书、出院记录、报告单提取；患者的手术及操作在病程记录、手术记录中提取。

进一步地，在步骤S3中，提取患者信息中的非结构化数据，对非结构化数据进行预处理，包括，

步骤S31、从系统中提取患者的非结构化数据。

步骤S32、删除非结构化数据中的无用的字符，并对重复数据信息进行去重，获得处理后的非结构化数据。

在步骤S3中，需要获取患者信息中的非结构化数据时，首先，通过在医疗机构的HIS、LIS、PACS、EMR系统中进行提取患者的非结构化数据，包括：包括病程记录、入院记录、诊断证明书、出院记录、手术记录和报告单，然后通过系统中的Python脚本，对获取到的非结构化数据进行对数据进行清洗处理，删除多个非结构化数据文本中，相同到的数据信息、无用的字符等，例如：在删除相同的数据信息时，对相同的非结构化数据进行识别，判断文本的重复度，超过设定的重复度时，判定文本相同，删除其中两个文本中的一个，降低出现重复填充的缺点，简化提取过程。

也可通过自然语言处理（NLP）进行文本预处理，剔除非结构化数据文本中，相同到的数据信息、无用的字符等。

在上述过程中，由于在医疗机构的多个系统中提取的非结构化数据质量较差、数据较为复杂，可能存在无效字符、重复段落、格式问题，因此通过Python脚本对非结构化数据进行清洗处理，删除无用的字符，并对重复文本信息去重，最终获得清晰的病程记录、出院记录、诊断证明书、入院记录、手术记录。

在上述对患者信息中的非结构化数据并不限制对重复的数据或无用的字符进行处理，还可对多余的标点等情况进行处理，同时，在对非结构化数据进行预处理时，不限制使用Python脚本的方式，也可通过Java中的List等其他方式进行预处理，降低复杂信息对数据提取的困难度，提高对非结构化数据提取的便捷性和准确性。

步骤S33、将处理后的非结构化数据进行切分，并存储到大语言模型中。

具体为：将处理后的病程记录、出院记录、诊断证明书、入院记录、手术记录和报告单的文本分别切分，并保存到大语言模型中，由于处理后的非结构化文本过多，设定有最大输入字符数量，字符数量超过了GPT单次最大输入数量（8192 tokens）对处理后的将处理后的病程记录、出院记录、诊断证明书、入院记录、手术记录和报告单的文本分别切分，并将切分后的数据进行分别存储到大预言模型中，避免在进行提问时，因字符数量过多，运行缓慢等待时间过长的问题，提高输出的稳定性和快捷性。

进一步地，在步骤S4中，获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行提问，包括：

步骤S41、获取病案首页缺失数据的字段名，将缺失的字段名按照符合提示工程的方式进行处理。

在判断病案首页的数据缺失后，获取病案首页缺失数据的字段名，利用提示工程技巧将缺失的字段名进行处理，例如：提示工程技巧包括赋予模型身份或角色、用分隔符有效区分需要被分析的文本和要求模型执行的具体任务、指定步骤、指示输出的类型或格式等，例如：病案中的“过敏药物”缺失，那将其处理为：“假如你是一个有丰富经验的医学专家，请帮助我分析大括号里的医学文本，然后思考以下两个问题：1、该文本中的患者是否存在药物过敏？请回答“是”或“否”；2、如果存在药物过敏则返回过敏药物，如果不存在过敏则返回“无”。思考完毕后，请用“<问题>:<答案>”的格式输出，例如“<药物过敏>:<否>；<过敏药物>:<无>”。文本：```{（这里插入医学文本）}```。

S42、将处理后的字段名自动输入至大语言模型中对大语言模型进行提问；大语言模型根据输入的提问字段名对存储的预处理后的非结构化数据进行筛选，输出缺失数据的字段名和缺失数据字段名对应的数据。

本申请在步骤S3中，在判断病案首页模板中的字段名对应的数据缺失对患者信息中的非结构化数据进行预处理后，并对每个非结构化数据文本进行切分，同时，要保证每个文本之间的连续性，例如：病程记录、入院记录、出院记录，不能将出院记录保存到入院记录的前面，先有入院记录，后有出院记录，保证前后非结构化数据文本之间的连贯性后，在保存到大语言模型中，实现在提取数据后可通过前后之间的数据文本关系保证数据正确性。

在系统中保存所有的非结构化数据后，大语言模型设有问答程序，可通过提问的方式进行输出所需要的非结构化数据或者结构化数据，例如：婚姻状况、转科情况、损伤中毒的外部原因、血型等，系统在判定相应的数据缺失后，通过在大语言模型中进行提问，例如：将婚姻状况？输入至大语言模型中，大语言模型对相应的字段名对其中存储的与处理后的非结构化数据进行筛选，得到与婚姻状况对应的数据，实现对非结构化数据的删选。

本申请中大语言模型中的提问方式，在输出结果时，同样进行了限制条件的优化，包括：（1）对部分问题规定回答范围，例如：新生儿出生体重是多少克，用阿拉伯数字回答，并精准到小数点后两位的克数，新生儿体重范围：100克-9999克。

（2）对部分问题规定回答格式，例如：患者的婚姻状况，用‘已婚’、‘未婚’，‘丧偶’，‘离婚’，或‘其他’回答。

（3）对组合问题提问时，若第一个问题回答“有”，则组合中第二个问题需必填，例如：患者是否有药物过敏，请回答“有”或“无”。当“有无药物过敏”为“有”时，患者的过敏药物名称必填，且多种药物用英文逗号进行分隔。

（4）若大语言模型中，在储存的非结构化数据中无法找到明确的答案时，输出不稳定，例如：会输出“未提及”，“0”，“未知”，“null”，为保证无输出时格式一致，需要在提问时加上“若未提及，请回复‘-’”的形式，确保具有输出结果。

所述设定输出文本格式为JSON格式，所述输出的文本为字段名与对应的数据之间通过冒号进行匹配。

（5）设定输出文本格式为JSON格式，通过设置输出的文本格式，保证输出格式的统一，本申请不限定为JSON一种格式，也可通过XML格式进行输出，在本申请中不作限定。

在上述提问过程中，本申请已经对预处理后的非结构化数据进行切分，且具有连贯性，例如：手术类问题只针对手术记录进行提问，可以得到更准确的结果；操作类问题不仅需要对病程记录进行提问，还应该结合医嘱和费用明细进行判断分析。

通过上述的设定问答方式，不仅可以保证输出结果专业清晰，而且可以保证输出结果准确，本申请限定上述几种问答方式，可通过用户的需求进行改变。

如图2至图3所示，进一步地，在输出缺失数据的字段名和缺失数据字段名对应的数据后，还包括：

S43、对输出的缺失数据的字段名和缺失数据字段名对应的数据进行约束和标准化处理。

对输出的缺失数据的字段名和缺失数据字段名对应的数据进行约束和标准化处理就是对输出的数据进行确定约束和标准化规则。例如，可以设定对缺失数据字段名的约束规则为不允许存在空值，对缺失数据字段名对应的数据的约束规则为必须是有效的数据类型、符合规定长度或格式、在取值范围内等。对字段名进行标准化，例如：统一字段名的大小写、格式等；对字段名对应的数据进行标准化处理，例如：数据类型转换、格式规范化、数据清洗等，便于以后对数据进行分析和应用。

在上述过程中，利用标准字典库和标准编码库，使用映射的方式得到最终可输入至病案首页模板的结果，填入到病案首页模板中。标准字典库和标准编码库为标准的名词的特征库，预先进行保存至大语言模型中，或者通过对大语言模型进行标准化名词映射后得到。

在上述步骤S43过程中，在通过大语言模型输出结果后，接着对结果进行约束和标准化处理，例如：需要填写病案首页模板中的出院诊断数据时，大语言模型获取到预处理后的病程记录、入院记录、诊断证明书、出院记录和报告单，通过提问的方式对多个非结构化数据文本中的诊断类型（主要诊断/其他诊断）、诊断名称、入院病情等结果，进行输出对应的数据，其中疾病名称在结果后处理阶段会通过映射模型被映射为ICD-10中的标准疾病名称，然后根据标准疾病名称获取标准疾病编码，最终所有信息以JSON形式返回，确保疾病编码的准确性和专业性。

例如：需要填写病案首页模板中的手术及操作非结构化数据时，大语言模型获取到预处理后的病程记录和手术记录，通过提问的方式获取手术及操作名称、手术及操作日期、手术级别、术者、Ⅰ助、Ⅱ助、切口愈合等级、麻醉方式、麻醉医师等结果，其中手术及操作编码根据编码库进行映射得到，最终所有信息以JSON形式返回，保证输出信息的统一标准。

通过上述映射过程解决现有技术中，在诊断选择和手术选择上出现主要诊断选择错误、不规范诊断、其他诊断漏写漏编；主要手术操作选择错误、其他手术操作漏写漏编、病理诊断编码错误等问题，提高了自动生成病案首页的填报质量，同时，不需要医务人员对病案首页进行手动审核，确保病案首页数据的完整性和准确性。

在本申请中，对大语言模型的输出结果进行约束和标准化的方法有以下三种：

（1）利用大语言模型、Sbert模型（或GPT模型）对其进行特征向量的提取，并与专业标准名词的特征库进行匹配，例如：输出结果为‘麻醉方式为通过吸入的方式全身麻醉’，模型中存储有麻醉所有方式包括静脉全身麻醉和吸入麻醉等方式，通过特征向量提取，输出为麻醉方式为吸入麻醉方式。

（2）利用大语言模型、GPT embedding模型对GPT给出的答案进行特征向量提取，将每个规范的选项也进行embedding处理，之后使用特征相似度对比的方式，确定最佳选项，例如：输出结果为‘患者的信息中的用药名称为对乙酰氨基酚缓释片’，通过与规范的名称为进行特征相似度对比后，得到为同一事物的不同药品名称，输出药品的名称为对乙酰氨基酚。

（3）使用关键词方式，检测输出的结果中是否具有关键词，以确定最终选项，例如：输出的结果为，‘男性患者张三的年纪为30岁’，对输出的结果进行提取关键词，姓名：‘张三’、性别：‘男’、年纪：‘30岁’确定最终的输出结果。

本申请不限制除上述三种约束和标准化处理方式以外的其他处理方式。

如图3所示，进一步地，在步骤S43中，对输出结果进行约束和标准化处理，具体包括：

S431、判断输出结果是否包括缺失的字段名的结构，若否，则执行步骤S432。

在步骤S431中，基于现在大语言模型的常见缺点，在进行输出结果后，需要对输出结果的结构进行判断，会输出类似JSON但是不完全符合JSON格式和语法的字符串，因此需要对其进行提取，看输出的结果是否符合设定的提取结构，即输出的文本为字段名与对应的数据之间通过冒号进行匹配，例如：对患者的婚姻状况进行提问，若是未婚，输出的标准结构应为，婚姻状况：未婚，或者，例如：对患者的手术过程进行提问，输出的标准结构应为，手术过程：包括饮食、过敏反应、麻醉过程等多个文本段。

S432、对输出结果进行切分，并分行处理。

在输出结果为一个文本段时，在超过设定的文字字符数量时，需要对数据结果进行切分，其中一种对输出结果进行切分的方式是反大括号的方式进行切分，切分过程为：首先对输出字符串使用反大括号进行切分，之后将切分开的每一段进行JSON Load尝试，如果可以超加载的字符数量，则采用访问Python字典的逻辑进行访问关键信息，如：诊断名称。如果加载失败，则进行逐行处理逻辑，逐行处理逻辑包含按回车分割，再按照逗号进行分割。

其中，对输出结果进行切分的方式还包括：通过双书名号《》或单书名号<>等方式进行切分，在此不做具体的限定。

S433、根据分行处理结果，判断各单行的结果是否有设定符号，若否，则直接略过，若是，则执行步骤S434。

通过在对输出的数据进行分行处理后，需要对每行的数据进行分析，通过判断各单行中是否有设定的符号，例如：设定的符号为冒号，婚姻状况：未婚，两个文本之间通过冒号进行判断字段名和字段名对应的数据，这样只需要对含有冒号的数据进行提取，只需要找到相应的设定符号，即可完成对数据的判断和提取，极大缩短了提取时间，同时也保证提取数据的正确性，

具体地，在将输出结构进行分行处理后，判断各单行的结果是否有冒号，没有冒号的单行直接略过，接着对每行进行关键字匹配搜索，再根据冒号切分取得需要的数据。例如：输出的结构为：这个患者经过多方会诊和讨论诊结果为急性阑尾炎确定的进行手术治疗对患者的过敏情况进行询问，对这段文本进行切分并分行处理为：这个患者经过多方会诊和讨论，诊断结果：急性阑尾炎，确定的进行手术治疗，对患者的过敏情况进行询问，分为三行，将没有冒号的第一行、第三行这两行给忽略，只对第二行进行输出。

S434、对每行进行关键字匹配搜索，再根据设定符号对数据进行切分取得需要的数据。

在切分后对关键字进行匹配和搜索，在上述举例中，需要获取患者的诊断名称，因此进行关键词匹配，在第二行中，诊断结果：急性阑尾炎，接着切分提取为诊断名称：急性阑尾炎。

S435、根据切分后的数据，判断输出数据是否具有多个，若否，则直接输出，若是，则执行步骤S436。

S436、根据输出的数据取并集输出，或，根据输出的数据对应的数据类型进行优先级排序，并输出优先级靠前的结果。

在上述判断的过程中，在输出的数据时一个的时候，直接将输出的结果填入到病案首页模板中，在输出的数据为多个或者输出的数据不一致时，一种实施方式为：根据输出的数据取并集，然后进行输出，例如：当手术和诊断同时存在诊断名称和手术过程、手术名称等结果时，并存在多个结果时，取结果的并集，手术里具有急性阑尾炎字符和诊断中也具有急性阑尾炎字符时，取并集急性阑尾炎作为输出结果进行输出。另一种实施方式为：根据输出的数据对应的数据类型进行优先级排序，并输出优先级靠前的结果，当数据缺失时，提问GPT后获得的输出结果不一致时，例如：缺失的字段名为婚姻时，在进行大语言模型提问时，从入院记录、出院记录和病程记录中都输出了答案分别为未婚、已婚、未婚这个结果，则以设定的优先级排序方式进行输出，设定的排序方式依次为：入院记录、出院记录和病程记录，以入院记录为最高优先级。例如：缺失的字段名为：过敏药物字段时，在进行大语言模型提问时，从入院记录、病程记录中都具有输出时，则以设定的优先级排序方式进行输出，设定的排序方式依次为：入院记录、病程记录，以入院记录为最高优先级。

在例如：缺失的字段名为：血型时，在进行大语言模型提问时，从入院记录、病程记录、诊断证明书、出院记录都具有输出时，则以设定的优先级排序方式进行输出，设定的排序方式依次为：诊断证明书、出院记录、病程记录，以诊断证明书为最高优先级。

在本申请中不限制固定的排序方式，可根据不同字段名进行匹配设置。

同时，在将患者信息按照数据来源进行区分时，在本申请中的病案首页模板中，还可通过对病案首页模板中的所有字段名进行区分，将字段名分为结构字段名和非结构字段名。具体说，对于任何一个患者的病案首页，如果填入该患者的病案首页的某字段的数据，判定来源于患者信息中的结构化数据，则该字段名就是结构字段名，否则就是非结构字段名，也就是需要利用大语言模型分析处理非结构化数据从而输出对应信息的字段名。

在系统中获取到患者的结构化数据后，对应填入到结构字段名，在病案首页模板中，同样包括非结构字段名，需要填入对应的非结构化数据，通过上述过程，根据设定的输出文本格式，输出与非结构字段名对应的非结构化数据，同样可以实现对病案首页模板中的非结构化数据进行自动填入。

例如：手术及操作名称和麻醉方式的字段名对应的数据为非结构化数据，就会把手术及操作名称和麻醉方式的字段名设定为非结构字段名，在进行填入数据时，需要获取到手术记录数据，同样需要对非结构化数据进行预处理，即对手术记录数据中的重复和多余符号进行删除后，自动通过大语言模型进行提问，从而得到手术及操作名称和麻醉方式等非结构化数据。

在上述过程中，通过将对病案首页模板中的所有字段名，根据患者信息的数据来源进行区分，将字段名分为结构字段名和非结构字段名后，通过在HIS系统中对患者信息进行结构化数据和非结构化数据提取，提取后的结构化数据可直接映射到病案首页模板中的结构化字段中，可以实现在判断结构化字段中的结构化数据缺失后，通过步骤S4，在非结构化数据中通过大语言模型进行输出相同结构化字段的结构化数据，并填入到病案首页模板中进行补充，实现病案首页模板数据的完整性。

通过在HIS系统中对患者信息进行非结构化数据提取后，不能直接对应填入到病案首页模板中的非结构化字段中，需要通过对非结构化数据进行预处理，即对病程记录、入院记录、诊断证明书、出院记录、手术记录和报告单进行预处理，然后分别储存到大语言模型中，通过提问的方式进行输出结果，在经过步骤S4中设定的约束和标准化条件，输出符合规范的结果，在对应填入到病案首页模板中的非结构字段名中，实现病案首页内容的专业性和准确性，不需要医护患者进行再次审核，提高了病案首页的生成质量。

如图2所示，进一步地，在所述生成病案首页之前，还包括：

步骤S5、判断编码员是否调整出院诊断中的主要诊断与其他诊断顺序，若是，则执行步骤S6，若否，则输出最终病案首页。

步骤S6、判断生成的病案首页中的数据是否缺失或错误，若是，则提醒医护人员修改或补全，若否，则输出最终病案首页。

在系统中生成病案首页后，在系统没有判断出编码员调整了出院诊断中的主要诊断与其他诊断顺序后，当前病案首页为最终病案首页。

在系统判断编码员调整了出院诊断中的主要诊断与其他诊断顺序后，例如：在判断出院诊断中的信息调整，婚姻状况由未婚变更为已婚时，系统针对调整的内容与病案首页进行比对，判断病案首页中的内容是否因编码员的操作造成病案首页中的数据缺失或错误，在HIS系统中，提醒医护人员对相应的缺失内容进行修改或补全，然后更新病例首页数据，接着执行步骤S5，若是没有判断编码员调整数据或调整数据后，病案首页中的数据没有缺失或错误，则当前病案首页为最终病案首页。

本申请还可在编码员对在系统判断编码员调整了出院诊断中的主要诊断与其他诊断顺序后，直接对调整的数据与未调整之间的数据进行对比，映射相似度，在发现调整后的数据没有发生改变后，则不需要判断病案首页中的数据是否缺失或错误；在编码员对在系统判断编码员调整了出院诊断中的主要诊断与其他诊断顺序后，对调整的数据与未调整之间的数据进行对比，判断出相同名称的数据发生改变后，提醒医护人员确定，不需要医护人员进行修改，在获取医护人员确定的信号后，直接将现有的数据替换成更改后的数据，生成最终的病案首页，确保病案首页中的数据信息为最新的数据信息，提高病案首页中数据的准确性。

如图7所示，本发明还提供一种病案首页自动生成装置，包括储存模块、提取模块、判断模块、处理模块和输出模块。

储存模块用于接收、储存患者信息，储存病案首页模板。

通过储存模块对患者信息进行接收和储存，同时，病案首页模板也储存在此模块中，方便系统进行调取。

提取模块用于提取患者信息中的结构化数据和非结构化数据。

在接收到需要生成病案首页后，提取模块获取储存模块中的患者信息，并将患者信息分别按照结构化数据和非结构化数据进行提取，实现对病案首页模板中不同字段名的映射。

判断模块用于病案首页模板中的字段名对应的数据是否缺失。

处理模块用于对在病案首页模板中的字段名对应的数据缺失时，对非结构化数据进行预处理，并通过处理模块中的大语言模型对预处理后的非结构化数据进行筛选，输出病案首页模板中缺失的数据，并填入到病案首页模板。

在判断模块判断出病案首页模板中的字段名对应的数据缺失后，处理模块对非结构化数据进行预处理，并通过处理模块中的大语言模型对预处理后的非结构化数据通过提问方式进行筛选，输出病案首页模板中缺失的数据，并填入到病案首页模板，提高病案首页中数据的完整性和准确性。

输出模块用于对生成病案首页进行输出。

最后输出模块对生成的病案首页进行输出。

在输出模块对生成的病案首页进行输出时，可输出的格式包括WORD、PDF格式，输出完整的病案首页，本申请还可是其他格式的输出文本，在此不做具体限定。

具体地，还包括检测模块，生成病案首页后，通过检测模块实时检测系统中的患者信息是否新增或改变，在检测到患者信息改变或新增后，通过判断模块判断病案首页中的数据是否缺失或错误，若否，则直接输出病案首页，若是，则提醒医护人员进行修改或补充，再次进行检测，在检测到病案首页中的数据没有缺失和错误后，生成最终病案首页，进一步提高病案首页的完整性和准确性。

本发明还公开一种计算机设备，包括处理器和储存介质。

存储介质中存储可执行指令，当可执行指令被执行时，使得计算设备执行上述的病案首页自动生成方法。

计算机设备包括处理器以及与处理器连接储存器，储存器储存有可执行指令，可执行指令执行时，使处理器执行上述的病案首页自动生成方法。

计算机设备表示各种形式的计算机，如小型计算机、台式计算机、工作台、服务器、大型计算机或其它适合的计算机等。计算机设备还可以表示各种形式的移动装置，个人数字处理设备、智能移动设备等装置。

处理器可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、人工智能计算芯片、还包括可以实现机器学习模型算法的计算单元、数字信号处理器、以及控制器、微控制器等。

如本申请的展示方法可被实现为计算机软件程序，其被包含在机器可读介质中，例如存储单元。

在本申请中，计算机程序的部分或者全部可以经由处理器和通信单元连接，将展示方法载入到计算机设备上，储存在存储单元中，等待执行。当计算机设备需要进行执行时，通过处理器可以执行上述的病案首页自动生成方法的一个或多个步骤。

同样地，在本申请中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行病案首页自动生成方法的过程。

在本申请中，可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序，可读存储介质可以是可读信号介质或可读储存介质。例如存储硬盘、随机存取存储器（RAM）、只读存储器（ROM）、光纤和光学储存设备等或者是多种组合形成的存储器。

本申请中的计算机设备包括客户端和服务器，通过通信网络进行交互工作，服务器不限于本地或云服务器等其他种类。

本申请在生成病案首页时，依次执行步骤S1、获取患者信息和病案首页模板；S2、提取患者信息中结构化数据，并填入病案首页模板；S3、判断病案首页模板中的字段名对应的数据是否缺失，若是，则提取患者信息中非结构化数据，对非结构化数据进行预处理，并存储至大语言模型中；S4、获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行筛选，输出与缺失字段名对应的数据并填入，生成病案首页，实现病案首页的完整性，不需要手动审核，提高病案首页信息的完整性和准确性，解决现有技术中需要对病案首页进行手动审核和填报质量差，不能保证病案首页中数据完整性和准确性的问题。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专利的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例，上述实施例中的实施方案也可以进一步组合或者替换，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种病案首页自动生成方法，其特征在于，包括：

获取患者信息和病案首页模板；

提取患者信息中结构化数据，并填入病案首页模板；

判断病案首页模板中的字段名对应的数据是否缺失，若是，则提取患者信息中非结构化数据，对非结构化数据进行预处理，对非结构化数据进行预处理后，通过非结构化数据前后之间的数据文本的关系，对非结构化数据进行排序，并存储至大语言模型中；

获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行筛选，输出与缺失字段名对应的数据并填入，在输出缺失数据的字段名和缺失数据字段名对应的数据后，还包括，判断输出与缺失字段名对应的数据是否具有多个，若否，则直接输出，若是，根据输出的数据对应的数据类型进行优先级排序，并输出优先级靠前的结果，生成病案首页；

数据类型指输出的数据对应的文本来源的种类。

2.根据权利要求1所述的病案首页自动生成方法，其特征在于，提取患者信息中结构化数据包括以下步骤：

所述设定的限制条件包括：非空约束，用于限定数据采集项不可为空；

数据类型约束，用于限定数据采集项的存储数据类型；

阈值约束，用于限定数据采集项的取值范围；

3.根据权利要求1所述的病案首页自动生成方法，其特征在于，所述非结构化数据包括：病程记录、入院记录、诊断证明书、出院记录、手术记录和报告单。

4.根据权利要求1所述的病案首页自动生成方法，其特征在于，提取患者信息中非结构化数据，对非结构化数据进行预处理，包括：

从系统中提取患者的非结构化数据；

5.根据权利要求1所述的病案首页自动生成方法，其特征在于，获取缺失数据的字段名，通过大语言模型对预处理后的非结构化数据进行提问，包括：

获取病案首页模板中缺失数据的字段名，将缺失的字段名按照符合提示工程的方式进行处理；

将处理后的字段名自动输入至大语言模型中对大语言模型进行提问；

大语言模型根据输入的提问字段名对存储的预处理后的非结构化数据进行筛选，输出缺失数据的字段名和缺失数据字段名对应的数据。

6.根据权利要求5所述的病案首页自动生成方法，其特征在于，在输出缺失数据的字段名和缺失数据字段名对应的数据后，还包括：

对输出的缺失数据的字段名和缺失数据字段名对应的数据进行约束和标准化处理。

7.根据权利要求6所述的病案首页自动生成方法，其特征在于，对输出的缺失数据的字段名和缺失数据字段名对应的数据进行约束和标准化处理，包括：

判断输出的缺失数据的字段名和缺失数据字段名对应的数据是否包括缺失数据的字段名的结构，若否，则对输出的缺失数据的字段名和缺失数据字段名对应的数据进行切分，并分行处理；

8.根据权利要求1所述的病案首页自动生成方法，其特征在于，在所述生成病案首页之前，还包括：

9.一种病案首页自动生成装置，其特征在于，包括：

储存模块，用于接收、储存患者信息，储存病案首页模板；

提取模块，用于提取患者信息中的结构化数据和非结构化数据，将结构化数据填入病案首页模板；

判断模块，用于判断病案首页模板中的字段名对应的数据是否缺失；

处理模块，用于对在判断病案首页模板中的字段名对应的数据缺失时，对非结构化数据进行预处理，对非结构化数据进行预处理后，通过非结构化数据前后之间的数据文本的关系，对非结构化数据进行排序，并存储至大语言模型中；并通过处理模块中的大语言模型对预处理后的非结构化数据进行筛选，输出所述病案首页模板中缺失的数据，在输出缺失数据的字段名和缺失数据字段名对应的数据后，还包括，判断输出与缺失字段名对应的数据是否具有多个，若否，则直接输出，若是，根据输出的数据对应的数据类型进行优先级排序，并输出优先级靠前的结果，并填入到病案首页模板；

输出模块，用于对生成病案首页进行输出；

数据类型指输出的数据对应的文本来源的种类。

10.一种计算机设备，其特征在于，包括：处理器以及与所述处理器连接的存储介质，所述存储介质中储存有可执行指令，所述可执行指令执行时，使所述处理器执行权利要求1-8任一所述的病案首页自动生成方法。