CN117235582A

CN117235582A - 基于电子病历的多粒度信息处理方法及装置

Info

Publication number: CN117235582A
Application number: CN202311429286.0A
Authority: CN
Inventors: 郭华源; 何昆仑
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-15
Anticipated expiration: 2043-10-31
Also published as: CN117235582B

Abstract

本发明实施例公开了一种基于电子病历的多粒度信息处理方法及装置，该方法包括：对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本；对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析。通过上述方式，本发明实施例能够提高住院病历信息处理的准确率和高效能，为后续应用模型训练提供充分的样本资源和高质量数据。

Description

基于电子病历的多粒度信息处理方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，具体涉及一种基于电子病历的多粒度信息处理方法及装置。

背景技术

在医学领域中，多源异构的电子病历数据，蕴含着丰富的医学知识、专家经验和临床指南等信息，是一座亟待开发利用的资源宝库。同时，电子病历也具有上下文语义丰富、内容样式各异、时序特性突出、应用场景广阔等特点，急需研究新的模型高效训练方法。住院病历可按照不同内容和样式分成多种类型，每一种类型的住院病历在信息整理、内容组织和格式编排等方面不尽相同，各有侧重。如此在对住院电子病历进行智能化应用时，如果对各类病历数据不加区分、盲目机械地进行模型训练与推理，则一方面会大幅增加计算量，消耗宝贵算力资源，另一方面也会导致一些潜藏在不同类型病历中的高价值信息被淹没，难以准确提取病历个性特征，更难聚焦相关诊疗知识。

现有技术大多采用机器学习、深度学习等技术，针对单任务、单目标构建相关模型，难以持续提升算法性能，难以有效适配多种应用场景，更难于高效完成疑难复杂疾病的智能诊断。当前，多模态、多任务、多目标等建模技术快速发展，“预训练+微调”成为一种重要的建模新范式，基础模型、预训练模型、生成式大模型不断涌现。即以通用生成式大模型为底座，加入专业领域的高质量数据进行微调训练，可以有效提高模型在智能问诊、辅助诊断等下游场景中的应用性能。如此专业领域的数据质量成为制约模型微调质量的重要因素。

发明内容

鉴于上述问题，本发明实施例提供了一种基于电子病历的多粒度信息处理方法及装置，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种基于电子病历的多粒度信息处理方法，所述方法包括：对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本；对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析。

可选的，所述对住院病历数据进行多粒度信息的分类分级处理，获取与应用对应的多个病历数据子集，包括：根据应用需求依次基于疾病诊断、病历类型以及患者ID对住院病历数进行分类分级处理，将所述住院病历数据划分为多个病历数据子集，每个所述病历数据子集包括任一种病历诊断任病历类型以及任一患者ID的多个病历文本。

可选的，所述对任一所述病历数据子集中的部分病历文本进行多粒度计算之前，包括：将同一疾病诊断、同一病历类型、甚至同一患者ID的所述病历数据子集中的各病历文本按照时序进行排序。

可选的，所述对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，包括：对属于同一疾病诊断的各所述病历数据子集中选择第一预设数量的病历文本，并进行分词处理，获取与所述疾病诊断对应的基准关键词；根据所述基准关键词对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行核心词组与感兴趣文段的识别和提取。

可选的，所述进行分词处理，获取与所述疾病诊断对应的基准关键词，包括：对选择的所有病历文本进行全文分词处理，获取各分词词组；统计各分词词组，并确定与所述疾病诊断对应的基准关键词。

可选的，所述统计各分词词组，并确定与所述疾病诊断对应的基准关键词，包括：统计各分词词组的出现频次，并从高到低进行排序；选择排名靠前第二预设数量的分词词组作为初步关键词；对所述初步关键词进行聚类计算，获取与所述疾病诊断对应的基准关键词。

可选的，所述根据所述基准关键词属于同一疾病诊断的各所述病历数据子集中的各病历文本进行核心词组与感兴趣文段的识别和提取，包括：属于同一疾病诊断的各所述病历数据子集中的各病历文本进行全文扫描，依次识别出所有的所述基准关键词；根据所有的所述基准关键词进行向量化，获取感兴趣文段的向量并存入向量数据库。

基于同一发明构思，提供了一种基于电子病历的多粒度信息处理装置，包括：分类分级处理单元，用于对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本；多粒度计算单元，用于对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析。

基于同一发明构思，本发明实施例还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述的方法。

基于同一发明构思，本发明实施例还提出了一种计算机存储介质，存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行前述的方法。

本发明实施例通过对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本；对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析，能够提高住院病历信息处理的准确率和高效能，为后续应用模型训练提供充分的样本资源和高质量数据。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的基于电子病历的多粒度信息处理方法的流程示意图；

图2示出了本发明实施例的“底座模型+数据微调”策略示意图；

图3示出了本发明实施例的分类分级处理结构示意图；

图4示出了本发明实施例的病历分类与多粒度计算示意图；

图5示出了本发明实施例提供的基于电子病历的多粒度信息处理装置的结构示意图；

图6示出了本发明实施例中的电子设备示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的基于电子病历的多粒度信息处理方法的流程示意图。

如图1所示，该基于电子病历的多粒度信息处理方法应用于服务器，包括：

步骤S11：对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本。

住院病历内容广泛、知识富集，一些有关临床诊疗、疾病特性和治疗规律等高价值信息隐含、散落在大量文本信息中，如何快速提取和高效使用这些高价值信息是一个技术难题。另外，病历文本数量庞大，不同样式、不同主题的病历种类较多，如何进行低成本、高效能的挖掘和分析，在有限时间内提高资源使用效率也需要革新方法。常规单任务、单目标建模方法难以有效应对多种下游应用需求，而且存在病历数据重复加工、反复计算等问题，耗时耗力，性价比低。近年来，“预训练模型+微调”模型构建技术发展迅猛，成为自然语言处理、医学文本处理等领域的一项先进技术。针对同一种疾病，有些患者在不同时段进行多次入院治疗；也有些患者多次入院是为了治疗不同的疾病，还有一些患者通过一次入院治疗就基本痊愈。深入充分挖掘这些病历知识，梳理疾病治疗转归的变化关系和内在逻辑，将非常有助于提高后续各应用模型的处理性能和质量。

本发明实施例基于如图2所示的“底座模型+数据微调”策略，通过将大批量的住院电子病历文本依次进行分类分级处理，便于按照不同的下游应用需求构建病历数据集，从而有助于快速构建面向不同下游任务的微调模型。本发明实施例的分类分级处理结构如图3所示的数据金字塔，自底向上包括：按疾病诊断分类、按病历类型分类、病历全文、感兴趣文段以及核心词，对应的数据分别为：同一类诊断的病历数据、同一类型的病历数据、同一患者不同时段的病历全文、从病历全文中选出的感兴趣文段以及从病历全文中选出的核心词组。其中，病历类型包括入院记录、病程记录、会诊记录、医嘱单、体温单、术前小结、出院记录等类型。本发明实施例通过构建数据金字塔，使得病历数据中高价值信息得到不断富集。自顶向下，数据量在快速增大，有用信息被迅速“稀释”；自底向上，则数据量在持续减少，关键信息在不断集中。

在步骤S11中，可选的，根据应用需求依次基于疾病诊断、病历类型以及患者ID对住院病历数进行分类分级处理，将所述住院病历数据划分为多个病历数据子集，每个所述病历数据子集包括任一种病历诊断任病历类型以及任一患者ID的多个病历文本。一个病历数据子集表示一个底座模型的数据。在本发明实施例中，分类处理是指依次按照疾病诊断、病历类型、患者ID等标识信息对住院电子病历数据进行划分和归类。即从逻辑上将住院病历库按照分类条件，划分成若干个不同的住院病历子集，每个子集都是由同一疾病诊断、同一病历类型、甚至同一患者ID的多个病历文本构成。具体如图4所示，将住院病历库中的病历数据按疾病诊断分成各种疾病诊断的住院病历数据集。在此基础上按病历类型分为入院记录、病程记录、会诊记录、出院记录等子集。进一步对每个子集按患者ID进行划分，包括患者不同时段的相关病历数据。

由于病历文本通常采用“数据库+文档”技术进行归档管理，因此可依托SQL查询技术实现病历分类处理。分级处理是在分类处理基础上，先按照时序将同一疾病诊断、同一病历类型、甚至同一患者ID的多个病历文本进行排序，便于后续采用自然语言处理技术进行感兴趣文段的识别、核心词组提取等多粒度数据处理。

本发明实施例通过建立住院病历信息的分类分层处理机制，将住院病历进行分门别类的整理，有助于高价值信息的提取、分析和应用，提高有用信息的纯度和丰度，减少不相关性信息的干扰。

步骤S12：对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析。

在步骤S12中，可选的，对属于同一疾病诊断的各所述病历数据子集中选择第一预设数量的病历文本，并进行分词处理，获取与所述疾病诊断对应的基准关键词；根据所述基准关键词对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行核心词组与感兴趣文段的识别和提取。第一预设数量可以根据需要进行设置，在此并不作具体限制。

在本发明实施例中，对属于同一疾病诊断的各病历数据子集分别挑选一批有代表性的病历文本，然后进行分词处理。其中有代表性的病历文本可以是应用频率比较高，信息比较全面的病历文本。分词处理即进行全文词组划分和词性标识。在进行分词处理时，对选择的所有病历文本进行全文分词处理，获取各分词词组；统计各分词词组，并确定与所述疾病诊断对应的基准关键词。可选的，统计各分词词组的出现频次，并从高到低进行排序；选择排名靠前第二预设数量的分词词组作为初步关键词；对所述初步关键词进行聚类计算，获取与所述疾病诊断对应的基准关键词。第二预设数量可以根据需要进行设置，在此并不作具体限制，优选为8～15中的数据。本发明实施例采用词云技术统计各型分词词组出现次数，并按出现频次进行排序，将Top K的分词词组视为初步关键词。对属于同一疾病诊断的各种病历的初步关键词采用聚类计算，即按照“类内最小，类间最大”原则计算获得每一种诊断的基准关键词。“类内最小，类间最大”原则是指进行聚类时，不同类的关键词的距离值最大，而属于同一类的关键词的距离值最小。

对各种疾病诊断的病历数据进行相同的处理，分别获取与各疾病诊断对应的各基准关键词。

在本发明实施例中，获取与任一疾病诊断对应的基准关键词之后，根据所述基准关键词对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行核心词组与感兴趣文段的识别和提取。对每一份同类病历文本以这些基准关键词为标识，进行核心词组与感兴趣文段的识别与提取。注意，在此把每一份病历文本和所有基准关键词都进行向量化，后续处理都以向量形式进行。具体方法是，对病历文本进行全文扫描，依次识别出所有基准关键词，将出现这些基准关键词的语段以“句”为单位视为感兴趣文段，重叠区域只算一次，将感兴趣文段的向量存入向量数据库便于后续计算。因此，在本发明实施例中，可选的，针对任一病历数据子集，对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行全文扫描，依次识别出所有的所述基准关键词；根据所有的所述基准关键词进行向量化，获取感兴趣文段的向量并存入向量数据库，以便后续输入应用模型进行数据分析。

在本发明实施例中，还可根据实际情况定期重新挑选一批病历应用上述相同方法进行重新计算，获得新的基准关键词。

本发明实施例按照“疾病诊断-病历类型-患者ID”等递进条件对住院病历数据依次进行分类处理，可使得大量住院电子病历以一种更为有序、高效、统一的方式进行对齐和归档，便于模型微调和测试等应用。同时，将病历文本按照“病历全文-感兴趣文段-核心词组”分级结构进行多粒度信息分析与整理，便于对住院电子病历进行更为深入、全面的挖掘计算，提高住院病历信息处理的准确率和高效能。另外，将病历文本和关键词都以向量形式进行比对、搜索等计算，并将结果存入向量数据库以备后用。该模块功能可以实现为后台应用值守服务，为病历信息处理提供7×24小时服务。

本发明实施例将住院电子病历进行分类、分级处理，都可在应用模型训练之前，就以后台应用值守服务等形式预先进行处理，并将多粒度计算结果存入向量数据库，为后续应用模型训练提供充分的样本资源和高质量数据，能够提高基于住院电子病历的应用模型训练与推理性能，进一步推动住院病历智能化的应用发展。

综上所述，本发明实施例的基于电子病历的多粒度信息处理方法通过对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本；对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析，能够提高住院病历信息处理的准确率和高效能，为后续应用模型训练提供充分的样本资源和高质量数据。

上述对本发明特定实施例进行了描述。在一些情况下，在本发明实施例中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一个构思，本发明实施例还提供了一种基于电子病历的多粒度信息处理装置。应用于服务器。附图5所示，基于电子病历的多粒度信息处理装置包括：分类分级处理单元和多粒度计算单元。其中，

分类分级处理单元，用于对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本；

多粒度计算单元，用于对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置应用于前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本发明实施例还提供了一种电子设备，该电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的方法。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行如上任意一实施例中所述的方法。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器601、存储器602、输入/输出接口603、通信接口604和总线605。其中处理器601、存储器602、输入/输出接口603和通信接口604通过总线605实现彼此之间在设备内部的通信连接。

处理器601可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明方法实施例所提供的技术方案。

存储器602可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器602可以存储操作系统和其他应用程序，在通过软件或者固件来实现本发明方法实施例所提供的技术方案时，相关的程序代码保存在存储器602中，并由处理器601来调用执行。

输入/输出接口603用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口604用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线605包括一通路，在设备的各个组件(例如处理器601、存储器602、输入/输出接口603和通信接口604)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器601、存储器602、输入/输出接口603、通信接口604以及总线605，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请旨在涵盖落入所有实施例的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于电子病历的多粒度信息处理方法，其特征在于，所述方法包括：

对住院病历数据进行分类分级处理，获取与应用对应的多个病历数据子集，每个所述病历数据子集中包括多个病历文本；

对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，以便后续输入应用模型进行数据分析。

2.根据权利要求1所述的方法，其特征在于，所述对住院病历数据进行多粒度信息的分类分级处理，获取与应用对应的多个病历数据子集，包括：

根据应用需求依次基于疾病诊断、病历类型以及患者ID对住院病历数进行分类分级处理，将所述住院病历数据划分为多个病历数据子集，每个所述病历数据子集包括任一种病历诊断任病历类型以及任一患者ID的多个病历文本。

3.根据权利要求2所述的方法，其特征在于，所述对任一所述病历数据子集中的病历文本进行多粒度计算之前，包括：

将同一疾病诊断、同一病历类型、甚至同一患者ID的所述病历数据子集中的各病历文本按照时序进行排序。

4.根据权利要求2所述的方法，其特征在于，所述对任一所述病历数据子集中的病历文本进行多粒度计算，获取各病历文本的核心词组与感兴趣文段，包括：

对属于同一疾病诊断的各所述病历数据子集中选择第一预设数量的病历文本，并进行分词处理，获取与所述疾病诊断对应的基准关键词；

根据所述基准关键词对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行核心词组与感兴趣文段的识别和提取。

5.根据权利要求4所述的方法，其特征在于，所述进行分词处理，获取与所述疾病诊断对应的基准关键词，包括：

对选择的所有病历文本进行全文分词处理，获取各分词词组；

统计各分词词组，并确定与所述疾病诊断对应的基准关键词。

6.根据权利要求5所述的方法，其特征在于，所述统计各分词词组，并确定与所述疾病诊断对应的基准关键词，包括：

统计各分词词组的出现频次，并从高到低进行排序；

选择排名靠前第二预设数量的分词词组作为初步关键词；

对所述初步关键词进行聚类计算，获取与所述疾病诊断对应的基准关键词。

7.根据权利要求4所述的方法，其特征在于，所述根据所述基准关键词对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行核心词组与感兴趣文段的识别和提取，包括：

对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行全文扫描，依次识别出所有的所述基准关键词；

根据所有的所述基准关键词进行向量化，获取感兴趣文段的向量并存入向量数据库。

8.一种基于电子病历的多粒度信息处理装置，其特征是，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的方法。

10.一种计算机存储介质，其特征是，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的方法。