CN113312913B

CN113312913B - 一种病例书的切分方法、装置、电子设备及可读存储介质

Info

Publication number: CN113312913B
Application number: CN202110867572.XA
Authority: CN
Inventors: 袁正航; 李丽; 张奇
Original assignee: Beijing Huimeiyun Technology Co ltd
Current assignee: Beijing Huimeiyun Technology Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-08
Anticipated expiration: 2041-07-30
Also published as: CN113312913A

Abstract

本申请提供了一种病例书的切分方法、装置、电子设备及可读存储介质，针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算得到相应的特征序列后，将特征序列输入至预先训练好的关键词判别模型中，得到对该初始关键词的关键词判断结果，根据判别结果为切分关键词的初始关键词以及补偿关键词规则，确定出多个目标关键词，并根据预设关键词映射知识图谱对各个目标关键词进行关键词映射，确定出多个标准关键词，最后按照确定出的多个标准关键词对待切分病例书进行切分。这样，简化了确定待切分病例书中关键词的步骤，同时统一了切分病例书的关键词，减少了病例录入时再划分存储的时间，有助于提升病例书采集过程的效率以及准确率。

Description

一种病例书的切分方法、装置、电子设备及可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其是涉及一种病例书的切分方法、装置、电子设备及可读存储介质。

背景技术

随着科学技术的发展，越来越多的数据处理系统被广泛地应用于各个领域，针对于医学领域中的医院数据系统来说，电子病历系统也被广泛地应用，以此来提升病历数据采集的便捷性以及准确性。在病历文书的采集过程中，需要根据病历文书中的关键词对病历文书进行切分，从而按照关键词对应的字段，对应的存储病例文书。

现阶段，主要是采用预先设置的正则表达式对获取到的病例文书进行拆分，但是，针对于不同撰写人书写的病例书其起始词和截止词并不相同，需要根据不同的医院以及不同撰写人的习惯去配置相应的正则表达式，这将极大地增加了工作人员的工作量，同时也存在配置的正则表达式无法完全覆盖全部书写习惯的病例书或是不同模板的病例书，病例书采集过程的效率以及准确率较低。

发明内容

有鉴于此，本申请的目的在于提供一种病例书的切分方法、装置、电子设备及可读存储介质，将关键词的判别以及映射拆分为两个分离的过程，根据预先训练好的关键词判别模型对待切分病例书中的关键词进行识别，并对识别出的各个关键词按照预设关键词映射知识图谱，进行关键词映射，得到统一的标准关键词，再按照标准关键词对病例书进行切分录入，简化了确定待切分病例书中关键词的步骤，同时统一了切分病例书的关键词，减少了病例录入时再划分存储的时间，有助于提升病例书采集过程的效率以及准确率。

本申请实施例提供了一种病例书的切分方法，所述切分方法包括：

针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列，并将所述特征序列输入至预先训练好的关键词判别模型中，得到该初始关键词的关键词判断结果；

基于各个关键词判断结果指示为切分关键词的初始关键词，以及预先设置的补偿关键词规则，确定待切分病例书对应的多个目标关键词；

针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词；

基于得到的多个标准关键词，对所述待切分病例书进行切分，得到切分后的可按照切分字段进行统一存储的切分病例书。

进一步的，所述针对于每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列，包括：

确定与所述初始关键词关联的前缀字段的前缀标记特征、后缀字段的后缀标记特征；

利用至少一个预设判别规则，分别对所述前缀字段、后缀字段以及所述初始关键词进行特征判断，所述关键词的属性特征；

确定位序在所述初始关键词之前的前序关键词以及位序在该初始关键词之后的后序关键词；

基于所述前缀标记特征、所述后缀标记特征、所述属性特征、所述前序关键词以及所述后序关键词，按照预设序列排序规则，生成与所述初始关键词对应的特征序列。

进一步的，所述针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词，包括：

检测所述目标关键词是否属于标准关键词集合，若所述目标关键词属于标准关键词集合，直接将所述目标关键词确定为标准关键词；

若所述目标关键词不属于标准关键词集合，基于所述目标关键词的关联关系，得到与该目标关键词对应的标准关键词。

进一步的，所述若所述目标关键词不属于标准关键词集合，基于所述目标关键词的关联关系，得到与该目标关键词对应的标准关键词，包括：

检测与所述目标关键词关联的前序关键词是否属于标准关键词集合，若与所述目标关键词关联的前序关键词属于标准关键词集合，将与所述目标关键词关联的前序关键词确定为标准关键词；

若与所述目标关键词关联的前序关键词不属于标准关键词集合，检测所述目标关键词是否关联默认关键词，若所述目标关键词关联默认关键词，将关联的默认关键词确定为标准关键词。

进一步的，通过以下步骤训练所述关键词判别模型：

基于获取的多个样本病例书，确定多个关键词正训练样本以及多个关键词负训练样本；

针对每个样本病例书，将该样本病例书对应的多个关键词正训练样本以及多个关键词负训练样本输入至构建好的深度学习模型中，得到样本病例书对应的预测关键词结果；

针对每个样本病例书，确定该样本病例书的实际关键词与预测关键词结果指示的关键词是否一致；

若存在样本病例书的实际关键词与预测关键词结果指示的关键词不一致，调整所述深度学习模型中的参数，直至每个样本病例书的实际关键词与预测关键词结果指示的关键词均一致，确定所述深度学习模型训练完毕，并将训练完毕的所述深度学习模型确定为训练好的关键词判别模型。

进一步的，所述关键词正训练样本为所述样本病例书中标注的关键词样本；

所述关键词负训练样本为所述样本病例书中并未标注的关键词样本，或者将关键词的位序交换调整后的样本。

本申请实施例还提供了一种病例书的切分装置，所述切分装置包括：

关键词判别模块，用于针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列，并将所述特征序列输入至预先训练好的关键词判别模型中，得到该初始关键词的关键词判断结果；

关键词确定模块，用于基于各个关键词判断结果指示为切分关键词的初始关键词，以及预先设置的补偿关键词规则，确定待切分病例书对应的多个目标关键词；

关键词映射模块，用于针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词；

病例书切分模块，用于基于得到的多个标准关键词，对所述待切分病例书进行切分，得到切分后的可按照切分字段进行统一存储的切分病例书。

进一步的，所述关键词判别模块在用于针对于每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列时，所述关键词判别模块用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的病例书的切分方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的病例书的切分方法的步骤。

本申请实施例提供的病例书的切分方法、装置、电子设备及可读存储介质，针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算得到相应的特征序列后，将特征序列输入至预先训练好的关键词判别模型中，得到对该初始关键词的关键词判断结果，根据判别结果为切分关键词的初始关键词以及补偿关键词规则，确定出多个目标关键词，并根据预设关键词映射知识图谱对各个目标关键词进行关键词映射，确定出多个标准关键词，最后按照确定出的多个标准关键词对待切分病例书进行切分。这样，简化了确定待切分病例书中关键词的步骤，同时统一了切分病例书的关键词，减少了病例录入时再划分存储的时间，有助于提升病例书采集过程的效率以及准确率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种病例书的切分方法的流程图；

图2为本申请实施例所提供的特征计算的流程图；

图3为本申请实施例所提供的关键词映射的流程图；

图4为本申请实施例所提供的病例书切分的流程图；

图5为本申请实施例所提供的一种病例书的切分装置的结构示意图之一；

图6为本申请实施例所提供的一种病例书的切分装置的结构示意图之二；

图7为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于数据处理领域。近年来，得益于电子病例系统已广泛应用于医院，基于电子病例系统的临床决策支持系统(CDSS)也已经开始在各大医院进行推行，临床决策支持系统极大的提高了医院的管理效率，大大降低了医生失误导致的医疗风险，提高了医生病例书写的质量。一般来说, 临床决策系统由以下几个部分组成：文书采集系统，文书识别系统，规则引擎系统，临床知识库和临床告警系统等。通常临床决策系统在综合分析医生书写的病历和各种检查报告后, 可以基于临床知识库给出相应的辅助信息帮助医生完善诊断，提示风险，提高综合医疗服务的水平，降低医患纠纷的发生率。

但是在现有的文书采集系统中，常常面临由电子病例系统接入的文书失去了其固有的结构或各个电子病例系统厂商，各个医院之间的病例书写规范有不同，业界通常采用正则表达式或者起始截止词对病例文书中的各个字段进行拆分，其主要面对的问题是各个医院的起始词和截止词并不相同, 基于正则的表达式也需要根据医院的真实情况由人进行配置，并且由于不同的科室存在不同的病历书写模板，人工需要花费大量的精力进行病历的查看和配置，且很难避免规则覆盖不全的问题。

随着模型技术的深度发展，在针对于病例书中关键词判断以及映射，又发展成为根据模型直接判断输出病例书中的多个关键词的处理方式，但是模型直接判断一个是否是关键词并给出其映射，需要对模型进行大量的训练运算，并且映射步骤在模型训练结束后，更改映射关系时，需要对模型的全部参数进行修改再训练，工作量大，且不易处理，因此模型进行关键词判断以及映射的处理方式也还是存在效率较低的问题。

基于此，本申请实施例提供了一种病例书的切分方法，以提升病例书采集过程的效率以及准确率。

请参阅图1，图1为本申请实施例所提供的一种病例书的切分方法的流程图。如图1中所示，本申请实施例提供的病例书的切分方法，包括：

S101、针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列，并将所述特征序列输入至预先训练好的关键词判别模型中，得到该初始关键词的关键词判断结果。

该步骤中，根据待切分病例书中包括的每一个初始关键词，对各个初始关键词进行特征计算，得到各个初始关键词对应的特征序列，并将各个初始关键词对应的特征序列输入至预先训练好的关键词判别模型中，得到各个初始关键词是否是真实的关键词的判断结果。

这里，随着电子病历系统在医院中广泛应用，临床决策系统也应运而生，在节省了医院工作人员的书写时间的同时，也提升了病例书的撰写质量，而本申请实施例中的待切分病例书就是待录入临床决策系统中的，由各个医院各个医生撰写的病例书。

其中，对于一份病例书来说，一般会包括多个主题，例如，病患的姓名、年龄的基本信息，入院日期、记录日期等时间信息，主诉、现病史、既往史、个人史、家族史以及体格检查等医疗信息，以及其他信息等。

这里，在获取到的一个待切分病例书后，先提取出该待切分病例书中的初始关键词，其中，初始关键词一般是根据预先设定的存储有大量关键词的关键词库中根据对比提取出来的。

其中，关键词库是根据历史病例数据中各个病例书中包括的关键词进行构建的，在关键词库中包括了大量的关键词，以及同一个关键词的多种表达方式，随着获取到的历史病例书的数量的增多，关键词库会实时进行更新。

其中，对于关键词库的更新可以是按照预设时间间隔进行更新，也可是新增的病例书的数量达到一定数量阈值时进行更新。

这里，针对于每个初始关键词需要进行特征计算，特征计算的过程就是针对于初始关键词进行特征提取的过程，需要提取的特征可以包括初始关键词的前缀词语、后缀词语的特征，以及与该初始关键词关联的其他初始关键词相对于该初始关键词的特征等。

这里，关键词判别模型可以是一个二分类模型，用于根据输入的各个初始关键词对应的特征序列对初始关键词进行判断，判断该初始关键词是否是确定是真正的关键词，即可以从该处进行切分的关键词。

其中，关键词判别模型的输出值也可以是一个二分类的输出，例如，若是经过关键词判别模型判断出该初始关键词是可以从该处进行切分的关键词，那么关键词判别模型可以输出一个“1”值以指示该初始关键词是真正的关键词，相反的，若是经过关键词判别模型判断出该初始关键词不是可以从该处进行切分的关键词，那么关键词判别模型可以输出一个“0”值以指示该初始关键词并非是真正的关键词。

S102、基于各个关键词判断结果指示为切分关键词的初始关键词，以及预先设置的补偿关键词规则，确定待切分病例书对应的多个目标关键词。

该步骤中，根据步骤S101中的关键词判别模型对各个初始关键词进行判断后，将判别结果指示是真实的关键词的初始关键词以及根据预先设置的补偿关键词规则确定出的补偿关键词，确定为待切分病例书对应的目标关键词。

这里，在本申请实施例中，获取到的多个目标关键词包括由关键词判别模型识别出的关键词以及根据预先设置的补偿关键词规则对待切分文本进行识别，确定出的补偿关键词。

这里，在根据关键词判别模型对待切分病例书中包括的各个初始关键词后，由于在对关键词判别模型训练的过程中，关键词判别模型是根据人工标注后的样本病例书进行训练得到的，对于一些可以作为关键词的初始关键词可能无法准确地进行识别，为了对关键词的识别的准确性，可以根据领域内的补偿关键词规则对关键词判别模型的识别结果进行补充，则增加一部分关键词。

其中，在根据补偿关键词规则对关键词进行补充时，还需要定义每个关键词对应的标准关键词，以便后续对关键词进行标准化统一。

例如，在本申请实施例中对应的医学领域，增加的关键词可以是“XX患者在全麻下进行XXX手术”，该关键词对应的标准关键词为“手术名称”。

这里，预先设置的补偿关键词规则是与领域内的标准有关的规则，规则的具体设定可以是参考行业内对文本关键词的具体规定，在此并不做具体限定。

进一步的，在本申请实施例中，步骤“针对于每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列”，包括：

a1：确定与所述初始关键词关联的前缀字段的前缀标记特征、后缀字段的后缀标记特征。

该步骤中，针对每一个初始关键词，获取到该初始关键词关联的前缀字段的前缀标记特征，以及与该初始关键词关联的后缀字段的后缀标记特征。

这里，针对于每个初始关键词，可以是根据该初始关键词在待切分病例书的文本信息中的上下文信息，对该初始关键词的上下文信息进行提取，得到与该初始关键词关联的前缀字段以及后缀字段，实例性地，初始关键词的上下文信息可以是初始关键词前后四字节的文字。

例如，初始关键词“体温”，在待切分病例书中所在字段为“入院最高体温39摄氏度”，那么初始关键词“体温”的前缀字段为“入院最高”，后缀字段为“39摄氏度”。

这里，前缀标记特征以及后缀标记特征指示的是前缀字段以及后缀字段是否是关键词。

其中，对于前缀字段以及后缀字段是否是关键词的判断是对前缀字段以及后缀字段是否属于事先标注的负样本，具体方式可以是，检测前缀字段以及后缀字段是否被人工标注成了关键词，若是前缀字段或者后缀字段被人工标注成了关键词，则认为前缀字段或者后缀字段是关键词；还可是检测前缀字段或者后缀字段相对于初始关键词的位置是否是正确的，若是前缀字段或者后缀字段相对于初始关键词的位置是正确的，则认为前缀字段或者后缀字段是关键词。

这里，在确定初始关键词的前缀字段以及后缀字段的标记特征后，需要将该初始关键词的前缀标记特征以及后缀标记特征作为该初始特征关键词的特征进行特征标记，示例性地，标记特征可以为：prefix_negative_flag:true（前缀字段属于负样本）；suffix_negative_flag:false（后缀字段属于负样本）。

a2：利用至少一个预设判别规则，分别对所述前缀字段、后缀字段以及所述初始关键词进行特征判断，所述关键词的属性特征。

该步骤中，根据至少一个预设判别规则，分别对前缀字段、初始关键词、后缀字段进行特征判断，确定该初始关键词对应的，可以描述初始关键词本身、或是前缀字段或是后缀字段的该初始关键词对应的属性特征。

这里，预设判别规则包括但不限于，后缀字段中是否包括数字、该初始关键词是否为一个英文单词的一部分（例如，在医疗领域中，PE在部分医院作为查体的关键字使用，但PET-CT是一个常见的专有名词），前缀字段以及后缀字段中是否包括截止符。

示例性地，初始关键词对应的属性特征为：next_digital_flag:true（后缀字段中包括数字）。

a3：确定位序在所述初始关键词之前的前序关键词以及位序在该初始关键词之后的后序关键词。

该步骤中，确定词序位置在初始关键词所在位置之前的前序关键词以及词序位置在初始关键词之后的后续关键词。

这里，词序位置是根据获取到的待切分病例书中从文字开始到文字结束出现的关键词的顺序，例如，待切分病例文书中，先出现的是初始关键词“姓名”、之后是初始关键词“病因”，那么，初始关键词“姓名”的位置顺序就是在初始关键词“病因”之前。

这里，针对于每一个初始关键词来说它的前序关键词或是后续关键词可以是一个多没有，也可以是有一个或者多个。

这里，对于每个初始关键词, 与其前后出现过的前序关键词或是后序关键词，做成序列具体为L/R(关键词左右)-[1-5](相对于本关键词位置)-[1-40](标准文书类型)-要预测字段的标准名-上下文字段的标准名。

其中，标准文书类型指的是待切分病例书的具体类型，在本申请实施例对应的医学领域中，标准文书类型可以是入院记录以及手术记录等，在形成序列时，标准文书类型种的入院记录以及手术记录可以通过不同的数值进行代替，例如，入院记录对应的数值为1，手术记录对应的数值为0等。

例如，L2_1_1主诉：体格检查，表示的是文书类型为入院记录，初始关键词“体格检查”的左边第二位置为初始关键词“主诉”。

a4：基于所述前缀标记特征、所述后缀标记特征、所述属性特征、所述前序关键词以及所述后序关键词，按照预设序列排序规则，生成与所述初始关键词对应的特征序列。

该步骤中，根据前序步骤中确定的前缀标记特征、后缀标记特征、属性特征、前序关键词以及后序关键词，确定出与该初始关键词对应的特征序列。

这里，将前序步骤中确定的前缀标记特征、后缀标记特征、属性特征、前序关键词以及后序关键词按照预设好的顺序进行排列可以得到每个初始关键词对应的特征序列。

请参阅图2，图2为本申请实施例所提供的特征计算的流程图，如图2中所示，获取到相应的关键词序列针对于获取到的关键词序列，确定每个关键词前后缀是否在负样本标记中；判断结束后，计算前后缀是否包含数字，截止符号，是否是一个单词中的一部分；计算关键词在关键词序列中的位置，最后特征生成，得到对应的特征向量。

示例性地，（1）关键词序列可以是{主诉：}{现病史：}{体温}{血压}{初步诊断}……；

（2）在对关键词前后缀是否在负样本中的判断结果可以是：

{keyword：体温；

prefix：“入院最高”；

suffix：“39摄氏”；

prefix_negative_flag:true；

suffix_negative_flag:false；

}；

（3）计算前后缀是否包含数字，截止符号，是否是一个单词中的一部分的判断结果可以是：

{keyword：PE；

prefix：“入院查”；

suffix：“T-CT”；

alpha_flag:true；

next_digital_flag:false；

}；

（4）计算关键词在关键词序列中的位置的结果可以是：

{keyword：PE；

sequence：“L2_1_1主诉：体格检查L1_1_2现病史：体格检查R1_1_3辅助检查：体格检查”R2_1_4专科检查：体格检查”；

}；

（5）特征生成的特征向量可以是：

“L2_1_1主诉：体格检查L1_1_2现病史：体格检查R1_1_3辅助检查：体格检查”R2_1_4专科检查：体格检查，prefix_negative，alpha_flagPE体格检查”。

S103、针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词。

该步骤中，根据步骤S102获取得到的多个目标关键词，针对于每个目标关键词，按照预设的关键词映射知识图谱对目标关键词进行映射，确定出与该目标关键词对应的标准关键词。

这里，为了对病例文书采集过程关键词的统一，便于对各个病例文书的录入，需要在确定出待切分病例书中的目标关键词后，对目标关键词进行统一，确定出对应的标准关键词。

例如，目标关键词“因”对应的标准关键词为“主诉”。

这里，关键词映射知识图谱是根据历史病例书中对各个历史病例书中对于各个关键词的书写方式以及对应的标准关键词生成，针对于上述示例，在历史病例书中A工作人员写的“因”记录的是病状，历史病例书中B工作人员写的“主诉”记录的也是病状，那么病例书中的关键词“因”以及关键词“主诉”表达的是同一种意思，两者在关键词映射知识图谱中对应一个标准关键词。

这样，通过关键词知识图谱，可以对待切分病例书中的各个目标关键词进行统一处理，得到各个目标关键词对应的标准关键词，以便后续根据标准关键词对病例书进行切分以及统一录入。

在一种可能的实施方式中，步骤“针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词”，包括：

b1：检测所述目标关键词是否属于标准关键词集合，若所述目标关键词属于标准关键词集合，直接将所述目标关键词确定为标准关键词。

该步骤中，检测确定出的目标关键词是否属于标准关键词集合，若目标关键词属于标准关键词集合，直接将目标关键词确定为标准关键词。

这里，当从待切分病例书中确定出目标关键词有的是已经可以直接确定为标准关键词的目标关键词，对于这类目标关键词可以直接将目标关键词确定为可以为待切分病例书进行切分的标准关键词，直接对待切分病例书进行切分。

b2：若所述目标关键词不属于标准关键词集合，基于所述目标关键词的关联关系，得到与该目标关键词对应的标准关键词。

该步骤中，若是确定出目标关键词并不属于标准关键词集合，那么需要对目标关键词根据预设关键词映射知识图谱中指示的目标关键词的关联关系，映射出与目标关键关键词对应的标准关键词。

在一种可能的实施方式中，步骤“若所述目标关键词不属于标准关键词集合，基于所述目标关键词的关联关系，得到与该目标关键词对应的标准关键词”，包括：

（1）检测与所述目标关键词关联的前序关键词是否属于标准关键词集合，若与所述目标关键词关联的前序关键词属于标准关键词集合，将与所述目标关键词关联的前序关键词确定为标准关键词。

该步骤中，检测与目标关键词关联的前序关键词是否属于标准关键词集合，若是与目标关键词关联的前序关键词是属于标准关键词集合的，那么将对应的前序关键词作为该目标关键词对应的标准关键词。

这里，对于一个目标关键词来说，若是其并不属于标准关键词集合，那么可以根据其关联的前序关键词，确定出标砖关键词，即，将该目标关键词划分至其前序关键词对应的内容中。

其中，与该目标关键词关联的前序关键词是位序离该目标关键词位置最近的其他目标关键词。

例如，针对于本申请实施例中对应的医学领域，“其他”这个关键词, 其挂载位置由其前面的与之相关的最近的前序关键词确定, 若最近的前向关联域为检查解读，则这个其他被合并到检查解读字段中，若最近的前向关联域为既往史，则这个其他将被合并到既往史字段中。

（2）若与所述目标关键词关联的前序关键词不属于标准关键词集合，检测所述目标关键词是否关联默认关键词，若所述目标关键词关联默认关键词，将关联的默认关键词确定为标准关键词。

该步骤中，若是确定出目标关键词关联的前序关键词也并不属于标准关键词集合，那么接着检测该目标关键词是否关联有默认关键词，若是目标关键词关联有默认关键词，那么将关联的默认关键词确定为该目标关键词对应的标准关键词。

这里，针对于一些目标关键词，在根据历史病例书数据设计预设关键词映射知识图谱时，会关联一些默认关键词，将这些默认关键词确定为相应的标准关键词。

例如，比如“一般情况”关键词，在没有前置关键词没有现病史或体格检查时，会默认映射为“体格检查”关键词。

这里，当目标关键词以及目标关键词对应的前序关键词均不属于标准关键词集合，同时该目标关键词也并不存在关联的默认关键词，那么将不对该目标关键词对应的字段进行切分保留，直接删除待切分病例书中的该目标关键词以及与该目标关键词对应的字段。

请参阅图3，图3为本申请实施例所提供的关键词映射的流程图，如图3中所示，关键词映射过程可以为：针对于确定出的关键词序列，首选判断是否已经遍历该关键词序列中的所有关键词，若确定出已经遍历了所有关键词，确定出关键词映射流程结束，若是并未遍历全部的关键词，继续对当前关键词进行映射判断，首先检测该关键词是否可以直接输出，若是可以直接进行输出，那么将该关键词映射到对应的标准关键词；若是不可以直接进行输出，接着判断前序是否有与之关联的关键词，若是存在与之关联的关键词，将该关键词映射到最近的前序关键词的标准关键词上；若是不存在与之关联的关键词，再次判断是否有默认输出关键词，若是存在默认输出关键词，将该关键词映射到默认输出关键词，若是还是不存在默认输出关键词，确定该关键词无对应的有效的标准关键词，直接丢弃该关键词的相关文本。

值得注意的是，对关键词序列中的关键词进行关键词映射的过程，是一个循环过程，需要将关键词序列中的全部关键词均遍历一遍后，结束映射过程。

S104、基于得到的多个标准关键词，对所述待切分病例书进行切分，得到切分后的可按照切分字段进行统一存储的切分病例书。

该步骤中，根据步骤S103得到的多个标准关键词，对待切分病例书按照各个标准关键词进行切分，得到切分后的可按照切分字段进行统一存储的切分病例书。

这里，根据得到的标准关键词对待切分病例书进行切分，得到各个关键词字段，按照关键词字段对应的标准关键词，存储到对应的位置，以完成对病例书的采集工作。

例如，切分后的病例书可以是：主诉：XXXX、现病史：XXXXXX、麻醉方式：XXXX、手术名称：XXXX。

在一种可能的实施方式中，通过以下步骤训练所述关键词判别模型：基于获取的多个样本病例书，确定多个关键词正训练样本以及多个关键词负训练样本；针对每个样本病例书，将该样本病例书对应的多个关键词正训练样本以及多个关键词负训练样本输入至构建好的深度学习模型中，得到样本病例书对应的预测关键词结果；针对每个样本病例书，确定该样本病例书的实际关键词与预测关键词结果指示的关键词是否一致；若存在样本病例书的实际关键词与预测关键词结果指示的关键词不一致，调整所述深度学习模型中的参数，直至每个样本病例书的实际关键词与预测关键词结果指示的关键词均一致，确定所述深度学习模型训练完毕，并将训练完毕的所述深度学习模型确定为训练好的关键词判别模型。

这里，模型可以是使用FastText模型，模型参数设置：embedding维度可以使用30维，损失函数使用softmax，计算P（Y=1/0|keyword[i], keywords[0 : i-1], keywords[i+1 : ]），可以使用300w份正训练样本 200w份负训练样本，对模型进行训练。

这里，模型还可以是双向LSTM、GRU等序列模型。

其中，所述关键词正训练样本为所述样本病例书中标注的关键词样本；所述关键词负训练样本为所述样本病例书中并未标注的关键词样本，或者将关键词的位序交换调整后的样本。

这里，在构建正训练样本时，可以是根据历史病例书中对关键词的选取以及切分过程，采用人工标注后，将人工标注的关键词作为正训练样本；针对于负训练样本，利用人工标记的关键词对所有病例文本进行扫描，扫描出的未标记关键词为负训练样本，或者是，对于正训练样本，随机选取与当前关键词序列相差2位或以上的关键词，交换位置，标记为负训练样本(基于病历文书各关键字段的相对位置相对固定的假设)。

请参阅图4，图4为本申请实施例所提供的病例书切分的流程图，如图4中所示，在拿到病例文书后，对病例文书进行关键词切分，得到多个关键词，并根据多个关键词生成关键词序列，对关键词序列进行特征计算，得到对应的特征序列；将得到特征序列输入至预先训练好的模型中，进行模型打分后，再经过规则层补充数据，以确定出最后的目标关键词，最后经过关键词映射后，得到多个关键词，并根据关键词切分文书。

示例性的，（1）病例书文书可以表示为：

主诉：XX现病史：XXXX体温：XX血压：XXXXX初步诊断：……；

（2）关键词切分后生成的关键词序列可以表示为：

{主诉：}{现病史：}{体温}{血压}{初步诊断}……；

（3）特征计算后的结果可以是表示为：

{key：“主诉”；

sequence：“主诉，现病史，体温…”；

prefix：“”；

suffix：“患者”；

…

}；

（4）模型针对于各个关键词打分的结果可以是：

主诉：1，现病史：1，体温：0，血压：0，初步诊断：1…。

其中，1代表该关键词可以作为病例书中的关键词，0代表不可以作为病例书中的关键词，需要舍弃。

（5）规则层补充的数据是在历史病例书数据中出现的，但是模型无法进行判断的数据，可以是：患者在全麻下进行XXXX手术。

（6）对关键词进行映射后的映射结果可以表示为：

主诉-- >主诉；现病史-- >现病史；其他-- >现病史；体格检查-- >体格检查；其他-- >体格检查。

（7）根据关键词切分病例文书的结果可以表示为：

主诉：XXXX；现病史：XXXXX；麻醉方式：XXXX；手术名称：XXXX。

本申请实施例提供的病例书的切分方法，针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算得到相应的特征序列后，将特征序列输入至预先训练好的关键词判别模型中，得到对该初始关键词的关键词判断结果，根据判别结果为切分关键词的初始关键词以及补偿关键词规则，确定出多个目标关键词，并根据预设关键词映射知识图谱对各个目标关键词进行关键词映射，确定出多个标准关键词，最后按照确定出的多个标准关键词对待切分病例书进行切分。这样，简化了确定待切分病例书中关键词的步骤，同时统一了切分病例书的关键词，减少了病例录入时再划分存储的时间，有助于提升病例书采集过程的效率以及准确率。

基于同一发明构思，本申请实施例中还提供了与病例书的切分方法对应的病例书的切分装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述切分方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图5、图6，图5为本申请实施例所提供的一种病例书的切分装置的结构示意图之一，图6为本申请实施例所提供的一种病例书的切分装置的结构示意图之二。如图5中所示，所述切分装置500包括：

关键词判别模块510，用于针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列，并将所述特征序列输入至预先训练好的关键词判别模型中，得到该初始关键词的关键词判断结果；

关键词确定模块520，用于基于各个关键词判断结果指示为切分关键词的初始关键词，以及预先设置的补偿关键词规则，确定待切分病例书对应的多个目标关键词；

关键词映射模块530，用于针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词；

病例书切分模块540，用于基于得到的多个标准关键词，对所述待切分病例书进行切分，得到切分后的可按照切分字段进行统一存储的切分病例书。

进一步的，如图6所示，所述切分装置500还包括模型训练模块550，所述模型训练模块550用于：

进一步的，所述关键词判别模块510在用于针对于每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列时，所述关键词判别模块510用于：

进一步的，所述关键词映射模块530在用于针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词时，所述关键词映射模块530用于：

进一步的，所述关键词映射模块530在用于若所述目标关键词不属于标准关键词集合，基于所述目标关键词的关联关系，得到与该目标关键词对应的标准关键词时，所述关键词映射模块530用于：

本申请实施例提供的病例书的切分装置，针对于待切分病例书中的每一个初始关键词，对该初始关键词进行特征计算得到相应的特征序列后，将特征序列输入至预先训练好的关键词判别模型中，得到对该初始关键词的关键词判断结果，根据判别结果为切分关键词的初始关键词以及补偿关键词规则，确定出多个目标关键词，并根据预设关键词映射知识图谱对各个目标关键词进行关键词映射，确定出多个标准关键词，最后按照确定出的多个标准关键词对待切分病例书进行切分。这样，简化了确定待切分病例书中关键词的步骤，同时统一了切分病例书的关键词，减少了病例录入时再划分存储的时间，有助于提升病例书采集过程的效率以及准确率。

请参阅图7，图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示，所述电子设备700包括处理器710、存储器720和总线730。

所述存储器720存储有所述处理器710可执行的机器可读指令，当电子设备700运行时，所述处理器710与所述存储器720之间通过总线730通信，所述机器可读指令被所述处理器710执行时，可以执行如上述图所示方法实施例中的病例书的切分方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的病例书的切分方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种病例书的切分方法，其特征在于，所述切分方法包括：

基于得到的多个标准关键词，对所述待切分病例书进行切分，得到切分后的可按照切分字段进行统一存储的切分病例书；

所述针对于每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列，包括：

利用至少一个预设判别规则，分别对所述前缀字段、后缀字段以及所述初始关键词进行特征判断，确定所述关键词的属性特征；

2.根据权利要求1所述的切分方法，其特征在于，所述针对于每个目标关键词，按照预设关键词映射知识图谱对该目标关键词进行关键词映射，得到与该目标关键词对应的标准关键词，包括：

3.根据权利要求2所述的切分方法，其特征在于，所述若所述目标关键词不属于标准关键词集合，基于所述目标关键词的关联关系，得到与该目标关键词对应的标准关键词，包括：

4.根据权利要求1所述的切分方法，其特征在于，通过以下步骤训练所述关键词判别模型：

5.根据权利要求4所述的切分方法，其特征在于，所述关键词正训练样本为所述样本病例书中标注的关键词样本；

6.一种病例书的切分装置，其特征在于，所述切分装置包括：

病例书切分模块，用于基于得到的多个标准关键词，对所述待切分病例书进行切分，得到切分后的可按照切分字段进行统一存储的切分病例书；

所述关键词判别模块在用于针对于每一个初始关键词，对该初始关键词进行特征计算，得到与该初始关键词对应的特征序列时，所述关键词判别模块用于：

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至5中任一项所述的病例书的切分方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至5中任一项所述的病例书的切分方法的步骤。