CN111767707A

CN111767707A - 雷同病例检测方法、装置、设备及存储介质

Info

Publication number: CN111767707A
Application number: CN202010615135.4A
Authority: CN
Inventors: 蒋雪涵; 孙行智
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30
Also published as: CN111767707B; WO2021121129A1

Abstract

本发明涉及人工智能技术领域，应用于智慧医疗领域中，以便推动智慧城市的建设，揭露了一种雷同病例检测方法、装置、设备及存储介质。该方法通过将获取检测对象的目标病例文本输入至文本相似度聚类模型中，得到目标分群标签；将目标病例文本的病情数据信息输入至病情编码模型，对病情数据信息进行编码得到目标编码信息；根据目标分群标签，从编码数据库中提取与除检测对象外的其他对象对应的样本编码信息；根据目标编码信息和样本编码信息确定编码信息差值；若编码信息差值大于预设差异阈值，确定存在与目标病例文本雷同的历史病例文本，并提示目标病例文本存在造假风险。本发明结合病例相似性和病情数据信息相似性，提高了雷同病例检测的准确性。

Description

雷同病例检测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种雷同病例检测方法、装置、设备及存储介质。

背景技术

随着科学技术的发展，医疗体系也逐渐完善。医疗行为质量监控是规范医疗行为的有效手段之一，目前，自动化进行医疗行为质量监控已被普遍使用，例如智能雷同病例检测系统、智能病情上报系统等。

在现有技术中，智能雷同病例检测系统一般是通过相似文本检测技术来实现的，也即对两个病例文本之间的相似性进行打分，从而判断两个病例文本是否为雷同病例，进而确定可能存在抄袭或者造假的病例文本；该方案的不足之处在于，仅从病例文本文字描述的相似性判断其是否为雷同文本，存在准确性低的问题，因此识别出的抄袭或者造假的结果也同样不准确。

发明内容

本发明实施例提供一种雷同病例检测方法、装置、设备及存储介质，以提高雷同病例检测的准确率。

一种雷同病例检测方法，包括：

获取检测对象的目标病例文本，所述目标病例文本中包含所述检测对象的病情数据信息；

将所述目标病例文本输入至预设的文本相似度聚类模型中，得到与所述目标病例文本对应的目标分群标签；同时，将所述病情数据信息输入至预设的病情编码模型中，对所述病情数据信息进行编码，得到目标编码信息；

根据所述目标分群标签，从所述病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息；所述样本编码信息是指自所述其他对象的历史病例文本中提取的与所述目标分群标签关联的编码信息；

根据所述目标编码信息以及所述样本编码信息，确定编码信息差值；

若所述编码信息差值大于预设差异阈值，则确定存在与所述目标病例文本雷同的历史病例文本，并提示所述目标病例文本存在造假风险。

一种雷同病例检测装置，包括：

病例文本获取模块，用于获取检测对象的目标病例文本，所述目标病例文本中包含所述检测对象的病情数据信息；

分群编码模块，用于将所述目标病例文本输入至预设的文本相似度聚类模型中，得到与所述目标病例文本对应的目标分群标签；同时，将所述病情数据信息输入至预设的病情编码模型中，对所述病情数据信息进行编码，得到目标编码信息；

编码信息提取模块，用于根据所述目标分群标签，从所述病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息；所述样本编码信息是指自所述其他对象的历史病例文本中提取的与所述目标分群标签关联的编码信息；

编码信息差值确定模块，用于根据所述目标编码信息以及所述样本编码信息，确定编码信息差值；

雷同病例判定模块，用于在所述编码信息差值大于预设差异阈值时，确定存在与所述目标病例文本雷同的历史病例文本，并提示所述目标病例文本存在造假风险。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述雷同病例检测方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述雷同病例检测方法。

上述雷同病例检测方法、装置、设备及存储介质，通过获取检测对象的目标病例文本，所述目标病例文本中包含所述检测对象的病情数据信息；将所述目标病例文本输入至预设的文本相似度聚类模型中，得到与所述目标病例文本对应的目标分群标签；同时，将所述病情数据信息输入至预设的病情编码模型中，对所述病情数据信息进行编码，得到目标编码信息；根据所述目标分群标签，从所述病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息；所述样本编码信息是指自所述其他对象的历史病例文本中提取的与所述目标分群标签关联的编码信息；根据所述目标编码信息以及所述样本编码信息，确定编码信息差值；若所述编码信息差值大于预设差异阈值，则确定存在与所述目标病例文本雷同的历史病例文本，并提示所述目标病例文本存在造假风险。本发明结合病例相似性和病情数据信息相似性比较病例文本，能够智能判断病例文本的相似是由病情数据信息相似决定的，也即在样本编码信息与目标编码信息的编码信息差值小于或等于预设差异阈值时，此时表征目标病例文本的病情数据信息与历史病例文本中的样本编码信息相似；还是由诊疗行为不规范导致的病例文本抄袭(也即存在雷同病例文本)，也即在样本编码信息与目标编码信息的编码信息差值大于预设差异阈值时，此时表征目标病例文本与历史病例文本均关联相同的目标分群标签(在该情况下，目标病例文本中的目标编码信息与历史病例文本中的样本编码信息应当相似)，但是目标病例文本中的目标编码信息与历史病例文本中的样本编码信息却存在较大偏差，因此认为该目标病例文本存在抄袭的可能性，如此，提高了雷同病例识别检测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中雷同病例检测方法的一应用环境示意图；

图2是本发明一实施例中雷同病例检测方法的一流程图；

图3是本发明一实施例中雷同病例检测方法的另一流程图；

图4是本发明一实施例中雷同病例检测方法中步骤S17的一流程图；

图5是本发明一实施例中雷同病例检测装置的一原理框图；

图6是本发明一实施例中雷同病例检测装置的另一原理框图；

图7是本发明一实施例中雷同病例检测装置中病情编码模型训练模块的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的雷同病例检测方法，该雷同病例检测方法可应用如图1所示的应用环境中。具体地，该雷同病例检测方法应用在雷同病例检测系统中，该雷同病例检测系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于提高雷同病例检测的准确率。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种雷同病例检测方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：获取检测对象的目标病例文本，目标病例文本中包含检测对象的病情数据信息。

其中，检测对象可以是存在关联病例文本的任意人员。目标病例文本指的是存储检测对象的相关病情特征的文本。病情数据信息指的是与检测对象相关的病情信息，该病情数据信息包括患者基本信息(如姓名、性别或者年龄等)、疾病史、家族史、体征、检验检查结果或者当次手术处方等。

S12：将目标病例文本输入至预设的文本相似度聚类模型中，得到与目标病例文本对应的目标分群标签；同时，将病情数据信息输入至预设的病情编码模型中，对病情数据信息进行编码，得到目标编码信息。

其中，预设的文本相似度聚类模型用于确定与目标病例文本对应的目标分群标签(也即在文本相似度聚类模型中包括多组与病例文本关联的分群标签，同一分群标签下的病例文本存在相似性，示例性地，分群标签可以为感冒、发热或者咳嗽等)。目标分群标签指的是文本相似度聚类模型中与目标病例文本关联的标签(也即目标病例文本中出现的特征信息，与文本相似度聚类模型中的任意标签的特征信息存在关联关系。示例性地，目标病例文本中出现流感的特征信息，则在文本相似度聚类模型中找到流感分类对应的标签，即为目标分群标签)。预设的病情编码模型用于对病情数据进行编码，以得到与病情数据对应的编码信息。

具体地，在获取检测对象的目标病例文本之后，将目标病例文本输入至预设的文本相似度聚类模型中，从文本相似度聚类模型中的分群标签中，确定与目标病例文本中的病例特征描述相关联的分群标签作为目标分群标签；同时，将目标病例文本中的病情数据信息输入至预设的病情编码模型中，对病情数据信息进行编码，得到目标编码信息。

S13：根据目标分群标签，从病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息；样本编码信息是指自其他对象的历史病例文本中提取的的与所述目标分群标签关联编码信息。

其中，编码数据库指的是病情编码模型中存储编码信息的载体。历史病例文本为与样本编码信息对应存储在编码数据库中的病例文本，该历史病例文本为前期训练完成的病情编码模型中存储的文本。

具体地，在将目标病例文本输入至预设的文本相似度聚类模型中，得到与目标病例文本对应的目标分群标签之后，根据目标分群标签，从病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息(在病情编码模型中存在多个历史病例文本，存在历史病历文本中包含检测对象的病例文本对应的数据的可能性，故此时应排除检测对象之后，提取除检测对象外其他对象的样本编码信息)。其中，样本编码信息是从其他对象的历史病例文本中提取得到的的与所述目标分群标签关联的编码信息。

可以理解地，样本编码信息对应的历史病例文本也关联一个分群标签，故在病情编码器的编码数据库中提取其他对象的样本编码信息时，该其他对象对应的历史病例文本与目标病例文本存在相同的分群标签，也即目标分群标签。

S14：根据目标编码信息以及样本编码信息，确定编码信息差值。

其中，编码信息差值指的是目标编码信息和样本编码信息之间的差异程度。

具体地，在根据目标分群标签，从病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息之后，根据目标编码信息以及样本编码信息，确定目标编码信息以及样本编码信息之间的差异程度，也即确定编码信息差值。

进一步地，编码信息差值可以根据以下表达式确定：

其中，RMSD()为均方根误差函数；(s₁,s₂,…,s_x)为目标分群标签对应的样本编码信息(也即可能存在多个与目标病例文本具有相同的目标分群标签的历史病例文本，又每一历史病例文本存在对应的样本编码信息，因此存在多组样本编码信息可与目标编码信息进行比对，提高准确率)；s_i为第i个目标分群标签，x为目标分群标签的总量；t为目标编码信息；f(t)-f(s_i)为目标编码信息与每一样本编码信息之间的距离。

S15：若编码信息差值大于预设差异阈值，则确定存在与目标病例文本雷同的历史病例文本，并提示目标病例文本存在造假风险。

其中，预设差异阈值可以根据实际应用场景中需要满足的最小差异值来确定，示例性地，该预设差异阈值可以为5％等。

具体地，在根据目标编码信息以及样本编码信息，确定编码信息差值之后，若编码信息差值大于预设差异阈值，则表征检测对象的目标病例文本与样本编码信息对应的历史病例文本相似，但是检测对象的病情数据信息与历史病例文本中的病情数据信息不同，故确定存在与目标病例文本雷同的历史病例文本，并提示目标病例文本存在造假风险。

在一具体实施方式中，步骤S14之后还包括：

若编码信息差值小于预设差异阈值，则表征目标病例文本与样本编码信息对应的历史病例文本之间的相似性高，是由于病情数据信息相似导致的，而不是雷同病例。

在本实施例中，通过结合病例相似性和病情数据信息相似性比较病例文本，能够智能判断病例文本的相似是由病情数据信息相似决定的，还是由诊疗行为不规范导致的病例文本抄袭(也即存在雷同病例文本)，提高了雷同病例识别检测的准确性。

在另一具体实施例中，为了保证上述实施例中的目标病例文本以及历史病例文本的私密以及安全性，可以将目标病例文本以及历史并文本存储在区块链中。其中，区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

例如，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，从而基于哈希值实现区块中交易的防篡改和防伪造；新产生的交易被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长。

在一实施例中，如图3所示，步骤S12之前，也即将病情数据信息输入至预设的病情编码模型中之前，还包括如下步骤：

S16：获取预设的病例对象数据集，预设的病例对象数据集包含至少一个病例对象数据；每一病例对象数据均关联一个样本分群标签。

其中，预设的病例对象数据集为包含至少一个病例对象数据的集合，该预设的病例对象数据集可以通过随机采集各对象的病例对象数据集生成的，以使得该预设的病例对象数据集中病例对象数据包含的范围更广(如不同年龄段、不同疾病特征等)。病例对象数据的实质为每一对象对应的病例数据；样本分群标签的实质为对所有病例对象数据进行分群后，每一分群对应的标签(也即每一样本分群标签下可能包含多组病例对象数据，这些病例对象数据的特征信息相似)，示例性地，该样本分群标签可以为表征流感的标签、表征发热的标签等。

S17：将病例对象数据输入至初始编码模型中，根据病例对象数据及其关联的样本分群标签对初始编码模型进行训练，得到病情编码模型。

其中，初始编码模型为病情编码模型的基础模型，该初始编码模型中含有初始定义的参数，需要大量的数据对初始定义的参数进行调整，以将初始编码模型训练完成得到病情编码模型；初始编码模型的结构类似于多层神经网络，包括但不限于输入层、隐层和编码层。

具体地，在获取预设的病例对象数据集之后，将预设的病例对象数据集中所有病例对象数据输入至初始编码模型中，根据每一病例对象数据及其关联的样本分群标签对初始编码模型进行训练，以调整初始编码模型的参数，使得初始编码模型的损失函数达到最小阈值时，表征初始编码模型训练完成，即训练完成的初始编码模型为病情编码模型。

在一实施例中，如图4所示，步骤S17中，也即将病例对象数据输入至初始编码模型中，根据病例对象数据及其关联的样本分群标签对初始编码模型进行训练，得到病情编码模型，具体包括如下步骤：

S171：根据第一选取规则，从预设的病例对象数据集中确定一个目标对象数据。

其中，第一选取规则可以为随机选取，或者按照预设的病例对象数据集中病例对象数据的排序顺序(排序顺序可以按照病例对象数据中对象的姓氏首字母大小排序，也可以按照病例对象数据文件的大小进行排序)选取。

具体地，在获取预设的病例对象数据集之后，根据第一选取规则，从预设的病例对象数据集中确定一个病例对象数据作为目标对象数据。

S172：从预设的病例对象数据集中，根据第二选取规则选取一个与目标对象数据具有相同样本分群标签的病例对象数据作为关联对象数据；同时，根据第二选取规则选取一个与目标对象数据具有不同样本分群标签的病例对象数据作为非关联对象数据。

其中，第二选取规则可以为随机选取，或者按照预设的病例对象数据集中病例对象数据的排序顺序(排序顺序可以按照病例对象数据中对象的姓氏首字母大小排序，也可以按照病例对象数据文件的大小进行排序)选取。关联对象数据指的是预设的病例对象数据集中任一与目标对象数据具有相同样本分群标签的病例对象数据(也即关联对象数据与目标对象数据处于同一病例分类下)。非关联对象数据指的是预设的病例对象数据集中任一与目标对象数据具有不相同样本分群标签的病例对象数据(也即非关联对象数据与目标对象数据不处于同一病例分类下)。

具体地，在根据第一选取规则，从预设的病例对象数据集中确定一个目标对象数据之后，从预设的病例对象数据集中确定与目标对象数据具有相同样本分群标签的病例对象数据，并根据第二选取规则，从中选取一个作为关联对象数据；从预设的病例对象数据集中确定与目标对象数据具有不相同样本分群标签的病例对象数据，并根据第二选取规则，从中选取一个作为非关联对象数据。

进一步地，步骤S171和步骤S172可以结合为如下步骤：

任意选取一个样本分群标签作为关联分群标签(选取的样本分群标签对应的病例对象数据至少为两个)，从预设的病例对象数据集中确定两个与关联分群标签关联的病例对象数据作为关联对象数据。再从预设的病例对象数据集中确定与关联分群标签不同的样本分群标签关联的病例对象数据作为非关联对象数据。

在一具体实施例中，在根据第一选取规则，从预设的病例对象数据集中确定一个目标对象数据之前，还包括：

对所有病例对象数据进行变量转换(也即上述确定的目标对象数据、关联对象数据以及非关联对象数据均为经过变量转换之后得到的)，以得到与病例对象数据对应的变量表示。

可选地，病例对象数据中可以包括但不限于与其对应的对象的年龄、检验检查结果、性别、诊断数据、疾病史等。示例性地，病例对象数据中的年龄以及检验检查结果等可以采用连续型变量表示；病例对象数据中的性别、诊断数据以及疾病史则可以采用二元变量表示。

S173：将目标对象数据、关联对象数据以及非关联对象数据构成的训练三元组输入至初始编码模型中，对训练三元组进行编码，得到初始编码模型的训练参数。

其中，训练三元组的实质即为三元组，该训练三元组可以表示为(目标对象数据，关联对象数据，非关联对象数据)。训练参数指的是训练三元组中(目标对象数据，关联对象数据)与(目标对象数据，非关联对象数据)之间的距离。

具体地，在从预设的病例对象数据集中，根据第二选取规则选取一个与目标对象数据具有相同样本分群标签的病例对象数据作为关联对象数据；同时，根据第二选取规则选取一个与目标对象数据具有不同样本分群标签的病例对象数据作为非关联对象数据之后，将目标对象数据、关联对象数据以及非关联对象数据构造成一个如(目标对象数据，关联对象数据，非关联对象数据)的训练三元组，并将该训练三元组输入至初始编码模型中，通过初始编码模型中的若干隐层对训练三元组进行非线性组合和变换后，在初始编码模型中的编码层输出编码向量结果，该编码向量结果表征了初始编码模型的训练参数，也即(目标对象数据，关联对象数据)与(目标对象数据，非关联对象数据)之间的距离。

S174：根据训练参数确定初始编码模型的训练损失值，在训练损失值达到预设的收敛条件时，将收敛之后的初始编码模型记录为病情编码模型。

其中，训练损失值的实质为初始编码模型中损失函数的损失值。预设的收敛条件可以根据实际应用场景中确定疫情编码模型需要达到的精确度进行选取。

具体地，在将训练三元组输入初始编码模型之后的训练过程即为学习一个编码方式的过程，在整个训练过程中，需要根据得到的训练参数确定初始编码模型的训练损失值，并在训练损失值达到预设收敛条件时，将收敛之后的初始编码模型记录为病情编码模型。

进一步地，根据训练参数确定初始编码模型的训练损失值具体可以采用下述表达式来确定：(假设目标对象数据为A、关联对象数据为P，非关联对象数据为N)

其中，L为训练损失值；m为训练的样本数(也即训练三元组的个数)；q表征第q个训练三元组；A_q为第q个训练三元组中的目标对象数据；P_q为第q个训练三元组中的关联对象数据；N_q为第q个训练三元组中的非关联对象数据；f()为初始编码模型中的编码方式(也即可以理解为编码逻辑)；α为初始编码模型的模型参数，即表征(A，P)与(A，N)之间的距离。

在一实施例中，步骤S13之前，也即根据所述目标分群标签，从所述病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息之前，还包括如下步骤：

对历史病例文本中的历史病例数据进行向量编码操作，得到历史病例数据对应的样本编码信息。

具体地，对历史病例文本中的历史病例数据进行向量编码操作，也即将历史病例数据转化为病情编码模型的向量编码(可以理解地，是将历史病例数据转化为病情编码模型可以识别的编码向量)，得到历史病例数据对应的样本编码信息。

将样本编码信息存储至病情编码模型的编码数据库中。

具体地，在对历史病例文本中的历史病例数据进行向量编码操作，得到历史病例数据对应的样本编码信息之后，将样本编码信息存储至病情编码模型的编码数据库中，以供在检测其它数据时，可以提供样本编码信息与检测对象的编码信息进行比较，以确定检测对象的病例文本是否为雷同病例文本。需要强调的是，为进一步保证上述样本编码信息的私密和安全性，上述样本编码信息还可以存储于一区块链的节点中。

在一实施例中，步骤S12之前，也即将目标病例文本输入至预设的文本相似度聚类模型中，得到与目标病例文本对应的目标分群标签之前，还包括如下步骤：

获取样本病例文本集，样本病例文本集中包含多个样本病例文本。

其中，样本病例文本集为包含多个样本病例文本的集合。

进一步地，为了提高后续相似度处理的准确性，该样本病例文本集中的样本病例文本均为正常病例文本(也即人工审核过不存在恶意抄袭的病例文本)。

选取样本病例文本集中的任意两个样本病例文本作为一组相似度判断对象，并采用相似性处理方法，获取每一组相似度判断对象中的两个样本病例文本之间的相似度值。

其中，相似性处理方法的实质为相似性度量矩阵方法，用于计算两个样本病例文本之间的相似度，优选地，相似性处理方法可以选取Jaccard相似度方法。

具体地，在获取样本病例文本集之后，选取样本病例文本集中的任意两个样本病例文本作为一组相似度判断对象(可以从样本病例文本集中随机选取两个样本病例文本，也可以根据样本病例文本的大小选取)，并采用相似性度量矩阵，获取每一组相似度判断对象中的两个样本病例文本之间的相似度值。

在一具体实施方式中，假设相似性处理方法选取Jaccard相似度方法，则两个样本病例文本之间的相似度值为：

其中，J(U,V)为Jaccard相似度算法表达式，即表征U与V之间的相似度；U和V为两个不同的样本病例文本；|U∩V|为U和V中共同出现的字的个数；|U∪V|为U或V中出现的个数。

在样本病例文本集中所有样本病例文本具备选取完毕并获取与其对应的相似度之后，根据获取的与各组相似度判断对象对应的所有相似度值，构建相似度矩阵。

其中，相似度矩阵为包含所有相似度值的矩阵。

具体地，采用相似性处理方法，获取每一组相似度判断对象中的两个样本病例文本之间的相似度值，并在样本病例文本集中所有样本病例文本具备选取完毕并获取与其对应的相似度之后(也即所有样本病例文本之间均两两比较计算相似度值之后)，根据获取的与各组相似度判断对象对应的所有相似度值，构建相似度矩阵。

采用聚类算法对相似度矩阵进行聚类，得到文本相似度聚类模型。

其中，聚类算法用于将样本病例文本以分类方式进行归类整理，可选地，聚类算法可以为K-means聚类，Mean-Shift聚类或者基于高斯混合模型的期望最大化聚类等。

具体地，在根据获取的与各组相似度判断对象对应的所有相似度值，构建相似度矩阵之后，基于该相似度矩阵进行聚类，得到文本相似度聚类模型，该模型中包含多组分类，也即每一样本病例文本均存在与其对应的分类。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种雷同病例检测装置，该雷同病例检测装置与上述实施例中雷同病例检测方法一一对应。如图5所示，该雷同病例检测装置包括病例文本获取模块11、分群编码模块12、编码信息提取模块13、编码信息差值确定模块14和雷同病例判定模块15。各功能模块详细说明如下：

病例文本获取模块11，用于获取检测对象的目标病例文本，所述目标病例文本中包含所述检测对象的病情数据信息。

分群编码模块12，用于将所述目标病例文本输入至预设的文本相似度聚类模型中，得到与所述目标病例文本对应的目标分群标签；同时，将所述病情数据信息输入至预设的病情编码模型中，对所述病情数据信息进行编码，得到目标编码信息。

编码信息提取模块13，用于根据所述目标分群标签，从所述病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息；所述样本编码信息是指自所述其他对象的历史病例文本中提取的与所述目标分群标签关联的编码信息。

编码信息差值确定模块14，用于根据所述目标编码信息以及所述样本编码信息，确定编码信息差值。

雷同病例判定模块15，用于在所述编码信息差值大于预设差异阈值时，确定存在与所述目标病例文本雷同的历史病例文本，并提示所述目标病例文本存在造假风险。

优选地，如图6所示，雷同病例检测装置还包括如下模块：

数据集获取模块16，用于获取预设的病例对象数据集，预设的病例对象数据集包含至少一个病例对象数据；每一病例对象数据均关联一个样本分群标签。

病情编码模型训练模块17，用于将病例对象数据输入至初始编码模型中，根据病例对象数据及其关联的样本分群标签对初始编码模型进行训练，得到病情编码模型。

优选地，如图7所示，病情编码模型训练模块17具体包括如下单元：

第一数据选取单元171，用于根据第一选取规则，从预设的病例对象数据集中确定一个目标对象数据。

第二数据选取单元172，用于从预设的病例对象数据集中，根据第二选取规则选取一个与目标对象数据具有相同样本分群标签的病例对象数据作为关联对象数据；同时，根据第二选取规则选取一个与目标对象数据具有不同样本分群标签的病例对象数据作为非关联对象数据。

数据编码单元173，用于将目标对象数据、关联对象数据以及非关联对象数据构成的训练三元组输入至初始编码模型中，对训练三元组进行编码，得到初始编码模型的训练参数。

模型确定单元174，用于根据训练参数确定初始编码模型的训练损失值，在训练损失值达到预设的收敛条件时，将收敛之后的初始编码模型记录为病情编码模型。

优选地，雷同病例检测装置还包括如下模块：

向量编码模块，用于对历史病例文本中的历史病例数据进行向量编码操作，得到历史病例数据对应的样本编码信息；

信息存储模块，用于将所述样本编码信息存储至所述病情编码模型的所述编码数据库中。

优选地，雷同病例检测装置还包括如下模块：

样本病例文本集获取模块，用于获取样本病例文本集，样本病例文本集中包含多个样本病例文本；

相似度获取模块，用于采用相似性处理方法，选取样本病例文本集中的任意两个样本病例文本作为一组相似度判断对象，获取每一组相似度判断对象中的两个样本病例文本之间的相似度值；

相似度矩阵构建模块，用于在样本病例文本集中所有样本病例文本具备选取完毕并获取与其对应的相似度之后，根据获取的与各组相似度判断对象对应的所有相似度值，构建相似度矩阵；

矩阵聚类模块，用于采用聚类算法对相似度矩阵进行聚类，得到文本相似度聚类模型。

关于雷同病例检测装置的具体限定可以参见上文中对于雷同病例检测方法的限定，在此不再赘述。上述雷同病例检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述雷同病例检测所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种雷同病例检测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述雷同病例检测方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述雷同病例检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种雷同病例检测方法，其特征在于，包括：

2.如权利要求1所述的雷同病例检测方法，其特征在于，所述将所述病情数据信息输入至预设的病情编码模型中之前，还包括：

获取预设的病例对象数据集，所述预设的病例对象数据集包含至少一个病例对象数据；每一所述病例对象数据均关联一个样本分群标签；

将所述病例对象数据输入至初始编码模型中，根据所述病例对象数据及其关联的样本分群标签对所述初始编码模型进行训练，得到所述病情编码模型。

3.如权利要求2所述的雷同病例检测方法，其特征在于，所述将所述病例对象数据输入至初始编码模型中，根据所述病例对象数据及其关联的样本分群标签对所述初始编码模型进行训练，得到所述病情编码模型，包括：

根据第一选取规则，从所述预设的病例对象数据集中确定一个目标对象数据；

从所述预设的病例对象数据集中，根据第二选取规则选取一个与所述目标对象数据具有相同样本分群标签的病例对象数据作为关联对象数据；同时，根据第二选取规则选取一个与所述目标对象数据具有不同样本分群标签的病例对象数据作为非关联对象数据；

将所述目标对象数据、关联对象数据以及非关联对象数据构成的训练三元组输入至所述初始编码模型中，对所述训练三元组进行编码，得到所述初始编码模型的训练参数；

根据所述训练参数确定所述初始编码模型的训练损失值，在所述训练损失值达到预设的收敛条件时，将收敛之后的所述初始编码模型记录为所述病情编码模型。

4.如权利要求1所述的雷同病例检测方法，其特征在于，所述根据所述目标分群标签，从所述病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息之前，还包括：

对所述历史病例文本中的历史病例数据进行向量编码操作，得到所述历史病例数据对应的所述样本编码信息；

将所述样本编码信息存储至所述病情编码模型的所述编码数据库中。

5.如权利要求1所述的雷同病例检测方法，其特征在于，所述将所述目标病例文本输入至预设的文本相似度聚类模型中，得到与所述目标病例文本对应的目标分群标签之前，还包括：

获取样本病例文本集，所述样本病例文本集中包含多个样本病例文本；

选取所述样本病例文本集中的任意两个所述样本病例文本作为一组相似度判断对象，并采用相似性处理方法获取每一组相似度判断对象中的两个所述样本病例文本之间的相似度值；

在所述样本病例文本集中所有所述样本病例文本具备选取完毕并获取与其对应的相似度值之后，根据获取的与各组相似度判断对象对应的所有相似度值，构建相似度矩阵；

采用聚类算法对所述相似度矩阵进行聚类，得到所述文本相似度聚类模型。

6.如权利要求1所述的雷同病例检测方法，其特征在于，所述根据所述目标编码信息以及所述样本编码信息，确定编码信息差值，包括：

采用如下公式确定编码信息差值：

其中，RMSD()为均方根误差函数；

(s₁,s₂,…,s_x)为目标分群标签对应的样本编码信息；

s_i为第i个目标分群标签；

x为目标分群标签的总量；

t为目标编码信息；

f(t)-f(si)为目标编码信息与每一样本编码信息之间的距离。

7.如权利要求1所述的雷同病例检测方法，其特征在于，所述根据所述目标编码信息以及所述样本编码信息，确定编码信息差值之后，还包括：

若所述编码信息差值小于或等于预设差异阈值，则确定不存在与所述目标病例文本雷同的历史病例文本，并提示所述目标病例文本是真实的。

8.一种雷同病例检测装置，其特征在于，包括：

编码信息提取模块，用于根据所述目标分群标签，从所述病情编码模型的编码数据库中提取与除检测对象外的其他对象对应的样本编码信息；所述样本编码信息是指自所述其他对象的历史病例文本中提取的编码信息；

雷同病例判定模块，用于若所述编码信息差值大于预设差异阈值，则确定存在与所述目标病例文本雷同的历史病例文本，并提示所述目标病例文本存在造假风险。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述雷同病例检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述雷同病例检测方法。