CN110265104B

CN110265104B - 诊断报告符合度检测方法、装置、计算机设备和存储介质

Info

Publication number: CN110265104B
Application number: CN201910379769.1A
Authority: CN
Inventors: 张艳芬; 李建; 金林原; 李芬穗; 陈丽云
Original assignee: Changsha central hospital
Current assignee: Changsha central hospital
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2022-04-29
Anticipated expiration: 2039-05-08
Also published as: CN110265104A

Abstract

本申请涉及一种诊断报告符合度检测方法、装置、计算机设备和存储介质，其中，方法包括：获取用户当前诊断报告，提取用户身份信息，根据用户身份信息查找用户对应的历史诊断报告集，通过Sklearn库和Numpy库，计算历史诊断报告集与当前诊断报告的交集和并集，根据交集和并集，计算杰卡德系数，根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。整个过程中，基于Sklearn库和Numpy库计算历史诊断报告集与当前诊断报告的交集和并集，进而得到杰卡德系数，以杰卡德系数作为定性检测的主要参数，无需复杂的人工筛查、判定，即可准确对当前诊断报告与对应历史诊断报告符合度进行定性检测。

Description

诊断报告符合度检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种诊断报告符合度检测方法、装置、计算机设备和存储介质。

背景技术

随着智慧医疗的上线，目前越来越多的诊断报告都采用电子报告和纸质报告并行方式、甚至直接采用电子诊断报告方式。电子诊断报告可以方便患者、医生等直接在终端(包括手机和电脑)直接查阅诊断报告，带来巨大便利。

在实际应用中，常常需要对当前诊断报告进行符合度检测，以避免诊断报告出现重大偏差或异常的情况。传统的诊断报告符合度检测方式是采用人工浏览当前诊断报告以及翻阅历史诊断报告集，进而根据查阅的结果得出诊断报告符合度结果为一致或为不一致的结果。

然而，采用人工方式一方面，受限于人的精力有限，人工只能针对少量诊断报告进行符合度检测；另一方面，人工检测过程缓慢，其符合度检测效率低下。因此，有必要提供一种高效的诊断报告符合度检测方案。

发明内容

基于此，有必要针对上述技术问题，提供一种高效的诊断报告符合度检测方法、装置、计算机设备和存储介质。

一种诊断报告符合度检测方法，所述方法包括：

获取用户当前诊断报告，提取用户身份信息；

根据所述用户身份信息查找用户对应的历史诊断报告集；

通过Sklearn库和Numpy库，计算所述历史诊断报告集与所述当前诊断报告的交集和并集；

根据所述交集和所述并集，计算杰卡德系数；

根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。

在其中一个实施例中，所述通过Sklearn库和Numpy库，计算所述历史诊断报告集与所述当前诊断报告的交集和并集包括：

通过Sklearn库中CountVectorizer方法，获取所述历史诊断报告集与当前诊断报告的TF(Term Frequency)矩阵；

根据所述TF矩阵，通过Numpy库计算所述历史诊断报告集与所述当前诊断报告的交集和并集。

在其中一个实施例中，所述根据所述TF矩阵，通过Numpy库计算所述历史诊断报告集与所述当前诊断报告的交集和并集包括：

根据所述TF矩阵，通过Numpy库的Sum方法及Min方法计算所述历史诊断报告集与所述当前诊断报告的交集；

根据所述TF矩阵，通过Numpy库的Sum方法及Max方法计算所述历史诊断报告集与所述当前诊断报告的并集。

在其中一个实施例中，所述通过Sklearn库中CountVectorizer方法，获取所述历史诊断报告集与当前诊断报告的TF矩阵之前，还包括：

对所述当前诊断报告和所述历史诊断报告集进行格式化处理；

提取格式化处理后的所述当前诊断报告中诊断内容和所述格式化处理后的所述历史诊断报告集中诊断内容；

将提取的诊断内容中字与字之间增加空格字符，得到处理数据集；

所述通过Sklearn库中CountVectorizer方法，获取所述历史诊断报告集与当前诊断报告的TF矩阵包括：

通过Sklearn库中CountVectorizer方法，获取所述处理数据集的TF矩阵。

在其中一个实施例中，所述根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果之前，还包括：

获取预设第一数量的第一测试数据组，所述第一测试数据组中当前诊断报告与对应的历史诊断报告集诊断一致；

计算各所第一述测试数据组对应的杰卡德系数平均值，得到第一平均值；

获取预设第二数量的第二测试数据组，所述第二是数据中当前诊断报告与对应的历史诊断报告集诊断不一致；

计算各所第二述测试数据组对应的杰卡德系数平均值，得到第二平均值；

计算所述第一平均值与所述第二平均值的平均值，得到预设杰卡德系数阈值。

在其中一个实施例中，所述预设第一数量与所述预设第二数量的10倍。

一种诊断报告符合度检测装置，所述装置包括：

身份提取模块，用于获取用户当前诊断报告，提取用户身份信息；

历史查找模块，用于根据所述用户身份信息查找用户对应的历史诊断报告集；

交并集计算模块，用于通过Sklearn库和Numpy(Numeric Python)库，计算所述历史诊断报告集与所述当前诊断报告的交集和并集；

杰卡德系数计算模块，用于根据所述交集和所述并集，计算杰卡德系数；

定性检测模块，用于根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。

在其中一个实施例中，所述交并集计算模块还用通过Sklearn库中CountVectorizer方法，获取所述历史诊断报告集与当前诊断报告的TF(tensorflow)矩阵；根据所述TF矩阵，通过Numpy库计算所述历史诊断报告集与所述当前诊断报告的交集和并集。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的方法的步骤。

上述诊断报告符合度检测方法、装置、计算机设备和存储介质，获取用户当前诊断报告，提取用户身份信息，根据所述用户身份信息查找用户对应的历史诊断报告集，通过Sklearn库和Numpy库，计算所述历史诊断报告集与所述当前诊断报告的交集和并集，根据所述交集和所述并集，计算杰卡德系数，根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。整个过程中，基于Sklearn库和Numpy库计算历史诊断报告集与所述当前诊断报告的交集和并集，进而得到杰卡德系数，以杰卡德系数作为定性检测的主要参数，无需复杂的人工筛查、判定，即可准确对当前诊断报告与对应历史诊断报告符合度进行定性检测。

附图说明

图1为一个实施例中诊断报告符合度检测方法的应用环境图；

图2为一个实施例中诊断报告符合度检测方法的流程示意图；

图3另为一个实施例中诊断报告符合度检测方法的流程示意图；

图4为一个实施例中诊断报告符合度检测装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的诊断报告符合度检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。在服务器中存储有历史记录中各个用户对应的诊断报告，非必要的，服务器104可以将每个用户对应的诊断报告分别单独存储，构成数据库。终端102发送用户当前诊断报告至服务器104，服务器104接收用户当前诊断报告，提取用户身份信息，根据用户身份信息查找用户对应的历史诊断报告集，通过Sklearn库和Numpy库，计算历史诊断报告集与当前诊断报告的交集和并集，根据交集和并集，计算杰卡德系数，根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果，定性检测结果包括一致或不一致，服务器104将一致或不一致的检测结果推送至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种诊断报告符合度检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S100：获取用户当前诊断报告，提取用户身份信息。

在用户诊断报告中会记录有用户身份信息、用户本次诊断基于的检查结果、确诊病因与病史等信息。用户身份信息具体可以为用户身份证号码、用户诊疗卡号等。服务器可以接收终端发送用户当前诊断报告，提取其中用户身份信息。

S200：根据用户身份信息查找用户对应的历史诊断报告集。

在服务器中可以预先构建数据库，在数据库内分类存储有每个用户对应的历史诊断报告，将这些历史诊断报告基于用户身份信息归集形成用户对应的历史诊断报告集。

S300：通过Sklearn库和Numpy库，计算历史诊断报告集与当前诊断报告的交集和并集。

Sklearn是Scikit-learn的简称，是一个基于Python的第三方模块。Sklearn库集成了一些常用的机器学习方法，在进行机器学习任务时并不需要实现算法，只需要简单的调用sklearn库中提供的模块就能完成大多数的机器学习任务。NumPy提供了许多高级的数值编程工具，如:矩阵数据类型、矢量处理，以及精密的运算库。历史诊断报告集与当前诊断报告的交集可以简单理解为两者之间存在共性、相同的数据，例如两者之间肯定存在用户身份信息的交集。历史诊断报告集与当前诊断报告的并集可以简单理解为包含历史诊断报告集与当前诊断报告所有数据的集合。

S400：根据交集和并集，计算杰卡德系数。

杰卡德(Jaccard)系数主要用于计算符号度量或布尔值度量的个体间的相似度。在实际应用中，杰卡德系数常用于比较样本集中的相似性和分散性的一个概率。Jaccard系数等于样本集交集与样本集合集的比值，即J＝|A∩B|/|A∪B|。

S500：根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。

杰卡德系数阈值是预先设定的阈值，若步骤S400计算得到的杰卡德系数大于预设杰卡德系数阈值时，则表明用户当前诊断报告与历史诊断报告一致；若步骤S400计算得到的杰卡德系数小于预设杰卡德系数阈值时，则表明用户当前诊断报告与历史诊断报告不一致，服务器可以发出报警信息至终端，请求终端操作者(科室医师)检查用户当前诊断报告是否存在诊断错误。

上述诊断报告符合度检测方法，获取用户当前诊断报告，提取用户身份信息，根据用户身份信息查找用户对应的历史诊断报告集，通过Sklearn库和Numpy库，计算历史诊断报告集与当前诊断报告的交集和并集，根据交集和并集，计算杰卡德系数，根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。整个过程中，基于Sklearn库和Numpy库计算历史诊断报告集与当前诊断报告的交集和并集，进而得到杰卡德系数，以杰卡德系数作为定性检测的主要参数，无需复杂的人工筛查、判定，即可准确对当前诊断报告与对应历史诊断报告符合度进行定性检测。

如图3所示，在其中一个实施例中，S300包括：

S320：通过Sklearn库中CountVectorizer方法，获取历史诊断报告集与当前诊断报告的TF矩阵。

S340：根据TF矩阵，通过Numpy库计算历史诊断报告集与当前诊断报告的交集和并集。

CountVectorizer方法为Sklearn库自带的方法。通过Numpy库计算历史诊断报告集与当前诊断报告的交集和并集具体可以通过通过Numpy库自带的方法，例如Sum方法与Min方法以及Sum方法及Max方法。

在其中一个实施例中，通过Sklearn库中CountVectorizer方法，获取历史诊断报告集与当前诊断报告的TF矩阵之前，还包括：对当前诊断报告和历史诊断报告集进行格式化处理；提取格式化处理后的当前诊断报告中诊断内容和格式化处理后的历史诊断报告集中诊断内容；将提取的诊断内容中字与字之间增加空格字符，得到处理数据集；通过Sklearn库中CountVectorizer方法，获取历史诊断报告集与当前诊断报告的TF矩阵包括：通过Sklearn库中CountVectorizer方法，获取处理数据集的TF矩阵。

格式化处理的目的是把诊断内容的每个字分割开来以便计算每个字的字向量，其具体实现方法为编写一个涵数，Python代码为:def add_space(Z)；return''.join(list(Z))；Z1,Z2＝add_space(Z1),add_space(Z2)；假如Z1为“肝未见异常声像”，Z2为“肝内囊性病变”，格式化处理后Z1为“肝未见异常声像”,Z2为：“肝内囊性病变”。应用Sklearn库中的CountVectorizer方法和fit_transform方法计算Z1与Z2的TF矩阵。通过CountVectorizer方法得到诊断内容的字矩阵例表，通过fit_transform方法将字矩阵例表转化为TF矩阵。Python实现代码为：CountVectorizer(tokenizer＝lambda Z:Z.split())；fit_transform(Z1，Z2).toarray()；假如Z1为“肝未见异常声像”，Z2为“肝内囊性病变”，Z1与Z2的TF矩阵为：[1 0 0 0 1 1 1 0 1 0 1 1]，[0 1 1 1 0 0 0 1 0 1 1 0]。

在其中一个实施例中，根据TF矩阵，通过Numpy库计算历史诊断报告集与当前诊断报告的交集和并集包括：根据TF矩阵，通过Numpy库的Sum方法及Min方法计算历史诊断报告集与当前诊断报告的交集；根据TF矩阵，通过Numpy库的Sum方法及Max方法计算历史诊断报告集与当前诊断报告的并集。

继续以上述实例为例，根据Z1与Z2的TF矩阵，应用Numpy库的Sum方法与Min方法计算Z1和Z2的交集，Python实现代码为：Numpy.sum(Numpy.min(TF矩阵,axis＝0))。使用Numpy.min方法，获取每一列的最小值，得到两者的交集(Z1∩Z2)。应用Numpy库的Sum方法与Max方法计算Z1和Z2的并集。Python实现代码为：Numpy.sum(Numpy.max(TF矩阵,axis＝0))。使用Numpy.max方法，获取每一列的最大值，得到两者的并集(Z1∪Z2)。计算杰卡德系数,计算公式为：杰卡德系数J(Z1，Z2)＝(Z1∩Z2)/(Z1∪Z2)。假如Z1为“肝未见异常声像”，Z2为“肝内囊性病变”，Z1∩Z2计算结果为：1、Z1∪Z2计算结果为：12，杰卡德系数J(Z1,Z2)为：0.0833。

在其中一个实施例中，根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果之前，还包括：获取预设第一数量的第一测试数据组，第一测试数据组中当前诊断报告与对应的历史诊断报告集诊断一致；计算各所第一述测试数据组对应的杰卡德系数平均值，得到第一平均值；获取预设第二数量的第二测试数据组，第二是数据中当前诊断报告与对应的历史诊断报告集诊断不一致；计算各所第二述测试数据组对应的杰卡德系数平均值，得到第二平均值；计算第一平均值与第二平均值的平均值，得到预设杰卡德系数阈值。

下面将采用一个实例，详细说明预设杰卡德系数阈值设定过程。

因相同诊断在报告诊断时文字描写存在差异，所以两者内容很难完全一致，为了估算理想的杰卡德系数阈值，具体实施例中，对100份(预设第一数量)当前诊断与历史诊断相符的病历报告计算杰卡德系数，平均值为0.74，最大值为0.82，最小值为0.61。对10份(预设第二数量)当前诊断与历史诊断不相符的病历报告计算杰卡德系数，平均值为0.45，最大值为0.56，最小值为0.32。因此把杰卡德系数阈值设置为0.6，如果杰卡德系数大于或等于0.6，判定为当前报告与历史报告诊断一致，如果杰卡德系数小于0.6，判定为当前报告与历史报告诊断不一致。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图4所示，一种诊断报告符合度检测装置，装置包括：

身份提取模块100，用于获取用户当前诊断报告，提取用户身份信息；

历史查找模块200，用于根据用户身份信息查找用户对应的历史诊断报告集；

交并集计算模块300，用于通过Sklearn库和Numpy库，计算历史诊断报告集与当前诊断报告的交集和并集；

杰卡德系数计算模块400，用于根据交集和并集，计算杰卡德系数；

定性检测模块500，用于根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。

上述诊断报告符合度检测装置，身份提取模块100获取用户当前诊断报告，提取用户身份信息，历史查找模块200根据用户身份信息查找用户对应的历史诊断报告集，交并集计算模块300通过Sklearn库和Numpy库，计算历史诊断报告集与当前诊断报告的交集和并集，杰卡德系数计算模块400根据交集和并集，计算杰卡德系数，定性检测模块500根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果。整个过程中，基于Sklearn库和Numpy库计算历史诊断报告集与当前诊断报告的交集和并集，进而得到杰卡德系数，以杰卡德系数作为定性检测的主要参数，无需复杂的人工筛查、判定，即可准确对当前诊断报告与对应历史诊断报告符合度进行定性检测。

在其中一个实施例中，交并集计算模块300还用于通过Sklearn库中CountVectorizer方法，获取历史诊断报告集与当前诊断报告的TF矩阵；根据TF矩阵，通过Numpy库计算历史诊断报告集与当前诊断报告的交集和并集。

在其中一个实施例中，交并集计算模块300还用于根据TF矩阵，通过Numpy库的Sum方法及Min方法计算历史诊断报告集与当前诊断报告的交集；根据TF矩阵，通过Numpy库的Sum方法及Max方法计算历史诊断报告集与当前诊断报告的并集。

在其中一个实施例中，上述诊断报告符合度检测装置还包括数据处理模块，用于对当前诊断报告和历史诊断报告集进行格式化处理；提取格式化处理后的当前诊断报告中诊断内容和格式化处理后的历史诊断报告集中诊断内容；将提取的诊断内容中字与字之间增加空格字符，得到处理数据集；交并集计算模块300还用于通过Sklearn库中CountVectorizer方法，获取处理数据集的TF矩阵。

在其中一个实施例中，定性检测模块500还用于获取预设第一数量的第一测试数据组，第一测试数据组中当前诊断报告与对应的历史诊断报告集诊断一致；计算各所第一述测试数据组对应的杰卡德系数平均值，得到第一平均值；获取预设第二数量的第二测试数据组，第二是数据中当前诊断报告与对应的历史诊断报告集诊断不一致；计算各所第二述测试数据组对应的杰卡德系数平均值，得到第二平均值；计算第一平均值与第二平均值的平均值，得到预设杰卡德系数阈值。

在其中一个实施例中，预设第一数量与预设第二数量的10倍。

在实际应用中，可以基于本申请诊断报告符合度检测装置，构建一套完整的医学影像与诊断报告自检与上传系统。

医学影像以及诊断报告数据通过接口输入到整个医学影像与诊断报告自检与上传系统，数据依次经过报告项目检测模块、字词错误检测模块、术语错误检测模块、数据空缺检测模块、数据位置检测模块、报告数据值检测模块、部位与内容检测模块、描述与诊断检测模块、性别内容检测模块以及本申请的诊断报告符合度检测装置处理，得到有缺陷和无缺陷的结果，当有缺陷时，反馈到医学影像与诊断报告工作室；当无缺陷时，启动将数据传送至临床科室。

关于诊断报告符合度检测装置的具体限定可以参见上文中对于诊断报告符合度检测方法的限定，在此不再赘述。上述诊断报告符合度检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史诊断报告数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种诊断报告符合度检测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取用户当前诊断报告，提取用户身份信息；

根据用户身份信息查找用户对应的历史诊断报告集；

通过Sklearn库和Numpy库，计算历史诊断报告集与当前诊断报告的交集和并集；

根据交集和并集，计算杰卡德系数；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

通过Sklearn库中CountVectorizer方法，获取历史诊断报告集与当前诊断报告的TF矩阵；根据TF矩阵，通过Numpy库计算历史诊断报告集与当前诊断报告的交集和并集。

根据TF矩阵，通过Numpy库的Sum方法及Min方法计算历史诊断报告集与当前诊断报告的交集；根据TF矩阵，通过Numpy库的Sum方法及Max方法计算历史诊断报告集与当前诊断报告的并集。

对当前诊断报告和历史诊断报告集进行格式化处理；提取格式化处理后的当前诊断报告中诊断内容和格式化处理后的历史诊断报告集中诊断内容；将提取的诊断内容中字与字之间增加空格字符，得到处理数据集；通过Sklearn库中CountVectorizer方法，获取处理数据集的TF矩阵。

获取预设第一数量的第一测试数据组，第一测试数据组中当前诊断报告与对应的历史诊断报告集诊断一致；计算各所第一述测试数据组对应的杰卡德系数平均值，得到第一平均值；获取预设第二数量的第二测试数据组，第二是数据中当前诊断报告与对应的历史诊断报告集诊断不一致；计算各所第二述测试数据组对应的杰卡德系数平均值，得到第二平均值；计算第一平均值与第二平均值的平均值，得到预设杰卡德系数阈值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种诊断报告符合度检测方法，所述方法包括：

获取用户当前诊断报告，提取用户身份信息；

根据所述用户身份信息查找用户对应的历史诊断报告集；

根据所述交集和所述并集，计算杰卡德系数；

根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果；

所述根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果之前，还包括：

获取预设第一数量的第一测试数据组，所述第一测试数据组中当前诊断报告与对应的历史诊断报告集诊断一致；计算各所第一述测试数据组对应的杰卡德系数平均值，得到第一平均值；获取预设第二数量的第二测试数据组，所述第二测试数据组中当前诊断报告与对应的历史诊断报告集诊断不一致；计算各所第二述测试数据组对应的杰卡德系数平均值，得到第二平均值；计算所述第一平均值与所述第二平均值的平均值，得到预设杰卡德系数阈值，所述预设第一数量为100，所述预设第二数量为10。

2.根据权利要求1所述的方法，其特征在于，所述通过Sklearn库和Numpy库，计算所述历史诊断报告集与所述当前诊断报告的交集和并集包括：

通过Sklearn库中CountVectorizer方法，获取所述历史诊断报告集与当前诊断报告的TF矩阵；

3.根据权利要求2所述的方法，其特征在于，所述根据所述TF矩阵，通过Numpy库计算所述历史诊断报告集与所述当前诊断报告的交集和并集包括：

4.根据权利要求2所述的方法，其特征在于，所述通过Sklearn库中CountVectorizer方法，获取所述历史诊断报告集与当前诊断报告的TF矩阵之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述预设第一数量与所述预设第二数量的10倍。

6.根据权利要求1所述的方法，其特征在于，所述预设杰卡德系数阈值为0.6。

7.一种诊断报告符合度检测装置，其特征在于，所述装置包括：

交并集计算模块，用于通过Sklearn库和Numpy库，计算所述历史诊断报告集与所述当前诊断报告的交集和并集；

定性检测模块，用于根据计算得到的杰卡德系数与预设杰卡德系数阈值，得到诊断报告符合度定性检测结果；

定性检测模块，还用于获取预设第一数量的第一测试数据组，所述第一测试数据组中当前诊断报告与对应的历史诊断报告集诊断一致；计算各所第一述测试数据组对应的杰卡德系数平均值，得到第一平均值；获取预设第二数量的第二测试数据组，所述第二测试数据组中当前诊断报告与对应的历史诊断报告集诊断不一致；计算各所第二述测试数据组对应的杰卡德系数平均值，得到第二平均值；计算所述第一平均值与所述第二平均值的平均值，得到预设杰卡德系数阈值，所述预设第一数量为100，所述预设第二数量为10。

8.根据权利要求7所述的装置，其特征在于，所述交并集计算模块还用通过Sklearn库中CountVectorizer方法，获取所述历史诊断报告集与当前诊断报告的TF矩阵；根据所述TF矩阵，通过Numpy库计算所述历史诊断报告集与所述当前诊断报告的交集和并集。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。