CN110808095B

CN110808095B - 诊断结果识别、模型训练的方法、计算机设备及存储介质

Info

Publication number: CN110808095B
Application number: CN201910882231.2A
Authority: CN
Inventors: 朱昭苇; 孙行智; 胡岗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2023-08-04
Anticipated expiration: 2039-09-18
Also published as: WO2021051496A1; CN110808095A

Abstract

本发明公开了诊断结果识别、模型训练的方法、计算机设备及存储介质，该方法包括：获取参考数据集及样本数据集；参考数据集包括症状参考集合和诊断参考集合，训练样本集中的每个训练样本包括目标症状和目标诊断；将目标症状与症状参考集合中的参考症状进行匹配，将目标诊断与诊断参考集合中的参考诊断进行匹配，得到匹配结果；按照位置标识将匹配结果转换成用于表示病况的样本序列串集合；利用生成式对抗网络GAN的生成器，生成伪序列串集合；将训练样本集和训练样本集中每个训练样本对应的诊断结果输入到判别器，得到诊断结果识别模型。诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以降低CDSS输出的诊断结果的误诊率。

Description

诊断结果识别、模型训练的方法、计算机设备及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种诊断结果识别、模型训练的方法、计算机设备及存储介质。

背景技术

目前，人工智能技术已经在生活中有了较广泛的应用，其中也涉及到医疗领域。人工智能在医学领域一个非常重要的应用是临床决策支持系统(Clinical DecisionSupport System,CDSS)，CDSS包括临床辅助诊断系统，临床辅助诊断系统旨在根据患者的症状等信息给出疑似诊断。

目前CDSS系统采用的诊断模型一般为概率模型，传统机器学习模型，深度网络模型等。这些模型在一些输入场景下能表现出很好的效果，但是不可否认的是无论哪种模型，都会在一些场景下表现失常(尤其是概率模型)，会给出不合逻辑的甚至是错误的结果，即误诊。误诊会给CDSS用户和患者带来极大的不便甚至危害，应该尽量避免。

目前的CDSS系统最常见的误诊控制方法是通过制定一些规则来过滤诊断结果，如根据性别过滤不合理的诊断，规则的数量有限，比较局限，因此对质控效果贡献不大。

发明内容

本发明实施例提供一种诊断结果识别、模型训练的方法、计算机设备及存储介质，用于降低CDSS输出的诊断结果的误诊率。

第一方面，本发明实施例提供了一种诊断结果识别模型训练的方法，包括：

获取参考数据集及样本数据集；所述参考数据集包括症状参考集合和诊断参考集合，所述训练样本集中的每个训练样本包括目标症状和目标诊断；所述症状参考集合中的每个参考症状及所述诊断参考集合中的每个参考诊断均具有位置标识；

将所述目标症状与所述症状参考集合中的参考症状进行匹配，将所述目标诊断与所述诊断参考集合中的参考诊断进行匹配，得到匹配结果；

按照所述位置标识将所述匹配结果转换成用于表示病况的样本序列串集合；

利用生成式对抗网络GAN的生成器，生成伪序列串集合；

将训练样本集和所述训练样本集中每个训练样本对应的诊断结果输入到所述GAN的判别器，所述训练样本集包括获取的样本序列串集合和所述伪序列串集合，利用所述训练样本集及所述对应的诊断结果对所述判别器进行训练，得到诊断结果识别模型，所述诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果

第二方面，本发明实施例提供了一种诊断结果识别的方法，包括：

获取输入到临床决策支持系统CDSS的目标症状及所述CDSS根据所述目标症状输出的诊断结果；

将所述目标症状与所述症状参考集合中的参考症状进行匹配，将所述目标诊断与所述诊断参考集合中的参考诊断进行匹配，得到匹配结果，症状参考集合中的参考症状和诊断参考集合中的参考诊断均具有位置标识；

按照位置标识将所述匹配结果转换成用于表示病况的序列串；

将所述序列串及对应的诊断结果输入到上述第一方面所述的诊断结果识别模型，通过所述诊断结果识别模型输出所述诊断结果对应的识别结果。

第三方面，本发明实施例提供了一种诊断结果识别模型训练的装置，包括：

获取模块，用于获取参考数据集及样本数据集；所述参考数据集包括症状参考集合和诊断参考集合，所述训练样本集中的每个训练样本包括目标症状和目标诊断；所述症状参考集合中的每个参考症状及所述诊断参考集合中的每个参考诊断均具有位置标识；

匹配模块，用于将所述获取模块获取的所述目标症状与所述症状参考集合中的参考症状进行匹配，将所述获取模块获取的所述目标诊断与所述诊断参考集合中的参考诊断进行匹配，得到匹配结果；

转换模块，用于按照所述位置标识将所述匹配模块得到的所述匹配结果转换成用于表示病况的样本序列串集合；

序列串生成模块，用于利用生成式对抗网络GAN的生成器，生成伪序列串集合，所述伪序列串集合中的伪序列串的数据大小与所述样本序列串集合中的样本序列串的数据大小相同；

模型生成模块，用于将训练样本集和所述训练样本集中每个训练样本对应的诊断结果输入到所述GAN的判别器，所述训练样本集包括所述获取模块获取的样本序列串集合和所述序列串生成模块生成的伪序列串集合，利用所述训练样本集及所述对应的诊断结果对所述判别器进行训练，得到诊断结果识别模型，所述诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果

第四方面，本发明实施例提供了一种诊断结果识别的装置，包括：

获取模块，用于获取输入到临床决策支持系统CDSS的目标症状及所述CDSS根据所述目标症状输出的诊断结果；

匹配模块，用于将所述获取模块获取的所述目标症状与所述症状参考集合中的参考症状进行匹配，将所述目标诊断与所述诊断参考集合中的参考诊断进行匹配，得到匹配结果，症状参考集合中的参考症状和诊断参考集合中的参考诊断均具有位置标识；

转换模块，用于按照位置标识将所述匹配模块匹配的所述匹配结果转换成用于表示病况的序列串；

识别结果生成模块，用于将转换模块转换的所述序列串及对应的诊断结果输入到上述第一方面所述的诊断结果识别模型，通过所述诊断结果识别模型输出所述诊断结果对应的识别结果。

第五方面，本发明实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面，或者，第二方面所述的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面，或者，第二方面所述的方法。

本发明实施例中，获取参考数据集及样本数据集；所述参考数据集包括症状参考集合和诊断参考集合，所述训练样本集中的每个训练样本包括目标症状和目标诊断；将所述目标症状与所述症状参考集合中第一预置数量的参考症状进行匹配，将所述目标诊断与所述诊断参考集合中第二预置数量的参考诊断进行匹配，得到匹配结果。按照参数数据集中的位置标识将匹配结果转换成用于表示病况的样本序列串集合，该样本序列串集合作为训练判别器的真实数据样本，利用生成器生成的伪序列串集合，通过对样本序列串集合和伪序列串集合的训练，得到诊断结果识别模型，所述诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果，该识别结果可以CDSS的诊断结果的正确性，以降低CDSS输出的诊断结果的误诊率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中诊断结果识别模型训练的方法的一个实施例的步骤流程示意图；

图2是本发明实施例中诊断结果识别的方法的一个实施例的步骤流程示意图；

图3是本发明实施例中诊断结果识别模型训练的装置的一个实施例的结构示意图；

图4是本发明实施例中诊断结果识别的装置的一个实施例的结构示意图；

图5是本发明实施例中计算机设备的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种诊断结果识别模型训练的方法及诊断结果识别的方法，通过诊断结果识别模型训练的方法，训练得到诊断结果识别模型，该诊断结果识别模型用于用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果，该识别结果可以CDSS的诊断结果的正确性，以降低CDSS输出的诊断结果的误诊率。其中，该诊断结果识别模型训练的方法应用于一种计算机设备，该计算机设备可以为服务器，该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。诊断结果识别的方法应用于一种计算机设备，该计算机设备可以为服务器，或者，该计算机设备为终端，该终端包括但不限定与个人计算机，笔记本电脑，掌上电脑，智能手机等。诊断结果识别模型训练的方法的执行主体和诊断结果识别的方法的执行主体可以相同，也可以不同，本发明实施例中，该诊断结果识别模型训练的方法的执行主体可以以第一服务器为例进行说明，该诊断结果识别的方法的执行主体可以以第二服务器为例进行说明。

本发明实施例中，第一服务器获取参考数据集及样本数据集；所述参考数据集包括症状参考集合和诊断参考集合，所述训练样本集中的每个训练样本包括目标症状和目标诊断；将所述目标症状与所述症状参考集合中第一预置数量的参考症状进行匹配，将所述目标诊断与所述诊断参考集合中第二预置数量的参考诊断进行匹配，得到匹配结果。按照参数数据集中的位置标识将匹配结果转换成用于表示病况的样本序列串集合，该样本序列串集合作为训练判别器的真实数据样本，利用生成器生成的伪序列串集合，通过对样本序列串集合和伪序列串集合的训练，得到诊断结果识别模型，所述诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果，该识别结果可以CDSS的诊断结果的正确性，以降低CDSS输出的诊断结果的误诊率。

为了更好的理解本方案，首先对生成式对抗网络(Generative AdversarialNetworks，GAN)进行简要说明。GAN是深度学习模型，GAN包括两个网络，分别为生成网络G(Generator)和判别网络D(Discriminator)，其中G也可以称为生成器，D也可以称为判别器。生成器和判别器是完全独立的两个模型。通过生成器生成虚拟数据；而判别模型则是要判别自身获取到的输入数据是来自于真实数据，还是来生成模型所生成的数据。判别器D的训练目的就是要尽量最大化自己的判别准确率。当输入数据被判别为来自于真实数据时，标注1；当输入数据被判别来自于生成器生成的虚拟数据时，标注0。生成器G的训练目标，就是要最小化判别模型D的判别准确率。通过这两个内部模型之间不断的竞争，从而提高两个模型的生成能力和判别能力，这两个过程相互对抗并迭代优化，使得D和G的性能不断提升，优化的目标是寻找二者间的纳什均衡。

下面对一种诊断结果识别模型训练的方法进行详细说明。

请参阅图1所示，本发明实施例提供了一种诊断结果识别模型训练的方法的一个实施例，该训练方法可以具体包括如下步骤：

S101、获取参考数据集及样本数据集；参考数据集包括症状参考集合和诊断参考集合，训练样本集中的每个训练样本包括目标症状和目标诊断；症状参考集合中的每个参考症状及诊断参考集合中的每个参考诊断均具有位置标识。

该参考数据集包括症状参考集合和诊断参考集合，该症状参考集合包括了第一预置数量的参考症状，该参考数据集可以通过调用医疗数据库接口，获取医疗数据库中的医疗数据，对医疗数据进行整理分析后得到，该参考症状集合中的参考症状可以为一些常见病的症状，例如，感冒，鼻炎，气管炎等等；或者，可以为某一类疾病的症状，例如，骨科疾病的症状；或者，可以是内科疾病的症状，或者外科疾病的症状等等。该第一预置数量为症状的数量，例如，该症状的数量可以为80、90等等。该第一预置数量可以表示为N_sym。

诊断参考集合包括第二预置数量的参考诊断，该参考诊断可以理解为根据至少一个参考症状做出的疑似诊断的诊断结果，该参考诊断可以根据参考症状确定的，例如，参考症状为：打喷嚏、鼻塞、流鼻涕；参考诊断为：感冒、鼻炎。该第二预置数量可以表示为N_diag。该参考数据集中的参考数据的数据大小为(N_sym+N_diag)。

症状参考集合中的参考症状与诊断参考集合中的参考诊断具有对应关系，N个参考症状可以对应M个参考诊断，其中，M和N为大于或者等于1的正整数。例如，可以是3个参考症状对应2个参考诊断。

该参考数据集可以以数据表的形式存储，预先设置参考症状中每个参考症状及参考诊断集合中的每个参考诊断均具有位置标识，该位置标识可以为序号，该参考数据集中的数据为1行多列的数据；例如，该参考数据集可以如下表1所示：

表1

1	2	3	4	5	6	7	8	9	10
										发热	流鼻涕	鼻塞	打喷嚏	呕吐	腹泻	嗓子疼	头痛	感冒	鼻炎

需要说明的是，上表1中序号1-8对应参考症状集合，9和10对应参考诊断集合，上述表1中的数据仅是为了方便说明，而进行的示例性说明，并不造成对参考数据集的限定。本发明实施例中，N_sym可以以上表1中的8个参考症状为例进行说明，N_diag可以以上表1中的2个参考诊断为例进行说明。

样本数据集包括大量的样本数据，该样本数据的获取方式具体可以为：通过爬虫在某些疾病相关的论坛上爬取症状数据和诊断数据；或者，可以经过医院的授权，从医院的诊疗系统获取医生输入的症状数据及诊断数据。例如，该样本数据可以为：鼻塞打喷嚏流鼻涕，鼻炎。

S102、将目标症状与症状参考集合中第一预置数量的参考症状进行匹配，将目标诊断与诊断参考集合中第二预置数量的参考诊断进行匹配，得到匹配结果。

可选的，参考症状集合中用于表示参考症状的词语为症状术语，症状术语可以理解为医学界对于某一种症状的标准描述。参考诊断中用于表示参考诊断的词语为诊断术语。

首先，为了将目标症状与症状参考集合中的参考症状进行匹配，将目标诊断与诊断参考集合中的参考诊断进行匹配，可以首先将目标症状进行术语转换，得到用于表示目标症状的症状术语。

可以理解的是，在某些情况下，无论在论坛还是医疗系统中，对于一个症状可能有多种描述或表达方式，以“发热”为例，该症状可以描述为“38.5度”，“发烧”，“高烧”，“低烧”等等，这种情况下，可以通过关键词匹配将目标症状进行术语转换，转换成症状术语。例如，可以预先将“发烧”，“高烧”，“低烧”等这些用于描述症状的词与症状术语“发热”进行映射，当目标症状为“发烧”时，将该目标症状转换为症状术语“发热”。

然后，将症状术语与症状参考集合中的参考症状进行匹配；及将目标诊断与诊断参考集合中的参考诊断进行匹配。

例如，在参考症状集合中，从第一个参考症状开始遍历，将“打喷嚏”与8个参考症状进行匹配。在参考诊断集合中，从第一个参考症状开始遍历，将“鼻炎”与2个参考诊断进行匹配。

最后，确定在症状参考集合中与症状术语相匹配的目标参考症状；及确定在诊断参考集合中与症状术语相匹配的目标参考诊断。

确定目标“打喷嚏”与参考症状集合中的第4个位置上的“打喷嚏”相匹配，确定参考症状“打喷嚏”为目标参考症状，确定参考诊断“鼻炎”为目标参考诊断。

S103、按照位置标识将匹配结果转换成用于表示病况的样本序列串集合。

匹配结果包括目标参考症状和目标参考诊断；例如，该目标参考症状为：打喷嚏、鼻塞、流鼻涕。参考数据集中的每个参考症状和每个参考诊断均具有位置标识。

具体的，根据位置标识确定目标参考症状和目标参考诊断在参考数据集中的目标位置；例如，该“打喷嚏”的位置标识为“4”，“鼻塞”的位置标识为“3”，“流鼻涕”的位置标识为“2”，“鼻炎”的位置标识为“10”。

在目标位置标注第一标识；在参考数据集中的每个参考症状及每个参考诊断所对应的位置中，除了目标位置之外，均标注第二标识；该第一标识可以为“0”，第一标识表示“出现”，该第二标识可以为“1”，该第二标识表示“不出现”。

按照位置标识确定用于表示病况的样本序列串，样本序列串包括第一标识和第二标识。在本示例中，该参考数据集中包括8个参考症状和2个参考症状的情况下，该条样本数据(鼻塞打喷嚏流鼻涕，鼻炎)可以表示成样本序列串，该样本序列串为[0,1,1,1,0,0,0,0,0,1]，该样本序列串长度为8+2＝10。该样本序列串可以表示病况，可以理解的是，该样本序列串中包括了症状信息和诊断信息。

本发明实施例中，用于训练GAN的训练数据集包括了多条样本序列串，直接通过目标症状与参考症状集合进行匹配，确定了相匹配目标参考症状在症状参考集合中出现的位置；目标诊断与诊断参考集合进行匹配，确定了相匹配目标参考诊断在参考参考集合中出现的位置，进一步的根据位置标识将样本数据转换成样本序列串，不需要语义识别，语义分割等方法，且该样本序列串直接可以被机器识别，极大的减少了运算量。且将症状-诊断数据融合成可以输入到GAN模型的样本序列串并针对不同的应用场景可以重新定义GAN中生成器的输入，该生成器的输入样本数据利于扩展。

S104、利用生成式对抗网络GAN的生成器，生成伪序列串集合。

首先可以设置该生成器的初始参数，可以理解的是，首先固定该生成器，该生成器可以采用神经网络模型。可选的，可以向该GAN输入一个诊断，将表示该诊断的词语利用Embedding算法或者word2vec算法转换为词向量，将该词向量传递到生成器，该生成器输出一个伪序列串，序列串的大小是(N_sym+N_diag)，本发明中数据的大小指数据串的长度，该生成模型用于生成伪序列串。例如，该伪序列串的数据大小也为10，该伪序列串也是由1和0组成的数据。例如，该伪序列串为[0,0,0,1,0,0,0,0,0,1]。可以理解的是，序号1-8的数值用于对应症状信息，序号9-10的数值用于对应诊断信息。可选的，还可以向该生成模型输入噪声，该生成模型输出伪序列串。

例如，输入的诊断为“鼻炎”，将该“鼻炎”转换为词向量，向生成模型输入该词向量，输出的伪序列串为[0,0,1,1,0,0,0,0,0,1]。该序列串为“假”训练样本。该生成器生成的伪序列串用于对GAN的判别器进行训练。，伪序列串集合中的伪序列串的数据大小与样本序列串集合中的样本序列串的数据大小相同

S105、将训练样本集和训练样本集中每个训练样本对应的诊断结果输入到GAN的判别器，训练样本集包括获取的样本序列串集合和生成模型生成的伪序列串集合，利用训练样本集及对应的诊断结果对判别器进行训练，得到诊断结果识别模型，诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果。

进一步的，将训练样本集和训练样本集中每个训练样本对应的诊断结果输入到GAN的判别器，利用训练样本集及对应的诊断结果对判别器进行训练。对于GAN模型的训练步骤可以具体为：

1)、先固定生成模型初始参数，将第一诊断输入到生成模型，生成模型输出第一序列串，第一序列串包括第一预置数量的用于表示症状的第一症状序列和第二预置数量的用于表示诊断的第一诊断序列；该第一序列串的数据大小与参考数据的数据大小相同。例如，该序列串为：[0,0,1,1,0,0,0,0,0,1]。

2)、将获取到的样本序列串集合中的样本序列串及该样本序列串对应的诊断结果，或者，将伪序列串集合中的伪序列串及该伪序列串对应的诊断结果输入到判别器，其中，样本序列串集被标注为1(表示真实数据)，伪样本序列串集被标注为0(表示假数据)，得到分类结果。可以理解的是，向该判别器输入一个数据对，数据对的第一个元素是序列串(可能是真实的样本序列串，也可能是G模型生成的伪序列串)，第二个元素是该序列串对应的诊断结果，分类结果用于指示该输入的训练样本为真实数据，还是生成模型生成的假数据，该分类结果为0-1之间的数值，该分类结果大于0.5的数值，则表明该输入的训练样本为真实数据，若该分类结果为小于或者等于0.5的数值，则表明该训练样本为假数据，也就是说，该分类结果的数值越接近于1，表明输入的样本数据越接近真实数据。根据分类结果更新判别器的网络参数。判别器完成有监督的二分类任务。

3)、固定判别器的网络参数，根据该分类结果更新生成器的网络参数，生成器生成新的伪序列串集合。

4)、将生成模型生成的新的伪序列串集合，该伪序列串集被标注为1，将该新生成的伪序列串集合输入到该判别器，判别器生成分类结果，根据该分类结果更新生成器的参数。

重复步骤3)至4)。不断的迭代训练，交替更新该生成器的网络参数和该判别器的网络参数，直到该生成器和诊断结果识别模型达到纳什均衡。

需要说明的是，生成器G的参数更新不是来自于数据样本本身(不是对数据的似然性进行优化)，而是来自于判别器D的反传梯度。该生成模型生成的伪训练数据集还可以用于扩充CDSS的训练数据集，提高CDSS输出诊断结果的准确度，提高系统的可信度。

本发明实施例中，获取参考数据集及样本数据集；参考数据集包括症状参考集合和诊断参考集合，训练样本集中的每个训练样本包括目标症状和目标诊断；将目标症状与症状参考集合中第一预置数量的参考症状进行匹配，将目标诊断与诊断参考集合中第二预置数量的参考诊断进行匹配，得到匹配结果。按照参数数据集中的位置标识将匹配结果转换成用于表示病况的样本序列串集合，该样本序列串集合作为训练判别器的真实数据样本，利用生成器生成的伪序列串集合，通过对样本序列串集合和伪序列串集合的训练，得到诊断结果识别模型，诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果，该识别结果可以CDSS的诊断结果的正确性，以降低CDSS输出的诊断结果的误诊率。

请参阅图2所示，本发明中还提供了一种诊断结果识别的方法的一个实施例，该方法应用于一种计算机设备，该计算机设备可以以第二服务器为例进行说明，该第二服务器中部署上述实施例中得到的诊断结果识别模型。

S201、获取输入到临床决策支持系统CDSS的目标症状及CDSS根据目标症状输出的诊断结果；例如，输入到该CDSS的目标症状，例如，该目标症状为：“打喷嚏”、“鼻塞”和“流鼻涕”，该诊断结果为“感冒”和“鼻炎”。

S202、将目标症状与症状参考集合中第一预置数量的参考症状进行匹配，将目标诊断与诊断参考集合中第二预置数量的参考诊断进行匹配，得到匹配结果，症状参考集合中的参考症状和诊断参考集合中的参考诊断均具有位置标识。

症状参考集合及症状参考集合中参考症状对应位置标识，诊断参考集合中参考诊断对应的位置标识参阅步骤S101进行理解，此处不赘述。例如，根据位置标识，该目标症状的序号为：2、3、4，“感冒”对应的序号为9，“鼻炎”对应的序号为10。

S203、按照位置标识将匹配结果转换成用于表示病况的序列串。

按照位置标识将该匹配结果转换为序列串，例如，该序列串为：[0,1,1,1,0,0,0,0,1,0]和[0,1,1,1,0,0,0,0,0,1]。

S204、将序列串及对应的诊断结果输入到诊断结果识别模型，通过诊断结果识别模型输出诊断结果对应的识别结果。

将该序列串与对应的诊断结果组成的数据对输入到诊断结果识别模型，该数据对为{[0,1,1,1,0,0,0,0,1,0],c9}和{[0,1,1,1,0,0,0,0,0,1],c10}，其中c9和c10分别代表位置位置标识为11和位置14对应的诊断结果。该识别结果为[0，1]的数值，该识别结果用于指示该诊断结果的准确率，例如，可以设置阈值(如，该阈值可以为0.5)，若该识别结果小于0.5，则表明该诊断结果为误诊。该识别结果的数值越小，则表明该诊断结果的准确率越低，也就是说，诊断结果与症状的不相关程度越高，本发明中，可以通过识别结果来量化诊断结果与症状之间的相关程度。进一步的，还可以通过该识别结果(分值)、目标症状及对应的诊断结果作为CDSS的训练样本，使得该CDSS的输出结果更加准确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参阅图3所示，本申请实施例中提供一种诊断结果识别模型训练的装置，该装置与上述实施例中训练识别模型的方法相对应。该装置300具体可以包括：

获取模块301，用于获取参考数据集及样本数据集；参考数据集包括症状参考集合和诊断参考集合，训练样本集中的每个训练样本包括目标症状和目标诊断；症状参考集合中的每个参考症状及诊断参考集合中的每个参考诊断均具有位置标识；

匹配模块302，用于将获取模块301获取的目标症状与症状参考集合中的参考症状进行匹配，将获取模块301获取的目标诊断与诊断参考集合中的参考诊断进行匹配，得到匹配结果；

转换模块303，用于按照位置标识将匹配模块302得到的匹配结果转换成用于表示病况的样本序列串集合；

序列串生成模块304，用于利用生成式对抗网络GAN的生成器，生成伪序列串集合，伪序列串集合中的伪序列串的数据大小与样本序列串集合中的样本序列串的数据大小相同；

模型生成模块305，用于将训练样本集和训练样本集中每个训练样本对应的诊断结果输入到GAN的判别器，训练样本集包括获取模块301获取的样本序列串集合和序列串生成模块304生成的伪序列串集合，利用训练样本集及对应的诊断结果对判别器进行训练，得到诊断结果识别模型，诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果。

可选的，匹配模块302，还用于将目标症状进行术语转换，得到用于表示目标症状的症状术语；将症状术语与症状参考集合中的参考症状进行匹配；及将目标诊断与诊断参考集合中的参考诊断进行匹配；确定在症状参考集合中与症状术语相匹配的目标参考症状；及确定在诊断参考集合中与症状术语相匹配的目标参考诊断。

可选的，转换模块303，还用于根据位置标识确定目标参考症状和目标参考诊断在参考数据集中的目标位置；在目标位置标注第一标识；在参考数据集中的每个参考症状及每个参考诊断所对应的位置中，除了目标位置之外，均标注第二标识；按照位置标识确定用于表示病况的样本序列串，样本序列串包括第一标识和第二标识。

可选的，模型生成模块305，还用于将第一诊断输入到生成模型，生成模型输出第一序列串，第一序列串包括第一预置数量的用于表示症状的第一症状序列和第二预置数量的用于表示诊断的第一诊断序列；将获取到的样本序列串集合中的样本序列串及该样本序列串对应的诊断结果，或者，将伪序列串集合中的伪序列串及该伪序列串对应的诊断结果输入到判别器，得到分类结果，分类结果用于指示诊断结果的概率；根据分类结果更新诊断结果识别模型的参数，得到诊断结果识别模型。

模型生成模块305，还用于将训练数据集输入到生成器；通过对训练数据集的学习和分类结果，更新初始参数，得到生成模型。

需要说明的是，关于诊断结果识别模型训练的装置中每个模块的具体说明可以参见上文中对于训练识别模型的方法的说明，在此不再赘述。上述诊断结果识别模型训练的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图4所示，本申请实施例中提供一种诊断结果识别的装置，该装置与上述实施例中诊断结果识别的方法相对应。该装置400具体可以包括：

获取模块401，用于获取输入到临床决策支持系统CDSS的目标症状及CDSS根据目标症状输出的诊断结果；

匹配模块402，用于将获取模块401获取的目标症状与症状参考集合中的参考症状进行匹配，将目标诊断与诊断参考集合中的参考诊断进行匹配，得到匹配结果，症状参考集合中的参考症状和诊断参考集合中的参考诊断均具有位置标识；

转换模块403，用于按照位置标识将匹配模块402匹配的匹配结果转换成用于表示病况的序列串；

识别结果生成模块404，用于将转换模块403转换的序列串及对应的诊断结果输入到诊断结果识别模型，通过诊断结果识别模型输出诊断结果对应的识别结果。

需要说明的是，关于诊断结果识别的装置中每个模块的具体说明可以参见上文中对于诊断结果识别的方法的说明，在此不再赘述。上述诊断结果识别的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行上述方法过程中采用或者生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备可以执行上述第一服务器所执行的方法，即一种诊断结果识别模型训练的方法，或者，该计算机设备可以执行上述第二服务器所执行的方法，即一种诊断结果识别模型训练的方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中诊断结果识别模型训练的方法，例如图1所示的步骤S101-S105，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现诊断结果识别模型训练的装置这一实施例中的各模块/单元的功能。在另一个实施例中，该计算机设备中，存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中诊断结果识别的方法，例如图2所示的步骤S201-S204，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现诊断结果识别的装置这一实施例中的各模块/单元的功能。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中诊断结果识别模型训练的方法的步骤，例如图1所示的步骤S101-S105，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现诊断结果识别模型训练的装置这一实施例中的各模块/单元的功能。在另一个实施例中，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中诊断结果识别的方法的步骤，例如图2所示的步骤S201-S204，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现诊断结果识别的装置这一实施例中的各模块/单元的功能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种诊断结果识别模型训练的方法，其特征在于，包括：

获取参考数据集及样本数据集；所述参考数据集包括症状参考集合和诊断参考集合，训练样本集中的每个训练样本包括目标症状和目标诊断；所述症状参考集合中的每个参考症状及所述诊断参考集合中的每个参考诊断均具有位置标识；

利用生成式对抗网络GAN的生成器，生成伪序列串集合；

将训练样本集和所述训练样本集中每个训练样本对应的诊断结果输入到所述生成式对抗网络GAN的判别器，所述训练样本集包括获取的样本序列串集合和所述伪序列串集合，利用所述训练样本集及所述对应的诊断结果对所述判别器进行训练，得到诊断结果识别模型，所述诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标症状与所述症状参考集合中的参考症状进行匹配，将所述目标诊断与所述诊断参考集合中的参考诊断进行匹配，包括：

将所述目标症状进行术语转换，得到用于表示所述目标症状的症状术语；

将所述症状术语与所述症状参考集合中的参考症状进行匹配；及将所述目标诊断与所述诊断参考集合中的参考诊断进行匹配；

确定在所述症状参考集合中与所述症状术语相匹配的目标参考症状；及确定在所述诊断参考集合中与所述症状术语相匹配的目标参考诊断。

3.根据权利要求1或2所述的方法，其特征在于，所述匹配结果包括目标参考症状和目标参考诊断；所述按照所述位置标识将所述匹配结果转换成用于表示病况的样本序列串集合，包括：

根据位置标识确定所述目标参考症状和所述目标参考诊断在所述参考数据集中的目标位置；

在所述目标位置标注第一标识；在所述参考数据集中的每个所述参考症状及每个所述参考诊断所对应的位置中，除了所述目标位置之外，均标注第二标识；

按照所述位置标识确定所述用于表示病况的样本序列串，所述样本序列串包括所述第一标识和所述第二标识。

4.根据权利要求1所述的方法，其特征在于，将训练样本集和所述训练样本集中每个训练样本对应的诊断结果输入到所述生成式对抗网络GAN的判别器，利用所述训练样本集及所述对应的诊断结果对所述判别器进行训练，得到诊断结果识别模型，包括：

将第一诊断输入到所述生成器，所述生成器输出第一序列串，所述第一序列串包括第一预置数量的用于表示症状的第一症状序列和第二预置数量的用于表示诊断的第一诊断序列；

将获取到的样本序列串集合中的样本序列串及该样本序列串对应的诊断结果，或者，将所述伪序列串集合中的伪序列串及该伪序列串对应的诊断结果输入到所述判别器，得到分类结果，所述分类结果用于指示诊断结果的概率；

根据所述分类结果更新所述诊断结果识别模型的参数，得到所述诊断结果识别模型。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

设置所述生成器的初始参数；

将所述训练样本集输入到所述生成器；

通过对所述训练样本集的学习和所述分类结果，更新所述初始参数，得到所述生成器。

6.一种诊断结果识别的方法，其特征在于，包括：

获取输入到临床决策支持系统CDSS的目标症状及所述临床决策支持系统CDSS根据所述目标症状输出的诊断结果；

将所述序列串及对应的诊断结果输入到如权利要求1至5中任一项所述诊断结果识别模型，通过所述诊断结果识别模型输出所述诊断结果对应的识别结果。

7.一种诊断结果识别模型训练的装置，其特征在于，包括：

获取模块，用于获取参考数据集及样本数据集；所述参考数据集包括症状参考集合和诊断参考集合，训练样本集中的每个训练样本包括目标症状和目标诊断；所述症状参考集合中的每个参考症状及所述诊断参考集合中的每个参考诊断均具有位置标识；

模型生成模块，用于将训练样本集和所述训练样本集中每个训练样本对应的诊断结果输入到所述生成式对抗网络GAN的判别器，所述训练样本集包括所述获取模块获取的样本序列串集合和所述序列串生成模块生成的伪序列串集合，利用所述训练样本集及所述对应的诊断结果对所述判别器进行训练，得到诊断结果识别模型，所述诊断结果识别模型用于对临床决策支持系统CDSS输出的诊断结果进行识别，以得到识别结果。

8.一种诊断结果识别的装置，其特征在于，包括：

获取模块，用于获取输入到临床决策支持系统CDSS的目标症状及所述临床决策支持系统CDSS根据所述目标症状输出的诊断结果；

识别结果生成模块，用于将转换模块转换的所述序列串及对应的诊断结果输入到如权利要求1至5中任一项所述诊断结果识别模型，通过所述诊断结果识别模型输出所述诊断结果对应的识别结果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法，或者，如权利要求6所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法，或者，如权利要求6所述的方法。