CN111489802B

CN111489802B - 报告单编码模型生成方法、系统、设备及存储介质

Info

Publication number: CN111489802B
Application number: CN202010242585.3A
Authority: CN
Inventors: 陶然; 宋洪平; 靳俊锐; 易守艳; 刘圣艳
Original assignee: Chongqing Kingmed Diagnostics Co ltd
Current assignee: Chongqing Kingmed Diagnostics Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-07-25
Anticipated expiration: 2040-03-31
Also published as: CN111489802A

Abstract

本发明公开了一种报告单编码模型生成方法，包括：初始化预先构建的初始训练模型中的网络参数；初始训练模型包括编码器、生成器、特征判别器和编码判别器，网络参数包括编码器参数、生成器参数、特征判别器参数和编码判别器参数；根据第一预设循环次数使得初始训练模型进入一次循坏迭代；计算预设损失函数的损失值；通过反向传播算法将损失值用于修正网络参数；根据第二预设循环次数使得初始训练模型进入二次循坏迭代；对初始训练模型进行拆分，以在初始训练模型拆分出编码器作为编码模型。本发明还公开一种报告单编码模型生成系统、设备和存储介质。采用本发明实施例生成的编码模型能够学习到非线性的特征表示，有利于后续任务算法的效果的提升。

Description

报告单编码模型生成方法、系统、设备及存储介质

技术领域

本发明涉及数据编码领域，尤其涉及一种报告单编码模型生成方法、系统、设备及存储介质。

背景技术

目前对应医疗检测报告单的结果分析主要针对某类报告单中的检测项目进行结果值的分析，检测的结果值跟统计的参考值进行对比，得到最终的报告单结果。报告单的大部分结果值经过大量试验和病人治疗期间的临床表现得到佐证，但检测报告单的结果值仍然还有很大的研究和挖掘的空间。在某特定的时间点上，同时通过多种检测方法对受检者进行检测，不仅可以提供检测结果的准确性，而且可以更加全面的了解生物体目前的状态，为临床治疗提供更加详细的病人身体数据。但随着检测项目和累计的报告单的数量的增多，带来的挑战也越来越大。主要原因是人的生物状态信息通过检测结果被投射到了一个高维的数据空间中，通过传统的统计学方法分析检测项目之间和临床表现之间的相关性变的越来越难，对于检测项目的特征工程效率低下，导致整个检测项目数据分析的过程漫长且昂贵，因此，亟待一个编码模型能够对检测项目数据进行编码，以提取检测报告的数据特征。

发明内容

本发明实施例的目的是提供一种报告单编码模型生成方法、系统、设备及存储介质，生成的编码模型能够学习到非线性的特征表示，有利于后续任务算法的效果的提升，所采用的生成网络可以提取出丰富的具有个体风格的信息特征。

为实现上述目的，本发明实施例提供了一种报告单编码模型生成方法，包括：

初始化预先构建的初始训练模型中的网络参数；其中，所述初始训练模型包括编码器、生成器、特征判别器和编码判别器，所述网络参数包括编码器参数、生成器参数、特征判别器参数和编码判别器参数；

根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代；

利用所述初始训练模型计算预设损失函数的损失值；

通过反向传播算法将所述损失值用于修正所述网络参数；

根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；

对所述初始训练模型进行拆分，以在所述初始训练模型拆分出所述编码器作为编码模型；

其中，所述编码器用于输入报告单中的名义变量和检测结果数据，以输出潜变量；其中，所述名义变量包括所述检测项目的单位、所采用的试剂名称、在检测过程中所用到的检测设备名称中的至少一种；

所述生成器用于输入所述潜变量和条件变量，以输出结果清单数据；其中，所述条件变量包括所述报告单中的用户信息和对应的检测项目。

与现有技术相比，本发明实施例公开的报告单编码模型生成方法，首先，初始化预先构建的初始训练模型中的网络参数；然后，根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代，利用所述初始训练模型计算预设损失函数的损失值，通过反向传播算法将所述损失值用于修正所述网络参数，根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；最后，对所述初始训练模型进行拆分，在所述初始训练模型拆分出所述编码器作为编码模型。本发明实施例所述的报告单编码模型生成方法生成的编码模型能够学习到非线性的特征表示，有利于后续任务算法的效果的提升，所采用的生成网络可以提取出丰富的具有个体风格的信息特征。

作为上述方案的改进，所述特征判别器用于重构所述结果清单数据和真实的结果清单数据的鉴别，并将鉴别后的梯度信息回传给所述编码器和所述生成器，以使所述所述编码器和所述生成器修改自身的网络参数。

作为上述方案的改进，所述编码判别器用于使所述潜变量的数据分布与高斯分布一致。

作为上述方案的改进，所述方法还包括：

使用随机梯度下降算法对所述初始训练模型进行网络参数调整。

为实现上述目的，本发明实施例还提供了一种报告单编码模型生成系统，包括：

网络参数初始化模块，用于初始化预先构建的初始训练模型中的网络参数；其中，所述初始训练模型包括编码器、生成器、特征判别器和编码判别器，所述网络参数包括编码器参数、生成器参数、特征判别器参数和编码判别器参数；

一次循坏迭代模块，用于根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代；

损失值计算模块，用于利用所述初始训练模型计算预设损失函数的损失值；

网络参数修正模块，用于通过反向传播算法将所述损失值用于修正所述网络参数；

二次循坏迭代模块，用于根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；

编码模型生成模块，用于对所述初始训练模型进行拆分，以在所述初始训练模型拆分出所述编码器作为编码模型；

与现有技术相比，本发明实施例公开的报告单编码模型生成系统，首先，网络参数初始化模块初始化预先构建的初始训练模型中的网络参数；然后，一次循坏迭代模块根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代，损失值计算模块利用所述初始训练模型计算预设损失函数的损失值，网络参数修正模块通过反向传播算法将所述损失值用于修正所述网络参数，二次循坏迭代模块根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；最后，编码模型生成模块对所述初始训练模型进行拆分，在所述初始训练模型拆分出所述编码器作为编码模型。本发明实施例所述的报告单编码模型生成系统生成的编码模型能够学习到非线性的特征表示，有利于后续任务算法的效果的提升，所采用的生成网络可以提取出丰富的具有个体风格的信息特征。

为实现上述目的，本发明实施例还提供一种报告单编码模型生成设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的报告单编码模型生成方法

为实现上述目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的报告单编码模型生成方法。

附图说明

图1是本发明实施例提供的一种报告单编码模型生成方法的流程图；

图2是本发明实施例提供的初始训练模型的结构框图；

图3是本发明实施例提供的一种报告单编码模型生成系统的结构框图；

图4是本发明实施例提供的一种报告单编码模型生成设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种报告单编码模型生成方法的流程图；所述报告单编码模型生成方法包括：

S1、初始化预先构建的初始训练模型中的网络参数；其中，所述初始训练模型包括编码器、生成器、特征判别器和编码判别器，所述网络参数包括编码器参数、生成器参数、特征判别器参数和编码判别器参数；

S2、根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代；

S3、利用所述初始训练模型计算预设损失函数的损失值；

S4、通过反向传播算法将所述损失值用于修正所述网络参数；

S5、根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；

S6、对所述初始训练模型进行拆分，以在所述初始训练模型拆分出所述编码器作为编码模型。

值得说明的是，本发明实施例所述的报告单编码模型生成方法用于生成编码模型，该编码模型能够对报告单中的数据进行编码，以完对所述报告单中的特征信息的分析。示例性的，所述报告单为患者的检测报告，所述报告单可以是电子版的报告单，或者由纸质版(医生/患者手写)的报告单经过机器自动识别后生成的电子版报告单，从而能够自动对报告单中的信息进行提取，进一步确定所述报告单中的就详细数据。值得说明的是，对所述报告单进行信息识别/提取的过程可参考现有技术中的数据处理过程，本发明对此不做具体限定。

值得说明的是，所述初始训练模型通过生成对抗网络演变而来，所述生成对抗网络简称GAN，是由两个网络组成的，一个生成器网络和一个判别器网络。这两个网络可以是神经网络(从卷积神经网络、循环神经网络到自编码器)。在这个设置中，两个网络参与了一场竞争游戏，并试图超越对方，同时，帮助对方完成自己的任务。经过数千次迭代后，如果一切顺利，生成器网络在生成逼真的假图像方面变得完美，而判别器网络在判断显示给它的图像是假的还是真的方面变得完美(即鉴别过程)。换句话说，生成器网络将一个随机噪声向量从一个潜在空间(不是所有的GAN样本都来自一个潜在空间)转换为一个真实数据集的样本。

参见图2，图2是本发明实施例提供的初始训练模型的结构框图。所述初始训练模型包括编码器、生成器、特征判别器和编码判别器。

所述编码器采用常规的卷积操作或者全连接算子，不含BN操作算子。所述编码器用于输入报告单中的未经过预编码或经过预编码的名义变量和检测结果数据，以输出潜变量；其中，所述名义变量包括所述检测项目的单位、所采用的试剂名称、在检测过程中所用到的检测设备名称中的至少一种。当所述编码器输入未经过预编码的所述名义变量和所述检测结果数据时，预先没有对所述名义变量和所述检测结果数据做任何处理，所述编码器直接对所述名义变量和所述检测结果数据进行编码，以生成所述潜变量；当所述编码器输入经过预编码的所述名义变量和所述检测结果数据时，预先对所述名义变量和所述检测结果数据进行预编码，所述编码器再对进行完预编码后的所述名义变量和所述检测结果数据进行再次编码，以生成所述潜变量。

具体的，对名义变量和检测结果数据进行预编码的过程包括步骤S111～S115。

S111、获取检测项目中的名义变量，并根据所述名义变量的取值数量对所述名义变量进行编码。

根据预设的取值规则确定每一所述名义变量的取值数量；判断当前所述名义变量的取值数量是否大于或等于预设的取值数量阈值；若是，则采用哈希编码方式对所述名义变量进行编码；若否，则采用独热编码方式对所述名义变量进行编码。

S112、获取检测项目中的检测结果数据，并根据所述检测结果数据的类型对所述检测结果数据进行预处理。

当所述检测结果数据的类型为连续型数据时，对所述检测结果数据进行归一化处理；当所述检测结果数据的类型为离散型数据时，对所述检测结果数据进行在预设设定值内的空间等距编码处理。

S113、对进行完预处理后的所述检测结果数据进行编码。其中，编码方式有四种，分别为：矢量维度编码、时间维度编码、矩阵维度编码、张量维度编码。

方案一：矢量维度编码，将所述检测结果数据按照预设的检测项目横向排列；其中，当前未进行检测的检测项目对应的所述检测结果数据置空，且保留其在排列中的位置；检测项目即检测项目的在实验室的唯一标识，一般都是有序排列，方便程序编码结果写入和读回。

方案二：时间维度编码，按照生成所述检测结果数据的时间对所述检测结果数据进行排序。但需要剔除掉没有检测的结果项目。比如2000个检测项目，条码检测了7个，那么这个矢量里只有7个经过归一化/空间等距编码处理后的检测结果数据。

方案三：矩阵维度编码，对所述检测结果数据按照预设的排列规则进行排列；其中，所述预设的排列规则为根据所述检测结果数据所对应的检测项目的类别、科室和/或学科进行层级划分。具体的，主条码的检测结果数据按照二维表格方式排列。由于检测项目结果之间存在着相关性，二维表格的检测项目的排列是否合理有可能会阻碍神经网络对这些相关信息的提取，需要特别设计检测项目的排列规则。

方案四：张量维度编码，将所述检测结果数据按照预设的三维模型排序；其中，该三维模型以三维表格(张量)的方式呈现，所述三维模型包括若干个代表不同检测套餐的切片(通道)，每一所述切片包括若干个所述检测结果数据。

S114、对编码后的所述检测结果数据进行随机打乱。

同一个主条码的报告单的分析结果不应该受到检测项目的排列的影响，即方案1～4中的排列顺序不应该影响整体的分析结果，因此允许编码后的数据在送入深度学习模型前是支持在不同的维度上做随机打乱的。比如方案2中，检测项目的顺序应该是可以随机调整，方案3中的学科可以左右随机打乱，方案4中的在切片维度(通道)上进行随机打乱，打乱前和打乱后的分析值可以保证其自洽性。

S115、合并编码后的名义变量、编码后的检测结果数据以及随机打乱的编码后的检测结果数据，以输出检测项目的编码结果。

所述生成器的网络采用常规的卷积操作或者全连接算子，不含BN操作算子。所述生成器用于输入所述潜变量以及未经过预编码或经过预编码的条件变量，以输出结果清单数据；其中，所述条件变量包括所述报告单中的用户信息和对应的检测项目。当所述生成器输入所述潜变量以及未经过预编码的条件变量时，预先没有对所述条件变量做任何处理，所述生成器直接对所述潜变量和所述条件变量进行再生成，得到所述结果清单数据。当所述生成器输入所述潜变量以及经过预编码的条件变量时，预先对所述条件变量做预编码，所述生成器对所述潜变量和进行完预编码后的所述条件变量进行再生成，得到所述结果清单数据。

具体的，对所述条件变量进行预编码的过程包括步骤S121～S124。

S121、对报告单中的检测项目及对应的用户信息进行隐变量赋值，生成对应的项目隐变量和用户隐变量。

需要初始化的隐变量分为两组，一组用来表达病人，表征为用户隐变量，另外一组用来表达检测项目，表征为项目隐变量。两组变量的向量长度选根据经验暂定为10，后期可以根据实际的数据的规模，模型训练的时间和最终损失函数的大小进行调节。示例性的，使用截断的标准高斯分布产生的随机数对报告单中的检测项目及对应的用户信息进行隐变量赋值。

S122、计算所述项目隐变量和所述用户隐变量的内积预测值；满足以下公式：

其中，R_UI为所述内积预测值；P_U为用户隐变量矩阵；Q_I为项目隐变量矩阵；K为行数；P_U,K为用户隐变量矩阵P_U中的第K行数据；Q_K,I为项目隐变量矩阵Q_I中的第K行数据。

S123、采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值，满足以下公式：

其中，C为所述损失值，用于度量所述内积预测值和所述实际值直接的偏差程度；为所述实际值；λ为所述模型的正则化超参数，为一常数，用来防止模型出现过拟合的正则化项，λ需要根据具体应用场景反复实验得到。

S124、判断所述损失值是否在预设数值范围内保持稳定(即损失值不再明显下降时)；当所述损失值是否在预设数值范围内保持稳定时，则输出所述编码模型。当所述损失值是否在预设数值范围内没有保持稳定时，则对所述编码模型的参数进行优化，直至所述损失值在预设数值范围内保持稳定时，输出优化参数后编码模型。

所述特征判别器用于重构所述结果清单数据和真实的结果清单数据的鉴别，并将鉴别后的梯度信息回传给所述编码器和所述生成器，以使所述编码器和所述生成器修改自身的网络参数。

所述编码判别器用于使所述潜变量的数据分布与高斯分布一致。主要完成潜变量的流形约束，尽量保证潜变量的数据分布能够保持跟高斯分布一致，方便后期对潜变量的数据采样和研究。

进一步的，图2中的Raw_data表示数据库中的原始的医检报告单结果清单数据，Clean&transform代表对原始数据进行清洗和转换编码。从原始清洗转换后的数据按照维度可以划分成检测结果值数据和条件变量(用户信息，检测项目信息)。code embedding是对(用户信息，检测项目信息)进行预编码的过程。C代表条件变量，Z代表不同输出的潜变量，n代表高斯采用的输入，x代表输入，real x代表真实的结果清单数值，recon xr代表网络重构的结果清单数值，fake xg代表网络生成的结果清单数值，右侧中的圆框中的代表模型的五类损失函数。

示例性的，整个网络模型损失函数主要由五部分构成，如图2中圆形图标所示，分别是重构损失函数L_Recon(图2中的第1个圆形)，常量损失函数L_Const(图2中的第5个圆形)，分类损失函数L_Cate(图2中的第3个圆形)，特征损失函数L_feature(图2中的第2个圆形)，潜变量损失函数L_latent(图2中的第4个圆形)。

重构损失函数：主要作用是保证所述编码器和所述生成器生成模块之间的结果清单数据重建，保证重构的结果清单数据和输入的结果清单数据大体上差异不大，损失函数采用L1 Loss，具体公式如下所示：

其中，x代表输入结果清单数据，x_r代表重建的结果清单数据，g_θ代表所述生成器的生成网络，/>代表所述编码器的真实结果清单数据时的输出采样。

常量损失函数：主要作用是来约束使用真实结果清单的编码结果和重构结果清单数据的编码结果的差异性，保证一个结果清单的重构前后的编码结果一致。损失函数采样了L2 Loss，具体公式如下所示：

L_Const(z,z′)＝||z-z′||₂ 公式(4)；

其中，z代表真实结果清单的编码结果，代表重构结果清单的编码结果的采样。

分类损失函数：主要作用是提供自监督信息，提升生成网络输出的结果清单的真实性，保证重构结果清单数据，生成结果清单数据，真实结果清单数据的数据分布的一致性。本损失函数采用了交叉熵函数，具体公式如下所示：

L_Cate(c,x′)＝c×(-logD_c(C＝c|x′))+(1-c)×(-log(1-D_c(C＝c|x′))) 公式(5)；其中，c代表类别的独热编码，类别包含三类，真实数据，重构数据，生成数据。D_c代表所述特征判别器，x'代表输入判别器的结果清单数据，可以是真实数据，重构数据或者生成数据。

特征损失函数：主要作用是捕捉结果清单的个体特征信息弥补重构损失函数对细节信息的丢失。本损失函数采用的是对抗损失函数，具体公式如下所示：

其中，D_c代表所述特征判别器，x_f代表生成网络生成结果清单的数据，x_f代表生成网络生成结果清单的重构数据，x_t代表真实的结果清单数据。

编码判别器：主要完成潜变量z的流形约束，尽量保证潜变量的数据分布能够保持跟高斯分布一致。本损失函数采用的是对抗损失函数，具体公式如下所示：

其中，D_w为所述编码判别器,n代表多元高斯分布，均值为0，协方差矩阵迹为1。

整体损失函数由上述的五个损失函数加权相加构成，λ₁到λ₄是预设的加权的权重值，尽量保持各个损失函数的损失值在同一个量纲上，公式如下所示

L_Tohybrid＝L_Recon+λ₁L_Const+λ₂L_Cate+λ₃L_feature+λ₄L_latent 公式(8)。

具体的，在步骤S1中，使用截断随机高斯初始化所述编码器参数、生成器参数、特征判别器参数和编码判别器参数。

具体的，在步骤S2中，进入迭代循环，所述第一预设循环次数为n个epoch，n的具体取值为经验参数。

具体的，在步骤S3中，读取训练集中的一个batch的结果清单数据到内存，利用所述初始训练模型计算预设损失函数的损失值。该预设损失函数即为上述公式(3)～公式(8)中的损失函数。

具体的，在步骤S4中，通过反向传播算法将所述损失值用于修正所述网络参数，具体包括：

使用反向传播算法将L_Tohybrid的损失值用于修正所述编码器参数和所述生成器参数；使用反向传播算法将L_feature的损失值用于修正特征判别器参数；使用反向传播算法将L_latent的损失值用于修改编码判别器参数。

具体的，在步骤S5中，完成三次反向传播算法后重新回到步骤后，进行循环，直到迭代的次数达到第二预设循环次数。

具体的，在步骤S6中，将训练好的所述初始训练模型冻结减枝，拆分出来的编码器即为最好的可用编码器模型，模型输入结果清单数据，输出降维后的稠密特征向量。拆分出来的生成网络即结果清单生成模型，模型输入多元高斯的随机噪声，输出即为生成的结果清单模型。

进一步的，使用随机梯度下降算法对所述初始训练模型进行网络参数优化调整。示例性的，所述随机梯度下降算法为SGD，学习率为0.0001。

与现有技术相比，本发明实施例公开的报告单编码模型生成方法，首先，初始化预先构建的初始训练模型中的网络参数；然后，根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代，利用所述初始训练模型计算预设损失函数的损失值，通过反向传播算法将所述损失值用于修正所述网络参数，根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；最后，对所述初始训练模型进行拆分，在所述初始训练模型拆分出所述编码器作为编码模型。本发明实施例所述的报告单编码模型生成方法生成的编码模型能够学习到非线性的特征表示，有利于后续任务算法的效果的提升；无监督算法，无需任何的数据标注，操作方便，可以节省大量人力标注的成本；所采用的生成网络可以提取出丰富的具有个体风格的信息特征；能够对数据进行降维，学习出来的特征变量长度可以根据实际的要求进行长度调整。

参见图3，图3是本发明实施例提供的一种报告单编码模型生成系统10的结构框图，所述报告单编码模型生成系统10包括：

网络参数初始化模块11，用于初始化预先构建的初始训练模型中的网络参数；其中，所述初始训练模型包括编码器、生成器、特征判别器和编码判别器，所述网络参数包括编码器参数、生成器参数、特征判别器参数和编码判别器参数；

一次循坏迭代模块12，用于根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代；

损失值计算模块13，用于利用所述初始训练模型计算预设损失函数的损失值；

网络参数修正模块14，用于通过反向传播算法将所述损失值用于修正所述网络参数；

二次循坏迭代模块15，用于根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；

编码模型生成模块16，用于对所述初始训练模型进行拆分，以在所述初始训练模型拆分出所述编码器作为编码模型。

值得说明的是，本发明实施例所述的报告单编码模型生成系统10用于生成编码模型，该编码模型能够对报告单中的数据进行编码，以完对所述报告单中的特征信息的分析。示例性的，所述报告单为患者的检测报告，所述报告单可以是电子版的报告单，或者由纸质版(医生/患者手写)的报告单经过机器自动识别后生成的电子版报告单，从而能够自动对报告单中的信息进行提取，进一步确定所述报告单中的就详细数据。值得说明的是，对所述报告单进行信息识别/提取的过程可参考现有技术中的数据处理过程，本发明对此不做具体限定。

S114、对编码后的所述检测结果数据进行随机打乱。

其中，C为所述损失值，用于度量所述内积预测值和所述实际值直接的偏差程度；为所述实际值；λ为所述模型的的正则化超参数，为一常数，用来防止模型出现过拟合的正则化项，λ需要根据具体应用场景反复实验得到。

L_Const(z,z′)＝||z-z′||₂ 公式(4)；

L_Tohybrid＝L_Recon+λ₁L_Const+λ₂L_Cata+λ₃L_feature+λ₄L_latent 公式(8)。

具体的，所述网络参数初始化模块11使用截断随机高斯初始化所述编码器参数、生成器参数、特征判别器参数和编码判别器参数。所述一次循坏迭代模块12根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代，所述第一预设循环次数为n个epoch，n的具体取值为经验参数。所述损失值计算模块13读取训练集中的一个batch的结果清单数据到内存，利用所述初始训练模型计算预设损失函数的损失值。所述网络参数修正模块14使用反向传播算法将L_Tohybrid的损失值用于修正所述编码器参数和所述生成器参数，使用反向传播算法将L_feature的损失值用于修正特征判别器参数，使用反向传播算法将L_latent的损失值用于修改编码判别器参数。所述二次循坏迭代模块15根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代。所述报告单编码模型生成模块16将训练好的所述初始训练模型冻结减枝，拆分出来的编码器即为最好的可用编码器模型，模型输入结果清单数据，输出降维后的稠密特征向量。拆分出来的生成网络即结果清单生成模型，模型输入多元高斯的随机噪声，输出即为生成的结果清单模型。

进一步的，所述网络参数修正模块14还用于使用随机梯度下降算法对所述初始训练模型进行网络参数优化调整。示例性的，所述随机梯度下降算法为SGD，学习率为0.0001。

与现有技术相比，本发明实施例公开的报告单编码模型生成系统10，首先，网络参数初始化模块11初始化预先构建的初始训练模型中的网络参数；然后，一次循坏迭代模块12根据第一预设循环次数使得所述初始训练模型进入一次循坏迭代，损失值计算模块13利用所述初始训练模型计算预设损失函数的损失值，网络参数修正模块14通过反向传播算法将所述损失值用于修正所述网络参数，二次循坏迭代模块15根据第二预设循环次数使得所述初始训练模型进入二次循坏迭代；最后，编码模型生成模块16对所述初始训练模型进行拆分，在所述初始训练模型拆分出所述编码器作为编码模型。本发明实施例所述的报告单编码模型生成系统10生成的编码模型能够学习到非线性的特征表示，有利于后续任务算法的效果的提升；无监督算法，无需任何的数据标注，操作方便，可以节省大量人力标注的成本；所采用的生成网络可以提取出丰富的具有个体风格的信息特征；能够对数据进行降维，学习出来的特征变量长度可以根据实际的要求进行长度调整。

参见图4，图4是本发明实施例提供的一种报告单编码模型生成设备20的结构框图。该实施例的报告单编码模型生成设备20包括：处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述报告单编码模型生成方法实施例中的步骤，例如图1所示的步骤S1～S6。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如网络参数初始化模块11。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述报告单编码模型生成设备20中的执行过程。例如，所述计算机程序可以被分割成网络参数初始化模块11、一次循坏迭代模块12、损失值计算模块13、网络参数修正模块14、二次循坏迭代模块15和编码模型生成模块16，各模块具体功能请参考上述实施例所述的报告单编码模型生成系统10的具体工作过程，在此不再赘述。

所述报告单编码模型生成设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述报告单编码模型生成设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是报告单编码模型生成设备20的示例，并不构成对报告单编码模型生成设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述报告单编码模型生成设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器21也可以是任何常规的处理器等，所述处理器21是所述报告单编码模型生成设备20的控制中心，利用各种接口和线路连接整个报告单编码模型生成设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述报告单编码模型生成设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述报告单编码模型生成设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种报告单编码模型生成方法，其特征在于，包括：

利用所述初始训练模型计算预设损失函数的损失值；

通过反向传播算法将所述损失值用于修正所述网络参数；

所述生成器用于输入所述潜变量和条件变量，以输出结果清单数据；其中，所述条件变量包括所述报告单中的用户信息和对应的检测项目；

2.如权利要求1所述的报告单编码模型生成方法，其特征在于，所述编码判别器用于使所述潜变量的数据分布与高斯分布一致。

3.如权利要求1所述的报告单编码模型生成方法，其特征在于，所述方法还包括：

4.一种报告单编码模型生成系统，其特征在于，包括：

5.如权利要求4所述的报告单编码模型生成系统，其特征在于，所述编码判别器用于使所述潜变量的数据分布与高斯分布一致。

6.一种报告单编码模型生成设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3中任意一项所述的报告单编码模型生成方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至3中任意一项所述的报告单编码模型生成方法。