CN110689937A

CN110689937A - 编码模型训练方法、系统、设备及检测项目编码方法

Info

Publication number: CN110689937A
Application number: CN201910837056.5A
Authority: CN
Inventors: 陶然; 刘玉霞; 李利娟; 谷晓辉; 蔡田
Original assignee: Zhengzhou Jinyu Clinical Inspection Center Co Ltd
Current assignee: Zhengzhou Jinyu Clinical Inspection Center Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-01-14

Abstract

本发明公开了一种编码模型训练方法，包括：对检测报告中的检测项目及对应的用户名称进行隐变量赋值，生成对应的项目隐变量和用户隐变量；计算所述项目隐变量和所述用户隐变量的内积预测值；采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值；判断所述损失值是否在预设数值范围内保持稳定；若是，则输出所述编码模型；若否，则对所述编码模型的参数进行优化，直至所述损失值在预设数值范围内保持稳定时，输出所述编码模型。本发明还公开了一种编码模型训练系统、设备和检测项目编码方法。本发明实施例中训练好的编码模型能将检测报告中的检测项目编码成深度学习网络能够处理的数据，有利于后期模型的信息的提取。

Description

编码模型训练方法、系统、设备及检测项目编码方法

技术领域

本发明涉及数据编码领域，尤其涉及一种编码模型训练方法、系统、设备及检测项目编码方法。

背景技术

近年来，医学检验积累了海量的检测报告单结果，通过挖掘检测报告，能够产生巨大的经济价值和社会价值。目前深度学习能够有效的对检测报告做特征提取，通过大规模的GPU并行计算可以有效的缩短数据建模的时间，快速将模型的输出提升到预期的水平。然而，检测报告单的信息中存在着大量的结构化数据和非结构化数据，如果直接采用常用的独热编码技术对检测项目进行编码容易产生非常稀疏的向量，并且丢失了检测项目和检测项目直接的相关信息，不利于模型的后期的信息提取，因此，未使用合适方法编码的数据将导致模型无法有效抽取有用的信息。

发明内容

本发明实施例的目的是提供一种编码模型训练方法、系统、设备及检测项目编码方法，训练好的编码模型能将检测报告中的检测项目编码成深度学习网络能够处理的数据，有利于后期模型的信息的提取。

为实现上述目的，本发明实施例提供了一种编码模型训练方法，包括：

对检测报告中的检测项目及对应的用户名称进行隐变量赋值，生成对应的项目隐变量和用户隐变量；

计算所述项目隐变量和所述用户隐变量的内积预测值；

采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值；

判断所述损失值是否在预设数值范围内保持稳定；

若是，则输出所述编码模型；若否，则对所述编码模型的参数进行优化，直至所述损失值在预设数值范围内保持稳定时，输出优化参数后的所述编码模型。

与现有技术相比，本发明实施例公开的编码模型训练方法，首先，对检测报告中的检测项目及对应的用户名称进行隐变量赋值，生成的编码向量长度可以自定义，数值是也密集的编码方式，可以节省存储空间和计算量；然后，采用项目隐变量和用户隐变量的内积预测值与检测项目的实际值的偏差程度作为编码模型的损失值；最后，当损失值在预设数值范围内保持稳定时，直接输出编码模型，当损失值在预设数值范围内没有保持稳定时，对编码模型进行优化，并当损失值在预设数值范围内保持稳定时，输出优化参数后的编码模型。本发明实施例公开的编码模型训练方法中训练好的编码模型能将检测报告中的检测项目编码成深度学习网络能够处理的数据，有利于后期模型的信息的提取。

作为上述方案的改进，所述对检测报告中的检测项目及对应的用户名称进行隐变量赋值前，还包括：

获取当前用户在预设时间段内的记录的所述检测项目的统计值；

对所述检测项目的统计值进行归一化处理；其中，所述归一化处理包括最小值最大值归一化或均值归一化。

作为上述方案的改进，所述采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失函数前，还包括：

获取进行完归一化处理后所述检测项目的统计值为所述实际值。

作为上述方案的改进，所述计算所述项目隐变量和所述用户隐变量的内积预测值，满足以下公式：

其中，R_UI为所述内积预测值；P_U为用户隐变量矩阵；Q_I为项目隐变量矩阵；K为行数；P_U,K为用户隐变量矩阵P_U中的第K行数据；Q_K,I为项目隐变量矩阵Q_I中的第K行数据。

作为上述方案的改进，所述采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值，满足以下公式：

其中，C为所述损失值；

为所述实际值；λ为所述模型的的正则化超参数。

作为上述方案的改进，所述对检测报告中的检测项目及对应的用户名称进行隐变量赋值，具体包括：

使用截断的标准高斯分布产生的随机数对检测报告中的检测项目及对应的用户名称进行隐变量赋值。

作为上述方案的改进，所述对所述编码模型的参数进行优化，具体包括：

采用随机梯度下降算法对所述编码模型的参数进行优化。

本发明实施例还提供了一种编码模型训练系统，包括：

隐变量赋值单元，用于对检测报告中的检测项目及对应的用户名称进行隐变量赋值，生成对应的项目隐变量和用户隐变量；

内积预测值计算单元，用于计算所述项目隐变量和所述用户隐变量的内积预测值；

损失值获取单元，用于采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值；

判断单元，用于判断所述损失值是否在预设数值范围内保持稳定；

优化单元，用于当所述损失值在预设数值范围内没有保持稳定时，对所述编码模型的参数进行优化；

编码模型输出单元，用于当所述损失值在预设数值范围内保持稳定时，输出所述编码模型；还用于当所述优化单元对所述编码模型的参数进行优化后，所述损失值在预设数值范围内保持稳定时，输出优化参数后的所述编码模型。

为实现上述目的，本发明实施例还提供一种编码模型训练设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的编码模型训练方法。

为实现上述目的，本发明实施例还提供一种检测项目编码方法，包括：

获取用户在预设时间段内的记录的检测报告中检测项目的统计值；

对所述检测项目的统计值进行归一化处理；

将进行完归一化处理后的检测项目的统计值输入到预先训练好的编码模型中，以输出编码后的结果；其中，所述编码模型的训练方法为上述任一实施例所述的编码模型训练方法。

附图说明

图1是本发明实施例提供的一种编码模型训练方法的流程图；

图2是本发明实施例提供的一种编码模型训练系统的结构示意图；

图3是本发明实施例提供的一种编码模型训练设备的结构示意图；

图4是本发明实施例提供的一种检测项目编码方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种检测报告的检测项目编码方法的流程图；所述检测报告的检测项目编码方法包括：

S11、对检测报告中的检测项目及对应的用户名称进行隐变量赋值，生成对应的项目隐变量和用户隐变量；

S12、计算所述项目隐变量和所述用户隐变量的内积预测值；

S13、采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值；

S14、判断所述损失值是否在预设数值范围内保持稳定；

S15、若是，则输出所述编码模型；若否，则对所述编码模型的参数进行优化，直至所述损失值在预设数值范围内保持稳定时，输出优化参数后的所述编码模型。

示例性的，所述检测报告为患者的检测报告，所述检测报告可以是电子版的报告单，或者由纸质版(医生/患者手写)的报告单经过机器自动识别后生成的电子版报告单，从而能够自动对检测报告中的信息进行提取，进一步确定所述检测报告中的就检测项目。值得说明的是，对所述检测报告进行信息识别/提取的过程可参考现有技术中的数据处理过程，本发明对此不做具体限定。

可选的，在执行步骤S11之前，还包括：

S101、获取当前用户在预设时间段内的记录的所述检测项目的统计值；

S102、对所述检测项目的统计值进行归一化处理；其中，所述归一化处理包括最小值最大值归一化或均值归一化。

具体的，在步骤S101中，选取数据库中预设时间段内的全部检测报告进行无放回简单抽样汇总统计。送检用户检测了某个检测项目后计数一次，预设时间段后送检多次后累计统计值。示例性的，所述预设时间段为6个月。

具体的，在步骤S102中，对所述检测项目的统计值进行归一化处理，可以消除检测项目在检测次数的量纲上的差异对结果的影响。归一化处理后的数据如表1所示。示例性的，所述归一化处理包括最小值最大值归一化或均值归一化。

最大最小值归一化Min-Max Normalization可用以下式子表示：

x'＝(x-X_min)/(X_max-X_min)；

其中，x表示所述检测项目的统计值；X_min为所述检测项目的统计值中的最小值；X_max为所述检测项目的统计值中的最大值；

均值归一化可用以下式子表示：

x'＝(x-μ)/(MaxValue-MinValue)；

其中，x表示所述检测项目的统计值；μ所述检测项目的统计值的平均数；MinValue为所述检测项目的统计值中的最小值；MaxValue为所述检测项目的统计值中的最大值。

表1归一化处理后的检测项目统计值

具体的，在步骤S11中，需要初始化的隐变量分为两组，一组用来表达病人，表征为用户隐变量，另外一组用来表达检测项目，表征为项目隐变量。两组变量的向量长度选根据经验暂定为10，后期可以根据实际的数据的规模，模型训练的时间和最终损失函数的大小进行调节。

示例性的，使用截断的标准高斯分布产生的随机数对检测报告中的检测项目及对应的用户名称进行隐变量赋值。如果抽样的数据落在3个标准差外面就舍去，截断高斯能加速模型的收敛。具体的赋值后的所述用户隐变量请参考表2，赋值后的所述项目隐变量请参考表3。

表2用户隐变量

	隐变量P1	隐变量P2	隐变量P3	…	隐变量P10
						病人A	0.003	-0.004	0.001	…	0.007
病人B	-0.002	0.005	0.01	…	-0.008
						病人C	0.001	-0.003	-0.002	…	0.015
病人D	0.009	0.033	-0.072	…	0.001
						病人E	0.002	0.003	-0.012	…	0.009
病人F	-0.003	-0.007	-0.001	…	-0.008
						病人G	0.012	0.013	0.002	…	0.035

表3项目隐变量

具体的，在步骤S12中，所述计算所述项目隐变量和所述用户隐变量的内积预测值，满足以下公式：

值得说明的是，协同过滤推荐算法分为两大类，一类是基于距离度量的领域方法，第二类是基于隐语义的方法。本方案中主要使用基于隐语义的Basic SVD进行数据的处理。

进一步的，在执行步骤S13之前，还包括：获取进行完归一化处理后所述检测项目的统计值为所述实际值。

具体的，在步骤S13中，

可选的，所述损失函数使用MSE，所述计算所述项目隐变量和所述用户隐变量的内积预测值，满足以下公式：

其中，C为所述损失值，用于度量所述内积预测值和所述实际值直接的偏差程度；

为所述实际值；λ为所述模型的的正则化超参数，为一常数，用来防止模型出现过拟合的正则化项，λ需要根据具体应用场景反复实验得到。

具体的，在步骤S14～S15中，判断所述损失值是否在预设数值范围内保持稳定(即损失值不再明显下降时)；当所述损失值是否在预设数值范围内保持稳定时，则输出所述编码模型。当所述损失值是否在预设数值范围内没有保持稳定时，则对所述编码模型的参数进行优化，直至所述损失值在预设数值范围内保持稳定时，输出优化参数后编码模型。

示例性的，数据和损失函数全部确认完毕后便可以使用机器学习框架软件进行模型的训练。如果R矩阵的秩不是很大，可以采用奇异值分解(SVD)进行直接求解，现实情况下一遍采用随机梯度下降算法(SGD)来优化损失函数的参数值。学习率和迭代次数需要根据实际的数据规模进行选择和优化。SGD算法不断调整损失函数的参数值，当所述编码模型的损失值稳定后，输出所述编码模型用于后续的检测项目的编码过程。

与现有技术相比，本发明公开的编码模型训练方法，首先，对检测报告中的检测项目及对应的用户名称进行隐变量赋值；然后，采用项目隐变量和用户隐变量的内积预测值与检测项目的实际值的偏差程度作为编码模型的损失值；最后，当损失值在预设数值范围内保持稳定时，直接输出编码模型，当损失值在预设数值范围内没有保持稳定时，对编码模型进行优化，并当损失值在预设数值范围内保持稳定时，输出优化参数后的编码模型。

本发明实施例公开的编码模型训练方法，训练好的编码模型能将检测报告中的检测项目编码成深度学习网络能够处理的数据，有利于后期模型的信息的提取；生成的编码向量长度可以自定义，数值是也密集的编码方式，可以节省存储空间和计算量。

参加图2，图2是本发明实施例提供的一种编码模型训练系统10的结构示意图；所述编码模型训练系统10包括：

归一化处理单元11，用于获取当前用户在预设时间段内的记录的所述检测项目的统计值，并对所述检测项目的统计值进行归一化处理；其中，所述归一化处理包括最小值最大值归一化或均值归一化；

隐变量赋值单元12，用于对检测报告中的检测项目及对应的用户名称进行隐变量赋值，生成对应的项目隐变量和用户隐变量；

内积预测值计算单元13，用于计算所述项目隐变量和所述用户隐变量的内积预测值；

损失值获取单元14，用于采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值；

判断单元15，用于判断所述损失值是否在预设数值范围内保持稳定；

优化单元16，用于当所述损失值在预设数值范围内没有保持稳定时，对所述编码模型的参数进行优化；

编码模型输出单元17，用于当所述损失值在预设数值范围内保持稳定时，输出所述编码模型；还用于当所述优化单元对所述编码模型的参数进行优化后，所述损失值在预设数值范围内保持稳定时，输出优化参数后的所述编码模型。

具体的所述编码模型训练系统10中各个单元的工作过程请参考上述实施例所述的编码模型训练方法的工作过程，在此不再赘述。

与现有技术相比，本发明公开的编码模型训练系统10，首先，隐变量赋值单元12对检测报告中的检测项目及对应的用户名称进行隐变量赋值；然后，内积预测值计算13计算项目隐变量和用户隐变量的内积预测值，以使得损失值获取单元14采用内积预测值和检测项目的实际值的偏差程度作为编码模型的损失值；最后，当判断单元15判定损失值在预设数值范围内保持稳定时，编码模型输出单元17直接输出当前编码模型，当判断单元15判定损失值在预设数值范围内没有保持稳定时，优化单元16对编码模型的参数进行优化，并当损失值在预设数值范围内保持稳定时，编码模型输出单元17输出优化参数后的编码模型。

本发明实施例公开的编码模型训练系统10，训练好的编码模型能将检测报告中的检测项目编码成深度学习网络能够处理的数据，有利于后期模型的信息的提取；生成的编码向量长度可以自定义，数值是也密集的编码方式，可以节省存储空间和计算量。

参见图3，图3是本发明实施例提供的一种编码模型训练设备20的结构示意图；该实施例的编码模型训练设备20包括：处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述各个检测报告的信息编码方法实施例中的步骤，例如图1所示的步骤S11。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如归一化处理单元11。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述编码模型训练设备20中的执行过程。例如，所述计算机程序可以被分割成归一化处理单元11、隐变量赋值单元12、内积预测值计算单元13、损失值获取单元14、判断单元15、优化单元16和编码模型输出单元17，各模块具体功能请参考上述实施例所述的编码模型训练系统10的工作过程，在此不再赘述。

所述编码模型训练设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述编码模型训练设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是编码模型训练设备20的示例，并不构成对编码模型训练设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述编码模型训练设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述编码模型训练设备20的控制中心，利用各种接口和线路连接整个编码模型训练设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述编码模型训练设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述编码模型训练设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

参见图4，图4是本发明实施例提供的一种检测项目编码方法的流程图。所述检测项目编码方法包括：

S21、获取用户在预设时间段内的记录的检测报告中检测项目的统计值；

S22、对所述检测项目的统计值进行归一化处理；

S23、将进行完归一化处理后的检测项目的统计值输入到预先训练好的编码模型中，以输出编码后的结果；其中，所述编码模型的训练方法为上述任一实施例所述的编码模型训练方法。

具体的所述归一化处理过程以及训练所述编码模型的过程请参考上述实施例所述的编码模型训练方法中的工作过程，在此不再赘述。

进一步的，在得到所述编码结果后，还包括步骤S24：使用t-SNE对所述编码结果进行可视化分析。值得说明的是，具体的t-SNE可视化分析的过程可参考现有技术，本发明对此不做具体限定。可视化分析能够查看各个检测项目之间的距离是否和实际的业务上的感知一致。

与现有技术相比，本发明公开的检测项目编码方法的，训练好的编码模型能将检测报告中的检测项目编码成深度学习网络能够处理的数据，有利于后期模型的信息的提取；生成的编码向量长度可以自定义，数值是也密集的编码方式，可以节省存储空间和计算量；可以对编码后的检测项目的之间的距离，项目之间的相关性进行可视化，可以对数据集中的送检用户进行编码和聚类可视化分析。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种编码模型训练方法，其特征在于，包括：

计算所述项目隐变量和所述用户隐变量的内积预测值；

判断所述损失值是否在预设数值范围内保持稳定；

2.如权利要求1所述的编码模型训练方法，其特征在于，所述对检测报告中的检测项目及对应的用户名称进行隐变量赋值前，还包括：

3.如权利要求2所述的编码模型训练方法，其特征在于，所述采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失函数前，还包括：

4.如权利要求3所述的编码模型训练方法，其特征在于，所述计算所述项目隐变量和所述用户隐变量的内积预测值，满足以下公式：

5.如权利要求4所述的编码模型训练方法，其特征在于，所述采用所述内积预测值和所述检测项目的实际值的偏差程度作为编码模型的损失值，满足以下公式：

其中，C为所述损失值；

为所述实际值；λ为所述模型的的正则化超参数。

6.如权利要求1所述的编码模型训练方法，其特征在于，所述对检测报告中的检测项目及对应的用户名称进行隐变量赋值，具体包括：

7.如权利要求1所述的编码模型训练方法，其特征在于，所述对所述编码模型的参数进行优化，具体包括：

采用随机梯度下降算法对所述编码模型的参数进行优化。

8.一种编码模型训练系统，其特征在于，包括：

9.一种编码模型训练设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的编码模型训练方法。

10.一种检测项目编码方法，其特征在于，包括：

对所述检测项目的统计值进行归一化处理；

将进行完归一化处理后的检测项目的统计值输入到预先训练好的编码模型中，以输出编码后的结果；其中，所述编码模型的训练方法为上述权利要求1～7中任一项所述的编码模型训练方法。