CN114021716A

CN114021716A - 一种模型训练的方法、系统及电子设备

Info

Publication number: CN114021716A
Application number: CN202111246523.0A
Authority: CN
Inventors: 李先飞; 王龙; 陈立力; 周明伟
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-08

Abstract

一种模型训练的方法、系统及电子设备，该方法包括：获取标准数据以及原始数据，建立标准数据与原始数据的第一关联关系，并获得训练样本，根据标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系，根据所述第一关联关系以及所述第二关联关系，获得初始图谱数据，并将所述训练样本放入所述初始图谱数据中，将所述初始图谱数据放入图神经网络模型中进行N次训练，获得N个损失值，将所述N个损失值中最小损失值对应的训练模型作为预测模型，通过上述方法对初始图谱数据进行学习训练，获得预测模型，在输入字段进行匹配时，能够通过预测模型筛选出最大损失值对应的数据元，提高了字段关联的结果的准确度。

Description

一种模型训练的方法、系统及电子设备

技术领域

本申请涉及模型训练领域，尤其涉及一种模型训练的方法、系统及电子设备。

背景技术

随着大数据时代的到来，数据已经成为企业的重要资产，同一类型的数据在不同企业中进行数据分析时，由于企业的性质以及企业的需求不一致，对同一批数据分析时评判标准不同，导致同一类型的数据对应着不同的评判标准，比如：同一类型的直播带货数据，传媒性质的公司的评判标准为在直播间进行消费的粉丝数量与在直播间粉丝数量的比值是否达到预期比值，财政性质的公司的评判标准为直播的营业额是否达到预期营业额。

由于评判标准无法达成统一，因此不同企业之间的数据无法进行比较分析，为了降低数据分析的复杂度，在数据分析时，需要一个统一的评判标准，采用的方式是将企业原始数据的字段进行对标，将字段与数据元形成关联关系，字段为企业原始数据的名称，数据元为字段的统称，从而将企业原始数据关联为统一的标准数据，比如：企业原始数据的字段为“房东身份证号”、“租客身份证号”、“居民身份证”、“临时居民身份证”，将企业原始数据关联成为统一的标准数据后，企业原始数据的字段对应的数据元为“身份证号”。

目前，为了将企业原始数据的字段关联为标准数据，现有的模型是根据字段与数据元之间的语义相似度进行训练，字段是企业原始数据中数据的名称，由于字段命名方式多样，字段中包含下划线、空格、中英混杂等，导致通过训练出的模型得到的字段与数据元的关联关系不准确，或者通过该模型不能得到输入字段对应的数据元。

发明内容

本申请提供了一种模型训练的方法、系统及电子设备，通过对初始图谱数据进行学习训练，构建预测模型，预测模型中存储了大量的已对标数据以及可能对标的数据，在对字段的数据元进行预测时，避免了字段匹配不出数据元的问题，将筛选出最优的数据元作为结果输出，提高了字段关联结果的准确度。

第一方面，本申请提供了一种模型训练的方法，所述方法包括：

获取标准数据以及原始数据，建立所述标准数据与所述原始数据的第一关联关系，并获得训练样本，其中，原始数据为各个企业中未经过任何处理的数据表；

根据所述标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系；

根据所述第一关联关系以及所述第二关联关系，获得初始图谱数据，并将所述训练样本放入所述初始图谱数据中；

将所述初始图谱数据放入图神经网络模型中进行N次训练，获得N个损失值，其中，N为正整数；

将所述N个损失值中最小损失值对应的训练模型作为预测模型，其中，损失值表示预测模型的预测结果准确度。

通过上述描述的方法，通过对初始图谱数据的迭代训练，获得多个训练模型以及训练模型对应的损失值，筛选出最大损失值对应的训练模型，将该训练模型作为预测模型，该预测模型是训练过程中得到的预测结果准确度最高的模型，避免了用户的字段匹配不到数据元或者字段匹配出数据元与字段的关联性不强的问题，提高了预结果的准确性。

在一种可能的设计中，建立所述标准数据与所述原始数据的第一关联关系，包括：

从所述原始数据中的数据表中获取字段；

从所述标准数据中获取数据元；

按照预设规则将所述字段与所述数据元进行关联；

根据所述字段与所述数据元的关联关系，建立所述标准数据与所述原始数据的第一关联关系。

在一种可能的设计中，根据所述标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系，包括：

获取现实数据中的S个现实表，其中，现实表由字段组成，S为正整数；

获取标准数据中的M个标准表，其中，标准表由数据元组成，M为正整数；

根据所述现实表与标准表的语义相似度建立所述现实表与标准表的关联。

在一种可能的设计中，根据所述现实表与标准表的语义相似度建立所述现实表与标准表的关联，包括：

计算每个所述现实表与M个标准表的语义相似度，获得M个语义相似度的值；

按照从小到大的规律对M个语义相似度值进行排序，筛选出最大语义相似度值对应的标准表；

将所述现实表与最大语义相似度值对应的标准表建立关联。

在一种可能的设计中，将所述初始图谱数据放入图神经网络模型中进行N次训练，包括：

输入初始图谱数据至图神经网络模型中进行训练，获得训练图谱数据中每个数据节点的关系图谱向量，其中，关系图谱表示数据节点以及与数据节点直接关联的其他数据节点；

将指定所述关系图谱向量输入分类模型，根据分类模型获得所述现实数据对应的标准数据；

根据所述现实数据以及所述标准数据确定出训练模型，并根据所述训练模型以及所述训练样本确定出损失值；

将每次的损失值反馈至图神经网络模型并对初始图谱数据进行训练。

在一种可能的设计中，指定所述关系图谱向量，包括：

从所述关系图谱的向量中筛选出Z个字段的关系图谱向量以及X个数据元的关系图谱向量，其中，Z、X为正整数。

在一种可能的设计中，将指定所述关系图谱向量输入分类模型，根据所述分类模型获得所述现实数据对应的标准数据之前，包括：

将每个字段的关系图谱向量与所述X个数据元的关系图谱向量进行组合，得到X个向量组；

计算每个向量组的存在概率值，获得X个存在概率值，其中，存在概率值时是字段与数据元有关联关系的概率；

根据存在概率值建立所述字段与数据元的关联关系。

在一种可能的设计中，根据所述分类模型获得所述现实数据对应的标准数据，包括：

从所述现实数据中获取字段，从所述标准数据中获得数据元；

根据所述字段与所述数据元的关联关系，确定所述现实数据对应的标准数据。

在一种可能的设计中，根据存在概率值建立所述字段与数据元的关联关系，包括：

按照由小到大的规律对X个存在概率值进行排序，筛选出最大存在概率值；

将最大存在概率值对应的数据元与所述字段建立关联关系。

在一种可能的设计中，根据所述现实数据以及所述标准数据确定出训练模型，包括：

获取每个字段对应的最大存在概率值对应的数据元，获得所述Z个字段与数据元的关联关系；

据所述字段与数据元的关联关系与训练样本之间的差异，计算出损失值；

将所述损失值反馈至图神经网络及分类模型并对图神经网络及分类模型的参数进行更新，确定出训练模型。

在一种可能的设计中，将所述N个损失值中最小损失值对应的训练模型作为预测模型，包括：

将初始图谱数据迭代训练N次，获得N个训练模型；

根据所述N个训练模型与所述训练样本获得N个损失值；

按照从小到大的规律对N个损失值进行排序，筛选出最小损失值对应的训练模型；

将最小损失值对应的训练模型作为预测模型。

第二方面，本申请提供了一种数据处理的方法，所述方法包括：

接收用户输入的数据并对所述数据进分类；

若所述数据为字段，则用第一模式处理所述字段；

若所述数据为现实表，则用第二模式处理所述现实表。

在一种可能的设计中，接收用户输入的数据并对所述数据进分类，包括：

根据数据的文件格式判断数据的类型；或者

根据数据占据的存储空间是否超过预设值判断数据的类型；或着

根据数据中是否带有表格结构以及表格判断数据的类型。

在一种可能的设计中，根据数据的文件格式判断数据的类型，包括：

解析接收的数据，获得所述数据的文件格式；

若文件格式为表格，则将所述数据作为现实表；

若文件格式为文本，则将所述数据作为字段。

在一种可能的设计中，根据数据占据的存储空间是否超过预设值判断数据的类型，包括：

获得所述数据占据的存储空间对应的值，判断所述存储空间对应的值是否超过预设值；

若所述存储空间对应的值高于预设值，则将所述数据作为现实表；

若所述存储空间对应的值低于预设值，则将所述数据作为字段。

在一种可能的设计中，根据数据中是否带有表格结构以及表格判断数据的类型，包括：

判断从所述数据中是否提取到表格结构以及表格，其中，表格结构为行列线条的分布；

若是，则将所述数据作为现实表；

若否，则将所述数据作为字段。

在一种可能的设计中，用第一模式处理所述字段，包括：

删除所述字段中的特殊字符并将字段的格式调整为预设格式；

对调整之后的字段进行数据对标处理。

在一种可能的设计中，用第二模式处理所述现实表，包括：

提取现实表中的文字，将所述文字作为字段并将所述字段调整为预设格式；

将调整后的字段集输入预测模型中进行数据对标处理。

第三方面，本申请提供了一种数据对标的方法，所述方法包括：

在接收到用户输入的数据时，将所述数据输入所述预测模型中；

将所述数据输入预测模型得到的训练结果作为数据元输出。

在一种可能的设计中，将所述数据输入预测模型得到的训练结果作为数据元输出，包括：

将所述数据与所述预测模型中的每个数据元进行匹配，获得所述数据与每个数据元之间的存在概率值；

按照由大到小的规律对存在概率值进行排序，获得最大存在概率值对应的数据元；

将所述数据元作为所述的数据对应的数据元输出。

第四方面，本申请提供了一种训练模型的系统，所述系统包括：

获取模块，用于获取标准数据以及原始数据，建立所述标准数据与所述原始数据的第一关联关系，并获得训练样本；

建立模块，用于根据所述标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系；

关联模块，用于根据所述第一关联关系以及所述第二关联关系，获得初始图谱数据，并将所述训练样本放入所述初始图谱数据中；

训练模块，用于将所述初始图谱数据放入图神经网络模型中进行N次训练，获得N个损失值；

生成模块，用于将所述N个损失值中最小损失值对应的训练模型作为预测模型。

第五方面，本申请提供了一种数据处理的系统，所述系统包括：

分类模块，用于接收用户输入的数据并对所述数据进分类；

处理模块，用于所述数据为字段时，则用第一模式处理所述字段，所述数据为现实表时，则用第二模式处理所述现实表。

第六方面，本申请提供了一种数据对标的系统，所述系统包括：

输入模块，用于在接收到用户输入的数据时，将所述数据输入所述预测模型中；

输出模块，用于将所述数据输入预测模型得到的训练结果作为数据元输出。

第七方面，本申请提供了一种电子设备，包括：

存储器，用于存放计算机程序；

处理器，用于执行所述存储器上所存放的计算机程序时，实现上述的一种模型训练的方法步骤、一种数据处理的方法步骤以及一种数据对标的方法步骤。

第八方面，一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种模型训练的方法步骤、一种数据处理的方法步骤以及一种数据对标的方法步骤。

上述第一方面至第八方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面、第二方面以及第三方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。

附图说明

图1为本申请提供的一种模型训练方法步骤的流程图；

图2为本申请提供的一种数据处理方法步骤的流程图；

图3为本申请提供的一种数据对标方法步骤的流程图；

图4为本申请提供的企业的标准数据图；

图5为本申请提供的企业的原始数据图；

图6为本申请提供的企业的标准数据与企业的原始数据的关联图；

图7为本申请提供的企业的标准数据与企业的现实数据的关联图；

图8为本申请提供的一种模型训练系统的结构示意图；

图9为本申请提供的一种数据处理系统的结构示意图；

图10为本申请提供的一种数据对标系统的结构示意图；

图11为本申请提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于系统实施例或系统实施例中。需要说明的是，在本申请的描述中“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。A与B连接，可以表示：A与B直接连接和A与B通过C连接这两种情况。另外，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

目前，将企业原始数据关联为统一的标准数据时，现有的模型是基于字段名与数据元名之间的语义相似度进行训练得到的，将企业原始数据的字段与标准数据中的数据元进行对标，将字段与数据元形成关联关系，由于字段命名方式多样，字段中包含下划线、空格、中英混杂等，导致通过模型得出的字段与数据元的关联关系不准确以及通过模型不能获取输入字段对应的数据元，造成字段的关联结果准确度低，同时，没有对已对标的企业原始数据进行处理，造成资源的耗费，所以，通过模型得出的字段与数据元的关联关系不准确以及通过模型不能获取输入字段对应的数据元成为要解决的问题。

为了解决上述的问题，本申请实施例提供了一种模型训练的方法，用以获得预测模型，从而提高字段的关联结果的准确度以及避免字段匹配不到对应的数据元的问题。其中，本申请实施例所述方法和系统基于同一技术构思，由于方法及系统所解决问题的原理相似，因此系统与方法的实施例可以相互参见，重复之处不再赘述。

下面结合附图，对本申请实施例进行详细描述。

实施例一

参照图1，本申请提供了一种模型训练的方法，该方法可以获得一种预测模型，通过该预测模型可以提高字段的关联结果的准确度以及避免字段匹配不到对应的数据元的问题，该方法的实现流程如下：

步骤S1：获取标准数据以及原始数据，建立所述标准数据与所述原始数据的第一关联关系，并获得训练样本。

在本申请实施例中获取标准数据的具体过程：由于国家标准机构已经制定相关数据元的标准文件以及各个企业中有数据处理相关的专业数据库，读取国家标准机构制定的标准文件以及各个企业的专业数据库，从该标准文件以及该专业数据库中提取标准表、标准的字段以及国家标准规定的数据元和/或该专业数据库中的字段对应的数据元，根据提取标准表、标准的字段以及国家标准规定的数据元和/或该专业数据库中的字段对应的数据元生成企业标准数据，此时，企业标准数据有标准的字段、标准表、数据元，如图4所示为企业的标准数据，在本申请实施例中，图中的圆圈代表一个节点，线段代表两个节点之间的关联，若圆圈中为数据元，则该节点就为数据元节点，其他节点的命名参考数据元节点，这里不一一描述。

进一步需要说明的是，数据元和限定词能够构成标准的字段，标准的字段能够构成标准表。

比如：数据元可以为“居民身份证”，标准的字段可以为“大陆居民身份证”、“临时居民身份证”、“台湾居民身份证”等，由标准的字段构成标准表如表1所示：

临时居民身份证
	台湾居民身份证
大陆居民身份证
	......

表1

在本申请实施例中获取原始数据的具体过程：获取各个企业中未经过任何处理的数据表，进而能够提取到数据表中的字段，根据获得的字段以及数据表能够生成企业原始数据，此时，企业的原始数据中包含字段以及数据表，企业的原始数据如图5所示。

在获得标准数据以及原始数据之后，由于标准数据以及原始数据是相互独立的，为了建立标准数据与原始数据的关联，在获得标准数据以及原始数据后，需要获取标准数据中的数据元以及原始数据中的字段，在获得该数据元以及该字段后，按照预设的规则建立数据元与字段的关联，预设的规则可以为判断字段的所属类型是否与数据元一致，若一致，则建立该字段与该数据元的关联；若不一致，则不做任何处理。

通过上述步骤建立字段与数据元的关联后，进而建立了标准数据与原始数据的关联，标准数据与原始数据的关联如图6所示，再将建立关联的字段与数据元放入训练样本中，获得训练样本的数据，需要说明的是，在训练样本中，字段与字段对应的数据元存储的形式为表2所示：

表2

步骤S2：根据所述标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系。

为了获得初始图谱数据，需要对原始数据进行处理，获得现实数据，由于原始数据中的数据表没有统一的规范格式以及标准，所以需要读取原始数据中的字段，删除所有字段中的特殊符号，特殊符号可以为表情符号、数学符号、图标符号、下划线中的一种或多种，删除所有字段中的特殊符号后，将所有字段的格式调整为统一的标准，将处理之后的原始数据作为现实数据。

比如：原始数据为“_小明#的身#份证zxg号￥”，对原始数据进行处理之后为“小明的身份证号”，得到原始数据对应的现实数据为“小明的身份证号”。

获得现实数据后，由于标准数据以及现实数据是相互独立的，为了建立标准数据与企业的现实数据的关联，需要获取标准数据中的标准表以及现实数据中的数据表，获取每个数据表与所有标准表的语义相似度值，将数据表与最大语义相似度值对应的标准表建立关联如图7所示，获得标准数据与现实数据的第二关联关系。

步骤S3：根据所述第一关联关系以及所述第二关联关系，获得初始图谱数据，并将所述训练样本放入所述初始图谱数据中。

在获得标准数据与原始数据的第一关联关系以及摆闸数据与现实数据的第二关联关系之后，根据已经建立的第一关联关系以及第二关联关系，获得初始图谱数据，并将第训练样本放入初始图谱数据中，此时，初始图谱数据中包含训练样本、现实数据以及建立关联的标准数据与现实数据。

步骤S4：将所述初始图谱数据放入图神经网络模型中进行N次训练，获得N个损失值。

获得初始图谱数据之后，为了得到预测模型，需要将初始图谱数据放入图神经网络模型中进行N次训练，N为正整数，在每次图神经网络模型对初始图谱数据训练时，初始图谱数据经过的图神经网络层数越多，获得的关联数据将会越多，在本申请实施例中，图神经网络模型中的图神经网络的层数可以根据实际需求设置。

初始图谱数据经过图神经网络的训练时，将得到训练图谱数据，根据训练图谱数据能够得到训练图谱数据中的每个节点对应的关系图谱，关系图谱表示数据节点以及与节点直接关联的其他节点，该节点可以为数据元节点、标准的字段节点、标准的字段集节点、数据表节点以及字段节点，将每个节点的关系图谱转化为向量从图神经网络中输出，此时，每个节点都对应着一个向量。

获取每个节点的向量之后，提取字段节点对应的向量以及数据元节点对应的向量，将字段节点对应的向量与每个数据元节点对应的向量进行拼接形成新的向量，新的向量的数量至少为一个，基于分类模型计算字段对应每个向量的存在概率值并将存在概率值记录下来，存在概率值代表字段与数据元有关联关系的概率，在本申请实施例中，分类模型可以为多层感知机，提取并记录每个字段的最大存在概率值对应的向量，根据向量获取字段对应的数据元，一个字段对应一个数据元，当一个字段有多个相同的存在概率值时，从多个最大概率值中随机选取一个损失值，记录字段与该损失值的关联。

按照以上的方式，获取每个字段对应的数据元，并根据记录字段与数据元的关联生成训练模型，生成训练模型之后，需要根据训练样本与训练模型的中字段对应数据元的差异，计算出损失值，损失值表示预测模型的预测结果准确度。

获得损失值之后，将损失值反馈至图神经网络及分类模型并对图神经网络及分类模型的参数进行更新，基于更新后的模型再次对初始图谱数据进行训练，重复上述过程，直至N次训练结束，获得N个训练模型以及N个损失值。

步骤S5：将所述N个损失值中最小损失值对应的训练模型作为预测模型。

获得N个训练模型以及N个损失值之后，从N个损失值中提取最小损失值对应的训练模型，并将该训练模型保存后作为预测模型。

通过上述的方式，对初始图谱数据进行图神经网络训练，图神经网络的层数越多，获得的有关联的数据越多，同时，进行N次图神经网络模型的训练，获得足够多的训练模型以及训练模型对应的准确度，从训练模型中确定出预测模型，确保了获得的预测模型是训练过程中得到的预测最准确的训练模型，从而能够提高字段关联数据元的准确度。

通过上述的方法，在训练过程中将字段与每个数据元进行匹配，保证用户端输入的字段能够匹配到数据元，避免了用户输入字段匹配不到数据元的问题，并且，从多个损失值中选出最大损失值并将最大损失值对应的数据元作为结果输出，保证了用户端得到的数据元为与用户端输入字段高度关联的数据元。

基于本申请所提供的方法，获取标准数据以及原始数据，建立标准数据与原始数据的第一关联关系，并获得训练样本，根据标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系，根据所述第一关联关系以及所述第二关联关系，获得初始图谱数据，并将所述训练样本放入所述初始图谱数据中，将所述初始图谱数据放入图神经网络模型中进行N次训练，获得N个损失值，将所述N个损失值中最小损失值对应的训练模型作为预测模型，通过上述方法对初始图谱数据进行学习训练，获得预测模型，在输入字段进行匹配时，能够筛选出最大损失值对应的数据元，提高了字段关联的数据元的准确度。

实施例二

参照图2，本申请提供了一种数据处理的方法，该方法可以对企业的原始数据进行处理，从而提高字段的关联结果的准确度以及避免字段匹配不到对应的数据元的问题，该方法的实现流程如下：

步骤S21：接收用户输入的数据并对所述数据进分类。

接收用户输入的数据，为了区分出字段与现实表，需要对用户输入的数据进行分类，分类的具体方式如下所示：

方式一：根据数据的文件格式判断数据的类型。

接收到用户输入的数据之后，对数据的文件格式进行判断，若数据的格式为文档对应的格式，如TXT格式、DOC格式，则将用户输入的数据作为字段，如数据的格式为表格对应的格式，如xlsx格式，则将用户输入的数据作为现实表。

方式二：根据数据占据的存储空间是否超过预设值判断数据的类型。

接收到用户输入的数据之后，检测用户输入的数据占据的存储空间是否超过预设值，若用户输入的数据占据的存储空间超过预设值，则将用户输入的数据作为字段，若用户输入的数据占据的存储空间低于预设值，则将用户输入的数据作为现实表，由于预设值可以根据实际的场景进行设定，因此，这里不做过多的阐述。

方式三：根据数据中是否带有表格结构以及表格判断数据的类型。

接收到用户输入的数据之后，检测用户输入的数据中是否带有表格结构以及表格，表格结构为表格的行列线条的分布，若检测到用户输入的数据中有表格结构和/或表格，则将用户输入的数据作为现实表，若检测到用户输入的数据中无表格结构以及表格，则将用户输入的数据作为字段。

在本申请实施例中，对用户输入的数据进行分类，可以采用上述描述的方式一、方式二以及方式三中的一种，也可以将方式一、方式二以及方式三进行任意组合，如：方式一与方式二组合、方式一、方式二以及方式三组合，其他的组合方式参考上述描述的内容，这里不做过多阐述。

若用户输入的数据为字段，则进行步骤S22，若用户输入的数据为现实表，则进行步骤S23。

通过上述描述的方法，对用户输入的数据进行分类，采取分类的方式多样，确保了进行数据分类时的准确性。

步骤S22：用第一模式处理所述字段。

在用户输入的数据为字段之后，由于字段为企业的原始数据，字段中有特殊字符等，为了将字处理成预测模型设定的格式，需要检测字段中的特殊字符，将字段与预设的特殊字符表进行匹配，将匹配出的特殊字符从字段中删除，在删除字段的特殊字符之后，需要对字段进行格式的调整，将字段调整为预测模型中的预设格式，如：字段的大小为3号不加粗字体等，由于预设格式的作用是为了使输入的字段在格式上一致，因此，对于预设格式这里不做过多阐述。

字段的格式变为预设格式之后，将调整之后的字段输入预测模型中进行数据的对标处理。

步骤S23：用第二模式处理所述现实表。

在用户输入的数据为现实表之后，由于表格的结果比字段复杂，并且现实表由字段组成，因此，需要对现实表进行处理，将现实表中的文字按照从上到下、从左到右的顺序提取出来，获得显示表中的文字之后，将从现实表中提取的文字作为字段。

由于提取的是文字，因此，该字段中没有特殊字符等，只需要将该字段的格式调整为预测模型中的预设格式，获得调整之后的字段，将该字段输入预测模型中进行数据对标处理。

实施例三

参照图3，本申请提供了一种数据对标的方法，该方法可将字段对标为数据元，避免了字段匹配不到对应的数据元的问题，该方法的实现流程如下：

步骤S31：在接收到用户输入的数据时，将所述数据输入所述预测模型中。

接收到用户输入的数据时，由于该数据已经进行了字段与现实表的分类，现实表也转化为了多个字段的形式，因此，只需要将该数据输入到预测模型。

步骤S32：将所述数据输入预测模型得到的训练结果作为数据元输出。

在数据处理之后，用户将需要进行关联数据元的数据输入到预测模型中，数据将与预测模型中的每个数据元进行匹配，获得数据与每个数据元对应的存在概率值，获得存在概率值之后，将存在概率值按照从小到大的规律进行排序，将最大存在概率值筛选出来，在本申请实施例中，当筛选出的最大存在概率值不止一个时，任意选择其中一个最大存在概率值对应的数据元，将该数据元作为数据需要进行关联的数据元并该最大存在概率值对应的数据元作为训练结果输出，用户就能够通过预测模型得到与输入数据关联的数据元，实现了用户输入的数据与预测模型中的数据元对标。

通过上述描述的方法，将进行数据处理之后的数据与预测模型中的数据元进行匹配，筛选出与存在概率值最大对应的数据元，确保了输入数据对标的数据元的准确性。

实施例四

基于同一发明构思，本申请实施例中还提供了一种模型训练的系统，该模型训练的系统用于实现了一种模型训练方法的功能，参照图8，所述系统包括：

获取模块801，用于获取标准数据以及原始数据，建立所述标准数据与所述原始数据的第一关联关系，并获得训练样本；

建立模块802，用于根据所述标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系；

关联模块803，用于根据所述第一关联关系以及所述第二关联关系，获得初始图谱数据，并将所述训练样本放入所述初始图谱数据中；

训练模块804，用于将所述初始图谱数据放入图神经网络模型中进行N次训练，获得N个损失值；

生成模块805，用于将所述N个损失值中最小损失值对应的训练模型作为预测模型。

在一种可能的设计中，所述获取模块801，具体用于从所述原始数据中的数据表中获取字段，从所述标准数据中获取数据元，按照预设规则将所述字段与所述数据元进行关联，根据所述字段与所述数据元的关联关系，建立所述标准数据与所述原始数据的第一关联关系。

在一种可能的设计中，所述建立模块802，具体用于获取现实数据中的S个现实表，获取标准数据中的M个标准表，根据所述现实表与标准表的语义相似度建立所述现实表与标准表的关联。

在一种可能的设计中，所述建立模块802，还用于获取现实数据中的S个现实表，获取标准数据中的M个标准表，根据所述现实表与标准表的语义相似度建立所述现实表与标准表的关联。

在一种可能的设计中，所述训练模块804，具体用于输入初始图谱数据至图神经网络模型中进行训练，获得训练图谱数据中每个数据节点的关系图谱向量，将指定所述关系图谱向量输入分类模型，根据所述分类模型获得所述现实数据对应的标准数据，根据所述现实数据以及所述标准数据确定出训练模型，并根据所述训练模型以及所述训练样本确定出损失值，将每次的损失值反馈至图神经网络模型并对初始图谱数据进行训练。

在一种可能的设计中，所述训练模块804，还用于将每个字段的关系图谱向量与所述X个数据元的关系图谱向量进行组合，得到X个向量组，计算每个向量组的存在概率值，获得X个存在概率值，根据存在概率值建立所述字段与数据元的关联关系。

在一种可能的设计中，所述训练模块，还用于获取每个字段对应的最大存在概率值对应的数据元，获得所述Z个字段与数据元的关联关系，根据所述关联关系确定出训练模型。

在一种可能的设计中，所述训练模块804，还用于将初始图谱数据迭代训练N次，获得N个训练模型，根据所述N个训练模型与所述训练样本获得N个损失值，按照从小到大的规律对N个损失值进行排序，筛选出最小损失值对应的训练模型，将最小损失值对应的训练模型作为预测模型。

实施例五

基于同一发明构思，本申请实施例中还提供了一种数据处理的系统，该模型训练的系统用于实现了一种数据处理的方法的功能，参照图9，所述系统包括：

分类模块901，用于接收用户输入的数据并对所述数据进分类；

处理模块902，用于所述数据为字段时，则用第一模式处理所述字段，所述数据为现实表时，则用第二模式处理所述现实表。

在一种可能的设计中，所述分类模块901，具体用于根据数据的文件格式判断数据的类型，或者根据数据占据的存储空间是否超过预设值判断数据的类型，或着根据数据中是否带有表格结构以及表格判断数据的类型。

在一种可能的设计中，所述分类模块901，还用于解析接收的数据，获得所述数据的文件格式，若文件格式为表格，则将所述数据作为现实表，若文件格式为文本，则将所述数据作为字段。

在一种可能的设计中，所述分类模块901，还用于获得所述数据占据的存储空间对应的值，判断所述存储空间对应的值是否超过预设值，若所述存储空间对应的值高于预设值，则将所述数据作为现实表，若所述存储空间对应的值低于预设值，则将所述数据作为字段。

在一种可能的设计中，所述分类模块901，还用于判断从所述数据中是否提取到表格结构以及表格，若是，则将所述数据作为现实表，若否，则将所述数据作为字段。

在一种可能的设计中，所述处理模块902，具体用于删除所述字段中的特殊字符并将字段的格式调整为预设格式，对调整之后的字段进行数据对标处理。

在一种可能的设计中，所述处理模块902，还用于提取现实表中的文字，将所述文字作为字段并将所述字段调整为预设格式，将调整后的字段集输入预测模型中进行数据对标处理。

实施例六

基于同一发明构思，本申请实施例中还提供了一种数据对标的系统，该模型训练的系统用于实现了一种数据对标的方法的功能，参照图10，所述系统包括：

输入模块1001，用于在接收到用户输入的数据时，将所述数据输入所述预测模型中；

输出模块1002，用于将所述数据输入预测模型得到的训练结果作为数据元输出。

在一种可能的设计中，所述输出模块1002，具体用于将所述数据与所述预测模型中的每个数据元进行匹配，获得所述数据与每个数据元之间的存在概率值，按照由大到小的规律对存在概率值进行排序，获得最大存在概率值对应的数据元，将所述数据元作为所述的数据对应的数据元输出。

实施例七

基于同一发明构思，本申请实施例中还提供了一种电子设备，所述电子设备可以实现前述一种模型训练的系统的功能、一种数据处理的系统的功能以及一种数据对标的系统的功能，参考图11，所述电子设备包括：

至少一个处理器1101，以及与至少一个处理器1101连接的存储器1102，本申请实施例中不限定处理器1101与存储器1102之间的具体连接介质，图11中是以处理器1101和存储器1102之间通过总线1100连接为例。总线1100在图11中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1100可以分为地址总线、数据总线、控制总线等，为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器1101也可以称为控制器，对于名称不做限制。

在本申请实施例中，存储器1102存储有可被至少一个处理器1101执行的指令，至少一个处理器1101通过执行存储器1102存储的指令，可以执行前文论述的一种模型训练的方法、一种数据处理的方法以及一种数据对标的方法。处理器1101可以实现图8、图9以及图10所示的系统中各个模块的功能。

其中，处理器1101是该系统的控制中心，可以利用各种接口和线路连接整个该控制设备的各个部分，通过运行或执行存储在存储器1102内的指令以及调用存储在存储器1102内的数据，该系统的各种功能和处理数据，从而对该系统进行整体监控。

在一种可能的设计中，处理器1101可包括一个或多个处理单元，处理器1101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中，处理器1101和存储器1102可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1101可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的一种模型训练的方法步骤、一种数据处理的方法步骤以及一种数据对标的方法步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1102作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的系统，用于存储程序指令和/或数据。

通过对处理器1101进行设计编程，可以将前述实施例中介绍的一种模型训练方法、一种数据处理的方法以及一种数据对标的方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图1所示的实施例的一种模型训练的步骤、图2所示的实施例的一种数据处理的方法步骤以及图3所示的实施例的一种数据对标的方法步骤。如何对处理器1101进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行前文论述的一种模型训练方法、一种数据处理的方法以及一种数据对标的方法。

在一些可能的实施方式中，本申请提供一种模型训练的方法、一种数据处理的方法以及一种数据对标的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在系统上运行时，程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种模型训练方法、一种数据处理的方法以及一种数据对标的方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种模型训练的方法，其特征在于，包括：

将所述N个损失值中最小损失值对应的训练模型作为预测模型，其中，损失值反应预测模型的预测结果准确度。

2.如权利要求1所述的方法，其特征在于，建立所述标准数据与所述原始数据的第一关联关系，包括：

从所述原始数据中的数据表中获取字段，其中，数据表由字段组成；

从所述标准数据中获取数据元，其中，标准数据由数据元以及标准表组成；

按照预设规则将所述字段与所述数据元进行关联；

3.如权利要求1所述的方法，其特征在于，根据所述标准数据与现实数据的语义相似度，建立所述标准数据与所述现实数据的第二关联关系，包括：

4.如权利要求3所述的方法，其特征在于，根据所述现实表与标准表的语义相似度建立所述现实表与标准表的关联，包括：

将所述现实表与最大语义相似度值对应的标准表建立关联。

5.如权利要求1所述的方法，其特征在于，将所述初始图谱数据放入图神经网络模型中进行N次训练，包括：

将指定所述关系图谱向量输入分类模型，根据所述分类模型获得所述现实数据对应的标准数据；

6.如权利要求5所述的方法，其特征在于，指定所述关系图谱向量，包括：

7.如权利要求5所述的方法，其特征在于，将指定所述关系图谱向量输入分类模型，根据所述分类模型获得所述现实数据对应的标准数据之前，包括：

根据存在概率值建立所述字段与数据元的关联关系。

8.如权利要求7所述的方法，其特征在于，根据所述分类模型获得所述现实数据对应的标准数据，包括：

9.如权利要求7所述的方法，其特征在于，根据存在概率值建立所述字段与数据元的关联关系，包括：

将最大存在概率值对应的数据元与所述字段建立关联关系。

10.如权利要求5所述的方法，其特征在于，根据所述现实数据以及所述标准数据确定出训练模型，包括：

11.如权利要求1所述的方法，其特征在于，将所述N个损失值中最小损失值对应的训练模型作为预测模型，包括：

将初始图谱数据迭代训练N次，获得N个训练模型；

根据所述N个训练模型与所述训练样本获得N个损失值；

将最小损失值对应的训练模型作为预测模型。

12.一种数据处理的方法，其特征在于，包括：

接收用户输入的数据并对所述数据进分类；

若所述数据为字段，则用第一模式处理所述字段；

若所述数据为现实表，则用第二模式处理所述现实表。

13.如权利要求12所述的方法，其特征在于，接收用户输入的数据并对所述数据进分类，包括：

根据数据的文件格式判断数据的类型；或者

根据数据中是否带有表格结构以及表格判断数据的类型。

14.如权利要求12所述的方法，其特征在于，根据数据的文件格式判断数据的类型，包括：

解析接收的数据，获得所述数据的文件格式；

若文件格式为表格，则将所述数据作为现实表；

若文件格式为文本，则将所述数据作为字段。

15.如权利要求12所述的方法，其特征在于，根据数据占据的存储空间是否超过预设值判断数据的类型，包括：

16.如权利要求12所述的方法，其特征在于，根据数据中是否带有表格结构以及表格判断数据的类型，包括：

若是，则将所述数据作为现实表；

若否，则将所述数据作为字段。

17.如权利要求12所述的方法，其特征在于，用第一模式处理所述字段，包括：

对调整之后的字段进行数据对标处理。

18.如权利要求12所述的方法，其特征在于，用第二模式处理所述现实表，包括：

将调整后的字段集输入预测模型中进行数据对标处理。

19.一种数据对标的方法，其特征在于，包括：

将所述数据输入预测模型得到的训练结果作为数据元输出。

20.如权利要求19所述的方法，其特征在于，将所述数据输入预测模型得到的训练结果作为数据元输出，包括：

将所述数据元作为所述的数据对应的数据元输出。

21.一种模型训练系统，其特征在于，所述系统包括：

22.一种数据处理的系统，其特征在于，所述系统包括：

分类模块，用于接收用户输入的数据并对所述数据进分类；

23.一种数据对标的系统，其特征在于，所述系统包括：

24.一种电子设备，其特征在于，包括：

存储器，用于存放计算机程序；

处理器，当用于执行所述存储器上所存放的计算机程序时，实现权利要求1-20任一项所述的方法中的步骤。

25.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-20任一项所述的方法中的步骤。