CN108629351A

CN108629351A - 一种数据模型处理方法及其装置

Info

Publication number: CN108629351A
Application number: CN201710154285.8A
Authority: CN
Inventors: 刘克俊
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2018-10-09
Anticipated expiration: 2037-03-15
Also published as: CN108629351B

Abstract

本发明实施例公开了一种数据模型处理方法，所述方法包括：确定待处理数据，从所述待处理数据中提取出至少一个第一特征信息；基于所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，其中，所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息，基于所述待处理数据确定出所述至少一个目标特征信息的权重，根据确定出的权重以及所述至少一个目标特征信息得到第二模型。本发明实施例还公开了一种数据模型处理装置。

Description

一种数据模型处理方法及其装置

技术领域

本发明涉及数据处理技术，尤其涉及一种数据模型处理方法及其装置。

背景技术

在逻辑回归模型训练场景中，经常会面临新的应用场景所能提供的训练数据较少的情况，比如，在展示广告场景下，新广告位展示数据非常少时，无法直接进行模型训练，但其它广告位展示数据相对充分且已训练得到数据模型，此时，若直接利用其他应用场景的训练数据得到的数据模型对新应用场景中的训练数据进行训练，会出现数据训练不充分，训练结果误差较大的问题。

发明内容

为解决现有存在的技术问题，本发明实施例提供了一种数据模型处理方法及其装置，能至少解决现有技术中存在的上述问题。

本发明实施例的技术方案是这样实现的：

本发明实施例第一方面提供了一种数据模型处理方法，所述方法包括：

确定待处理数据，从所述待处理数据中提取出至少一个第一特征信息；

基于所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，其中，所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；

对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息；

基于所述待处理数据确定出所述至少一个目标特征信息的权重，根据确定出的权重以及所述至少一个目标特征信息得到第二模型。

上述方案中，所述对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息，包括：

获取所述至少两个第二特征信息在所述第一模型中对应的权重；

对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息，以使根据所述至少一个目标特征信息得到的第二模型中目标特征信息的个数少于所述第一模型中第二特征信息的个数；

其中，所述第二模型中每一所述目标特征信息均能表征自身所包含的第二特征信息，以及所包含的第二特征信息在所述第一模型中的权重。

从所述至少两个第二特征信息中选取出具有关联关系的第二特征信息，将具有关联关系的第二特征信息进行组合，得到至少一个目标特征信息；和/或，

从所述至少两个第二特征信息中选取出与每一所述第一特征信息具有关联的第二特征信息，将与每一所述第一特征信息具有关联关系的所有第二特征信息进行组合，得到至少一个目标特征信息。

上述方案中，所述基于所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，包括：

确定所述待处理数据的目标应用场景；

根据所述待处理数据的目标应用场景以及所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，以使选取出的第一模型所对应的应用场景与所述目标应用场景相关联，使所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；对应地，

所述第二模型能够用于对所述目标应用场景的其他待处理数据进行数据分析。

上述方案中，所述基于所述待处理数据确定出所述至少一个目标特征信息的权重，包括：

从所述待处理数据中提取出所述至少一个目标特征信息，并确定出每一所述目标特征信息在所述待处理数据中所对应的特征值；

基于所有目标特征信息在所述待处理数据中的特征值，计算得到所述至少一个目标特征信息中每一所述目标特征信息的权重。

本发明实施例第二方面提供了一种数据模型处理装置，所述装置包括：

信息提取单元，用于确定待处理数据，从所述待处理数据中提取出至少一个第一特征信息；

模型确定单元，用于基于所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，其中，所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；

模型处理单元，用于对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息；基于所述待处理数据确定出所述至少一个目标特征信息的权重，根据确定出的权重以及所述至少一个目标特征信息得到第二模型。

上述方案中，所述模型处理单元，还用于：

上述方案中，所述模型确定单元，还用于：确定所述待处理数据的目标应用场景；根据所述待处理数据的目标应用场景以及所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，以使选取出的第一模型所对应的应用场景与所述目标应用场景相关联，使所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；对应地，

所述模型处理单元确定出的所述第二模型能够用于对所述目标应用场景的其他待处理数据进行数据分析。

上述方案中，所述模型处理单元，还用于从所述待处理数据中提取出所述至少一个目标特征信息，并确定出每一所述目标特征信息在所述待处理数据中所对应的特征值；基于所有目标特征信息在所述待处理数据中的特征值，计算得到所述至少一个目标特征信息中每一所述目标特征信息的权重。

本发明实施例所述的数据模型处理方法及其装置，通过特征组合的方式来减小已有模型中的特征总量，这样，便于新场景下规模较小的训练数据在减少后的特征体系下得到充分训练，进而为保证新的数据模型的训练效果奠定了基础。

附图说明

图1为本发明实施例数据模型处理方法的实现流程示意图；

图2(a)和图2 (b)为本发明实施例特征信息重叠的示意图；

图3为本发明实施例数据模型处理方法的具体应用的实现流程示意图；

图4为本发明实施例数据模型处理装置的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容，下面结合附图对本发明的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

实施例一

本实施例提供了一种数据模型处理方法；这里，为了解决新应用场景的待处理数据(也即训练数据)不足无法进行数据训练，即无法训练出数据模型，而利用已有模型对该待处理数据进行训练得到的训练结果不充分、效果不好、且误差也较大的问题(若已有模型中的特征体系较大时，训练结果误差会更大)，本实施例提供了一种基于新场景下的待处理数据对已有模型中特征体系进行调整进而得到适用于新场景的数据模块的处理方法，具体地，将已有模型的特征集合中相似特征进行组合(例如，相似特征通过特征加和的方式组合)，得到相对规模较小的新特征集合，进而使待处理数据基于新特征集合进行训练，如此，得到适用于新场景的新的数据模型；进一步地，由于得到的适用于新场景的新的数据模型复用了已有模型，且新的数据模型又是基于新场景的训练数据得到的，所以，本实施例不仅解决了新场景数据不足无法训练得到数据模型的问题，同时，与不修改已有模型的特征体系直接利用已有模型训练新场景中的训练数据的方法相比，本实施例所述的方法还能够使训练结果充分、效果好、精确度高。

图1为本发明实施例数据模型处理方法的实现流程示意图，如图1所示，所述方法包括：

步骤101：确定待处理数据，从所述待处理数据中提取出至少一个第一特征信息；

在实际应用中，所述待处理数据可以为数据集合，但是，该数据集合由于数据量较小无法直接训练得到数据模型。当然，即使数据集合的数据量足够大，能够确定出数据模型，也可以利用本实施例所述的方法来确定针对该数据集合的第二模型，本实施例对此不作限制。

本实施例中，在确定出所述待处理数据后，可以直接获取所述待处理数据的目标应用场景，进而基于目标应用场景确定出针对所述待处理数据的至少一个第一特征信息，或者，无需确定出所述待处理数据的目标应用场景，直接从所述待处理数据中提取出至少一个第一特征信息。

步骤102：基于所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，其中，所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；

在一具体实施例中，可以采用如下步骤选取出第一模型，具体地，确定所述待处理数据的目标应用场景，根据所述待处理数据的目标应用场景以及所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，这里，选取出的第一模型所对应的应用场景与所述目标应用场景相关联，所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同，这样，利用所述第一模型确定出的第二模型即可用于对所述目标应用场景的其他待处理数据进行数据分析。也就是说，本实施例选取的第一模型是与待处理数据具有关联关系的，例如，所述第一模型与待处理数据的应用场景相关联，和/或，所述第一模型与待处理数据的特征信息至少部分重叠，这样，以确保所述第一模型的特征体系能够适用于待数据处理。

本实施例中，应用场景相关联指的是应用场景相同或相似。

图2(a)和(b)为本发明实施例特征信息重叠的示意图，如图2(a)所示，这里，第一特征信息集合包含有从所述待处理数据中提取出的所有第一特征信息，同理，第二特征信息集合包含有所述第一模型中的所有第二特征信息，在实际应用中，所述第一特征信息集合可以是第二特征信息集合的子集，这样，由于待处理数据与第一模型中的特征信息相似度大，所以当利用第一模型确定出第二模型后，能够提升第二模型的训练效果。或者，如图2(b)所示，所述第一特征信息集合与所述第二特征信息集合相交，这里，在实际应用中，交集区域(即特征信息重叠部分)越大，即交集区域占第一特征信息集合总区域的比重越大，确定出的第二模型的训练效果越好。

步骤103：对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息；

在一实施例中，步骤103具体包括：获取所述至少两个第二特征信息在所述第一模型中对应的权重，对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息，以使根据所述至少一个目标特征信息得到的第二模型中目标特征信息的个数少于所述第一模型中第二特征信息的个数，也就是说，得到的第二模型中的特征信息的个数少于第一模型的特征信息的个数，即通过组合处理的方式实现减小特征信息的目的，以使第二模型能够适应于特征信息较少的待处理数据。

这里，所述第二模型中每一所述目标特征信息均能表征自身所包含的第二特征信息，以及所包含的第二特征信息在所述第一模型中的权重，例如，所述第一模型中的所有第二特征信息分别用向量X1、向量X2至向量Xn(n为大于等于2的正整数)表示，则第一模型＝a1×X1+a2×X1+…+a2×Xn，a_j(j＝1，2，…，n)为权重，此时，所述目标特征信息可以具体为a1×X1、或者(a1×X1+a2×X1)等形式，如此，实现减少特征信息的个数的目的。也就是说，本实施例能够通过相似特征组合的方式大幅减小已有模型中的特征总量，这样，便于新场景下规模较小的训练数据在减少后的特征体系下得到充分训练，进而保证了新的数据模型的训练效果。

步骤104：基于所述待处理数据确定出所述至少一个目标特征信息的权重，根据确定出的权重以及所述至少一个目标特征信息得到第二模型。

在实际应用中，可以采用如下方式利用所述待处理数据确定出第二模型的权重，具体地，从所述待处理数据中提取出所述至少一个目标特征信息，并确定出每一所述目标特征信息在所述待处理数据中所对应的特征值，进而基于所有目标特征信息在所述待处理数据中的特征值，计算得到所述至少一个目标特征信息中每一所述目标特征信息的权重，如此，基于权重，确定出包含有至少一个目标特征信息的第二模型。

这样，本发明实施例所述的方法，通过特征组合的方式来减小已有模型中的特征总量，这样，便于新场景下规模较小的训练数据在减少后的特征体系下得到充分训练，进而为保证新的数据模型的训练效果奠定了基础。

实施例二

基于实施例一所述的方法，本实施例提供了第二特征信息进行组合处理的两种具体方式，具体地，

方式一，从所述至少两个第二特征信息中选取出具有关联关系的第二特征信息，将具有关联关系的第二特征信息进行组合，得到至少一个目标特征信息；也就是说，直接将所述第一模型中第二特征信息进行合并，而合并的依据为第二特征信息相关联，如此，来减少第一模型中的第二特征信息的个数。

方式二，从所述至少两个第二特征信息中选取出与每一所述第一特征信息具有关联的第二特征信息，将与每一所述第一特征信息具有关联关系的所有第二特征信息进行组合，得到至少一个目标特征信息，也就是说，在第一模型中选择出与每一个第一特征信息具有关联关系的第二特征信息，将与每一所述第一特征信息具有关联关系的第二特征信息进行组合处理，例如，第一特征信息用以向量Y1、向量Y2至向量Ym(m为大于等于2的正整数)表示，此时，将所述第一模型中与向量Y1相关联的所有第二特征信息进行组合，将与向量Y2相关联的所有第二特征信息进行组合，依此类推，得到目标特征信息，如此，来减少第一模型中的第二特征信息的个数。

在实际应用中，上述两种方式可以择一而执行，或者两者结合执行。

以下结合具体应用场景对本发明实施例做进一步详细说明；这里，假设预对微信插件对应的第一数据集合进行研究，这里，虽然微信插件部分也有浏览和点击数据(也即第一数据集合)，可以用于模型训练，但这部分数据规模较小，直接训练效果不佳，此时，可以选用基于新闻客户端和快报客户端数据训练得到的数据模型来作为基础模型，并利用本实施例所述的方法对该基础模型进行调整，调整后的模型即可对微信插件场景的其他数据集合进行分析。如图3所示，具体步骤包括：

步骤1：对新闻客户端和快报客户端已获得的点击率数据进行分析，分析对点击率有影响的因素，并选取特征向量，并利用点击率数据确定选取出的特征向量的权重，得到基础模型；例如，基础模型y＝1/(1+exp(-(ax+by+cz...)))；其中，所述x，y，z是抽取出的特征向量；a，b，c是通过训练得到的特征向量的权重。这里，1/(1+exp(-s))是logistic变换，s＝ax+by+cz...是特征部分，各个特征向量和它们对应的权重相乘，然后进行logistic变换后即可得到基础模型。

步骤2：对基础模型中相似的特征向量进行组成处理，得到新的特征向量，如p和q，如将基础模型的公式变换为y＝1/(1+exp(-(m(ax+by)+n(cz)...)))，通过这种组合处理，将训练目标变换为了：y＝1/(1+exp(-(m(p)+n(q)...)))，这里，p＝ax+by，q＝cz，所述a，b，c的取值为基础模型对应的值；此时，特征向量从x，y，z变成了组合后的p，q，特征向量的总量减少了，从而在较小的新数据集上更容易训练了。

当然，本实施例给出的合并方式仅是用于解释本发明实施例，在实际情况下可以采用其他合并方式，本实施例对此不作限制。

步骤3：在新场景(微信插件)的第一数据集合中，抽取出每条数据的x，y，z向量，当然，在实际应用中，抽取过程不一定命中，只要抽取的向量能命中基础模型中的部分特征向量即可，并基于在第一数据集合抽取的向量对应的特征值，确定出m、n，即确定出合并后的特征向量的权重，进而确定出针对所述第一数据集合的目标模型y＝1/(1+exp(-(m(p)+n(q)...)))，该目标模型则可以用于对微信插件的点击数据进行分析处理。

在实际应用中，本实施例所述的特征向量的压缩方式能够将特征总量压缩到非常小的范围内，尤其在使用0、1特征的逻辑回归模型场景中，可以将数十亿的特征压缩到几十到几百这种量级。

实施例三

本实施例提供了一种数据模型处理装置，如图4所示，所述装置包括：

信息提取单元41，用于确定待处理数据，从所述待处理数据中提取出至少一个第一特征信息；

模型确定单元42，用于基于所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，其中，所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；

模型处理单元43，用于对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息；基于所述待处理数据确定出所述至少一个目标特征信息的权重，根据确定出的权重以及所述至少一个目标特征信息得到第二模型。

在一实施例中，所述模型处理单元43，还用于：

在另一实施例中，所述模型处理单元43，还用于：

从所述至少两个第二特征信息中选取出具有关联关系的第二特征信息，将具有关联关系的第二特征信息进行组合，得到至少一个目标特征信息；或者，

在另一实施例中，所述模型确定单元42，还用于：确定所述待处理数据的目标应用场景；根据所述待处理数据的目标应用场景以及所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，以使选取出的第一模型所对应的应用场景与所述目标应用场景相关联，使所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；对应地，

在另一实施例中，所述模型处理单元43，还用于从所述待处理数据中提取出所述至少一个目标特征信息，并确定出每一所述目标特征信息在所述待处理数据中所对应的特征值；基于所有目标特征信息在所述待处理数据中的特征值，计算得到所述至少一个目标特征信息中每一所述目标特征信息的权重。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据模型处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对所述第一模型中至少两个第二特征信息进行组合处理，得到至少一个目标特征信息，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述基于所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，包括：

确定所述待处理数据的目标应用场景；

5.根据权利要求1所述的方法，其特征在于，所述基于所述待处理数据确定出所述至少一个目标特征信息的权重，包括：

6.一种数据模型处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述模型处理单元，还用于：

8.根据权利要求6或7所述的装置，其特征在于，所述模型处理单元，还用于：

9.根据权利要求6或7所述的装置，其特征在于，所述模型确定单元，还用于：确定所述待处理数据的目标应用场景；根据所述待处理数据的目标应用场景以及所述至少一个第一特征信息，选取出具有至少两个第二特征信息的第一模型，以使选取出的第一模型所对应的应用场景与所述目标应用场景相关联，使所述至少两个第二特征信息与所述至少一个第一特征信息至少部分相同；对应地，

10.根据权利要求6所述的装置，其特征在于，所述模型处理单元，还用于从所述待处理数据中提取出所述至少一个目标特征信息，并确定出每一所述目标特征信息在所述待处理数据中所对应的特征值；基于所有目标特征信息在所述待处理数据中的特征值，计算得到所述至少一个目标特征信息中每一所述目标特征信息的权重。