CN105184321B

CN105184321B - 一种针对于ftrl模型的数据处理方法及装置

Info

Publication number: CN105184321B
Application number: CN201510575231.XA
Authority: CN
Inventors: 马越
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2015-09-10
Filing date: 2015-09-10
Publication date: 2018-12-14
Anticipated expiration: 2035-09-10
Also published as: CN105184321A

Abstract

本发明实施例提供了一种针对于ftrl模型的数据处理方法及装置。该方法中，获得多个待训练的日志数据块；确定所述多个待训练的日志数据块所对应的训练机；将多个待训练的日志数据块分别发送至相应训练机，以使得各个训练机利用相应的日志数据块训练所述ftrl模型，并将训练结果作为目标文件发送至所述电子设备；在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件。通过本方案可以在保证准确率的前提下，提高数据处理速度。

Description

一种针对于ftrl模型的数据处理方法及装置

技术领域

本发明涉及技术领域，特别是涉及一种针对于ftrl模型的数据处理方法及装置。

背景技术

logistic回归模型是广泛用于预估的算法，例如，可以利用其预估每个用户对某个广告点击的概率，具体的，首先从用户日志数据中收集大量的相关的特征，如用户的国家、语言、年龄，广告的类别、显示尺寸，等等，从而用这些特征建立一个logistic回归模型，进而后续在使用时，可以通过这个模型给每一个关于用户和广告的组合计算一个分数，这个分数就是该用户在看到该广告时会点击的概率。

其中，ftrl模型是谷歌发明的logistic回归模型，具有高准确度和模型尺寸很小的优点，该算法实现细节在2013年以论文披露后迅速被多家公司使用。但是，谷歌所公布的ftrl(follow the regularized leader)模型是一个串行算法，即单机单线程方式运行程序，其中，关于某一特征的计算结果会作为下一次关于该特征的计算的输入，这样意味着在用户日志数据太多的时候，计算时间会很长，处理速度较慢。

为了解决谷歌发明的logistic模型的缺陷，现有技术中，通过异步的方法并行化ftrl模型，其中，并行化为多机或多线程方式运行程序，异步为并行化方式中的一种，具体为多线程或多机之间各自运行自己的任务，没有沟通。对于异步的方法并行化ftrl模型而言，由于并行化处理，使得数据处理速度成倍提到，但是，异步会带来另外一个问题：计算结果相互覆盖，使得关于每一特征的最终计算结果为最后一次计算所得结果，忽略了之前的计算结果，相对于串行方式准确率降低。

发明内容

本发明实施例的目的在于提供一种针对于ftrl模型的数据处理方法及装置，以在保证准确率的前提下，提高数据处理速度。具体技术方案如下：

第一方面，本发明实施例提供了一种针对于ftrl模型的数据处理方法，应用于电子设备，所述方法包括：

获得多个待训练的日志数据块，其中，每一日志数据块包括多条日志记录，且所述多个待训练的日志数据块中的日志记录各不相同；

确定所述多个待训练的日志数据块所对应的训练机，其中，所述训练机为用于利用日志数据块训练ftrl模型的设备，且训练机与日志数据块一一对应；

将所述多个待训练的日志数据块分别发送至相应训练机，以使得各个训练机利用相应的日志数据块训练所述ftrl模型，并将训练结果作为目标文件发送至所述电子设备，其中，每一目标文件中均存储有多个特征的特征描述信息，特征描述信息与特征一一对应；

在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件。

可选的，每一特征描述信息均包括相应特征的特征名和多维数值；

所述对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件，包括：

对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理，将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储在训练结果文件中；

将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件中。

可选的，多维数值所涉及的变量为：w、z和n，其中，w为数值概率，z和n均为训练过程确定w时所需推倒系数。

可选的，所述对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝n1+n2-ni；

其中，w1和w2为待归并的两个数值概率，n1和n2为待归并的两个推倒系数，z1和z2为待归并的两个推倒系数，ni是预设的初始值，α、β、λ₁和λ₂均为经验常数。

w＝(w1+w2)/2；

n＝(n1+n2)/2；

z＝(z1+z2)/2；

其中，w1和w2为待归并的两个数值概率，n1和n2为待归并的两个推倒系数，z1和z2为待归并的两个推倒系数。

可选的，所述确定所述多个待训练的日志数据块所对应的训练机，包括：

通过哈希映射算法，确定所述多个待训练的日志数据块所对应的训练机。

第二方面，本发明实施例提供了一种针对于ftrl模型的数据处理装置，应用于电子设备，所述装置包括：

日志数据块获得模块，用于获得多个待训练的日志数据块，其中，每一日志数据块包括多条日志记录，且所述多个待训练的日志数据块中的日志记录各不相同；

训练机确定模块，用于确定所述多个待训练的日志数据块所对应的训练机，其中，所述训练机为用于利用日志数据块训练ftrl模型的设备，且训练机与日志数据块一一对应；

日志数据块发送模块，用于将所述多个待训练的日志数据块分别发送至相应训练机，以使得各个训练机利用相应的日志数据块训练所述ftrl模型，并将训练结果作为目标文件发送至所述电子设备，其中，每一目标文件中均存储有多个特征的特征描述信息，特征描述信息与特征一一对应；

训练结果文件确定模块，用于在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件。

所述训练结果文件确定模块，包括：

第一结果确定单元，用于在获得各个训练机发送的目标文件后，对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理，将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储所述训练结果文件中；

第二结果确定单元，用于将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件中。

可选的，所述训练结果文件确定模块对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝n1+n2-ni；

w＝(w1+w2)/2；

n＝(n1+n2)/2；

z＝(z1+z2)/2；

可选的，所述训练机确定模块，包括：

训练机确定单元，用于通过哈希映射算法，确定所述多个待训练的日志数据块所对应的训练机。

与现有技术相比，本方案通过多个训练机各自独立利用日志数据块对ftrl模型进行训练，实现了并行化，并且，训练机将训练结果作为目标文件发送至电子设备，而电子设备对多个目标文件所存储特征的特征描述信息进行归并处理，通过结合目标文件中各个特征的特征描述信息来得到最终的训练结果文件，实现了同步。这种同步的方法并行化ftrl模型，使得计算结果不会相互覆盖，且处理速度得到提高，因此，实现了在保证准确率的前提下，提高数据处理速度的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种针对于ftrl模型的数据处理方法的流程图；

图2为本发明实施例所提供的一种针对于ftrl模型的数据处理方法的另一流程图；

图3为本发明实施例所提供的一种针对于ftrl模型的数据处理方法的另一流程图；

图4为本发明实施例所提供的一种针对于ftrl模型的数据处理装置的结构示意图；

图5为本发明实施例所提供的一种针对于ftrl模型的数据处理装置中的训练结果文件确定模块的具体结构示意图；

图6为本发明实施例所提供的一种针对于ftrl模型的数据处理装置中的训练机确定模块的具体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了在保证准确率的前提下，提高数据处理速度，本发明实施例提供了一种针对于ftrl模型的数据处理方法及装置。

下面首先对本发明实施例所提供的一种针对于ftrl模型的数据处理方法进行介绍。

需要说明的是，本发明实施例所提供的一种针对于ftrl模型的数据处理方法应用于电子设备，并且，在实际应用中，该电子设备可以为终端设备、服务器等等，具体的，该终端设备可以为笔记本电脑、台式电脑、平板电脑等等。

如图1所示，本发明实施例所提供的一种针对于ftrl模型的数据处理方法，可以包括如下步骤：

S101，获得多个待训练的日志数据块；

本实施例中，为了同步的方法并行化ftrl模型，可以获得多个待训练的日志数据块；其中，每一日志数据块包括多条日志记录，且多个待训练的日志数据块中的日志记录各不相同。另外，需要说明的是，任意两个日志数据块中的日志记录的数量可以相同或不同，但是，各个日志数据块所涉及的用户操作的具体类型均相同，例如：各个日志数据块均为用户访问网页所形成的日志数据，或者，各个日志数据块均为用户浏览视频网站所形成的日志数据，等等；并且，对于一日志数据块而言，其所包括的日志记录各不相同，但是，其所包括的日志记录中的多条日志记录所涉及的训练ftrl模型利用的特征可能相同或不同。

其中，为了方案清楚，下面对训练ftrl模型所需的特征进行举例介绍，例如，对于各个日志数据块均为用户访问网页所形成的日志数据而言，训练ftrl模型利用的特征可以包括用户的国籍、年龄、性别、语言等用户身份属性；或者，特征也可以包括：广告的时长、类型等等广告属性；或者，特征还可以包括：当前访问环境如网速等环境属性；并且，需要强调的是，对于任意一个特征而言，其可以仅仅包括一个属性，例如，用户身份属性这类属性中的一个属性、广告属性这类属性中的一个属性、环境属性这类属性中的一个属性，等等；其也可以包括一类属性的多个属性，例如：用户身份属性这类属性中的多个属性、广告属性这类属性中的多个属性或环境属性这类属性中的多个属性；其还可以多类属性中的多个属性，例如：用户身份属性、广告属性和环境属性中至少两类属性中的多个属性。

可以理解的是，对多个日志数据块的获得方式包括但不局限于：对某一时间段所形成的用户日志数据进行切割处理所得，或者，直接将多个时间段所形成的用户日志数据作为相应时间段所对应的日志数据块。其中，在多个日志数据块的获得方式为对某一时间段所形成的用户日志数据进行切割处理所得的情况下，每一日志数据块中所包括的日志记录的数量少于用户日志数据所包括的日志记录的数量；而在多个日志数据块的获得方式为直接将多个时间段所形成的用户日志数据作为相应时间段所对应的日志数据块的情况下，多个时间段可以为连续时间段或者非连续时间段，这都是合理的，其中，所谓连续时间段可以例如：时间段1为2015年08月31日、时间段2为2015年8月30日、时间段3为2015年8月29日、时间段4为2015年8月28日，而所谓的非连续时间可以例如：时间段1为2015年08月31日、时间段2为2015年8月28日、时间段3为2015年8月25日、时间段4为2015年8月20日。

需要强调的是，日志数据块所涉及的用户操作的具体类型可以根据实际应用场景确定，例如：对于训练关于预估广告点击率的ftrl模型而言，该日志数据块可以为用户访问网页的日志数据，等等。

S102，确定多个待训练的日志数据块所对应的训练机；

在获得多个待训练的日志数据块后，为了后续实现并行化，可以确定多个待训练的日志数据块所对应的训练机，以通过训练机单独利用某一数据块训练ftrl模型，其中，该训练机为用于利用日志数据块训练ftrl模型的设备，且训练机与日志数据块一一对应，也就是，每一日志数据块对应唯一一个训练机。并且，在实际应用中，该训练机可以为终端设备或服务器，这都是合理的。

S103，将多个待训练的日志数据块分别发送至相应训练机，以使得各个训练机利用相应的日志数据块训练该ftrl模型，并将训练结果作为目标文件发送至该电子设备；

在确定多个待训练的日志数据块所对应的训练机后，可以将多个待训练的日志数据块分别发送至相应训练机，而各个训练机在获得相应日志数据块后，可以利用相应的日志数据块训练该ftrl模型，并将各自得到的训练结果作为目标文件发送至该电子设备，其中，每一目标文件中均存储有多个特征的特征描述信息，特征描述信息与特征一一对应。

并且，需要强调的是，每一训练机利用相应的日志数据块训练该ftrl模型时，可以通过现有的串行化方式，当然，并不局限于此；并且，对于一个目标文件而言，其所存储有互不相同的特征的特征描述信息，但是，对于多个目标文件而言，其可能存储有相同特征的特征描述信息，即一个特征可能在至少一个目标文件中出现。

其中，各个训练机利用相应的日志数据块训练该ftrl模型的具体实现可以采用现有技术，在此不作详述。

S104，在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件。

在获得各个训练机发送的目标文件后，可以对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件，以通过结合目标文件中各个特征的特征描述信息来得到最终的训练结果文件，实现了同步。

具体的，每一特征描述信息均包括相应特征的特征名和多维数值，在一种具体实现方式中，参见图2，与前述的S101-S104所构成的实施例相比，在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件(S104)，可以包括：

S1041，在获得各个训练机发送的目标文件后，对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理，将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储该训练结果文件中；

S1042，将仅仅存在于一个目标文件中的特征的特征描述信息存储在该训练结果文件中。

其中，通过S1041和S1042的处理，使得该训练结果文件中存储有多个特征的特征描述信息，所存储的多个特征的特征描述信息中的特征名互不相同且涵盖有所有目标文件所存储的所有特征，从而实现了同步化。举例而言：对于特征a而言，如果出现在目标文件A、目标文件B和目标文件C中，即三个目标文件中均存在关于特征a的特征名的特征描述信息，则需要对三个目标文件中特征a的特征描述信息中的多维数值进行两两归并处理，将最终归并所得值作为训练结果文件中特征a所对应特征描述信息中的多维数值；而对于特征b，如果仅仅出现在目标文件A中，即只有目标文件A中存在关于特征b的特征名的特征描述信息,则训练结果文件中该特征b所对应特征描述信息中的多维数值为其在目标文件A中的多维数值。

对于训练ftrl模型所涉及的特征的特征名，举例而言：对于特征包括用户的国籍、年龄、性别、语言等用户身份属性而言，特征的特征名可以为用户身份属性所对应的属性值；对于特征包括广告的时长、类型等等广告属性而言，特征的特征名可以为广告属性所对应的属性值；对于特征包括当前访问环境如网速等环境属性而言，特征的特征名可以为环境属性所对应的属性值可以作为特征名。而对于ftrl模型而言，多维数值所涉及的变量为：w、z和n，其中，w为数值概率，z和n均为训练过程确定w时所需推倒系数。

其中，对于多维数值所涉及的变量为：w、z和n而言，下面结合例子说明如何将特征描述信息中的特征名相同的特征的多维数值进行两两归并处理，举例而言，假设存在目标文件A、B、C和D四个目标文件，目标文件A、目标文件B和目标文件C中均存在特征a的特征描述信息，依次为(a,(w1、n1、z1))、(a,(w2、n2、z2))、(a,(w3、n3、z3))，可以对目标文件A、目标文件B和目标文件C中的特征a的多维数值进行两两归并处理，具体可以为：将w1和w2归并，并将归并所得值再与w3归并，得到最终的特征a关于变量w的值；将z1和z2归并，并将归并所得值再与z3归并，得到最终的特征a关于变量z的值；将n1和n2归并，并将归并所得值再与n3归并，得到最终的特征a关于变量n的值。

具体的，对于ftrl模型而言，在第一种实现方式中，所述对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝n1+n2-ni；

可以理解的是，ni的具体取值可以根据实际情况进行设定。另外，对于α、β、λ₁和λ₂举例而言，α可以取值1，β可以取值0.25，λ₁可以取值0-1范围内的数值，λ₂可以取值1。

具体的，对于ftrl模型而言，在第二种实现方式中，所述对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝(n1+n2)/2；

z＝(z1+z2)/2；

上述所给出的对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式仅仅作为示例，并不应该构成对本发明实施例的限定。

具体的，在一种具体实现方式中，参见图3，与前述的S101-S104所构成的实施例相比，所述确定所述多个待训练的日志数据块所对应的训练机(S102)，可以包括：

S1021，通过哈希映射算法，确定所述多个待训练的日志数据块所对应的训练机。

其中，通过哈希映射算法确定多个待训练的日志数据块所对应的训练机具体实现过程可以采用现有技术，在此不做赘述。需要强调的是，上述的确定多个待训练的日志数据块所对应的训练机的具体实现方式仅仅作为示例，并不应该构成对本发明实施例的限定。例如：还可以通过随机方式来确定多个待训练的日志数据块所对应的训练机，等等。

相应于上述方法实施例，本发明实施例还提供了一种针对于ftrl模型的数据处理装置，应用于电子设备，如图4所示，所述装置可以包括：

日志数据块获得模块410，用于获得多个待训练的日志数据块，其中，每一日志数据块包括多条日志记录，且所述多个待训练的日志数据块中的日志记录各不相同；

训练机确定模块420，用于确定所述多个待训练的日志数据块所对应的训练机，其中，所述训练机为用于利用日志数据块训练ftrl模型的设备，且训练机与日志数据块一一对应；

日志数据块发送模块430，用于将所述多个待训练的日志数据块分别发送至相应训练机，以使得各个训练机利用相应的日志数据块训练所述ftrl模型，并将训练结果作为目标文件发送至所述电子设备，其中，每一目标文件中均存储有多个特征的特征描述信息，特征描述信息与特征一一对应；

训练结果文件确定模块440，用于在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件。

具体的，每一特征描述信息均包括相应特征的特征名和多维数值；

如图5所示，所述训练结果文件确定模块440，可以包括：

第一结果确定单元441，用于在获得各个训练机发送的目标文件后，对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理，将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储所述训练结果文件中；

第二结果确定单元442，用于将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件中。

具体的，多维数值所涉及的变量为：w、z和n，其中，w为数值概率，z和n均为训练过程确定w时所需推倒系数。

具体的，在一种实现方式中，所述训练结果文件确定模块250对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝n1+n2-ni；

具体的，在另一种实现方式中，所述训练结果文件确定模块250对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝(n1+n2)/2；

z＝(z1+z2)/2；

具体的，如图6所示，所述训练机确定模块420，可以包括：

训练机确定单元421，用于通过哈希映射算法，确定所述多个待训练的日志数据块所对应的训练机。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种针对于ftrl模型的数据处理方法，其特征在于，应用于电子设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，每一特征描述信息均包括相应特征的特征名和多维数值；

3.根据权利要求2所述的方法，其特征在于，多维数值所涉及的变量为：w、z和n，其中，w为数值概率，z和n均为训练过程确定w时所需推倒系数。

4.根据权利要求3所述的方法，其特征在于，所述对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝n1+n2-ni；

5.根据权利要求3所述的方法，其特征在于，所述对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝(n1+n2)/2；

z＝(z1+z2)/2；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述确定所述多个待训练的日志数据块所对应的训练机，包括：

7.一种针对于ftrl模型的数据处理装置，其特征在于，应用于电子设备，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，每一特征描述信息均包括相应特征的特征名和多维数值；

所述训练结果文件确定模块，包括：

9.根据权利要求8所述的装置，其特征在于，多维数值所涉及的变量为：w、z和n，其中，w为数值概率，z和n均为训练过程确定w时所需推倒系数。

10.根据权利要求9所述的装置，其特征在于，所述训练结果文件确定模块对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝n1+n2-ni；

11.根据权利要求9所述的装置，其特征在于，所述训练结果文件确定模块对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：

w＝(w1+w2)/2；

n＝(n1+n2)/2；

z＝(z1+z2)/2；

12.根据权利要求7-11任一项所述的装置，其特征在于，所述训练机确定模块，包括：