CN105224623A

CN105224623A - 数据模型的训练方法及装置

Info

Publication number: CN105224623A
Application number: CN201510608997.3A
Authority: CN
Inventors: 秦铎浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-22
Filing date: 2015-09-22
Publication date: 2016-01-06
Anticipated expiration: 2035-09-22
Also published as: CN105224623B

Abstract

本申请实施例公开了数据模型的训练方法及装置。本申请一个实施方式中的数据模型的训练方法包括：获取原始样本数据，原始样本数据中包括用户标识信息；基于用户标识信息，获取用户的网络操作数据；根据网络操作数据，确定用户的个性化信息；将原始样本数据和个性化信息作为样本数据进行训练，得到数据模型。按照本申请实施方式的技术方案，能够扩展训练样本的丰富性，从而训练出高准确度的数据模型。

Description

数据模型的训练方法及装置

技术领域

本申请涉及计算机技术领域，具体涉及数据处理技术领域，尤其涉及数据模型的训练方法及装置。

背景技术

随着互联网技术的不断发展，网络已经逐渐成为人们进行信息交互，以及获取商品和服务的主要平台。在现有技术中，可以通过机器学习和训练的方式，获取与用户喜好或行为相关的数据模型，并根据该模型的输出结果，为用户提供恰当的信息、商品或服务。例如，现有技术中的日志服务器可以记录用户浏览网页时的地址，地域信息，浏览的信息标识(如，广告标识)等，然后用通过这些数据训练的模型去预估用户对不同信息的点击率，以便为用户提供更能引起其兴趣的信息。

这种方法虽然能够在一定程度上对用户的行为或喜好进行预测，但是其训练模型时使用的数据通常只是某一个服务器上所记录的访问日志，数据类型较为单一，能够提取的特征数量也比较有限。因此模型的输出结果准确率较低，难以为用户提供精准的资源或数据。

发明内容

鉴于现有技术中的上述缺陷或不足，期望能够提供一种获取输出结果准确的模型的方案。为了实现上述一个或多个目的，本申请提供了数据模型的训练方法及装置。

第一方面，本申请提供了一种数据模型的训练方法，该方法包括：获取原始样本数据，所述原始样本数据中包括用户标识信息；基于所述用户标识信息，获取用户的网络操作数据；根据所述网络操作数据，确定用户的个性化信息；将所述原始样本数据和所述个性化信息作为样本数据进行训练，得到数据模型。

第二方面，本申请提供了一种数据模型的训练装置，该装置包括：第一获取模块，用于获取原始样本数据，所述原始样本数据中包括用户标识信息；第二获取模块，用于基于所述用户标识信息，获取用户的网络操作数据；确定模块，用于根据所述网络操作数据，确定用户的个性化信息；训练模块，用于将所述原始样本数据和所述个性化信息作为样本数据进行训练，得到数据模型。

本申请提供的数据模型的训练方法及装置，能够首先通过原始样本中的用户标识，获取用户的网络操作数据，然后基于网络操作数据确定每个用户的个性化信息，最后将个性化信息也作为样本数据的一部分进行模型训练。由于将原始样本数据与用户的个性化信息相结合，不但扩展了样本的丰富性，而且训练出的模型更加符合用户特点，模型所输出的结果也更加准确。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了可以应用本申请实施例的示例性系统架构；

图2示出了根据本申请一个实施例的数据模型的训练方法的示例性流程图；

图3示出了根据本申请一个实施例的获取用户的网络操作数据的方法的示例性流程图；

图4示出了根据本申请另一个实施例的获取用户的网络操作数据的方法的示例性流程图；

图5示出了根据本申请一个实施例的数据模型的训练装置的结构示意图；

图6示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102通过网络103与服务器104交互，以接收或发送消息等。终端设备101、102上可以安装有各种客户端应用，例如网页浏览器、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102可以是各种电子设备，包括但不限于个人电脑、智能手机、智能手表、平板电脑、个人数字助理等等。

服务器104可以是提供各种服务的服务器。服务器可以对接收到的数据进行存储、分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本申请实施例所提供的数据模型的训练方法可以由终端设备101、102执行，也可以由服务器104执行，数据模型的训练装置可以设置于终端设备101、102中，也可以设置于服务器104中。在一些实施例中，模型可以在服务器104中进行训练，训练后的模型可以存储在终端设备101、102中，也可以存储在服务器104中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

如图2所示，在步骤201中，获取原始样本数据，原始样本数据中包括用户标识信息。

在本实施例中，可以首先从日志服务器中获取原始样本数据。日志是设备对于每天发生的事件的文件记录。服务器、网络设备、安全设备每天都会产生大量的日志，这些日志记录了设备的运行情况、用户对设备的访问操作和通过设备流转的数据的简要信息。日志服务器可以用于记录并保存这些日志。在获取原始样本数据时，可以从日志服务器所保存的日志文件中，获取用户在某一个设备或网络平台上所留下的操作数据，并将这些数据作为原始样本数据。例如，在预测点击率时，日志服务器可能会记录用户浏览网页时的IP地址(InternetProtocolAddress，互联网协议地址)，地域信息，网络信息的标识，设备的类型等。在训练点击率的模型时，这些数据就可以作为原始样本数据。

在原始样本数据中，还可以包括用户标识信息。用户标识信息可以用来代表不同的用户。在本实施例的一个可选实现方式中，用户标识信息可以包括：用户在网络平台上注册的账户信息；和/或用户访问网络时的网络地址和第一用户标识。其中，用户在网络平台上注册的账户信息可以是指用户在网络社交平台、网络交易平台、网络服务平台或网络游戏平台等网络平台中，自主注册的账户信息。这一类账户信息通常可以通过注册的用户名来标识不同的用户。用户访问网络时的网络地址，可以是用户访问网络时的IP地址。而第一用户标识可以用于标识用户访问网络时所使用的设备或浏览器。

在本实施例的一个可选实现方式中，第一用户标识可以包括：用户访问网络时所使用的移动设备的设备标识；或用户通过浏览器访问网络时，浏览器中保存的身份标识，其中，身份标识是基于浏览器首次访问预定页面时的网络地址和访问时间确定的。在一种可能的实现中，当用户使用移动设备访问网络，例如通过移动端的社交应用访问网络时，可以将该移动设备的设备标识作为第一用户标识。可选地，移动设备的设备标识可以是该设备的唯一识别号码，即IMEI(InternationalMobileEquipmentIdentity，移动设备国际身份码)。在另一种可能的实现中，当用户通过网页浏览器访问网络时，可以将当前浏览器中所保存的身份标识作为第一用户标识。身份标识是基于浏览器首次访问预定页面时的网络地址和访问时间确定的。当某个网页浏览器访问上述预定页面时，运行该网页的服务器可以检测浏览器中是否保存有身份标识。若有，则可以将该身份标识记录下来。若没有，则可以根据浏览器本次访问该预定页面时的网络地址和访问时间，生成一个识别码作为身份标识，并将其保存在该浏览器中。例如，可以保存在浏览器的cookies(小型文本文件)中。需要说明的是，预定页面的选择，可以由提供网页服务或对数据模型的训练服务的服务商自行确定。

接着，在步骤202中，基于用户标识信息，获取用户的网络操作数据。

当在上述步骤201中得到用户标识信息后，可以进一步获取与该用户标识信息对应的网络操作数据，作为用户的网络操作数据。具体地，由于用户标识信息可以用于代表一个特定的用户。因此，在获取某个特定用户的网络操作数据时，可以将那些与该用户的用户标识信息绑定的网络操作数据都作为用户的网络操作数据。例如，用户标识信息通常是从一个终端或平台中得到的，如果其他终端或平台上也存在该用户标识信息，那在这些地方获取的网络操作数据也是该用户的网络操作数据。

在本实施例的一个可选实现方式中，网络操作数据包括以下至少一项：网页浏览的历史记录；应用的操作记录；以及网络搜索记录。在本实施例中，网页浏览的历史记录可以用于记录用户通过网页浏览器打开过的网页地址及浏览时间等信息。应用的操作记录可以用于记录用户对某个应用进行的打开、登陆、退出、关闭等操作动作、操作时间以及应用的属性等信息。网络搜索记录可以用于保存用户搜索过的关键字、点击的搜索结果和搜索时间等信息。

接着，在步骤203中，根据网络操作数据，确定用户的个性化信息。

当在上述步骤202中得到用户的网络操作数据后，可以基于这些网络操作数据来确定用户的个性化信息，也就进行“用户画像”。所谓“用户画像”，即用户信息标签化，就是通过收集用户的网络操作数据，来分析用户的年龄性别、社会属性、生活习惯、消费行为等个性化信息。例如，若某个用户的网络搜索记录中出现过化妆品或者裙子等关键字，则该用户很可能为女性。若某个用户的网页浏览的历史记录中存在大量的关于旅游信息的网页，则该用户的兴趣爱好很可能是旅游。

最后，在步骤204中，将原始样本数据和个性化信息作为样本数据进行模型训练，得到数据模型。

当在上述步骤203中确定出用户的个性化信息后，可以将每个用户的个性化信息与在步骤201中得到的原始样本数据进行合并，然后将合并后的数据作为训练样本进行训练，以得到最终的数据模型。可选地，本实施例中所训练时可以对已有的通用模型进行训练。例如，对于针对网页消息的点击率预测来说，可以获取某大型网页消息提供者自身的历史消息点击数据，通过均匀采样不同行业的广告点击数据，训练出来有针对性的通用点击率预测模型。然后将原始样本数据和个性化信息作为训练样本，对这个通用模型进行训练，以得到更优的预测模型。

在本实施例的一个可选实现方式中，在进行模型训练时，可以基于个性化信息，对已有训练模型的特征数量和权重系数进行修正；将原始样本数据和个性化信息作为样本数据，对修正后的模型进行训练，得到数据模型。在本实施例中，当使用原始样本数据和个性化信息共同作为训练样本，对已有模型进行训练时，需要首先对已有模型进行修正。已有模型中的特征数量是与原始训练样本相对应的，而加入个性化信息后需要在已有模型中引入新的特征量。因此，可以首先对已有训练模型的特征数量和权重系数进行修正，也就是将个性化信息所对应的特征加入已用模型，然后重新确定之前的特征和新加入的特征的权重系数。然后将原始样本数据和个性化信息作为训练样本，代入修正后的模型，以进行模型训练。通过对已有模型先修正再训练，避免了直接训练新模型，在减少模型偏差的同时降低了训练成本。

可选地，本实施例中的数据模型可以包括点击率预估模型或信息推荐模型。其中，点击率预估模型可以用于预估用户对推送的信息的点击率，而信息推荐模型可以用于确定向用户推荐哪些信息。需要说明的是，本实施例中所涉及的数据模型并不限定于点击率预估模型或信息推荐模型，只要是那些需要使用与用户有关的信息进行训练，并能输出和用户相关的结果的模型，都可以作为本实施例中的数据模型。

在本实施例的一个可选实现方式中，还可以基于数据模型的输出结果，向用户推送信息。由于本实施例中的数据模型可以是和用户的行为或喜好等信息相关的模型，因此模型的输出结果也可以作为向用户推送信息的依据。例如，通过数据模型预测出用户的点击率后，可以将那些点击率高的信息推送给用户，提高了信息推送的准确性。

本申请上述实施例提供的数据模型的训练方法，能够首先通过原始样本中的用户标识，获取用户的网络操作数据，然后基于网络操作数据确定每个用户的个性化信息，最后将个性化信息也作为样本数据的一部分进行模型训练。由于将原始样本数据与用户的个性化信息相结合，不但扩展了样本的丰富性，而且训练出的模型更加符合用户特点，模型所输出的结果也更加准确。

进一步参考图3，其示出了根据本申请一个实施例的获取用户的网络操作数据的方法的示例性流程图，也即示出了上述步骤202的一种实现方式的流程图。

如图3所示，在步骤301中，将登陆有与账户信息对应的账户的所有终端，均确定为用户的个人终端。

在本实施例中，用户标识信息可以包括用户在网络平台上注册的账户信息。当获取用户的网络操作数据时，可以将该账户信息作为识别该用户的标识。一旦该账户信息所对应的账户在任意终端上登陆，无论该终端是移动终端还是非移动终端，均可以认为这些终端是相应用户的个人终端。也就是说，可以认为对这些终端进行操作的个人都是该用户。

之后，在步骤302中，获取个人终端上的所有网络操作数据，作为用户的网络操作数据。

在本实施例中，当确定出用户的所有个人终端后，可以进一步获取每个个人终端上的所有网络操作数据。由于在上述步骤301中已经确定对这些终端进行操作的个人都是同一用户，因此，所得到的所有网络操作数据都可以作为该用户的网络操作数据。例如，移动终端上的所用在线应用的操作数据，均可以作为使用该终端的用户的网络操作数据。

本实施例通过用户在网络平台上注册的账户信息，来确定用户使用的终端，并进一步从这些终端上获取用户的网络操作数据。可以将用户数据的来源从一个平台扩展到多个终端或平台，极大地扩展了网络操作数据的丰富性。从而使得后续确定的个性化信息，对用户的刻画更加准确和全面，进一步优化了数据模型的准确度。

进一步参考图4，其示出了根据本申请另一个实施例的获取用户的网络操作数据的方法的示例性流程图，也即示出了上述步骤202的另一种实现方式的流程图。

如图4所示，在步骤401中，确定通过网络地址访问过网络的至少一个第二用户标识。

在本实施例中，用户标识信息可以包括用户访问网络时的网络地址和第一用户标识。当获取用户的网络操作数据时，可以首先确定通过该网络地址访问过网络的至少一个第二用户标识。其中，第二用户标识所包括的信息与第一用户标识相类似，也可以包括用户访问网络时所使用的移动设备的设备标识；或用户通过浏览器访问网络时，在该浏览器中保存的身份标识。第二用户标识可以用来标识与第一用户标识所对应的移动设备或浏览器不同的其他移动设备或浏览器。具体地，在获取第二用户标识时，可以检测在预定时间段内(例如之前三天)，通过上述网络地址连接网络的所有移动设备的设备标识和所有浏览器中的身份标识，然后将这些标识均作为第二用户标识。这样，就可以得到一个或多个第二用户标识。

继而，在步骤402中，将第一用户标识对应的网络操作数据与每个第二用户标识对应的网络操作数据进行匹配。

当在上述步骤401中得到第二用户标识后，可以将第一用户标识对应的网络操作数据与每个第二用户标识对应的网络操作数据分别进行匹配。具体地，可以首先获得第一用户标识和第二用户标识分别对应的网络操作数据。也就是说，可以获得设备标识所指定的移动设备上的所有网络操作数据，以及获取保存有身份标识的浏览器所进行的所有网络操作数据。可选地，当用户通过移动设备上的浏览器进行网络访问时，可以将该浏览器产生的网络操作数据与该移动设备上的其他网络操作数据(例如，对APP的操作数据)，作为与同一个用户标识对应测网络操作数据。然后，可以进一步将各个用户标识对应的网络操作数据转化为一个和时间相关的操作序列。接着，可以通过计算第一用户标识和第二用户标识的操作序列之间的相似度(比如余弦距离)来确定二者之间的匹配程度。

接着，在步骤403中，基于匹配结果，从至少一个第二用户标识中确定出与第一用户标识属于同一用户的第二用户标识。

在本实施例中，可以根据在步骤402中进行匹配的匹配结果，从一个或多个第二用户标识中确定出与第一用户标识属于同一用户的第二用户标识。具体地，可以预先设定一个匹配度阈值，例如80％。如果第一用户标识对应的操作序列与某一个第二用户标识对应的操作序列之间的匹配度大于预设阈值，同时二者又通过同一网络地址访问网络，则可以认为二者很可能属于同一个用户。

最后，在步骤404中，将第一用户标识对应的网络操作数据，以及与第一用户标识属于同一用户的第二用户标识对应的网络操作数据，共同作为用户的网络操作数据。

在本实施例中，当在确定出与第一用户标识属于同一用户的第二用户标识后，则可以将二者所对应的网络操作数据都作为用户的网络操作数据。

下面通过具体的例子对本实施例的提供的方法做进一步说明。如果在进行数据模型训练时，获得的初始训练样本中包括有用户通过手机访问网络时的IP地址和该手机的IMEI时，可以首先确定也曾通过IP地址访问过网络的其他移动设备或浏览器。不同的移动设备可以用设备标识进行区分，而不同的浏览器可用其中保存的身份标识来区分。然后将不同移动设备和不同浏览器上的用户操作序列与手机上的操作序列相匹配。如果某个移动设备上与上述手机的匹配程度很相近，则可以认为该移动设备与手机属于同一用户，这两个设备上的所用网络操作数据都可以看作是用户的网络操作数据。

可选地，本实施例中的网络地址可以隶属于家庭网络。由于家庭网络中的移动设备或浏览器数量较少，并且不同的设备或浏览器更有可能属于同一个用户。因此可以降低匹配时的数据计算量，同时提高了匹配精度。

本实施例可以首先通过网络地址确定与用户处于同一网络内的其他设备或浏览器，然后通过对操作序列的匹配确定出同属于该用户的设备或浏览器，并从这些设备或浏览器中获取用户的网络操作数据。可以将用户数据的来源从一个终端扩展到多个终端或平台，极大地扩展了网络操作数据的丰富性。从而使得后续确定的个性化信息，对用户的刻画更加准确和全面，进一步优化了数据模型的准确度。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

请参考图5，其示出了根据本申请一个实施例的数据模型的训练装置的结构示意图。

如图5所示，数据模型的训练装置500可以包括：第一获取模块510、第二获取模块520、确定模块530以及训练模块540。

第一获取模块510，用于获取原始样本数据，原始样本数据中包括用户标识信息。

第二获取模块520，用于基于用户标识信息，获取用户的网络操作数据。

确定模块530，用于根据网络操作数据，确定用户的个性化信息。

训练模块540，将原始样本数据和个性化信息作为样本数据进行训练，得到数据模型。

在本实施例的一个可选实现方式中，用户标识信息包括：

用户在网络平台上注册的账户信息；和/或

用户访问网络时的网络地址和第一用户标识。

在本实施例的一个可选实现方式中，第一用户标识包括：

用户访问网络时所使用的移动设备的设备标识；或

用户通过浏览器访问网络时，所述浏览器中保存的身份标识，其中，所述身份标识是基于所述浏览器首次访问预定页面时的网络地址和访问时间确定的。

在本实施例的一个可选实现方式中，若用户标识信息包括用户在网络平台上注册的账户信息，则第二获取模块520包括：

确定单元，用于将登陆有与所述账户信息对应的账户的所有终端，均确定为所述用户的个人终端。

获取单元，用于获取所述个人终端上的所有网络操作数据，作为所述用户的网络操作数据。

在本实施例的一个可选实现方式中，若用户标识信息包括用户访问网络时的网络地址和第一用户标识时，则第二获取模块520包括：

标识确定单元，确定通过所述网络地址访问过网络的至少一个第二用户标识。

匹配单元，用于将所述第一用户标识对应的网络操作数据与每个所述第二用户标识对应的网络操作数据分别进行匹配。

识别单元，用于基于匹配结果，从所述至少一个第二用户标识中确定出与所述第一用户标识属于同一用户的第二用户标识。

数据确定单元，用于将所述第一用户标识对应的网络操作数据，以及与所述第一用户标识属于同一用户的第二用户标识对应的网络操作数据，共同作为所述用户的网络操作数据。

在本实施例的一个可选实现方式中，训练模块540包括：

修正单元，用于基于个性化信息，对已有训练模型的特征数量和权重系数进行修正。

训练单元，用于将原始样本数据和个性化信息作为样本数据，对修正后的模型进行训练，得到数据模型。

在本实施例的一个可选实现方式中，网络操作数据包括以下至少一项：网页浏览的历史记录；应用的操作记录；以及网络搜索记录。

在本实施例的一个可选实现方式中，数据模型包括点击率预估模型或信息推荐模型。

在本实施例的一个可选实现方式中，数据模型的训练装置500还包括：

推送模块，用于基于数据模型的输出结果，向用户推送信息。

应当理解，数据模型的训练装置500中记载的诸模块或单元与参考图2描述的方法中的各个步骤相对应。上文针对数据模型的训练方法描述的操作和特征同样适用于装置500及其中包含的模块或单元。

本申请上述实施例提供的数据模型训练装置，能够首先通过原始样本中的用户标识，获取用户的网络操作数据，然后基于网络操作数据确定每个用户的个性化信息，最后将个性化信息也作为样本数据的一部分进行模型训练。由于将原始样本数据与用户的个性化信息相结合，不但扩展了样本的丰富性，而且训练出的模型更加符合用户特点，模型所输出的结果也更加准确。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取模块、第二获取模块、确定模块和训练模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一获取模块还可以被描述为“用于获取原始样本数据的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的数据模型的训练方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据模型的训练方法，其特征在于，所述方法包括：

获取原始样本数据，所述原始样本数据中包括用户标识信息；

基于所述用户标识信息，获取用户的网络操作数据；

根据所述网络操作数据，确定用户的个性化信息；

将所述原始样本数据和所述个性化信息作为样本数据进行训练，得到数据模型。

2.根据权利要求1所述的方法，其特征在于，所述用户标识信息包括：

用户在网络平台上注册的账户信息；和/或

用户访问网络时的网络地址和第一用户标识。

3.根据权利要求2所述的方法，其特征在于，所述第一用户标识包括：

用户访问网络时所使用的移动设备的设备标识；或

4.根据权利要求2所述的方法，其特征在于，若所述用户标识信息包括用户在网络平台上注册的账户信息，则所述基于所述用户标识信息，获取用户的网络操作数据包括：

将登陆有与所述账户信息对应的账户的所有终端，均确定为所述用户的个人终端；

获取所述个人终端上的所有网络操作数据，作为所述用户的网络操作数据。

5.根据权利要求2所述的方法，其特征在于，若所述用户标识信息包括用户访问网络时的网络地址和第一用户标识时，则所述基于所述用户标识信息，获取用户的网络操作数据包括：

确定通过所述网络地址访问过网络的至少一个第二用户标识；

将所述第一用户标识对应的网络操作数据与每个所述第二用户标识对应的网络操作数据分别进行匹配；

基于匹配结果，从所述至少一个第二用户标识中确定出与所述第一用户标识属于同一用户的第二用户标识；

将所述第一用户标识对应的网络操作数据，以及与所述第一用户标识属于同一用户的第二用户标识对应的网络操作数据，共同作为所述用户的网络操作数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述原始样本数据和所述个性化信息作为样本数据进行训练，得到数据模型包括：

基于所述个性化信息，对已有数据模型的特征数量和权重系数进行修正；

将所述原始样本数据和所述个性化信息作为样本数据，对修正后的模型进行训练，得到数据模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述网络操作数据包括以下至少一项：

网页浏览的历史记录；

应用的操作记录；以及

网络搜索记录。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述数据模型包括点击率预估模型或信息推荐模型。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

基于所述数据模型的输出结果，向用户推送信息。

10.一种数据模型的训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取原始样本数据，所述原始样本数据中包括用户标识信息；

第二获取模块，用于基于所述用户标识信息，获取用户的网络操作数据；

确定模块，用于根据所述网络操作数据，确定用户的个性化信息；

训练模块，将所述原始样本数据和所述个性化信息作为样本数据进行训练，得到数据模型。

11.根据权利要求10所述的装置，其特征在于，所述用户标识信息包括：

用户在网络平台上注册的账户信息；和/或

用户访问网络时的网络地址和第一用户标识。

12.根据权利要求11所述的装置，其特征在于，所述第一用户标识包括：

用户访问网络时所使用的移动设备的设备标识；或

13.根据权利要求11所述的装置，其特征在于，若所述用户标识信息包括用户在网络平台上注册的账户信息，则所述第二获取模块包括：

确定单元，用于将登陆有与所述账户信息对应的账户的所有终端，均确定为所述用户的个人终端；

14.根据权利要求11所述的装置，其特征在于，若所述用户标识信息包括用户访问网络时的网络地址和第一用户标识时，则所述第二获取模块包括：

标识确定单元，确定通过所述网络地址访问过网络的至少一个第二用户标识；

匹配单元，用于将所述第一用户标识对应的网络操作数据与每个所述第二用户标识对应的网络操作数据分别进行匹配；

识别单元，用于基于匹配结果，从所述至少一个第二用户标识中确定出与所述第一用户标识属于同一用户的第二用户标识；

15.根据权利要求10所述的装置，其特征在于，所述训练模块包括：

修正单元，用于基于所述个性化信息，对已有训练模型的特征数量和权重系数进行修正；

训练单元，用于将所述原始样本数据和所述个性化信息作为样本数据，对修正后的模型进行训练，得到数据模型。

16.根据权利要求10至15任一项所述的装置，其特征在于，所述网络操作数据包括以下至少一项：

网页浏览的历史记录；

应用的操作记录；以及

网络搜索记录。

17.根据权利要求10至15任一项所述的装置，其特征在于，所述数据模型包括点击率预估模型或信息推荐模型。

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

推送模块，用于基于所述数据模型的输出结果，向用户推送信息。