CN111143773B

CN111143773B - 建立概率模型的方法、装置、计算机设备和存储介质

Info

Publication number: CN111143773B
Application number: CN201911295042.1A
Authority: CN
Inventors: 姜洋; 孙立博
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-02-07
Anticipated expiration: 2039-12-16
Also published as: CN111143773A

Abstract

本申请揭示了一种建立概率模型的方法、装置、计算机设备和存储介质，其中方法包括：从服务器的数据库中调用出沉睡用户，然后发送激活信息到终端，经过一定时间后，根据沉睡用户是否访问服务器来将沉睡用户进行分类，并根据分类后的沉睡用户的用户信息进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型。本申请根据深度沉睡用户对信息的反馈以及深度沉睡用户的用户信息来建立概率模型，可以对后续的深度沉睡用户的唤醒概率很迅速的计算出来，有利于工作人员有的放矢，对唤醒概率大的深度沉睡用户进行服务与唤醒，减少工作人员的工作量。

Description

建立概率模型的方法、装置、计算机设备和存储介质

技术领域

本申请涉及到计算机技术领域，特别是涉及到一种建立概率模型的方法、装置、计算机设备和存储介质。

背景技术

深度沉睡用户(一般是指用户在APP上超过180天没有过登录行为)在APP整体用户中占有较高的比例，该部分用户具有行为稀疏、难以触达、激活成本高等特征。但同时，深度沉睡用户也是潜在用户。如何将深度沉睡用户唤醒的这一问题，目前常用的技术手段是对每个深度沉睡用户发送包含活动介绍的短信，以使深度沉睡用户看到活动介绍后再登录APP了解具体情况。

但是这样的操作将沉睡用户唤醒的比例非常低，发送短信也是需要一定的成本，这样使得每唤醒一个沉睡用户的成本较高。

发明内容

本申请的主要目的为提供一种建立计算模型的方法、装置、计算机设备和存储介质，通过本申请的方案得到的计算模型可以从深度沉睡用户中计算待唤醒的用户的被唤醒概率。

为了实现上述发明目的，本申请提出一种建立概率模型的方法，包括：

从服务器的数据库中提取出在第一预设时长内未使用指定APP的沉睡用户；

发送激活信息到所述沉睡用户对应的终端；

将在第二预设时长内访问服务器的沉睡用户定义为唤醒成功用户，将在第二预设时长内未访问服务器的沉睡用户定义为唤醒失败用户；

获取所述沉睡用户的样本信息，将所述唤醒成功用户的样本信息定义为成功样本信息并添加成功的标记，将所述唤醒失败用户的样本信息定义为失败样本信息并添加失败的标记；

将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型。

进一步地，所述获取所述沉睡用户的样本信息，将所述唤醒成功用户的样本信息定义为成功样本信息并添加成功的标记，将所述唤醒失败用户的样本信息定义为失败样本信息并添加失败的标记的步骤，包括：

建立一个表格，将每一个沉睡用户的样本信息分别填入到一列中，每一列中的每一行分别填写所述样本信息中的与每一行对应的指定类型的信息；

将指定行数的数据全部删除，将每一列剩余的信息集合，形成每一个沉睡用户的样本数据，其中，将唤醒成功用户的对应的列的信息定义为成功样本信息，并添加成功的标记，将唤醒失败用户的对应的列的信息定义为失败样本信息，并添加失败的标记。

进一步地，所述将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型的步骤，包括：

获取所述成功样本信息的第一数量和失败样本信息的第二数量；

若第一数量小于第二数量，则从失败样本信息中随机抽取出与第一数量相同个数的失败样本信息；

将第一数量的成功样本信息和随机抽取出的第一数量的失败样本信息输入到逻辑回归模型中，以对逻辑回归模型进行训练。

进一步地，所述将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型的步骤之后，包括：

将前端的待唤醒的沉睡用户的用户信息输入到所述唤醒概率计算模型中；

接收所述唤醒概率计算模型输出的所述待唤醒的沉睡用户的唤醒概率值。

进一步地，所述接收所述唤醒概率计算模型输出的所述待唤醒的沉睡用户的唤醒概率值的步骤之后，包括：

判断所述唤醒概率值是否大于预设的概率阈值；

若是，将预设的唤醒信息发送给所述待唤醒的沉睡用户的终端。

进一步地，所述发送激活信息到所述沉睡用户对应的终端的步骤，包括：

获取指定的安全防护网站的网页地址，以及所述网页地址对应的登录数据；

根据所述登录数据，在服务器中的多个网络地址中选择一个网络地址；

通过所述网络地址和所述登录数据，访问所述网页地址；

获取所述网页地址中的至少一个带有指定标签的短信服务器的第一编号；

判断当前服务器控制的短信服务器的第二编号是否与至少一个所述第一编号相同；

若否，则通过所述服务器控制的短信服务器发送激活信息到所述沉睡用户对应的终端。

本申请还提供一种建立概率模型的装置，包括：

提取模块，用于从服务器的数据库中提取出在第一预设时长内未使用指定APP的沉睡用户；

发送模块，用于发送激活信息到所述沉睡用户对应的终端；

定义模块，用于将在第二预设时长内访问服务器的沉睡用户定义为唤醒成功用户，将在第二预设时长内未访问服务器的沉睡用户定义为唤醒失败用户；

标记模块，用于获取所述沉睡用户的样本信息，将所述唤醒成功用户的样本信息定义为成功样本信息并添加成功的标记，将所述唤醒失败用户的样本信息定义为失败样本信息并添加失败的标记；

训练模块，用于将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的建立概率模型的方法、装置、计算机设备和存储介质，根据深度沉睡用户对信息的反馈以及深度沉睡用户的用户信息来建立概率模型，可以对后续的深度沉睡用户的唤醒概率很迅速的计算出来，有利于工作人员有的放矢，对唤醒概率大的深度沉睡用户进行服务与唤醒，减少工作人员的工作量。

附图说明

图1为本申请一实施例的建立概率模型的方法的流程示意图；

图2为本申请一实施例的建立概率模型的装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种建立概率模型的方法，包括步骤：

S1、从服务器的数据库中提取出在第一预设时长内未使用指定APP的沉睡用户；

S2、发送激活信息到所述沉睡用户对应的终端；

S3、将在第二预设时长内访问服务器的沉睡用户定义为唤醒成功用户，将在第二预设时长内未访问服务器的沉睡用户定义为唤醒失败用户；

S4、获取所述沉睡用户的样本信息，将所述唤醒成功用户的样本信息定义为成功样本信息并添加成功的标记，将所述唤醒失败用户的样本信息定义为失败样本信息并添加失败的标记；

S5、将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型。

如步骤S1所述，APP是与服务器相互对应的，APP中的数据全部存储在服务器对应的数据库中。终端下载该APP后，在APP中注册了一个账号，该账号即APP用户。APP用户在某一段时间内没有登录使用，或者APP从终端卸载后，这样该APP用户不会与服务器发生任何的数据交互，对应的服务器中在该某一段时间内就不会有该APP用户的数据。第一预设时长是服务器的管理员为了激活沉睡用户，结合实际情况设置的，在一具体实施例中，第一预设时长是180天，即服务器中的当前时间到180天之前的这段时间内，没有与服务器进行任何数据交互的APP用户，定义为沉睡用户，提取出沉睡用户的用户信息。

如上述步骤S2所述，服务器提取出沉睡用户的用户信息后，找出沉睡用户在APP注册时的ID、手机号、邮箱等联系方式，然后发送激活信息给沉睡用户对应的终端，可以通过上述联系方式的任一种或多种发送。激活信息是鼓励用户再次使用该APP，激活信息包括代金券、APP中新添加的功能或商品等。为了建立适当的模型，根据激活信息的类型以及联系方式的类型，将沉睡用户随机分成多个类型。以激活信息为代金券和新功能这两个类型和联系方式为用户ID和手机号这两个类型为例，将上述沉睡用户随机分成四类，第一类是将代金券的激活消息发送给用户的用户ID；第二类是将代金券的激活消息发送给用户的手机；第三类是将新功能的激活消息发送给用户的用户ID；第四类是将新功能的激活消息发送给用户的手机。

如上述步骤S3所述，第二预设时长也是服务器的管理员设置的，一般是设置24小时，即自发送激活信息到沉睡用户对应的终端之后起，再过24小时后，在数据库中查找上述沉睡用户的访问记录，若查找到，则判定该沉睡用户是接收到激活信息后使用了APP，判定该沉睡用户为唤醒成功用户；若未找到找，则判定该沉睡用户是接收到激活信息后也没有使用APP，判定该沉睡用户为唤醒失败用户。

如上述步骤S4所述，将所有的沉睡用户的用户信息作为训练样本，即每一个沉睡用户的用户信息作为样本信息。其中，上述唤醒成功用户的用户信息为成功样本信息，并且为该成功样本信息添加成功的标记，可以标记为1；上述唤醒失败用户的用户信息为失败样本信息，并且为该失败样本信息添加失败的标记，可以标记为0。上述用户信息包括用户在服务器中的注册时的数据信息，包括手机号、用户姓名、年龄、住址等，也包括用户在服务器中的日志数据，日志数据是指用户在服务器中的用户行为产生的数据，用户行为包括浏览文章、发表评论、购买产品、转发信息等，对应的用户行为而产生的数据包括浏览时长、文章的文本、评论文本、产品信息、转发的次数等。上述用户信息均可以作为样本信息。在一优化的实施方式中，将用户信息中日志数据作为样本信息；基于此，更优化的方案是将日志数据进行量化后形成样本信息。如浏览时长、文章的文本字数、评论文本的次数以及字数等；其中不可以直接量化的如文章的文本的内容、评论文本的内容等，将文章的文本的内容以及评论文本的内容进行情绪化处理后得到代表用户的各种情绪的数字；依此方法将用户信息量化成样本信息。在将文章的文本的内容以及评论文本的内容进行情绪化处理时，首先对文本(文章的文本或评论的文本)进行基于分词的句子向量处理，以获得文本的情绪的句子向量；具体的，对接收到的文本信息进行分词处理，以获得文本信息的、以分词序列表示的分词结果，然后根据文本的分词结果，使用预先训练的基于深度学习方法的模型来获得文本信息的句子向量。然后对句子向量进行情绪分类处理，以识别文本的情绪类别以及对应的情绪数值。

如上述步骤S5所述，逻辑回归的逻辑是：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数。本方案中，是将所有的沉睡用户分为唤醒成功用户和唤醒失败用户，然后建立一个代价函数，将沉睡用户中的唤醒成功用户的输出值作为1，将沉睡用户的成功样本信息作为输入值，输入到代价函数中；以及将沉睡用户中的唤醒失败用户的值作为0，将沉睡用户中的失败样本信息作为输入值，输入到代价函数中；在一具体实施例中，代价函数为：

其中，C表示代价函数，x表示样本信息，y表示样本信息对应的数值，a表示输出值，n表示样本的总数。在上述建立的代价函数中进行计算，代价函数根据每一个输入值以及对应的输入值，计算得到代价函数的参数；通过多个唤醒成功用户的成功样本信息以及多个唤醒失败用户的失败样本信息，多次的迭代计算，得到优化后的代价函数的参数，即最终得到基于沉睡用户的信息来计算被唤醒的概率的唤醒概率计算模型。得到该唤醒概率计算模型后，再计算该APP的其他的沉睡用户的唤醒概率时，只需要将其他沉睡用户的用户信息输入到该唤醒概率计算模型中，即可以迅速准确的计算出来。

在一个实施例中，上述获取所述沉睡用户的样本信息，将所述唤醒成功用户的样本信息定义为成功样本信息并添加成功的标记，将所述唤醒失败用户的样本信息定义为失败样本信息并添加失败的标记的步骤，包括：

S41、建立一个表格，将每一个沉睡用户的样本信息分别填入到一列中，每一列中的每一行分别填写所述样本信息中的与每一行对应的指定类型的信息；

S42、将指定行数的数据全部删除，将每一列剩余的信息集合，形成每一个沉睡用户的样本数据，其中，将唤醒成功用户的对应的列的信息定义为成功样本信息，并添加成功的标记，将唤醒失败用户的对应的列的信息定义为失败样本信息，并添加失败的标记。

每一个训练样本中均包括了沉睡用户的很多个维度的信息，如：ID编号、手机号、用户类型、客户角色、是否有子女等。而有的维度的信息与用户是否会被唤醒毫无关联，比如完全是客观的信息如ID编号、手机号等，只是作为用户的一个识别信息，并无任何用户的属性。将沉睡用户的无关联信息从样本信息中淘汰出去，留下与用户是否会被唤醒的相关的维度的信息，作为样本信息。这样在建立逻辑回归模型时，可以计算出更准确的逻辑回归模型，而且在后续计算用户可能被唤醒的概率时，不需要用到无关的维度的信息，减小计算量，提高计算速度。

在提取样信息的时候，就要把不相关的信息删除。由于每个沉睡用户都是同一个APP的用户，都是采用同一套方法导出的用户数据，因此，每一个用户的数据的格式都是相同的，每一个维度的数据所在该用户的样本信息中的位置是相同的。首先建立一个表格，每提取出一个沉睡用户的样本信息后，将样本信息中的每一个维度的信息放入到该表格的一列中，从一列的第一行起，依次按顺将样本信息中的每一个维度中的数据放入到表格中的这一列中，第一行放一个维度的数据。然后将其他沉睡用户的样本信息也按照该方法放入到表格中，则该表格中，每一列是一个沉睡用户的样本信息，每一行是多个沉睡用户的同一个维度的样本信息中的数据。然后，根据管理员预先设置的行数，将指定行数的数据删除，剩下的数据全是与计算是否被唤醒的有关的数据。然后再将每一列的剩余的信息集合，得到每一个沉睡用户的样本数据，唤醒成功用户的那一列的样本数据为成功样本信息，唤醒失败的那一列的样本数据为失败样本信息。

在一个实施例中，所述将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型的步骤，包括：

S51、获取所述成功样本信息的第一数量和失败样本信息的第二数量；

S52、若第一数量小于第二数量，则从失败样本信息中随机抽取出与第一数量相同个数的失败样本信息；

S53、将第一数量的成功样本信息和随机抽取出的第一数量的失败样本信息输入到逻辑回归模型中，以对逻辑回归模型进行训练。

本实施例中，经过试验后，存在唤醒成功用户和唤醒失败用户的数量比例较大的情况，而且是唤醒失败用户的数量远大于唤醒成功用户的数量，如果同时全部输入到逻辑回归模型中进行训练，这样会导致训练后的模型测试结果不准确，造成唤醒成功用户的识别不足，即唤醒率预测较差的情况。为避免这一情况，需要对数量多的唤醒失败用户进行筛选，以使唤醒成功用户的数量和唤醒失败用户的数量一致，这样训练出来的模型在预测结果时会更准确一点。

当训练一次后，可以再次按照上述步骤S52的方法，再次随机抽取出第一数量相同个数的失败样本信息，继续进行训练。

另一具体实施例中，当训练一次后，还可以在未参与训练的失败样本信息中抽取第一数量相同个数的失败样本信息，然后再将第一数量个数的成功样本信息与再次抽取的相同数量的失败样本信息，继续进行训练。通过本步骤，可以使获得到的全部沉睡用户的信息全部参与到逻辑回归模型训练中，这样使得训练集的数据更多，对应的训练出的模型更有利于计算出准确的结果。

在一个实施例中，上述所述将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型的步骤之后，包括：

S6、将前端的待唤醒的沉睡用户的用户信息输入到所述唤醒概率计算模型中；

S7、接收所述唤醒概率计算模型输出的所述待唤醒的沉睡用户的唤醒概率值。

本实施例中，训练好唤醒概率计算模型后，可以利用该模型来计算指定APP的沉睡用户的被唤醒概率，有利于工作人员了解沉睡用户的被唤醒概率。具体的，工作人员首先访问服务器的数据库，根据第一预设时长检索出待唤醒的沉睡用户，得到待唤醒的沉睡用户的用户信息，然后将用户信息下载到前端，整理成一个表格，表格中包含待唤醒的沉睡用户的全部用户信息，每一行的数据是一个待唤醒的沉睡用户的用户信息。然后将表格输入到唤醒概率计算模型中，唤醒概率计算模型每读取表格中的一行数据，计算出该沉睡用户对应的唤醒概率值，并将该唤醒概率值加载在表格的该行对应的最后一列处。

在一个实施例中，上述接收所述唤醒概率计算模型输出的所述待唤醒的沉睡用户的唤醒概率值的步骤之后，包括：

S8、判断所述唤醒概率值是否大于预设的概率阈值；

S9、若是，将预设的唤醒信息发送给所述待唤醒的沉睡用户的终端。

本实施例中，读取唤醒概率值，并将其与管理员设置的概率阈值进行比较，如果唤醒概率值大于概率阈值，判定该待唤醒的沉睡用户是很有可能会被唤醒的，因此将唤醒信息发送给该待唤醒的沉睡用户对应的终端。而唤醒概率值不大于概率阈值，判定该待唤醒的沉睡用户不大可能会被唤醒，不发送唤醒信息，减少发送唤醒信息产生的成本。在另一具体实施例中，获得到所有的待唤醒的沉睡用户的唤醒概率值后，将所有的唤醒概率值按照大小的顺序从大到小进行排序，然后将预设的唤醒信息发送给排序的名次为预设名次的唤醒概率值对应的待唤醒的沉睡用户。

在一个实施例中，上述发送激活信息到所述沉睡用户对应的终端的步骤，包括：

S21、获取指定的安全防护网站的网页地址，以及所述网页地址对应的登录数据；

S22、根据所述登录数据，在服务器中的多个网络地址中选择一个网络地址；

S23、通过所述网络地址和所述登录数据，访问所述网页地址；

S24、获取所述网页地址中的至少一个带有指定标签的短信服务器的第一编号；

S25、判断当前服务器控制的短信服务器的第二编号是否与至少一个所述第一编号相同；

S26、若否，则通过所述服务器控制的短信服务器发送激活信息到所述沉睡用户对应的终端。

本实施例中，指定的安全防护网站是指做杀毒或安全防护的网站，如防火墙、杀毒、智能管家拦截等网站。安全防护网站上存储有一些病毒或黑名单的病毒网址、黑名单网址、恶意骚扰手机号、骚扰短信群发号等，安全防护网站会自行搜索一些病毒网址、恶意骚扰手机号、骚扰短信群发号等，或者安全防护网站的用户会上传自己接收到的恶意骚扰手机号、骚扰短信群发号。服务器上存储有管理员预先设置的安全防护网站的网页地址和登录数据。登录数据是指登录上述安全防护网站的网页地址的用户名和对应的密码。网络地址是指计算机网络相互连接或进行通信时的一种可通信标识，可以是处于某网络中的计算机的网络地址，该网络地址可以唯一地标识网络中的该计算机设备，该计算机与其他计算机进行通信时可以采用网络地址作为通信标识，例如，网络地址可以是IP(InternetProtocol，互联网协议)地址等。服务器可以通过多个网络地址来与其他服务器进行数据交互或爬取数据。服务器获取到登录数据后，查看该登录数据中对应的用户名上一次访问的网络地址，然后选择该网络地址之外的其他网络地址。然后通过该网络地址之外的其他网络地址来访问上述网页地址，输入登录数据，打开指定的安全防护网站。然后爬取指定的安全防护网站的数据。安全防护网站中的数据包括上述的病毒网址、恶意骚扰手机号、骚扰短信群发号等。每一个数据均带有一个标签，如病毒标签、恶意骚扰手机号标签、骚扰短信群发号标签等。服务器发送的激信息是通过短信发送，则获取出带有骚扰短信群发号标签的数据，该数据中包括至少一个短信群发器的第一编号。然后服务器读取所控制的短信服务器的第二编号，如果第二编号与任一个第一编号相同，说明该激活信息发送过去后可能会被沉睡用户的终端拦截，使沉睡用户无法收到激活信息的短信，再切换另一个短信群发器，或者，服务器更改短信群发器的编号后再通过短信群发器来发送激活信息。如果第二编号与任一个第一编号均不相同，则服务器控制该短信服务器发送激活信息到沉睡用户对应的终端。

另一具体实施例中，服务器发送测试信息至一指定的网站；如果若发送成功，则再发送激活信息到所述沉睡用户对应的终端。指定的网站是模拟普通的沉睡用户的终端，如果发送成功，表示沉睡用户的终端可以正常接收服务器发送的信息。

在一个实施例中，上述将预设的唤醒信息发送给所述待唤醒的沉睡用户的终端的步骤，包括：

S91、获取所述待唤醒的沉睡用户的用户信息中的性别信息；

S92、发送与所述性别信息对应的唤醒信息给所述待唤醒的沉睡用户的终端。

本实施例中，用户信息中包括姓名、性别等与沉睡用户相关的信息。通过上述训练以及平常的市场调研过程中，发现男性与女性的在信息的关注点有一些不同的区别。在平安好车主APP中，男性习惯于关注洗车、保险等相关的活动信息；女性习惯于关注积分换购礼物等相关的活动信息。管理员每设置一条唤醒信息时，均会标注为男性或女性。服务器在发送给待唤醒的沉睡用户的终端前，首先读取用户信息，得到该用户的性别信息，然后在找唤醒信息中带有与该用户的性别信息相同的标签的唤醒信息，然后发送给对应的终端。这样可以进一步的提高待唤醒的沉睡用户的唤醒概率。

参照图2，本申请实施例中还提供一种建立概率模型的装置，包括：

提取模块1，用于从服务器的数据库中提取出在第一预设时长内未使用指定APP的沉睡用户；

发送模块2，用于发送激活信息到所述沉睡用户对应的终端；

定义模块3，用于将在第二预设时长内访问服务器的沉睡用户定义为唤醒成功用户，将在第二预设时长内未访问服务器的沉睡用户定义为唤醒失败用户；

标记模块4，用于获取所述沉睡用户的样本信息，将所述唤醒成功用户的样本信息定义为成功样本信息并添加成功的标记，将所述唤醒失败用户的样本信息定义为失败样本信息并添加失败的标记；

训练模块5，用于将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型。

在一个实施例中，上述标记模块4包括：

建表单元，用于建立一个表格，将每一个沉睡用户的样本信息分别填入到一列中，每一列中的每一行分别填写所述样本信息中的与每一行对应的指定类型的信息；

标记单元，用于将指定行数的数据全部删除，将每一列剩余的信息集合，形成每一个沉睡用户的样本数据，其中，将唤醒成功用户的对应的列的信息定义为成功样本信息，并添加成功的标记，将唤醒失败用户的对应的列的信息定义为失败样本信息，并添加失败的标记。

在一个实施例中，上述训练模块5包括：

获取单元，用于获取所述成功样本信息的第一数量和失败样本信息的第二数量；

抽取单元，用于若第一数量小于第二数量，则从失败样本信息中随机抽取出与第一数量相同个数的失败样本信息；

训练单元，用于将第一数量的成功样本信息和随机抽取出的第一数量的失败样本信息输入到逻辑回归模型中，以对逻辑回归模型进行训练。

在一个实施例中，上述建立概率模型的装置还包括：

输入模块，用于将前端的待唤醒的沉睡用户的用户信息输入到所述唤醒概率计算模型中；

接收模块，用于接收所述唤醒概率计算模型输出的所述待唤醒的沉睡用户的唤醒概率值。

在一个实施例中，上述建立概率模型的装置还包括：

判断模块，用于判断所述唤醒概率值是否大于预设的概率阈值；

唤醒模块，用于若所述唤醒概率值大于预设的概率阈值，将预设的唤醒信息发送给所述待唤醒的沉睡用户的终端。

在一个实施例中，上述发送模块2包括：

获取地址单元，用于获取指定的安全防护网站的网页地址，以及所述网页地址对应的登录数据；

选择单元，用于根据所述登录数据，在服务器中的多个网络地址中选择一个网络地址；

访问单元，用于通过所述网络地址和所述登录数据，访问所述网页地址；

获取编号单元，用于获取所述网页地址中的至少一个带有指定标签的短信服务器的第一编号；

判断单元，用于判断当前服务器控制的短信服务器的第二编号是否与至少一个所述第一编号相同；

第一发送单元，用于若当前服务器控制的短信服务器的第二编号与至少一个所述第一编号均不相同，则通过所述服务器控制的短信服务器发送激活信息到所述沉睡用户对应的终端。

在一个实施例中，上述唤醒模块包括：

获取性别单元，用于获取所述待唤醒的沉睡用户的用户信息中的性别信息；

第二发送单元，用于发送与所述性别信息对应的唤醒信息给所述待唤醒的沉睡用户的终端。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储沉睡用户的用户信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种建立概率模型的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种建立概率模型的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchl ink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种建立概率模型的方法，其特征在于，包括：

发送激活信息到所述沉睡用户对应的终端，其中，激活信息包括代金券、APP中新添加的功能；

将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型；

接收所述唤醒概率计算模型输出的所述待唤醒的沉睡用户的唤醒概率值；

判断所述唤醒概率值是否大于预设的概率阈值；

若是，将预设的唤醒信息发送给所述待唤醒的沉睡用户的终端；

所述发送激活信息到所述沉睡用户对应的终端的步骤，包括：

通过所述网络地址和所述登录数据，访问所述网页地址；

2.如权利要求1所述的建立概率模型的方法，其特征在于，所述获取所述沉睡用户的样本信息，将所述唤醒成功用户的样本信息定义为成功样本信息并添加成功的标记，将所述唤醒失败用户的样本信息定义为失败样本信息并添加失败的标记的步骤，包括：

3.如权利要求1所述的建立概率模型的方法，其特征在于，所述将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型的步骤，包括：

4.一种建立概率模型的装置，其特征在于，包括：

发送模块，用于发送激活信息到所述沉睡用户对应的终端，其中，激活信息包括代金券、APP中新添加的功能；

训练模块，用于将所述成功样本信息和所述失败样本信息均输入到逻辑回归模型中，以对逻辑回归模型进行训练，得到用于计算沉睡用户被唤醒的概率的唤醒概率计算模型；

接收模块，用于接收所述唤醒概率计算模型输出的所述待唤醒的沉睡用户的唤醒概率值；

唤醒模块，用于若所述唤醒概率值大于预设的概率阈值，将预设的唤醒信息发送给所述待唤醒的沉睡用户的终端；

所述发送模块包括：

5.如权利要求4所述的建立概率模型的装置，其特征在于，所述标记模块包括：

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。