CN114764419A - 家庭宽带用户的挖掘方法、装置及相关设备 - Google Patents
家庭宽带用户的挖掘方法、装置及相关设备 Download PDFInfo
- Publication number
- CN114764419A CN114764419A CN202110001474.8A CN202110001474A CN114764419A CN 114764419 A CN114764419 A CN 114764419A CN 202110001474 A CN202110001474 A CN 202110001474A CN 114764419 A CN114764419 A CN 114764419A
- Authority
- CN
- China
- Prior art keywords
- user
- user object
- users
- data set
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种家庭宽带用户的挖掘方法、装置及相关设备。所述方法包括:获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。由于将待识别的第一数据集中表征非目标家庭宽带服务的潜在用户对应的用户行为数据进行剔除,得到用于目标家庭宽带服务的潜在用户识别的第二数据集,这样可以避免用户使用场景的多样性导致潜在的家庭宽带用户预测的准确性较差。
Description
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种家庭宽带用户的挖掘方法、装置及相关设备。
背景技术
众所周知,对于运营商来说,识别手机用户中潜在的家庭宽带用户,是家宽市场运营的重点之一,精准识别出潜在的家庭宽带用户,然后进行精准营销,能大幅提高营销成功率,降低营销成本。
现有技术中,为了实现家庭宽带用户的识别,通常通过大量用户行为数据进行模型训练,利用训练的识别模型进行相似度匹配,以识别出潜在的家庭宽带用户。目前,由于用户使用场景的多样性,在预测潜在的家庭宽带用户时,容易导致预测的准确性较差。
发明内容
本发明实施例提供一种家庭宽带用户的挖掘方法、装置及相关设备,以解决用户使用场景的多样性导致潜在的家庭宽带用户预测的准确性较差的问题。
为解决上述问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种家庭宽带用户的挖掘方法,所述方法包括:
获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。
第二方面,本发明实施例提供了一种家庭宽带用户的挖掘装置,包括:
获取模块,用于获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
筛选模块,用于对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。
第三方面,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。
第四方面,本发明实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。
本发明实施例通过获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。由于将待识别的第一数据集中表征非目标家庭宽带服务的潜在用户对应的用户行为数据进行剔除,得到用于目标家庭宽带服务的潜在用户识别的第二数据集,这样可以避免用户使用场景的多样性导致潜在的家庭宽带用户预测的准确性较差。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的家庭宽带用户的挖掘方法的流程示意图;
图2是本发明实施例提供的家庭宽带用户的挖掘装置的结构图;
图3是本发明实施提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本发明中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
参见图1,图1是本发明实施例提供的家庭宽带用户的挖掘方法的流程示意图之一。如图1所示,该家庭宽带用户的挖掘方法可以包括以下步骤:
步骤101,获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
本发明实施例中,上述用户对象可以理解为用于唯一标识用户的用户信息,例如,可以为某一用户的唯一标识码,如可以为用户的身份证号码或者SIM卡号,其中,每一用户可以包括一个或者多个SIM卡号。以下各实施例中,以用户对象为用户的SIM卡号为例进行说明。换句话说,某一用户可以包括一个或者多个用户对象。
上述用户行为数据可以理解为用户通过终端进行通信业务的行为数据,可以包括B域和O域数据,其中B域可以理解为业务支持系统的数据域,O域可以理解为运营支持系统的数据域。具体地,该第一数据集可以包括资费数据、深度报文检测(Deep PacketInspection,DPI)数据、通话记录、家庭套餐人员数据等。
应理解,在本发明实施例中,上述第一数据集可以理解为待识别的用户数据集,通过对第一数据集中的数据进行分析可以获得潜在的宽带用户。
步骤102,对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户;所述第二数据集用于目标家庭宽带服务的潜在用户识别。
本发明实施例中,上述目标用户对象可以理解为具有特殊场景的宽带用户。可选地,该特殊场景可以理解为用户对象的常驻位置安装有家庭宽带服务的场景,该常驻位置可以理解为用户对象关联的用户的家庭住址,具体的在一个常驻位置可以与一个或者多个用户对象关联,该常驻位置关联的任一个用户对象安装了常驻位置均可以理解为该常驻位置安装了家庭宽带服务,该常驻位置安装的家庭宽带服务可以为上述目标家庭宽带服务,也可以为第三方家庭宽带服务,此时,该常驻位置关联的用户对象无需安装目标家庭宽带服务,因此该常驻位置关联的用户对象为非目标家庭宽带服务的潜在用户。
应理解,上述家庭宽带服务可以理解为宽带服务,此外,还可以理解为使用家庭宽带,或者家庭宽带服务。例如用户安装并开通了某一运营商的宽带后,即可获得该运营商的宽带服务。
可选地,上述特殊场景还可以理解为常驻位置对应的区域没有宽带服务,例如,某一小区没有覆盖宽带网络,无法提供带宽服务,因此该常驻位置关联的用户对象为非目标家庭宽带服务的潜在用户。
本发明实施例通过获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。由于将待识别的第一数据集中表征非目标家庭宽带服务的潜在用户对应的用户行为数据进行剔除,得到用于目标家庭宽带服务的潜在用户识别的第二数据集,这样可以避免用户使用场景的多样性导致潜在的家庭宽带用户预测的准确性较差。
需要说明的是,基于第二数据集进行潜在用户识别的方式可以根据实际需要进行设置,例如在一些实施例中,对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集之后,所述方法还可以包括:
利用预先训练的识别模型对所述第二数据集进行识别获得目标家庭宽带服务的潜在用户。
本发明实施例中,利用预先训练的识别模型对所述第二数据集进行识别可以理解为利用最近安装目标家庭宽带服务的用户对象的用户行为数据对第二数据集进行预测获得目标家庭宽带服务的潜在用户。
可选地,在一些实施例中,上述用户行为数据可以理解为终端消费行为数据,例如,可以包括用户基础属性,位置信息、通信上网行为、资费等数据。可以利用最近安装目标家庭宽带服务的用户对象的终端消费行为从第二数据集中筛选出相似行为的用户,从而得到目标家庭宽带服务的潜在用户。即通过利用最近安装目标家庭宽带服务的用户对象的终端消费行为对识别模型进行训练,然后利用训练好的识别模型进行预测。
在一些实施例中可以采用加权随机森林算法训练识别模型。以下以此为例进行详细说明。
具体地,可以基于用户基础属性、位置信息、通信上网行为、资费等数据选取模型输入指标,将潜在家宽用户的识别问题转化为二分类问题。并将样本数据中使用家庭宽带用户的标签设为1,未使用家庭宽带的用户的标签设为0,作为预测变量。
首先进行数据预处理,例如采用数据清洗、数据转换、数据规约等方法进行数据预处理和特征构建;
然后采用自助采样方法有放回地随机抽取M个训练数据集和袋外样本OOB;
最后利用M个训练数据集和袋外样本训练随机森林模型。具体地,可以首先基于M个数据集可以构造生成M棵决策树。采用Gini值测度方法进行特征选择分裂,Gini值计算公式如下:
其中,K表示类别个数,pk表示样本点属于第k类的概率。
然后,采用袋外样本OOB作为测试集,计算每棵决策树的权重,共包含N个样本值。TreeWeighti表示第i棵决策树的权重,Treeij表示第i棵决策树对第j个样本的预测结果,Tree’j表示所有决策树对第j个样本的预测结果。I为示性函数,随机森林对袋外数据进行预测并得出预测准确率为RFAcc,计算公式如下:
最后,采用加权多数投票方法进行决策树加权和决策。即选择所有加权后的决策树中得票数最多的类别作为最终的分类结果。
可选地,在一些实施例中,上述目标用户对象包括第一类用户、第二类用户和第三类用户中的至少一类用户;
其中,所述第一类用户用于表征第一用户对象对应的第一常驻位置已安装宽带服务,且所述第一用户对象未安装所述目标家庭宽带服务,所述第二类用户用于表征第二用户对象对应的常驻位置所在的区域没有所述目标家庭宽带服务,所述第三类用户表征第三用户对象已经安装第三方家庭宽带服务。
应理解,上述第三方家庭宽带服务,可以理解为其他宽带服务商服务。
本发明实施例中,针对上述第一类用户,在第一用户对象对应的常驻位置已安装宽带服务可以理解为该第一用户对象在第一常驻位置安装了第三方宽带服务,或者第一常驻关联的其他用户对象安装了宽带服务。例如,家中已经使用其他宽带服务商服务的用户对象以及家中使用其他手机号或账号申请了宽带服务的用户对象均可以称之为第一类用户。
针对上述第二类用户,可以理解为家中小区没有相关的宽带服务的用户对象。
针对上述第三类用户,可以理解为家中已有宽带,但对流量不敏感,会在家中直接使用手机流量的用户对象。
需要说明的是,针对上述三类用户,不同类型用户的识别方式不同。以下对各类用户进行详细说明。
例如,在一些实施例中,在所述第一数据集中对所述第一类用户的识别包括:
确定所述第一数据集中未安装所述目标家庭宽带服务的第一用户对象;
基于所述第一用户对象的位置信息确定所述第一用户对象对应的第一常驻位置;
根据所述第一用户对象在所述第一常驻位置的不同时间段的流量信息,确定所述第一常驻位置是否已安装宽带服务;
将所述第一常驻位置已安装宽带服务的所述第一用户对象确定为第一类用户对象。
本发明实施例中,针对上述第一类用户可以基于信令数据、用户自然属性、位置信息、通信上网行为等信息,根据用户每日不同时段流量变化情况,识别用户。例如,基于GPS或基站定位,在一个月中当用户有大于阈值n天在某个小区有流量产生时,则定位该小区为用户地常驻地小区。将用户每日流量划分为不同时段,比如中午、晚间时段,通过比较常驻小区晚间日均流量与午间日均流量,当晚间日均流量远低于午间日均流量时,说明用户在常驻地有宽带覆盖。基于此特征,可以判断出用户在常驻小区是否已经安装宽带。
应理解,上述第一数据集可以为包括安装和未安装上述目标家庭宽带服务的用户对象的对应的用户行为数据,当第一数据集仅包括未安装上述目标家庭宽带服务的用户对象的对应的用户行为数据时,可以将第一数据集中所有的用户对象均确定为上述第一用户对象。换句话说,识别上述第一类用户时,可以省去确定所述第一数据集中未安装所述目标家庭宽带服务的第一用户对象的步骤。
可选地,一些实施例中,在所述第一数据集中对所述第二类用户的识别包括:
根据所述第一数据集中第二用户对象的位置信息,确定第二用户对象对应的所述第二常驻位置;
确定所述第二常驻位置所属的区域;
当所述第二常驻位置所属的区域包含于未提供宽带服务的预设区域时,将所述第二用户对象确定为所述第二类用户。
本申请实施例中,上述区域可以理解为小区,上述预设区域可以理解为不能提供宽带服务的小区。具体地,针对第二类用户的识别,可以基于GPS或者基站定位,定位常住地所属小区位置,然后将该小区位置和不能提供服务的小区数据进行匹配,匹配成功的定义为第二类用户。
可选地,一些实施例中,在所述第一数据集中对所述第三类用户的识别包括:
在所述第一数据集中筛选所述第一数据集中已经安装所述第三方带宽服务的第三用户对象;
将所述第三用户对象确定为所述第三类用户。
本申请实施例中,针对上述第三类用户,可以从用户数据库中筛选出已安装第三方家庭宽带的用户对象(例如用户手机号码),确定为第三类用户。
由于在本发明实施例中对上述第一类用户、第二类用户和第三类用户进行了明确定义,从而可以删除上述第一类用户、第二类用户和第三类用户中至少一类用户对应的用户行为数据,从而可以避免第一类用户、第二类用户和第三类用户对家庭宽带用户预测的干扰。
应理解,某一用户对象可以仅属于上述三类用户中的一类用户,也可以属于上述三类用户中的多类用户,例如,某一用户对象即属于上述第一类用户,又属于第三类用户。
可选地,在一实施例中,所述对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得所述第二数据集的步骤包括:
将所述第一数据集中的每一用户对象设置权重值设置为初始值;
在所述第一数据集中对所述第一用户对象、第二用户对象和所述第三用户对象进行识别;
降低与所述第一类用户、第二类用户和所述第三类用户中至少一者关联的第一用户对象的权重值;
在权重值调整后的所述第一数据集中,获取权重值大于或等于所述初始值的用户对象对应的用户行为数据,得到所述第二数据集。
本发明实施例中,上述初始值可以为0,可以在第一数据集中,针对第一类用户、第二类用户和第三类用户进行依次或者同时识别,在识别的过程中,若识别到某一用户对象为上述第一类用户、第二类用户或第三类用户时,可以将第一类用户的权重值降低或者直接设置为某一阈值,以使得该用户对象的权重值调整后小于初始值。在完成所有识别后,所有被调整后的权重值都小于初始值,此时可以从第一数据集中提取大于或等于初始值的用户对象对应的用户行为数据,得到所述第二数据集,从而可以保证用于识别的数据集中剔除了上述第一类用户的用户行为数据、第二类用户的用户行为数据和第三类用户的用户行为数据。
可选地,在一些实施例中,所述降低与所述第一类用户、第二类用户和所述第三类用户中至少一者关联的第一用户对象的权重值的步骤之后,获取权重值大于或等于所述初始值的用户对象对应的用户行为数据的步骤之前,所述方法还包括:
在所述第一数据集中对第四类用户进行识别;
将第四类用户关联的第四用户对象的权重值设置为第一预设值,或者,增加所述第四用户对象的权重值,以使所述第四用户对象的权重值大于或等于所述初始值;
其中,所述第四类用户用于表征第四用户对象没有安装家庭宽带服务,且第四用户对象对应的常驻位置所在的区域存在所述目标家庭宽带服务。
本发明实施例中,通过在对第一类用户、第二类用户和第三类用户进行识别并对权重值调整后,再次对第四类用户进行识别,并调整第四用户对象的权重值,使得第四用户对象的权重值大于初始值,从而可以避免第四用户对象被误剔除。从而进一步提高了潜在的家庭宽带用户预测的准确性。
可选地,针对第四类用户的识别,可以识别用户对象在常住地,对应的终端没有关机,有信令产生,但是在一定时间内(例如一个月),超过阈值(例如n天)在常驻地小区晚间发生流量行为大于阈值t小时,认为没有安装家庭宽带服务。将该类用户定义为第四类用。换句话说,在本发明实施例中,可以识别用户对象在常驻地位置存在信令产生,且在预设时间周期内存在K次产生流量行为的时间大于预设时长的情况下,将该用户对象确定为第四用户对象。
可选地,在一些实施例中,除了利用预先训练的识别模型对所述第二数据集进行识别获得目标家庭宽带服务的潜在用户之外,还可以对特定场景的用户对象进行补充,以完善利用预先训练的识别模型对所述第二数据集进行识别获得目标家庭宽带服务的潜在用户。换句话说,本申请实施例中,所述对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集之后,所述方法还包括:
利用预先训练的识别模型对所述第二数据集进行识别获得目标家庭宽带服务的潜在用户;
在所述第一数据集中,筛选与第五类用户对象的目标数据为匹配的第五用户对象;
将所述潜在用户和所述第五用户对象确定为待挖掘的目标用户;
其中,所述第五类用户为预设时间段内,由第三方宽带服务转入目标家庭宽带服务的第六用户对象,所述目标数据为所述第六用户对象在转入所述目标家庭宽带服务之前对应的用户行为数据。
本发明实施例中,利用预先训练的识别模型对所述第二数据集进行识别获得潜在的目标家庭宽带用户的具体实现可以参照上述实施例,在此不再赘述。
应理解,在所述第一数据集中,筛选与第五类用户对象的目标数据为匹配的第五用户对象的方式可以对潜在用户的识别方式类似,换句话说,可以利用随机森林算法对异网家庭宽带用户转网意愿进行识别。此时可以利用第五类用户对象的目标数据训练用于进行异网家庭宽带用户转网意愿识别的模型,然后筛选出相似行为的用户。这样由于对转网的用户进行识别,并补充到潜在用户中得到最终挖掘的目标用户,因此,本发明实施例可以进一步完善潜在用户的挖掘。
参见图2,图2是本发明实施例提供的家庭宽带用户的挖掘装置的结构图。如图2所示,家庭宽带用户的挖掘装置200包括:
获取模块201,用于获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
筛选模块202,用于对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。
可选地,所述目标用户对象包括第一类用户、第二类用户和第三类用户中的至少一类用户;
其中,所述第一类用户用于表征第一用户对象对应的第一常驻位置已安装宽带服务,且所述第一用户对象未安装目标家庭宽带服务,所述第二类用户用于表征第二用户对象对应的第二常驻位置所在的区域没有所述目标家庭宽带服务,所述第三类用户表征第三用户对象已经安装第三方家庭宽带服务。
可选地,所述筛选模块202包括:
第一确定单元,用于确定所述第一数据集中未安装所述目标家庭宽带服务的第一用户对象;基于所述第一用户对象的位置信息确定所述第一用户对象对应的第一常驻位置;根据所述第一用户对象在所述第一常驻位置的不同时间段的流量信息,确定所述第一常驻位置是否已安装宽带服务;将所述第一常驻位置已安装宽带服务的所述第一用户对象确定为第一类用户对象。
可选地,所述筛选模块202包括:
第二确定单元,用于根据所述第一数据集中第二用户对象的位置信息,确定第二用户对象对应的所述第二常驻位置;确定所述第二常驻位置所属的区域;当所述第二常驻位置所属的区域包含于未提供宽带服务的预设区域时,将所述第二用户对象确定为所述第二类用户。
可选地,所述筛选模块202包括:
筛选单元,用于在所述第一数据集中筛选所述第一数据集中已经安装所述第三方带宽服务的第三用户对象;
第三确定单元,用于将所述第三用户对象确定为所述第三类用户。
可选地,所述筛选模块202包括:
设置单元,用于将所述第一数据集中的每一用户对象设置权重值设置为初始值;
识别单元,用于在所述第一数据集中对所述第一用户对象、第二用户对象和所述第三用户对象进行识别;
调整单元,用于降低与所述第一类用户、第二类用户和所述第三类用户中至少一者关联的第一用户对象的权重值;
获取单元,用于在权重值调整后的所述第一数据集中,获取权重值大于或等于所述初始值的用户对象对应的用户行为数据,得到所述第二数据集。
可选地,所述筛选模块202还用于:在所述第一数据集中对第四类用户进行识别;将第四类用户关联的第四用户对象的权重值设置为第一预设值,或者,增加所述第四用户对象的权重值,以使所述第四用户对象的权重值大于或等于所述初始值;
其中,所述第四类用户用于表征第四用户对象没有安装家庭宽带服务,且第四用户对象对应的常驻位置所在的区域存在所述目标家庭宽带服务。
可选地,所述家庭宽带用户的挖掘装置200还包括确定模块和识别模块:
所述识别模块,用于利用预先训练的识别模型对所述第二数据集进行识别获得目标家庭宽带服务的潜在用户;
所述筛选模块202还用于:在所述第一数据集中,筛选与第五类用户对象的目标数据为匹配的第五用户对象;
所述确定模块用于,将所述潜在用户和所述第五用户对象确定为待挖掘的目标用户;
其中,所述第五类用户为预设时间段内,由第三方宽带服务转入目标家庭宽带服务的第六用户对象,所述目标数据为所述第六用户对象在转入所述目标家庭宽带服务之前对应的用户行为数据。
家庭宽带用户的挖掘装置200能够实现本发明实施例中图1方法实施例的各个过程,以及达到相同的有益效果,为避免重复,这里不再赘述。
本发明实施例还提供一种电子设备。请参见图3,电子设备可以包括处理器301、存储器302及存储在存储器302上并可在处理器301上运行的程序3021。
程序3021被处理器301执行时可实现图1对应的方法实施例中的任意步骤及达到相同的有益效果,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成,所述的程序可以存储于一可读取介质中。本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可实现上述图1对应的方法实施例中的任意步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
所述的存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
以上所述是本发明实施例的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (18)
1.一种家庭宽带用户的挖掘方法,其特征在于,所述方法包括:
获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。
2.根据权利要求1所述的方法,其特征在于,所述目标用户对象包括第一类用户、第二类用户和第三类用户中的至少一类用户;
其中,所述第一类用户用于表征第一用户对象对应的第一常驻位置已安装宽带服务,且所述第一用户对象未安装目标家庭宽带服务,所述第二类用户用于表征第二用户对象对应的第二常驻位置所在的区域没有所述目标家庭宽带服务,所述第三类用户表征第三用户对象已经安装第三方家庭宽带服务。
3.根据权利要求2所述的方法,其特征在于,在所述第一数据集中对所述第一类用户的识别包括:
确定所述第一数据集中未安装所述目标家庭宽带服务的第一用户对象;
基于所述第一用户对象的位置信息确定所述第一用户对象对应的第一常驻位置;
根据所述第一用户对象在所述第一常驻位置的不同时间段的流量信息,确定所述第一常驻位置是否已安装宽带服务;
将所述第一常驻位置已安装宽带服务的所述第一用户对象确定为第一类用户对象。
4.根据权利要求2所述的方法,其特征在于,在所述第一数据集中对所述第二类用户的识别包括:
根据所述第一数据集中第二用户对象的位置信息,确定第二用户对象对应的所述第二常驻位置;
确定所述第二常驻位置所属的区域;
当所述第二常驻位置所属的区域包含于未提供宽带服务的预设区域时,将所述第二用户对象确定为所述第二类用户。
5.根据权利要求2所述的方法,其特征在于,在所述第一数据集中对所述第三类用户的识别包括:
在所述第一数据集中筛选所述第一数据集中已经安装所述第三方带宽服务的第三用户对象;
将所述第三用户对象确定为所述第三类用户。
6.根据权利要求2所述的方法,其特征在于,所述对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得所述第二数据集的步骤包括:
将所述第一数据集中的每一用户对象设置权重值设置为初始值;
在所述第一数据集中对所述第一用户对象、第二用户对象和所述第三用户对象进行识别;
降低与所述第一类用户、第二类用户和所述第三类用户中至少一者关联的第一用户对象的权重值;
在权重值调整后的所述第一数据集中,获取权重值大于或等于所述初始值的用户对象对应的用户行为数据,得到所述第二数据集。
7.根据权利要求6所述的方法,其特征在于,所述降低与所述第一类用户、第二类用户和所述第三类用户中至少一者关联的第一用户对象的权重值的步骤之后,获取权重值大于或等于所述初始值的用户对象对应的用户行为数据的步骤之前,所述方法还包括:
在所述第一数据集中对第四类用户进行识别;
将第四类用户关联的第四用户对象的权重值设置为第一预设值,或者,增加所述第四用户对象的权重值,以使所述第四用户对象的权重值大于或等于所述初始值;
其中,所述第四类用户用于表征第四用户对象没有安装家庭宽带服务,且第四用户对象对应的常驻位置所在的区域存在所述目标家庭宽带服务。
8.根据权利要求1所述的方法,其特征在于,所述对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集之后,所述方法还包括:
利用预先训练的识别模型对所述第二数据集进行识别获得目标家庭宽带服务的潜在用户;
在所述第一数据集中,筛选与第五类用户对象的目标数据为匹配的第五用户对象;
将所述潜在用户和所述第五用户对象确定为待挖掘的目标用户;
其中,所述第五类用户为预设时间段内,由第三方宽带服务转入目标家庭宽带服务的第六用户对象,所述目标数据为所述第六用户对象在转入所述目标家庭宽带服务之前对应的用户行为数据。
9.一种家庭宽带用户的挖掘装置,其特征在于,所述装置包括:
获取模块,用于获取第一数据集,所述第一数据集包括多个用户对象对应的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
筛选模块,用于对所述第一数据集进行识别,剔除目标用户对象对应的用户行为数据,获得第二数据集;所述目标用户对象用于表征非目标家庭宽带服务的潜在用户,所述第二数据集用于目标家庭宽带服务的潜在用户识别。
10.根据权利要求9所述的装置,其特征在于,所述目标用户对象包括第一类用户、第二类用户和第三类用户中的至少一类用户;
其中,所述第一类用户用于表征第一用户对象对应的第一常驻位置已安装宽带服务,且所述第一用户对象未安装目标家庭宽带服务,所述第二类用户用于表征第二用户对象对应的第二常驻位置所在的区域没有所述目标家庭宽带服务,所述第三类用户表征第三用户对象已经安装第三方家庭宽带服务。
11.根据权利要求10所述的装置,其特征在于,所述筛选模块包括:
第一确定单元,用于确定所述第一数据集中未安装所述目标家庭宽带服务的第一用户对象;基于所述第一用户对象的位置信息确定所述第一用户对象对应的第一常驻位置;根据所述第一用户对象在所述第一常驻位置的不同时间段的流量信息,确定所述第一常驻位置是否已安装宽带服务;将所述第一常驻位置已安装宽带服务的所述第一用户对象确定为第一类用户对象。
12.根据权利要求10所述的装置,其特征在于,所述筛选模块包括:
第二确定单元,用于根据所述第一数据集中第二用户对象的位置信息,确定第二用户对象对应的所述第二常驻位置;确定所述第二常驻位置所属的区域;当所述第二常驻位置所属的区域包含于未提供宽带服务的预设区域时,将所述第二用户对象确定为所述第二类用户。
13.根据权利要求10所述的装置,其特征在于,所述筛选模块包括:
筛选单元,用于在所述第一数据集中筛选所述第一数据集中已经安装所述第三方带宽服务的第三用户对象;
第三确定单元,用于将所述第三用户对象确定为所述第三类用户。
14.根据权利要求10所述的装置,其特征在于,所述筛选模块包括:
设置单元,用于将所述第一数据集中的每一用户对象设置权重值设置为初始值;
识别单元,用于在所述第一数据集中对所述第一用户对象、第二用户对象和所述第三用户对象进行识别;
调整单元,用于降低与所述第一类用户、第二类用户和所述第三类用户中至少一者关联的第一用户对象的权重值;
获取单元,用于在权重值调整后的所述第一数据集中,获取权重值大于或等于所述初始值的用户对象对应的用户行为数据,得到所述第二数据集。
15.根据权利要求14所述的装置,其特征在于,所述筛选模块还用于:在所述第一数据集中对第四类用户进行识别;将第四类用户关联的第四用户对象的权重值设置为第一预设值,或者,增加所述第四用户对象的权重值,以使所述第四用户对象的权重值大于或等于所述初始值;
其中,所述第四类用户用于表征第四用户对象没有安装家庭宽带服务,且第四用户对象对应的常驻位置所在的区域存在所述目标家庭宽带服务。
16.根据权利要求9所述的装置,其特征在于,所述家庭宽带用户的挖掘装置还包括确定模块和识别模块:
所述识别模块,用于利用预先训练的识别模型对所述第二数据集进行识别获得目标家庭宽带服务的潜在用户;
所述筛选模块还用于:在所述第一数据集中,筛选与第五类用户对象的目标数据为匹配的第五用户对象;
所述确定模块用于,将所述潜在用户和所述第五用户对象确定为待挖掘的目标用户;
其中,所述第五类用户为预设时间段内,由第三方宽带服务转入目标家庭宽带服务的第六用户对象,所述目标数据为所述第六用户对象在转入所述目标家庭宽带服务之前对应的用户行为数据。
17.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现如权利要求1至8中任一项所述的家庭宽带用户的挖掘方法中的步骤。
18.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的家庭宽带用户的挖掘方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001474.8A CN114764419A (zh) | 2021-01-04 | 2021-01-04 | 家庭宽带用户的挖掘方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001474.8A CN114764419A (zh) | 2021-01-04 | 2021-01-04 | 家庭宽带用户的挖掘方法、装置及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114764419A true CN114764419A (zh) | 2022-07-19 |
Family
ID=82364473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110001474.8A Pending CN114764419A (zh) | 2021-01-04 | 2021-01-04 | 家庭宽带用户的挖掘方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114764419A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116170350A (zh) * | 2022-12-29 | 2023-05-26 | 中国联合网络通信集团有限公司 | 数据处理方法、装置及计算机可读存储介质 |
-
2021
- 2021-01-04 CN CN202110001474.8A patent/CN114764419A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116170350A (zh) * | 2022-12-29 | 2023-05-26 | 中国联合网络通信集团有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN116170350B (zh) * | 2022-12-29 | 2024-06-04 | 中国联合网络通信集团有限公司 | 数据处理方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108366045B (zh) | 一种风控评分卡的设置方法和装置 | |
CN110337059B (zh) | 一种用户家庭关系的分析算法、服务器及网络系统 | |
CN105306495B (zh) | 用户识别方法和装置 | |
CN110166344B (zh) | 一种身份标识识别方法、装置以及相关设备 | |
CN112463859B (zh) | 基于大数据和业务分析的用户数据处理方法及服务器 | |
CN112488716A (zh) | 一种异常事件检测系统 | |
CN111654866A (zh) | 移动通讯防诈骗的方法、装置及计算机存储介质 | |
CN113412607A (zh) | 内容推送方法、装置、移动终端及存储介质 | |
CN109978575B (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN111160797A (zh) | 风控模型的构建方法、装置、存储介质及终端 | |
CN110675252A (zh) | 风险评估方法、装置、电子设备及存储介质 | |
CN113610156A (zh) | 用于大数据分析的人工智能模型机器学习方法及服务器 | |
CN116010688A (zh) | 一种用户行为标签识别方法、系统、设备及存储介质 | |
CN114760172A (zh) | 射频基带综合特征信号识别方法与装置 | |
CN114764419A (zh) | 家庭宽带用户的挖掘方法、装置及相关设备 | |
CN107172622A (zh) | 伪基站短信的识别和分析方法、装置及系统 | |
CN116049808B (zh) | 一种基于大数据的设备指纹采集系统及方法 | |
CN112667875A (zh) | 一种数据获取、数据分析方法、装置、设备及存储介质 | |
CN116319065A (zh) | 一种应用于商业运维的威胁态势分析方法和系统 | |
CN109995605B (zh) | 一种流量识别方法、装置以及计算机可读存储介质 | |
CN107623715B (zh) | 一种身份信息获取方法和装置 | |
CN112417007A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN109614420B (zh) | 一种基于大数据挖掘的虚拟身份关联分析方法 | |
CN113128452A (zh) | 一种基于图像识别的绿化满意度采集方法和系统 | |
CN112307075A (zh) | 用户关系识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |