CN111400571B

CN111400571B - 基于关联规则的社交网络用户信息填充方法

Info

Publication number: CN111400571B
Application number: CN202010075197.0A
Authority: CN
Inventors: 王宏志; 姜楠; 王春楠
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-11-19
Anticipated expiration: 2040-01-22
Also published as: CN111400571A

Abstract

基于关联规则的社交网络用户信息填充方法，涉及网络技术领域。本发明是为了解决社交网络用户信息填充的准确性差的问题。本发明基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息；利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词，并提取每个有效用户的关键词；利用FP‑Growth算法对有效用户的关键词进行关联，利用强关联规则集合将信息缺失的用户与无信息缺失的用户进行不同关键词关联，利用与其关联的无信息缺失用户的信息对信息缺失用户缺失的信息进行填充，或者使用补充算法KNNI对信息缺失用户缺失的信息进行填充。本发明适用于网络平台用户信息填充使用。

Description

基于关联规则的社交网络用户信息填充方法

技术领域

本发明涉及网络技术领域。

背景技术

近年来，特别是因特网和社交网络的显著进步和普及，社交网络在国民日常生活中的重要应用地位日渐凸显。无论是明星大腕还是普通的网民，都在使用这些社交网络获取有用消息和信息，发布其个人状态以及与其他用户通信。这使得其中可用于分析与研究的数据在不断累积。获取数据的能力与技术手段使得社交网络分析(SNA)和数据挖掘(DM)技术可以很好地应用于改善商业进程，并为用户开发具有针对性的服务。在社交网络数据的基础上，现在已完成了以下任务：建立推荐系统，客户互动机制，产品和服务的广告和推广，专家招聘与检索，趋势监控等。在中国，新浪微博目前是许多社交网络应用程序中用户数量最多的。随着微博用户数量的迅猛增长，微博用户的个人信息显得尤为重要，充满商业价值。

然而，研究发现显示，所有类型的社交网络分析中最常见的问题之一是数据质量差，这使他们的分析复杂化。这其中，数据质量差主要是数据在获取或处理过程中的缺失和数据来源本身就不完整导致的。影响数据质量的主要因素是社交网络中的数据很容易在获取和存储阶段产生缺失(任何字段都可能缺失，例如“年龄/出生日期”，“性别”，“婚姻状况”)。由于社交网络本身的复杂性，数据缺失是很容易产生且难以避免的。

目前缺失数据的填充方法可以分为两个大类：统计型方法和机器学习型方法。缺失数据填充是基于使用一些统计或机器学习技术从所选观察数据中产生估计来代替所缺失的值。最简单的统计方法分别是连续和离散变量的均值和模式估算。此外，它们通常用作基线插补方法。在机器学习方法中，缺失值填充被称为模式分类任务，其中缺失属性被视为分类模型的目标输出，其余完整属性是用于训练和测试模型的输入特征。

现有的数据填充算法都是通过缺失数据集本身，挖掘其中的信息来进行数据填充，并不参考其他的信息与知识库。这对于很多特征不明显的数据集来说，处理的效果不够理想。在Mark Huisman关于社交网络简单数据填充的论文中，他研究使用一些简单的数据处理方式来处理丢失的网络数据。实验结果表明，忽略丢失的数据会对网络的结构特性产生很大的负面影响。然而，基于简单数据填充算法的缺失数据处理也具有很大的负面影响，并且简单的填充只能在少数特定情况下成功地纠正数据缺失。

通过现有的资料可以发现，目前对社交网络中对缺失的用户信息数据的填充，各种算法的效果都不是特别理想。这是由于在社交网络上，用户信息数据是相对离散的，在填充过程中很难找到用户之间的特征，除非深入挖掘用户之间的关联性。

发明内容

本发明的目的是通过挖掘到缺失社交网络用户信息数据集中存在的关联性，对数据集进行填充，解决社交网络用户信息填充的准确性差的问题。

本发明所述的基于关联规则的社交网络用户信息填充方法，具体包括：

步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息；

步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理，获取有效用户及其有效发布信息，利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词，并提取每个有效用户的关键词；

步骤三、利用FP-Growth算法对有效用户的关键词进行关联，获取强关联规则集合；

步骤四、利用强关联规则集合，对信息缺失用户进行不同关键词强关联操作，获得关联结果，若关联结果不为0，执行步骤五，若关联结果为0，执行步骤六；

步骤五、将关联结果中，剔除与信息缺失用户具有相同信息缺失位的用户，获得有效关联结果，在有效关联结果中选择出现次数最多的用户，利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充，执行步骤七；

步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充，执行步骤七；

步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归，实现对填充信息进行纠正，完成社交网络用户信息填充。

进一步地，步骤二中所述对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理的具体方法为：

判断用户的年龄的范围是否在A1～A2之间，将年龄范围不在A1～A2之间的用户数据剔除；

对年龄在A1～A2之间的信息完整的用户发布在网络社交平台上的信息进行筛选，删除特殊符合及字符小于2的信息。

本发明中，A1为10岁，A2为100岁。

进一步地，步骤七中所述利用机器学习模型对信息缺失用户填充的信息进行预测回归，实现对填充信息进行纠正的具体方法为：

采用机器学习分类模型，首先使用步骤六中填充完成后的信息作为所述模型输入，对信息缺失用户信息缺失位的信息进行预测，并采用预测值与填充值进行对比，当填充值与预测值不同时，使用预测值替换填充值；替换后再次利用机器学习分类模型对信息缺失用户填充的信息进行再次预测，并判断当前的预测值与填充值是否相同，若不同，用预测值替换填充值，直至预测值与填充值相同或迭代次数达到阈值β为止，阈值所述阈值的最小值为4。

本发明有针对性地对如社交网络这一类缺失数据进行填充，使得填充效果比很多数据填充算法如CCMVI(Class Center Based Missing Value Imputation，基于类中心的缺失数据填充算法)，KNNI(K-Nearest Neighbor Imputation，K临近填充算法)，MICE(Multiple Imputation Using Chained Equations，基于链式方程的多重插补)等更好，本发明针对网络平台用户所发的关键信息，建立用户之间的关联，将这种关联应用于数据的填充中，使得数据填充的效果变好。同是本发明使用机器学习的模型对于填充的效果进行优化。使用一种平衡的思想，来对填充结果进行优化，得到更好的效果。

本发明基于FP-Growth关联规则算法，通过获取到的用户信息为用户之间建立桥梁。通过这样的关联，对缺失的数据进行填充。在填充完成以后，通过多个机器学习模型，对结果进行迭代优化，获取更优填充结果。

附图说明

图1是本发明所述基于关联规则的社交网络用户信息填充方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一：下面结合图1说明本实施方式，本实施方式所述基于关联规则的社交网络用户信息填充方法，具体包括：

步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理，获取有效用户及其有效发布信息，利用ICTCLAS系统(中文分词系统)对每个有效用户在社交网络平台发布的信息进行分词，并提取每个有效用户的关键词；

本实施方式中所述的FP-Growth算法的关键是构建FP-tree(Frequent PatternTree，频繁模式树)。FP-tree包括根节点和一系列叶节点，其中叶节点记录了项集的计数。同时，建立项目的头表。头表中的每个项目都通过节点链指向树中项目的位置。该算法需要两次遍历。在第一次遍历中，将删除所有不符合最低支持度要求的项目。FP-tree在第二遍遍历中构造。然后从FP-tree中找到频繁项集。为了方便FP-tree遍历，算法创建项目标题表。每个项目通过节点链接指向FP-tree中的自身。扫描完所有事务后，得到FP-tree。在进行FP-tree挖掘处理的过程中。算法以常用模式的长度1(初始后缀模式)开始，并构建条件模式库(“子数据库”)使用后缀模式显示的路径集。然后，算法为条件模式库构建(条件)FP-tree并递归地挖掘树。模式增长的通过条件FP-tree和后缀模式生成的频繁模式之间的链接实现。

进一步地，步骤二所述在对用户的个人信息及其对应在网络社交平台上发布的信息进行数据筛选处理的具体方法为：

步骤二所述在对用户的个人信息及其对应在网络社交平台上发布的信息进行数据筛选处理的具体方法为：

进一步地，A1为10岁，A2为100岁。

本实施方式中，步骤四，步骤五和步骤六使用关联规则得到的结果，对缺失信息进行填充。在填充过程开始前，为用户的关键词集创建一组强(具有良好支持和置信度)关联规则A，并标记每个关键词的来源。用户R_i的数据缺失位计为RML_i(例如：R_i中缺失位为：R_im、R_in、R_ip，则RML_i＝{m,n,p})，把R_i的每个关键词作为先行部分在关联规则集A中找到关联到的词语的来源用户R_k存入S集。对于用户R_i中的缺失位m∈RML_i，在S集中找到出现最频繁的用户R_j且

则使用用户R_j中m位的数值进行填充。如果S为空或S中所有用户都存在缺失位m时，则用KNNI填充该值。

采用机器学习分类模型，首先使用步骤六中填充完成后的信息作为输入，对信息缺失用户信息缺失位的信息进行预测，并采用预测值与填充值进行对比，当填充值与预测值不同时，使用预测值替换填充值；替换后再次利用机器学习分类模型对信息缺失用户填充的信息进行再次预测，并判断当前的预测值与填充值是否相同，若不同，用预测值替换填充值，直至预测值与填充值相同为止。

本实施方式使用一种机器学习算法分析初始填充完成的数据集DF，对DF中各个属性A_i进行训练建模，得到各属性的分类模型或回归模型MLA_i，使用MLA_i对DF中之前填充的数据进行预测更新，在更新后再重复之前步骤，直到数据不再改变或达到阈值β，所述阈值β的最小值为4。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.基于关联规则的社交网络用户信息填充方法，其特征在于，具体包括：

步骤一、基于SCRAPY爬虫框架获取用户在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息；

步骤五、从关联结果中，剔除与信息缺失用户具有相同信息缺失位的用户，获得有效关联结果，在有效关联结果中选择出现次数最多的用户，利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充，执行步骤七；

2.根据权利要求1所述基于关联规则的社交网络用户信息填充方法，其特征在于，步骤二中所述对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理的具体方法为：

对年龄在A1～A2之间的信息完整的用户发布在网络社交平台上的信息进行筛选，删除特殊符号及字符小于2的信息。

3.根据权利要求2所述基于关联规则的社交网络用户信息填充方法，其特征在于，A1为10岁，A2为100岁。

4.根据权利要求1或2所述基于关联规则的社交网络用户信息填充方法，其特征在于，步骤七中所述利用机器学习模型对信息缺失用户填充的信息进行预测回归，实现对填充信息进行纠正的具体方法为：

采用机器学习分类模型，首先使用步骤六中填充完成后的信息作为所述模型输入，对信息缺失用户信息缺失位的信息进行预测，并采用预测值与填充值进行对比，当填充值与预测值不同时，使用预测值替换填充值；替换后再次利用机器学习分类模型对信息缺失用户填充的信息进行再次预测，并判断当前的预测值与填充值是否相同，若不同，用预测值替换填充值，直至预测值与填充值相同或迭代次数达到阈值β为止。

5.根据权利要求4所述基于关联规则的社交网络用户信息填充方法，其特征在于，阈值β的最小值为4。