CN111400571B - 基于关联规则的社交网络用户信息填充方法 - Google Patents

基于关联规则的社交网络用户信息填充方法 Download PDF

Info

Publication number
CN111400571B
CN111400571B CN202010075197.0A CN202010075197A CN111400571B CN 111400571 B CN111400571 B CN 111400571B CN 202010075197 A CN202010075197 A CN 202010075197A CN 111400571 B CN111400571 B CN 111400571B
Authority
CN
China
Prior art keywords
information
users
user
filling
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010075197.0A
Other languages
English (en)
Other versions
CN111400571A (zh
Inventor
王宏志
姜楠
王春楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010075197.0A priority Critical patent/CN111400571B/zh
Publication of CN111400571A publication Critical patent/CN111400571A/zh
Application granted granted Critical
Publication of CN111400571B publication Critical patent/CN111400571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于关联规则的社交网络用户信息填充方法,涉及网络技术领域。本发明是为了解决社交网络用户信息填充的准确性差的问题。本发明基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;利用FP‑Growth算法对有效用户的关键词进行关联,利用强关联规则集合将信息缺失的用户与无信息缺失的用户进行不同关键词关联,利用与其关联的无信息缺失用户的信息对信息缺失用户缺失的信息进行填充,或者使用补充算法KNNI对信息缺失用户缺失的信息进行填充。本发明适用于网络平台用户信息填充使用。

Description

基于关联规则的社交网络用户信息填充方法
技术领域
本发明涉及网络技术领域。
背景技术
近年来,特别是因特网和社交网络的显著进步和普及,社交网络在国民日常生活中的重要应用地位日渐凸显。无论是明星大腕还是普通的网民,都在使用这些社交网络获取有用消息和信息,发布其个人状态以及与其他用户通信。这使得其中可用于分析与研究的数据在不断累积。获取数据的能力与技术手段使得社交网络分析(SNA)和数据挖掘(DM)技术可以很好地应用于改善商业进程,并为用户开发具有针对性的服务。在社交网络数据的基础上,现在已完成了以下任务:建立推荐系统,客户互动机制,产品和服务的广告和推广,专家招聘与检索,趋势监控等。在中国,新浪微博目前是许多社交网络应用程序中用户数量最多的。随着微博用户数量的迅猛增长,微博用户的个人信息显得尤为重要,充满商业价值。
然而,研究发现显示,所有类型的社交网络分析中最常见的问题之一是数据质量差,这使他们的分析复杂化。这其中,数据质量差主要是数据在获取或处理过程中的缺失和数据来源本身就不完整导致的。影响数据质量的主要因素是社交网络中的数据很容易在获取和存储阶段产生缺失(任何字段都可能缺失,例如“年龄/出生日期”,“性别”,“婚姻状况”)。由于社交网络本身的复杂性,数据缺失是很容易产生且难以避免的。
目前缺失数据的填充方法可以分为两个大类:统计型方法和机器学习型方法。缺失数据填充是基于使用一些统计或机器学习技术从所选观察数据中产生估计来代替所缺失的值。最简单的统计方法分别是连续和离散变量的均值和模式估算。此外,它们通常用作基线插补方法。在机器学习方法中,缺失值填充被称为模式分类任务,其中缺失属性被视为分类模型的目标输出,其余完整属性是用于训练和测试模型的输入特征。
现有的数据填充算法都是通过缺失数据集本身,挖掘其中的信息来进行数据填充,并不参考其他的信息与知识库。这对于很多特征不明显的数据集来说,处理的效果不够理想。在Mark Huisman关于社交网络简单数据填充的论文中,他研究使用一些简单的数据处理方式来处理丢失的网络数据。实验结果表明,忽略丢失的数据会对网络的结构特性产生很大的负面影响。然而,基于简单数据填充算法的缺失数据处理也具有很大的负面影响,并且简单的填充只能在少数特定情况下成功地纠正数据缺失。
通过现有的资料可以发现,目前对社交网络中对缺失的用户信息数据的填充,各种算法的效果都不是特别理想。这是由于在社交网络上,用户信息数据是相对离散的,在填充过程中很难找到用户之间的特征,除非深入挖掘用户之间的关联性。
发明内容
本发明的目的是通过挖掘到缺失社交网络用户信息数据集中存在的关联性,对数据集进行填充,解决社交网络用户信息填充的准确性差的问题。
本发明所述的基于关联规则的社交网络用户信息填充方法,具体包括:
步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;
步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户及其有效发布信息,利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;
步骤三、利用FP-Growth算法对有效用户的关键词进行关联,获取强关联规则集合;
步骤四、利用强关联规则集合,对信息缺失用户进行不同关键词强关联操作,获得关联结果,若关联结果不为0,执行步骤五,若关联结果为0,执行步骤六;
步骤五、将关联结果中,剔除与信息缺失用户具有相同信息缺失位的用户,获得有效关联结果,在有效关联结果中选择出现次数最多的用户,利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充,执行步骤七;
步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充,执行步骤七;
步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正,完成社交网络用户信息填充。
进一步地,步骤二中所述对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理的具体方法为:
判断用户的年龄的范围是否在A1~A2之间,将年龄范围不在A1~A2之间的用户数据剔除;
对年龄在A1~A2之间的信息完整的用户发布在网络社交平台上的信息进行筛选,删除特殊符合及字符小于2的信息。
本发明中,A1为10岁,A2为100岁。
进一步地,步骤七中所述利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正的具体方法为:
采用机器学习分类模型,首先使用步骤六中填充完成后的信息作为所述模型输入,对信息缺失用户信息缺失位的信息进行预测,并采用预测值与填充值进行对比,当填充值与预测值不同时,使用预测值替换填充值;替换后再次利用机器学习分类模型对信息缺失用户填充的信息进行再次预测,并判断当前的预测值与填充值是否相同,若不同,用预测值替换填充值,直至预测值与填充值相同或迭代次数达到阈值β为止,阈值所述阈值的最小值为4。
本发明有针对性地对如社交网络这一类缺失数据进行填充,使得填充效果比很多数据填充算法如CCMVI(Class Center Based Missing Value Imputation,基于类中心的缺失数据填充算法),KNNI(K-Nearest Neighbor Imputation,K临近填充算法),MICE(Multiple Imputation Using Chained Equations,基于链式方程的多重插补)等更好,本发明针对网络平台用户所发的关键信息,建立用户之间的关联,将这种关联应用于数据的填充中,使得数据填充的效果变好。同是本发明使用机器学习的模型对于填充的效果进行优化。使用一种平衡的思想,来对填充结果进行优化,得到更好的效果。
本发明基于FP-Growth关联规则算法,通过获取到的用户信息为用户之间建立桥梁。通过这样的关联,对缺失的数据进行填充。在填充完成以后,通过多个机器学习模型,对结果进行迭代优化,获取更优填充结果。
附图说明
图1是本发明所述基于关联规则的社交网络用户信息填充方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述基于关联规则的社交网络用户信息填充方法,具体包括:
步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;
步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户及其有效发布信息,利用ICTCLAS系统(中文分词系统)对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;
步骤三、利用FP-Growth算法对有效用户的关键词进行关联,获取强关联规则集合;
步骤四、利用强关联规则集合,对信息缺失用户进行不同关键词强关联操作,获得关联结果,若关联结果不为0,执行步骤五,若关联结果为0,执行步骤六;
步骤五、将关联结果中,剔除与信息缺失用户具有相同信息缺失位的用户,获得有效关联结果,在有效关联结果中选择出现次数最多的用户,利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充,执行步骤七;
步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充,执行步骤七;
步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正,完成社交网络用户信息填充。
本实施方式中所述的FP-Growth算法的关键是构建FP-tree(Frequent PatternTree,频繁模式树)。FP-tree包括根节点和一系列叶节点,其中叶节点记录了项集的计数。同时,建立项目的头表。头表中的每个项目都通过节点链指向树中项目的位置。该算法需要两次遍历。在第一次遍历中,将删除所有不符合最低支持度要求的项目。FP-tree在第二遍遍历中构造。然后从FP-tree中找到频繁项集。为了方便FP-tree遍历,算法创建项目标题表。每个项目通过节点链接指向FP-tree中的自身。扫描完所有事务后,得到FP-tree。在进行FP-tree挖掘处理的过程中。算法以常用模式的长度1(初始后缀模式)开始,并构建条件模式库(“子数据库”)使用后缀模式显示的路径集。然后,算法为条件模式库构建(条件)FP-tree并递归地挖掘树。模式增长的通过条件FP-tree和后缀模式生成的频繁模式之间的链接实现。
进一步地,步骤二所述在对用户的个人信息及其对应在网络社交平台上发布的信息进行数据筛选处理的具体方法为:
步骤二所述在对用户的个人信息及其对应在网络社交平台上发布的信息进行数据筛选处理的具体方法为:
判断用户的年龄的范围是否在A1~A2之间,将年龄范围不在A1~A2之间的用户数据剔除;
对年龄在A1~A2之间的信息完整的用户发布在网络社交平台上的信息进行筛选,删除特殊符合及字符小于2的信息。
进一步地,A1为10岁,A2为100岁。
本实施方式中,步骤四,步骤五和步骤六使用关联规则得到的结果,对缺失信息进行填充。在填充过程开始前,为用户的关键词集创建一组强(具有良好支持和置信度)关联规则A,并标记每个关键词的来源。用户Ri的数据缺失位计为RMLi(例如:Ri中缺失位为:Rim、Rin、Rip,则RMLi={m,n,p}),把Ri的每个关键词作为先行部分在关联规则集A中找到关联到的词语的来源用户Rk存入S集。对于用户Ri中的缺失位m∈RMLi,在S集中找到出现最频繁的用户Rj
Figure BDA0002378319370000051
则使用用户Rj中m位的数值进行填充。如果S为空或S中所有用户都存在缺失位m时,则用KNNI填充该值。
进一步地,步骤七中所述利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正的具体方法为:
采用机器学习分类模型,首先使用步骤六中填充完成后的信息作为输入,对信息缺失用户信息缺失位的信息进行预测,并采用预测值与填充值进行对比,当填充值与预测值不同时,使用预测值替换填充值;替换后再次利用机器学习分类模型对信息缺失用户填充的信息进行再次预测,并判断当前的预测值与填充值是否相同,若不同,用预测值替换填充值,直至预测值与填充值相同为止。
本实施方式使用一种机器学习算法分析初始填充完成的数据集DF,对DF中各个属性Ai进行训练建模,得到各属性的分类模型或回归模型MLAi,使用MLAi对DF中之前填充的数据进行预测更新,在更新后再重复之前步骤,直到数据不再改变或达到阈值β,所述阈值β的最小值为4。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (5)

1.基于关联规则的社交网络用户信息 填充方法,其特征在于,具体包括:
步骤一、基于SCRAPY爬虫框架获取用户在网络社交平台上的 个人信息和每个用户在网络社交平台上发布的信息;
步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户及其有效发布信息,利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;
步骤三、利用FP-Growth算法对有效用户的关键词进行关联,获取强关联规则集合;
步骤四、利用强关联规则集合,对信息缺失用户进行不同关键词强关联操作,获得关联结果,若关联结果不为0,执行步骤五,若关联结果为0,执行步骤六;
步骤五、从关联结果中,剔除与信息缺失用户具有相同信息缺失位的用户,获得有效关联结果,在有效关联结果中选择出现次数最多的用户,利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充,执行步骤七;
步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充,执行步骤七;
步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正,完成社交网络用户信息填充。
2.根据权利要求1所述基于关联规则的社交网络用户信息填充方法,其特征在于,步骤二中所述对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理的具体方法为:
判断用户的年龄的范围是否在A1~A2之间,将年龄范围不在A1~A2之间的用户数据剔除;
对年龄在A1~A2之间的信息完整的用户发布在网络社交平台上的信息进行筛选,删除特殊符号及字符小于2的信息。
3.根据权利要求2所述基于关联规则的社交网络用户信息填充方法,其特征在于,A1为10岁,A2为100岁。
4.根据权利要求1或2所述基于关联规则的社交网络用户信息填充方法,其特征在于,步骤七中所述利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正的具体方法为:
采用机器学习分类模型,首先使用步骤六中填充完成后的信息作为所述模型输入,对信息缺失用户信息缺失位的信息进行预测,并采用预测值与填充值进行对比,当填充值与预测值不同时,使用预测值替换填充值;替换后再次利用机器学习分类模型对信息缺失用户填充的信息进行再次预测,并判断当前的预测值与填充值是否相同,若不同,用预测值替换填充值,直至预测值与填充值相同或迭代次数达到阈值β为止。
5.根据权利要求4所述基于关联规则的社交网络用户信息填充方法,其特征在于,阈值β的最小值为4。
CN202010075197.0A 2020-01-22 2020-01-22 基于关联规则的社交网络用户信息填充方法 Active CN111400571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010075197.0A CN111400571B (zh) 2020-01-22 2020-01-22 基于关联规则的社交网络用户信息填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010075197.0A CN111400571B (zh) 2020-01-22 2020-01-22 基于关联规则的社交网络用户信息填充方法

Publications (2)

Publication Number Publication Date
CN111400571A CN111400571A (zh) 2020-07-10
CN111400571B true CN111400571B (zh) 2021-11-19

Family

ID=71428400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010075197.0A Active CN111400571B (zh) 2020-01-22 2020-01-22 基于关联规则的社交网络用户信息填充方法

Country Status (1)

Country Link
CN (1) CN111400571B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机系统有限公司 用户属性信息的生成方法及系统
CN109949175A (zh) * 2019-03-26 2019-06-28 桂林电子科技大学 一种基于协同过滤和相似性度量的用户属性推断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094083A1 (en) * 2005-10-25 2007-04-26 Podbridge, Inc. Matching ads to content and users for time and space shifted media network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机系统有限公司 用户属性信息的生成方法及系统
CN109949175A (zh) * 2019-03-26 2019-06-28 桂林电子科技大学 一种基于协同过滤和相似性度量的用户属性推断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Extracting Rules for Diagnosis of Diabetes Using Genetic Programming;Fatemeh Ahouz等;《IJHS》;20191231;第5卷(第3期);全文 *
一种基于近邻规则的缺失数据填补方法;王凤梅;《计算机工程》;20121130;第38卷(第21期);全文 *

Also Published As

Publication number Publication date
CN111400571A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US7912818B2 (en) Web graph compression through scalable pattern mining
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
US20190236460A1 (en) Machine learnt match rules
Sperlí A deep learning based community detection approach
Li et al. Novel alarm correlation analysis system based on association rules mining in telecommunication networks
Laxman et al. Stream prediction using a generative model based on frequent episodes in event sequences
US8073849B2 (en) Method and system for constructing data tag based on a concept relation network
CN111339313A (zh) 一种基于多模态融合的知识库构建方法
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN107590139B (zh) 一种基于循环矩阵翻译的知识图谱表示学习方法
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN110781368A (zh) 一种针对指定专家的信息爬取系统及方法
CN109299286A (zh) 非结构化数据的知识挖掘方法及系统
Zhang et al. Inferring latent network from cascade data for dynamic social recommendation
Alcobe Incremental methods for Bayesian network structure learning
CN111400571B (zh) 基于关联规则的社交网络用户信息填充方法
JP2021092925A (ja) データ生成装置およびデータ生成方法
CN115587125A (zh) 元数据管理方法及装置
CN115063251A (zh) 基于关系强度与反馈机制的社交传播动态网络表示方法
CN116860981A (zh) 潜在客户挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant