CN101266619A - 一种用户信息挖掘方法和一种用户信息挖掘系统 - Google Patents

一种用户信息挖掘方法和一种用户信息挖掘系统 Download PDF

Info

Publication number
CN101266619A
CN101266619A CNA2008100969471A CN200810096947A CN101266619A CN 101266619 A CN101266619 A CN 101266619A CN A2008100969471 A CNA2008100969471 A CN A2008100969471A CN 200810096947 A CN200810096947 A CN 200810096947A CN 101266619 A CN101266619 A CN 101266619A
Authority
CN
China
Prior art keywords
user
general character
reference value
information
individual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100969471A
Other languages
English (en)
Other versions
CN101266619B (zh
Inventor
禹荣凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2008100969471A priority Critical patent/CN101266619B/zh
Publication of CN101266619A publication Critical patent/CN101266619A/zh
Application granted granted Critical
Publication of CN101266619B publication Critical patent/CN101266619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户信息挖掘方法,包括:获取用户的个体信息,以及,该用户与其它用户的关系信息;生成属于相同关系信息的相应用户的集合,提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值。本发明通过将用户链接关系信息引入到用户信息挖掘,可以真实、完整、准确地挖掘出某个群体的用户特征。

Description

一种用户信息挖掘方法和一种用户信息挖掘系统
技术领域
本发明涉及知识挖掘领域,特别是涉及一种信息挖掘的方法及系统。
背景技术
随着数据采集技术的不断发展,人类每天获取的数据剧增,但数据中隐藏的丰富的知识远远没有得到充分的挖掘与利用,形成了“数据爆炸,知识饥饿”的状况。知识挖掘就是在这种背景下应运而生的。知识挖掘就是一个从数据集中识别有效的、潜在有用、最终可理解的模式的过程。模式是一个用语言来表示的表达式,它可用来描述数据集的某个子集。所谓知识,是对数据包涵的信息更抽象的描述。对大量数据进行分析的过程,包括数据准备、模式搜索、知识评价,以及反复的修改求精。有效性是指发现的模式对于新的数据仍保持有一定的可信度;新颖性要求发现的模式应该是新的;潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益;最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。
随着网络技术的发展,知识挖掘也获得了在Web上的应用,即Web挖掘,它利用知识挖掘技术从与万维网相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、知识挖掘、计算机语言学、信息学等多个领域,是一项综合技术。现有的Web挖掘通常包括Web内容挖掘和Web使用记录挖掘两种方法。
具体地,Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。同时还可以对Web的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。
Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的知识挖掘技术来访问日志数据;二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
基于上述描述可以理解,用户信息挖掘就是从用户的资料、日常行为中提炼出用户的各种特征,如年龄层、学历层、收入层等,借此掌握用户特征,定向精准地投放广告、发布信息和资讯、预测用户行为等。而现有技术中,通常只会采用上述WEB挖掘的方法基于用户的基本资料、个人行为进行挖掘,因而导致挖掘过程严重依赖于单用户的资料和行为,然而,由于网络上用户提供的资料和行为存在不真实、不完整,不准确的问题,在这种情况下,挖掘到的数据也将必须存在不真实、不完整、不准确的问题。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新的提出一种用户信息挖掘的机制,用以获得真实、完整、准确的用户信息。
发明内容
本发明所要解决的技术问题是提供一种用户信息挖掘方法,用以获得更为真实、完整、准确的用户信息。
本发明的另一个目的是提供了一种用户信息挖掘系统,用以保证上述方法在实际中的实现及应用。
为了解决上述技术问题,本发明实施例公开了一种用户信息挖掘方法,包括:
获取用户的个体信息,以及,该用户与其它用户的关系信息;
生成属于相同关系信息的相应用户的集合,提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值。
优选的,所述的方法还包括:
依据所述共性参考值修正所述集合内用户相应的个体信息。
优选的,所述用户集合为多个,所述的方法还包括:
计算所述共性参考值的权重值。
优选的,所述的方法还包括:
从多个用户集合中提取相应的多个个体信息的共性参考值及权重值,计算标准共性参考值,用所述标准共性参考值修正集合内相应个体信息的共性参考值。
优选的,所述的方法还包括:
依据所述权重值最大的共性参考值推导关联的个体信息的共性参考值。
优选的,所述的方法还包括:
将所述用户的个体信息,以及,该用户与其它用户的关系信息存储至文件或数据库中。
优选的,所述统计共性参考值的步骤包括:
计算所述个体信息的平均值为共性参考值;
或者,计算符合要求的个体信息的平均值为共性参考值;
或者,统计分布概率满足一定阈值的个体信息为共性参考值。
优选的,所述个体信息包括用户基本资料信息和用户行为记录信息。
优选的,所述修正步骤为:
基于所述共性参考值的一定范围修正所述集合内用户相应的个体信息。
本发明实施例还公开了一种用户信息挖掘系统,包括:
获取单元,用于获取用户的个体信息,以及,该用户与其它用户的关系信息;
集合单元,用于生成属于相同关系信息的相应用户的集合;
共性统计单元,用于提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值。
优选的,所述的系统还包括:
个性修正单元,用于依据所述共性参考值修正所述集合内用户相应的个体信息。
优选的,所述用户集合为多个,所述的系统还包括:
权重计算单元,用于计算所述共性参考值的权重值。
优选的,所述的系统还包括:
共性修正单元,用于从多个用户集合中提取相应的多个个体信息的共性参考值及权重值,计算标准共性参考值,用所述标准共性参考值修正集合内相应个体信息的共性参考值。14、如权利要求13所述的系统,其特征在于,还包括:
推导单元,用于依据所述权重值最大的共性参考值推导关联的个体信息的共性参考值。
优选的,所述的方法还包括:
存储单元,用于将所述用户的个体信息,以及,该用户与其它用户的关系信息存储至文件或数据库中。
与现有技术相比,本发明具有以下优点:
本发明通过基于各种Web应用特征:由海量的用户组成一个大型网络,同时在多维角度上组成多个网络,每个网络包含了多个用户,用户间存在链接关系。即每个用户可以对应网络内的一个结点,依据用户之间相应的链接关系即可形成结点与结点之间的连结关系。基于网络内多个结点的属性,推导出该网络相应属性的共性值,即挖掘出某个群体的共同属性,用以真实、完整、准确地获取用户需求,以完成实际中的各种需求。本发明还可以进一步将共性反馈到单结点,以修正、推导单个用户(单结点)的相应属性,从而保证单用户信息的真实性、完整性和准确性。
附图说明
图1是本发明的一种用户信息挖掘方法实施例1的流程图;
图2是本发明的一种用户信息挖掘方法实施例2的流程图;
图3是本发明的一种用户信息挖掘系统实施例1的流程图;
图4是本发明的一种用户信息挖掘系统实施例2的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本发明实施例的核心构思之一在于,基于各种Web应用,如IM(即时通讯)、Email(邮件)、Blog(博客)、BBS(论坛)、同学录、共享网站等,获得它们的一个特征为:由海量的用户组成一个大型网络,同时在多维角度上组成多个小型网络,譬如,在人际关系方面形成朋友、同事、同学等用户网络,同学网络还可进一步细分为小学同学、中学同学、大学同学等用户网络;在兴趣爱好方面形成科技、娱乐、时事等用户网络。每个网络包含了多个用户,用户间存在链接关系。即每个用户可以对应网络内的一个结点,依据用户之间相应的链接关系即可形成结点与结点之间的连结关系。基于网络内多个结点的属性,推导出该网络相应属性的共性值,即挖掘出某个群体的共同属性。优选的,本发明还可以进一步将共性反馈到单结点,以修正、推导单个用户(单结点)的相应属性。从而获得真实、完整、准确的用户信息。
例如,假设用户A在人际关系方面形成了同学、同事两个用户网络。由于同学网络的基本特征是:用户年龄相仿、学历相同,因而基于同学网络内的多个结点(用户)的资料,可以提炼出同学网络的年龄区间和学历水平的共性参考值。在这种情况下,即便少数用户没有填写年龄、没有填写真实年龄、或没有及时更新,这些少量的误差和偏移也将被其他用户(同学)的年龄属性吞噬,从而修正该用户的真实年龄。可以理解,如果更细致的划分用户网络,如“小学同学”、“中学同学”、“大学同学”等,则可以得到更准确的信息,并作为杠杆传递到另一个网络,以挖掘更多的信息。同理而言,基于同事网络的基本特征是:从事的职业、行业、学历相近、所处的地区、城市相同,获得相应属性的共性参考值后,还可以修正用户的职业、行业、学历、地区、城市等属性,在实际中,还可以依据这些属性进一步挖掘出用户的收入水平、兴趣等特征。
参考图1,示出了本发明的一种用户信息挖掘方法实施例1的流程图,可以包括以下步骤:
步骤101、获取用户的个体信息,以及,该用户与其它用户的关系信息;
步骤102、生成属于相同关系信息的相应用户的集合,提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值。
优选的,可以将所述用户的个体信息,以及,该用户与其它用户的关系信息存储至文件或数据库中,生成用户信息库。其中,所述个体信息可以包括用户基本资料信息(静态信息)和用户行为记录信息(动态信息),所述用户基本资料信息可以诸如,用户通过人机交互模式在网上填写并发送一个表达其信息需求的表单中所包含的信息,如姓名、性别、学历、所在城市、收入水平等;所述用户行为记录信息可以为体现用户的需求、兴趣和爱好的,诸如消费、体验、访问、投诉等信息。例如,一种获取用户行为记录信息的方法为:依据用户的日常交互行为产生的四类关键数据:鼠标移动轨迹、链接点击分布、页面浏览流、页面停留时间来获取。具体可以包括以下步骤:
步骤S1、收集数据:
利用Web服务器的日志(用户会话记录)、Web trends或类似的第三方共享软件(客户端分析,流量分析,可用性分析)、和/或自己开发的第三方软件/插件(需求自定义),给进入网站的用户赋予身份识别,每次产生交互动作就向服务器发回请求,通过时间和页面判断连接各个请求点并且记录下来。
步骤S2、过滤数据:
S21、明确目标,定义核心数据;
S22、界定用户行为,利用多数人的行为来消除个人行为的主观性。
S23、对用户进行归类,确定数据类别。
步骤S3、习惯分析:
S31、对用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类;
聚类过程中除了考虑页面内容相近程度,还应该考虑页面路径。
S32、把用户浏览行为对其兴趣的作用列入聚类结果,得到综合评估模型。
用户兴趣分偶然和稳定两种情况,其中偶然可以认为是随机变化的,稳定的挖掘又有基于内容和行为两种方式,在内容上表现有重复度、相似度等,在行为上表现有停留时长、点此次数、拉动滚动条次数等。
当然,本发明对所述个体信息的获取方法不作限制,本领域技术人员采用任一种方法实现都是可行的。
所述用户之间的关系信息为各种WEB应用中,当前用户与其它用户的链接关系信息。以IM为例,用户A将其好友列表中的用户分组为:“同学”、“同事”、“朋友”和“家人”;“同学”中包含B1、B2用户,“同事”中包含C用户;“朋友”中包含D用户;“家人”中包含E用户,在这种情况下,则可记录用户A的关系信息为(A-B1同学)、(A-B2同学)、(A-C同事)、(A-D朋友)、(A-E家人)。在其它的Web应用中,同样可以通过其固有的特征来获取用户之间的关系信息以构成相应关系信息下的用户网络,本发明对此不作限制。
基于所述用户信息库,则可以依据所述关系信息对相应用户进行分类整合,从而提炼出各个维度的网络(即用户集合)。可以理解,每个网络内的结点(用户)具有与当前用户相同的链接关系,如亲戚关系、同学关系、同事关系等。
由于不同类别的网络都具有相应的共性,例如,“同学”网络的共性可以是年龄相仿、学历相同,提取网络内每个结点(用户)的相应属性,即提取该网络内每个用户的年龄、学历两个个体信息即可。或者,“同事”网络的共性可以是:职业相同、行业相同、所在城市相同,针对该网络,则只需要提取该网络内每个用户的职业、行业、所在城市三个个体信息即可。基于所述提取的个体信息,即可在统计的基础上,挖掘出共性的参考值,如对于上述“同事”网络,可以获得其职业为:软件开发,行业为:互联网,所在城市为:深圳。
优选的,所述统计共性参考值可以采用以下方法获得:
计算所述个体信息的平均值为共性参考值;
例如,统计“同事”网络中,“年薪”这项个体信息的平均值为“20万”,则将这个“20万”作为共性参考值。从而得到了该网络内的用户的收入信息。
或者,计算符合要求的个体信息的平均值为共性参考值;
例如,统计“同学”网络中“年龄”这项个性信息的共性参考值时,首先网络里的每个用户的年龄进行分析,去除误差明显很大的个体(如年龄大于或等于80岁,或者小于或等于0岁的值),再通过求和取平均年龄值,从而得到了该网络内的用户年龄层。
或者,统计分布概率满足一定阈值的个体信息为共性参考值
例如,统计“同事”网络中,“所在城市”这项个体信息的分布情况为:“深圳”的比例占95%、为“北京”的比例占2%、为“上海”的比例占3%,假设预设阈值为90%,则提取“深圳”为共性参考值。从而得到了该网络内的用户所在城市的信息。
显然,上述方法仅仅作为示例,易于得知的是,本领域技术人员根据实际需要采用任一种统计或计算方法都是可行的,本发明对此不需要进行限定。
通过挖掘用户信息,能够精准的根据用户的所在地、喜好、特点以及用户的最新动态信息,向用户提供满足其各种个性化需求的服务,完美地为广告投放商进行品牌营销等。
优选的,在获得所述共性参考值后,本发明还可以包括步骤:
依据所述共性参考值修正所述用户相应的个体信息。
即基于各个网络得到的共性参考值,推导与修正该网络中每个用户相应的个性信息。例如,假设获得“同学”网络中“学历”的共性参考值为“硕士”,则对于网络中用户的学历描述为其它信息的,统一修正为“硕士”。
更为优选的是,所述修正步骤还可以为:基于所述共性参考值的一定范围修正所述集合内用户相应的个体信息。例如,假设获得“同学”网络中的“年龄”共性参考值为20,允许的范围为19-22。如果某个用户的年龄是30,差值(为10)较大,则直接修正到20;如果某个用户的年龄是23,差值(为3)较小,则可以允许一定范围的漂移,即修正为22或19。这种情况在具体实现时,需要先得到一批经验数据,如漂移参数、修正粒度等。当然,本发明对也无需对所述修正的方法作出限制,本领域技术人员根据实际情况采用任一种修正方法都是可行的。
本领域技术人员易于想到的是,本发明还可以将某个网络中的每个用户作为源结点,进一步提取其与其它用户的关系信息生成相应的用户集合,基于所述用户集合进一步挖掘相关的用户信息。
参考图2,示出了本发明的一种用户信息挖掘方法实施例2的流程图,可以包括以下步骤:
步骤201、获取用户的个体信息,以及,该用户与其它用户的关系信息;
优选的,可以将所述用户的个体信息,以及,该用户与其它用户的关系信息存储至文件或数据库中,生成用户信息库。其中,所述个体信息可以包括用户基本资料信息(静态信息)和用户行为记录信息(动态信息)。所述用户之间的关系信息为各种WEB应用中,当前用户与其它用户的链接关系信息。
步骤202、生成属于相同关系信息的相应用户的集合,提取集合内用户的满足共性的个体信息;
基于所述用户信息库,则可以依据所述关系信息对相应用户进行分类整合,从而提炼出各个维度的网络(即用户集合)。可以理解,每个网络内的结点(用户)具有与当前用户相同的链接关系,如亲戚关系、同学关系、同事关系等。
在本实施例中,所述用户集合可以为多个,即某个用户具有对应的多个关系网络。由于不同类别的网络都具有相应的共性,例如,“同学”网络的共性可以是年龄相仿、学历相同,提取网络内每个结点(用户)的相应属性,即提取该网络内每个用户的年龄、学历两个个体信息即可。或者,“同事”网络的共性可以是:学历相近、职业相同、行业相同、所在城市相同,针对该网络,则只需要提取该网络内每个用户的职业、学历、所在城市三个个体信息即可。可以看出,每个网络可以有多个满足共性的个体信息,并且不同网络的共性可能有交叉,如上述“同学”、“同事”网络的“学历”。
步骤203、统计所述个体信息的共性参考值,并计算所述共性参考值的权重值。
基于所述提取的个体信息,即可在统计的基础上,挖掘出共性的参考值。优选的,所述统计共性参考值可以采用以下方法获得:
计算所述个体信息的平均值为共性参考值;
或者,计算符合要求的个体信息的平均值为共性参考值;
或者,统计分布概率满足一定阈值的个体信息为共性参考值。
在本实施例中,对于各个网络中交叉的个体信息的共性参考值,可以通过计算得到的权重值来确定最恰当的共性参考值,以用于后续的网络间修正和网络内用户相应个体信息的修正。例如,从“同学”网络统计得到的年龄层,可能会由于集合的用户较少(即整个网络结点较少)、或者整体出错,如大部分都没有填写年龄,或填写虚假年龄,那么得到该网络的年龄层的权重值(可信度或准确度)较低。而如果通过另外的网络,如“同事”网络统计得到的年龄层具有较高的权重值,则可以以这个具有较高权重的年龄完成后续修正和推导处理。
步骤204、从多个用户集合中提取相应的多个个体信息的共性参考值及权重值,计算标准共性参考值,用所述标准共性参考值修正集合内相应个体信息的共性参考值。
例如,一种计算的方法为:标准共性参考值=权重1*共性参考值1+权重2*共性参考值2+权重3*共性参考值3+...,在这种情况下,假设从“同学”网络统计得到的“年龄”共性参考值为50,可信度为20%;从“同事”网络统计得到的“年龄”共性参考值为22,可信度为80%,则可以获得标准共性参考值=50*20%+22*80%=27.6,则修正“同事”网络的和“同学”网络的“年龄”共性参考值为27.6。
步骤205、依据所述权重值最大的共性参考值推导关联的个体信息的共性参考值。
如果通过单个网络或多个网络无法得到权重值较高的第一共性参考值,但可以得到权重值较高的第二共性参考值,而且,该第一共性参考值与第二参考值存在关联,则可以通过所述第二共性参考值推导所述第一共性参考值。例如,“年龄”为10岁左右的用户,“学历”一般为“小学”;“年龄”为20左右的用户,“学历”一般为“大学”;如果通过单个网络或多个网络无法得到权重值较高的“年龄”,但可以得到权重值较高的“学历”,则可以通过“学历”推导出“年龄”,反之亦然。
步骤206、依据所述共性参考值修正所述集合内用户的个体信息。
即基于各个网络得到的共性参考值,推导与修正该网络中每个用户相应的个性信息。优选的是,所述修正步骤还可以为:基于所述共性参考值的一定范围修正所述集合内用户相应的个体信息。
在实际中,可以根据实际需求任意执行所述步骤204和/或步骤205,以获得恰当的共性参考值。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
以下以一种具体实现过程进一步说明本发明。该过程可以包括:
步骤A1、获取某个WEB应用中用户的个体信息,以及,该用户与其它用户的关系信息。生成用户信息库UserDB,UserDB中包括:User:{用户ID,基本资料信息,行为记录信息,{联系人:联系人ID,关系信息},{联系人:联系人ID,关系信息},{联系人:联系人ID,关系信息},...}。
步骤A2、通过网络分类器对所述用户信息库进行分类。
网络分类器是一个程序,它可以被描述为:Classify(ClassRule[],UserDB),它的输入是分类规则的数组、用户信息库。ClassRule即是一个分类规则,它可以被描述为:{ClassID,LinkAttr,UserAttr1,UserAttr2,UserAtt3...},即每个分类规则定义了一个分类ID(ClassID)、链接属性(LinkAttr)、所辖的用户个体信息的集合(UserAttr),ClassRule[]是一个数组,可以包括多个规则。
尽管不同的Web应用的联系人的关系定义不同,但是网络分类器可以按照一种通用的流程处理,例如通过以下子步骤进行处理:
子步骤A21、读取一条User记录,根据每条分类规则,将用户ID、相应的用户属性(UserAttr)放到一个数据结构Node:{UserID,UserAttr1,UserAttr2,UserAttr3...}中;
子步骤A22、遍历该用户的联系人列表,根据ClassRule的LinkAttr,提取出ClassRule中定义的UserAttr,得到联系人的数据结构Node:{UserID,UserAttrl,UserAttr2,UserAttr3...};
子步骤A23、某个用户的Node和他的联系人的Node形成一个网络,它可以被描述为Net:{NetID,Node1,Node2,Node3...}。由于分类规则是一个数组,即可以有多个规则,那么就会有多个网络,即用户和他的联系人会在每个规则上都有一个网络,这就是多维的概念,每个网络通过NetID来标识,最终是一个Net的数组:Net[]。
步骤A3、抽取所述分类后的网络的共性;
所述共性抽取可以被描述为:Extract(Net[]),输入是网络的数组。处理流程可以为:读取一个Net,遍历Net内的每个Node,得到某个属性(个体信息)的数组,进行属性运算:ComputePublic(UserAttr[]),对于不同的UserAttr,ComputePublic被重载(即有不同的实现),最终得到该属性在本数组内的共性值和可信度,描述为AttrPublic:{UserAttr,Value,Reliability},由于有多个属性,则输出可以被描述为NetPublic:{NetID,AttrPublicl,AttrPublic2,AttrPublic3...};由于输入是Net数组,则最终的输出为NetPublic[]:{NetPublic1,NetPublic2,NetPublic3...}。
步骤A4、依据共性抽取结果修正个性。
个性修正过程可以被描述为:Modify(Net[],NetPublic[]),输入是网络数组、共性抽取结果数组,处理流程包括以下子步骤:
子步骤A41、从Net[]中读取一个Net,得到NetID、Node[];
子步骤A42、根据NetID在NetPublic[]中找到对应的NetPublic;
子步骤A43、遍历NetPublic中的每个AttrPublic,调用修正程序ComputePrivate(AttrPublic,Node[]),对于不同的UserAttr,ComputePrivate被重载(即有不同的实现),最终修正Net数组里每个Node相应的UserAttr。
子步骤A44、建立UserID到NetPublic的倒排索引,遍历Net[],获取NetID和Node[],遍历Node[],得到UserID,再根据NetID在NetPublic[]中找到NetPublic,建立对应关系:UserID->NetPublic。
由于同一个用户可能出现在多个网络中(多维网络)中,那么同一个UserID会出现在不同的Net中,就会找到多个NetPublic,这样最终的倒排索引应该是:UserID->{NetPublic1,NetPublic2,NetPublic3...},由于不同的NetPublic可能包含同样的UserAttr,即存在同一个属性在不同的网络里计算得到的AttrPublic,形成一个数组AttrPublic[],经过修正程序:InterCompute(AttrPublic[],User)修正用户的某个属性。
参考图3,示出了本发明的一种用户信息挖掘系统实施例1的结构框图,可以包括以下单元:
获取单元301,用于获取用户的个体信息,以及,该用户与其它用户的关系信息;
集合单元302,用于生成属于相同关系信息的相应用户的集合;
共性统计单元303,用于提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值。
优选的,在本实施例中,还可以包括:
个性修正单元304,用于依据所述共性参考值修正所述集合内用户相应的个体信息。
优选的,还可以将所述用户的个体信息,以及,该用户与其它用户的关系信息通过存储单元305存储至文件或数据库中。
应用上述系统实施例进行用户信息挖掘的过程可以包括:
步骤B1、获取单元获取用户的个体信息,以及,该用户与其它用户的关系信息,并通过存储单元将所述个体信息和关系信息存储至文件或数据库中;
步骤B2、集合单元生成属于相同关系信息的相应用户的集合;
步骤B3、共性统计单元提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值;
步骤B4、个性修正单元依据所述共性参考值修正所述集合内用户相应的个体信息。
参考图4,示出了本发明的一种用户信息挖掘系统实施例2的结构框图,可以包括以下单元:
获取单元401,用于获取用户的个体信息,以及,该用户与其它用户的关系信息;
集合单元402,用于生成属于相同关系信息的相应用户的集合;
在本实施例中,生成的用户集合可以为多个。
共性统计单元403,用于提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值;
权重计算单元404,用于计算所述共性参考值的权重值;
共性修正单元405,用于从多个用户集合中提取相应的多个个体信息的共性参考值及权重值,计算标准共性参考值,用所述标准共性参考值修正集合内相应个体信息的共性参考值;
推导单元406,用于依据所述权重值最大的共性参考值推导关联的个体信息的共性参考值;
个性修正单元407,用于依据所述共性参考值修正所述集合内用户的个体信息。
优选的,在本实施中,也可以包括将所述用户的个体信息,以及,该用户与其它用户的关系信息存储至文件或数据库中的存储单元。
应用上述系统实施例进行用户信息挖掘的过程可以包括:
步骤C1、获取单元获取用户的个体信息,以及,该用户与其它用户的关系信息;
步骤C2、集合单元生成属于相同关系信息的相应用户的集合;
步骤C3、共性统计单元提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值;
步骤C4、权重计算单元计算所述共性参考值的权重值;
步骤C5、共性修正单元以所述权重值最大的共性参考值,修正不同集合内相应个体信息的共性参考值;
步骤C6、推导单元依据所述权重值最大的共性参考值推导关联的个体信息的共性参考值;
步骤C7、个性修正单元依据所述共性参考值修正所述集合内用户相应的个体信息。
在实际中,可以根据实际需求任意执行所述步骤C5和/或步骤C6,以获得恰当的共性参考值。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见前述部分的相关描述即可。上述随意举出了本发明的几种实施例,本领域技术人员根据具体情况适当组合、选择,可以充分地发挥本发明的技术功效。基于上述实施例的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
由于图3和图4所示的系统都可以对应适用于前述的各种方法实施例中,所以描述较为简略,未详尽之处可以参见本说明书前面相应部分的描述。
以上对本发明所提供的一种用户信息挖掘方法和一种用户信息挖掘系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1、一种用户信息挖掘方法,其特征在于,包括:
获取用户的个体信息,以及,该用户与其它用户的关系信息;
生成属于相同关系信息的相应用户的集合,提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值。
2、如权利要求1所述的方法,其特征在于,还包括:
依据所述共性参考值修正所述集合内用户相应的个体信息。
3、如权利要求2所述的方法,其特征在于,所述用户集合为多个,所述的方法还包括:
计算所述共性参考值的权重值。
4、如权利要求3所述的方法,其特征在于,还包括:
从多个用户集合中提取相应的多个个体信息的共性参考值及权重值,计算标准共性参考值,用所述标准共性参考值修正集合内相应个体信息的共性参考值。
5、如权利要求4所述的方法,其特征在于,还包括:
依据所述权重值最大的共性参考值推导关联的个体信息的共性参考值。
6、如上述任一项权利要求所述的方法,其特征在于,还包括:
将所述用户的个体信息,以及,该用户与其它用户的关系信息存储至文件或数据库中。
7、如权利要求6所述的方法,其特征在于,所述统计共性参考值的步骤包括:
计算所述个体信息的平均值为共性参考值;
或者,计算符合要求的个体信息的平均值为共性参考值;
或者,统计分布概率满足一定阈值的个体信息为共性参考值。
8、如权利要求1所述的方法,其特征在于,所述个体信息包括用户基本资料信息和用户行为记录信息。
9、如权利要求2或4所述的方法,其特征在于,所述修正步骤为:
基于所述共性参考值的一定范围修正所述集合内用户相应的个体信息。
10、一种用户信息挖掘系统,其特征在于,包括:
获取单元,用于获取用户的个体信息,以及,该用户与其它用户的关系信息;
集合单元,用于生成属于相同关系信息的相应用户的集合;
共性统计单元,用于提取集合内用户的满足共性的个体信息,并统计所述个体信息的共性参考值。
11、如权利要求10所述的系统,其特征在于,还包括:
个性修正单元,用于依据所述共性参考值修正所述集合内用户相应的个体信息。
12、如权利要求11所述的系统,其特征在于,所述用户集合为多个,所述的系统还包括:
权重计算单元,用于计算所述共性参考值的权重值。
13、如权利要求12所述的系统,其特征在于,还包括:
共性修正单元,用于从多个用户集合中提取相应的多个个体信息的共性参考值及权重值,计算标准共性参考值,用所述标准共性参考值修正集合内相应个体信息的共性参考值。
14、如权利要求13所述的系统,其特征在于,还包括:
推导单元,用于依据所述权重值最大的共性参考值推导关联的个体信息的共性参考值。
15、如权利要求10、11、12、13或14所述的系统,其特征在于,还包括:
存储单元,用于将所述用户的个体信息,以及,该用户与其它用户的关系信息存储至文件或数据库中。
CN2008100969471A 2008-05-12 2008-05-12 一种用户信息挖掘方法和一种用户信息挖掘系统 Active CN101266619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100969471A CN101266619B (zh) 2008-05-12 2008-05-12 一种用户信息挖掘方法和一种用户信息挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100969471A CN101266619B (zh) 2008-05-12 2008-05-12 一种用户信息挖掘方法和一种用户信息挖掘系统

Publications (2)

Publication Number Publication Date
CN101266619A true CN101266619A (zh) 2008-09-17
CN101266619B CN101266619B (zh) 2010-07-21

Family

ID=39989034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100969471A Active CN101266619B (zh) 2008-05-12 2008-05-12 一种用户信息挖掘方法和一种用户信息挖掘系统

Country Status (1)

Country Link
CN (1) CN101266619B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024893A (zh) * 2013-01-07 2013-04-03 北京播思软件技术有限公司 利用联系人信息帮助用户快速注册的方法
CN103365875A (zh) * 2012-03-29 2013-10-23 百度在线网络技术(北京)有限公司 一种用于在当前应用中提供联系对象的方法与设备
CN103581263A (zh) * 2012-08-06 2014-02-12 华为技术有限公司 Url点击事件的识别方法、装置和服务器
CN103905507A (zh) * 2012-12-28 2014-07-02 中国移动通信集团公司 一种业务信息推荐系统及业务信息推荐方法
CN103971262A (zh) * 2013-02-05 2014-08-06 腾讯科技(深圳)有限公司 广告定向设置方法及装置
WO2015062442A1 (en) * 2013-10-31 2015-05-07 Tencent Technology (Shenzhen) Company Limited Method and apparatus for controlling display of network media information
CN105701498A (zh) * 2015-12-31 2016-06-22 腾讯科技(深圳)有限公司 一种用户分类方法及服务器
CN105718501A (zh) * 2014-12-19 2016-06-29 三星电子株式会社 电子装置及其用户简介估计方法
CN106294601A (zh) * 2016-07-28 2017-01-04 腾讯科技(深圳)有限公司 数据处理方法和装置
CN106339433A (zh) * 2016-08-18 2017-01-18 冯连元 一种基于数据中有关群体数据与个体数据交互比较平台的方法及装置
CN106713104A (zh) * 2015-08-12 2017-05-24 深圳市腾讯计算机系统有限公司 多媒体信息的推送方法和装置
CN107491509A (zh) * 2017-08-02 2017-12-19 腾讯科技(深圳)有限公司 一种用户属性信息挖掘方法、装置和介质
CN107526759A (zh) * 2016-06-21 2017-12-29 富士施乐株式会社 信息处理设备和信息处理方法
CN107609112A (zh) * 2017-09-13 2018-01-19 陈其亮 人际管理方法及服务器
CN109048889A (zh) * 2014-09-10 2018-12-21 阿里巴巴集团控股有限公司 一种人工智能设备的目标运动信息的获得方法和装置
CN110851485A (zh) * 2018-07-25 2020-02-28 百度在线网络技术(北京)有限公司 社交关系的挖掘方法及装置、计算机设备与可读介质
CN112491819A (zh) * 2017-06-26 2021-03-12 创新先进技术有限公司 识别目标团伙的方法和装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365875A (zh) * 2012-03-29 2013-10-23 百度在线网络技术(北京)有限公司 一种用于在当前应用中提供联系对象的方法与设备
CN103365875B (zh) * 2012-03-29 2018-05-11 百度在线网络技术(北京)有限公司 一种用于在当前应用中提供联系对象的方法与设备
CN103581263B (zh) * 2012-08-06 2016-12-21 华为技术有限公司 Url点击事件的识别方法、装置和服务器
CN103581263A (zh) * 2012-08-06 2014-02-12 华为技术有限公司 Url点击事件的识别方法、装置和服务器
CN103905507A (zh) * 2012-12-28 2014-07-02 中国移动通信集团公司 一种业务信息推荐系统及业务信息推荐方法
CN103024893A (zh) * 2013-01-07 2013-04-03 北京播思软件技术有限公司 利用联系人信息帮助用户快速注册的方法
CN103971262A (zh) * 2013-02-05 2014-08-06 腾讯科技(深圳)有限公司 广告定向设置方法及装置
WO2015062442A1 (en) * 2013-10-31 2015-05-07 Tencent Technology (Shenzhen) Company Limited Method and apparatus for controlling display of network media information
CN109048889B (zh) * 2014-09-10 2021-03-23 创新先进技术有限公司 一种人工智能设备的目标运动信息的获得方法和装置
CN109048889A (zh) * 2014-09-10 2018-12-21 阿里巴巴集团控股有限公司 一种人工智能设备的目标运动信息的获得方法和装置
CN105718501A (zh) * 2014-12-19 2016-06-29 三星电子株式会社 电子装置及其用户简介估计方法
CN106713104A (zh) * 2015-08-12 2017-05-24 深圳市腾讯计算机系统有限公司 多媒体信息的推送方法和装置
CN105701498A (zh) * 2015-12-31 2016-06-22 腾讯科技(深圳)有限公司 一种用户分类方法及服务器
CN105701498B (zh) * 2015-12-31 2021-09-07 腾讯科技(深圳)有限公司 一种用户分类方法及服务器
CN107526759A (zh) * 2016-06-21 2017-12-29 富士施乐株式会社 信息处理设备和信息处理方法
CN107526759B (zh) * 2016-06-21 2023-08-18 富士胶片商业创新有限公司 信息处理设备和信息处理方法
CN106294601B (zh) * 2016-07-28 2020-11-10 腾讯科技(深圳)有限公司 数据处理方法和装置
CN106294601A (zh) * 2016-07-28 2017-01-04 腾讯科技(深圳)有限公司 数据处理方法和装置
CN106339433B (zh) * 2016-08-18 2021-08-24 冯连元 一种基于数据中有关群体数据与个体数据交互比较平台的方法及装置
CN106339433A (zh) * 2016-08-18 2017-01-18 冯连元 一种基于数据中有关群体数据与个体数据交互比较平台的方法及装置
CN112491819B (zh) * 2017-06-26 2022-09-20 创新先进技术有限公司 识别目标团伙的方法和装置
CN112491819A (zh) * 2017-06-26 2021-03-12 创新先进技术有限公司 识别目标团伙的方法和装置
CN107491509A (zh) * 2017-08-02 2017-12-19 腾讯科技(深圳)有限公司 一种用户属性信息挖掘方法、装置和介质
CN107491509B (zh) * 2017-08-02 2018-08-21 腾讯科技(深圳)有限公司 一种用户属性信息挖掘方法、装置和介质
CN107609112A (zh) * 2017-09-13 2018-01-19 陈其亮 人际管理方法及服务器
CN110851485A (zh) * 2018-07-25 2020-02-28 百度在线网络技术(北京)有限公司 社交关系的挖掘方法及装置、计算机设备与可读介质
CN110851485B (zh) * 2018-07-25 2022-07-22 百度在线网络技术(北京)有限公司 社交关系的挖掘方法及装置、计算机设备与可读介质

Also Published As

Publication number Publication date
CN101266619B (zh) 2010-07-21

Similar Documents

Publication Publication Date Title
CN101266619B (zh) 一种用户信息挖掘方法和一种用户信息挖掘系统
Ratkiewicz et al. Truthy: mapping the spread of astroturf in microblog streams
KR101475682B1 (ko) 네트워크에서 프렌드 피드를 관리하는 방법, 시스템 및 서버
Li et al. A new QoS-aware web service recommendation system based on contextual feature recognition at server-side
Mooney et al. How social is OpenStreetMap
Abrol et al. Tweethood: Agglomerative clustering on fuzzy k-closest friends with variable depth for location mining
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN110489558B (zh) 文章聚合方法和装置、介质和计算设备
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN102708130A (zh) 计算用户微细分以用于要约匹配的可扩展引擎
CN106557513A (zh) 事件信息推送方法及事件信息推送装置
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
Liang et al. Inferring dynamic user interests in streams of short texts for user clustering
CN104376058A (zh) 用户兴趣模型更新方法及相关装置
Pellegrino et al. GEval: a modular and extensible evaluation framework for graph embedding techniques
Rani et al. A survey of tools for social network analysis
CN114637903A (zh) 一种针对定向目标数据拓展的舆情数据采集系统
Ouaftouh et al. Social recommendation: A user profile clustering‐based approach
Bai et al. A rumor detection model incorporating propagation path contextual semantics and user information
El Fazziki et al. A multi-agent based social crm framework for extracting and analysing opinions
Li et al. Text similarity computation model for identifying rumor based on bayesian network in microblog.
Xhafa et al. Using bi-clustering algorithm for analyzing online users activity in a virtual campus
Wang et al. Public opinion dissemination on mobile internet-a case of Ebola
Kaufhold et al. Big data and multi-platform social media services in disaster management
KR20230099822A (ko) Ai기반의 시장 조사 보고서 작성 시스템 및 이를 이용한 시장 조사 보고서 작성 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant