CN104298751A - 互联网虚拟身份特征信息的获取方法及装置 - Google Patents
互联网虚拟身份特征信息的获取方法及装置 Download PDFInfo
- Publication number
- CN104298751A CN104298751A CN201410542735.7A CN201410542735A CN104298751A CN 104298751 A CN104298751 A CN 104298751A CN 201410542735 A CN201410542735 A CN 201410542735A CN 104298751 A CN104298751 A CN 104298751A
- Authority
- CN
- China
- Prior art keywords
- virtual identity
- internet virtual
- internet
- identity
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种互联网虚拟身份特征信息的获取方法及装置,其方法包括:利用网络采集工具采集互联网虚拟身份的网络数据源;对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。本发明通过网络采集工具采集互联网虚拟身份的网络数据源,能全面收集互联网虚拟身份的网络原始数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注主题信息的特征信息,更加准确的反映了不同互联网虚拟身份的网络需求、行为等特征,为研究互联网虚拟身份的网络行为打下良好的基础。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种互联网虚拟身份特征信息的获取方法及装置。
背景技术
随着网络技术的飞速发展,互联网已经成为人们日常工作和生活的重要平台,我国网民数量也已经达到数亿的规模。面对日益庞大的互联网虚拟身份数量,需对其进行有效监管。而监管的基础则在于准确全面的获取互联网虚拟身份的各种特征信息,包括个体特征和社会网络关系特征等信息,从而能采取针对性的应对措施,这对国家安全和社会稳定都有着重大意义,如通过分析不同互联网虚拟身份的社会网络关系,可以发现某些不利于社会稳定的谣言的传播模式,并根据互联网虚拟身份之间的关系进行追踪和阻断。
面对海量分布的网上行为数据和网络内容信息,现有技术中获取互联网虚拟身份特征信息的方法主要是通过网络流量探针来获取原始数据,再根据获取的原始数据进行简单的查询和匹配,但由于网络流量探针所能获取的网络流量数据有限,其分析计算能力也有局限性,尤其是对Web访问数据的获取能力比较弱,因此网络流量探针无法全面的收集反映互联网虚拟身份特征信息的数据,获取的原始数据来源单一,致使获取的原始数据不完整且存在大量噪音数据,也使得后续的查询和匹配缺乏深度的内容挖掘和关系挖掘。
发明内容
本发明的主要目的在于提供一种互联网虚拟身份特征信息的获取方法及装置,旨在全面准确的获取互联网虚拟身份的特征信息。
为了达到上述目的,本发明提出一种互联网虚拟身份特征信息的获取方法,包括:
利用网络采集工具采集互联网虚拟身份的网络数据源;
对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。
优选地,所述利用网络采集工具采集互联网虚拟身份的网络数据源的步骤包括:
通过网络采集工具获取互联网虚拟身份的上网行为数据、内容数据及虚拟身份数据,其中,所述网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习;
根据所述上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。
优选地,所述对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息的步骤包括:
基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据;
根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题信息。
优选地,所述对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息的步骤之后还包括:
根据标注的主题信息提取不同互联网虚拟身份之间的关系特征;
根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区;
根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
优选地,所述根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区的步骤包括:
根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值;
基于双向意识关系值,采用网页排名算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合;
根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。
本发明还提出一种获取互联网虚拟身份特征信息的装置,包括:
采集模块,用于利用网络采集工具采集互联网虚拟身份的网络数据源;
标注获取模块,用于对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。
优选地,所述采集模块用于:
通过网络采集工具获取互联网虚拟身份的上网行为数据、内容数据及虚拟身份数据,其中,所述网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习;根据所述上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。
优选地,所述标注获取模块包括:
挖掘单元,用于基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据;
标注单元,用于根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题信息。
优选地,该获取互联网虚拟身份特征信息的装置还包括:
虚拟社区识别模块,用于根据标注的主题信息提取不同互联网虚拟身份之间的关系特征,根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区,并根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
优选地,所述虚拟社区识别模块用于:
根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值;基于双向意识关系值,采用网页排名算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合;根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。
本发明提出的一种互联网虚拟身份特征信息的获取方法及装置,通过网络采集工具采集互联网虚拟身份的网络数据源,能全面收集互联网虚拟身份的网络原始数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注主题信息的特征信息,更加准确的反映了不同互联网虚拟身份的网络需求、行为等特征,为研究互联网虚拟身份的网络行为打下良好的基础。
附图说明
图1是本发明互联网虚拟身份特征信息的获取方法第一实施例的流程示意图;
图2是本发明互联网虚拟身份特征信息的获取方法第一实施例中利用网络采集工具采集互联网虚拟身份的网络数据源的示意图;
图3是本发明互联网虚拟身份特征信息的获取方法第一实施例中主题爬虫的爬行过程示意图;
图4是图1中步骤S102的细化流程图;
图5是本发明互联网虚拟身份特征信息的获取方法第二实施例的流程示意图;
图6是本发明获取互联网虚拟身份特征信息的装置第一实施例的结构示意图;
图7是本发明获取互联网虚拟身份特征信息的装置第一实施例中标注获取模块的结构示意图;
图8是本发明获取互联网虚拟身份特征信息的装置第二实施例的结构示意图。
为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
具体实施方式
本发明较佳实施例的解决方案主要是:通过网络采集工具采集互联网虚拟身份的网络数据源,能收集互联网虚拟身份的网络虚拟身份数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注主题信息的特征信息,更加准确的反映了不同互联网虚拟身份的网络需求、行为等特征,为研究互联网虚拟身份的网络行为打下良好的基础。
如图1所示,本发明第一实施例提出一种互联网虚拟身份特征信息的获取方法,包括:
步骤S101,利用网络采集工具采集互联网虚拟身份的网络数据源;
目前,互联网虚拟身份特征提取的数据源主要来自于网络流量探针,这种单一的数据源获取模式存在着一个重要的缺陷:网络流量探针所能获取的网络流量数据有限,其分析计算能力也有局限性,尤其是对Web访问数据的获取能力比较弱,因此有关互联网虚拟身份的内容数据无法全面的收集,同时一些新的网络虚拟身份(特别是Web 2.0应用中的博客、播客、拍客等)相关的特征数据也就无法有效获取。针对该缺陷,本实施例中利用网络采集工具采集互联网虚拟身份的网络数据源,通过网络采集工具获取互联网虚拟身份的上网行为数据及对应的内容数据和虚拟身份数据,采集所述上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。
具体地,如图2所示,图2是本发明互联网虚拟身份特征信息的获取方法第一实施例中利用网络采集工具采集互联网虚拟身份的网络数据源的示意图;
首先,通过网络采集工具获取网络虚拟身份数据(特别是行为数据)及相对应的内容数据(如访问的网站内容),同时网络采集工具还可以主动收集基于Web的虚拟身份数据,如博客、校内网、淘宝等数据。这样,就为互联网虚拟身份特征提取提供了全面、综合的网络数据源,进一步地,还可对获取的网络数据源进行噪音过滤、异构数据整合等数据集成操作,不仅保证了网络数据源中数据的完整性,还确保了数据的高质量。
其中,本实施例中的网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习。
具体地,主题爬虫的主要目标是用最小的爬行代价(计算和网络资源)获得最多的Web页面。如果把整个Web看作是一个有向图(页面是节点,超链接是有向边),那么主题爬虫的爬行过程可以看作是一个选择性爬行的过程,主题爬虫的输入包括预定义的样本页面及其元数据特征(如URL模式、页面中的特征词)和一些初始种子URL。系统从初始种子URL出发,沿着收集到的页面上的超链接在线遍历Web。在遍历时,系统对预定义的样本信息进行学习,然后将学习的结果用于在线分析已收集的页面是否是主题相关页面,并基于相关度分析结果将URL队列中未爬行的超链接通过特定的超链接分析算法进行排序,使最有可能是主题相关页面的URL得以优先获取(即爬行)。可以看出,为了使爬行过程能具有选择性,需要有一个主题相关度评价器来分析该页面是否为主题相关页面,以及一个超链接评价器用来评价候选URL的爬行优先级(Crawling Priority),它们直接控制了主题爬虫的爬行策略。因此,主题相关度评价器与超链接评价器的学习能力和预测的准确性决定了主题爬虫。为此,本实施例中提出了一种基于增量学习的主题爬虫模型,这种模型的主要思想是采取一种增量学习、知识积累、渐进爬行的机制。这种机制使每次爬行过程不是从零开始,而是已经基于以往的知识、经验的积累。因此,经过不断的增量学习,主题爬虫的爬行性能将会随着知识库的增长而不断提高。
如图3所示,图3是本发明互联网虚拟身份特征信息的获取方法第一实施例中主题爬虫的爬行过程示意图;整个爬行过程是由一系列的迭代子过程组成的,每个子过程包括聚焦爬虫的爬行、爬行结果的挖掘、爬行知识库的更新,以及聚焦爬行模块中的主题相关度评价器和超链接评价器的增量学习四个过程,通过迭代的更新爬行知识库来逐步优化主题爬虫的爬行策略。
步骤S102,对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。
在互联网虚拟身份的各种特征信息中,除了帐号名、性别、年龄等基本特征外,行为特征、兴趣特征、需求特征对于网络信息安全和网络营销应用是最核心、最重要的信息。人的行为主要是受兴趣和需求所驱动的,因此要想全面深入的描述与现实的人或实体相对应的互联网虚拟身份,就需要分析他们的兴趣和需求,而互联网虚拟身份的兴趣和需求通常表现在他们获取、发布和交流的信息上,更具体的说是表现在信息的“主题”上,即互联网虚拟身份关心的信息主题直接或间接的反映了他们的兴趣或需求,例如一个人如果对篮球运动感兴趣,那么他可能会经常浏览一些NBA相关主题的新闻,这样,通过其关注的主题信息为NBA,即可获知其兴趣特征。因此,本实施例中将获取互联网虚拟身份兴趣、需求、行为等特征信息的问题转化为主题标注的问题,对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,即可获取互联网虚拟身份的兴趣、需求、行为等特征信息,更加准确、全面。
具体地,如图4所示,上述步骤S102可以包括:
步骤S1021,基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据;
步骤S1022,根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题信息。
在针对不同的互联网虚拟身份进行主题信息标注时,首先,基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据。利用互联网虚拟身份的网络数据包含多种特征的特性,对每个互联网虚拟身份样本或待分类实例(Classification Instance)的特征集进行分解,形成多个元实例(meta-instance)。构造元实例的方法主要有三种,主要是按照特征类型来划分:每个样本的内容特征、样本的关系结构特征、互联网虚拟身份关系的上下文内容特征。在元实例上进行分类器的训练,使原样本集变成了多个元实例样本集,从而通过学习算法的学习可以生成多个分类器。另外,在实际的应用中还可以将不同的元实例样本集合并起来形成一个样本集,使单个样本集包含了多侧面的信息。这样,通过多分类器集成技术对所述网络数据源进行分析,即可充分挖掘采集的多源网络数据提供的多侧面数据(包括内容数据等),从而能对互联网虚拟身份的主题信息进行更准确的识别和标注。
用学习生成的多个分类器对未知类别的虚拟实例进行分类,首先,待分类的虚拟实例要进行元实例构造,表示成多个元实例,然后输入到相应的分类器中进行分类,而每个分类器将分类结果再输入到仲裁器中。仲裁器再根据集成函数综合各个成员分类器的分类结果,最终确定待分类的虚拟实例的类别。其中,集成函数采用了加权选举法,各种分类器的权重参数是通过交叉验证方法计算得到的。由此,即可根据所述多侧面数据进行主题分类并针对不同的虚拟实例即互联网虚拟身份标注相应的主题信息。
如图5所示,本发明第二实施例提出一种互联网虚拟身份特征信息的获取方法,在上述实施例的基础上,在上述步骤S102之后,还包括:
步骤S103,根据标注的主题信息提取不同互联网虚拟身份之间的关系特征,根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区,并根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
本实施例与上述实施例的区别在于:本实施例在对不同的互联网虚拟身份标注相应的主题信息后,进一步地,根据标注的主题信息提取不同互联网虚拟身份之间的关系特征,根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区,并根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
互联网虚拟身份是代表现实社会中的个人或实体的,他们首先具有社会性,通常会根据共同的兴趣自发的形成基于某个(些)主题/话题的网上虚拟社区,因此由互联网虚拟身份自组织的虚拟社区是形成互联网虚拟身份社会关系的最主要形式,而互联网虚拟身份之间的社会网络关系是一种体现互联网虚拟身份的重要特征信息。
由于互联网虚拟身份之间社会关系的形成是基于共同的兴趣爱好即共同主题的,因此,可根据各个互联网虚拟身份标注的主题信息提取不同互联网虚拟身份之间的关系特征,再根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值;由于双向意识关系的影响因素包括关系种类、关系次数、时间以及关系的主题特征等,所以通过关系特征提取技术要获取这些特征信息,根据关系特征信息计算互联网虚拟身份之间的双向意识关系值,最后以矩阵的形式输出各互联网虚拟身份之间的双向关系值。由于每一个关系对双向意识关系的贡献程度不同,所以将关系分成两类计算,最后再融合获得总的双向意识关系值。双向意识关系的计算不仅与关系的种类与次数有关,还与时间和关系的主题特征有关。在计算双向意识关系时,任何关系的贡献程度是随时间递减的,并且以关系的主题特征作为一个权重变量,可提高计算结果的稳定性。
基于计算得到的双向意识关系值,采用网页排名算法即PageRank算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合;根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。具体地,选取PageRank值高的互联网虚拟身份作为社区发现算法的种子集合,最后采用关联聚类算法进行社区发现。本实施例中,虚拟社区内部互联网虚拟身份之间的关系强度由关联系数表示,而关联系数是与互联网虚拟身份的PageRank值有关的。关联聚类社区发现算法首先从一个种子集合出发,该种子集合内的每一个互联网虚拟身份代表一个社区,然后通过比较一个互联网虚拟身份与种子集合之间的关联系数,将该互联网虚拟身份划分到相关社区中。互联网虚拟身份的排序算法是基于pagerank算法,并且结合了共有意识关系值,使得关系有了权值。通过该算法可以排列出影响力高的互联网虚拟身份,并且为聚类算法的关联系数计算做好准备。种子集合的选择是聚类算法准备数据阶段,由于聚类算法是基于关联系数将待定互联网虚拟身份合并到虚拟社区内的,所以种子集合的选取必须满足一个条件,即种子集合中互联网虚拟身份之间最终属于同一个虚拟社区的概率必须要小。基于这个条件能避免最终仅得到一个虚拟社区。关联聚类通过计算待定互联网虚拟身份与种子集合的关联系数,将该互联网虚拟身份归类到相关的社区。由此,即可识别发现不同互联网虚拟身份组成的虚拟社区,根据发现的虚拟社区即可提取出互联网虚拟身份的社会网络关系特征信息。
在其他可选实施方式中,进一步地,还可利用互联网虚拟身份的主题信息对虚拟社区进一步的进行划分。由于上述虚拟社区是以关系特征为主要的提取标准,因此,上述虚拟社区中可能包含多个主题,为了发现基于主题的虚拟社区,那么就需要对所有发现的虚拟社区进行主题分布分析,利用互联网虚拟身份的主题信息进一步提取出基于主题的虚拟社区,对互联网虚拟身份的社会网络关系特征信息的提取更加细致、准确。
获取到互联网虚拟身份的特征信息及社会网络关系特征信息后,可构建丰富、准确的互联网虚拟身份特征数据仓库,利用该特征数据仓库,可以通过简单的查询(类似SQL查询)实现各种互联网虚拟身份特征的检索和智能分析功能。
如图6所示,本发明第一实施例提出一种获取互联网虚拟身份特征信息的装置,包括:采集模块601及标注获取模块602,其中:
采集模块601,用于利用网络采集工具采集互联网虚拟身份的网络数据源;
目前,互联网虚拟身份特征提取的数据源主要来自于网络流量探针,这种单一的数据源获取模式存在着一个重要的缺陷:网络流量探针所能获取的网络流量数据有限,其分析计算能力也有局限性,尤其是对Web访问数据的获取能力比较弱,因此有关互联网虚拟身份的内容数据无法全面的收集,同时一些新的网络虚拟身份(特别是Web 2.0应用中的博客、播客、拍客等)相关的特征数据也就无法有效获取。针对该缺陷,本实施例中利用网络采集工具采集互联网虚拟身份的网络数据源,通过网络采集工具获取互联网虚拟身份的虚拟身份数据,采集上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。
具体地,首先,通过网络采集工具获取基本的网络虚拟身份数据(特别是行为数据),然后获取相对应的内容数据(如访问的网站内容),同时网络采集工具还可以主动收集基于Web的虚拟身份数据,如博客、校内网、淘宝等数据。这样,就为互联网虚拟身份特征提取提供了全面、综合的网络数据源,进一步地,还可对获取的网络数据源进行噪音过滤、异构数据整合等数据集成操作,不仅保证了网络数据源中数据的完整性,还确保了数据的高质量。
其中,本实施例中的网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习。
具体地,主题爬虫的主要目标是用最小的爬行代价(计算和网络资源)获得最多的Web页面。如果把整个Web看作是一个有向图(页面是节点,超链接是有向边),那么主题爬虫的爬行过程可以看作是一个选择性爬行的过程,主题爬虫的输入包括预定义的样本页面及其元数据特征(如URL模式、页面中的特征词)和一些初始种子URL。系统从初始种子URL出发,沿着收集到的页面上的超链接在线遍历Web。在遍历时,系统对预定义的样本信息进行学习,然后将学习的结果用于在线分析已收集的页面是否是主题相关页面,并基于相关度分析结果将URL队列中未爬行的超链接通过特定的超链接分析算法进行排序,使最有可能是主题相关页面的URL得以优先获取(即爬行)。可以看出,为了使爬行过程能具有选择性,需要有一个主题相关度评价器来分析该页面是否为主题相关页面,以及一个超链接评价器用来评价候选URL的爬行优先级(Crawling Priority),它们直接控制了主题爬虫的爬行策略。因此,主题相关度评价器与超链接评价器的学习能力和预测的准确性决定了主题爬虫。为此,本实施例中提出了一种基于增量学习的主题爬虫模型,这种模型的主要思想是采取一种增量学习、知识积累、渐进爬行的机制。这种机制使每次爬行过程不是从零开始,而是已经基于以往的知识、经验的积累。因此,经过不断的增量学习,主题爬虫的爬行性能将会随着知识库的增长而不断提高。
整个爬行过程是由一系列的迭代子过程组成的,每个子过程包括聚焦爬虫的爬行、爬行结果的挖掘、爬行知识库的更新,以及聚焦爬行模块中的主题相关度评价器和超链接评价器的增量学习四个过程,通过迭代的更新爬行知识库来逐步优化主题爬虫的爬行策略。
标注获取模块602,用于对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。
在互联网虚拟身份的各种特征信息中,除了帐号名、性别、年龄等基本特征外,行为特征、兴趣特征、需求特征对于网络信息安全和网络营销应用是最核心、最重要的信息。人的行为主要是受兴趣和需求所驱动的,因此要想全面深入的描述与现实的人或实体相对应的互联网虚拟身份,就需要分析他们的兴趣和需求,而互联网虚拟身份的兴趣和需求通常表现在他们获取、发布和交流的信息上,更具体的说是表现在信息的“主题”上,即互联网虚拟身份关心的信息主题直接或间接的反映了他们的兴趣或需求,例如一个人如果对篮球运动感兴趣,那么他可能会经常浏览一些NBA相关主题的新闻,这样,通过其关注的主题信息为NBA,即可获知其兴趣特征。因此,本实施例中将获取互联网虚拟身份兴趣、需求、行为等特征信息的问题转化为主题标注的问题,对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,即可获取互联网虚拟身份的兴趣、需求、行为等特征信息,更加准确、全面。
具体地,如图7所示,上述标注获取模块602可以包括:
挖掘单元6021,用于基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据;
标注单元6022,用于根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题信息。
在针对不同的互联网虚拟身份进行主题信息标注时,首先,基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据。利用互联网虚拟身份的网络数据包含多种特征的特性,对每个互联网虚拟身份样本或待分类实例的特征集进行分解,形成多个元实例。构造元实例的方法主要有三种,主要是按照特征类型来划分:每个样本的内容特征、样本的关系结构特征、互联网虚拟身份关系的上下文内容特征。在元实例上进行分类器的训练,使原样本集变成了多个元实例样本集,从而通过学习算法的学习可以生成多个分类器。另外,在实际的应用中还可以将不同的元实例样本集合并起来形成一个样本集,使单个样本集包含了多侧面的信息。这样,通过多分类器集成技术对所述网络数据源进行分析,即可充分挖掘采集的多源网络数据提供的多侧面数据(包括内容数据等),从而能对互联网虚拟身份的主题信息进行更准确的识别和标注。
用学习生成的多个分类器对未知类别的虚拟实例进行分类,首先,待分类的虚拟实例要进行元实例构造,表示成多个元实例,然后输入到相应的分类器中进行分类,而每个分类器将分类结果再输入到仲裁器中。仲裁器再根据集成函数综合各个成员分类器的分类结果,最终确定待分类的虚拟实例的类别。其中,集成函数采用了加权选举法,各种分类器的权重参数是通过交叉验证方法计算得到的。由此,即可根据所述多侧面数据进行主题分类并针对不同的虚拟实例即互联网虚拟身份标注相应的主题信息。
如图8所示,本发明第二实施例提出一种获取互联网虚拟身份特征信息的装置,在上述实施例的基础上,还包括:
虚拟社区识别模块603,用于根据标注的主题信息提取不同互联网虚拟身份之间的关系特征,根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区,并根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
本实施例与上述实施例的区别在于:本实施例在对不同的互联网虚拟身份标注相应的主题信息后,进一步地,根据标注的主题信息提取不同互联网虚拟身份之间的关系特征,根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区,并根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
互联网虚拟身份是代表现实社会中的个人或实体的,他们首先具有社会性,通常会根据共同的兴趣自发的形成基于某个(些)主题/话题的网上虚拟社区,因此由互联网虚拟身份自组织的虚拟社区是形成互联网虚拟身份社会关系的最主要形式,而互联网虚拟身份之间的社会网络关系是一种体现互联网虚拟身份的重要特征信息。
由于互联网虚拟身份之间社会关系的形成是基于共同的兴趣爱好即共同主题的,因此,可根据各个互联网虚拟身份标注的主题信息提取不同互联网虚拟身份之间的关系特征,再根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值;由于双向意识关系的影响因素包括关系种类、关系次数、时间以及关系的主题特征等,所以通过关系特征提取技术要获取这些特征信息,根据关系特征信息计算互联网虚拟身份之间的双向意识关系值,最后以矩阵的形式输出各互联网虚拟身份之间的双向关系值。由于每一个关系对双向意识关系的贡献程度不同,所以将关系分成两类计算,最后再融合获得总的双向意识关系值。双向意识关系的计算不仅与关系的种类与次数有关,还与时间和关系的主题特征有关。在计算双向意识关系时,任何关系的贡献程度是随时间递减的,并且以关系的主题特征作为一个权重变量,可提高计算结果的稳定性。
基于计算得到的双向意识关系值,采用网页排名算法即PageRank算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合;根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。具体地,选取PageRank值高的互联网虚拟身份作为社区发现算法的种子集合,最后采用关联聚类算法进行社区发现。本实施例中,虚拟社区内部互联网虚拟身份之间的关系强度由关联系数表示,而关联系数是与互联网虚拟身份的PageRank值有关的。关联聚类社区发现算法首先从一个种子集合出发,该种子集合内的每一个互联网虚拟身份代表一个社区,然后通过比较一个互联网虚拟身份与种子集合之间的关联系数,将该互联网虚拟身份划分到相关社区中。互联网虚拟身份的排序算法是基于pagerank算法,并且结合了共有意识关系值,使得关系有了权值。通过该算法可以排列出影响力高的互联网虚拟身份,并且为聚类算法的关联系数计算做好准备。种子集合的选择是聚类算法准备数据阶段,由于聚类算法是基于关联系数将待定互联网虚拟身份合并到虚拟社区内的,所以种子集合的选取必须满足一个条件,即种子集合中互联网虚拟身份之间最终属于同一个虚拟社区的概率必须要小。基于这个条件能避免最终仅得到一个虚拟社区。关联聚类通过计算待定互联网虚拟身份与种子集合的关联系数,将该互联网虚拟身份归类到相关的社区。由此,即可识别发现不同互联网虚拟身份组成的虚拟社区,根据发现的虚拟社区即可提取出互联网虚拟身份的社会网络关系特征信息。
在其他可选实施方式中,进一步地,还可利用互联网虚拟身份的主题信息对虚拟社区进一步的进行划分。由于上述虚拟社区是以关系特征为主要的提取标准,因此,上述虚拟社区中可能包含多个主题,为了发现基于主题的虚拟社区,那么就需要对所有发现的虚拟社区进行主题分布分析,利用互联网虚拟身份的主题信息进一步提取出基于主题的虚拟社区,对互联网虚拟身份的社会网络关系特征信息的提取更加细致、准确。
获取到互联网虚拟身份的特征信息及社会网络关系特征信息后,可构建丰富、准确的互联网虚拟身份特征数据仓库,利用该特征数据仓库,可以通过简单的查询(类似SQL查询)实现各种互联网虚拟身份特征的检索和智能分析功能。
上述互联网虚拟身份特征信息的获取方法及装置,通过网络采集工具采集互联网虚拟身份的网络数据源,能全面收集互联网虚拟身份的网络原始数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注主题信息的特征信息,更加准确的反映了不同互联网虚拟身份的网络需求、行为等特征,为研究互联网虚拟身份的网络行为打下良好的基础。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种互联网虚拟身份特征信息的获取方法,其特征在于,包括:
利用网络采集工具采集互联网虚拟身份的网络数据源;
对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述利用网络采集工具采集互联网虚拟身份的网络数据源的步骤包括:
通过网络采集工具获取互联网虚拟身份的上网行为数据、内容数据及虚拟身份数据,其中,所述网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习;
根据所述上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。
3.根据权利要求2所述的方法,其特征在于,所述对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息的步骤包括:
基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据;
根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题信息。
4.根据权利要求3所述的方法,其特征在于,所述对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息的步骤之后还包括:
根据标注的主题信息提取不同互联网虚拟身份之间的关系特征;
根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区;
根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
5.根据权利要求4所述的方法,其特征在于,所述根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区的步骤包括:
根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值;
基于双向意识关系值,采用网页排名算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合;
根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。
6.一种获取互联网虚拟身份特征信息的装置,其特征在于,包括:
采集模块,用于利用网络采集工具采集互联网虚拟身份的网络数据源;
标注获取模块,用于对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。
7.根据权利要求6所述的装置,其特征在于,所述采集模块用于:
通过网络采集工具获取互联网虚拟身份的上网行为数据、内容数据及虚拟身份数据,其中,所述网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习;根据所述上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。
8.根据权利要求7所述的装置,其特征在于,所述标注获取模块包括:
挖掘单元,用于基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据;
标注单元,用于根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题信息。
9.根据权利要求8所述的装置,其特征在于,还包括:
虚拟社区识别模块,用于根据标注的主题信息提取不同互联网虚拟身份之间的关系特征,根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区,并根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。
10.根据权利要求9所述的装置,其特征在于,所述虚拟社区识别模块用于:
根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值;基于双向意识关系值,采用网页排名算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合;根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410542735.7A CN104298751A (zh) | 2014-10-14 | 2014-10-14 | 互联网虚拟身份特征信息的获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410542735.7A CN104298751A (zh) | 2014-10-14 | 2014-10-14 | 互联网虚拟身份特征信息的获取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104298751A true CN104298751A (zh) | 2015-01-21 |
Family
ID=52318476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410542735.7A Pending CN104298751A (zh) | 2014-10-14 | 2014-10-14 | 互联网虚拟身份特征信息的获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104298751A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107395421A (zh) * | 2017-07-27 | 2017-11-24 | 浙江宇视科技有限公司 | 采集方法及系统 |
CN109002856A (zh) * | 2018-07-20 | 2018-12-14 | 西安交通大学 | 一种基于随机游走的流量特征自动生成方法与系统 |
CN110232087A (zh) * | 2019-05-30 | 2019-09-13 | 湖南大学 | 大数据增量迭代方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655868A (zh) * | 2009-09-03 | 2010-02-24 | 中国人民解放军信息工程大学 | 网络数据挖掘方法、网络数据推送方法及设备 |
US8489568B2 (en) * | 2008-05-12 | 2013-07-16 | Canon Kabushiki Kaisha | Data acquisition apparatus and data acquisition method |
CN103761296A (zh) * | 2014-01-20 | 2014-04-30 | 北京集奥聚合科技有限公司 | 移动终端用户网络行为分析方法及系统 |
-
2014
- 2014-10-14 CN CN201410542735.7A patent/CN104298751A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8489568B2 (en) * | 2008-05-12 | 2013-07-16 | Canon Kabushiki Kaisha | Data acquisition apparatus and data acquisition method |
CN101655868A (zh) * | 2009-09-03 | 2010-02-24 | 中国人民解放军信息工程大学 | 网络数据挖掘方法、网络数据推送方法及设备 |
CN103761296A (zh) * | 2014-01-20 | 2014-04-30 | 北京集奥聚合科技有限公司 | 移动终端用户网络行为分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
高兆琼: ""基于增量学习的主题爬行策略研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107395421A (zh) * | 2017-07-27 | 2017-11-24 | 浙江宇视科技有限公司 | 采集方法及系统 |
CN109002856A (zh) * | 2018-07-20 | 2018-12-14 | 西安交通大学 | 一种基于随机游走的流量特征自动生成方法与系统 |
CN110232087A (zh) * | 2019-05-30 | 2019-09-13 | 湖南大学 | 大数据增量迭代方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN109034448B (zh) | 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法 | |
López-Robles et al. | Understanding the intellectual structure and evolution of Competitive Intelligence: A bibliometric analysis from 1984 to 2017 | |
CN104239436B (zh) | 一种基于文本分类和聚类分析的网络热点事件发现方法 | |
CN110781308B (zh) | 一种基于大数据构建知识图谱的反欺诈系统 | |
CN104346425B (zh) | 一种层次化的互联网舆情指标体系的方法及系统 | |
CN103294816A (zh) | 一种为求职者推荐职位的方法和职位推荐系统 | |
CN105718587A (zh) | 一种网络内容资源评估方法及评估系统 | |
CN103902597A (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
CN110990718B (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
CN103440328B (zh) | 一种基于鼠标行为的用户分类方法 | |
CN111709714A (zh) | 基于人工智能的流失人员预测方法和装置 | |
Zhang | Application of data mining technology in digital library. | |
Sujatha | Improved user navigation pattern prediction technique from web log data | |
CN112395513A (zh) | 一种舆情传播力分析方法 | |
CN105512224A (zh) | 基于光标位置序列的搜索引擎用户满意度自动评估方法 | |
CN104298751A (zh) | 互联网虚拟身份特征信息的获取方法及装置 | |
Guo et al. | Network representation learning based on community-aware and adaptive random walk for overlapping community detection | |
CN103425748B (zh) | 一种文档资源建议词的挖掘方法和装置 | |
CN111159559A (zh) | 根据用户需求和用户行为构建推荐引擎的方法 | |
Zubi et al. | Using data mining techniques to analyze crime patterns in the libyan national crime data | |
CN112989034A (zh) | 基于开源信息的社会服务工作定量跟踪评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150121 |
|
RJ01 | Rejection of invention patent application after publication |