CN111177526B

CN111177526B - 网络意见领袖识别方法及装置

Info

Publication number: CN111177526B
Application number: CN201811339804.9A
Authority: CN
Inventors: 石逸轩; 戴明洋; 潘剑飞; 周俊; 罗程亮; 许金泉; 陈家伟; 王栋; 刘少杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2023-08-15
Anticipated expiration: 2038-11-12
Also published as: CN111177526A

Abstract

本发明实施例提供一种网络意见领袖识别方法及装置，属于网络领域。所述方法包括：对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据；根据所述关系数据计算预定的网络指标，其中，所述网络指标是用于表征关系数据中用户的重要性的指标；对所述数据源的所述用户的所述行为数据进行主题分类；以及根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数，以识别针对不同主题的意见领袖。通过将主题类型与用户的意见领袖分数相关联，使得能够快速、准确地识别出针对特定主题分类的意见领袖。

Description

网络意见领袖识别方法及装置

技术领域

本发明涉及网络领域，具体地，涉及一种网络意见领袖识别方法及装置。

背景技术

随着近些年来互联网及信息技术的发展，人与人之间的交流越来越密切，交流的种类和数量都有了爆炸式的发展。互联网公司、研究机构的研究人员都在尝试从这些大量交流数据中推断出有意义的信息，其中最重要的应用之一是在这些错综复杂的网络中找到意见领袖。该成果可用于许多目的，例如：用户或内容推荐、网络营销、用户建模、理解和控制网络中信息的传播等。

意见领袖这一称呼，是由美国人拉扎斯菲尔德等在《人民的选择》一书中提出，最早是用于传播学、媒体学等领域。传统意见领袖，被认为媒体和一般人群间的桥梁，舆论中的观点和意见由媒体等源头流向意见领袖，再由意见领袖流向其他人群。传统意见领袖往往属于学位高、有身份的人与，而互联网中的意见领袖的个人信息是隐含的。因此，传统基于问卷、量表之类的识别意见领袖的调查方式不适用于网络场景下的分析。因此有必要提出方法来处理网络社交关系场景下的意见领袖识别任务。

相关技术中，识别网络意见领袖技术一般从以下几个角度来进行：(1)从原始问卷、量表等方式发展而来，统计网络用户的各项能够抓取的指标，建立模型来判断意见领袖。(2)通过对交流文本内容的分析，构建传播模型来衡量帖主的意见传播程度。该方法中，一般以IDM(Influence Diffusion Model，影响力扩散模型)为基础，通过回复关系进行文本词语的传播研究。

本申请发明人在实现上述现有技术的过程中发现，现有技术的上述方案具有以下缺陷：(1)基于统计指标构建模型分析用户特征，这类方法与收集到的统计指标准确度密切相关，分析结果很容易受到不良指标的污染，如某用户发帖数受到时间、内容审核等限制，往往得不到准确的数值，这导致整体模型的准确度不高。(2)基于内容分析的方式很容易受灌水等帖子影响，导致分析出用户的虚假影响力。

发明内容

本发明实施例的目的是提供一种网络意见领袖识别方法及装置，用于解决或至少部分解决上述技术问题。

为了实现上述目的，本发明实施例提供一种网络意见领袖识别方法，所述方法包括：对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据；根据所述关系数据计算预定的网络指标，其中，所述网络指标是用于表征关系数据中用户的重要性的指标；对所述数据源的所述用户的所述行为数据进行主题分类；以及根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数，以识别针对不同主题的意见领袖。

可选的，以第一三元组数据表示关系数据，其中所述第一三元组数据的两端数据分别指示第一用户和第二用户，所述第一三元组数据的中间数据指示所述第二用户对所述第一用户发生社交关系的次数。

可选的，所述根据所述关系数据计算预定的网络指标包括：根据所述第一三元组数据构建所述数据源的图模型，其中，所述图模型的节点为用户节点，且每一所述第一三元组数据组成所述图模型的一条边；以及针对所述图模型的每一用户节点计算所述预定的网络指标。

可选的，所述预定的网络指标包括以下一者或多者：节点的入度、节点的出度、特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度。

可选的，所述对所述数据源的所述用户的所述行为数据进行主题分类包括：针对每一用户，提取用于构建该用户的关系数据的行为文本；以及对所述行为文本进行主题分类。

可选的，所述根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数包括：根据计算出的所述网络指标确定所述用户的意见领袖总分数；根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重；以及根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。

可选的，以第二三元组数据表示所述用户针对所述不同主题分类的意见领袖分数，所述第二三元组数据三个元素分别是所述用户、主题分类、所述用户针对该主题分类的意见领袖分数。

可选的，所述数据源包括一个或多个数据源。

相应的，本发明实施例还提供一种网络意见领袖识别装置，所述装置包括：关系数据确定模块，用于对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据；网络指标计算模块，用于根据所述关系数据计算预定的网络指标，其中，所述网络指标是用于表征关系数据中用户的重要性的指标；主题分类模块，用于对所述数据源的所述用户的行为数据进行主题分类；以及识别模块，用于根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数，以识别针对不同主题的意见领袖。

可选的，所述关系数据确定模块以第一三元组数据表示关系数据，其中所述第一三元组数据的两端数据分别指示第一用户和第二用户，所述第一三元组数据的中间数据指示所述第二用户对所述第一用户发生社交关系的次数。

可选的，所述网络指标计算模块用于通过以下步骤计算预定的网络指标：根据所述第一三元组数据构建所述数据源的图模型，其中，所述图模型的节点为用户节点，且每一所述第一三元组数据组成所述图模型的一条边；以及针对所述图模型的每一用户节点计算所述预定的网络指标。

可选的，所述主题分类模块用于根据以下步骤进行主题分类：针对每一用户，提取用于构建该用户的关系数据的行为文本；以及对所述行为文本进行主题分类。

可选的，所述识别模块用于根据以下步骤确定所述用户针对不同主题分类的意见领袖分数：根据计算出的所述网络指标确定所述用户的意见领袖总分数；根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重；以及根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。

可选的，所述识别模块以第二三元组数据表示所述用户针对所述不同主题分类的意见领袖分数，所述第二三元组数据三个元素分别是所述用户、主题分类、所述用户针对该主题分类的意见领袖分数。

可选的，所述数据源包括一个或多个数据源。

相应的，本发明实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有指令，该指令用于使得机器执行上述的网络意见领袖识别方法。

相应的，本发明实施例还提供一种处理器，用于运行程序，其中，所述程序被运行时用于执行上述的网络意见领袖识别方法。

通过上述技术方案，确定数据源内用户针对不同主题分类的意见领袖分数，以基于此识别针对不同主题的意见领袖，其通过将主题类型与用户的意见领袖分数相关联，使得能够快速、准确地识别出针对特定主题分类的意见领袖。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1示出了根据本发明一实施例的网络意见领袖识别方法的流程示意图；

图2示出了从微博数据中抽取的关系示意图；

图3示出了一图模型示意图；

图4示出了以是实施例中确定意见领袖分数的流程示意图；

图5示出了根据本发明一实施例的确定意见领袖总分数的示意图；

图6示出了根据本发明一实施例的确定意见领袖分数的示意图；以及

图7示出了根据本发明一实施例的网络意见领袖识别装置的结构框图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1示出了根据本发明一实施例的网络意见领袖识别方法的流程示意图。如图1所示，本发明实施例提供一种网络意见领袖识别方法，该方法可以包括步骤S110至步骤S140。

步骤S110，对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据。

所述数据源可以是任意的社交网站，例如，可以是百度贴吧、微博、知乎等具有论坛性质的网站，或者也可以是手机百度。

可选的，在步骤S110中可以提取预定时间段内数据源的用户的行为数据，然后可基于用户之间的互动来对所提取的用户行为数据进行关系抽取，以构建用户之间的关系数据。可选的，所述预定时间段可以是根据需要选择的任意时间段，例如，可以是n天、n个星期、或n个月等，其中n可以是任意正数。或者，可选的，数据源的用户的行为数据可以被预先存储在数据库中。

以数据源是微博为例，图2示出了从微博数据中抽取的关系示意图，图2中用户1发表了一条微博内容，用户2评论了用户1的该条微博内容，用户4转发了用户1的该条微博内容，用户3关注了用户2。基于此，针对用户和微博内容这两种节点实体，可以得出用户和微博内容之间的以下三种关系：发表，表示用户发表了微博内容；转发，表示用户转了微博内容；评论，表示用户评论了微博内容。另外，可以得出第一用户和第二用户之间的以下三种关系：评论，表示第一用户评论了第二用户的微博内容；转发；表示第一用户转发了第二用户的微博内容；关注，第一用户关注了第二用户。其中，评论可以表示用户对微博内容进行了图文评论或点赞等。在步骤S110中主要抽取用户之间的关系数据。对百度贴吧、知乎、手机百度的数据流可以进行类似的关系抽取以获得用户之间的关系数据。

实际使用中，所得到的的关系数据中可以使用用户标识来表征用户，所述用户标识可以是能够唯一表示所述用户的标识，例如，用户的注册名称、上网ID等。

步骤S120，根据所述关系数据计算预定的网络指标。

网络指标可以是用于表征关系数据中用户的重要性的指标。可以根据需要使用任何合适的网络指标。

步骤S130，对所述数据源的所述用户的所述行为数据进行主题分类。

例如，可以基于用户发表的文本内容、评论的文本内容、关注的文本内容来执行主题分类。

步骤S140，根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数，以识别针对不同主题的意见领袖。

意见领袖分数是基于用户的网络指标而确定的分数，由于用户擅长或感兴趣的主题不同，用户针对不同的主题分类的意见领袖分数也不同。确定出不同主题分类的意见领袖分数之后，就可以识别出针对不同主题的意见领袖。例如，可以设置意见领袖分数大于预定值的用户为对应主题分类的意见领袖，其中，针对不同主题分类设置的预定值可以不同，或者可以设置该主题分类中，意见领袖分数排序前N的用户为针对该主题的意见领袖，其中N可以是任意正数。

本发明实施例提供的网络意见领袖识别方法，通过将主题类型与用户的意见领袖分数相关联，使得能够快速、准确地识别出针对特定主题分类的意见领袖。

在可选实施例中，通过对数据源的用户行为进行关系抽取得到的用户之间的每条关系数据可以使用一三元组数据表示，该三元组数据例如可以是(START，LINK，END)。START节点和END节点可以分别指示不同的用户，这里分别以第一用户和第二用户表示。LINK可以指示第二用户针对第一用户发生社交关系的次数，例如，第二用户针对第一用户的微博或帖子进行转发和评论的总的次数。在实际使用中，START节点可以使用第一用户的标识来表示，END节点可以使用第二用户之间的标识来表示。

进一步的，可以基于用户之间的每条关系数据的三元组数据表示来构建数据源的图模型。

社交关系是天然的图模型结构数据，可以用节点表示用户，有向或无向边表示用户间的联系。本发明实施例采用转化的思想，将意见领袖挖掘任务转化成图模型中的节点重要性排名。基本思路是，通过全局网络信息，来得到网络属性节点的重要性排名。例如，图模型中，中介性这一属性，被定义为节点担任其它两个节点之间最短路的桥梁的次数，因此节点中介性可以用来表示节点的“繁忙”程度。如图3所示的图模型的各节点中，实心点表示的节点为中介性较高的节点。通过转换思想，在某种程度上，节点的中介性可以反映它在信息传播中的重要性。因此，可利用图模型对社交网络进行建模，并通过节点各项图模型指标来衡量节点的“重要性”。

本发明实施例构建的图模型可以三元组数据中的用户为节点，每一三元组数据可以组成图模型的一条边，其可以从三元组数据中的END节点指向START节点的有向边。

在构建出图模型之后，可以针对每一用户节点计算预定的网络指标。该预定的网络指标可以包括以下一者或多者：节点的入度、节点的出度、节点的特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度等。节点的入度可以是指向该节点的线路条数。节点的出度可以是从该节点开始的指向其它节点的线路条数。特征向量中心度为节点的中心度值向量，其用于衡量图模型中节点的重要程度，高的特征向量中心度意味着节点连接的节点也相当重要。局部聚类系数表示邻居节点之间的亲近程度。邻居连通性表示节点邻居的平均连接性。节点的PageRank值可使用PageRank算法来得到。节点与周围节点构成的最小结构紧密单元三角形数目可以表征节点的局部紧密型和连接性。可选的，在计算上述指标时，应考虑用户节点之间的LINK值。上述网络指标的简单描述如表1所示。

表1网络指标描述

上述列出的八种网络指标是经过试验比较适合微博、百度贴吧、手机百度数据流等数据源的用户之间的关系构成的图模型，且上述列出的八种网络指标的计算方式可以采用本领域公知的任一种计算方式，这里将不再赘述。可以理解，在不影响本发明实施例实施的情况下，针对不同的数据源，可以对网络指标的数目进行合适的缩减或扩展，例如，可以增加关于中介性的网络指标。

在识别网络意见领袖时，结合多个指标，可以使得网络意见领袖的识别更加准确。

在一可选实施例中，在对数据源的用户的行为数据进行主题分类时，针对每一用户，可以首先提取用于构建该用户的关系数据的行为文本。针对不同的数据源，可以采用不同的提取方式。例如，针对百度贴吧、知乎等，可以提取用户回帖、楼中楼回复等具体文本；针对手机百度数据流等，可以提取用户的评论、楼中楼回复、点赞等行为的文章标题；针对微博等，可以提取用户发表的微博的文本、评论的文本等。之后，可以对所提取的用户的行为文本进行分类，这里可以根据需要选择任何合适的分类方式。例如可以使用基于CNN(Convolutional Neural Network，卷积神经网络)模型的分类系统来将用户的行为文本分到对应的主题分类中。主题分类的种类例如可以具有多种，例如教育类、体育类、购物类、影视类、化妆类、时事类等，也可以针对这些类再细分出各种小类，例如，数学教育类、英语教育类、足球类、篮球类等等。可以预先设置好各主题类型，然后将提取的用户行为文本分类到预先设置的主题类型。

通常用户在网络上会集中精力与自己擅长的方向进行活动与交流，因此，结合主题分类可以快速识别出针对特定主题分类的意见领袖。

下面将结合图4对本发明实施例的意见领袖分数的确定进行描述。如图4所示，可以根据步骤S402至步骤S406来确定用户针对不同主题分类的意见领袖分数。

步骤S402，根据计算出的网络指标确定用户的意见领袖总分数。

这里，针对每一用户，可以通过合并计算的网络指标来得到用户的意见领袖总分数。在上文列出的各项网络指标均从某一方面刻画了用户节点的属性信息，本发明实施例中可以例如通过以下两种方式来合并计算的网络指标：(1)采用启发式方法。整合各类指标，例如可以通过类似加权平均的方式得到用户的意见领袖总分数，其中，针对不同网络指标的权重可以根据需要设置为任何合适的值，并且可以根据需要对网络指标的权重进行调整。(2)采用转化的思想，将计算得到的网络指标作为特征，用户是否为意见领袖作为监督标签，将该问题转化为分类问题考虑。如此，可以采用基于分类的方法，如贝叶斯模型、SVM(Support vector machine，支持向量机)、ME(Maximum entropy，最大熵)等，或者可以采用深度学习模型，如DNN(Deep Neural Network，深度神经网络)、CNN、RNN(Recurrent NeuralNetwork，循环神经网络)等，来进行分类，以最终二分类得到的概率值作为用户的意见领袖总分数。

步骤S404，根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重。

可选的，可以根据用户针对不同主题分类的行为数目、质量等来得到用户针对不同主题分类的权重。例如，可以首先获得用户针对所有主题分类的总的行为数目，从这些行为数目中剔除涉及灌水内容、或无效内容的行为数目以得到实际的总的行为数目。类似的，在用户针对每一特定主题分类的行为数目中剔除涉及灌水内容、或无效内容的行为数目以得到针对每一特定主题分类的实际的行为数目。使用用户针对每一特定分类的实际的行为数目分别除以实际的总的行为数目就可以得到用户针对不同主题分类的权重。

步骤S406，根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。

例如，可以使用用户的意见领袖总分数分别乘以用户针对不同主题分类的权重来确定用户针对不同主题分类的意见领袖分数。

可选的，可以三元组数据的方式来标识用户针对不同主题分类的意见领袖分数，三元组数据的三个元素可以分别表示用户、主题分类、用户针对该主题分类的意见领袖分数。例如，所述三元组数据可以表示为(用户，主题分类，意见领袖分数)，其中，用户可以使用用户标识进行表示，主题分类也可以使用对应的标识进行表示。然后可以通过对得到的三元组数据进行分类来衡量用户针对特定主题分类的意见领袖程度。

在可选实施例中，本发明实施例中的数据源可以包括一个或多个数据源。在数据源包括多个数据源的情况下，可以使用例如ID-Mapping算法来关联同一用户在不同数据源的行为数据。通过结合不同数据源的用户行为数据来得到针对不同主题的意见领袖，使得所得到的意见领袖用户具有更普遍的适用性。

图5示出了根据本发明一实施例的确定意见领袖总分数的示意图。如图5所示，一个或多个数据源的用户行为数据可以被预先存储在数据库中。计算意见领袖总分数时，可对存储的数据源的用户的行为数据进行关系抽取，以得到用户之间的关系数据，如图5中的关系数据1，关系数据2……关系数据m，其中m为任意正整数，每一条关系数据表示用户与另一用户之间发生的社交关系。之后，可以基于所得到的用户之间的关系数据来构建图模型，根据图模型中计算出每一用户节点的各网络指标。再之后，通过合并计算的每一用户节点的各网络指标来得到每一用户的意见领袖总分数。使用用户的意见领袖总分数分别乘以用户针对不同主题分类的权重就可以得到用户针对不同主题分类的意见领袖分数，其中可以使用三元组数据来表示用户针对各主题的意见领袖分数。其中，用户的意见领袖总分数的具体执行过程已在上文描述，这里将不再赘述。

图6示出了根据本发明一实施例的确定意见领袖分数的示意图。如图6所示，一个或多个数据源的用户的行为数据可以被预先存储在数据库中。在确定意见领袖分数时，针对每一用户，从数据库中提取构建该用户的关系数据的所有行为文本，如图6中的行为文本1、行为文本2……行为文本p，其中p为任意正整数。之后，可以对提取出的行为文本进行主题分类，并根据用户针对各主题分类的行为文本的数目、质量等，可以得到用户针对各主题分类的权值。使用用户的意见领袖总分数分别乘以用户针对各主题分类的权重就可以得到用户针对各主题分类的意见领袖分数。其中，进行主题分类的具体执行过程已在上文描述，这里将不再赘述。图7示出了根据本发明一实施例的网络意见领袖识别装置的结构框图。如图7所示，本发明实施例还提供一种网络意见领袖识别装置700，该装置700可以包括：关系数据确定模块710，用于对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据；网络指标计算模块720，用于根据所述关系数据计算预定的网络指标，其中，所述网络指标是用于表征关系数据中用户的重要性的指标；主题分类模块730，用于对所述数据源的所述用户的行为数据进行主题分类；以及识别模块740，用于根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数，以识别针对不同主题的意见领袖。通过将主题类型与用户的意见领袖分数相关联，使得能够快速、准确地识别出特定领域内的意见领袖。

可选的，用户之间的每条关系数据可以使用一三元组数据表示，该三元组数据例如可以是(START，LINK，END)。START节点和END节点可以分别指示不同的用户，这里分别以第一用户和第二用户表示。LINK可以指示第二用户针对第一用户发生社交关系的次数，例如，第二用户针对第一用户的微博或帖子进行转发和评论的总的次数。

网络指标计算模块720可以基于用户之间的每条关系数据的三元组数据表示来构建数据源的图模型，之后图模型的每一用户节点计算预定的网络指标。该预定的网络指标可以包括以下一者或多者：节点的入度、节点的出度、节点的特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度等。

主题分类模块730在对数据源的用户的行为数据进行主题分类时，针对每一用户，可以首先提取用于构建该用户的关系数据的行为文本，之后，可以对所提取的用户的行为文本进行分类，这里可以根据需要选择任何合适的分类方式。

识别模块740可以执行以下步骤来确定用户针对不同主题分类的意见领袖分数：根据计算出的网络指标确定用户的意见领袖总分数；根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重；以及根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。可选的，可以三元组数据的方式来标识用户针对不同主题分类的意见领袖分数，三元组数据的三个元素可以分别表示用户、主题分类、用户针对该主题分类的意见领袖分数。例如，所述三元组数据可以表示为(用户，主题分类，意见领袖分数)，其中，用户可以使用用户标识进行表示，主题分类也可以使用对应的标识进行表示。然后可以通过对得到的三元组数据进行分类来衡量用户针对特定主题分类的意见领袖程度。

可选的，本发明实施例中的数据源可以包括一个或多个数据源。在数据源包括多个数据源的情况下，可以使用例如ID-Mapping算法来关联同一用户在不同数据源的行为数据。通过结合不同数据源的用户行为数据来得到针对不同主题的意见领袖，使得所得到的意见领袖用户具有更普遍的适用性。

本发明实施例提供的网络意见领袖识别装置的具体工作原理及益处与本发明实施例提供的网络意见领袖识别方法的具体工作原理及益处相似，这里将不再赘述。

另外，本发明实施例提供的网络意见领袖识别装置包括处理器和存储器，上述关系数据确定模块710、网络指标计算模块720、主题分类模块730、识别模块740等均可作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来执行根据本发明任意实施例的网络意见领袖识别方法。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种机器可读存储介质，机器可读存储介质上存储有指令，该指令用于使得机器执行根据本发明任意实施例的网络意见领袖识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意实施例的网络意见领袖识别方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现任意实施例的网络意见领袖识别方法。本文中的设备可以是服务器、PC、PAD、手机等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种网络意见领袖识别方法，其特征在于，所述方法包括：

对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据；

根据所述关系数据计算预定的网络指标，其中，所述网络指标是用于表征关系数据中用户的重要性的指标；

对所述数据源的所述用户的所述行为数据进行主题分类；以及

根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数，以识别针对不同主题的意见领袖；

其中，所述根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数包括：

根据计算出的所述网络指标确定所述用户的意见领袖总分数；

根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重；以及

根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。

2.根据权利要求1所述的方法，其特征在于，以第一三元组数据表示关系数据，其中所述第一三元组数据的两端数据分别指示第一用户和第二用户，所述第一三元组数据的中间数据指示所述第二用户对所述第一用户发生社交关系的次数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述关系数据计算预定的网络指标包括：

根据所述第一三元组数据构建所述数据源的图模型，其中，所述图模型的节点为用户节点，且每一所述第一三元组数据组成所述图模型的一条边；以及

针对所述图模型的每一用户节点计算所述预定的网络指标。

4.根据权利要求3所述的方法，其特征在于，所述预定的网络指标包括以下一者或多者：节点的入度、节点的出度、特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度。

5.根据权利要求1所述的方法，其特征在于，所述对所述数据源的所述用户的所述行为数据进行主题分类包括：

针对每一用户，提取用于构建该用户的关系数据的行为文本；以及

对所述行为文本进行主题分类。

6.根据权利要求1所述的方法，其特征在于，以第二三元组数据表示所述用户针对所述不同主题分类的意见领袖分数，所述第二三元组数据三个元素分别是所述用户、主题分类、所述用户针对该主题分类的意见领袖分数。

7.根据权利要求1所述的方法，其特征在于，所述数据源包括一个或多个数据源。

8.一种网络意见领袖识别装置，其特征在于，所述装置包括：

关系数据确定模块，用于对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据；

网络指标计算模块，用于根据所述关系数据计算预定的网络指标，其中，所述网络指标是用于表征关系数据中用户的重要性的指标；

主题分类模块，用于对所述数据源的所述用户的所述行为数据进行主题分类；以及

识别模块，用于根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数，以识别针对不同主题的意见领袖；

其中，所述识别模块用于根据以下步骤确定所述用户针对不同主题分类的意见领袖分数：

9.根据权利要求8所述的装置，其特征在于，所述关系数据确定模块以第一三元组数据表示关系数据，其中所述第一三元组数据的两端数据分别指示第一用户和第二用户，所述第一三元组数据的中间数据指示所述第二用户对所述第一用户发生社交关系的次数。

10.根据权利要求9所述的装置，其特征在于，所述网络指标计算模块用于通过以下步骤计算预定的网络指标：

针对所述图模型的每一用户节点计算所述预定的网络指标。

11.根据权利要求10所述的装置，其特征在于，所述预定的网络指标包括以下一者或多者：节点的入度、节点的出度、特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度。

12.根据权利要求8所述的装置，其特征在于，所述主题分类模块用于根据以下步骤进行主题分类：

对所述行为文本进行主题分类。

13.根据权利要求8所述的装置，其特征在于，所述识别模块以第二三元组数据表示所述用户针对所述不同主题分类的意见领袖分数，所述第二三元组数据三个元素分别是所述用户、主题分类、所述用户针对该主题分类的意见领袖分数。

14.根据权利要求8所述的装置，其特征在于，所述数据源包括一个或多个数据源。

15.一种机器可读存储介质，其特征在于，所述机器可读存储介质上存储有指令，该指令用于使得机器执行：根据权利要求1至7中任一项所述的网络意见领袖识别方法。

16.一种处理器，其特征在于，用于运行程序，其中，所述程序被运行时用于执行：根据权利要求1至7中任一项所述的网络意见领袖识别方法。