CN112307353B - 数据的处理方法、装置、电子设备、存储介质 - Google Patents

数据的处理方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112307353B
CN112307353B CN202011579460.6A CN202011579460A CN112307353B CN 112307353 B CN112307353 B CN 112307353B CN 202011579460 A CN202011579460 A CN 202011579460A CN 112307353 B CN112307353 B CN 112307353B
Authority
CN
China
Prior art keywords
interaction
index
candidate
objects
community structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011579460.6A
Other languages
English (en)
Other versions
CN112307353A (zh
Inventor
王文韬
王方舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011579460.6A priority Critical patent/CN112307353B/zh
Publication of CN112307353A publication Critical patent/CN112307353A/zh
Application granted granted Critical
Publication of CN112307353B publication Critical patent/CN112307353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开关于一种数据的处理方法和装置,其中,所述方法包括:根据每个对象的互动数据生成每个对象对的互动指数,对象对包含存在互动行为的两个对象,互动指数表示对象对的两个对象之间互动行为的频繁程度;根据每个对象对的互动指数对每个对象对进行聚类处理,根据聚类结果从社交对象中选择出关键意见领袖。本公开既避免了直接将粉丝数较多的对象作为关键意见领袖,又不会只根据静态关注关系选择出关键意见领袖,而是利用对象的互动数据生成的表示对象之间互动行为的频繁程度的互动指数,先对对象对进行聚类处理,进而根据聚类结果选择出关键意见领袖,实现了依据对象之间的互动行为的频繁程度来选择出关键意见领袖,提高了关键意见领袖的准确度。

Description

数据的处理方法、装置、电子设备、存储介质
技术领域
本公开涉及数据分析技术领域,尤其涉及一种数据的处理方法和装置,以及一种电子设备、一种存储介质。
背景技术
在对象关系分析的场景中,通过分析由对象间关系构建的社区结构,找出关键意见领袖(Key Opinion Leader,简称KOL),并通过对关键意见领袖进行运营管理,以掌握整个对象群体的动态。关键意见领袖通常被定义为:拥有更多、更准确的社会信息,且为相关群体所接受或信任,并对该群体的各种行为有较大影响力的人。
相关技术中,往往会选择粉丝数较多的对象作为关键意见领袖,或者,根据对象之间的静态关注关系选择出关键意见领袖,相关技术选择出的关键意见领袖不准确,导致关键意见领袖无法体现出对整个对象群体的影响力和贡献度的问题。
发明内容
本公开提供了一种数据的处理方法和装置,以及一种电子设备、一种存储介质,以至少解决相关技术中关键意见领袖选择不准确,导致关键意见领袖无法体现出对整个对象群体的影响力和贡献度的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种数据的处理方法,包括:获取社交对象中每个对象的互动数据;根据每个所述对象的互动数据,生成每个对象对的互动指数,所述对象对包含存在互动行为的两个所述对象,所述互动指数表示所述对象对的两个所述对象之间互动行为的频繁程度;根据每个所述对象对的互动指数,对每个所述对象对进行聚类处理,根据聚类结果从所述社交对象中选择出关键意见领袖。
可选地,所述根据每个所述对象的互动数据,生成每个对象对的互动指数,包括:从每个所述对象的互动数据中,统计得到每个所述对象对中的两个所述对象在各互动维度下的指标值,所述互动维度包含以下至少之一:点赞维度、关注维度、评论维度、分享维度;根据所述指标值,生成每个所述对象对的互动指数。
可选地,所述根据所述指标值,生成每个所述对象对的互动指数,包括:针对每个所述对象对中的两个所述对象,将相同所述互动维度下的指标值相加,得到各所述互动维度下的指标值之和;对各所述互动维度下的指标值之和执行归一化操作;将归一化操作后的各所述互动维度下的指标值之和相加,对应得到每个所述对象对的互动指数。
可选地,所述根据每个所述对象对的互动指数,对每个所述对象对进行聚类处理,根据聚类结果从所述社交对象中选择出关键意见领袖,包括:根据每个所述对象对的互动指数,创建原始社区结构;按照预设的聚类算法对所述原始社区结构进行聚类划分,得到多个子社区结构;从多个所述子社区结构中,选择出所述关键意见领袖。
可选地,所述根据每个所述对象对的互动指数,创建原始社区结构,包括:连接所述互动指数大于预设指数阈值的每个所述对象对中的两个所述对象,对应得到每个所述对象对的边;将每个所述对象对的互动指数,对应作为所述边的权重;根据所述边和所述边的权重创建所述原始社区结构。
可选地,所述从多个所述子社区结构中,选择出所述关键意见领袖,包括:将各所述子社区结构的模块度大于预设指标阈值的所述子社区结构,作为候选社区结构,所述模块度表示所述原始社区结构被聚类划分得到的子社区结构的划分质量;按照预设的链接分析算法,根据所述候选社区结构的每个候选对象对的互动指数,计算得到所述候选社区结构的每个候选对象的等级值,所述候选对象对包含存在互动行为的两个所述候选对象,所述等级值表示所述候选对象在所述候选社区结构中与其他候选对象之间互动的重要性;将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖。
可选地,在所述将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖之后,所述方法还包括:从每个所述候选社区结构的关键意见领袖中,选择出满足预设条件的关键意见领袖,所述预设条件包括以下至少一项:所述等级值最高、人气值最高或粉丝数最多;将选择出的满足所述预设条件的关键意见领袖作为所述原始社区结构的关键意见领袖。
根据本公开实施例的第二方面,提供了一种数据的处理装置,包括:获取模块,被配置为执行获取社交对象中每个对象的互动数据;生成模块,被配置为执行根据每个所述对象的互动数据,生成每个对象对的互动指数,所述对象对包含存在互动行为的两个所述对象,所述互动指数表示所述对象对的两个所述对象之间互动行为的频繁程度;处理模块,被配置为执行根据每个所述对象对的互动指数,对每个所述对象对进行聚类处理,根据聚类结果从所述社交对象中选择出关键意见领袖。
可选地,所述生成模块,包括:指标统计模块,被配置为执行从每个所述对象的互动数据中,统计得到每个所述对象对中的两个所述对象在各互动维度下的指标值,所述互动维度包含以下至少之一:点赞维度、关注维度、评论维度、分享维度;指数生成模块,被配置为执行根据所述指标值,生成每个所述对象对的互动指数。
可选地,所述指数生成模块,包括:指标值计算模块,被配置为执行针对每个所述对象对中的两个所述对象,将相同所述互动维度下的指标值相加,得到各所述互动维度下的指标值之和;归一化模块,被配置为执行对各所述互动维度下的指标值之和执行归一化操作;所述指标值计算模块,还被配置为执行将归一化操作后的各所述互动维度下的指标值之和相加,对应得到每个所述对象对的互动指数。
可选地,所述处理模块,包括:社区创建模块,被配置为执行根据每个所述对象对的互动指数,创建原始社区结构;社区划分模块,被配置为执行按照预设的聚类算法对所述原始社区结构进行聚类划分,得到多个子社区结构;领袖选择模块,被配置为执行从多个所述子社区结构中,选择出所述关键意见领袖。
可选地,所述社区创建模块,包括:对象连接模块,被配置为执行连接所述互动指数大于预设指数阈值的每个所述对象对中的两个所述对象,对应得到每个所述对象对的边;权重确定模块,被配置为执行将每个所述对象对的互动指数,对应作为所述边的权重;社区确定模块,被配置为执行根据所述边和所述边的权重创建所述原始社区结构。
可选地,所述领袖选择模块,包括:候选社区确定模块,被配置为执行将各所述子社区结构的模块度大于预设指标阈值的所述子社区结构,作为候选社区结构,所述模块度表示所述原始社区结构被聚类划分得到的子社区结构的划分质量;等级值计算模块,被配置为执行按照预设的链接分析算法,根据所述候选社区结构的每个候选对象对的互动指数,计算得到所述候选社区结构的每个候选对象的等级值,所述候选对象对包含存在互动行为的两个所述候选对象,所述等级值表示所述候选对象在所述候选社区结构中与其他候选对象之间互动的重要性;候选社区领袖确定模块,被配置为执行将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖。
可选地,所述处理模块,还被配置为执行在所述候选社区领袖确定模块将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖之后,从每个所述候选社区结构的关键意见领袖中,选择出满足预设条件的关键意见领袖,所述预设条件包括以下至少一项:所述等级值最高、人气值最高或粉丝数最多;将选择出的满足所述预设条件的关键意见领袖作为所述原始社区结构的关键意见领袖。
根据本公开实施例的第三方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的数据的处理方法。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面所述的数据的处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开的实施例中,根据社交对象中每个对象的互动数据,生成每个对象对的互动指数,对象对中包含存在互动行为的两个对象,互动指数表示对象对中的两个对象之间互动行为的频繁程度,进而,根据每个对象对的互动指数,对每个对象对进行聚类处理,根据聚类结果从社交对象中选择出关键意见领袖。本公开的实施例既避免了直接将粉丝数较多的对象作为关键意见领袖,又不会只根据静态关注关系选择出关键意见领袖,而是利用对象的互动数据生成的表示对象之间互动行为的频繁程度的互动指数,先对对象对进行聚类处理,进而根据聚类结果选择出关键意见领袖,实现了依据对象之间的互动行为的频繁程度来选择出关键意见领袖,提高了关键意见领袖的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种数据的处理方法的流程图。
图2是根据一示例性实施例示出的根据互动指数选择关键意见领袖的步骤流程图。
图3是根据一示例性实施例示出的一种关键意见领袖的选择方法的流程图。
图4是根据一示例性实施例示出的一种数据的处理装置的框图。
图5是根据一示例性实施例示出的一种数据的处理电子设备的框图。
图6是根据一示例性实施例示出的一种用于对数据进行处理的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下能够互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种数据的处理方法的流程图,如图1所示,该数据的处理方法应用于服务器。该数据的处理方法包括以下步骤。
在步骤S11中,获取社交对象中每个对象的互动数据。
在本公开的实施例中,社交对象理解为同一个社交网络中的全部对象,在实际应用中,对象为社交用户、社交账户等等。随着社交对象中每个对象在社交网络中的社交操作,产生了每个对象的互动数据。在实际应用中,互动数据为响应于对象的互动行为而产生的数据,对象的互动行为包含但不限于:点赞操作、关注操作、评论操作、分享操作等等。互动数据包含点赞操作的数量、关注操作的数量、评论操作的数量、分享操作的数量等等。除此之外,互动数据还包含点赞操作的时间、关注操作的时间、评论操作的时间、分享操作的时间等等。本公开的实施例对互动数据的内容、格式等不做具体限制。一个实施例中,社交对象的社交操作是社交对象利用登录了社交对象账户的设备进行的,例如,用户A利用登录了账户A的终端与登录了账户B的用户B进行交互。
在步骤S12中,根据每个对象的互动数据,生成每个对象对的互动指数。
在本公开的实施例中,对象对包含两个对象,而且,这两个对象为存在互动行为的两个对象。由于互动数据是一个对象与社交对象中的其他对象之间的互动行为而产生的数据,因此根据每个对象的互动数据,生成包含该对象在内的对象对的互动指数。例如,对象A的互动数据中包含了对对象B的点赞操作的数量和时间,则对象A与对象B之间存在互动行为,对象A和对象B组成一个对象对。根据对象A的互动数据,生成由对象A和对象B组成的对象对AB的互动指数。
互动指数表示对象对中两个对象之间互动行为的频繁程度。互动指数越大,表示对象对中两个对象之间互动行为越频繁;互动指数越小,表示对象对中两个对象之间互动行为越稀少。
在步骤S13中,根据每个对象对的互动指数,对每个对象对进行聚类处理,根据聚类结果从社交对象中选择出关键意见领袖。
在本公开的实施例中,以每个对象对的互动指数为依据,对每个对象对进行聚类处理,即为社交对象构建社区结构,进而对构建的社区结构进行聚类划分。然后再根据聚类划分结果从对象集合中选择出关键意见领袖。
在本公开的实施例中,根据社交对象中每个对象的互动数据,生成每个对象对的互动指数,对象对中包含存在互动行为的两个对象,互动指数表示对象对中的两个对象之间互动行为的频繁程度,进而,根据每个对象对的互动指数,对每个对象对进行聚类处理,根据聚类结果从社交对象中选择出关键意见领袖。而现有技术直接将粉丝数较多的对象作为关键意见领袖,只根据粉丝的单向关注行为确定关键意见领袖,而确定出的关键意见领袖关注的粉丝数可能非常少,所以,现有技术中的关键意见领袖对社区结构的影响力和贡献度所起到的作用较弱,现有技术忽略了用户之间的动行为。与现有技术相比,本公开的实施例既避免了直接将粉丝数较多的对象作为关键意见领袖,又不会只根据静态关注关系选择出关键意见领袖,而是利用对象的互动数据生成的表示对象之间互动行为的频繁程度的互动指数,先对对象对进行聚类处理,进而根据聚类结果选择出关键意见领袖,实现了依据对象之间的互动行为的频繁程度来选择出关键意见领袖,提高了关键意见领袖的准确度。
在本公开的一种示例性实施例中,上述步骤S12从每个对象的互动数据中,统计得到每个对象对中两个对象在各互动维度下的指标值,进而根据指标值生成每个对象对的互动指数。其中,各互动维度包含但不限于以下至少之一:点赞维度、关注维度、评论维度、分享维度。各互动维度下的指标值理解为互动数据在各互动维度下的具体数量,例如,对象A在点赞维度下的对对象B的点赞数量为N01、对象A在评论维度下的对对象B的评论数量为N02,对象B在点赞维度下的对对象A的点赞数量为N03,对象B在评论维度下的对对象A的点赞数量为N04。本公开的实施例针对对象在实际社交活动中的互动行为,从互动数据中统计得到各互动维度下的指标值。再根据各个互动维度下的指标值生成对象对的互动指数。通常,互动行为越频繁,指标值越高;互动行为越稀少,指标值越低。各个互动维度下的指标值也体现出了对象对中两个对象之间的互动行为的频繁程度。通过指标值实现了对互动行为的频繁程度的量化。
在根据指标值生成对象对的互动指数时,针对每个对象对中的两个对象,将相同互动维度下的指标值相加,得到各互动维度下的指标值之和,然后对各互动维度下的指标值之和执行归一化操作,再将归一化操作后的各互动维度下的指标值之和相加,对应得到每个对象对的互动指数。例如,针对对象对AB中的对象A和对象B,将点赞维度下的点赞数量N01与点赞数量N03相加得到点赞数量之和N4,将评论维度下的评论数量N02和评论数量N04相加得到评论数量之和N6。然后分别对点赞数量之和N4和评论数量之和N6执行归一化操作,对应得到点赞数量之和N4归一化后的数值BN4和评论数量之和N6归一化后的数值BN6。接下来,将数值BN4和数值BN6相加得到数值BN10。数值BN10即对象对AB的互动指数。同理,还生成其他对象对的互动指数,在此不再赘述。在实际应用中,上述归一化操作采用标准差归一化方法或其他归一化方法,本公开的实施例对归一化操作所采用的技术手段不做具体限制。本公开的实施例通过对指标值相加、归一化和再相加等一系列操作计算得到互动指数,利用各互动维度下的指标值生成互动指数。
在本公开的一种示例性实施例中,如图2所示,上述步骤S13的执行过程划分为如下几个步骤:
在步骤S21中,根据每个对象对的互动指数,创建原始社区结构。
在社交网络中,对象相当于节点,对象之间通过互动行为构成了社交网络的网络结构。在社交网络的网络结构中,有的对象之间的互动行为较为紧密,有的对象之间的互动行为较为稀少。互动行为较为紧密的部分被看成一个社区结构。
因此,在本公开的实施例中,创建原始社区结构时,利用存在互动行为的对象对作为节点对,连接节点对中的两个节点,得到对象对的边,再将对象对的互动指数作为边的权重,然后,根据边和边的权重创建原始社区结构。其中,存在互动行为的对象对的互动指数大于预设指数阈值,通常,预设指数阈值设置为零。例如,对象对AB的互动指数为P01,P01大于零。连接对象对AB的两个节点,即对象A和对象B,得到边ab,将互动指数P01作为边ab的权重。
在步骤S22中,按照预设的聚类算法对原始社区结构进行聚类划分,得到多个子社区结构。
在本公开的实施例中,采用聚类算法将原始社区结构聚类划分为多个子社区结构,并得到每个子社区结构的模块度(modularity)。模块度表示原始社区结构被聚类划分得到的子社区结构的划分质量,模块度的范围在[-0.5,1),模块度的值越大,表明原始社区结构聚类划分的效果越好,子社区结构的划分质量越高。在实际应用中,聚类算法采用一种迭代算法,如快速展开(Fast Unfolding)算法。利用Fast Unfolding算法将原始社区结构聚类划分为多个子社区结构,并得到每个子社区结构的模块度。
在步骤S23中,从多个子社区结构中,选择出关键意见领袖。
在本公开的实施例中,若某个子社区结构的模块度大于预设指标阈值,表示该子社区结构的划分质量比较高,该子社区结构内的对象之间的互动行为相对更加紧密,也就是说,该子社区结构内的对象对的互动指数相对较高,从该子社区结构选择出的关键意见领袖能够更加准确地体现出对该子社区结构的贡献度和影响力,因此,从该子社区结构中选择关键意见领袖,该子社区结构作为候选社区结构。若某个子社区结构的模块度小于或等于预设指标阈值,表示该子社区结构的划分质量比较低,该子社区结构内的对象之间的互动行为相对更加稀少,也就是说,该子社区结构内的对象对的互动指数相对较低,从该子社区结构选择出的关键意见领袖不能准确地体现出对该子社区结构的贡献度和影响力,因此,不需要从该子社区结构中选择关键意见领袖。其中,预设指标阈值设置为0.3,该预设指标阈值也根据实际情况设置为其他数值。也就是说,将各子社区结构的模块度大于预设指标阈值的子社区结构,作为候选社区结构。
针对每个候选社区结构,按照预设的链接分析算法,根据候选社区结构的每个候选对象对的互动指数,计算候选社区结构的每个候选对象的等级值。其中,候选对象对包含存在互动行为的两个候选对象。等级值表示候选对象在候选社区结构中于其他候选对象之间互动的重要性。在实际应用中,预设链接分析算法采用PageRank算法(根据网页之间相互的超链接计算的技术,确定网页的等级)。例如,候选社区结构HJ1中包含四个候选对象,四个候选对象分别为hd01、hd02、hd03和hd04。四个候选对象hd01、hd02、hd03和hd04各自的互动指数分别为hdz01、hdz02、hdz03和hdz04。在根据PageRank算法计算每个候选对象的等级值时,如果候选对象hd02、hd03和hd04均与候选对象hd01存在互动行为,则候选对象hd01的等级值为候选对象hd02、hd03和hd04各自的互动指数相加,即候选对象hd01的等级值为互动指数hdz02、hdz03和hdz04之和。同理,也计算出候选对象hd02、hd03和hd04的等级值,在此不再赘述。然后将等级值大于或等于预设的等级阈值的候选对象作为候选社区结构的关键意见领袖。每个候选社区结构都选出关键意见领袖。
本公开的实施例先创建原始社区结构,然后对原始社区结构进行聚类划分,从而得到多个子社区结构,然后从多个子社区结构中选择出关键意见领袖。在创建原始社区结构的过程中,选择出互动指数大于指数阈值的对象对,对选择出的对象对中两个对象相连接得到边,并将选择出的对象对的互动指数作为边的权重,然后根据边和边的权重创建原始社区结构。也就是说,以选择出的对象对中的对象作为节点,连接节点得到原始社区结构的边,以选择出的对象对的互动指数作为边的权重。而且,在从多个子社区结构中选择出关键意见领袖的过程中,先从多个子社区结构中确定出候选社区结构,再计算候选社区结构中候选对象的等级值,然后将等级值大于或等于等级阈值的候选对象作为关键意见领袖,本公开的实施例从聚类划分得到的子社区结构中选择出关键意见领袖。
在本公开的一种示例性实施例中,若要选择出原始社区结构的关键意见领袖,则从每个候选社区结构的关键意见领袖中选择出来。即从每个候选社区结构的关键意见领袖中,选择出满足预设条件的关键意见领袖;将选择出的满足预设条件的关键意见领袖作为原始社区结构的关键意见领袖。其中,预设条件为等级值最高、人气值最高或粉丝数最多等等。本公开的实施例从候选社区结构的关键意见领袖中,选择出原始社区结构的关键意见领袖,也就是说,原始社区结构的关键意见领袖来源于候选社区结构的关键意见领袖。
基于上述关于一种数据的处理方法实施例的相关说明,下面介绍一种关键意见领袖的选择方法,该关键意见领袖的选择方法结合了互动指数和聚类算法。
如图3所示,首先,获取对象的互动数据,并根据互动数据计算对象对的互动指数。在实际应用中,根据预设的关键意见领袖更新频率确定互动指数的计算周期,例如,计算周期为一周,表示每一周计算一次对象对的互动指数。因此,获取对象在一周内的互动数据,根据一周内的互动数据计算得到互动指数。
然后,构造原始社区结构,并执行基于模块度的聚类划分操作。在实际应用中,将存在互动行为的两个对象利用一条边相连,将该存在互动行为的两个对象所形成的对象对的互动指数作为边的权重,由此构建原始社区结构。
利用如Fast Unfolding算法的聚类算法对原始社区结构进行聚类划分得到子社区结构以及子社区结构的模块度。针对模块度大于0.3的子社区结构,选择出关键意见领袖。若子社区结构的模块度小于或等于0.3,则该子社区结构无法选出关键意见领袖。其次,针对选出关键意见领袖的子社区结构,利用PageRank算法选择出关键意见领袖。在实际应用中,将子社区结构中PageRank等级值较高的对象作为子社区结构的关键意见领袖。而且,还进一步从多个子社区结构的关键意见领袖中选择出原始社区结构的关键意见领袖。
本公开的实施例融合了多种分析计算方法在各个流程中实施,如在聚类划分过程中采用Fast Unfolding算法,在选择关键意见领袖时采用PageRank算法。将各分析计算方法灵活组合,发挥各分析计算方法的优势。
本公开的实施例将互动指数的计算、原始社区结构的创建、原始社区结构的聚类划分,以及,子社区结构的关键意见领袖选择联合在一起,避免现有的关键意见领袖的选择方案中,仅选择粉丝数较多的对象作为关键意见领袖而产生的寡头效应;还避免现有的关键意见领袖的选择方案中,只考虑对象间的静态关注关系而导致的关键意见领袖选择的滞后性。
本公开的实施例灵活定义互动指数的计算周期,进而在每个计算周期选择出对应的关键意见领袖,提升了关键意见领袖选择的高效性和灵活性。
图4是根据一示例性实施例示出的一种数据的处理装置的框图。该数据的处理装置应用于服务器中,该数据的处理装置具体包括如下模块。
获取模块41,被配置为执行获取社交对象中每个对象的互动数据;
生成模块42,被配置为执行根据每个所述对象的互动数据,生成每个对象对的互动指数,所述对象对包含存在互动行为的两个所述对象,所述互动指数表示所述对象对的两个所述对象之间互动行为的频繁程度;
处理模块43,被配置为执行根据每个所述对象对的互动指数,对每个所述对象对进行聚类处理,根据聚类结果从所述社交对象中选择出关键意见领袖。
在本公开的一种示例性实施例中,所述生成模块42,包括:
指标统计模块,被配置为执行从每个所述对象的互动数据中,统计得到每个所述对象对中的两个所述对象在各互动维度下的指标值,所述互动维度包含以下至少之一:点赞维度、关注维度、评论维度、分享维度;
指数生成模块,被配置为执行根据所述指标值,生成每个所述对象对的互动指数。
在本公开的一种示例性实施例中,所述指数生成模块,包括:
指标值计算模块,被配置为执行针对每个所述对象对中的两个所述对象,将相同所述互动维度下的指标值相加,得到各所述互动维度下的指标值之和;
归一化模块,被配置为执行对各所述互动维度下的指标值之和执行归一化操作;
所述指标值计算模块,还被配置为执行将归一化操作后的各所述互动维度下的指标值之和相加,对应得到每个所述对象对的互动指数。
在本公开的一种示例性实施例中,所述处理模块43,包括:
社区创建模块,被配置为执行根据每个所述对象对的互动指数,创建原始社区结构;
社区划分模块,被配置为执行按照预设的聚类算法对所述原始社区结构进行聚类划分,得到多个子社区结构;
领袖选择模块,被配置为执行从多个所述子社区结构中,选择出所述关键意见领袖。
在本公开的一种示例性实施例中,所述社区创建模块,包括:
对象连接模块,被配置为执行连接所述互动指数大于预设指数阈值的每个所述对象对中的两个所述对象,对应得到每个所述对象对的边;
权重确定模块,被配置为执行将每个所述对象对的互动指数,对应作为所述边的权重;
社区确定模块,被配置为执行根据所述边和所述边的权重创建所述原始社区结构。
在本公开的一种示例性实施例中,所述领袖选择模块,包括:
候选社区确定模块,被配置为执行将各所述子社区结构的模块度大于预设指标阈值的所述子社区结构,作为候选社区结构,所述模块度表示所述原始社区结构被聚类划分得到的子社区结构的划分质量;
等级值计算模块,被配置为执行按照预设的链接分析算法,根据所述候选社区结构的每个候选对象对的互动指数,计算得到所述候选社区结构的每个候选对象的等级值,所述候选对象对包含存在互动行为的两个所述候选对象,所述等级值表示所述候选对象在所述候选社区结构中与其他候选对象之间互动的重要性;
候选社区领袖确定模块,被配置为执行将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖。
在本公开的一种示例性实施例中,所述处理模块43,还被配置为执行在所述候选社区领袖确定模块将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖之后,从每个所述候选社区结构的关键意见领袖中,选择出满足预设条件的关键意见领袖,所述预设条件包括以下至少一项:所述等级值最高、人气值最高或粉丝数最多;将选择出的满足所述预设条件的关键意见领袖作为所述原始社区结构的关键意见领袖。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种数据的处理电子设备的框图。例如,电子设备500是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,电子设备500包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/ O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制电子设备500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502包括一个或多个处理器520来执行指令,以完成上述数据的处理方法的全部或部分步骤。此外,处理组件502包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为执行存储各种类型的数据以支持在电子设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图像,视频等。存储器504由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为电子设备500的各种组件提供电力。电源组件506包括电源管理系统,一个或多个电源,及其他与为电子设备500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头接收外部的多媒体数据。每个前置摄像头和后置摄像头是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为执行输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当电子设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为执行接收外部音频信号。所接收的音频信号被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/ O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块是键盘,点击轮,按钮等。这些按钮包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为电子设备500提供各个方面的状态评估。例如,传感器组件514检测到电子设备500的打开/关闭状态,组件的相对定位,例如所述组件为电子设备500的显示器和小键盘,传感器组件514还检测电子设备500或电子设备500一个组件的位置改变,用户与电子设备500接触的存在或不存在,电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为执行便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备500被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述数据的处理方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器504,上述指令由电子设备500的处理器520执行以完成上述数据的处理方法。可选地,存储介质是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是根据一示例性实施例示出的一种用于对数据进行处理的电子设备的框图。例如,电子设备600被提供为一服务器。参照图6,电子设备600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述数据的处理方法。
电子设备600还包括一个电源组件626被配置为执行电子设备600的电源管理,一个有线或无线网络接口650被配置为执行将电子设备600连接到网络,和一个输入输出(I/O)接口658。电子设备600操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据的处理方法,其特征在于,包括:
获取社交对象中每个对象的互动数据;
根据每个所述对象的互动数据,生成每个对象对的互动指数,所述对象对包含存在互动行为的两个所述对象,所述互动指数表示所述对象对的两个所述对象之间互动行为的频繁程度;
连接所述互动指数大于预设指数阈值的每个所述对象对中的两个所述对象,对应得到每个所述对象对的边;
将每个所述对象对的互动指数,对应作为所述边的权重;
根据所述边和所述边的权重创建原始社区结构;
按照预设的聚类算法对所述原始社区结构进行聚类划分,得到多个子社区结构;
将各所述子社区结构的模块度大于预设指标阈值的所述子社区结构,作为候选社区结构,所述模块度表示所述原始社区结构被聚类划分得到的子社区结构的划分质量;
按照预设的链接分析算法,根据所述候选社区结构的每个候选对象对的互动指数,计算得到所述候选社区结构的每个候选对象的等级值,所述候选对象对包含存在互动行为的两个所述候选对象,所述等级值表示所述候选对象在所述候选社区结构中与其他候选对象之间互动的重要性;
将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述对象的互动数据,生成每个对象对的互动指数,包括:
从每个所述对象的互动数据中,统计得到每个所述对象对中的两个所述对象在各互动维度下的指标值,所述互动维度包含以下至少之一:点赞维度、关注维度、评论维度、分享维度;
根据所述指标值,生成每个所述对象对的互动指数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述指标值,生成每个所述对象对的互动指数,包括:
针对每个所述对象对中的两个所述对象,将相同所述互动维度下的指标值相加,得到各所述互动维度下的指标值之和;
对各所述互动维度下的指标值之和执行归一化操作;
将归一化操作后的各所述互动维度下的指标值之和相加,对应得到每个所述对象对的互动指数。
4.根据权利要求1所述的方法,其特征在于,在所述将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖之后,所述方法还包括:
从每个所述候选社区结构的关键意见领袖中,选择出满足预设条件的关键意见领袖,所述预设条件包括以下至少一项:所述等级值最高、人气值最高或粉丝数最多;
将选择出的满足所述预设条件的关键意见领袖作为所述原始社区结构的关键意见领袖。
5.一种数据的处理装置,其特征在于,包括:
获取模块,被配置为执行获取社交对象中每个对象的互动数据;
生成模块,被配置为执行根据每个所述对象的互动数据,生成每个对象对的互动指数,所述对象对包含存在互动行为的两个所述对象,所述互动指数表示所述对象对的两个所述对象之间互动行为的频繁程度;
处理模块,被配置为执行根据每个所述对象对的互动指数,对每个所述对象对进行聚类处理,根据聚类结果从所述社交对象中选择出关键意见领袖;
所述处理模块,包括:
社区创建模块,被配置为执行根据每个所述对象对的互动指数,创建原始社区结构;
社区划分模块,被配置为执行按照预设的聚类算法对所述原始社区结构进行聚类划分,得到多个子社区结构;
领袖选择模块,被配置为执行从多个所述子社区结构中,选择出所述关键意见领袖;
所述社区创建模块,包括:
对象连接模块,被配置为执行连接所述互动指数大于预设指数阈值的每个所述对象对中的两个所述对象,对应得到每个所述对象对的边;
权重确定模块,被配置为执行将每个所述对象对的互动指数,对应作为所述边的权重;
社区确定模块,被配置为执行根据所述边和所述边的权重创建所述原始社区结构;
所述领袖选择模块,包括:
候选社区确定模块,被配置为执行将各所述子社区结构的模块度大于预设指标阈值的所述子社区结构,作为候选社区结构,所述模块度表示所述原始社区结构被聚类划分得到的子社区结构的划分质量;
等级值计算模块,被配置为执行按照预设的链接分析算法,根据所述候选社区结构的每个候选对象对的互动指数,计算得到所述候选社区结构的每个候选对象的等级值,所述候选对象对包含存在互动行为的两个所述候选对象,所述等级值表示所述候选对象在所述候选社区结构中与其他候选对象之间互动的重要性;
候选社区领袖确定模块,被配置为执行将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖。
6.根据权利要求5所述的装置,其特征在于,所述生成模块,包括:
指标统计模块,被配置为执行从每个所述对象的互动数据中,统计得到每个所述对象对中的两个所述对象在各互动维度下的指标值,所述互动维度包含以下至少之一:点赞维度、关注维度、评论维度、分享维度;
指数生成模块,被配置为执行根据所述指标值,生成每个所述对象对的互动指数。
7.根据权利要求6所述的装置,其特征在于,所述指数生成模块,包括:
指标值计算模块,被配置为执行针对每个所述对象对中的两个所述对象,将相同所述互动维度下的指标值相加,得到各所述互动维度下的指标值之和;
归一化模块,被配置为执行对各所述互动维度下的指标值之和执行归一化操作;
所述指标值计算模块,还被配置为执行将归一化操作后的各所述互动维度下的指标值之和相加,对应得到每个所述对象对的互动指数。
8.根据权利要求5所述的装置,其特征在于,
所述处理模块,还被配置为执行在所述候选社区领袖确定模块将所述等级值大于或等于预设的等级阈值的候选对象,作为所述候选社区结构的关键意见领袖之后,从每个所述候选社区结构的关键意见领袖中,选择出满足预设条件的关键意见领袖,所述预设条件包括以下至少一项:所述等级值最高、人气值最高或粉丝数最多;将选择出的满足所述预设条件的关键意见领袖作为所述原始社区结构的关键意见领袖。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的数据的处理方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至4中任一项所述的数据的处理方法。
CN202011579460.6A 2020-12-28 2020-12-28 数据的处理方法、装置、电子设备、存储介质 Active CN112307353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011579460.6A CN112307353B (zh) 2020-12-28 2020-12-28 数据的处理方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011579460.6A CN112307353B (zh) 2020-12-28 2020-12-28 数据的处理方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112307353A CN112307353A (zh) 2021-02-02
CN112307353B true CN112307353B (zh) 2021-05-14

Family

ID=74487580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011579460.6A Active CN112307353B (zh) 2020-12-28 2020-12-28 数据的处理方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112307353B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117422B (zh) * 2015-07-30 2018-08-24 中国传媒大学 智能社交网络推荐系统
CN105913322A (zh) * 2016-04-07 2016-08-31 合肥学院 一种基于用户社交圈的信息传播评估方法及装置
US10748226B2 (en) * 2016-09-07 2020-08-18 UCB Biopharma SRL Method of generating, storing and mining data related to key opinion leaders in scientific fields and computer system configured for presenting an explorable graphical user interface
CN109977979B (zh) * 2017-12-28 2021-12-07 中国移动通信集团广东有限公司 定位种子用户的方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112307353A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN108304475B (zh) 数据查询方法、装置及电子设备
CN111431727B (zh) 一种群组展示方法、装置、终端、服务器及系统
CN111859020B (zh) 推荐方法、装置、电子设备及计算机可读存储介质
CN109670077B (zh) 视频推荐方法、装置和计算机可读存储介质
CN109670632B (zh) 广告点击率的预估方法、广告点击率的预估装置、电子设备及存储介质
CN111556352B (zh) 多媒体资源分享方法、装置、电子设备及存储介质
CN106649781B (zh) 应用推荐方法及装置
CN110674343A (zh) 账户信息的处理方法、装置、服务器以及终端
CN112131466A (zh) 群组展示方法、装置、系统和存储介质
CN111859097B (zh) 数据处理方法、装置、电子设备及存储介质
CN113268655A (zh) 一种信息推荐方法、装置和电子设备
CN112307353B (zh) 数据的处理方法、装置、电子设备、存储介质
CN107515853B (zh) 一种细胞词库推送方法及装置
CN114117058A (zh) 账户信息的确定方法、装置、电子设备及存储介质
CN110020153B (zh) 一种搜索方法及装置
CN112668036A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110929055A (zh) 多媒体质量检测方法、装置、电子设备及存储介质
CN112989172B (zh) 内容推荐方法、装置、计算机设备及存储介质
CN112380388B (zh) 搜索场景下的视频排序方法、装置、电子设备及存储介质
CN113190725B (zh) 对象的推荐及模型训练方法和装置、设备、介质和产品
CN113254707B (zh) 模型确定、关联媒体资源确定方法和装置
CN112102081B (zh) 生成区块链的方法、装置、可读存储介质及区块链网络
CN111401048B (zh) 一种意图识别方法及装置
CN107239280B (zh) 确定通知重要性的方法、装置及移动终端
CN106599202B (zh) 一种标签排序方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant