CN106780061A - 基于信息熵的社交网络用户分析方法和装置 - Google Patents

基于信息熵的社交网络用户分析方法和装置 Download PDF

Info

Publication number
CN106780061A
CN106780061A CN201611083770.2A CN201611083770A CN106780061A CN 106780061 A CN106780061 A CN 106780061A CN 201611083770 A CN201611083770 A CN 201611083770A CN 106780061 A CN106780061 A CN 106780061A
Authority
CN
China
Prior art keywords
information
word
described information
user
entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611083770.2A
Other languages
English (en)
Inventor
朱定局
汤庸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201611083770.2A priority Critical patent/CN106780061A/zh
Publication of CN106780061A publication Critical patent/CN106780061A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种社交网络用户分析方法,获取信息A,以及发布时期T;获取在所述时期T所选定的社交网络上的全部用户所发布的信息全集B,以及嫌疑用户Z所发布的信息全集D;计算单词Wi的信息量Ii;计算所述信息A之内单词信息熵Ha;计算所述信息Dj之内所述单词信息熵Hdj;计算所述单词信息熵Hdj的平均值U以及变化量V,若判断所述单词信息熵Ha的值在区间[U‑V,U+V],判定所述信息A为所述嫌疑用户Z所发布的。实现了自动判别社交网络用户身份,避免了采用现有的传统的人工判断所存在的判断的结果客观性不足,需要耗费非常高的人工和时间成本的缺陷。

Description

基于信息熵的社交网络用户分析方法和装置
技术领域
本发明涉及社交网络技术领域,特别涉及一种基于信息熵的社交网络用户分析方法和装置。
背景技术
随着互联网在人们日常生活中广泛地应用,社交网络服务(Social NetworkService,简称社交网络)也便应运而生了。今年随着移动互联网的爆发式增长,借助性能日益强劲的智能手机以及各种手持终端设备,社交网络为人们在信息时代的非常方便与高效的信息交流与分享方式,并且使用社交网络已经成为了人们每天生活的习惯。由于不同的社交网络是由不同的服务商来进行运维和管理的,因此需要用户分别在各个社交网络平台上进行注册。因此,对存在两个问题点:一、有些社交网络允许用户不用注册就可以匿名发布信息;二、有些社交网站上会存在冒名顶替发布的信息的行为。人们总是希望在社交网络中的信息是可以被相信的,管理者以及用户可以凭借信息发布者的真实身份来判断是否相信被发布的信息。因此在社交网路之中需要一种判断真实用户身份的方法。特别是当真实用户本人已经不在人世或很难联系上,则无法由用户真实用户本人进行确认,这时候就特别需要一种真实身份判断方法解决这个难题。而现有技术主要是靠人工方式来判断某时期某匿名用户在社交网络上发布的信息是否为某嫌疑用户,或是哪一个用户在社交网络上发布的信息。这种人工方式的主要缺点为:对社交网络管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断;需要耗费社交网络服务商花费非常高的人工和时间成本。因此需要有一种采用人工智能的自动判断方法,依据客观的因素来进行自动的、无需人工干预的判别。
发明内容
本发明的主要目的在于提供一种社交网络用户分析方法和装置,旨在解决现有的人工判别方式对社交网络管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断,以及需要耗费社交网络服务商花费非常高的人工和时间成本的这一技术问题。
为实现上述目的,本发明提供的一种社交网络用户分析方法,包括:
获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T;
获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;
通过预选单词集合中每一预选单词Wi在所述信息全集B之内的出现频率Pi来计算所述预选单词Wi在所述信息全集B中的信息量Ii,其中,所述信息量Ii的计算公式为Ii=-logb(Pi),b可设置为2、10、e或其他常量,i为所述预选单词Wi的序号,i从1至N,N为所述预选单词集合中的所述预选单词Wi的总数;
通过所述预选单词集合中每一预选单词Wi在所述信息A之内的出现频率Ri,并结合所述单词Wi的所述信息量Ii,计算所述信息A之内单词信息熵Ha,其中,所述单词信息熵Ha的计算公式为Ha=I1×R1+I2×R2+…+IN×RN
根据所述单词Wi在所述信息全集D之内的信息Dj之内的出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内单词信息熵Hdj,其中,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数,所述单词信息熵Hdj的计算公式为Hdj=I1×Qj1+I2×Qj2+…+IN×QjN
根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围;
如果所述信息A之内单词信息熵Ha在所述信息全集D的单词信息熵的大小范围之内,则判定所述信息A为所述嫌疑用户Z所发布的;
如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的。
优选的,所述根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围的步骤包括:
计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;
设定区间[U-V,U+V]作为所述信息全集D的单词信息熵的大小范围。
优选的,所述如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括:
若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布。
优选的,所述若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布的步骤还包括:
获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|);
若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax
若所述单词信息熵Ha的值不在所述区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。
优选的,所述获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T的步骤包括:
获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时间S;
将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。
优选的,所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。
本发明进一步提供一种社交网络用户分析装置,包括:
信息输入模块,用于获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时期T;
社交信息集获取模块,用于获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;
信息量计算模块,用于通过所述信息全集B之内单词Wi出现频率Pi来计算所述单词Wi的信息量Ii,其中Ii=-log2(Pi),i为所述单词Wi的序号,i从1到N,N为单词的总数;
单词信息熵Ha计算模块,用于通过所述信息A之内所述单词Wi的出现频率Ri,计算所述信息A之内单词信息熵Ha,其中Ha=I1×R1+I2×R2+…+IN×RN
单词信息熵Hdj计算模块,用于通过统计所述信息全集D之内的信息Dj之内所述单词Wi出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内所述单词信息熵Hdj,其中Hdj=I1×Qj1+I2×Qj2+…+IN×QjN,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数;
信息熵统计模块,用于计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;
用户身份判定处理模块,用于若所述单词信息熵Ha的值在区间[U-V,U+V]内时,判定所述信息A为所述嫌疑用户Z所发布的;
用户身份未判定处理模块,用于若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内时,不能判定所述信息A为所述嫌疑用户Z所发布的。
优选的,所述信息熵统计模块,还用于获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|);
所述用户身份未判定处理模块包括:
用户身份可信度处理单元,用于若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax
用户身份拒绝处理单元,用于若所述单词信息熵Ha的值不在区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。
优选的,所述信息输入模块包括:
发布时间获取单元,用于获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时间S;
发布时期计算单元,用于将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。
优选的,所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。
本发明通过对社交网络的信息熵进行计算以及对比分析,从而实现了自动判别社交网络用户身份,避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断,以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。
附图说明
图1为本发明一种社交网络用户分析方法第一实施例的流程示意图;
图2为本发明一种社交网络用户分析方法第二实施例的流程示意图;
图3为本发明一种社交网络用户分析装置第一实施例的功能模块示意图;
图4为本发明一种社交网络用户分析装置第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明一种社交网络用户分析方法的第一实施例的流程示意图。
步骤S10、获取信息A及其发布时期T。
即获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时间S,将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。所述时间S可设定位所述信息A所能提供的最高精度,例如精度从高到低依次为小时、日、月、年。例如,获取的所述时间S为2016年3月2日20时、将包含所述发布时间S为2015年3月2日20时在内的预设连续时间段2015年3月2日20时至2016年3月2日20时作为所述信息A的发布时期T。其中所述预设连续时间段也可以根据需要进行设定,其精度从高到低依次为小时、日、月、年。
步骤S20、获取在时期T所选定的社交网络上信息全集B,以及嫌疑用户Z所发布的信息全集D。
即获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D。B为所有社交网络上在时期T之内所有发布的的信息的集合。同理,D为所述嫌疑用户Z在所有社交网络上在时期T之内所有发布的的信息的集合。
步骤S30、计算全集B之内单词Wi的信息量Ii
即通过预选单词集合中每一预选单词Wi在所述信息全集B之内的出现频率Pi来计算所述预选单词Wi在所述信息全集B中的信息量Ii,其中,所述信息量Ii的计算公式为Ii=-logb(Pi),b可设置为2、10、e或其他常量,i为所述预选单词Wi的序号,i从1至N,N为所述预选单词集合中的所述预选单词Wi的总数。其中所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。
其中频率Pi的计算,例如,统计在所述信息全集B之内的所有词W1、W2、…、WN的相应出现次数C1、C2、…、CN,计算各词Wi(i从1到N,N为单词的总数)出现的频率Pi=Ci/(C1+C2+…+CN)。
步骤S40、计算信息A之内单词信息熵Ha
通过所述预选单词集合中每一预选单词Wi在所述信息A之内的出现频率Ri,并结合所述单词Wi的所述信息量Ii,计算所述信息A之内单词信息熵Ha,其中,所述单词信息熵Ha的计算公式为Ha=I1×R1+I2×R2+…+IN×RN
其中频率Ri的计算,例如,其中,统计在所述信息A之内的所有词W1、W2、…、WN的相应出现次数C’1、C’2、…、C’N,计算各词Wi(i从1到N,N为单词的总数)出现的频率Ri=C’i/(C’1+C’2+…+C’N)。
步骤S50、计算信息Dj之内单词信息熵Hdj
根据所述单词Wi在所述信息全集D之内的信息Dj之内的出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内单词信息熵Hdj,其中,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数,所述单词信息熵Hdj的计算公式为Hdj=I1×Qj1+I2×Qj2+…+IN×QjN
其中频率Qji的计算,例如,其中,统计在所述信息Dj之内的所有词W1、W2、…、WN的相应出现次数Cj1、Cj2、…、CjN,计算各词Wi(i从1到N,N为单词的总数)出现的频率Qji=Cji/(Cj1+Cj2+…+CjN)。
步骤S60、确定信息全集D的单词信息熵的大小范围,并判断信息A是否为所述嫌疑用户Z所发布。
即根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围。如果所述信息A之内单词信息熵Ha在所述信息全集D的单词信息熵的大小范围之内,则判定所述信息A为所述嫌疑用户Z所发布的;如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的。
在一个实施例中,执行步骤S60包括:
步骤S61、计算单词信息熵Hdj的平均值U以及变化量V。
其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;
步骤S62、设定区间[U-V,U+V]作为所述信息全集D的单词信息熵的大小范围。
步骤S70、判断单词信息熵Ha的值是否在区间[U-V,U+V]。
即判断单词信息熵Ha是否大于或等于U-V,并且同时小于或等于U+V,当满足该条件时,执行步骤S80,否则执行步骤S90。
步骤S80、判定信息A为嫌疑用户Z所发布的。
即若判断所述单词信息熵Ha的值在区间[U-V,U+V],判定所述信息A为所述嫌疑用户Z所发布的。
步骤S90、不能判定信息A为嫌疑用户Z所发布的。
即若判断所述单词信息熵Ha的值不在所述区间[U-V,U+V],不能判定所述信息A为所述嫌疑用户Z所发布的。
通过判断所述单词信息熵Ha的值是否在所述嫌疑用户Z所发布的所述信息全集D对应所述单词信息熵Hdj的平均值U以及变化量V所构成的区间[U-V,U+V],从而实现自动判定所述信息A是否为嫌疑用户Z所发布,避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断,以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。
参照图2,图2为本发明一种社交网络用户分析方法的第二实施例的流程示意图。如图2所示,基于上述图1的实施例:
所述步骤S90、不能判定信息A为嫌疑用户Z所发布的步骤包括:
步骤S91、获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hc1-U|,|Hc2-U|,…,|HcM-U|);
步骤S92、判断单词信息熵Ha的值是否在区间[U-Vmax,U+Vmax]。
即判断单词信息熵Ha的值是否在区间[U-Vmax,U+Vmax]。当不满足该条件时,执行步骤S93,否则执行步骤S94。
步骤S93、判定信息A不是嫌疑用户Z所发布的。
即若所述单词信息熵Ha的值不在区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。
步骤S94、即判定信息A为嫌疑用户Z所发布的的可信度。
即若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax
当判断所述单词信息熵Ha的值不在所述区间[U-V,U+V]时,再根据所述嫌疑用户Z所发布的所述信息全集D对应所述单词信息熵Hdj的最大变化量Vmax,判断所述单词信息熵Ha的值是否在区间[U-Vmax,U+Vmax],从而获得所述信息A是为嫌疑用户Z所发布的可信度,为人工判断以及自动处理提供了结果判断的参数,减轻社交网络服务商的人工和时间成本,同时更进一步的避免了错判和漏判,提高了判断的精度。
通过对社交网络的信息熵进行计算对比,从而实现了一种采用自动判别社交网络用户身份的方法,避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断,以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。另外由于同一时期之内的所选定的社交网络上同一用户通常用词习惯通常类似,因此根据香农的信息论原理,其信息熵也较相似,因此,准确度较高。
上述本发明社交网络用户分析方法的第一实施例中的社交网络用户分析方法可以由本发明社交网络用户分析装置的第一实施例所提供的社交网络用户分析装置来实现。
参照图3,图3为本发明社交网络用户分析装置的第一实施例提供一种社交网络用户分析装置1,所述装置包括:
信息输入模块10,用于获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时间S,将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。所述时间S可设定位所述信息A所能提供的最高精度,例如精度从高到低依次为小时、日、月、年。例如,获取的所述时间S为2016年3月2日20时、将包含所述发布时间S为2015年3月2日20时在内的预设连续时间段2015年3月2日20时至2016年3月2日20时作为所述信息A的发布时期T。其中所述预设连续时间段也可以根据需要进行设定,其精度从高到低依次为小时、日、月、年。
社交信息集获取模块20,用于获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D。B为所有社交网络上在时期T之内所有发布的的信息的集合。同理,C为所述嫌疑用户Z在所有社交网络上在时期T之内所有发布的的信息的集合。
信息量计算模块30,用于通过所述信息全集B之内单词Wi出现频率Pi来计算所述单词Wi的信息量Ii,Wi为预选单词集合中每一预选单词,其中Ii=-log2(Pi),i为所述单词Wi的序号,i从1到N,N为单词的总数。所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。
例如,统计在所述信息全集B之内的所有词W1、W2、…、WN的相应出现次数C1、C2、…、CN,计算各词Wi(i从1到N,N为单词的总数)出现的频率Pi=Ci/(C1+C2+…+CN)。
单词信息熵Ha计算模块40,用于通过所述信息A之内所述单词Wi的出现频率Ri,计算所述信息A之内单词信息熵Ha,其中Ha=I1×R1+I2×R2+…+IN×RN
其中频率Ri的计算,例如,其中,统计在所述信息A之内的所有词W1、W2、…、WN的相应出现次数C’1、C’2、…、C’N,计算各词Wi(i从1到N,N为单词的总数)出现的频率Ri=C’i/(C’1+C’2+…+C’N)。
单词信息熵Hdj计算模块50,用于通过统计所述信息全集D之内的信息Dj之内所述单词Wi出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内所述单词信息熵Hdj,其中Hdj=I1×Qj1+I2×Qj2+…+IN×QjN,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数。
其中频率Qji的计算,例如,其中,统计在所述信息Dj之内的所有词W1、W2、…、WN的相应出现次数Cj1、Cj2、…、CjN,计算各词Wi(i从1到N,N为单词的总数)出现的频率Qji=Cji/(Cj1+Dj2+…+CjN)。
信息熵统计模块60,用于计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hc1+Hc2+…+HcM)/M,V=(|Hc1-U|+|Hc2-U|+…+|HcM-U|)/M。
用户身份判定处理模块70,用于若所述单词信息熵Ha的值在区间[U-V,U+V]内时,判定所述信息A为所述嫌疑用户Z所发布的。
用户身份未判定处理模块80,用于若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内时,不能判定所述信息A为所述嫌疑用户Z所发布的。
通过判断所述单词信息熵Ha的值是否在所述嫌疑用户Z所发布的所述信息全集D对应所述单词信息熵Hdj的值U以及变化量V所构成的区间[U-V,U+V],从而实现自动判定所述信息A是否为嫌疑用户Z所发布,避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断,以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。
上述本发明社交网络用户分析方法的第二实施例中的社交网络用户分析方法可以由本发明社交网络用户分析装置的第二实施例所提供的社交网络用户分析装置来实现。
参照图4,本发明社交网络用户分析装置的第二实施例提供一种社交网络用户分析装置1,基于上述图4所示的实施例,还包括:
所述信息熵统计模块60,还用于获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|)。
即在所述计算所述单词信息熵Hdj的平均值U以及变化量V的同时,计算所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|)。
所述用户身份未判定处理模块80包括:
用户身份可信度处理单元81,用于若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax
用户身份拒绝处理单元82,用于若所述单词信息熵Ha的值不在区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。
当判断所述单词信息熵Ha的值不在所述区间[U-V,U+V]时,再根据所述嫌疑用户Z所发布的所述信息全集D对应所述单词信息熵Hdj的最大变化量Vmax,判断所述单词信息熵Ha的值是否在区间[U-Vmax,U+Vmax],从而获得所述信息A是为嫌疑用户Z所发布的可信度,为人工判断以及自动处理提供了结果判断的参数,减轻社交网络服务商的人工和时间成本,同时更进一步的避免了错判和漏判,提高了判断的精度。
通过对社交网络的信息熵进行计算对比,从而实现了一种自动判别社交网络用户身份的装置,避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断,以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
显然,本领域的技术人员应该明白,上述的本发明的各模块单元或各步骤可以用通用的计算装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种社交网络用户分析方法,其特征在于,包括:
获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T;
获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;
通过预选单词集合中每一预选单词Wi在所述信息全集B之内的出现频率Pi来计算所述预选单词Wi在所述信息全集B中的信息量Ii,其中,所述信息量Ii的计算公式为Ii=-logb(Pi),b可设置为2、10、e或其他常量,i为所述预选单词Wi的序号,i从1至N,N为所述预选单词集合中的所述预选单词Wi的总数;
通过所述预选单词集合中每一预选单词Wi在所述信息A之内的出现频率Ri,并结合所述单词Wi的所述信息量Ii,计算所述信息A之内单词信息熵Ha,其中,所述单词信息熵Ha的计算公式为Ha=I1×R1+I2×R2+…+IN×RN
根据所述单词Wi在所述信息全集D之内的信息Dj之内的出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内单词信息熵Hdj,其中,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数,所述单词信息熵Hdj的计算公式为Hdj=I1×Qj1+I2×Qj2+…+IN×QjN
根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围;
如果所述信息A之内单词信息熵Ha在所述信息全集D的单词信息熵的大小范围之内,则判定所述信息A为所述嫌疑用户Z所发布的;
如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的。
2.如权利要求1所述的社交网络用户分析方法,其特征在于,所述根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围的步骤包括:
计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;
设定区间[U-V,U+V]作为所述信息全集D的单词信息熵的大小范围。
3.如权利要求2所述的社交网络用户分析方法,其特征在于,所述如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括:
若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布。
4.如权利要求3所述的一种社交网络用户分析方法,其特征在于,所述若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括:
获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|);
若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax
若所述单词信息熵Ha的值不在所述区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。
5.如权利要求1所述的一种社交网络用户分析方法,其特征在于,所述获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T的步骤包括:
获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时间S;
将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。
6.如权利要求1所述的一种社交网络用户分析方法,其特征在于,
所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。
7.一种社交网络用户分析装置,其特征在于,包括:
信息输入模块,用于获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时期T;
社交信息集获取模块,用于获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;
信息量计算模块,用于通过所述信息全集B之内单词Wi出现频率Pi来计算所述单词Wi的信息量Ii,Wi为预选单词集合中每一预选单词,其中Ii=-log2(Pi),i为所述单词Wi的序号,i从1到N,N为单词的总数;
单词信息熵Ha计算模块,用于通过所述信息A之内所述单词Wi的出现频率Ri,计算所述信息A之内单词信息熵Ha,其中Ha=I1×R1+I2×R2+…+IN×RN
单词信息熵Hdj计算模块,用于通过统计所述信息全集D之内的信息Dj之内所述单词Wi出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内所述单词信息熵Hdj,其中Hdj=I1×Qj1+I2×Qj2+…+IN×QjN,j从1至M,M为所述信息全集D的信息总数;
信息熵统计模块,用于计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;
用户身份判定处理模块,用于若所述单词信息熵Ha的值在区间[U-V,U+V]内时,判定所述信息A为所述嫌疑用户Z所发布的;
用户身份未判定处理模块,用于若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内时,不能判定所述信息A为所述嫌疑用户Z所发布的。
8.如权利要求7所述的一种社交网络用户分析装置,其特征在于,
所述信息熵统计模块,还用于获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|);
所述用户身份未判定处理模块包括:
用户身份可信度处理单元,用于若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax
用户身份拒绝处理单元,用于若所述单词信息熵Ha的值不在区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。
9.如权利要求7所述的一种社交网络用户分析装置,其特征在于,所述信息输入模块包括:
发布时间获取单元,用于获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时间S;
发布时期计算单元,用于将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。
10.如权利要求7所述的一种社交网络用户分析装置,其特征在于,
所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。
CN201611083770.2A 2016-11-30 2016-11-30 基于信息熵的社交网络用户分析方法和装置 Pending CN106780061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611083770.2A CN106780061A (zh) 2016-11-30 2016-11-30 基于信息熵的社交网络用户分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611083770.2A CN106780061A (zh) 2016-11-30 2016-11-30 基于信息熵的社交网络用户分析方法和装置

Publications (1)

Publication Number Publication Date
CN106780061A true CN106780061A (zh) 2017-05-31

Family

ID=58913465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611083770.2A Pending CN106780061A (zh) 2016-11-30 2016-11-30 基于信息熵的社交网络用户分析方法和装置

Country Status (1)

Country Link
CN (1) CN106780061A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106192A (zh) * 2013-02-02 2013-05-15 深圳先进技术研究院 文学作品作者识别方法及装置
EP2747431A1 (en) * 2012-10-25 2014-06-25 Huawei Technologies Co., Ltd. Device and method for detecting whether camera is interfered with, and video monitoring system
CN104090918A (zh) * 2014-06-16 2014-10-08 北京理工大学 一种基于信息量的句子相似度计算方法
CN104598498A (zh) * 2013-10-30 2015-05-06 北京千橡网景科技发展有限公司 移动社交网络中用户信息的整合方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2747431A1 (en) * 2012-10-25 2014-06-25 Huawei Technologies Co., Ltd. Device and method for detecting whether camera is interfered with, and video monitoring system
CN103106192A (zh) * 2013-02-02 2013-05-15 深圳先进技术研究院 文学作品作者识别方法及装置
CN104598498A (zh) * 2013-10-30 2015-05-06 北京千橡网景科技发展有限公司 移动社交网络中用户信息的整合方法和装置
CN104090918A (zh) * 2014-06-16 2014-10-08 北京理工大学 一种基于信息量的句子相似度计算方法

Similar Documents

Publication Publication Date Title
Bentley et al. Academic work from a comparative perspective: A survey of faculty working time across 13 countries
Mor Barak et al. The promise of diversity management for climate of inclusion: A state-of-the-art review and meta-analysis
Johnston et al. The geography of ethnic residential segregation: A comparative study of five countries
Hayward et al. Still left out in the cold: problematising participatory research and development
Folz Service quality and benchmarking the performance of municipal services
Leider et al. The methods of PH WINS 2017: approaches to refreshing nationally representative state-level estimates and creating nationally representative local-level estimates of public health workforce interests and needs
Öberg et al. Political power and policy design: Why are policy alternatives constrained?
Wang et al. Does smart city implementation improve the subjective quality of life? Evidence from China
CN110727852A (zh) 一种推送招聘推荐服务的方法、装置及终端
Burholt et al. Transnational relationships and cultural identity of older migrants
Balassiano et al. Placemaking in rural new gateway communities
McLaughlin et al. Using composite metrics to measure student diversity in higher education
Adnan et al. An initiatives-based framework for assessing smart city
Wiseman Selection of major planning issues
Jentges et al. Communication of political interest groups in Switzerland: Adressees, channels and instruments
Dienel Planning cells: the german experience
CN106780060A (zh) 基于信息熵的地方协商社交网络用户身份判别方法和装置
CN106780061A (zh) 基于信息熵的社交网络用户分析方法和装置
Chan-Gon et al. Public administrators' acceptance of the practice of digital democracy: A model explaining the utilization of online policy forums in South Korea
Henriksen et al. Can we bridge the gap between goals and practice through a common vision? A study of politicians and managers’ understanding of the provisions of elderly care services
Boterman et al. Differentiated residential orientations of class fractions
Abe et al. Current status and issues of coworking spaces in Japan
Asad et al. Report: Defining Rural
Ong et al. Prioritizing needs with communities: Rapid appraisal methodologies in health
Pink-Harper et al. Social capital, civic engagement, and economics in a transitioning economy: The case of Vietnam Provinces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531