CN106780061A

CN106780061A - 基于信息熵的社交网络用户分析方法和装置

Info

Publication number: CN106780061A
Application number: CN201611083770.2A
Authority: CN
Inventors: 朱定局; 汤庸
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2017-05-31

Abstract

本发明公开了一种社交网络用户分析方法，获取信息A，以及发布时期T；获取在所述时期T所选定的社交网络上的全部用户所发布的信息全集B，以及嫌疑用户Z所发布的信息全集D；计算单词W_i的信息量I_i；计算所述信息A之内单词信息熵H_a；计算所述信息D_j之内所述单词信息熵H_dj；计算所述单词信息熵H_dj的平均值U以及变化量V，若判断所述单词信息熵H_a的值在区间[U‑V,U+V]，判定所述信息A为所述嫌疑用户Z所发布的。实现了自动判别社交网络用户身份，避免了采用现有的传统的人工判断所存在的判断的结果客观性不足，需要耗费非常高的人工和时间成本的缺陷。

Description

基于信息熵的社交网络用户分析方法和装置

技术领域

本发明涉及社交网络技术领域，特别涉及一种基于信息熵的社交网络用户分析方法和装置。

背景技术

随着互联网在人们日常生活中广泛地应用，社交网络服务(Social NetworkService，简称社交网络)也便应运而生了。今年随着移动互联网的爆发式增长，借助性能日益强劲的智能手机以及各种手持终端设备，社交网络为人们在信息时代的非常方便与高效的信息交流与分享方式，并且使用社交网络已经成为了人们每天生活的习惯。由于不同的社交网络是由不同的服务商来进行运维和管理的，因此需要用户分别在各个社交网络平台上进行注册。因此，对存在两个问题点：一、有些社交网络允许用户不用注册就可以匿名发布信息；二、有些社交网站上会存在冒名顶替发布的信息的行为。人们总是希望在社交网络中的信息是可以被相信的，管理者以及用户可以凭借信息发布者的真实身份来判断是否相信被发布的信息。因此在社交网路之中需要一种判断真实用户身份的方法。特别是当真实用户本人已经不在人世或很难联系上，则无法由用户真实用户本人进行确认，这时候就特别需要一种真实身份判断方法解决这个难题。而现有技术主要是靠人工方式来判断某时期某匿名用户在社交网络上发布的信息是否为某嫌疑用户，或是哪一个用户在社交网络上发布的信息。这种人工方式的主要缺点为：对社交网络管理人员的综合素养要求非常高，并且其人工判断的结果客观性不足，不同的人可能有不同的判断；需要耗费社交网络服务商花费非常高的人工和时间成本。因此需要有一种采用人工智能的自动判断方法，依据客观的因素来进行自动的、无需人工干预的判别。

发明内容

本发明的主要目的在于提供一种社交网络用户分析方法和装置，旨在解决现有的人工判别方式对社交网络管理人员的综合素养要求非常高，并且其人工判断的结果客观性不足，不同的人可能有不同的判断，以及需要耗费社交网络服务商花费非常高的人工和时间成本的这一技术问题。

为实现上述目的，本发明提供的一种社交网络用户分析方法，包括：

获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T；

获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B，以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D；

通过预选单词集合中每一预选单词W_i在所述信息全集B之内的出现频率P_i来计算所述预选单词W_i在所述信息全集B中的信息量I_i，其中，所述信息量I_i的计算公式为I_i＝-log_b(P_i)，b可设置为2、10、e或其他常量，i为所述预选单词W_i的序号，i从1至N，N为所述预选单词集合中的所述预选单词W_i的总数；

通过所述预选单词集合中每一预选单词W_i在所述信息A之内的出现频率R_i，并结合所述单词W_i的所述信息量I_i，计算所述信息A之内单词信息熵H_a，其中，所述单词信息熵H_a的计算公式为H_a＝I₁×R₁+I₂×R₂+…+I_N×R_N；

根据所述单词W_i在所述信息全集D之内的信息D_j之内的出现频率Q_ji，并结合所述单词W_i的所述信息量I_i，计算所述信息D_j之内单词信息熵H_dj，其中，j为所述信息D_j的序号，j从1至M，M为所述信息全集D的信息总数，所述单词信息熵H_dj的计算公式为H_dj＝I₁×Q_j1+I₂×Q_j2+…+I_N×Q_jN；

根据所述信息全集D之内的每一信息D_j的单词信息熵H_dj的大小，确定所述信息全集D的单词信息熵的大小范围；

如果所述信息A之内单词信息熵H_a在所述信息全集D的单词信息熵的大小范围之内，则判定所述信息A为所述嫌疑用户Z所发布的；

如果所述信息A之内单词信息熵H_a不在所述信息全集D之内的单词信息熵的大小范围之内，则不能判定所述信息A为所述嫌疑用户Z所发布的。

优选的，所述根据所述信息全集D之内的每一信息D_j的单词信息熵H_dj的大小，确定所述信息全集D的单词信息熵的大小范围的步骤包括：

计算所述单词信息熵H_dj的平均值U以及变化量V，其中U＝(H_d1+H_d2+…+H_dM)/M，V＝(|H_d1-U|+|H_d2-U|+…+|H_dM-U|)/M；

设定区间[U-V，U+V]作为所述信息全集D的单词信息熵的大小范围。

优选的，所述如果所述信息A之内单词信息熵H_a不在所述信息全集D之内的单词信息熵的大小范围之内，则不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括：

若所述单词信息熵H_a的值不在所述区间[U-V，U+V]内，不能判定所述信息A为所述嫌疑用户Z所发布。

优选的，所述若所述单词信息熵H_a的值不在所述区间[U-V，U+V]内，不能判定所述信息A为所述嫌疑用户Z所发布的步骤还包括：

获取所述单词信息熵H_dj的最大变化量V_max，其中V_max＝max(|H_d1-U|，|H_d2-U|，…，|H_dM-U|)；

若所述单词信息熵H_a的值在区间[U-V_max，U+V_max]，判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-H_a|/V_max；

若所述单词信息熵H_a的值不在所述区间[U-V_max，U+V_max]，判定所述信息A不是所述嫌疑用户Z所发布的。

优选的，所述获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T的步骤包括：

获取需要判别用户身份是否为嫌疑用户Z的信息A，以及所述信息A的发布时间S；

将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。

优选的，所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。

本发明进一步提供一种社交网络用户分析装置，包括：

信息输入模块，用于获取需要判别用户身份是否为嫌疑用户Z的信息A，以及所述信息A的发布时期T；

社交信息集获取模块，用于获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B，以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D；

信息量计算模块，用于通过所述信息全集B之内单词W_i出现频率P_i来计算所述单词W_i的信息量I_i，其中I_i＝-log₂(P_i)，i为所述单词W_i的序号，i从1到N，N为单词的总数；

单词信息熵H_a计算模块，用于通过所述信息A之内所述单词W_i的出现频率R_i，计算所述信息A之内单词信息熵H_a，其中H_a＝I₁×R₁+I₂×R₂+…+I_N×R_N；

单词信息熵H_dj计算模块，用于通过统计所述信息全集D之内的信息D_j之内所述单词W_i出现频率Q_ji，并结合所述单词W_i的所述信息量I_i，计算所述信息D_j之内所述单词信息熵H_dj，其中H_dj＝I₁×Q_j1+I₂×Q_j2+…+I_N×Q_jN，j为所述信息D_j的序号，_j从1至M，M为所述信息全集D的信息总数；

信息熵统计模块，用于计算所述单词信息熵H_dj的平均值U以及变化量V，其中U＝(H_d1+H_d2+…+H_dM)/M，V＝(|H_d1-U|+|H_d2-U|+…+|H_dM-U|)/M；

用户身份判定处理模块，用于若所述单词信息熵H_a的值在区间[U-V，U+V]内时，判定所述信息A为所述嫌疑用户Z所发布的；

用户身份未判定处理模块，用于若所述单词信息熵H_a的值不在所述区间[U-V，U+V]内时，不能判定所述信息A为所述嫌疑用户Z所发布的。

优选的，所述信息熵统计模块，还用于获取所述单词信息熵H_dj的最大变化量V_max，其中V_max＝max(|H_d1-U|，|H_d2-U|，…，|H_dM-U|)；

所述用户身份未判定处理模块包括：

用户身份可信度处理单元，用于若所述单词信息熵H_a的值在区间[U-V_max,U+V_max]，判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-H_a|/V_max；

用户身份拒绝处理单元，用于若所述单词信息熵H_a的值不在区间[U-V_max,U+V_max]，判定所述信息A不是所述嫌疑用户Z所发布的。

优选的，所述信息输入模块包括：

发布时间获取单元，用于获取需要判别用户身份是否为嫌疑用户Z的信息A，以及所述信息A的发布时间S；

发布时期计算单元，用于将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。

本发明通过对社交网络的信息熵进行计算以及对比分析，从而实现了自动判别社交网络用户身份，避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高，并且其人工判断的结果客观性不足，不同的人可能有不同的判断，以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。

附图说明

图1为本发明一种社交网络用户分析方法第一实施例的流程示意图；

图2为本发明一种社交网络用户分析方法第二实施例的流程示意图；

图3为本发明一种社交网络用户分析装置第一实施例的功能模块示意图；

图4为本发明一种社交网络用户分析装置第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明一种社交网络用户分析方法的第一实施例的流程示意图。

步骤S10、获取信息A及其发布时期T。

即获取需要判别用户身份是否为嫌疑用户Z的信息A，以及所述信息A的发布时间S，将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。所述时间S可设定位所述信息A所能提供的最高精度，例如精度从高到低依次为小时、日、月、年。例如，获取的所述时间S为2016年3月2日20时、将包含所述发布时间S为2015年3月2日20时在内的预设连续时间段2015年3月2日20时至2016年3月2日20时作为所述信息A的发布时期T。其中所述预设连续时间段也可以根据需要进行设定，其精度从高到低依次为小时、日、月、年。

步骤S20、获取在时期T所选定的社交网络上信息全集B，以及嫌疑用户Z所发布的信息全集D。

即获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B，以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D。B为所有社交网络上在时期T之内所有发布的的信息的集合。同理，D为所述嫌疑用户Z在所有社交网络上在时期T之内所有发布的的信息的集合。

步骤S30、计算全集B之内单词W_i的信息量I_i。

即通过预选单词集合中每一预选单词W_i在所述信息全集B之内的出现频率P_i来计算所述预选单词W_i在所述信息全集B中的信息量I_i，其中，所述信息量I_i的计算公式为I_i＝-log_b(P_i)，b可设置为2、10、e或其他常量，i为所述预选单词W_i的序号，i从1至N，N为所述预选单词集合中的所述预选单词W_i的总数。其中所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。

其中频率P_i的计算，例如，统计在所述信息全集B之内的所有词W₁、W₂、…、W_N的相应出现次数C₁、C₂、…、C_N,计算各词W_i(i从1到N，N为单词的总数)出现的频率P_i＝C_i/(C₁₊C₂+…+C_N)。

步骤S40、计算信息A之内单词信息熵H_a。

其中频率R_i的计算，例如，其中，统计在所述信息A之内的所有词W₁、W₂、…、W_N的相应出现次数C’₁、C’₂、…、C’_N,计算各词W_i(i从1到N，N为单词的总数)出现的频率R_i＝C’_i/(C’₁₊C’₂+…+C’_N)。

步骤S50、计算信息D_j之内单词信息熵H_dj。

根据所述单词W_i在所述信息全集D之内的信息D_j之内的出现频率Q_ji，并结合所述单词W_i的所述信息量I_i，计算所述信息D_j之内单词信息熵H_dj，其中，_j为所述信息D_j的序号，_j从1至M，M为所述信息全集D的信息总数，所述单词信息熵H_dj的计算公式为H_dj＝I₁×Q_j1+I₂×Q_j2+…+I_N×Q_jN。

其中频率Q_ji的计算，例如，其中，统计在所述信息D_j之内的所有词W₁、W₂、…、W_N的相应出现次数C_j1、C_j2、…、C_jN,计算各词W_i(i从1到N，N为单词的总数)出现的频率Q_ji＝C_ji/(C_j1+C_j2+…+C_jN)。

步骤S60、确定信息全集D的单词信息熵的大小范围，并判断信息A是否为所述嫌疑用户Z所发布。

即根据所述信息全集D之内的每一信息D_j的单词信息熵H_dj的大小，确定所述信息全集D的单词信息熵的大小范围。如果所述信息A之内单词信息熵H_a在所述信息全集D的单词信息熵的大小范围之内，则判定所述信息A为所述嫌疑用户Z所发布的；如果所述信息A之内单词信息熵H_a不在所述信息全集D之内的单词信息熵的大小范围之内，则不能判定所述信息A为所述嫌疑用户Z所发布的。

在一个实施例中,执行步骤S60包括：

步骤S61、计算单词信息熵H_dj的平均值U以及变化量V。

其中U＝(H_d1+H_d2+…+H_dM)/M，V＝(|H_d1-U|+|H_d2-U|+…+|H_dM-U|)/M；

步骤S62、设定区间[U-V，U+V]作为所述信息全集D的单词信息熵的大小范围。

步骤S70、判断单词信息熵H_a的值是否在区间[U-V，U+V]。

即判断单词信息熵H_a是否大于或等于U-V，并且同时小于或等于U+V，当满足该条件时，执行步骤S80，否则执行步骤S90。

步骤S80、判定信息A为嫌疑用户Z所发布的。

即若判断所述单词信息熵H_a的值在区间[U-V，U+V]，判定所述信息A为所述嫌疑用户Z所发布的。

步骤S90、不能判定信息A为嫌疑用户Z所发布的。

即若判断所述单词信息熵H_a的值不在所述区间[U-V，U+V]，不能判定所述信息A为所述嫌疑用户Z所发布的。

通过判断所述单词信息熵H_a的值是否在所述嫌疑用户Z所发布的所述信息全集D对应所述单词信息熵H_dj的平均值U以及变化量V所构成的区间[U-V，U+V]，从而实现自动判定所述信息A是否为嫌疑用户Z所发布，避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高，并且其人工判断的结果客观性不足，不同的人可能有不同的判断，以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。

参照图2，图2为本发明一种社交网络用户分析方法的第二实施例的流程示意图。如图2所示，基于上述图1的实施例：

所述步骤S90、不能判定信息A为嫌疑用户Z所发布的步骤包括：

步骤S91、获取所述单词信息熵H_dj的最大变化量V_max，其中V_max＝max(|H_c1-U|，|H_c2-U|，…，|H_cM-U|)；

步骤S92、判断单词信息熵H_a的值是否在区间[U-V_max,U+V_max]。

即判断单词信息熵H_a的值是否在区间[U-V_max,U+V_max]。当不满足该条件时，执行步骤S93，否则执行步骤S94。

步骤S93、判定信息A不是嫌疑用户Z所发布的。

即若所述单词信息熵H_a的值不在区间[U-V_max,U+V_max]，判定所述信息A不是所述嫌疑用户Z所发布的。

步骤S94、即判定信息A为嫌疑用户Z所发布的的可信度。

即若所述单词信息熵H_a的值在区间[U-V_max,U+V_max]，判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-H_a|/V_max。

当判断所述单词信息熵H_a的值不在所述区间[U-V，U+V]时，再根据所述嫌疑用户Z所发布的所述信息全集D对应所述单词信息熵H_dj的最大变化量V_max，判断所述单词信息熵H_a的值是否在区间[U-V_max,U+V_max]，从而获得所述信息A是为嫌疑用户Z所发布的可信度，为人工判断以及自动处理提供了结果判断的参数，减轻社交网络服务商的人工和时间成本，同时更进一步的避免了错判和漏判，提高了判断的精度。

通过对社交网络的信息熵进行计算对比，从而实现了一种采用自动判别社交网络用户身份的方法，避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高，并且其人工判断的结果客观性不足，不同的人可能有不同的判断，以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。另外由于同一时期之内的所选定的社交网络上同一用户通常用词习惯通常类似，因此根据香农的信息论原理，其信息熵也较相似，因此，准确度较高。

上述本发明社交网络用户分析方法的第一实施例中的社交网络用户分析方法可以由本发明社交网络用户分析装置的第一实施例所提供的社交网络用户分析装置来实现。

参照图3，图3为本发明社交网络用户分析装置的第一实施例提供一种社交网络用户分析装置1，所述装置包括：

信息输入模块10，用于获取需要判别用户身份是否为嫌疑用户Z的信息A，以及所述信息A的发布时间S，将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。所述时间S可设定位所述信息A所能提供的最高精度，例如精度从高到低依次为小时、日、月、年。例如，获取的所述时间S为2016年3月2日20时、将包含所述发布时间S为2015年3月2日20时在内的预设连续时间段2015年3月2日20时至2016年3月2日20时作为所述信息A的发布时期T。其中所述预设连续时间段也可以根据需要进行设定，其精度从高到低依次为小时、日、月、年。

社交信息集获取模块20，用于获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B，以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D。B为所有社交网络上在时期T之内所有发布的的信息的集合。同理，C为所述嫌疑用户Z在所有社交网络上在时期T之内所有发布的的信息的集合。

信息量计算模块30，用于通过所述信息全集B之内单词W_i出现频率P_i来计算所述单词W_i的信息量I_i，W_i为预选单词集合中每一预选单词，其中I_i＝-log₂(P_i)，i为所述单词W_i的序号，i从1到N，N为单词的总数。所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。

例如，统计在所述信息全集B之内的所有词W₁、W₂、…、W_N的相应出现次数C₁、C₂、…、C_N,计算各词W_i(i从1到N，N为单词的总数)出现的频率P_i＝C_i/(C₁+C₂+…+C_N)。

单词信息熵H_a计算模块40，用于通过所述信息A之内所述单词W_i的出现频率R_i，计算所述信息A之内单词信息熵H_a，其中H_a＝I₁×R₁+I₂×R₂+…+I_N×R_N。

其中频率R_i的计算，例如，其中，统计在所述信息A之内的所有词W₁、W₂、…、W_N的相应出现次数C’₁、C’₂、…、C’_N,计算各词W_i(i从1到N，N为单词的总数)出现的频率R_i＝C’_i/(C’₁+C’₂+…+C’_N)。

单词信息熵H_dj计算模块50，用于通过统计所述信息全集D之内的信息D_j之内所述单词W_i出现频率Q_ji，并结合所述单词W_i的所述信息量I_i，计算所述信息D_j之内所述单词信息熵H_dj，其中H_dj＝I₁×Q_j1+I₂×Q_j2+…+I_N×Q_jN，j为所述信息D_j的序号，j从1至M，M为所述信息全集D的信息总数。

其中频率Q_ji的计算，例如，其中，统计在所述信息D_j之内的所有词W₁、W₂、…、W_N的相应出现次数C_j1、C_j2、…、C_jN,计算各词W_i(i从1到N，N为单词的总数)出现的频率Q_ji＝C_ji/(C_j1+D_j2+…+C_jN)。

信息熵统计模块60，用于计算所述单词信息熵H_dj的平均值U以及变化量V，其中U＝(H_c1+H_c2+…+H_cM)/M，V＝(|H_c1-U|+|H_c2-U|+…+|H_cM-U|)/M。

用户身份判定处理模块70，用于若所述单词信息熵H_a的值在区间[U-V，U+V]内时，判定所述信息A为所述嫌疑用户Z所发布的。

用户身份未判定处理模块80，用于若所述单词信息熵H_a的值不在所述区间[U-V，U+V]内时，不能判定所述信息A为所述嫌疑用户Z所发布的。

通过判断所述单词信息熵H_a的值是否在所述嫌疑用户Z所发布的所述信息全集D对应所述单词信息熵H_dj的值U以及变化量V所构成的区间[U-V，U+V]，从而实现自动判定所述信息A是否为嫌疑用户Z所发布，避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高，并且其人工判断的结果客观性不足，不同的人可能有不同的判断，以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。

上述本发明社交网络用户分析方法的第二实施例中的社交网络用户分析方法可以由本发明社交网络用户分析装置的第二实施例所提供的社交网络用户分析装置来实现。

参照图4，本发明社交网络用户分析装置的第二实施例提供一种社交网络用户分析装置1，基于上述图4所示的实施例，还包括：

所述信息熵统计模块60，还用于获取所述单词信息熵H_dj的最大变化量V_max，其中V_max＝max(|H_d1-U|，|H_d2-U|，…，|H_dM-U|)。

即在所述计算所述单词信息熵H_dj的平均值U以及变化量V的同时，计算所述单词信息熵H_dj的最大变化量V_max，其中V_max＝max(|H_d1-U|，|H_d2-U|，…，|H_dM-U|)。

所述用户身份未判定处理模块80包括：

用户身份可信度处理单元81，用于若所述单词信息熵H_a的值在区间[U-V_max,U+V_max]，判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-H_a|/V_max；

用户身份拒绝处理单元82，用于若所述单词信息熵H_a的值不在区间[U-V_max,U+V_max]，判定所述信息A不是所述嫌疑用户Z所发布的。

通过对社交网络的信息熵进行计算对比，从而实现了一种自动判别社交网络用户身份的装置，避免了采用现有的传统的人工判断所存在的对人工管理人员的综合素养要求非常高，并且其人工判断的结果客观性不足，不同的人可能有不同的判断，以及需要耗费社交网络服务商花费非常高的人工和时间成本的缺陷。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员应该明白，上述的本发明的各模块单元或各步骤可以用通用的计算装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种社交网络用户分析方法，其特征在于，包括：

根据所述单词W_i在所述信息全集D之内的信息D_j之内的出现频率Q_ji，并结合所述单词W_i的所述信息量I_i，计算所述信息D_j之内单词信息熵H_dj，其中，_j为所述信息D_j的序号，_j从1至M，M为所述信息全集D的信息总数，所述单词信息熵H_dj的计算公式为H_dj＝I₁×Q_j1+I₂×Q_j2+…+I_N×Q_jN；

2.如权利要求1所述的社交网络用户分析方法，其特征在于，所述根据所述信息全集D之内的每一信息D_j的单词信息熵H_dj的大小，确定所述信息全集D的单词信息熵的大小范围的步骤包括：

3.如权利要求2所述的社交网络用户分析方法，其特征在于，所述如果所述信息A之内单词信息熵H_a不在所述信息全集D之内的单词信息熵的大小范围之内，则不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括：

4.如权利要求3所述的一种社交网络用户分析方法，其特征在于，所述若所述单词信息熵H_a的值不在所述区间[U-V，U+V]内，不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括：

5.如权利要求1所述的一种社交网络用户分析方法，其特征在于，所述获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T的步骤包括：

6.如权利要求1所述的一种社交网络用户分析方法，其特征在于，

所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。

7.一种社交网络用户分析装置，其特征在于，包括：

信息量计算模块，用于通过所述信息全集B之内单词W_i出现频率P_i来计算所述单词W_i的信息量I_i，W_i为预选单词集合中每一预选单词，其中I_i＝-log₂(P_i)，i为所述单词W_i的序号，i从1到N，N为单词的总数；

单词信息熵H_dj计算模块，用于通过统计所述信息全集D之内的信息D_j之内所述单词W_i出现频率Q_ji，并结合所述单词W_i的所述信息量I_i，计算所述信息D_j之内所述单词信息熵H_dj，其中H_dj＝I₁×Q_j1+I₂×Q_j2+…+I_N×Q_jN，j从1至M，M为所述信息全集D的信息总数；

8.如权利要求7所述的一种社交网络用户分析装置，其特征在于，

所述信息熵统计模块，还用于获取所述单词信息熵H_dj的最大变化量V_max，其中V_max＝max(|H_d1-U|，|H_d2-U|，…，|H_dM-U|)；

所述用户身份未判定处理模块包括：

9.如权利要求7所述的一种社交网络用户分析装置，其特征在于，所述信息输入模块包括：

10.如权利要求7所述的一种社交网络用户分析装置，其特征在于，