CN108345662A

CN108345662A - 一种考虑用户分布区域差异的签到微博数据加权统计方法

Info

Publication number: CN108345662A
Application number: CN201810101398.6A
Authority: CN
Inventors: 梁春阳; 林广发; 罗尊骅; 彭俊超; 梁丽娟
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-07-31
Anticipated expiration: 2038-02-01
Also published as: CN108345662B

Abstract

本发明涉及一种考虑用户分布区域差异的签到微博数据加权统计方法。该方法在分析微博用户签到量概率分布规律的基础上，提出了一种基于泊松分布的区域间用户分布差异加权模型；利用微博位置服务接口获取指定区域在某一时间段的签到用户量时间序列值，确定泊松分布的参数并计算出各个区域的相对签到强度权重；在此基础上，进一步计算修正实际签到量的区域差异。本发明方法经实例验证发现，可以明显改进基于微博的舆情分析、事件抽取结果的空间分析精度。

Description

一种考虑用户分布区域差异的签到微博数据加权统计方法

技术领域

本发明涉及计算机应用，应急管理学与地理信息系统等专业领域，更具体地为一种利用加权模型消除微博用户活跃度的地区差异，从而改进基于微博的突发事件抽取、空间统计分析与舆情研判精度的方法，即一种考虑用户分布区域差异的签到微博数据加权统计方法。

背景技术

传统微博是最常见且具有开放性的一种社交媒体，因其用户覆盖范围广、信息量大、获取方法遍历，近年来得到广泛应用。微博文本短小，信息密度大，特别是与基于手机的各种移动定位技术结合起来，在舆情统计分析、用户画像、突发事件跟踪等方面具有巨大的应用价值。与传统的基于行政体系的自下而上的统计方法不同，微博等众包数据以公众参与代替政府主导、以自发报道代替逐级上报、以快速感知代替灾后统计、以广域覆盖代替逐点调查，被称为是突发事件的“传感网络”，或“社会感知”的重要工具。但是，这种数据源也有其自身的缺陷，如信息的真实性问题、专题信息提取的完备性问题、统计区域的代表性问题等等，近年来，许多研究人员针对微博等社交媒体的信息抽取、数据挖掘技术进行研究。

发明内容

本发明的目的在于针对新浪微博区域间用户量的差异对微博签到量统计分析的影响，以签到位置点所在县市级行政单元为基本空间单元，根据每个基本空间单元在指定访问时间段内的用户签到次数来计算其用户分布权重，以此来校正每个空间单元的微博用户的真实签到情况，进而提出一种考虑用户分布区域差异的签到微博数据加权统计方法。

为实现上述目的，本发明的技术方案是：一种考虑用户分布区域差异的签到微博数据加权统计方法，包括如下步骤，

步骤S1、将需要采集的签到位置名称之间以逗号作为分隔符隔开，存为TXT格式文件；对组织好的TXT文件进行读取并将签到位置名称存入数组中；

步骤S2、遍历步骤S1得到的数组并构造相应的HTTP请求，而后以模拟登陆的方式对该URL访问；将返回的HTML数据采用正则表达式匹配签到位置相应的ID，并将其ID存入签到位置ID数组中；

步骤S3、遍历签到位置ID数组并构造相应的HTTP请求并进行访问，将返回的HTML数据采用正则表达式匹配每个签到位置的用户签到次数，将其记为Ni，即签到位置i的签到次数；

步骤S4、当事件发生时，微博社交网络中可能产生了具有相应关键词的微博数据，其中部分微博数据包含了签到地理位置数据；将含有签到地理位置数据的微博出现的集合定义为P(Check_inSet)，其公式可以定义为一种联合概率链的形式：

P(Check_inSet)＝P(C₁)P(C₂/C₁)......P(C_n/C₁,C₂...C_n-1) (1)

在该种情况下由于签到位置之间的条件概率难以计算，因此假设签到位置之间相互独立：

P(Check_inSet)＝P(C₁)P(C₂)......P(C_n) (2)

其中P(C_i)即签到位置i的签到概率：

P(Ci)＝Ni/T (3)

其中，Ni即由步骤S3得到的第i个签到位置在正常情况下的签到次数，T为所有签到位置签到次数的求和：

现实情况下当事件发生时，微博用户会在相同的位置进行签到，即公式(2)中的P(C_i)各项存在同类项，将这些同类项进行合并得到如下公式：

P(Check_inSet)＝P(C₁)ⁿ¹P(C₂)ⁿ²...P(C_i)ⁿⁱ (5)

再对公式(5)两边取对数进一步化简：

其中，事件相关微博在签到位置i的条数，即该事件在签到位置i的签到量n_i；Ln(T/Ni)项将其记为用户分布反权重项。

在本发明一实施例中，该方法还包括如下步骤：

步骤S5、虽然Ni可以由步骤S3直接得到每个签到位置的签到次数，但是存在较大的随机性；为了获得较为可靠的Ni的值，进行了如下步骤的推导；

S5A，微博中存在海量的签到点，即用户在一个签到位置进行签到的概率为一种小概率事件，记为Px，同时微博的用户为较大的群体；该种情况满足泊松过程，其数学形式可以表达为公式7，其概率函数为公式8：

S5B，基于泊松分布对公式(6)中的Ni采用极大似然估计的方法得到该项在统计学意义上的无偏估计值λ：

其中，Ni连续n天的观测序列为{x₁,x₂,…,x_n}，其联合概率分布函数为：

步骤S6、将数据采集的结果{x1,x2,x3…,xn}通过公式(9)进行参数估计后，得到每个签到位置的出现概率最大的签到次数，计算Ln(T/Ni)项的值，输出为Excel格式文件，利用常规地理信息系统软件读取属性数据并进行表连接；

步骤S7、通过微博开放平台API或模拟登陆网页爬虫的方式，获取事件特征关键词的相关微博数据，筛选出其中含有签到位置信息的部分，根据指定的空间单元使用R-Tree建立相应的空间索引来加速判断每个空间单元的签到位置个数，完成n_i的计算；

步骤S8、将步骤S6中的Ln(T/Ni)项采用公式(6)推导的加权公式对微博签到量n_i进行校正。

相较于现有技术，本发明具有以下有益效果：本发明在分析微博用户签到量概率分布规律的基础上，提出了一种基于泊松分布的区域间用户分布差异加权模型，根据从网页实时获取指定签到位置在某一时间段的签到次数时间观测序列值，定义了泊松分布的参数λ的含义，并计算出各个签到位置的相对签到强度权重。以此来消除微博用户的空间异质性，为基于微博的舆情分析和事件抽取的空间分析提高精度。

附图说明

图1自定义空间单元的签到量折线统计图。

图2事件相关的签到点签到量ni与签到点日常状态下签到量Ni的获取方式对比图。

图3本发明总体技术路线。

图4自定义空间单元的用户分布权重。

图5事件相关的签到微博量空间分布图。

图6经加权处理后事件相关的签到数据的空间分布图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图3所示，本发明的一种考虑用户分布区域差异的签到微博数据加权统计方法，包括如下步骤，

步骤S2、遍历步骤S1得到的数组并构造相应的HTTP请求，如：“http://s.weibo.com/apps/+签到位置名称+&page type＝poi”，而后以模拟登陆的方式对该URL访问；将返回的HTML数据采用正则表达式匹配签到位置相应的ID，并将其ID存入签到位置ID数组中；

步骤S3、遍历签到位置ID数组并构造相应的HTTP请求并进行访问，格式如：http://weibo/com/p/+ID，将返回的HTML数据采用正则表达式匹配每个签到位置的用户签到次数，将其记为Ni，即签到位置i的签到次数；

P(Check_inSet)＝P(C₁)P(C₂/C₁)......P(C_n/C₁,C₂...C_n-1) (1)

P(Check_inSet)＝P(C₁)P(C₂)......P(C_n) (2)

其中P(C_i)即签到位置i的签到概率：

P(Ci)＝Ni/T (3)

P(Check_inSet)＝P(C₁)ⁿ¹P(C₂)ⁿ²...P(C_i)ⁿⁱ (5)

再对公式(5)两边取对数进一步化简：

其中，事件相关微博在签到位置i的条数，即该事件在签到位置i的签到量n_i；Ln(T/Ni)项将其记为用户分布反权重项；

步骤S5、虽然Ni可以由步骤S3直接得到每个签到位置的签到次数(图1)，但是存在较大的随机性；为了获得较为可靠的Ni的值，进行了如下步骤的推导；

特别地，S1中可以设置签到位置名称，并以设置的名称为采集对象获取签到位置i的用户签到次数即Ni项；

特别地，S4假设签到点之间相互独立，并给出了任意一个签到点的签到概率公式记签到点之间的联合概率公式；

特别地，S5中提出对于大量微博用户产生的独立签到事件符合泊松过程的特征，利用极大似然法对泊松分布的λ参数进行无偏估计，推导了签到数据的区域权重计算公式；

特别地，S7中使用R-tree建立相应的空间索引来加速判断每个空间单元的签到点个数，完成ni项的计算；

以下为本发明的具体实施例。

实施案例为2016年登陆厦门的14号台风“莫兰蒂”的相关微博数据。

本发明中所需数据信息描述：为构建签到点名称数组，需要包含签到点名称的TXT格式文件，并通过该TXT文件中的签到点名称得到签到点ID数组，来计算Ni项；具体事件(台风，停电，大雨)等相关签到微博数据，为计算ni项；图2为事件相关的签到点签到量ni与签到点日常状态下签到量Ni的获取方式对比图；

根据用户自定义的TXT格式文件，其中文件中的文本内容组织为签到点名称1，签到点名称2，…，签到点名称n的数据格式。读取TXT文件并以“，”为分隔符获得签到点名称数组。遍历数组中的签到点名称，构造相应的HTTP请求并返回各个签到点的签到次数即Ni项，然后利用公式6中的Ln(T/Ni)项得到各个签到点的用户分布权重值(图4)，返回的数据如{厦门＝3.88，福州＝3.86，…，泉州＝5.02}。

根据具体的事件，如2016年台风“莫兰蒂”人为设定关键词和微博爬取的起止时间，来获取含有签到位置信息的此次事件相关微博，然后将这些签到点存贮在PostgreSQL数据库中。由于本例为台风，影响范围较大，签到点代表空间单元设置为地市为单位，读取该数据库中签到位置数据，采用该数据库的空间拓展PostGIS，以市为单元链接到行政区划图为的面状地理要素图斑，属性数据包含签到点，用于统计签到次数，返回的数据如：{厦门＝4212，泉州＝3311，…，福州＝1232}，完成ni项的计算(图5)；基于Ln(T/Ni)项与ni项计算每个签到点加权后的数值，作为签到点属性值写入Excel文件中，输出结果。

图6为经加权处理后事件相关的签到数据的空间分布图。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种考虑用户分布区域差异的签到微博数据加权统计方法，其特征在于，包括如下步骤，

P(Check_inSet)＝P(C₁)P(C₂/C₁)......P(C_n/C₁,C₂...C_n-1) (1)

P(Check_inSet)＝P(C₁)P(C₂)......P(C_n) (2)

其中P(C_i)即签到位置i的签到概率：

P(Ci)＝Ni/T (3)

P(Check_inSet)＝P(C₁)ⁿ¹P(C₂)ⁿ²...P(C_i)ⁿⁱ (5)

再对公式(5)两边取对数进一步化简：

2.根据权利要求1所述的一种考虑用户分布区域差异的签到微博数据加权统计方法，其特征在于，还包括如下步骤：