CN104331483A

CN104331483A - 基于短文本数据的区域事件检测方法和设备

Info

Publication number: CN104331483A
Application number: CN201410635944.6A
Authority: CN
Inventors: 胡春明; 文章乐; 沃天宇; 随培培
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2015-02-04
Anticipated expiration: 2034-11-05
Also published as: CN104331483B

Abstract

本发明提供一种基于短文本数据的区域事件检测方法和设备，该方法包括：获取待处理的短文本数据，所述短文本数据中包括位置信息；根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据；分别对选取的样本文本数据进行分词处理，计算所述样本文本数据中各词的权重；根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵；对所述样本文本—词矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。从而克服了现有技术中无法对短文本数据信息进行有效的处理以进行归纳和分类的问题。

Description

基于短文本数据的区域事件检测方法和设备

技术领域

本发明属于数据挖掘技术领域，尤其是涉及一种基于短文本数据的区域事件检测方法和设备。

背景技术

随着互联网技术的蓬勃发展，越来越多的用户通过比如论坛、微博等社交网络平台来发布各种新闻或者发表个人对一些社会现象的意见。微博由于其独特的通信服务，如便捷性、即时性和易用，允许用户快速响应和无限制的传播信息内容，得到了越来越广泛的应用。数亿用户利在微博上通过短文本数据进行信息的传送和评论，爆炸式的数据信息带来前所未有的价值的同时，也给互联网安全检测和分析带来了巨大的挑战，对海量的数据信息进行有效的事件挖掘成为各搜索引擎主要研究的问题。

目前，对事件进行发现和挖掘比较有效的方法是聚类方法。聚类方法首先对数据进行聚类，然后通过一个相似度阈值约束，将得到的主题结果进行分类，分类结果中一类是历史事件的演变，另一类是新发现的事件，然而该方法并不能对数据进行静态的分析，将当前数据信息按事件进行归纳和分类，且聚类方法也不适用于对短文本数据信息的分析。

发明内容

本发明提供一种基于短文本数据的区域事件检测方法和设备，用以克服现有技术中无法对短文本数据信息进行有效的处理以进行归纳和分类的问题。

本发明提供了一种基于短文本数据的区域事件检测方法，包括：

获取待处理的短文本数据，所述短文本数据中包括位置信息；

根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据；

分别对选取的样本文本数据进行分词处理，计算所述样本文本数据中各词的权重；

根据所述样本文本数据中各词的权重构建所述样本文本数据对应的词—样本文本矩阵；

对所述词—样本文本矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

本发明提供了一种基于短文本数据的区域事件检测设备，包括：

获取模块，用于获取待处理的短文本数据，所述短文本数据中包括位置信息；

选取模块，用于根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据；

运算模块，用于分别对选取的样本文本数据进行分词处理，计算所述样本文本数据中各词的权重；

构建模块，用于根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵；

所述运算模块，还用于对所述样本文本—词矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

本发明提供的基于短文本数据的区域事件检测方法和设备，通过获取待处理的短文本数据，所述短文本数据中包括位置信息；根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据；分别对选取的样本文本数据进行分词处理，计算所述样本文本数据中各词的权重；根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵；对所述样本文本—词矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。从而克服了现有技术中无法对短文本数据信息进行有效的处理以进行归纳和分类的问题。

附图说明

图1为本发明提供的基于短文本数据的区域事件检测方法实施例一的流程示意图；

图2A为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S120的流程示意图；

图2B为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S140的流程示意图；

图3为本发明提供的基于短文本数据的区域事件检测设备实施例一的结构示意图。

具体实施方式

图1为本发明提供的基于短文本数据的区域事件检测方法实施例一的流程示意图。如图1所示，该方法包括：

S100，获取待处理的短文本数据，所述短文本数据中包括位置信息。

本实施例提供的方法可以适用于对互联网上的各种应用所产生的短文本信息中的海量数据进行区域事件分类处理，尤其适用于诸如微博等社交网络，该方法可以由一短文本数据的处理设备来执行，该处理设备例如可以为某中应用的管理平台。

以微博为例，每天都会有大量的各种各样的数据信息在微博上进行传播，为了便于广大普遍用户能够在海量的微博数据中快速有效地搜索到自身需要的信息，或者为了使普通用户、政府机构等用户能够及时获知社会热点，需要对海量的微博数据进行事件分类。值得说明的是，本实施例中主要是针对短文本类型的数据信息进行处理，称之为短文本数据。而且，本实施例中所述的事件，并非一般意义上的某件完整的事情或新闻，而是指用一些关键词表征的词语集合，一个事件中包含的关键词往往具有一定的关联，比如这些关键词同时在很多条数据文本中都同时出现过，因此，这些关键词也一定程度上反映了当前微博中的关注热点。

S110，根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据。

具体来说，微博数据中包含城市级别地理位置信息，具体的，微博中的位置信息为城市信息，本发明各实施例中以位置信息为城市为例进行说明。若短文本数据的处理设备要对城市“北京”的微博数据进行分类处理，则在获得了比如某一天的微博数据即待处理的短文本数据后，从待处理的短文本数据中选取出与“北京”对应的短文本数据作为样本文本数据。

S120，分别对选取的样本文本数据进行分词处理，计算所述样本文本数据中各词的权重。

短文本数据处理设备选出样本数据后，对每个样本文本数据进行分词处理，比如采用现有的NLPIR汉语分词系统对每个数据文件进行分词处理，从而将每个短文本数据按照词语为单位进行划分，得到每个数据文本中包含的各个词语。通过对待处理数据中的每个数据文本都进行分词处理，从而能够得到待处理数据中包含的所有词语，并计算各样本文本数据中各词在该样本文本中的权重。

S130，根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵。

具体的，本实施例中的样本文本—词矩阵中，各列向量为各个样本文本中的各个词的权重值，各行向量为处理设备选取的各个样本文本数据。

S140，对所述样本文本—词矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

进而，对该样本文本—词矩阵进行矩阵分解，其中，矩阵分解是现有技术中的现有矩阵分解方法，此处不做赘述。矩阵分解可以得到两个矩阵，分别为样本文本—事件矩阵和事件—词矩阵。矩阵分解得到的两个矩阵的乘积是该样本文本—词矩阵的近似表达，分解的结果保证了在同一位置上的元素，在分解前后的误差值为正数，从而使分解后的元素具有与分解前该元素基本等同的表达。样本文本—事件矩阵中各元素表明各样本文本中的词与各事件的相关度，相关度最大的即表明该样本文本与该事件最相关，即该样本文本属于该事件。

本发明提供的基于短文本数据的区域事件检测方法，基于短文本数据的区域事件检测设备首先根据获取到的待处理的短文本数据中包括的位置信息，选取出需要处理的样本文本数据，之后对各样本文本数据分别进行分词处理，并计算各词在各样本文本中的权重，从而得到样本文本—词的矩阵，进而再对该矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵即可确定各样本文本数据所属的事件。首先根据文本数据中包括的位置信息选取样本文本数据，再确定选取的样本文本中各词的权重，之后再构建样本文本—词矩阵，并对该矩阵进行矩阵分解即可得到样本文本—事件矩阵，根据最终得到的矩阵即可确定各样本文本所属的事件，这种处理方法不仅考虑了短文本数据的特点，且根据词的权重构建样本文本—词矩阵，使得最终得到的样本文本—事件矩阵中样本文本与事件的相关度更加准确，进而可更加准确的实现对各短文本数据进行区域事件分类的处理。

图2A为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S120的流程示意图，如图2A所示，若样本文本数据j中包括词i，则上述S120包括：

S121，根据所述词i在所述样本文本数据j中出现的次数W_ij及在所有待处理的短文本数据中出现的次数W_i，确定所述词i的分布频率AWF_ij＝W_ij/W_i。

S122，根据所述词i的W_ij及所述样本文本数据中的所有词的次数W_j，确定所述词i的词频OWF_ij＝W_ij/W_j。

S123，根据所述待处理的短文本数据中包括的不同位置信息个数N及所述待处理的短文本数据中包括所述词i的不同位置信息个数M_i，确定所述词i的逆向城市频率ICF_ij＝N/M_i。

S124，根据所述AWF_ij、OWF_ij及ICF_ij确定所述词i在所述样本文本数据j中的权重。

具体的，本实施例中，考虑如果一个词在某一个城市中出现的次数很小，而在其他城市出现次数比较多，对于该城市来说，这个词的贡献就不是很大。基于短文本数据的区域事件检测设备考虑单个词在所有城市中的分布，也考虑单个词在所在微博中的分布情况。主要考虑三个方面，第一单个词的词频：一个词出现的次数尽可能多；第二反向城市频率：出现该词的城市尽可能少；第三考虑词自身在所有城市分布的词频：一个词出现在该城市的次数要比其出现在其他城市的次数要多。

具体的，把一个词自身的分布频率定义为AWF，AWF_ij＝W_i,j/W_i，W_i是词i在所有城市中出现的次数。在所有出现词i的城市中，哪个城市出现的次数多，其AWF就越大。同样的，一个词在所有样本文本数据中出现的次数越多，其OWF就越小，待处理的短文本数据中包括的城市的个数越多，或者包括词i的城市的个数越小，其逆向城市频率就越小。在确定词的分布频率、词频及逆向城市频率后，即可根据下式确定该词在样本文本数据中的权重OIA：

{OIA}_{i, j} = A_{i, j} / Σ_{i = 0}^{w_{i}} A_{i, j};

其中，A_i,j＝log₂(OWF_i,j+1)*log₂(ICF_i,j+1)*log₂(AWF_i,j+1)。

需要说明的是，词频记为OWF，反向城市频率记为ICF。对于出现在城市j的一个词i的OWF，OWFi,j＝Wij/Wj，Wj是城市j中出现的所有词的次数，Wij是词i在城市j中出现的次数。同样，可以计算出现在城市j的一个词i的ICF，ICFj＝N/Cj，其中N是所有城市的总数，Cj是出现词i的所有城市的总数。

进一步地，若样本文本数据中包括N个样本数据，所述N个样本数据中包括M个词，所述词—样本文本矩阵A为M×N维矩阵，所述N为大于或等于1的整数，图2B为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S140的流程示意图，如图2B所示则上述S140包括：

S141，对所述矩阵A进行矩阵分解，得到样本文本—事件矩阵U_M×K，和事件—词矩阵V_K×N，所述K为所述样本文本数据中包含的事件个数。

具体的，假设样本文本数据存在K个潜在的特征，就可以把矩阵A分解成两个矩阵U_M×K和V_K×N，即：A＝U×V。找到两个矩阵相乘完全等于A，这是非常难的。但是首先可以可以找个两个矩阵相乘近似等于A。

S142，分别计算所述U_M×K矩阵中的第i个行向量u_i·与V_K×N中的第j个列向量v_·j的乘积与矩阵A中的元素a_ij的偏差值e_ij，其中，i为不大于M的正整数，j为不大于N的正整数。

S143，判断所述M*N个偏差值e_ij的平方和E是否小于预设的值。

具体的，基于短文本数据的区域事件检测设备分别将初始矩阵U的行向量与初始矩阵V的各列向量相乘即可得到一个与A矩阵近似相等的矩阵，再将U×V矩阵中的各元素与矩阵A中的各元素进行做差，即可得到各元素间的偏差值，为了衡量两个矩阵间整体的偏差，再将各偏差平方后取和，看各偏差的平方和是否小于预设的值。其中，预设的值可以根据需要设定，比如设为0.001、0.005等等，本实施例对此不作限定。

S144，若否，则分别根据所述e_ij对所述矩阵U_M×K及所述矩阵V_K×N中的各元素进行修正，直至所述E小于预设的值。

具体的，根据元素间的偏差对矩阵U_M×K和矩阵V_K×N中的各元素进行修正时，可采用下边的方法进行，假设矩阵U×V中的元素uv_ij与矩阵A中的元素a_ij的偏差为e_ij，则计算估计值和准确值之间的差异E：

E = e_{ij}^{2} = {(a_{ij} - a_{ij}^{'})}^{2} = {(a_{ij} - Σ_{k = 1}^{K} u_{ik} v_{kj})}^{2} .

对上面的式子求偏导，可以得到下面两个式子：

\frac{&PartialD; e_{ij}^{2}}{&PartialD; u_{ik}} = - 2 (a_{ij} - a_{ij}^{'}) v_{kj} = - 2 e_{ij} v_{kj}

\frac{&PartialD; e_{ij}^{2}}{&PartialD; v_{kj}} = - 2 (a_{ij} - a_{ij}^{'}) u_{ik} = - 2 e_{ij} u_{ik}

整理上面两个式子，可以得到更新公式：

u′_ik＝u_ik+2αe_ijv_kj

v′_kj＝v_kj+2αe_iju_ik

其中，α是步进长度，一般规定为0.0002。每一次我们更新U和V，计算总得偏差平方和直到E小于一个值。

也就是说，则令所述矩阵U_M×K中的元素u′_ik＝u_ik+2a*e_ij*v_kj，所述矩阵V_K _×N中的元素v′_kj＝v_kj+2a*e_ij*u_ik，所述α为预设的步长。

需要说明的是，α的大小也可以根据需要设定，比如设为0.1、0.2等等。

进一步地，通过上述逐步迭代的方式修正矩阵U_M×K和V_K×N时，由于初始时E的值可能比较大，则在初始时，可以将E与一个较大的值比较，之后随着U×V逐渐逼近A，再将E与一个较小的值比较，即预设的值中包括至少2个不相等的数值。从而尽量加快U×V逼近A的速度，减少基于短文本数据的区域事件检测设备的运算开销。

S145，根据最终得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

由于本实施例对矩阵A进行的矩阵分解，使得最终得到的V矩阵中可能包括值为负数的元素，将V矩阵中的负数元素归零后，再从V矩阵的每行中找出最大值所在的列，即可确定该行对应的样本文本属于的事件。

本实施例提供的基于短文本数据的区域事件检测方法，根据样本文本中各词的分布频率、词频及逆向城市频率确定各词的权重，使得该方法更适用于区域事件的分类，且对样本文本—词矩阵进行分解时，采用逐渐逼近的方法，使得到的样本文本—事件矩阵更精确，从而使对样本文本的事件分类更准确。

图3为本发明提供的基于短文本数据的区域事件检测设备实施例一的结构示意图，如图3所示，该设备包括：获取模块11、选取模块12、运算模块13、构建模块14。

获取模块11，用于获取待处理的短文本数据，所述短文本数据中包括位置信息；

选取模块12，与获取模块11连接，用于根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据；

运算模块13，与选取模块12连接，用于分别对选取的样本文本数据进行分词处理，计算所述样本文本数据中各词的权重；

构建模块14，与运算模块13连接，用于根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵。

所述运算模块13，与构建模块14连接，还用于对所述样本文本—词矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

本实施例的设备可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

为了清楚说明本实施例，本实施例还提供了一种可能的实现方式，在这种可能的实现方式中，若样本文本数据j中包括词i；则，所述运算模块13，具体用于根据所述词i在所述样本文本数据j中出现的次数W_ij及在所有待处理的短文本数据中出现的次数W_i，确定所述词i的分布频率AWF_ij＝W_ij/W_i；根据所述词i的W_ij及所述样本文本数据中的所有词的次数W_j，确定所述词i的词频OWF_ij＝W_ij/W_j；根据所述待处理的短文本数据中包括的不同位置信息个数N及所述待处理的短文本数据中包括所述词i的不同位置信息个数M_i，确定所述词i的逆向城市频率ICF_ij＝N/M_i；根据所述AWF_ij、OWF_ij及ICF_ij确定所述词i在所述样本文本数据j中的权重。

进一步地，样本文本数据中包括N个样本数据，所述N个样本数据中包括M个词，所述样本文本—词矩阵A为M×N维矩阵，所述N为大于或等于1的整数。

则，所述运算模块13，具体用于：对所述矩阵A进行矩阵分解，得到样本文本—事件矩阵U_M×K，和事件—词矩阵V_K×N，所述K为所述样本文本数据中包含的事件个数；分别计算所述矩阵U_M×K中的第i个行向量u_i·与V_K×N中的第j个列向量v_·j的乘积与矩阵A中的元素a_ij的偏差值e_ij，其中，i为不大于M的正整数，j为不大于N的正整数；判断所述M*N个偏差值e_ij的平方和E是否小于预设的值；若否，则分别根据所述e_ij对所述矩阵U_M×K及所述矩阵V_K×N中的各元素进行修正，直至所述E小于预设的值；根据最终得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

具体地，所述运算模块13，具体用于所述分别根据所述e_ij对所述矩阵U_M×K及所述矩阵V_K×N中的各元素进行修正，包括：令所述矩阵U_M×K中的元素u′_ik＝u_ik+2a*e_ij*v_kj，所述矩阵V_K×N中的元素v′_kj＝v_kj+2a*e_ij*u_ik，所述a为预设的步长。

本实施例的设备可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本实施例提供的基于短文本数据的区域事件检测设备，根据样本文本中各词的分布频率、词频及逆向城市频率确定各词的权重，使得该方法更适用于区域事件的分类，且对样本文本—词矩阵进行分解时，采用逐渐逼近的方法，使得到的样本文本—事件矩阵更精确，从而使对样本文本的事件分类更准确。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于短文本数据的区域事件检测方法，其特征在于，包括：

根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵；

对所述样本文本—词矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

2.根据权利要求1所述的方法，其特征在于，所述样本文本数据j中包括词i，所述计算所述样本文本数据中各词的权重，包括：

根据所述词i在所述样本文本数据j中出现的次数W_ij及在所有待处理的短文本数据中出现的次数W_i，确定所述词i的分布频率AWFij＝W_ij/W_i；

根据所述词i的W_ij及所述样本文本数据中的所有词的次数W_j，确定所述词i的词频OWF_ij＝W_ij/W_j；

根据所述待处理的短文本数据中包括的不同位置信息个数N及所述待处理的短文本数据中包括所述词i的不同位置信息个数M_i，确定所述词i的逆向城市频率ICF_ij＝N/M_i；

根据所述AWF_ij、OWF_ij及ICF_ij确定所述词i在所述样本文本数据j中的权重。

3.根据权利要求1所述的方法，其特征在于，所述样本文本数据中包括N个样本数据，所述N个样本数据中包括M个词，所述样本文本—词矩阵A为M×N维矩阵，所述N为大于或等于1的整数；

所述对所述样本文本—词矩阵进行矩阵分解，根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件，包括：

对所述矩阵A进行矩阵分解，得到样本文本—事件矩阵U_M×K，和事件—词矩阵V_K×N，所述K为所述样本文本数据中包含的事件个数；

分别计算所述矩阵U_M×K中的第i个行向量u_i·与V_K×N中的第j个列向量v·_j的乘积与矩阵A中的元素a_ij的偏差值e_ij，其中，i为不大于M的正整数，j为不大于N的正整数；

判断所述M*N个偏差值e_ij的平方和E是否小于预设的值；

若否，则分别根据所述e_ij对所述矩阵U_M×K及所述矩阵V_K×N中的各元素进行修正，直至所述E小于预设的值；

根据最终得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

4.根据权利要求3所述的方法，其特征在于，所述分别根据所述ei_j对所述矩阵U_M×K及所述矩阵V_K×N中的各元素进行修正，包括：

令所述矩阵U_M×K中的元素u′_ik＝u_ik+2a*e_ij*v_kj，所述矩阵V_K×N中的元素v′_kj＝v_kj+2a*e_ij*u_ik，所述a为预设的步长。

5.根据权利要求3或4所述的方法，其特征在于，所述预设的值中包括至少2个不相等的数值。

6.一种基于短文本数据的区域事件检测设备，其特征在于，包括：

7.根据权利要求6所述的设备，其特征在于，所述样本文本数据j中包括词i，所述运算模块，具体用于：

8.根据权利要求6所述的设备，其特征在于，所述样本文本数据中包括N个样本数据，所述N个样本数据中包括M个词，所述样本文本—词矩阵A为M×N维矩阵，所述N为大于或等于1的整数；

所述运算模块，具体用于：

判断所述M*N个偏差值e_ij的平方和E是否小于预设的值；

9.根据权利要求8所述的设备，其特征在于，所述运算模块，具体用于所述分别根据所述e_ij对所述矩阵U_M×K及所述矩阵V_K×N中的各元素进行修正，包括：

10.根据权利要求8或9所述的设备，其特征在于，所述预设的值中包括至少2个不相等的数值。