CN104809108A

CN104809108A - 信息监测分析系统

Info

Publication number: CN104809108A
Application number: CN201510258091.3A
Authority: CN
Inventors: 张鹏
Original assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Current assignee: Yuan Li cloud Network Co., Ltd.
Priority date: 2015-05-20
Filing date: 2015-05-20
Publication date: 2015-07-29
Anticipated expiration: 2035-05-20
Also published as: CN104809108B

Abstract

本发明提供了一种信息监测分析系统，包括：数据预处理模块，用于利用正面和负面情绪符号筛选网络文本，从已筛选出的网络文本中提取候选词集；语义倾向识别模块，用于对数据预处理得到的候选词集构建词汇语义趋向值网络，选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词，并利用同义词词群对低频词进行扩展，提取情绪词；利用候选词以及语义趋向值网络计算词汇的语义倾向强度，实现词汇的语义倾向识别。本发明提出了一种信息监测分析系统，对互联网舆情进行多维监测，有效采集和分析出敏感信息，提高了查准率和查全率。

Description

信息监测分析系统

技术领域

本发明涉及数据采集与分析，特别涉及一种信息监测分析系统。

背景技术

与原有传统互联网形态相比，当今的互联网形态已经发生了巨变，随身移动设备的不断推新，人们已经脱离了老式台式机的传统有线上网模式，移动设备的功能层出不穷，拍照、拍摄视频已经是最基本的功能。人们可以通过移动设备拍摄周围发生的事情，并且可以直接上传到互联网中，其信息的传播速度迅速之极，如果没有合理进行监测，可能会出现非法信息，错误引导公众的判断，导致舆论走向错误的方向。在在舆情检测中，数据采集功能尤为重要，所有数据在采集后，因为数据量极大，需要借助技术手段，在有限的时间内，分析出有用的数据。然而现有的信息监测系统仅应用单一的采集方式，只能满足某种特定的信息分析，不能满足现在互联网中多元化信息分析的需求。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种信息监测分析系统，包括：

数据预处理模块，用于利用正面和负面情绪符号筛选网络文本，从已筛选出的网络文本中提取候选词集；

语义倾向识别模块，用于对数据预处理得到的候选词集构建词汇语义趋向值网络，选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词，并利用同义词词群对低频词进行扩展，提取情绪词；利用候选词以及语义趋向值网络计算词汇的语义倾向强度，实现词汇的语义倾向识别。

优选地，所述数据预处理模块进一步配置为：采用词汇和词频的二元关系表示各个词汇的分词和词性标注，得到候选项集合W＝{w₁，w₂，…，w_N}，N为候选词总数。

优选地，所述语义倾向识别模块对数据预处理得到的候选词集构建词汇语义趋向值网络，进一步包括：

以词共现值表征两个词汇在二者全局邻接网络中的有序共现程度，即一个词对另一个词出现与否的激活权重，对于给定的词汇i和j，词汇i对于词汇j的词共现值waf_ij为：

waf_ij＝(f_ij/f_i)·(f_ij/f_j)/d_ij ²

式中：f_i和f_j分别表示两个词在文档中出现的频次；f_ij表示词汇i和j在设定共现窗距离内出现的频次；d_ij为两个词的平均共现距离，根据上述定义将文档表示为词共现值矩阵，矩阵元素waf_ij表示词汇i以waf_ij的权重激活词汇j，基于该矩阵来计算词汇间的词汇语义趋向值A_ij：

A_ij＝((1/|K_ij|)OR(waf_ki，waf_kj))^1/2·((1/|L_ij|)OR(waf_il，waf_jl))^1/2

式中：K_ij＝{k|waf_ki>0或waf_kj>0}表示词汇i和词汇j对其它词汇的共现值集合；L_ij＝{l|waf_il>0或waf_jl>0}表示其它词汇对词汇i和词汇j的共现值集合；OR(x，y)＝min(x，y)/max(x，y)为计算重叠率的函数；即词汇语义趋向值A_ij定义为词汇i和词汇j在词共现值矩阵中所有共现值的重叠率的几何平均值；

用词汇语义趋向值Aij将文档表示为语义趋向值矩阵，在词汇的语义倾向识别过程中，将词汇作为节点，各节点间的语义趋向值作为边，构建语义趋向值网络。

优选地，所述语义倾向识别模块利用候选词以及语义趋向值网络计算词汇的语义倾向强度，进一步包括：

计算词汇与正负面候选词间语义趋向值矢量的相似度来衡量词汇的正负面倾向强度，进而得出词汇的语义倾向强度；

若情绪词集OPW总量为N′，则将词汇c_j(c_j∈OPW，j∈[1，2，…，N′])语义倾向强度表示为

SO_j＝SO⁺ _j-β*SO^-j

其中，SO⁺ _j和SO^- _j分别表示词汇c_j与正负面候选词集的语义倾向相似度，β为SO⁺ _j总量与SO^- _j总量的比值，即文档中正负面倾向强度比；

SO⁺ _j根据以下方式计算：

{SO}^{+}_{j} = \underset{p_{i} &Element; P}{Σ} \cos (v_{c_{i}}, v_{t &LeftArrow; p_{i}})

其中vc_j为词汇c_j的语义倾向值矢量，v_t←pi为正面候选词p_i在语义趋向值矩阵中对应的行矢量，P为正面候选词集合，t为p_i在语义趋向值矩阵中对应的行；

SO^- _j根据以下方式计算：

{SO}^{-}_{j} = \underset{q_{i} &Element; P}{Σ} \cos (v_{c_{i}}, v_{t &LeftArrow; q_{i}})

其中Q为负面候选词集合，v_t←qi为正面候选词q_i在语义趋向值矩阵中对应的行矢量；

当SO_j>γ_p时确定为正面词汇，SO_j<γ_n时确定为负面词汇，在其他情况下确定为中性词汇，其中γ_p，γ_n分别为正面和负面词汇判定阈值。

本发明相比现有技术，具有以下优点：

本发明提出了一种信息监测分析系统，对互联网舆情进行多维监测，有效采集和分析出敏感信息，提高了查准率和查全率。

附图说明

图1是根据本发明实施例的信息监测分析系统的模块图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种信息监测分析系统。图1是根据本发明实施例的信息监测分析系统模块图。

本发明把多种信息采集的方式综合在一起，将其在信息监测中实现。考虑到对内容方面的监测，本发明还需要对内容中的敏感信息进行审核，互联网中的大型网站提供很多热点词汇的推荐，这些数据很有可能就是本发明关心的关键词汇，即关键字，这些数据本发明也需要及时的采集下来。其次在监测工作中，信息监测中选择的对象是互联网中门户网站，针对某一个地区的信息进行实时推送。系统按照本发明配置的规则，定期抓取关注的信息，通过各种分析手段，提示用户注意匹配上的数据信息进行审核。

在信息监测系统中，系统分为四个层次，自底向上依次为基础数据层、数据处理层、监测业务层、表示层。

基础数据层提供数据库管理功能，需要对采集的数据有合理的存放规划；分布式计算能力，实现各个子系统内部和子系统之间的不同节点上的对象调用；系统维护，可以对各个子系统进行参数配置，监控系统各个组成部分的运行情况，管理用户及其权限等。

数据处理层提供数据采集能力，可以对重点网站的网络内容及音视频内容进行增量式抓取；数据存储，可以管理外部存储系统，能够实现数据迁移、备份和清洗的功能；数据管理功能，可以对网站、网络内容、视音频网络内容等监测对象的基本信息和进一步分析出的信息进行管理，如查询、修改、删除、添加。并支持手动导入音视频网络内容。

监测业务层进行内容分析，对采集到的文本、音频、视频数据进行分析，抽取特征，建立数据索引，识别有害信息和跟踪热点、敏感词汇等；信息采集，是基于关键词、样例图片、样例音频、样例视频，来进行内容采集；信息统计，根据监测业务的需要，对采集到的视音频网站、网络内容、和有害信息进行统计归类。

表示层提供各个管理功能友好的操作界面，显示信息采集、信息统计、有害信息识别和分析的结果，进行系统维护等多项操作；

系统接口为相关系统提供统一的服务，便于整合监测业务的其他系统，提高各业务系统的集成性和扩展性。

在信息采集过程中，视频采集模块能够通过业务人员提交的关键词，对视频网络内容进行内容采集，返回包含指定关键词的视频文件，以及相应文件内的时间信息。通过业务人员提交的关键帧，对视频网络内容进行内容采集，返回包含指定关键帧的视频文件，以及相应文件内的时间信息。能够通过业务人员提交的特定视频片断，在本地视频数据库中采集包含相似或者相同的视频片断的视频网络内容，并进而发现该视频网络内容在网上的分布情况。找到的视频片断与查询样本的内容一致，但是在形式上允许存在区别。业务人员可以通过WEB界面，查看采集到的结果视频的摘要及关键帧全景图，关键帧可进行定位播放并且观看、转存结果视频。可以在视频大屏上直接点击出现该视频片断的视频网络内容。

音频采集模块，对互联网语音/音频文件建立内容索引，支持用户进行特定内容音频采集。通过对特定内容音频信息(或者说敏感信息)的采集，实现对网络音频信息的监测。特定内容的语音/音频信息可以有多种形式，可以是特定关键词，或者特定说话人，或者特定音频片段。

当用户提交关键词文本，系统能够返回包含指定关键词的互联网音频文件，并定位在文件内的时间信息。当用户提交某个特定说话人的语音样本，系统能够返回包含指定说话人的互联网音频文件，并定位在文件内的时间信息。当用户提交某个特定音频片段，系统能够返回包含指定音频片段的互联网音频文件，并定位在文件内的时间信息。

文本采集模块，包括话题采集识别单元，话题倾向分析单元，关键词过滤和匹配单元。其中：

话题采集识别单元根据监测业务需要对指定的网站进行流量访问量统计、采集排名位置等，自动从第三方所公布的网络内容，门户网站，搜索引擎以及大网站网络等渠道获取相关数据。可以通过输入指定的网站名称、采集第三方公布排名信息的网络内容、自动从网络内容中分析出排名数据等获取监测业务需要的数据。

话题倾向分析单元，通过基于统计情绪词倾向性值的方法，对评论中关键词的所有情绪词汇义倾向性值的统计加权，以通过对比和分析用户话题的倾向性矢量而完成话题的倾向性分析。

关键词过滤和匹配单元，通过关键字匹配，检测网络内容中是否包含有害内容并进行过滤；根据监测业务的需要对关键字进行配置，可以通过组合条件进行配置，具备与、或、非的各种包含方式，并根据关键字时效性考虑配置有效周期。

根据本发明的进一步的方面，所述话题采集识别单元包括：

相关性计算模块，用于将随机选择的被选待识别文本和剩余的待识别文本分别作为观测序列和状态序列，计算被选待识别文本和其余待识别文本间的相关性概率值；

分类和识别模块，用于将状态序列中相关性最高的文本和被选待识别文本合并，表征为第一类型，同时将相关性最低的文本作为第二类型；将第一和第二类型作为新的状态序列，将剩余的待识别文本作为新的观测序列进行迭代，以实现敏感词汇的识别。

本发明构造了一种敏感词汇识别模型。参照词库将每一个待识别文本用矢量空间模型表示，并进行计算得到一系列的概率值，利用这些概率值进行敏感词汇识别。

网络中的所有待识别文本可以采用矢量空间模型并参考词库表示为T_n＝{t₁，w₁；t₂，w₂；…；t_i，w_i}。其中，特征词t_i必须同时出现在待识别文本和词库中，计算其权重w_i并为该权重引入敏感系数βi：

W_{ni} = \frac{{tf}_{ni} \log (\frac{K}{k_{i}} + 0.01)}{\sqrt{Σ_{i = 1}^{t} {({tf}_{ni})}^{2}} {[\frac{K}{k_{i}} + 0.01]}^{2}} β_{i}

其中：tf_ni表示第n个文档中关键词ti出现的频率；K表示总文档数；k_i表示含有关键词t_i的文档数。敏感系数β_i用信息增益来表示：

βi＝-P(C_m)logP(C_m)+P(t_i|C_m)logP(t_i|C_m)+P(t’_i|C_m)logP(t’_i|C_m)

其中：P(C_m)表示属于第m类敏感词汇的文本数；P(t_i|C_m)表示属于第m类敏感词汇并包含关键词t_i的文本数；P(t’_i|C_m)表示属于第m类敏感词汇但不包含关键词t_i的文本数。

将y₁，y₂，…，y_n作为敏感词汇类型特征，y＝{y₁，y₂，…，y_i}是用矢量空间模型表示的一个敏感词汇的类型；将x₁，x₂，…，x_n是待识别文本的特征，x＝{x₁，x₂，…，x_i}是用矢量空间模型表示的一个待识别文本。观测序列x对应参数集合Λ＝{λ₁，…，λ_j}的指定状态y的条件概率如下式所示。

P (y | x, λ) = (1 / Z (x)) \exp (Σ_{i = 1}^{n} \underset{j}{Σ} λ_{j} f_{j} (y_{i - 1}, y_{i}, x, i))

其中：f_j为特征函数，是转移特征函数和状态特征函数的统一表示；λ_j为通过训练得到的特征函数的权值；Z(x)为正则化系数，并且：

Z (x) = \underset{y_{i} &Element; y}{Σ} \exp (Σ_{i = 1}^{n} \underset{j}{Σ} λ_{j} f_{j} (y_{i - 1}, y_{i}, x, i)

敏感词汇识别过程首先要将待识别文本表示为模型中的观测输入序列和输出类状态列。从K个待识别文本中随机挑出1个作为观测输入序列s，剩余的K-1个待识别文本作为K-1个输出类状态列。由此计算输入序列中的文档和输出序列中文档之间的概率值，以后的步骤用类似方法进行迭代，直到识别出所有敏感词汇的类型。具体地：

a)将得到的K-1个概率值排序，最大概率值所对应的文本与输入观测序列中的文本归并为一类并记做类C₁，同时将最小概率值对应的文本记做类C₂。

b)将剩余的K-3个待识别文本作为输入观测序列，C₁和C₂作为输出类状态列，这样得到待识别文本隶属于C₁和C₂类的两个概率值。

c)对每个待识别文本与输出类状态列的各个概率值求方差并排序，方差值越大说明该文本和类型有很大的区分度。

d)查看最小方差值所对应的文本的所有概率值，若其中最小的概率值小于某一阈值θ就将其作为一个新的类C₃；否则，查看方差值位于第二位的文本。直到找到概率值小于阈值θ的文本。同时将最大方差值所对应的文本归并到最大概率所对应的类型。

e)重复步骤b)～d)，直到所有的文本都被归类。

阈值θ用于控制是否需要增加新的类型，若θ值越大，类型间的区别越不明显，从而使得到的类型数越多，会将属于一个类型的文本错分出来；若θ值越小，得到的类型数将会越少，从而会将文本错分为一个类型。因此需要通过类型间的距离随θ的变化趋势对θ进行估计。

根据本发明的另一方面，话题倾向分析单元建立情绪符号与词汇间的语义趋向值网络，再利用词汇跟情绪符号间的语义趋向值矢量的相似度计算词汇的语义倾向强度，以此完成网络词汇的语义倾向识别。话题倾向分析单元分为数据预处理和词汇语义倾向识别两个模块。

数据预处理模块，首先，利用网络中倾向明确的正负面情绪符号筛选网络文本；然后从已筛选出的网络文本中提取候选词集。

语义倾向识别模块，首先，利用词共现值模型对数据预处理得到的候选词集构建词汇语义趋向值网络；然后，选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词，并利用同义词词群对低频词进行扩展，提取情绪词；最后，利用候选词以及构建的语义趋向值网络计算词汇的语义倾向强度，完成词汇语义倾向识别。

分词和词性标注采用二元关系(word，freq)表示模式中的各个词汇，得到候选项集合W＝{w₁，w₂，…，w_N}，N为候选词总数。

词共现值体现两个词汇在二者全局邻接网络中的有序共现程度，表示一个词对另一个词出现与否的激活权重。对于给定的词汇i和j，词汇i对于词汇j的词共现值定义如下：

waf_ij＝(f_ij/f_i)·(f_ij/f_j)/d² _ij

式中：f_i和f_j分别表示两个词在文档中出现的频次；f_ij表示词汇i和j在设定共现窗距离内出现的频次；d_ij为两个词的平均共现距离。根据定义，waf_ij的数值区间是[0，1]，0表示文档中词汇j从来没有在词汇i后的d_ij个词汇内出现，1表示文档中词汇j总是毗邻出现在词汇i之后。根据waf定义，可以将一个文档表示为词共现值矩阵WAF。

由于waf_ij是有向值，所以词共现值矩阵是一个非对称矩阵。矩阵中元素waf_ij表示词汇i以waf_ij的权重激活词汇j。基于该有向词汇网络来计算词汇间的词汇语义趋向值，其定义如下

A_ij＝((1/|K_ij|)OR(waf_ki，waf_kj))^1/2·((1/|L_ij|)OR(waf_il，waf_jl))^1/2

式中：K_ij＝{k|waf_ki>0或waf_kj>0}表示词汇i和词汇j对其它词汇的共现值集合；L_ij＝{l|waf_il>0or waf_jl>0}表示其它词汇对词汇i和词汇j的共现值集合；OR(x，y)＝min(x，y)/max(x，y)为重叠率计算；词汇语义趋向值A_ij是词汇i和词汇j在词共现值矩阵中所有共现值的重叠率的几何平均值，体现了两者在整个文档中的亲密程度。

同样地，可以用词汇语义趋向值Aij将文档表示为语义趋向值矩阵。词汇语义趋向值矩阵是一个无向对称矩阵，其中第i行表示其他所有词与词汇i的语义趋向值。在词汇的语义倾向识别过程中，可以将词汇作为节点，各节点间的语义趋向值作为边，构建语义趋向值网络，语义趋向值越强则节点语义倾向越相近。设节点集合为W＝{w₁，w₂，…，w_N}，节点<w_i，w_j>间的语义趋向值为A_ij。

在情绪词提取之前，首先需要进行候选词的选取，可采用两种方法：一种是选出词频最高且倾向明显的一组词作为候选词；另一种是基于词典资源选出词典中倾向最明显的一组词作为候选词。本发明选取网络中在文档中出现频次最高的正负倾向的情绪符号作为候选词。

经过预处理后的文档中低频词占多数，低频词与候选词共现次数较少，本发明引入同义词词群，在情绪词提取时，利用同义词词群对低频词进行扩展，同时考虑低频词及其同义词集与候选词之间的语义趋向值来完成情绪词提取。

通过计算词汇与正负面候选词间语义趋向值矢量的相似度来衡量词汇的正负面倾向强度，进而得出词汇的语义倾向强度。设情绪词集OPW总量为N′，则词汇c_j(c_j∈OPW，j∈[1，2，…，N′])语义倾向强度可以表示为

SO_j＝SO⁺ _j-β*SO^-j

其中，SO⁺ _j和SO^- _j分别表示词汇c_j与正负面候选词集的语义倾向相似度，β为总的SO⁺ _j与总的SO^- _j的比值，即为文档中正负面倾向强度比。

SO⁺ _j根据以下方式计算：

{SO}^{+}_{j} = \underset{p_{i} &Element; P}{Σ} \cos (v_{c_{i}}, v_{t &LeftArrow; p_{i}})

SO^- _j根据以下方式计算：

{SO}^{-}_{j} = \underset{q_{i} &Element; P}{Σ} \cos (v_{c_{i}}, v_{t &LeftArrow; q_{i}})

其中Q为负面候选词集合，v_t←qi为正面候选词q_i在语义趋向值矩阵中对应的行矢量。

由SO⁺ _j和SO^- _j代入得到SO_j，当SO_j>γ_p时确定为正面词汇，SO_j<γ_n时确定为负面词汇。其他情况确定为中性词汇。其中γ_p，γ_n分别为正面和负面词汇判定阈值。

综上所述，本发明提出了一种信息监测分析系统，对互联网舆情进行多维监测，有效采集和分析出敏感信息，提高了查准率和查全率。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种信息监测分析系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述数据预处理模块进一步配置为：

采用词汇和词频的二元关系表示各个词汇的分词和词性标注，得到候选项集合W＝{w₁，w₂，…，w_N}，N为候选词总数。

3.根据权利要求2所述的系统，其特征在于，所述语义倾向识别模块对数据预处理得到的候选词集构建词汇语义趋向值网络，进一步包括：

waf_ij＝(f_ij/f_i)·(f_ij/f_j)/d_ij ²

A_ij＝((1/|K_ij|)OR(waf_ki，waf_kj))^1/2·((1/|L_ij|)OR(waf_il，waf_jl))^1/2

用词汇语义趋向值A_ij将文档表示为语义趋向值矩阵，在词汇的语义倾向识别过程中，将词汇作为节点，各节点间的语义趋向值作为边，构建语义趋向值网络。

4.根据权利要求3所述的系统，其特征在于，所述语义倾向识别模块利用候选词以及语义趋向值网络计算词汇的语义倾向强度，进一步包括：

SO_j＝SO⁺ _j-β*SO^-j

SO⁺ _j根据以下方式计算：

{SO}^{+}_{j} = \underset{p_{i} &Element; P}{Σ} \cos (v_{c_{i}}, v_{t &LeftArrow; p_{i}})

SO^- _j根据以下方式计算：

{SO}^{-}_{j} = \underset{q_{i} &Element; Q}{Σ} \cos (v_{c_{i}}, v_{t &LeftArrow; q_{i}})