发明内容
为解决上述现有技术所存在的问题,本发明提出了一种互联网数据提取系统,包括:
数据采集模块,用于对用户在互联网中发布的内容进行采集;
数据预处理模块,用于对采集的网络文本进行预处理,包括根据用户等级进行噪声过滤、文本分词、停用词过滤、权值计算、矢量表示和特征提取;
话题归类模块,用于在预处理后的数据中基于话题之间的相似度进行归类;
话题频度计算模块,用于对归类之后的话题群,结合网络属性信息和用户等级,计算话题频度值。
优选地,所述根据用户等级进行噪声过滤,进一步包括:
获取网络语义数据和用户关联数据,删除无用信息;
计算用户UL等级值,对计算结果排序,过滤掉等级低于预设值的用户发布的语义数据,过滤掉开头含有标志位格式的语义数据;
其中计算用户UL等级值的过程包括:
对N个用户的旧UL值,赋初值为1;根据以下用户等级计算公式计算各个用户的新UL值:
其中,UL(u)表示用户u的等级值;att(u)表示用户u的关注者集合;Lu为用户u的活跃度;d为阻尼系数预设常量,所述用户的活跃度与用户关注者数量、用户发布的频率、发表的数量有关,并且计算为:
Lu=Σwj·Aj
其中,Aj为活跃度的影响因素值,wj为Aj的对应权值;
当各个用户的旧UL值和新UL值相差大于预定阈值时,将各个用户的旧UL值赋值为新UL值,再根据上述用户等级计算公式计算每一个用户的新UL值;输出N个用户的UL值为新的UL值。
优选地,所述预处理模块中,文本分词、停用词过滤、权值计算、矢量表示和特征提取的过程进一步包括:
在噪声过滤后,对文本做分词并去停用词,保留包含关键信息的名词、动词、形容词、副词作为特征项,文本使用矢量空间模型来表示,在矢量空间模型中给不同的特征项分配不同的权值,通过特征项的权值反映该特征项对文本文档的贡献度和文档之间的区分能力,采用结合语义相似度的正则化逆词频函数:
Wik=tfik×log(N/mk+0.01)
其中,tfik为特征词条Tk在文本Di中的出现次数;N为整个文本的数量;mk为含有Tk的文本数量和与Tk语义相似的特征项出现的文本数量的平均值的和,mk的计算公式如下:
其中,nk为包含Tk的文本数量;pj为包含其它文本中与Tk语义相似的特征项的文本数量;c为与Tk语义相似的特征项的数量,当特征词条之间的语义相似值大于0.6时,确定其语义相似;
在矢量空间模型中,2个文本间的相似度表示为:
其中,Dmj,Dnj分别表示文本Dm和Dn中第j个特征词条的Wik值。
优选地,所述话题归类模块进一步配置为:
1)计算网络内容文本间的相似度值,然后构建文本间相似度的矩阵Mtr;
2)根据构造的矩阵Mtr,构建一个相似度集合P,并对其进行升序排序;
3)初始中心点集I设置为空集,删除集Del变为空集;
4)从P中选取数值最大的文本dj作为一个中心点,并将其加入到初始中心点集中,即I=I∪{dj},已设置选择中心点个数i自动加1;
5)根据构造的矩阵Mtr,查找文本dj群相关的全部文本,并将这些文本从集合P中全部删除,即如果sim(di,dj)大于相似度α,则P=P-{ai}且Del=Del∪{ai};
6)当集合P为空且i小于类数量K时,将Del中所有的文本放入到集合P中并且将Del置为空,即P=Del,清空Del;
7)循环执行步骤3)-步骤6),直到满足终止条件i=K,输出初始中心点集合I。
本发明相比现有技术,具有以下优点:
本发明提出了一种互联网数据提取系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种互联网数据提取系统。图1是根据本发明实施例的互联网数据提取系统模块图。
本发明把多种信息采集的方式综合在一起,将其在信息监测中实现。考虑到对内容方面的监测,本发明还需要对内容中的敏感信息进行审核,互联网中的大型网站提供很多热点词汇的推荐,这些数据很有可能就是本发明关心的关键词汇,即关键字,这些数据本发明也需要及时的采集下来。其次在监测工作中,信息监测中选择的对象是互联网中门户网站,针对某一个地区的信息进行实时推送。系统按照本发明配置的规则,定期抓取关注的信息,通过各种分析手段,提示用户注意匹配上的数据信息进行审核。
在信息监测系统中,系统分为四个层次,自底向上依次为数据存储层、数据处理层、监测分析层、用户接口层。
数据存储层提供数据库管理功能,需要对采集的数据有合理的存储规划;分布式计算能力,实现各个子系统内部和子系统之间的不同节点上的对象调用;系统维护,可以对各个子系统进行参数配置,监控系统各个组成部分的运行情况,管理用户及其权限等。
数据处理层提供数据采集能力,可以对重点网站的网络内容及音视频内容进行增量式抓取;数据存储,可以管理外部存储系统,能够实现数据迁移、备份和清洗的功能;数据管理功能,可以对网站、网络内容、视音频网络内容等监测对象的基本信息和进一步分析出的信息进行管理,如查询、修改、删除、添加。并支持手动导入音视频网络内容。
监测分析层进行内容分析,对采集到的文本、音频、视频数据进行分析,抽取特征,建立数据索引,识别非法信息和跟踪热点、敏感词等;信息采集,是基于关键词、样例图片、样例音频、样例视频,来进行内容采集;信息统计,根据监测业务的需要,对采集到的视音频网站、网络内容、和非法信息进行统计归类。
用户接口层提供各个管理功能友好的操作界面,显示信息采集、信息统计、非法信息识别和分析的结果,进行系统维护等多项操作;
系统接口为相关系统提供统一的服务,便于整合监测业务的其他系统,提高各业务系统的集成性和扩展性。
在信息采集过程中,视频采集模块能够通过业务人员提交的关键词,对视频网络内容进行内容采集,返回包含指定关键词的视频文件,以及相应文件内的时间信息。通过业务人员提交的关键帧,对视频网络内容进行内容采集,返回包含指定关键帧的视频文件,以及相应文件内的时间信息。能够通过业务人员提交的特定视频片段,在本地视频数据库中采集包含相同的视频片段的视频网络内容,并进而发现该视频网络内容在网上的分布情况。找到的视频片段与查询样本的内容一致,但是在形式上允许存在区别。业务人员可以通过WEB界面,查看采集到的结果视频的摘要及关键帧全景图,关键帧可进行定位播放并且观看、转存结果视频。可以在视频大屏上直接点击出现该视频片段的视频网络内容。
音频采集模块,对互联网语音和音频文件建立内容索引,支持用户进行特定内容音频采集。通过对特定内容音频信息(或者说敏感信息)的采集,实现对网络音频信息的监测。特定内容的语音和音频信息可以有多种形式,可以是特定关键词,或者特定说话人,或者特定音频片段。
当用户提交关键词文本,系统能够返回包含指定关键词的互联网音频文件,并定位在文件内的时间信息。当用户提交某个特定说话人的语音样本,系统能够返回包含指定说话人的互联网音频文件,并定位在文件内的时间信息。当用户提交某个特定音频片段,系统能够返回包含指定音频片段的互联网音频文件,并定位在文件内的时间信息。
文本采集模块,包括话题采集单元,话题趋向分析单元,关键词过滤匹配单元。其中:
话题采集单元根据监测业务需要对指定的网站进行流量访问量统计、采集排名位置等,自动从第三方所公布的网络内容,门户网站,搜索引擎以及大网站网络等渠道获取相关数据。可以通过输入指定的网站名称、采集第三方公布排名信息的网络内容、自动从网络内容中分析出排名数据等获取监测业务需要的数据。
话题趋向分析单元,通过基于统计情感词趋向性的方法,对评论中关键词的所有情感词汇趋向性的统计加权,以通过对比和分析用户话题的趋向性矢量而完成话题的趋向性分析。
关键词过滤匹配单元,通过关键字匹配,检测网络内容中是否包含非法内容并进行过滤;根据监测业务的需要对关键字进行配置,可以通过组合条件进行配置,具备与、或、非的各种包含方式,并根据关键字时效性考虑配置有效周期。
根据本发明的进一步的方面,所述话题采集单元提取网络热点话题的关键词,为搜索引擎优化提供参考充分利用社交与公共网络的特点,例如用户之间存在的社会关系和用户的影响力大小等。网络中用户影响力的大小对话题采集有着关键的影响。本发明结合用户的等级计算,提出一种基于用户等级的话题采集系统。用户等级的UL(User Level)计算是基于用户影响力评价模型。结合网络属性信息和用户等级,计算话题频度值。通过有向图来直观展现网络平台上用户之间的关联关系。用户发布了一条信息,这条信息将会通过其与关注者的关联关系传播,信息就可能成为下一个热点话题。在社交网络中,一个网络用户的等级不仅与其关注者数有关,还与用户网络发布频率、用户评论、发表频率等因素有关。用户等级计算公式如下:
其中,UL(u)表示用户u的等级值;att(u)表示用户u的关注者集合;Lu为用户u的活跃度;d为阻尼系数预设常量。
用户的活跃度主要与用户关注者数、用户发布的频率、发表的数量等有关。因此,用户u的活跃度可以计算为:
Lu=Σwj·Aj
其中,Lu为用户u的活跃度,Aj为活跃度的影响因素值,wj为Aj的对应权值。
以下为UL值的计算:
输入:N个用户的关系网,包括,N个用户活跃度值的集合;
输出:N个用户的UL值。
1.对N个用户的旧UL值,赋初值为1;
2.根据用户等级计算公式计算各个用户的新UL值;
3.当各个用户的旧UL值和新UL值相差大于预定阈值时,则将各个用户的旧UL值赋值为新UL值,再根据上述用户等级计算公式计算每一个用户的新UL值;
4)经过若干次迭代计算,每一个用户的旧UL值与新UL值趋于相等;
5)输出N个用户的UL值为新的UL值。
本发明的话题采集单元主要包括数据采集模块,用于对用户在互联网中发布的内容进行采集;数据预处理模块,用于对采集的网络文本进行预处理,包括根据用户等级进行噪声过滤、文本分词、停用词过滤、权值计算、矢量表示和特征提取;话题归类模块,用于识别多个话题之间的相似度;话题频度计算模块,用于对归类之后的话题群,结合网络属性信息和用户等级,计算话题频度值。
数据预处理模块对采集的网络内容文本作预处理,主要包括网络信息噪声过滤、文本分词、停用词过滤、权值计算、文本矢量表示、特征提取等。首先根据用户的等级值对得到的网络内容进一步过滤,过滤掉低等级值用户的相应网络信息。
信息噪声过滤步骤如下:
1)获取网络语义数据和用户关联数据,删除无用信息。
2.计算用户UL等级值,对计算结果排序,过滤掉等级低于预设值的用户发布的网络语义数。
3.去除“@用户名”格式的信息;过滤掉开头含有标志位格式的语义数据。
噪声过滤后,对文本做分词并去停用词。保留包含关键信息的名词、动词、形容词、副词作为特征项。文本使用矢量空间模型来表示。矢量空间模型中给不同的特征项分配不同的权值,通过特征项的权值能反映该特征项对文本文档的贡献度和文档之间的区分能力。采用结合语义相似度的正则化逆词频函数:
Wik=tfik×log(N/mk+0.01)
其中,tfik为特征词条Tk在文本Di中的出现次数;N为整个文本的数量;mk为含有Tk的文本数量和与Tk语义相似的特征项出现的文本数量的平均值的和。mk的计算公式如下:
其中,nk为包含Tk的文本数量;pj为包含其它文本中与Tk语义相似的特征项的文本数量;c为与Tk语义相似的特征项的数量。特征词条之间的语义相似值要大于0.6,才能确定其语义相似。
在矢量空间模型中,2个文本间的相似度表示为,公式为:
其中,Dmj,Dnj分别表示文本Dm和Dn中第j个特征词条的Wik值。
从对文本内容相关度计算公式来看,对各个文本特征项的权值计算是非常关键的,因为其值直接降低文本间相似度的准确率,进而影响后面文本归类结果。
在热点话题采集系统中,对改进后的K均值方法进行改进,在迭代归类前先利用每个文本的平均相似度值来确定归类的初始中心点。文本间的相似度值越大,表明它们所讨论的事件越相关。归类方法总体思想是:先计算文本的平均相似度,然后对相似度集合P排序,从中选择最大的为中心点,并删除与选中文本群相关的文本,重复上述步骤,直到有k个中心点,如果P为空集且中心点个数小于k时,则就把之前删除的文本重新加入到集合中选择中心点。
详细流程如下:
输入:文本集Doc的空间矢量模型,归类个数K,相似度阈值α,i=0(i表示已确定的初始中心点个数)。
输出:中点集I。
1)计算网络内容文本间的相似度值,然后构建文本间相似度的矩阵Mtr;
2)根据构造的矩阵Mtr,构建一个集合P,并对其进行升序排序;
3)初始中心点集I设置为空集,删除集Del变为空集;
4)从P中选取数值最大的文本dj作为一个中心点,并将其加入到初始中心点集中,即I=I∪{dj},已设置选择中心点个数i自动加1;
5)根据构造的矩阵Mtr,查找文本dj群相关的全部文本,并将这些文本从集合P中全部删除,即如果sim(di,dj)>α,则P=P-{ai}且Del=Del∪{ai};
6)当集合P为空且i<K时,将Del中所有的文本放入到集合P中并且将Del置为空,即P=Del,清空Del;
7)循环执行步骤3)-步骤6),直到满足终止条件i=K,输出初始中心点集合I。
文本归类后获得一组话题群,每个群内文本数量还是非常多。为了能够更准确地获取一段时间内的热点话题,需要对归类结果进行话题频度计算。考虑以上因素对网络内容文本实际频度的贡献率,本发明结合用户等级计算值来计算频度值,计算公式如下:其中,UL表示网络发布者的等级值,re表示内容发表数目,cm表示评论数目。
根据本发明的又一方面,关键词过滤匹配单元用于直接将预处理过的文本与词库中的词相匹配。本发明将词库中的词按照一定分类规则构建成了一棵判别树,提高文本采集时的匹配时效;并且判别树中关键词的存储方式节约空间。整体思想如下:(1)将文本进行去停用词等预处理;(2)将词库通过判别树构建方法建立成一个树型结构,以达到文本匹配过程的分流的作用;在前2步的基础上,将预处理过的文本,以文本数据流方式通过采集判别树,记录文本中对应关键词的频率和区域信息;(3)通过特定计算公式,得出文本整体关键词匹配度,将对应网络内容划分为敏感、非敏感网络内容。
首先需要对网络内容文本进行预处理,去除HTML标记,停用词过滤,以及记录文本区域信息,得到待处理文本。方法通过对词库中的词,按第一个字的拼音首字母进行分类,首字母同类的词再进行同字归类,在存储汉字的同时,将该汉字的拼音也存储起来,当遇到纯拼音或者拼音与汉字搭配的关键词时,方法也同样能够将其检测出来。
建树方法的输入是词库,每个关键词都带有用户自定义的敏感系数。若有词库Aford={a0,a1,…,ai,…,an-1},(0≤i<n),n为关键词个数,ai表示关键词;ai={ai,0,…,ai,j,…,ai,m-1},(0≤j<m),aij表示第i个关键词的第j个关键字,m表示关键词长度。方法如下:
(1)初始化i=0,j=0,k=0,k记录子节点序号;
(2)输入关键词ai,获取其中文长度为m,并提取首字母LetterS;
(3)进入S子树查询,将aij与S的第k个子节点childk比较;
(4)若aij=childk节点的值,则j增1,若此时j<m,s=childk,k=0,则返回步骤(3);若j≥m,i增1,当i<n时,返回步骤(2);当i≥n时,本方法结束;
(5)否则,若aij≠childk节点值,查询childk的兄弟节点是否为空;
(6)若childk兄弟节点为空,创建新节点childk+1,值为aij,记录aij的拼音,j增1;
(7)若j<m创建子节点,并赋值aij,记录aij拼音,j增1,转步骤7继续处理;若j≥m,最后一个节点记录关键词级别,并初始化频率为0,区域信息为默认值1,i增1,此时若i<n,则返回步骤(2),若i≥n,则结束;
(8)否则,若childk兄弟节点不为空,k增1,返回步骤(2),处理下一个关键词;
(9)方法结束。
本发明构建的判别树深度为词库中最长关键词的长度。树中每个节点都存储了关键字以及其对应的拼音,叶节点还记录了关键词的频率、区域信息、敏感级别,并且将各个词的频率和区域系数都进行了初始化。
在查找树处理文本过程中,若有文本流Btext={b0,b1,…,bi,…,bn–1},(0≤i<n),其中,bi表示文本中的字符;n为文本长度,在这里的字符定义为一个汉字或者一串没有空格间断的英文字符,以便区分采集判别树中的中文字和拼音。
方法如下:
(1)初始化i=0,k=0,k用于记录第一个进入分支的字符序列号;
(2)输入bi,k=i,j=0,判断bi为英文字符还是中文字符,如果是中文字符需要提取首字母s,若是英文则直接获取;
(3)将bi与S的childj相匹配;
(4)若bi为childj节点值,则i增1(若i≥n,则方法结束);若childj的子结点为空,记录fs,locs,其中fs为s的词频,locs表示词汇s的区域系数,并转步骤(2)处理,若childj的子结点非空,S=childj,j=0,转步骤(3)处理;
(5)若bi≠childj值,查询childj兄弟节点是否为空;
(6)若兄弟节点不为空,则j增1,转步骤(3)处理;
(7)若兄弟节点为空,则i=k+1,若i<n,则转步骤(2)处理,若i≥n,则方法结束。
本发明输入预处理过的文本,以数据流形式检测文本中所含有的关键词,并记录其频率和区域信息,以提供文本最后的关键词匹配度计算。
本发明将词频系数frei的计算方式为:
frei=fi/(1+fi)
其中,fi为i的词频,再加上关键词级别系数,最终对关键词的权值采用下式:
weighti=α×frei+β×loci+γ×levi
其中,weighti表示关键词汇i的权值;loci表示词汇i的区域系数,当词汇出现在标题中时loci=5,否则loci=1;levi表示关键词d的级别系数,关键词分3个级别,绝对禁止levi=3,一般levi=2,需要审核levi=1,这3个级别由人工划分。α,β,γ都是调节系数,设置合理的调节系数,检测结果才能更加准确。
查树处理文本之后,文本中相关的关键词的词频系数、区域系数以及敏感级别都已经统计完成。提取k个关键词,计算文本的整体关键词匹配度。考虑到文本长度较长的关键词频率个数比较多,所以为了平衡文本长度的影响,这里k的取值为k=len×ε,其中,len为文本长度;ε为误差系数。
针对已经统计好词频、区域、级别的词库Aford={a0,a1,…,ai,…,an-1},(0≤i<n),要获取权值最大的k个值,方法如下:
(1)初始化i=0,获取文本长度len,初始化k=len×ε;
(2)建立一个有k个节点的堆,每个节点值初始化为0,堆顶节点为root;
(3)如果ai的词频>0,则
(4)根据关键词的权值计算公式计算Weighti
(5)如果Weighti>root,则
(6)root=Weighti
(7)重新调整堆为最小顶点堆,即root仍然为堆中最小值;
(8)如果i+1<n
(9)转步骤(4)处理;
(10)最后通过下式,取堆的所有k个节点值,计算出文本的权值W:
现得到文本的最终关键词匹配度值W,定义θ为文本关键词匹配度阈值,如果W≥θ则表示此文本为敏感文本,若W<θ,则表明此文本非敏感文本。
综上所述,本发明提出了一种互联网数据提取系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。