CN104834739B - 互联网信息存储系统 - Google Patents

互联网信息存储系统 Download PDF

Info

Publication number
CN104834739B
CN104834739B CN201510258098.5A CN201510258098A CN104834739B CN 104834739 B CN104834739 B CN 104834739B CN 201510258098 A CN201510258098 A CN 201510258098A CN 104834739 B CN104834739 B CN 104834739B
Authority
CN
China
Prior art keywords
data
information
content
keyword
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510258098.5A
Other languages
English (en)
Other versions
CN104834739A (zh
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kunchuan Network Technology Co ltd
Original Assignee
BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510258098.5A priority Critical patent/CN104834739B/zh
Publication of CN104834739A publication Critical patent/CN104834739A/zh
Application granted granted Critical
Publication of CN104834739B publication Critical patent/CN104834739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种互联网信息存储系统,该系统包括:数据存储层,用于提供数据库管理,对所采集的数据进行存储规划;对各个子系统进行参数配置,监控系统各个组成部分的运行情况;数据处理层,用于进行数据采集,对网络内容进行抓取;实现数据迁移、备份和清洗;对监测对象的信息进行管理;监测分析层,用于对采集到的数据进行分析,抽取特征,建立数据索引;用户接口层,提供管理功能的操作界面。本发明提出了一种互联网信息存储系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。

Description

互联网信息存储系统
技术领域
本发明涉及数据采集与分析,特别涉及一种互联网信息存储系统。
背景技术
与原有传统互联网形态相比,当今的互联网形态已经发生了巨变,随身移动设备的不断推新,人们已经脱离了老式台式机的传统有线上网模式,移动设备的功能层出不穷,拍照、拍摄视频已经是最基本的功能。人们可以通过移动设备拍摄周围发生的事情,并且可以直接上传到互联网中,其信息的传播速度迅速之极,如果没有合理进行监测,可能会出现非法信息,错误引导公众的判断,导致舆论走向错误的方向。在舆情检测中,数据采集功能尤为重要,所有数据在采集后,因为数据量极大,需要借助技术手段,在有限的时间内,分析出有用的数据。然而现有的信息监测系统仅应用单一的采集方式,只能满足某种特定的信息分析,不能满足现在互联网中多元化信息分析的需求。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种互联网信息存储系统,包括:
数据存储层,用于提供数据库管理,对所采集的数据进行存储规划;通过分布式计算实现各个子系统内部和子系统之间的不同节点上的对象调用;对各个子系统进行参数配置,监控系统各个组成部分的运行情况,管理用户及其权限;
数据处理层,用于进行数据采集,对网络内容进行增量式抓取;实现数据迁移、备份和清洗;对监测对象的基本信息和进一步分析出的信息进行管理;
监测分析层,用于对采集到的数据进行分析,抽取特征,建立数据索引,对采集到的网络内容进行统计归类;
用户接口层,提供管理功能的操作界面,显示信息采集、信息统计、信息识别和分析的结果,进行系统维护操作。
优选地,所述监测分析层进一步包括:
视频采集模块,用于通过关键词,对视频网络内容进行内容采集,返回包含指定关键词的视频文件,以及相应文件内的时间信息;通过关键帧对视频网络内容进行内容采集,返回包含指定关键帧的视频文件,以及相应文件内的时间信息;通过特定视频片段,在本地视频数据库中采集包含相同的视频片段的视频网络内容,通过WEB界面显示采集到的结果视频的摘要及关键帧全景图;
音频采集模块,用于对互联网语音和音频文件建立内容索引,进行特定内容音频采集,通过对特定内容音频信息的采集,实现对网络音频信息的监测,所述特定内容音频信息包括特定关键词、特定说话人,或者特定音频片段;
文本采集模块,包括话题采集单元,话题趋向分析单元,关键词过滤匹配单元,其中:
所述话题采集单元用于对指定的网站进行流量访问量统计、采集排名位置,从第三方所公布的网络内容获取相关数据;
所述话题趋向分析单元用于对网络内容中关键词的所有情感词汇趋向性的统计加权,通过对比和分析用户话题的趋向性矢量来完成话题的趋向性分析。
所述关键词过滤匹配单元用于通过关键字匹配,检测网络内容中是否包含非法内容并进行过滤;通过组合条件对关键字进行配置,并根据关键字时效性配置有效周期。
本发明相比现有技术,具有以下优点:
本发明提出了一种互联网信息存储系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。
附图说明
图1是根据本发明实施例的互联网信息存储系统的模块图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种互联网信息存储系统。图1是根据本发明实施例的互联网信息存储系统模块图。
本发明把多种信息采集的方式综合在一起,将其在信息监测中实现。考虑到对内容方面的监测,本发明还需要对内容中的敏感信息进行审核,互联网中的大型网站提供很多热点词汇的推荐,这些数据很有可能就是本发明关心的关键词汇,即关键字,这些数据本发明也需要及时的采集下来。其次在监测工作中,信息监测中选择的对象是互联网中门户网站,针对某一个地区的信息进行实时推送。系统按照本发明配置的规则,定期抓取关注的信息,通过各种分析手段,提示用户注意匹配上的数据信息进行审核。
在信息监测系统中,系统分为四个层次,自底向上依次为数据存储层、数据处理层、监测分析层、用户接口层。
数据存储层提供数据库管理功能,需要对采集的数据有合理的存储规划;分布式计算能力,实现各个子系统内部和子系统之间的不同节点上的对象调用;系统维护,可以对各个子系统进行参数配置,监控系统各个组成部分的运行情况,管理用户及其权限等。
数据处理层提供数据采集能力,可以对重点网站的网络内容及音视频内容进行增量式抓取;数据存储,可以管理外部存储系统,能够实现数据迁移、备份和清洗的功能;数据管理功能,可以对网站、网络内容、视音频网络内容等监测对象的基本信息和进一步分析出的信息进行管理,如查询、修改、删除、添加。并支持手动导入音视频网络内容。
监测分析层进行内容分析,对采集到的文本、音频、视频数据进行分析,抽取特征,建立数据索引,识别非法信息和跟踪热点、敏感词等;信息采集,是基于关键词、样例图片、样例音频、样例视频,来进行内容采集;信息统计,根据监测业务的需要,对采集到的视音频网站、网络内容、和非法信息进行统计归类。
用户接口层提供各个管理功能友好的操作界面,显示信息采集、信息统计、非法信息识别和分析的结果,进行系统维护等多项操作;
系统接口为相关系统提供统一的服务,便于整合监测业务的其他系统,提高各业务系统的集成性和扩展性。
在信息采集过程中,视频采集模块能够通过业务人员提交的关键词,对视频网络内容进行内容采集,返回包含指定关键词的视频文件,以及相应文件内的时间信息。通过业务人员提交的关键帧,对视频网络内容进行内容采集,返回包含指定关键帧的视频文件,以及相应文件内的时间信息。能够通过业务人员提交的特定视频片段,在本地视频数据库中采集包含相同的视频片段的视频网络内容,并进而发现该视频网络内容在网上的分布情况。找到的视频片段与查询样本的内容一致,但是在形式上允许存在区别。业务人员可以通过WEB界面,查看采集到的结果视频的摘要及关键帧全景图,关键帧可进行定位播放并且观看、转存结果视频。可以在视频大屏上直接点击出现该视频片段的视频网络内容。
音频采集模块,对互联网语音和音频文件建立内容索引,支持用户进行特定内容音频采集。通过对特定内容音频信息(或者说敏感信息)的采集,实现对网络音频信息的监测。特定内容的语音和音频信息可以有多种形式,可以是特定关键词,或者特定说话人,或者特定音频片段。
当用户提交关键词文本,系统能够返回包含指定关键词的互联网音频文件,并定位在文件内的时间信息。当用户提交某个特定说话人的语音样本,系统能够返回包含指定说话人的互联网音频文件,并定位在文件内的时间信息。当用户提交某个特定音频片段,系统能够返回包含指定音频片段的互联网音频文件,并定位在文件内的时间信息。
文本采集模块,包括话题采集单元,话题趋向分析单元,关键词过滤匹配单元。其中:
话题采集单元根据监测业务需要对指定的网站进行流量访问量统计、采集排名位置等,自动从第三方所公布的网络内容,门户网站,搜索引擎以及大网站网络等渠道获取相关数据。可以通过输入指定的网站名称、采集第三方公布排名信息的网络内容、自动从网络内容中分析出排名数据等获取监测业务需要的数据。
话题趋向分析单元,通过基于统计情感词趋向性的方法,对评论中关键词的所有情感词汇趋向性的统计加权,以通过对比和分析用户话题的趋向性矢量而完成话题的趋向性分析。
关键词过滤匹配单元,通过关键字匹配,检测网络内容中是否包含非法内容并进行过滤;根据监测业务的需要对关键字进行配置,可以通过组合条件进行配置,具备与、或、非的各种包含方式,并根据关键字时效性考虑配置有效周期。
根据本发明的进一步的方面,所述话题采集单元提取网络热点话题的关键词,为搜索引擎优化提供参考充分利用社交与公共网络的特点,例如用户之间存在的社会关系和用户的影响力大小等。网络中用户影响力的大小对话题采集有着关键的影响。本发明结合用户的等级计算,提出一种基于用户等级的话题采集系统。用户等级的UL(User Level)计算是基于用户影响力评价模型。结合网络属性信息和用户等级,计算话题频度值。通过有向图来直观展现网络平台上用户之间的关联关系。用户发布了一条信息,这条信息将会通过其与关注者的关联关系传播,信息就可能成为下一个热点话题。在社交网络中,一个网络用户的等级不仅与其关注者数有关,还与用户网络发布频率、用户评论、发表频率等因素有关。用户等级计算公式如下:
其中,UL(u)表示用户u的等级值;att(u)表示用户u的关注者集合;Lu为用户u的活跃度;d为阻尼系数预设常量。
用户的活跃度主要与用户关注者数、用户发布的频率、发表的数量等有关。因此,用户u的活跃度可以计算为:
Lu=∑wj·Aj
其中,Lu为用户u的活跃度,Aj为活跃度的影响因素值,wj为Aj的对应权值。
以下为UL值的计算:
输入:N个用户的关系网,包括,N个用户活跃度值的集合;
输出:N个用户的UL值。
1.对N个用户的旧UL值,赋初值为1;
2.根据用户等级计算公式计算各个用户的新UL值;
3.当各个用户的旧UL值和新UL值相差大于预定阈值时,则将各个用户的旧UL值赋值为新UL值,再根据上述用户等级计算公式计算每一个用户的新UL值;
4)经过若干次迭代计算,每一个用户的旧UL值与新UL值趋于相等;
5)输出N个用户的UL值为新的UL值。
本发明的话题采集单元主要包括数据采集模块,用于对用户在互联网中发布的内容进行采集;数据预处理模块,用于对采集的网络文本进行预处理,包括根据用户等级进行噪声过滤、文本分词、停用词过滤、权值计算、矢量表示和特征提取;话题归类模块,用于识别多个话题之间的相似度;话题频度计算模块,用于对归类之后的话题群,结合网络属性信息和用户等级,计算话题频度值。
数据预处理模块对采集的网络内容文本作预处理,主要包括网络信息噪声过滤、文本分词、停用词过滤、权值计算、文本矢量表示、特征提取等。首先根据用户的等级值对得到的网络内容进一步过滤,过滤掉低等级值用户的相应网络信息。
信息噪声过滤步骤如下:
1)获取网络语义数据和用户关联数据,删除无用信息。
2.计算用户UL等级值,对计算结果排序,过滤掉等级低于预设值的用户发布的网络语义数。
3.去除“@用户名”格式的信息;过滤掉开头含有标志位格式的语义数据。
噪声过滤后,对文本做分词并去停用词。保留包含关键信息的名词、动词、形容词、副词作为特征项。文本使用矢量空间模型来表示。矢量空间模型中给不同的特征项分配不同的权值,通过特征项的权值能反映该特征项对文本文档的贡献度和文档之间的区分能力。采用结合语义相似度的正则化逆词频函数:
Wik=tfik×log(N/mk+0.01)
其中,tfik为特征词条Tk在文本Di中的出现次数;N为整个文本的数量;mk为含有Tk的文本数量和与Tk语义相似的特征项出现的文本数量的平均值的和。mk的计算公式如下:
其中,nk为包含Tk的文本数量;pj为包含其它文本中与Tk语义相似的特征项的文本数量;c为与Tk语义相似的特征项的数量。特征词条之间的语义相似值要大于0.6,才能确定其语义相似。
在矢量空间模型中,2个文本间的相似度表示为,公式为:
其中,Dmj,Dnj分别表示文本Dm和Dn中第j个特征词条的Wik值。
从对文本内容相关度计算公式来看,对各个文本特征项的权值计算是非常关键的,因为其值直接降低文本间相似度的准确率,进而影响后面文本归类结果。
在热点话题采集系统中,对改进后的K均值方法进行改进,在迭代归类前先利用每个文本的平均相似度值来确定归类的初始中心点。文本间的相似度值越大,表明它们所讨论的事件越相关。归类方法总体思想是:先计算文本的平均相似度,然后对相似度集合P排序,从中选择最大的为中心点,并删除与选中文本群相关的文本,重复上述步骤,直到有k个中心点,如果P为空集且中心点个数小于k时,则就把之前删除的文本重新加入到集合中选择中心点。
详细流程如下:
输入:文本集Doc的空间矢量模型,归类个数K,相似度阈值α,i=0(i表示已确定的初始中心点个数)。
输出:中点集I。
1)计算网络内容文本间的相似度值,然后构建文本间相似度的矩阵Mtr;
2)根据构造的矩阵Mtr,构建一个集合P,并对其进行升序排序;
3)初始中心点集I设置为空集,删除集Del变为空集;
4)从P中选取数值最大的文本dj作为一个中心点,并将其加入到初始中心点集中,即I=I∪{dj},已设置选择中心点个数i自动加1;
5)根据构造的矩阵Mtr,查找文本dj群相关的全部文本,并将这些文本从集合P中全部删除,即如果sim(di,dj)>α,则P=P-{ai}且Del=Del∪{ai};
6)当集合P为空且i<K时,将Del中所有的文本放入到集合P中并且将Del置为空,即P=Del,清空Del;
7)循环执行步骤3)-步骤6),直到满足终止条件i=K,输出初始中心点集合I。
文本归类后获得一组话题群,每个群内文本数量还是非常多。为了能够更准确地获取一段时间内的热点话题,需要对归类结果进行话题频度计算。考虑以上因素对网络内容文本实际频度的贡献率,本发明结合用户等级计算值来计算频度值,计算公式如下:其中,UL表示网络发布者的等级值,re表示内容发表数目,cm表示评论数目。
根据本发明的又一方面,关键词过滤匹配单元用于直接将预处理过的文本与词库中的词相匹配。本发明将词库中的词按照一定分类规则构建成了一棵判别树,提高文本采集时的匹配时效;并且判别树中关键词的存储方式节约空间。整体思想如下:(1)将文本进行去停用词等预处理;(2)将词库通过判别树构建方法建立成一个树型结构,以达到文本匹配过程的分流的作用;在前2步的基础上,将预处理过的文本,以文本数据流方式通过采集判别树,记录文本中对应关键词的频率和区域信息;(3)通过特定计算公式,得出文本整体关键词匹配度,将对应网络内容划分为敏感、非敏感网络内容。
首先需要对网络内容文本进行预处理,去除HTML标记,停用词过滤,以及记录文本区域信息,得到待处理文本。方法通过对词库中的词,按第一个字的拼音首字母进行分类,首字母同类的词再进行同字归类,在存储汉字的同时,将该汉字的拼音也存储起来,当遇到纯拼音或者拼音与汉字搭配的关键词时,方法也同样能够将其检测出来。
建树方法的输入是词库,每个关键词都带有用户自定义的敏感系数。若有词库Aford={a0,a1,…,ai,…,an-1},(0≤i<n),n为关键词个数,ai表示关键词;ai={ai,0,…,ai,j,…,ai,m-1},(0≤j<m),aij表示第i个关键词的第j个关键字,m表示关键词长度。方法如下:
(1)初始化i=0,j=0,k=0,k记录子节点序号;
(2)输入关键词ai,获取其中文长度为m,并提取首字母LetterS;
(3)进入S子树查询,将aij与S的第k个子节点childk比较;
(4)若aij=childk节点的值,则j增1,若此时j<m,s=childk,k=0,则返回步骤(3);若j≥m,i增1,当i<n时,返回步骤(2);当i≥n时,本方法结束;
(5)否则,若aij≠childk节点值,查询childk的兄弟节点是否为空;
(6)若childk兄弟节点为空,创建新节点childk+1,值为aij,记录aij的拼音,j增1;
(7)若j<m创建子节点,并赋值aij,记录aij拼音,j增1,转步骤7继续处理;若j≥m,最后一个节点记录关键词级别,并初始化频率为0,区域信息为默认值1,i增1,此时若i<n,则返回步骤(2),若i≥n,则结束;
(8)否则,若childk兄弟节点不为空,k增1,返回步骤(2),处理下一个关键词;
(9)方法结束。
本发明构建的判别树深度为词库中最长关键词的长度。树中每个节点都存储了关键字以及其对应的拼音,叶节点还记录了关键词的频率、区域信息、敏感级别,并且将各个词的频率和区域系数都进行了初始化。
在查找树处理文本过程中,若有文本流Btext={b0,b1,…,bi,…,bn–1},(0≤i<n),其中,bi表示文本中的字符;n为文本长度,在这里的字符定义为一个汉字或者一串没有空格间断的英文字符,以便区分采集判别树中的中文字和拼音。
方法如下:
(1)初始化i=0,k=0,k用于记录第一个进入分支的字符序列号;
(2)输入bi,k=i,j=0,判断bi为英文字符还是中文字符,如果是中文字符需要提取首字母s,若是英文则直接获取;
(3)将bi与S的childj相匹配;
(4)若bi为childj节点值,则i增1(若i≥n,则方法结束);若childj的子结点为空,记录fs,locs,其中fs为s的词频,locs表示词汇s的区域系数,并转步骤(2)处理,若childj的子结点非空,S=childj,j=0,转步骤(3)处理;
(5)若bi≠childj值,查询childj兄弟节点是否为空;
(6)若兄弟节点不为空,则j增1,转步骤(3)处理;
(7)若兄弟节点为空,则i=k+1,若i<n,则转步骤(2)处理,若i≥n,则方法结束。
本发明输入预处理过的文本,以数据流形式检测文本中所含有的关键词,并记录其频率和区域信息,以提供文本最后的关键词匹配度计算。
本发明将词频系数frei的计算方式为:
frei=fi/(1+fi)
其中,fi为i的词频,再加上关键词级别系数,最终对关键词的权值采用下式:
weighti=α×frei+β×loci+γ×levi
其中,weighti表示关键词汇i的权值;loci表示词汇i的区域系数,当词汇出现在标题中时loci=5,否则loci=1;levi表示关键词d的级别系数,关键词分3个级别,绝对禁止levi=3,一般levi=2,需要审核levi=1,这3个级别由人工划分。α,β,γ都是调节系数,设置合理的调节系数,检测结果才能更加准确。
查树处理文本之后,文本中相关的关键词的词频系数、区域系数以及敏感级别都已经统计完成。提取k个关键词,计算文本的整体关键词匹配度。考虑到文本长度较长的关键词频率个数比较多,所以为了平衡文本长度的影响,这里k的取值为k=len×ε,其中,len为文本长度;ε为误差系数。
针对已经统计好词频、区域、级别的词库Aford={a0,a1,…,ai,…,an-1},(0≤i<n),要获取权值最大的k个值,方法如下:
(1)初始化i=0,获取文本长度len,初始化k=len×ε;
(2)建立一个有k个节点的堆,每个节点值初始化为0,堆顶节点为root;
(3)如果ai的词频>0,则
(4)根据关键词的权值计算公式计算Weighti
(5)如果Weighti>root,则
(6)root=Weighti
(7)重新调整堆为最小顶点堆,即root仍然为堆中最小值;
(8)如果i+1<n
(9)转步骤(4)处理;
(10)最后通过下式,取堆的所有k个节点值,计算出文本的权值W:
现得到文本的最终关键词匹配度值W,定义θ为文本关键词匹配度阈值,如果W≥θ则表示此文本为敏感文本,若W<θ,则表明此文本非敏感文本。
综上所述,本发明提出了一种互联网信息存储系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (1)

1.一种互联网信息存储系统,其特征在于,包括:
数据存储层,用于提供数据库管理,对所采集的数据进行存储规划;通过分布式计算实现各个子系统内部和子系统之间的不同节点上的对象调用;对各个子系统进行参数配置,监控系统各个组成部分的运行情况,管理用户及其权限;
数据处理层,用于进行数据采集,对网络内容进行增量式抓取;实现数据迁移、备份和清洗;对监测对象的基本信息和进一步分析出的信息进行管理;
监测分析层,用于对采集到的数据进行分析,抽取特征,建立数据索引,对采集到的网络内容进行统计归类;
用户接口层,提供管理功能的操作界面,显示信息采集、信息统计、信息识别和分析的结果,进行系统维护操作;
所述监测分析层进一步包括:
视频采集模块,用于通过关键词,对视频网络内容进行内容采集,返回包含指定关键词的视频文件,以及相应文件内的时间信息;通过关键帧对视频网络内容进行内容采集,返回包含指定关键帧的视频文件,以及相应文件内的时间信息;通过特定视频片段,在本地视频数据库中采集包含相同的视频片段的视频网络内容,通过WEB界面显示采集到的结果视频的摘要及关键帧全景图;
音频采集模块,用于对互联网语音和音频文件建立内容索引,进行特定内容音频采集,通过对特定内容音频信息的采集,实现对网络音频信息的监测,所述特定内容音频信息包括特定关键词、特定说话人,或者特定音频片段;
文本采集模块,包括话题采集单元,话题趋向分析单元,关键词过滤匹配单元,其中:
所述话题采集单元用于对指定的网站进行流量访问量统计、采集排名位置,从第三方所公布的网络内容获取相关数据;
所述话题趋向分析单元用于对网络内容中关键词的所有情感词汇趋向性的统计加权,通过对比和分析用户话题的趋向性矢量来完成话题的趋向性分析;
所述关键词过滤匹配单元用于通过关键字匹配,检测网络内容中是否包含非法内容并进行过滤;通过组合条件对关键字进行配置,并根据关键字时效性配置有效周期。
CN201510258098.5A 2015-05-20 2015-05-20 互联网信息存储系统 Active CN104834739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510258098.5A CN104834739B (zh) 2015-05-20 2015-05-20 互联网信息存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510258098.5A CN104834739B (zh) 2015-05-20 2015-05-20 互联网信息存储系统

Publications (2)

Publication Number Publication Date
CN104834739A CN104834739A (zh) 2015-08-12
CN104834739B true CN104834739B (zh) 2017-11-17

Family

ID=53812625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510258098.5A Active CN104834739B (zh) 2015-05-20 2015-05-20 互联网信息存储系统

Country Status (1)

Country Link
CN (1) CN104834739B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159883A (zh) * 2015-09-22 2015-12-16 安徽省星启天网络技术有限公司 一种社交网络平台介入系统
CN106682021B (zh) * 2015-11-09 2021-09-28 五八同城信息技术有限公司 数据库迁移方法及装置
CN108009219A (zh) * 2017-11-21 2018-05-08 国家计算机网络与信息安全管理中心 一种发现互联网金融舆情监管目标的方法
CN110058986A (zh) * 2018-01-18 2019-07-26 普天信息技术有限公司 一种网络系统数据表征方法和装置
CN108537056A (zh) * 2018-03-07 2018-09-14 新博卓畅技术(北京)有限公司 一种双层过滤式的数据脱敏方法和系统
CN112054992B (zh) * 2020-07-28 2021-06-29 北京邮电大学 恶意流量识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN103324761A (zh) * 2013-07-11 2013-09-25 广州市尊网商通资讯科技有限公司 一种基于互联网数据形成产品数据库方法和系统
CN104408083A (zh) * 2014-10-27 2015-03-11 六盘水职业技术学院 一种社会化媒体分析系统
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN103324761A (zh) * 2013-07-11 2013-09-25 广州市尊网商通资讯科技有限公司 一种基于互联网数据形成产品数据库方法和系统
CN104408083A (zh) * 2014-10-27 2015-03-11 六盘水职业技术学院 一种社会化媒体分析系统
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中国移动舆情监测系统的设计与实现;王安宇;《中国优秀硕士学位论文全文数据库》;20130215(第2013年02期);全文 *

Also Published As

Publication number Publication date
CN104834739A (zh) 2015-08-12

Similar Documents

Publication Publication Date Title
CN104834739B (zh) 互联网信息存储系统
CN104809108B (zh) 信息监测分析系统
CN107862022B (zh) 文化资源推荐系统
CN107578292B (zh) 一种用户画像构建系统
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN104809252A (zh) 互联网数据提取系统
CN107577759A (zh) 用户评论自动推荐方法
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
CN110705288A (zh) 一种基于大数据的舆情分析系统
CN109635107A (zh) 多数据源的语义智能分析及事件场景还原的方法及装置
CN103745006B (zh) 一种互联网信息搜索系统及方法
CN103559315A (zh) 资讯筛选推送方法及装置
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN105512300B (zh) 信息过滤方法及系统
CN115757689A (zh) 一种信息查询系统、方法及设备
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和系统
CN117520522B (zh) 一种基于rpa和ai结合的智能对话方法、装置及电子设备
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN104809253B (zh) 互联网数据分析系统
CN103383697B (zh) 确定对象标题的对象表征信息的方法与设备
CN113971213A (zh) 智慧城市管理公共信息共享系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180809

Address after: 510660 room 3301, room 1, Jinsui Road, Tianhe District, Guangzhou, Guangdong, -3302

Patentee after: GUANGZHOU FENGSHEN NETWORK TECHNOLOGY Co.,Ltd.

Address before: 610041 No. 1, No. 3 Shen Xian Nan Road, Chengdu high tech Zone, Sichuan, China.

Patentee before: CHENGDU BLTSAFE INFORMATION TECHNOLOGY Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Internet information storage system

Effective date of registration: 20210223

Granted publication date: 20171117

Pledgee: Zhujiang Branch of Guangzhou Bank Co.,Ltd.

Pledgor: GUANGZHOU FENGSHEN NETWORK TECHNOLOGY Co.,Ltd.

Registration number: Y2021980001275

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220420

Granted publication date: 20171117

Pledgee: Zhujiang Branch of Guangzhou Bank Co.,Ltd.

Pledgor: GUANGZHOU FENGSHEN NETWORK TECHNOLOGY Co.,Ltd.

Registration number: Y2021980001275

PC01 Cancellation of the registration of the contract for pledge of patent right
TR01 Transfer of patent right

Effective date of registration: 20240208

Address after: Room 499, 4th Floor, No. 89 Yanling Road, Tianhe District, Guangzhou City, Guangdong Province 510000. Self made No. 134 (for office only)

Patentee after: Guangzhou Kunchuan Network Technology Co.,Ltd.

Country or region after: China

Address before: 510660 room 3301, room 1, Jinsui Road, Tianhe District, Guangzhou, Guangdong, -3302

Patentee before: GUANGZHOU FENGSHEN NETWORK TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right