CN103139256B - 一种多租户网络舆情监控方法及系统 - Google Patents

一种多租户网络舆情监控方法及系统 Download PDF

Info

Publication number
CN103139256B
CN103139256B CN201110390588.2A CN201110390588A CN103139256B CN 103139256 B CN103139256 B CN 103139256B CN 201110390588 A CN201110390588 A CN 201110390588A CN 103139256 B CN103139256 B CN 103139256B
Authority
CN
China
Prior art keywords
tenant
text
public sentiment
metadata
web data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110390588.2A
Other languages
English (en)
Other versions
CN103139256A (zh
Inventor
张丹
杨建武
梁汝峰
孙红娥
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201110390588.2A priority Critical patent/CN103139256B/zh
Publication of CN103139256A publication Critical patent/CN103139256A/zh
Application granted granted Critical
Publication of CN103139256B publication Critical patent/CN103139256B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多租户网络舆情监控方法及系统,属于网络舆情信息监控技术领域。本发明首先采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联;然后检索所述元数据和正文;最后分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。本发明统一实现了对数据的采集和存储,建立分布式全文检索系统支持海量数据的检索,灵活建立不同的租户,租户建立各自的业务规则,各租户之间业务规则不可见,根据配置的规则分析各租户所关心的舆情信息并进行有规则的存储,每个租户都可以高效快速的进行网络舆情监控。

Description

一种多租户网络舆情监控方法及系统
技术领域
本发明属于网络舆情信息监控技术领域,具体涉及一种多租户网络舆情监控方法及系统。
背景技术
随着国际互联网在全球的迅猛发展,人们能够方便的通过互联网传播和获取各种信息,然而互联网信息的内容庞杂多样,既有大量进步、有益的信息,也有不少谣言、反动的内容。网页内容里包含大量的舆情信息,如果仅以人工方式去甄别这些网页所含的信息并加以分析统计,需要消耗大量的人力和物力。
随着计算机信息智能处理技术的不断提升,目前关于网络舆情监控已可以通过搭建独立的应用系统对互联网信息进行采集、分析和应用,来实现对网络舆情的监测、分析和预警。但是以上做法存在如下缺点:
(1)搭建独立的系统需要耗费大量硬件服务器,大大提高建设成本,且无法快速搭建系统来满足灵活的扩展。
(2)数据监测范围有限,服务器都已满负荷运转,无法对更多网站进行监测。而所采集的网站大部分是相同的重点网站,对于相同的数据需要做多次的数据采集、存储和分析,严重浪费服务器资源。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种效率高的多租户网络舆情监控方法及系统。
为解决上述技术问题,本发明采用的技术方案如下:
一种多租户网络舆情监控方法,包括以下步骤:
(1)采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联;
(2)检索所述元数据和正文;
(3)分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。
一种多租户网络舆情监控系统,包括用于采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联的采集装置;
用于检索所述元数据和正文的检索装置;
用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户的分析装置。
本发明的效果在于:统一实现了对数据的采集和存储,建立分布式全文检索系统支持海量数据的检索,灵活建立不同的租户,租户建立各自的业务规则,各租户之间业务规则不可见,根据配置的规则分析各租户所关心的舆情信息并进行有规则的存储,每个租户都可以高效快速的进行网络舆情监控。
附图说明
图1是具体实施方式中多租户网络舆情监控系统的结构框图;
图2是具体实施方式中多租户网络舆情监控系统的总体架构示意图;
图3是具体实施方式中多租户网络舆情监控方法的流程图;
图4是具体实施方式中采集网页数据的方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明。
本实施方式中,通过搭建统一的云平台来实现互联网数据的采集、存储、检索和应用,建立不同的租户,各租户再根据自己的业务需要建立舆情监控规则,系统及时对各租户配置的规则进行处理,根据用户的舆情监控规则将有价值的舆情信息存储到各租户自己所对应的业务库中,租户登录系统后访问舆情信息,实现对网络舆情的监控。
如图1所示,本实施方式中多租户网络舆情监控系统包括采集装置1、检索装置2、分析装置3、建立装置4和配置装置5。采集装置1包括采集单元11、提取单元12、存储单元13和关联单元14。采集单元11包括任务生成器111、任务分发器112和若干采集服务器113。
采集单元11用于采集网页数据。其中,任务生成器111用于确定需要采集的网站列表并生成采集任务;任务分发器112用于检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务进行分发给压力最小的采集服务器;采集服务器113用于采集网页数据。提取单元12用于提取网页数据中的元数据和正文,存储单元13用于提取网页数据中的元数据和正文,关联单元14用于将存储后的元数据和正文相关联。
检索装置2用于检索元数据和正文。
分析装置3用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。
建立装置4用于为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表。
配置装置15用于配置租户信息、租户的舆情监控业务规则及特征词库。
如图2和图3所示,采用图1所示系统实现多租户网络舆情监控的方法,包括以下步骤:
(1)采集单元11采集网页数据,提取单元12和存储单元13提取并存储所述网页数据中的元数据和正文,关联单元14将存储后的所述元数据和所述正文相关联。
网页数据是指事先选择的用于舆情监控的网站所发布的数据。如图4所示,采集单元11采集网页数据的方法如下:
①任务生成器111确定需要采集的网站列表,并生成采集任务。
将需要采集的网站列表放入任务生成器111,任务生成器111生成采集任务。采集任务包括采集网站的名称、链接地址、任务的采集深度和扫描频率等信息。
②任务分发器112检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务进行分发给压力最小的采集服务器。
任务分发器112定期收集各采集服务器的性能指标,包括一段时间内的CPU、内存、磁盘的使用情况,判断各采集服务器的压力,将采集任务均衡地分配到压力较小的采集服务器上。
③采集服务器113采集网页数据。
采集服务器113处理接收到的采集任务,通过网络爬虫对网页中的网络信息进行采集。
提取单元12提取并存储网页数据中的各项元数据和正文。元数据包括了信息的标题、作者、发布时间、来源网站和转载来源等。存储单元13将元数据存储在数据库中,将正文以文件形式存储在分布式文件系统中,形成文本文件。关联单元14通过建立全文检索索引库对元数据及其所对应的正文建立索引,进行关联。通过该索引检索全文检索索引库,能够得到网页数据的元数据及其对应的正文全文。
(2)检索装置2检索所述元数据和正文。
检索装置2利用分布式全文检索技术通过全文检索索引库对存储的元数据及其所对应的正文的全文进行检索。
(3)分析装置3分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。
建立装置4为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表。舆情信息数据表包括关注规则表、话题追踪规则表、重点网站监看表等业务规则表,以及关注信息表、话题追踪表等分析数据存储表,每个租户拥有各自完整的一套数据表,互不干扰。舆情监控业务规则包括关注规则、话题追踪样例文本、重点监看网站逻辑表达式和用于做舆情数据分析的规则和训练集等。特征词库由词组成,可以配置任意的特征词,主要用于分析信息内容中是否包含用户所关心的特征词。在对网页数据进行存储时,通过租户的特征词库进行分析来自动过滤和用户相关的舆情信息。租户可以通过配置装置15配置租户信息、租户的舆情监控业务规则及特征词库。
分析装置3根据租户配置的舆情监控业务规则和租户的特征词库周期性分析网页数据中的舆情信息,得到租户所关心的舆情信息,并存储到每个租户相应的舆情信息数据表中。租户登录系统后可以访问已分析形成的舆情信息,并进行相关的分析、统计、研判。周期性分析网页数据时可以采用定时器服务来定时启动租户所需要运行的服务,可以根据需要设定运行的周期。
本实施方式所述系统及方法,可以通过搭建统一的云平台来实现网络数据的采集、存储、检索和应用,系统整体架构能充分利用云计算的特性,将软件系统和数据进行统一管理,节约资源,并且可充分调配空闲的资源来进行计算,提高系统的运算和负载能力。各租户之间的业务数据分库存储可实现租户的灵活扩充,不会导致因租户增加影响其他租户的性能和使用。当需要增加新的采集网站时,只需要将增加的新网站加入到采集网站列表,再放入到采集装置中。当需要增加租户时,只需要为新租户建立账号、租户舆情监控业务规则和特征词库等操作。如果采集数据量较大时只需要通过添加新的采集服务器并关联到任务分发器即可。如果租户较多时,可以增加应用服务器集群的节点数量,实现访问和后台分析负载均衡,提高数据监控的效率。
通过上述实施方式可见:本发明为各租户提供的网络舆情监控系统及方法,可以方便地建立舆情监控的租户账号,租户可以利用系统根据各自的业务需求进行网络舆情监控,降低了网络舆情监控系统建设的成本,且可以快速建立不同的租户账号。并且可以充分利用云平台的服务器资源扩充采集的网站,扩大网络舆情监控的范围。本发明同样适用于多机构的网络舆情监控系统,即每个机构下有多个舆情监测人员。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种多租户网络舆情监控方法,其特征在于,包括以下步骤:
(1)采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联;所述采集网页数据的方法如下:
①确定需要采集的网站列表,生成采集任务;
②检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务分发给压力最小的采集服务器;
③采集服务器采集网页数据;
(2)检索所述元数据和正文;
(3)为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表,各租户之间的舆情监控业务规则不可见,分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户,将符合租户舆情监控规则和特征词库的正文存储在该租户的舆情信息数据表中。
2.如权利要求1所述的多租户网络舆情监控方法,其特征在于:所述采集任务包括采集网站的名称、链接地址、任务的采集深度和扫描频率信息。
3.如权利要求1所述的多租户网络舆情监控方法,其特征在于:步骤(1)中所述元数据存储在数据库中,所述正文以文件形式存储在分布式文件系统中。
4.如权利要求1所述的多租户网络舆情监控方法,其特征在于:步骤(1)中通过建立全文检索索引库将所述元数据和与其对应的正文相关联。
5.如权利要求4所述的多租户网络舆情监控方法,其特征在于:步骤(2)中利用分布式全文检索技术通过所述全文检索索引库对所述元数据及其对应的正文的全文进行检索。
6.如权利要求1~5中任一项所述的多租户网络舆情监控方法,其特征在于:步骤(3)中,定时分析所述正文是否符合预先设置的租户舆情监控规则和特征词库。
7.一种多租户网络舆情监控系统,包括用于采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联的采集装置(11);所述采集装置(11)包括用于采集网页数据的采集单元(111);用于提取网页数据中的元数据和正文的提取单元(112);用于存储网页数据中的元数据和正文的存储单元(113);用于将存储后的元数据和正文相关联的关联单元(114);
所述采集单元(111)包括用于确定需要采集的网站列表并生成采集任务的任务生成器(1111);
用于检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务进行分发给压力最小的采集服务器的任务分发器(1112);
用于采集网页数据的采集服务器(1113);
用于检索所述元数据和正文的检索装置(12);
用于为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表的建立装置(14);
用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户,将符合租户舆情监控规则和特征词库的正文存储在该租户的舆情信息数据表中的分析装置(13)。
8.如权利要求7所述的多租户网络舆情监控系统,其特征在于:所述系统还包括用于配置租户信息、租户的舆情监控业务规则及特征词库的配置装置(15)。
CN201110390588.2A 2011-11-30 2011-11-30 一种多租户网络舆情监控方法及系统 Expired - Fee Related CN103139256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110390588.2A CN103139256B (zh) 2011-11-30 2011-11-30 一种多租户网络舆情监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110390588.2A CN103139256B (zh) 2011-11-30 2011-11-30 一种多租户网络舆情监控方法及系统

Publications (2)

Publication Number Publication Date
CN103139256A CN103139256A (zh) 2013-06-05
CN103139256B true CN103139256B (zh) 2016-05-04

Family

ID=48498557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110390588.2A Expired - Fee Related CN103139256B (zh) 2011-11-30 2011-11-30 一种多租户网络舆情监控方法及系统

Country Status (1)

Country Link
CN (1) CN103139256B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462096B (zh) * 2013-09-13 2017-11-14 北大方正集团有限公司 舆情监测分析方法和装置
CN104636386A (zh) * 2013-11-14 2015-05-20 华为技术有限公司 信息监控方法及装置
CN105447088B (zh) * 2015-11-06 2019-04-09 杭州掘数科技有限公司 一种基于志愿者计算的多租户专业云爬虫系统
CN107592208B (zh) * 2016-07-08 2022-07-29 中兴通讯股份有限公司 流量管理方法及装置
CN106330609A (zh) * 2016-08-29 2017-01-11 河源市新天彩科技有限公司 一种网络监控系统
CN108984667A (zh) * 2018-06-29 2018-12-11 郑州中博奥信息技术有限公司 一种舆情监测系统
CN109669946B (zh) * 2018-12-14 2021-11-16 中南设计集团(武汉)工程技术研究院有限公司 一种基于海量用户的复杂权限体系数据隔离系统及方法
CN110852090B (zh) * 2019-11-07 2024-03-19 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法
CN111428179B (zh) * 2020-03-19 2023-09-19 新方正控股发展有限责任公司 图片监测方法、装置及电子设备
CN111464390B (zh) * 2020-03-31 2022-06-10 中国建设银行股份有限公司 网络应用系统监控预警方法及系统
CN113435861A (zh) * 2021-07-15 2021-09-24 支付宝(杭州)信息技术有限公司 一种基于舆情数据的业务运维方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN101894166A (zh) * 2010-07-28 2010-11-24 郑茂 网络智能搜索引擎系统
CN101902497A (zh) * 2010-05-14 2010-12-01 翁时锋 基于云计算的互联网信息监测系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583482B2 (en) * 2008-06-23 2013-11-12 Double Verify Inc. Automated monitoring and verification of internet based advertising

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101902497A (zh) * 2010-05-14 2010-12-01 翁时锋 基于云计算的互联网信息监测系统及方法
CN101894166A (zh) * 2010-07-28 2010-11-24 郑茂 网络智能搜索引擎系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于搜索引擎的网络舆情监控系统设计与实现;叶昭晖等;《广西大学学报》;20111031;第36卷;全文 *

Also Published As

Publication number Publication date
CN103139256A (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN103139256B (zh) 一种多租户网络舆情监控方法及系统
CN102831220B (zh) 一种面向主题定制的新闻情报提取系统
US8782046B2 (en) System and methods for predicting future trends of term taxonomies usage
CN108776671A (zh) 一种网络舆情监控系统及方法
CN111461553A (zh) 景区舆情监测分析系统和方法
Yu et al. Ring: Real-time emerging anomaly monitoring system over text streams
CN105488092B (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN101751458A (zh) 一种网络舆情监控系统及方法
CN104951512A (zh) 一种基于互联网的舆情数据采集方法及系统
CN109582551A (zh) 日志数据解析方法、装置、计算机设备和存储介质
KR20160075971A (ko) 공공민원 데이터 서비스를 위한 빅 데이터 관리시스템
CN106709012A (zh) 一种大数据分析方法及装置
CN110007913A (zh) 可视化的数据处理流程设置方法、装置、设备及存储介质
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
CN103617169A (zh) 一种基于Hadoop的微博热点话题提取方法
CN104951539A (zh) 互联网数据中心有害信息监测系统
CN109543067A (zh) 基于人工智能的企业生产状况实时监控分析系统
CN105160038A (zh) 一种基于审计知识库的数据分析方法及系统
CN109460922A (zh) 一种具有电力行业特征的网络舆情分析与辅助决策系统
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN102915335A (zh) 基于用户操作记录和资源内容的信息关联方法
CN105718590A (zh) 面向多租户的SaaS舆情监控系统及方法
CN106534784A (zh) 一种用于视频分析数据结果集的采集分析存储统计系统
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
CN105653550B (zh) 网页过滤方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160504

CF01 Termination of patent right due to non-payment of annual fee