CN113094623A - 舆情云平台接入的舆情系统资源配置的优化方法及子系统 - Google Patents

舆情云平台接入的舆情系统资源配置的优化方法及子系统 Download PDF

Info

Publication number
CN113094623A
CN113094623A CN202110444567.8A CN202110444567A CN113094623A CN 113094623 A CN113094623 A CN 113094623A CN 202110444567 A CN202110444567 A CN 202110444567A CN 113094623 A CN113094623 A CN 113094623A
Authority
CN
China
Prior art keywords
public opinion
network
cloud platform
configuration
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110444567.8A
Other languages
English (en)
Other versions
CN113094623B (zh
Inventor
李芳芳
伍诗萌
张健
崔玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110444567.8A priority Critical patent/CN113094623B/zh
Publication of CN113094623A publication Critical patent/CN113094623A/zh
Application granted granted Critical
Publication of CN113094623B publication Critical patent/CN113094623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种舆情云平台接入的舆情系统资源配置的优化方法及子系统,方法包括舆情云平台对一段时间内各接入舆情系统相互转发的网络舆情数据进行分析,就各个接入舆情系统所配置的采集网站的范围进行协商协同,从而提高整体网络舆情数据采集效率;舆情云平台对各接入舆情系统的网络舆情数据分析模型的采用情况进行分析,从中筛选出低采用率的网络舆情数据分析模型并给相应舆情系统反馈,从而提高各个接入舆情公司的投入产出效率。

Description

舆情云平台接入的舆情系统资源配置的优化方法及子系统
技术领域
本发明涉及网络舆情信息或数据管理领域,具体涉及一种舆情云平台接入的舆情系统资源配置的优化方法及子系统。
背景技术
由于各个接入舆情云平台的舆情系统,是不同的舆情公司所运营,为了给原客户提供完整的网络舆情技术服务,势必在网络舆情数据采集方面和网络舆情数据分析模型研发方面存在大量冗余,并且从网络舆情服务行业整体上看存在大量技术资源的冗余投入,主要体现在两个方面:
一方面在网络舆情数据采集方面存在大量冗余,由于需要采集的目标互联网平台的设置上存在重复,特别是对主要互联网平台的采集上存在重复设置,大量的网站被重复采集,从整体上而言存在网络硬件和资源的重复投入。
另一方面在网络舆情数据分析模型研发投入上存在大量冗余,类似于信息聚类、正负面判断、传播路径等基础数据分析模块被各个舆情公司重复研发,存在研发资源的浪费。
所以,按照传统的网络舆情技术服务模式,是由各个舆情公司直接面向用户单位提供服务,不但每个舆情公司在市场营销方面的成本投入较大,而且从网络舆情服务市场的全局来看存在巨大的技术资源和研发投入的浪费。
发明内容
本发明的目的在于提供一种能降低各接入舆情系统技术资源和研发投入的方法及子系统。
本发明提供的这种舆情云平台接入的舆情系统资源配置的优化方法,包括:
舆情云平台对一段时间内各接入舆情系统相互转发的网络舆情数据进行分析,就各个接入舆情系统所配置的采集网站的范围进行协商协同,从而提高整体网络舆情数据采集效率;
舆情云平台对各接入舆情系统的网络舆情数据分析模型的采用情况进行分析,从中筛选出低采用率的网络舆情数据分析模型并给相应舆情系统反馈,从而提高各个接入舆情公司的投入产出效率。
通过对一段时间内各接入舆情系统的通过舆情云平台相互转发的网络舆情数据进行分析后,就各个接入舆情系统所配置的被采集网站的范围进行协商协同后减少冗余。
对各舆情系统采集网站的范围进行协商协同时:
将每个网站被配置为采集目标网站的舆情系统的个数取平均值为平均配置率,即:
平均配置率=被配置为采集目标网站的舆情系统的个数/被配置为采集目标网站之和
筛选配置率高于平均配置率2倍的网站为高配置率采集网站,
筛选配置率低于平均配置率1/2的网站为低配置率采集网站,
若高配置率采集网站的采集频率高于数据更新频率,向相关接入舆情系统的舆情公司推送减少配置的建议,
将低配置率的采集网站按类推送至相应接入舆情系统的舆情公司,建议将相应的低配置率网站增加为采集网站。
通过舆情云平台网络舆情数据分析模型统一运行环境归集各个接入舆情系统的网络舆情数据分析模型后,通过统计一段时间以内用户单位或各接入舆情系统对共享在舆情云平台上的网络舆情数据分析模型的采用率,筛选采用率低于平均采用率1/2的的网络舆情数据分析模型并反馈至相应的舆情系统。
本发明还提供了一种网络舆情云平台优化接入舆情系统配置的子系统,包括
网络舆情数据采集推荐模块,向各接入的舆情系统推送采集网站的配置优化建议;
网络舆情数据分析模型推荐模块,向各接入舆情系统推送网络舆情数据分析模型研发投入的优化建议。
本发明通过针对各接入舆情系统网络舆情数据采集策略推荐优化配置时,通过对一段时间内各接入舆情系统的通过舆情云平台相互转发的网络舆情数据进行分析,对各个接入舆情系统的数据采集策略提出优化配置建议,促进各个接入舆情系统在网站数据采集方面协同配合,从而即提高整体网络舆情数据采集效率。归集接入舆情云平台各舆情系统的网络舆情数据分析模型,从中筛选出低采用率的网络舆情数据分析模型并反馈給相关接入舆情系统,建议其调整相关模型的研发投入至舆情系统,从而减少舆情系统对应的主体舆情公司的各类投入。
附图说明
图1为本发明一个优选实施例中方法的流程图。
图2为本优选实施例中网络舆情数据共享交换机制框图。
具体实施方式
如图1所示,本实施例提供的这种舆情云平台接入的舆情系统资源配置的优化方法对接入舆情系统配置进行整体优化,从而提高各个接入舆情系统的投入产出效率。
在进行针对各接入舆情系统网络舆情数据采集策略推荐优化配置时,一方面通过对一段时间内各接入舆情系统的通过舆情云平台相互转发的网络舆情数据进行分析,对各个接入舆情系统的数据采集策略提出优化配置建议,促进各个接入舆情系统在网站数据采集方面协同配合,从而即提高整体网络舆情数据采集效率;另一方面归集接入舆情云平台各舆情系统的网络舆情数据分析模型,并从中筛选出一段时间内低采用率的网络舆情数据分析模型并反馈給相关接入舆情系统,建议其调整相关模型的研发投入。
对归集的网络舆情数据采集模型去冗过程中,采集网站的范围进行协商协同后减少冗余。协商协同时筛选配置率高于平均配置率2倍的网站为高配置率采集网站,筛选配置率低于平均配置率1/2的网站为低配置率采集网站,若高配置率采集网站的采集频率高于数据更新频率,则向相关接入舆情系统的舆情公司推送减少配置的建议,将低配置率的采集网站按类推送至相关接入舆情系统建议增加配置为采集网站。
其中,平均配置率=被配置为采集目标网站的舆情系统的个数/被配置为采集目标网站之和。
减少冗余过程中,舆情云平台从一段时间的有效舆情数据中可以分析出各个接入舆情系统所设置的采集网站的范围和采集频率。筛选出一些被大部分舆情系统设置为网络舆情数据采集范围的网站,从整体而言由于综合采集频率大大高于这些网站的数据更新频率,而各个接入舆情系统由于网络舆情数据交换共享机制,完全可以放弃设置部分从整体上而言采集频率过高的网站,而不用担心由于放弃采集而导致自身重要信息漏采的问题。与此同时,舆情云平台还可以分析出各个网站都相对较少配置的采集网站,并根据各个接入舆情系统现有的采集网站的配置情况,对这些较少被采集的网站进行划分,推荐相关接入舆情系统将这些配置成为被采集网站。由此通过推荐相关接入舆情系统减少和增加相关被采集的网站,从而做到从整体上优化所有接入舆情系统的整体采集效能,而不牺牲采集的范围和实效性。
网络舆情数据共享交换机制,主要包含舆情关键词标准、舆情数据格式标准、舆情数据交换标准等。同时,对舆情数据进行标准化约束后,进一步构建舆情核心数据库,从而为用户与用户、用户与平台之间舆情数据的共享和交换提供通道,如图2所示。
舆情关键词标准。由于各舆情厂商采集的关键词数据来源及类型较多,且会存在大量重复数据,因此本平台制定了相应的网络舆情关键词标准。如关键词“安化+(贪官|假冒伪劣|学术造假)”,即表示“安化贪官”,“安化假冒伪劣”,“安化学术造假”。通过这种方式能够把多个关键词连接成一个字符串,且能够直观地了解关键词之间的关系。各厂商首先需对各自的关键词数据进行去停用词和去除重复数据处理,再将关键词数据格式更改为满足平台标准要求后才可上传至平台,从而提高数据的质量及规范化水平。
舆情数据格式标准。针对各舆情厂商提供的舆情数据格式不统一问题,制定相应的格式标准来对网络舆情数据的格式进行约束,如表1所示。
Figure BDA0003036294580000041
Figure BDA0003036294580000051
表1网络舆情数据格式标准要求字段
在将舆情数据上传至平台前,各厂商应按照此标准调整舆情数据的格式,并将字段与舆情数据中相应的内容进行拼接,以JSON或XML的形式上传至平台。通过这种方式不仅能够方便平台对舆情数据进行存储和管理,也使得用户能够清晰直观地了解舆情数据的相关信息。
舆情数据交换标准。本标准中,在用户按照数据格式标准向平台提交数据后,平台将会根据用户所提供的数据计算关键词的相关度及相似性指标,根据相关度以及相似性指标对数据进行审核。审核通过后,平台会将分析结果和原数据一起存入数据库中。当用户需要利用平台获取舆情数据时,只需将关键词发送给平台,平台再将请求转发给其它舆情厂商。当其它舆情厂商上传相应的数据后,平台首先会对厂商上传的数据进行审核,审核通过后会将舆情厂商提供的数据、平台舆情核心数据库中相应的数据以及平台的数据分析结果一起返回给用户,最大化程度上满足用户的需求,同时也能够为用户进行数据筛选及分析工作提供便利。
对归集的网络舆情数据分析模型去冗过程中,收集用户单位或各接入舆情系统对共享在舆情云平台上的网络舆情数据分析模型的采用率率,筛选采用率低于平均采用率1/2的网络舆情数据分析模型并反馈至舆情系统。
网络舆情数据采集推荐模块,用于向各接入的舆情系统推送采集网站的配置优化建议;筛选出一些被大部分舆情系统设置为网络舆情数据采集范围的网站,以及各个舆情系统都相对较少配置的采集网站。由此通过推荐相关接入舆情系统减少和增加相关采集网站。
网络舆情数据分析模型推荐模块,用于向各接入舆情系统(舆情公司)推送网络舆情数据分析模型研发投入的优化建议。各个接入舆情系统(舆情公司)将各自研发的网络舆情数据分析模型提交到系统后。该模块对一段时间用户单位或其它接入舆情系统对各个接入舆情系统所提交的网络舆情数据分析模型的采用情况,从整体上分析分析模型的种类和数量上的重复情况。从中挑选出用户单位或其它接入舆情系统采用率较低的网络舆情数据分析模型,并建议提交这些模型的接入舆情系统(舆情公司)减少这些数据分析模型的研发投入。通过协调各个接入舆情系统减少重复投入,各自集中资源开展协同技术攻关,以优势互补的方式做到从整体上优化所有接入舆情系统的网络数据模型研发资源的投入效能,而不牺牲整体上网络舆情数据分析模型的多样性、先进性和用户单位满意度。

Claims (5)

1.一种舆情云平台接入的舆情系统资源配置的优化方法,其特征在于,该优化方法包括:
舆情云平台对一段时间内各接入舆情系统相互转发的网络舆情数据进行分析,就各个接入舆情系统所配置的采集网站的范围进行协商协同,从而提高整体网络舆情数据采集效率;
舆情云平台对各接入舆情系统的网络舆情数据分析模型的采用情况进行分析,从中筛选出低采用率的网络舆情数据分析模型并给相应舆情系统反馈,从而提高各个接入舆情公司的投入产出效率。
2.如权利要求1所述的舆情云平台接入的舆情系统资源配置的优化方法,其特征在于:通过对一段时间内各接入舆情系统的通过舆情云平台相互转发的网络舆情数据进行分析后,就各个接入舆情系统所配置的被采集网站的范围进行协商协同后减少冗余。
3.如权利要求2所述的舆情云平台接入的舆情系统资源配置的优化方法,其特征在于,对各舆情系统采集网站的范围进行协商协同时:
将每个网站被配置为采集目标网站的舆情系统的个数取平均值为平均配置率,即:
平均配置率=被配置为采集目标网站的舆情系统的个数/被配置为采集目标网站之和
筛选配置率高于平均配置率2倍的网站为高配置率采集网站,
筛选配置率低于平均配置率1/2的网站为低配置率采集网站,
若高配置率采集网站的采集频率高于数据更新频率,向相关接入舆情系统的舆情公司推送减少配置的建议,
将低配置率的采集网站按类推送至相应接入舆情系统的舆情公司,建议将相应的低配置率网站增加为采集网站。
4.如权利要求1所述的舆情云平台接入的舆情系统资源配置的优化方法,其特征在于:通过舆情云平台网络舆情数据分析模型统一运行环境归集各个接入舆情系统的网络舆情数据分析模型后,通过统计一段时间以内用户单位或各接入舆情系统对共享在舆情云平台上的网络舆情数据分析模型的采用率,筛选采用率低于平均采用率1/2的的网络舆情数据分析模型并反馈至相应的舆情系统。
5.一种舆情云平台接入的舆情系统资源配置的优化子系统,其特征在于:本系统包括
网络舆情数据采集推荐模块,向各接入的舆情系统推送采集网站的配置优化建议;
网络舆情数据分析模型推荐模块,向各接入舆情系统推送网络舆情数据分析模型研发投入的优化建议。
CN202110444567.8A 2021-04-23 2021-04-23 舆情云平台接入的舆情系统资源配置的优化方法及子系统 Active CN113094623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110444567.8A CN113094623B (zh) 2021-04-23 2021-04-23 舆情云平台接入的舆情系统资源配置的优化方法及子系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110444567.8A CN113094623B (zh) 2021-04-23 2021-04-23 舆情云平台接入的舆情系统资源配置的优化方法及子系统

Publications (2)

Publication Number Publication Date
CN113094623A true CN113094623A (zh) 2021-07-09
CN113094623B CN113094623B (zh) 2023-10-10

Family

ID=76679837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110444567.8A Active CN113094623B (zh) 2021-04-23 2021-04-23 舆情云平台接入的舆情系统资源配置的优化方法及子系统

Country Status (1)

Country Link
CN (1) CN113094623B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102149103A (zh) * 2011-04-11 2011-08-10 北京铭润创展科技有限公司 网络优化系统及方法
CN102970164A (zh) * 2012-11-20 2013-03-13 无锡成电科大科技发展有限公司 一种云平台管理监控系统及方法
CN103841216A (zh) * 2014-04-01 2014-06-04 深圳市科盾科技有限公司 一种基于云平台的网络舆情监控系统
WO2017177872A1 (zh) * 2016-04-11 2017-10-19 中兴通讯股份有限公司 数据的收集方法及装置、存储介质
WO2018184667A1 (en) * 2017-04-04 2018-10-11 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and method for performing network optimization
US20200302528A1 (en) * 2019-03-18 2020-09-24 Chicago Mercantile Exchange Inc. Range-limited data object linking and equivalence
CN111831952A (zh) * 2020-07-02 2020-10-27 武汉市林中路信息技术股份有限公司 一种智能网站系统
CN112116488A (zh) * 2020-04-28 2020-12-22 刘革瑞 一种水利大数据综合维护系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102149103A (zh) * 2011-04-11 2011-08-10 北京铭润创展科技有限公司 网络优化系统及方法
CN102970164A (zh) * 2012-11-20 2013-03-13 无锡成电科大科技发展有限公司 一种云平台管理监控系统及方法
CN103841216A (zh) * 2014-04-01 2014-06-04 深圳市科盾科技有限公司 一种基于云平台的网络舆情监控系统
WO2017177872A1 (zh) * 2016-04-11 2017-10-19 中兴通讯股份有限公司 数据的收集方法及装置、存储介质
WO2018184667A1 (en) * 2017-04-04 2018-10-11 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and method for performing network optimization
US20200302528A1 (en) * 2019-03-18 2020-09-24 Chicago Mercantile Exchange Inc. Range-limited data object linking and equivalence
CN112116488A (zh) * 2020-04-28 2020-12-22 刘革瑞 一种水利大数据综合维护系统
CN111831952A (zh) * 2020-07-02 2020-10-27 武汉市林中路信息技术股份有限公司 一种智能网站系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINGYU LI 等: "ATCS: Auto-Tuning Configurations of Big Data Frameworks Based on Generative Adversarial Nets", 《 IEEE ACCESS》, vol. 8, pages 50485 - 50496, XP011778949, DOI: 10.1109/ACCESS.2020.2979812 *
崔璨: "基于Hadoop的互联网舆情监测处理平台设计和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 10, pages 138 - 13 *

Also Published As

Publication number Publication date
CN113094623B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN109254982A (zh) 一种流数据处理方法、系统、装置及计算机可读存储介质
CN102591917B (zh) 一种数据处理方法、系统及相关装置
CN104969213B (zh) 用于低延迟数据存取的数据流分割
CN103209087B (zh) 分布式日志统计处理方法和系统
CN109033206B (zh) 一种规则匹配方法、云服务器及规则匹配系统
CN102622396A (zh) 一种基于标签的web服务聚类方法
CN106326321B (zh) 大数据交换方法及装置
CN102404126A (zh) 一种云计算在应用过程中的收费方法
AU2007277429A1 (en) Data processing over very large databases
CN109597899B (zh) 媒体个性化推荐系统的优化方法
CN104137506B (zh) 网络服务接口分析
CN113127520B (zh) 一种基于代理模式的分布式数据库sql审核拦截方法及装置
CN109344137A (zh) 一种日志存储方法及系统
CN116244367A (zh) 一种基于多模型的自定义算法的可视化大数据分析平台
CN105138686A (zh) 一种用于多级存储数据的即时应用方法
CN113094623B (zh) 舆情云平台接入的舆情系统资源配置的优化方法及子系统
Gu Integration and optimization of ancient literature information resources based on big data technology
CN103399963A (zh) 基于Hive的优化器优化方法
CN116089431A (zh) 数据仓库的数据处理方法、装置、电子设备和存储介质
CN109684279A (zh) 一种数据处理方法及系统
CN102073722A (zh) Url云发布系统
CN1588405A (zh) 用于风险控制系统的数据处理装置及方法
US20110258187A1 (en) Relevance-Based Open Source Intelligence (OSINT) Collection
CN108959952A (zh) 数据平台权限控制方法、装置和设备
CN115689463A (zh) 一种稀土行业的企业台账数据库管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant