CN112817921B - 一种基于数据中心的云资源采集管理系统 - Google Patents

一种基于数据中心的云资源采集管理系统 Download PDF

Info

Publication number
CN112817921B
CN112817921B CN202110423188.0A CN202110423188A CN112817921B CN 112817921 B CN112817921 B CN 112817921B CN 202110423188 A CN202110423188 A CN 202110423188A CN 112817921 B CN112817921 B CN 112817921B
Authority
CN
China
Prior art keywords
data
central processing
processing module
data file
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110423188.0A
Other languages
English (en)
Other versions
CN112817921A (zh
Inventor
李鲲
李永海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taide Wangju Beijing Technology Co ltd
Original Assignee
Taide Wangju Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taide Wangju Beijing Technology Co ltd filed Critical Taide Wangju Beijing Technology Co ltd
Priority to CN202110423188.0A priority Critical patent/CN112817921B/zh
Publication of CN112817921A publication Critical patent/CN112817921A/zh
Application granted granted Critical
Publication of CN112817921B publication Critical patent/CN112817921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于数据中心的云资源采集管理系统,包括,数据采集模块,用于对云资源数据文件进行采集,预处理模块,用于对所述数据采集模块采集的数据文件进行预处理,数据储存模块,用于储存所述预处理模块处理后的数据文件,结果显示模块,用于对查看的数据文件进行显示,中央处理模块,与所述数据采集模块、所述预处理模块、所述数据储存模块和所述结果显示模块相连接;所述预处理模块包括文本数据处理单元,图片数据处理单元,视频数据处理单元。本发明通过设置中央处理模块判断保留或舍弃待分析数据文件,获取待分析数据文件关键词频率及待显示数据文件热度指数进而根据显示简报种类数对待显示数据文件进行显示。

Description

一种基于数据中心的云资源采集管理系统
技术领域
本发明涉及云资源采集管理领域,尤其涉及一种基于数据中心的云资源采集管理系统。
背景技术
随着大数据时代的来临,网页信息爆炸式地增长,个人或者企业网络数据采集需求越来越高,云数据采集系统采用一种网络爬虫技术和SaaS服务结合的云平台新服务模式,提供低成本的,可定制和高效的数据采集服务,在云平台中需要对基础资源数据、状态进行实时采集分析。媒体资源管理平台是基于数字信息的采集、加工、存储、发布和管理技术、面向媒体企业实现跨媒体出版和媒体数字资产再利用的计算机应用技术。其中,媒体资产可以包括视音视频、还有文字、图片、其它结构化与非结构化的数字信息。媒体资源管理平台从数字资产的采集与多媒体编辑加工、基于XML的存储管理,以及跨媒体出版(包括Internet和宽带、移动设备发布)、可以构建一整套的管理流程。通过媒体资源管理平台的内容库结合本平台应用按照内容的属性及节目资源特征的分类需求构建内容资产库,逐步形成核心的内容资产。
现有技术的云数据中心操作系统构建的云平台,尽管支持大量用户、大量数据多种应用场景,然而不能实现对大量基础资源进行有效管理,不能实现对大量重复数据进行取舍,使得云平台容量因保存过多相似数据文件而浪费储存空间,更具体的,在媒体资源的采集和利用上,现有的媒体资源利用互联网信息采集技术、信息智能信息处理技术和全文检索技术,对境内外网络中的新闻网页、论坛、贴吧、博客、新闻评论等网络资源进行全网采集、定向采集和智能分析,大多采用发布时间或相关性排序的方式对数据进行整理,无法根据关键词在一段时间的热度准确的获取数据简报内容。
发明内容
为此,本发明提供一种基于数据中心的云资源采集管理系统,可以解决无法根据关键词热度权重获取数据文件简报的技术问题。
为实现上述目的,本发明提供一种基于数据中心的云资源采集管理系统,包括:
数据采集模块,用于对云资源媒体数据文件进行采集,并将采集的数据文件传送至数据储存模块;
所述数据储存模块,用于储存所述预处理模块处理后的数据文件;
中央处理模块,与所述数据储存模块相连接,所述中央处理模块在接收到所述数据储存模块储存的数据文件时,所述中央处理模块根据数据文件重合度及所述数据文件的流量,判定保留或舍弃所述数据文件;当所述中央处理模块获取待查看关键词时,中央处理模块根据待查看关键词在待显示数据文件的频率,对待显示数据文件进行显示顺序排序,通过待查看关键词在预设时间内的热度权重参数获取待显示数据文件简报种类,所述中央处理模块根据获取的待显示数据文件热度指数与预设值相比较,对待显示数据文件简报种类数进行调节,以使通过待查看关键词的热度权重准确获取数据文件简报。
进一步地,所述中央处理模块获取待分析数据文件数据重合度p,其中,
当p≤P1,所述中央处理模块保留待分析数据文件;
当P1<p≤P2,所述中央处理模块对待分析数据文件进行第二次分析;
当p>P2,所述中央处理模块舍弃待分析数据文件;
其中,所述中央处理模块预设数据重合度参数P,设定第一预设数据重合度参数P1、第二预设数据重合度参数P2。
进一步地,所述中央处理模块判定对待分析数据文件进行第二次分析时,所述中央处理模块获取待分析数据流量q与所述标准数据文件数据流量Q,根据待分析数据流量q与标准数据文件数据流量Q的大小,对待分析数据文件进行处理,其中,
当q≥Q×Qji,所述中央处理模块保留待分析数据文件;
当q<Q×Qji,所述中央处理模块舍弃待分析数据文件;
其中,Qji为流量调节系数,i=1,2。
进一步地,所述中央处理模块预设数据标准重合度P0,所述中央处理模块获取待分析数据文件与所述标准文件数据重合度p,当待分析数据文件与所述标准文件数据重合度p大于等于预设数据标准重合度P0,所述中央处理模块获取流量调节系数Qj1,设定Qj1=Qj0×(1-(p-P0)/P0),当待分析数据文件与所述标准文件数据重合度p小于预设数据标准重合度P0,所述中央处理模块获取流量调节系数Qj2,设定Qj2=Qj0×(1+(P0-p)/P0),其中,Qj0为流量调节系数标准值。
进一步地,所述中央处理模块预设时间T,所述第i关键词Di的热度权重参数ai,设定ai=Ei/F,其中,Ei为预设时间T内,所述数据储存模块储存的数据文件中,第i关键词Di出现的数据文件数目,F为预设时间T内所述数据储存模块储存的总数据文件数目,其中,i=1,2,至n。
进一步地,所述中央处理模块获取待查看关键词出现的数据文件,中央处理模块获取第一显示顺序数据文件R1中待查看关键词频率L1,第二显示顺序数据文件R2中待查看关键词频率L2以及第m显示顺序数据文件Rm中待查看关键词频率Lm,其中,L1>L2>Lm,所述中央处理模块获取待查看关键词热度权重参数a,根据中央处理模块获取待查看关键词热度权重参数a与预设的热度权重参数相比较,获取显示简报种类数,其中,
当a≤K1,所述中央处理模块选取第一预设显示简报种类数H1为简报种类数参数;
当K1<a≤K2,所述中央处理模块选取第二预设显示简报种类数H2为简报种类数参数;
当K2<a≤K3,所述中央处理模块选取第三预设显示简报种类数H3为简报种类数参数;
当a>K3,所述中央处理模块选取第四预设显示简报种类数H4为简报种类数参数;
其中,所述中央处理模块预设显示简报种类数H,其中,第一预设显示简报种类数H1、第二预设显示简报种类数H2、第三预设显示简报种类数H3、第四预设显示简报种类数H4,所述中央处理模块预设热度权重参数K,设定第一预设热度权重参数K1、第二预设热度权重参数K2、第三预设热度权重参数K3。
进一步地,所述中央处理模块预设数据热度标准指数Y0,所述中央处理模块获取第i显示顺序数据文件数据热度指数Yi’,所述中央处理模块根据第i显示顺序数据文件数据热度指数Yi’与预设数据热度标准指数值相比较,对显示的简报种类数进行增加减少的调节,其中,i=1,2至m,其中,
当Yi’≥Y0,所述中央处理模块增加选取的显示简报种类数Hi至Hi1,设定Hi1=Hi×(1+(Y’-Y0)/Y0),若Hi1不是整数,所述中央处理模块对显示简报种类数向上取整;
当Yi’<Y0,所述中央处理模块减少选取的显示简报种类数Hi至Hi2,设定Hi2=Hi×(1-(Y0-Y’)/Y0),若Hi2不是整数,所述中央处理模块对显示简报种类数向下取整。
进一步地,所述中央处理模块对所述待显示数据文件进行文本化处理,将处理后的待显示数据文本进行分词处理,所述中央处理模块获取所述待显示数据文件若干关键词Di以及所述关键词在所述待显示数据文件出现的次数li,所述关键词Di频率Li,设定Li=li/W,其中,W为待显示数据文件中全部关键词出现的总次数。
进一步地,所述中央处理模块获取所述待显示数据文件第一关键词D1频率L1、第二关键词D2频率L2及第n关键词Dn频率Ln,其中,L1>L2>Ln,所述中央处理模块获取在与预设时间T内,所述保留的数据文件的数据热度指数Y,设定Y=L1×a1×TJm+L2×a2×TJm+···+Ln×an×TJm,其中,a1为第一关键词D1热度权重参数、a2为第二关键词D2热度权重参数以及an为第n关键词Dn热度权重参数,其中m=1,2。
进一步地,所述中央处理模块设置热度权重参数调节参数TJ,第一预设热度权重参数调节参数TJ1、第二预设热度权重参数调节参数TJ2,所述中央处理模块设置正面关键词集合B1,负面关键词集合B2,当所述第i关键词Di属于证明关键词集合B1,所述中央处理模块选取第一预设热度权重参数调节参数TJ1为热度权重参数调节参数;当所述第i关键词Di属于证明关键词集合B2,所述中央处理模块选取第二预设热度权重参数调节参数TJ2为热度权重参数调节参数。
与现有技术相比,本发明的有益效果在于,本发明设置中央处理模块,根据待分析数据文件与标准数据文件的数据重合度与预设值相比较,保留或舍弃待分析数据文件,所述中央处理模块对保留的数据进行文本化处理,获取待分析数据文件关键词及关键词频率,根据关键词频率获取待分析数据文件热度指数;所述中央处理模块根据获取的待查看关键词,及待查看关键词的权重,获取显示简报种类数。
尤其,本发明设置中央处理模块,通过中央处理模块获取待分析数据文件与标准数据文件的数据重合度,舍弃数据重合度较高的数据文件,保留数据重合度较低的数据文件,以准确的判断待分析数据文件是否应保留,同时本发明设置数据文件文本化处理方法,将文本、图像和视频数据文件转化为文本数据文件,以便获取数据文件的关键词,并设置关键词频率获取方式,结合各关键词的权重参数,计算待分析数据文件热度指数,以便准确的获取显示简报种类数,使得对数据文件简报的显示内容展示的更明确。
尤其,本发明通过设置中央处理模块根据待分析数据文件的类型选取对应的数据重合度获取方式,并根据待分析数据文件与标准数据文件的数据重合度与预设标准相比较,若该数据重合度小于预设最小值时,说明待分析数据文件与标准数据文件并不相同,应保留该数据文件,若该数据重合度大于预设最大值时,说明待分析数据文件与标准数据文件几乎相同,应舍弃该数据文件,若该数据重合度在预设最小值和最大值之间时,所述中央处理模块根据待分析数据文件的流量大小与标准数据文件的流量大小相比较,进一步判断保留或舍弃带分析数据。
尤其,本发明通过设置流量调节系数,对标准数据文件的流量进行调节,其中,流量调节参数的获取通过待分析数据文件与标准文件数据的数据重合度与预设值动态获取流量调节参数,以使对待分析数据文件的留取判断更为准确。
尤其,本发明通过对待分析数据文件进行文本化处理,分词后获取多个关键词,并通过设定多个关键词出现在待分析数据文件中的次数的公式计算各关键词频率,同时,本发明根据各关键词频率的数值大小对各关键词进行排序,根据各关键词的权重与该关键词的频率获取待分析数据文件的数据热度指数,所述数据热度指数用于评价待分析数据文件在预设时间的热度。
尤其,本发明通过设置中央处理模块获取预设时间储存的数据文件,根据关键词出现在预设时间T内储存的全部数据文件中的数据文件数目与预设时间T内储存的全部数据文件的比值,获取该关键词的权重,同时本发明预设四个显示简报种类数标准参数,根据关键词权重与预设值相比较,获取显示简报种类数。
尤其,本发明将待查看关键词出现的数据文件根据其关键词的频率由大到小进行排序,获取第一数据文件、第二数据文件及第m数据文件,根据各数据文件的实时热度指数与预设值相比,对中央处理模块获取的简报种类数进行调节,若该数据文件的实时热度指数大于等于预设标准值时,所述中央处理模块增加简报种类数,并向上取整,获取整数的简报种类数,若该数据文件的实时热度指数小于预设标准值时,所述中央处理模块减少简报种类数,并向下取整,获取整数的简报种类数。
附图说明
图1为发明实施例一种基于数据中心的云资源采集管理系统示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,一种基于数据中心的云资源采集管理系统,包括,数据采集模块,用于对云资源媒体数据文件进行采集,并将采集的数据文件传送至数据储存模块;
所述数据储存模块,用于储存所述预处理模块处理后的数据文件;
中央处理模块,与所述数据储存模块相连接,所述中央处理模块在接收到所述数据储存模块储存的数据文件时,所述中央处理模块根据数据文件重合度及所述数据文件的流量,判定保留或舍弃所述数据文件;当所述中央处理模块获取待查看关键词时,中央处理模块根据待查看关键词在待显示数据文件的频率,对待显示数据文件进行显示顺序排序,通过待查看关键词在预设时间内的热度权重参数获取待显示数据文件简报种类,所述中央处理模块根据获取的待显示数据文件热度指数与预设值相比较,对待显示数据文件简报种类数进行调节,以使通过待查看关键词的热度权重准确获取数据文件简报。
具体而言,本发明设置中央处理模块,通过中央处理模块获取待分析数据文件与标准数据文件的数据重合度,舍弃数据重合度较高的数据文件,保留数据重合度较低的数据文件,以准确的判断待分析数据文件是否应保留,同时本发明设置数据文件文本化处理模块,将文本、图像和视频数据文件转化为文本数据文件,以便获取数据文件的关键词,并设置关键词频率获取方式,结合各关键词的权重参数,计算待分析数据文件热度指数,以便准确的获取显示简报种类数,使得对数据文件简报的显示内容展示的更明确。
具体而言,本发明实施例中简报种类可以包括文件标题、文件来源,文件关键词、文件作者、文件发布日期、文件摘要、文件简要内容等,本发明实施例可以将简报种类按要求或按重要性进行排序,并根据排序获取现实的种类数的排序,例如简报种类排序为文件标题、文件来源、文件发布日期,文件作者、文件关键词、文件摘要、文件简要内容,若所述中央处理模块选取简报种类数为5,则结果显示模块显示简报种类为文件标题、文件来源、文件发布日期,文件作者、文件关键词。
具体而言,所述预处理模块包括文本数据处理单元、图片数据处理单元和视频数据处理单元,其中,所述文本数据处理单元用于对所述采集数据模块采集的文本数据文件进行处理,所述文本数据处理单元通过提取待分析文本数据文件若干段文本内容,依次与所述数据储存模块内数据相比较,获取与待分析文本数据文件重合度最高的数据文件,设为标准数据文件,以及待分析文本数据文件与所述标准数据文件的数据重合度;所述图像数据处理单元,用于对所述采集数据模块采集的图像数据文件进行处理,所述图像数据处理单元通过获取待分析图像数据文件灰度直方图依次与所述数据储存模块内数据相比较,获取与待分析图像数据文件重合度最高的数据文件,设为标准数据文件,以及待分析图像数据文件与所述标准数据文件的数据重合度;所述视频数据处理单元,用于对所述采集数据模块采集的视频数据文件进行处理,所述视频数据处理单元通过将待分析视频数据文件截取为若干图片数据,建立图像模型数据,所述视频数据处理单元将待分析视频数据文件的图像模型数据与所述数据储存模块内数据相比较,获取与待分析视频重合度最高的数据文件,设为标准数据文件,以及待分析视频与所述标准数据文件的数据重合度;
具体而言,所述文本化处理包括,通过所述图像处理模块对待分析图像数据文件进行图像内容识别,获取待分析图像数据文件的文本数据,通过所述视频处理模块将待分析视频数据文件中的语音转化为文本数据文件。
具体而言,本发明实施例图像处理模块设置图像内容识别方法,获取图像内容,所述图像内容识别方法可采用AI技术,人脸识别技术或图像匹配技术,图像处理模块基于云资源识别图像内容,获取图像内容关键词,例如,可获取图像数据文件中的自然风景、文物古迹或人物等,将其转化为文本数据。所述视频处理模块获取视频数据文件的语音并将其转化为文本数据,本发明实施例对图像处理模块和视频处理模块文本化处理方法不做限定,只要能够满足对图像数据文件和视频数据文件转化为文本即可。
所述中央处理模块预设数据类型A,其中,文本数据类型A1、图片数据类型A2、视频数据类型A3,所述中央处理模块预设数据重合度获取方法B,其中,文本数据重合度获取方法B1、图片数据重合度获取方法B2、视频数据重合度获取方式B3,所述中央处理模块通过所述预处理模块获取数据类型Ai,中央处理模块选取Bi为数据重合度获取方法,中央处理模块预设数据重合度参数P,其中,第一预设数据重合度参数P1、第二预设数据重合度参数P2,中央处理模块获取待分析数据文件数据重合度p,其中,
当p≤P1,所述中央处理模块保留待分析数据文件;
当P1<p≤P2,所述中央处理模块对待分析数据文件进行第二次分析;
当p>P2,所述中央处理模块舍弃待分析数据文件。
具体而言,本发明通过设置中央处理模块根据待分析数据文件的类型选取对应的数据重合度获取方式,并根据待分析数据文件与标准数据文件的数据重合度与预设标准相比较,若该数据重合度小于预设最小值时,说明待分析数据文件与标准数据文件并不相同,应保留该数据文件,若该数据重合度大于预设最大值时,说明待分析数据文件与标准数据文件几乎相同,应舍弃该数据文件,若该数据重合度在预设最小值和最大值之间时,所述中央处理模块根据待分析数据文件的流量大小与标准数据文件的流量大小相比较,进一步判断保留或舍弃带分析数据。
所述中央处理模块判定对待分析数据文件进行第二次分析时,所述中央处理模块获取待分析数据流量q与所述标准数据文件数据流量Q,根据待分析数据流量q与标准数据文件数据流量Q的大小,对待分析数据文件进行处理,其中,
当q≥Q×Qji,所述中央处理模块保留待分析数据文件;
当q<Q×Qji,所述中央处理模块舍弃待分析数据文件;
其中,Qji为流量调节系数,i=1,2。
具体而言,本发明通过设置流量调节系数,对标准数据文件的流量进行调节,其中,流量调节参数的获取通过待分析数据文件与标准文件数据的数据重合度与预设值动态获取流量调节参数,以使对待分析数据文件的留取判断更为准确。
所述中央处理模块预设数据标准重合度P0,所述中央处理模块获取待分析数据文件与所述标准文件数据重合度p,当待分析数据文件与所述标准文件数据重合度p大于等于预设数据标准重合度P0,所述中央处理模块获取流量调节系数Qj1,设定Qj1=Qj0×(1-(p-P0)/P0),当待分析数据文件与所述标准文件数据重合度p小于预设数据标准重合度P0,所述中央处理模块获取流量调节系数Qj2,设定Qj2=Qj0×(1+(P0-p)/P0),其中,Qj0为流量调节系数标准值。
所述中央处理模块预设时间T,所述第i关键词Di的热度权重参数ai,设定ai=Ei/F,其中,Ei为预设时间T内,所述数据储存模块储存的数据文件中,第i关键词Di出现的数据文件数目,F为预设时间T内所述数据储存模块储存的总数据文件数目,其中,i=1,2,至n。
具体而言,本发明实施例不对预设时间T作限定,预设时间T可以根据对热度的评价要求设定,可以3天、5天或1月,只要其能够满足获取在该时间内所述数据储存模块关键词的热度权重参数即可。
所述中央处理模块获取待查看关键词出现的数据文件,中央处理模块获取第一显示顺序数据文件R1中待查看关键词频率L1,第二显示顺序数据文件R2中待查看关键词频率L2以及第m显示顺序数据文件Rm中待查看关键词频率Lm,其中,L1>L2>Lm,所述中央处理模块获取待查看关键词热度权重参数a,根据中央处理模块获取待查看关键词热度权重参数a与预设的热度权重参数相比较,获取显示简报种类数,其中,
当a≤K1,所述中央处理模块选取第一预设显示简报种类数H1为简报种类数参数;
当K1<a≤K2,所述中央处理模块选取第二预设显示简报种类数H2为简报种类数参数;
当K2<a≤K3,所述中央处理模块选取第三预设显示简报种类数H3为简报种类数参数;
当a>K3,所述中央处理模块选取第四预设显示简报种类数H4为简报种类数参数;
其中,所述中央处理模块预设显示简报种类数H,其中,第一预设显示简报种类数H1、第二预设显示简报种类数H2、第三预设显示简报种类数H3、第四预设显示简报种类数H4,所述中央处理模块预设热度权重参数K,设定第一预设热度权重参数K1、第二预设热度权重参数K2、第三预设热度权重参数K3。
具体而言,本发明通过设置中央处理模块获取预设时间储存的数据文件,根据关键词出现在预设时间T内储存的全部数据文件中的数据文件数目与预设时间T内储存的全部数据文件的比值,获取该关键词的权重,同时本发明预设四个显示简报种类数标准参数,根据关键词权重与预设值相比较,获取显示简报种类数。
所述中央处理模块预设数据热度标准指数Y0,所述中央处理模块获取第i显示顺序数据文件数据热度指数Yi’,所述中央处理模块根据第i显示顺序数据文件数据热度指数Yi’与预设数据热度标准指数值相比较,对显示的简报种类数进行增加减少的调节,其中,i=1,2至m,其中,
当Yi’≥Y0,所述中央处理模块增加选取的显示简报种类数Hi至Hi1,设定Hi1=Hi×(1+(Y’-Y0)/Y0),若Hi1不是整数,所述中央处理模块对显示简报种类数向上取整;
当Yi’<Y0,所述中央处理模块减少选取的显示简报种类数Hi至Hi2,设定Hi2=Hi×(1-(Y0-Y’)/Y0),若Hi2不是整数,所述中央处理模块对显示简报种类数向下取整。
具体而言,本发明将待查看关键词出现的数据文件根据其关键词的频率由大到小进行排序,获取第一数据文件、第二数据文件及第m数据文件,根据各数据文件的实时热度指数与预设值相比,对中央处理模块获取的简报种类数进行调节,若该数据文件的实时热度指数大于等于预设标准值时,所述中央处理模块增加简报种类数,并向上取整,获取整数的简报种类数,若该数据文件的实时热度指数小于预设标准值时,所述中央处理模块减少简报种类数,并向下取整,获取整数的简报种类数。
具体而言,本发明实施例中向上取整意为当所述中央处理模块获取调节后的显示简报种类数为小数时,取整数为显示简报种类数,例如,当显示简报种类数为1.2时,向上取整为2,若显示简报种类数为2.9时,向上取整为3。本发明实施例中向下取整意为当所述中央处理模块获取调节后的显示简报种类数为小数时,取整数为显示简报种类数,例如,当显示简报种类数为1.2时,向下取整为1,若显示简报种类数为2.9时,向下取整为2。
所述中央处理模块对所述待显示数据文件进行文本化处理,将处理后的待显示数据文本进行分词处理,所述中央处理模块获取所述待显示数据文件若干关键词Di以及所述关键词在所述待显示数据文件出现的次数li,所述关键词Di频率Li,设定Li=li/W,其中,W为待显示数据文件中全部关键词出现的总次数。
具体而言,本发明通过对待分析数据文件进行文本化处理,分词后获取多个关键词,并通过设定多个关键词出现在待分析数据文件中的次数的公式计算各关键词频率,同时,本发明根据各关键词频率的数值大小对各关键词进行排序,根据各关键词的权重与该关键词的频率获取待分析数据文件的数据热度指数,所述数据热度指数用于评价待分析数据文件在预设时间的热度。
所述中央处理模块获取所述待显示数据文件第一关键词D1频率L1、第二关键词D2频率L2及第n关键词Dn频率Ln,其中,L1>L2>Ln,所述中央处理模块获取在与预设时间T内,所述保留的数据文件的数据热度指数Y,设定Y=L1×a1×TJm+L2×a2×TJm+···+Ln×an×TJm,其中,a1为第一关键词D1热度权重参数、a2为第二关键词D2热度权重参数以及an为第n关键词Dn热度权重参数,其中m=1,2。
所述中央处理模块设置热度权重参数调节参数TJ,第一预设热度权重参数调节参数TJ1、第二预设热度权重参数调节参数TJ2,所述中央处理模块设置正面关键词集合B1,负面关键词集合B2,当所述第i关键词Di属于证明关键词集合B1,所述中央处理模块选取第一预设热度权重参数调节参数TJ1为热度权重参数调节参数;当所述第i关键词Di属于证明关键词集合B2,所述中央处理模块选取第二预设热度权重参数调节参数TJ2为热度权重参数调节参数。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (5)

1.一种基于数据中心的云资源采集管理系统,其特征在于,包括:
数据采集模块,用于对云资源媒体数据文件进行采集,并将采集的数据文件传送至数据储存模块;
所述数据储存模块,用于储存预处理模块处理后的数据文件;
中央处理模块,与所述数据储存模块相连接,所述中央处理模块在接收到所述数据储存模块储存的数据文件时,所述中央处理模块根据数据文件重合度及所述数据文件的流量,判定保留或舍弃所述数据文件;当所述中央处理模块获取待查看关键词时,中央处理模块根据待查看关键词在待显示数据文件的频率,对待显示数据文件进行显示顺序排序,通过待查看关键词在预设时间内的热度权重参数获取待显示数据文件简报种类,所述中央处理模块根据获取的待显示数据文件热度指数与预设值相比较,对待显示数据文件简报种类数进行调节,以使通过待查看关键词的热度权重准确获取数据文件简报;
所述中央处理模块预设时间T,第i关键词Di的热度权重参数ai,设定ai=Ei/F,其中,Ei为预设时间T内,所述数据储存模块储存的数据文件中,第i关键词Di出现的数据文件数目,F为预设时间T内所述数据储存模块储存的总数据文件数目,其中,i=1,2,至n;
所述中央处理模块获取待查看关键词出现的数据文件,中央处理模块获取第一显示顺序数据文件R1中待查看关键词频率L1,第二显示顺序数据文件R2中待查看关键词频率L2以及第m显示顺序数据文件Rm中待查看关键词频率Lm,其中,L1>L2>Lm,所述中央处理模块获取待查看关键词热度权重参数a,根据中央处理模块获取待查看关键词热度权重参数a与预设的热度权重参数相比较,获取显示简报种类数,其中,
当a≤K1,所述中央处理模块选取第一预设显示简报种类数H1为简报种类数参数;
当K1<a≤K2,所述中央处理模块选取第二预设显示简报种类数H2为简报种类数参数;
当K2<a≤K3,所述中央处理模块选取第三预设显示简报种类数H3为简报种类数参数;
当a>K3,所述中央处理模块选取第四预设显示简报种类数H4为简报种类数参数;
其中,所述中央处理模块预设显示简报种类数H,其中,第一预设显示简报种类数H1、第二预设显示简报种类数H2、第三预设显示简报种类数H3、第四预设显示简报种类数H4,所述中央处理模块预设热度权重参数K,设定第一预设热度权重参数K1、第二预设热度权重参数K2、第三预设热度权重参数K3;
所述中央处理模块预设数据热度标准指数Y0,所述中央处理模块获取第i显示顺序数据文件数据热度指数Yi’,所述中央处理模块根据第i显示顺序数据文件数据热度指数Yi’与预设数据热度标准指数值相比较,对显示的简报种类数进行增加减少的调节,其中,i=1,2至m,其中,
当Yi’≥Y0,所述中央处理模块增加选取的显示简报种类数Hi至Hi1,设定Hi1=Hi×(1+(Y’-Y0)/Y0),若Hi1不是整数,所述中央处理模块对显示简报种类数向上取整;
当Yi’<Y0,所述中央处理模块减少选取的显示简报种类数Hi至Hi2,设定Hi2=Hi×(1-(Y0-Y’)/Y0),若Hi2不是整数,所述中央处理模块对显示简报种类数向下取整;
所述中央处理模块对所述待显示数据文件进行文本化处理,将处理后的待显示数据文本进行分词处理,所述中央处理模块获取所述待显示数据文件第i关键词Di以及所述关键词在所述待显示数据文件出现的次数li,所述第i关键词Di频率Li,设定Li=li/W,其中,W为待显示数据文件中全部关键词出现的总次数;
所述中央处理模块获取所述待显示数据文件第一关键词D1频率L1、第二关键词D2频率L2及第n关键词Dn频率Ln,其中,L1>L2>Ln,所述中央处理模块获取在与预设时间T内,所述保留的数据文件的数据热度指数Y,设定Y=L1×a1×TJm+L2×a2×TJm+···+Ln×an×TJm,其中,a1为第一关键词D1热度权重参数、a2为第二关键词D2热度权重参数以及an为第n关键词Dn热度权重参数,所述TJm为第m预设热度权重参数调节参数,其中m=1,2。
2.根据权利要求1所述的基于数据中心的云资源采集管理系统,其特征在于,所述中央处理模块获取待分析数据文件数据重合度p,其中,
当p≤P1,所述中央处理模块保留待分析数据文件;
当P1<p≤P2,所述中央处理模块对待分析数据文件进行第二次分析;
当p>P2,所述中央处理模块舍弃待分析数据文件;
其中,所述中央处理模块预设数据重合度参数P,设定第一预设数据重合度参数P1、第二预设数据重合度参数P2。
3.根据权利要求2所述的基于数据中心的云资源采集管理系统,其特征在于,所述中央处理模块判定对待分析数据文件进行第二次分析时,所述中央处理模块获取待分析数据流量q与所述标准数据文件数据流量Q,根据待分析数据流量q与标准数据文件数据流量Q的大小,对待分析数据文件进行处理,其中,
当q≥Q×Qji,所述中央处理模块保留待分析数据文件;
当q<Q×Qji,所述中央处理模块舍弃待分析数据文件;
其中,Qji为流量调节系数,i=1,2。
4.根据权利要求3所述的基于数据中心的云资源采集管理系统,其特征在于,所述中央处理模块预设数据标准重合度P0,所述中央处理模块获取待分析数据文件数据重合度p,当待分析数据文件数据重合度p大于等于预设数据标准重合度P0,所述中央处理模块获取流量调节系数Qj1,设定Qj1=Qj0×(1-(p-P0)/P0),当待分析数据文件数据重合度p小于预设数据标准重合度P0,所述中央处理模块获取流量调节系数Qj2,设定Qj2=Qj0×(1+(P0-p)/P0),其中,Qj0为流量调节系数标准值。
5.根据权利要求1所述的基于数据中心的云资源采集管理系统,其特征在于,所述中央处理模块设置热度权重参数调节参数TJ,第一预设热度权重参数调节参数TJ1、第二预设热度权重参数调节参数TJ2,所述中央处理模块设置正面关键词集合B1,负面关键词集合B2,当所述第i关键词Di属于证明关键词集合B1,所述中央处理模块选取第一预设热度权重参数调节参数TJ1为热度权重参数调节参数;当所述第i关键词Di属于证明关键词集合B2,所述中央处理模块选取第二预设热度权重参数调节参数TJ2为热度权重参数调节参数。
CN202110423188.0A 2021-04-20 2021-04-20 一种基于数据中心的云资源采集管理系统 Active CN112817921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110423188.0A CN112817921B (zh) 2021-04-20 2021-04-20 一种基于数据中心的云资源采集管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110423188.0A CN112817921B (zh) 2021-04-20 2021-04-20 一种基于数据中心的云资源采集管理系统

Publications (2)

Publication Number Publication Date
CN112817921A CN112817921A (zh) 2021-05-18
CN112817921B true CN112817921B (zh) 2021-09-10

Family

ID=75862526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110423188.0A Active CN112817921B (zh) 2021-04-20 2021-04-20 一种基于数据中心的云资源采集管理系统

Country Status (1)

Country Link
CN (1) CN112817921B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804594A (zh) * 2018-05-28 2018-11-13 国家计算机网络与信息安全管理中心 一种新闻内容全文检索引擎的构建方法及装置
CN110163076A (zh) * 2019-03-05 2019-08-23 腾讯科技(深圳)有限公司 一种图像数据处理方法和相关装置
CN111723293A (zh) * 2020-06-24 2020-09-29 上海风秩科技有限公司 一种文章内容的推荐方法、装置、电子设备及存储介质
US20200339893A1 (en) * 2017-03-08 2020-10-29 Saudi Arabian Oil Company Integrated hydrothermal process to upgrade heavy oil

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200339893A1 (en) * 2017-03-08 2020-10-29 Saudi Arabian Oil Company Integrated hydrothermal process to upgrade heavy oil
CN108804594A (zh) * 2018-05-28 2018-11-13 国家计算机网络与信息安全管理中心 一种新闻内容全文检索引擎的构建方法及装置
CN110163076A (zh) * 2019-03-05 2019-08-23 腾讯科技(深圳)有限公司 一种图像数据处理方法和相关装置
CN111723293A (zh) * 2020-06-24 2020-09-29 上海风秩科技有限公司 一种文章内容的推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112817921A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
Alam et al. Processing social media images by combining human and machine computing during crises
CN105354251B (zh) 电力系统中基于Hadoop的电力云数据管理索引方法
CN112560755B (zh) 一种识别城市暴露垃圾的目标检测方法
WO2008113290A1 (fr) Procédé et dispositif pour poussser des informations
CN110866110A (zh) 基于人工智能的会议纪要生成方法、装置、设备及介质
CN109254957A (zh) 一种基于大数据的档案管理系统
WO2021179631A1 (zh) 卷积神经网络模型压缩方法、装置、设备及存储介质
US11977567B2 (en) Method of retrieving query, electronic device and medium
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN113360599A (zh) 一种基于内容识别的多源异构情报汇聚协同处理平台
CN108470136A (zh) 一种拟探索视频特征数据的语义低维特征的获取方法
CN111708932A (zh) 一种云计算平台及其调度、数据分析方法及系统
CN110389932B (zh) 电力文件自动分类方法及装置
CN108280213A (zh) 一种大数据的分析系统
Zuo et al. Bandwidth and energy efficient image sharing for situation awareness in disasters
Zuo et al. BEES: Bandwidth-and energy-efficient image sharing for real-time situation awareness
CN112817921B (zh) 一种基于数据中心的云资源采集管理系统
WO2023173617A1 (zh) 图像处理方法、装置、设备及存储介质
CN115409553A (zh) 一种基于大数据和位置信息的广告投放系统及其方法
CN116189706A (zh) 数据传输方法、装置、电子设备和计算机可读存储介质
Yuan et al. dTexSL: A dynamic disaster textual storyline generating framework
CN117131257B (zh) 一种基于aigc的资讯文档收集系统
US20050198059A1 (en) Database and database management system
RU2530672C1 (ru) Способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени и компьютерно-реализуемая система для осуществления способа

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant