CN113158064A - 一种云合数据短视频数据抓取以及统计汇总分析算法 - Google Patents
一种云合数据短视频数据抓取以及统计汇总分析算法 Download PDFInfo
- Publication number
- CN113158064A CN113158064A CN202110512371.8A CN202110512371A CN113158064A CN 113158064 A CN113158064 A CN 113158064A CN 202110512371 A CN202110512371 A CN 202110512371A CN 113158064 A CN113158064 A CN 113158064A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- processing unit
- central processing
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种云合数据短视频数据抓取以及统计汇总分析算法,包括中央处理器,所述中央处理器电连接有分析模块、操作中心、展示模块、抓取模块以及统计汇总模块。其中中央处理器用于控制整个系统,所述分析模块用于分析其抓取模块抓取的数据,所述操作中心用于操作整个系统,所述展示模块用于展示其统计汇总模块统计的数据,所述统计汇总模块用于统计抓取模块抓取的数据,所述抓取模块用于抓取短视频,本发明通过种云合数据短视频数据抓取以及统计汇总分析算法,自动识别并整合不同平台同一栏目的数据的方法,不仅实现全自动,而且覆盖面广(千万级栏目)。
Description
技术领域
本发明涉及一种云合数据短视频数据抓取以及统计汇总分析算法,特别涉及一种云合数据短视频数据抓取以及统计汇总分析算法。
背景技术
视频(Video)泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。
随着社会的发展,人们的娱乐方式也越来越多,而短视频经常会存在着很多相同的标题和内容,随着网红经济的出现,视频行业逐渐崛起一批优质UGC内容制作者,微博、秒拍、快手、今日头条纷纷入局短视频行业,募集一批优秀的内容制作团队入驻。到了2017年,短视频行业竞争进入白热化阶段,内容制作者也偏向PGC化专业运作。
现有技术中同一个栏目在不同短视频平台的账号命名经常会不一样,比如“二更”在西瓜视频叫“二更视频”,在秒拍则叫“二更短视频”。为了统计同一个栏目跨平台的整体表现,目前需要人工整理,成本高、覆盖面有限,因此需要一种云合数据短视频数据抓取以及统计汇总分析算法解决上述问题。
发明内容
本发明的目的在于提供一种云合数据短视频数据抓取以及统计汇总分析算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种云合数据短视频数据抓取以及统计汇总分析算法,包括中央处理器,所述中央处理器电连接有分析模块、操作中心、展示模块、抓取模块以及统计汇总模块。
进一步的,其中中央处理器用于控制整个系统,所述分析模块用于分析其抓取模块抓取的数据,所述操作中心用于操作整个系统,所述展示模块用于展示其统计汇总模块统计的数据,所述统计汇总模块用于统计抓取模块抓取的数据,所述抓取模块用于抓取短视频。
进一步的,该系统的操作步骤如下:
S1:首先抓取模块会抓取相应的短视频,并发送至中央处理器;
S2:中央处理器在接收到抓取模块发来的数据后将其发送至分析模块进行分析;
S3:分析模块在分析完成后再次将其发送至中央处理器;
S4:中央处理器将其接收到的数据发送至统计汇总模块进行统计汇总;
S5:中央处理器在接收到统计汇总模块的数据后发送至展示模块展示;
进一步的,所述步骤S1-S5中均通过操作中心操作,其操作中心设置有对应的供其操作展示的显示屏。
一种云合数据短视频数据统计汇总分析算法,其特征在于,其步骤如下:
S1:统计汇总模块在接收到对应的短视频后,将其发送至中央处理器;
S2:中央处理器在接收到数据后,会根据短视频的性质将其分为平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态;
S3:分析汇总完成后将其制成对应的表格。
进一步的,所述平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态底板对应有若干个与之对应的数据及状态。
进一步的,在位于表格的最后端设有操作选项,其操作选项的底部设有合并和忽略。
本发明的有益效果为:本发明通过种云合数据短视频数据抓取以及统计汇总分析算法,自动识别并整合不同平台同一栏目的数据的方法,不仅实现全自动,而且覆盖面广(千万级栏目)。
附图说明
图1为本发明一种云合数据短视频数据抓取以及统计汇总分析算法的系统框图一;
图2为本发明一种云合数据短视频数据抓取以及统计汇总分析算法的实施例图。
附图标记说明无。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1-2,本发明提供一种技术方案:
一种云合数据短视频数据抓取以及统计汇总分析算法,包括中央处理器,所述中央处理器电连接有分析模块、操作中心、展示模块、抓取模块以及统计汇总模块。
为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,其中中央处理器用于控制整个系统,所述分析模块用于分析其抓取模块抓取的数据,所述操作中心用于操作整个系统,所述展示模块用于展示其统计汇总模块统计的数据,所述统计汇总模块用于统计抓取模块抓取的数据,所述抓取模块用于抓取短视频。
为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,该系统的操作步骤如下:
S1:首先抓取模块会抓取相应的短视频,并发送至中央处理器;
S2:中央处理器在接收到抓取模块发来的数据后将其发送至分析模块进行分析;
S3:分析模块在分析完成后再次将其发送至中央处理器;
S4:中央处理器将其接收到的数据发送至统计汇总模块进行统计汇总;
S5:中央处理器在接收到统计汇总模块的数据后发送至展示模块展示;
为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,所述步骤S1-S5中均通过操作中心操作,其操作中心设置有对应的供其操作展示的显示屏。
一种云合数据短视频数据统计汇总分析算法,其特征在于,其步骤如下:
S1:统计汇总模块在接收到对应的短视频后,将其发送至中央处理器;
S2:中央处理器在接收到数据后,会根据短视频的性质将其分为平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态;
S3:分析汇总完成后将其制成对应的表格。
为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,所述平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态底板对应有若干个与之对应的数据及状态。
为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,在位于表格的最后端设有操作选项,其操作选项的底部设有合并和忽略。
综上所述,本发明通过种云合数据短视频数据抓取以及统计汇总分析算法,自动识别并整合不同平台同一栏目的数据的方法,不仅实现全自动,而且覆盖面广(千万级栏目)。
实施例,请参照图2,跨平台同一栏目识别基于:
发布视频的标题的相似度例如两个栏目发布的某条视频标题都为“人生没有固定公式,你不必获得千篇一律”,
发布视频的日期及视频时长的相似度(例如两个栏目都在2020-12-20日发布了1条时长为89秒的视频,在2020-12-22日发布了两条时长为72秒和98秒的视频,
栏目名称相似度(例如“二更视频”和“二更短视频”就很相似,但“二更视频”和“十点读书”则差别很大)。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。
Claims (7)
1.一种云合数据短视频数据抓取以及统计汇总分析算法,包括中央处理器,其特征在于:所述中央处理器电连接有分析模块、操作中心、展示模块、抓取模块以及统计汇总模块。
2.根据权利要求1所述的一种云合数据短视频数据抓取以及统计汇总分析算法,其特征在于:其中中央处理器用于控制整个系统,所述分析模块用于分析其抓取模块抓取的数据,所述操作中心用于操作整个系统,所述展示模块用于展示其统计汇总模块统计的数据,所述统计汇总模块用于统计抓取模块抓取的数据,所述抓取模块用于抓取短视频。
3.根据权利要求1所述的一种云合数据短视频数据抓取以及统计汇总分析算法,其特征在于,该系统的操作步骤如下:
S1:首先抓取模块会抓取相应的短视频,并发送至中央处理器;
S2:中央处理器在接收到抓取模块发来的数据后将其发送至分析模块进行分析;
S3:分析模块在分析完成后再次将其发送至中央处理器;
S4:中央处理器将其接收到的数据发送至统计汇总模块进行统计汇总;
S5:中央处理器在接收到统计汇总模块的数据后发送至展示模块展示。
4.根据权利要求3所述的一种云合数据短视频数据抓取以及统计汇总分析算法,其特征在于,所述步骤S1-S5中均通过操作中心操作,其操作中心设置有对应的供其操作展示的显示屏。
5.一种云合数据短视频数据抓取以及统计汇总分析算法,其特征在于,其步骤如下:
S1:统计汇总模块在接收到对应的短视频后,将其发送至中央处理器;
S2:中央处理器在接收到数据后,会根据短视频的性质将其分为平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态;
S3:分析汇总完成后将其制成对应的表格。
6.根据权利要求5所述的一种云合数据短视频数据抓取以及统计汇总分析算法,其特征在于:所述平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态底板对应有若干个与之对应的数据及状态。
7.根据权利要求5所述的一种云合数据短视频数据抓取以及统计汇总分析算法,其特征在于:在位于表格的最后端设有操作选项,其操作选项的底部设有合并和忽略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512371.8A CN113158064A (zh) | 2021-05-11 | 2021-05-11 | 一种云合数据短视频数据抓取以及统计汇总分析算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512371.8A CN113158064A (zh) | 2021-05-11 | 2021-05-11 | 一种云合数据短视频数据抓取以及统计汇总分析算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158064A true CN113158064A (zh) | 2021-07-23 |
Family
ID=76874400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110512371.8A Pending CN113158064A (zh) | 2021-05-11 | 2021-05-11 | 一种云合数据短视频数据抓取以及统计汇总分析算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158064A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766572A (zh) * | 2017-11-13 | 2018-03-06 | 北京国信宏数科技有限责任公司 | 基于经济领域数据的分布式提取及可视化分析方法和系统 |
CN108235145A (zh) * | 2016-12-12 | 2018-06-29 | 上海看榜信息科技有限公司 | 一种跨平台pgc视频排行榜系统 |
CN109684383A (zh) * | 2018-12-25 | 2019-04-26 | 广州天鹏计算机科技有限公司 | 数据分析结果的获取方法、装置、计算机设备和存储介质 |
CN110197339A (zh) * | 2019-06-06 | 2019-09-03 | 武汉市智驾科技有限公司 | 一种基于大数据云计算服务平台及运行方法 |
CN110413759A (zh) * | 2019-07-31 | 2019-11-05 | 杭州凡闻科技有限公司 | 一种用于自媒体的多平台用户互动数据分析方法及系统 |
CN111488501A (zh) * | 2020-03-06 | 2020-08-04 | 安徽西尔艾叉车零部件有限公司 | 一种基于云平台的电商统计系统 |
CN111881304A (zh) * | 2020-07-21 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN111932109A (zh) * | 2020-08-06 | 2020-11-13 | 国家计算机网络与信息安全管理中心 | 一种面向移动短视频应用的用户影响力评价系统 |
-
2021
- 2021-05-11 CN CN202110512371.8A patent/CN113158064A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108235145A (zh) * | 2016-12-12 | 2018-06-29 | 上海看榜信息科技有限公司 | 一种跨平台pgc视频排行榜系统 |
CN107766572A (zh) * | 2017-11-13 | 2018-03-06 | 北京国信宏数科技有限责任公司 | 基于经济领域数据的分布式提取及可视化分析方法和系统 |
CN109684383A (zh) * | 2018-12-25 | 2019-04-26 | 广州天鹏计算机科技有限公司 | 数据分析结果的获取方法、装置、计算机设备和存储介质 |
CN110197339A (zh) * | 2019-06-06 | 2019-09-03 | 武汉市智驾科技有限公司 | 一种基于大数据云计算服务平台及运行方法 |
CN110413759A (zh) * | 2019-07-31 | 2019-11-05 | 杭州凡闻科技有限公司 | 一种用于自媒体的多平台用户互动数据分析方法及系统 |
CN111488501A (zh) * | 2020-03-06 | 2020-08-04 | 安徽西尔艾叉车零部件有限公司 | 一种基于云平台的电商统计系统 |
CN111881304A (zh) * | 2020-07-21 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN111932109A (zh) * | 2020-08-06 | 2020-11-13 | 国家计算机网络与信息安全管理中心 | 一种面向移动短视频应用的用户影响力评价系统 |
Non-Patent Citations (1)
Title |
---|
郭馨蔚: "多源异构数据的跨域关联方法研究及应用", 中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101655860B (zh) | 一种刑侦破案视频辅助分析方法及系统 | |
CN105700849B (zh) | 一种基于fpga实现pcm音频采集装置及系统及方法 | |
CN110290346B (zh) | 一种基于智能视频分析的招投标视频的获取方法 | |
CN101127590A (zh) | 一种对单板运行状态进行数据备份的方法及其装置 | |
US11100365B2 (en) | Apparatus and method for interactively viewing and clustering data segments from long data recordings | |
CN111666263A (zh) | 一种数据湖环境下异构数据管理的实现方法 | |
CN103079054A (zh) | 一种视频信号监控系统及监控方法 | |
CN113158064A (zh) | 一种云合数据短视频数据抓取以及统计汇总分析算法 | |
CN206237455U (zh) | 一种基于大数据分析的中小学校学生综合信息管理云平台 | |
CN108494635A (zh) | 一种基于云计算的网络流量探测系统 | |
CN1905590B (zh) | 一种单板信息采集的方法 | |
CN103514226B (zh) | 一种数字硬盘录像机文件存储的快速索引方法和装置 | |
CN103294602B (zh) | 逻辑分析仪的数据读取及写入其存储器的方法 | |
CN113626540B (zh) | 超短波无线电信号监测数据分析系统 | |
CN115618080A (zh) | 基于数据管理平台的数据管理实现方法及数据管理平台 | |
CN104068851A (zh) | 基于fpga的脑电信号采集系统和方法 | |
CN107562823A (zh) | 一种大数据处理系统 | |
CN106599326A (zh) | 一种云化架构下的记录数据剔重处理方法及系统 | |
CN107239938A (zh) | 企业人员出入量统计系统和方法 | |
CN110309141A (zh) | 一种直播间数据量统计方法、存储介质、设备及系统 | |
CN102238312A (zh) | 一种基于rfid视频直播帧的视频处理方法 | |
CN2624190Y (zh) | 摄像型人体红外测温装置 | |
CN111427858A (zh) | 日志处理系统及其处理方法 | |
CN201638071U (zh) | 一种服装生产流水线管理系统 | |
CN108230634A (zh) | 一种利用led显示屏进行监控及报警的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |