CN111143651B - 一种新媒体一体化运营管理用数据采集分析系统 - Google Patents

一种新媒体一体化运营管理用数据采集分析系统 Download PDF

Info

Publication number
CN111143651B
CN111143651B CN201911340642.5A CN201911340642A CN111143651B CN 111143651 B CN111143651 B CN 111143651B CN 201911340642 A CN201911340642 A CN 201911340642A CN 111143651 B CN111143651 B CN 111143651B
Authority
CN
China
Prior art keywords
data
unit
module
analysis
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911340642.5A
Other languages
English (en)
Other versions
CN111143651A (zh
Inventor
翟应斌
管华骥
张坤永
李著
朱运东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Dolphin New Media Industry Development Co ltd
Original Assignee
Anhui Dolphin New Media Industry Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Dolphin New Media Industry Development Co ltd filed Critical Anhui Dolphin New Media Industry Development Co ltd
Priority to CN201911340642.5A priority Critical patent/CN111143651B/zh
Publication of CN111143651A publication Critical patent/CN111143651A/zh
Application granted granted Critical
Publication of CN111143651B publication Critical patent/CN111143651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及新媒体数据分析技术领域,尤其涉及一种新媒体一体化运营管理用数据采集分析系统;包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;数据分析模块用于数据的抽取、转换、清洗和加载处理,提供数据检查规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载。本发明数据调取方便,数据处理逻辑路线短,数据处理速度快,在数据处理过程中可以在过程中实现多种任务操作。

Description

一种新媒体一体化运营管理用数据采集分析系统
技术领域:
本发明涉及新媒体数据分析技术领域,尤其涉及一种新媒体一体化运营管理用数据采集分析系统。
背景技术:
新媒体产业是指以数字技术、计算机网络技术和移动通信技术新兴技术为依托,以网络媒体、手机媒体、互动性电视媒体、移动电视、楼宇电视新兴媒体和新型媒体为主要载体,按照工业化标准进行生产、再生产的产业类型,是文化创意产业的重要组成部分。集成播控平台是在新媒体产业大发展的环境下,由广播电视机构负责的内容播出的控制和管理平台。
新媒体一体化运营管理过程中,需要对不同的数据进行采集,现有数据采集分析中心的结构单一,数据调取处理不方便,数据处理分析速度慢,不能满足新媒体一体化运营要求。
发明内容:
本发明目的是提供一种新媒体一体化运营管理用数据采集分析系统,至少解决现有的数据采集分析中心的结构单一,数据调取处理不方便,数据处理分析速度慢,不能满足新媒体一体化运营要求的问题。
为了实现上述目的,本发明采用以下技术方案予以实现:
一种新媒体一体化运营管理用数据采集分析系统,包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;
所述资源管理模块用于操作系统的安装部署和硬件虚拟化、大数据群的自动化部署;
数据采集模块用于对IPTV、网站、微信矩阵以及移动客户端各平台用户的访问、浏览、点击情况进行采集;
数据存储模块用于存储采集数据及处理结果数据;
数据处理模块用于对采集数据的清洗与管理、用户数据的生产、过滤条件的管理,以及对用户数据的计算、分析与处理;
数据分析模块用于数据的抽取、转换、清洗和加载处理,提供数据检查规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载;
数据管理模块用于将获取到的数据进行基于各种算法的建模与挖掘;
应用服务模块用于将数据分析结果应用到决策过程中以解决实际问题,数据分析的结果最终要提供给外部客户和公司内部使用。
进一步的,所述资源管理模块包括操作系统的自动部署单元和大数据群的自动部署单元;
所述数据采集模块包括终端采集单元、认证配置单元、前置采集单元、中心数据汇聚单元、分布式存储与计算单元和实时统计单元;
所述数据存储模块包括分布式存储系统单元、分布式数据库单元、关系型数据库单元;
所述数据处理模块包括并行数据采集和导出单元、流程管理单元、云数据管理单元、实时数据采集单元;
所述数据分析模块包括分析引擎单元、分布式计算引擎单元、流计算引擎、实时数据处理单元;
所述数据管理模块包括第三方数据管理单元、媒体数据中心数据管理单元;
所述应用服务模块包括用户服务单元、电视台内部服务单元、企业政府服务单元。
进一步的,所述数据处理模块还包括数据抽取单元,所述数据抽取单元用于根据用户系统的数据内容自动进行优化处理,依据数据格式、数据量、系统负载效率信息自动选用相关的优化策略进行优化,保证海量数据提取的效率和质量。
进一步的,所述数据分析模块还包括数据处理适配器,用于提高数据抽取的效率,对用户配置的数据进行转换,转换包括:
计算字段转换:使用公式体系进行数据计算;
多播转换:将一个输入定向到多个输出;
查找转换:对字段进行字典表查找或统计操作;
分组统计转换:对输入数据进行分组汇总和统计;
合并行转换:将多行输入合并为一行输出;
拆分行转换:将一行输入拆分为多行输出;
表关联转换:将两张输入表进行关联输出;
排序转换:对输入数据进行排序;
冗余分拣转换:对重复的数据进行分拣处理;
过滤转换:按一定的业务规则对数据进行过滤处理,使用公式描述规则。
进一步的,所述数据分析模块还包括数据检查适配器,用于对抽取数据进行检查,具体检查包括:
文件名规则检查:通过系统的模式匹配引擎,对文件命名进行约束,通过定义文件命名模式规则剔除命名错误的文件;
数据格式检查:对传入的文本数据或数据库数据,可以通过系统内置的错误检查函数进行检查,分拣格式错误的数据输入;
数据完整性检查:通过定义一些字典表、维度表、数据参照表对抽取数据进行完整性分析,剔除数据中的不合法数据,或对错误数据进行重定向输出;
数据类型映射检查:对于错误的数据类型映射,一部分错误系统在实施阶段即可进行检查,并且该检查处理是在用户配置方案的同时实时进行;另一部分错误情况可能是由于后期数据源或目标调整造成,在执行时可以进行识别并进行重定向处理,记录相关的日志信息。
进一步的,所述数据分析模块还包括输出适配器,用于实现数据加载功能。
进一步的,所述数据分析模块中还内嵌工作流引擎,用于对提取的先后顺序进行控制。
本发明提供的一种新媒体一体化运营管理用数据采集分析系统,具有以下有益效果:数据调取方便,数据处理逻辑路线短,数据处理速度快,在数据处理过程中可以在过程中实现多种任务操作;数据处理分析过程中中,对数据进行全方位检查,防止出错,提高处理速度和准确度。
具体实施方式:
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面将对本发明的实施例中的技术方案进行清楚-完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面具体介绍本申请的各种非限制性实施例:
一种新媒体一体化运营管理用数据采集分析系统,包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;
所述资源管理模块用于操作系统的安装部署和硬件虚拟化、大数据群的自动化部署;
数据采集模块用于对IPTV、网站、微信矩阵以及移动客户端各平台用户的访问、浏览、点击情况进行采集;
数据存储模块用于存储采集数据及处理结果数据;
数据处理模块用于对采集数据的清洗与管理、用户数据的生产、过滤条件的管理,以及对用户数据的计算、分析与处理;
数据分析模块用于数据的抽取、转换、清洗和加载处理,提供数据检查规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载;
数据管理模块用于将获取到的数据进行基于各种算法的建模与挖掘;
应用服务模块用于将数据分析结果应用到决策过程中以解决实际问题,数据分析的结果最终要提供给外部客户和公司内部使用。
具体的,所述资源管理模块包括操作系统的自动部署单元和大数据群的自动部署单元;
所述数据采集模块包括终端采集单元、认证配置单元、前置采集单元、中心数据汇聚单元、分布式存储与计算单元和实时统计单元;
所述数据存储模块包括分布式存储系统单元、分布式数据库单元、关系型数据库单元;
所述数据处理模块包括并行数据采集和导出单元、流程管理单元、云数据管理单元、实时数据采集单元;
所述数据分析模块包括分析引擎单元、分布式计算引擎单元、流计算引擎、实时数据处理单元;
所述数据管理模块包括第三方数据管理单元、媒体数据中心数据管理单元;
所述应用服务模块包括用户服务单元、电视台内部服务单元、企业政府服务单元。
具体的,所述数据处理模块还包括数据抽取单元,所述数据抽取单元用于根据用户系统的数据内容自动进行优化处理,依据数据格式、数据量、系统负载效率信息自动选用相关的优化策略进行优化,保证海量数据提取的效率和质量。
具体的,所述数据分析模块还包括数据处理适配器,用于提高数据抽取的效率,对用户配置的数据进行转换,转换包括:
计算字段转换:使用公式体系进行数据计算;
多播转换:将一个输入定向到多个输出;
查找转换:对字段进行字典表查找或统计操作;
分组统计转换:对输入数据进行分组汇总和统计;
合并行转换:将多行输入合并为一行输出;
拆分行转换:将一行输入拆分为多行输出;
表关联转换:将两张输入表进行关联输出;
排序转换:对输入数据进行排序;
冗余分拣转换:对重复的数据进行分拣处理;
过滤转换:按一定的业务规则对数据进行过滤处理,使用公式描述规则。
具体的,所述数据分析模块还包括数据检查适配器,用于对抽取数据进行检查,具体检查包括:
文件名规则检查:通过系统的模式匹配引擎,对文件命名进行约束,通过定义文件命名模式规则剔除命名错误的文件;
数据格式检查:对传入的文本数据或数据库数据,可以通过系统内置的错误检查函数进行检查,分拣格式错误的数据输入;
数据完整性检查:通过定义一些字典表、维度表、数据参照表对抽取数据进行完整性分析,剔除数据中的不合法数据,或对错误数据进行重定向输出;
数据类型映射检查:对于错误的数据类型映射,一部分错误系统在实施阶段即可进行检查,并且该检查处理是在用户配置方案的同时实时进行;另一部分错误情况可能是由于后期数据源或目标调整造成,在执行时可以进行识别并进行重定向处理,记录相关的日志信息。
具体的,所述数据分析模块还包括输出适配器,用于实现数据加载功能。
具体的,所述数据分析模块中还内嵌工作流引擎,用于对提取的先后顺序进行控制。
以上显示和描述了本发明的基本原理、主要特征和本发明的特点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求保护的范围由所附的权利要求书及其效物。

Claims (6)

1.一种新媒体一体化运营管理用数据采集分析系统,其特征在于:包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;
所述资源管理模块用于操作系统的安装部署和硬件虚拟化、大数据群的自动化部署;
数据采集模块用于对IPTV、网站、微信矩阵以及移动客户端各平台用户的访问、浏览、点击情况进行采集;
数据存储模块用于存储采集数据及处理结果数据;
数据处理模块用于对采集数据的清洗与管理、用户数据的生产、过滤条件的管理,以及对用户数据的计算、分析与处理;
数据分析模块用于数据的抽取、转换、清洗和加载处理,提供数据检查规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载;
数据管理模块用于将获取到的数据进行基于各种算法的建模与挖掘;
应用服务模块用于将数据分析结果应用到决策过程中以解决实际问题,数据分析的结果最终要提供给外部客户和公司内部使用;
所述数据分析模块还包括数据处理适配器,用于提高数据抽取的效率,对用户配置的数据进行转换,转换包括:
计算字段转换:使用公式体系进行数据计算;
多播转换:将一个输入定向到多个输出;
查找转换:对字段进行字典表查找或统计操作;
分组统计转换:对输入数据进行分组汇总和统计;
合并行转换:将多行输入合并为一行输出;
拆分行转换:将一行输入拆分为多行输出;
表关联转换:将两张输入表进行关联输出;
排序转换:对输入数据进行排序;
冗余分拣转换:对重复的数据进行分拣处理;
过滤转换:按一定的业务规则对数据进行过滤处理,使用公式描述规则。
2.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述资源管理模块包括操作系统的自动部署单元和大数据群的自动部署单元;
所述数据采集模块包括终端采集单元、认证配置单元、前置采集单元、中心数据汇聚单元、分布式存储与计算单元和实时统计单元;
所述数据存储模块包括分布式存储系统单元、分布式数据库单元、关系型数据库单元;
所述数据处理模块包括并行数据采集和导出单元、流程管理单元、云数据管理单元、实时数据采集单元;
所述数据分析模块包括分析引擎单元、分布式计算引擎单元、流计算引擎、实时数据处理单元;
所述数据管理模块包括第三方数据管理单元、媒体数据中心数据管理单元;
所述应用服务模块包括用户服务单元、电视台内部服务单元、企业政府服务单元。
3.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据处理模块还包括数据抽取单元,所述数据抽取单元用于根据用户系统的数据内容自动进行优化处理,依据数据格式、数据量、系统负载效率信息自动选用相关的优化策略进行优化,保证海量数据提取的效率和质量。
4.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据分析模块还包括数据检查适配器,用于对抽取数据进行检查,具体检查包括:
文件名规则检查:通过系统的模式匹配引擎,对文件命名进行约束,通过定义文件命名模式规则剔除命名错误的文件;
数据格式检查:对传入的文本数据或数据库数据,可以通过系统内置的错误检查函数进行检查,分拣格式错误的数据输入;
数据完整性检查:通过定义一些字典表、维度表、数据参照表对抽取数据进行完整性分析,剔除数据中的不合法数据,或对错误数据进行重定向输出;
数据类型映射检查:对于错误的数据类型映射,一部分错误系统在实施阶段即可进行检查,并且该检查处理是在用户配置方案的同时实时进行;另一部分错误情况可能是由于后期数据源或目标调整造成,在执行时可以进行识别并进行重定向处理,记录相关的日志信息。
5.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据分析模块还包括输出适配器,用于实现数据加载功能。
6.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据分析模块中还内嵌工作流引擎,用于对提取的先后顺序进行控制。
CN201911340642.5A 2019-12-23 2019-12-23 一种新媒体一体化运营管理用数据采集分析系统 Active CN111143651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911340642.5A CN111143651B (zh) 2019-12-23 2019-12-23 一种新媒体一体化运营管理用数据采集分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911340642.5A CN111143651B (zh) 2019-12-23 2019-12-23 一种新媒体一体化运营管理用数据采集分析系统

Publications (2)

Publication Number Publication Date
CN111143651A CN111143651A (zh) 2020-05-12
CN111143651B true CN111143651B (zh) 2023-11-17

Family

ID=70519441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911340642.5A Active CN111143651B (zh) 2019-12-23 2019-12-23 一种新媒体一体化运营管理用数据采集分析系统

Country Status (1)

Country Link
CN (1) CN111143651B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11960623B2 (en) * 2020-03-27 2024-04-16 EMC IP Holding Company LLC Intelligent and reversible data masking of computing environment information shared with external systems
CN113987217A (zh) * 2021-10-09 2022-01-28 华夏文化传媒集团股份有限公司 用于融媒体数据采集的方法和装置
CN114328762A (zh) * 2021-12-29 2022-04-12 北京连屏科技有限公司 大数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480263A (zh) * 2016-08-19 2017-12-15 北京市燃气集团有限责任公司 一种数据资源的管理方法及管理系统
WO2018023331A1 (zh) * 2016-08-01 2018-02-08 中国科学院深圳先进技术研究院 一种常规公交服务指数实时评价系统及评价方法
CN107733986A (zh) * 2017-09-15 2018-02-23 中国南方电网有限责任公司 支持一体化部署及监控的保护运行大数据支撑平台
CN110413599A (zh) * 2019-06-18 2019-11-05 上海展湾信息科技有限公司 数据实时处理与存储系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018023331A1 (zh) * 2016-08-01 2018-02-08 中国科学院深圳先进技术研究院 一种常规公交服务指数实时评价系统及评价方法
CN107480263A (zh) * 2016-08-19 2017-12-15 北京市燃气集团有限责任公司 一种数据资源的管理方法及管理系统
CN107733986A (zh) * 2017-09-15 2018-02-23 中国南方电网有限责任公司 支持一体化部署及监控的保护运行大数据支撑平台
CN110413599A (zh) * 2019-06-18 2019-11-05 上海展湾信息科技有限公司 数据实时处理与存储系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
饶小康 ; .水利工程灌浆大数据平台设计与实现.长江科学院院报.2019,(06),全文. *

Also Published As

Publication number Publication date
CN111143651A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111143651B (zh) 一种新媒体一体化运营管理用数据采集分析系统
CN104331435B (zh) 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN107070890A (zh) 一种通信网优系统中的流数据处理装置及通信网优系统
CN105574082A (zh) 基于Storm的流处理方法及系统
CN103955510A (zh) 基于etl云平台上传的海量电力营销数据整合方法
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN112181955B (zh) 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
CN108334557B (zh) 一种聚合数据分析方法、装置、存储介质及电子设备
CN107612984B (zh) 一种基于互联网的大数据平台
US20210406281A1 (en) Data configuration query method and device
CN112163039A (zh) 基于企业级数据中台分析域的数据资源标准化管理系统
CN103455633A (zh) 一种海量网络发票明细数据分布式分析方法
CN102508919A (zh) 数据处理方法及系统
CN118017564B (zh) 一种基于开源鸿蒙系统的储能方法
CN105302831A (zh) 基于海量用户行为数据的高速计算分析方法
CN114756629A (zh) 基于sql的多源异构数据交互分析引擎及方法
CN116777284A (zh) 一种空间及属性数据一体化质检方法
CN112100227A (zh) 一种基于多级异构数据存储的大数据处理方法
CN115017159A (zh) 数据处理方法及装置、存储介质及电子设备
CN108959577B (zh) 基于非主属性离群点检测的实体匹配方法和计算机程序
CN107871055A (zh) 一种数据分析方法和装置
CN103345527A (zh) 数据智能统计系统
CN111104441A (zh) 一种数据采集方法及系统
Abidin et al. Comparative analysis on techniques for big data testing
CN116795816A (zh) 一种基于流式处理的数仓建设方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant