CN115422305A - 网络社交媒体数据管理方法及装置 - Google Patents

网络社交媒体数据管理方法及装置 Download PDF

Info

Publication number
CN115422305A
CN115422305A CN202211372863.2A CN202211372863A CN115422305A CN 115422305 A CN115422305 A CN 115422305A CN 202211372863 A CN202211372863 A CN 202211372863A CN 115422305 A CN115422305 A CN 115422305A
Authority
CN
China
Prior art keywords
data
standard
message queue
warehouse
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211372863.2A
Other languages
English (en)
Inventor
刘冠
黄斐然
支庭荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202211372863.2A priority Critical patent/CN115422305A/zh
Publication of CN115422305A publication Critical patent/CN115422305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Abstract

本发明实施例公开了一种网络社交媒体数据管理方法及装置,方法包括:创建数据仓库,并提取不同数据源的数据,将所述数据进行处理形成标准数据并存储在所述数据仓库;创建数据任务,将若干个所述数据任务依据预设规则进行排队生成消息队列;根据消息队列的排队顺序调度对应的数据任务采集相应的数据。实施例充分考虑设计网络数据杂乱、数据量大、格式混乱的问题,提供数据治理统一设计的管理方式,创建数据仓库对不同渠道来源的数据进行管理和存储,创建数据任务,以及配置任务进行数据采集,最终实现整体的数据高效有序管理。

Description

网络社交媒体数据管理方法及装置
技术领域
本发明涉及数据治理技术领域,具体涉及一种网络社交媒体数据管理方法及装置。
背景技术
目前,随着信息技术特别是网络技术的不断发展,全球数据正在以惊人的速度增长,专家预测,到2020年全球数据总量将增长4000%。在这些数据中70%的数据都是有个人产生的,并且80%的数据都是由企业所存储,管理及安全保护。每秒钟,人们发送290封电子邮件;每分钟人们在youtube上传20小时的视频; 人们每月在总共在facebook上浏览7000亿分钟;移动互联网网用户发送和上传的数据量达到1.3eb,相当于10的18次方;每秒钟亚马逊处理729笔订单。所有人都生活在数据之中,数据将成为未来的信息货币。
另外,社会化的网络为大数据提供了额外的价值维度,关系本身就是价值。社会化关系之于数据的价值,是乘数的关系,数据价值X社会化关系=影响力。借助微博的关系属性,流言更是飞速传播,真相也会加速浮出水面。微博颠覆了传统的信息传播路径,使几千年来,单中心、单向的传播方式,向多中心、网状裂变传播方式转变。对企业而言,不管是主动拥抱这个变化,还是被动接受,都宣告了一个时代的大幕真正开启,消费者站上了舞台中央。但此消费者是数字化的,他生活在网络中,他并不会直接告诉你他的需求,需要企业去收集、分析、跟踪、对比他在互联网上留下的各种“足迹”、评论、图片、视频等。
发明内容
针对所述缺陷,本发明实施例公开了一种网络社交媒体数据管理方法及装置,其可以在数据量庞大的情况下对数据进行高效管理。
本发明实施例第一方面公开了网络社交媒体数据管理方法,包括:
创建数据仓库,并提取不同数据源的数据,将所述数据进行处理形成标准数据并存储在所述数据仓库;
创建数据任务,将若干个所述数据任务依据预设规则进行排队生成消息队列;
根据消息队列的排队顺序调度对应的数据任务采集相应的数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述提取不同数据源的数据中,保留不同数据源的数据的数据格式。
作为一种可选的实施方式,在本发明实施例第一方面中,所述将所述数据进行处理形成标准数据,包括:
对不同数据源的数据进行数据格式的筛选,判断数据的数据格式是否为标准格式;
对非标准格式的数据进行加工与整合,使得所述数据形成为标准数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述存储在所述数据仓库之前,还包括:
提取所述标准数据的数据主题;
依据所述数据主题对所述标准数据进行分类;
所述存储在所述数据仓库,包括:
将数据仓库划分成多个不同主题的主题库,将分类后不同类别的数据分别存储至对应的主题库。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据消息队列的排队顺序调度对应的数据任务采集相应的数据,包括:
根据消息队列的排队顺序获取当前排在最前的数据任务;
执行所述数据任务,通过请求入口发送数据请求指令;
当请求质量通过后采集与所述数据任务相应的数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据消息队列的排队顺序获取当前排在最前的数据任务之前,还包括:
可视化显示所述消息队列。
作为一种可选的实施方式,在本发明实施例第一方面中,所述创建数据仓库,包括:
建立用于对数据进行索引、记录和追溯的数据管理表,所述数据管理表包含数据名称、数据类型、数据源。
本发明实施例第二方面公开一种网络社交媒体数据管理装置,包括:
仓库创建模块:用于创建数据仓库,并提取不同数据源的数据,将所述数据进行处理形成标准数据并存储在所述数据仓库;
任务创建模块:用于创建数据任务,将若干个所述数据任务依据预设规则进行排队生成消息队列;
数据采集模块:用于根据消息队列的排队顺序调度对应的数据任务采集相应的数据。
作为一种可选的实施方式,在本发明实施例第二方面中,所述提取不同数据源的数据中,保留不同数据源的数据的数据格式。
作为一种可选的实施方式,在本发明实施例第二方面中,所述将所述数据进行处理形成标准数据,包括:
对不同数据源的数据进行数据格式的筛选,判断数据的数据格式是否为标准格式;
对非标准格式的数据进行加工与整合,使得所述数据形成为标准数据。
作为一种可选的实施方式,在本发明实施例第二方面中,所述存储在所述数据仓库之前,还包括:
提取所述标准数据的数据主题;
依据所述数据主题对所述标准数据进行分类;
所述存储在所述数据仓库,包括:
将数据仓库划分成多个不同主题的主题库,将分类后不同类别的数据分别存储至对应的主题库。
作为一种可选的实施方式,在本发明实施例第二方面中,所述根据消息队列的排队顺序调度对应的数据任务采集相应的数据,包括:
根据消息队列的排队顺序获取当前排在最前的数据任务;
执行所述数据任务,通过请求入口发送数据请求指令;
当请求质量通过后采集与所述数据任务相应的数据。
作为一种可选的实施方式,在本发明实施例第二方面中,所述根据消息队列的排队顺序获取当前排在最前的数据任务之前,还包括:
可视化显示所述消息队列。
作为一种可选的实施方式,在本发明实施例第二方面中,所述创建数据仓库,包括:
建立用于对数据进行索引、记录和追溯的数据管理表,所述数据管理表包含数据名称、数据类型、数据源。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的网络社交媒体数据管理方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的网络社交媒体数据管理方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例提供的一种网络社交媒体数据管理方法中充分考虑设计网络数据杂乱、数据量大、格式混乱的问题,提供数据治理统一设计的管理方式,创建数据仓库对不同渠道来源的数据进行管理和存储,创建数据任务,以及配置任务进行数据采集,最终实现整体的数据高效有序管理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种网络社交媒体数据管理方法的流程示意图;
图2是本发明实施例提供的一种网络社交媒体数据管理装置的结构示意图;
图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了网络社交媒体数据管理方法、装置、电子设备及存储介质,实施例中充分考虑设计网络数据杂乱、数据量大、格式混乱的问题,提供数据治理统一设计的管理方式,创建数据仓库对不同渠道来源的数据进行管理和存储,创建数据任务,以及配置任务进行数据采集,最终实现整体的数据高效有序管理。
实施例一
请参阅图1,图1是本发明实施例公开的网络社交媒体数据管理方法的流程示意图。其中,本发明实施例所描述的方法的执行主体为由软件或/和硬件组成的执行主体,该执行主体可以通过有线或/和无线方式接收相关信息,并可以发送一定的指令。当然,其还可以具有一定的处理功能和存储功能。该执行主体可以控制多个设备,例如远程的物理服务器或云服务器以及相关软件,也可以是对某处安置的设备进行相关操作的本地主机或服务器以及相关软件等。在一些场景中,还可以控制多个存储设备,存储设备可以与设备放置于同一地方或不同地方。如图1所示,该基于网络社交媒体数据管理方法包括以下步骤:
步骤101、创建数据仓库,并提取不同数据源的数据,将所述数据进行处理形成标准数据并存储在所述数据仓库。
在本步骤中,提取不同数据源的数据中,保留不同数据源的数据的数据格式。
实施例创建的数据仓库用于为数据资源提供集中的数据治理服务,用于存储和管理社交媒体数据的关系数据库,并支撑分析前数据准备的提取、加载和转换等数据加工过程。该数据仓库贯穿数据集成、数据清洗、数据计算和数据分析探索多个能力模块,并根据业务需要将数据划分为四层,分别是汇聚库、标准库、主题库和应用共享库。具体而言,汇聚库是与源系统表结构保持一致,存储源系统一致数据,通过大数据平台进行数据的同步。包括全量和增量同步的结构化数据、经过处理后的非结构化数据以及根据数据业务需求及稽核和审计要求保存历史数据、清洗数据。标准库主要完成数据、清洗、加工与整合,形成了统一、规范的标准数据,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。而主题库是根据数据业务的关注点,将联系较为紧密的数据主题集合,综合、归类并进行分析利用。针对业务应用分到多个主题库。应用共享库是面向应用的数据共享服务层。整合汇总成分析某一个主题域的服务数据,面向应用逻辑的数据加工。
实施例的提取不同数据源的数据中,保留不同数据源的数据的数据格式。在此基础上,将所述数据进行处理形成标准数据,包括:对不同数据源的数据进行数据格式的筛选,判断数据的数据格式是否为标准格式;对非标准格式的数据进行加工与整合,使得所述数据形成为标准数据。
在存储在所述数据仓库之前,还包括:提取所述标准数据的数据主题;依据所述数据主题对所述标准数据进行分类。所述存储在所述数据仓库,包括:将数据仓库划分成多个不同主题的主题库,将分类后不同类别的数据分别存储至对应的主题库。
具体而言,实施例例如针对不同的数据仓库中不同层分别以不同的格式命名,例如汇聚库的表格以“ods-数据来源-xxx”的格式命名,标准库中以“dwb_xxx”的格式命名,主题库以“dws_xxx”的格式命名,应用共享库中以“dws_xxx”的格式命名。并且数据仓库中的数据统一采用小写字母尽量避免使用数字进行命名,字段的命名规则是统一采用小写字母,不能以数字开头,且全字段尽量避免使用数字,字段名应该有意义且易于理解,最好使用能够表达含义的英文字母且体现英文发音字母优先,不使用数据库关键字。
实施例中创建数据仓库包括建立用于对数据进行索引、记录和追溯的数据管理表,所述数据管理表包含数据名称、数据类型、数据源。其中,数据仓库包括检索功能、表结果功能、表详情功能、权限申请功能,检索功能是通过数据管理系统内数据管理的检索功能,可通过该模块快捷检索到项目信息、数据库表信息等,实现数据的快捷定位。表结果是在数据管理系统中,检索表结果,可根据表类型、所属项目、所属集群、所属数据库进行精确筛选。表详情是在数据管理系统中,点击表名,可查看指定表的详情信息,包括表的基础属性信息、表结构信息、分区信息、权限详情、数据血缘、数据预览、修订历史。权限申请是在数据管理系统中,展示当前账号管理的、有权限的表列表页,可对表进行相关权限申请。
步骤102、创建数据任务,将若干个所述数据任务依据预设规则进行排队生成消息队列。
实施例在内部往来中,前端部署在nginx服务器上,所有业务采集模块都部署在业务服务器上,并形成集群模式,数据存储在MySQL、Kafka集群、Redis集群上。
步骤103、根据消息队列的排队顺序调度对应的数据任务采集相应的数据。
实施例的根据消息队列的排队顺序调度对应的数据任务采集相应的数据,包括:根据消息队列的排队顺序获取当前排在最前的数据任务;执行所述数据任务,通过请求入口发送数据请求指令;当请求质量通过后采集与所述数据任务相应的数据。并且在所述根据消息队列的排队顺序获取当前排在最前的数据任务之前,还包括:可视化显示所述消息队列。
实施例在选择相应的任务类型后,工作流可以对任务调度周期进行选择,除了正常类似linux的 crontab调度,支持按照分钟、小时、天、月等时段调度,还可以进行一次性非周期任务调度,同时也支持持续性非周期调度,为持续的实时分析任务提供便捷操作入口。
通过大数据开发平台工作流系统,能可视化拖拽工作流和数据任务,提供实时计算的任务调度与配置,通过鼠标便捷拉取左侧提供的数据接入、数据计算、数据分析算法、数据存储等组件模板,通过右键点击进入模板任务编辑界面,实现可视化的数据分析编程任务,大大提高数据算法工程师的编程操作效率,屏蔽后台命令行模式任务提交的方式。
实施例二
请参阅图2,图2是本发明实施例公开的网络社交媒体数据管理装置的结构示意图。如图2所示,该网络社交媒体数据管理装置可以包括仓库创建模块201、任务创建模块202和数据采集模块203,其中,仓库创建模块201:用于创建数据仓库,并提取不同数据源的数据,将所述数据进行处理形成标准数据并存储在所述数据仓库;任务创建模块202:用于创建数据任务,将若干个所述数据任务依据预设规则进行排队生成消息队列;数据采集模块203:用于根据消息队列的排队顺序调度对应的数据任务采集相应的数据。
其中,在仓库创建模块201中,提取不同数据源的数据中,保留不同数据源的数据的数据格式。对所述数据进行处理形成标准数据,包括:对不同数据源的数据进行数据格式的筛选,判断数据的数据格式是否为标准格式;对非标准格式的数据进行加工与整合,使得所述数据形成为标准数据。并且在仓库创建模块201的存储在数据仓库之前,还包括提取所述标准数据的数据主题;依据所述数据主题对所述标准数据进行分类。据此,存储在所述数据仓库,包括:将数据仓库划分成多个不同主题的主题库,将分类后不同类别的数据分别存储至对应的主题库。
在数据采集模块203中,包括根据消息队列的排队顺序获取当前排在最前的数据任务;执行所述数据任务,通过请求入口发送数据请求指令;当请求质量通过后采集与所述数据任务相应的数据。而在根据消息队列的排队顺序获取当前排在最前的数据任务之前,还可视化显示所述消息队列。
本实施例在遵循数据治理的统一设计、先进性、高可靠/高安全性、标准化、成熟性、适用性和可扩展性的原则,从数据采集、数据仓库和数据管理三个方面来实现数据的全链路治理,相对于其他数据治理体系,该数据数据治理有如下的创新点,对于表设计,预估出记录数及其后期的增长趋势,提前做好规划,对于表设计,分析出操作类别和操作频度,用于建立主键的字段应放在该数据表最前面,有多个索引的数据表,将主索引字段放在数据表的靠前面,关联表的关联域使用相同的命名方法,使各表之间关联关系显而易见,所有表示状态、性质、属性等的字段必须写明取值范围内每个值的具体含义,取值范围在其他表中定义的必须写明对应的表名和字段名,每个数据库表所建的索引个数最好保持在三个以内,组合索引降低索引重复率,建立组合索引时,将重复率低的字段放在前面,重复率高的字段放在后面,对于新增记录频繁,而修改、删除操作较少的数据表设计时,允许数据冗余的;对于修改、删除较频繁操作的数据表要设计时达到3NF的要求,表内的每一个值只被表达一次,表内的每一行都被唯一的标识,表内不存储依赖于其他键的非键信息。实施例通过大数据开发平台工作流系统,能可视化拖拽工作流和数据任务,提供实时计算的任务调度与配置,通过鼠标便捷拉取左侧提供的数据接入、数据计算、数据分析算法、数据存储等组件模板,通过右键点击进入模板任务编辑界面,实现可视化的数据分析编程任务,大大提高数据算法工程师的编程操作效率,屏蔽后台命令行模式任务提交的方式。主要采用分布式系统,实现各个模块之间解耦合和高可用易拓展。其中涉及的模块有,调度模块、数据源模块、业务模块、网关模块、系统模块。各个模块动态的分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。
提供企业级元数据管理及数据全景视图,实现全链路数据追踪和分析,洞见数据价值。能够全局检索:在进行数据开发或数据分析前,使用关键词进行搜索,帮助快速缩小范围,找到对应的数据;能够据管理:支持查看hive、hbase、kafka表详情,提供丰富的数据信息,快速查阅明细信息,掌握使用规则;能够支持数据表的血缘分析,可以清晰查看每个数据表的来源、去向,并支持查看表的加工逻辑,方便快速定位上下游问题。
实施例三
请参阅图3,图3是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是计算机以及服务器等,当然,在一定情况下,还可以是手机、平板电脑以及监控终端等智能设备,以及具有处理功能的图像采集装置。如图3所示,该电子设备可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
其中,处理器302调用存储器301中存储的可执行程序代码,执行实施例一中的网络社交媒体数据管理方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中的网络社交媒体数据管理方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的网络社交媒体数据管理方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的网络社交媒体数据管理方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的网络社交媒体数据管理方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种网络社交媒体数据管理方法,其特征在于,包括:
创建数据仓库,并提取不同数据源的数据,将所述数据进行处理形成标准数据并存储在所述数据仓库;
创建数据任务,将若干个所述数据任务依据预设规则进行排队生成消息队列;
根据消息队列的排队顺序调度对应的数据任务采集相应的数据。
2.根据权利要求1所述的网络社交媒体数据管理方法,其特征在于,所述提取不同数据源的数据中,保留不同数据源的数据的数据格式。
3.根据权利要求2所述的网络社交媒体数据管理方法,其特征在于,所述将所述数据进行处理形成标准数据,包括:
对不同数据源的数据进行数据格式的筛选,判断数据的数据格式是否为标准格式;
对非标准格式的数据进行加工与整合,使得所述数据形成为标准数据。
4.根据权利要求3所述的网络社交媒体数据管理方法,其特征在于,所述存储在所述数据仓库之前,还包括:
提取所述标准数据的数据主题;
依据所述数据主题对所述标准数据进行分类;
所述存储在所述数据仓库,包括:
将数据仓库划分成多个不同主题的主题库,将分类后不同类别的数据分别存储至对应的主题库。
5.根据权利要求3所述的网络社交媒体数据管理方法,其特征在于,所述根据消息队列的排队顺序调度对应的数据任务采集相应的数据,包括:
根据消息队列的排队顺序获取当前排在最前的数据任务;
执行所述数据任务,通过请求入口发送数据请求指令;
当请求质量通过后采集与所述数据任务相应的数据。
6.根据权利要求5所述的网络社交媒体数据管理方法,其特征在于,所述根据消息队列的排队顺序获取当前排在最前的数据任务之前,还包括:
可视化显示所述消息队列。
7.根据权利要求6所述的网络社交媒体数据管理方法,其特征在于,所述创建数据仓库,包括:
建立用于对数据进行索引、记录和追溯的数据管理表,所述数据管理表包含数据名称、数据类型、数据源。
8.一种网络社交媒体数据管理装置,其特征在于,包括:
仓库创建模块:用于创建数据仓库,并提取不同数据源的数据,将所述数据进行处理形成标准数据并存储在所述数据仓库;
任务创建模块:用于创建数据任务,将若干个所述数据任务依据预设规则进行排队生成消息队列;
数据采集模块:用于根据消息队列的排队顺序调度对应的数据任务采集相应的数据。
9.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至7任一项所述的网络社交媒体数据管理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至7任一项所述的网络社交媒体数据管理方法。
CN202211372863.2A 2022-11-04 2022-11-04 网络社交媒体数据管理方法及装置 Pending CN115422305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211372863.2A CN115422305A (zh) 2022-11-04 2022-11-04 网络社交媒体数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211372863.2A CN115422305A (zh) 2022-11-04 2022-11-04 网络社交媒体数据管理方法及装置

Publications (1)

Publication Number Publication Date
CN115422305A true CN115422305A (zh) 2022-12-02

Family

ID=84208254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211372863.2A Pending CN115422305A (zh) 2022-11-04 2022-11-04 网络社交媒体数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN115422305A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130254231A1 (en) * 2012-03-20 2013-09-26 Kawf.Com, Inc. Dba Tagboard.Com Gathering and contributing content across diverse sources
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
US20170006135A1 (en) * 2015-01-23 2017-01-05 C3, Inc. Systems, methods, and devices for an enterprise internet-of-things application development platform
CN110889632A (zh) * 2019-11-27 2020-03-17 国网能源研究院有限公司 一种公司形象提升系统的数据监测分析系统
CN111221744A (zh) * 2020-04-23 2020-06-02 杭州海康威视数字技术股份有限公司 数据采集方法、装置及电子设备
CN111339071A (zh) * 2020-02-21 2020-06-26 苏宁云计算有限公司 一种多源异构数据的处理方法及装置
CN114547165A (zh) * 2022-01-19 2022-05-27 中国科学院信息工程研究所 一种数据标准化智能处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130254231A1 (en) * 2012-03-20 2013-09-26 Kawf.Com, Inc. Dba Tagboard.Com Gathering and contributing content across diverse sources
US20170006135A1 (en) * 2015-01-23 2017-01-05 C3, Inc. Systems, methods, and devices for an enterprise internet-of-things application development platform
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN110889632A (zh) * 2019-11-27 2020-03-17 国网能源研究院有限公司 一种公司形象提升系统的数据监测分析系统
CN111339071A (zh) * 2020-02-21 2020-06-26 苏宁云计算有限公司 一种多源异构数据的处理方法及装置
CN111221744A (zh) * 2020-04-23 2020-06-02 杭州海康威视数字技术股份有限公司 数据采集方法、装置及电子设备
CN114547165A (zh) * 2022-01-19 2022-05-27 中国科学院信息工程研究所 一种数据标准化智能处理方法及装置

Similar Documents

Publication Publication Date Title
US9530075B2 (en) Presentation and organization of content
US10430480B2 (en) Enterprise data processing
JP6854041B2 (ja) コンテンツ管理システムにおけるプロジェクトの管理
US20180143987A1 (en) Organizing network-stored content items into shared groups
US8880528B2 (en) Intelligent content item importing
Das et al. Big data analytics: A framework for unstructured data analysis
US9055063B2 (en) Managing shared content with a content management system
US20140195516A1 (en) Systems and methods for presenting content items in a collections view
KR20210040891A (ko) 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
CN109446274B (zh) 大数据平台bi元数据管理的方法和装置
US11016730B2 (en) Transforming a transactional data set to generate forecasting and prediction insights
US10031901B2 (en) Narrative generation using pattern recognition
Agrahari et al. A review paper on Big Data: technologies, tools and trends
CN112801607A (zh) 一种管理服务平台及构建方法
US10984444B2 (en) Systems and methods for generating intelligent account reconfiguration offers
US9870422B2 (en) Natural language search
US20130304802A1 (en) Asynchronous, passive knowledge sharing system and method
CN112597348A (zh) 一种大数据存储优化的方法及装置
CN112084190A (zh) 一种基于大数据的采集数据实时存储与管理系统和方法
CN115640300A (zh) 一种大数据管理方法、系统、电子设备和存储介质
US20210264312A1 (en) Facilitating machine learning using remote data
Ghane Big data pipeline with ML-based and crowd sourced dynamically created and maintained columnar data warehouse for structured and unstructured big data
CN115422305A (zh) 网络社交媒体数据管理方法及装置
KR101471522B1 (ko) 콘텐츠의 생성 및 소비에 기반한 개인 정보 제공 시스템
Kaufhold et al. Cross-Media Usage of Social Big Data for Emergency Services and Volunteer Communities: Approaches, Development and Challenges of Multi-Platform Social Media Services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination