CN112597232A - 一种数据集散发布方法及系统 - Google Patents

一种数据集散发布方法及系统 Download PDF

Info

Publication number
CN112597232A
CN112597232A CN202011587648.5A CN202011587648A CN112597232A CN 112597232 A CN112597232 A CN 112597232A CN 202011587648 A CN202011587648 A CN 202011587648A CN 112597232 A CN112597232 A CN 112597232A
Authority
CN
China
Prior art keywords
data
extraction
subsystem
analysis
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011587648.5A
Other languages
English (en)
Inventor
姚文巨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xiaocancan Network Technology Co ltd
Original Assignee
Nanjing Xiaocancan Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xiaocancan Network Technology Co ltd filed Critical Nanjing Xiaocancan Network Technology Co ltd
Priority to CN202011587648.5A priority Critical patent/CN112597232A/zh
Publication of CN112597232A publication Critical patent/CN112597232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理领域,具体公开了一种数据集散发布方法及系统,所述方法包括:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;数据抽取过程,基于上述分发的数据并对数据进行规则算法抽取、合并以及数据抽取数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。本发明能对数据进行集散处理,使得系统中在获取不同的数据时更有效的对数据进行处理,操作方便,提高数据获取效率。

Description

一种数据集散发布方法及系统
技术领域
本发明涉及数据处理领域,具体为一种数据集散发布方法及系统。
背景技术
随着经济和科技的不断发展,现实世界中各方面的数据量也急剧增长。数据驱动的智能系统就成为了人工智能和机器学习的前沿重要研究课题。传统的技术已经无法支撑对庞大数据的处理,并且从现存的数据分类算法来看,很多算法也都是基于大规模的学习样本来训练得到分类参数。但当移动终端时代的来临,学习样本的数量严重制约了相应的智能数据分类系统的应用与推广,并且其中的噪声数据也会影响分类系统的准确性。为了提升相应智能系统的性能,数据的数据集散发布就成为了必要的技术。
当前数据集散处理在数据采集、分析、展现上存在以下薄弱点:缺乏对重要实时数据统一集散的系统,来实现重要数据的采集存储、监控告警、追溯分析等功能,同时针对多维度统计分析困难,不利于整体数据的集散发布。
发明内容
本发明的目的在于提供一种数据集散发布方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种数据集散发布方法,包括如下步骤:
S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;
S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;
S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。
优选的,S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。
优选的,S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。
优选的,S2中具体包括:S21:通过关联规则算法对分发的原始数据进行抽取,得到预处理数据结果表;S22:通过hive连接算法将预处理数据结果表进行合并,并将其导入至大数据平台;S23:大数据平台基于相关度从预处理数据中提取关键数据;且相关度公式为
Figure BDA0002867701010000021
其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;S24:使用深度学习对提取的关键数据进行实体识别和关系抽取
优选的,S3中数据展现通过报表方式和/或数据看板的方式进行数据展现,其中数据看板是将数据按照相关的数据分析模型进行数据抽取,并使用图表、数据表格进行。
本发明还提供了上述一种数据集散发布系统,所述据集散发布系统包括采集端口、数据预处理子系统、数据分析子系统与数据发布子系统,其中采集端口设有多路,多路采集原始数据,并将该原始数据发送至数据预处理子系统;所述数据预处理子系统基于规则算法与抽取算法对采集的数据进行预处理、标记、分发、抽取以及数据分析;所述数据发布子系统包含有多维数据库以及数据发布库,多维数据库将分析处理后的数据进行存储以及数据展现,数据发布库将分析处理后的数据进行发布。
与现有技术相比,本发明的有益效果是:
本发明能对数据进行集散处理,使得系统中在获取不同的数据时更有效的对数据进行处理,操作方便,提高数据获取效率,同时保障了数据稳定性和可用性;通过分析系统对数据进行分析后,可通过数据发布库将分析处理后的数据进行发布。
附图说明
图1为本发明方法的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种数据集散发布方法一种数据集散发布方法,包括如下步骤:
S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;
S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;
S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。
在本实施例中,S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。
在本实施例中,S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。
在本实施例中,S2中具体包括:S21:通过关联规则算法对分发的原始数据进行抽取,得到预处理数据结果表;S22:通过hive连接算法将预处理数据结果表进行合并,并将其导入至大数据平台;S23:大数据平台基于相关度从预处理数据中提取关键数据;且相关度公式为
Figure BDA0002867701010000041
其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;S24:使用深度学习对提取的关键数据进行实体识别和关系抽取
在本实施例中,S3中数据展现通过报表方式和/或数据看板的方式进行数据展现,其中数据看板是将数据按照相关的数据分析模型进行数据抽取,并使用图表、数据表格进行。
本发明还提供了上述一种数据集散发布系统,所述据集散发布系统包括采集端口、数据预处理子系统、数据分析子系统与数据发布子系统,其中采集端口设有多路,多路采集原始数据,并将该原始数据发送至数据预处理子系统;所述数据预处理子系统基于规则算法与抽取算法对采集的数据进行预处理、标记、分发、抽取以及数据分析;所述数据发布子系统包含有多维数据库以及数据发布库,多维数据库将分析处理后的数据进行存储以及数据展现,数据发布库将分析处理后的数据进行发布。
在本实施例中,数据分析子系统为定时处理,可设定执行时间,数据分析子系统启动时会判断当前时间是否到执行过时间,是则继续执行,否则直接结束。针对前一日和当日数据进行分析处理,并把处理结果保存到数据库。针对前一周和当周数据进行分析处理,并把处理结果保存到数据库。针对前一月和当月数据进行分析处理,并把处理结果保存到数据库。针对前一年和当年数据进行分析处理,并把处理结果保存到数据库,可以提高业务准确度,降低运营成本,以及可以避免数据反复处理,提高处理效率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种数据集散发布方法,其特征在于,包括如下步骤:
S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;
S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;
S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。
2.根据权利要求1所述的一种数据集散发布方法,其特征在于,所述S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。
3.根据权利要求2所述的一种数据集散发布方法,其特征在于,所述S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。
4.根据权利要求1所述的一种数据集散发布方法,其特征在于,所述S2中具体包括:
S21:通过关联规则算法对分发的原始数据进行抽取,得到预处理数据结果表;
S22:通过hive连接算法将预处理数据结果表进行合并,并将其导入至大数据平台;
S23:大数据平台基于相关度从预处理数据中提取关键数据;
且相关度公式为
Figure FDA0002867699000000021
其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;
S24:使用深度学习对提取的关键数据进行实体识别和关系抽取。
5.根据权利要求1所述的一种数据集散发布方法,其特征在于,所述S3中数据展现通过报表方式和/或数据看板的方式进行数据展现,其中数据看板是将数据按照相关的数据分析模型进行数据抽取,并使用图表、数据表格进行。
6.一种数据集散发布系统,其特征在于,包括采集端口、数据预处理子系统、数据分析子系统与数据发布子系统,其中采集端口设有多路,多路采集原始数据,并将该原始数据发送至数据预处理子系统;所述数据预处理子系统基于规则算法与抽取算法对采集的数据进行预处理、标记、分发、抽取以及数据分析;所述数据发布子系统包含有多维数据库以及数据发布库,多维数据库将分析处理后的数据进行存储以及数据展现,数据发布库将分析处理后的数据进行发布。
CN202011587648.5A 2020-12-29 2020-12-29 一种数据集散发布方法及系统 Pending CN112597232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011587648.5A CN112597232A (zh) 2020-12-29 2020-12-29 一种数据集散发布方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011587648.5A CN112597232A (zh) 2020-12-29 2020-12-29 一种数据集散发布方法及系统

Publications (1)

Publication Number Publication Date
CN112597232A true CN112597232A (zh) 2021-04-02

Family

ID=75204099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011587648.5A Pending CN112597232A (zh) 2020-12-29 2020-12-29 一种数据集散发布方法及系统

Country Status (1)

Country Link
CN (1) CN112597232A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289915A (zh) * 2011-06-24 2011-12-21 贵州东方世纪科技有限责任公司 一种灾害监测预警系统
CN106055613A (zh) * 2016-05-26 2016-10-26 华东理工大学 一种基于混合范数的数据分类训练数据库清洗方法
CN109408448A (zh) * 2018-12-05 2019-03-01 江苏恒创软件有限公司 一种能够对数据进行集中处理一体化数据展现平台
CN111177220A (zh) * 2019-12-26 2020-05-19 中国平安财产保险股份有限公司 基于大数据的数据分析方法、装置、设备及可读存储介质
CN111652704A (zh) * 2020-06-09 2020-09-11 唐松 一种基于知识图谱和图深度学习的金融信用风险评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289915A (zh) * 2011-06-24 2011-12-21 贵州东方世纪科技有限责任公司 一种灾害监测预警系统
CN106055613A (zh) * 2016-05-26 2016-10-26 华东理工大学 一种基于混合范数的数据分类训练数据库清洗方法
CN109408448A (zh) * 2018-12-05 2019-03-01 江苏恒创软件有限公司 一种能够对数据进行集中处理一体化数据展现平台
CN111177220A (zh) * 2019-12-26 2020-05-19 中国平安财产保险股份有限公司 基于大数据的数据分析方法、装置、设备及可读存储介质
CN111652704A (zh) * 2020-06-09 2020-09-11 唐松 一种基于知识图谱和图深度学习的金融信用风险评估方法

Similar Documents

Publication Publication Date Title
CN112148772A (zh) 告警根因识别方法、装置、设备和存储介质
CN107577688A (zh) 基于媒体信息采集的原创文章影响力分析系统
CN111401149B (zh) 基于长短期时域建模算法的轻量级视频行为识别方法
CN112258254B (zh) 基于大数据架构的互联网广告风险监测方法及系统
CN106055613A (zh) 一种基于混合范数的数据分类训练数据库清洗方法
CN111782806A (zh) 一种基于人工智能算法的相似上市企业检索分类方法及系统
CN104881427A (zh) 一种面向电网调控运行的数据血统分析方法
CN115759640A (zh) 一种智慧城市的公共服务信息处理系统及方法
CN112532652A (zh) 一种基于多源数据的攻击行为画像装置及方法
CN115834368A (zh) 一种识别网络空间资产信息的系统
CN113409555A (zh) 一种基于物联网的实时报警联动方法及系统
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN115795329A (zh) 一种基于大数据网格下的用电异常行为分析方法和装置
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN103605607A (zh) 一种软件复杂度分析系统及方法
CN118035710A (zh) 一种典型场景发电特征的提取方法
CN113723501A (zh) 一种病原微生物参考知识库的最大多样性聚类构建方法
CN113127464A (zh) 农业大数据环境特征处理方法、装置及电子设备
CN112597232A (zh) 一种数据集散发布方法及系统
CN112003884B (zh) 一种网络资产的采集和自然语言检索方法
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
CN112185083A (zh) 一种重复报警判断方法
CN114004408B (zh) 一种基于数据分析的用户电力负荷预测方法
CN114490645A (zh) 一种用于电网结构化数据的自动机器学习方法
CN113792111A (zh) 一种基于分布式存储的非结构化数据管理系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210402