CN114462834A - 一种基于多渠道数据融合的区域画像构建方法及系统 - Google Patents
一种基于多渠道数据融合的区域画像构建方法及系统 Download PDFInfo
- Publication number
- CN114462834A CN114462834A CN202210076770.9A CN202210076770A CN114462834A CN 114462834 A CN114462834 A CN 114462834A CN 202210076770 A CN202210076770 A CN 202210076770A CN 114462834 A CN114462834 A CN 114462834A
- Authority
- CN
- China
- Prior art keywords
- data
- different
- regional
- index
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 238000010276 construction Methods 0.000 title claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 238000011161 development Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 17
- 230000007613 environmental effect Effects 0.000 claims description 11
- 238000013075 data extraction Methods 0.000 claims description 10
- 238000010219 correlation analysis Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 9
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010224 classification analysis Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000008719 thickening Effects 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 4
- 238000013501 data transformation Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004519 manufacturing process Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于多渠道数据融合的区域画像构建方法,通过多渠道采集区域的多维度数据并进行数据预处理;对预处理后的数据进行指标数据计算,确定不同指标体系的特征值;基于得到的特征值进行数据对比以及区域画像。本发明提供基于多渠道数据融合的一体化的数据解决方案,以海量数据和大数据技术为基础,以宏观分析和微观透视相结合,实现全局可视、智能分析,能够为政府促进区域经济提供支撑,实现以数据驱动经济增长。
Description
技术领域
本发明属于大数据技术领域,特别是涉及到一种基于多渠道数据融合的区域画像构建方法及系统。
背景技术
区域画像是一种基于区域的数据模型,包括区域资源、环境保护、区域人口、劳动资料、区域经济在内的多维度数据。为了使各区域指标数据的呈现更为直观明了,辅助决策者快速准确定位区域发展的优劣势情况,需要对区域画像进行构建。
发明内容
本发明提出一种基于多渠道数据融合的区域画像构建方法及系统,以海量数据和大数据技术为基础,实现全局可视、智能分析,能够为促进区域发展提供技术支撑。
为了实现上述目的,本发明的技术方案是这样实现的:
一种基于多渠道数据融合的区域画像构建方法,包括:
S1、通过多渠道采集区域的多维度数据并进行数据预处理;
S2、对步骤S1预处理后的数据进行指标数据计算,确定不同指标体系的特征值;
S3、基于步骤S2得到的特征值进行数据对比以及区域画像。
进一步的,步骤S1中所述区域的多维度数据包括区域资源、环境保护、区域人口、劳动资料、区域经济的统计数据;所述通过多渠道采集的方法包括根据统计年鉴数据,政府工作报告数据,业务系统数据,网站发布的环境、资源、人口、经济指标数据的各自更新频次进行周期性数据采集。
进一步的,步骤S1中所述数据预处理的方法包括数据抽取、数据清洗、数据转换、数据存储。
进一步的,步骤S2的具体方法包括:
S201、分类分析:
采用数量指标分组分析法,根据不同维度、不同数量级指标,分别采用单项式分组和组距式分组;根据数据特性不同,采用等距分组和不等距分组的分别处理;
S201、聚类分析:
通过对特定分析目的和发展视角所挑选出的指标变量进行聚类分析,把特定指标划分成几个具有明显特征区别的范围;
S203、特征值提取:
将步骤S201和S202的分析结果数据进行综合应用,对各不同维度、不同衡量单位、不同规模量级的宏观经济指标进行分析,提取出应用于区域画像需要的变量特征;对不同区域、相同级别、相同维度的指标使用同一特征值,以获得最佳展示效果。
进一步的,步骤S3的具体方法包括:
S301、基本维度对比:
定义一个维度进行数据对比分析,常用一维分类;
S302、横向对比:
对于固定时间范围不同区域的一个或一组数据指标进行对比;
S303、纵向对比:
对于固定区域不同时间范围的一个或一组数据指标进行对比;
S304、区域画像:
不同分类的指标用不同位置和不同颜色表示以示区分,每个分类用一个关键指标通过加粗的方式重点显示,以每个分类的关键指标作为依据,画连接线将关键指标进行连接,产生区域画像轮廓;
S305、区域分析:
对区域的5个维度进行综合分析,按照维度的相互关系进行关联分析,挖掘区域经济发展要素。
本发明另一方面还提出了一种基于多渠道数据融合的区域画像构建系统,包括:
采集模块,通过多渠道采集区域的多维度数据并进行数据预处理;
特征值模块,对采集模块预处理后的数据进行指标数据计算,确定不同指标体系的特征值;
区域画像模块,基于特征值模块得到的特征值进行数据对比以及区域画像。
进一步的,采集模块包括:
多维度数据划分单元,划分为区域资源、环境保护、区域人口、劳动资料、区域经济的统计数据;
多渠道采集单元,根据统计年鉴数据,政府工作报告数据,业务系统数据,网站发布的环境、资源、人口、经济指标数据的各自更新频次进行周期性数据采集。
进一步的,采集模块还包括数据抽取单元、数据清洗单元、数据转换单元、数据存储单元。
进一步的,特征值模块包括:
分类分析单元:采用数量指标分组分析法,根据不同维度、不同数量级指标,分别采用单项式分组和组距式分组;根据数据特性不同,采用等距分组和不等距分组的分别处理;
聚类分析单元:通过对特定分析目的和发展视角所挑选出的指标变量进行聚类分析,把特定指标划分成几个具有明显特征区别的范围;
特征值提取单元:将分类分析单元和聚类分析单元的分析结果数据进行综合应用,对各不同维度、不同衡量单位、不同规模量级的宏观经济指标进行分析,提取出应用于区域画像需要的变量特征;对不同区域、相同级别、相同维度的指标使用同一特征值,以获得最佳展示效果。
进一步的,区域画像模块包括:
基本维度对比单元:定义一个维度进行数据对比分析,常用一维分类;
横向对比单元:对于固定时间范围不同区域的一个或一组数据指标进行对比;
纵向对比单元:对于固定区域不同时间范围的一个或一组数据指标进行对比;
区域画像单元:不同分类的指标用不同位置和不同颜色表示以示区分,每个分类用一个关键指标通过加粗的方式重点显示,以每个分类的关键指标作为依据,画连接线将关键指标进行连接,产生区域画像轮廓;
区域分析单元:对区域的5个维度进行综合分析,按照维度的相互关系进行关联分析,挖掘区域经济发展要素。
与现有技术相比,本发明具有如下的有益效果:
本发明设计一种基于多渠道数据融合的区域画像构建方法及系统,提供基于多渠道数据融合的一体化的数据解决方案,以海量数据和大数据技术为基础,实现全局可视、智能分析,能够为政府促进区域经济提供支撑,实现以数据驱动经济增长。
附图说明
图1是本发明实施例的流程示意图;
图2是本发明实施例的通过画像得到的区域发展类型对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明做进一步说明。
本发明的具体步骤如图1所示,包括如下:
步骤一:底层数据提取:数据采集,数据抽取,数据清洗,数据转换,数据存储的过程。
1.1、多维度数据采集:
多维度数据采集渠道包括统计年鉴数据、政府工作报告、业务系统数据、网站发布的环境、资源、人口、经济指标等。不同渠道的采集方式不同,如针对统计年鉴数据、政府工作报告,使用数据管理程序进行指标数据的解析;针对网站发布数据,使用爬虫技术采集;针对业务系统数据,采用ETL工具获取;获取到的数据在数据利用前都要经过审核校验。
根据不同渠道来源的更新频次进行周期性数据采集,采集结果为不同格式和类型的数据,采集的方式可以正常收集或使用爬虫技术采集等等。
1.2、数据抽取:
使用定时任务,采用增量数据抽取方式,将各个不同渠道数据的数据源抽取到ODS中。所述增量数据抽取方式是指只抽取自上次抽取以来数据库中符合抽取条件的记录中新增或修改的数据;具体过程包括:记录系统每次抽取数据的时间,与数据源中记录的更新时间对比,每次抽取自上次抽取时间后新增或更新的数据记录。
1.3、数据清洗:
从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题;其中:
准确性:使用国家统计等官方统计发布的数据保证数据准确性;
完整性:对同一指标,保证能获取到每年度各个区域的数据;
一致性:对同一指标数据,使用同一个统计口径的数据;
惟一性:每个指标仅使用一次;
适时性:根据国家统计数据的发布时间,及时更新指标数据;
有效性:经过审核认证,可以有效反应区域经济发展情况。
1.4、数据转换:
对采集的各种渠道数据进行格式转换,包括:
(1)形成编码规范统一的数据,包括时间、区域、指标代码、指标名称、指标类别、指标单位、指标数值;
(2)对编码规范统一的数据从时间、区域、类别等多个维度进行切片、切块处理;
切片处理:按照区域资源、环境保护、区域人口、劳动资料、区域经济区分指标类别;
切块处理:切片处理后的进一步区分,如区域资源又分为土地面积、粮食产量、交通、能源、水资源、地价类别。
1.5、数据存储:
将经过数据转换后的数据按照时间、区域、类别规则存储到数据库;其中所述类别规则包括反映区域经济画像的指标,分为5大类、20小类。
步骤二:通过大数据算法进行不同规模、不同数量级的指标数据计算,确定不同指标体系的特征值。
2.1、分类分析:
采用数量指标分组分析法。根据不同维度、不同数量级指标,分别采用单项式分组和组距式分组。根据数据特性不同,采用等距分组和不等距分组的分别处理;
具体而言,对于同一类别下同一计量单位的指标,采用等距分组;对于不同类别或不同计量单位的指标,采用不等距分组;如地区生产总值的单位是亿元,居民人均可支配收入的单位是元,人均消费支出的单位是元,居民人均可支配收入和人均消费支出采用等距分组;地区生产总值和居民人均可支配收入采用不等距分组。
2.2、聚类分析
通过对特定分析目的和发展视角所挑选出的指标变量进行聚类分析,这里所述的特定分析目的和发展视角例如环境保护,挑选出的指标变量可以包括空气质量综合指数、PM2.5浓度、草原面积、林业面积等指标,综合分析区域的环境保护;聚类分析是根据指标变量的本身特征属性进行聚类,把指标变量划分成几个具有明显特征区别的范围,从而可以在区域经济发展中对这些细分指标采取分析对比,以挖掘经济形态运行规律(如把空气质量综合指数、PM2.5浓度、草原面积、林业面积等聚类分析后得到不同区域环境保护等级)。
2.3、特征值提取:
将以上分析结果进行综合应用,对各不同维度、不同衡量单位、不同规模量级的宏观经济指标进行分析,提取出应用于区域画像需要的变量特征的特征值;其中所述不同维度是通过对每个指标添加指标分类属性区分不同维度;如区域经济的进出口维度还是区域人口的受教育程度;所述不同衡量单位通过指标的计量单位体现,如亿元、元、万美元等;所述不同规模量级通过指标数值体现;所述变量特征是指对于同一区域不同指标的基准值;根据不同指标,计算该指标同一时间各个区域的最大值、最小值以及基准值;针对不同区域的相同指标使用同一基准值,相同指标可以横向对比;如果宽度较大,说明该指标数据大,宽度较小,说明该指标数据小。所以,针对不同地区的相同指标参考标准是一样的,以各区域中该指标的最大值作为区域经济画像能展示的最大宽度值,其他区域该指标的宽度都参考最大宽度计算得出;如唐山市2019年地区生产总值的值在各市级行政区域中数据最大,地区生产总值指标的最大宽度就是唐山市的值,其他区域地区生产总值指标的宽度以唐山市的宽度为参考计算得出;
对不同区域、相同级别、相同维度的指标使用同一特征值,以获得最佳展示效果。如各区域人均地区生产总值、人均可支配收入、人均消费支出属于同类指标,使用相同特征值;各区域进出口总额和人均地区生产总值使用不同特征值。
步骤三:将特征值进行对比分析和区域画像,以产品化、可视化的形态应用在业务上。
3.1、基本维度分析:
定义一个维度(标准)进行数据分析,常用一维分类。如某区域本季度的地区生产总值的绝对值;与之对应的第一产业、第二产业、第三产业地区生产总值等。
3.2、横向对比
对于固定时间范围的一个或一组数据指标的区域间对比。如2020年两个或多个区域间土地总面积、总播种面积、耕地面积的对比结果。
3.3、纵向对比
对于固定区域不同时间范围的一个或一组数据指标的对比。如某区域自2010年至2020年十年期间城镇居民人口数量、农村居民人口数量的变化结果,反映该区域的城镇化历程。
3.4、区域画像
不同分类的指标用不同位置和不同颜色表示以示区分,每个分类用一个关键指标通过加粗的方式重点显示,以每个分类的关键指标作为依据,画连接线将关键指标进行连接,产生区域画像轮廓。通过画像轮廓的不同结构,快速判断区域经济发展属于平衡发展型、创新发展型、人口优势型或资源优势型等。
如图2所示为几种不同发展类型的区域画像,每个区域画像自下而上将区域经济分为区域资源1、环境保护2、区域人口3、劳动资料4、区域经济5这总共5个分类;每个分类都有一个关键指标,例如区域经济采用地区生产总值;区域人口采用区域总人口;该指标宽度越大,表示该指标的数值越大;
以区域画像每个分类的关键指标作为依据,画连接线将关键指标进行连接,产生区域经济画像。画连接线的核心步骤为确定控制点的左侧坐标位置和右侧坐标位置。如图2中所示,区域资源1的关键指标为最下面加粗的土地面积,环境保护2的关键指标为最下面加粗的空气质量综合指数,区域人口3的关键指标为最下面加粗的区域总人口、劳动资料4的关键指标为最下面加粗的农业机械总动力、区域经济5的关键指标为最下面加粗的地区生产总值;画连接线将关键指标进行连接得到区域画像,根据各个区域画像中各分类的轮廓,得到图2中几种不同的发展类型,如平衡发展型、创新发展型、人口优势型,资源优势型。
3.5、区域分析
对区域的5个维度进行综合分析,按照维度的相互关系进行关联分析,如年龄分布、性别分布、受教育程度对区域经济活力、创新能力、消费能力的作用与影响等,具体关联分析的方法是通过相关性分析衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。衡量变量元素之间的相关性最主要的判断依据为元素间的相关系数。相关系数的取值一般介于-1~1之间,相关系数的绝对值越大则代表其相关程度越高。
经过关联分析,挖掘区域经济发展要素,坚持经济运行状态,能够为区域经济发展提供数据支撑、能力支撑、决策支撑。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多渠道数据融合的区域画像构建方法,其特征在于,包括:
S1、通过多渠道采集区域的多维度数据并进行数据预处理;
S2、对步骤S1预处理后的数据进行指标数据计算,确定不同指标体系的特征值;
S3、基于步骤S2得到的特征值进行数据对比以及区域画像。
2.根据权利要求1所述的基于多渠道数据融合的区域画像构建方法,其特征在于,步骤S1中所述区域的多维度数据包括区域资源、环境保护、区域人口、劳动资料、区域经济的统计数据;所述通过多渠道采集的方法包括根据统计年鉴数据,政府工作报告数据,业务系统数据,网站发布的环境、资源、人口、经济指标数据的各自更新频次进行周期性数据采集。
3.根据权利要求1所述的基于多渠道数据融合的区域画像构建方法,其特征在于,步骤S1中所述数据预处理的方法包括数据抽取、数据清洗、数据转换、数据存储。
4.根据权利要求1所述的基于多渠道数据融合的区域画像构建方法,其特征在于,步骤S2的具体方法包括:
S201、分类分析:
采用数量指标分组分析法,根据不同维度、不同数量级指标,分别采用单项式分组和组距式分组;根据数据特性不同,采用等距分组和不等距分组的分别处理;
S201、聚类分析:
通过对特定分析目的和发展视角所挑选出的指标变量进行聚类分析,把特定指标划分成几个具有明显特征区别的范围;
S203、特征值提取:
将步骤S201和S202的分析结果数据进行综合应用,对各不同维度、不同衡量单位、不同规模量级的宏观经济指标进行分析,提取出应用于区域画像需要的变量特征;对不同区域、相同级别、相同维度的指标使用同一特征值,以获得最佳展示效果。
5.根据权利要求1所述的基于多渠道数据融合的区域画像构建方法,其特征在于,步骤S3的具体方法包括:
S301、基本维度对比:
定义一个维度进行数据对比分析,常用一维分类;
S302、横向对比:
对于固定时间范围不同区域的一个或一组数据指标进行对比;
S303、纵向对比:
对于固定区域不同时间范围的一个或一组数据指标进行对比;
S304、区域画像:
不同分类的指标用不同位置和不同颜色表示以示区分,每个分类用一个关键指标通过加粗的方式重点显示,以每个分类的关键指标作为依据,画连接线将关键指标进行连接,产生区域画像轮廓;
S305、区域分析:
对区域的5个维度进行综合分析,按照维度的相互关系进行关联分析,挖掘区域经济发展要素。
6.一种基于多渠道数据融合的区域画像构建系统,其特征在于,包括:
采集模块,通过多渠道采集区域的多维度数据并进行数据预处理;
特征值模块,对采集模块预处理后的数据进行指标数据计算,确定不同指标体系的特征值;
区域画像模块,基于特征值模块得到的特征值进行数据对比以及区域画像。
7.根据权利要求6所述的一种基于多渠道数据融合的区域画像构建系统,其特征在于,采集模块包括:
多维度数据划分单元,划分为区域资源、环境保护、区域人口、劳动资料、区域经济的统计数据;
多渠道采集单元,根据统计年鉴数据,政府工作报告数据,业务系统数据,网站发布的环境、资源、人口、经济指标数据的各自更新频次进行周期性数据采集。
8.根据权利要求6所述的一种基于多渠道数据融合的区域画像构建系统,其特征在于,采集模块还包括数据抽取单元、数据清洗单元、数据转换单元、数据存储单元。
9.根据权利要求6所述的一种基于多渠道数据融合的区域画像构建系统,其特征在于,特征值模块包括:
分类分析单元:采用数量指标分组分析法,根据不同维度、不同数量级指标,分别采用单项式分组和组距式分组;根据数据特性不同,采用等距分组和不等距分组的分别处理;
聚类分析单元:通过对特定分析目的和发展视角所挑选出的指标变量进行聚类分析,把特定指标划分成几个具有明显特征区别的范围;
特征值提取单元:将分类分析单元和聚类分析单元的分析结果数据进行综合应用,对各不同维度、不同衡量单位、不同规模量级的宏观经济指标进行分析,提取出应用于区域画像需要的变量特征;对不同区域、相同级别、相同维度的指标使用同一特征值,以获得最佳展示效果。
10.根据权利要求6所述的一种基于多渠道数据融合的区域画像构建系统,其特征在于,区域画像模块包括:
基本维度对比单元:定义一个维度进行数据对比分析,常用一维分类;
横向对比单元:对于固定时间范围不同区域的一个或一组数据指标进行对比;
纵向对比单元:对于固定区域不同时间范围的一个或一组数据指标进行对比;
区域画像单元:不同分类的指标用不同位置和不同颜色表示以示区分,每个分类用一个关键指标通过加粗的方式重点显示,以每个分类的关键指标作为依据,画连接线将关键指标进行连接,产生区域画像轮廓;
区域分析单元:对区域的5个维度进行综合分析,按照维度的相互关系进行关联分析,挖掘区域经济发展要素。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022100351892 | 2022-01-13 | ||
CN202210035189 | 2022-01-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462834A true CN114462834A (zh) | 2022-05-10 |
Family
ID=81412465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210076770.9A Pending CN114462834A (zh) | 2022-01-13 | 2022-01-24 | 一种基于多渠道数据融合的区域画像构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462834A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596133A (zh) * | 2024-01-18 | 2024-02-23 | 山东中测信息技术有限公司 | 基于多维数据的业务画像及异常监测系统及监测方法 |
CN118227666A (zh) * | 2024-04-12 | 2024-06-21 | 中国标准化研究院 | 基于指数量化模型的区域发展数据对比查询方法 |
-
2022
- 2022-01-24 CN CN202210076770.9A patent/CN114462834A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596133A (zh) * | 2024-01-18 | 2024-02-23 | 山东中测信息技术有限公司 | 基于多维数据的业务画像及异常监测系统及监测方法 |
CN117596133B (zh) * | 2024-01-18 | 2024-04-05 | 山东中测信息技术有限公司 | 基于多维数据的业务画像及异常监测系统及监测方法 |
CN118227666A (zh) * | 2024-04-12 | 2024-06-21 | 中国标准化研究院 | 基于指数量化模型的区域发展数据对比查询方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114462834A (zh) | 一种基于多渠道数据融合的区域画像构建方法及系统 | |
CN109101632A (zh) | 基于制造大数据的产品质量异常数据追溯分析方法 | |
CN103605651A (zh) | 一种基于olap多维分析的数据处理展现方法 | |
CN107203849B (zh) | 基于大数据的区域人才供给量化分析方法 | |
CN108256032B (zh) | 一种对时空数据的共现模式进行可视化的方法及装置 | |
Hira et al. | Data analysis using multidimensional modeling, statistical analysis and data mining on agriculture parameters | |
CN115563493A (zh) | 一种基于聚类算法划分乡村景观生态单元的方法 | |
CN101706926A (zh) | 一种卷烟消费信息调查及处理方法 | |
CN117668583A (zh) | 一种基于人工智能投资研究的投资优化方法 | |
CN107908784A (zh) | 一种基于大数据的矿产资源储量动态管理方法及其系统 | |
CN112860769A (zh) | 一种能源规划数据管理系统 | |
CN115952914A (zh) | 一种基于大数据的电力计量运维工作判别规划方法 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
CN102855354B (zh) | 一种面向工业企业在线多维能耗数据统计建模方法 | |
CN117056666A (zh) | 一种基于共方分析的烟叶配方维护方法 | |
CN112256681A (zh) | 一种空管数字化指标应用系统及方法 | |
CN105022724A (zh) | 一种基于统计数据与制图需求的统计符号自动选择方法 | |
CN116384949A (zh) | 一种基于数字化管理的智慧政务信息数据管理系统 | |
CN116578628A (zh) | 一种长江航道大数据业务分析方法及装置 | |
CN106651630A (zh) | 关键用电行业识别方法和系统 | |
CN115249044A (zh) | 坡体灾害性变形阶段识别方法、滑坡风险预警方法 | |
CN109388633B (zh) | 一种数据清洗方法 | |
Liu et al. | The uncertainties on the GIS based land suitability assessment for urban and rural planning | |
CN110781245A (zh) | 民族文化知识数据仓库的构建方法 | |
CN117891887B (zh) | 基于gis数据共同构建空间语义数据库的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |