CN105426434A - 基于多维度的人口信息统计分析系统 - Google Patents
基于多维度的人口信息统计分析系统 Download PDFInfo
- Publication number
- CN105426434A CN105426434A CN201510742617.5A CN201510742617A CN105426434A CN 105426434 A CN105426434 A CN 105426434A CN 201510742617 A CN201510742617 A CN 201510742617A CN 105426434 A CN105426434 A CN 105426434A
- Authority
- CN
- China
- Prior art keywords
- data
- population
- statistics
- demographic
- statistical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开基于多维度的人口信息统计分析系统,包括:数据库,用于存储人口统计的表格数据,该表格数据包括不同年度、不同行政级别、不同类型的人口属性数据,并对从人口数据源表中获取的增量数据按照设定的过滤规则进行处理,并按照设定的映射规则存储处理得到的增量人口数据,以供各功能模块获取所需的人口数据;统计管理模块,用于获取人口数据的基本状况,并对人口数据进行管理;分析模块,用于把人口数据通过设定的专题分析将人口统计数据转化为可视化的统计分析报表。
Description
技术领域
本发明涉及人口管理领域,具体而言,涉及基于多维度的人口信息统计分析系统。
背景技术
统计分析服务目标是以公安部人口基础信息和人口业务管理信息数据为基础,建立完善的人口统计分析指标体系模型,运用先进的统计分析和数据挖掘信息技术手段,实现人口信息的统计、分析和发展预测。为公安用户提供人口管理业务统计和预警服务,为政府各部门的宏观决策提供人口统计数据和人口发展预测数据服务,为社会各类机构提供人口分析数据,为人口研究机构提供权威动态的全国人口基础数据和分析研究的工具。
发明内容
本发明提供基于多维度的人口信息统计分析系统,用以实现人口数据信息的快速统计分析。
为达到上述目的,本发明提供了基于多维度的人口信息统计分析系统,包括:
数据库,用于存储人口统计的表格数据,该表格数据包括不同年度、不同行政级别、不同类型的人口属性数据,并对从人口数据源表中获取的增量数据按照设定的过滤规则进行处理,并按照设定的映射规则存储处理得到的增量人口数据,以供各功能模块获取所需的人口数据;
统计管理模块,用于获取人口数据的基本状况,并对人口数据进行管理;
分析模块,用于把人口数据通过设定的专题分析将人口统计数据转化为可视化的统计分析报表。
进一步地,所述统计管理模块包括:
数据管理单元,用于通过维度管理的方式对人口数据进行管理;
数据查询单元,用于通过用户输入的特定维度,对数据进行筛选查询,得到所述特定维度的人口基本数据;
统计图表单元;用于制作统计图表,以直观体现人口数据之间的差异和联系。
进一步地,所述分析模块包括:
专题统计单元,用于提供若干专题统计对人口统计信息进行图形化、结构化表达;
专题图表化单元,用于将人口统计数据转化为可视化的图表。
进一步地,所述数据库通过创建索引提高检索效率,通过索引把数据表中的逻辑值映射到安全的RowID,定位数据的物理地址,以加快数据库的查询速度。
附图说明
图1为本发明一个实施例的基于多维度的人口信息统计分析系统示意图;
图2为本发明一个实施例的基于多维度的人口信息统计分析系统的功能示意图;
图3为本发明一个实施例的总体流程图;
图4为本发明一个实施例的人口基本信息数据抽取分析处理流程图;
图5为本发明一个实施例的人口变动数据抽取分析处理流程图;
图6为本发明一个实施例的数据量分析流程示意图;
图7为本发明一个实施例的人口基本信息统计数据模型示意图;
图8为本发明一个实施例的人口机械变动分析数据模型示意图;
图9为本发明一个实施例的户籍变动分析主题数据模型示意图;
图10为本发明一个实施例的DataSource的属性页面示意图。
具体实施方式
图1为本发明一个实施例的基于多维度的人口信息统计分析系统示意图;图2为本发明一个实施例的基于多维度的人口信息统计分析系统的功能示意图;如图所示,该基于多维度的人口信息统计分析系统包括:
数据库10,用于存储人口统计的表格数据,该表格数据包括不同年度、不同行政级别、不同类型的人口属性数据,并对从人口数据源表中获取的增量数据按照设定的过滤规则进行处理,并按照设定的映射规则存储处理得到的增量人口数据,以供各功能模块获取所需的人口数据;
统计管理模块20,用于获取人口数据的基本状况,并对人口数据进行管理;
分析模块30,用于把人口数据通过设定的专题分析将人口统计数据转化为可视化的统计分析报表。
例如,上述统计管理模块可以包括:数据管理单元,用于通过维度管理的方式对人口数据进行管理;数据查询单元,用于通过用户输入的特定维度,对数据进行筛选查询,得到特定维度的人口基本数据;统计图表单元;用于制作统计图表,以直观体现人口数据之间的差异和联系。
例如,上述分析模块可以包括:专题统计单元,用于提供若干专题统计对人口统计信息进行图形化、结构化表达;专题图表化单元,用于将人口统计数据转化为可视化的图表。又例如,在具体实现时上述数据库可以通过创建索引提高检索效率,通过索引把数据表中的逻辑值映射到安全的RowID,定位数据的物理地址,以加快数据库的查询速度。
图3为本发明一个实施例的总体流程图;图4为本发明一个实施例的人口基本信息数据抽取分析处理流程图;图5为本发明一个实施例的人口变动数据抽取分析处理流程图。
在具体实现时,统计时间可以按如下说明设置:
(1)构成指标时间点
固定格式报表是人口构成指标的月报,反映累积到指定时间点为止人口的分布情况。以每月最后一天24时为统计数据截止时间点。
(2)变动指标时间段
固定格式报表是人口变动指标的月报、年报,反映在指定月度、年度时间范围内人口数据的变动情况。时间段为指定月度、年度第一天0时开始到最后一天24时截止。
数据来源:人口统计分析处理的数据包括两类:人口基本信息和人口管理业务信息。
人口基本信息是指全国人口基本信息资源库中的人口基本信息。
人口管理业务信息是人口管理业务中的户籍变动信息。分为落户、注销、项目变更三类。
(1)户口落户信息:包括出生登记信息、迁(划)入信息、漏登人口补录信息、国外港澳台定居及加入中国国籍申报信息、退伍转业落户信息、刑释解教落户信息、失踪人员寻回恢复户口信息;
(2)注销户口信息:迁(划)出信息、死亡注销户口信息、失踪注销户口信息、出国境定居注销户口信息、参军服兵役注销户口信息、重登误登注销户口信息。
(3)户籍项目变动信息:地址变动信息、项目变更更正信息、公民身份号码变更更正信息、户属性变更信息。
图6为本发明一个实施例的数据量分析流程示意图;如图所示,数据分析流程包括:
(1)源数据数据量
人口基本信息基数存量约2.8T,年增370G数据量。人口管理业务信息数据每年积累约457G。合计每年变更数据量827G,平均每月更新67G。
(2)统计指标数据量:人口统计数据是在保留数据实体属性(年龄、性别、地域、户别、城乡、民族、婚姻状况、文化程度、职业、兵役状况、户类型)前提下,按照所属地区级别逐级汇总,聚合数据量约为465G。人口状态可以分为两类:人口基本信息(人口构成)和人口变动。人口构成和人口变动分别描绘了人口在自然、社会、地域空间的静态分布和动态分布。两者又是密切联系的,影响人口构成差异的因素也就是影响人口变动的因素,因为人口构成是过去人口变动的结果,又是今后人口变动的基础。这二大主题是分析人口数据的核心。人口业务管理统计数据是对公安部门户籍管理管理业务数据的统计分析,反映公安管理业务落户、户籍注销、户籍项目变更的主题。公安业务管理统计是人口变更信息的一个方面。
人口基本信息主题域:人口基本信息主题域是包括有关人口的自然构成、社会构成和地域构成的信息。描述人口在某一时点的分布状态,是人口发展的快照。图7为本发明一个实施例的人口基本信息统计数据模型示意图。人口基本信息统计分析依据人口基本信息表,经过初步聚合。统计分析数据项与源数据项映射关系如下(直取指直接取原始值,不做处理)。源表:人口基本信息表;目标表:人口基本信息统计表。
人口状态可以分为两类:人口基本信息(人口构成)和人口变动。人口构成和人口变动分别描绘了人口在自然、社会、地域空间的静态分布和动态分布。两者又是密切联系的,影响人口构成差异的因素也就是影响人口变动的因素,因为人口构成是过去人口变动的结果,又是今后人口变动的基础。这二大主题是分析人口数据的核心。
人口业务管理统计数据是对公安部门户籍管理管理业务数据的统计分析,反映公安管理业务落户、户籍注销、户籍项目变更的主题。公安业务管理统计是人口变更信息的一个方面。
人口基本信息主题域:人口基本信息主题域是包括有关人口的自然构成、社会构成和地域构成的信息。描述人口在某一时点的分布状态,是人口发展的快照。人口基本信息统计分析依据人口基本信息表,经过初步聚合。统计分析数据项与源数据项映射关系如下(直取指直接取原始值,不做处理)。
源表:人口基本信息表;目标表:人口基本信息统计表。
数据记录过滤规则
数据项映射规则
维度:用于事实表的维是人口统计分组中的有关人口构成的分组标志。
度量:分布度量:人口数、户数。
数据模型应用:基于人口基本信息分析模型,从不同维度的组合,即从人口属性的多个角度,可以分析关于人口各种属性的状况统计报表。
下面详细列出报表模板样式以及其中统计指标的计算规则。总人口和性别比G2:按照数据归属单位统计总人口数、男性人数、女性人数、男性占总人口比重、女性占总人口比重、性别比。人口地区分布统计G3:按照数据归属单位统计总人口数、占总人口比重数。年龄性别统计J1:按照年龄段(包括0-10、11-20、21-30、31-40、41-50、51-60、61-70、71-80、81-90、91-100)统计人口数、占比、男性人口数、男性占比、女性人口数、女性占比。区域婚姻统计J2:按照数据归属单位统计人口总数、未婚人数、已婚人数、离婚人数、未说明的婚姻状况、丧偶人数。年龄婚姻统计J3:按照年龄段(包括21-30、31-40、41-50、51-60、61-70、71-80、81-90、91-100)统计人口总数、未婚人数、已婚人数、丧偶人数、离婚人数、未说明婚姻状况人数。区域文化程度统计J4:按照数据归属单位统计人口总数、文盲或半文盲人数、小学人数、初中人数、高中人数、中等专业学校或中等技术学校人数、技工学校人数、大学专科和专科学校人数、大学本科人数、研究生人数。年龄文化程度统计J5:按照年龄段(包括0-10、11-20、21-30、31-40、41-50、51-60、61-70、71-80、81-90、91-100)统计人口总数、文盲或半文盲人数、小学人数、初中人数、高中人数、中等专业学校或中等技术学校人数、技工学校人数、大学专科和专科学校人数、大学本科人数、研究生人数。区域民族统计J7:按照数据归属单位统计各省份总人数和各少数民族人数。区域城乡属性统计J8:按照数据归属单位统计总人数和主城区人数、主城区占比、城乡结合区人数、城乡结合区占比、镇中心区人数、镇中心区占比、镇乡结合区人数、镇乡结合区占比、其他镇区人数、其他镇区占比、乡中心区人数、乡中心区占比、村庄人数、村庄占比。城乡人口统计J8:按照数据归属单位统计主城区人数、镇中心区人数、镇乡结合区人数、乡中心区人数、其他镇区人数、村庄人数、城乡结合区人数。文化程度城乡属性统计J9:按照文化程度(包括文盲或半文盲、小学、初中、高中、中等专业学校或中等技术学校、技工学校、大学专科和专科学校、大学本科、研究生)统计人口总数和心区人数、镇乡结合区人数、乡中心区人数、其他镇区人数、村庄人数、城乡结合区人数。区域籍贯统计J10:按照数据归属单位统计总人数和籍贯为各个省份的人数。区域出生地统计J11:按照数据归属单位统计总人数和出生地为各省份的人数。
人口变动分析主题域:人口变动主题域分为自然变动、迁移变动和户籍变动主题。
人口自然变动:人口自然变动主题是指由出生和死亡所引起的人口数量的增减和人口年龄、性别构成变化的过程。人口自然变动是由社会经济因素决定的。
人口自然变动包括二个层面:人口的出生和死亡。就一个没有迁移变动的封闭人口来说,自然变动是引起人口总数变动的唯一因素。在任何社会生产方式下,出生和死亡都以生物学规律为其自然基础,但为生产力发展水平、社会经济条件、文化教育水平、卫生保健条件等所制约。人口自然变动的绝对数表现为一定时期内人口出生数和死亡数之差,通常称为人口自然增加(或减少)数。人口自然变动相对数表现为一定时期人口自然增加数和该时期平均人口数之比,通常称为人口自然增长率。人口迁移变动:人口迁移(机械)变动主题是指人口在空间上的移动,包括改变定居地点的永久性移动和暂时的移动。引起人口迁移的决定性因素,是社会的、经济的和政治的原因。人口迁移变动主题域包括二个层面:迁入和迁出。人口迁移使人口的地区分布发生变化。迁入和迁出按照范围分为地区间和地区内。按照时间长度分为永久性和暂时性。户籍变动:户籍变动主题是指在户口落户、户籍注销、户籍项目变更方面的变动,反映公安户籍管理业务的工作情况。
户口落户包括出生登记、迁(划)入、漏登人口补录、国外港澳台定居及加入中国国籍申报、退伍转业落户、刑释解教落户、失踪人员寻回恢复户口;注销户口包括迁(划)出、死亡注销户口、失踪注销户口、出国境定居注销户口、参军服兵役注销户口、重登误登注销户口。户籍项目变更包括住址变动、姓名变动、公民身份号码变更更正、户属性变更、性别变更、民族变更、出生日期变更、籍贯变更、服务处所变更、文化程度变更、婚姻状况等。户籍变动,反映人口的社会属性的变动。指人口从一个社会集团转入另一个社会集团的变动。不同的人口集团是根据一定社会的人口所具有的社会标志和经济标志而划分的。这些标志指阶层标志、民族标志、部门标志、职业标志、文化水平标志和语言标志等。人口社会变动既是社会经济条件变动的结果,同时又影响社会经济的发展。人口的社会变动改变着人口的社会构成。
人口自然变动分析主题:数据来源:(自然变动-出生);源表:出生登记信息表;目标表:人口自然变动统计表。数据记录过滤规则:
数据项映射规则
维度:
度量:分布度量:人口数。
数据应用:基于人口变动分析模型,从不同维度的组合,即从人口属性的多个角度,可以分析关于人口各种属性的变动统计报表。
人口机械变动分析主题:图8为本发明一个实施例的人口机械变动分析数据模型示意图。数据来源:机械变动-迁(划)入;源表:迁(划)入信息表;目标表:人口机械变动统计表。
(1)数据记录过滤规则
(2)数据项映射规则
机械变动-迁(划)出:源表:迁(划)出信息表;目标表:人口机械变动统计表。
(1)数据记录过滤规则
(2)数据项映射规则
1.1.1.1.1.1.1维度
分布度量:人口数
数据应用
户籍变动分析主题:图9为本发明一个实施例的户籍变动分析主题数据模型示意图。数据来源:户籍管理-项目变更;源表:项目变更更正表;目标表:户籍管理统计表。
数据记录过滤规则
(1)数据项映射规则
户籍管理-户口变动
(1)源表:户籍注销类表、户籍落户类表
(2)目标表:户籍管理统计表
(3)数据记录过滤规则
(4)数据项映射规则
维度:
1.1.1.1.1.1.2度量
分布度量:变动人口数
数据应用:
人口变动信息统计分析报表:
出生申报情况统计B1:根据数据归属单位统计出生申报情况,包括总人口、出生总数、占全部比例数、男性出生数、女性出生数、当年申报数、收养申报数、跨年申报数。
分民族出生申报情况统计B2:按照民族统计出生情况,包括总人口、出生总数、占全部比例数、男性出生数、女性出生数、当年申报出生数、收养申报出生数、跨年申报出生数等。
死亡情况统计总表B3:根据数据归属单位统计死亡情况,包括总人口、死亡总数、占全部比例数、男性死亡数、女性死亡数、正常死亡数、非正常死亡数、18岁以下死亡数、18-35岁死亡数、35-60岁死亡数、60-80岁死亡数、80岁死亡数。
分民族年龄段死亡情况统计总表B4:按照民族统计死亡情况,包括总人口、死亡总数、占全部比例数、男性死亡数、女性死亡数、正常死亡数、非正常死亡数、18岁以下死亡数、18-35岁死亡数、35-60岁死亡数、60-80岁死亡数、80岁以上死亡数等。
分区迁移情况统计B5:按照数据归属单位统计迁移情况,包括总人口、迁入数、区县内迁入数、区县内迁入比率、地市内跨区县迁入数、地市内跨区县迁入比率、省内跨地市迁入数、省内跨地市迁入比率、省外迁入人数、省外迁入比率、迁出数、区县内迁出数、区县内迁出比率、地市内跨区县迁出数、地市内跨区县迁出比率、省内跨地市迁出数、省内跨地市迁出比率、省外迁出人数、省外迁出比率。
分原因迁移情况B6:按照迁移原因统计迁移情况,包括迁入总数、区县内迁入数、区县内迁入、地市内跨区县迁入数、地市内跨区县迁入比率、省内跨地市迁入数、省内跨地市迁入比率、省外迁入数、省外迁入比率、迁出总数、区县内迁出数、区县内迁出、地市内跨区县迁出数、地市内跨区县迁出比率、省内跨地市迁出数、省内跨地市迁出比率、省外迁出数、省外迁出比率。
迁入人口情况分析B7:按照数据归属单位统计迁入人口情况,包括迁入总数、男性迁入数、女性迁入数、18岁以下迁入数、18-35岁迁入数、35-60岁迁入数、60-80岁迁入数、80岁以上迁入数、未婚迁入数、已婚迁入数、离婚迁入数、丧偶迁入数、未说明的婚姻状况迁入数、文盲或半文盲迁入数、小学迁入数、初中迁入数、高中迁入数、中等专业学校或中等技术学校迁入数、技工学校迁入数、大学专科和专科学校迁入数、大学本科迁入数、研究生迁入数。
迁出人口情况分析B8:按照数据归属单位统计迁出人口情况,包括迁出总数、男性迁出数、女性迁出数、18岁以下迁出数、18-35岁迁出数、35-60岁迁出数、60-80岁迁出数、80岁以上迁出数等。
人口变动情况总表B9:按照数据归属单位统计人口变动情况,包括总人口数、上年末总人口数、净增长率、本年度出生数、本年度出生男性数、本年度出生女性属、本年度死亡人数、本年度死亡男性人数、本年度死亡女性人数、本年度迁入人数、本年度迁入男性人数、本年度迁入女性人数、本年度迁出人数、本年度迁出男性人数、本年度迁出女性人数。项目变更表B10:按照数据归属单位统计项目变更信息,包括变更更正公民身份号码数、变更更正姓名数、变更更正性别数、变更更正出生日期数、变更更正民族数、变更更正出生地数、变更更正籍贯数、变更更正信息级别数、变更更正其他项目数。户口变动原因分析B11:按照数据归属单位统计户口变动原因情况,包括死亡注销户口人数、失踪注销户口人数、参军服兵役注销户口人数、重登误登注销户口人数、出国定居注销户口人数、迁(划)出注销户口人数、出生登记落户人数、漏登补登落户人数、迁(划)入落户人数、回国定居及加入国际落户人数、退伍转业落户人数、刑释解教落户人数、失踪人口巡回恢复落户人数。人口自然变动统计G4:根据数据归属单位统计人口自然变动情况,包括出生人口数、男性出生人口数、女性出生人口数、死亡人口数、男性死亡人口数、女性死亡人口数。人口自然增长率统计G5:根据数据归属单位统计人口自然增长率情况,包括平均人口、出生率、死亡率、自然增长率。人口机械变动统计G6:根据数据归属单位统计人口机械变动情况,包括迁入数,区县内迁入数、地市内迁入数、省内迁入数、跨省迁入数、迁出数、区县内迁出数、地市内迁出数、省内迁出数、跨省迁出数。人口迁移率统计G7:根据数据归属单位统计人口迁移率情况,包括平均人口、迁入率、迁出率、总迁移率、净迁移率。
专题分析:专题分析是为了政府宏观决策、人口研究目的所做的特定的人口指标的统计分析。
姓氏分析:姓氏是表示一个人的家族血缘关系的标志和符号。通过人口姓氏分析,反映家族的人口的地区分布和变迁。
区域姓氏分布F1:按照姓氏统计某区域内分布情况,包括人口数、男性数、女性数、占比数等。
姓氏区域分布F2:按照行政区划统计某姓氏的分布情况,包括人口数、男性数、女性数、占比数等。
姓氏籍贯分布F3:按照姓氏、籍贯统计分布情况,包括人口数、男性数、女性数、占比数等。
姓氏民族分布F4:按照民族统计某姓氏的分布情况,包括人口数、男性数、女性数、占比数等。
户构成分析F5:按照数据归属单位统计户构成情况,包括总户数、一人户、二人户、三人户、四人户、五人户、六人户、七人户、八人户、九人户、十人户、十人以上户。
迁出未落户分析:口袋户是因为户口在迁移过程中需要时间,从而导致形成已迁出、未迁入的状态。口袋户分析是个末态分析,只有最近的数据才能有效,随着时间推移,以前的口袋户在统计中逐步消失,新的口袋户逐步形成。
迁出未落户分布分析F6:按照数据归属单位统计迁出未落户情况,包括迁出未落户人数、男性人数、女性人数、占比。
迁出未落户前往地分析F7:按照数据归属单位统计迁出未落户前往地情况,包括总数、各省迁出未落户人数。
迁出未落户迁移原因分析F8:按照迁移原因统计迁出未落户人口情况,包括总数、迁出时间人数。
迁出未落户人口情况分析F9:按照数据归属单位统计迁出未落户人口情况,包括总数、男性人数、女性人数、18岁以下人数、18-35岁人数、35-60岁人数、60-80岁人数、80岁以上人数等。
未落户人员分析F12:未落户人员信息未备案上报,部库无数据,无法分析。
人口趋势分析:市总人口分组:按人口数(400万以上、200万至400万、100万至200万、80万至100万、50万至80万、30万至50万、10万至30万、10万以下)统计全国城市分组情况,包括城市个数、人口数。全国县按人口分组:按行政区划统计全国县人口分组情况,包括100万以上、80万至100万、50万至80万、30万至50万、10万至30万、10万以下。全国市按人口分组:按照行政区划统计全国市按人口分组情况,包括人口在10万以下城市数、人口在10万至30万城市数、人口在30万至50万城市数、人口在50万至80万城市数、人口在80万至100万城市数、人口在100万至200万城市数、人口在200万至400万城市数、人口在400万以上城市数。
区域人口年龄构成趋势分析F11:按照年度统计区域人口年龄构成趋势情况,包括人口总数、男性数、18岁以下男性数、占比数、18-35岁男性数、占比数、35-60岁男性数、占比数、60-80岁男性数、占比数、80岁以上男性数、占比数、女性数、18岁以下女性数、占比数、18-35岁女性数、占比数、35-60岁女性数、占比数、60-80岁女性数、占比数、80岁以上女性数、占比数。
城市人口迁移趋势分析F13:按照数据归属单位统计城市人口迁移趋势,包括迁入人口数、迁出人口数、净迁入数、净迁入率。
老龄化分析:地区主要年份抚育抚养人口比重程度。按照年度统计抚育人口(0岁至14岁)、劳动人口(15-59岁)、抚养人口(60岁及以上人口)占比情况。
为系统建立一套完善的安全性机制,使不同类型的用户具有不同的安全级别和访问权限。设置用户可以访问的报表和统计工具,只有有权限的用户才可以访问相应人口统计数据,限制服务的共享范围,保证人口统计数据的安全。
在具体实现过程中,可以采用Cognos软件,对数据库性能进行优化:数据库层面,由于Cognos统计主要是对数据库业务数据的检索,因此提高数据库运行效率有助于提高Cognos统计效率。
1).创建索引是提高检索效率最有效的方法之一,索引把表中的逻辑值映射到安全的RowID,能快速定位数据的物理地址,可以大大加快数据库的查询速度,一个建有合理索引的数据库应用系统可能比一个没有建立索引的数据库应用系统效率高几十倍,但并不是索引越多越好,在那些经常需要修改的数据列上建立索引,将导致索引B*树的不断重组,造成系统性能的下降和存储空间的浪费。对于一个大型表建立的索引,有时并不能改善数据查询速度,反而会影响整个数据库的性能。这主要是和SGA的数据管理方式有关,Oracle在进行数据块高速缓存管理时,索引数据比普通数据具有更高的驻留权限,在进行空间竞争时,Oracle会先移出普通数据,对建有索引的大型表进行数据查询时,索引数据可能会用完所有的数据块缓存空间,Oracle不得不频繁地进行磁盘读写来获取数据,所以,在对一个大型表进行分区之后,可以根据相应的分区建立分区索引;
2).优化数据结构,减少冗余,建立清晰字典维度结构;
3).通过存储过程,将业务数据在数据库层面做一次汇总统计;
优化Oracle数据库对提高计算机系统的可用性和效率,具有非常重要的意义,在提高cognos运行效率方面存在重要意义。
提高访问数据库速度:
Cognos和数据库间参数在cer*\bin\cogdm**.ini文件中,(*根据版本不同是安装目录的数字,**根据连接的数据库不同,是对应数据库名称的关键字)以oracle数据库为例,参数在cogdmor.ini文件中,打开这个文件查找字符串FetchNumberofRows=去掉这行前面的分号,将10改成2000;这样这行就成了FetchNumberofRows=2000,表示是每次从数据库取2000条数据。其他数据库基本上都有类似的配置。用以提高从数据库中提取数据的速度。
2).加大缓存:
cer*\bin\Cer*.ini(*根据版本不同是安装目录的数字):
[Services]
SortMemory=5120
(这里SortMemory单位是2kbytes,5120代表2kx5120=10M)
(技巧:一般SortMemory取空闲内存的十分之一到八分之一大小)
[PowerPlayDataServer]
WriteCacheSize=16384
(这里WriteCahceSize单位是Kbytes,16384代表16M)
(技巧:一般WriteCacheSize可以通过估计生成的cube大小得到,和生成的cube大小差不多就可以了)。在2G内存的环境中,如果加载操作系统完成,并启动所有所需服务后系统空闲800M内存空间,则可设置:
[Services]
SortMemory=51200
[PowerPlayDataServer]
WriteCahceSize=81920
3).启用多CPU读取数据源:
在Transformer中,点击开DataSource的属性页面:
图10为本发明一个实施例的DataSource的属性页面示意图。可以看到下方有一个Enablemulti-processing选项,选中它,即可实现在读取数据时启用多CPU处理。多CPU处理可以在读取大型数据源文件时起到很明显的性能提升,对于读取巨型文本数据源时性能提升特别明显。
4).调节Transformer每次提交数据量
在cerx\bin\trnsfrmr.ini文件中MaxTransactionNum的值为500000,可适当将其提高,比如改为MaxTransactionNum=1000000能减少Cube数据提交次数,缩短Cube生成时间。
5).恰当放置暂存文件:
在Transformer中,点开File菜单中的Preferences对话框,切换到Directories页:
将DataTemporaryFiles和Modeltemporaryfiles放到两个物理硬盘上,并且确认这两个物理硬盘是速度快且空余空间大的。
对于使用IDE(ATA)硬盘的系统,把这两个暂存文件路径分别放到两个IDE控制器连接的硬盘上以避免出现等待,并最大限度的利用带宽。对于使用SCSI硬盘的系统,把这两个暂存文件分别放到两个物理硬盘上,即能实现最大的带宽占用,并尽量减少等待。如果有多余两个物理硬盘,可设置多个数据,暂存目录,中间用分号隔开就可以了。对于放置Datatemporaryfiles的硬盘,要求至少有数据量两倍的空余磁盘空间,比如说各个数据源的数据量总和有3.2GB,则要求放置Datatemporaryfiles的硬盘有6.4GB空余磁盘空间。对于放置Modeltemporaryfiles的硬盘,要求有(模型大小+立方体大小)x2的空余磁盘空间,因为模型和立方体体积都较小,所以一般硬盘都能满足要求。
6).优化参数提高cube在cognos8上的展示性能。
如果生成的立方体是通过cognos8平台进行展示,我们可以将D:\cognos\cer4\bin目录下的trnsfrmr.ini文件中的EnablePCOptimizer设置为1,从而优化立方体在cognos8上的表现。
7).恰当分配数据库和Cognos之间的运算。
OLAP服务器通常对类似数据库中分组,汇总这样的操作速度相对较快,如果SQL中有很多分组和汇总导致数据库返回数据速度比较慢时,可以尝试去掉分组和汇总,让OLAP服务器直接读取数据,使用OLAP的方式运算,大部分情况下能够明显的提高Cube生成速度。
8).恰当定义维度粒度
有时候维度最低层次的节点比较多,从而造成立方体过于庞大,此时可以分析如此细的粒度对分析人员有多大帮助?提高立方体粒度减小立方体大小可以说是最有效的提高访问速度的方法。对于细粒度汇总可以通过查询报表进行展示。
9).Cognos8服务器缓存的调节
\cognos\c8\configuration目录下:
ppds_cfg.xml文件
ReadCacheSize=******
根据具体环境情况适当提高ReadCacheSize,可减少用户访问时服务器的磁盘IO。提高访问速度。
10).通过crosstabcaching提高cube访问速度,进入:transformer-cube属性-processing;通过开启crosstabcaching提高cube访问速度。但此方法会增加一定的cube体积。
11).取消报表自动分组提高明细报表查询速度
如果报表要展现明细数据,不想使用任何汇总,我们可以到此报表对应的查询中将自动分组属性定义为否。这样Cognos8就不会自动向SQL语句中添加GroupBy语句了。
12).在大数据量报表中如无特别需要不要使用排序或MAX等函数
在大数据量报表中如果正常情况,Cognos8会根据先select出的记录展现出报表的第一页,后面的记录会根据我们点击下一页时继续select出来以此提高性能。但如果我们使用了排序或max等操作,那报表就只能将所有记录进行操作了。
13).通过修改CognosConfiguration配置提高Cognos8速度
如果我们的服务器配置较高(超过2G内存),我们就可以考虑通过增加分配给Cognos8的内存来提高其运行速度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (4)
1.基于多维度的人口信息统计分析系统,其特征在于,包括:
数据库,用于存储人口统计的表格数据,该表格数据包括不同年度、不同行政级别、不同类型的人口属性数据,并对从人口数据源表中获取的增量数据按照设定的过滤规则进行处理,并按照设定的映射规则存储处理得到的增量人口数据,以供各功能模块获取所需的人口数据;
统计管理模块,用于获取人口数据的基本状况,并对人口数据进行管理;
分析模块,用于把人口数据通过设定的专题分析将人口统计数据转化为可视化的统计分析报表。
2.根据权利要求1所述的基于多维度的人口信息统计分析系统,其特征在于,所述统计管理模块包括:
数据管理单元,用于通过维度管理的方式对人口数据进行管理;
数据查询单元,用于通过用户输入的特定维度,对数据进行筛选查询,得到所述特定维度的人口基本数据;
统计图表单元;用于制作统计图表,以直观体现人口数据之间的差异和联系。
3.根据权利要求1所述的基于多维度的人口信息统计分析系统,其特征在于,所述分析模块包括:
专题统计单元,用于提供若干专题统计对人口统计信息进行图形化、结构化表达;
专题图表化单元,用于将人口统计数据转化为可视化的图表。
4.根据权利要求1所述的基于多维度的人口信息统计分析系统,其特征在于,所述数据库通过创建索引提高检索效率,通过索引把数据表中的逻辑值映射到安全的RowID,定位数据的物理地址,以加快数据库的查询速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510742617.5A CN105426434A (zh) | 2015-11-04 | 2015-11-04 | 基于多维度的人口信息统计分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510742617.5A CN105426434A (zh) | 2015-11-04 | 2015-11-04 | 基于多维度的人口信息统计分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105426434A true CN105426434A (zh) | 2016-03-23 |
Family
ID=55504646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510742617.5A Pending CN105426434A (zh) | 2015-11-04 | 2015-11-04 | 基于多维度的人口信息统计分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105426434A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912699A (zh) * | 2016-04-25 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种数据分析方法及装置 |
CN107329998A (zh) * | 2017-06-09 | 2017-11-07 | 广州虎牙信息科技有限公司 | 用户增量类数据获取方法、装置及设备 |
CN107357923A (zh) * | 2017-07-21 | 2017-11-17 | 山东浪潮商用系统有限公司 | 基于FreeMarker生成税务立方体的方法 |
CN107590289A (zh) * | 2017-10-16 | 2018-01-16 | 山东浪潮云服务信息科技有限公司 | 一种人口数据分析方法以及装置 |
CN108876481A (zh) * | 2018-07-19 | 2018-11-23 | 万翼科技有限公司 | 房地产信息的统计方法、服务器及计算机可读存储介质 |
CN110209661A (zh) * | 2019-06-11 | 2019-09-06 | 全国公民身份证号码查询服务中心 | 一种人口基础信息库维护方法、系统及存储介质 |
CN110209686A (zh) * | 2018-02-22 | 2019-09-06 | 北京嘀嘀无限科技发展有限公司 | 数据的存储、查询方法及装置 |
CN110209636A (zh) * | 2019-06-11 | 2019-09-06 | 全国公民身份证号码查询服务中心 | 一种数据维护方法、装置、系统及存储介质 |
CN110447022A (zh) * | 2017-03-19 | 2019-11-12 | 国际商业机器公司 | 区块链数据的自动生成分析 |
CN110895543A (zh) * | 2018-08-24 | 2020-03-20 | 百度在线网络技术(北京)有限公司 | 人口迁徙跟踪展示方法、装置及存储介质 |
CN111598441A (zh) * | 2020-05-14 | 2020-08-28 | 北京软通智城科技有限公司 | 人口数据分析方法、系统、设备和存储介质 |
CN113297213A (zh) * | 2021-04-29 | 2021-08-24 | 军事科学院系统工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
CN114328654A (zh) * | 2021-12-10 | 2022-04-12 | 北京融信数联科技有限公司 | 一种基于大数据的人口统计方法、系统和可读存储介质 |
CN114564626A (zh) * | 2021-12-23 | 2022-05-31 | 中国电子科技集团公司第二十九研究所 | 一种过滤电子侦察专项态势的方法及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286210A (zh) * | 2007-04-11 | 2008-10-15 | 中国科学院地理科学与资源研究所 | 一种人口空间分布数值模拟系统 |
CN101542478A (zh) * | 2006-06-26 | 2009-09-23 | 尼尔森(美国)有限公司 | 提高数据仓库性能的方法和装置 |
CN101593210A (zh) * | 2008-12-30 | 2009-12-02 | 中国科学院地理科学与资源研究所 | 一种提高空间分辨率和更新速度的人口统计方法及系统 |
CN101673304A (zh) * | 2008-10-23 | 2010-03-17 | 中国科学院地理科学与资源研究所 | 人口统计信息的空间可视化系统及其方法 |
-
2015
- 2015-11-04 CN CN201510742617.5A patent/CN105426434A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101542478A (zh) * | 2006-06-26 | 2009-09-23 | 尼尔森(美国)有限公司 | 提高数据仓库性能的方法和装置 |
CN101286210A (zh) * | 2007-04-11 | 2008-10-15 | 中国科学院地理科学与资源研究所 | 一种人口空间分布数值模拟系统 |
CN101673304A (zh) * | 2008-10-23 | 2010-03-17 | 中国科学院地理科学与资源研究所 | 人口统计信息的空间可视化系统及其方法 |
CN101593210A (zh) * | 2008-12-30 | 2009-12-02 | 中国科学院地理科学与资源研究所 | 一种提高空间分辨率和更新速度的人口统计方法及系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912699A (zh) * | 2016-04-25 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种数据分析方法及装置 |
CN110447022A (zh) * | 2017-03-19 | 2019-11-12 | 国际商业机器公司 | 区块链数据的自动生成分析 |
CN107329998A (zh) * | 2017-06-09 | 2017-11-07 | 广州虎牙信息科技有限公司 | 用户增量类数据获取方法、装置及设备 |
CN107357923A (zh) * | 2017-07-21 | 2017-11-17 | 山东浪潮商用系统有限公司 | 基于FreeMarker生成税务立方体的方法 |
CN107590289A (zh) * | 2017-10-16 | 2018-01-16 | 山东浪潮云服务信息科技有限公司 | 一种人口数据分析方法以及装置 |
CN110209686A (zh) * | 2018-02-22 | 2019-09-06 | 北京嘀嘀无限科技发展有限公司 | 数据的存储、查询方法及装置 |
CN108876481A (zh) * | 2018-07-19 | 2018-11-23 | 万翼科技有限公司 | 房地产信息的统计方法、服务器及计算机可读存储介质 |
CN110895543A (zh) * | 2018-08-24 | 2020-03-20 | 百度在线网络技术(北京)有限公司 | 人口迁徙跟踪展示方法、装置及存储介质 |
CN110895543B (zh) * | 2018-08-24 | 2022-08-12 | 百度在线网络技术(北京)有限公司 | 人口迁徙跟踪展示方法、装置及存储介质 |
CN110209636A (zh) * | 2019-06-11 | 2019-09-06 | 全国公民身份证号码查询服务中心 | 一种数据维护方法、装置、系统及存储介质 |
CN110209661A (zh) * | 2019-06-11 | 2019-09-06 | 全国公民身份证号码查询服务中心 | 一种人口基础信息库维护方法、系统及存储介质 |
CN111598441A (zh) * | 2020-05-14 | 2020-08-28 | 北京软通智城科技有限公司 | 人口数据分析方法、系统、设备和存储介质 |
CN113297213A (zh) * | 2021-04-29 | 2021-08-24 | 军事科学院系统工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
CN113297213B (zh) * | 2021-04-29 | 2023-09-12 | 军事科学院系统工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
CN114328654A (zh) * | 2021-12-10 | 2022-04-12 | 北京融信数联科技有限公司 | 一种基于大数据的人口统计方法、系统和可读存储介质 |
CN114564626A (zh) * | 2021-12-23 | 2022-05-31 | 中国电子科技集团公司第二十九研究所 | 一种过滤电子侦察专项态势的方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105426434A (zh) | 基于多维度的人口信息统计分析系统 | |
US11755606B2 (en) | Dynamically updated data sheets using row links | |
US11816100B2 (en) | Dynamically materialized views for sheets based data | |
Meier et al. | Nosql databases | |
US10318551B2 (en) | Reporting and summarizing metrics in sparse relationships on an OLTP database | |
Silva et al. | SQL: From traditional databases to big data | |
CN102918530B (zh) | 数据集市自动化 | |
CN106934014B (zh) | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 | |
US7571182B1 (en) | Emulation of a balanced hierarchy from a nonbalanced hierarchy | |
EP3144826A1 (en) | A method and apparatus for representing compound relationships in a graph database | |
US20120054174A1 (en) | Geospatial database integration using business models | |
CN107122443A (zh) | 一种基于Spark SQL的分布式全文检索系统及方法 | |
WO2017048303A1 (en) | Graph-based queries | |
CN105408857A (zh) | 通过针对选择性交织数据位生成用于关系数据库的多列索引 | |
WO2015041714A1 (en) | Interest-driven business intelligence systems including event-oriented data | |
US20170255708A1 (en) | Index structures for graph databases | |
Santos et al. | Big data: concepts, warehousing, and analytics | |
CN106599040A (zh) | 一种面向云存储的分层索引方法与检索方法 | |
CN104021156A (zh) | 一种基于sql语句快速汇总多层事实数据的方法 | |
Castro-Medina et al. | Application of dynamic fragmentation methods in multimedia databases: a review | |
Weintraub et al. | Needle in a haystack queries in cloud data lakes. | |
Gupta et al. | Introduction to database management system | |
Singh et al. | Easy designing steps of a local data warehouse for possible analytical data processing | |
CN112231380A (zh) | 采集数据的综合处理方法、系统、存储介质及电子设备 | |
Priya et al. | Entity resolution for high velocity streams using semantic measures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180419 Address after: 100097 Haidian District apricot stone road, a No. 1, Beijing Applicant after: Hangtian Information Co., Ltd. Address before: 100195 Haidian District apricot stone road, a No. 2059, room 18, Beijing Applicant before: Beijing Aerospace Jindun Science & Technology Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160323 |
|
RJ01 | Rejection of invention patent application after publication |