CN114077652A - 一种基于多维数据立方体的数据处理方法及电子装置 - Google Patents
一种基于多维数据立方体的数据处理方法及电子装置 Download PDFInfo
- Publication number
- CN114077652A CN114077652A CN202010842774.4A CN202010842774A CN114077652A CN 114077652 A CN114077652 A CN 114077652A CN 202010842774 A CN202010842774 A CN 202010842774A CN 114077652 A CN114077652 A CN 114077652A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- configuration
- cube
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于多维数据立方体的数据处理方法及电子装置,包括:采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。本发明面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。
Description
技术领域
本发明属于软件技术领域,具体涉及一种基于多维数据立方体的数据处理方法及电子装置。
背景技术
政务信息资源在全社会资源中占有及其重要的位置,是一种具有重要价值的国家资源。对政务信息资源进行分析挖掘,可以最大限度发挥其价值。数据仓库是不可缺少的数据挖掘工具,其核心是支持联机分析处理(On-line Analytical Processing,OLAP)操作的数据立方体。数据立方体是由结构化数据组成多维矩阵,用户可以从多个角度对数据集进行探索、分析。数据立方体允许用户从不同的角度对海量数据进行分析,它能够保证分析的快速、一致和稳定。由于政务信息资源在格式、尺度、时态、语义上的多样化和复杂化对数据集成和组织带来了巨大挑战。研究人员分别针对结构化数据、文本数据、空间数据如何构建数据立方体进行了研究。结构化数据立方体构建基于关系数据模型,以多维逻辑方式组织,数据在各维度之间相互交叉,形成立体的数据视图,常采用星型和雪花型结构模型。在模型中,有三个实体:指标实体、维度实体、详细类别实体。文本数据立方体结合文本分析、挖掘、信息检索等技术,对文本数据进行处理,使得处理后的数据形式可以用来构建立方体,从而可以利用操作的便捷性、直观性的优点,来分析处理文本数据。文本数据立方体构建方法总体上可以被分为三种类别。一种是基于信息抽取技术,该技术通过预先定义的信息结构将文本转化为结构化的数据;第二种是基于信息检索技术,可以处理包含用户指定的关键字的查询;第三种是基于文本挖掘技术,该类文本需要对文本的语义信息进行挖掘,并使用关键字等信息对文本进行分类标注等操作。空间数据立方体是一种崭新的决策支持工具,它可以在电子地图上提供上卷、下钻、切片、切块等查询分析功能,是空间数据仓库不可缺少的数据挖掘工具。空间数据立方体的维和度量都具有空间信息,空间数据立方体包含3种类型的维:(1)非空间维,只包含非空间数据。(2)空间-非空间维,指初始数据是空间数据,但按一定的抽象层次概化后变成非空间的。(3)空间-空间维,指无论初始数据还是概化数据都是空间数据。这三类方法分别针对三种数据类型,而对多种数据类型的综合数据立方体构建方法未见有报道。
结构化数据立方体构建,需要事先设计好立方体的结构,按照严格的代数逻辑进行定义。在面向特定问题查询和计算时能满足要求,但涉及到定义之外问题时往往不能得到有效支持。文本数据立方体构建,主要依靠领域专家根据领域知识人工构建,成本较高,动态适应性较差,难以在实际中广泛使用。虽然有些方法中实现了动态构建文本集维度,但是这些方法主要依赖文本集的关键字和高频词的相似度,抽取的语义准确性还有待提高。同时,文本度量大多釆用信息检索技术,将文本转换为词项集合,使用高频词和词频作为度量,高频词和词频不能直观的显示文本的语义和主题,当存在多个主题时,高频词和词频难以区分不同的主题,这使得分析结果的准确性较低。空间数据立方体构建,由于空间数据量大,联机分析处理(OLAP)操作的响应延迟,空间数据立方体时间数据索引难度大。
同时,在政务信息资源应用中,信息资源整合并非将所有数据物理集中,更多是物理分散、逻辑聚合的方式进行集成,以支持解决大量政务问题。所以,如何克服上述的缺陷,构建支持多种数据类型的综合政务数据立方体,将有利于政务信息资源快速检索、整合分析及综合呈现,成为现有技术亟需解决的技术问题。
发明内容
针对上述问题,本发明提供了一种基于多维数据立方体的数据处理方法及电子装置,基于汇聚的各类数据,并利用地理网格划分、文本分词和本体构建等技术,解决解决大量数据的分析问题。
为达到上述目的,本发明的技术方案为:
一种基于多维数据立方体的数据处理方法,其步骤包括:
1)采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;
2)依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;
3)依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;
4)根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。
进一步地,所述数据包括:行政数据、行业数据、社会数据和互联网数据。
进一步地,采集若干数据的方法包括:数据目录申请订阅方法、数据服务接口方法和自动网络爬取方法;通过以下步骤进行数据目录申请订阅方法:
1)向互联网中各节点发布数据目录;
2)当收到一节点的订阅申请审批后,与该节点进行交换任务管理;
3)定期对数据进行自动采集。
进一步地,获取各数据的字段名称之前,对各数据进行预处理;通过一耦合数据规则和业务规则的数据滤选器,对各数据进行预处理。
进一步地,所述维度包括:主题维度、地区维度和类型维度;所述地区维度包括国家、省市、地市、区县和乡镇。
进一步地,通过中文分词和文本解析,实现查询分析指令的自然语言查询到机器语言的翻译。
进一步地,任务配置包括:任务类型配置、任务脚本配置、任务数据配置、任务周期配置和任务状态配置;
进一步地,所述设定形式包括立方体、图、表和文件。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。
附图说明
图1为本发明的构建及联机分析架构图。
图2为本发明的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本发明的多维数据立方体的政务数据处理系统架构如图1所示。系统架构包括原始数据层、采集汇聚层、数据连接层、数据管理层、数据管理层和数据应用层,本系统主要面向用户包括业务人员和数据管理人员。
原始数据层:指原本离散的、多元的、异构的、分布在不同部门不同领域的原始数据,是多维数据立方体采集、存储及处理的对象,包括各来源的行政数据、行业数据、社会数据、互联网数据等各类原始数据。
采集汇聚层:支持多种类型的数据采集方式。对于国家政务数据资源,以数据目录申请订阅、数据服务接口及自动网络爬取等的方式进行数据采集。其中数据目录申请订阅的整体流程为:数据目录发布、订阅申请审批、交换任务管理、数据自动采集;而对于特定信息系统数据资源,支持以数据服务接口形式采集;对于互联网资源,支持以网络爬取的方式采集。
数据连接层:指将数据采集层汇聚的数据,以数据持久化配置多源数据库,提供灵活、可维护性强的数据连接配置功能,将数据库的驱动、用户名、密码等配置项写在一个配置文件中,通过表达式引用这些配置属性。
数据管理层:运用多维数据立方建模、任务配置管理、多维数据联机分析等,将原始数据分主题、地区、类型等维度构建数据立方体,通过脚本、数据、类型、周期、状态的配置创建联机分析任务,选择分析模型和分析的数据维度,完成联机分析,以主题目录的形式进行管理维护。
数据应用层:主要以报表的方式对结果数据进行应用,提供自由的报表配置功能,为业务人员提供报表配置面板,业务人员以拖拽的方式配置报表的数据、组件、视图,完成报表生成,以主题目录的方式进行存储和管理维护,提供报表导出的功能。
如图2所示,本发明的一种多维数据立方体的政务数据处理方法,包括
1、数据采集
1)政务数据处理系统将所需要的订阅政务数据目录对外发布,该政务数据包括但不限于行政数据、行业数据、社会数据、互联网数据等各类原始数据;
2)通过一个数据装载接口程序,接收各通过审核的节点发送的原始政务数据。
2、数据预处理
本发明通过元数据自动制定耦合数据规则和业务规则的数据滤选器,对采集到的原始政务数据进行预处理,对不符合元数据描述数据进行标注。
3、数据存储
通过一个数据装载系统,将清洗后的各数据按照组合标签,存储于多维数据立方体结构的核心数据库中。
多维数据立方体通过以下步骤构建及维护:
1)数据维度设计
本发明的数据维度基于本体论方法自动将数据分类并设置主题、地区、类型等维度标签。
2)维度目录维护
按照数据维度和维度的描述粒度划分(比如地区分国家、省市、地市、区县、乡镇)创建维度目录,用于数据编排。
3)字段属性配置
对于结构化数据,根据字段名称和元数据语义化分析,匹配维度目录,实现字段属性的标签化。
4)数据缓存配置
为加快数据访问速度,将数据维度目录和索引加载到缓存。
4、多维数据联机分析
1)分析模型配置
分析模型主要设定了不同类型数据的处理方法(比如空间数据不同比例尺转换时的地图综合,将大比例尺面表达的河流准换为小比例尺的线表达),根据领域知识构建分析模型并描述其适用数据范围,自适应匹配支持数据类型。
2)分析主题维护
分析主题维护主要通难过预设主题,根据分析模型后台计算实现主题的预处理,以加速多主题分析。
3)数据维度配置
数据维度配置主要通过与维度目录的匹配,实现数据的维度分类。
4)分析结果导出
分析结果导出通过关系表、图谱、词云等方式实现不同类型数据分析结果的导出与可视化。
5、查询翻译系统
查询翻译系统通过中文分词和文本解析,实现自然语言查询到机器语言的翻译。
6、查询系统与数据输出
本发明不仅能够通过查询系统查询核心数据库中清洗后的原始数据,并且能够查询数据挖掘与分析系统的数据,并通过数据输出系统将数据以立方体、表、图及文件等形式展示给用户。
以上所述实施例仅为更好的说明本发明的目的、原理、技术方案和有益效果。所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多维数据立方体的数据处理方法,其步骤包括:
1)采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;
2)依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;
3)依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;
4)根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。
2.如权利要求1所述的方法,其特征在于,所述数据包括:行政数据、行业数据、社会数据和互联网数据。
3.如权利要求1所述的方法,其特征在于,采集若干数据的方法包括:数据目录申请订阅方法、数据服务接口方法和自动网络爬取方法;通过以下步骤进行数据目录申请订阅方法:
1)向互联网中各节点发布数据目录;
2)当收到一节点的订阅申请审批后,与该节点进行交换任务管理;
3)定期对数据进行自动采集。
4.如权利要求1所述的方法,其特征在于,获取各数据的字段名称之前,对各数据进行预处理;通过一耦合数据规则和业务规则的数据滤选器,对各数据进行预处理。
5.如权利要求1所述的方法,其特征在于,所述维度包括:主题维度、地区维度和类型维度;所述地区维度包括国家、省市、地市、区县和乡镇。
6.如权利要求1所述的方法,其特征在于,通过中文分词和文本解析,实现查询分析指令的自然语言查询到机器语言的翻译。
7.如权利要求1所述的方法,其特征在于,任务配置包括:任务类型配置、任务脚本配置、任务数据配置、任务周期配置和任务状态配置。
8.如权利要求1所述的方法,其特征在于,所述设定形式包括立方体、图、表和文件。
9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010842774.4A CN114077652A (zh) | 2020-08-20 | 2020-08-20 | 一种基于多维数据立方体的数据处理方法及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010842774.4A CN114077652A (zh) | 2020-08-20 | 2020-08-20 | 一种基于多维数据立方体的数据处理方法及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114077652A true CN114077652A (zh) | 2022-02-22 |
Family
ID=80281762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010842774.4A Pending CN114077652A (zh) | 2020-08-20 | 2020-08-20 | 一种基于多维数据立方体的数据处理方法及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114077652A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510289A (zh) * | 2022-09-22 | 2022-12-23 | 中电金信软件有限公司 | 一种数据立方体配置方法、装置、电子设备及存储介质 |
CN115563385A (zh) * | 2022-10-12 | 2023-01-03 | 中电金信软件有限公司 | 一种组合标签的生成方法及生成装置 |
-
2020
- 2020-08-20 CN CN202010842774.4A patent/CN114077652A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510289A (zh) * | 2022-09-22 | 2022-12-23 | 中电金信软件有限公司 | 一种数据立方体配置方法、装置、电子设备及存储介质 |
CN115563385A (zh) * | 2022-10-12 | 2023-01-03 | 中电金信软件有限公司 | 一种组合标签的生成方法及生成装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038222B (zh) | 用于信息系统建模和数据访问的实体-属性框架的系统 | |
Trujillo et al. | Designing data warehouses with OO conceptual models | |
CN106095862B (zh) | 集中式可扩展融合型多维复杂结构关系数据的存储方法 | |
US20110087708A1 (en) | Business object based operational reporting and analysis | |
US20060010159A1 (en) | Custom grouping for dimension members | |
KR101505858B1 (ko) | 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템 | |
Desimoni et al. | Empirical evaluation of linked data visualization tools | |
CN103970902A (zh) | 一种大量数据情况下的可靠即时检索方法及系统 | |
CN112148718A (zh) | 一种用于城市级数据中台的大数据支撑管理系统 | |
Zhang et al. | Topic modeling for OLAP on multidimensional text databases: topic cube and its applications | |
CN114461603A (zh) | 多源异构数据融合方法及装置 | |
CN113535788A (zh) | 一种面向海洋环境数据的检索方法、系统、设备及介质 | |
US10552423B2 (en) | Semantic tagging of nodes | |
CN114077652A (zh) | 一种基于多维数据立方体的数据处理方法及电子装置 | |
Fekete et al. | Managing data for visual analytics: Opportunities and challenges. | |
JP6375029B2 (ja) | レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
Markov et al. | Natural Language Addressing | |
Li et al. | Application research of machine learning method based on distributed cluster in information retrieval | |
CN112231380A (zh) | 采集数据的综合处理方法、系统、存储介质及电子设备 | |
CN112668836B (zh) | 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 | |
CN113342844A (zh) | 工业智能搜索系统 | |
CN113918537A (zh) | 一种基于xml的电网多维数据建模方法 | |
Bianchi et al. | On the performance and use of spatial OLAP tools | |
Li et al. | A Comparative Study of Row and Column Storage for Time Series Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |