CN114077652A - 一种基于多维数据立方体的数据处理方法及电子装置 - Google Patents

一种基于多维数据立方体的数据处理方法及电子装置 Download PDF

Info

Publication number
CN114077652A
CN114077652A CN202010842774.4A CN202010842774A CN114077652A CN 114077652 A CN114077652 A CN 114077652A CN 202010842774 A CN202010842774 A CN 202010842774A CN 114077652 A CN114077652 A CN 114077652A
Authority
CN
China
Prior art keywords
data
task
configuration
cube
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010842774.4A
Other languages
English (en)
Inventor
罗宁
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202010842774.4A priority Critical patent/CN114077652A/zh
Publication of CN114077652A publication Critical patent/CN114077652A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于多维数据立方体的数据处理方法及电子装置,包括:采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。本发明面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。

Description

一种基于多维数据立方体的数据处理方法及电子装置
技术领域
本发明属于软件技术领域,具体涉及一种基于多维数据立方体的数据处理方法及电子装置。
背景技术
政务信息资源在全社会资源中占有及其重要的位置,是一种具有重要价值的国家资源。对政务信息资源进行分析挖掘,可以最大限度发挥其价值。数据仓库是不可缺少的数据挖掘工具,其核心是支持联机分析处理(On-line Analytical Processing,OLAP)操作的数据立方体。数据立方体是由结构化数据组成多维矩阵,用户可以从多个角度对数据集进行探索、分析。数据立方体允许用户从不同的角度对海量数据进行分析,它能够保证分析的快速、一致和稳定。由于政务信息资源在格式、尺度、时态、语义上的多样化和复杂化对数据集成和组织带来了巨大挑战。研究人员分别针对结构化数据、文本数据、空间数据如何构建数据立方体进行了研究。结构化数据立方体构建基于关系数据模型,以多维逻辑方式组织,数据在各维度之间相互交叉,形成立体的数据视图,常采用星型和雪花型结构模型。在模型中,有三个实体:指标实体、维度实体、详细类别实体。文本数据立方体结合文本分析、挖掘、信息检索等技术,对文本数据进行处理,使得处理后的数据形式可以用来构建立方体,从而可以利用操作的便捷性、直观性的优点,来分析处理文本数据。文本数据立方体构建方法总体上可以被分为三种类别。一种是基于信息抽取技术,该技术通过预先定义的信息结构将文本转化为结构化的数据;第二种是基于信息检索技术,可以处理包含用户指定的关键字的查询;第三种是基于文本挖掘技术,该类文本需要对文本的语义信息进行挖掘,并使用关键字等信息对文本进行分类标注等操作。空间数据立方体是一种崭新的决策支持工具,它可以在电子地图上提供上卷、下钻、切片、切块等查询分析功能,是空间数据仓库不可缺少的数据挖掘工具。空间数据立方体的维和度量都具有空间信息,空间数据立方体包含3种类型的维:(1)非空间维,只包含非空间数据。(2)空间-非空间维,指初始数据是空间数据,但按一定的抽象层次概化后变成非空间的。(3)空间-空间维,指无论初始数据还是概化数据都是空间数据。这三类方法分别针对三种数据类型,而对多种数据类型的综合数据立方体构建方法未见有报道。
结构化数据立方体构建,需要事先设计好立方体的结构,按照严格的代数逻辑进行定义。在面向特定问题查询和计算时能满足要求,但涉及到定义之外问题时往往不能得到有效支持。文本数据立方体构建,主要依靠领域专家根据领域知识人工构建,成本较高,动态适应性较差,难以在实际中广泛使用。虽然有些方法中实现了动态构建文本集维度,但是这些方法主要依赖文本集的关键字和高频词的相似度,抽取的语义准确性还有待提高。同时,文本度量大多釆用信息检索技术,将文本转换为词项集合,使用高频词和词频作为度量,高频词和词频不能直观的显示文本的语义和主题,当存在多个主题时,高频词和词频难以区分不同的主题,这使得分析结果的准确性较低。空间数据立方体构建,由于空间数据量大,联机分析处理(OLAP)操作的响应延迟,空间数据立方体时间数据索引难度大。
同时,在政务信息资源应用中,信息资源整合并非将所有数据物理集中,更多是物理分散、逻辑聚合的方式进行集成,以支持解决大量政务问题。所以,如何克服上述的缺陷,构建支持多种数据类型的综合政务数据立方体,将有利于政务信息资源快速检索、整合分析及综合呈现,成为现有技术亟需解决的技术问题。
发明内容
针对上述问题,本发明提供了一种基于多维数据立方体的数据处理方法及电子装置,基于汇聚的各类数据,并利用地理网格划分、文本分词和本体构建等技术,解决解决大量数据的分析问题。
为达到上述目的,本发明的技术方案为:
一种基于多维数据立方体的数据处理方法,其步骤包括:
1)采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;
2)依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;
3)依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;
4)根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。
进一步地,所述数据包括:行政数据、行业数据、社会数据和互联网数据。
进一步地,采集若干数据的方法包括:数据目录申请订阅方法、数据服务接口方法和自动网络爬取方法;通过以下步骤进行数据目录申请订阅方法:
1)向互联网中各节点发布数据目录;
2)当收到一节点的订阅申请审批后,与该节点进行交换任务管理;
3)定期对数据进行自动采集。
进一步地,获取各数据的字段名称之前,对各数据进行预处理;通过一耦合数据规则和业务规则的数据滤选器,对各数据进行预处理。
进一步地,所述维度包括:主题维度、地区维度和类型维度;所述地区维度包括国家、省市、地市、区县和乡镇。
进一步地,通过中文分词和文本解析,实现查询分析指令的自然语言查询到机器语言的翻译。
进一步地,任务配置包括:任务类型配置、任务脚本配置、任务数据配置、任务周期配置和任务状态配置;
进一步地,所述设定形式包括立方体、图、表和文件。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。
附图说明
图1为本发明的构建及联机分析架构图。
图2为本发明的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本发明的多维数据立方体的政务数据处理系统架构如图1所示。系统架构包括原始数据层、采集汇聚层、数据连接层、数据管理层、数据管理层和数据应用层,本系统主要面向用户包括业务人员和数据管理人员。
原始数据层:指原本离散的、多元的、异构的、分布在不同部门不同领域的原始数据,是多维数据立方体采集、存储及处理的对象,包括各来源的行政数据、行业数据、社会数据、互联网数据等各类原始数据。
采集汇聚层:支持多种类型的数据采集方式。对于国家政务数据资源,以数据目录申请订阅、数据服务接口及自动网络爬取等的方式进行数据采集。其中数据目录申请订阅的整体流程为:数据目录发布、订阅申请审批、交换任务管理、数据自动采集;而对于特定信息系统数据资源,支持以数据服务接口形式采集;对于互联网资源,支持以网络爬取的方式采集。
数据连接层:指将数据采集层汇聚的数据,以数据持久化配置多源数据库,提供灵活、可维护性强的数据连接配置功能,将数据库的驱动、用户名、密码等配置项写在一个配置文件中,通过表达式引用这些配置属性。
数据管理层:运用多维数据立方建模、任务配置管理、多维数据联机分析等,将原始数据分主题、地区、类型等维度构建数据立方体,通过脚本、数据、类型、周期、状态的配置创建联机分析任务,选择分析模型和分析的数据维度,完成联机分析,以主题目录的形式进行管理维护。
数据应用层:主要以报表的方式对结果数据进行应用,提供自由的报表配置功能,为业务人员提供报表配置面板,业务人员以拖拽的方式配置报表的数据、组件、视图,完成报表生成,以主题目录的方式进行存储和管理维护,提供报表导出的功能。
如图2所示,本发明的一种多维数据立方体的政务数据处理方法,包括
1、数据采集
1)政务数据处理系统将所需要的订阅政务数据目录对外发布,该政务数据包括但不限于行政数据、行业数据、社会数据、互联网数据等各类原始数据;
2)通过一个数据装载接口程序,接收各通过审核的节点发送的原始政务数据。
2、数据预处理
本发明通过元数据自动制定耦合数据规则和业务规则的数据滤选器,对采集到的原始政务数据进行预处理,对不符合元数据描述数据进行标注。
3、数据存储
通过一个数据装载系统,将清洗后的各数据按照组合标签,存储于多维数据立方体结构的核心数据库中。
多维数据立方体通过以下步骤构建及维护:
1)数据维度设计
本发明的数据维度基于本体论方法自动将数据分类并设置主题、地区、类型等维度标签。
2)维度目录维护
按照数据维度和维度的描述粒度划分(比如地区分国家、省市、地市、区县、乡镇)创建维度目录,用于数据编排。
3)字段属性配置
对于结构化数据,根据字段名称和元数据语义化分析,匹配维度目录,实现字段属性的标签化。
4)数据缓存配置
为加快数据访问速度,将数据维度目录和索引加载到缓存。
4、多维数据联机分析
1)分析模型配置
分析模型主要设定了不同类型数据的处理方法(比如空间数据不同比例尺转换时的地图综合,将大比例尺面表达的河流准换为小比例尺的线表达),根据领域知识构建分析模型并描述其适用数据范围,自适应匹配支持数据类型。
2)分析主题维护
分析主题维护主要通难过预设主题,根据分析模型后台计算实现主题的预处理,以加速多主题分析。
3)数据维度配置
数据维度配置主要通过与维度目录的匹配,实现数据的维度分类。
4)分析结果导出
分析结果导出通过关系表、图谱、词云等方式实现不同类型数据分析结果的导出与可视化。
5、查询翻译系统
查询翻译系统通过中文分词和文本解析,实现自然语言查询到机器语言的翻译。
6、查询系统与数据输出
本发明不仅能够通过查询系统查询核心数据库中清洗后的原始数据,并且能够查询数据挖掘与分析系统的数据,并通过数据输出系统将数据以立方体、表、图及文件等形式展示给用户。
以上所述实施例仅为更好的说明本发明的目的、原理、技术方案和有益效果。所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多维数据立方体的数据处理方法,其步骤包括:
1)采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;
2)依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;
3)依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;
4)根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。
2.如权利要求1所述的方法,其特征在于,所述数据包括:行政数据、行业数据、社会数据和互联网数据。
3.如权利要求1所述的方法,其特征在于,采集若干数据的方法包括:数据目录申请订阅方法、数据服务接口方法和自动网络爬取方法;通过以下步骤进行数据目录申请订阅方法:
1)向互联网中各节点发布数据目录;
2)当收到一节点的订阅申请审批后,与该节点进行交换任务管理;
3)定期对数据进行自动采集。
4.如权利要求1所述的方法,其特征在于,获取各数据的字段名称之前,对各数据进行预处理;通过一耦合数据规则和业务规则的数据滤选器,对各数据进行预处理。
5.如权利要求1所述的方法,其特征在于,所述维度包括:主题维度、地区维度和类型维度;所述地区维度包括国家、省市、地市、区县和乡镇。
6.如权利要求1所述的方法,其特征在于,通过中文分词和文本解析,实现查询分析指令的自然语言查询到机器语言的翻译。
7.如权利要求1所述的方法,其特征在于,任务配置包括:任务类型配置、任务脚本配置、任务数据配置、任务周期配置和任务状态配置。
8.如权利要求1所述的方法,其特征在于,所述设定形式包括立方体、图、表和文件。
9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
CN202010842774.4A 2020-08-20 2020-08-20 一种基于多维数据立方体的数据处理方法及电子装置 Pending CN114077652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010842774.4A CN114077652A (zh) 2020-08-20 2020-08-20 一种基于多维数据立方体的数据处理方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010842774.4A CN114077652A (zh) 2020-08-20 2020-08-20 一种基于多维数据立方体的数据处理方法及电子装置

Publications (1)

Publication Number Publication Date
CN114077652A true CN114077652A (zh) 2022-02-22

Family

ID=80281762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010842774.4A Pending CN114077652A (zh) 2020-08-20 2020-08-20 一种基于多维数据立方体的数据处理方法及电子装置

Country Status (1)

Country Link
CN (1) CN114077652A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510289A (zh) * 2022-09-22 2022-12-23 中电金信软件有限公司 一种数据立方体配置方法、装置、电子设备及存储介质
CN115563385A (zh) * 2022-10-12 2023-01-03 中电金信软件有限公司 一种组合标签的生成方法及生成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510289A (zh) * 2022-09-22 2022-12-23 中电金信软件有限公司 一种数据立方体配置方法、装置、电子设备及存储介质
CN115563385A (zh) * 2022-10-12 2023-01-03 中电金信软件有限公司 一种组合标签的生成方法及生成装置

Similar Documents

Publication Publication Date Title
CN108038222B (zh) 用于信息系统建模和数据访问的实体-属性框架的系统
Trujillo et al. Designing data warehouses with OO conceptual models
CN106095862B (zh) 集中式可扩展融合型多维复杂结构关系数据的存储方法
US20110087708A1 (en) Business object based operational reporting and analysis
US20060010159A1 (en) Custom grouping for dimension members
KR101505858B1 (ko) 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템
Desimoni et al. Empirical evaluation of linked data visualization tools
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及系统
CN112148718A (zh) 一种用于城市级数据中台的大数据支撑管理系统
Zhang et al. Topic modeling for OLAP on multidimensional text databases: topic cube and its applications
CN114461603A (zh) 多源异构数据融合方法及装置
CN113535788A (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
US10552423B2 (en) Semantic tagging of nodes
CN114077652A (zh) 一种基于多维数据立方体的数据处理方法及电子装置
Fekete et al. Managing data for visual analytics: Opportunities and challenges.
JP6375029B2 (ja) レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
Markov et al. Natural Language Addressing
Li et al. Application research of machine learning method based on distributed cluster in information retrieval
CN112231380A (zh) 采集数据的综合处理方法、系统、存储介质及电子设备
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN113342844A (zh) 工业智能搜索系统
CN113918537A (zh) 一种基于xml的电网多维数据建模方法
Bianchi et al. On the performance and use of spatial OLAP tools
Li et al. A Comparative Study of Row and Column Storage for Time Series Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination