CN112988783A - 一种基于多维数据模型的舆情发生时序分析方法 - Google Patents
一种基于多维数据模型的舆情发生时序分析方法 Download PDFInfo
- Publication number
- CN112988783A CN112988783A CN202110270374.5A CN202110270374A CN112988783A CN 112988783 A CN112988783 A CN 112988783A CN 202110270374 A CN202110270374 A CN 202110270374A CN 112988783 A CN112988783 A CN 112988783A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- clustering
- dimension
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于多维数据模型的舆情发生时序分析方法,包括S1:数据源分析;S2:确定主题域;S3:确定维度:在综合数据库内按业务主题建立主题域,对从各业务数据库中抽取过来的数据进行组织和汇总并存储数据,同时需要根据不同用户观察数据的角度,划分维度层次,确定每一个维度的垂直汇总路径,本方法采用了比较成熟的建立多维数据模型方法,对舆情发生的时序进行分析,以舆情时间维度设计,并作为类聚中心,通过矩阵形式快速定位数据,并能够有效的并预测舆情未来发展趋势。
Description
技术领域
本发明涉及数据自动分析领域,尤其涉及基于基于多维数据模型的舆情发生时序分析方法。
背景技术
在当今信息化建设日益蓬勃的潮流下,舆情数据信息量越来越向复杂化、爆炸式、超大规模化的方向发展,要在大量的舆情历史数据中来发掘潜在的舆情发展趋势,采用传统的数据统计分析手段,显然在高效要求的今天,已经显得不切实际了,而现有的舆情分析方法,如专利公布号为:CN 107741929 A的发明专利公开的舆情分析方法及装置使用的是关键词的方式,并通过关键词来搜索舆情内容,但是该种方式针对舆情的发展趋势是难以预测的。
发明内容
为解决上述技术问题,本发明提出了一种基于多维数据模型的舆情发生时序分析方法,包括
S1:数据源分析:建立统一信息标准,保证全部信息编码一致,并保证各异构数据库的数据非空;
S2:确定主题域:使用自下而上的方式确定主题域,按各业务主题域划分进行建模,根据需要从各业务数据库抽取数据,将数据按划分好的主线模式存储,保证相关之间具备较强的逻辑关联;
S3:确定维度:在综合数据库内按业务主题建立主题域,对从各业务数据库中抽取过来的数据进行组织和汇总并存储数据,同时需要根据不同用户观察数据的角度,划分维度层次,确定每一个维度的垂直汇总路径。
优选的,通过存储模块记录多维数据表,包含数据记录行数。
优选的,确定时间维度,采用时间序列数据进行聚类操作。
优选的,所述以年、季度、月、旬、日、时、分、秒作为聚类中心。
优选的,使用向量A,表示时间数据集合,A=[a1,a2,a3,……,an],an为第n个时间点,向量B,表示时间数据聚类中心集合,B=[b1,b2,b3,……,b8],其中b1=年,b2=季度,b3=月,b4=旬,b5=日,b6=时,b7=分,b8=秒。
优选的,确定矩阵C,表示以B为聚类因子对时间向量A聚类后的得到的时间维度数据集合。Ci=[Ci1,Ci2,……Ci8]T(i=1……n),cij表示以聚类因子bj对元素ai聚类后得到的时间值。
优选的,通过时间维度聚类处理,建立事件数量的序列多维数据模型。
优选的,选用OLAP图形化分析工具,根据分析者的任意目的和主题选择相应时间维度组合,对事件数量进行不同角度不同粒度的观察和分析,最后在前端采用图表的形式显示分析结果。
本发明提出的基于多维数据模型的舆情发生时序分析方法有以下有益效果:本方法采用了比较成熟的建立多维数据模型方法,对舆情发生的时序进行分析,以舆情时间维度设计,并作为类聚中心,通过矩阵形式快速定位数据,并能够有效的并预测舆情未来发展趋势。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的疫苗发布数量时间序列多维数据模型示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提出了一种基于多维数据模型的舆情发生时序分析方法,包括
S1:数据源分析:建立统一信息标准,保证全部信息编码一致,并保证各异构数据库的数据非空;根据政工数据源来源广泛的特点,首先建立统一的信息标准,保证全部信息编码的统一和一致,这样既方便综合数据库和各个业务分系统之间的信息交互,又保证数据库平台数据的一致性。其次分析数据的完整性,保证各异构数据库中的数据非空,进入综合数据库后能供各种查询、统计分析使用,初步将由综合数据库管理的主要对象或实体标识出来。通过存储模块记录多维数据表,包含数据记录行数。
S2:确定主题域:使用自下而上的方式确定主题域,按各业务主题域划分进行建模,根据需要从各业务数据库抽取数据,将数据按划分好的主线模式存储,保证相关之间具备较强的逻辑关联;主题域可以是现有任意事件的发生次数,如现有性侵次数,疫苗发布数量。
本实施例中,以疫苗的发布数量作为例子来进行举例说明。
S3:确定维度:在综合数据库内按业务主题建立主题域,对从各业务数据库中抽取过来的数据进行组织和汇总并存储数据,同时需要根据不同用户观察数据的角度,划分维度层次,确定每一个维度的垂直汇总路径。
根据关键业务的统计分析和辅助决策主题的自然管理方式设计结构,对从各业务数据库中抽取过来的数据进行组织和汇总,以确保能以较小冗余满足多方面的分析需求,并解决历史数据存放问题,实现历史数据的可追溯性。同时需要根据不同用户观察数据的角度,划分维度层次,确定每一个维的垂直汇总路径,具体的说:
由于是基于事件发生时序来分析,所以以时间作为维度进行设计。如果以疫苗发布数量作为多维数据模型的事实表,采用时间序列数据进行聚类操作,以年、季度、月、旬、日、时、分、秒作为聚类中心,聚类后年、季度、月、旬、日、时、分、秒时间数据就可以作为多维数据模型的维度了,具体聚类方法如下:
使用向量A,表示时间数据集合,A=[a1,a2,a3,……,an],an为第n个时间点,向量B,表示时间数据聚类中心集合,B=[b1,b2,b3,……,b8],其中b1=年,b2=季度,b3=月,b4=旬,b5=日,b6=时,b7=分,b8=秒。
如图1所示,确定矩阵C,表示以B为聚类因子对时间向量A聚类后的得到的时间维度数据集合。Ci=[Ci1,Ci2,……Ci8]T(i=1……n),cij表示以聚类因子bj对元素ai聚类后得到的时间值,通过时间维度聚类处理,建立事件数量的序列多维数据模型,选用OLAP图形化分析工具,根据分析者的任意目的和主题选择相应时间维度组合,对事件数量进行不同角度不同粒度的观察和分析,最后在前端采用图表的形式显示分析结果。
而通过矩阵C能够确定疫苗发布的具体时间并精确到秒,当需要调取疫苗数量时,只需要确定对应时间,并通过矩阵C即可获取对应的时间点数据,即可知道疫苗数量,并通过OLAP图形化分析工具,能够将对应时间的数据转化成图表的形式,通过图表的走向,能够分析疫苗的发布数量趋势。所述的图表形式包括了折线图、堆叠条形图、饼形图、柱形图、面积图、散点图、表格中的一种或数种,或折线图、堆叠条形图、饼形图、柱形图、面积图、散点图、表格中两种或两种以上叠加而成的复合图。制作图表时,以时间作为横轴,疫苗的发布数量作为纵轴,即可有效的展示疫苗发布趋势。
对实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基于多维数据模型的舆情发生时序分析方法,其特征在于,包括
S1:数据源分析:建立统一信息标准,保证全部信息编码一致,并保证各异构数据库的数据非空;
S2:确定主题域:使用自下而上的方式确定主题域,按各业务主题域划分进行建模,根据需要从各业务数据库抽取数据,将数据按划分好的主线模式存储,保证相关之间具备较强的逻辑关联;
S3:确定维度:在综合数据库内按业务主题建立主题域,对从各业务数据库中抽取过来的数据进行组织和汇总并存储数据,同时需要根据不同用户观察数据的角度,划分维度层次,确定每一个维度的垂直汇总路径。
2.根据权利要求1所述的基于多维数据模型的舆情发生时序分析方法,其特征在于,通过存储模块记录多维数据表,包含数据记录行数。
3.根据权利要求1所述的基于多维数据模型的舆情发生时序分析方法,其特征在于,确定时间维度,采用时间序列数据进行聚类操作。
4.根据权利要求3所述的基于贝叶斯分析法的精神状态自动识别方法,其特征在于,所述以年、季度、月、旬、日、时、分、秒作为聚类中心。
5.根据权利要求1或3所述的基于多维数据模型的舆情发生时序分析方法,其特征在于,使用向量A,表示时间数据集合,A=[a1,a2,a3,……,an],an为第n个时间点,向量B,表示时间数据聚类中心集合,B=[b1,b2,b3,……,b8],其中b1=年,b2=季度,b3=月,b4=旬,b5=日,b6=时,b7=分,b8=秒。
6.根据权利要求5所述的基于多维数据模型的舆情发生时序分析方法,其特征在于,确定矩阵C,表示以B为聚类因子对时间向量A聚类后的得到的时间维度数据集合。Ci=[Ci1,Ci2,……Ci8]T(i=1……n),cij表示以聚类因子bj对元素ai聚类后得到的时间值。
7.根据权利要求5所述的基于多维数据模型的舆情发生时序分析方法,其特征在于,通过时间维度聚类处理,建立事件数量的序列多维数据模型。
8.根据权利要求1所述的基于多维数据模型的舆情发生时序分析方法,其特征在于,选用OLAP图形化分析工具,根据分析者的任意目的和主题选择相应时间维度组合,对事件数量进行不同角度不同粒度的观察和分析,最后在前端采用图表的形式显示分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270374.5A CN112988783A (zh) | 2021-03-12 | 2021-03-12 | 一种基于多维数据模型的舆情发生时序分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270374.5A CN112988783A (zh) | 2021-03-12 | 2021-03-12 | 一种基于多维数据模型的舆情发生时序分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112988783A true CN112988783A (zh) | 2021-06-18 |
Family
ID=76334632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110270374.5A Pending CN112988783A (zh) | 2021-03-12 | 2021-03-12 | 一种基于多维数据模型的舆情发生时序分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988783A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707113A (zh) * | 2022-04-19 | 2022-07-05 | 昆明理工大学 | 一种基于matlab的投入产出相关系数矩阵快速计算及分析方法 |
CN116610681A (zh) * | 2023-07-20 | 2023-08-18 | 深圳维格云科技有限公司 | 多维表格的数据处理方法、装置、设备及计算机程序 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075304A (zh) * | 2006-05-18 | 2007-11-21 | 河北全通通信有限公司 | 电信行业基于数据仓库的决策支持系统的构造方法 |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN110363985A (zh) * | 2019-06-27 | 2019-10-22 | 北京易华录信息技术股份有限公司 | 一种交通数据分析方法、装置、存储介质及设备 |
CN110647563A (zh) * | 2018-06-07 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及其设备 |
CN111241185A (zh) * | 2020-04-26 | 2020-06-05 | 浙江网商银行股份有限公司 | 数据处理方法以及装置 |
-
2021
- 2021-03-12 CN CN202110270374.5A patent/CN112988783A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075304A (zh) * | 2006-05-18 | 2007-11-21 | 河北全通通信有限公司 | 电信行业基于数据仓库的决策支持系统的构造方法 |
CN110647563A (zh) * | 2018-06-07 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及其设备 |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN110363985A (zh) * | 2019-06-27 | 2019-10-22 | 北京易华录信息技术股份有限公司 | 一种交通数据分析方法、装置、存储介质及设备 |
CN111241185A (zh) * | 2020-04-26 | 2020-06-05 | 浙江网商银行股份有限公司 | 数据处理方法以及装置 |
Non-Patent Citations (1)
Title |
---|
陈云: "《高校数据仓库系统建设与应用》", 30 April 2017 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707113A (zh) * | 2022-04-19 | 2022-07-05 | 昆明理工大学 | 一种基于matlab的投入产出相关系数矩阵快速计算及分析方法 |
CN116610681A (zh) * | 2023-07-20 | 2023-08-18 | 深圳维格云科技有限公司 | 多维表格的数据处理方法、装置、设备及计算机程序 |
CN116610681B (zh) * | 2023-07-20 | 2023-12-12 | 深圳维格云科技有限公司 | 多维表格的数据处理方法、装置、设备及计算机程序 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8099345B2 (en) | Financial account information management and auditing | |
CN108292315B (zh) | 储存和检索数据立方体中的数据 | |
JP5421269B2 (ja) | Oltpデータをレポートするための、重複がないetlレスシステム及びその方法 | |
US9171037B2 (en) | Searching for associated events in log data | |
US6931408B2 (en) | Method of storing, maintaining and distributing computer intelligible electronic data | |
CN102929901B (zh) | 提高数据仓库性能的方法和装置 | |
US20080091698A1 (en) | Optimal data storage and access for clustered data in a relational database | |
CA2508791A1 (en) | Systems and methods for providing a mixed data integration service | |
CN112000773B (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
EP2102758A2 (en) | Generation of a multidimensional dataset from an associative database | |
CN112988783A (zh) | 一种基于多维数据模型的舆情发生时序分析方法 | |
US7765219B2 (en) | Sort digits as number collation in server | |
CN112115152B (zh) | 数据增量更新及查询方法、装置、电子设备及存储介质 | |
Wang et al. | Probabilistic declarative information extraction | |
KR101136457B1 (ko) | 데이터베이스 관리 시스템에서 구조화 질의어(SQL)실행경로(Trace) 분석 방법 및 장치 | |
CN116628023B (zh) | 等待事件类型查询方法、装置、存储介质和电子设备 | |
Gallas et al. | An Oracle-based event index for ATLAS | |
CN111046054A (zh) | 一种电力营销业务数据分析的方法和系统 | |
Zhao et al. | T-SQL: A lightweight implementation to enable built-in temporal support in mvcc-based rdbmss | |
CN110502529B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN104657370B (zh) | 一种实现多维立方体关联的方法和装置 | |
CN110704421A (zh) | 数据处理方法、装置、设备和计算机可读存储介质 | |
CN110990430A (zh) | 一种大规模数据并行处理系统 | |
US20090187591A1 (en) | Retrieving database records for aggregation without redundant database read operations | |
WO2024131091A1 (zh) | 信息关联方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210618 |
|
WD01 | Invention patent application deemed withdrawn after publication |