CN113259972B - 基于无线通信网络数据仓库构建方法、系统、设备及介质 - Google Patents
基于无线通信网络数据仓库构建方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113259972B CN113259972B CN202110634448.9A CN202110634448A CN113259972B CN 113259972 B CN113259972 B CN 113259972B CN 202110634448 A CN202110634448 A CN 202110634448A CN 113259972 B CN113259972 B CN 113259972B
- Authority
- CN
- China
- Prior art keywords
- data
- association
- fields
- module
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006854 communication Effects 0.000 title claims abstract description 62
- 238000004891 communication Methods 0.000 title claims abstract description 61
- 238000010276 construction Methods 0.000 title claims description 17
- 238000013145 classification model Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000002776 aggregation Effects 0.000 claims abstract description 16
- 238000004220 aggregation Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 238000013499 data model Methods 0.000 claims description 15
- 235000019580 granularity Nutrition 0.000 claims description 15
- 238000013075 data extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000011664 signaling Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mobile Radio Communication Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于无线通信网络数据仓库构建方法、系统、设备及介质,方法包括对原始数据进行预处理,并汇总关键性能指标;对预处理的数据进行知识抽取,构建关联规则与知识图谱,进行内生关联推理,得到初始数据分类模型;根据内生关联推理生成的初始数据分类模型,对原始数据表、关键性能指标数据表进行拆分,构建初始分类的轻度汇聚数据表;根据需求字段对关联字段进行再推理,得出关联字段的关联权重并排序,输出择优关联模型;根据输出的择优关联模型及轻度汇聚数据表生成相应数据仓库。本发明有效厘清无线通信网络复杂关系,有效提高无线通信网络的数据仓库主题的有效信息,方便研究人员进行更有针对性的数据分析与研究。
Description
技术领域
本发明涉及智能无线通信网络技术领域,尤其涉及一种基于无线通信网络数据仓库构建方法、系统、设备及介质。
背景技术
无线通信是指多个节点间不经由导体或缆线传播进行的远距离传输通讯。商用无线通信从最初的1G发展到目前的5G,以及未来的6G,通信的流量带宽越来越大,功能越来越强大。一个无线通信网络从使用终端、接入网到核心网都涉及许多复杂的数据,有成千上万个数据字段和指标,涉及不同的软硬件、功能、以及协议栈。对无线通信网络运行过程中形成的各类数据进行有效归集与合理使用,能够最大发掘无线通信网络的服务潜能,促进无线通信网络技术优势的进一步发挥。
大数据和人工智能技术的不断进步,促使无线通信朝着智能化的趋势发展,而这一实现的前提是无线大数据。无线通信数据的采集主要由电信运营商、电信设备提供商、应用服务提供商完成。采集节点包括终端侧的智能手机以及各类传感器等、接入侧的宏/微基站和核心网侧的专用数据采集单元。采集手段包括原始数据记录和深度包解析(DPI, DeepPacket Inspection)等。
数据仓库是针对具体的分析需求案例,将采集的原始数据进行综合、归类和分析利用的数据集合。传统的数据仓库构建都是基于现有的领域知识进行数据建模,在面对关联关系相对复杂的无线通信网络数据,无法完整精准地提取符合分析需求的数据,从而影响分析结果的精准度。
发明内容
技术目的:针对现有技术中的缺陷,本发明公开了一种基于无线通信网络数据仓库构建方法、系统、设备及介质,有效厘清无线通信网络复杂关系,有效提高无线通信网络的数据仓库主题的有效信息,有利于无线网络的性能优化,如在故障检测场景中,通过本发明构建的数据仓库,为故障检测提供更加针对性以及更加全面和准确的数据分析。
技术方案:为实现上述技术目的,本发明采用以下技术方案。
一种基于无线通信网络数据仓库构建方法,包括如下步骤:
S01、对原始数据进行预处理,生成原始数据表,并基于不同的时间粒度和维度汇总关键性能指标,生成关键性能指标数据表;
S02、对预处理的数据进行知识抽取,构建关联规则并生成知识图谱,通过内生关联推理后得到初始数据分类模型;
S03、根据内生关联推理生成的初始数据分类模型,对原始数据表、关键性能指标数据表进行拆分,构建初始分类的轻度汇聚数据表,所述轻度汇聚数据表包括不同类的原始数据分表和关键性能指标数据分表;
S04、基于用户需求输入需求字段,根据需求字段对初始数据分类模型进行关联推理输出关联字段,计算关联字段间关联性的权值并排序,输出择优关联模型;
S05、根据输出的择优关联模型,从轻度汇聚数据表中,进行数据的抽取、转换、装载,生成针对需求字段的数据仓库,所述数据仓库中汇总所有与需求字段相关联的信息,进而提高后期数据处理的准确性。
优选地,所述步骤S02中对预处理的数据进行知识抽取具体包括:
将预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段作为无线通信网络的一种知识,字段之间存在相应的关联性,通过知识抽取,将所述预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段汇总整合成若干个矢量矩阵,并对每个矢量矩阵中的权值初始化。
优选地,所述步骤S02中构建关联规则并生成知识图谱具体包括:
以无线通信网络协议为依据,确定关联规则,根据关联规则采用不同的权值定义所述关联性的强弱,并将权值赋值到知识抽取生成的若干个矢量矩阵中;
将所述若干个矢量矩阵拆分成若干个三元组,每个三元组包含两个关联字段,以及矢量矩阵中的权值,以图的形式存储,生成若干个字段之间关联性的知识图谱。
优选地,所述步骤S02中初始数据分类模型采用预设的马尔科夫逻辑网络模型关联推理算法进行获取,通过关联推理算法将原始数据表和关键性能指标数据表进行分类。
优选地,所述步骤S04中择优关联模型的输出过程具体包括:
输入需求字段,需求字段包括数据字段、时间粒度、字段阈值,将需求字段与初始数据分类模型进行关联推理,分析得出M个数据类与需求字段存在关联,称作关联类1,关联类2,…,关联类M,每个关联类中又有若干个关联字段与需求字段是存在关联的,计算出与需求字段存在关联的所有关联字段间关联性的权值,所述关联字段包含原始数据表的字段以及关键性能指标字段;
对每个关联类中的关联字段按照关联性的权值进行排序,提取权值大的若干位关联字段,及其关联字段所在的轻度汇聚数据表,将关联字段名、表名按照一定的数据结构存储,输出择优关联模型。
优选地,所述步骤S05中生成相应数据仓库具体包括:
获取输出的择优关联模型后,编写相应的数据ETL程序,从轻度汇聚数据表中提取到相应的符合需求的关联数据,分别以关联类关键性能指标分表、关联类数据分表的形式存储,这些关联类的关联数据分表构成一个针对需求字段的数据仓库。
一种基于无线通信网络数据仓库构建系统,包括:数据明细处理单元、内生关联建模单元、需求关联推理单元和数据仓库构建单元;
所述数据明细处理单元包括预处理模块和关键性能指标汇总模块,预处理模块用于对原始数据进行预处理,生成原始数据表;关键性能指标汇总模块用于根据不同的时间粒度和维度汇总关键性能指标,生成关键性能指标数据表;
所述内生关联建模单元用于对数据明细处理单元处理后的数据进行知识抽取,构建关联规则并生成知识图谱,最后进行内生关联推理,从而生成初始数据分类模型以及初始分类的轻度汇聚数据表,并将轻度汇聚数据表输出至数据仓库构建单元;
所述需求关联推理单元用于根据输入的需求字段对初始数据分类模型进行关联推理输出关联字段,计算关联字段间关联性的权值并排序,输出择优关联模型;
所述数据仓库构建单元用于根据输出的择优关联模型,从轻度汇聚数据表中,进行数据的抽取、转换、装载,生成针对需求字段的数据仓库。
优选地,所述内生关联建模单元包括知识抽取模块、关联规则模块、知识图谱构建模块和内生关联推理模块;
知识抽取模块用于对预处理的数据进行知识抽取,将预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段,汇总整合成若干个矢量矩阵,并对矢量矩阵中的权值初始化;
关联规则模块用于构建一个缓慢变化的关联规则,包括以无线通信网络协议为依据,对知识抽取模块形成的矢量矩阵中的权值进行赋值,并实时保存赋值后的矢量矩阵;
知识图谱构建模块用于将关联规则模块存储的矢量矩阵拆分成若干个三元组,每个三元组包含两个关联字段,以及矢量矩阵中的权值,以图三元的形式存储,构建若干个字段之间关联性的知识图谱;
内生关联推理模块用于对知识图谱构建模块提供的知识图谱,通过关联推理,将原始数据的字段、关键性能指标做相应的分类,生成初始数据分类模型,根据初始数据分类模型对原始数据表、关键性能指标数据表进行拆分,构建初始分类的轻度汇聚数据表,并将所述轻度汇聚数据表通过后端程序输出给数据仓库构建单元。
优选地,所述需求关联推理单元包括具体需求输入模块、关联字段推理模块、权重排序择优模块和关联模型输出模块;
所述具体需求输入模块用于输入数据应用者对数据仓库的具体需求字段,所述需求字段包括数据字段、时间粒度、字段阈值;
关联字段推理模块用于接受到具体需求输入模块传输的需求字段后,将需求字段与内生关联建模单元生成的初始数据分类模型进行关联推理,得到需求字段在初始数据分类模型中的若干关联类和关联字段间关联性的权值;所述关联字段包含关联原始数据表的字段以及关联关键性能指标字段;
权重排序择优模块用于将关联字段推理模块输出的关联字段按照权值进行排序,然后再选择权值排前的若干位关联字段,按照原始数据表的字段、关键性能指标字段两种类型输出给关联模型输出模块;
关联模型输出模块用于将权重排序择优模块输出的两种类型的关联字段,结合具体需求输入模块输入的需求字段,生成一个符合需求的择优关联数据模型,传输给数据仓库构建单元。
优选地,所述数据仓库构建单元包括模型分表ETL模块和关联数据提取ETL模块,模型分表ETL模块接受内生关联建模单元传输的初始分类数据模型,对预处理后的原始数据以及汇总的关键性能指标数据,进行分表处理,生成若干张轻度汇聚数据表;关联数据提取ETL模块用于接受需求关联推理单元传输的择优关联数据模型,根据轻度汇聚数据表生成若干张关联数据分表,构建针对需求字段的数据仓库。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上任一所述的一种基于无线通信网络数据仓库构建方法。
一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于被处理器执行时实现以上任一所述的一种基于无线通信网络数据仓库构建方法。
有益效果:本发明有效厘清无线通信网络复杂关系,通过对隐藏在数据背后的字段之间的内生关联进行挖掘,将无线通信网络中的各种数据字段之间的关系以知识图谱的形式进行表征,通过关联推理分析出不同需求的关联字段,有效提高无线通信网络的数据仓库主题的有效信息,生成针对需求字段的数据仓库,数据仓库中汇总所有与需求字段相关联的信息,进而提高后期数据处理的准确性,为无线通信网络性能提升调优的研究提供更加有力的支持。
附图说明
图1为本发明的方法流程图;
图2为本发明的装置结构示意图。
具体实施方式
以下结合附图对本发明的一种基于无线通信网络数据仓库构建方法、系统、设备及介质做进一步的说明和解释。
如附图1所示,其示出了本申请提供一种基于无线通信网络数据仓库构建方法的示例性流程图。
所述方法具体包括以下步骤:
步骤S01,对原始数据进行预处理,并进行关键性能指标(KPI:Key PerformanceIndicator)的汇总,关键性能指标的汇总基于不同的时间粒度和维度,在维度上包含用户、小区、流程等多种维度。其中原始数据包括无线通信网络的接入网数据和核心网数据两部分,原始数据通过各种采集软件,采集存储到以hive为软件架构的数据平台,通过初步的空值、无效值的剔除,按照时间范围进行分区存储,然后以不同的时间粒度,对各类原始数据的关键性能指标进行计算,生成对应的关键性能指标数据表。以原始数据表中的通信数据为例,基于单位时间的维度,统计原始数据表中不同通信流程单位时间内的成功失败次数,并汇总关键性能指标,包括:注册成功次数、注册失败次数、UE鉴权成功次数、UE鉴权失败次数、PDU_Session资源建立请求成功次数、PDU_Session资源建立请求失败次数、5G切出成功次数和5G切出失败次数。
在一个实施例中,以核心网N1接口的数据作为原始数据,N1数据包含的信令流程分类如下表格1所示:
如上表格1所示,将N1的数据宽表,经过脏数据处理,去除冗余字段。同时分别统计不同单类信令,例如注册流程在15分钟、一个小时,一天时间粒度下的成功失败次数,形成不同时间粒度关键性能指标统计数据,导入对应的关键性能指标数据表。
本发明所提供的一种基于无线通信网络数据仓库构建方法,根据原始数据的来源,可应用在不同的网络协议中,包括无线通信数据,即可应用在网络层以上,也可应用在物理层和数据链路层的数据。
步骤S02,对预处理的数据进行知识抽取,构建关联规则并生成知识图谱,通过内生关联推理后得到初始数据分类模型。
内生关联指的是事物内部各元素隐藏的关联关系,包含原始数据表的字段、关键性能指标数据表的关键性能指标字段之间隐藏的关联关系,内生关联分析指代的是通过建立数据、图结构分析模型等方法,实现对协议规定的无线通信网络内部的一些体现、影响业务数据流向及网络性能的数据、指标间隐藏关联关系的挖掘。
将预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段都作为无线通信网络的一种知识,这里的知识是指字段之间存在或远或近的关联性,例如,原始数据的某个字段值的变化会影响另一些字段值的变化,关键性能指标字段是通过对原始数据部分字段的信息进行的汇总,原始数据部分字段的字段值的变化影响着关键性能指标字段的字段值的变化,关键性能指标字段与关键性能指标字段也存在着影响关系,一个关键性能指标字段的字段值的变化会导致另一些关键性能指标字段的字段值也发生变化。通过知识抽取,将所述预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段汇总整合成若干个矢量矩阵,并对每个矢量矩阵中的权值初始化,如权值的初值均设置为0。以无线通信网络协议为依据,包括对3GPP协议、行业规范的理解,确定关联规则,根据关联规则可以用不同的权值定义这种关联性的强弱,并将权值赋值到知识抽取生成的若干个矢量矩阵中,即采用某种缓慢变化的关联规则后,对权值进行赋值,如下表格2所示,w表示两个字段之间的权值:
这些矢量矩阵可以拆分成若干个三元组,每个三元组包含两个关联字段,以及矩阵中的权值,例如字段1和字段2之间的三元组可表示为(字段1,权值w12,字段2),以图的形式存储,结合不同算法,例如K-means算法,可以生成若干张字段之间关联性的知识图谱。
本发明的一个实施例中,图三元的存储方式可以使用Neo4j图数据库。本发明有效厘清无线通信网络复杂关系,通过对隐藏在数据背后的字段之间的内生关联进行挖掘,将无线通信网络中的各种数据字段之间的关系以知识图谱的形式进行表征。
生成知识图谱后,利用预设的关联推理算法,例如马尔科夫逻辑网络模型关联推理算法,可以将原始数据表、关键性能指标数据表中的字段划分成若干类。这些分类,形成一个初始的对预处理的原始数据表、关键性能指标数据表的初始数据分类模型。
在一个实施例中,以核心网N1接口的数据作为原始数据,通过对核心网N1接口的数据进行预处理,生成原始数据表和关键性能指标数据表,其中原始数据表中包含N1接口数据的字段,关键性能指标数据表中包含关键性能指标字段,N1接口数据的字段、关键性能指标字段共包含100多个字段,对这100多个字段进行内生关联推理,获取N1接口数据的字段和关键性能指标字段之间隐藏的关联关系,生成初始数据分类模型。在本实施例中,通过马尔科夫逻辑网络模型关联推理算法将N1接口数据的字段和关键性能指标字段划分为若干分类,进而生成初始数据分类模型,该实施例中,生成的初始数据分类模型部分内容如下表格3所示:
步骤S03,根据内生关联推理生成的初始数据分类模型,构建初始分类的轻度汇聚数据表。
得到内生关联推理生成的初始数据分类模型,就可以对预处理的原始数据表、关键性能指标表进行拆分,生成不同类的原始数据分表和关键性能指标数据分表,定义为初始分类的轻度汇聚数据表,作为后续需求关联推理处理的基础数据。
步骤S04,基于用户需求输入需求字段,结合具体需求,根据需求字段对初始数据分类模型进行关联推理输出关联字段,计算关联字段间关联性的权重并排序,并输出择优关联模型;
轻度汇聚数据表不能直接作为提供具体应用的分析数据,需要结合具体的应用需求,做进一步处理,才能使用。数据应用者基于传统的通信知识提出对数据仓库的具体需求字段,输入需求字段,需求字段包括数据字段、时间粒度、字段阈值,将这些需求字段与初始数据分类模型进行关联推理,可以分析出哪些数据分类中的哪些关联字段与需求字段存在关联。这里的关联字段包含原始数据表的字段以及关键性能指标字段。
在一个实施例中,以核心网N1接口的数据作为原始数据,针对N1数据的分析需求,通过分析可以得出M个数据类与需求字段存在关联,称作关联类1,关联类2,…,关联类M,每个关联类中又有若干个关联字段与需求字段是存在关联的,并且可以计算出这种关联性的权值。对每个关联类中的关联字段按照关联性的权值进行排序,选取排前的若干位字段,例如选取权值排前的前10位字段。这10个字段中可能既有原始数据的字段,也有关键性能指标字段,将这两类字段和字段所在的轻度汇聚数据表提取出来,以一定的数据结构存储,就构成了一个符合需求的择优关联模型。
步骤S05,根据输出的择优关联模型,从轻度汇聚数据表中,进行数据的抽取、转换、装载,生成针对需求字段的相应数据仓库,方便数据分析人员根据所述数据仓库更精准直接的对数据做分析应用。
在一个实施例中,获取到符合需求的择优关联模型后,通过编写相应的数据ETL程序,就可以从轻度汇聚数据表中提取到相应的符合应用需求的关联数据,分别以关联类关键性能指标分表、关联类数据分表的形式存储,这些关联类的关联数据分表就构成一个针对需求字段的数据仓库,便于数据分析人员更精准直接的对数据做分析应用。
本发明通过关联推理分析出不同需求的关联字段,有效提高无线通信网络的数据仓库主题的有效信息,生成针对需求字段的数据仓库,数据仓库中汇总所有与需求字段相关联的信息,进而提高后期数据处理的准确性,并为研究人员提供更多有价值的参考字段,同时避免在一些无效信息上浪费时间和精力,方便研究人员进行更有针对性的数据分析与研究,为无线通信网络性能提升调优的研究提供更加有力的支持。此外,本发明有利于无线网络的性能优化,如在故障检测场景中,通过本发明构建的数据仓库,为故障检测提供更加针对性以及更加全面和准确的数据分析。
进一步参考附图2,其示出了本实施例提供的一种基于无线通信网络数据仓库构建系统的结构性框图。该装置包括数据明细处理单元、内生关联建模单元、需求关联推理单元和数据仓库构建单元。
数据明细处理单元包括预处理模块、关键性能指标汇总模块,预处理模块用于对原始数据进行预处理,生成原始数据表,原始数据包括无线通信网络的接入网数据和核心网数据两部分,原始数据通过各种采集软件,采集存储到以hive为软件架构的数据平台;预处理模块中以shell语言编写hive的执行脚本,再采用调度工具定时执行,周期性完成相关的处理过程,并存储到hive数据平台。关键性能指标汇总模块用于汇总关键性能指标,生成关键性能指标数据表。
内生关联建模单元包括知识抽取模块、关联规则模块、知识图谱构建模块和内生关联推理模块。内生关联建模单元用于对数据明细处理单元处理后的数据进行知识抽取,以图的形式存储相应的关联规则,然后构建知识图谱,最后进行内生关联推理,从而生成数据模型并输出。
在一个实施例中,知识抽取模块将预处理后的各类原始数据表的各种字段、关键性能指标表的关键性能指标字段,根据传统的通信领域的知识,汇总整合成若干个矢量矩阵,并对矢量矩阵中的权值初始化,即在构建关联规则之前,矢量矩阵中的权值都设为0。
关联规则模块用于构建一个缓慢变化的关联规则,包括以无线通信网络协议为依据,对知识抽取模块形成的矢量矩阵中的权值进行赋值,并实时保存赋值后的矢量矩阵。
在一个实施例中,权值的填充通过一个可视化的界面进行输入填充,或者以文本文件的形式批量加载。
知识图谱构建模块将关联规则模块存储的矢量矩阵拆分成若干个三元组,每个三元组包含两个关联字段,以及矢量矩阵中的权值,是根据关联规则模块存储的矢量矩阵,将原始数据表的字段、关键性能指标字段之间的关联关系以图三元的形式在图数据库软件中存储,并结合不同的数据算法,生成关键性能指标、算法类型的三元组信息,表示为(属性字段、生效关系、统计指标),(统计指标,算法关系,算法类型数据指标),其中三元组中的生效关系,算法关系,采用权值的形式表示,存储在图数据库中,构建一张内生关联推理所需的知识图谱。
在一个实施例中,以信令流程为例,关联规则的图三元组表示为(流程类型,流程关系,属性字段),一种流程根据其涉及的属性字段,可以存储多个三元组。
内生关联推理模块,用于对知识图谱构建模块提供的知识图谱,基于预设的算法做相关的算法的推理,预设的算法可以是基于马尔科夫逻辑网络模型算法;将原始数据的字段、关键性能指标字段做相应的分类,生成一个初始数据分类模型,根据初始数据分类模型对原始数据表、关键性能指标数据表进行拆分,构建初始分类的轻度汇聚数据表,并将轻度汇聚数据表通过后端程序输出给数据仓库构建单元。
需求关联推理单元,用于在接受具体的需求字段后,将需求字段与内生关联建模单元生成的初始数据分类模型进行关联推理,得到相应的择优关联模型,并输出给数据仓库构建单元,包括具体需求输入模块、关联字段推理模块、权重排序择优模块、关联模型输出模块。
具体需求输入模块,是一个前端显示的软件模块,用于输入数据应用者对数据仓库的具体需求字段,需求字段包括但不限于数据字段、时间粒度、字段阈值。
关联字段推理模块是在接受到具体需求输入模块传输的需求字段后,基于预设算法,如基于马尔科夫逻辑网络模型算法,将需求字段与内生关联建模单元生成的初始数据分类模型进行关联推理,得到需求字段在初始数据分类模型中的若干关联类以及其中关联原始数据表的字段、关联关键性能指标字段的权值。
权重排序择优模块用于将关联字段推理模块输出的关联字段按照权值进行排序,然后再选择权值排前的若干位,按照关联原始数据表的字段、关联关键性能指标字段两种类型输出给关联模型输出模块。
关联模型输出模块,将权重排序择优模块输出的两种类型的关联字段,结合具体需求输入模块输入的时间粒度、字段阈值等条件下的需求字段,生成一个符合需求的择优关联数据模型,传输给数据仓库构建单元。
数据仓库构建单元,包括模型分表ETL模块,和关联数据提取ETL模块,分别用于接受内生关联建模单元和需求关联推理单元传输的数据模型,对数据做两阶段的处理,最后生成数据仓库。
模型分表ETL模块接受内生关联建模单元传输的初始分类数据模型,对预处理后的原始数据、汇总的关键性能指标数据进行分表处理,生成若干张轻度汇聚数据表。
关联数据提取ETL模块接受需求关联推理单元传输的择优关联数据模型,对轻度汇聚数据表进行操作,生成若干张关联数据分表,构建成一个符合需求的数据仓库。
在一个实施例中,ETL的脚本由后端程序根据数据模型,生成一个处理脚本,然后通过前端配置执行周期后,通过调度软件周期执行。
一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现以上任一所述的一种基于无线通信网络数据仓库构建方法。存储器可为各种类型的存储器,可为随机存储器、只读存储器、闪存等。处理器可为各种类型的处理器,例如,中央处理器、微处理器、数字信号处理器或图像处理器等。
一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,计算机可执行指令用于被处理器执行时实现以上任一所述的一种基于无线通信网络数据仓库构建方法。存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种基于无线通信网络数据仓库构建方法,其特征在于,包括如下步骤:
S01、对原始数据进行预处理,生成原始数据表,并基于不同的时间粒度和维度汇总关键性能指标,生成关键性能指标数据表;
S02、对预处理的数据进行知识抽取,构建关联规则并生成知识图谱,通过内生关联推理后得到初始数据分类模型;
S03、根据内生关联推理生成的初始数据分类模型,对原始数据表、关键性能指标数据表进行拆分,构建初始分类的轻度汇聚数据表,所述轻度汇聚数据表包括不同类的原始数据分表和关键性能指标数据分表;
S04、基于用户需求输入需求字段,根据需求字段对初始数据分类模型进行关联推理输出关联字段,计算关联字段间关联性的权值并排序,输出择优关联模型;
S05、根据输出的择优关联模型,从轻度汇聚数据表中,进行数据的抽取、转换、装载,生成针对需求字段的数据仓库,所述数据仓库中汇总所有与需求字段相关联的信息。
2.根据权利要求1所述的一种基于无线通信网络数据仓库构建方法,其特征在于:所述步骤S02中对预处理的数据进行知识抽取具体包括:
将预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段作为无线通信网络的一种知识,所述知识是指字段之间存在相应的关联性,通过知识抽取,将所述预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段汇总整合成若干个矢量矩阵,并对每个矢量矩阵中的权值初始化。
3.根据权利要求2所述的一种基于无线通信网络数据仓库构建方法,其特征在于:所述步骤S02中构建关联规则并生成知识图谱具体包括:
以无线通信网络协议为依据,确定关联规则,根据关联规则采用不同的权值定义所述关联性的强弱,并将权值赋值到知识抽取生成的若干个矢量矩阵中;
将所述若干个矢量矩阵拆分成若干个三元组,每个三元组包含两个关联字段,以及矢量矩阵中的权值,以图的形式存储,生成若干个字段之间关联性的知识图谱。
4.根据权利要求1所述的一种基于无线通信网络数据仓库构建方法,其特征在于:所述步骤S02中初始数据分类模型采用预设的马尔科夫逻辑网络模型关联推理算法进行获取,通过关联推理算法将原始数据表和关键性能指标数据表进行分类。
5.根据权利要求1所述的一种基于无线通信网络数据仓库构建方法,其特征在于:所述步骤S04中择优关联模型的输出过程具体包括:
输入需求字段,需求字段包括数据字段、时间粒度、字段阈值,将需求字段与初始数据分类模型进行关联推理,分析得出M个数据类与需求字段存在关联,称作关联类1,关联类2,…,关联类M,每个关联类中又有若干个关联字段与需求字段是存在关联的,计算出与需求字段存在关联的所有关联字段间关联性的权值,所述关联字段包含原始数据表的字段以及关键性能指标字段;
对每个关联类中的关联字段按照关联性的权值进行排序,提取权值大的若干位关联字段,及其关联字段所在的轻度汇聚数据表,将关联字段名、表名按照一定的数据结构存储,输出择优关联模型。
6.根据权利要求1所述的一种基于无线通信网络数据仓库构建方法,其特征在于:所述步骤S05中生成相应数据仓库具体包括:
获取输出的择优关联模型后,编写相应的数据ETL程序,从轻度汇聚数据表中提取到相应的符合需求的关联数据,分别以关联类关键性能指标分表、关联类数据分表的形式存储,这些关联类的关联数据分表构成一个针对需求字段的数据仓库。
7.一种基于无线通信网络数据仓库构建系统,其特征在于,包括:数据明细处理单元、内生关联建模单元、需求关联推理单元和数据仓库构建单元;
所述数据明细处理单元包括预处理模块和关键性能指标汇总模块,预处理模块用于对原始数据进行预处理,生成原始数据表;关键性能指标汇总模块用于根据不同的时间粒度和维度汇总关键性能指标,生成关键性能指标数据表;
所述内生关联建模单元用于对数据明细处理单元处理后的数据进行知识抽取,构建关联规则并生成知识图谱,最后进行内生关联推理,从而生成初始数据分类模型以及初始分类的轻度汇聚数据表,并将轻度汇聚数据表输出至数据仓库构建单元;
所述需求关联推理单元用于根据输入的需求字段对初始数据分类模型进行关联推理输出关联字段,计算关联字段间关联性的权值并排序,输出择优关联模型;
所述数据仓库构建单元用于根据输出的择优关联模型,从轻度汇聚数据表中,进行数据的抽取、转换、装载,生成针对需求字段的数据仓库。
8.根据权利要求7所述的一种基于无线通信网络数据仓库构建系统,其特征在于:所述内生关联建模单元包括知识抽取模块、关联规则模块、知识图谱构建模块和内生关联推理模块;
知识抽取模块用于对预处理的数据进行知识抽取,将预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段,汇总整合成若干个矢量矩阵,并对矢量矩阵中的权值初始化;
关联规则模块用于构建一个缓慢变化的关联规则,包括以无线通信网络协议为依据,对知识抽取模块形成的矢量矩阵中的权值进行赋值,并实时保存赋值后的矢量矩阵;
知识图谱构建模块用于将关联规则模块存储的矢量矩阵拆分成若干个三元组,每个三元组包含两个关联字段,以及矢量矩阵中的权值,以图三元的形式存储,构建若干个字段之间关联性的知识图谱;
内生关联推理模块用于对知识图谱构建模块提供的知识图谱,通过关联推理,将原始数据的字段、关键性能指标做相应的分类,生成初始数据分类模型,根据初始数据分类模型对原始数据表、关键性能指标数据表进行拆分,构建初始分类的轻度汇聚数据表,并将所述轻度汇聚数据表通过后端程序输出给数据仓库构建单元。
9.根据权利要求7所述的一种基于无线通信网络数据仓库构建系统,其特征在于:所述需求关联推理单元包括具体需求输入模块、关联字段推理模块、权重排序择优模块和关联模型输出模块;
所述具体需求输入模块用于输入数据应用者对数据仓库的具体需求字段,所述需求字段包括数据字段、时间粒度、字段阈值;
关联字段推理模块用于接受到具体需求输入模块传输的需求字段后,将需求字段与内生关联建模单元生成的初始数据分类模型进行关联推理,得到需求字段在初始数据分类模型中的若干关联类和关联字段间关联性的权值;所述关联字段包含关联原始数据表的字段以及关联关键性能指标字段;
权重排序择优模块用于将关联字段推理模块输出的关联字段按照权值进行排序,然后再选择权值排前的若干位关联字段,按照原始数据表的字段、关键性能指标字段两种类型输出给关联模型输出模块;
关联模型输出模块用于将权重排序择优模块输出的两种类型的关联字段,结合具体需求输入模块输入的需求字段,生成一个符合需求的择优关联数据模型,传输给数据仓库构建单元。
10.根据权利要求7所述的一种基于无线通信网络数据仓库构建系统,其特征在于:所述数据仓库构建单元包括模型分表ETL模块和关联数据提取ETL模块,模型分表ETL模块接受内生关联建模单元传输的初始分类数据模型,对预处理后的原始数据以及汇总的关键性能指标数据,进行分表处理,生成若干张轻度汇聚数据表;关联数据提取ETL模块用于接受需求关联推理单元传输的择优关联数据模型,根据轻度汇聚数据表生成若干张关联数据分表,构建针对需求字段的数据仓库。
11.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-6任一所述的一种基于无线通信网络数据仓库构建方法。
12.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于被处理器执行时实现如权利要求1-6任一所述的一种基于无线通信网络数据仓库构建方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634448.9A CN113259972B (zh) | 2021-06-08 | 2021-06-08 | 基于无线通信网络数据仓库构建方法、系统、设备及介质 |
PCT/CN2021/142266 WO2022257436A1 (zh) | 2021-06-08 | 2021-12-29 | 基于无线通信网络数据仓库构建方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634448.9A CN113259972B (zh) | 2021-06-08 | 2021-06-08 | 基于无线通信网络数据仓库构建方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113259972A CN113259972A (zh) | 2021-08-13 |
CN113259972B true CN113259972B (zh) | 2021-09-28 |
Family
ID=77186983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110634448.9A Active CN113259972B (zh) | 2021-06-08 | 2021-06-08 | 基于无线通信网络数据仓库构建方法、系统、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113259972B (zh) |
WO (1) | WO2022257436A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113259972B (zh) * | 2021-06-08 | 2021-09-28 | 网络通信与安全紫金山实验室 | 基于无线通信网络数据仓库构建方法、系统、设备及介质 |
CN114205852B (zh) * | 2022-02-17 | 2022-05-03 | 网络通信与安全紫金山实验室 | 无线通信网络知识图谱的智能分析与应用系统及方法 |
CN114845323A (zh) * | 2022-04-06 | 2022-08-02 | 湖南华诺科技有限公司 | 一种基于数字孪生的无线网络优化平台及方法 |
CN116244386B (zh) * | 2023-02-10 | 2023-12-12 | 北京友友天宇系统技术有限公司 | 应用于多源异构数据存储系统的实体关联关系的识别方法 |
CN115858699B (zh) * | 2023-02-28 | 2023-05-09 | 北京仁科互动网络技术有限公司 | 数据仓库的构建方法、装置、电子设备和可读存储介质 |
CN117033460B (zh) * | 2023-08-07 | 2024-04-30 | 南京中新赛克科技有限责任公司 | 一种基于总线矩阵的数据模型自动构建系统及方法 |
CN116975043B (zh) * | 2023-09-21 | 2023-12-08 | 国网信息通信产业集团有限公司 | 一种基于流式框架的数据实时传输构建方法 |
CN117609289A (zh) * | 2024-01-22 | 2024-02-27 | 山东浪潮数据库技术有限公司 | 一种基于宽表的能源数据处理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110856186A (zh) * | 2019-11-19 | 2020-02-28 | 北京联合大学 | 一种无线网络知识图谱的构建方法及系统 |
CN110972174A (zh) * | 2019-12-02 | 2020-04-07 | 东南大学 | 一种基于稀疏自编码器的无线网络中断检测方法 |
CN112714032A (zh) * | 2021-03-29 | 2021-04-27 | 网络通信与安全紫金山实验室 | 无线网络协议知识图谱构建分析方法、系统、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10303999B2 (en) * | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
CN111008253B (zh) * | 2018-10-08 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 数据模型生成方法和数据仓库生成方法、装置及电子设备 |
CN111241185B (zh) * | 2020-04-26 | 2020-10-27 | 浙江网商银行股份有限公司 | 数据处理方法以及装置 |
CN113259972B (zh) * | 2021-06-08 | 2021-09-28 | 网络通信与安全紫金山实验室 | 基于无线通信网络数据仓库构建方法、系统、设备及介质 |
-
2021
- 2021-06-08 CN CN202110634448.9A patent/CN113259972B/zh active Active
- 2021-12-29 WO PCT/CN2021/142266 patent/WO2022257436A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110856186A (zh) * | 2019-11-19 | 2020-02-28 | 北京联合大学 | 一种无线网络知识图谱的构建方法及系统 |
CN110972174A (zh) * | 2019-12-02 | 2020-04-07 | 东南大学 | 一种基于稀疏自编码器的无线网络中断检测方法 |
CN112714032A (zh) * | 2021-03-29 | 2021-04-27 | 网络通信与安全紫金山实验室 | 无线网络协议知识图谱构建分析方法、系统、设备及介质 |
Non-Patent Citations (3)
Title |
---|
知识图谱在电网全业务统一数据中心的应用;王渊等;《计算机工程与应用》;20191231;正文第1-4节 * |
知识图谱构建技术综述;刘峤等;《计算机研究与发展》;20161231;正文第1-4节 * |
面向科技智库的知识图谱系统构;于升峰;《智库理论与实践》;20210228;正文第1-4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN113259972A (zh) | 2021-08-13 |
WO2022257436A1 (zh) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113259972B (zh) | 基于无线通信网络数据仓库构建方法、系统、设备及介质 | |
US20240163684A1 (en) | Method and System for Constructing and Analyzing Knowledge Graph of Wireless Communication Network Protocol, and Device and Medium | |
CN112084422B (zh) | 一种账号数据智能处理方法和装置 | |
WO2019184836A1 (zh) | 数据分析设备、多模型共决策系统及方法 | |
CN110046297B (zh) | 运维违规操作的识别方法、装置和存储介质 | |
CN111339433A (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
CN113326377A (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
CN114172688B (zh) | 基于gcn-dl的加密流量网络威胁关键节点自动提取方法 | |
CN111339818A (zh) | 一种人脸多属性识别系统 | |
CN114039901A (zh) | 基于残差网络和循环神经网络混合模型的协议识别方法 | |
WO2023207013A1 (zh) | 一种基于图嵌入的关系图谱关键人员分析方法及系统 | |
CN114037003A (zh) | 问答模型的训练方法、装置及电子设备 | |
CN113516501A (zh) | 一种基于图神经网络的用户通信行为预测方法和装置 | |
Luo et al. | A novel adaptive gradient compression scheme: Reducing the communication overhead for distributed deep learning in the Internet of Things | |
US20210125127A1 (en) | Community division quality evaluation method and system based on average mutual information | |
CN111736774B (zh) | 冗余数据的处理方法、装置、服务器及存储介质 | |
CN116545871A (zh) | 一种多模态网络流量预测方法、装置、介质 | |
CN114979017B (zh) | 基于工控系统原始流量的深度学习协议识别方法及系统 | |
CN116860981A (zh) | 潜在客户挖掘方法及装置 | |
CN114328174A (zh) | 一种基于对抗学习的多视图软件缺陷预测方法及系统 | |
CN113918577A (zh) | 数据表识别方法、装置、电子设备及存储介质 | |
CN112417304A (zh) | 一种用于构建数据分析流程的数据分析服务推荐方法及系统 | |
CN114416829A (zh) | 基于机器学习的网络训练方法及云认证服务系统 | |
CN117828382B (zh) | 基于url的网络接口聚类方法及装置 | |
CN110309505A (zh) | 一种基于词嵌入语义分析的数据格式自解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |