CN110856186B - 一种无线网络知识图谱的构建方法及系统 - Google Patents

一种无线网络知识图谱的构建方法及系统 Download PDF

Info

Publication number
CN110856186B
CN110856186B CN201911133257.3A CN201911133257A CN110856186B CN 110856186 B CN110856186 B CN 110856186B CN 201911133257 A CN201911133257 A CN 201911133257A CN 110856186 B CN110856186 B CN 110856186B
Authority
CN
China
Prior art keywords
entity
attribute
samples
cell
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911133257.3A
Other languages
English (en)
Other versions
CN110856186A (zh
Inventor
李克
江静
翁晨傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201911133257.3A priority Critical patent/CN110856186B/zh
Publication of CN110856186A publication Critical patent/CN110856186A/zh
Application granted granted Critical
Publication of CN110856186B publication Critical patent/CN110856186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种无线网络知识图谱的构建方法及系统,其中方法包括输入数据,还包括以下步骤:实体信息提取;属性信息提取;实体关系信息提取;消歧,将图谱各类数据中存在的不一致情况进行甄别、剔除或合并处理;图谱的数据存储与GIS展示。本发明根据海量的无线网络感知数据自动提取相关信息并构建无线网络知识图谱,是一种更全面、及时、动态、可视化的基站信息存储管理和呈现方法,有利于提升移动网络运维的智能化水平、提高运维工作的效率。

Description

一种无线网络知识图谱的构建方法及系统
技术领域
本发明涉及移动通信领域,具体地说是一种无线网络知识图谱的构建方法及系统。
背景技术
对移动通信系统的无线接入网(简称无线网络、无线网)而言,蜂窝小区(也称小区、扇区)是无线网络覆盖区域划分的基本单位。目前对无线网络和无线网络设备(也就是基站设备)的信息的管理、维护和无线网络的优化工作主要围绕基站信息表展开。基站信息表(BSA,Base Station Almanac)是电信运营商网络运营和维护所需要的核心的基础数据,描述了一个网络下的所有基站和小区的基本参数例如小区所属基站类型、站址经纬度、共站各扇区的方向角等,它是运营商的重要数据资产和战略资源。在网络优化过程中,涉及到基站、小区参数的优化调整,则需要及时更新到基站信息表中以保证基础数据的准确性、完整性、及时性。
基站信息表在网络运维工作中的使用和维护存在很多的问题和挑战。基站信息表通常是以简单的关系型数据库形式进行存储、管理和呈现,需要人工的汇总录入和更新,属于准静态的数据形式。而随着网络的不断建设、扩容、优化,不断有新的小区部署进来和旧的小区拆除或搬迁,在日常的无线优化作业中也经常会调整天线方向角和下倾角来改善覆盖,因此,基站信息表是动态变化的;另外,其信息承载能力有限,也无法有效表征各基站、小区间的错综复杂的关联关系,基站和小区有很强的空间属性,而基站信息表无法将这种属性信息可视化地表达。此外,现有基站信息表是针对本运营商的网络的,一般无法获取也无法表征其他运营商的基站数据,因此无法开展有针对性的网络建设和网络质量的对标。因此,作为基站信息表管理的升级和替代方案,一种更全面、及时、动态、可视化的基站信息存储管理和呈现方法具有很大的市场需求。
发明内容
为了解决上述的技术问题,本发明提出的一种无线网络知识图谱的构建方法及系统,根据海量的无线网络感知数据自动提取相关信息并构建无线网络知识图谱,是一种更全面、及时、动态、可视化的基站信息存储管理和呈现方法,有利于提升移动网络运维的智能化水平、提高运维工作的效率。如果数据源包含了其他运营商的网络采样数据,则可以有效提取无线网络信息并在无线网络知识图谱中做适当的呈现、便于开展网络间的对标和基于比较优势的网络运维。
本发明的第一目的是提供一种无线网络知识图谱的构建方法,包括输入数据,还包括以下步骤:
步骤1:实体信息提取;
步骤2:属性信息提取;
步骤3:实体关系信息提取;
步骤4:消歧,将图谱各类数据中存在的不一致情况进行甄别、剔除或合并处理;
步骤5:图谱的数据存储与GIS展示。
优选的是,所述数据包括MCS数据、MR数据和电子地图数据中至少一种。
在上述任一方案中优选的是,所述实体信息包括以下类别中至少一种:大区、基站、小区、栅格、网络事件、终端、网络制式和运营商,上述类别相应的实体名称分别取为大区ID、基站ID、小区ID、栅格ID、事件ID、终端ID、网络制式名称和运营商名称。
在上述任一方案中优选的是,所述步骤1包括以下子步骤:
步骤11:根据所要构建的知识图谱针对的城市、运营商和网络制式对所述MCS数据集和所述MR数据集进行过滤,保留有效样本,同时对各字段的无效值进行剔除处理,得到共包含N个样本的图谱数据集D={Si,i=1~N},其中,Si为20维向量,Si=(终端ID,采样日期,采样时间,经度,纬度,城市,行政区,运营商,网络制式,大区ID,基站ID,小区ID,物理小区ID,频点号,导频信号强度,导频信号质量,导频信干噪比,邻区信息列表,终端品牌,终端型号);
步骤12:遍历图谱数据集中所有样本,利用所述实体名称建立相应的大区、基站、小区和终端实体,并利用样本中相关信息建立相应的网络事件实体,记为实体三元组并存入实体表;
步骤13:电子地图上对目标区域按预设的长度和宽度进行等比例网格剖分。
在上述任一方案中优选的是,所述实体三元组包括实体ID、实体名称和实体类别,所述实体ID为全局唯一编号。
在上述任一方案中优选的是,当前样本中所包含的字段中已经标注为实体时则忽略。
在上述任一方案中优选的是,所述网络事件实体的创建是利用图谱数据集中的样本所包含的信息通过适当的机器学习方法进行,并分配全局唯一的网络事件ID。
在上述任一方案中优选的是,所述步骤13还包括根据地图经纬度计算并记录各栅格中心点的经纬度,并按顺序依次对各栅格进行编号得到所述栅格ID,并建立相应的栅格实体。
在上述任一方案中优选的是,所述网络制式名称和运营商实体根据图谱数据集所涉及的具体制式和运营商手工创建。
在上述任一方案中优选的是,所述步骤2还包括遍历图谱数据集中所有样本,依次对下列实体的属性信息进行提取,并以属性三元组的形式存储。
在上述任一方案中优选的是,所述属性三元组包括实体ID、属性名称和属性值。
在上述任一方案中优选的是,大区实体的所述属性信息提取方法为对实体表中的每个大区实体,从图谱数据集中分别提取所有大区ID字段为该实体名称的样本,根据样本的城市、运营商、网络制式字段有效值依次提取为该大区实体的属性,记为属性三元组并记入属性表;属性“信息更新日期”根据当前大区ID字段为该实体名称的全部样本中的最新样本日期确定。
在上述任一方案中优选的是,基站实体的所述属性信息提取方法为对实体表中的每个基站实体,从图谱数据集中分别提取所有基站ID字段为该实体名称的样本,并进行处理后记入属性表。
在上述任一方案中优选的是,所述基站实体的属性样本处理方法为:
城市、运营商、网络制式和大区ID中至少一种属性是从该基站实体所属大区实体继承得到;
行政区属性是根据该基站站址所在的栅格实体中的行政区属性值继承得到;
站址经度和站址纬度属性是根据该基站下全部采样点的经纬度利用聚类方法求取聚类中心得到;
小区数属性即为该基站下全部的有效小区实体的总数;
基站类型属性可包括宏站/微站/室分/拉远等几种类型,根据样本点的空间分布、最大覆盖范围、下属小区数量判断确定;
覆盖场景类型属性包括居民区/商业区/学校/道路/高速公路/医院等类型,可根据该基站站址所在的栅格实体中的覆盖场景类型属性值继承得到;
覆盖场景名称属性可根据该基站站址所在的栅格实体中的“覆盖场景名称”属性值继承得到;
NSA标识属性:如果本基站网络制式为5G且与一个4G基站具有从属关系,则NSA标识取值为1,否则为0;
运行状态、设备启用日期、设备厂家、设备型号中至少一种属性依赖人工录入或从第三方数据集导入;
信息更新日期属性根据当前基站ID字段为该实体名称的全部样本中的最新样本日期确定。
在上述任一方案中优选的是,小区实体的所述属性信息提取方法为对实体表中的每个小区实体,从图谱数据集中分别提取所有小区ID字段为该实体名称的样本,并进行处理后记入属性表。
在上述任一方案中优选的是,所述小区实体的属性样本处理方法为:
城市、运营商、网络制式、大区ID、基站ID、行政区、站址经度、站址纬度、基站类型和覆盖场景类型中至少一种属性,由该实体所属的基站实体的相应属性继承得到;
方向角属性根据该小区所属基站下全部有效样本,通过分类方法估计出相邻共站小区的最优边界,并取该小区两侧边界所夹角的等分角作为其天线方向角的最优估计值;
覆盖半径属性根据该小区下全部有效样本,取其中距离基站站址最远的前10%样点并计算其到基站的平均距离,即作为该小区的覆盖半径。
属性“下倾角”根据基站天线挂高h、小区的覆盖半径γ,计算公式为
Figure BDA0002278902150000031
其中,Td为该小区最强覆盖距离占最大覆盖半径的比例;物理小区ID和频点号属性根据各样本的相应字段取值得到;
覆盖率属性是该小区所属基站下全部有效样本中有效覆盖样本的占比,有效覆盖样本指其导频信号强度超过预设门限的样本;
信息更新日期属性根据当前小区ID字段为该实体名称的全部样本中的最新样本日期确定。
在上述任一方案中优选的是,栅格实体的所述属性信息提取方法为对实体表中的每个栅格实体做处理后记入属性表。
在上述任一方案中优选的是,栅格实体的属性包括:实体名称(即栅格ID),行政区,栅格长度,栅格宽度,中心经度,中心纬度,覆盖场景类型,覆盖场景名称,覆盖网络信息,信息更新日期。
在上述任一方案中优选的是,对实体表中的每个栅格实体做如下处理后记入属性表:
栅格长度、栅格宽度、中心经度和中心纬度属性由网格剖分时确定;
行政区属性根据样本经纬度从图谱数据集中分别提取落在该栅格地理范围内的样本,统计各样本中的不同“行政区”字段值的频次占比,当最高频次占比>Tc,则取最高频次占比对应的行政区为当前的属性值;否则置空,其中,Tc为预设门限;
覆盖场景类型属性根据电子地图的地理标记图层,采用自然语言处理方法进行处理,以栅格中心坐标经纬度作为入口参数,调用电子地图相应API接口获取地标字符串,利用分词技术对地标字符串进行分词,利用预先构建的覆盖场景类型关键字字典对地标字符串的分词结果进行关键字匹配,匹配成功则将该关键字作为本属性的取值,并将整个地标字符串作为覆盖场景名称属性的取值;
覆盖网络信息属性由一个复合字段构成即{覆盖运营商,覆盖网络制式,平均覆盖率,主覆盖小区ID,主覆盖小区覆盖率},每个在该栅格内有样本的网络制式均有一个对应的属性值矢量;所述覆盖运营商和所述覆盖网络制式指在该网格内有样本的运营商和网络制式,从落在该栅格地理范围内的样本中的运营商和网络制式字段提取;所述平均覆盖率指在对应的网络制式下在该栅格内的全部采样点中导频信号强度高于设定门限的样本占比;所述主覆盖小区ID是对应网络制式下在该栅格内有样本的全部小区ID中,样本点最多的小区ID,其下所有样本中导频信号强度高于设定门限的样本占比记为主覆盖小区覆盖率;
信息更新日期属性根据当前栅格范围内的全部样本中的最新样本日期确定。
在上述任一方案中优选的是,终端实体的所述属性信息提取方法为实体表中的每个终端实体,从图谱数据集中分别提取所有终端ID字段为该实体名称的样本,并进行处理后记入属性表。
在上述任一方案中优选的是,所述终端实体的属性样本处理方法为:品牌、型号和{运营商,网络制式}中至少一种属性根据各样本的“品牌”、“型号”、“运营商”、“网络制式”字段有效值依次提取为该实体的相应属性;
信息更新日期属性根据当前终端ID字段为该实体名称的全部样本中的最新样本日期确定。
在上述任一方案中优选的是,所述步骤3还包括遍历图谱数据集中所有样本,依次对下列实体间关系信息进行提取,并以关系三元组的形式存储,根据三元组的内容不同可以为单向关系或无向关系。
在上述任一方案中优选的是,所述关系三元组包括头实体ID、关系和尾实体ID。
在上述任一方案中优选的是,所述实体关系提取包括隶属关系提取、邻区关系提取、从属关系提取、共址关系提取、共享关系提取、驻留关系提取和关联关系提取中至少一种。
在上述任一方案中优选的是,所述隶属关系属于一对一单向关系,包括同一网络下的小区隶属于基站、基站隶属于大区,根据同一样本中的{小区ID,基站ID}、{基站ID,大区ID}的共现关系提取。
在上述任一方案中优选的是,所述邻区关系属于一对多单向关系,指同一网络下的不同小区实体间的相邻关系,包括同频邻区、异频邻区和异网邻区,根据图谱数据集中,样本中小区ID与邻区信息列表中的小区ID的共现关系提取。
在上述任一方案中优选的是,所述从属关系采用ENDC模式时当一个5G基站依托于另一个4G LTE基站工作时,表征该5G基站与4G基站的从属关系,为一对一单向关系。
在上述任一方案中优选的是,所述共址关系为多对多无向关系,是同一运营商下的同网或异网的两个基站间的关系。
在上述任一方案中优选的是,所述共址关系的判定方法为对于已提取了站址经纬度属性的基站实体,基站A、基站B的经纬度分别为:(x1,y1)、(x2,y2),满足
Figure BDA0002278902150000051
则二者为共址关系,其中,R为常量,TCS为预设参数。
在上述任一方案中优选的是,所述共享关系为多对多无向关系,是不同运营商下的两个基站间的关系。要求两个基站必须属于不同的运营商。
在上述任一方案中优选的是,所述驻留关系为一对多单向关系,指终端在样本周期内在各小区、基站、大区和栅格下的驻留行为,包括终端与小区、终端与基站、终端与大区、终端与栅格的驻留关系。
在上述任一方案中优选的是,样本中有{终端ID,小区ID},则该终端实体为驻留于该小区,同时,根据小区与基站、大区的隶属关系,该终端也驻留于该基站和大区。
在上述任一方案中优选的是,所述样本中的经度和纬度字段值分别为(x0,y0),对于某栅格实体Gi其属性字段:栅格长度、栅格宽度、中心经度和中心纬度的值分别用(gl,gw,xc,yc)表示,且满足下式,则该样本对应的终端实体与该栅格属于驻留关系:
Figure BDA0002278902150000052
其中,k为常数,h=1.11×105·cos(y0)。
在上述任一方案中优选的是,所述关联关系为多对多无向关系,是指两个实体间具有关联性,包括栅格实体与小区实体、栅格实体与基站实体、栅格实体与大区实体的关联关系。
在上述任一方案中优选的是,所述栅格实体与小区实体间的关联性关系的获取方法:对栅格实体Eg,设图谱数据集中经纬度处于该栅格地理范围内的样本共m个构成了该栅格的样本集Dg={Si,i=1~m},这些样本根据其小区ID属性分类统计其样本数占比,取占比最高的前5个小区作为其关联小区,同时取与这些小区具有隶属关系的基站和大区实体作为该栅格的关联实体。
在上述任一方案中优选的是,所述消岐的方法包括以下步骤:
步骤41:小区实体的对齐,当有两个小区实体(小区ID不同)所具有的关键属性字段取值相同,包括{城市,运营商,网络制式,大区ID,基站ID,物理小区ID,频点号},则判定该两个小区实体为同一实际实体,则将其中具有较少样本数的小区所对应的小区实体剔除,并将该小区实体对应的属性和关系信息合并到保留下来的小区实体上;
步骤42:小区属性的消岐,对于一个小区实体,如果在属性抽取时得到超过一个频点号属性值,则统计该小区实体相关联的所有样本中各频点号属性值所对应的样本的占比,并取占比最高的频点号属性值为该小区实体的最终频点号属性取值;对物理小区属性字段做相同方法的处理;
步骤43:终端属性的消岐,对于一个终端实体,如果在属性抽取时得到超过一个品牌属性值,则统计该小区实体相关联的所有样本中各品牌属性值所对应的样本的占比,并取占比最高的品牌属性值为该小区实体的最终品牌属性取值;对型号属性字段做相同方法的处理;
步骤44:隶属关系的消岐,包括小区与基站、小区与大区、基站与大区间隶属关系的消岐,即当已抽取的隶属关系中,如果某实体同时隶属于多个上位实体时,首先统计该实体隶属于每个上位实体的出现频次占比,并取占比最高者作为实际关系予以保留,并删除其余关系;
步骤45:从属关系的消岐,即当某5G基站实体同时与多个4G LTE基站实体具有从属关系时,统计该5G基站实体隶属于每个4G LTE实体的出现频次占比,并取占比最高者作为实际关系予以保留,并删除其余关系。
本发明的第二目的是提供一种无线网络知识图谱的构建系统,包括数据输入模块,包括以下模块:
提取模块:用于提取实体信息、属性信息和实体关系信息;
消歧模块:用于将图谱各类数据中存在的不一致情况进行甄别、剔除或合并处理;存储展示模块:用于图谱数的数据保存与GIS展示;
所述系统按照如权利要求1所述的方法进行无线网络知识图谱的构建。
本发明提出了一种无线网络知识图谱的构建方法,能够从海量的无线网络感知数据集中自动提取并构建无线网络知识图谱,及时更新到基站信息表中,保证了基础数据的准确性、完整性、及时性。
MCS数据:移动众包感知数据;
MR数据:测量报告数据;
ENDC模式:即LTENew Radio Dual Connection模式,指4G无线接入网与5G NR的双连接。
附图说明
图1为按照本发明的无线网络知识图谱的构建方法的一优选实施例的流程图。
图1A为按照本发明的无线网络知识图谱的构建方法的如图1所示实施例的实体信息提取流程图。
图1B为按照本发明的无线网络知识图谱的构建方法的如图1所示实施例的消岐方法流程图。
图2为按照本发明的无线网络知识图谱的构建系统的一优选实施例的模块图。
图3为按照本发明的无线网络知识图谱的构建方法的另一优选实施例的流程图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1、2所示,执行步骤100,使用数据输入模块200输入数据。数据包括MCS数据、MR数据和电子地图数据中至少一种。
执行步骤110,使用提取模块210进行实体信息提取。实体信息包括以下类别中至少一种:大区、基站、小区、栅格、网络事件、终端、网络制式和运营商,上述类别相应的实体名称分别取为大区ID、基站ID、小区ID、栅格ID、事件ID、终端ID、网络制式名称和运营商名称。如图1A所示,在步骤110中执行步骤111,根据所要构建的知识图谱针对的城市、运营商和网络制式对所述MCS数据集和所述MR数据集进行过滤,保留有效样本,同时对各字段的无效值进行剔除处理,得到共包含N个样本的图谱数据集D={Si,i=1~N},其中,Si为20维向量,Si=(终端ID,采样日期,采样时间,经度,纬度,城市,行政区,运营商,网络制式,大区ID,基站ID,小区ID,物理小区ID,频点号,导频信号强度,导频信号质量,导频信干噪比,邻区信息列表,终端品牌,终端型号)。其中,大区ID对于4G和5G网络下即指TAC(跟踪区码);基站ID在4G网络下指eNBID、5G网络下指gNBID;小区ID也称cellID;物理小区ID也称PCI;频点号在4G下指EARFCN、在5G下指NRARFCN;导频信号强度在4G网络下指RSRP、在5G下指CSIRSRP或SSRSRP;导频信号质量在4G下指RSRQ、在5G下指CSIRSRQ或SSRSRQ;导频信干噪比在4G网络下指SINR、在5G下指SSSINR;邻区信息列表字段为复合字段,包含该终端所测量到的各邻区的大区ID、基站ID、小区ID、物理小区ID、频点号、导频信号强度信息。执行步骤112,遍历图谱数据集中所有样本,利用所述实体名称建立相应的大区、基站、小区和终端实体,并利用样本中相关信息建立相应的网络事件实体,记为实体三元组并存入实体表,人工创建网络制式和运营商实体。其中,实体三元组包括实体ID、实体名称和实体类别,所述实体ID为全局唯一编号,当前样本中所包含的字段中已经标注为实体时则忽略。所述网络事件实体的创建是利用图谱数据集中的样本所包含的信息通过适当的机器学习方法进行,并分配全局唯一的网络事件ID。建网络制式名称和运营商实体根据图谱数据集所涉及的具体制式和运营商手工创建。执行步骤113,电子地图上对目标区域按预设的长度和宽度进行等比例网格剖分,根据地图经纬度计算并记录各栅格中心点的经纬度,并按顺序依次对各栅格进行编号得到所述栅格ID,并建立相应的栅格实体。
执行步骤120,使用提取模块210进行属性信息提取。遍历图谱数据集中所有样本,依次对下列实体的属性信息进行提取,并以属性三元组的形式存储。所述属性三元组包括实体ID、属性名称和属性值。
大区实体的所述属性信息提取方法为对实体表中的每个大区实体,从图谱数据集中分别提取所有大区ID字段为该实体名称的样本,根据样本的城市、运营商、网络制式字段有效值依次提取为该大区实体的属性,记为属性三元组并记入属性表;属性“信息更新日期”根据当前大区ID字段为该实体名称的全部样本中的最新样本日期确定。
基站实体的所述属性信息提取方法为对实体表中的每个基站实体,从图谱数据集中分别提取所有基站ID字段为该实体名称的样本,并进行处理后记入属性表。基站实体的属性样本处理方法为:
城市、运营商、网络制式和大区ID中至少一种属性是从该基站实体所属大区实体继承得到;
行政区属性是根据该基站站址所在的栅格实体中的行政区属性值继承得到;
站址经度和站址纬度属性是根据该基站下全部采样点的经纬度利用聚类方法求取聚类中心得到;
小区数属性即为该基站下全部的有效小区实体的总数;
基站类型属性可包括宏站/微站/室分/拉远等几种类型,根据样本点的空间分布、最大覆盖范围、下属小区数量判断确定;
覆盖场景类型属性包括居民区/商业区/学校/道路/高速公路/医院等类型,可根据该基站站址所在的栅格实体中的覆盖场景类型属性值继承得到;
覆盖场景名称属性可根据该基站站址所在的栅格实体中的“覆盖场景名称”属性值继承得到;
NSA标识属性:如果本基站网络制式为5G且与一个4G基站具有从属关系,则NSA标识取值为1,否则为0;
运行状态、设备启用日期、设备厂家、设备型号中至少一种属性依赖人工录入或从第三方数据集导入;
信息更新日期属性根据当前基站ID字段为该实体名称的全部样本中的最新样本日期确定。
小区实体的所述属性信息提取方法为对实体表中的每个小区实体,从图谱数据集中分别提取所有小区ID字段为该实体名称的样本,并进行处理后记入属性表。小区实体的属性样本处理方法为:
城市、运营商、网络制式、大区ID、基站ID、行政区、站址经度、站址纬度、基站类型和覆盖场景类型中至少一种属性,由该实体所属的基站实体的相应属性继承得到;
方向角属性根据该小区所属基站下全部有效样本,通过分类方法估计出相邻共站小区的最优边界,并取该小区两侧边界所夹角的等分角作为其天线方向角的最优估计值;
覆盖半径属性根据该小区下全部有效样本,取其中距离基站站址最远的前10%样点并计算其到基站的平均距离,即作为该小区的覆盖半径。
属性“下倾角”根据基站天线挂高h、小区的覆盖半径γ,计算公式为
Figure BDA0002278902150000081
其中,Td为该小区最强覆盖距离占最大覆盖半径的比例;物理小区ID和频点号属性根据各样本的相应字段取值得到;
覆盖率属性是该小区所属基站下全部有效样本中有效覆盖样本的占比,有效覆盖样本指其导频信号强度超过预设门限的样本;
信息更新日期属性根据当前小区ID字段为该实体名称的全部样本中的最新样本日期确定。
栅格实体的所述属性信息提取方法为对实体表中的每个栅格实体做处理后记入属性表。栅格实体的属性包括:实体名称(即栅格ID),行政区,栅格长度,栅格宽度,中心经度,中心纬度,覆盖场景类型,覆盖场景名称,覆盖网络信息,信息更新日期。对实体表中的每个栅格实体做如下处理后记入属性表:
栅格长度、栅格宽度、中心经度和中心纬度属性由网格剖分时确定;
行政区属性根据样本经纬度从图谱数据集中分别提取落在该栅格地理范围内的样本,统计各样本中的不同“行政区”字段值的频次占比,当最高频次占比>Tc,则取最高频次占比对应的行政区为当前的属性值;否则置空,其中,Tc为预设门限;
覆盖场景类型属性根据电子地图的地理标记图层,采用自然语言处理方法进行处理,以栅格中心坐标经纬度作为入口参数,调用电子地图相应API接口获取地标字符串,利用分词技术对地标字符串进行分词,利用预先构建的覆盖场景类型关键字字典对地标字符串的分词结果进行关键字匹配,匹配成功则将该关键字作为本属性的取值,并将整个地标字符串作为覆盖场景名称属性的取值;
覆盖网络信息属性由一个复合字段构成即{覆盖运营商,覆盖网络制式,平均覆盖率,主覆盖小区ID,主覆盖小区覆盖率},每个在该栅格内有样本的网络制式均有一个对应的属性值矢量;所述覆盖运营商和所述覆盖网络制式指在该网格内有样本的运营商和网络制式,从落在该栅格地理范围内的样本中的运营商和网络制式字段提取;所述平均覆盖率指在对应的网络制式下在该栅格内的全部采样点中导频信号强度高于设定门限的样本占比;所述主覆盖小区ID是对应网络制式下在该栅格内有样本的全部小区ID中,样本点最多的小区ID,其下所有样本中导频信号强度高于设定门限的样本占比记为主覆盖小区覆盖率;
信息更新日期属性根据当前栅格范围内的全部样本中的最新样本日期确定。
终端实体的所述属性信息提取方法为实体表中的每个终端实体,从图谱数据集中分别提取所有终端ID字段为该实体名称的样本,并进行处理后记入属性表。终端实体的属性样本处理方法为:
品牌、型号、运营商和网络制式中至少一种属性属性:根据各样本的“品牌”、“型号”、“运营商”、“网络制式”字段有效值依次提取为该实体的相应属性;信息更新日期属性根据当前终端ID字段为该实体名称的全部样本中的最新样本日期确定。
执行步骤130,使用提取模块210进行实体关系信息提取。遍历图谱数据集中所有样本,依次对下列实体间关系信息进行提取,并以关系三元组的形式存储,根据三元组的内容不同可以为单向关系或无向关系,关系三元组包括头实体ID、关系和尾实体ID。
实体关系提取包括隶属关系提取、邻区关系提取、从属关系提取、共址关系提取、共享关系提取、驻留关系提取和关联关系提取中至少一种。
隶属关系属于一对一单向关系,包括同一网络下的小区隶属于基站、基站隶属于大区,根据同一样本中的{小区ID,基站ID}、{基站ID,大区ID}的共现关系提取。
邻区关系属于一对多单向关系,指同一网络下的不同小区实体间的相邻关系,包括同频邻区、异频邻区和异网邻区,根据图谱数据集中,样本中小区ID与邻区信息列表中的小区ID的共现关系提取。
从属关系采用ENDC模式时当一个5G基站依托于另一个4G LTE基站工作时,表征该5G基站与4G基站的从属关系,为一对一单向关系。
共址关系为多对多无向关系,是同一运营商下的同网或异网的两个基站间的关系。共址关系的判定方法为对于已提取了站址经纬度属性的基站实体,基站A、基站B的经纬度分别为:(x1,y1)、(x2,y2),满足
Figure BDA0002278902150000091
则二者为共址关系,其中,R为常量,TCS为预设参数。
共享关系为多对多无向关系,是不同运营商下的两个基站间的关系。要求两个基站必须属于不同的运营商。
驻留关系为一对多单向关系,指终端在样本周期内在各小区、基站、大区和栅格下的驻留行为,包括终端与小区、终端与基站、终端与大区、终端与栅格的驻留关系。样本中有{终端ID,小区ID},则该终端实体为驻留于该小区,同时,根据小区与基站、大区的隶属关系,该终端也驻留于该基站和大区。样本中的经度和纬度字段值分别为(x0,y0),对于某栅格实体Gi其属性字段:栅格长度、栅格宽度、中心经度和中心纬度的值分别用(gl,gw,xc,yc)表示,且满足下式,则该样本对应的终端实体与该栅格属于驻留关系:
Figure BDA0002278902150000101
其中,k为常数,h=1.11×105·cos(y0)。
关联关系为多对多无向关系,是指两个实体间具有关联性,包括栅格实体与小区实体、栅格实体与基站实体、栅格实体与大区实体的关联关系。栅格实体与小区实体间的关联性关系的获取方法:对栅格实体Eg,设图谱数据集中经纬度处于该栅格地理范围内的样本共m个构成了该栅格的样本集Dg={Si,i=1~m},这些样本根据其小区ID属性分类统计其样本数占比,取占比最高的前5个小区作为其关联小区,同时取与这些小区具有隶属关系的基站和大区实体作为该栅格的关联实体。
执行步骤140,使用消歧模块220将图谱各类数据中存在的不一致情况进行甄别、剔除或合并处理。如图1B所示,消岐的方法包括以下步骤;执行步骤141,小区实体的对齐,当有两个小区实体(小区ID不同)所具有的关键属性字段取值相同,包括{城市,运营商,网络制式,大区ID,基站ID,物理小区ID,频点号},则判定该两个小区实体为同一实际实体,则将其中具有较少样本数的小区所对应的小区实体剔除,并将该小区实体对应的属性和关系信息合并到保留下来的小区实体上。执行步骤142,小区属性的消岐,对于一个小区实体,如果在属性抽取时得到超过一个频点号属性值,则统计该小区实体相关联的所有样本中各频点号属性值所对应的样本的占比,并取占比最高的频点号属性值为该小区实体的最终频点号属性取值;对物理小区属性字段做相同方法的处理。执行步骤143,终端属性的消岐,对于一个终端实体,如果在属性抽取时得到超过一个品牌属性值,则统计该小区实体相关联的所有样本中各品牌属性值所对应的样本的占比,并取占比最高的品牌属性值为该小区实体的最终品牌属性取值;对型号属性字段做相同方法的处理。执行步骤144,隶属关系的消岐,包括小区与基站、小区与大区、基站与大区间隶属关系的消岐,即当已抽取的隶属关系中,如果某实体同时隶属于多个上位实体时,首先统计该实体隶属于每个上位实体的出现频次占比,并取占比最高者作为实际关系予以保留,并删除其余关系。执行步骤145,从属关系的消岐,即当某5G基站实体同时与多个4G LTE基站实体具有从属关系时,统计该5G基站实体隶属于每个4G LTE实体的出现频次占比,并取占比最高者作为实际关系予以保留,并删除其余关系
执行步骤150,使用存储暂时模块将图谱的数据存储与GIS展示,采用基于电子地图的多图层结构,从底向上依次包括电子地图基础图层、栅格图层、实体图层。
实施例二
本实施例提出了一种无线网络知识图谱的构建方法,根据海量的无线网络感知数据自动提取相关信息并构建无线网络知识图谱,是一种更全面、及时、动态、可视化的基站信息存储管理和呈现方法,有利于提升移动网络运维的智能化水平、提高运维工作的效率。如果数据源包含了其他运营商的网络采样数据,则可以有效提取无线网络信息并在无线网络知识图谱中做适当的呈现、便于开展网络间的对标和基于比较优势的网络运维。
如图3所述,具体步骤详细描述如下:
输入数据:
输入数据包括MCS(移动众包感知)数据、MR(测量报告)数据、电子地图数据。
MCS数据是有从海量用户终端上采集的数据构成,MR数据是指由基站设备上采集的该基站下各终端设备上报的测量信息所构成,均为结构化数据。两类数据所包含的字段:终端ID(对MR数据,一般指IMSI),采样日期,采样时间,经度,纬度,城市,行政区,运营商,网络制式,大区ID(4G和5G网络下为TAC,即跟踪区码),基站ID(4G网络下eNBID,5G网络下为gNBID),小区ID(cellID),物理小区ID(PCI),频点号(EARFCN),导频信号强度(4G网络下RSRP),导频信号质量(4G网络下RSRQ),导频信干噪比(4G网络下SINR),邻区信息列表(包括该终端所测量的各邻区的大区ID、基站ID、小区ID、物理小区ID、频点号、导频信号强度),终端品牌,终端型号。有些情况下部分字段有缺失,MR数据中不包含终端品牌和终端型号信息。
电子地图则为目标覆盖区域的矢量电子地图数据,包括矢量地图图层和地理标记图层(标识图中地理元素如道路、楼宇、河流等的中文字符串)。
步骤1:实体信息提取
无线网络知识图谱中的实体包括下列类别:大区,基站,小区,栅格,网络事件,终端,网络制式,运营商。为保证实体的唯一性,相应的实体名称分别取为大区ID、基站ID、小区ID、栅格ID、事件ID、终端ID、网络制式名称、运营商名称。
1.1:根据所要构建的知识图谱针对的城市、运营商和网络制式对MCS和MR数据集进行过滤,保留有效样本,同时对各字段的无效值进行剔除处理,得到共包含N个样本的图谱数据集D={Si,i=1~N},其中,Si为20维向量,Si=(终端ID,采样日期,采样时间,经度,纬度,城市,行政区,运营商,网络制式,大区ID,基站ID,小区ID,物理小区ID,频点号,导频信号强度,导频信号质量,导频信干噪比,邻区信息列表,终端品牌,终端型号)。其中,大区ID对于4G和5G网络下即指TAC(跟踪区码);基站ID在4G网络下指eNBID、5G网络下指gNBID;小区ID也称cellID;物理小区ID也称PCI;频点号在4G下指EARFCN、在5G下指NRARFCN;导频信号强度在4G网络下指RSRP、在5G下指CSIRSRP或SSRSRP;导频信号质量在4G下指RSRQ、在5G下指CSIRSRQ或SSRSRQ;导频信干噪比在4G网络下指SINR、在5G下指SSSINR;邻区信息列表字段为复合字段,包含该终端所测量到的各邻区的大区ID、基站ID、小区ID、物理小区ID、频点号、导频信号强度信息。
1.2:遍历图谱数据集中所有样本,利用输入数据中的特定字段“大区ID”、“基站ID”、“小区ID”、“终端ID”分别建立相应的大区、基站、小区和终端实体,并利用样本中相关信息建立相应的网络事件实体,记为实体三元组(实体ID,实体名称,实体类别)并存入实体表,实体ID为全局唯一的编号;如果当前样本中所包含的上述字段值已经标记为实体则忽略;网络事件实体的创建是利用图谱数据集中的样本所包含的信息通过适当的机器学习方法进行,并分配全局唯一的网络事件ID。
1.3:在电子地图上对目标区域按预设的长度(横向)和宽度(纵向)进行等比例网格剖分,根据地图经纬度计算并记录各栅格中心点的经纬度,并按顺序依次对各栅格进行编号得到“栅格ID”,并建立相应的栅格实体;
1.4:网络制式和运营商实体则根据图谱数据集所涉及的具体制式和运营商手工创建。
步骤2:属性信息提取
遍历图谱数据集中所有样本,依次对下列实体的属性信息进行提取,并以属性三元组的形式存储,属性三元组包括实体ID、属性名称和属性值。
2.1:大区实体的属性提取。
大区实体的属性包括:实体名称(即大区ID)、城市、运营商、网络制式、信息更新日期。
对实体表中的每个大区实体,从图谱数据集中分别提取所有大区ID字段为该实体名称的样本,根据样本的“城市”、“运营商”、“网络制式”字段有效值依次提取为该大区实体的属性,记为属性三元组(实体ID,属性名称,属性值)并记入属性表。
属性“信息更新日期”根据当前大区ID字段为该实体名称的全部样本中的最新样本日期确定。
2.2:基站实体的属性提取。
基站实体的属性包括:实体名称(即基站ID),城市,运营商,网络制式,大区ID,行政区,站址经度,站址纬度,小区数,基站类型,覆盖场景类型,覆盖场景名称,室内外标识,NSA标识(仅5G站),运行状态,设备启用日期,设备厂家,设备型号,信息更新日期。
对实体表中的每个基站实体,从图谱数据集中分别提取所有基站ID字段为该实体名称的样本,并进行如下处理后记入属性表:
属性{城市,运营商,网络制式,大区ID}是从该基站实体所属大区实体继承得到;
属性“行政区”是根据该基站站址所在的栅格实体中的“行政区”属性值继承得到;
属性“站址经度”、“站址纬度”是根据该基站下全部采样点的经纬度利用聚类方法求取聚类中心得到;
属性“小区数”即为该基站下全部的有效小区实体的总数;
属性“基站类型”可包括宏站/微站/室分/拉远等几种类型,根据样本点的空间分布、最大覆盖范围、下属小区数量判断确定;
属性“覆盖场景类型”包括居民区/商业区/学校/道路/高速公路/医院等类型,可根据该基站站址所在的栅格实体中的“覆盖场景类型”属性值继承得到;
属性“覆盖场景名称”可根据该基站站址所在的栅格实体中的“覆盖场景名称”属性值继承得到;
属性“NSA标识”:如果本基站网络制式为5G且与一个4G基站具有“主从”关系,则NSA标识取值为1(即NSA基站),否则为0(即SA基站);
属性{运行状态、设备启用日期、设备厂家、设备型号}依赖人工录入或从第三方数据集导入。
属性“信息更新日期”根据当前基站ID字段为该实体名称的全部样本中的最新样本日期确定。
2.3:小区实体的属性提取。
小区实体的属性包括:实体名称(即小区ID),城市,运营商,网络制式,大区ID,基站ID,行政区,站址经度,站址纬度,基站类型,覆盖场景类型,方向角,倾角,物理小区ID,频点号,覆盖率,覆盖半径,信息更新日期。
对实体表中的每个小区实体,从图谱数据集中分别提取所有小区ID字段为该实体名称的样本,并进行如下处理后记入属性表:
属性{城市,运营商,网络制式,大区ID,基站ID,行政区,站址经度,站址纬度,基站类型,覆盖场景类型},由该实体所属的基站实体的相应属性继承得到;
属性“方向角”根据该小区所属基站下全部有效样本,通过分类方法估计出相邻共站小区的最优边界,并取该小区两侧边界所夹角的等分角作为其天线方向角的最优估计值;
属性“覆盖半径”根据该小区下全部有效样本,取其中距离基站站址最远的前10%样点并计算其到基站的平均距离,即作为该小区的覆盖半径。
属性“下倾角”根据基站天线挂高h、小区的覆盖半径γ,由下式计算得到(其中Td为该小区最强覆盖距离占最大覆盖半径的比例,默认取75%):
Figure BDA0002278902150000131
属性“物理小区ID”“频点号”根据各样本的相应字段取值得到;
属性“覆盖率”是该小区所属基站下全部有效样本中有效覆盖样本的占比,有效覆盖样本指其导频信号强度超过预设门限的样本;
属性“信息更新日期”根据当前小区ID字段为该实体名称的全部样本中的最新样本日期确定。
2.5:栅格实体的属性提取。
栅格实体的属性包括:实体名称(即栅格ID),行政区,栅格长度,栅格宽度,中心经度,中心纬度,覆盖场景类型,覆盖场景名称,覆盖网络信息,信息更新日期。
对实体表中的每个栅格实体做如下处理后记入属性表:
属性“栅格长度”“栅格宽度”“中心经度”“中心纬度”由网格剖分时确定;
属性“行政区”:根据样本经纬度从图谱数据集中分别提取落在该栅格地理范围内的样本,统计各样本中的不同“行政区”字段值的频次占比,当最高频次占比>Tc(Tc为预设门限,默认值50%),则取最高频次占比对应的行政区为当前的属性值;否则置空;
属性“覆盖场景类型”根据电子地图的地理标记图层,采用自然语言处理方法进行处理。具体,以栅格中心坐标经纬度作为入口参数,调用电子地图相应API接口获取地标字符串,利用分词技术对地标字符串进行分词,利用预先构建的覆盖场景类型关键字字典对地标字符串的分词结果进行关键字匹配,匹配成功则将该关键字作为本属性的取值。并将整个地标字符串作为属性“覆盖场景名称”的取值;
属性“覆盖网络信息”由一个复合字段构成即{覆盖运营商,覆盖网络制式,平均覆盖率,主覆盖小区ID,主覆盖小区覆盖率},每个在该栅格内有样本的网络制式均有一个对应的属性值矢量。“覆盖运营商”和“覆盖网络制式”指在该网格内有样本的运营商和网络制式,从落在该栅格地理范围内的样本中的运营商和网络制式字段提取;“平均覆盖率”指在对应的网络制式下在该栅格内的全部采样点中导频信号强度高于设定门限的样本占比;“主覆盖小区ID”是对应网络制式下在该栅格内有样本的全部小区ID中,样本点最多的小区ID,其下所有样本中导频信号强度高于设定门限的样本占比记为主覆盖小区覆盖率。
属性“信息更新日期”根据当前栅格范围内的全部样本中的最新样本日期确定。
2.6:终端实体的属性提取。
终端实体的属性包括:实体名称(即终端ID),品牌,型号,{运营商,网络制式},信息更新日期。
对实体表中的每个终端实体,从图谱数据集中分别提取所有终端ID字段为该实体名称的样本,并进行如下处理后记入属性表:
属性“品牌”“型号”“{运营商,网络制式}”:根据各样本的“品牌”、“型号”、“运营商”、“网络制式”字段有效值依次提取为该实体的相应属性;
属性“信息更新日期”根据当前终端ID字段为该实体名称的全部样本中的最新样本日期确定。
步骤3:实体关系提取
遍历图谱数据集中所有样本,依次对下列实体间关系信息进行提取,并以关系三元组(头实体ID,关系,尾实体ID)的形式存储,根据三元组的内容不同可以为单向关系或无向关系。
3.1隶属关系提取。
隶属关系属于一对一单向关系,包括同一网络下的小区隶属于基站、基站隶属于大区。
具体可根据同一样本中的{小区ID,基站ID}、{基站ID,大区ID}的共现关系提取;
3.2邻区关系提取。
邻区关系属于一对多单向关系,指同一网络下的不同小区实体间的相邻关系。
具体可根据图谱数据集中,样本中小区ID与邻区信息列表中的小区ID的共现关系提取;包括同频邻区、异频邻区和异网邻区;
3.3从属关系提取。
从属关系仅针对5GNSA非独立组网下,采用ENDC(LTENew Radio DualConnection)模式时当一个5G基站依托于另一个4G LTE基站工作时,表征该5G基站与4G基站的从属关系,为一对一单向关系。
3.4共址关系提取。
共址关系为多对多无向关系,是同一运营商下的同网或异网的两个基站间的关系。
对于已提取了站址经纬度属性的基站实体,假设基站A、基站B的经纬度分别为:(x1,y1)、(x2,y2),则如果下式满足(式中R=6378137为常量,Tcs为预设参数,默认值为30),则二者为共址关系:
Figure BDA0002278902150000151
3.5共享关系提取。
共址关系为多对多无向关系,是不同运营商下的两个基站间的关系。其提取方式与共址关系类似,唯一的区别是要求两个基站必须属于不同的运营商。
3.6驻留关系提取。
驻留关系指终端在样本周期内在各小区、基站、大区和栅格下的驻留行为,为一对多单向关系。包括终端与小区、终端与基站、终端与大区、终端与栅格的驻留关系。
具体地,当样本中有{终端ID,小区ID},则该终端实体为驻留于该小区,同时,根据小区与基站、大区的隶属关系,该终端也驻留于该基站和大区。
此外,当样本中的经度和纬度字段值分别为(x0,y0),对于某栅格实体Gi其属性字段“栅格长度”“栅格宽度”“中心经度”“中心纬度”值分别用(gl,gw,xc,yc)表示,且满足以下关系,则该样本对应的终端实体与该栅格属于驻留关系:
Figure BDA0002278902150000152
其中,h=1.11×105·cos(y0),k=1.1094×105
3.7关联关系提取。
关联关系指两个实体间具有关联性,为多对多无向关系,包括栅格实体与小区实体、栅格实体与基站实体、栅格实体与大区实体的关联关系。
具体,栅格实体与小区实体间的关联性关系由下面的方法获得:对栅格实体Eg,设图谱数据集中经纬度处于该栅格地理范围内的样本共m个构成了该栅格的样本集Dg={Si,i=1~m},这些样本根据其小区ID属性分类统计其样本数占比,取占比最高的前5个小区作为其关联小区,同时取与这些小区具有隶属关系的基站和大区实体作为该栅格的关联实体。
步骤4:消岐
消岐的目的是将图谱各类数据中存在的不一致情况进行甄别、剔除或合并处理,以保证实体、属性、关系等信息的唯一性。
4.1小区实体的对齐。当有两个小区实体(小区ID不同)所具有的关键属性字段取值相同,包括{城市,运营商,网络制式,大区ID,基站ID,物理小区ID,频点号},则判定该两个小区实体为同一实际实体,则将其中具有较少样本数的小区所对应的小区实体剔除,并将该小区实体对应的属性和关系信息合并到保留下来的小区实体上;
4.2小区属性的消岐。对于一个小区实体,如果在属性抽取时得到超过一个频点号属性值,则统计该小区实体相关联的所有样本中各频点号属性值所对应的样本的占比,并取占比最高的频点号属性值为该小区实体的最终频点号属性取值;对物理小区属性字段做相同方法的处理;
4.3终端属性的消岐。对于一个终端实体,如果在属性抽取时得到超过一个品牌属性值,则统计该小区实体相关联的所有样本中各品牌属性值所对应的样本的占比,并取占比最高的品牌属性值为该小区实体的最终品牌属性取值;对型号属性字段做相同方法的处理;
4.4隶属关系的消岐。包括小区与基站、小区与大区、基站与大区间隶属关系的消岐。即当已抽取的隶属关系中,如果某实体同时隶属于多个上位实体时,首先统计该实体隶属于每个上位实体的出现频次占比,并取占比最高者作为实际关系予以保留,并删除其余关系;
4.5从属关系的消岐。即当某5G基站实体同时与多个4G LTE基站实体具有从属关系时,统计该5G基站实体隶属于每个4G LTE实体的出现频次占比,并取占比最高者作为实际关系予以保留,并删除其余关系。
步骤5:图谱的数据存储与GIS展示
图谱的展示是采用基于电子地图的多图层结构,从底向上依次包括电子地图基础图层、栅格图层、实体图层;
为了便于充分且合理呈现各类实体,实体在知识图谱界面中的展示需要根据实体的特性来确定并分为两大类,即隐性实体(不在界面上显示)、显性实体(在界面上显示),而显性实体进一步分为物理实体和逻辑实体,前者在电子地图上根据特定的经纬度固定放置不可移动,后者则不做固定位置显示可随意移动。
运营商实体和网络制式实体一般不做显示,作为隐性实体。
栅格作为一种特殊的物理实体,作为单独的图层即栅格图层叠加放置于电子地图基础图层(即矢量地图和地理标识信息)之上,且不可移动;
小区实体、基站实体均为物理实体,以其经纬度属性值为依据在栅格地图图层之上相应位置固定放置,不可移动;对于存在共址、共享关系的基站因其经纬度高度重叠,为展示便利起见,做小幅度随机错开放置或移动;
大区实体,因其所覆盖范围为若干基站,不便于放置于某一特定位置,作为逻辑实体在图谱中显示,位置可移动;
终端实体,因其本身固有的高度移动性,亦作为逻辑实体在图谱中显示,位置可移动;
各类属性和关系依照前面步骤中提取的信息在实体图层上呈现。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种无线网络知识图谱的构建方法,包括输入数据,其特征在于,还包括以下步骤:
步骤1:实体信息提取;
步骤2:属性信息提取;
大区实体的所述属性信息提取方法为对实体表中的每个大区实体,从图谱数据集中分别提取所有大区ID字段为该大区实体名称的样本,根据样本的城市、运营商、网络制式字段有效值依次提取为该大区实体的属性,记为属性三元组并记入属性表;属性“信息更新日期”根据当前大区ID字段为该大区实体名称的全部样本中的最新样本日期确定;
基站实体的所述属性信息提取方法为对实体表中的每个基站实体,从图谱数据集中分别提取所有基站ID字段为该基站实体名称的样本,并进行处理后记入属性表;
所述基站实体的属性样本处理方法为:
城市、运营商、网络制式和大区ID中至少一种属性是从该基站实体所属大区实体继承得到;
行政区属性是根据基站站址所在的栅格实体中的行政区属性值继承得到;
站址经度和站址纬度属性是根据基站下全部采样点的经纬度利用聚类方法求取聚类中心得到;
小区数属性即为基站下全部的有效小区实体的总数;
基站类型属性包括宏站/微站/室分/拉远中的一种类型,根据样本点的空间分布、最大覆盖范围、下属小区数量判断确定;
覆盖场景类型属性包括居民区/商业区/学校/道路/高速公路/医院中的一种类型,根据基站站址所在的栅格实体中的覆盖场景类型属性值继承得到;
覆盖场景名称属性根据基站站址所在的栅格实体中的“覆盖场景名称”属性值继承得到;
NSA标识属性:如果本基站网络制式为5G且与一个4G基站具有从属关系,则NSA标识取值为1,否则为0;
运行状态、设备启用日期、设备厂家、设备型号中至少一种属性依赖人工录入或从第三方数据集导入;
信息更新日期属性根据当前基站ID字段为该基站实体名称的全部样本中的最新样本日期确定;
小区实体的所述属性信息提取方法为对实体表中的每个小区实体,从图谱数据集中分别提取所有小区ID字段为该小区实体名称的样本,并进行处理后记入属性表;
所述小区实体的属性样本处理方法为:
城市、运营商、网络制式、大区ID、基站ID、行政区、站址经度、站址纬度、基站类型和覆盖场景类型中至少一种属性,由该小区实体所属的基站实体的相应属性继承得到;
方向角属性根据该小区所属基站下全部有效样本,通过分类方法估计出相邻共站小区的最优边界,并取该小区两侧边界所夹角的等分角作为其天线方向角的最优估计值;
覆盖半径属性根据该小区下全部有效样本,取其中距离基站站址最远的前10%样点并计算其到基站的平均距离,即作为该小区的覆盖半径;属性“下倾角”根据基站天线挂高h、小区的覆盖半径γ,计算公式为
Figure FDA0004116220550000021
其中,Td为该小区最强覆盖距离占最大覆盖半径的比例;
物理小区ID和频点号属性根据各样本的相应字段取值得到;
覆盖率属性是该小区所属基站下全部有效样本中有效覆盖样本的占比,有效覆盖样本指其导频信号强度超过预设门限的样本;
信息更新日期属性根据当前小区ID字段为该小区实体名称的全部样本中的最新样本日期确定;
栅格实体的所述属性信息提取方法为对实体表中的每个栅格实体做处理后记入属性表;
栅格实体的属性包括:实体名称,行政区,栅格长度,栅格宽度,中心经度,中心纬度,覆盖场景类型,覆盖场景名称,覆盖网络信息,信息更新日期;
对实体表中的每个栅格实体做如下处理后记入属性表:
栅格长度、栅格宽度、中心经度和中心纬度属性由网格剖分时确定;行政区属性根据样本经纬度从图谱数据集中分别提取落在该栅格地理范围内的样本,统计各样本中的不同“行政区”字段值的频次占比,当最高频次占比>Tc,则取最高频次占比对应的行政区为当前的属性值;否则置空,其中,Tc为预设门限;
覆盖场景类型属性根据电子地图的地理标记图层,采用自然语言处理方法进行处理,以栅格中心坐标经纬度作为入口参数,调用电子地图相应API接口获取地标字符串,利用分词技术对地标字符串进行分词,利用预先构建的覆盖场景类型关键字字典对地标字符串的分词结果进行关键字匹配,匹配成功则将该关键字作为本属性的取值,并将整个地标字符串作为覆盖场景名称属性的取值;
覆盖网络信息属性由一个复合字段构成即{覆盖运营商,覆盖网络制式,平均覆盖率,主覆盖小区ID,主覆盖小区覆盖率},每个在该栅格内有样本的网络制式均有一个对应的属性值矢量;所述覆盖运营商和所述覆盖网络制式指在该网格内有样本的运营商和网络制式,从落在该栅格地理范围内的样本中的运营商和网络制式字段提取;所述平均覆盖率指在对应的网络制式下在该栅格内的全部采样点中导频信号强度高于设定门限的样本占比;所述主覆盖小区ID是对应网络制式下在该栅格内有样本的全部小区ID中,样本点最多的小区ID,其下所有样本中导频信号强度高于设定门限的样本占比记为主覆盖小区覆盖率;
信息更新日期属性根据当前栅格范围内的全部样本中的最新样本日期确定;
终端实体的所述属性信息提取方法为实体表中的每个终端实体,从图谱数据集中分别提取所有终端ID字段为该终端实体名称的样本,并进行处理后记入属性表;
所述终端实体的属性样本处理方法为:
品牌、型号、运营商和网络制式中至少一种属性根据各样本的“品牌”、“型号”、“运营商”、“网络制式”字段有效值依次提取为该终端实体的相应属性;
信息更新日期属性根据当前终端ID字段为该终端实体名称的全部样本中的最新样本日期确定;
步骤3:实体关系信息提取;
步骤4:消歧,将图谱各类数据中存在的不一致情况进行甄别、剔除或合并处理;
步骤5:图谱的数据存储与GIS展示。
2.如权利要求1所述的无线网络知识图谱的构建方法,其特征在于,所述数据包括MCS数据、MR数据和电子地图数据中至少一种。
3.如权利要求2所述的无线网络知识图谱的构建方法,其特征在于,所述实体信息包括以下类别中至少一种:大区、基站、小区、栅格、网络事件、终端、网络制式和运营商,上述类别相应的实体名称分别取为大区ID、基站ID、小区ID、栅格ID、事件ID、终端ID、网络制式名称和运营商名称。
4.如权利要求3所述的无线网络知识图谱的构建方法,其特征在于,所述步骤1包括以下子步骤:
步骤11:根据所要构建的知识图谱针对的城市、运营商和网络制式对所述MCS数据集和所述MR数据集进行过滤,保留有效样本,同时对各字段的无效值进行剔除处理,得到共包含N个样本的图谱数据集D={Si,i=1~N},其中,Si为20维向量,Si=(终端ID,采样日期,采样时间,经度,纬度,城市,行政区,运营商,网络制式,大区ID,基站ID,小区ID,物理小区ID,频点号,导频信号强度,导频信号质量,导频信干噪比,邻区信息列表,终端品牌,终端型号);
步骤12:遍历图谱数据集中所有样本,利用所述实体名称建立相应的大区、基站、小区和终端实体,并利用样本中相关信息建立相应的网络事件实体,记为实体三元组并存入实体表;
步骤13:电子地图上对目标区域按预设的长度和宽度进行等比例网格剖分。
5.如权利要求4所述的无线网络知识图谱的构建方法,其特征在于,所述实体三元组包括实体ID、实体名称和实体类别,所述实体ID为全局唯一编号。
6.如权利要求5所述的无线网络知识图谱的构建方法,其特征在于,当前样本中所包含的字段中已经标注为实体时则忽略。
7.如权利要求6所述的无线网络知识图谱的构建方法,其特征在于,所述网络事件实体的创建是利用图谱数据集中的样本所包含的信息通过适当的机器学习方法进行,并分配全局唯一的网络事件ID。
8.如权利要求4所述的无线网络知识图谱的构建方法,其特征在于,所述步骤13还包括根据地图经纬度计算并记录各栅格中心点的经纬度,并按顺序依次对各栅格进行编号得到所述栅格ID,并建立相应的栅格实体。
9.如权利要求3所述的无线网络知识图谱的构建方法,其特征在于,所述网络制式名称和运营商实体根据图谱数据集所涉及的具体制式和运营商手工创建。
10.一种无线网络知识图谱的构建系统,包括数据输入模块,其特征在于,还包括以下模块:
提取模块:用于提取实体信息、属性信息和实体关系信息;
大区实体的所述属性信息提取方法为对实体表中的每个大区实体,从图谱数据集中分别提取所有大区ID字段为该大区实体名称的样本,根据样本的城市、运营商、网络制式字段有效值依次提取为该大区实体的属性,记为属性三元组并记入属性表;属性“信息更新日期”根据当前大区ID字段为该大区实体名称的全部样本中的最新样本日期确定;
基站实体的所述属性信息提取方法为对实体表中的每个基站实体,从图谱数据集中分别提取所有基站ID字段为该基站实体名称的样本,并进行处理后记入属性表;
所述基站实体的属性样本处理方法为:
城市、运营商、网络制式和大区ID中至少一种属性是从该基站实体所属大区实体继承得到;
行政区属性是根据基站站址所在的栅格实体中的行政区属性值继承得到;
站址经度和站址纬度属性是根据基站下全部采样点的经纬度利用聚类方法求取聚类中心得到;
小区数属性即为基站下全部的有效小区实体的总数;
基站类型属性包括宏站/微站/室分/拉远中的一种类型,根据样本点的空间分布、最大覆盖范围、下属小区数量判断确定;
覆盖场景类型属性包括居民区/商业区/学校/道路/高速公路/医院中的一种类型,根据基站站址所在的栅格实体中的覆盖场景类型属性值继承得到;
覆盖场景名称属性根据基站站址所在的栅格实体中的“覆盖场景名称”属性值继承得到;
NSA标识属性:如果本基站网络制式为5G且与一个4G基站具有从属关系,则NSA标识取值为1,否则为0;
运行状态、设备启用日期、设备厂家、设备型号中至少一种属性依赖人工录入或从第三方数据集导入;
信息更新日期属性根据当前基站ID字段为该基站实体名称的全部样本中的最新样本日期确定;
小区实体的所述属性信息提取方法为对实体表中的每个小区实体,从图谱数据集中分别提取所有小区ID字段为该小区实体名称的样本,并进行处理后记入属性表;
所述小区实体的属性样本处理方法为:
城市、运营商、网络制式、大区ID、基站ID、行政区、站址经度、站址纬度、基站类型和覆盖场景类型中至少一种属性,由该小区实体所属的基站实体的相应属性继承得到;
方向角属性根据该小区所属基站下全部有效样本,通过分类方法估计出相邻共站小区的最优边界,并取该小区两侧边界所夹角的等分角作为其天线方向角的最优估计值;
覆盖半径属性根据该小区下全部有效样本,取其中距离基站站址最远的前10%样点并计算其到基站的平均距离,即作为该小区的覆盖半径;
属性“下倾角”根据基站天线挂高h、小区的覆盖半径γ,计算公式为
Figure FDA0004116220550000081
其中,Td为该小区最强覆盖距离占最大覆盖半径的比例;
物理小区ID和频点号属性根据各样本的相应字段取值得到;
覆盖率属性是该小区所属基站下全部有效样本中有效覆盖样本的占比,有效覆盖样本指其导频信号强度超过预设门限的样本;
信息更新日期属性根据当前小区ID字段为该小区实体名称的全部样本中的最新样本日期确定;
栅格实体的所述属性信息提取方法为对实体表中的每个栅格实体做处理后记入属性表;
栅格实体的属性包括:实体名称,行政区,栅格长度,栅格宽度,中心经度,中心纬度,覆盖场景类型,覆盖场景名称,覆盖网络信息,信息更新日期;
对实体表中的每个栅格实体做如下处理后记入属性表:
栅格长度、栅格宽度、中心经度和中心纬度属性由网格剖分时确定;
行政区属性根据样本经纬度从图谱数据集中分别提取落在该栅格地理范围内的样本,统计各样本中的不同“行政区”字段值的频次占比,当最高频次占比>Tc,则取最高频次占比对应的行政区为当前的属性值;否则置空,其中,Tc为预设门限;
覆盖场景类型属性根据电子地图的地理标记图层,采用自然语言处理方法进行处理,以栅格中心坐标经纬度作为入口参数,调用电子地图相应API接口获取地标字符串,利用分词技术对地标字符串进行分词,利用预先构建的覆盖场景类型关键字字典对地标字符串的分词结果进行关键字匹配,匹配成功则将该关键字作为本属性的取值,并将整个地标字符串作为覆盖场景名称属性的取值;
覆盖网络信息属性由一个复合字段构成即{覆盖运营商,覆盖网络制式,平均覆盖率,主覆盖小区ID,主覆盖小区覆盖率},每个在该栅格内有样本的网络制式均有一个对应的属性值矢量;所述覆盖运营商和所述覆盖网络制式指在该网格内有样本的运营商和网络制式,从落在该栅格地理范围内的样本中的运营商和网络制式字段提取;所述平均覆盖率指在对应的网络制式下在该栅格内的全部采样点中导频信号强度高于设定门限的样本占比;所述主覆盖小区ID是对应网络制式下在该栅格内有样本的全部小区ID中,样本点最多的小区ID,其下所有样本中导频信号强度高于设定门限的样本占比记为主覆盖小区覆盖率;
信息更新日期属性根据当前栅格范围内的全部样本中的最新样本日期确定;
终端实体的所述属性信息提取方法为实体表中的每个终端实体,从图谱数据集中分别提取所有终端ID字段为该终端实体名称的样本,并进行处理后记入属性表;
所述终端实体的属性样本处理方法为:
品牌、型号、运营商和网络制式中至少一种属性根据各样本的“品牌”、“型号”、“运营商”、“网络制式”字段有效值依次提取为该终端实体的相应属性;
信息更新日期属性根据当前终端ID字段为该终端实体名称的全部样本中的最新样本日期确定;
消歧模块:用于将图谱各类数据中存在的不一致情况进行甄别、剔除或合并处理;
存储展示模块:用于图谱数的数据保存与GIS展示;
所述系统按照如权利要求1所述的方法进行无线网络知识图谱的构建。
CN201911133257.3A 2019-11-19 2019-11-19 一种无线网络知识图谱的构建方法及系统 Active CN110856186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911133257.3A CN110856186B (zh) 2019-11-19 2019-11-19 一种无线网络知识图谱的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911133257.3A CN110856186B (zh) 2019-11-19 2019-11-19 一种无线网络知识图谱的构建方法及系统

Publications (2)

Publication Number Publication Date
CN110856186A CN110856186A (zh) 2020-02-28
CN110856186B true CN110856186B (zh) 2023-04-07

Family

ID=69602214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911133257.3A Active CN110856186B (zh) 2019-11-19 2019-11-19 一种无线网络知识图谱的构建方法及系统

Country Status (1)

Country Link
CN (1) CN110856186B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405585B (zh) * 2020-03-19 2023-10-03 北京联合大学 一种基于卷积神经网络的邻区关系预测方法
CN113891378B (zh) * 2020-07-02 2023-09-05 中国移动通信集团安徽有限公司 基站信号覆盖范围的计算方法、装置及计算设备
CN111597290B (zh) * 2020-07-27 2020-10-30 成都数联铭品科技有限公司 知识图谱与gis地图数据传递方法及装置、存储介质、设备
CN113010621B (zh) * 2020-12-07 2023-09-12 厦门渊亭信息科技有限公司 基于gis与知识图谱的可视化整合装置、方法及计算设备
CN112887285B (zh) * 2021-01-15 2022-03-11 中国科学院地理科学与资源研究所 一种跨空间图层映射的网络行为智能画像分析方法
CN112714032B (zh) * 2021-03-29 2021-07-02 网络通信与安全紫金山实验室 无线网络协议知识图谱构建分析方法、系统、设备及介质
CN113259972B (zh) * 2021-06-08 2021-09-28 网络通信与安全紫金山实验室 基于无线通信网络数据仓库构建方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435779A (zh) * 2002-01-30 2003-08-13 上海众恒信息产业有限公司 地理信息系统联机分析数据模型与属性数据混合型关联方法
CN105744535A (zh) * 2016-05-02 2016-07-06 北京联合大学 移动网络小区信息侦测与覆盖标定方法
CN109005069A (zh) * 2018-08-29 2018-12-14 中国人民解放军国防科技大学 基于天地一体化网络的网络安全知识图谱的关联分析方法
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN110019568A (zh) * 2019-04-12 2019-07-16 深圳市和讯华谷信息技术有限公司 基于空间聚类的选址方法、装置、计算机设备及存储介质
CN110287466A (zh) * 2019-06-24 2019-09-27 腾讯科技(深圳)有限公司 一种实体模板生成方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10003926B2 (en) * 2014-09-16 2018-06-19 DataSpark, Pte., Ltd. Predicting human movement behaviors using location services model
US10628490B2 (en) * 2015-11-05 2020-04-21 Microsoft Technology Licensing, Llc Techniques for digital entity correlation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435779A (zh) * 2002-01-30 2003-08-13 上海众恒信息产业有限公司 地理信息系统联机分析数据模型与属性数据混合型关联方法
CN105744535A (zh) * 2016-05-02 2016-07-06 北京联合大学 移动网络小区信息侦测与覆盖标定方法
CN109005069A (zh) * 2018-08-29 2018-12-14 中国人民解放军国防科技大学 基于天地一体化网络的网络安全知识图谱的关联分析方法
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN110019568A (zh) * 2019-04-12 2019-07-16 深圳市和讯华谷信息技术有限公司 基于空间聚类的选址方法、装置、计算机设备及存储介质
CN110287466A (zh) * 2019-06-24 2019-09-27 腾讯科技(深圳)有限公司 一种实体模板生成方法和装置

Also Published As

Publication number Publication date
CN110856186A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110856186B (zh) 一种无线网络知识图谱的构建方法及系统
CN108181607B (zh) 基于指纹库的定位方法、装置及计算机可读存储介质
CN106792514B (zh) 基于信令数据的用户职住地分析方法
CN109743683B (zh) 一种采用深度学习融合网络模型确定手机用户位置的方法
CN106912015B (zh) 一种基于移动网络数据的人员出行链识别方法
CN102065432B (zh) 一种基于传播模型的网络覆盖修正方法及系统
CN103150156B (zh) 基于地理模型和移动轨迹实时获取特征人群的方法及系统
CN107872808B (zh) 一种wlan站址预测分析方法及装置
JP2016152044A (ja) 目標位置を確定するための方法及び装置
CN104105106A (zh) 无线通信网智能天线覆盖场景自动分类识别方法
CN105512344B (zh) 一种室内移动对象相对位置的查询方法
CN111405585B (zh) 一种基于卷积神经网络的邻区关系预测方法
CN106326923B (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
CN110798804B (zh) 一种室内定位方法和装置
WO2018112825A1 (zh) 基于wi-fi接入点的定位方法、设备
CN109840452A (zh) 一种栅格覆盖场景自动识别方法及装置
CN108537265A (zh) 基于夜间灯光遥感数据的城镇人口时空分布估计方法
CN109359162A (zh) 一种基于gis的学校选址方法
CN105188030A (zh) 一种移动网络数据进行地理栅格映射的方法
CN110298687B (zh) 一种区域吸引力评估方法及设备
CN109803274A (zh) 一种天线方位角优化方法和系统
Wu et al. Urban functional area recognition based on unbalanced clustering
Zhang Classification of Urban Land Use Based on Graph Theory and Geographic Information System.
Ramamurthy et al. Ml-based classification of device environment using wi-fi and cellular signal measurements
CN114363824B (zh) 一种基于mr位置和道路gis信息的通勤轨迹刻画方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant