CN112733083A - 一种数据校验方法、系统及装置 - Google Patents

一种数据校验方法、系统及装置 Download PDF

Info

Publication number
CN112733083A
CN112733083A CN201911032247.0A CN201911032247A CN112733083A CN 112733083 A CN112733083 A CN 112733083A CN 201911032247 A CN201911032247 A CN 201911032247A CN 112733083 A CN112733083 A CN 112733083A
Authority
CN
China
Prior art keywords
data
verified
time period
sample
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911032247.0A
Other languages
English (en)
Other versions
CN112733083B (zh
Inventor
陶娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Henan Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Henan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Henan Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911032247.0A priority Critical patent/CN112733083B/zh
Publication of CN112733083A publication Critical patent/CN112733083A/zh
Application granted granted Critical
Publication of CN112733083B publication Critical patent/CN112733083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0866Checking the configuration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种数据校验方法、系统及装置,涉及通信技术领域。相对现有技术中,本发明的数据校验方法中,待校验数据包含:业务面流量、信令面指标、信令面记录数、实际HTTP包数、字段填充率、逻辑准确率或核心网元IP信息中的至少一种参数,依据待校验数据中包含的参数,对待校验数据进行校验,得到校验结果。本发明可以从至少一个维度对待校验参数进行比对校验,其中某一个方面校验异常时则认为数据交易结构异常,以此实现准确地校验数据的目的。

Description

一种数据校验方法、系统及装置
技术领域
本发明涉及通信领域,涉及一种数据校验方法,尤其涉及一种信令XDR数据校验的方法、系统及装置。
背景技术
移动业务的分析主要依赖于XDR数据来进行,XDR数据的质量直接影响着数据分析的质量。
目前,主要对XDR数据进行汇总求得指标值,然后与网管指标进行对比,判断XDR数据是否准确。然而,网管指标是网元级别的指标,XDR数据是用户级别的业务记录,因此XDR数据需先按网元进行汇总后才能进行网元级别的指标对比,而汇总之后进行指标对比显然不能可靠地验证XDR数据是否准确。
发明内容
为了解决上述问题,本发明提供一种数据校验的方法、系统及装置。
第一方面,本发明提供一种数据校验方法,获取待校验数据,所述待校验数据中包含:业务面流量、信令面指标、信令面记录数、实际HTTP包数、字段填充率、逻辑准确率或核心网元IP信息中的至少一种参数;
根据所述待校验数据中包含的参数,对所述待校验数据进行校验,得到校验结果。
上述的数据校验方法,所述根据所述待校验数据中包含的参数,对所述待校验数据进行校验,得到校验结果,包括:
当所述待校验数据中包含所述业务面流量时,将所述待校验数据中包含的所述业务面流量与网管平台中的业务面流量进行对比,当二者差异大于第一阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括信令面指标时,将所述待校验数据中包括的所述信令面指标与网管平台中的信令面指标进行对比,当二者的差异大于第一阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括信令面记录数时,将所述待校验数据中包括的所述信令面记录数与样本数据的信令面记录数衡量值进行对比,当二者的比值差异大于第二阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括业务面流量时,将所述待校验数据中包括的所述业务面流量与样本数据的业务面流量衡量值进行对比,当二者的比值差异大于第二阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括业务面记录数时,将所述待校验数据中包括的所述业务面记录数与样本数据的业务面记录数衡量值进行对比,当二者的比值差异大于第二阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括实际HTTP包数时,将所述待校验数据中包括的所述实际HTTP包数与基于HTTP包数与HTTP流量数的对应关系计算HTTP包数进行对比,当二者的差异大于第三阈值时,则判断待校验数据的记录逻辑异常;逻辑异常记录数与总的HTTP记录数之比高于第四阈值,或逻辑异常的总流量与HTTP总流量之比高于第五阈值,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括字段填充率时,获取所述字段填充率,当所述字段填充率未达到第六阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括逻辑准确率时,获取所述逻辑准确率,当所述逻辑准确率未达到第六阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括核心网元IP信息时,将所述待校验数据中包括的所述核心网元IP信息与核心网元IP信息样本进行对比,当所述核心网元IP信息未全部覆盖所述核心网元IP信息样本时,确定校验结果为所述待校验数据异常。
上述的数据校验方法,在所述对待校验数据进行校验之后,还包括:
若对待校验数据的校验结果为正常,则将所述待校验数据作为新的样本数据,并更新校验模型。
上述的数据校验方法,在所述对待校验数据进行校验之前,包括:
根据当前系统日期确定目标时间段;
选取所述目标时间段的数据作为待校验数据;
其中,所述根据当前系统日期确定目标时间段包括:
在当前系统日期为校验周期的第一日时,清空已选时间段数组,从待选时间段数组随机选择数值设为目标时间段,并将所述随机选择数值存入已选时间段数组,其中,所述校验周期包括若干个日期,所述待选时间段数组内的数值包括由所述日期划分的若干初始时间段,所述校验周期的日期总数大于所述日期内的初始时间段总数;
在当前系统日期为所述校验周期的非第一日时,若所述已选时间段数组为空或者所述已选时间段数组内的数值覆盖所有所述初始时间段时,从所述待选时间段数组随机选择数值设为目标时间段,否则,从所述待选时间段数组与所述已选时间段数组的差集数组中随机选择数值设为目标时间段,并将所述差集数组中选择的数值存入所述已选时间段数组。
上述的数据校验方法,在所述对待校验数据进行校验之前,包括:
基于样本数据建立校验模型;
所述对待校验数据进行校验中,包括:利用所述校验模型对所述待校验数据的信令面记录数、业务面流量、业务面记录数、HTTP包数、核心网元IP信息进行校验。
上述的数据校验方法,所述基于样本数据建立校验模型包括:
针对信令面记录数、业务面流量和业务面记录数,取同一时段的至少两份样本数据的平均值分别对应计算作为所述样本数据的信令面记录数衡量值、业务面流量衡量值和业务面记录数衡量值;
基于HTTP数据包的包数与HTTP流量数的线性关系,确定HTTP包数与HTTP流量数的线性回归方程作为HTTP包数与HTTP流量数的对应关系;
在网管平台存储网络资源信息,所述网络资源信息包括核心网元IP信息样本。
上述的数据校验方法,在所述建立校验样本之前,还包括:选择样本数据;
其中,所述选择样本数据包括:
接收接口数据作为待选样本;
当所述待选样本对应时段的流量数与网管平台统计的流量数的比值差异小于第八阈值时,将所述待选样本的信令面指标与网管平台的指标进行比对,判断信令面指标是否在允许范围之内;
若是,将所述待选样本的核心网元信息与网管平台的网元信息进行比对,判断两者是否一致;
若是,计算所述待选样本的字段填充率和逻辑准确率是否均达到第九阈值;
若是,选择所述待选样本作为样本数据。
第二方面,本发明提供一种数据校验系统,包括数据采集器和服务器;所述数据采集器采集待校验数据;
所述服务器包括第一端口、存储器和处理器;
所述第一端口用于接收待校验数据;
所述处理器依据所述对所述待校验数据,进行计算与校验,并输出校验结果;
存储器存储所述待校验数据和校验结果。
第三方面,本发明提供一种装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上任一项所述的方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的方法的步骤。
相对现有技术中,本发明的数据校验方法中,待校验数据包含:业务面流量、信令面指标、信令面记录数、实际HTTP包数、字段填充率、逻辑准确率或核心网元IP信息中的至少一种参数,依据待校验数据中包含的参数,对待校验数据进行校验,得到校验结果。本发明可以从至少一个维度对待校验参数进行比对校验,其中某一个方面校验异常时则认为数据交易结构异常,以此实现准确地校验数据的目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一示范性实施例中数据校验方法的流程图;
图2为图1中选择样本数据的流程图;
图3为基于样本数据中HTTP样本的包数、吞吐量作出的散点图样例;
图4为以待校验XDR数据中网元IP为索引校验网元名称;
图5为以待校验XDR中网元名称为索引校验网元IP;
图6为以待校验XDR中APN名称为索引校验行业单位名称;
图7为以待校验XDR中行业单位名称为索引校验APN名称;
图8为本发明实施例中S06与S08的流程图;
图9为本发明又一示范性实施例中数据校验系统的结构图。
附图标记:
200-数据校验系统;210-数据采集器;220–服务器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的数据校验的方法中,时间段、初始时间段、待选时间段以及已选时间段等均指一日内的若干时间段,可以以一个小时为一个时间段,也可以是半个小时或两个小时为一个时间段。若以一个小时为一个时间段,则一个日期内包括24个时间段,例如13:00pm-14:00pm,14:00pm-15:00pm,以及15:00pm-16:00pm等等。图1为本发明实施例提供的数据校验方法的流程图。
S02:选择样本数据。
样本数据的质量决定了数据校验结果的准确性,因此样本数据应符合相关要求。
图2为选择样本数据的流程图,具体包括以下步骤。
S021:接收接口数据作为待选样本。具体为,接口数据为XDR数据,因此待选样本为待选XDR样本。
S022:当待选样本对应的流量数与网管平台统计的流量数比值差异小于第八阈值时,将待选样本的信令面指标与网管平台的指标进行比对,判断信令面指标是否在允许范围之内。具体的,将待选样本对应时段的业务面的流量数与网管平台统计的流量数进行比对,若两者之间差异在预设的N%(第八阈值)之内,则统计待选样本的信令面指标,与网管平台的指标进行比对;否则输出DPI设备采集或XDR合成存在问题报告,并可以进入问题排查与处理环节。如果待选样本的信令面指标与网管平台的指标的差异在预设的M%(第十阈值)之内,进入S023,否则输出DPI设备采集或XDR合成存在问题报告,并可以进入问题排查与处理环节。第八阈值和第十阈值的取值可以是1%、5%等等。
因此,S022可以包括S0221和S0222。
S0221:判断待选样本对应时段的业务面的流量数与网管平台统计的流量数的差异是否大于第八阈值,若否,则进入S0222。
S0222:判断待选样本的信令面指标与网管平台的指标的差异是否大于第十阈值,若否,则进入S023。
其中,网管平台的指标包括业务面流量和信令面指标。
S023:将待选样本数据的核心网元信息与网管平台的网元信息进行比对,判断两者是否一致。将统计待选样本的核心网元信息,与网管平台的网元信息进行比较,若判断两者一致则进入S024,否则标识样本数据的核心网元信息有所缺失,需要进入问题排查与处理环节。
S024:计算待选样本数据的字段填充率和逻辑准确率是否均达到第九阈值。
其中,字段填充率为字段值不为空的比率,通常要求字段填充率达到99%。因此,第九阈值可以取值99%、98%以及97%等等。统计字段填充率的字段包括但不限于以下字段:MSISDN、IMSI、IMEI、PCI、CELL-ID、TAC、Local City、PGW\GGSN IP Add、SGSN IP Add、SGW IP Add、APN、APP TYPE、APP SUB TYPE。
逻辑准确率是检查字段是否符合逻辑,例如校验字段为TAC时其取值应该的取值为0~65535,但校验该字段时该值填充为”FFFFF”,或取值大于65535,则表示逻辑错误。本发明实施例中逻辑检查的字段包括但不限于以下表1中的字段。
表1
Figure BDA0002250492610000081
S025:若待选样本数据的字段填充率和逻辑准确率均达到第九阈值,则选择待选样本作为样本数据。由此,即完成了样本数据的选择。
上述问题排查与处理环节可以是重新选择样本,也可以是对DPI设备进行排查等。
S04:基于样本数据建立校验模型,S04中包括以下步骤。
S041:针对信令面记录数、业务面流量和业务面记录数,取同一时段的至少两份样本数据的平均值分别对应计算作为样本数据的信令面记录数衡量值、业务面流量衡量值和业务面记录数衡量值。信令面记录数衡量值、业务面流量衡量值和业务面记录数衡量值为由至少三份相同时间段的样本数据计算获得的对应参数的平均值。各参数的衡量值可以由同时段的四份、五份等等相同时间段的样本数据计算获得。其中,信令面记录数具体为信令面XDR记录数、业务面记录数具体为业务面XDR记录数。具体在校验过程中,各参数的衡量值可以用于与待校验数据的各参数的汇总值进行比较。
S042:基于HTTP数据包的包数与HTTP流量数的线性关系,确定HTTP包数与HTTP流量数的线性回归方程作为HTTP包数与HTTP流量数的对应关系。
由于同类数据包发送或接收的包数越多产生的交互流量也越大,且HTTP流量在数据业务流量中占比超过90%,所以以样本数据中的HTTP样本来进行分析,建立HTTP包数与HTTP流量数的线性回归方程。
图3为基于样本数据中HTTP样本的包数、吞吐量作出的散点图样例,实际对数据校验过程中,基于样本数据建立的散点图不限于图3,可能与图3不同。图3中,横坐标为吞吐量,纵坐标为包数。从图3可知,HTTP包与HTTP流量线性关系较为明显,R的平方表示多大程度是自变量导致因变量的改变,R平方为回归平方和与总离差平方和的比值,这一比例越大越好,模型越精确,回归效果越显著。R平方介于0~1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合优度比较高,计算公式为:
R^2=r*r
其中,
Figure BDA0002250492610000091
图3中求得R平方为0.979,表明回归拟合效果极好。
线性回归方程可通过最小二乘法求出:
Figure BDA0002250492610000092
Figure BDA0002250492610000093
其中x、y、n分别为吞吐量、包数及多少组样本,
Figure BDA0002250492610000094
分别为x、y的平均值,代入公式求得a、b的值分别为13.021706、0.001064,则线性回归方程为:Y=13.021706+0.001064*X。
确定线性回归方程后,在已知流量数后可以计算得到对应的包数。
S043:在网管平台存储网络资源信息,网络资源信息包括核心网元IP信息样本。
核心网元IP信息包括网元IP和网元名称。
依据DPI规范,各接口对应的核心网元IP信息样本如表2。
表2
Figure BDA0002250492610000101
在后续对待校验数据进行校验过程中,若待校验数据中未从核心网元IP信息样本中检索到对应的核心网元IP信息,则可以认为待校验数据存在缺失异常。
本发明实施例中,网络资源信息可包含核心网元IP样本对应的网元名称,用于校验待校验XDR数据中的网元名称是否回填准确。以网元名称及网元IP分别索引,当系统在待校验XDR数据中检索到的核心网元IP信息(核心网元IP信息包括网元名称及网元IP)在资源信息中的对应关系不存在,则需进行网络资源信息的更新与匹配。
待校验XDR数据回填中核心网元IP信息准确判断实现逻辑参图4和图5。其中,图4为以待校验XDR数据中网元IP为索引校验网元名称,例如网元IP(a)具有对应的网元名称b,在网管平台存储的网络资源信息通过网元IP(a)找到网元名称b’,若存在多个不同的网元名称,则表示回填异常;否则判断b是否为空值,若是,则表示XDR数据底层网络资源信息不全,需要更新网络资源信息,否则判断b是否等于b’,若是则回填正确,否则回填错误,需要进行更新。图5为以待校验XDR中网元名称为索引校验网元IP,例如网元名称e具有对应的网元IP(f),在网管平台存储的网络资源信息通过网元名称3找到对应的网元IP(f’),判断f是否为空值,若是,则表示XDR数据底层网络资源信息不全,需要更新网络资源信息,否则判断f是否等于f’,若是则回填正确,否则回填错误,需要进行更新。
待校验XDR数据除了上述的网元IP和网元名称之间的回填校验外,还可以对APN行业单位和APN名称进行回填校验。待校验XDR数据回填中APN行业单位信息准确判断实现逻辑参图6和图7。
图4、图5、图6和图7若全部回填正确,则表明网管平台存储的网络资源信息全面。
S06:根据当前系统日期确定目标时间段。具体的,S06包括S061和S062。
S061:在当前系统日期为校验周期的第一日时,清空已选时间段数组,从待选时间段数组随机选择数值设为目标时间段,并将随机选择数值存入已选时间段数组,其中,校验周期包括若干个日期,待选时间段数组内的数值包括由日期划分的若干初始时间段,校验周期的日期总数大于日期内的初始时间段总数。
S062:在当前系统日期为校验周期的非第一日时,若已选时间段为空或者是已选时间段数组内的数值覆盖所有初始时间段时,从待选时间段数组随机选择数值设为目标时间段,否则,从待选时间段数组与已选时间段数组的差集数组中选择数值设为目标时间段,并将差集数组中选择的数值存入已选时间段数组。
其中,校验周期可以为一个月,或者一个礼拜。若校验周期为一个月,则可以以每个月的1日为校验周期的第一日,也可以以每个月的16日为校验周期的第一天。下面以每个月的1日为校验周期的第一日、初始时间段以每个小时为一个时间段为例说明如何根据当前系统日期确定目标时间段。
待选时间段数组内预先存储24个时间段数值。在当前系统日期为1日时,清空存储在已选时间段数组内的数值,从待选时间段数组内随机选择数组设为目标时间段,例如选择的是时间段9:00am-10:00am,则将时间段9:00am-10:00am存入已选时间段数组内。在当前系统日期不是每月1日时,若已选时间段数组为空(表示系统刚启动)或已选时间段数组内的数值已经覆盖所有的初始时间段(即已选时间段数值内包括24个时间段),则从待选时间段数组内随机选择数值设置目标时间段。否则,将待选时间段数组与已选时间段数组取差值处理获得差集数组,例如,时间段10:00am-11:00am和时间段11:00am-12:00am均未存在已选时间段数组,则差集数组中包括时间段10:00am-11:00am和时间段11:00am-12:00am两个数值,因此可以从括时间段10:00am-11:00am和时间段11:00am-12:00am两个数值中随机选择一个时间段数值设为目标时间段,若选择的是时间段11:00am-12:00am这一数值,则将该数值存入已选时间段数组内。
S08:选取目标时间段的数据作为待校验数据。具体的,为保证目标时间段与系统时间最接近,当目标时间段滞后于当前系统时间时,且滞后值大于第七阈值时,选取当前系统日期的目标时间段的数据作为待校验数据;否则,选取前一系统日期的目标时间段的数据作为待校验数据。例如,
随机选择的目标时间段为3:00pm-4:00pm,当前系统时间为4:30pm,第七阈值设为15分钟,则选择当天3:00pm-4:00pm的XDR数据作为待校验数据。若随机选择的的目标时间段为3:00pm-4:00pm,当前系统时间为1:00pm,第七阈值设为15分钟,则选择前一天的3:00pm-4:00pm的XDR数据作为待校验数据。
S06与S08的流程可以参照图8,图8中数组A为待选时间段数组,数组B为已选时间段数组,数组C为待选时间段数组与已选时间段数组的差集数组,N为第七阈值。
S010:对待校验数据进行校验。
S010包括步骤S010-1和步骤S010-2。
S010-1:获取待校验数据,待校验数据中包括:业务面流量、信令面指标、信令面记录数、实际HTTP包数、字段填充率、逻辑准确率或核心网元IP信息中的至少一种参数。待校验数据中所具有的参数的种类越多,能够进行校验的维度也就越高,从而可以实现从多维度实现较为全面的校验,避免输出错误的校验结果。因此,待校验数据也可以包括:业务面流量、信令面指标、信令面记录数、实际HTTP包数、字段填充率、逻辑准确率或核心网元IP信息中的两种、三种或四种参数等等,不再赘述。
S010-2:根据所述待校验数据中包含的参数,对所述待校验数据进行校验,得到校验结果。例如,依据待校验数据中的业务面流量这一种参数的参数值,判断待校验数据是否异常;或者是依据待校验数据中的业务面流量、信令面记录数这两种参数的参数值,判断待校验数据是否异常;以此类推,不再赘述。
具体的,S010-2包括以下校验过程。
当待校验数据中包含业务面流量时,将待校验数据中包含的业务面流量与网管平台中的业务面流量进行对比,当二者差异大于第一阈值时,则XDR数据异常,确定校验结果为待校验数据异常。
当待校验数据中包括信令面指标时,将待校验数据中包括的信令面指标与网管平台中的信令面指标进行对比,当二者的差异大于第一阈值时,则XDR数据异常,确定校验结果为待校验数据异常。
当待校验数据中包括信令面记录数时,将待校验数据中包括的信令面记录数与样本数据的信令面记录数衡量值进行对比,当二者的比值差异大于第二阈值时,则XDR数据缺失,确定校验结果为待校验数据异常。
当待校验数据中包括业务面流量时,将待校验数据中包括的业务面流量与样本数据的业务面流量衡量值进行对比,当二者的比值差异大于第二阈值时,则XDR数据缺失,确定校验结果为待校验数据异常。
当待校验数据中包括业务面记录数时,将待校验数据中包括的业务面记录数与样本数据的业务面记录数衡量值进行对比,当二者的比值差异大于第二阈值时,则XDR数据缺失,确定校验结果为待校验数据异常。
当待校验数据中包括实际HTTP包数时,将待校验数据中包括的实际HTTP包数与基于HTTP包数与HTTP流量数的对应关系计算HTTP包数进行对比,当二者的差异大于第三阈值时,则判断待校验数据的记录逻辑异常;逻辑异常记录数与总的HTTP记录数之比高于第四阈值,或逻辑异常的总流量与HTTP总流量之比高于第五阈值,则判断XDR数据逻辑异常,确定校验结果为待校验数据异常。
当待校验数据中包括字段填充率时,获取字段填充率,当字段填充率未达到第六阈值时,则判断XDR数据不规范、数据异常,确定校验结果为待校验数据异常。
当待校验数据中包括逻辑准确率时,获取逻辑准确率,当逻辑准确率未达到第六阈值时,则判断XDR数据不规范、数据异常,确定校验结果为待校验数据异常。
当待校验数据中包括核心网元IP信息时,将待校验数据中包括的核心网元IP信息与核心网元IP信息样本进行对比,当核心网元IP信息未全部覆盖核心网元IP信息样本时,确定校验结果为待校验数据异常。其中,核心网元IP信息包括网元IP和网元名称
其中,待校验数据的业务面流量和信令面指标与网管平台的业务面流量和信令面指标至少之一的差异大于第一阈值,是指待校验数据的业务面流量与网管平台的业务面流量的差异大于第一阈值,或者是待校验数据的信令面指标与网管平台的信令面指标的差异大于第一阈值,或者是上述两者均大于第一阈值。实际中,在数据校验过程中,也可以不将待校验数据的业务面流量和信令面指标与网管平台的业务面流量和信令面指标均进行比较,例如只将待校验数据的信令面指标与网管平台的信令面指标的差异进行比对而不对待校验数据的业务面流量与网管平台的业务面流量进行比对。
具体的,在步骤S010中,包括利用上述校验模型对待校验数据的信令面记录数、业务面流量、业务面记录数、HTTP包数、核心网元IP信息进行校验。
待校验XDR的字段填充率与逻辑准确率需要达到99%,未达到则判断XDR数据不规范、数据异常,因此,第六阈值可以取99%,当然也可以取98%、97%等等。第一阈值、第二阈值、第三阈值、第四阈值以及第五阈值等等可以与第六阈值相同,也可以不完全相同。
在步骤S08和S010之间,还可以包括对待校验数据进行计算,以用于后续数据校验,计算内容包括:待校验XDR数据的业务面流量、业务面XDR记录数、待校验XDR数据信令面、XDR记录数、信令面指标(根据实际情况选择可以通过网管平台统计且能通过XDR计算得出的指标,如attach成功率、默认承载建立成功率、TAU更新成功率等)、计算待校验XDR数据的字段填充率及字段逻辑准确率,以及根据线性回归方程Y=13.021706+0.001064*X预测HTTP包数。
此外,可以将待校验数据汇总去重后的核心网元IP信息与核心网元IP信息样本进行比对。由于需要将待校验数据的汇总去重后的核心网元IP信息与核心网元IP信息样本进行比对,而对大量的XDR记录进行去重将耗费巨大的系统资源及计算时间。为此,本发明实施例采用随机抽样算法进行去重后校验包括以下步骤:
S0101:读取N(抽样次数,初始例如为5)与T(抽样开始时间与结束时间的间隔,例如为20分钟)的设置值;
S0102:判断N的取值,如果N为0,说明已经抽取了N次且待校验XDR数据中核心网IP信息不全,判断为待校验XDR数据不完整,核心网元IP信息校验流程结束,否则进入S0103;
S0103:随机在校验时段生成一个开始时间,要求该时间+T不得超过较验时段(如果校验13:00~14:00的数据,则S+T不得超过14点);
S0104:判断生成的开始时间是否在之前已经生成过,防止抽样同一时间段的数据。如果已生成过则返回至S0103,未生成过则将该时间保存至数组L中并进入S0105;
S0105:汇总去重S至S+T这一时段内XDR待校验数据中的核心网元IP信息;
S0106:将S0105的计算结果与核心网元IP信息样本进去比较,如果核心网元IP信息完整则判断待校验数据的核心网元IP信息正常,校验流程结束。否则N值减1后转至S0102。
S012:对待校验数据完成校验后,判断校验结果,若待校验数据的校验结果为正常,则转入步骤S014,否则转入步骤S016。
S014:将待校验数据作为新的样本数据,并更新校验模型。
由于流量与总的XDR记录数会随系统升级出现变化,因此XDR的样本数据应随系统升级而进行更新,老的样本数据应该丢弃,补偿新的样本数据,在数据校验完成后,待校验数据如果判断为正常,则将该份XDR数据作新的样本数据,提取衡量值(XDR流量、记录数等)保存至校验模型中,作为下次结果判断的依据。
此外,S014中还包括:输出校验时段、较验的项目,包括与网管指标的较验、与XDR样本的校验、线性回归模型较验、字段规范性较验(填充率、逻辑准确率)、网络资源校验,以及各类较验项目的计算结果、差异、设定的阀值等。
S016:生成告警。S106还可以包括显示校验时段、较验的项目,包括与网管指标的较验、与XDR样本的校验、线性回归模型较验、字段规范性较验(填充率、逻辑准确率)、网络资源校验,以及各类较验项目的计算结果、差异、设定的阀值等内容外,以及还针对出现异常的校验项目高亮提醒。
图9为本发明又一示范性实施例中数据校验系统的结构图。数据校验系统200包括数据采集器210和服务器220。
数据采集器210采集待校验数据。服务器220包括第一端口、存储器和处理器,第一端口用于待校验数据,处理器依据对所述待校验数据,进行计算与校验,并输出校验结果。存储器存储所述待校验数据和校验结果。
本申请实施例提供的业务管理系统还可以执行图1中数据校验系统执行的方法,并实现数据校验系统在图1所示实施例的功能,在此不再赘述。
本发明实施例还提供一种装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,计算机程序被所述处理器执行时实现上述数据校验方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据校验方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上所述的具体实例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据校验方法,其特征在于,
获取待校验数据,所述待校验数据中包含:业务面流量、信令面指标、信令面记录数、实际HTTP包数、字段填充率、逻辑准确率或核心网元IP信息中的至少一种参数;
根据所述待校验数据中包含的参数,对所述待校验数据进行校验,得到校验结果。
2.根据权利要求1所述的数据校验方法,其特征在于,所述根据所述待校验数据中包含的参数,对所述待校验数据进行校验,得到校验结果,包括:
当所述待校验数据中包含所述业务面流量时,将所述待校验数据中包含的所述业务面流量与网管平台中的业务面流量进行对比,当二者差异大于第一阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括信令面指标时,将所述待校验数据中包括的所述信令面指标与网管平台中的信令面指标进行对比,当二者的差异大于第一阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括信令面记录数时,将所述待校验数据中包括的所述信令面记录数与样本数据的信令面记录数衡量值进行对比,当二者的比值差异大于第二阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括业务面流量时,将所述待校验数据中包括的所述业务面流量与样本数据的业务面流量衡量值进行对比,当二者的比值差异大于第二阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括业务面记录数时,将所述待校验数据中包括的所述业务面记录数与样本数据的业务面记录数衡量值进行对比,当二者的比值差异大于第二阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括实际HTTP包数时,将所述待校验数据中包括的所述实际HTTP包数与基于HTTP包数与HTTP流量数的对应关系计算HTTP包数进行对比,当二者的差异大于第三阈值时,则判断待校验数据的记录逻辑异常;逻辑异常记录数与总的HTTP记录数之比高于第四阈值,或逻辑异常的总流量与HTTP总流量之比高于第五阈值,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括字段填充率时,获取所述字段填充率,当所述字段填充率未达到第六阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括逻辑准确率时,获取所述逻辑准确率,当所述逻辑准确率未达到第六阈值时,确定校验结果为所述待校验数据异常;
当所述待校验数据中包括核心网元IP信息时,将所述待校验数据中包括的所述核心网元IP信息与核心网元IP信息样本进行对比,当所述核心网元IP信息未全部覆盖所述核心网元IP信息样本时,确定校验结果为所述待校验数据异常。
3.根据权利要求2所述的数据校验方法,其特征在于,
在所述对待校验数据进行校验之后,还包括:
若对待校验数据的校验结果为正常,则将所述待校验数据作为新的样本数据,并更新校验模型。
4.根据权利要求1或2所述的数据校验方法,其特征在于,在所述对待校验数据进行校验之前,包括:
根据当前系统日期确定目标时间段;
选取所述目标时间段的数据作为待校验数据;
其中,所述根据当前系统日期确定目标时间段包括:
在当前系统日期为校验周期的第一日时,清空已选时间段数组,从待选时间段数组随机选择数值设为目标时间段,并将所述随机选择数值存入已选时间段数组,其中,所述校验周期包括若干个日期,所述待选时间段数组内的数值包括由所述日期划分的若干初始时间段,所述校验周期的日期总数大于所述日期内的初始时间段总数;
在当前系统日期为所述校验周期的非第一日时,若所述已选时间段数组为空或者所述已选时间段数组内的数值覆盖所有所述初始时间段时,从所述待选时间段数组随机选择数值设为目标时间段,否则,从所述待选时间段数组与所述已选时间段数组的差集数组中随机选择数值设为目标时间段,并将所述差集数组中选择的数值存入所述已选时间段数组。
5.根据权利要求1或2所述的数据校验方法,其特征在于,在所述对待校验数据进行校验之前,包括:
基于样本数据建立校验模型;
所述对待校验数据进行校验中,包括:利用所述校验模型对所述待校验数据的信令面记录数、业务面流量、业务面记录数、HTTP包数、核心网元IP信息进行校验。
6.根据权利要求5所述的数据校验方法,其特征在于,所述基于样本数据建立校验模型包括:
针对信令面记录数、业务面流量和业务面记录数,取同一时段的至少两份样本数据的平均值分别对应计算作为所述样本数据的信令面记录数衡量值、业务面流量衡量值和业务面记录数衡量值;
基于HTTP数据包的包数与HTTP流量数的线性关系,确定HTTP包数与HTTP流量数的线性回归方程作为HTTP包数与HTTP流量数的对应关系;
在网管平台存储网络资源信息,所述网络资源信息包括核心网元IP信息样本。
7.根据权利要求5所述的数据校验方法,其特征在于,在所述建立校验样本之前,还包括:选择样本数据;
其中,所述选择样本数据包括:
接收接口数据作为待选样本;
当所述待选样本对应时段的流量数与网管平台统计的流量数的比值差异小于第八阈值时,将所述待选样本的信令面指标与网管平台的指标进行比对,判断信令面指标是否在允许范围之内;
若是,将所述待选样本的核心网元信息与网管平台的网元信息进行比对,判断两者是否一致;
若是,计算所述待选样本的字段填充率和逻辑准确率是否均达到第九阈值;
若是,选择所述待选样本作为样本数据。
8.一种数据校验系统,其特征在于,包括数据采集器和服务器;所述数据采集器采集待校验数据;
所述服务器包括第一端口、存储器和处理器;
所述第一端口用于接收待校验数据;
所述处理器依据所述对所述待校验数据,进行计算与校验,并输出校验结果;
存储器存储所述待校验数据和校验结果。
9.一种装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN201911032247.0A 2019-10-28 2019-10-28 一种数据校验方法、系统及装置 Active CN112733083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911032247.0A CN112733083B (zh) 2019-10-28 2019-10-28 一种数据校验方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911032247.0A CN112733083B (zh) 2019-10-28 2019-10-28 一种数据校验方法、系统及装置

Publications (2)

Publication Number Publication Date
CN112733083A true CN112733083A (zh) 2021-04-30
CN112733083B CN112733083B (zh) 2023-08-18

Family

ID=75589269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911032247.0A Active CN112733083B (zh) 2019-10-28 2019-10-28 一种数据校验方法、系统及装置

Country Status (1)

Country Link
CN (1) CN112733083B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659377A (zh) * 2022-12-13 2023-01-31 闪捷信息科技有限公司 接口异常访问识别方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990208A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 一种数据自动校验方法、系统和设备
KR101623305B1 (ko) * 2015-04-10 2016-05-23 주식회사 만도 정보 검사 장치 및 방법과 정보 검사 장치를 포함하는 정보 처리 시스템
CN105636097A (zh) * 2014-10-30 2016-06-01 中国移动通信集团设计院有限公司 一种校验网络性能统计数据的方法及装置
CN108337652A (zh) * 2017-01-20 2018-07-27 中国移动通信集团河南有限公司 一种检测流量欺诈的方法及装置
CN109684052A (zh) * 2018-12-26 2019-04-26 华为技术有限公司 事务分析方法、装置、设备及存储介质
CN109995566A (zh) * 2017-12-31 2019-07-09 中国移动通信集团辽宁有限公司 网络故障定位方法、装置、设备及介质
CN110309125A (zh) * 2019-06-24 2019-10-08 招商局金融科技有限公司 数据校验方法、电子装置及存储介质
CN110377471A (zh) * 2019-07-17 2019-10-25 江苏满运软件科技有限公司 接口校验数据的生成方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990208A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 一种数据自动校验方法、系统和设备
CN105636097A (zh) * 2014-10-30 2016-06-01 中国移动通信集团设计院有限公司 一种校验网络性能统计数据的方法及装置
KR101623305B1 (ko) * 2015-04-10 2016-05-23 주식회사 만도 정보 검사 장치 및 방법과 정보 검사 장치를 포함하는 정보 처리 시스템
CN108337652A (zh) * 2017-01-20 2018-07-27 中国移动通信集团河南有限公司 一种检测流量欺诈的方法及装置
CN109995566A (zh) * 2017-12-31 2019-07-09 中国移动通信集团辽宁有限公司 网络故障定位方法、装置、设备及介质
CN109684052A (zh) * 2018-12-26 2019-04-26 华为技术有限公司 事务分析方法、装置、设备及存储介质
CN110309125A (zh) * 2019-06-24 2019-10-08 招商局金融科技有限公司 数据校验方法、电子装置及存储介质
CN110377471A (zh) * 2019-07-17 2019-10-25 江苏满运软件科技有限公司 接口校验数据的生成方法、装置、存储介质及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MOHAMMED S. HADI 等: "Big data analytics for wireless and wired network design: A survey", COMPUTER NETWORKS, pages 180 - 199 *
李训潮;宫钦: "信令 XDR 数据质量智能核查方案研究", 山东通信技术, vol. 36, no. 4, pages 1 - 4 *
陈雯: "电信综合告警采集系统的设计与实现", 中国优秀硕士学位论文全文数据库信息科技辑, pages 140 - 1162 *
黄敏飞;王翔;谭展;: "通信网管系统数据质量管控的技术研究与实现", 电信工程技术与标准化, no. 04, pages 19 - 25 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659377A (zh) * 2022-12-13 2023-01-31 闪捷信息科技有限公司 接口异常访问识别方法、装置、电子设备和存储介质
CN115659377B (zh) * 2022-12-13 2023-03-31 闪捷信息科技有限公司 接口异常访问识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112733083B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111064634B (zh) 海量物联网终端在线状态的监测方法及装置
CN109640312B (zh) “黑卡”识别方法、电子设备及计算机可读取存储介质
CN110335022B (zh) 自动稽核方法、装置、设备及存储介质
CN104731816A (zh) 一种处理异常业务数据的方法和装置
CN109522895B (zh) 兴趣点位置校验方法、装置、服务器和计算机可读介质
CN113591824B (zh) 交通违法数据录入异常检测方法和装置
CN106557963A (zh) 处理用车订单的方法、装置及服务器
CN108770057B (zh) 预定指纹库的确定方法及指纹定位方法、装置、存储介质
CN110191004A (zh) 一种端口检测方法及系统
CN112733083A (zh) 一种数据校验方法、系统及装置
CN113283824A (zh) 智慧园区数据综合管理方法及系统
CN110891071A (zh) 一种网络流量信息获取方法、装置及其相关设备
CN108804507A (zh) 用户的住址位置确定方法及系统
CN106802916B (zh) 电动汽车的交易记录数据的校验方法、装置及系统
CN113487212A (zh) 一种风险监测方法及装置
CN108038127A (zh) 一种数据同步的方法、装置、终端设备及存储介质
CN110682820B (zh) 一种在线检测充电桩充电量准确性的方法及装置
CN109598525B (zh) 数据处理方法和装置
CN112200397B (zh) 一种业务监测预警实现方法
CN112488562B (zh) 一种业务实现方法及装置
CN114827951A (zh) 一种基于车辆终端的车辆网络质量分析方法、系统及存储介质
CN112988591A (zh) 一种计费逻辑验证方法、装置、设备及存储介质
CN112994904B (zh) 一种数据管理方法、装置、设备及存储介质
CN112885101B (zh) 确定异常设备的方法、装置、存储介质及电子装置
CN115994172B (zh) 一种业务访问关系确定的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant