CN112838960B - 通信数据清洗方法、装置、网络设备及存储介质 - Google Patents
通信数据清洗方法、装置、网络设备及存储介质 Download PDFInfo
- Publication number
- CN112838960B CN112838960B CN201911156417.6A CN201911156417A CN112838960B CN 112838960 B CN112838960 B CN 112838960B CN 201911156417 A CN201911156417 A CN 201911156417A CN 112838960 B CN112838960 B CN 112838960B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- identification information
- matched
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 216
- 238000004140 cleaning Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 106
- 230000005540 biological transmission Effects 0.000 claims abstract description 106
- 230000004044 response Effects 0.000 claims description 246
- 238000012216 screening Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 description 20
- 238000007906 compression Methods 0.000 description 20
- 238000012544 monitoring process Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000011664 signaling Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013475 authorization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011010 flushing procedure Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013064 process characterization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/18—Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer And Data Communications (AREA)
Abstract
本申请提出一种通信数据清洗方法、装置、网络设备及存储介质。该方法包括:获取两个网元之间的通信数据,并识别所述通信数据对应的传输协议;获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息;根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果。本申请可以提高通信数据采集的准确率。
Description
技术领域
本申请涉及无线通信网络,具体涉及一种通信数据清洗方法、装置、网络设备及存储介质。
背景技术
随着网络应用的普及以及用户对应用体验的要求日趋增强,为了给用户提供更优质的网络平台,也为了提供更好应用体验,各个运营商均在现有网络中部署了上网日志采集系统,以便实施监控优化改善网络环境。
随着5G网络的逐步开局试用,5G网络监测系统也被提上日程,3GPP(the3rdGeneration Partner Project:第三代伙伴计划协议)组织定义的5G标准和之前的通信标准有很大不同,面对新的标准,无法沿用历史的网络监测系统。
发明内容
本申请提供用于通信数据清洗方法、装置、网络设备及存储介质。
本申请实施例提供一种通信数据清洗方法,包括:
获取两个网元之间的通信数据,并识别所述通信数据对应的传输协议;
获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息;
根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果。
本申请实施例提供一种通信数据清洗装置,包括:
通信数据采集模块,用于获取两个网元之间的通信数据,并识别所述通信数据对应的传输协议;
业务标识信息获取模块,用于获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息;
数据清洗模块,用于根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果。
本申请实施例提供一种网络设备,包括:处理器以及存储器;所述处理器用于执行存储器中存储的程序,以实现本申请实施例中的任意一种方法。
本申请实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求本申请实施例中的任意一种方法。
本申请实施例所提供的通信数据清洗方法、装置、网络设备及存储介质,通过识别两个网元之间传输的通信数据对应的传输协议,并根据从该通信数据中提取业务特征,在与该传输协议匹配的数据库中查询与业务特征匹配的业务标识信息,最后根据业务标识信息对通信数据进行数据清洗,可以选择传输协议匹配的数据库,查询通信数据中业务特征匹配的业务标识信息,从而实现识别新增传输协议下的通信数据的结构,并进行清洗,解决了现有技术中现有网络监测系统无法识别全部传输协议的通信数据导致按照新增传输协议进行通信的数据无法监测的问题,增加清洗的数据范围,实现准确对各种不同传输协议下的通信数据进行清洗,尤其是采用新增传输协议进行传输的通信数据,提高通信数据采集的准确率。
关于本申请的以上实施例和其他方面以及其实现方式,在附图说明、具体实施方式和权利要求中提供更多说明。
附图说明
图1为本申请实施例中的通信数据清洗方法的流程图;
图2为本申请实施例中的基于清洗模块的通信数据清洗方法的流程图;
图3为本申请实施例所适用的应用场景的示意图;
图4为本申请实施例中的基于HTTP/2应用协议的通信数据清洗方法的流程图;
图5为本申请实施例中的基于HTTP/2应用协议的请求数据和响应数据清洗方法的流程图;
图6为本申请实施例所适用的可修正业务流程的应用场景的示意图;
图7为本申请实施例中的基于HTTP/2头部识别情况的通信数据清洗方法的流程图;
图8为本申请实施例中的通信数据清洗装置的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
实施例
图1为本申请实施例提供的通信数据清洗方法的流程图,本实施例可适用于在采集到两个网元之间的通信数据时,对通信数据进行解析以及清洗的情况,该方法可以由本申请实施例提供的通信数据清洗装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成网络设备中。如图1所示,具体包括:
S110,获取两个网元之间的通信数据,并识别所述通信数据对应的传输协议。
网元可以是指一种网络设备,能够独立完成传输功能,通常,网元是网络管理中进行管理和监测的最小单位。本机设备,也即实现通信数据清洗方法的网络设备,是指在两个网元之外的网络设备,用于采集任意两个网元之间的通信数据。本机设备用于实现网络监测功能,对两个网元进行监测。两个网元可以采用5G标准协议进行通信。此外,两个网元还可以采用传统传输协议进行通信,例如1G、2G、3G和4G标准协议,或者还可以采用未来新增的传输协议进行通信。
通信数据可以是指两个网元之间传输的数据。例如,请求数据或响应数据。请求数据实际是请求方发出的通信数据,用于向响应方请求服务。响应数据实际是响应方发出的通信数据,用于向请求方反馈响应结果。需要说明的是,实际上,两个网元之间传输的是信令,可以对信令进行解析,得到通信数据。
传输协议可以是指通信双方在事前约定的通信规则,用于进行可靠准确通信。传输协议可以包括现有的全部用于通信的传输协议。在5G标准协议之前的传输协议,相应配置有通信数据的清洗方法,而5G标准协议是一种新的标准协议,现有未配置有相应的通信数据的清洗方法。
目前,3GPP在定义5G标准协议的时候引入了新的应用协议NGAP(Next GenerationApplication Protocol:下一代通用应用协议)或HTTP/2(HyperText Transfer Protocol:超文本传输协议)等,其中HTTP/2因为具备了多种优异的特征,比如长连接,头部压缩等被3GPP选中为5G核心网网元之间的主要应用协议。5G标准中应用层协议包括NGAP应用协议或HTTP/2应用协议等应用协议,此外,传输层协议使用了传统传输协议,例如,UDP(UserDatagram Protocol用户数据报文协议),TCP(Transmission Control Protocol:传输控制协议),以及SCTP(StreamControlTransmission Protocol:传输控制协议)等。
在5G网络中,两个网元可以分别代表了采用NGAP应用协议通信的NG-RAN(RadioAccess Network:无线接入网)和AMF(Access and Mobility Management Function:接入和移动管理功能);或者分别代表了采用HTTP/2应用协议通信的AMF和SMF(SessionManagement Function:会话管理功能)。此外,两个网元可还可以是采用其他协议的网元,对此,本申请实施例不作具体限制。
采集两个网元之间的通信数据的方式具体为:通过分光方式,流镜像,或者其它途径等获取两个网元传输的通信数据。通信数据的采集要求尽量不影响核心网网元之间的通信,如果有影响则要求影响最小。
S120,获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息。
业务特征用于判断通信数据对应的业务标识信息。传输协议匹配的数据库用于查询与传输协议关联的业务流程。业务标识信息用于标识业务流程,以确定通信数据中的重要信息,便于后续进行清洗。
其中,不同传输协议对应的数据库不同。数据库中存储有服务属性信息、业务属性信息、业务标识信息和筛选数据之间的映射关系。通过配置多个数据库,同时,为每个传输协议配置对应的数据库,可以在传输协议进行增改时,尤其是出现全新的传输协议时,通过增加相应数据库,即可实现在采用新增的传输协议的通信数据中准确识别该新增传输协议下的业务流程,以准确获取通信数据的清洗结果。
在一个示例性实施方式中,所述传输协议包括HTTP/2应用协议;所述获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息,包括:根据所述传输协议匹配的通信标准格式特征信息,提取所述通信数据中的服务属性信息,以及业务属性信息;在与所述传输协议匹配的数据库中查询与所述服务属性信息匹配的至少一个业务标识信息;在所述至少一个业务标识信息中查询与所述业务属性信息匹配的业务标识信息,作为与所述业务特征匹配的业务标识信息。
通信标准格式特征信息用于从通信数据中提取业务特征。服务属性信息用于确定通信数据对应服务,业务属性信息用于确定通信数据对应的业务流程。在HTTP/2应用协议中,不同的网元会提供一个或者多个不同的服务,不同的服务则提供不同的业务。所以需要知道具体的业务流程,首先需要识别服务,然后才是业务流程,最后才可以清洗数据。
5G网络不同的服务触发的业务请求URI(Uniform Resource Identifier:统一资源标志符)是有标准格式的,它采用了API(Application Programming Interface,应用程序接口)通信机制,其格式为:{API根}/{API名称}/{API版本号}/{API特殊资源标志部分}即:{apiRoot}/{apiName}/{apiVersion}/{apiSpecificResourceUriPart}。其中,通信数据包括请求数据,请求数据中包括业务请求URI的内容。
具体的,通信标准格式特征信息包括{API根}/{API名称}/{API版本号}/{API特殊资源标志部分}的格式信息。
传输协议匹配的数据库存储有传输协议与服务属性信息的对应关系,可以根据传输协议查询匹配的服务属性信息;同时传输协议匹配的数据库还存储有服务属性信息与业务标识信息的对应关系,可以根据服务属性信息查询到匹配的业务标识信息。其中,一个传输协议对应的服务属性信息的数量为至少一个,一个服务属性信息对应的业务标识信息的数量为至少一个。不同传输协议匹配的数据库中存储不同的内容。
服务属性信息可以是指服务属性信息为API名称,也即前述{apiName}。业务属性信息可以是指API特殊资源标志部分,也即前述{apiSpecificResourceUriPart}。
从通信数据中提取服务属性信息,识别通信数据对应的服务,其中,一个服务可以包括多个业务流程;从通信数据中提取业务属性信息,在通信数据对应的服务包括的多个业务流程中识别通信数据对应的业务流程。
通过针对HTTP/2应用协议规定的通信格式,从通信数据中提取服务属性信息和业务属性信息,从传输协议匹配的数据库中进行查询,准确查询到通信数据匹配的业务标识信息,提高业务标识信息的识别准确率,从而提高通信数据的清洗准确率。
此外,传输层使用了SCTP(Stream Control Transmission Protocol:流控制传输协议),确定其所承载的应用协议为NGAP应用协议,可以根据3GPP38413-f20中的标准识别通信数据中的业务特征,并在NGAP应用协议匹配的数据库中查询业务特征匹配的业务标识信息。
又如,传输层使用了UDP,在确定其所承载的应用协议为PFCP(Packet ForwardingControl Protocol:报文转发控制协议)应用协议,可以在PFCP应用协议匹配的数据库中查询通信数据匹配的业务标识信息。
又如,传输层使用了TCP,在确定其所承载的应用协议为HTTP2后,可以依据前面提到的HTTP2应用协议匹配的数据库中查询通信数据匹配的业务标识信息。
需要说明的是,还可以采用其他传输协议,本申请实施例不作具体限制。
实际上,通信数据可以包括请求数据和响应数据,其中,请求数据包括URI信息,而响应数据不包括该信息。可以理解的是,响应数据是针对某请求数据的响应结果,响应数据和该请求数据的业务标识信息相同。从而,可以将请求数据的业务标识信息作为匹配的响应数据的业务标识信息。
在一个示例性实施方式中,所述传输协议包括HTTP/2应用协议,所述通信数据包括请求数据;在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息之后,还包括:缓存所述请求数据对应的业务标识信息以及五元组数据。
五元组数据是指,源IP(Internet Protocol:网际协议地址)、源Port(端口)、目的IP、目的Port和流ID(Identifier,标识符),也即SrcIP、SrcPort、DstIP、DstPort和StreamID。五元组数据实际是标识请求数据的发出方和接收方,以及业务ID。五元组数据用于作为请求数据的标识信息,判断接收方针对该请求数据进行响应发送的响应数据。
通常,请求数据与匹配的响应数据的源IP和目的IP相反,请求数据与匹配的响应数据的源Port和目的Port相反。请求数据与匹配的响应数据的流ID相同。
缓存请求数据业务标识信息和五元组数据,可以在接收到响应数据时,判断该响应数据是否为该请求数据的响应结果,也即判断该响应数据是否与该请求数据匹配。并在响应数据与该请求数据匹配时,直接将请求数据的业务标识信息作为响应数据的业务标识信息,减少对响应数据的解析操作,从而提高响应数据的业务标识信息的识别效率。
S130,根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果。
数据清洗用于将通信数据中冗余数据清除,保留重要信息。
通常,业务标识信息用于标识业务流程。业务流程与通信数据的解析方法对应,也即只有采用与业务流程匹配的解析方法,通信数据才能被准确解析。根据业务标识信息,可以准确从通信数据中提取出重要信息作为清洗结果。
在得到清洗结果之后,可以将清洗结果输出至下一网络设备,以使下一网络设备进行下一步处理。
在一个具体的应用场景中,本机设备可以是网络监测系统,具体如图2所示,网络监测系统实现的通信数据清洗方法具体可以包括:
S160,获取两个网元之间的通信数据。
两个网元可以采用5G标准协议或者未来新增的传输协议进行通信。
S161,识别所述通信数据对应的传输协议。
S162,将通信数据发送至与所述传输协议匹配的清洗模块中,通过与所述传输协议匹配的清洗模块对通信数据进行清洗。
具体的,清洗模块可以包括下述至少一项:与HTTP/2应用协议匹配的HTTP/2清洗模块、与NGAP应用协议匹配的NGAP清洗模块和其他清洗模块。其他清洗模块可以是未来新增传输协议对应的清洗模块。
S163,输出各清洗模块输出的清洗结果至下一网络设备。
实际上,每个清洗模块均获取所述通信数据的业务特征,并在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息。
具体的,如图3所示,可以在应用传输协议特征库中根据通信数据的传输协议特征,查询与通信数据匹配的传输协议,实现识别通信数据对应的传输协议。
若传输协议为HTTP/2应用协议,与HTTP/2应用协议匹配的数据库包括:服务特征库以及业务流程特征库。HTTP/2清洗模块在服务特征库中根据服务属性信息查询匹配的服务标识信息,并结合业务属性信息在业务流程特征库中查询与服务标识信息以及业务属性信息匹配业务标识信息。此外,HTTP/2清洗模块在确定业务标识信息之后,可以在业务流程特征库查询与该业务标识信息匹配的请求方法作为清洗结果。
在一个示例性实施方式中,所述根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果,包括:根据所述业务特征匹配的业务标识信息,在业务特征库中查询与所述业务标识信息匹配的筛选数据,作为清洗结果;所述清洗结果包括下述至少一项:请求方法、响应码、触发请求时间和收到响应的时间。
业务特征库,用于存储有业务标识信息与筛选数据的对应关系。筛选数据用于作为从通信数据中筛选得到的重要信息。请求方法可以是指请求方请求的具体服务内容,可以包括GET(获取)、POST(投递)、PATCH(补丁)、DELETE(删除)或PUT(推送)等。响应码用于确定响应结果类型。触发请求时间可以是指发出请求信令的时间。
其中,用户上网业务的请求成功率通常是网络监测系统的监测重点内容,该指标由请求方法与相关的响应码计算出来。收到响应的时间可以是指接收到响应信令的时间。通常,触发请求时间和收到响应的时间结合用于确定服务的响应时间,以评估服务器提供服务的性能。
需要说明的是,网络监测系统若无法直接从通信数据中解析出来筛选数据,现有的方法是将采集到的通信数据丢弃。可以通过根据通信数据中的信息,在预先配置业务特征库中查询与通信数据匹配的筛选数据,替代从通信数据中直接解析得到筛选数据,由此,可以在通信数据无法进行解析的情况下,依然可以获取到筛选数据。
通过配置业务特征库,并在业务特征库中查询与业务标识信息匹配的筛选数据,作为清洗结果,可以有效避免在网络监测系统无法直接从通信数据中解析得到筛选数据而丢弃通信数据,从而提高通信数据采集准确率。
此外,采用NGAP/NAS(Security Mode Command:安全模式命令)应用协议的通信数据进行数据清洗,也可以相应配置业务流程特征库。对此,本申请实施例不再具体限制。
又如,还可以采用其他传输协议的通信数据进行数据清洗,例如未来新增的传输协议,并相应配置业务流程特征库。对此,本申请实施例不再具体限制。
在一个示例性实施方式中,所述通信数据包括响应数据;在缓存所述请求数据对应的业务标识信息以及五元组数据之后,还包括:获取所述响应数据的五元组数据;查询与所述响应数据匹配的请求数据,其中,所述响应数据的五元组数据与所述匹配的请求数据的五元组数据匹配;将所述匹配的请求数据对应的业务标识信息作为所述响应数据对应的业务标识信息;所述根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果,包括:根据所述业务特征匹配的业务标识信息分别对所述响应数据和所述匹配的请求数据进行数据清洗,得到清洗结果。
响应数据的业务标识信息可以直接根据匹配的请求数据的业务标识信息确定。通常,响应数据为匹配的请求数据的响应结果,响应数据和匹配的请求数据的业务流程相同。
可以将响应数据和请求数据作为一组数据,清洗结果包括响应数据进行清洗得到的数据,以及匹配的请求数据进行清洗得到的数据。清洗结果用于传输到下一网络设备进行进一步的处理。实际上,在对清洗结果进行分析处理时,通常是针对请求方发出的一个请求数据以及针对该请求数据得到的响应数据共同进行分析,而不是孤立的分析处理请求数据或者响应数据。将请求数据的清洗结果和响应数据的清洗结果进行合并,可以建立同一个业务流程的请求数据和响应数据的清洗结果的关联关系,节省后续处理时将请求数据和响应数据的清洗结果进行合并的操作。
通过将请求数据对应的业务标识信息作为匹配的响应数据对应的业务标识信息,可以快速识别响应数据的业务流程,同时,请求数据的清洗结果和响应数据的清洗结果进行合并,可以节省后续处理时将请求数据和响应数据的清洗结果进行合并的操作,从而,提高通信数据处理的效率。
本申请实施例所提供的通信数据清洗方法、装置、网络设备及存储介质,通过识别两个网元之间传输的通信数据对应的传输协议,并根据从该通信数据中提取业务特征,在与该传输协议匹配的数据库中查询与业务特征匹配的业务标识信息,最后根据业务标识信息对通信数据进行数据清洗,可以选择传输协议匹配的数据库,查询通信数据中业务特征匹配的业务标识信息,从而实现识别新增传输协议下的通信数据的结构,并进行清洗,解决了现有技术中现有网络监测系统无法识别全部传输协议的通信数据导致按照新增传输协议进行通信的数据无法监测的问题,增加清洗的数据范围,实现准确对各种不同传输协议下的通信数据进行清洗,尤其是采用新增传输协议进行传输的通信数据,提高通信数据采集的准确率。
图4为本申请实施例提供的通信数据清洗方法的流程图,本实施例以上述实施例为基础进行优化。将通信数据区分为请求数据和响应数据,针对不同类型,执行不同数据解析和清洗操作。本实施例的方法具体包括:
S210,获取两个网元之间的请求数据,并识别所述请求数据对应的传输协议,其中,传输协议包括5G标准协议,所述5G标准协议包括HTTP/2应用协议。
本申请实施例中网元、请求数据、响应数据、传输协议、5G标准协议、HTTP/2应用协议、业务特征、业务标识信息和清洗结果等可以参考上述实施例的描述。此外,传输协议还可以包括任意未来新增的传输协议。
其中,HTTP/2应用协议拥有两个明显的特性:长连接和头部压缩。长连接表示网元之间发起通信的时候一旦主动建立了TCP连接,那么除非特别的原因提示拆连接,否则该TCP连接资源将一直被占用,时间长的可能达24小时以上;头部压缩功能的使用需要网元双方交换压缩字典以便后面的通信中正确解码,通常情况下头部压缩字典在TCP建立连接的时候或者建立连接后第一个业务流程中就交换了,后续不再交互。在这样的背景下,如果网络采集系统没有采集到头部压缩字典,那么在这条链路上采集的所有信令都会因为其中的请求方法、头部、响应码等都会无法解析从而导致无法准确识别业务流程,最后只能丢弃。这样显然会降低网络监测系统的采集率和准确率。
S220,获取所述请求数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息。
在一个示例性实施方式中,所述获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息,包括:根据所述传输协议匹配的通信标准格式特征信息,提取所述通信数据中的服务属性信息,以及业务属性信息;在与所述传输协议匹配的数据库中查询与所述服务属性信息匹配的至少一个业务标识信息;在所述至少一个业务标识信息中查询与所述业务属性信息匹配的业务标识信息,作为与所述业务特征匹配的业务标识信息。
其中,与业务特征匹配的业务标识信息可以有多个。具体是,可以查询到与业务属性信息匹配的业务标识信息的数量可以是至少两个,此时可以进一步根据其他信息进一步确定业务标识信息。
在一个示例性实施方式中,所述通信数据包括请求数据;与所述业务属性信息匹配的业务标识信息的数量为至少两个;在查询与所述业务属性信息匹配的业务标识信息之后,还包括:如果确定所述请求数据的HTTP/2头部满足可识别条件,则从所述请求数据的HTTP/2头部识别到的请求方法,作为业务补充信息;如果确定所述请求数据的HTTP/2头部满足不可识别条件,则获取所述请求数据中消息体的特征信息,作为业务补充信息;所述消息体的特征信息包括消息体长度和消息体内容;根据所述业务补充信息,对与所述业务特征匹配的业务标识信息进行修正。
请求数据的HTTP/2头部是指按照HTTP/2应用协议生成的报文头部字段,通常封装有该请求数据的信息。业务补充信息用于修正业务标识信息。也即,业务补充信息用于结合业务属性信息共同确定业务标识信息。消息体可以是指请求数据中携带的具体消息内容。消息体的特征信息用于描述消息体的特征。消息体长度可以是指消息体的字节长度。消息体内容可以是指消息体包括的字符内容。
实际上,请求数据的HTTP/2头部是通过设定头部压缩算法进行压缩得到的,需要头部压缩算法对应的头部压缩字典进行解析,才可以识别出请求数据的HTTP/2头部的具体内容。可识别条件用于判断HTTP/2头部可以识别。请求数据的HTTP/2头部封装有请求方法。
具体的,可以根据是否可以获取头部压缩字典判断请求数据的HTTP/2头部是否满足可识别条件。如果可获取头部压缩字典(例如,本地存储有头部压缩字典),则确定请求数据的HTTP/2头部满足可识别条件;如果无法获取头部压缩字典(例如,本地未存储有头部压缩字典),则确定请求数据的HTTP/2头部满足不可识别条件。
通过获取请求数据的业务补充信息,对业务属性信息确定的业务标识信息进行修正,提高业务标识信息的准确率,并根据确定的业务标识信息对通信数据进行清洗,从而提高数据采集的准确率。
在一个示例性实施方式中,在根据所述业务补充信息,对与所述业务特征匹配的业务标识信息进行修正之后,还包括:如果确定修正后的与所述业务特征匹配的业务标识信息的数量为至少两个,则根据与所述请求数据匹配的响应数据中消息体的特征信息对与所述业务特征匹配的业务标识信息进行再次修正。
如果在第一次修正之后,业务特征匹配的业务标识信息的数量仍然有至少两个,可以在接收到该请求数据匹配的响应数据后,根据响应数据中的信息对业务特征匹配的业务标识信息进行修正。
在等待接收该请求数据匹配的响应数据的过程中,可以先从至少一个业务标识信息中假定一个可能性最高的业务标识信息,在接收到该请求数据匹配的响应数据之后,进行修正。其中,可能性最高的业务标识信息可以是指信令频率最高的业务标识信息,也即用于标识发生最频繁的业务流程的业务标识信息。
通过获取请求数据匹配的响应数据中消息体的特征信息再次对业务标识信息进行修正,提高业务标识信息的准确率,并根据确定的业务标识信息对通信数据进行清洗,从而提高数据采集的准确率。
S230,缓存所述请求数据对应的业务标识信息以及五元组数据。
S240,获取两个网元之间的响应数据,并识别所述响应数据对应的传输协议。
S250,获取所述响应数据的五元组数据。
S260,查询与所述响应数据匹配的请求数据,其中,所述响应数据的五元组数据与所述匹配的请求数据的五元组数据匹配。
S270,将所述匹配的请求数据对应的服务标识信息作为所述响应数据对应的服务标识信息,以及将所述匹配的请求数据对应的业务标识信息作为所述响应数据对应的业务标识信息。
S280,根据所述业务特征匹配的业务标识信息分别对所述响应数据和所述匹配的请求数据进行数据清洗,得到清洗结果。
在得到清洗结果时,用户的一个业务触发行为对应的一次消息交互采集完毕。
在一个具体的应用场景中,本机设备可以是网络监测系统。如图5所示,网络监测系统实现的通信数据清洗方法,具体可以区分为请求数据的业务标识信息识别和数据清洗,以及响应数据的业务标识信息识别和数据清洗。其中,请求数据和响应数据均为采用5G标准协议(HTTP/2应用协议)进行传输的通信数据,或者还可以是采用未来新增的传输协议进行传输的通信数据。
接收通信数据,并识别该通信数据的传输协议为传输协议为HTTP/2应用协议,且HTTP/2头部满足不可识别条件。
针对请求数据:
S2101,对请求数据进行服务标识信息识别。
S2102,对请求数据进行业务标识信息识别。
S2103,对请求数据进行请求方法识别。
S2104,清洗请求数据。
S2105,缓存清洗结果和请求数据的五元组。
针对响应数据:
S2201,对响应数据进行服务标识信息识别和业务标识信息识别。
获取五元组匹配的请求数据,并将所述请求数据对应的服务标识信息和业务标识信息作为响应数据对应的服务标识信息和业务标识信息。
S2202,对响应数据进行响应码识别。
S2203,对业务标识信息和请求方法进行修正。
在业务标识信息和请求方法的数量为至少两个时,对业务标识信息和请求方法进行修正。
S2204,清洗响应数据。
S2205,将请求数据的清洗结果和响应数据的清洗结果合并。
最后向下一网络设备发送合并的清洗结果。
具体如图6所示,与HTTP/2应用协议匹配的数据库包括:服务特征库、业务流程特征库以及响应特征库。HTTP/2清洗模块在服务特征库中根据从请求数据中提取的服务属性信息查询匹配的服务标识信息,并结合从请求数据中提取的业务属性信息在业务流程特征库中查询与服务标识信息以及业务属性信息匹配业务标识信息。此外,如果服务标识信息以及业务属性信息匹配的业务标识信息的数量为至少两个,可以在接收到与该请求数据匹配的响应数据中消息体的特征信息对匹配的业务标识信息进行修正,从而确定唯一匹配的业务标识信息,以及唯一的请求方法,从而实现对清洗结果的修正。另一方面,根据响应特征信息在响应特征库中查询匹配的响应码。由此,一次用户行为产生的交互数据中可以准确得到请求方法和响应码,在无法获取头部压缩字典的情况下,网络监测系统可以准确获取请求方法和响应码,减少通信数据的丢失,提高通信数据的采集率和准确率。
在一个示例性实施方式中,所述根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果,包括:根据所述业务特征匹配的业务标识信息,在业务特征库中查询与所述业务标识信息匹配的筛选数据,作为清洗结果;所述清洗结果包括下述至少一项:请求方法、响应码、触发请求时间和收到响应的时间。
其中,请求方法是请求数据清洗得到的数据;响应码是响应数据清洗得到的数据。
实际上,若请求数据的HTTP/2头部满足可识别条件,可以采用头部压缩字典直接对请求数据的HTTP/2头部进行解析得到请求方法。需要说明的是,在前述中,在请求数据的HTTP/2头部满足可识别条件的情况下,业务特征匹配的业务标识信息可以通过请求方法进行修正,通常根据业务属性信息可以确定至少一个业务标识信息,在至少一个业务标识信息中,可以结合请求方法确定唯一的业务标识信息。
若请求数据的HTTP/2头部满足不可识别条件,通过业务标识信息从数据库中查询与业务标识信息匹配的请求方法。需要说明的是,在前述中,在请求数据的HTTP/2头部满足不可识别条件的情况下,业务特征匹配的业务标识信息无法通过请求方法进行修正,可以通过请求数据中消息体的特征信息进行修正,以及根据请求书匹配的响应数据中消息体的特征信息进一步修正,确定唯一的业务标识信息。此时,由于业务标识信息与请求方法一一对应,可以根据唯一确定的业务标识信息确定请求方法。也即,请求方法可以通过请求数据中消息体的特征信息进行修正,以及根据请求书匹配的响应数据中消息体的特征信息进一步修正,确定唯一的请求方法。
另外,若响应数据的HTTP/2头部满足可识别条件,当没有使用头部压缩算法时则可以直接解析响应数据提取响应码,或者采用了头部压缩算法且拥有了相应的头部压缩字典,则可以先解压缩处理后再获取到响应码信息。若响应数据的HTTP/2头部满足不可识别条件,通过业务标识信息或者其他信息等响应特征信息,从数据库中查询与业务标识信息匹配的响应码。
在一个示例性实施方式中,所述清洗结果包括响应码;所述根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果,包括:根据响应特征信息在业务响应特征库中查询匹配的响应码,其中,所述响应特征信息包括下述至少一项:业务标识信息、响应数据中消息体的特征信息、响应结果和响应失败原因。
实际上,业务响应特征库中存储有响应特征信息与响应码的对应关系。响应结果包括响应成功或响应失败。响应失败原因用于描述响应失败的原因。
可以单独根据一个响应特征信息确定响应码,也可以根据至少两个响应特征信息结合确定响应码。
例如,若一个业务标识信息对应一个响应码,可以单独根据业务标识信息确定匹配的响应码。通常,一个业务标识信息对应至少两个响应码,可以结合消息体的特征信息、响应结果或响应失败原因,从至少两个响应码中确定匹配的响应码。
又如,响应失败原因为通用失败原因时,一个响应失败原因对应一个响应码,可以仅根据响应失败原因确定匹配的响应码。
又如,若消息体长度为0,也即响应数据无消息体,可以结合业务标识信息确定响应码。若消息体长度不为0,也即响应数据有消息体,且响应结果为响应失败,可以结合响应失败原因确定响应码。若消息体长度不为0,且响应结果为响应成功,结合HTT/2头部以及消息体内容来确定响应码。
通过业务标识信息、响应数据中消息体的特征信息、响应结果和响应失败原因确定响应码,在对通信数据无法进行解析得到响应码的情况下,实现准确获取通信数据的响应码,从而避免由于无法获取通信数据的响应码而丢弃该数据,提高通信数据的采集率和采集的准确率。
此外,采用NGAP/NAS应用协议的通信数据进行数据清洗,也可以相应配置响应码特征库。对此,本申请实施例不再具体限制。
又如,还可以采用其他传输协议的通信数据进行数据清洗,例如未来新增的传输协议,并相应配置响应码特征库。对此,本申请实施例不再具体限制。
本申请实施例通过将请求数据对应的业务标识信息作为匹配的响应数据对应的业务标识信息,可以快速识别响应数据的业务流程,同时,将请求数据的清洗结果和响应数据的清洗结果进行合并,可以节省后续处理时将请求数据和响应数据的清洗结果进行合并的操作,从而提高通信数据处理的效率。
在一个具体的应用场景中,如图7所示,通信数据清洗方法可以包括:
S301,采集两个网元之间的通信数据,并识别出所述通信数据的传输协议为HTTP/2应用协议。
实际上是采集两个网元传输的信令,通过初步分析识别出是TCP消息,再进一步地识别出其承载的传输协议是HTTP/2传输协议。其中,本申请实施例不涉及TLS(TransportLayer Security:传输层安全)以及是否需要解密等的判断。此外,传输协议还可以包括任意未来新增的传输协议。
S302,判断所述通信数据是否为请求数据,如果是,则执行S303;否则执行S310。
S303,根据所述HTTP/2应用协议匹配的通信标准格式特征信息,提取所述请求数据中的服务属性信息和业务属性信息。
S304,在与所述传输协议匹配的数据库中查询与所述服务属性信息匹配的至少一个业务标识信息。
S305,判断所述请求数据的HTTP/2头部是否满足可识别条件,如果是,则执行S306;否则执行S307。
S306,将从所述请求数据的HTTP/2头部中解析得到请求方法,并根据所述业务属性信息从所述至少一个业务标识信息中,确定与所述业务特征匹配的业务标识信息。
根据请求方法结合业务属性信息从至少一个业务标识信息中,确定与业务特征匹配的业务标识信息,相当于,根据业务属性信息从至少一个业务标识信息中,确定与业务特征匹配的业务标识信息,再根据请求方法对与业务特征匹配的业务标识信息进行修正。
S307,获取所述请求数据中消息体的特征信息,并根据所述业务属性信息从所述至少一个业务标识信息中,确定与所述业务特征匹配的业务标识信息。
根据请求数据中消息体的特征信息结合业务属性信息从至少一个业务标识信息中,确定与业务特征匹配的业务标识信息,相当于,根据业务属性信息从至少一个业务标识信息中,确定与业务特征匹配的业务标识信息,再根据请求数据中消息体的特征信息对与业务特征匹配的业务标识信息进行修正。
S308,缓存所述请求数据对应的业务标识信息以及五元组数据。
S309,对所述请求数据进行清洗,并存储。
S310,获取所述响应数据中的五元组数据。
S311,查询与所述响应数据匹配的请求数据,并将所述匹配的请求数据对应的业务标识信息作为所述响应数据对应的业务标识信息;其中,所述响应数据的五元组数据与所述匹配的请求数据的五元组数据匹配。
S312,判断所述响应数据的HTTP/2头部是否满足可识别条件,如果是,则执行S315;否则执行S313。
S313,根据响应特征信息在业务响应特征库中查询匹配的响应码,其中,所述响应特征信息包括下述至少一项:业务标识信息、响应数据中消息体的特征信息、响应结果和响应失败原因;
S314,如果所述响应数据匹配的业务标识信息的数量为至少两个,则根据响应数据中消息体的特征信息对所述匹配的业务标识信息进行修正。
S315,对所述响应数据进行清洗,并存储。
实际上,如果HTTP/2头部满足可识别条件,请求数据的请求方法,和响应数据的响应码可以直接从HTTP/2头部中解析得到。
S316,将目标请求数据清洗得到的数据和匹配的目标响应数据清洗得到的数据进行合并,得到清洗结果。
其中,清洗结果还可以包括业务标识信息。
在一个具体的例子中,应用场景为3GPP 29514中PCF(Policy Control Function:策略控制功能)和AF(Application Function:应用功能)之间的Npcf_PolicyAuthorization(PCF网元提供的策略授权)服务发送的信令。网络监测系统没有采集到HTTP/2的头部压缩字典。
与HTTP/2应用协议匹配的数据库中至少存储有如下3个映射关系表:
“服务特征库{apiName}”(表1),来自3GPP 29514-f20 5.1;
“业务流程特征库{apiSpecificResourceUriPart}”(表2),来自3GPP 29514-f20表5.3.1-1;以及
“响应码特征库”(表3),来自3GPP 29514-f20 5.3。
其中:
表1服务特征库(apiName)
服务标识信息 | 服务属性信息URI(apiName) |
Npcf_PolicyAuthorizetion | npcf-policyauthorization |
表2业务流程特征库(Npcf_PolicyAuthorizetion)
表3响应码特征库(Npcf_PolicyAuthorizetion)
表1-3构建了Npcf_PolicyAuthorization的服务、业务流程(也即业务标识信息)、筛选数据的映射关系表。具体的,表1用于根据服务属性信息确定服务标识信息。表2用于根据服务标识信息和业务属性信息,或者根据服务标识信息、业务属性信息和业务补充信息,查询业务标识信息,表2还用于根据业务标识信息查询请求方法。表3用于根据响应特征信息(如业务标识信息、响应结果和响应数据中消息体的特征信息)查询响应码。
如表1-2所述,服务标识信息为Npcf_PolicyAuthorization的服务,对应有5个业务标识信息,也即有5个包含Npcf_PolicyAuthorization的业务流程。
若接收到请求消息,当请求URI的内容为:
“**/npcf-policyauthorization/v1/app-sessions”;
首先,服务属性信息apiName为npcf-policyauthorization,通过表1中可以识别出是Npcf_PolicyAuthorization服务,也即服务标识信息为Npcf_PolicyAuthorization;
进一步地,业务属性信息apiSpecificResourceUriPart为/npcf-policyauthorization/v1/app-sessions,通过表2中的记录1可以识别出业务标识信息为Npcf_PolicyAuthorization_Create(PCF网元提供的策略授权创建),进一步地识别出请求方法为POST。
若接收到请求消息,当请求URI的内容为:
“**/npcf-policyauthorization/v1/app-sessions/supi:123456789012345;pdusess ionid:1;”
首先,服务属性信息apiName为npcf-policyauthorization,通过表1可以识别出是Npcf_PolicyAuthorization服务;
进一步地,业务属性信息apiSpecificResourceUriPart为/npcf-policyauthorization/v1/app-sessions/supi:123456789012345;pdusessionid:1,其中,supi:123456789012345;pdusessionid:1为appSessionId,通过表2中的记录2可以识别出业务标识信息为Npcf_PolicyAuthorization_Update(PCF网元提供的策略授权更新),进一步地识别出请求方法为PATCH。
同样的可以通过比较请求URI中的信息,若业务属性信息apiSpecificResourceUriPart包括“delete”,可以通过表2中的记录3确定业务标识信息为Npcf_PolicyAuthorization_Delete(PCF网元提供的策略授权删除),进一步可以识别出请求方法为POST。
此外,通过表2中的记录4和记录5发现订阅相关的两个业务标识信息:订阅Npcf_PolicyAuthorization_Subscribe(PCF网元提供的策略授权订阅)和取消订阅Npcf_PolicyAuthorization_UnSubscribe(PCF网元提供的策略授权取消订阅)的业务属性信息URI是完全一样的。
此时要确定业务标识信息首先需要匹配到订阅相关字符串“events-subscription”,还要进一步的分析标准,从3GPP 29514-f20 5.3.4.3中发现,订阅请求数据中会携带消息体EventsSubscReqData(事件订阅请求数据),但取消订阅则不会携带消息体。所以再结合请求数据中消息体的特征信息,即消息体长度可以识别出唯一确定的业务标识信息,也就是说,如果消息体长度大于0,则是业务标识信息是订阅消息(Npcf_PolicyAuthorization_Subscribe),如果消息体长度等于0,则是取消订阅消息(Npcf_PolicyAuthorization_UnSubscribe)。
进一步地请求数据识别出业务标识信息后需要保存本请求数据的五元组(HTTP2五元组:源IP+源端口+目的IP+目的端口+流ID)和业务标识信息的映射关系。
进一步地按照要求清洗请求数据,获取筛选数据;
进一步地接收到响应数据后:依据响应消息中的五元组来匹配缓存的请求五元组以识别服务标识信息及业务标识信息。如果无法识别,可以认为该响应数据出错。
若响应数据的业务标识信息为Npcf_PolicyAuthorization_Create,结合表3的信息,那么先判断消息体长度,如果为0,则响应码为303。
进一步地,如果消息体不是0,则判断是否存在ProblemDetails信息,如果不存在,则为成功响应,那么响应码肯定是201。
进一步地,若消息体中存在ProblemDetails,则需要通过其他映射表(如表4)的关系,借助具体应用的响应失败原因Application Error来推出响应码。
进一步地,若表4中的也没有找到映射关系,则需要进一步查询表5,5G核心网SBI服务通用响应失败原因与HTTP2响应码映射关系,信息来自3GPP29500 5.2.7.2。
其中,表4用于根据具体服务应用的响应失败原因查询响应码。表5用于根据通用应用的响应失败原因查询响应码。
表4Npcf_PolicyAuthorizetion服务应用的响应失败原因与响应码关系
表5服务通用应用的响应失败原因与响应码关系
对于订阅业务流程以外业务标识信息,同业务标识信息Npcf_PolicyAuthorization_Create的响应数据均可以识别出响应码。
通过观察表3,可知订阅业务流程的响应数据,成功响应有200\201,这两条响应,按照3GPP 29514-f20 5.3.4.3,仅通过消息体外在特征已经无法区分。再仔细研究标准,可以发现3GPP 29514-f20 4.2.6.1还指出如果是201响应,则HTTP2消息体中会携带Location(位置)头部,而且Location头部内为{apiRoot}/npcf-policyauthorization/v1/app-sessions/{appSessionId}/events-subscrip tion。所以结合Location头部也可以区分出是200,还是201。同时标准也明确说明若为201响应,则该业务标识信息实际应该是:Npcf_PolicyAuthorization_Create,这时应该同时修正业务标识信息与响应码。
进一步地按照要求清洗响应数据,获取筛选数据。
进一步地合并清洗后的请求数据和响应数据,发送给下一个节点,比如网络监控分析系统。
图8为本申请实施例提供的一种通信数据清洗装置的示意图。本实施例是实现本申请上述任意实施例提供的通信数据清洗方法的相应装置,该装置可以设置于网络设备中。
通信数据采集模块410,用于获取两个网元之间的通信数据,并识别所述通信数据对应的传输协议;
业务标识信息获取模块420,用于获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息;
数据清洗模块430,用于根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果。
本申请实施例所提供的通信数据清洗方法、装置、网络设备及存储介质,通过识别两个网元之间传输的通信数据对应的传输协议,并根据从该通信数据中提取业务特征,在与该传输协议匹配的数据库中查询与业务特征匹配的业务标识信息,最后根据业务标识信息对通信数据进行数据清洗,可以选择传输协议匹配的数据库,查询通信数据中业务特征匹配的业务标识信息,从而实现识别新增传输协议下的通信数据的结构,并进行清洗,解决了现有技术中现有网络监测系统无法识别全部传输协议的通信数据导致按照新增传输协议进行通信的数据无法监测的问题,增加清洗的数据范围,实现准确对各种不同传输协议下的通信数据进行清洗,尤其是采用新增传输协议进行传输的通信数据,提高通信数据采集的准确率。
在一种实施方式中,所述传输协议包括HTTP/2应用协议;所述业务标识信息获取模块420,还用于:根据所述传输协议匹配的通信标准格式特征信息,提取所述通信数据中的服务属性信息,以及业务属性信息;在与所述传输协议匹配的数据库中查询与所述服务属性信息匹配的至少一个业务标识信息;在所述至少一个业务标识信息中查询与所述业务属性信息匹配的业务标识信息,作为与所述业务特征匹配的业务标识信息。
在一种实施方式中,所述传输协议包括HTTP/2应用协议,所述通信数据包括请求数据;所述通信数据清洗装置,还用于:在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息之后,缓存所述请求数据对应的业务标识信息以及五元组数据。
在一种实施方式中,所述通信数据包括响应数据;所述通信数据清洗装置,还用于:在缓存所述请求数据对应的业务标识信息以及五元组数据之后,获取所述响应数据的五元组数据;查询与所述响应数据匹配的请求数据,其中,所述响应数据的五元组数据与所述匹配的请求数据的五元组数据匹配;将所述匹配的请求数据对应的业务标识信息作为所述响应数据对应的业务标识信息;所述数据清洗模块430,还用于根据所述业务特征匹配的业务标识信息分别对所述响应数据和所述匹配的请求数据进行数据清洗,得到清洗结果。
在一种实施方式中,所述通信数据包括请求数据;与所述业务属性信息匹配的业务标识信息的数量为至少两个;所述通信数据清洗装置,还用于:在查询与所述业务属性信息匹配的业务标识信息之后,如果确定所述请求数据的HTTP/2头部满足可识别条件,则从所述请求数据的HTTP/2头部识别到的请求方法,作为业务补充信息;如果确定所述请求数据的HTTP/2头部满足不可识别条件,则获取所述请求数据中消息体的特征信息,作为业务补充信息;所述消息体特征信息包括消息体长度和消息体内容;根据所述业务补充信息,对与所述业务特征匹配的业务标识信息进行修正。
在一种实施方式中,所述通信数据清洗装置,还用于:在根据所述业务补充信息,对与所述业务特征匹配的业务标识信息进行修正之后,如果确定修正后的与所述业务特征匹配的业务标识信息的数量为至少两个,则根据与所述请求数据匹配的响应数据中消息体的特征信息对与所述业务特征匹配的业务标识信息进行再次修正。
在一种实施方式中,所述数据清洗模块430,还用于:根据所述业务特征匹配的业务标识信息,在业务特征库中查询与所述业务标识信息匹配的筛选数据,作为清洗结果;所述清洗结果包括下述至少一项:请求方法、响应码、触发请求时间和收到响应的时间。
在一种实施方式中,所述清洗结果包括响应码;所述数据清洗模块430,还用于:根据响应特征信息在业务响应特征库中查询匹配的响应码,其中,所述响应特征信息包括下述至少一项:业务标识信息、响应数据中消息体的特征信息、响应结果和响应失败原因。
上述通信数据清洗装置可执行本申请实施例所提供的通信数据清洗方法,具备执行的通信数据清洗方法相应的功能模块和有益效果。
本申请提供一种网络设备,所述网络设备包括处理器以及存储器;所述处理器用于执行存储器中存储的程序,以实现上述实施例中的方法。其中,网络设备为通信数据关联的两个网元之外的设备。
存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的通信数据清洗方法对应的程序指令/模块。
存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中的方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述,仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本申请的范围。因此,本申请的恰当范围将根据权利要求确定。
Claims (10)
1.一种通信数据清洗方法,其特征在于,包括:
获取两个网元之间的通信数据,并识别所述通信数据对应的传输协议;
获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息;
根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果;
所述清洗结果包括响应码;
所述根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果,包括:
根据响应特征信息在业务响应特征库中查询匹配的响应码,其中,所述响应特征信息包括下述至少一项:业务标识信息、响应数据中消息体的特征信息、响应结果和响应失败原因。
2.根据权利要求1所述的方法,其特征在于,所述传输协议包括HTTP/2应用协议;
所述获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息,包括:
根据所述传输协议匹配的通信标准格式特征信息,提取所述通信数据中的服务属性信息,以及业务属性信息;
在与所述传输协议匹配的数据库中查询与所述服务属性信息匹配的至少一个业务标识信息;
在所述至少一个业务标识信息中查询与所述业务属性信息匹配的业务标识信息,作为与所述业务特征匹配的业务标识信息。
3.根据权利要求1所述的方法,其特征在于,所述传输协议包括HTTP/2应用协议,所述通信数据包括请求数据;
在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息之后,还包括:
缓存所述请求数据对应的业务标识信息以及五元组数据。
4.根据权利要求3所述的方法,其特征在于,所述通信数据包括响应数据;
在缓存所述请求数据对应的业务标识信息以及五元组数据之后,还包括:
获取所述响应数据的五元组数据;
查询与所述响应数据匹配的请求数据,其中,所述响应数据的五元组数据与所述匹配的请求数据的五元组数据匹配;
将所述匹配的请求数据对应的业务标识信息作为所述响应数据对应的业务标识信息;
所述根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果,包括:
根据所述业务特征匹配的业务标识信息分别对所述响应数据和所述匹配的请求数据进行数据清洗,得到清洗结果。
5.根据权利要求2所述的方法,其特征在于,所述通信数据包括请求数据;与所述业务属性信息匹配的业务标识信息的数量为至少两个;
在查询与所述业务属性信息匹配的业务标识信息之后,还包括:
如果确定所述请求数据的HTTP/2头部满足可识别条件,则从所述请求数据的HTTP/2头部识别到的请求方法,作为业务补充信息;
如果确定所述请求数据的HTTP/2头部满足不可识别条件,则获取所述请求数据中消息体的特征信息,作为业务补充信息;所述消息体特征信息包括消息体长度和消息体内容;
根据所述业务补充信息,对与所述业务特征匹配的业务标识信息进行修正。
6.根据权利要求5所述的方法,其特征在于,在根据所述业务补充信息,对与所述业务特征匹配的业务标识信息进行修正之后,还包括:
如果确定修正后的与所述业务特征匹配的业务标识信息的数量为至少两个,则根据与所述请求数据匹配的响应数据中消息体的特征信息对与所述业务特征匹配的业务标识信息进行再次修正。
7.根据权利要求1所述的方法,其特征在于,所述根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果,包括:
根据所述业务特征匹配的业务标识信息,在业务特征库中查询与所述业务标识信息匹配的筛选数据,作为清洗结果;所述清洗结果包括下述至少一项:请求方法、响应码、触发请求时间和收到响应的时间。
8.一种通信数据清洗装置,其特征在于,包括:
通信数据采集模块,用于获取两个网元之间的通信数据,并识别所述通信数据对应的传输协议;
业务标识信息获取模块,用于获取所述通信数据的业务特征,在与所述传输协议匹配的数据库中查询与所述业务特征匹配的业务标识信息;
数据清洗模块,用于根据所述业务特征匹配的业务标识信息对所述通信数据进行数据清洗,得到清洗结果;
所述清洗结果包括响应码;
所述数据清洗模块,还用于:
根据响应特征信息在业务响应特征库中查询匹配的响应码,其中,所述响应特征信息包括下述至少一项:业务标识信息、响应数据中消息体的特征信息、响应结果和响应失败原因。
9.一种网络设备,所述网络设备包括处理器以及存储器;
所述处理器用于执行存储器中存储的程序,以实现权利要求1-7任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911156417.6A CN112838960B (zh) | 2019-11-22 | 2019-11-22 | 通信数据清洗方法、装置、网络设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911156417.6A CN112838960B (zh) | 2019-11-22 | 2019-11-22 | 通信数据清洗方法、装置、网络设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112838960A CN112838960A (zh) | 2021-05-25 |
CN112838960B true CN112838960B (zh) | 2024-03-12 |
Family
ID=75922766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911156417.6A Active CN112838960B (zh) | 2019-11-22 | 2019-11-22 | 通信数据清洗方法、装置、网络设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112838960B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115037643B (zh) * | 2022-03-25 | 2023-05-30 | 武汉烽火技术服务有限公司 | 一种网络健康状态数据采集标注的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101106565A (zh) * | 2006-07-14 | 2008-01-16 | 华为技术有限公司 | 具有增强的业务过滤规则的分组网络及其实现方法 |
EP2224296A1 (de) * | 2009-02-27 | 2010-09-01 | Siemens Aktiengesellschaft | Verfahren zur Bereitstellung von Funktionen in einem Automatisierungssystem, Steuerungsprogramm und Automatisierungssystem |
CN102301764A (zh) * | 2011-07-01 | 2011-12-28 | 华为技术有限公司 | 终端分布信息获取方法、数据获取装置以及通信系统 |
CN102404858A (zh) * | 2011-11-25 | 2012-04-04 | 华为技术有限公司 | 一种无线资源优化方法、装置及系统 |
CN109150997A (zh) * | 2018-08-01 | 2019-01-04 | Oppo(重庆)智能科技有限公司 | 上网行为监控方法、装置、终端设备和存储介质 |
CN110399367A (zh) * | 2018-04-12 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 业务数据处理方法、装置、计算机设备及存储介质 |
-
2019
- 2019-11-22 CN CN201911156417.6A patent/CN112838960B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101106565A (zh) * | 2006-07-14 | 2008-01-16 | 华为技术有限公司 | 具有增强的业务过滤规则的分组网络及其实现方法 |
EP2224296A1 (de) * | 2009-02-27 | 2010-09-01 | Siemens Aktiengesellschaft | Verfahren zur Bereitstellung von Funktionen in einem Automatisierungssystem, Steuerungsprogramm und Automatisierungssystem |
CN102301764A (zh) * | 2011-07-01 | 2011-12-28 | 华为技术有限公司 | 终端分布信息获取方法、数据获取装置以及通信系统 |
CN102404858A (zh) * | 2011-11-25 | 2012-04-04 | 华为技术有限公司 | 一种无线资源优化方法、装置及系统 |
CN110399367A (zh) * | 2018-04-12 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 业务数据处理方法、装置、计算机设备及存储介质 |
CN109150997A (zh) * | 2018-08-01 | 2019-01-04 | Oppo(重庆)智能科技有限公司 | 上网行为监控方法、装置、终端设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112838960A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6640038B2 (ja) | マルチキャスト通信またはブロードキャスト通信において拡張したファイル配信を行う方法および装置 | |
US8060633B2 (en) | Method and apparatus for identifying data content | |
CN108400909B (zh) | 一种流量统计方法、装置、终端设备和存储介质 | |
WO2018107784A1 (zh) | 检测网页后门的方法和装置 | |
US10691748B2 (en) | Methods and apparatus to process call packets collected in a communications network | |
US11019367B2 (en) | Live video transmission method and system, and apparatus | |
US20110179467A1 (en) | Intercepting malicious access | |
WO2014101402A1 (zh) | 应用识别方法、数据挖掘方法、装置及系统 | |
CN114157502B (zh) | 一种终端识别方法、装置、电子设备及存储介质 | |
CN112838960B (zh) | 通信数据清洗方法、装置、网络设备及存储介质 | |
CN112751833A (zh) | Rtp报文识别方法、装置、电子设备及可读存储介质 | |
CN115499230A (zh) | 网络攻击检测方法和装置、设备及存储介质 | |
EP4293550A1 (en) | Traffic processing method and protection system | |
US11431638B2 (en) | System and method for monitoring and managing video stream content | |
CN111224756B (zh) | 确定数据传输异常的方法、装置、存储介质及电子设备 | |
CN110198315B (zh) | 一种报文处理的方法及装置 | |
WO2023082605A1 (zh) | Http报文的提取方法、装置、介质及设备 | |
US9313627B2 (en) | Multimedia messaging service (MMS) originator authentication | |
CN113297577B (zh) | 一种请求处理方法、装置、电子设备及可读存储介质 | |
CN115865457A (zh) | 一种网络攻击行为的识别方法、服务器及介质 | |
CN112350986B (zh) | 一种音视频网络传输碎片化的整形方法及系统 | |
CN109995731B (zh) | 提高缓存吐出流量的方法、装置、计算设备及存储介质 | |
CN109905325B (zh) | 一种流量引导方法及流量识别设备 | |
CN114157730B (zh) | 一种报文去重的方法和装置 | |
CN116319468B (zh) | 网络遥测方法、装置、交换机、网络、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |