CN115002243B - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN115002243B CN115002243B CN202210919399.8A CN202210919399A CN115002243B CN 115002243 B CN115002243 B CN 115002243B CN 202210919399 A CN202210919399 A CN 202210919399A CN 115002243 B CN115002243 B CN 115002243B
- Authority
- CN
- China
- Prior art keywords
- feature code
- message
- preset
- data
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供一种数据处理方法及装置,包括:接收待处理报文数据;将第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若匹配结果一致,将该预设特征码确定为第一候选预设特征码;判断键值对的数量与第一候选预设特征码中的对应的预设键值对的数量是否相等,若相等,将该第一候选预设特征码确定为第二候选预设特征码;将多个键值对与该第二候选预设特征码中的报文头特征码对应的多个预设键值对进行匹配,若匹配结果一致,将该第二候选预设特征码确定为目标预设特征码;确定目标预设特征码对应的目标报文清洗策略。使用预设特征码对接入的待处理报文数据进行识别,获取对应的清洗策略,以提高数据清洗效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
由于可选取的设备厂商、型号等信息不固定,传感器报文数据接入SaaS系统时,需要针对不同厂商、不同型号的设备进行专业定制,导致传感器报文数据接入困难。传统的传感器报文数据接入多采用一对一的方式,针对性的对接每种厂商、型号的传感器。在其数据没有统一规范的当今环境下,采用传统数据接入的方式工作量非常大,并且在设备更新、数据格式更新后,难以界定变化,需要重新开发或升级对应的接入程序。
发明内容
有鉴于此,本申请的目的在于至少提供一种数据处理方法及装置,通过使用预设特征码对接入的待处理报文数据进行识别,以获取该待处理报文数据对应的清洗策略,以解决不同传感器报文数据统一处理的问题,以提高数据清洗效率。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种数据处理方法,数据处理方法包括:接收待处理报文数据,待处理报文数据包括待处理报文头和待处理报文内容;获取多个预设特征码,每个预设特征码包括报文头特征码和报文内容特征码,报文头特征码表示报文数据的报文头格式规范,报文内容特征码表示报文数据的报文内容格式规范;针对每个预设特征码,根据报文头特征码对应的识别方式对待处理报文头进行解析,获取第一解析结果,将第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若第一解析结果与报文头预设字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码;对待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对,针对每个第一候选预设特征码,判断键值对的数量与该第一候选预设特征码中的报文内容特征码对应的预设键值对的数量是否相等,若键值对的数量与预设键值对的数量相等,将该第一候选预设特征码确定为第二候选预设特征码;针对每个第二候选预设特征码,将待处理报文内容对应的多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对进行匹配,若多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对之间的匹配结果一致,则将该第二候选预设特征码确定为目标预设特征码;根据多个预设特征码与多个报文清洗策略之间的映射关系,确定目标预设特征码对应的目标报文清洗策略;使用目标报文清洗策略对待处理报文数据进行数据清洗,并获取清洗后的标准报文数据。
在一种可能的实施方式中,待处理报文数据由目标传感器按照目标预设特征码封装后形成。
在一种可能的实施方式中,第一解析结果包括以下项中至少一项:报文协议信息、特殊字段信息;通过以下方式获得每个预设特征码对应的第一解析结果:根据该预设特征码中的报文头特征码所对应的识别方式,识别待处理报文头中的第一指定位置的内容,获得报文协议信息,和/或,根据该预设特征码中的报文头特征码所对应的识别方式,识别第一报文头中的第二指定位置的内容,获得特殊字段信息。
在一种可能的实施方式中,在一种可能的实施方式中,每个报文头预设字段包括以下项中至少一项:预设报文协议字段和预设特殊字段;其中,针对每个预设特征码,通过以下方式确定第一候选预设特征码:将报文协议信息与该预设特征码对应的预设报文协议字段进行匹配,或,将特殊字段信息与该预设特征码对应的预设特殊字段进行匹配;若报文协议信息与该预设特征码对应的预设报文协议字段之间匹配结果一致,则将该预设特征码确定为第一候选预设特征码,或,若特殊字段信息与该预设特征码对应的预设特殊字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码。
在一种可能的实施方式中,对待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对的步骤包括:识别待处理报文内容的报文格式,根据报文格式对待处理报文内容进行数据分割,以获取待处理报文内容对应的多个键值对;或,识别待处理报文内容中的分割方式关键字,根据分割方式关键字所指示的分割方式,对待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对;或,根据第一候选预设特征码中的报文内容特征码对应的固定分割方式对待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对。
在一种可能的实施方式中,每个键值对包括关键字和与关键字对应的数据值,每个预设键值对包括预设关键字特征码和预设数据值特征码;其中,针对每个第二候选预设特征码,通过以下方式确定为目标预设特征码:针对该第二候选预设特征码中的每个预设键值对,将待处理报文内容对应的键值对中的关键字与该预设键值对中的预设关键字特征码进行匹配;若关键字与预设关键字特征码之间的匹配结果一致,则将该键值对中的数据值与该预设键值对中的预设数据值特征码进行匹配;若该键值对中的数据值与该预设键值对中的预设数据值特征码之间的匹配结果一致,则将该第二候选预设特征码确定为目标预设特征码。
在一种可能的实施方式中,每个报文清洗策略包括数据筛选策略和标准数据转换策略;使用目标报文清洗策略对待处理报文数据进行数据清洗,并获取清洗后的目标报文数据的步骤包括:使用目标报文清洗策略中的数据筛选策略,获取待处理报文内容对应的多个键值对中的关键数据内容;使用标准数据转换策略,将关键数据内容转换为标准格式的数据内容,获取清洗后的标准报文数据。
在一种可能的实施方式中,方法还包括:若待处理报文数据未匹配到目标预设特征码,则将待处理报文数据添加无法解析数据标识,并存入特征码创建工厂,以完成对待处理报文数据的新特征码的创建。
第二方面,本申请实施例还提供一种数据处理装置,数据处理装置包括:接收模块,用于接收待处理报文数据,待处理报文数据包括待处理报文头和待处理报文内容;获取模块,用于获取多个预设特征码,每个预设特征码包括报文头特征码和报文内容特征码,报文头特征码表示报文数据的报文头格式规范,报文内容特征码表示报文数据的报文内容格式规范;第一确定模块,用于针对每个预设特征码,根据报文头特征码对应的识别方式对待处理报文头进行解析,获取第一解析结果,将第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若第一解析结果与报文头预设字段之间的匹配结果一致,将该预设特征码确定为第一候选预设特征码;第二确定模块,用于对待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对,针对每个第一候选预设特征码,判断键值对的数量与该第一候选预设特征码中的报文内容特征码对应的预设键值对的数量是否相等,若键值对的数量与预设键值对的数量相等,将该第一候选预设特征码确定为第二候选预设特征码;第三确定模块,用于针对每个第二候选预设特征码,将待处理报文内容对应的多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对进行匹配,若多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对之间的匹配结果一致,将该第二候选预设特征码确定为目标预设特征码;第四确定模块,用于根据多个预设特征码与多个报文清洗策略之间的映射关系,确定目标预设特征码对应的目标报文清洗策略;清洗模块,用于使用目标报文清洗策略对待处理报文数据进行数据清洗,并获取清洗后的标准报文数据。
在一种可能的实施方式中,第一解析结果包括以下项中至少一项:报文协议信息、特殊字段信息,每个报文头预设字段包括以下项中至少一项:预设报文协议字段和预设特殊字段;第一确定模块还用于:针对每个预设特征码,第一确定模块还用于:将报文协议信息与该预设特征码对应的预设报文协议字段进行匹配,或,将特殊字段信息与该预设特征码对应的预设特殊字段进行匹配;若报文协议信息与该预设特征码对应的预设报文协议字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码,或,若特殊字段信息与该预设特征码对应的预设特殊字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码。
本申请实施例提供的数据处理的方法及装置,包括:接收待处理报文数据;将第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若匹配结果一致,将该预设特征码确定为第一候选预设特征码;判断键值对的数量与第一候选预设特征码中的对应的预设键值对的数量是否相等,若相等,将该第一候选预设特征码确定为第二候选预设特征码;将多个键值对与该第二候选预设特征码中的报文头特征码对应的多个预设键值对进行匹配,若匹配结果一致,将该第二候选预设特征码确定为目标预设特征码;确定目标预设特征码对应的目标报文清洗策略。使用预设特征码对接入的待处理报文数据进行识别,获取对应的清洗策略,以提高数据清洗效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据处理方法的流程图;
图2示出了本申请实施例所提供的确定第一候选预设特征码的流程图一;
图3示出了本申请实施例所提供的确定第一候选预设特征码的流程图二;
图4示出了本申请实施例提供的一种数据处理装置的结构示意图;
图5示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
传感器报文数据接入SaaS系统由于可选取的设备厂商、型号等信息不固定,需要针对不同厂商、不同型号的设备进行专业定制。
基于此,本申请实施例提供了一种数据处理方法及装置,使用预设特征码对接入的待处理报文数据进行识别,获取对应的清洗策略,以提高数据清洗效率,具体如下:
请参阅图1,图1示出了本申请实施例所提供的一种数据处理方法的流程图。如图1所示,本申请实施例提供的数据处理方法,包括以下步骤:
S101、接收待处理报文数据。
在具体实施中,待处理报文数据包括待处理报文头和待处理报文内容,待处理报文数据由目标传感器按照目标预设特征码封装后形成。
在一优选实施例中,预先设置有传感器种类字典,传感器种类字典中包括不同类型的传感器以及对应的传感器进行数据传输时的预设特征码之间的映射关系,预设特征码为不同企业针对不同型号的传感器设备建立的报文数据传输规范,不同企业的传感器可以通过网络将数据发送到SAAS系统,以实现数据的统一管理,具体的,传感器将产生的数据封装为该传感器的预设特征码所指示的格式的待处理报文数据后通过网络发送到SAAS系统进行进一步处理。
S102、获取多个预设特征码。
每个预设特征码包括报文头特征码和报文内容特征码。
在具体实施中,每个在传感器种类字典进行注册后的传感器都有其对应的预设特征码,从传感器种类字典中获取多个预设特征码形成第一预设特征码集合,每个预设特征码包括报文头特征码和报文内容特征码,报文头特征码表示报文数据的报文头格式规范,报文内容特征码表示报文数据的报文内容格式规范,其中,报文头特征码用于对发送待处理报文数据的目标传感器种类进行初步识别,报文内容特征码用于从初步识别出的传感器种类中,确定目标传感器的种类机器对应的目标预设特征码。
S103、针对每个预设特征码,根据报文头特征码对应的识别方式对所述待处理报文头进行解析,获取第一解析结果。
在一优选实施例中,第一解析结果包括但不限于以下项中至少一项:报文协议信息、特殊字段信息,其中,可以通过以下方式获得每个预设特征码对应的第一解析结果:
根据该预设特征码中的报文头特征码所对应的识别方式,识别待处理报文头中的第一指定位置的内容,获得报文协议信息。
在一优选实施例中,每个报文头特征码包括报文头预设字段,报文头预设字段包括但不限于以下项中至少一项:预设报文协议字段和预设特殊字段,报文头预设字段根据其内容的不同,包括至少一个识别方式,具体的,可以根据报文头预设字段中的预设报文协议字段所对应的识别方式,识别待处理报文头中的第一指定位置的内容,以获得报文协议信息。
和/或,根据该预设特征码中的报文头特征码所对应的识别方式,识别第一报文头中的第二指定位置的内容,获得特殊字段信息。
在一优选实施例中,可以根据报文头预设字段中的预设特殊字段所对应的识别方式,识别待处理报文头中的第二指定位置的内容,以获得报文协议信息,其中,预设特殊字段可以为预设厂商编码字段或厂商关键字符字段,例如,某厂商传感器规定预设特征码中的报文头特征码中指示第4至6个字节数据为101101001101000100001111,表示其厂商编码,则可通过该预设特征码中的报文头特征码提取待处理报文数据中的第4至6个字节数据的内容,另外,还可以通过预设特征码中的报文头特征码指示的识别方式,识别待处理报文头中包含的关键字字符字段,关键字字符字段可以为报文头特征码中指示的与厂商有关的关键字字符,例如“company”“vendor”等。
S104、将第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若第一解析结果与报文头预设字段之间的匹配结果一致,将该预设特征码确定为第一候选预设特征码。
在一优选实施例中,请参阅图2,图2示出了本申请实施例所提供的确定第一候选预设特征码的流程图一,如图2所示,针对每个预设特征码,可以通过以下方式确定第一候选预设特征码:
S1041、将报文协议信息与该预设特征码对应的预设报文协议字段进行匹配。
S1042、若报文协议信息与该预设特征码对应的预设报文协议字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码。
S1043、若报文协议信息与该预设特征码对应的预设报文协议字段之间的匹配结果不一致,则不对该预设特征码进行处理。
请参阅图3,图3示出了本申请实施例所提供的确定第一候选预设特征码的流程图二,如图3所示,针对每个预设特征码,还可以通过以下方式确定第一候选预设特征码:
S1044、将特殊字段信息与该预设特征码对应的预设特殊字段进行匹配。
S1045、若报文协议信息与该预设特征码对应的预设特殊字段之间的匹配结果一致,将该预设特征码确定为第一候选预设特征码。
S1046、若报文协议信息与该预设特征码对应的预设特殊字段之间的匹配结果不一致,则不对该预设特征码进行处理。
针对每个预设特征码,还可以通过以下方式确定第一候选预设特征码:
将报文协议信息与该预设特征码对应的预设报文协议字段进行匹配,若报文协议信息与该预设特征码对应的预设报文协议字段之间的匹配结果一致,则将特殊字段信息与该预设特征码对应的预设特殊字段进行匹配,若报文协议信息与该预设特征码对应的预设报文协议字段之间的匹配结果不一致,则不对该预设特征码进行处理。
若报文协议信息与该预设特征码对应的预设特殊字段之间的匹配结果一致,将该预设特征码确定为第一候选预设特征码,若报文协议信息与该预设特征码对应的预设特殊字段之间的匹配结果不一致,则不对该预设特征码进行处理。
根据获取到的多个第一候选预设特征码,形成第一候选特征码集合。
返回图1,S105、对待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对。
在一具体实施例中,对待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对的步骤包括:
识别待处理报文内容的报文格式,根据报文格式对待处理报文内容进行数据分割,以获取待处理报文内容对应的多个键值对;
在一具体实施例中,可以直接识别待处理报文内容的报文格式,例如,XML与JSON格式,根据待处理报文内容对应的报文格式的不同,使用不同的分割方式将待处理报文内容分割成对应的多个键值对,每个键值对包括关键字和与所述关键字对应的数据值。
或,识别待处理报文内容中分割方式关键字,根据分割方式关键字所指示的分割方式,对待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对。
在一具体实施例中,待处理报文内容中可能包含对应的分割方式,通过识别,待处理报文内容中指示分割方式的分割方式关键字,可以确定该待处理报文内容的分割方式,使用待处理报文内容中对应的分割方式对待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对。
或,根据第一候选预设特征码中的报文内容特征码对应的固定分割方式对待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对。
在一具体实施例中,通过第一候选预设特征码中的报文内容特征码中还可包括待处理报文内容的分割方式,使用该第一候选预设特征码中的报文内容特征码对应的固定分割方式对待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对。
S106、针对每个第一候选预设特征码,判断键值对的数量与该第一候选预设特征码中的报文内容特征码对应的预设键值对的数量是否相等,若键值对的数量与预设键值对的数量相等,则将该第一候选预设特征码确定为第二候选预设特征码。
在一具体实施例中,若获取到的待处理报文内容对应的多个键值对的数量与第一候选预设特征码中的报文内容特征码对应的预设键值对的数量相等,表示该待处理报文内容使用第一候选预设特征码中的报文内容特征码,可以提取与该第一候选预设特征码中的报文内容特征码相同数量的键值对,说明此时第一候选预设特征码中的报文内容特征码能够较完整的提取待处理报文内容,将该第一候选预设特征码确定为第二候选预设特征码,同时,若获取到的待处理报文内容对应的多个键值对的数量与第一候选预设特征码中的报文内容特征码对应的预设键值对的数量不相等,将该第一候选预设特征码从第一候选预设特征码集合中删除,并形成第二候选预设特征码集合。
S107、针对每个第二候选预设特征码,将待处理报文内容对应的多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对进行匹配,若多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对之间的匹配结果一致,则将该第二候选预设特征码确定为目标预设特征码。
在一具体实施例中,针对每个第二候选预设特征码,通过以下方式确定目标预设特征码:
针对该第二候选预设特征码和每个键值对,将待处理报文内容对应的键值对中的关键字与该预设键值对中的预设关键字特征码进行匹配;若关键字与预设关键字特征码之间的匹配结果一致,则将该键值对中的数据值与该预设键值对中的预设数据值特征码进行匹配,若该键值对中的所述数据值与该预设键值对中的预设数据值特征码之间的匹配结果一致,则将该第二候选预设特征码确定为目标预设特征码。
在一优选实施例中,针对每个第二候选预设特征码和每个键值对,可以通过识别该键值对中的关键字,将识别到的关键字与预设键值对中的预设关键字特征码进行对比,确定键值对中是否包含该第二候选预设特征码中对应的预设关键字特征码,具体的,预设键值对中的预设关键字特征码包括但不限于以下项中至少一项:传感器数据单位特征码和传感器数据专有特征码,传感器数据单位特征码可以为温度单位特征码、速度单位特征码、力学单位特征码等,其中,传感器数据专有特征码为同一种类传感器的专有特征码,例如振弦特征码,即为裂缝传感器的专有特征码。
在一具体实施例中,可以识别每个键值对中的关键字,将识别到的关键字与第二候选预设特征码中的预设键值对中的预设关键字特征码进行匹配,若识别到的关键字与第二候选预设特征码中的预设键值对中的预设关键字特征码之间匹配结果不一致,即该键值对中的关键字不是第二候选预设特征码中的预设关键字特征码,则说明该第二候选预设特征码不是发送待处理报文数据的目标传感器对应的目标特征码,将该第二候选预设特征码从第二候选预设特征码集合中删除。
若识别到的关键字与第二候选预设特征码中的预设键值对中的预设关键字特征码之间匹配结果一致,即该键值对中的关键字在第二候选预设特征码存在对应的预设关键字特征码,则进一步匹配该键值对中的数据值与第二候选预设特征码中的预设键值对中的预设数据值特征码。
若该键值对中的数据值与第二候选预设特征码中的预设键值对中的预设数据值特征码之间的匹配结果一致,则说明在第二候选预设特征码中存在与该键值对对应的一个预设键值对,进一步判断在第二候选预设特征码中是否存在与其它键值对中的每个对应的预设键值对,若存在,则说明该第二候选预设特征码确定为目标预设特征码,若不存在,则说明该第二候选预设特征码不是发送待处理报文数据的目标传感器对应的目标特征码,将该第二候选预设特征码从第二候选预设特征码集合中删除。
S108、根据多个预设特征码与多个报文清洗策略之间的映射关系,确定目标预设特征码对应的目标报文清洗策略。
使用目标报文清洗策略对待处理报文数据进行数据清洗,并获取清洗后的目标报文数据的步骤包括:
使用目标报文清洗策略中的数据筛选策略,获取待处理报文内容对应的多个键值对中的关键数据内容,使用标准数据转换策略,将关键数据内容转换为标准格式的数据内容,获取清洗后的标准报文数据。
在一具体实施例中,每个预设特征码均对应一个报文清洗策略,获取到目标预设特征码后,根据多个预设特征码与多个报文清洗策略之间的映射关系,确定目标预设特征码对应的目标报文清洗策略,具体的,每个报文清洗策略包括数据筛选策略和标准数据转换策略。
在一具体实施例中,根据数据筛选策略,获取待处理报文内容对应的多个键值对中的关键数据内容,即通过对待处理报文数据中的待处理报文内容中的多个键值对使用进行正则表达式过滤,再通过决策树算法对多个键值对进行数据筛选,获取多个键值对中的关键数据内容,然后使用标准数据转换策略将获取到的关键数据内容转换为数据转换策略对应的标准格式的数据,以此获取目标报文数据。
在一具体实施例中,数据处理方法还包括:
若待处理报文数据未匹配到目标预设特征码,则将待处理报文数据添加无法解析数据标识,并存入特征码创建工厂,以完成对所述待处理报文数据的新特征码的创建。
在一具体实施例中,待处理报文数据未匹配到目标预设特征码,说明传感器字典中不存在发送该待处理报文数据的目标传感器类型,即不存在目标传感器对应的特征码,需要根据获取到的待处理报文数据建立该目标传感器类型对应的目标特征码并存储到传感器字典中。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供的数据处理方法对应的数据处理装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4,图4为本申请实施例提供的一种数据处理装置的结构示意图,如图4所示,数据处理装置包括:
接收模块200,用于接收待处理报文数据,待处理报文数据包括待处理报文头和待处理报文内容;
获取模块300,用于获取多个预设特征码,每个预设特征码包括报文头特征码和报文内容特征码,报文头特征码表示报文数据的报文头格式规范,报文内容特征码表示报文数据的报文内容格式规范;
第一确定模块400,用于针对每个预设特征码,根据报文头特征码对应的识别方式对待处理报文头进行解析,获取第一解析结果,将第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若第一解析结果与报文头预设字段之间的匹配结果一致,将该预设特征码确定为第一候选预设特征码;
第二确定模块500,用于对待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对,判断键值对的数量与第一候选预设特征码中的报文内容特征码对应的预设键值对的数量是否相等,若键值对的数量与预设键值对的数量相等,将该第一候选预设特征码确定为第二候选预设特征码;
第三确定模块600,用于针对每个第二候选预设特征码,将多个键值对与该第二候选预设特征码中的报文头特征码对应的多个预设键值对进行匹配,若多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对之间的匹配结果一致,将该第二候选预设特征码确定为目标预设特征码;
第四确定模块700,用于根据多个预设特征码与多个报文清洗策略之间的映射关系,确定目标预设特征码对应的目标报文清洗策略;
清洗模块800,用于使用目标报文清洗策略对待处理报文数据进行数据清洗,并获取清洗后的标准报文数据。
可选地,针对每个预设特征码,第一确定模块400还用于:
将报文协议信息与该预设特征码对应的预设报文协议字段进行匹配,或,将特殊字段信息与预设特殊字段进行匹配;若报文协议信息与该预设特征码对应的预设报文协议字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码,或,若特殊字段信息与该预设特征码对应的预设特殊字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码。
基于同一申请构思,请参阅图5,图5示出了本申请实施例提供的一种电子设备的结构示意图,如图5所示,为本申请实施例提供的一种电子设备900的结构示意图,包括:处理器910、存储器920和总线930,所述存储器920存储有所述处理器910可执行的机器可读指令,当电子设备900运行时,所述处理器910与所述存储器920之间通过所述总线930进行通信,所述机器可读指令被所述处理器910运行时执行如上述实施例中任一所述的数据处理方法的步骤。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的数据处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述数据处理方法包括:
接收待处理报文数据,所述待处理报文数据包括待处理报文头和待处理报文内容;
获取多个预设特征码,每个预设特征码包括报文头特征码和报文内容特征码,所述报文头特征码表示报文数据的报文头格式规范,所述报文内容特征码表示报文数据的报文内容格式规范;
针对每个预设特征码,根据报文头特征码对应的识别方式对所述待处理报文头进行解析,获取第一解析结果,将所述第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若所述第一解析结果与所述报文头预设字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码;
对所述待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对,针对每个第一候选预设特征码,判断所述键值对的数量与该第一候选预设特征码中的报文内容特征码对应的预设键值对的数量是否相等,若所述键值对的数量与所述预设键值对的数量相等,将该第一候选预设特征码确定为第二候选预设特征码;
针对每个第二候选预设特征码,将待处理报文内容对应的多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对进行匹配,若所述多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对之间的匹配结果一致,则将该第二候选预设特征码确定为目标预设特征码;
根据多个预设特征码与多个报文清洗策略之间的映射关系,确定目标预设特征码对应的目标报文清洗策略;
使用所述目标报文清洗策略对所述待处理报文数据进行数据清洗,并获取清洗后的标准报文数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述待处理报文数据由目标传感器按照所述目标预设特征码封装后形成。
3.根据权利要求1所述的数据处理方法,其特征在于,所述第一解析结果包括以下项中至少一项:报文协议信息、特殊字段信息;
通过以下方式获得每个预设特征码对应的第一解析结果:
根据该预设特征码中的报文头特征码所对应的识别方式,识别所述待处理报文头中的第一指定位置的内容,获得报文协议信息,
和/或,根据该预设特征码中的报文头特征码所对应的识别方式,识别第一报文头中的第二指定位置的内容,获得特殊字段信息。
4.根据权利要求3所述的数据处理方法,其特征在于,每个报文头预设字段包括以下项中至少一项:预设报文协议字段和预设特殊字段;
其中,针对每个预设特征码,通过以下方式确定第一候选预设特征码:
将所述报文协议信息与该预设特征码对应的所述预设报文协议字段进行匹配,或,将所述特殊字段信息与该预设特征码对应的所述预设特殊字段进行匹配;
若所述报文协议信息与该预设特征码对应的所述预设报文协议字段之间的匹配结果一致匹配结果一致,则将该预设特征码确定为第一候选预设特征码,
或,若所述特殊字段信息与该预设特征码对应的所述预设特殊字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码。
5.根据权利要求1所述的数据处理方法,其特征在于,对所述待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对的步骤包括:
识别待处理报文内容的报文格式,根据所述报文格式对所述待处理报文内容进行数据分割,以获取待处理报文内容对应的多个键值对;
或,识别所述待处理报文内容中的分割方式关键字,根据所述分割方式关键字所指示的分割方式,对所述待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对;
或,根据第一候选预设特征码中的报文内容特征码对应的固定分割方式对所述待处理报文内容进行数据分割,以获得待处理报文内容对应的多个键值对。
6.根据权利要求5所述的数据处理方法,其特征在于,每个键值对包括关键字和与所述关键字对应的数据值,
每个键值对包括关键字和与所述关键字对应的数据值,每个预设键值对包括预设关键字特征码和预设数据值特征码,
其中,针对每个第二候选预设特征码,通过以下方式确定目标预设特征码:
针对该第二候选预设特征码中的每个预设键值对,将待处理报文内容对应的键值对中的关键字与该预设键值对中的预设关键字特征码进行匹配;
若所述关键字与所述预设关键字特征码之间的匹配结果一致,则将该键值对中的所述数据值与该预设键值对中的预设数据值特征码进行匹配;
若该键值对中的所述数据值与该预设键值对中的预设数据值特征码之间的匹配结果一致,则将该第二候选预设特征码确定为目标预设特征码。
7.根据权利要求1所述的数据处理方法,其特征在于,每个报文清洗策略包括数据筛选策略和标准数据转换策略;
使用所述目标报文清洗策略对所述待处理报文数据进行数据清洗,并获取清洗后的目标报文数据的步骤包括:
使用所述目标报文清洗策略中的数据筛选策略,获取所述待处理报文内容对应的多个键值对中的关键数据内容;
使用所述标准数据转换策略,将所述关键数据内容转换为标准格式的数据内容,获取清洗后的标准报文数据。
8.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
若待处理报文数据未匹配到所述目标预设特征码,则将所述待处理报文数据添加无法解析数据标识,并存入特征码创建工厂,以完成对所述待处理报文数据的新特征码的创建。
9.一种数据处理装置,其特征在于,所述数据处理装置包括:
接收模块,用于接收待处理报文数据,所述待处理报文数据包括待处理报文头和待处理报文内容;
获取模块,用于获取多个预设特征码,每个预设特征码包括报文头特征码和报文内容特征码,所述报文头特征码表示报文数据的报文头格式规范,所述报文内容特征码表示报文数据的报文内容格式规范;
第一确定模块,用于针对每个预设特征码,根据报文头特征码对应的识别方式对所述待处理报文头进行解析,获取第一解析结果,将所述第一解析结果与报文头特征码对应的报文头预设字段进行匹配,若所述第一解析结果与所述报文头预设字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码;
第二确定模块,用于对所述待处理报文内容进行数据分割,获取待处理报文内容对应的多个键值对,针对每个第一候选预设特征码,判断所述键值对的数量与该第一候选预设特征码中的报文内容特征码对应的预设键值对的数量是否相等,若所述键值对的数量与所述预设键值对的数量相等,将该第一候选预设特征码确定为第二候选预设特征码;
第三确定模块,用于针对每个第二候选预设特征码,将待处理报文内容对应的多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对进行匹配,若所述多个键值对与该第二候选预设特征码中的报文内容特征码对应的多个预设键值对之间的匹配结果一致,则将该第二候选预设特征码确定为目标预设特征码;
第四确定模块,用于根据多个预设特征码与多个报文清洗策略之间的映射关系,确定目标预设特征码对应的目标报文清洗策略;
清洗模块,用于使用所述目标报文清洗策略对所述待处理报文数据进行数据清洗,并获取清洗后的标准报文数据。
10.根据权利要求9所述的数据处理装置,其特征在于,所述第一解析结果包括以下项中至少一项:报文协议信息、特殊字段信息,
每个报文头预设字段包括以下项中至少一项:预设报文协议字段和预设特殊字段;
针对每个预设特征码,所述第一确定模块还用于:
将所述报文协议信息与该预设特征码对应的所述预设报文协议字段进行匹配,或,将所述特殊字段信息与该预设特征码对应的所述预设特殊字段进行匹配;
若所述报文协议信息与该预设特征码对应的所述预设报文协议字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码,
或,若所述特殊字段信息与该预设特征码对应的所述预设特殊字段之间的匹配结果一致,则将该预设特征码确定为第一候选预设特征码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210919399.8A CN115002243B (zh) | 2022-08-02 | 2022-08-02 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210919399.8A CN115002243B (zh) | 2022-08-02 | 2022-08-02 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115002243A CN115002243A (zh) | 2022-09-02 |
CN115002243B true CN115002243B (zh) | 2022-11-01 |
Family
ID=83022216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210919399.8A Active CN115002243B (zh) | 2022-08-02 | 2022-08-02 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115002243B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117040945B (zh) * | 2023-10-10 | 2024-02-02 | 深圳安天网络安全技术有限公司 | 一种电子设备防护策略的确定方法、装置、介质及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229662A (zh) * | 2016-03-25 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN107592306A (zh) * | 2017-09-08 | 2018-01-16 | 四川省绵阳太古软件有限公司 | 基于物联网环境大数据的信息安全监测管理方法及系统 |
CN108270783A (zh) * | 2018-01-15 | 2018-07-10 | 新华三信息安全技术有限公司 | 一种数据处理方法及装置 |
CN110866037A (zh) * | 2019-11-19 | 2020-03-06 | 中国民航信息网络股份有限公司 | 一种报文的过滤方法及装置 |
WO2021004536A1 (zh) * | 2019-07-10 | 2021-01-14 | 深圳市中兴微电子技术有限公司 | 报文解析方法和装置 |
CN114020715A (zh) * | 2021-10-29 | 2022-02-08 | 平安科技(深圳)有限公司 | 一种日志数据的处理方法、装置、介质及设备 |
CN114338851A (zh) * | 2021-12-29 | 2022-04-12 | 武汉绿色网络信息服务有限责任公司 | 一种基于隧道报文的匹配方法和装置 |
WO2022127259A1 (zh) * | 2020-12-16 | 2022-06-23 | 北京锐安科技有限公司 | 数据清洗方法、装置、设备及存储介质 |
CN114697160A (zh) * | 2020-12-28 | 2022-07-01 | 国家计算机网络与信息安全管理中心 | 一种隧道报文的处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11159486B2 (en) * | 2015-11-17 | 2021-10-26 | Zscaler, Inc. | Stream scanner for identifying signature matches |
-
2022
- 2022-08-02 CN CN202210919399.8A patent/CN115002243B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229662A (zh) * | 2016-03-25 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN107592306A (zh) * | 2017-09-08 | 2018-01-16 | 四川省绵阳太古软件有限公司 | 基于物联网环境大数据的信息安全监测管理方法及系统 |
CN108270783A (zh) * | 2018-01-15 | 2018-07-10 | 新华三信息安全技术有限公司 | 一种数据处理方法及装置 |
WO2021004536A1 (zh) * | 2019-07-10 | 2021-01-14 | 深圳市中兴微电子技术有限公司 | 报文解析方法和装置 |
CN110866037A (zh) * | 2019-11-19 | 2020-03-06 | 中国民航信息网络股份有限公司 | 一种报文的过滤方法及装置 |
WO2022127259A1 (zh) * | 2020-12-16 | 2022-06-23 | 北京锐安科技有限公司 | 数据清洗方法、装置、设备及存储介质 |
CN114697160A (zh) * | 2020-12-28 | 2022-07-01 | 国家计算机网络与信息安全管理中心 | 一种隧道报文的处理方法和装置 |
CN114020715A (zh) * | 2021-10-29 | 2022-02-08 | 平安科技(深圳)有限公司 | 一种日志数据的处理方法、装置、介质及设备 |
CN114338851A (zh) * | 2021-12-29 | 2022-04-12 | 武汉绿色网络信息服务有限责任公司 | 一种基于隧道报文的匹配方法和装置 |
Non-Patent Citations (3)
Title |
---|
Data Cleaning – A thorough analysis and survey on;Virender Kumar 等;《: 2018 8th International Conference on Cloud Computing, Data Science & Engineering (Confluence)》;20180823;305-309 * |
信息交换报文动态解析器的设计与实现;樊燕红等;《信息技术与信息化》;20131015(第05期);104-107 * |
水利云下的数据清洗策略研究与实现;王海沛等;《计算机软件及计算机应用》;20161230;89-93 * |
Also Published As
Publication number | Publication date |
---|---|
CN115002243A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112235326B (zh) | 物联网设备数据的解析方法、装置和电子设备 | |
CN106484611B (zh) | 基于自动化协议适配的模糊测试方法和装置 | |
EP3905084A1 (en) | Method and device for detecting malware | |
CN111371651A (zh) | 一种工业通讯协议逆向分析方法 | |
CN115002243B (zh) | 一种数据处理方法及装置 | |
KR20150083627A (ko) | 액티비티 문자열 분석에 의한 안드로이드 악성코드 검출 방법 | |
CN110928934A (zh) | 一种用于业务分析的数据处理方法和装置 | |
CN108228664B (zh) | 非结构化数据处理方法及装置 | |
WO2013152729A1 (zh) | 用于向终端设备提供软件的方法及装置 | |
CN107562485B (zh) | 一种自动采集补丁数据的方法及装置 | |
CN111464515A (zh) | 一种数据转换方法、装置、设备及存储介质 | |
CN114116426A (zh) | 基于微服务的跟踪日志生成方法、装置、设备及介质 | |
CN107360062B (zh) | Dpi设备识别结果的验证方法、系统及dpi设备 | |
CN116383742B (zh) | 基于特征分类的规则链设置处理方法、系统及介质 | |
CN112883088B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN115865525B (zh) | 日志数据处理方法、装置、电子设备和存储介质 | |
CN110727565B (zh) | 一种网络设备平台信息收集方法及系统 | |
CN116204428A (zh) | 一种测试用例生成方法和装置 | |
CN112699000A (zh) | 数据处理方法、装置、可读存储介质和电子设备 | |
CN110503504B (zh) | 网络产品的信息识别方法、装置及设备 | |
CN109391626B (zh) | 一种判定网络攻击结果未遂的方法和相关装置 | |
CN112511643A (zh) | 一种报文数据提取方法及装置 | |
CN112181816A (zh) | 一种基于场景的接口测试方法、装置、计算机设备及介质 | |
JP6048555B1 (ja) | 分類情報作成装置、分類情報作成方法、分類情報作成プログラム、検索装置、検索方法、及び、検索プログラム | |
CN115718696B (zh) | 源码密码学误用检测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |