CN115033451A - 数据生成方法、数据处理方法、装置、电子设备及介质 - Google Patents

数据生成方法、数据处理方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115033451A
CN115033451A CN202210655639.8A CN202210655639A CN115033451A CN 115033451 A CN115033451 A CN 115033451A CN 202210655639 A CN202210655639 A CN 202210655639A CN 115033451 A CN115033451 A CN 115033451A
Authority
CN
China
Prior art keywords
data
standard
unified
name
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210655639.8A
Other languages
English (en)
Inventor
刘畅
罗欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd, Secworld Information Technology Beijing Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN202210655639.8A priority Critical patent/CN115033451A/zh
Publication of CN115033451A publication Critical patent/CN115033451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3086Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves the use of self describing data formats, i.e. metadata, markup languages, human readable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种数据生成方法、数据处理方法、装置、电子设备及介质,涉及网络安全领域。数据生成方法包括:响应于数据生成指令,生成目标数据,其中,所述目标数据中的标准数据项满足预设的标准词库的要求;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。这样,由于各系统生成的数据都是具有标准数据项的目标数据,从而系统间在进行数据交互时,可以减少数据项含义确认的工作量,可以有效减少数据间的格式转换工作量,甚至可以不进行格式转换,从而提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享,利于项目的新建或扩展,从而加速网络安全行业的发展。

Description

数据生成方法、数据处理方法、装置、电子设备及介质
技术领域
本申请涉及网络安全领域,具体而言,涉及一种数据生成方法、数据处理方法、装置、电子设备及介质。
背景技术
目前,在网络安全领域,不同的系统之间往往具有各自独立的数据标准,从而导致在进行数据交互时,需要进行大量的字段含义确认、字段码值确认等工作。例如,防火墙在与服务器安全防护软件进行数据交换时,由于双方具有不同的数据标准,导致需要耗费大量时间进行数据项含义确认、数据项码值确认等工作。该技术现状导致行业内不同系统之间的数据使用效率低,数据使用成本高,不利于数据之间的交互共享,也不利于项目的新建或扩展,从而严重阻碍了网络安全行业的发展。
发明内容
本申请实施例的目的在于提供一种数据生成方法、数据处理方法、装置、电子设备及介质,用以解决上述问题。
本申请实施例提供了一种数据生成方法,包括:响应于数据生成指令,生成目标数据,其中,所述目标数据中的标准数据项满足预设的标准词库的要求;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
通过上述实现过程,生成的目标数据具有标准数据项,可以在命名规则、定义、参照标准和口径中上统一,从而可以保证生成的数据之间可以具有良好的可交互性。从而只需要在各系统之间均采用上述实现过程,即可使得各系统之间所生成的数据能够具有标准数据项,从而可以在命名规则、定义、参照标准和口径上实现统一,进而相比于现有技术而言,由于各系统生成的数据都是具有标准数据项的目标数据,从而系统间在进行数据交互时,可以减少数据项含义确认的工作量,可以有效减少数据间的格式转换工作量,甚至可以不进行格式转换,从而提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享,利于项目的新建或扩展,从而加速网络安全行业的发展。
进一步地,所述命名规则统一,包括:各标准数据项在同一语种中采用相同的名称命名规则;具有相同业务含义的标准数据项具有相同的名称;
所述定义统一,包括:同一标准数据项的业务含义和应用的业务场景前后保持一致;
所述参照标准统一,包括:各标准数据项所参照的标准相同,所述标准包括:国际标准、国家标准、行业标准、内部业务制度和业务规范中的至少一种;
所述口径统一,包括:同一标准数据项的业务取值范围、计算方式、编码规则和存储格式相同。
通过上述实现方式,可以有效保证所生成的各目标数据之间,所具有的相同的标准数据项,在名称、业务含义、应用的业务场景、所参照的标准、业务取值范围、计算方式、编码规则和存储格式是统一的,从而可以提高目标数据之间的可交互性,提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享。
进一步地,所述标准数据项的名称包括:中文名称、英文名称、英文简称中的至少之一。
应理解,目前大多数系统所兼容的数据项名称格式包括中文、英文和英文简称,因此通过上述实现过程,可以保证本申请实施例的方法与大多数系统的兼容性,便于方案的应用与推广。
进一步地,所述目标数据的各标准数据项中,还具有标准信息描述代码;
所述标准信息描述代码用于描述所述目标数据的状态;
所述标准信息描述代码根据预设的标准代码词典制定;
其中,用于描述同一状态的标准信息描述代码唯一。
在实际应用中,存在用于进行目标数据的状态描述的代码,例如通过代码0或1来表征目标数据属于白名单内的数据或不属于白名单内的数据;又例如,通过代码1或2或3,分别表征目标数据属于攻击链的发现阶段,或属于攻击链的处理阶段,或属于攻击链的处理完成阶段。为此,通过上述实现方式,可以实现各目标数据的标准信息描述代码的统一,进一步提高数据之间的可交互性,降低数据使用成本。
进一步地,所述标准信息描述代码通过数字、字母、下划线中的至少一种编码得到。
在上述实现过程中,由于数字、字母、下划线属于大多数系统均可识别的字符类型,从而通过数字、字母、下划线中的至少一种编码得到标准信息描述代码,可以保证本申请实施例的方法与大多数系统的兼容性,便于方案的应用与推广。
进一步地,所述标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征。
在上述实现过程中,通过限制标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征,其中,标准信息描述代码的首位所采用字符的字符类型为构成标准信息描述代码的字符类型中的一种,该种方式可以避免与系统内已有的编码逻辑冲突,便于系统实现标准信息描述代码的识别,保证本申请实施例的方法与大多数系统的兼容性,便于方案的应用与推广。
进一步地,所述标准信息描述代码包括以下至少之一:表征所述目标数据的布尔类型的代码;表征所述目标数据的状态所属阶段或等级的代码;表征所述目标数据的状态层级的代码。
在上述实现过程中,通过标准信息描述代码即可实现对于目标数据的布尔类型、目标数据的状态所属阶段或等级、目标数据的状态层级等的描述,即可满足大多数应用场景中对数据的状态描述需求。
本申请实施例还提供了一种数据处理方法,包括:获取待转换数据;将所述待转换数据转换为目标数据;其中,所述目标数据中的标准数据项满足预设的标准词库的要求;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
在上述实现过程中,转换后的目标数据具有标准数据项,可以在命名规则、定义、参照标准和口径中上统一,从而可以保证生成的数据之间可以具有良好的可交互性。从而只需要在各系统中均采用上述实现过程实现数据转换,即可使得各系统中所具有的数据能够具有标准数据项,可以在命名规则、定义、参照标准和口径上实现统一,进而相比于现有技术而言,由于各系统中的数据都是具有标准数据项的目标数据,从而系统间在进行数据交互时,可以有效减少数据间的格式转换工作量,甚至可以不进行格式转换,可以提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享,利于项目的新建或扩展,从而加速网络安全行业的发展。
进一步地,所述命名规则统一,包括:各标准数据项在同一语种中采用相同的名称命名规则;具有相同业务含义的标准数据项具有相同的名称;
所述定义统一,包括:同一标准数据项的业务含义和应用的业务场景前后保持一致;
所述参照标准统一,包括:各标准数据项所参照的标准相同,所述标准包括:国际标准、国家标准、行业标准、内部业务制度和业务规范中的至少一种;
所述口径统一,包括:同一标准数据项的业务取值范围、计算方式、编码规则和存储格式相同。
进一步地,所述标准数据项的名称包括:中文名称、英文名称、英文简称中的至少之一。
进一步地,所述方法还包括:根据预设的转换关系,将所述待转换数据中各数据项的信息描述代码转换为相应的标准数据项的标准信息描述代码;所述标准信息描述代码用于描述所述目标数据的状态;所述标准信息描述代码根据预设的标准代码词典制定;其中,用于描述同一状态的标准信息描述代码唯一。
进一步地,所述标准信息描述代码通过数字、字母、下划线中的至少一种编码得到。
进一步地,所述标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征。
进一步地,所述标准信息描述代码包括以下至少之一:表征所述目标数据的布尔类型的代码;表征所述目标数据的状态所属阶段或等级的代码;表征所述目标数据的状态层级的代码。
进一步地,所述目标数据的标准数据项的类型包括以下至少一项:基础类数据、指标类数据、信息分类编码类数据;
所述基础类数据为:生成后未经任何加工处理的数据;
所述指标类数据为:针对所述基础类数据进行加工处理后得到的结果数据;
所述信息分类编码类数据为:对信息分类规则或编码规则进行标准定义的规则定义数据。
在上述实现过程中,通过将数据分为基础类数据、指标类数据、信息分类编码类数据这三大类,可以涵盖网络安全行业的主要的业务属性,满足网络安全行业的数据管理需求,便于对数据进行查找定位,可以更加方便支撑不同业务场景的数据使用需求。
进一步地,所述基础类数据包括:身份主题数据,包括与身份信息相关的数据;基础设施数据,包括与基础设施相关的数据;应对措施数据,包括与业务中应对措施相关的数据;流量主题数据,包括与业务中流量行为相关的数据;位置信息数据,包括与位置信息相关的数据;威胁主题数据,包括与业务中威胁行为相关的数据;事件主题数据,包括与事件相关的数据;风险主题数据,包括与业务中存在的风险相关的数据。
进一步地,所述方法还包括:响应于数据发送指令,发送所述目标数据。
进一步地,所述方法还包括:响应于数据存储指令,保存所述目标数据。
进一步地,所述方法还包括:根据所述目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。
在上述实现过程中,由于不同标准数据项反映了不同的业务含义,因此通过对各类型对应的标准数据项数量的统计,可以有效满足不同业务场景需求。例如,对于告警分析场景,可以对所有表征告警的标准数据项进行统计,从而便于进行数据分析。又例如,漏洞模型建立场景,可以对所有表征漏洞的标准数据项进行统计,然后对标准数据项再进行进一步分类,然后基于不同分类漏洞的数量建立漏洞模型。
进一步地,所述方法还包括:根据所述目标数据中,各类型的标准数据项的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。
由于标准信息描述代码用于进行目标数据的状态描述,可以表征目标数据的布尔类型(例如表征是否属于白名单中的数据,表征错误或正确,表征失败或成功等),表征目标数据的状态所属阶段或等级(例如表征攻击链中发现、处理、处理完成等阶段,又例如表征攻击链中当前的攻击危害程度为低、中、高、危等等级),表征目标数据的状态层级(例如告警的各个等级等),此外还可以表征其他的内容。因此,通过统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量,可以得到各种业务场景需求的数量数据,满足不同的业务场景需求。例如,对于攻击链分析场景,通过统计攻击链中发现、处理、处理完成等阶段所具有的标准数据项数量,可以反映出系统对于受到的攻击的处理能力,从而可以帮助工程师进行系统的完善。
进一步地,所述方法还包括:响应于数据获取指令,根据所述数据获取指令中的指示信息,从所述目标数据中获取与所述指示信息相匹配的需求数据,并进行反馈;
其中:所述指示信息包括需求标准数据项类型,所述需求数据包括:对所述目标数据中标准数据项按类型进行统计后,得到的与所述需求标准数据项类型对应的标准数据项数量;或者,所述指示信息包括标靶信息,所述需求数据包括:所述目标数据中具有所述标靶信息的目标数据。
进一步地,所述获取待转换数据,包括:从日志数据中获取所述待转换数据。
进一步地,所述日志数据包括以下至少之一:流量日志数据、行为日志数据、攻击防护日志数据。
在网络安全行业,在接入各类流量日志、行为日志、攻击防护日志过程中,由于安全业务特色,接入的各类日志的数据量极为庞大,如果全部接入将对机器产生极大的压力,从而诞生了根据业务场景、属性分类获取日志数据的需求。而考虑到上述,在上述实现过程中,通过从日志数据中获取待转换数据,即可实现日志数据到具有标准数据项的目标数据的转换。进而,可以基于前述方式,一方面实现系统间更高效的数据交互,另一方面基于基础类数据、指标类数据、信息分类编码类数据这三大类分类标准,实现对于日志数据的可靠分类,从而可以满足网络安全行业中根据业务场景、属性分类获取日志数据的需求。
本申请实施例还提供了一种数据处理方法,包括:获取目标数据;响应于数据处理指令,处理所述目标数据;其中,所述目标数据中的标准数据项满足预设的标准词库的要求;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
在上述实现过程中,由于被处理的目标数据具有标准数据项,可以在命名规则、定义、参照标准和口径中上统一,从而即使目标数据是从其他系统发生过来的,可以不进行格式转换,从而可以有效减少数据间的格式转换工作量,提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享,利于项目的新建或扩展,从而加速网络安全行业的发展。
进一步地,所述命名规则统一,包括:各标准数据项在同一语种中采用相同的名称命名规则;具有相同业务含义的标准数据项具有相同的名称;
所述定义统一,包括:同一标准数据项的业务含义和应用的业务场景前后保持一致;
所述参照标准统一,包括:各标准数据项所参照的标准相同,所述标准包括:国际标准、国家标准、行业标准、内部业务制度和业务规范中的至少一种;
所述口径统一,包括:同一标准数据项的业务取值范围、计算方式、编码规则和存储格式相同。
进一步地,所述标准数据项的名称包括:中文名称、英文名称、英文简称中的至少之一。
进一步地,所述目标数据的各标准数据项中还具有标准信息描述代码;所述标准信息描述代码用于描述所述目标数据的状态;所述标准信息描述代码根据预设的标准代码词典制定;其中,用于描述同一状态的标准信息描述代码唯一。
进一步地,所述标准信息描述代码通过数字、字母、下划线中的至少一种编码得到。
进一步地,所述标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征。
进一步地,所述标准信息描述代码包括以下至少之一:表征所述目标数据的布尔类型的代码;表征所述目标数据的状态所属阶段或等级的代码;表征所述目标数据的状态层级的代码。
进一步地,所述目标数据的标准数据项的类型包括以下至少一项:基础类数据、指标类数据、信息分类编码类数据;所述基础类数据为:生成后未经任何加工处理的数据;所述指标类数据为:针对所述基础类数据进行加工处理后得到的结果数据;所述信息分类编码类数据为:对信息分类规则或编码规则进行标准定义的规则定义数据。
进一步地,所述基础类数据包括:
身份主题数据,包括与身份信息相关的数据;
基础设施数据,包括与基础设施相关的数据;
应对措施数据,包括与业务中应对措施相关的数据;
流量主题数据,包括与业务中流量行为相关的数据;
位置信息数据,包括与位置信息相关的数据;
威胁主题数据,包括与业务中威胁行为相关的数据;
事件主题数据,包括与事件相关的数据;
风险主题数据,包括与业务中存在的风险相关的数据。
进一步地,所述数据处理指令包括数据发送指令;所述响应于数据处理指令,处理所述目标数据,包括:响应于所述数据发送指令,发送所述目标数据。
进一步地,所述数据处理指令包括数据存储指令;所述响应于数据处理指令,处理所述目标数据,包括:响应于所述数据存储指令,保存所述目标数据。
进一步地,所述方法还包括:根据所述目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。
进一步地,所述方法还包括:根据所述目标数据中,各类型的标准数据项中的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。
进一步地,所述方法还包括:响应于数据获取指令,根据所述数据获取指令中的指示信息,从所述目标数据中获取与所述指示信息相匹配的需求数据,并进行反馈;
其中:所述指示信息包括需求标准数据项类型,所述需求数据包括:对所述目标数据中标准数据项按类型进行统计后,得到的与所述需求标准数据项类型对应的标准数据项数量;或者,所述指示信息包括标靶信息,所述需求数据包括:所述目标数据中具有所述标靶信息的目标数据。
进一步地,所述获取目标数据,包括:从日志数据中获取所述目标数据。
进一步地,所述日志数据包括以下至少之一:流量日志数据、行为日志数据、攻击防护日志数据。
本申请实施例还提供了一种标准词库的构建方法,包括:获取待分析数据项的名称;确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一;若不匹配,在所述标准词库中增加所述待分析数据项对应的标准数据项的名称,所述标准数据项的名称根据所述待分析数据项的名称以及所述预设的标准词库对标准数据项的要求确定。
在上述实现过程中,通过获取待分析数据项的名称来判断标准词库中是否已存在相匹配的标准数据项,从而通过不断的匹配来不断完善标准词库,使得最终得到的标准词库能够涵盖所有业务场景中会产生的数据项。而基于构建得到的标准词库,可以在各系统上进行诸如数据生成、数据处理等操作,而由于标准词库对标准数据项的要求包括:命名规则统一、定义统一、参照标准统一和口径统一,因此生成的数据或处理的数据都应当是具有标准数据项的,从而一旦各系统间需要进行数据交互,则可以不进行格式转换,从而可以有效减少数据间的格式转换工作量,提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享,利于项目的新建或扩展,从而加速网络安全行业的发展。
进一步地,所述标准词库中的标准数据项的名称包括:标准数据项的中文名称、英文名称、英文简称中的至少之一。
进一步地,确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配,包括:对所述待分析数据项的名称进行相似词语扩展;在扩展后的词语中,存在与预设的标准词库中的任一标准数据项的名称一致的词语时,确定所述待分析数据项的名称与所述标准词库中的标准数据项的名称匹配;否则,确定所述待分析数据项的名称与所述标准词库中的标准数据项的名称均不匹配。
在上述实现过程中,通过对待分析数据项的名称进行相似词语扩展,然再进行匹配,从而可以有效提高具有相同业务含义的待分析数据项的匹配成功率,降低出现具有相同业务含义的数据项在标准词库中被配置出不同名称的情况的风险。
进一步地,在获取待分析数据项之后,确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配之前,所述方法还包括:对所述待分析数据项对应的实际数据内容进行分析,确定所述待分析数据项的实际名称;根据所述实际名称确定所述待分析数据项的名称是否正确;在不正确时,将所述待分析数据项的名称修改为所述实际名称。
在上述实现过程中,通过对待分析数据项对应的实际数据内容进行分析,进而进行待分析数据项的名称的修改,可以提高后续的匹配可靠性,降低出现具有相同业务含义的数据项在标准词库中被配置出不同名称的情况的风险。
本申请实施例还提供了一种数据生成装置,包括:数据生成模块,用于响应于数据生成指令,生成目标数据,其中,所述目标数据中的标准数据项满足预设的标准词库的要求;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
本申请实施例还提供了一种数据处理装置,包括:第一获取模块,用于获取待转换数据;第一处理模块,用于将所述待转换数据转换为目标数据;其中,所述目标数据中的标准数据项满足预设的标准词库的要求;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
本申请实施例还提供了一种数据处理装置,包括:第二获取模块,用于获取目标数据;第二处理模块,用于响应于数据处理指令,处理所述目标数据;其中,所述目标数据中的标准数据项满足预设的标准词库的要求;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
本申请实施例还提供了一种标准词库的构建装置,包括:第三获取模块,用于获取待分析数据项的名称;确定模块,用于确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配,所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一;操作模块,用于在不匹配时,在所述标准词库中增加所述待分析数据项对应的标准数据项的名称,所述标准数据项的名称根据所述待分析数据项的名称以及所述预设的标准词库对标准数据项的要求确定。
本申请实施例还提供了一种电子设备,包括处理器和存储器;所述处理器用于执行所述存储器中存储的一个或者多个指令,以实现上述任一种的方法。
本申请实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一种的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种标准词库要求示意图;
图2为本申请实施例提供的一种数据生成方法的流程示意图;
图3为本申请实施例提供的一种具体的信息分类示意图;
图4为本申请实施例提供的一种数据处理方法的流程示意图;
图5为本申请实施例提供的另一种数据处理方法的流程示意图;
图6为本申请实施例提供的一种标准词库的构建方法的流程示意图;
图7为本申请实施例提供的一种数据生成装置的结构示意图;
图8为本申请实施例提供的一种数据处理装置的结构示意图;
图9为本申请实施例提供的另一种数据处理装置的结构示意图;
图10为本申请实施例提供的一种标准词库的构建装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
为了解决目前网络安全行业中存在着的行业内不同系统之间的数据使用效率低,数据使用成本高,不利于数据之间的交互共享,也不利于项目的新建或扩展,从而严重阻碍了网络安全行业发展的问题,本申请实施例中提供了基于标准数据项实现数据生成和数据处理的方案,本申请所提供的方案可以布设于网络安全行业的各系统中,以降低各系统间数据表达的差异性,提高系统间数据的可交互性。
需要说明的是,数据项是构成数据的基本单位。而本申请实施例中所述的标准数据项是指满足预设的标准词库要求的数据项,可以基于标准词库实现对于标准数据项的生成。也即可以在生成目标数据(本申请实施例中将由标准数据项构成的数据称为目标数据)时,基于标准词库的要求生成标准数据项。
其中,标准词库的要求可参见图1所示,包括:命名规则统一、定义统一、参照标准统一和口径统一。
而在本申请实施例中,各系统生成或处理的目标数据具有该标准数据项,从而基于标准数据项所具有的命名规则统一、定义统一、参照标准统一和口径统一的特点,各系统在进行数据交互时,获取到的目标数据就是可直接识别与解析的数据,从而无需再进行数据项的含义确认的工作量,进而可以有效减少数据间的格式转换工作量,甚至可以不进行格式转换,从而提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享,利于项目的新建或扩展,从而加速网络安全行业的发展。
需要说明的是,在本申请实施例中,命名规则统一包括:各标准数据项在同一语种中采用相同的名称命名规则;具有相同业务含义的标准数据项具有相同的名称。
在本申请实施例中,名称命名规则可以是由工程师预先定义好的,具体的命名规则内容在本申请实施例中不做限制。
此外,在本申请实施例中,标准数据项所具有的名称可以包括中文名称、英文名称、英文简称中的至少之一,以兼容大多数系统的配置。在一种示例性实施方式中,标准数据项可以同时包括中文名称、英文名称和英文简称,以同时满足不同系统的配置要求。
在本申请实施例中,定义统一包括:同一标准数据项的业务含义和应用的业务场景前后保持一致。
也即,对于一个标准数据项,其对应的业务含义和应用的业务场景是始终一致的,不会随着时间的变化而变化。例如,一个标准数据项的业务含义为服务器IP,那么该个标准数据项的业务含义就始终是服务器IP,后续不应再发生变化。
在本申请实施例中,参照标准统一包括:各标准数据项所参照的标准相同。标准包括:国际标准、国家标准、行业标准、内部业务制度和业务规范中的至少一种。
示例性的,假设在制定数据项时,参照有国际标准、国家标准、行业标准、内部业务制度和业务规范,那么需要保持各数据项所参照的国际标准、国家标准、行业标准、内部业务制度和业务规范都是一致的。例如,在不同国家标准中,存在分别用142、CHN、CN表示中国的情况,因此在使用时,应当统一采用相同的国家标准,从而使得对于信息的表示方式一致,例如都采用142来表示中国,或都采用CHN来表示中国,从而避免出现各具有标准数据项的目标数据在交互时还需要转码的情况。
在本申请实施例中,口径统一包括:同一标准数据项的业务取值范围、计算方式、编码规则和存储格式相同。
应理解,本申请实施例中的口径是指数据统计或者梳理的粒度。
在本申请实施例中,通过上述设置,可以有效保证所生成的各目标数据之间,所具有的相同的标准数据项,在名称、业务含义、应用的业务场景、所参照的标准、业务取值范围、计算方式、编码规则和存储格式是统一的,从而可以提高目标数据之间的可交互性,提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享。
需要说明的是,考虑到目前大多数系统所兼容的数据项名称格式包括中文、英文和英文简称,因此在本申请实施例中,可以设置标准数据项的名称包括:中文名称、英文名称、英文简称中的至少之一。例如,可以设置标准数据项的名称同时包括中文名称、英文名称和英文简称,从而可以保证本申请实施例的方案能与大多数系统兼容。
还需要说明的是,在许多情况下,数据项中会具有用于描述数据状态的信息描述代码。例如会存在通过代码0或1来表征目标数据属于白名单内的数据或不属于白名单内的数据;又例如,通过代码1或2或3,分别表征目标数据属于攻击链的发现阶段,或属于攻击链的处理阶段,或属于攻击链的处理完成阶段。
为此,在本申请实施例中,为了保证数据间交互时,对于信息描述代码也可以不必进行转码,因此可以预先设定一个标准代码词典,从而根据标准代码词典制定标准信息描述代码。而在标准代码词典中,可以配置唯一的描述同一状态的标准信息描述代码。这样,就可以实现各系统中的数据的标准信息描述代码统一,进一步提高数据之间的可交互性,降低数据使用成本。
可选的,考虑到数字、字母、下划线属于大多数系统均可识别的基本编码单位,因此在本申请实施例的一种可选实施方式中,可以配置标准信息描述代码通过数字、字母、下划线中的至少一种编码得到。示例性的,可以优先使用数字进行编码。示例性的,不使用中文、空格、tab符等特殊字符及西宁编码。
可选的,标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征。
可选的,标准信息描述代码不超过4个层级(编码不超过12位)。所谓层级是指标准信息描述代码所对应可描述的状态的层级。例如,对于告警状态,可以包括告警一级分类,每个告警一级分类下包含至少一个告警二级分类,每个告警二级分类下包含至少一个告警三级分类,依次类推。状态层级的划分可以由工程师根据实际业务进行划分,在本申请实施例中不做限制。
在本申请实施例中,标准信息描述代码包括以下至少之一:表征目标数据的布尔类型的代码;表征目标数据的状态所属阶段或等级的代码;表征目标数据的状态层级的代码。
示例性的,表征目标数据的布尔类型的代码可以是:例如,表征目标数据是否属于白名单内的数据,标准信息描述代码为0表征不是,标准信息描述代码为1表征是;又例如,表征目标数据是否存在错误,标准信息描述代码为0表征错误,标准信息描述代码为1表征正确;又例如,表征目标数据是否表征失败状态,标准信息描述代码为0表征失败,标准信息描述代码为1表征成功。以上仅为示例,不作为对本申请实施例的限制。
示例性的,表征目标数据的状态所属阶段或等级的代码可以是:例如,表征目标数据属于攻击链的哪个阶段,例如标准信息描述代码为1表征目标数据属于攻击链的发现阶段,标准信息描述代码为2表征目标数据属于攻击链的处理阶段,标准信息描述代码为3表征目标数据属于攻击链的处理完成阶段;又例如,表征攻击等级,例如标准信息描述代码为1表征目标数据对应的攻击程度为低等级攻击,标准信息描述代码为2表征目标数据对应的攻击程度为中等级攻击,标准信息描述代码为3表征目标数据表征目标数据对应的攻击程度为高等级攻击,标准信息描述代码为4表征目标数据表征目标数据对应的攻击程度为危险等级攻击。以上仅为示例,不作为对本申请实施例的限制。
示例性的,表征所述目标数据的状态层级的代码可以是:例如,前文所示例的告警分类层级,每个层级可以采用3位数字编码,下一层级在上一次层级基础上添加编码,例如:一级告警对应标准信息描述代码为100,二级告警对应标准信息描述代码为100001,三级告警对应标准信息描述代码为100001001。
应理解,在实际应用过程中,还可能存在除上述三种标准信息描述代码以外的其他类型的标准信息描述代码。例如,目标数据表征扫描引擎编码,则需从1开始编码,不允许占用0等。对于这些标准信息描述代码,可以由工程师根据实际需要在标准代码词典中进行设定。如发现现有系统中存在具体的样例数据,且样例数据的标准信息描述代码为英文编码,则可以考虑基于该样例数据的标准信息描述代码,在标准代码词典中设定相应的标准信息描述代码。
基于以上标准数据项的生成规范,本申请实施例中提供了一种数据生成方法。可以参见图2所示,图2为本申请实施例中提供的一种数据生成方法的流程示意图,包括:
S201:响应于数据生成指令,生成目标数据。
需要说明的是,生成目标数据由标准数据项构成,而标准数据项为满足预设的标准词库要求的数据项。标准数据项的实现参见前文所述,在此不再赘述。
应理解,在本申请实施例中,在系统中具有目标数据后,为了便于进行数据管理,可以基于目标数据的标准数据项对目标数据进行分类。应理解,当一个目标数据具有多个标准数据项时,目标数据可以对应有多种分类类型。
在本申请实施例中,目标数据的标准数据项的类型可以包括以下至少一项:基础类数据、指标类数据、信息分类编码类数据。其中:
基础类数据为:生成后未经任何加工处理的数据。
指标类数据为:针对基础类数据进行加工处理后得到的结果数据。
信息分类编码类数据为:对信息分类规则或编码规则进行标准定义的规则定义数据。
在本申请实施例中,基础类数据可以包括:
身份主题数据,包括与身份信息相关的数据;
基础设施数据,包括与基础设施相关的数据;
应对措施数据,包括与业务中应对措施相关的数据;
流量主题数据,包括与业务中流量行为相关的数据;
位置信息数据,包括与位置信息相关的数据;
威胁主题数据,包括与业务中威胁行为相关的数据;
事件主题数据,包括与事件相关的数据;
风险主题数据,包括与业务中存在的风险相关的数据。
示例性的,可见参见图3所示,图3示出了一种网络安全行业中可以采用的上述基础类数据的各细分类型数据可具体包含的数据,但不作为限制。
基于以上分类标准,即可将系统内的目标数据进行分类管理,便于进行诸如资产统计、数据分析等操作。
基于以上标准数据项的生成规范,本申请实施例中提供了一种数据处理方法。可以参见图4所示,图4为本申请实施例中提供的一种数据处理方法的流程示意图,包括:
S401:获取待转换数据。
应理解,待转换数据可以是系统内本身存在的,未转换为目标数据的那部分已有数据。此外,待转换数据也可以是其他系统发来的不由标准数据项构成的数据。本申请实施例中对于待转换数据的获取方式不做限制。
S402:将待转换数据转换为目标数据。
在本申请实施例中,为了实现对于待转换数据的转换,可以预先设定好各类数据项与标准数据项之间的转换关系。例如可以由工程师预先定义标准词库中,各表征数据项的名称所可能对应的其他命名方式,并建立对应关系,从而在待转换数据的名称匹配上相依的对应关系之后,即可基于该对应关系中标准数据项的名称,将待转换数据的名称和口径按照标准词库的要求进行更正,实现对于待转换数据的转换。或者,也可以是通过检测待转换数据实际对应的业务内容,判断该业务内容的实际业务含义,进而通过查找该业务含义在标准词库中对应的标准数据项的名称和口径,将待转换数据的名称和口径按照标准词库的要求进行更正,实现对于待转换数据的转换。应理解,以上方式仅为示例方式,不作为对本申请实施例的限制。
此外,在本申请实施例中,为了实现信息描述代码的标准化,还需要对待转换数据的信息描述代码进行转换。为此,一种可行实施方式是,可以预先构建不同信息描述代码的映射关系,从而按照预先构建的信息描述代码的映射关系,将待转换数据的信息描述代码转换为标准代码词典中的信息描述代码。而另一种可行实施方式是,可以识别待转换数据的各数据项内容的关键字(例如是/否,TRUE/FALSE,存在/不存在,不涉及,未知,其他等),进而基于关键字在标准代码词典中进行匹配,然后将原本的信息描述代码转换为标准代码词典中规定的信息描述代码。以上仅为本申请实施例提供的可选实施方式,不作为限制。
在本数据处理方法中,在将待转换数据转换为目标数据后,还可以响应于数据发送指令,发送该目标数据。
在本数据处理方法中,在将待转换数据转换为目标数据后,还可以响应于数据存储指令,保存该目标数据。
应理解,在本数据处理方法中,同样可以基于目标数据的标准数据项对目标数据进行分类。分类方式可参见前文所述,在此不再赘述。
在分类管理之后,可以根据目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。这样,由于不同标准数据项反映了不同的业务含义,因此通过对各类型对应的标准数据项数量的统计,可以有效满足不同业务场景需求。例如,对于告警分析场景,可以对所有表征告警的标准数据项进行统计,从而便于进行数据分析。又例如,漏洞模型建立场景,可以对所有表征漏洞的标准数据项进行统计,然后对标准数据项再进行进一步分类,然后基于不同分类漏洞的数量建立漏洞模型。
在分类管理之后,还可以根据目标数据中,各类型的标准数据项的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。这样,由于标准信息描述代码用于进行目标数据的状态描述,可以表征目标数据的布尔类型(例如表征是否属于白名单中的数据,表征错误或正确,表征失败或成功等),表征目标数据的状态所属阶段或等级(例如表征攻击链中发现、处理、处理完成等阶段,又例如表征攻击链中当前的攻击危害程度为低、中、高、危等等级),表征目标数据的状态层级(例如告警的各个等级等),此外还可以表征其他的内容。因此,通过统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量,可以得到各种业务场景需求的数量数据,满足不同的业务场景需求。例如,对于攻击链分析场景,通过统计攻击链中发现、处理、处理完成等阶段所具有的标准数据项数量,可以反映出系统对于受到的攻击的处理能力,从而可以帮助工程师进行系统的完善。
在分类管理之后,还可以根据目标数据中,响应于数据获取指令,根据数据获取指令中的指示信息,从目标数据中获取与指示信息相匹配的需求数据,并进行反馈。其中:指示信息可以包括需求标准数据项类型,需求数据包括:对目标数据中标准数据项按类型进行统计后,得到的与需求标准数据项类型对应的标准数据项数量。或者,指示信息包括标靶信息,需求数据包括:目标数据中具有所述标靶信息的目标数据。其中,标靶信息可以是诸如数据或数据项的名称等关键字。
这样,当指示信息包括需求标准数据项类型,需求数据包括:对目标数据中标准数据项按类型进行统计后,得到的与需求标准数据项类型对应的标准数据项数量时,可以实现对系统内具有需求标准数据项类型的数据数量的统计,从而可以满足诸如资产管理、攻击链分析场景等不同业务场景的需求。而当指示信息包括标靶信息,需求数据包括:目标数据中具有所述标靶信息的目标数据时,则可以基于标靶信息的输入,实现对于所需数据的快速、准确的获取。
需要说明的是,考虑到网络安全行业,在接入各类流量日志、行为日志、攻击防护日志过程中,由于安全业务特色,接入的各类日志的数据量极为庞大,如果全部接入将对机器产生极大的压力,从而诞生了根据业务场景、属性分类获取日志数据的需求,因此可以从日志数据中获取所述待转换数据进行转换,从而通过本申请实施例的分类管理机制,实现对于日志数据的有效管理,同时也便于不同系统间进行数据交互。
可选的,日志数据可以包括流量日志数据、行为日志数据、攻击防护日志数据中的至少之一。例如,可以同时包括流量日志数据、行为日志数据、攻击防护日志数据,以实现对于网络安全行业的全面接入与管理。
基于以上标准数据项的生成规范,本申请实施例中还提供了另一种数据处理方法。可以参见图5所示,图5为本申请实施例中提供的另一种数据处理方法的流程示意图,包括:
S501:获取目标数据。
应理解,目标数据可以是系统内本身存在的数据,此外,也可以是其他系统发来的由标准数据项构成的数据。本申请实施例中对于目标数据的获取方式不做限制。
S502:响应于数据处理指令,处理该目标数据。
示例性的,在本申请实施例中,数据处理指令可以包括数据存储指令,从而响应于数据存储指令,保存该目标数据。
示例性的,在本申请实施例中,数据处理指令也可以包括数据发送指令,从而响应于数据发送指令,发送该目标数据。
类似的,在本数据处理方法中,同样可以基于目标数据的标准数据项对目标数据进行分类。分类方式可参见前文所述,在此不再赘述。
类似的,在分类管理之后,可以根据目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。
类似的,在分类管理之后,也可以根据目标数据中,各类型的标准数据项中的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。
类似的,在分类管理之后,还可以响应于数据获取指令,根据数据获取指令中的指示信息,从目标数据中获取与指示信息相匹配的需求数据,并进行反馈。其中:指示信息包括需求标准数据项类型,需求数据包括:对所述目标数据中标准数据项按类型进行统计后,得到的与需求标准数据项类型对应的标准数据项数量。或者,指示信息包括标靶信息,需求数据包括:目标数据中具有该标靶信息的目标数据。其中,标靶信息可以是诸如数据或数据项的名称等关键字。
类似的,考虑到网络安全行业的安全业务特色,可以从日志数据中获取目标数据,从而通过本申请实施例的分类管理机制,实现对于日志数据的有效管理,同时也便于不同系统间进行数据交互。
可选的,日志数据可以包括流量日志数据、行为日志数据、攻击防护日志数据中的至少之一。例如,可以同时包括流量日志数据、行为日志数据、攻击防护日志数据,以实现对于网络安全行业的全面接入与管理。
为更好的实现本申请实施例所提供的方案,构建出更为贴合实际业务需求的标准词库,本申请实施例中还提供了一种标准词库的构建方法,请参见图6所示,包括:
S601:获取待分析数据项的名称。
S602:确定待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配。
其中,预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
S603:若不匹配,在标准词库中增加该待分析数据项对应的标准数据项的名称。
其中,标准数据项的名称根据待分析数据项的名称以及预设的标准词库对标准数据项的要求确定。
而为了确定待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配,在本申请实施例的一种可选实施方式中,可以对待分析数据项的名称进行相似词语扩展。然后,在扩展后的词语中,存在与预设的标准词库中的任一标准数据项的名称一致的词语时,确定待分析数据项的名称与标准词库中的标准数据项的名称匹配;否则,确定待分析数据项的名称与标准词库中的标准数据项的名称均不匹配。
示例性的,在本申请实施例中可以预先配置一个用于存储含义相似词语的词库,词库中关联存储各相似词语,例如设备、机器、服务器等词语含义相似,即预先关联存储在词库中。进行扩展时,可以将待分析数据项的名称与该词库匹配,如发现匹配项,即可进行相似词语扩展。
为了保证方案的可靠性,在进行待分析数据项的名称与预设的标准词库中的标准数据项的名称之间匹配后,还可以将匹配结果反馈给工程师,由工程师进行人工研判。
此外,为了保证方案的可靠性,在获取待分析数据项之后,确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配之前,还可以先对待分析数据项对应的实际数据内容进行分析,确定出待分析数据项的实际名称,然后根据实际名称确定待分析数据项的名称是否正确。在不正确时,将待分析数据项的名称修改为实际名称。该过程可以由工程师人工介入实现,也可以通过编写相应的内容识别程序实现,对此本申请实施例中不做限制。
还需要说明的是,以上在标准词库中增加该待分析数据项对应的标准数据项的名称的操作可以由工程师来执行。而为了避免出现多人同时针对同一标准项进行不同添加操作的情况,在本申请实施例的一种可行实施方式中,可以限制同一时刻仅运用一个终端设备接入进行标准项的名称的添加操作。但是,为了提高标准词库构建效率,也可以允许多个终端设备接入进行标准项的名称的添加操作,但是,可以预先构建一个词库,并构建该词库中各词语对应的业务含义,且同一业务含义仅对应一个词语,并配置好各词语对应的英文翻译及英文简称,从而限制用户在添加标准项的名称时,只能依据该词库进行添加,从而可以保证多人同时针对同一标准项进行添加操作时,添加的内容是一致的,避免出现添加内容不同的情况。
本申请实施例所提供的数据生成方法和数据处理方法可以应用于各个系统中,可以使得各系统之间所生成的数据能够具有标准数据项,可以在命名规则、定义、参照标准和口径上实现统一。系统间在进行数据交互时,可以减少数据项含义确认的工作量,可以有效减少数据间的格式转换工作量,甚至可以不进行格式转换,从而提高系统之间数据使用效率,降低数据使用成本,利于数据之间的交互共享,利于项目的新建或扩展,从而加速网络安全行业的发展。
本申请实施例所提供的标准词库的构建方法,通过获取待分析数据项的名称来判断标准词库中是否已存在相匹配的标准数据项,从而通过不断的匹配来不断完善标准词库,使得最终得到的标准词库能够涵盖所有业务场景中会产生的数据项。
基于同一发明构思,本申请实施例中还提供了一种数据生成装置700、数据处理装置800、数据处理装置900和标准词库的构建装置100。请参阅图7至图10所示,图7示出了采用图2所示的方法的数据生成装置,图8示出了采用图4所示的方法的数据处理装置,图9示出了采用图5所示的方法的数据处理装置,图10示出了采用图6所示的方法的标准词库的构建装置。应理解,装置700、800、900和100具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置700、800、900和100包括至少一个能以软件或固件的形式存储于存储器中或固化在装置700、800、900和100的操作系统中的软件功能模块。具体地:
参见图7所示,装置700包括:
数据生成模块701,用于响应于数据生成指令,生成目标数据,其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
参见图8所示,装置800包括:
第一获取模块801,用于获取待转换数据;
第一处理模块802,用于将所述待转换数据转换为目标数据;
其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
在本申请实施例中,第一处理模块802还用于响应于数据发送指令,发送所述目标数据。
在本申请实施例中,第一处理模块802还用于响应于数据存储指令,保存所述目标数据。
在本申请实施例中,第一处理模块802还用于根据目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。
在本申请实施例中,第一处理模块802还用于根据目标数据中,各类型的标准数据项的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。
在本申请实施例中,第一处理模块802还用于响应于数据获取指令,根据所述数据获取指令中的指示信息,从所述目标数据中获取与所述指示信息相匹配的需求数据,并进行反馈;其中:所述指示信息包括需求标准数据项类型,所述需求数据包括:对所述目标数据中标准数据项按类型进行统计后,得到的与所述需求标准数据项类型对应的标准数据项数量;或者,所述指示信息包括标靶信息,所述需求数据包括:所述目标数据中具有所述标靶信息的目标数据。
在本申请实施例中,第一获取模块801具体用于从日志数据中获取所述待转换数据。
在本申请实施例中,所述日志数据包括以下至少之一:流量日志数据、行为日志数据、攻击防护日志数据。
参见图9所示,装置900包括:
第二获取模块901,用于获取目标数据;
第二处理模块902,用于响应于数据处理指令,处理所述目标数据;
其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
在本申请实施例中,所述数据处理指令包括数据发送指令;第二处理模块902还用于响应于数据发送指令,发送所述目标数据。
在本申请实施例中,所述数据处理指令包括数据存储指令;第二处理模块902还用于响应于数据存储指令,保存所述目标数据。
在本申请实施例中,第二处理模块902还用于根据目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。
在本申请实施例中,第二处理模块902还用于根据目标数据中,各类型的标准数据项的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。
在本申请实施例中,第二处理模块902还用于响应于数据获取指令,根据所述数据获取指令中的指示信息,从所述目标数据中获取与所述指示信息相匹配的需求数据,并进行反馈;其中:所述指示信息包括需求标准数据项类型,所述需求数据包括:对所述目标数据中标准数据项按类型进行统计后,得到的与所述需求标准数据项类型对应的标准数据项数量;或者,所述指示信息包括标靶信息,所述需求数据包括:所述目标数据中具有所述标靶信息的目标数据。
在本申请实施例中,第二获取模块901具体用于从日志数据中获取目标数据。
在本申请实施例中,所述日志数据包括以下至少之一:流量日志数据、行为日志数据、攻击防护日志数据。
参见图10所示,装置100包括:
第三获取模块101,用于获取待分析数据项的名称;
确定模块102,用于确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配,所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一;
操作模块103,用于在不匹配时,在所述标准词库中增加所述待分析数据项对应的标准数据项的名称,所述标准数据项的名称根据所述待分析数据项的名称以及所述预设的标准词库对标准数据项的要求确定。
在本申请实施例的一种可行实施方式中,确定模块102具体用于对所述待分析数据项的名称进行相似词语扩展;在扩展后的词语中,存在与预设的标准词库中的任一标准数据项的名称一致的词语时,确定所述待分析数据项的名称与所述标准词库中的标准数据项的名称匹配;否则,确定所述待分析数据项的名称与所述标准词库中的标准数据项的名称均不匹配。
在本申请实施例的一种可行实施方式中,确定模块102还用于在获取待分析数据项之后,确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配之前,对所述待分析数据项对应的实际数据内容进行分析,确定所述待分析数据项的实际名称,根据所述实际名称确定所述待分析数据项的名称是否正确;在不正确时,将所述待分析数据项的名称修改为所述实际名称。
需要说明的是,在上述各装置中,预设的标准词库的要求与方法部分一致,标准数据项的要求也与方法部分一致,标准信息描述代码的要求也与方法部分一致,数据的分类方式也与方法部分一致,在此不再赘述。
还需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
基于同一发明构思,本实施例提供了一种电子设备,参见图11所示,其包括处理器1101和存储器1102。其中:
处理器1101用于执行存储器1102中存储的一个或多个指令,以实现上述任一种方法。
可以理解,图11所示的结构仅为示意,电子设备还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
例如,处理器1101和存储器1102之间可以是通过通信总线的方式进行的连接。又例如,电子设备还可包括诸如显示器、鼠标、键盘等部件。
在本申请实施例中,处理器1101可以为中央处理器、微处理器、单片机等,但不作为限制。存储器1102可以为随机存取存储器,只读存储器,可编程只读存储器,可擦除只读存储器,电可擦除只读存储器等,但不作为限制。
在本申请实施例中,电子设备可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(Secure Digital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该计算机可读存储介质中存储有一个或者多个指令,这一个或者多个指令可被一个或者多个处理器执行,以实现上述任一种方法。在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
在本文中,多个是指两个或两个以上。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (49)

1.一种数据生成方法,其特征在于,包括:
响应于数据生成指令,生成目标数据,其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
2.如权利要求1所述的数据生成方法,其特征在于,
所述命名规则统一,包括:
各标准数据项在同一语种中采用相同的名称命名规则;
具有相同业务含义的标准数据项具有相同的名称;
所述定义统一,包括:
同一标准数据项的业务含义和应用的业务场景前后保持一致;
所述参照标准统一,包括:
各标准数据项所参照的标准相同,所述标准包括:国际标准、国家标准、行业标准、内部业务制度和业务规范中的至少一种;
所述口径统一,包括:
同一标准数据项的业务取值范围、计算方式、编码规则和存储格式相同。
3.如权利要求1所述的数据生成方法,其特征在于,所述标准数据项的名称包括:中文名称、英文名称、英文简称中的至少之一。
4.如权利要求1-3任一项所述的数据生成方法,其特征在于,
所述目标数据的各标准数据项中,还具有标准信息描述代码;
所述标准信息描述代码用于描述所述目标数据的状态;
所述标准信息描述代码根据预设的标准代码词典制定;
其中,用于描述同一状态的标准信息描述代码唯一。
5.如权利要求4所述的数据生成方法,其特征在于,
所述标准信息描述代码通过数字、字母、下划线中的至少一种编码得到。
6.如权利要求4所述的数据生成方法,其特征在于,
所述标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征。
7.如权利要求4所述的数据生成方法,其特征在于,所述标准信息描述代码包括以下至少之一:
表征所述目标数据的布尔类型的代码;
表征所述目标数据的状态所属阶段或等级的代码;
表征所述目标数据的状态层级的代码。
8.一种数据处理方法,其特征在于,包括:
获取待转换数据;
将所述待转换数据转换为目标数据;
其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
9.如权利要求8所述的数据处理方法,其特征在于,
所述命名规则统一,包括:
各标准数据项在同一语种中采用相同的名称命名规则;
具有相同业务含义的标准数据项具有相同的名称;
所述定义统一,包括:
同一标准数据项的业务含义和应用的业务场景前后保持一致;
所述参照标准统一,包括:
各标准数据项所参照的标准相同,所述标准包括:国际标准、国家标准、行业标准、内部业务制度和业务规范中的至少一种;
所述口径统一,包括:
同一标准数据项的业务取值范围、计算方式、编码规则和存储格式相同。
10.如权利要求8所述的数据处理方法,其特征在于,所述标准数据项的名称包括:中文名称、英文名称、英文简称中的至少之一。
11.如权利要求8所述的数据处理方法,其特征在于,所述方法还包括:
根据预设的转换关系,将所述待转换数据中各数据项的信息描述代码转换为相应的标准数据项的标准信息描述代码;
所述标准信息描述代码用于描述所述目标数据的状态;
所述标准信息描述代码根据预设的标准代码词典制定;
其中,用于描述同一状态的标准信息描述代码唯一。
12.如权利要求11所述的数据处理方法,其特征在于,
所述标准信息描述代码通过数字、字母、下划线中的至少一种编码得到。
13.如权利要求11所述的数据处理方法,其特征在于,
所述标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征。
14.如权利要求11所述的数据处理方法,其特征在于,所述标准信息描述代码包括以下至少之一:
表征所述目标数据的布尔类型的代码;
表征所述目标数据的状态所属阶段或等级的代码;
表征所述目标数据的状态层级的代码。
15.如权利要求8所述的数据处理方法,其特征在于,
所述目标数据的标准数据项的类型包括以下至少一项:
基础类数据、指标类数据、信息分类编码类数据;
所述基础类数据为:生成后未经任何加工处理的数据;
所述指标类数据为:针对所述基础类数据进行加工处理后得到的结果数据;
所述信息分类编码类数据为:对信息分类规则或编码规则进行标准定义的规则定义数据。
16.如权利要求15所述的数据处理方法,其特征在于,所述基础类数据包括:
身份主题数据,包括与身份信息相关的数据;
基础设施数据,包括与基础设施相关的数据;
应对措施数据,包括与业务中应对措施相关的数据;
流量主题数据,包括与业务中流量行为相关的数据;
位置信息数据,包括与位置信息相关的数据;
威胁主题数据,包括与业务中威胁行为相关的数据;
事件主题数据,包括与事件相关的数据;
风险主题数据,包括与业务中存在的风险相关的数据。
17.如权利要求8-16任一项所述的数据处理方法,其特征在于,所述方法还包括:
响应于数据发送指令,发送所述目标数据。
18.如权利要求8-16任一项所述的数据处理方法,其特征在于,所述方法还包括:
响应于数据存储指令,保存所述目标数据。
19.如权利要求8-16任一项所述的数据处理方法,其特征在于,所述方法还包括:
根据所述目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。
20.如权利要求8-16任一项所述的数据处理方法,其特征在于,所述方法还包括:
根据所述目标数据中,各类型的标准数据项的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。
21.如权利要求8-16任一项所述的数据处理方法,其特征在于,所述方法还包括:
响应于数据获取指令,根据所述数据获取指令中的指示信息,从所述目标数据中获取与所述指示信息相匹配的需求数据,并进行反馈;
其中:
所述指示信息包括需求标准数据项类型,所述需求数据包括:对所述目标数据中标准数据项按类型进行统计后,得到的与所述需求标准数据项类型对应的标准数据项数量;
或者,所述指示信息包括标靶信息,所述需求数据包括:所述目标数据中具有所述标靶信息的目标数据。
22.如权利要求8-16任一项所述的数据处理方法,其特征在于,所述获取待转换数据,包括:
从日志数据中获取所述待转换数据。
23.如权利要求22所述的数据处理方法,其特征在于,所述日志数据包括以下至少之一:
流量日志数据、行为日志数据、攻击防护日志数据。
24.一种数据处理方法,其特征在于,包括:
获取目标数据;
响应于数据处理指令,处理所述目标数据;
其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
25.如权利要求24所述的数据处理方法,其特征在于,
所述命名规则统一,包括:
各标准数据项在同一语种中采用相同的名称命名规则;
具有相同业务含义的标准数据项具有相同的名称;
所述定义统一,包括:
同一标准数据项的业务含义和应用的业务场景前后保持一致;
所述参照标准统一,包括:
各标准数据项所参照的标准相同,所述标准包括:国际标准、国家标准、行业标准、内部业务制度和业务规范中的至少一种;
所述口径统一,包括:
同一标准数据项的业务取值范围、计算方式、编码规则和存储格式相同。
26.如权利要求24所述的数据处理方法,其特征在于,所述标准数据项的名称包括:中文名称、英文名称、英文简称中的至少之一。
27.如权利要求24所述的数据处理方法,其特征在于,
所述目标数据的各标准数据项中还具有标准信息描述代码;
所述标准信息描述代码用于描述所述目标数据的状态;
所述标准信息描述代码根据预设的标准代码词典制定;
其中,用于描述同一状态的标准信息描述代码唯一。
28.如权利要求27所述的数据处理方法,其特征在于,
所述标准信息描述代码通过数字、字母、下划线中的至少一种编码得到。
29.如权利要求27所述的数据处理方法,其特征在于,
所述标准信息描述代码的首位采用数字和预设的特殊字符之外的字符表征。
30.如权利要求27所述的数据处理方法,其特征在于,所述标准信息描述代码包括以下至少之一:
表征所述目标数据的布尔类型的代码;
表征所述目标数据的状态所属阶段或等级的代码;
表征所述目标数据的状态层级的代码。
31.如权利要求24所述的数据处理方法,其特征在于,
所述目标数据的标准数据项的类型包括以下至少一项:
基础类数据、指标类数据、信息分类编码类数据;
所述基础类数据为:生成后未经任何加工处理的数据;
所述指标类数据为:针对所述基础类数据进行加工处理后得到的结果数据;
所述信息分类编码类数据为:对信息分类规则或编码规则进行标准定义的规则定义数据。
32.如权利要求31所述的数据处理方法,其特征在于,所述基础类数据包括:
身份主题数据,包括与身份信息相关的数据;
基础设施数据,包括与基础设施相关的数据;
应对措施数据,包括与业务中应对措施相关的数据;
流量主题数据,包括与业务中流量行为相关的数据;
位置信息数据,包括与位置信息相关的数据;
威胁主题数据,包括与业务中威胁行为相关的数据;
事件主题数据,包括与事件相关的数据;
风险主题数据,包括与业务中存在的风险相关的数据。
33.如权利要求24-32任一项所述的数据处理方法,其特征在于,所述数据处理指令包括数据发送指令;所述响应于数据处理指令,处理所述目标数据,包括:
响应于所述数据发送指令,发送所述目标数据。
34.如权利要求24-32任一项所述的数据处理方法,其特征在于,所述数据处理指令包括数据存储指令;所述响应于数据处理指令,处理所述目标数据,包括:
响应于所述数据存储指令,保存所述目标数据。
35.如权利要求24-32任一项所述的数据处理方法,其特征在于,所述方法还包括:
根据所述目标数据中各标准数据项的类型,统计各类型对应的标准数据项数量。
36.如权利要求24-32任一项所述的数据处理方法,其特征在于,所述方法还包括:
根据所述目标数据中,各类型的标准数据项中的标准信息描述代码,统计各类型标准数据项中,不同标准信息描述代码对应的标准数据项数量。
37.如权利要求24-32任一项所述的数据处理方法,其特征在于,所述方法还包括:
响应于数据获取指令,根据所述数据获取指令中的指示信息,从所述目标数据中获取与所述指示信息相匹配的需求数据,并进行反馈;
其中:
所述指示信息包括需求标准数据项类型,所述需求数据包括:对所述目标数据中标准数据项按类型进行统计后,得到的与所述需求标准数据项类型对应的标准数据项数量;
或者,所述指示信息包括标靶信息,所述需求数据包括:所述目标数据中具有所述标靶信息的目标数据。
38.如权利要求24-32任一项所述的数据处理方法,其特征在于,所述获取目标数据,包括:
从日志数据中获取所述目标数据。
39.如权利要求38所述的数据处理方法,其特征在于,所述日志数据包括以下至少之一:
流量日志数据、行为日志数据、攻击防护日志数据。
40.一种标准词库的构建方法,其特征在于,包括:
获取待分析数据项的名称;
确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配;所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一;
若不匹配,在所述标准词库中增加所述待分析数据项对应的标准数据项的名称;所述标准数据项的名称根据所述待分析数据项的名称以及所述预设的标准词库对标准数据项的要求确定。
41.如权利要求40所述的标准词库的构建方法,其特征在于,所述标准词库中的标准数据项的名称包括:标准数据项的中文名称、英文名称、英文简称中的至少之一。
42.如权利要求40所述的标准词库的构建方法,其特征在于,确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配,包括:
对所述待分析数据项的名称进行相似词语扩展;
在扩展后的词语中,存在与预设的标准词库中的任一标准数据项的名称一致的词语时,确定所述待分析数据项的名称与所述标准词库中的标准数据项的名称匹配;否则,确定所述待分析数据项的名称与所述标准词库中的标准数据项的名称均不匹配。
43.如权利要求40-42任一项所述的标准词库的构建方法,其特征在于,在获取待分析数据项之后,确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配之前,所述方法还包括:
对所述待分析数据项对应的实际数据内容进行分析,确定所述待分析数据项的实际名称;
根据所述实际名称确定所述待分析数据项的名称是否正确;
在不正确时,将所述待分析数据项的名称修改为所述实际名称。
44.一种数据生成装置,其特征在于,包括:
数据生成模块,用于响应于数据生成指令,生成目标数据,其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
45.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取待转换数据;
第一处理模块,用于将所述待转换数据转换为目标数据;
其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
46.一种数据处理装置,其特征在于,包括:
第二获取模块,用于获取目标数据;
第二处理模块,用于响应于数据处理指令,处理所述目标数据;
其中,所述目标数据中的标准数据项满足预设的标准词库的要求;
所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一。
47.一种标准词库的构建装置,其特征在于,包括:
第三获取模块,用于获取待分析数据项的名称;
确定模块,用于确定所述待分析数据项的名称与预设的标准词库中的任一标准数据项的名称是否匹配,所述预设的标准词库对标准数据项的要求,包括:命名规则统一、定义统一、参照标准统一和口径统一;
操作模块,用于在不匹配时,在所述标准词库中增加所述待分析数据项对应的标准数据项的名称,所述标准数据项的名称根据所述待分析数据项的名称以及所述预设的标准词库对标准数据项的要求确定。
48.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器用于执行所述存储器中存储的一个或者多个指令,以实现如权利要求1至43任一项所述的方法。
49.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有一个或多个指令,所述指令可被处理器执行,以实现如权利要求1至43任一项所述的方法。
CN202210655639.8A 2022-06-10 2022-06-10 数据生成方法、数据处理方法、装置、电子设备及介质 Pending CN115033451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210655639.8A CN115033451A (zh) 2022-06-10 2022-06-10 数据生成方法、数据处理方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210655639.8A CN115033451A (zh) 2022-06-10 2022-06-10 数据生成方法、数据处理方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN115033451A true CN115033451A (zh) 2022-09-09

Family

ID=83123792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210655639.8A Pending CN115033451A (zh) 2022-06-10 2022-06-10 数据生成方法、数据处理方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115033451A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431863A (zh) * 2023-06-13 2023-07-14 北京大数据先进技术研究院 数字对象的生成方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431863A (zh) * 2023-06-13 2023-07-14 北京大数据先进技术研究院 数字对象的生成方法、装置、电子设备及可读存储介质
CN116431863B (zh) * 2023-06-13 2023-09-12 北京大数据先进技术研究院 数字对象的生成方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
US10628577B2 (en) Identifying software components in a software codebase
CN110119292B (zh) 系统运行参数查询方法、匹配方法、装置及节点设备
CN108667840B (zh) 注入漏洞检测方法及装置
CN108762898B (zh) 一种线程接口的管理方法、终端设备及计算机可读存储介质
CN115061721A (zh) 一种报表生成方法、装置、计算机设备及存储介质
CN114500690B (zh) 接口数据处理方法、装置、电子设备及存储介质
CN109617647A (zh) 报文转换方法、装置、计算机设备及计算机可读存储介质
CN113360519B (zh) 数据处理方法、装置、设备和存储介质
CN110688096B (zh) 包含插件的应用程序的构建方法、装置、介质及电子设备
JP2022031625A (ja) 情報をプッシュするための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
CN112540862A (zh) 一种接口文档数据生成方法、装置、设备及存储介质
CN110737425B (zh) 一种计费平台系统的应用程序的建立方法及装置
CN111881094B (zh) 日志中关键信息提取方法、装置、终端及存储介质
CN115033451A (zh) 数据生成方法、数据处理方法、装置、电子设备及介质
CN113434506A (zh) 数据管理及检索方法、装置、计算机设备及可读存储介质
CN111324645B (zh) 区块链的数据处理方法及装置
WO2023151397A1 (zh) 应用程序部署方法、装置、设备及介质
CN114186958A (zh) 将列表数据导出为电子表格的方法、计算设备及存储介质
CN111585897B (zh) 请求路由管理方法、系统、计算机系统及可读存储介质
CN114281761A (zh) 一种数据文件加载方法、装置、计算机设备及存储介质
CN114374686A (zh) 基于浏览器的文件处理方法、装置和设备
CN111580799A (zh) 领域特定语言脚本拼装方法及系统
CN111488287A (zh) 注入漏洞测试用例的生成方法、装置、介质及电子设备
CN113900895B (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN114785604A (zh) 一种动态日志解析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination