CN111368864A - 识别方法、可用性评估方法及装置、电子设备、存储介质 - Google Patents

识别方法、可用性评估方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111368864A
CN111368864A CN201811597205.7A CN201811597205A CN111368864A CN 111368864 A CN111368864 A CN 111368864A CN 201811597205 A CN201811597205 A CN 201811597205A CN 111368864 A CN111368864 A CN 111368864A
Authority
CN
China
Prior art keywords
attribute information
information
matching
component
component instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811597205.7A
Other languages
English (en)
Inventor
严明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811597205.7A priority Critical patent/CN111368864A/zh
Publication of CN111368864A publication Critical patent/CN111368864A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Abstract

本说明书一个或多个实施例提供一种识别方法、可用性评估方法及装置、电子设备、存储介质,该方法可以包括:获取待识别进程的属性信息;将所述属性信息与特征库进行匹配,所述特征库包括预置特征和特征分类信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;其中,所述预置特征提取自历史进程的属性信息;根据匹配结果确定所述待识别进程所属的组件实例的类别信息。

Description

识别方法、可用性评估方法及装置、电子设备、存储介质
技术领域
本说明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种识别方法、可用性评估方法及装置、电子设备、存储介质。
背景技术
进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。通过获知进程与组件或组件实例之间的对应关系,可以对组件推荐可用性建议或演练场景,从而有助于完成相关组件的高可用能力建设。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种识别方法、可用性评估方法及装置、电子设备、存储介质。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种识别方法,包括:
获取待识别进程的属性信息;
将所述属性信息与特征库进行匹配,所述特征库包括预置特征和特征分类信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;其中,所述预置特征提取自历史进程的属性信息;
根据匹配结果确定所述待识别进程所属的组件实例的类别信息。
根据本说明书一个或多个实施例的第二方面,提出了一种识别装置,包括:
获取单元,获取待识别进程的属性信息;
匹配单元,将所述属性信息与特征库进行匹配,所述特征库包括预置特征和特征分类信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;其中,所述预置特征提取自历史进程的属性信息;
根据匹配结果确定所述待识别进程所属的组件实例的类别信息。
根据本说明书一个或多个实施例的第三方面,提出了一种可用性评估方法,包括:
将待评估应用对应的待识别进程的属性信息与特征库进行匹配,以根据匹配结果确定所述待识别进程所属的组件实例的类别信息;其中,所述特征库包括预置特征和特征分类信息,所述预置特征提取自历史进程的属性信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;
确定所述待识别进程所属的组件实例对应的组件类别;
根据所述待识别进程对应的组件类别,对所述待评估应用进行可用性评估。
根据本说明书一个或多个实施例的第四方面,提出了一种可用性评估装置,包括:
匹配单元,将待评估应用对应的待识别进程的属性信息与特征库进行匹配,以根据匹配结果确定所述待识别进程所属的组件实例的类别信息;其中,所述特征库包括预置特征和特征分类信息,所述预置特征提取自历史进程的属性信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;
确定单元,确定所述待识别进程所属的组件实例对应的组件类别;
评估单元,根据所述待识别进程对应的组件类别,对所述待评估应用进行可用性评估。
根据本说明书一个或多个实施例的第五方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现如第一方面所述的方法。
根据本说明书一个或多个实施例的第六方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现如第三方面所述的方法。
根据本说明书一个或多个实施例的第七方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
根据本说明书一个或多个实施例的第八方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第三方面所述方法的步骤。
附图说明
图1是一示例性实施例提供的一种识别系统的架构示意图。
图2A是一示例性实施例提供的一种识别方法的流程图。
图2B是一示例性实施例提供的一种可用性评估方法的流程图。
图3是一示例性实施例提供的一种预先生成特征库与组件库的流程示意图。
图4是一示例性实施例提供的一种通过机器学习实现特征提取的示意图。
图5是一示例性实施例提供的一种识别组件类别的示意图。
图6是一示例性实施例提供的一种设备的结构示意图。
图7是一示例性实施例提供的一种识别装置的框图。
图8是一示例性实施例提供的另一种设备的结构示意图。
图9是一示例性实施例提供的一种可用性评估装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
通过本说明书的技术方案,可以实现应用高可用服务(Application HighAvailability Service,即AHAS),从而协助于提升应用的高可用能力,实现应用的高可用能力建设。其中,本说明书的技术方案可以对进程进行准确识别,以获知进程与组件或组件实例之间的对应关系,从而可以实施针对性的可用性评估或故障场景的演练,进而准确获知应用的可用性情况,以针对性的实施改进。下面结合实施例,对进程的识别过程进行详细描述。
在一实施例中,本说明书的识别方案可以应用于电子设备中,例如该电子设备可以包括手机、平板设备、笔记本电脑、掌上电脑(PDAs,Personal Digital Assistants)、可穿戴设备(如智能眼镜、智能手表等)、工业控制计算机等任意类型,本说明书并不对此进行限制。在运行过程中,该电子设备可以获取待识别进程的相关信息,以用于识别其所属的组件实例的类别信息。
图1是一示例性实施例提供的一种识别系统的架构示意图。如图1所示,该系统可以包括服务器11、网络12、若干电子设备,比如PC13、PC14等。
服务器11可以为包含一独立主机的物理服务器,或者该服务器11可以为主机集群承载的虚拟服务器。在运行过程中,服务器11可以运行某一应用的服务器侧的程序,以实现为该应用的服务端。而在本说明书一个或多个实施例的技术方案中,可由服务器11通过与PC13-14上运行的客户端进行配合,以实现本说明书的识别方案。
PC13-14只是可以使用的一种类型的电子设备。实际上,显然还可以使用诸如下述类型的电子设备:平板设备、笔记本电脑、掌上电脑(PDAs,Personal DigitalAssistants)、可穿戴设备(如智能眼镜、智能手表等)、工业控制计算机等,本说明书一个或多个实施例并不对此进行限制。在运行过程中,该电子设备可以运行某一应用的客户端侧的程序,以实现为该应用的客户端,通过人机交互获取用户对服务器11的控制指令,以及将服务器11的输入信息、处理过程或处理结果向用户进行输出展示。其中,上述应用的客户端的应用程序可以被预先安装在电子设备上,使得该客户端可以在该电子设备上被启动并运行;当然,当采用诸如HTML5技术的在线“客户端”时,无需在电子设备上安装相应的应用程序,即可获得并运行该客户端。
而对于PC13-14与服务器11之间进行交互的网络12,可以包括多种类型的有线或无线网络。在一实施例中,该网络12可以包括公共交换电话网络(Public SwitchedTelephone Network,PSTN)和因特网。
图2A是一示例性实施例提供的一种识别方法的流程图。如图2A所示,该方法可以包括以下步骤:
步骤202A,获取待识别进程的属性信息。
在一实施例中,可以在进程运行的过程中,实时(即无故意延迟地实施)获取待识别进程的属性信息;或者,可以在其他任意时刻获取待识别进程的属性信息,本说明书并不对此进行限制。
在一实施例中,属性信息可以包括以下至少之一:命令行、端口号、文件拓扑等;实际上,任何能够反馈待识别进程的特点的信息,均可以作为此处的属性信息。
步骤204A,将所述属性信息与特征库进行匹配,所述特征库包括预置特征和特征分类信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;其中,所述预置特征提取自历史进程的属性信息。
在一实施例中,通过对历史进程的属性信息及其所属的组件实例类别进行分析处理,可以得到相应的特征库,以用于识别待识别进程所属的组件实例,而无需建立对组件类别的识别规则,也不需要考虑对识别规则的变更与升级,既可以避免对识别规则的维护所需消耗的大量精力,又可以避免升级不及时而导致的准确率下降问题。
在一实施例中,可以通过机器学习的方式对历史进程的属性信息及其所属的组件实例类别进行处理,以得到相应的特征库。例如,根据所述历史进程所属的组件实例类别进行有监督训练得到聚类模型;通过所述聚类模型对所述历史进程的属性信息对应的采样特征进行聚类处理,得到划分至各个组件实例类别的所述预置特征,以配置得到所述特征库。由于特征库的创建与维护是基于机器学习的方式而自动完成,而机器学习的算法通常不变且维护便捷,因而可以极大地降低对特征库的维护成本;同时,当组件或组件实例存在任何版本更新时,只需要对训练所用的历史进程进行更新,即可实现对特征库的更新升级,维护成本极低。
在一实施例中,除了上述有监督训练的方式之外,本说明书的实施例中还可以采用无监督学习的方式实现特征提取、得到特征库,本说明书并不对此进行限制。
在一实施例中,可以对所述聚类模型的输出结果进行效果验证,比如可以通过预先准备的验证集对该输出结果进行效果验证,验证参数可以包括诸如对组件实例类别的识别准确率等,本说明书并不对此进行限制。当通过验证时,可以将该输出结果应用于形成特征库;当未通过验证时,可以将所述聚类模型的输出结果作为训练数据,以用于对所述聚类模型进行迭代训练,从而通过多次迭代训练来提升聚类模型的输出结果的有效性,确保特征库能够满足识别需求。
在一实施例中,所述特征分类信息可由所述预置特征和所述历史进程所属的组件实例类别而确定;或者,特征分类信息还可以通过其他方式而得到,比如根据经验进行设定等,本说明书并不对此进行限制。
在一实施例中,可以根据所述属性信息的维度信息,选取相应的匹配算法将所述属性信息与特征库进行匹配,以得到所述匹配结果。获得的待识别进程的属性信息可以包括一个或多个维度;当获得一个维度时,可以根据该维度的维度信息(即该维度为何种维度),选取对应于该维度信息的匹配算法,以得到准确的匹配结果。
在一实施例中,当获得的待识别进程的属性信息存在多个维度时,各个维度的属性信息可以分别由多个数据采集进程对所述待识别进程进行采集而得到。在一种情况下,由于各个数据采集进程对采集结果的返回速度不同,可以在每当获得任一维度的属性信息时,无需等待其他维度的属性信息,就通过相应的匹配算法将所述任一维度的属性信息与特征库进行匹配,既可以对处理资源合理分配、避免对处理资源的需求突变(在获得所有维度的属性信息之前,由于不实施匹配而对处理资源的需求极低,在获得所有维度的属性信息之后,由于需要对各个维度的属性信息实施匹配而对处理资源的需求暴涨),又有助于提升对属性信息的匹配效率。在另一种情况下,可以通过对应于所述多个维度的属性信息的匹配算法,将所述任一维度的属性信息与特征库进行匹配,以得到所述匹配结果;换言之,选用的匹配算法对应于所有维度的属性信息,可以针对这些属性信息实施统一的匹配处理。
在一实施例中,通过采用多维度的属性信息,相比于单一维度或较少维度的属性信息而言,能够提升对待识别进程所属的组件实例的类别信息的识别准确率。例如,当采用的属性信息的维度越多时,所实现的识别准确率相对越高。
步骤206A,根据匹配结果确定所述待识别进程所属的组件实例的类别信息。
在一实施例中,可以根据组件实例分类信息,确定所述待识别进程所属的组件实例对应的组件类别;其中,所述组件实例分类信息用于描述组件实例类别与组件类别之间的对应关系。例如,可以分别获取各个已有对象(比如各个厂商)对组件实例的分类情况,并通过对该分类情况进行统计,从而按照统计结果确定出各个组件实例所属的组件类别,以建立上述的组件实例分类信息;其中,可以定期对各个对象的分类情况进行收集,并据此对组件实例分类信息进行更新。再例如,可以根据实际需求,创建组件实例与组件类别之间的对应关系,以得到上述的组件实例类型信息;其中,可以根据实际需求,对组件实例类型信息进行更新。
图2B是一示例性实施例提供的一种识别方法的流程图。如图2A所示,该方法可以包括以下步骤:
步骤202B,将待评估应用对应的待识别进程的属性信息与特征库进行匹配,以根据匹配结果确定所述待识别进程所属的组件实例的类别信息;其中,所述特征库包括预置特征和特征分类信息,所述预置特征提取自历史进程的属性信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别。
在一实施例中,可以在进程运行的过程中,实时(即无故意延迟地实施)获取待识别进程的属性信息;或者,可以在其他任意时刻获取待识别进程的属性信息,本说明书并不对此进行限制。
在一实施例中,属性信息可以包括以下至少之一:命令行、端口号、文件拓扑等;实际上,任何能够反馈待识别进程的特点的信息,均可以作为此处的属性信息。
在一实施例中,通过对历史进程的属性信息及其所属的组件实例类别进行分析处理,可以得到相应的特征库,以用于识别待识别进程所属的组件实例,而无需建立对组件类别的识别规则,也不需要考虑对识别规则的变更与升级,既可以避免对识别规则的维护所需消耗的大量精力,又可以避免升级不及时而导致的准确率下降问题。
在一实施例中,可以通过机器学习的方式对历史进程的属性信息及其所属的组件实例类别进行处理,以得到相应的特征库。例如,根据所述历史进程所属的组件实例类别进行有监督训练得到聚类模型;通过所述聚类模型对所述历史进程的属性信息对应的采样特征进行聚类处理,得到划分至各个组件实例类别的所述预置特征,以配置得到所述特征库。由于特征库的创建与维护是基于机器学习的方式而自动完成,而机器学习的算法通常不变且维护便捷,因而可以极大地降低对特征库的维护成本;同时,当组件或组件实例存在任何版本更新时,只需要对训练所用的历史进程进行更新,即可实现对特征库的更新升级,维护成本极低。
在一实施例中,除了上述有监督训练的方式之外,本说明书的实施例中还可以采用无监督学习的方式实现特征提取、得到特征库,本说明书并不对此进行限制。
在一实施例中,可以对所述聚类模型的输出结果进行效果验证,比如可以通过预先准备的验证集对该输出结果进行效果验证,验证参数可以包括诸如对组件实例类别的识别准确率等,本说明书并不对此进行限制。当通过验证时,可以将该输出结果应用于形成特征库;当未通过验证时,可以将所述聚类模型的输出结果作为训练数据,以用于对所述聚类模型进行迭代训练,从而通过多次迭代训练来提升聚类模型的输出结果的有效性,确保特征库能够满足识别需求。
在一实施例中,所述特征分类信息可由所述预置特征和所述历史进程所属的组件实例类别而确定;或者,特征分类信息还可以通过其他方式而得到,比如根据经验进行设定等,本说明书并不对此进行限制。
在一实施例中,可以根据所述属性信息的维度信息,选取相应的匹配算法将所述属性信息与特征库进行匹配,以得到所述匹配结果。获得的待识别进程的属性信息可以包括一个或多个维度;当获得一个维度时,可以根据该维度的维度信息(即该维度为何种维度),选取对应于该维度信息的匹配算法,以得到准确的匹配结果。
在一实施例中,当获得的待识别进程的属性信息存在多个维度时,各个维度的属性信息可以分别由多个数据采集进程对所述待识别进程进行采集而得到。在一种情况下,由于各个数据采集进程对采集结果的返回速度不同,可以在每当获得任一维度的属性信息时,无需等待其他维度的属性信息,就通过相应的匹配算法将所述任一维度的属性信息与特征库进行匹配,既可以对处理资源合理分配、避免对处理资源的需求突变(在获得所有维度的属性信息之前,由于不实施匹配而对处理资源的需求极低,在获得所有维度的属性信息之后,由于需要对各个维度的属性信息实施匹配而对处理资源的需求暴涨),又有助于提升对属性信息的匹配效率。在另一种情况下,可以通过对应于所述多个维度的属性信息的匹配算法,将所述任一维度的属性信息与特征库进行匹配,以得到所述匹配结果;换言之,选用的匹配算法对应于所有维度的属性信息,可以针对这些属性信息实施统一的匹配处理。
在一实施例中,通过采用多维度的属性信息,相比于单一维度或较少维度的属性信息而言,能够提升对待识别进程所属的组件实例的类别信息的识别准确率。例如,当采用的属性信息的维度越多时,所实现的识别准确率相对越高。
步骤204B,确定所述待识别进程所属的组件实例对应的组件类别。
在一实施例中,可以根据组件实例分类信息,确定所述待识别进程所属的组件实例对应的组件类别;其中,所述组件实例分类信息用于描述组件实例类别与组件类别之间的对应关系。例如,可以分别获取各个已有对象(比如各个厂商)对组件实例的分类情况,并通过对该分类情况进行统计,从而按照统计结果确定出各个组件实例所属的组件类别,以建立上述的组件实例分类信息;其中,可以定期对各个对象的分类情况进行收集,并据此对组件实例分类信息进行更新。再例如,可以根据实际需求,创建组件实例与组件类别之间的对应关系,以得到上述的组件实例类型信息;其中,可以根据实际需求,对组件实例类型信息进行更新。
步骤206B,根据所述待识别进程对应的组件类别,对所述待评估应用进行可用性评估。
图3是一示例性实施例提供的一种预先生成特征库与组件库的流程示意图。如图3所示,该流程可以包括以下步骤:
步骤302,获取数据源。
在一实施例中,数据源可以包括历史进程的属性信息和该历史进程所属的组件实例类别。本说明书并不限制数据源的来源:比如可以包括内部数据源,即从具有管理权限的设备或设备集群中产生;再比如可以包括外部数据源,譬如外部开放的组件的运行态进程数据等。
在一实施例中,历史进程的属性信息可以包括命令行(Command Line)、端口号(port)、文件拓扑(File Topology)等中的一种或多种类型,本说明书并不对此进行限制。当属性信息的类型越多时,后续的识别准确度往往越高。
步骤304,针对数据源中的原始数据进行预处理。
在一实施例中,可以通过对数据源中的原始数据进行预处理,将原始数据转换为符合规范的数据格式。该过程可以参考相关技术中的数据预处理方案,本说明书并不对此进行限制。
步骤306,针对预处理后的规范数据进行数据清洗。
在一实施例中,在对预处理后的规范数据进行数据清洗时,可以包括对该规范数据实施降噪处理,比如剔除异常值、无效值,再比如对缺失值进行插值补充等。该过程可以参考相关技术中的数据清洗方案,本说明书并不对此进行限制。
步骤308,针对清洗后的规范数据进行特征提取,得到输出的特征集合。
在一实施例中,可以通过如图4所示的机器学习的处理方式,获得上述的特征集合。图4是一示例性实施例提供的一种通过机器学习实现特征提取的示意图。如图4所示:在步骤402中,可以针对上述清洗后的规范数据进行采样,得到相应的训练样本,所采用的技术手段采可以参考相关技术中的样算法。在步骤404中,可以针对获得的训练样本进行模型训练;其中,训练样本可以采用“特征——组件实例类别”的逻辑结构,即将特征作为输入、将组件实例类别(根据特征所属的历史进程以及该历史进程实际对应的组件实例类别而确定)作为输出,从而通过有监督学习的方式训练得到相应的机器学习模型,比如该模型可以为聚类模型。在步骤406中,利用训练得到的聚类模型对训练样本中的特征进行聚类处理。在步骤408中,根据聚类模型的输出结果,提取对应于各个组件实例类别的特征集合。在步骤410中,利用历史进程所形成的验证集,对提取的特征集合进行验证;比如根据验证集中的历史进程的属性信息确定匹配算法,并基于该匹配算法将验证集中的历史进程的属性信息与提取的特征集合进行匹配,从而将匹配结果与历史进程实际对应的组件实例类别进行比较,当准确率达到预设要求(如不小于95%)时,可以判定为通过验证,否则判定为未通过验证。当未通过验证时,可以将提取的特征集合重新处理应用于模型训练,从而实现对聚类模型的多次迭代训练,直至通过验证。
步骤310,针对输出的特征集合对应的组件类别进行打标。
在一实施例中,根据各个特征集合分别对应的组件实例类别,以及针对各个组件实例类别对应的组件类别,可以实施打标处理,从而将打标后的特征沉淀至特征库中、将组件实例类别与组件类别之间的对应关系沉淀至组件库中。
步骤312,根据组件过滤库对不关注的组件或组件实例对应的特征进行滤除。
根据图3所示实施例中获得的特征库和组件库,可以用于识别进程所属组件的类别。例如,图5是一示例性实施例提供的一种识别组件类别的示意图。如图5所示,识别组件类型的过程可以包括以下步骤:
步骤502,获取待识别进程的属性信息。
在一实施例中,与步骤302相类似的,待识别进程的属性信息可以包括命令行、端口号、文件拓扑等多个维度中至少之一,本说明书并不对此进行限制。其中,所获得的待识别进程的属性信息的维度应当不超出步骤302中历史进程的属性信息的维度,比如当历史进程的属性维度为命令行、端口号和文件拓扑时,所获得的待识别进程的属性信息的维度可以为命令行、端口号和文件拓扑中的一个或多个,而其他维度可能无法应用于对组件类别的识别过程。
步骤504,通过调用数据匹配算法,将待识别进程的属性信息与特征库、组件库进行匹配,以确定出匹配结果。
在一实施例中,如果获取的待识别进程的属性信息仅为单一维度,可以选取对应于该单一维度的数据匹配算法(比如余弦相似度算法等,本说明书并不对此进行限制),并基于该数据匹配算法对该维度的属性信息和特征库、组件库进行匹配。由于特征库中记录有特征与组件实例类别之间的对应关系,而组件库中记录有组件实例类别与组件类别之间的对应关系,因而可以根据特征库确定出待识别进程所属组件实例的类别信息,并进一步根据组件库确定出该组件实例所属的组件类别、即确定出待识别进程所属组件的类别信息。
举例而言,根据特征库可以识别出某一待识别进程所属的组件实例为redis、nginx、tomcat或mongodb等,而根据组件库可以进一步将该组件实例划分至数据库、缓存、http服务器、消息中间件等组件类别。其中,组件实例与组件之间的对应关系并不固定,而是基于实际需求、应用习惯等存在一定差异,比如可以参考多家企业的分类方式,并结合大部分企业的分类方式以及自身需求,确定出上述组件库,从而基于该组件库得到待识别组件所属的组件类别。
在一实施例中,如果获取的待识别进程的属性信息为多维度,可以选取对应于多维度的属性信息的数据匹配算法,该数据匹配算法可以添加针对各个维度的属性信息的权重考量,结合特征库和组件库确定出待识别进程所属的组件类别。
在一实施例中,当获取的待识别进程的属性信息为多维度时,由于是通过多个数据采集进程分别对各个维度的属性信息进行采集,因而对各个维度的属性信息的获取时刻存在先后顺序。相应地,在获得每一维度的属性信息后,可以选取对应于该维度的数据匹配算法,并结合特征库计算相应的匹配结果;然后,在获得各个维度的属性信息分别对应的匹配结果后,对各个匹配结果进行综合处理(如加权处理),并进一步结合组件库最终确定出待识别进程对应的组件类别。
图6是一示例性实施例提供的一种设备的示意结构图。请参考图6,在硬件层面,该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610,当然还可能包括其他业务所需要的硬件。处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行,在逻辑层面上形成识别装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图7,在软件实施方式中,该识别装置可以包括:
获取单元71,获取待识别进程的属性信息;
匹配单元72,将所述属性信息与特征库进行匹配,所述特征库包括预置特征和特征分类信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;其中,所述预置特征提取自历史进程的属性信息;
第一确定单元73,根据匹配结果确定所述待识别进程所属的组件实例的类别信息。
可选的,还包括:
训练单元74,根据所述历史进程所属的组件实例类别进行有监督训练得到聚类模型;
处理单元75,通过所述聚类模型对所述历史进程的属性信息对应的采样特征进行聚类处理,得到划分至各个组件实例类别的所述预置特征,以配置得到所述特征库。
可选的,还包括:
验证单元76,对所述聚类模型的输出结果进行效果验证;
当未通过验证时,所述训练单元74将所述聚类模型的输出结果作为训练数据,以用于对所述聚类模型进行迭代训练。
可选的,所述特征分类信息由所述预置特征和所述历史进程所属的组件实例类别而确定。
可选的,还包括:
第二确定单元77,根据组件实例分类信息,确定所述待识别进程所属的组件实例对应的组件类别;
其中,所述组件实例分类信息用于描述组件实例类别与组件类别之间的对应关系。
可选的,所述匹配单元72具体用于:
根据所述属性信息的维度信息,选取相应的匹配算法将所述属性信息与特征库进行匹配,以得到所述匹配结果。
可选的,所述属性信息存在多个维度,分别由多个数据采集进程对所述待识别进程进行采集而得到;所述匹配单元72具体用于:
当获得任一维度的属性信息时,通过相应的匹配算法将所述任一维度的属性信息与特征库进行匹配;
综合各个维度的属性信息分别对应的匹配信息,以得到所述匹配结果。
可选的,所述属性信息存在多个维度,分别由多个数据采集进程对所述待识别进程进行采集而得到;所述匹配单元72具体用于:
通过对应于所述多个维度的属性信息的匹配算法,将所述任一维度的属性信息与特征库进行匹配,以得到所述匹配结果。
可选的,所述属性信息包括以下至少之一:
命令行、端口号、文件拓扑。
图8是一示例性实施例提供的一种设备的示意结构图。请参考图8,在硬件层面,该设备包括处理器802、内部总线804、网络接口806、内存808以及非易失性存储器810,当然还可能包括其他业务所需要的硬件。处理器802从非易失性存储器810中读取对应的计算机程序到内存808中然后运行,在逻辑层面上形成可用性评估装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图9,在软件实施方式中,该可用性评估装置可以包括:
匹配单元91,将待评估应用对应的待识别进程的属性信息与特征库进行匹配,以根据匹配结果确定所述待识别进程所属的组件实例的类别信息;其中,所述特征库包括预置特征和特征分类信息,所述预置特征提取自历史进程的属性信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;
确定单元92,确定所述待识别进程所属的组件实例对应的组件类别;
评估单元93,根据所述待识别进程对应的组件类别,对所述待评估应用进行可用性评估。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (17)

1.一种识别方法,其特征在于,包括:
获取待识别进程的属性信息;
将所述属性信息与特征库进行匹配,所述特征库包括预置特征和特征分类信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;其中,所述预置特征提取自历史进程的属性信息;
根据匹配结果确定所述待识别进程所属的组件实例的类别信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述历史进程所属的组件实例类别进行有监督训练得到聚类模型;
通过所述聚类模型对所述历史进程的属性信息对应的采样特征进行聚类处理,得到划分至各个组件实例类别的所述预置特征,以配置得到所述特征库。
3.根据权利要求2所述的方法,其特征在于,还包括:
对所述聚类模型的输出结果进行效果验证;
当未通过验证时,将所述聚类模型的输出结果作为训练数据,以用于对所述聚类模型进行迭代训练。
4.根据权利要求1所述的方法,其特征在于,所述特征分类信息由所述预置特征和所述历史进程所属的组件实例类别而确定。
5.根据权利要求1所述的方法,其特征在于,还包括:
根据组件实例分类信息,确定所述待识别进程所属的组件实例对应的组件类别;
其中,所述组件实例分类信息用于描述组件实例类别与组件类别之间的对应关系。
6.根据权利要求1所述的方法,其特征在于,所述将所述属性信息与特征库进行匹配,包括:
根据所述属性信息的维度信息,选取相应的匹配算法将所述属性信息与特征库进行匹配,以得到所述匹配结果。
7.根据权利要求1所述的方法,其特征在于,所述属性信息存在多个维度,分别由多个数据采集进程对所述待识别进程进行采集而得到;所述将所述属性信息与特征库进行匹配,包括:
当获得任一维度的属性信息时,通过相应的匹配算法将所述任一维度的属性信息与特征库进行匹配;
综合各个维度的属性信息分别对应的匹配信息,以得到所述匹配结果。
8.根据权利要求1所述的方法,其特征在于,所述属性信息存在多个维度,分别由多个数据采集进程对所述待识别进程进行采集而得到;所述将所述属性信息与特征库进行匹配,包括:
通过对应于所述多个维度的属性信息的匹配算法,将所述任一维度的属性信息与特征库进行匹配,以得到所述匹配结果。
9.根据权利要求1所述的方法,其特征在于,所述属性信息包括以下至少之一:
命令行、端口号、文件拓扑。
10.一种识别装置,其特征在于,包括:
获取单元,获取待识别进程的属性信息;
匹配单元,将所述属性信息与特征库进行匹配,所述特征库包括预置特征和特征分类信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;其中,所述预置特征提取自历史进程的属性信息;
第一确定单元,根据匹配结果确定所述待识别进程所属的组件实例的类别信息。
11.根据权利要求10所述的装置,其特征在于,所述特征分类信息由所述预置特征和所述历史进程所属的组件实例类别而确定。
12.一种可用性评估方法,其特征在于,包括:
将待评估应用对应的待识别进程的属性信息与特征库进行匹配,以根据匹配结果确定所述待识别进程所属的组件实例的类别信息;其中,所述特征库包括预置特征和特征分类信息,所述预置特征提取自历史进程的属性信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;
确定所述待识别进程所属的组件实例对应的组件类别;
根据所述待识别进程对应的组件类别,对所述待评估应用进行可用性评估。
13.一种可用性评估装置,其特征在于,包括:
匹配单元,将待评估应用对应的待识别进程的属性信息与特征库进行匹配,以根据匹配结果确定所述待识别进程所属的组件实例的类别信息;其中,所述特征库包括预置特征和特征分类信息,所述预置特征提取自历史进程的属性信息,所述特征分类信息用于描述所述预置特征对应的组件实例类别;
确定单元,确定所述待识别进程所属的组件实例对应的组件类别;
评估单元,根据所述待识别进程对应的组件类别,对所述待评估应用进行可用性评估。
14.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现如权利要求1-9中任一项所述的方法。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现如权利要求12所述的方法。
16.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
17.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求12所述方法的步骤。
CN201811597205.7A 2018-12-26 2018-12-26 识别方法、可用性评估方法及装置、电子设备、存储介质 Pending CN111368864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811597205.7A CN111368864A (zh) 2018-12-26 2018-12-26 识别方法、可用性评估方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811597205.7A CN111368864A (zh) 2018-12-26 2018-12-26 识别方法、可用性评估方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN111368864A true CN111368864A (zh) 2020-07-03

Family

ID=71211453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811597205.7A Pending CN111368864A (zh) 2018-12-26 2018-12-26 识别方法、可用性评估方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111368864A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931177A (zh) * 2020-07-16 2020-11-13 深信服科技股份有限公司 信息处理方法、装置、电子设备和计算机存储介质
CN112835853A (zh) * 2020-12-31 2021-05-25 北京聚云科技有限公司 一种数据处理类型确定方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069801A1 (en) * 2005-02-09 2006-03-30 Rich Charles R Method and apparatus for identifying and classifying network-based distributed applications
CN105975261A (zh) * 2016-04-28 2016-09-28 南开大学 一种面向统一接口调用的运行时系统及运行方法
US20160352591A1 (en) * 2015-06-01 2016-12-01 Opsclarity, Inc. Hierarchical service oriented application topology generation for a network
CN106302162A (zh) * 2016-08-23 2017-01-04 大连网月科技股份有限公司 一种基于客户端的应用类型智能识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069801A1 (en) * 2005-02-09 2006-03-30 Rich Charles R Method and apparatus for identifying and classifying network-based distributed applications
US20160352591A1 (en) * 2015-06-01 2016-12-01 Opsclarity, Inc. Hierarchical service oriented application topology generation for a network
CN105975261A (zh) * 2016-04-28 2016-09-28 南开大学 一种面向统一接口调用的运行时系统及运行方法
CN106302162A (zh) * 2016-08-23 2017-01-04 大连网月科技股份有限公司 一种基于客户端的应用类型智能识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931177A (zh) * 2020-07-16 2020-11-13 深信服科技股份有限公司 信息处理方法、装置、电子设备和计算机存储介质
CN111931177B (zh) * 2020-07-16 2023-12-29 深信服科技股份有限公司 信息处理方法、装置、电子设备和计算机存储介质
CN112835853A (zh) * 2020-12-31 2021-05-25 北京聚云科技有限公司 一种数据处理类型确定方法及装置
CN112835853B (zh) * 2020-12-31 2024-03-22 北京聚云科技有限公司 一种数据处理类型确定方法及装置

Similar Documents

Publication Publication Date Title
US10592666B2 (en) Detecting anomalous entities
US10452992B2 (en) Interactive interfaces for machine learning model evaluations
AU2019232799A1 (en) Service processing method and apparatus
US10878335B1 (en) Scalable text analysis using probabilistic data structures
US20200065710A1 (en) Normalizing text attributes for machine learning models
CN105488539B (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
US20210092160A1 (en) Data set creation with crowd-based reinforcement
US10452627B2 (en) Column weight calculation for data deduplication
WO2014058805A1 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN113051362B (zh) 数据的查询方法、装置和服务器
CN113228006A (zh) 检测连续事件中的异常的装置和方法及其计算机程序产品
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
CN106844550B (zh) 一种虚拟化平台操作推荐方法及装置
WO2020140624A1 (zh) 从日志中提取数据的方法和相关设备
CN110728526A (zh) 地址识别方法、设备以及计算机可读介质
CA3161416A1 (en) Intelligent conversion of internet domain names to vector embeddings
CN110046188A (zh) 业务处理方法及其系统
CN114598597B (zh) 多源日志解析方法、装置、计算机设备及介质
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质
WO2021051578A1 (zh) 性能特征降维方法及装置、电子设备及存储介质
Satish et al. Big data processing with harnessing hadoop-MapReduce for optimizing analytical workloads
CN110022343B (zh) 自适应事件聚合
US10074055B2 (en) Assisting database management
CN116225848A (zh) 日志监测方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination