CN117807481A

CN117807481A - 故障识别方法、模型的训练方法、装置、设备以及介质

Info

Publication number: CN117807481A
Application number: CN202410223841.2A
Authority: CN
Inventors: 张潇澜; 李峰
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-04-02
Anticipated expiration: 2044-02-28
Also published as: CN117807481B

Abstract

本发明实施例提供了一种故障识别方法、模型的训练方法、装置、设备以及介质，涉及数据处理领域，该方法包括：通过获取待识别日志数据，并基于故障识别模型中的特征提取模型，对待识别日志数据进行特征提取，得到特征提取向量；特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的；基于故障识别模型中的目标分类模型，对特征提取向量进行处理，得到目标故障对应的故障分类结果；故障分类结果用于表征目标故障对应的故障类型。这样，一定程度上增加了特征的表达维度，提高了特征提取向量的表达能力，并通过目标分类模型对特征提取向量进行处理得到故障分类结果，能够更准确的确定故障分类结果，提高了故障分类结果的准确性。

Description

故障识别方法、模型的训练方法、装置、设备以及介质

技术领域

本发明属于数据处理技术领域，特别是涉及一种故障识别方法、模型的训练方法、装置、设备以及介质。

背景技术

随着大数据技术的快速发展，加速了社会信息化的进步，企业运维技术也由传统的依赖人工转变为智能运维。在智能运维的过程中，智能故障诊断作为智能运维中的核心技术，能够实现及时发现问题，快速定位故障根因等功能，从而保障系统的安全性、稳定性和可用性。

相关技术中，往往通过在业务系统中的日志数据中搜索故障关键字，以输出当前故障现象对应的故障类型，但这种故障类型的识别方法，无法准确定位真实故障类型，并且逐一对日志数据中的信息进行关键字搜索，耗费的时间较长，因此，这种故障识别方法的准确度较低且识别效率较低。

发明内容

为克服相关技术中存在的问题，本发明提供了一种故障识别方法、模型的训练方法、装置、设备以及介质。

第一方面，本发明提供了一种故障识别方法，所述方法包括：

获取待识别日志数据；所述待识别日志数据用于记录目标故障对应的故障信息；

基于故障识别模型中的特征提取模型，对所述待识别日志数据进行特征提取，得到特征提取向量；所述特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的，所述特征提取向量用于表征所述待识别日志数据对应的多维度特征信息；

基于所述故障识别模型中的目标分类模型，对所述特征提取向量进行处理，得到所述目标故障对应的故障分类结果；所述故障分类结果用于表征所述目标故障对应的故障类型。

第二方面，本发明提供了一种故障识别模型的训练方法，所述方法包括：

获取待训练样本数据集；所述待训练样本数据集包括多个样本日志数据；

基于所述多个样本日志数据，对至少两个待训练语义模型进行训练，得到至少两个目标语义模型，并基于所述至少两个目标语义模型确定特征提取模型；

基于所述特征提取模型获取各所述样本日志数据对应的第一特征向量；所述第一特征向量用于表征所述样本日志数据对应的多维度特征信息；

基于所述多个样本日志数据对应的第一特征向量以及所述多个样本日志数据对应的类别标签，对待训练分类模型进行训练，得到目标分类模型；所述类别标签用于表征所述样本日志数据记录的故障所属的故障类型；

将所述特征提取模型以及所述目标分类模型确定为故障识别模型。

第三方面，本发明提供了一种故障识别装置，所述装置包括：

第一获取模块，用于获取待识别日志数据；所述待识别日志数据用于记录目标故障对应的故障信息；

第一提取模块，用于基于故障识别模型中的特征提取模型，对所述待识别日志数据进行特征提取，得到特征提取向量；所述特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的，所述特征提取向量用于表征所述待识别日志数据对应的多维度特征信息；

第一处理模块，用于基于所述故障识别模型中的目标分类模型，对所述特征提取向量进行处理，得到所述目标故障对应的故障分类结果；所述故障分类结果用于表征所述目标故障对应的故障类型。

第四方面，本发明提供了一种故障识别模型的训练装置，其特征在于，所述装置包括：

第二获取模块，用于获取待训练样本数据集；所述待训练样本数据集包括多个样本日志数据；

第一训练模块，用于基于所述多个样本日志数据，对至少两个待训练语义模型进行训练，得到至少两个目标语义模型，并基于所述至少两个目标语义模型确定特征提取模型；

第三获取模块，用于基于所述特征提取模型获取各所述样本日志数据对应的第一特征向量；所述第一特征向量用于表征所述样本日志数据对应的多维度特征信息；

第二训练模块，用于基于所述多个样本日志数据对应的第一特征向量以及所述多个样本日志数据对应的类别标签，对待训练分类模型进行训练，得到目标分类模型；所述类别标签用于表征所述样本日志数据记录的故障所属的故障类型；

第三确定模块，用于将所述特征提取模型以及所述目标分类模型确定为故障识别模型。

第五方面，本发明提供一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述第一方面中任一项所述的故障识别方法或故障识别模型的训练方法。

第六方面，本发明提供一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面中任一项实施例中的故障识别方法或故障识别模型的训练方法中的步骤。

本发明实施例中，通过获取待识别日志数据，并基于故障识别模型中的特征提取模型，对待识别日志数据进行特征提取，得到特征提取向量；特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的；基于故障识别模型中的目标分类模型，对特征提取向量进行处理，得到目标故障对应的故障分类结果；故障分类结果用于表征目标故障对应的故障类型。这样，可以通过对待识别日志数据的特征提取得到特征提取向量，特征提取向量用于表征待识别日志数据对应的多维度特征信息，一定程度上增加了特征的表达维度，提高了特征提取向量的表达能力，并通过目标分类模型对特征提取向量进行处理得到故障分类结果，从而能够更准确的确定故障分类结果，提高了故障分类结果的准确性。同时，相较于逐一对日志数据中的信息进行关键字搜索，自动化的进行故障识别，提高了故障分类结果的获取效率并且降低了故障分类结果的获取成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种故障识别方法的步骤流程图；

图2是本发明实施例提供的一种待识别日志数据的具体示例图；

图3是本发明实施例提供的一种故障识别模型的训练方法的步骤流程图；

图4是本发明实施例提供的一种特征提取模型的训练方法的步骤流程图；

图5是本发明实施例提供的一种故障识别模型的训练方法的具体步骤流程图；

图6是本发明实施例提供的一种故障识别装置的结构示意图；

图7是本发明实施例提供的一种故障识别模型的训练装置的结构示意图；

图8是本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种故障识别方法的步骤流程图，本发明实施例中的故障识别方法可以应用于智能运维平台，例如智能驾驶平台、智能服务平台等。本发明实施例可以适用于基于系统日志进行故障识别的情况，该方法可以由部署有故障识别模型的故障识别装置执行，该故障识别装置可采用软件和/或硬件的方式实现。

如图1所示，该方法可以包括：

步骤101、获取待识别日志数据；所述待识别日志数据用于记录目标故障对应的故障信息。

本发明实施例中，获取待识别日志数据，待识别日志数据用以记录系统运行时的变量信息、系统执行状态等，可以理解的是，待识别日志数据可以在系统中发生目标故障的情况下，对目标故障的故障信息进行记录。待识别日志数据可以是基于不同的数据源获取的，数据源可以是系统中用于存储不同类型的日志数据的存储单元。对待识别日志数据进行分析处理，可以确定目标故障所属的故障类型。示例性的，可以每间隔预设时长获取预设时间周期内的待识别日志数据进行后续处理。

可选地，步骤101可以包括以下步骤：

步骤1011、基于至少两个数据源，获取至少两个待处理日志数据。

本发明实施例中，在系统发生目标故障的情况下，系统会自动将该目标故障对应的故障信息进行记录，形成日志数据，由于目标故障对应的故障类型不同且一个故障现象可能会导致系统中多个部件生成对应的日志记录，因此，通常情况下，故障相关的日志数据会存储在至少两个数据源中。示例性的，如果一个部件发生了故障，这个故障会在关联部件之间进行传播，并会在不同部件表现出不同的日志记录。例如：硬盘出现故障，会产生一个硬盘相关的日志数据，同时，由于内存读取不到硬盘数据，则会产生内存相关的日志数据，以记录读不到硬盘数据的现象，或者在系统日志中会产生记录数据传输错误现象的日志数据等不同类型的日志数据。

基于至少两个数据源，获取至少两个待处理日志数据。其中，至少两个待处理日志数据可以包括时序指标数据、硬件厂商或者用户自定义的日志文本数据、经过BMC(Baseboard Management Controller，基板管理控制器)处理后的符合IPMI规范的日志数据等，本发明实施例对此不做限制。具体的，待处理日志数据的日志类型可以包括基板管理控制器（BMC）日志、处理器（CPU）日志、图形处理器（GPU）日志、磁盘阵列卡（RAID卡）日志、硬盘（SMART）日志等带内和带外日志。相应的，至少两个数据源可以包括时间序列数据库（Timeseries database，TSDB）、硬件厂商或者用户自定义的指定文件夹、BMC日志文件的默认路径（例如/var/log）等。示例性的，可以通过输入命令从至少两个数据源中获取至少两个待处理数据，或基于日志获取工具从至少两个数据源中获取至少两个待处理数据，本发明实施例对此不做限制。

步骤1012、将所述至少两个待处理日志数据进行规范化处理，得到至少两个待识别日志数据；所述至少两个待识别日志数据的格式相同。

本发明实施例中，对不同日志类型对应的至少两个待处理日志数据进行规范化处理，将规范化处理后的至少两个待处理日志数据确定为至少两个待识别日志数据。其中，至少两个待识别日志数据的格式相同，这样，可以便于后续利用故障识别模型对待识别日志数据进行处理。规范化处理可以包括统一格式以及信息提取，统一格式可以是基于信息提取后的待处理日志数据按照预设模板，生成待识别日志数据。信息提取可以包括关键词提取以及内容解析等处理操作。可以理解的是，规范化处理不会改变待处理日志数据表征的原本内容，而是作为一种内容整合以及格式统一的数据整理操作。

针对不同类型的待处理日志数据，可以选择对应的规范化处理方式进行处理。示例性的，当待处理日志数据为硬件厂商或者用户自定义的日志文本数据时，可以直接对日志文本数据进行关键信息提取，并基于提取到的关键信息，按照预设模板生成待识别日志数据。或，当待处理日志数据为BMC日志数据时，可以基于IPMI规范对BMC日志数据进行解析，并进行关键信息提取，基于提取到的关键信息，按照预设模板生成待识别日志数据。预设模板可以包括多个关键字段，各关键字段用于表征日志数据中的部分故障信息，各关键字段之间可以由分隔符进行分隔，例如分隔符可以为竖线“|”。示例性的，关键字段可以包括时间、部件名称、部件槽位、故障描述信息等。则预设模板可以为：“时间|部件名称|部件槽位|故障描述信息（field₁|field₂|……|field_t）”。可以理解的是，预设模板中的关键字段可以根据用户需求自行设置，本发明实施例对此不做限制。在待处理日志数据中提取到预设模板中的关键字段对应的待处理日志数据的实际关键信息的情况下，基于预设模板，生成待识别日志数据。将待识别日志数据可以按照时间先后顺序写入日志文件（log）中，则日志文件中存储有经规范化处理后的待识别日志数据对应的多行记录，每行记录包含若干个关键字段，不同关键字段之间使用分隔符进行分隔。

下面，本发明实施例示例性的说明不同类型的待处理日志数据所对应的规范化处理方式。

当待处理日志数据为Raid卡日志时，Raid卡日志属于带内日志，以MgEvtLog文件为例，对MgEvtLog文件进行规范化处理的方式可以包括：根据Raid卡的历史故障信息，构建与Raid卡相关的故障词库。其中，故障词库中可以包括描述故障的信息，例如invalid,error, disabled, reset, restart等关键词。在待处理日志数据中进行文字识别扫描，获取包含故障词库中描述故障的信息的目标段落内容。并从目标段落内容中查询用于表示时间的时间信息，例如字段“Time”，并将时间信息转换为规范的字段形式，作为时间。并且，在待处理日志数据中进行文字识别扫描，将字段“Event Description”对应的段落内容进行规范化处理，作为故障描述信息。将字段“device ID”作为slot_info，其传感器类型（sensor类型）为Raid卡。因此，规范化处理后的待处理日志数据的内容可以为：日期以及时间|sensor类型|slot_info|故障相关信息。

当待处理日志数据为smart日志时，Smart日志存在于文件夹“disk”中，也属于带内日志。获取待处理日志数据中的时间信息，并将其转换为规范的字段形式，传感器类型（sensor类型）记录为disk。在待处理日志数据中识别字段“Device is”，并将其对应的信息确定为slot_info的内容，故障相关信息可以来自于待处理日志数据中的attributes、rawvalue、type、thresh等字段，当字段type=failed时，且raw values大于thresh时，可以将attribute字段信息映射成为一个故障信息。根据不同的硬件设备，不同字段映射的故障相关信息内容可能不同。

可以理解的是，对于不同类型的待处理日志数据所对应的规范化处理方式包括但不限于上述处理方式，本发明实施例对此不做限制。

本发明实施例中，通过对待处理日志数据进行规范化处理，可以得到格式相同的至少两个待识别日志数据，便于后续基于故障识别模型进行故障识别的同时，对不同类型的待处理日志数据均可以进行故障识别，提高了故障识别的多样化以及普适性。

步骤102、基于故障识别模型中的特征提取模型，对所述待识别日志数据进行特征提取，得到特征提取向量；所述特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的，所述特征提取向量用于表征所述待识别日志数据对应的多维度特征信息。

本发明实施例中，故障识别模型用于对日志数据进行故障识别，以判断故障类型。故障识别模型中可以包括特征提取模型以及目标分类模型，其中，特征提取模型用于提取待识别日志数据对应的特征提取向量，目标分类模型用于基于待识别日志数据对应的特征提取向量进行故障识别，以确定故障类型。特征提取模型可以是基于多个目标语义模型融合得到的，不同目标语义模型用于提取待识别日志数据对应的不同维度的特征信息。相应的，基于特征提取模型提取得到的特征提取向量可以表征待识别日志数据对应的多维度特征信息。示例性的，至少两个目标语义模型可以包括句向量模型pv-dbow、句向量模型pv-dm, 双向语言模型（BERT模型），词向量模型（ELMO模型）等用于进行语义处理的自然语言处理模型。

特征提取模型可以是基于模型融合函数对至少两个目标语义模型进行融合得到的，相应的，特征提取模型输出的特征提取向量可以是基于至少两个目标语义模型输出的目标特征向量进行拼接得到的。也就是说，特征提取向量是基于至少两个目标语义模型输出的不同维度的目标特征向量得到的，特征提取向量相对于至少目标语义模型输出的不同维度的目标特征向量而言是一个更高维度的向量表示。

步骤103、基于所述故障识别模型中的目标分类模型，对所述特征提取向量进行处理，得到所述目标故障对应的故障分类结果；所述故障分类结果用于表征所述目标故障对应的故障类型。

本发明实施例中，基于故障识别模型中的目标分类模型，对待识别日志数据对应的特征提取向量进行识别处理，得到目标分类模型输出的输出结果，基于输出结果，可以确定目标故障对应的故障分类结果。输出结果可以是故障分类结果可以表征目标故障对应的故障类型，故障分类结果可以包括输出结果中概率值最高的一种故障类型，或至少两种故障类型以及各故障类型对应的概率值。

综上所述，本发明实施例中，通过获取待识别日志数据，并基于故障识别模型中的特征提取模型，对待识别日志数据进行特征提取，得到特征提取向量；特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的；基于故障识别模型中的目标分类模型，对特征提取向量进行处理，得到目标故障对应的故障分类结果；故障分类结果用于表征目标故障对应的故障类型。这样，可以通过对待识别日志数据的特征提取得到特征提取向量，特征提取向量用于表征待识别日志数据对应的多维度特征信息，一定程度上增加了特征的表达维度，提高了特征提取向量的表达能力，并通过目标分类模型对特征提取向量进行处理得到故障分类结果，从而能够更准确的确定故障分类结果，提高了故障分类结果的准确性。同时，相较于逐一对日志数据中的信息进行关键字搜索，自动化的进行故障识别，提高了故障分类结果的获取效率并且降低了故障分类结果的获取成本。

可选地，步骤102可以包括以下步骤：

步骤201、对所述待识别日志数据中包含的指定字段进行编码，得到所述待识别日志数据对应的特征编码信息。

本发明实施例中，待识别日志数据中包含多个关键字段，在对待识别日志数据进行编码时，可以对待识别日志数据中的指定字段进行编码。其中，指定字段可以包括待识别日志数据中的全部关键字段，也可以包括待识别日志数据中的部分关键字段，具体可以根据实际需求进行设定。指定字段可以包括待识别日志数据中的部件名称、部件位置以及故障相关信息。示例性的，可以选择待识别日志数据中的描述“部件名称、部件槽位、故障描述信息”的字段内容作为指定字段，以图2中“2023-10-28 16:37:33|Processor|CPU0|Configuration error|Assert”为例，则指定字段为“Processor|CPU0|Configurationerror”，对指定字段进行编码，得到特征编码信息。编码方式可以采用独热编码（one-hot），也可以适应性的采用其它编码方式（例如分布式表示Distributed representation等），可以理解的是，本发明实施例对编码方式不做限制。

步骤202、将所述特征编码信息输入所述故障识别模型中的特征提取模型，并获取所述特征提取模型输出的特征提取向量。

本发明实施例中，将特征编码信息输入故障识别模型中的特征提取模型，由特征提取模型对特征编码信息进行特征提取，并由特征提取模型输出特征提取向量。

可选地，步骤202可以包括以下步骤：

步骤2021、基于所述特征提取模型中的各目标语义模型，分别获取所述特征编码信息对应的目标特征向量。

本发明实施例中，特征提取模型是基于至少两个目标语义模型得到的，因此，将特征编码信息输入特征提取模型后，特征提取模型中的至少两个目标语义模型会分别对特征编码信息进行特征提取，得到目标特征向量。不同目标特征向量表示的特征维度不同。

步骤2022、基于各所述目标语义模型输出的目标特征向量，确定所述特征提取向量。

本发明实施例中，在各目标语义模型输出目标特征向量的情况下，可以特征提取模型会基于多个目标特征向量进行特征融合，得到更高维度的特征表示，即特征提取向量。具体的，可以使用拼接符将多个目标特征向量进行拼接，得到特征提取向量，或，通过求取多个目标特征向量对应维度上数据的均值，确定特征提取向量，本发明实施例对特征融合的方式不做限制。

本发明实施例中，通过特征提取模型中的各目标语义模型，获取不同维度的目标特征向量，再基于多个目标特征向量，进而确定特征提取向量，可以使得特征提取向量具有更高维度的特征表示，提高了特征提取向量的表达能力。

可选地，步骤103可以包括以下步骤：

步骤301、将所述特征提取向量作为所述故障识别模型中的目标分类模型的输入，获取所述目标分类模型的输出结果；所述输出结果包括至少两种故障类别以及所述至少两种故障类别对应的目标概率值。

本发明实施例中，将特征提取向量输入目标分类模型，并获取目标分类模型的输出结果。其中，输出结果中可以包括至少两种故障类别以及至少两种故障类别对应的目标概率值。至少两种故障类别可以是目标分类模型能够识别的全部故障类别，相应的，至少两种故障类别对应的目标概率值为目标故障属于某一故障类别的概率。可以理解的是，至少两种故障类别对应的目标概率值之和为1。示例性的，假设目标分类模型能够识别出5种故障类别，则目标分类模型的输出结果可以为：['CPU',0.7]，['内存',0.2]，['硬盘,0.1']，['网卡,0']，['风扇,0']。该输出结果表征目标故障为CPU故障的可能性为0.7，目标故障为内存故障的可能性为0.2，目标故障为硬盘故障的可能性为0.1，目标故障为网卡故障或风扇故障的可能性为0。

步骤302、基于所述输出结果，按照预设输出规则确定所述目标故障对应的故障分类结果。

本发明实施例中，基于输出结果，按照预设输出规则确定目标故障对应的故障分类结果。其中，预设输出规则可以包括直接将输出结果确定为故障分类结果，也可以包括将目标概率值最大的故障类别以及对应的目标概率值确定为故障分类结果，还可以包括将目标概率值大于预设阈值（例如0.4）的故障类别以及对应的目标概率值确定为故障分类结果。可以理解的是，预设输出规则可以根据需求自行设定，本发明实施例对此不做限制。示例性的，故障分类结果可以为：“['CPU',0.7]”，或“['CPU',0.7]，['内存',0.2]，['硬盘,0.1']，['网卡,0']，['风扇,0']”。这样，可以基于预设输出规则输出用户需要的故障分类结果，以便用户基于故障分类结果进行后续的故障判断以及故障恢复操作。

本发明实施例中，通过获取目标分类模型输出的至少两种故障类别以及至少两种故障类别对应的目标概率值，可以在确定最匹配的故障类别的情况下，获取至少两种故障类别对应的目标概率值，提供了故障识别的其它参考可能，并按照用户需求输出故障分类结果，提高了故障识别的全面性。

图3是本发明实施例提供的一种故障识别模型的训练方法的步骤流程图，如图3所示，该方法可以包括：

步骤401、获取待训练样本数据集；所述待训练样本数据集包括多个样本日志数据。

本发明实施例中，待训练样本数据集中可以包括多个样本日志数据，样本日志数据可以是在系统发生故障的情况下，自动生成的日志数据，多个样本日志数据可以是从不同数据源获取得到的，数据源可以是系统中用于存储不同类型的日志数据的存储单元。针对任一样本日志数据，预先对样本日志数据对应的故障类别进行标记，得到各样本日志数据对应的类别标签，该类别标签可以包括多个子类别标签以及多个子类别标签对应的概率值。示例性的，针对任一样本日志数据，可以对其对应的故障类别进行标记，例如，类别标签可以为“[[“CPU”, 0.9], [“主板”,0.1]]”，其中，“CPU”和“主板”为子标签，0.9以及0.1分别为子标签对应的概率值。

可选地，步骤401可以包括以下步骤：

步骤4011、从不同数据源获取至少两个日志数据。

本发明实施例中，从不同数据源获取至少两个日志数据，日志数据中可以包含用于描述故障相关信息的信息记录，日志数据的日志类型可以包括基板管理控制器（BMC）日志、处理器（CPU）日志、图形处理器（GPU）日志、磁盘阵列卡（RAID卡）日志、硬盘（SMART）日志等带内和带外日志。相应的，数据源可以包括时间序列数据库（Time series database，TSDB）、硬件厂商或者用户自定义的指定文件夹、BMC日志文件的默认路径（例如/var/log）等。

步骤4012、对所述至少两个日志数据进行规范化处理，得到包含至少两个样本日志数据的待训练样本数据集。

本发明实施例中，对至少两个日志数据进行规范化处理，并将处理后的日志数据确定为样本日志数据，得到待训练样本数据集。可以理解的是，对至少两个日志数据进行规范化处理的步骤与步骤1012中对待处理日志数据进行规范化处理的步骤类似，具体可以参考步骤1012，在此不再赘述。

在一种可能的实施方式中，在确定待训练样本数据集之后，对待训练样本数据集进行训练之前，由于待训练样本数据集中样本日志数据的量级较大，因此可以分批对待训练样本数据集进行训练，例如：将预设时长内的至少两个样本日志数据确定为一批样本日志数据进行训练，具体的，可以取待训练样本数据集中最新一个时间窗口大小的样本日志数据进行训练。其中，时间窗口大小可以根据业务场景以及业务需求进行设定，例如30-50，本发明实施例对此不做限制。

本发明实施例中，通过对日志数据进行规范化处理，可以得到格式统一的样本日志数据，便于后续训练，并且，通过获取不同数据源的日志数据，得到样本日志数据，可以在后续训练过程中训练得到针对不同类型的日志数据进行故障识别的能力。

步骤402、基于所述多个样本日志数据，对至少两个待训练语义模型进行训练，得到至少两个目标语义模型，并基于所述至少两个目标语义模型确定特征提取模型。

本发明实施例中，获取至少两个待训练语义模型，至少两个待训练语义模型用于提取不同维度的特征信息，至少两个待训练语义模型可以包括句向量模型pv-dbow、句向量模型pv-dm, 双向语言模型（BERT模型），词向量模型（ELMO模型）等用于进行语义处理的自然语言处理模型。基于多个样本日志数据，分别对至少两个待训练语义模型进行训练，并确定特征提取模型。示例性的，可以针对任一待训练语义模型，基于多个样本日志数据，对待训练语义模型进行训练，在达到第一停止条件的情况下，将待训练语义模型确定为目标语义模型，再基于训练好的至少两个目标语义模型，确定特征提取模型。其中，第一停止条件可以包括待训练语义模型的损失值达到预设阈值、待训练语义模型的训练轮数达到预设轮数阈值等条件。

可选地，步骤402可以包括以下步骤：

步骤501、针对任一样本日志数据，基于所述样本日志数据，确定字段编码信息，以及，基于所述样本日志数据对应的类别标签，确定标签编码信息。

本发明实施例中，针对待训练样本数据集中的任一样本日志数据，将样本日志数据中的指定字段进行编码，得到字段编码信息。指定字段可以包括样本日志数据中的部件名称、部件位置以及故障相关信息。对指定字段进行编码的方式可以采用独热编码（one-hot），也可以适应性的采用其它编码方式（例如分布式表示Distributed representation等），本发明实施例对此不做限制。并且，对样本日志数据对应的类别标签进行编码，得到标签编码信息。

步骤502、基于所述字段编码信息以及标签编码信息，对至少两个待训练语义模型进行训练，并确定至少两个目标语义模型。

本发明实施例中，基于字段编码信息以及标签编码信息，分别对至少两个待训练语义模型进行训练，并将训练完成的待训练语义模型确定为目标语义模型。通过至少两个待训练语义模型对样本日志数据的特征提取可以从不同的维度描述样本日志数据的语义信息，也就是说，至少两个待训练语义模型可以用于对字段编码信息以及标签编码信息进行不同维度的特征提取。

可选地，步骤502可以包括以下步骤：

步骤5021、针对任一所述待训练语义模型，将所述字段编码信息以及所述标签编码信息输入所述待训练语义模型，获取所述待训练语义模型输出的预测特征结果。

本发明实施例中，针对任一待训练语义模型，将字段编码信息以及标签编码信息输入待训练语义模型，并获取待训练语义模型输出的预测特征结果。可以理解的是，在待训练语义模型对字段编码信息以及标签编码信息进行处理的过程中，可以根据待训练语义模型自身的模型架构以及模型处理逻辑自行选择基于字段编码信息和/或标签编码信息进行处理，待训练语义模型的实际训练过程遵循待训练语义模型的实际模型架构逻辑，本发明实施例对此不做限制。

步骤5022、基于所述预测特征结果以及所述待训练语义模型对应的训练任务指示的目标标签，对所述待训练语义模型进行参数调整，并将参数调整后的所述待训练语义模型确定为目标语义模型；不同待训练语义模型对应的训练任务指示的目标标签不同，所述训练任务指示的目标标签用于表征所述待训练语义模型对应的训练任务对应的真实值。

本发明实施例中，不同待训练语义模型对应不同的训练任务，相应的，不同的训练任务中，对待训练语义模型进行参数调整时所参考的目标标签（样本日志数据对应的真实标注）根据训练任务以及训练目标的不同是不同的，因此，不同待训练语义模型对应的目标标签是不同的。在对待训练语义模型进行训练的过程中，可以基于目标标签以及待训练语义模型输出的预测特征结果。对待训练语义模型进行参数调整。其中，目标标签用于表征预测特征结果对应的真实参考标准，即样本日志数据对应的真实特征标注。为了使得待训练语义模型预测的预测特征结果与目标标签的相似度尽可能高，基于预测特征结果以及待训练语义模型对应的训练任务指示的目标标签，对待训练语义模型进行参数调整，通过不断调整待训练语义模型的参数，使得待训练语义模型输出的预测特征结果与目标标签的相似度大于第一相似度阈值。示例性的，可以使用随机梯度下降（SGD）、批量梯度下降（BGD）等优化算法来调整待训练语义模型的参数。在达到第一停止条件的情况下，将待训练语义模型确定为目标语义模型。

示例性的，在待训练语义模型为利用上下文推断中心词的模型的情况下，中心词就是该待训练语义模型对应的训练任务所指示的目标标签，相应的，在对待训练语义模型进行参数调整的过程中，基于上下文对应的预测特征结果和中心词计算损失值，并对待训练语义模型进行参数调整。在待训练语义模型为利用中心词推断上下文的模型的情况下，在训练过程中，通常会确定中心词以及中心词对应的上下文词语，例如推断中心词前后各4个词，相应的中心词对应的上下文8个词即目标标签，使用中心词对应的预测特征结果和这目标标签（即上下文8个词语）计算损失值，并对待训练语义模型进行参数调整。

步骤503、基于所述至少两个目标语义模型，确定所述特征提取模型。

本发明实施例中，在确定至少两个目标语义模型之后，可以基于模型融合函数对至少两个目标语义模型进行融合，以得到能够提取更高维度特征的特征提取模型。具体的，模型融合函数的输入参数可以是包含k个目标语义模型的列表，相应的，模型融合函数的输出内容可以是特征提取模型。示例性的，可以通过以下公式确定特征提取模型：docM =concat([sm₁, sm₂, ……, sm_k])，其中，docM用于表示特征提取模型，concat()用于表示模型融合函数，[sm₁, sm₂, ……, sm_k]用于表示k个目标语义模型。

本发明实施例中，基于字段编码信息以及标签编码信息对待训练语义模型进行训练，可以训练得到用于提取不同维度特征的目标语义模型，再基于至少两个目标语义模型，确定特征提取模型，以得到用于提取更高维度特征的特征提取模型，充分利用样本日志数据之间的上下文关联关系，细粒度地提取出不同类型（维度）的特征信息，提高了特征提取模型的特征提取能力。

步骤403、基于所述特征提取模型获取各所述样本日志数据对应的第一特征向量；所述第一特征向量用于表征所述样本日志数据对应的多维度特征信息。

本发明实施例中，基于特征提取模型对各样本日志数据进行特征提取，获取各样本日志数据对应的第一特征向量。相应的，第一特征向量用于表征样本日志数据对应的多维度特征。通过特征提取模型得到的第一特征向量具有更丰富的特征表达能力。

步骤404、基于所述多个样本日志数据对应的第一特征向量以及所述多个样本日志数据对应的类别标签，对待训练分类模型进行训练，得到目标分类模型；所述类别标签用于表征所述样本日志数据记录的故障所属的故障类型。

本发明实施例中，基于多个样本日志数据对应的第一特征向量以及多个样本日志数据对应的类别标签，对待训练分类模型进行训练，并将训练完成的待训练分类模型确定为目标分类模型。其中，待训练分类模型可以是机器学习中的分类模型，例如logitboost分类器，AdaBoost分类器，SVM分类器，fasttext等等，本发明实施例对待训练分类模型的具体选择不做限制。

步骤405、将所述特征提取模型以及所述目标分类模型确定为故障识别模型。

本发明实施例中，将训练完成的特征提取模型以及目标分类模型确定为故障识别模型。该故障识别模型可以基于待识别的日志数据，获取日志数据对应的目标故障的故障分类结果，也即，故障识别模型可以用于执行前述实施例中的故障识别方法。进而可以基于故障分类结果，对目标故障进行对应的处理操作。

综上所述，本发明实施例中，通过获取待训练样本数据集；待训练样本数据集包括多个样本日志数据；基于多个样本日志数据，对至少两个待训练语义模型进行训练，并确定特征提取模型；类别标签用于表征样本日志数据记录的故障所属的故障类型；基于特征提取模型获取各样本日志数据对应的第一特征向量；基于多个样本日志数据对应的第一特征向量以及多个样本日志数据对应的类别标签，对待训练分类模型进行训练，得到目标分类模型；将特征提取模型以及目标分类模型确定为故障识别模型。这样，可以通过生成特征提取模型，充分学习到对不同类型的日志数据进行特征提取的能力，并且，通过训练目标分类模型，可以对不同故障类别的日志数据进行故障识别，从而能够更准确的确定故障分类结果，提高了故障分类结果的准确性。

可选地，所述类别标签包括多个子类别标签以及所述多个子类别标签对应的概率值。

本发明实施例中，在对样本日志数据进行标注时，可以设置多个子类别标签，并基于样本日志数据记录的故障现象对应的可能故障类型赋予概率值，示例性的，假设存在一样本日志数据，其对应的可能故障类型为处理器故障或主板故障，并且处理器故障对应的可能性为0.9，主板故障对应的可能性为0.1。相应的，该样本日志数据对应的类别标签可以为[[“CPU”,0.9], [“主板”,0.1]]。可以理解的是，任一样本日志数据对应的子类别标签对应的概率值之和为1。

示例性的，待训练样本数据集S以及待训练样本数据集S中的多个样本日志数据对应的类别标签Label可以记为：S={[log₁, label_list₁], [log₂, label_list₂], ……,[log_n, label_list_n]}，其中，待训练样本数据集S中包含n个样本日志数据，log_n用于表示第n个样本日志数据，label_list_n用于表示第n个样本日志数据对应的类别标签。

步骤501可以包括以下步骤：

步骤601、分别对所述多个子类别标签进行编码，得到所述多个子类别标签对应的第一编码信息。

本发明实施例中，针对任一子类别标签，对该子类别标签进行编码，得到该子类别标签对应的第一编码信息。其中，编码方式可以采用独热编码（one-hot），也可以适应性的采用其它编码方式（例如分布式表示Distributed representation等），本发明实施例对此不做限制。

步骤602、基于第一公式，对所述多个子类别标签对应的第一编码信息以及所述多个子类别标签对应的概率值进行加权求和，得到标签编码信息。

本发明实施例中，对多个子类别标签对应的第一编码信息以及多个子类别标签对应的概率值进行加权求和，具体的，可以针对任一子类别标签，将该子类别标签对应的第一编码信息以及该子类别对应的概率值相乘，得到加权结果，再将各子类别标签对应的加权结果相加，得到标签编码信息。具体的，可以通过以下第一公式得到标签编码信息：label_info=，其中，label_info用于表示标签编码信息，/>用于表示m个子类别标签中的第i个子类别标签，/>用于表示第i个子类别标签对应的概率值，enc用于表示编码操作。示例性的，在类别标签为[[“CPU”,0.9], [“主板”,0.1]]的情况下，标签编码信息对应的公式可以为：label_info=enc(“CPU”)*0.9 + enc(“主板”)*0.1。

本发明实施例中，通过对类别标签进行编码，具体的，对子类别标签以及子类别标签对应的概率值进行编码，得到标签编码信息，可以便于特征提取模型学习到与故障识别分类相关的特征提取能力，以便于后续训练得到具有故障识别分类能力的目标分类模型。并且，基于子类别标签以及子类别标签对应的概率值，进行加权求和确定标签编码信息，可以根据样本日志数据对应的真实故障类别概率进行实际编码，使得标签编码信息所表征的标签特征更加贴近样本日志数据的真实故障分类情况，提高了标签编码信息的真实性以及特征表达能力。同时，对于故障类型并不明显，即故障类型的初始分类准确性不高的日志，在模型训练时对于模型参数的改变幅度较小，从而能够保证模型参数稳定演化，稳定接近最优状态，避免抖动。

示例性的，图4示出了一种特征提取模型的训练方法的步骤流程图，如图4所示，获取包含多个样本日志数据的待训练样本数据集，分别对多个样本日志数据中的指定字段进行编码，得到字段编码信息。同时，对多个样本日志数据对应的类别标签进行编码，得到标签编码信息。基于字段编码信息以及标签编码信息，训练至少两个待训练语义模型。并基于模型融合函数，对至少两个待训练语义模型进行融合，得到特征提取模型。

可选地，步骤403可以包括以下步骤：

步骤701、针对任一所述样本日志数据，将所述样本日志数据作为所述特征提取模型的输入，并获取所述至少两个目标语义模型输出的至少两个特征向量。

本发明实施例中，针对任一样本日志数据，将样本日志数据输入特征提取模型，由于特征提取模型是基于至少两个目标语义模型进行融合得到的，因此，在将样本日志数据输入特征提取模型后，各目标语义模型会基于样本日志数据输出对应的特征向量，不同目标语义模型输出的特征向量表示的特征维度并不相同。因此，特征提取模型中的至少两个目标语义模型会输出至少两个特征向量。

步骤702、基于所述至少两个特征向量，确定所述样本日志数据对应的第一特征向量。

本发明实施例中，在获取到至少两个目标语义模型输出的至少两个特征向量的情况下，特征提取模型会基于至少两个特征向量进行特征融合，得到更高维度的特征表示，即第一特征向量。具体的，可以使用拼接符将多个特征向量进行拼接，得到第一特征向量，或，通过求取多个特征向量对应维度上数据的均值，确定第一特征向量，本发明实施例对特征融合的方式不做限制。

本发明实施例中，通过特征提取模型中的各目标语义模型，获取不同维度的特征向量，再基于多个目标特征向量，进而确定第一特征向量，可以使得第一特征向量具有更高维度的特征表示，提高了第一特征向量的表达能力。

可选地，步骤404可以包括以下步骤：

步骤801、将所述多个样本日志数据对应的第一特征向量按照预设比例进行划分，得到第一训练集以及第一测试集。

本发明实施例中，将多个样本日志数据对应的第一特征向量按照预设比例随机进行划分，得到第一训练集以及第一测试集。其中，第一训练集用于对待训练分类模型进行训练，第一测试集用于测试目标分类模型的模型功能，可以理解的是，基于第一测试集测试目标分类模型的模型功能可以参考相关技术，本发明实施例在此不再赘述。示例性的，预设比例可以根据需求自行设置，例如预设比例可以为9:1。第一训练集以及第一测试集中分别包括若干数量的第一特征向量。

步骤802、基于所述第一训练集以及所述第一训练集中各第一特征向量对应的第一类别标签，对所述待训练分类模型进行训练，得到所述目标分类模型。

本发明实施例中，基于第一训练集以及第一训练集中各第一特征向量对应的第一类别标签，对待训练分类模型进行训练，得到目标分类模型。通过待训练分类模型对第一训练集中的第一特征向量进行特征提取，并基于各第一特征向量对应的第一类别标签，对待训练分类模型进行参数调整，在达到停止条件的情况下，将待训练分类模型确定为目标分类模型。

本发明实施例中，通过将第一特征向量划分为第一训练集以及第一测试集，可以在训练待训练分类模型的基础上，进一步对目标分类模型进行测试，以验证目标分类模型的泛化性能，一定程度上提高了目标分类模型的分类能力。

可选地，步骤802可以包括以下步骤：

步骤901、针对所述第一训练集中的任一第一特征向量，将所述第一特征向量作为所述待训练分类模型的输入，获取所述待训练分类模型输出的第一分类结果。

本发明实施例中，针对第一训练集中的任一第一特征向量，将第一特征向量输入待训练分类模型，并获取待训练分类模型输出的第一特征向量对应的第一分类结果。第一分类结果用于表征待训练分类模型预测出的第一特征向量对应的故障的故障类别。

步骤902、基于所述第一分类结果以及所述第一特征向量对应的第一类别标签，对所述待训练分类模型进行参数调整；所述第一特征向量对应的第一类别标签包括多个第一标签以及多个第一标签对应的第一概率值。

本发明实施例中，为了使得待训练分类模型预测的第一分类结果与第一类别标签的相似度尽可能高，基于第一分类结果以及第一类别标签，对待训练分类模型进行参数调整，通过不断调整待训练分类模型的参数，使得待训练分类模型输出的第一分类结果与第一类别标签的相似度大于第二相似度阈值。示例性的，可以使用随机梯度下降（SGD）、批量梯度下降（BGD）等优化算法来调整待训练分类模型的参数。

对第一分类结果以及第一特征向量对应的第一类别标签进行对比，可以对待训练分类模型进行参数调整。第一类别标签包括多个第一标签以及多个第一标签对应的第一概率值，相应的，第一分类结果可以包括待训练分类模型预测出的多个第一标签以及各第一标签对应的第二概率值。在基于第一分类结果以及第一特征向量对应的第一类别标签进行对比的情况下，可以基于第一分类结果中的多个第一标签以及各第一标签对应的第二概率值与第一类别标签中的第一标签以及多个第一标签对应的第一概率值依次进行比较，并确定损失值。基于损失值，对待训练分类模型的参数进行调整。示例性的，假设待训练分类模型可以识别的故障类别一共有5个第一标签，分别为abcde，且某一样本日志数据对应的第一类别标签是[a,c]，各第一标签对应的第一概率值为[0.8，0.2]，则第一类别标签对应的第一标签向量就是[0.8，0，0.2，0，0]，向量维度是5，待训练分类模型输出的第一分类结果包含各第一标签以及对应的第二概率值，向量维度是5，例如第一分类结果为[0.3，0.2，0.1，0，0.4，0]，则可以基于维度相同的第一分类结果以及第一类别标签计算损失值（loss值），进而对待训练分类模型进行参数调整。

步骤903、在达到停止条件的情况下，将所述待训练分类模型确定为所述目标分类模型。

本发明实施例中，停止条件可以包括待训练分类模型的损失值达到预设阈值、待训练分类模型的训练轮数达到预设轮数阈值等条件。

本发明实施例中，通过对待训练分类模型进行训练，可以使得待训练分类模型在训练过程中学习到通用的故障识别能力，以更好的对日志数据进行自动的故障识别。

可选地，在基于第一训练集对待训练分类模型进行训练的过程中，可以采用交叉验证的方式进一步提高待训练分类模型的分类能力。因此，可以将第一训练集划分为至少两组待训练数据组，每组待训练数据组中包含若干数量的第一特征向量，在每轮训练过程中，交替性的将一组或至少两组待训练数据组作为验证集，将其他待训练数据组确定为目标待训练数据组，并将目标待训练数据组作为训练集。

相应的，步骤802可以包括以下步骤：

步骤1001、针对任一目标待训练数据组，基于所述目标待训练数据组对所述待训练分类模型进行训练。

本发明实施例中，目标待训练数据组可以包含一组或多组待训练数据组，针对任一目标待训练数据组，可以基于目标待训练数据组对待训练分类模型进行训练。可以理解的是，基于目标待训练数据组对待训练分类模型进行训练的步骤与步骤901-903的类似，在此不再赘述。

步骤1002、基于所述至少两组待训练数据组中除所述目标待训练数据组的其它待训练数据组，对训练后的所述待训练分类模型进行评估，得到第一评估结果。

本发明实施例中，在完成一轮训练，得到训练后的待训练分类模型的情况下，可以基于至少两组待训练数据组中除目标待训练数据组的其它待训练数据组，对训练后的待训练分类模型进行评估，得到第一评估结果。具体的，可以将其它待训练数据组输入训练后的待训练分类模型，并获取待训练分类模型的本次预测结果，基于本次预测结果以及其它待训练数据组对应的第一类别标签进行相似度对比，并根据对比结果对待训练分类模型的分类性能进行评估，得到第一评估结果。示例性的，可以在对比结果大于目标预设阈值的情况下，确定第一评估结果为合格，在对比结果不大于目标预设阈值的情况下，确定第一评估结果为不合格。

步骤1003、在所述第一评估结果为不合格的情况下，对所述待训练分类模型进行参数调整，并将基于所述至少两个待训练数据组重新确定所述目标待训练数据组，并基于参数调整后的所述待训练分类模型重新执行所述针对任一目标待训练数据组，基于所述目标待训练数据组对所述待训练分类模型进行训练的操作。

本发明实施例中，在第一评估结果为不合格的情况下，表征待训练分类模型并未达到满意的分类性能，因此可以对待训练分类模型进行参数调整，例如学习率、正则化系数等，以优化模型性能。示例性的，可以采用网格搜索、随机搜索、贝叶斯优化等方式来搜索超参数的最佳取值。在对待训练分类模型进行参数调整后，可以在至少两个待训练数据组中重新确定目标待训练数据组，在不同轮次训练过程中使用的目标待训练数据组的内容可以是不同的。再基于参数调整后的待训练分类模型重新执行上述步骤1001的操作，以基于至少两个待训练数据组交叉训练验证待训练分类模型。

步骤1004、在所述第一评估结果为合格或达到停止条件的情况下，将所述待训练分类模型确定为所述目标分类模型。

本发明实施例中，在第一评估结果为合格的情况下，表征待训练分类模型达到满意的分类性能，因此，可以确定待训练分类模型通过验证，并将待训练分类模型确定为目标分类模型。可以理解的是，在达到停止条件的情况下，可以将待训练分类模型确定为目标分类模型。其中，停止条件可以包括待训练分类模型的损失值达到预设阈值、待训练分类模型的训练轮数达到预设轮数阈值等条件。

本发明实施例中，基于第一训练集对待训练分类模型的性能进行交叉验证以及再训练，使得待训练分类模型预测输出的分类结果更加真实可靠，进一步提高了待训练分类模型的分类性能。

示例性的，图5示出了一种故障识别模型的训练方法的具体步骤流程图，如图5所示，从不同数据源获取至少两个日志数据，并对至少两个日志数据进行规范化处理，得到待训练样本数据集。基于待训练样本数据集，训练得到特征提取模型。通过特征提取模型获取多个样本日志数据对应的第一特征向量。基于多个第一特征向量，训练待训练分类模型，得到目标分类模型。将特征提取模型以及目标分类模型确定为故障识别模型，该故障识别模型用于对日志数据进行故障分类识别。

示例性的，以业务场景为诊断服务器部件故障为例，说明本发明实施例中的故障识别模型的训练方法。从不同数据源获取至少两个日志数据，日志数据可以包括BMC日志、CPU日志、GPU日志、RAID卡日志、SMART日志等带内和带外日志。对至少两个日志数据进行规范化处理，得到待训练样本数据集。其中，待训练样本数据集中的各样本日志数据可以包括至少五个关键字段：时间|部件名称|部件槽位|故障描述信息|状态位。针对每个样本日志数据，选择指定字段进行编码，假设一样本日志数据的内容为：2023-10-28 22:01:08|System ACPI Power State|ACPI_PWR_Status|S4/S5 soft-off|Assert，指定字段为：部件名称、故障描述信息以及状态位，则可以对指定字段进行编码，得到字段编码信息。针对任一样本日志数据对应的类别标签，进行编码，得到标签编码信息。假设类别标签为[[“CPU”,0.9], [“主板”,0.1]]，则标签编码信息对应的公式可以为：label_info=enc(“CPU”)*0.9+ enc(“主板”)*0.1。将字段编码信息和标签编码信息同时输入两个待训练语义模型。其中，待训练语义模型可以分别为doc2vec(文档向量模型)中的PV-DM(利用上下文预测中心词)和PV-DBOW(利用中心词预测上下文关连词)两个模型。基于字段编码信息和标签编码信息分别对两个待训练语义模型进行训练，得到目标语义模型sm₁(PV-DM)和sm₂(PV-DBOW)，基于模型融合函数对两个目标语义模型进行融合，得到最终的特征提取模型docM=concat([sm₁, sm₂])。

选择xgboost模型作为待训练分类模型，将待训练样本集中的每个样本日志数据输入特征提取模型，得到每个样本日志数据对应的第一特征向量。并将第一特征向量按照预设比例划分为第一训练集以及第一测试集。以交叉验证的方式基于第一训练集对待训练分类模型进行训练，得到目标分类模型。并基于第一测试集验证目标分类模型的分类性能。将特征提取模型以及目标分类模型确定为故障识别模型。

图6是本发明实施例提供的一种故障识别装置的结构示意图，如图6所示，该装置具体可以包括：

第一获取模块1101，用于获取待识别日志数据；所述待识别日志数据用于记录目标故障对应的故障信息；

第一提取模块1102，用于基于故障识别模型中的特征提取模型，对所述待识别日志数据进行特征提取，得到特征提取向量；所述特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的，所述特征提取向量用于表征所述待识别日志数据对应的多维度特征信息；

第一处理模块1103，用于基于所述故障识别模型中的目标分类模型，对所述特征提取向量进行处理，得到所述目标故障对应的故障分类结果；所述故障分类结果用于表征所述目标故障对应的故障类型。

可选地，第一提取模块1102包括：

第一编码模块，用于对所述待识别日志数据中包含的指定字段进行编码，得到所述待识别日志数据对应的特征编码信息；

第一输入模块，用于将所述特征编码信息输入所述故障识别模型中的特征提取模型，并获取所述特征提取模型输出的特征提取向量。

可选地，第一输入模块包括：

第一获取子模块，用于基于所述特征提取模型中的各目标语义模型，分别获取所述特征编码信息对应的目标特征向量；

第一确定模块，用于基于各所述目标语义模型输出的目标特征向量，确定所述特征提取向量。

可选地，第一处理模块1103包括：

第二获取子模块，用于将所述特征提取向量作为所述故障识别模型中的目标分类模型的输入，获取所述目标分类模型的输出结果；所述输出结果包括至少两种故障类别以及所述至少两种故障类别对应的目标概率值；

第二确定模块，用于基于所述输出结果，按照预设输出规则确定所述目标故障对应的故障分类结果。

可选地，第一获取模块1101包括：

第三获取子模块，用于基于至少两个数据源，获取至少两个待处理日志数据；

第一处理子模块，用于将所述至少两个待处理日志数据进行规范化处理，得到至少两个待识别日志数据；所述至少两个待识别日志数据的格式相同。

本发明实施例提供了一种故障识别方法，通过获取待识别日志数据，并基于故障识别模型中的特征提取模型，对待识别日志数据进行特征提取，得到特征提取向量；特征提取模型是基于用于提取不同维度特征的至少两个目标语义模型融合得到的；基于故障识别模型中的目标分类模型，对特征提取向量进行处理，得到目标故障对应的故障分类结果；故障分类结果用于表征目标故障对应的故障类型。这样，可以通过对待识别日志数据的特征提取得到特征提取向量，特征提取向量用于表征待识别日志数据对应的多维度特征信息，一定程度上增加了特征的表达维度，提高了特征提取向量的表达能力，并通过目标分类模型对特征提取向量进行处理得到故障分类结果，从而能够更准确的确定故障分类结果，提高了故障分类结果的准确性。同时，相较于逐一对日志数据中的信息进行关键字搜索，自动化的进行故障识别，提高了故障分类结果的获取效率并且降低了故障分类结果的获取成本。

图7是本发明实施例提供的一种故障识别模型的训练装置的结构示意图，如图7所示，该装置具体可以包括：

第二获取模块1201，用于获取待训练样本数据集；所述待训练样本数据集包括多个样本日志数据；

第一训练模块1202，用于基于所述多个样本日志数据，对至少两个待训练语义模型进行训练，得到至少两个目标语义模型，并基于所述至少两个目标语义模型确定特征提取模型；

第三获取模块1203，用于基于所述特征提取模型获取各所述样本日志数据对应的第一特征向量；所述第一特征向量用于表征所述样本日志数据对应的多维度特征信息；

第二训练模块1204，用于基于所述多个样本日志数据对应的第一特征向量以及所述多个样本日志数据对应的类别标签，对待训练分类模型进行训练，得到目标分类模型；所述类别标签用于表征所述样本日志数据记录的故障所属的故障类型；

第三确定模块1205，用于将所述特征提取模型以及所述目标分类模型确定为故障识别模型。

可选地，第一训练模块1202包括：

第一确定子模块，用于针对任一样本日志数据，基于所述样本日志数据，确定字段编码信息，以及，基于所述样本日志数据对应的类别标签，确定标签编码信息；

第一训练子模块，用于基于所述字段编码信息以及标签编码信息，对至少两个待训练语义模型进行训练，并确定至少两个目标语义模型；

第二确定子模块，用于基于所述至少两个目标语义模型，确定所述特征提取模型。

可选地，第一训练子模块包括：

第二输入模块，用于针对任一所述待训练语义模型，将所述字段编码信息以及所述标签编码信息输入所述待训练语义模型，获取所述待训练语义模型输出的预测特征结果；

第一调整模块，用于基于所述预测特征结果以及所述待训练语义模型对应的训练任务指示的目标标签，对所述待训练语义模型进行参数调整，并将参数调整后的所述待训练语义模型确定为目标语义模型；不同待训练语义模型对应的训练任务指示的目标标签不同，所述训练任务指示的目标标签用于表征所述待训练语义模型对应的训练任务对应的真实值。

可选地，第二获取模块1201包括：

第四获取子模块，用于从不同数据源获取至少两个日志数据；

第二处理子模块，用于对所述至少两个日志数据进行规范化处理，得到包含至少两个样本日志数据的待训练样本数据集。

可选地，所述类别标签包括多个子类别标签以及所述多个子类别标签对应的概率值；第一确定子模块包括：

第二编码模块，用于分别对所述多个子类别标签进行编码，得到所述多个子类别标签对应的第一编码信息；

第二处理模块，用于对所述多个子类别标签对应的第一编码信息以及所述多个子类别标签对应的概率值进行加权求和，得到标签编码信息。

可选地，第三获取模块1203包括：

第五获取子模块，用于针对任一所述样本日志数据，将所述样本日志数据作为所述特征提取模型的输入，并获取所述至少两个目标语义模型输出的至少两个特征向量；

第三确定子模块，用于基于所述至少两个特征向量，确定所述样本日志数据对应的第一特征向量。

可选地，第二训练模块1204包括：

第一划分模块，用于将所述多个样本日志数据对应的第一特征向量按照预设比例进行划分，得到第一训练集以及第一测试集；

第二训练子模块，用于基于所述第一训练集以及所述第一训练集中各第一特征向量对应的第一类别标签，对所述待训练分类模型进行训练，得到所述目标分类模型。

可选地，第二训练子模块包括：

第六获取子模块，用于针对所述第一训练集中的任一第一特征向量，将所述第一特征向量作为所述待训练分类模型的输入，获取所述待训练分类模型输出的第一分类结果；

第二调整模块，用于基于所述第一分类结果以及所述第一特征向量对应的第一类别标签，对所述待训练分类模型进行参数调整；所述第一特征向量对应的第一类别标签包括多个第一标签以及多个第一标签对应的第一概率值；

第四确定模块，用于在达到停止条件的情况下，将所述待训练分类模型确定为所述目标分类模型。

可选地，所述第一训练集包括至少两组待训练数据组；第二训练子模块包括：

第三训练子模块，用于针对任一目标待训练数据组，基于所述目标待训练数据组对所述待训练分类模型进行训练；

第一评估模块，用于基于所述至少两组待训练数据组中除所述目标待训练数据组的其它待训练数据组，对训练后的所述待训练分类模型进行评估，得到第一评估结果；

第三调整模块，用于在所述第一评估结果为不合格的情况下，对所述待训练分类模型进行参数调整，并将基于所述至少两个待训练数据组重新确定所述目标待训练数据组，并基于参数调整后的所述待训练分类模型重新执行所述针对任一目标待训练数据组，基于所述目标待训练数据组对所述待训练分类模型进行训练的操作；

第五确定模块，用于在所述第一评估结果为合格或达到停止条件的情况下，将所述待训练分类模型确定为所述目标分类模型。

本发明实施例提供了一种故障识别模型的训练方法，通过获取待训练样本数据集；待训练样本数据集包括多个样本日志数据；基于多个样本日志数据，对至少两个待训练语义模型进行训练，并确定特征提取模型；类别标签用于表征样本日志数据记录的故障所属的故障类型；基于特征提取模型获取各样本日志数据对应的第一特征向量；基于多个样本日志数据对应的第一特征向量以及多个样本日志数据对应的类别标签，对待训练分类模型进行训练，得到目标分类模型；将特征提取模型以及目标分类模型确定为故障识别模型。这样，可以通过生成特征提取模型，充分学习到对不同类型的日志数据进行特征提取的能力，并且，通过训练目标分类模型，可以对不同故障类别的日志数据进行故障识别，从而能够更准确的确定故障分类结果，提高了故障分类结果的准确性。

本发明还提供了一种电子设备，参见图8，包括：处理器1301、存储器1302以及存储在所述存储器上并可在所述处理器上运行的计算机程序13021，所述处理器执行所述程序时实现前述实施例的故障识别方法或故障识别模型的训练方法。

本发明还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的故障识别方法或故障识别模型的训练方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明的排序设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要指出的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种故障识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于故障识别模型中的特征提取模型，对所述待识别日志数据进行特征提取，得到特征提取向量，包括：

对所述待识别日志数据中包含的指定字段进行编码，得到所述待识别日志数据对应的特征编码信息；

将所述特征编码信息输入所述故障识别模型中的特征提取模型，并获取所述特征提取模型输出的特征提取向量。

3.根据权利要求2所述的方法，其特征在于，所述获取所述特征提取模型输出的特征提取向量，包括：

基于所述特征提取模型中的各目标语义模型，分别获取所述特征编码信息对应的目标特征向量；

基于各所述目标语义模型输出的目标特征向量，确定所述特征提取向量。

4.根据权利要求2所述的方法，其特征在于，所述指定字段包括所述待识别日志数据中的部件名称、部件位置以及故障相关信息。

5.根据权利要求1所述的方法，其特征在于，所述基于所述故障识别模型中的目标分类模型，对所述特征提取向量进行处理，得到所述目标故障对应的故障分类结果，包括：

将所述特征提取向量作为所述故障识别模型中的目标分类模型的输入，获取所述目标分类模型的输出结果；所述输出结果包括至少两种故障类别以及所述至少两种故障类别对应的目标概率值；

基于所述输出结果，按照预设输出规则确定所述目标故障对应的故障分类结果。

6.根据权利要求1所述的方法，其特征在于，所述获取待识别日志数据，包括：

基于至少两个数据源，获取至少两个待处理日志数据；

将所述至少两个待处理日志数据进行规范化处理，得到至少两个待识别日志数据；所述至少两个待识别日志数据的格式相同。

7.一种故障识别模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述多个样本日志数据，对至少两个待训练语义模型进行训练，得到至少两个目标语义模型，并基于所述至少两个目标语义模型确定特征提取模型，包括：

针对任一样本日志数据，基于所述样本日志数据，确定字段编码信息，以及，基于所述样本日志数据对应的类别标签，确定标签编码信息；

基于所述字段编码信息以及标签编码信息，对至少两个待训练语义模型进行训练，并确定至少两个目标语义模型；

基于所述至少两个目标语义模型，确定所述特征提取模型。

9.根据权利要求8所述的方法，其特征在于，所述基于所述字段编码信息以及标签编码信息，对至少两个待训练语义模型进行训练，并确定至少两个目标语义模型，包括：

针对任一所述待训练语义模型，将所述字段编码信息以及所述标签编码信息输入所述待训练语义模型，获取所述待训练语义模型输出的预测特征结果；

基于所述预测特征结果以及所述待训练语义模型对应的训练任务指示的目标标签，对所述待训练语义模型进行参数调整，并将参数调整后的所述待训练语义模型确定为目标语义模型；不同待训练语义模型对应的训练任务指示的目标标签不同，所述训练任务指示的目标标签用于表征所述待训练语义模型对应的训练任务对应的真实值。

10.根据权利要求8所述的方法，其特征在于，所述至少两个待训练语义模型用于对所述字段编码信息以及所述标签编码信息进行不同维度的特征提取。

11.根据权利要求7所述的方法，其特征在于，所述获取待训练样本数据集，包括：

从不同数据源获取至少两个日志数据；

对所述至少两个日志数据进行规范化处理，得到包含至少两个样本日志数据的待训练样本数据集。

12.根据权利要求8所述的方法，其特征在于，所述类别标签包括多个子类别标签以及所述多个子类别标签对应的概率值；所述基于所述样本日志数据对应的类别标签，确定标签编码信息，包括：

分别对所述多个子类别标签进行编码，得到所述多个子类别标签对应的第一编码信息；

基于第一公式，对所述多个子类别标签对应的第一编码信息以及所述多个子类别标签对应的概率值进行加权求和，得到标签编码信息。

13.根据权利要求12所述的方法，其特征在于，所述第一公式包括：

label_info=，其中，label_info用于表示所述标签编码信息，/>用于表示m个子类别标签中的第i个子类别标签，/>用于表示第i个子类别标签对应的概率值，enc用于表示对子类别标签进行编码的编码操作。

14.根据权利要求7所述的方法，其特征在于，所述基于所述特征提取模型获取各所述样本日志数据对应的第一特征向量，包括：

针对任一所述样本日志数据，将所述样本日志数据作为所述特征提取模型的输入，并获取所述至少两个目标语义模型输出的至少两个特征向量；

基于所述至少两个特征向量，确定所述样本日志数据对应的第一特征向量。

15.根据权利要求7所述的方法，其特征在于，所述基于所述多个样本日志数据对应的第一特征向量以及所述多个样本日志数据对应的类别标签，对待训练分类模型进行训练，得到目标分类模型，包括：

将所述多个样本日志数据对应的第一特征向量按照预设比例进行划分，得到第一训练集以及第一测试集；

基于所述第一训练集以及所述第一训练集中各第一特征向量对应的第一类别标签，对所述待训练分类模型进行训练，得到所述目标分类模型。

16.根据权利要求15所述的方法，其特征在于，所述基于所述第一训练集以及所述第一训练集中各第一特征向量对应的第一类别标签，对所述待训练分类模型进行训练，得到所述目标分类模型，包括：

针对所述第一训练集中的任一第一特征向量，将所述第一特征向量作为所述待训练分类模型的输入，获取所述待训练分类模型输出的第一分类结果；

基于所述第一分类结果以及所述第一特征向量对应的第一类别标签，对所述待训练分类模型进行参数调整；所述第一特征向量对应的第一类别标签包括多个第一标签以及多个第一标签对应的第一概率值；

在达到停止条件的情况下，将所述待训练分类模型确定为所述目标分类模型。

17.根据权利要求15所述的方法，其特征在于，所述第一训练集包括至少两组待训练数据组；所述基于所述第一训练集以及所述第一训练集中各第一特征向量对应的第一类别标签，对所述待训练分类模型进行训练，得到所述目标分类模型，包括：

针对任一目标待训练数据组，基于所述目标待训练数据组对所述待训练分类模型进行训练；

基于所述至少两组待训练数据组中除所述目标待训练数据组的其它待训练数据组，对训练后的所述待训练分类模型进行评估，得到第一评估结果；

在所述第一评估结果为不合格的情况下，对所述待训练分类模型进行参数调整，并将基于所述至少两个待训练数据组重新确定所述目标待训练数据组，并基于参数调整后的所述待训练分类模型重新执行所述针对任一目标待训练数据组，基于所述目标待训练数据组对所述待训练分类模型进行训练的操作；

在所述第一评估结果为合格或达到停止条件的情况下，将所述待训练分类模型确定为所述目标分类模型。

18.一种故障识别装置，其特征在于，所述装置包括：

19.一种故障识别模型的训练装置，其特征在于，所述装置包括：

20.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-6中任一所述的故障识别方法，或实现如权利要求7-17任一项所述的故障识别模型的训练方法。

21.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-6中任一所述的故障识别方法，或执行如权利要求7-17任一项所述的故障识别模型的训练方法。