CN115062720A

CN115062720A - 大型旋转机械多源异构数据特征提取方法及故障诊断方法

Info

Publication number: CN115062720A
Application number: CN202210771293.8A
Authority: CN
Inventors: 汤宝平; 包磊; 谷新宇; 李琪康; 刘小莉
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-16

Abstract

本发明提供了一种大型旋转机械多源异构数据特征提取方法及故障诊断方法，该多源异构数据特征提取方法，针对大型旋转机械关联的文本数据、表格数据和时序数据分别采用不同的数据特征编码方式，通过对文本数据和表格数据做分句和分词处理后进行词嵌入编码，通过对时序数据做分段切割后进行自编码，使得文本数据、表格数据和时序数据都被转换为统一数据维度的编码向量形态，作为各自的特征表征向量，并且较好的保留了三者各自所携带的运行状态信息和维护价值信息，进而使得三者的编码向量能够在统一数据维度下进行进一步的拼接融合及降维编码处理，作为大型旋转机械的多源异构数据特征向量，帮助更准确的进行大型旋转机械设备的故障诊断等应用。

Description

大型旋转机械多源异构数据特征提取方法及故障诊断方法

技术领域

本发明涉及工程应用和工业大数据技术领域，具体涉及大型旋转机械多源异构数据特征提取方法及故障诊断方法。

背景技术

大型旋转机组是服役于国民经济主战场和国防领域的核心装备，特别是航空发动机和燃气轮机。由于长期工作在高温、高压、高速和强振动等异常恶劣环境下，其极易发生故障，从而造成重大经济损失，甚至引发严重安全事故。据相关资料统计，民航领域的航空发动机故障发生频繁，超过飞机所有故障的1/3；燃气压缩机的维修保障费用几乎占到机组全寿命周期费用的60％。同时，大型旋转机组结构复杂，故障成因繁多，导致维修决策困难。因此，开展大型旋转机械设备的故障诊断、寿命预测等健康运维应用技术，保障机组安全运行、降低机组维修成本，对国民经济和国防安全意义重大。

近年来，在大数据环境的驱动下，深度学习和各种神经网络模型快速发展，在大型旋转机械的故障诊断与预测领域，基于深度学习技术的智能运维方法消除了对精确物理模型和丰富信号处理经验的依赖，引起了广泛关注，学者们已经开展了大量的研究。如张向阳等提出基于机匣振动信号特征的监测方法，结合矩阵图法、峭度图法以及小波尺度谱法三种振动信号的预处理方法，采用卷积神经网络自适应提取故障特征，实现故障的监测识别；Memarzadeh等提出基于可解释深度学习的故障监测模型，采用半监督训练在飞行数据中进行多类异常检测；Bleu-Laine等提出基于多实例学习(MIL)和多头卷积神经网络-循环神经网络(MCNN-RNN)的多故障分类器，实现飞机不良事件及其前兆的预测；Tayarani等提出基于多层感知机(MLP)、动态神经网络(DNM)、时延神经网络(TDMM)的燃气轮机故障诊断，采用DNM和TDMM产生的残差信号作为MLP的输入，完成双轴燃气涡轮发动机的故障隔离；彭军等提出基于深度置信神经网络的发动机气路故障诊断，利用深度置信网络算法对由仿真软件生成的航空发动机部件性能衰退故障数据进行求解；Shen等采用全卷积网络(FCN)自动识别和定位飞机发动机管道镜图像的损伤；Mosallam等采用无监督信息度量从多传感器信号中选取敏感信号，再用主分量分析和经验模式分解从多源信号特征集中提取主成分衰退趋势作为健康指标，对航空发动机剩余寿命进行预测。Ragab等提出了一种基于Kaplan-Meier生存分析、同时使用时间数据和状态监测数据的剩余寿命预测方法，并将其应用于航空发动机剩余寿命预测。

在新技术和健康管理服务模式发展的驱动下，多源异构数据采集和海量数据深度分析的需求越来越大。可用于大型旋转设备监测诊断的数据来源众多、类型复杂，既包括以作业日志、监测时序为代表的非结构化数据，又包括以工单表格为代表的结构化数据。现有技术中的上述基于深度学习的运维方法取得了一定成果，但均主要采用针对大型旋转机械进行振动、温度、压力等监测手段所获得的时序数据作为特征数据，来进行大型旋转机械的寿命预测、故障诊断等应用。然而，除了振动、温度、压力时序数据之外，大型旋转机械设备在服役期间还会产生大量的运维历史记录文本和历史数据表格等不同维度的数据源，这些不同维度的数据源能够更充分、更详细的呈现大型旋转机械设备的运行状态信息和维护价值信息；但这些文本数据和表格数据相对于时序数据而言，作为数据体的数据结构特征上存在较大差异，形成了多源异构数据，在数据分析中难以直接进行统一维度的数据特征提取和分析，因此在现有技术的大型旋转机械设备运维方法应用中，大型旋转机械设备在服役期间产生的文本数据和表格数据并未得到充分的数据挖掘和利用。

发明内容

针对上述现有技术的不足，本发明实际需要解决的问题是：如何提供一种大型旋转机械多源异构数据特征提取方法，以更好的对大型旋转机械关联的文本数据、表格数据和时序数据进行融合性的数据特征挖掘提取，使得提取到的多源异构数据特征能够更充分的呈现大型旋转机械设备的运行状态信息和维护价值信息，以帮助更准确的进行大型旋转机械设备的故障诊断、寿命预测等健康运维应用。

为解决上述技术问题，本发明采用了如下的技术方案：

大型旋转机械多源异构数据特征提取方法，包括如下步骤：

S1：获取大型旋转机械的多源异构数据；所述大型旋转机械的多源异构数据包括大型旋转机械关联的文本数据、表格数据和时序数据；

S2：分别对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句和分词处理，得到对应的分句分词信息；

S3：对文本数据的分句分词信息进行词嵌入编码，将得到的文本数据的词编码向量作为文本数据的特征表征向量；

S4：对表格数据中各个单元格的分句分词信息分别进行词嵌入编码，并对得到的表格数据的各个单元格的词编码向量进行拼接融合，得到表格数据的编码向量矩阵，作为表格数据的特征表征向量；

S5：对时序数据进行分段切割，对时序数据切割所得的各个时序数据段利用预先训练的自编码器分别进行编码处理后进行拼接融合，得到时序数据的编码向量，作为时序数据的特征表征向量；

S6：将大型旋转机械所关联的文本数据、表格数据和时序数据的特征表征向量进行拼接融合及降维编码处理，将得到低维融合特征向量作为大型旋转机械的多源异构数据特征向量。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述步骤S2具体包括：

S201：分别对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句处理，得到各文本信息分句的句段；

S202：分别各对文本信息的各句段进行分词处理，得到各句段包含的特征词；

S203：将文本数据中文本信息的各句段包含的特征词的集合作为文本数据的分句分词信息；将表格数据中每个单元格中文本信息的各句段包含的特征词的集合作为相应单元格分句分词信息。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述步骤S201中，对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句处理之前，还包括：

对文本数据的文本信息以及表格数据中每个单元格的文本信息进行文本预处理，所述文本预处理包括对文本信息的错别字纠正处理、错误符号纠正处理、错误语法纠正处理、去停用词处理、同义词表达一致性处理中的一种或多种。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述步骤S3具体包括：

S301：对文本数据的分句分词信息中各句段包含的每个特征词分别采用Bert模型进行词嵌入编码，得到每个特征词的1×B维的单词编码向量，B为Bert模型进行词嵌入编码的编码维度尺寸；

S302：对于单个文本数据，通过concat方法将文本数据的分句分词信息中各句段所包含的特征词的单词编码向量进行拼接融合，得到文本数据的

维的词编码向量，作为文本数据的特征表征向量；其中，m_w表示对文本数据分句获得的句段数，n_w,i表示文本数据的第i个句段包含的特征词数。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述步骤S4具体包括：

S401：对表格数据的每个单元格的分句分词信息中各句段包含的每个特征词分别采用Bert模型进行词嵌入编码，得到每个特征词的1×B维的单词编码向量，B为Bert模型进行词嵌入编码的编码维度尺寸；

S402：对于表格数据中的单个单元格，通过concat方法将单元格的分句分词信息中各句段所包含的特征词的单词编码向量进行拼接融合，得到单元格的

维的词编码向量；其中，m_c表示对单个单元格中文本信息分句获得的句段数，n_c,i表示单个单元格中的文本信息的第i个句段包含的特征词数；

S403：对于表格数据包含的N个元组×M个字段属性的各个单元格，先通过concat方法将同元组中M个不同字段属性的单元格的词编码向量进行拼接融合，得到

维的元组编码向量；再以元组为单位，将表格数据包含的N个不同元组的元组编码向量进行拼接融合，得到表格数据的

维的编码向量矩阵，作为表格数据的特征表征向量。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述步骤S5具体包括：

S501：按照设定的分段长度对时序数据进行分段切割，得到时序数据分段切割的各个时序数据段；

S502：以对分句分词信息进行词嵌入编码的编码维度尺寸B作为自编码器的编码维度尺寸，利用预先训练的自编码器分别对时序数据的各个时序数据段进行编码处理，分别得到每个时序数据段的1×B维的数据段编码向量；

S503：对于单个时序数据，通过concat方法将时序数据的各个时序数据段的数据段编码向量进行拼接融合，得到时序数据的m_t×B维的编码向量，作为时序数据的特征表征向量；其中，m_t表示对时序数据分段切割获得的时序数据段数。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述自编码器通过如下步骤训练获得：

步骤5021：从多元异构数据库获取大型旋转机械的多个样本时序数据；

步骤5022：按照设定的分段长度分别对各样本时序数据进行分段切割，得到各样本时序数据分段切割的各个时序数据段，作为样本时序数据集；

步骤5023：按照设定训练测试比例从样本时序数据集中选取训练样本和测试样本，得到训练样本集和测试样本集；

步骤5024：将训练样本集和测试样本集作为自编码器的输入，以最小化均方损失作训练目标，对自编码器进行无监督学习训练；

所述自编码器的网络模型包括编码层和解码验证层；其中，自编码器的编码层包含5个Linear层，样本时序数据的单个时序数据段通过自编码器的编码层得到1×B维的数据段编码向量；自编码器的解码验证层包含5个Linear层，由编码层得到的1×B维的数据段编码向量通过自编码器的解码验证层重新解码还原成时序数据段，用于与原时序数据段进行对比验证；

步骤5025：完成无监督学习训练后，得到经过训练的自编码器。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述步骤S6具体包括：

S601：通过concat方法将文本数据的

维的特征表征向量、表格数据的

维的特征表征向量、以及时序数据的m_t×B维的特征表征向量进行拼接融合，得到

维的融合特征表征矩阵；

其中，B表述进行词嵌入编码的编码维度尺寸；m_w表示对文本数据分句获得的句段数，n_w,i表示文本数据的第i个句段包含的特征词数；m_c表示对表格数据的单个单元格中的文本信息分句获得的句段数，n_c,i表示单个单元格中的文本信息的第i个句段包含的特征词数，N表示表格数据包含的元组数量，M表示表格数据包含的字段属性数量；m_t表示对时序数据分段切割获得的时序数据段数；

S602：将融合得到的融合特征表征矩阵输入至预先训练的降维编码模型，将降维编码模型输出的1×D_B维的低维融合特征向量作为大型旋转机械的多源异构数据特征向量；其中，D_B表示降维编码模型的降维编码维度尺寸。

上述的大型旋转机械多源异构数据特征提取方法中，作为优选方案，所述降维编码模型通过如下步骤训练获得：

步骤6021：从多元异构数据库获取大型旋转机械关联的多组样本文本数据、样本表格数据和样本时序数据；

步骤6022：分别对各组样本文本数据、样本表格数据和样本时序数据进行处理得到各组中样本文本数据的

维的特征表征向量、样本表格数据的

维的特征表征向量、以及样本时序数据的m_t×B维的特征表征向量，并进行拼接融合，得到各组对应的

维的融合特征表征矩阵，作为样本数据集；

步骤6023：按照设定训练测试比例从样本数据集中选取训练样本和测试样本，得到训练样本集和测试样本集；

步骤6024：将训练样本集和测试样本集作为降维编码模型的输入，以最小化均方损失作训练目标，对降维编码模型进行无监督学习训练；

所述降维编码模型包括编码层和解码验证层；其中，降维编码模型的编码层包含1个Linear层、3个反卷积算子卷积层与1个残差模块，

维的融合特征表征矩阵通过降维编码模型的编码层得到1×D_B维的低维融合特征向量；降维编码模型的解码验证层包含5个Linear层，由编码层得到的1×D_B维的低维融合特征向量通过降维编码模型的解码验证层重新解码还原成

维的融合特征表征矩阵，用于与原融合特征表征矩阵进行对比验证；

步骤6025：完成无监督学习训练后，得到经过训练的降维编码模型。

相应的，本发明还提供了一种大型旋转机械的故障诊断方法，包括如下步骤：

步骤A：获取待检测大型旋转机械的多源异构数据，采用权利要求1～8中任一项所述的大型旋转机械多源异构数据特征提取方法进行特征提取，得到待检测大型旋转机械的多源异构数据特征向量；

步骤B：将待检测大型旋转机械的多源异构数据特征向量输入经过训练的故障分类识别模型中，输出待检测大型旋转机械的故障类别预测诊断结果。

相比于现有技术，本发明的有益效果在于：

1、本发明的大型旋转机械多源异构数据特征提取方法，针对大型旋转机械关联的文本数据、表格数据和时序数据分别采用不同的数据特征编码方式，通过对文本数据和表格数据做分句和分词处理后进行词嵌入编码，通过对时序数据做分段切割后进行自编码，使得文本数据、表格数据和时序数据都被转换为统一数据维度的编码向量形态，作为各自的特征表征向量，并且较好的保留了三者各自所携带的运行状态信息和维护价值信息，进而使得三者的编码向量能够在统一数据维度下进行进一步的拼接融合及降维编码处理，构建保留有其三者所携带的运行状态信息和维护价值信息的低维融合特征向量，作为大型旋转机械的多源异构数据特征向量，实现了对大型旋转机械关联的文本数据、表格数据和时序数据的融合性数据特征挖掘提取。

2、将本发明方法提取得到的大型旋转机械的多源异构数据特征向量作为进行大型旋转机械设备的故障诊断、寿命预测等健康运维应用的特征数据，由于多源异构数据特征向量源自多个数据源维度，能够更充分的呈现大型旋转机械设备的运行状态信息和维护价值信息，进而能够更好的提升大型旋转机械设备故障诊断、寿命预测等健康运维应用的准确性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1是本发明大型旋转机械多源异构数据特征提取方法的流程图。

图2是本发明大型旋转机械多源异构数据特征提取方法的一个详细流程示例的流程框图。

图3是Bert模型提取句子数据的原理示意图。

图4是自编码器AE模型的结构示例图。

图5是反卷积算子的原理示意图。

图6是生成反卷子算子的操作流程示意图。

图7是基于反卷积算子的AE模型的结构示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

如图1所示，本发明公开了一种大型旋转机械多源异构数据特征提取方法，包括如下步骤：

本发明的大型旋转机械多源异构数据特征提取方法，针对大型旋转机械关联的文本数据、表格数据和时序数据分别采用不同的数据特征编码方式，通过对文本数据和表格数据做分句和分词处理后进行词嵌入编码，通过对时序数据做分段切割后进行自编码，使得文本数据、表格数据和时序数据都被转换为统一数据维度的编码向量形态，作为各自的特征表征向量，并且较好的保留了三者各自所携带的运行状态信息和维护价值信息，进而使得三者的编码向量能够在统一数据维度下进行进一步的拼接融合及降维编码处理，构建保留有其三者所携带的运行状态信息和维护价值信息的低维融合特征向量，作为大型旋转机械的多源异构数据特征向量，实现了对大型旋转机械关联的文本数据、表格数据和时序数据的融合性数据特征挖掘提取。

将本发明方法提取得到的大型旋转机械的多源异构数据特征向量作为进行大型旋转机械设备的故障诊断、寿命预测等健康运维应用的特征数据，由于多源异构数据特征向量源自多个数据源维度，能够更充分的呈现大型旋转机械设备的运行状态信息和维护价值信息，进而能够更好的提升大型旋转机械设备故障诊断、寿命预测等健康运维应用的准确性。

图2示出了本发明大型旋转机械多源异构数据特征提取方法的一个详细流程示例的流程框图；接下来以此为例，对本发明的大型旋转机械多源异构数据特征提取方法进行更详细的说明。

具体实施时，在步骤S1中，以某风场CMS系统为例，可以收集风场CMS系统中风机等大型旋转机械的振动数据、SCADA数据等时序数据，以及相关联的文本说明、文本记录等文本数据，还有表格说明、表格记录等表格数据；收集得到的这些的文本数据、表格数据和时序数据，可以通过人工处理，根据针对大型旋转机械的关联性进行标注，或者将大型旋转机械关联的文本数据、表格数据和时序数据归于一个文件夹内，通过这些方式来记录文本数据、表格数据和时序数据与大型旋转机械的关联关系，方便后续进行相关联的文本-表格-时序数据的特征融合提取。

具体实施时，步骤S2具体包括：

针对表格数据的异质性，数据的语义相似性相比于数据的字符相似性更为重要。因此，可以将文本数据、表格数据通过预训练的Bert模型进行词嵌入编码，将其转换为向量形式；而Bert模型的最大输入字符数决定了进行词嵌入编码的编码维度尺寸，如果文本数据、表格数据中包含的文本信息(文字、字符、数据等类型的信息)过长，则可能导致部分文本信息在词嵌入编码后丢失，因此需要先对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句和分词处理。

文本数据的分句和分词处理较为成熟，通常分句以“。”、“？”、“！”以及“；”等用于语句分割的标点符号为分隔符进行；针对句子中的中文和英文字符特征，可以采用现有技术的分词方法处理。此外，在对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句处理之前，还可以先对文本数据的文本信息以及表格数据中每个单元格的文本信息进行文本预处理，文本预处理包括对文本信息的错别字纠正处理、错误符号纠正处理、错误语法纠正处理、去停用词处理、同义词表达一致性处理等，可以根据文本信息的实际情况和需要选择其中的一种或多种文本预处理操作。分词时，其中中文按照字分词，英文按照单词进行分词，可以通过查询词典，进行错别字纠正、错误符号纠正、错误语法纠正、同义词替换使得表达具备一致性、去除冗余和无意义的停用词等预处理，只保留具有语义相关信息的特征词，为后续特征提取提供较为纯净的数据空间。例如data.txt数据“中间级轴承磨损，高速轴输出大齿轮偏载，啮合不均匀。”，如果以单个字符作为特征词进行分词处理，那么分词得到的特征词数据为“中”、“间”、“级”、“轴”、“承”、“磨”、“损”、“高”、“速”、“轴”、“输”、“出”、“大”、“齿”、“轮”、“偏”、“载”、“啮”、“合”、“不”、“均”、“匀”。

当然，分词处理也可以采用词语、词组等作为分词单元。

表格数据通常是包含的元组维度和字段属性维度的二维结构化数据。不失一般性的，可以将表格数据的表头记为{A_1,A_2,..,A_M}，元组记为t_i，t_i[A_k]代表第i条元组在属性A_k上的值。针对表格数据的结构化特征，首先对表格数据进行以单元格为单位的拆分，即将单个表格数据划分为多个t_i[A_k]，将单元格数据t_i[A_k]视作单个文本数据以进行后续操作。例如data.xlsx表格数据，其结构以及内容如表1所示：

表1

风机故障编号	故障时间	故障部件
			#1	2018年12月25日	行星齿轮箱高速轴
#2	2019年12月26日	风机叶扇

按照元组、表头对表格数据进行分割，可划分为9个单元格数据。

具体实施时，步骤S3具体包括：

具体应用实施中，可以根据原数据的句子结构，将文本以原句型结构构建样本集，样本集以单个文本或者表格数据为单位；然后设定批次大小，将样本集分批次送入的Bert模型中进行预训练，通过词嵌入查询获取其词向量表征。训练完成后得到的Bert模型，即可应用于对文本数据和表格数据的词嵌入编码。concat方法是用于连接两个或多个数据向量的成熟技术方法，用于两个或多个数据向量的拼接连接。

以Bert模型进行词嵌入编码的编码维度尺寸B为768为例，词嵌入编码得到的单词编码向量尺寸大小即为1×768维。这样，对于单个文本数据，最终得到的文本数据的词编码向量表示为维

的矩阵向量，其中，m_w表示对文本数据分句获得的句段数，n_w,i表示文本数据的第i个句段包含的特征词数。

例如，如图3所示，文本数据data.txt“中间级轴承磨损，高速轴输出大齿轮偏载，啮合不均匀。”经过Bert模型最终可以获得22×768维的词编码向量。该向量作为文本数据data.txt的特征表征向量，不仅包含全局文字的字符信息和语义信息，还包含各个字符的位置信息，具有充分的表达能力。

具体实施时，步骤S4具体包括：

维的编码向量矩阵，作为表格数据的特征表征向量。

具体应用实施中，对于单个表格数据所拆分得到的N×M个单元格数据，以Bert模型进行词嵌入编码的编码维度尺寸B为768为例，通过步骤3可以获得N×M个

维的词编码向量，M表示表格数据包含的字段属性数量；m_t表示对时序数据分段切割获得的时序数据段数。然后，再通过concat方法将同元组中M个不同字段属性的单元格的词编码向量进行拼接融合，得到

维的编码向量矩阵，作为表格数据的特征表征向量。

例如表1所示的data.xlsx表格数据，经过预处理划分为9个单元格数据，输入到Bert模型得到的词编码向量分别为6×768维、4×768维、4×768维、2×768维、6×768维、8×768维、2×768维、6×768维以及4×768维的词编码向量；再按照字段属性进行同元组中各不同字段属性的单元格的词编码向量融合，分别得到14×768维、16×768维、以及12×768的元组编码向量；最后按照不同元组进行特征向量融合，最终得到42×768维的编码向量矩阵，该向量作为data.xlsx表格数据的特征表征向量，不仅包含了全局信息，还包含了各自元组以及字段属性的信息。

具体实施时，步骤S5具体包括：

其中，自编码器通过如下步骤训练获得：

设定的分段长度以4096个数据点为例，对于单条时序数据，首先按照4096个数据点进行切片划分得到多个时序数据段，在所有时序数据划分完成后，将得到的数个时序数据段作为样本集，以5:1的比例划分为训练集与测试集。

然后构建自编码器AE模型，其模型结构示例如图4所示。其中Encoder层(编码层)包含5个Linear层，单个时序数据段通过Encoder层最终得到1×768维的特征向量；Decoder层(解码验证层)包含5个Linear层，将通过Encoder获取的1×768维的特征向量重新解码还原成1×4096维的输入向量，通过最小化MSE损失(均方损失)来训练优化AE模型。

MSE损失函数的计算公式如下：

其中，y_i和

分别表示第i个样本的真实值与预测值，m为样本数量。

作为优选的参数选择，自编码器AE模型AE神经网络优化器为Adam，学习率为1e^-4，weight-declay为2e^-5，批处理大小为30，Dropout随机失活率为0.4，总共训练20个epoch。

然后，将划分好的样本集作为AE模型的输入，通过无监督学习训练AE模型。

完成无监督学习训练后，利用训练好的AE模型对时序数据进行特征提取，单个4096点构成的时序数据段经过Encoder特征提取得到1×768维的特征向量，通过concat方法将多个时序数据段的特征向量进行拼接，最终得到m_t×768维的编码向量，作为时序数据的特征表征向量。

例如，风场CMS系统采集的振动时序数据，一天采集数据的点数为32×4096点，取两个月的采集数据进行切片分块得到60×32条数据作为样本集，按照5：1的比例划分训练集与测试集；训练集样本数量为1600，测试集数量为320；将样本集输入到构建好的AE模型中进行训练；最后分别将一天的采集数据输入到训练好的AE模型中得到32×768维的编码向量，作为这一天采集的振动时序数据的特征表征向量。

具体实施时，步骤S6具体包括：

S601：通过concat方法将文本数据的

维的特征表征向量、表格数据的

维的融合特征表征矩阵；

其中，降维编码模型通过如下步骤训练获得：

维的特征表征向量、样本表格数据的

维的融合特征表征矩阵，作为样本数据集；

同样的，以词嵌入编码的编码维度尺寸B为768为例，通过上述步骤获取到相关联的文本、表格以及时序数据的特征表征向量，首先通过concat方法将3个单独的矩阵向量拼接融合成1个多维矩阵向量，作为单组关联的文本-表格-时序数据样本，其尺寸为

例如，通过上述例子，其

因此获得的单组关联的文本-表格-时序数据的低维融合特征向量尺寸应该为96×768维。

通过上述步骤方法可以获取得到多组关联的文本-表格-时序数据样本作为样本集，以5:1的比例划分为训练集与测试集。例如，取两个月的采集数据、文本数据以及表格数据，通过上述步骤获取到1920个96×768的特征向量。按照5：1的比例划分训练集与测试集；训练集样本数量为1600，测试集数量为320。

然后，构建反卷积算子AE模型作为降维编码模型，其中，利用反卷积算子构建卷积层，利用反卷积算子卷积层设计Encoder(编码层)；具体而言，Encoder(编码层)包含1个Linear层、3个反卷积算子卷积层与1个残差模块，单组关联的文本-表格-时序数据通过Encoder层最终得到1×1024维的特征向量；Decoder(解码验证层)包含5个Linear层，将通过Encoder获取的1×1024维的特征向量重新解码还原成96×768维的输入向量。通过最小化MSE损失(均方损失)来训练优化反卷积算子AE模型。

将样本集输入到降维编码模型中进行无监督学习。

最后完成无监督学习训练后，利用训练好的降维编码模型对关联的文本-表格-时序数据的特征提取，获得文本-表格-时序数据的低维融合特征向量，作为大型旋转机械相应组文本-表格-时序数据的多源异构数据特征向量。例如，上述例子中96×768维的文本-表格-时序数据通过降维编码模型进行特征提取最终获得1×1024维的低维融合特征向量。

反卷子算子(Involution kernel)的特性与卷积相反，具有空间特异性与通道不变性，即在通道维度共享kernel，而在空间维度采用空间特异的kernel进行更灵活的建模。反卷子算子s

其中H×W表示特征图的尺寸，K×K表示kernel的尺寸，G表示所有通道共享G个kernel。对于单个反卷子算子

(i,j)是像素点

在特征图上的坐标，其中C是特征图的通道数。由此，在不同空间位置上，反卷子算子的尺寸也不相同，生成反卷子算子的公式如下：

其中，ψ_i,j是坐标(i,j)领域的一个index集合，则

表示特征图上包含X_i,j的某个patch。在反卷子算子生成之后，即可进行反卷积计算，反卷积(Involution)的计算过程如下：

其中，

表示对中心像素点进行卷积的邻域偏移量集合，其表达式为：

其中，×表示笛卡尔积。

为了简化反卷子算子的生成方式，ψ_i,j就取为{(i,j)}这个单点集，即

表示特征图上的坐标为(i,j)的单个像素点，从而得到反卷子算子的一种实例化方式：

其中，

和

是线性变换矩阵，r是通道缩减比率，σ是中间的Batch Nomalization层以及非线性激活函数ReLU层等。

反卷积算子的原理示意图如图5所示，针对输入feature map的一个坐标点上的特征向量，先通过φ(FC-BN-ReLU-FC)和reshape(channel-to-space)变换展开成kernel的形状，从而得到这个坐标点上对应的involution kernel，再和输入feature map上这个坐标点邻域的特征向量进行Multiply-Add得到最终输出的feature map。

表示跨C个信道传播的乘法运算，

表示在空间邻域内聚合的求和运算。生成反卷子算子具体操作流程和tensor形状变化如图6所示。其中，Ω_i,j是坐标(i,j)附近K×K的邻域。具体而言，反卷子算子的生成方法已是比较成熟的现有技术，其更多细节在此就不加以赘述。

构建反卷积算子AE模型的一个模型结构示例如图7所示。作为优选的参数选择，其神经网络优化器为SGD，初始学习率为0.1，weight-declay为2e^-4，动量为0.9，批处理大小为16，Dropout随机失活率为0.5，总共训练60个epoch，学习率衰减策略为每隔20个epoch学习率衰减99％。

本发明还提供一种大型旋转机械的故障诊断方法，包括如下步骤：

步骤A：获取待检测大型旋转机械的多源异构数据，采用本发明大型旋转机械多源异构数据特征提取方法进行特征提取，得到待检测大型旋转机械的多源异构数据特征向量；

其中，故障分类识别模型通过如下步骤训练获得：

步骤b1：多元异构数据库获取大型旋转机械关联的多组样本文本数据、样本表格数据和样本时序数据，且每组样本文本数据、样本表格数据和样本时序数据已标注有对应的故障类别标签；

步骤b2：采用本发明上述的大型旋转机械多源异构数据特征提取方法分别提取大型旋转机械关联的各组样本文本数据、样本表格数据和样本时序数据的多源异构数据特征向量，构成多源异构数据样本集；

步骤b3：从多源异构数据样本集中选取训练样本和测试样本，分别构成训练样本集和测试样本集；

步骤b4：将训练样本集中各训练样本作为故障分类识别模型的输入，并采用训练样本集中各训练样本的故障类别标签作为输出验证标签，对故障分类识别模型进行故障类别分类预测训练，用以调整故障分类识别模型的故障类别分类参数；

步骤b5：将测试样本集中测试样本量输入至故障分类识别模型进行故障类别预测，并采用测试样本集中各测试样本的故障类别标签作为输出验证标签，对故障分类识别模型的故障类别预测结果进行对比验证，评估故障分类识别模型的故障类别预测性能；

步骤b6：若故障分类识别模型的故障类别预测性能未达到预设目标，则返回执行步骤b4；若故障分类识别模型的故障类别预测性能达到预设目标，则完成训练，得到经过训练的故障分类识别模型。

在具体实施中，评估故障分类识别模型的故障类别预测性能指标包括精确率、查准率、召回率、F值等。这些是进行神经网络模型训练所常用性能指标。

利用此方法进行大型旋转机械的故障诊断，由于多源异构数据特征向量源自多个数据源维度，能够更充分的呈现大型旋转机械设备的运行状态信息和维护价值信息，进而能够更好的提升大型旋转机械设备故障诊断的准确性。

同样的，本发明方法提取得到的大型旋转机械的多源异构数据特征向量，也能够作为进行大型旋转机械设备的寿命预测等应用的特征数据，帮助提升其预测准确性。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.大型旋转机械多源异构数据特征提取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求2所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述步骤S201中，对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句处理之前，还包括：

4.根据权利要求2所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求2所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述步骤S4具体包括：

维的编码向量矩阵，作为表格数据的特征表征向量。

6.根据权利要求1所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述步骤S5具体包括：

7.根据权利要求6所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述自编码器通过如下步骤训练获得：

8.根据权利要求1所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述步骤S6具体包括：

S601：通过concat方法将文本数据的

维的特征表征向量、表格数据的

维的融合特征表征矩阵；

9.根据权利要求8所述的大型旋转机械多源异构数据特征提取方法，其特征在于，所述降维编码模型通过如下步骤训练获得：

维的特征表征向量、样本表格数据的

维的融合特征表征矩阵，作为样本数据集；

10.一种大型旋转机械的故障诊断方法，其特征在于，包括如下步骤：