CN116258466B

CN116258466B - 多模态电力场景作业规范检测方法、系统、设备及介质

Info

Publication number: CN116258466B
Application number: CN202310537576.0A
Authority: CN
Inventors: 田克强; 李继攀; 王帅; 谷栋; 孙素亮; 郭瑞; 王维令; 王洋; 李效乾; 朱仰贺
Original assignee: Heze Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Heze Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-10-27
Anticipated expiration: 2043-05-15
Also published as: CN116258466A

Abstract

本发明公开一种多模态电力场景作业规范检测方法、系统、设备及介质，涉及电力场景数据识别技术领域，包括：获取工作票，提取作业事件，并获取作业事件对应的语音分析规则和视频分析规则；对监控范围内的语音信息提取异常部分，通过与语音分析规则中的异常事件库进行匹配，判断语音异常事件；提取监控范围内的视频信息中的人员的位置及运动跟踪信息，通过视频分析规则中的异常事件库，判断是否出现视频异常事件；通过判断是否存在语音异常事件或视频异常事件来进行作业规范的检测。通过文本、声音、视频三种模态信息监控追踪作业人员作业全流程，完成整体流程作业规范的监控与检测。

Description

多模态电力场景作业规范检测方法、系统、设备及介质

技术领域

本发明涉及电力场景数据识别技术领域，特别是涉及一种多模态电力场景作业规范检测方法、系统、设备及介质。

背景技术

目前针对电力作业规范的监督管控上，信息载体大多以文本、图像、视频等载体进行传播，而目前的监控方法大多是基于视频的单模态形式的监控，对于大范围的作业场景，缺乏覆盖的广度与宽度，不能根据文本、视频、语音等多模态信息更深度的理解作业规范流程，难以多维度实现电力作业违章的智能识别，电力作业违章识别效率和可靠性低。

另外，在对人员的跟踪上，目前仅基于卡尔曼滤波（Kalman Filter）目标跟踪算法的方式可能会出现误匹配；比如同一人员虽然在时间上可以将运动路径进行关联，但是空间位置上不一定存在关联关系，所以人员的跟踪需要考虑多种约束条件的限制。

发明内容

为了解决上述问题，本发明提出了一种多模态电力场景作业规范检测方法、系统、设备及介质，通过文本、声音、视频三种模态信息监控追踪作业人员的作业，完成整体流程作业规范的监控与检测。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种多模态电力场景作业规范检测方法，包括：

获取工作票，提取作业事件，并获取作业事件对应的语音分析规则和视频分析规则；

获取监控范围内的语音信息，对语音信息提取异常部分，对异常部分与语音分析规则中设定的异常事件库进行匹配，以判断是否出现语音异常事件；

获取监控范围内的视频信息，通过提取视频信息中的人员特征和人员所处场景的场景语义特征确定人员位置，通过设定时间约束、空间约束和运动约束，对人员进行运动跟踪，将人员的位置及运动跟踪信息与视频分析规则中设定的异常事件库进行匹配，以判断是否出现视频异常事件；

通过判断是否存在语音异常事件或视频异常事件来进行作业规范的检测。

作为可选择的实施方式，提取作业事件的过程包括：

确定工作票中的列数、行数以及每个单元格的位置和大小，以此将工作票切分为多个子表格，形成多个工作票子内容；

提取工作票子内容中与作业事件相关的信息，所述作业事件包括作业任务、作业人员和作业时间；

将多个工作票子内容中的信息进行合并汇总，并采用正则匹配方法进行结构化处理，从而完成作业事件的提取。

作为可选择的实施方式，对语音信息提取异常部分的过程包括：

采用滑动窗口将语音信息分段，每个时间窗口对应一个图卷积神经网络的节点，每个时间窗口的频谱图表示为一个节点的特征；

使用欧几里得距离确定节点间的相似性，以节点间的相似性为边构建图卷积神经网络；

对图卷积神经网络经训练后得到基于图卷积神经网络的异常检测模型，以此提取语音信息的异常部分。

作为可选择的实施方式，对提取的异常部分进行降维后，与语音分析规则中设定的异常事件库进行特征匹配，特征匹配度最高的即判定为出现语音异常事件。

作为可选择的实施方式，确定人员位置的过程包括：

检测视频信息中的人员，并确定每个人员图像的边界框坐标和类别标签；

对每个人员图像提取人员特征；

对每个人员图像提取所处场景的场景语义特征；

将人员特征与场景语义特征进行融合，以确定人员位置。

作为可选择的实施方式，所述运动跟踪包括：

所述时间约束为设置时间窗口，将在时间窗口内出现的同一人员进行运动关联；

所述空间约束为设置空间范围，将在空间范围内出现的同一人员进行运动关联；

所述运动约束为根据同一人员的运动方向和速度，判断在不同的视频图像之间是否存在关联，以确定运动轨迹。

作为可选择的实施方式，当且仅当时间约束、空间约束和运动约束均满足时，才判定为符合运动追踪原则。

第二方面，本发明提供一种多模态电力场景作业规范检测系统，包括：

文本分析模块，被配置为获取工作票，提取作业事件，并获取作业事件对应的语音分析规则和视频分析规则；

语音分析模块，被配置为获取监控范围内的语音信息，对语音信息提取异常部分，对异常部分与语音分析规则中设定的异常事件库进行匹配，以判断是否出现语音异常事件；

视频分析模块，被配置为获取监控范围内的视频信息，通过提取视频信息中的人员特征和人员所处场景的场景语义特征确定人员位置，通过设定时间约束、空间约束和运动约束，对人员进行运动跟踪，将人员的位置及运动跟踪信息与视频分析规则中设定的异常事件库进行匹配，以判断是否出现视频异常事件；

综合判断模块，被配置为通过判断是否存在语音异常事件或视频异常事件来进行作业规范的检测。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明创新性提出一种多模态电力场景作业规范检测方法，根据工作票信息确定作业事件，明确作业任务、作业时间和作业人员，以此为依据确定语音和视频的分析对象，实现通过文本、声音、视频三种模态信息监控追踪作业人员的作业，完成整体流程作业规范的监控与检测，极大的提高了电力场景作业规范检测的智能识别能力，解决了现有的识别智能化程度低、效率低和可靠性低的问题。

本发明创新性提出基于时空运约束的目标跟踪技术，设计时间约束、空间约束和运动约束，且当且仅当时间约束、空间约束和运动约束均满足时，才判定为符合运动追踪原则，降低误匹配概率，提高追踪准确率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的多模态电力场景作业规范检测方法流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种多模态电力场景作业规范检测方法，如图1所示，包括：

在本实施例中，获取作业人员在线开取的工作票，并对工作票通过结构化作业信息进行作业事件的抽取，并在预设的规则库中获取该作业事件对应的语音分析规则和视频分析规则。

所述对工作票通过结构化作业信息进行作业事件的抽取流程包括：

（1）工作票预处理；在进行作业事件提取之前，对工作票的原始数据进行清理操作，可采用卷积神经网络（CNN）来识别和去除工作票中表格的标题和脚注，清理工作票中无关紧要的信息。

（2）工作票分析；确定工作票中的列数和行数，以及确定工作票中每个单元格的位置和大小。

（3）工作票切分；根据确定的列数、行数以及每个单元格的位置和大小，可基于如边缘检测、连通性分析和投影法等方式将工作票切分为多个子表格，以形成多个工作票子内容。

（4）工作票子内容汇总；对于切分得到的工作票子内容进行后处理，采用OCR算法获取工作票子内容中的与作业事件相关的信息，并将多个工作票子内容中的信息进行合并汇总。

（5）基于汇总的信息采用正则匹配方法进行结构化处理，从而实现作业事件的有效提取与匹配。

作为可选择的一种实施方式，所述作业事件包括：作业任务、作业人员和作业时间。

作为可选择的一种实施方式，所述预设的规则库中包括进行异常事件检测的语音分析系统规则和视频分析系统规则。

如，描述工作票中参与作业事件的“谁（who）、何时（when）、何地（where）、什么（what）、为什么（why）”和“如何（how）”；如工作票描述为：上午10:30对03号变压器进行更换，更换人员为4人，分别为张三，李四，王五，刘六；那么，抽取作业事件及相关规则如下：工作任务为变压器更换；作业人员为张三，李四，王五，刘六；作业时间为10:30；语音分析系统规则为：（1）该工作任务不会产生过大噪音，进行噪音异常检测；（2）该工作任务禁止使用切割工具，进行切割工具频段噪音检测。视频分析系统规则为：（1）该工作任务人员为4人，开启人员识别与追踪，判别无关人员；（2）该工作任务应佩戴安全帽，开启安全帽监控；（3）该工作任务禁止吸烟，开启吸烟报警检测。

然后，根据获取作业事件对应的语音分析规则和视频分析规则，分别对监控范围内的语音信息和视频信息进行异常事件的检测。

在本实施例中，根据作业事件中的信息，获取监控范围内的语音信息，对语音信息采用异常事件提取算法提取异常部分，对异常部分进行降维后，并与语音分析规则中设定的异常事件库进行特征匹配，从而判断是否出现语音异常事件。

具体地：

所述异常事件提取算法采用图卷积神经网络（GCN）进行，所述GCN网络以数据样本为节点，以节点间的相似性或距离等关系为边；为了捕捉到整个数据分布的复杂结构和关系，GCN网络将数据样本和相似性矩阵表示为一个图形结构，然后在图上执行卷积操作，以提取表示节点的特征。

具体流程如下：

（1）数据预处理；对于一段时长为T秒的语音信息，将其转换为一个时间序列x(t)，其中0≤t≤T，为了将语音信息表示为图形结构，使用滑动窗口将语音信息分段，每个时间窗口对应一个节点；

设采样频率为fHz，窗口长度为w秒，则可以得到N个时间窗口，每个时间窗口包含w×f个采样点；

将每个时间窗口的频谱图表示为一个节点的输入特征，即：；其中，i表示第i个节点，d表示特征维度；例如，对于使用梅尔倒谱系数（MFCC）表示的音频信号，d表示MFCC系数的数量。

（2）构建相似性矩阵；使用高斯核函数将欧几里得距离转换为节点间的相似性，根据节点之间的相似性构建相似性矩阵。

（3）定义图卷积神经网络结构；定义GCN的层数和每层的节点数量；GCN的每一层都包含一个卷积操作和一个非线性激活函数。

（4）训练模型：使用已经标注好的正常样本和异常样本进行训练步骤（3）定义的图卷积神经网络，使用二元交叉熵进行优化，采用L2正则化防止过拟合，最终获得基于图卷积神经网络的异常检测模型。

（5）基于异常检测模型对语音信息提取异常部分，对异常部分使用PCA进行降维后，与语音分析规则中设定的异常事件库进行特征匹配，判定是否出现与作业事件相关的语音异常事件，特征匹配度最高的即判定为出现语音异常事件，从而对作业规范性进行检测。

在本实施例中，根据作业事件中的信息，获取监控范围内的视频信息，对视频信息采用增强重识别技术识别人员的位置及运动跟踪信息，并通过与视频分析规则中设定的异常事件库进行匹配后，判断是否出现与作业事件相关的视频异常事件。

在作业规范监控场景下进行人员识别和监控，以确保工作场所的安全；但是，由于每个人的工装与作业设备都相似，场景中也存在许多复杂的物体和环境干扰，以及不同摄像头的拍摄条件差异，传统人员识别技术在实际应用中表现不佳。因此，本实施例采用增强重识别技术来检测视频异常事件，增强重识别技术是指在传统人员重识别技术的基础上，引入更多的信息（如场景信息、语义信息等）来提升作业人员识别的准确度和稳定性。

具体包括以下步骤：

（1）人员检测：使用YOLO目标检测算法，对视频图像中的人员进行检测；确定每个人员图像的边界框坐标和类别标签。

（2）人员特征提取：对检测到的每个人员图像，使用Resnet50深度学习模型提取人员特征，其中每个特征表示为一个1024长度的特征向量。

（3）语义特征提取：对于每个人员图像，提取其所处场景的语义信息，如所处的位置、工作任务等，即将该人员所处范围扩张3倍尺寸的图像区域进行第二次特征提取，使用Resnet18深度学习模型获取场景语义特征，每个特征为512长度的特征向量。

（4）特征融合：将场景语义特征与人员特征进行融合，从而得到维度为1536的特征向量，即1024的人员特征向量加上512特征的场景语义特征向量，以提高人员重识别的准确度和稳定性。

（5）人员运动跟踪：对于同一人员在多张图像中出现的情况，通过目标跟踪，来跟踪人员的位置和速度等信息；其中，在目标跟踪时，本实施例采用改进部分时空运约束，即时间约束、空间约束和运动约束，在物体跟踪中，如果前后两帧的人员运动关联起来了，则认为是追踪上了，而现有方式中单纯的依靠Kalman Filter目标跟踪算法可能会出现误匹配，所以本实施例采用了以下三种约束，目的是让追踪的条件变得更苛刻和严格，任一条件不满足都不符合追踪原则，当且仅当时间约束、空间约束和运动约束均满足时，才判定为符合运动追踪原则，降低误匹配。

具体地：

（5-1）时间约束：同一人员在不同摄像头中出现的时间是有一定关系的，因此通过时间约束来限制不同图像之间的关联；例如，设置时间窗口，只有在时间窗口内出现的图像才能被关联起来，超出时间窗口的图像则不进行关联。

（5-2）空间约束：同一人员在不同摄像头中出现的位置也有一定关系，因此通过空间约束来限制不同图像之间的关联；例如，设置一个空间范围，只有在空间范围内出现的图像才能被关联起来，超出空间范围的图像则不进行关联。

（5-3）运动约束：同一人员在不同摄像头中出现的运动轨迹也有一定关系，因此通过运动约束来限制不同图像之间的关联；例如，根据人员的运动方向和速度，判断不同图像之间是否存在关联，并给出相应的匹配度评分，若匹配度评分超过阈值，则不进行关联。

在本实施例中，将上述提取的人员的位置及运动跟踪信息与视频分析规则中设定的异常视频库进行匹配后，来检测是否出现视频异常事件；当语音异常事件和视频异常事件至少出现一项时，表示作业事件出现异常，基于此可进行报警等措施。

实施例2

本实施例提供一种多模态电力场景作业规范检测系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种多模态电力场景作业规范检测方法，其特征在于，包括：

提取作业事件的过程包括：

具体为，针对变压器更换的作业任务、作业人员和作业时间，以及针对变压器更换的作业任务对应的语音分析规则为进行噪音异常检测以及切割工具频段噪音检测，视频分析规则为人员识别与运动追踪、判别无关人员、开启安全帽监控和吸烟报警检测；

将多个工作票子内容中的信息进行合并汇总，并采用正则匹配方法进行结构化处理，从而完成作业事件的提取；

通过判断是否存在语音异常事件和/或视频异常事件来进行作业规范的检测；

确定人员位置的过程包括：

对每个人员图像提取人员特征；

对每个人员图像提取所处场景的场景语义特征；

将人员特征与场景语义特征进行融合，以确定人员位置；

具体包括以下步骤：

（1）人员检测：使用YOLO目标检测算法，对视频图像中的人员进行检测；确定每个人员图像的边界框坐标和类别标签；

（2）人员特征提取：对检测到的每个人员图像，使用Resnet50深度学习模型提取人员特征，其中每个特征表示为一个1024长度的特征向量；

（3）语义特征提取：对于每个人员图像，提取其所处场景的语义信息，如所处的位置、工作任务，即将该人员所处范围扩张3倍尺寸的图像区域进行第二次特征提取，使用Resnet18深度学习模型获取场景语义特征，每个特征为512长度的特征向量；

（4）特征融合：将场景语义特征与人员特征进行融合，从而得到维度为1536的特征向量，即1024的人员特征向量加上512特征的场景语义特征向量，以提高人员重识别的准确度和稳定性；

（5）人员运动跟踪：对于同一人员在多张图像中出现的情况，通过目标跟踪，来跟踪人员的位置和速度；

所述运动跟踪包括：

所述时间约束为：同一人员在不同摄像头中出现的时间是有一定关系的，因此通过时间约束来限制不同图像之间的关联；通过设置时间窗口，将在时间窗口内出现的同一人员进行运动关联；

所述空间约束为：同一人员在不同摄像头中出现的位置也有一定关系，因此通过空间约束来限制不同图像之间的关联；通过设置空间范围，将在空间范围内出现的同一人员进行运动关联；

所述运动约束为：同一人员在不同摄像头中出现的运动轨迹也有一定关系，因此通过运动约束来限制不同图像之间的关联；通过根据同一人员的运动方向和速度，判断在不同的视频图像之间是否存在关联，并给出相应的匹配度评分，若匹配度评分超过阈值，则不进行关联，以此确定运动轨迹；

当且仅当时间约束、空间约束和运动约束均满足时，才判定为符合运动追踪原则。

2.如权利要求1所述的一种多模态电力场景作业规范检测方法，其特征在于，对语音信息提取异常部分的过程包括：

3.如权利要求2所述的一种多模态电力场景作业规范检测方法，其特征在于，对提取的异常部分进行降维后，与语音分析规则中设定的异常事件库进行特征匹配，特征匹配度最高的即判定为出现语音异常事件。

4.一种多模态电力场景作业规范检测系统，利用如权利要求1所述的一种多模态电力场景作业规范检测方法实现，其特征在于，包括：

综合判断模块，被配置为通过判断是否存在语音异常事件和/或视频异常事件来进行作业规范的检测。

5.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-3任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-3任一项所述的方法。