CN113723230A

CN113723230A - 业务流程抽取领域过程性视频的过程模型抽取方法

Info

Publication number: CN113723230A
Application number: CN202110939984.XA
Authority: CN
Inventors: 曾庆田; 邹明浩; 陈双
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-30

Abstract

本发明属于计算机视觉技术领域，公开了业务流程抽取领域过程性视频的过程性模型抽取方法，可以改变传统业务流程抽取模型主要依赖于日志等结构化数据，难以应用于视频等非结构化数据的现状。此发明方法从互联网中筛选出视频数据；通过K近邻算法和图像处理技术从视频中提取出运动目标；以固定帧长从视频中自动切分出动作的视频帧序列，将视频帧序列送至双流膨胀卷积神经网络(Two‑Stream Inflated 3D ConNet)中进行动作识别，使用细粒度标签和标签映射机制优化动作识别的实验结果，然后将其转换成XES类型的日志文件，通过BPMN Miner方法挖掘出业务流程模型与标注(Business Process Model and Notation)。该发明为业务流程抽取领域在视频数据上的应用提供了一种通用、简捷的模型抽取方法。

Description

业务流程抽取领域过程性视频的过程模型抽取方法

技术领域

本发明属于业务流程抽取领域，尤其涉及一种视频流程抽取领域过程性视频的过程模型抽取方法。

背景技术

随着社会经济的发展，当今越来越多的企事业单位注重流程挖掘技术，该项技术可以从日志文件中提取有价值的信息，以便发现、监控和改进流程，实现业务流程的智能管理。但是传统业务流程抽取模型主要依赖于日志等结构化数据，容易受到日志文件残缺、不规范等问题的影响，而且难以应用于图片、视频等非结构化数据，导致在很多数据场景下无法进行流程抽取，造成大量的数据浪费和应用欠缺。

近些年来业务流程抽取研究不断深入，如何从视频等非结构化数据中进行过程挖掘，已经引起了人们的广泛关注。从日志到视频的转变，给流程挖掘带来了巨大的挑战，现有的工作大多仍处于手工挖掘的阶段，消耗大量的人力、物力成本。通过图像中物体位置、状态分析的自动挖掘方法仅从视频中某一帧图像考虑，无法结合视频中上下文信息，导致挖掘效果往往不好。

随着深度学习在图像领域的不断深入发展，短视频中的动作定位和识别技术不断完善，但是却少有研究将深度学习和视频流程挖掘相结合，主要原因包括过程性视频数据集稀缺且无标注、长视频动作定位效果差、已有过程挖掘算法集中于日志数据，缺少动作识别结果向日志文件转换的成熟方法。

发明内容

针对目前视频数据下的流程抽取工作空白的现状，本发明提出了一种视频流程抽取领域过程性视频的过程模型抽取方法。

本发明方法具体包括数据采集与增强、视频数据预处理、动作分割与识别、BPMN流程模型挖掘四部分。

本发明方法的第一部分是数据采集与增强，从已有的公开数据集中筛选包含流程信息的视频数据，并采用图像增强技术扩展数据集。

本发明方法的第二部分是数据预处理，将对原始视频数据进行预处理，消除图像中无关的信息，增强有关信息的可检测性和最大限度的简化数据。

本发明方法的第三部分是动作分割与识别，将对预处理的图像中提取动作进行动作分割和标识动作的类型，本发明方法设计了基于固定帧数的动作自动分割方法，不但实现了自动化，而且又具备一定的通用性，来解决动作分割与识别问题。

本发明方法的第四部分是BPMN模型挖掘，根据提取出的动作标签生成BPMN流程模型，可以清晰、准确表达视频内动作的关系。经过上述四部分，最终形成过程性视频的过程模型抽取方法。

鉴于上述，本发明的第一个方面提供了一种数据采集与增强的方法。第一步以“餐具摆放”作为主题从各大数据集网站公开的数据集中进行数据采集；第二步是视频数据清洗，使用OpenCV对视频分辨率、帧率、亮度等特征进行调整，使采集的视频数据调整至相同或高度相似的数据格式，丢弃调整失败的视频数据；第三步使用Python语言实现视频的简易动作标注工具，标注形式为[视频ID，动作类型，动作发生时间，动作结束时间]四元组；第四步通过图像旋转、平移、裁剪、缩放等图像增强技术，扩充数据集数量，并使不同类别动作的数据量分布平衡。

根据本发明的第二部分，所述视频预处理步骤具体如下。

第一步，图像灰度化处理。从视频数据中提取RGB视频帧，将RGB视频帧进行图像灰度化处理。灰度图像可以提供完整的梯度信息，并且可以减少图像大小，从而减小后续工作的计算量。灰度图像Gray由包含R、G、B三个通道的原图像，根据权值进行通道值累加而成，图像灰度化方法如公式1所示，其中H、W分别表示原图像的高和宽,i∈[1,2,...,H], j∈[1,2,...,H]。

在上述技术方案中，提取到的灰度图虽然保留了梯度信息，但图像中仍存在着无用的背景信息。

第二步，运动目标提取。为了去除上述技术方案灰度图中背景等无用信息、精确提取运动目标，本发明方法提出了KNN算法结合了静态背景图像估计和每个像素的贝叶斯分割，使用前面很少的图像进行背景建模。由于使用了具有自适应特性的概率前景估计算法（使用贝叶斯估计鉴定前景），使观察到的对象比旧的对象具有更高的权重，从而对光照变化产生适应。

在上述技术方案中，虽然精确的地提取出了运动目标，但是却存在着噪声的干扰。

第三步，图像噪声处理。为了去除上述技术方案运动目标的噪声，本发明方法提出了使用中值滤波对灰度图进行非线性滤波，其基本思想是用像素点邻域灰度值的中值来代替该像素点的灰度值，让周围的像素值接近真实的值从而消除孤立的噪声点，计算方法如公式2所示：

g(x，y)＝Med{f(x-k，y-l)，(k，l∈W)} (2)

其中，f(x，y)、g(x，y)分别为原始图像和中值滤波处理后图像，M是大小为N*N二维模板，N的取值为正奇数，Med表示将区域中样本值排序并取中值。

在上述技术方案中，所述中值滤波技术的信号处理，消除了部分椒盐噪声并且有效保护图像边缘信息、平滑了图像。

第四步，开运算处理。本发明方法提出了对视频帧进行开运算处理。开运算是先腐蚀后膨胀的一种组合形态学操作。

设X为目标图像，B为结构元素，则目标图像X对结构元素B进行开运算处理的数学表达式如公式3所示：

公式4、5分别表示腐蚀、膨胀计算方法。其中(B)xy表示将结构元素B的原点平移至图像像元(x，y)位置，

是腐蚀运算的运算符，

是膨胀运算的运算符。

在上述技术方案中，所述开运算可以使图像的轮廓变得更加光滑以及断开狭窄的间断，它可以在尽量不改变物体面积的前提下，消除小物体与突出物。

上述四个步骤，阐述了完整的图像预处理过程。

根据本发明的第三部分，所述动作分割与识别步骤具体如下。

第一步，动作分割。从图像序列中分割出动作序列，本发明方法首先采用固定帧数分割的方法来进行动作的初步分割，在提取的运动目标图像序列中以固定帧数N进行动作分割，每个被分割出来的N帧序列对应一个动作标签。

在上述技术方案中，由于动作的类别和动作的执行者不同，所以不同动作有着不同的执行时间、对应着不同大小的帧数跨度，而采用固定帧长分割会出现动作不完整、动作包含无用帧的情况，干扰后续动作识别网络的学习过程。因此，构建标签映射机制，修正固定帧数分割造成的动作执行区间不准确的问题。进一步，此处所述标签映射步骤阐述如下。

第1.1步，根据帧长，将原始标注标签划分为更细粒度的动作标签，如“取勺子”动作分为：“拉开抽屉”、“拾起勺子”、“关闭抽屉”。

第1.2步，将分割结果与原始标注中动作的起始、终止位置对齐，采用细粒度标签重新构造标注文件，标注形式为：[分割片段ID，细粒度动作标签，片段开始时间，片段结束时间]。

第1.3步，将细粒度的标注结果和图像序列分割结果作为动作识别网络的输入。

第1.4步，通过多级标签映射关系，将动作识别网络预测得到的细粒度动作标签，映射回原始动作标签，映射结果的形式为：[分割片段ID，动作标签，片段开始时间，片段结束时间]。

第1.5步，对映射结果进行冗余、归并处理，获得动作发生的开始时间和结束时间，处理结果的形式为：[视频ID，动作类型，动作发生时间，动作结束时间]。

第二步，动作识别。本发明方法采用Two-Stream Inflated 3D ConvNet网络结构，以分类网络的形式对分割出来的动作序列进行动作识别，加载ImageNet的预训练模型，并采用二维卷积膨胀至三维以提取时间、空间特征。为提升网络的识别性能，使用RGB-Mo（运动目标图像）双流结构替代原RGB-Optical flow双流结构。

在上述技术方案中，识别网络的整体结构遵循双流模式。上层的Spatio streamConvNet从静态的RGB视频帧中，提取出物体特征；下层的Temporal stream ConvNet从多个运动目标灰度图像中抽取运动信息；最终将两层的输出进行融合，以获得动作识别结果。双流网络均采用Inflated Inception-V1作为特征提取器，提取视频帧的空间特征以及帧间运动信息；双流网络的最后一层为Softmax层，用于将特征大小映射为类别概率，类别概率将直接用于输出类别预测值以及网络损失，其计算方法如公式6所示：

其中x表示输入,F(i)表示预测对象属于第i个类别的概率，k表示类别总数。将Spatio stream ConvNet网络结构的Softmax输出F_RGB与Temporal stream ConvNet网络结构的Softmax输出 F_MO的平均值作为网络整体的Softmax输出Q。

进一步，本发明方法的动作识别网络训练时采用交叉熵函数作为损失函数： Θ

其中P表示真实标签的One-Hot编码，Q表示Softmax层输出的预测标签概率分布，k表示总的标签类别。

上述步骤，阐述了完整的动作分割与识别过程。

根据本发明的第四部分，所述BPMN模型生成模块步骤具体如下。

第一步，事件日志生成。获取的动作识别结果以[视频ID，动作类型]的形式存储在CSV文件中，在转换为[Trace, event]的格式之后，将其以事件日志的形式保存在XES文件中，此部分数据格式转换通过代码可以自动化执行。

第二步，BPMN模型挖掘。使用BPMN Miner方法，通过启发式分析，从日志中出识别边界事件和标记，并使用近似依赖发现技术，检测和过滤出事件日志的噪声，构建规则、准确的BPMN模型。

上述四个部分，阐述了完整的过程性视频的过程模型抽取方法。

本发明针对业务流程抽取领域提出了使用深度学习进行过程性视频的过程模型抽取方法，弥补了当前业务流程挖掘与建模方法对视频数据适用性不足的缺点，解决了基于结构化日志数据的流程抽取方法在很多场景下无法进行流程抽取的难题，为视频领域流程抽取的发展起到了推动的作用。

本发明为过程性视频的过程模型抽取提供了一种通用、快捷、低成本和高品质的有效方法，并将其封装至网页中。

附图说明

图1示出了本发明实施例提供的过程性视频的过程模型抽取方法的示意流程图。

图2示出了本发明实施例提供的数据预处理模块的图像灰度化示意效果图。

图3示出了本发明实施例提供的数据预处理模块的运动目标提取示意效果图。

图4示出了本发明实施例提供的数据预处理模块的图像噪声处理示意效果图。

图5示出了本发明实施例提供的数据预处理模块的视频帧开运算示意效果图。

图6示出了本发明实施例提供的动作分割与识别模块的动作分割示意说明图。

图7示出了本发明实施例提供的动作分割与识别模块的标签映射说明图。

图8示出了本发明实施例提供的动作分割与识别模块的动作识别网络结构图。

图9示出了本发明实施例提供的BPMN模型生成模块的BPMN生成流程图。

图10示出了本发明实施例提供的数据集样例图。

示出了本发明实施例提供的数据集事件标号与标签对应表。

图11示出了本发明实施例提供的网页效果图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚，以下结合具体实施例，对本发明进一步详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面参照图1-图11来描述根据本发明的一些实施例提供的过程性视频的过程模型抽取方法。

请参阅图1，本发明的实施例提供了一种过程性视频的过程模型抽取方法。

请参阅图2，原始视频帧经过图像灰度化处理。

请参阅图3，灰度化图像经过运动目标提取。

请参阅图4，运动目标提取图像经过噪声处理。

请参阅图5，噪声处理图像经过开运算处理，得到运动目标图像。

请参阅图6，N帧运动目标图像序列分割成一个动作片段。

请参阅图7，细粒度标签映射为原始粗粒度标签，并进行标签冗余处理。

请参阅图8，RGB视频帧输入到Spatial stream ConvNet网络，提取图像的空间信息；运动目标图像输入到Temporal stream ConvNet网络，抽取图像序列的运动信息；最终把上述两个网络的输出进行融合，获得动作识别结果。

请参阅图9，动作标签以事件日志的形式存在XES文件中，使用BPMN Miner方法，通过启发式分析方法，从日志中出识别边界事件和标记，并使用近似依赖发现技术，检测和过滤出事件日志中的噪声。最终形成BPMN模型。

请参阅图10，在视频数据集中，执行者在进入监控场景后，按顺序将盘子、刀子、水杯等物品摆放在桌子上，在摆放结束后离开监控场景。

请参阅，视频中的动作事件可以分为25类以及不包含任何动作的“背景”标签。

请参阅图11，本发明方法将上述各功能模块进行了集成，开发了基于Web的原型系统，工具界面依次罗列了BPMN模型描述、BPMN模型和事件标号-标签对应表。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，包括：

第一步，数据筛选及扩充。从已有的公开视频数据集中，筛选出包含复杂过程的视频数据，并且采用数据增强技术，扩展数据集的数量，解决样本数据不平衡的问题并且完成数据标注工作。

第二步，图像灰度化处理。将原视频中的RGB彩色视频帧进行灰度化处理，得到灰度图像，降低了数据维数，保留了梯度信息，避免了条带失真。

第三步，运动目标提取。根据上述第二步得到的灰度图像，采用KNN算法，结合静态背景图像估计和像素级贝叶斯分割，仅使用少量图像便可以进行背景建模，去除背景等无用信息，精确提取运动目标，得到运动目标图像。

第四步，图像噪声处理。根据上述第三步得到运动目标图像，采用中值滤波技术对图像进行非线性滤波，有效消除椒盐噪声，保护边缘信息。

第五步，开运算处理。根据上述第四步得到噪声处理过的图像，进行开运算处理，去除图像中孤立点、毛刺和小桥，平滑形状边界并且不改变其面积。

第六步，动作分割。原视频数据经过以上处理，得到一系列图像序列。从中以固定帧数N进行动作分割，每个被分割出来的N帧序列对应一个具体的动作标签。

第七步，动作识别。以Two-Stream Inflated 3D ConvNet神经网络作为动作识别的基本模型，在训练过程中，将N帧动作序列及其动作标签作为数据的基本单元，输入到模型进行训练并保存训练后的模型；在预测过程中，加载训练好的模型，输入N帧动作序列，即可得到动作识别的结果。

第八步，BPMN模型生成。将上述第七步得到的动作识别结果转化为日志文件，采用BPMNMiner算法，挖掘流程模型。

2.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第一步包括：从互联网资源中获取一系列公开的视频数据集，并从中筛选出包含动作流程信息的视频数据。采用图像旋转、平移、对比度、亮度修改等图像增强技术扩展视频数据数量，平衡样本分布。并基于Python设计简易的视频标注工具，在视频中标注出动作的类别、起始位置、终止位置。

3.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第二步包括：采用图像灰度化中的加权平均法，将彩色图像的R、G、B三个分量以不同的权值进行加权平均，计算方法如公式1所示

Gray(i,j)＝0.299*R(i,j)+0.587*G(i,j)+0.114*B(i,j) (1)

其中i∈[1,2,...,H],j∈[1,2,...,W]，H、W分别表示原图像的高和宽。

4.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第三步包括：使用概论前景估计算法(使用贝叶斯估计鉴定前景)，这是一种自适应的估计，新观察到的对象比旧的对象具有更高的权重，从而对光照变化产生适应，更准确地提取出运动目标，此处所述方法借助于OpenCV工具库实现于Python语言中。

5.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第四步包括：用像素点邻域灰度值的中值来代替该像素点的灰度值，让周围的像素值接近真实的值从而消除孤立的噪声点，计算方法如公式2所示：

g(x,y)＝Med{f(x-k,y-l),(k,l∈M)} (2)

其中，f(x,y)、g(x,y)分别为原始图像和中值滤波处理后图像，M是大小为N*N二维模板，N的取值为正奇数，Med表示将区域中样本值排序并取中值。

6.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第五步包括：对图像进行开运算处理，开运算是先腐蚀后膨胀的一种组合形态学操作。

XΘB＝{x,y|(B)_xy∈X} (4)

公式4、5分别表示腐蚀、膨胀计算方法。其中(B)_xy表示将结构元素B的原点平移至图像像元(x,y)位置，Θ是腐蚀运算的运算符，

是膨胀运算的运算符。

7.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第六步包括：由于动作的类别和动作的执行者不同，所以不同的动作有着不同的执行时间、对应着不同大小的帧数跨度，采用固定帧长分割会出现动作不完整、动作包含无用帧的情况，干扰动作识别过程。因此根据帧长，构建更细粒度的动作标签，如(取勺子动作分为：拉开抽屉、拾起勺子、关闭抽屉)，通过标签映射机制，将标签与细粒度标签进行转换，修正固定帧数分割造成的动作执行区间不准确的问题。

8.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第七步包括：Two-Stream Inflated 3D ConvNet神经网络支持RGB图像和运动目标图像双流输入；网络使用前，加载ImageNet的预训练模型；将RGB图像输入到网络的Spatialstream ConvNet部分，作为表述空间信息的载体，提取环境、物体、任务等空间信息；运动目标图像作为时序信息的载体输入到网络的Temporal stream ConvNet部分，从图像序列中提取动作的动态信息；最终将两种信息进行融合，获得动作识别结果。

9.如权利要求1所述业务流程抽取领域过程性视频的过程模型抽取方法，其特征在于，所述第八步包括：首先将识别得到的动作标签以事件日志的形式保存在XES文件中，然后利用BPMN Miner方法，通过启发式分析方法，从日志中出识别边界事件和标记，并使用近似依赖发现技术，检测和过滤出事件日志中的噪声，此方法使得提取出来的BPMN模型更加简单、准确。

10.一种过程抽取装置，其特征在于，所述过程抽取装置包括：

计算机可读存储介质、计算机处理器以及存储在所述计算机可读存储介质上并可在所述计算机处理器上运行的计算机程序。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有过程抽取程序，所述过程抽取程序被计算机处理器执行时实现如权利要求1至9中任一项所述的过程抽取方法的步骤。