CN110059675A

CN110059675A - 一种机器人识别道路交通执法行为并提供规范化辅助的方法

Info

Publication number: CN110059675A
Application number: CN201910540189.6A
Authority: CN
Inventors: 刘昌鑫; 王毅; 杜向阳; 吕森凤; 穆乐
Original assignee: Nanjing Shield Mdt Infotech Ltd
Current assignee: Nanjing Shield Mdt Infotech Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-07-26

Abstract

本发明公开了一种机器人识别道路交通执法行为并提供规范化辅助的方法，本发明将垂直领域（道路交通执法）与人工智能的算法相结合，使人工智能算法产生应用层价值；灵活应用算法知识与实际应用场景的结合，对交警执法场景进行建模，充分发挥专家知识的作用；辅助交警执法，将交警执法场景规范化建模，减少交警执法的变化性，充分体现规范性和统一性，降低交警执法难度，本发明主要是对交通执法场景和深度学习相结合，充分发挥专家知识的作用，建立垂直领域的神经网络，并通过优化现有技术，得到了交通执法领域更业、精准性更高的深度学习模型，解决执法场景规范化辅助的问题。

Description

一种机器人识别道路交通执法行为并提供规范化辅助的方法

技术领域

本发明涉及交警执法与信息处理技术领域，具体是一种机器人识别道路交通执法行为并提供规范化辅助的方法。

背景技术

目前，对于视频的获取来说，一般情况下，获取视频数据的主流方案是环境感知技术，它是通过传感器、摄像头、激光雷达等传感器来获取环境信息，经由传感器的数据融合、物体监测和分类等步骤，完成视频数据的采集。对于视频语义分割，目前大多数先进的视频语义分割模型均采用backbone（特征网络）加上context modeling（上下文模块）的结构组成，特征网络是一个层次比较深的classification（分类）网络，比如常见的resnet（一种神经网络）等，特征网络层用于获取图像中数量更多、质量更好的特征表示，然后通过上下文模块，为图像的特征之间建立关系，从而获得整个图像的场景信息。

因此，现有技术具有以下缺点，一是抗噪能力低，实验室进行的实验和生成的模型是在严格受限的环境下采集的数据，比如单纯的实验室环境，人造数据获取环境等，为了保证实验效果，这种数据一般都是背景简单、个体单一而且没有较大遮挡的材料。然而在实际应用和生活场景中，视频信息个体差异性大，尺寸各异，视频分辨率层次不齐，拍摄角度不一样，在不采用领域细分、不借助人工设定分类范围的情况下，上述数据问题会大大提升算法型分类难度，最终导致算法模型的可应用性降低、应用效果较差。二是，图像数据仍有不足，目前应用广泛的数据集大都是基于通用领域建立的，通用领域数据集追求广泛度的特点决定了它在某一个细分领域下的图像数据欠缺丰富性。近年来，学术界与工业界在不断积累细分领域数据集，如李飞飞团队做出的Visual Genome，以及专注人脸识别领域的WIDERFACE。这些数据集各有所长，但也存在一些问题，如样本类别不均衡等。以李飞飞团队做的ImageNet为例，IamgeNet问世许久，至今仍然具有权威性和丰富性，但其1500万图像数据对应了2万多个分类，只有在“人”的分类下数据相对丰富，针对交警执法场景下细分领域的数据几乎空白。三是，没有针对场景进行深挖，目前的视频语义分割技术应用策略仍然是“以广度识别为主、深度解析为辅”，主要应用于视频语义化提取，包括软广告投放、图像语义提取等广泛的领域和场景识别，缺乏对垂直领域、固定范围的场景进行深度的场景建模和场景的深度分析。四是，没有将技术与道路交通专家知识的结合，已有的道路交通领域与人工智能技术的结合基本应用于车辆类型识别、车辆颜色识别、无牌车监测等方面，没有跳出物体识别、物体分类的基础范围，没有将道路交通违法场景进行建模分析，将图像识别与执法场景模型进行关联，自动化检测执法场景，辅助执法规范流程，预警执法风险。

究其原因，一是，因为针对广泛领域进行视频数据采集和识别，分类时需要考虑的分类的多样性与复杂性，以及场景的相似性，增加了数据的噪音和复杂程度。二是因为，对道路交通领域的数据采集主要来自道路摄像头等，角度比较单一，且分辨率难以保证，对于数据只进行简单的主体识别和场景判断。三是因为，没有道路交通领域的专家知识作为支撑，无法对交警执法场景进行建模分析，没有辅助交警规范化执法的思想理念。

因此，本发明提供了一种机器人识别道路交通执法行为并提供规范化辅助的方法，以解决上述背景技术中提出的问题。

发明内容

本发明的目的在于提供一种机器人识别道路交通执法行为并提供规范化辅助的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种机器人识别道路交通执法行为并提供规范化辅助的方法，其特征在于，其包括以下步骤：

（1）视频数据获取：通过传感器、摄像头或激光雷达中的一种或者几种来获取环境信息，将环境信息、场景信息通过视频、语音的方式获取，并通过视频、语音语义化转化成文本数据，对多个数据源的文本化数据进行融合，获取初步的道路交通视频信息，完成数据的获取输入；

（2）视频处理：运用双重镜头边缘检测方法对视频进行处理；

（3）关键帧抽取：基于步骤（2）中视频处理的初筛的结果，进行关键帧抽取；

（4）视频摘要：基于AlexNet网络结构，对其进行定向改进，即在AlexNet网络结构的第八个全连接层后，基于交通执法场景分类情况，将图片分类进一步精确细分到100个分类下，以便于提高下一步场景识别的精确度和缩小分类范围，提高准确率；

（5）执法场景匹配：进行执法场景建模，通过视频摘要信息与执法场景进行匹配，确定视频信息所属的执法场景，并动态的循环分析视频信息；

（6）执法规范提示：通过将执法视频信息作为输入量，进入执法场景模型进行分析和预测，分析交警执法现场的规范性，执法场景模型设定具体场景的执法规范流程，对交警进行执法辅助。

作为本发明进一步的方案，在所述步骤（2）的视频处理中，双重镜头边缘检测方法是检测视频中发生镜头切换的帧，将类似的帧进行抽样保留，具体方法是首先读取并解码一个视频窗口，将视频窗口平分成两个子窗口，计算每个子窗口首尾两帧之间的差异性——差异性衡量包括色调、饱和度、亮度、像素相似性条件，如果相似度低于60%，则认为视频场景发生变化，初步认为此时锁定的帧为关键帧。

作为本发明进一步的方案，在所述步骤（3）中，对关键帧抽取采用基于帧间差的方法，首先通过读取视频，以及计算每两帧之间的帧间差分，计算出平均帧间差分强度，然后对所有帧按照平均帧间差分强度进行排序，选取平均帧间差分强度大于0.4的10%-20%的图片作为关键帧。

作为本发明进一步的方案，在所述步骤（5）中，执法场景建模采用卷积神经网络模型，为了保证数据在经过Relu方法的激励层过后，依然保持正态分布的状态，手动对激励层的输出数据进行修正，采用下面的公式手动修正：

X(k)代表激励过后的输出；

E[X(k)]代表输出X(k)的期望；

Var[X(k)]代表输出X(k)的方差；

通过视频摘要信息与执法场景进行匹配，确定视频信息所属的执法场景，并动态的循环分析视频信息。

与现有技术相比，本发明的有益效果是：

本发明针对上述现有技术存在缺陷，本发明在与道路交通领域专家知识结合基础上，优化镜头分割与关键帧提取算法，细分场景、角色与流程建模，实现机器人对交警执法行为的理解。本发明在视频数据获取以及视频处理方面，本发明旨在优化现有环境感知技术与镜头边缘检测技术，以确保交警执法视频分割的精确性与稳定性；视频语义分析方面，本发明通过构建道路交通领域专家知识库，引入专家知识辅助交通执法场景细分类，优化交警执法角色、行为以及流程的识别算法；提升垂直领域实用性方面，本发明在对视频的场景、角色、行为、流程等法律要素进行精准识别后，训练机器人理解交通执法法律法规的语义，并以此推理交警执法规范性程度，达到执法规范化辅助的效果。

附图说明

图1为一种机器人识别道路交通执法行为并提供规范化辅助的方法的流程结构示意图；

图2为一种机器人识别道路交通执法行为并提供规范化辅助的方法中的AlexNet网络结构结构示意图；

图3为一种机器人识别道路交通执法行为并提供规范化辅助的方法中的AlexNet网络结构中进行平滑处理结构示意图；

图4为一种机器人识别道路交通执法行为并提供规范化辅助的方法中的经过优化的神经网络基本机构、参数、内存消耗结构示意图；

图5为一种机器人识别道路交通执法行为并提供规范化辅助的方法的具体实施例应用结构示意图；

图6为一种机器人识别道路交通执法行为并提供规范化辅助的方法的卷积神经网络模型结构示意图；

图7为一种机器人识别道路交通执法行为并提供规范化辅助的方法的卷积神经网络模型的池化层结构示意图；

图8为一种机器人识别道路交通执法行为并提供规范化辅助的方法中的Relu函数图像。

具体实施方式

请参阅图1～8，本发明实施例中，一种机器人识别道路交通执法行为并提供规范化辅助的方法，技术方案改进的整体设计如图1所示，其包括以下步骤

（1）视频数据获取：

通过传感器、摄像头、激光雷达等来获取环境信息，通过基本的数据格式处理，传感器的数据融合、物体监测和分类等方法，获取初步的道路交通视频信息，完成数据的获取输入。

（2）视频处理

运用双重镜头边缘检测方法，双重镜头边缘检测方法是检测视频中发生镜头切换的帧，将类似的帧进行抽样保留。具体方法是首先读取并解码一个视频窗口，将视频窗口平分成两个子窗口，计算每个子窗口首尾两帧之间的差异性——差异性衡量包括色调、饱和度、亮度、像素相似性等条件，如果相似度低于60%，则认为视频场景发生变化，初步认为此时锁定的帧为关键帧。与其他分割方法相比,本方法的查全率和查准率均在90%以上。

为解释查准率（Precision）和查全率（Recall）将预测的结果分成四种情况：

正确肯定（True Positive,TP）：预测为真，实际为真

正确否定（True Negative,TN）：预测为假，实际为假

错误肯定（False Positive,FP）：预测为真，实际为假

错误否定（False Negative,FN）：预测为假，实际为真

则：

查准率P=TP/（TP+FP）越高越好。

查全率R=TP/（TP+FN）越高越好。

F1值=2 * P * R / (P + R)

正确率是评估捕获的成果中目标成果所占得比例；召回率，就是从关注领域中，召回目标类别的比例；而F1值，则是综合这二者指标的评估指标，用于综合反映整体的指标。

提出关键帧多级提取方法，多层级多维度筛选和定位关键帧。选用离散余弦变换(Discrete Cosine Transform,DCT)系数来代替视频帧的底层特征,在减少误检率和漏检率的同时,将保真度提高了0.7个百分点。形式上来看，离散余弦变换是一个线性的可逆函数F: Rⁿ-> Rⁿ其中R是实数集，或者等价的说一个n * n的方阵。离散余弦变换有几种变形的形式，它们都是根据下面的某一个公式把n个实X₀, …, X_n-1变换到另外 n个实数 f0, …,fn-1的操作。保真度是指表征电子设备输出再现输入信号的相似程度。保真度越高，无线电接收机输出的声音或电视机输出的影像越逼真。

基于压缩感知的理论,利用图像中各点上下文信息,通过提取局部特征的方式来对中心像素进行建模，解决了机器人对交警执法视频中复杂场景、流程与角色的理解，最终实现机器人对交警执法行为规范性的判断。

（3）关键帧抽取

基于上一步初筛的结果，进行关键帧抽取，考虑到道路交通执法视频的特殊性，以及为了满足实时分析预测的需求，排除了对光线变化比较敏感的颜色直方图帧差法和需要大量计算的基于运动分析的关键字提取方法。

本发明采用的关键帧抽取技术是一种基于帧间差的方法，首先通过读取视频，以及计算每两帧之间的帧间差分，计算出平均帧间差分强度，然后对所有帧按照平均帧间差分强度进行排序，选取平均帧间差分强度大于0.4的10%-20%的图片作为关键帧。

（4）视频摘要

关于视频摘要，本发明基于AlexNet，并对其进行定向改进，AlexNet网络结构如图2所示。

AlexNet特殊的部分在于有一个特殊的计算层，LRN层，它的作用是对当前层的输出结果做平滑处理，如图3所示。前后几层（对应位置的点）对中间这一层做平滑约束，这一层的具体作用是对响应比较大的值变得相对更大，抑制其他反馈较小的神经元，这样的好处是为神经网络增强了模型泛化的能力。本发明在其FC8（第八个全连接层）后，基于交通执法场景分类情况，将图片分类进一步精确细分到100个分类下，为了提高下一步场景识别的精确度和缩小分类范围，提高准确率。

经过优化的神经网络基本机构、参数、内存消耗如图4所示。

（5）执法场景匹配

本发明中，对于执法场景建模训练了CNN卷积神经网络模型，卷积神经网络在自然语言处理的领域已经取得了出色的效果，比如在语义检索、查询检索、文本分类等任务。卷积神经网络根本上就是多层卷积运算，然后对每个卷积计算的输出结果使用非线性激励函数进行转换。

在卷积神经网络中，用矩阵表示一个输入量，它可以是一句话，一段话，一个词语，矩阵中的一行代表一个字或者一个词，整个矩阵代表这句话。

卷积神经网络模型的结构图6，图中最左边的部分即为神经网络的输入层，其对应的是图像中的某一块信息或者一个句子，一般使用k维的分布式词向量，对于一个长度为n的句子，则构成一个n*k的矩阵。

接下来部分为卷积层，卷积层的作用就是用于提取句子或图像的特征。主要是通过卷积核矩阵和对应的输入层中一小块矩阵的点积相乘，卷积核通过权重共享的方式，按照步幅上下左右的在输入层滑动提取特征，以此将输入层做特征映射作为输出层。

第三部分为池化层，池化层的作用是对特征做进一步提取，将最重要的特征提取出来。池化的过程实际上是对卷积层分区域求最大值或对每个卷积层求最大值。例如图7是2x2窗口的最大值池化，池化层结构如图7。池化层后一般是全连接层（FC Layer），全连接层将全部的神经元进行权重连接，通常全连接层位于卷积神经网络的尾部。

为了保证数据在经过Relu方法的激励层过后，依然保持正态分布的状态，手动对激励层的输出数据进行修正。激励层在卷积神经网络中的作用是将卷积层输出的结果做非线性映射，常见的几种函数有：Sigmoid函数、Tanh(双曲正切)、Relu、Leaky Relu、ELU、Maxout等。Relu是一种修正线性单元，其函数图像图8，函数为： y = max(0, x)。

采用下面的公式手动修正：

其中，X(k)代表激励过后的输出

E[X(k)]代表输出X(k)的期望

Var[X(k)]代表输出X(k)的方差

（6）执法规范提示

通过将执法视频信息作为输入量，进入执法场景模型进行分析和预测，分析交警执法现场的规范性，执法场景模型设定具体场景的执法规范流程，对交警进行执法辅助。

本发明将垂直领域（道路交通执法）与人工智能的算法相结合，使人工智能算法产生应用层价值；灵活应用算法知识与实际应用场景的结合，对交警执法场景进行建模，充分发挥专家知识的作用；辅助交警执法，本发明将交警执法场景规范化建模，减少交警执法的变化性，充分体现规范性和统一性，降低交警执法难度。

与现有技术相比，对于视频关键帧的抽取，本发明与现有技术最大的不同点在于以垂直领域精准处理代替泛领域识别，提高垂直领域的精准度和效果，使智能关键帧提取技术事实可用；本发明根据专家知识对交通执法领域进行建模，形成专家知识+智能技术的结合，改变传统专家知识的输出方式和范围；现有交警执法规范性判断有赖于交警根据以往经验判断进行主观评价，本发明对交通执法场景进行规范化建模，使得交通执法有法可依、有据可循，减少执法行为评价的主观占比，提高执法公正公平性。

本发明主要是对交通执法场景和深度学习相结合，充分发挥专家知识的作用，建立垂直领域的神经网络，并通过优化现有技术，得到了交通执法领域更业、精准性更高的深度学习模型，解决执法场景规范化辅助的问题。

具体实施方式：

Step1：从交警执法视频中识别交警执法的行为和步骤。

Step2：与专家建立的规范步骤进行比对。

Step3：如果符合规范流程，则不提示；如果不符合，则进行实时预警。

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种机器人识别道路交通执法行为并提供规范化辅助的方法，其特征在于，其包括以下步骤：

2.根据权利要求1所述的一种机器人识别道路交通执法行为并提供规范化辅助的方法，其特征在于，在所述步骤（2）的视频处理中，使用双重镜头边缘检测方法，该方法是检测视频中发生镜头切换的帧，将类似的帧进行抽样保留，具体方法是首先读取并解码一个视频窗口，将视频窗口平分成两个子窗口，计算每个子窗口首尾两帧之间的差异性——差异性衡量包括色调、饱和度、亮度、像素相似性条件，如果相似度低于60%，则认为视频场景发生变化，初步认为此时锁定的帧为关键帧。

3.根据权利要求2所述的一种机器人识别道路交通执法行为并提供规范化辅助的方法，其特征在于，在所述步骤（3）中，对关键帧抽取采用基于帧间差的方法，首先通过读取视频，以及计算每两帧之间的帧间差分，计算出平均帧间差分强度，然后对所有帧按照平均帧间差分强度进行排序，选取平均帧间差分强度大于0.4的10%-20%的图片作为关键帧。

4.根据权利要求3所述的一种机器人识别道路交通执法行为并提供规范化辅助的方法，其特征在于，在所述步骤（5）中，执法场景建模采用卷积神经网络模型，为了保证数据在经过Relu方法的激励层过后，依然保持正态分布的状态，手动对激励层的输出数据进行修正，采用下面的公式手动修正：

X(k)代表激励过后的输出；

E[X(k)]代表输出X(k)的期望；

Var[X(k)]代表输出X(k)的方差；