CN111368682A

CN111368682A - 一种基于faster RCNN台标检测与识别的方法及系统

Info

Publication number: CN111368682A
Application number: CN202010123302.3A
Authority: CN
Inventors: 袁三男; 孙哲; 刘志超
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-03
Anticipated expiration: 2040-02-27
Also published as: CN111368682B

Abstract

本发明公开了一种基于faster RCNN台标检测与识别的方法，将待识别分类的视频信号输入检测模块内；利用数据模块对输入的视频信号随机选取个别帧作为测试数据并进行预处理；筛选模块将预处理后的测试数据输入训练成功的网络模型内进行特征提取，通知控制模块将得到的特征图送入RPN网络内生成候选区域；分类模块对候选区域内的特征图进行识别分类，利用输出层激活函数获得对应类别输出值以设定阈值r，当输出值大于阈值r时则标注出识别结果。本发明通过训练VGG网络学习样本图像特征，能正确识别检测台标的位移、倾斜、颜色的改变，利用RPN网络对样本图片检测确定台标的位置，解决了台标位置单一固定识别区域于左上角的难题。

Description

一种基于faster RCNN台标检测与识别的方法及系统

技术领域

本发明涉及台标检测识别技术领域，尤其涉及一种基于faster RCNN台标检测与识别的方法及系统。

背景技术

在视频台标检测识别任务中，现在的台标具有背景杂乱、位置多变、透明动态、对比度低、视频强暗不匀、清晰度不一等各种问题。如果使用传统检测方法会出现提取的特征不够全面，细节不够丰富，抽象能力不够等缺点。最局限的是只能于样本左上角固定区域识别。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种基于faster RCNN台标检测与识别的方法及系统，解决了传统台标检测无法对台标的位移、倾斜、颜色的改变做出正确识别的难题。

为解决上述技术问题，本发明提供如下技术方案：将待识别分类的视频信号输入检测模块内；利用数据模块对输入的所述视频信号随机选取个别帧作为测试数据并进行预处理；筛选模块将预处理后的所述测试数据输入训练成功的网络模型内进行特征提取，通知控制模块将得到的特征图送入RPN网络内生成候选区域；分类模块对所述候选区域内的所述特征图进行识别分类，利用输出层激活函数获得对应类别输出值以设定阈值r，当所述输出值大于所述阈值r时则标注出识别结果。

作为本发明所述的一种基于faster RCNN台标检测与识别的方法的一种优选方案，其中：所述输出值与所述阈值r的大小关系有两种情况，包括，若所述输出值小于所述阈值r，则所述测试数据为问题数据，不予分类；若所述输出值大于所述阈值r，则输出预测结果，完成标注识别。

作为本发明所述的一种基于faster RCNN台标检测与识别的方法的一种优选方案，其中：所述特征图利用训练成功的所述网络模型进行提取，需提前对所述网络模型进行样本训练，包括，建立台标数据库，储存43个类别、两万张样本，并利用labeling进行人工标记，获得训练样本；搭建神经网络，输入所述训练样本；初始化所述神经网络，训练所述网络模型，直至训练次数m大于100时输出训练结果，获得训练成功的所述网络模型。

作为本发明所述的一种基于faster RCNN台标检测与识别的方法的一种优选方案，其中：获得所述训练样本包括，对所述43个类别卫视的视频取帧，获取样本图片1～20000；利用labeling对所述样本图片标记标签，框出所述台标所在区域并标明所述台标类别。

作为本发明所述的一种基于faster RCNN台标检测与识别的方法的一种优选方案，其中：搭建所述神经网络包括，Faster RCNN目标检测算法为主网络，VGG为所述候选区域生成网络的特征提取器；VGG利用卷积池化对所述训练样本进行特征提取，并将提取的所述特征图送入所述RPN网络内；所述RPN网络在提取的所述特征图上每个特征点配备9种初始检测框；利用Softmax多任务分类器判断anchors里哪些是存在检测目标的positiveanchors，初选出所述positive anchors作为候选区域。

作为本发明所述的一种基于faster RCNN台标检测与识别的方法的一种优选方案，其中：搭建所述神经网络还包括，利用多任务损失函数L进行边界框回归修正初选的所述候选区域，获得精确预测窗口，所述损失函数L公式如下，

其中，pi是第i个anchor是否是一个目标的可能性，anchor：正，标签P*：1目标，anchor：反，P*：0背景，Ti：向量，表示对预测窗口进行校准的四个参数化坐标，Lcls：分类损失，Lreg：回归损失，两者结合形成损失函数L；Rol池化层收集、综合并提取输入的featuremaps和proposals，送入分类回归网络全连接层内进行目标类别判定；所述全连接层利用proposal feature maps计算所述proposals的类别，同时再次进行边界框回归获得所述检测框最终位置。

作为本发明所述的一种基于faster RCNN台标检测与识别的方法的一种优选方案，其中：训练所述网络模型包括，搭建训练平台环境，利用python3.7作为编程语言、操作系统Ubuntu16.04、GPU、驱动cuda10.0、软件pytorch1.0+pycharm；定位学习率0.001、训练次数m100；将所述台标数据库的训练集数据归一化处理成1280*720像素，并输入到所述神经网络内的输入层；运行代码，直至所述训练次数m大于100时停止训练，输出所述训练结果。

作为本发明所述的一种基于faster RCNN台标检测与识别的方法的一种优选方案，其中：利用训练准确率设定所述阈值r包括，所述激活函数是多分类函数，值域为[0,1]，所述输出值是所述测试数据某一类别的概率值，所述43个类别的所述概率值总和为1，所述激活函数公式如下：

其中，样本向量z属于第j个分类的概率，共有k个类别；利用多次训练的准确率设置所述阈值r，当所述阈值r为0.8时识别准确率能达到98.683％，设置所述阈值r为0.8；当输出类别对应的所述输出值大于0.8时，则标注所述输出类别的识别结果。

作为本发明所述的一种基于faster RCNN台标检测与识别的系统的一种优选方案，其中：检测模块，用于检测待识别的所述视频信号；数据模块，用于视频选帧、预处理所述测试数据；筛选模块，用于筛选候选框内的所述测试数据特征；控制模块，用于送入所述特征图进入至所述RPN网络内生成所述候选区域；分类模块，用于识别分类所述特征图，标注对应所述测试数据的识别结果。

本发明的有益效果：本发明通过训练VGG网络学习样本图像特征，能够正确识别检测台标的位移、倾斜、颜色的改变，利用RPN网络对样本图片检测确定台标的准确位置，解决了台标位置单一固定识别区域于左上角的难题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的基于faster RCNN台标检测与识别的方法的流程示意图；

图2为本发明第一个实施例所述的基于faster RCNN台标检测与识别的方法的网络模型训练示意图；

图3为本发明第一个实施例所述的基于faster RCNN台标检测与识别的方法的河北卫视检测结果示意图；

图4为本发明第二个实施例所述的基于faster RCNN台标检测与识别的系统的模块结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

现有视频台标检测方法分为四类，第一类是利用台标的颜色和空间位置的不变性计算多帧画面之间的差异，从而提取出台标，这种算法无法对台标的位移、倾斜、颜色的改变做出正确的识别，因而适用范围越来越窄；第二类是利用视频的静态帧进行模板匹配识别，这种算法在识别多个台标时需要数个模板遍历多次，计算复杂度太高；第三类是利用图标特征分析，如颜色直方图、空间直方图、SURF算法等，特征提取是事先提取出图片特征再利用待识别台标的特征与整张图片的特征比对，这种算法对特征提取的干扰很大，精度不高；第四类是基于支持向量机(Support VectorMachines,SVM)的分类识别方法，SVM算法对大规模训练样本难以实施且解决多分类问题存在困难。因此，本发明提供了一种基于faster RCNN台标检测与识别的方法，能够正确识别台标的位移、倾斜、颜色改变，精确定位。

参照图1～图3，为本发明的第一个实施例，提供了一种基于faster RCNN台标检测与识别的方法，包括，

S1：将待识别分类的视频信号输入检测模块100内。

S2：利用数据模块200对输入的视频信号随机选取个别帧作为测试数据并进行预处理。

S3：筛选模块300将预处理后的测试数据输入训练成功的网络模型内进行特征提取，通知控制模块400将得到的特征图送入RPN网络内生成候选区域。参照图2，其中需要说明的是，特征图利用训练成功的网络模型进行提取，需提前对网络模型进行样本训练，包括：

建立台标数据库，储存43个类别、两万张样本，并利用labeling进行人工标记，获得训练样本；

搭建神经网络，输入训练样本；

初始化神经网络，训练网络模型，直至训练次数m大于100时输出训练结果，获得训练成功的网络模型。

进一步的，获得训练样本包括：

对43个类别卫视的视频取帧，获取样本图片1～20000；

利用labeling对样本图片标记标签，框出台标所在区域并标明台标类别。

具体的，搭建神经网络包括：

Faster RCNN目标检测算法为主网络，VGG为候选区域生成网络的特征提取器；

VGG利用卷积池化对训练样本进行特征提取，并将提取的特征图送入RPN网络内；

RPN网络在提取的特征图上每个特征点配备9种初始检测框；

利用Softmax多任务分类器判断anchors里哪些是存在检测目标的positiveanchors，初选出positive anchors作为候选区域；

利用多任务损失函数L进行边界框回归修正初选的候选区域，获得精确预测窗口，损失函数L公式如下，

其中，pi是第i个anchor是否是一个目标的可能性，anchor：正，标签P*：1目标，anchor：反，P*：0背景，Ti：向量，表示对预测窗口进行校准的四个参数化坐标，Lcls：分类损失，Lreg：回归损失，两者结合形成损失函数L；

Rol池化层收集、综合并提取输入的feature maps和proposals，送入分类回归网络全连接层内进行目标类别判定；

全连接层利用proposal feature maps计算proposals的类别，同时再次进行边界框回归获得检测框最终位置。

进一步的，训练网络模型包括：

搭建训练平台环境，利用python3.7作为编程语言、操作系统Ubuntu16.04、GPU、驱动cuda10.0、软件pytorch1.0+pycharm；

定位学习率0.001、训练次数m100；

将台标数据库的训练集数据归一化处理成1280*720像素，并输入到神经网络内的输入层；

运行代码，直至训练次数m大于100时停止训练，输出训练结果。

S4：分类模块(500)对候选区域内的特征图进行识别分类，利用输出层激活函数获得对应类别输出值以设定阈值r，当输出值大于阈值r时则标注出识别结果，完成台标检测。参照图1，本步骤需要说明的是，利用训练准确率设定阈值r，包括：

激活函数是多分类函数，值域为[0,1]，输出值是测试数据某一类别的概率值，43个类别的概率值总和为1，激活函数公式如下：

其中，样本向量z属于第j个分类的概率，共有k个类别；

利用多次训练的准确率设置阈值r，当阈值r为0.8时识别准确率能达到98.683％，设置阈值r为0.8；

当输出类别对应的输出值大于0.8时，则标注输出类别的识别结果。

具体的，输出值与阈值r的大小关系有两种情况，包括：

若输出值小于阈值r，则测试数据为问题数据，不予分类；

若输出值大于阈值r，则输出预测结果，完成标注识别。

优选的，参照图3，传统台标检测方法无法对台标的位移、倾斜、颜色的改变做出正确识别，而本发明方法采用faster RCNN网络，训练网络模型学习样本图片特征，利用台标的颜色和空间位置的不变性计算多帧画面之间的差异，提取出台标，能够完成台标的准确识别及精准定位。

优选的是，为对本发明方法中采用的技术效果加以验证说明，本实施例选择以科学论证的手段对比试验结果，以验证本方法所具有的真实效果，传统的视频台标检测识别算法不能准确识别位移、颜色改变后的台标，为验证本发明方法能够准确识别位移、倾斜、颜色改变后的台标，本实施例中将采用传统台标检测算法和本发明方法分别对视频台标进行检测与识别对比；测试环境，采用操作系统Ubuntu16.04，GPU，驱动cuda10.0作为实验平台，对视频随机取帧获得的测试样本作归一化处理为大小1280*720像素，将归一预处理后的样本输入到已训练好的网络，分别利用传统方法的人工操作进行台标识别测试并获得测试结果数据，采用本发明方法，则开启自动化测试设备并运用pytorch1.0+pycharm实现本方法的仿真测试，根据实验结果得到仿真数据，每种方法各测试10组数据，计算获得每组数据的识别准确率。结果如下表所示：

表1：传统方法样本测试准确率统计表。

表2：本发明样本测试准确率统计表。

参照表1和表2，能够直观看出传统的台标检测方法不仅费时费力且准确率不高，在十组测试数据对比中，本发明方法的准确率远高于传统检测方法，验证了本发明能够准确识别检测位移、倾斜、颜色改变后的台标。

实施例2

参照图4，为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种基于faster RCNN台标检测与识别的系统，包括检测模块100、数据模块200、筛选模块300、控制模块400、分类模块500，

检测模块100，用于检测待识别的视频信号。

数据模块200，用于视频选帧、预处理测试数据。

筛选模块300，用于筛选候选框内的测试数据特征。

控制模块400，用于送入特征图进入至RPN网络内生成候选区域。

分类模块500，用于识别分类特征图，标注对应测试数据的识别结果。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于faster RCNN台标检测与识别的方法，其特征在于：包括，

将待识别分类的视频信号输入检测模块(100)内；

利用数据模块(200)对输入的所述视频信号随机选取个别帧作为测试数据并进行预处理；

筛选模块(300)将预处理后的所述测试数据输入训练成功的网络模型内进行特征提取，通知控制模块(400)将得到的特征图送入RPN网络内生成候选区域；

分类模块(500)对所述候选区域内的所述特征图进行识别分类，利用输出层激活函数获得对应类别输出值以设定阈值r，当所述输出值大于所述阈值r时则标注出识别结果。

2.如权利要求1所述的基于faster RCNN台标检测与识别的方法，其特征在于：所述输出值与所述阈值r的大小关系有两种情况，包括，

若所述输出值小于所述阈值r，则所述测试数据为问题数据，不予分类；

若所述输出值大于所述阈值r，则输出预测结果，完成标注识别。

3.如权利要求1或2所述的基于faster RCNN台标检测与识别的方法，其特征在于：所述特征图利用训练成功的所述网络模型进行提取，需提前对所述网络模型进行样本训练，包括，

搭建神经网络，输入所述训练样本；

初始化所述神经网络，训练所述网络模型，直至训练次数m大于100时输出训练结果，获得训练成功的所述网络模型。

4.如权利要求3所述的基于faster RCNN台标检测与识别的方法，其特征在于：获得所述训练样本包括，

对所述43个类别卫视的视频取帧，获取样本图片1～20000；

利用labeling对所述样本图片标记标签，框出所述台标所在区域并标明所述台标类别。

5.如权利要求3所述的基于faster RCNN台标检测与识别的方法，其特征在于：搭建所述神经网络包括，

Faster RCNN目标检测算法为主网络，VGG为所述候选区域生成网络的特征提取器；

VGG利用卷积池化对所述训练样本进行特征提取，并将提取的所述特征图送入所述RPN网络内；

所述RPN网络在提取的所述特征图上每个特征点配备9种初始检测框；

利用Softmax多任务分类器判断anchors里哪些是存在检测目标的positive anchors，初选出所述positive anchors作为候选区域。

6.如权利要求3或5所述的基于faster RCNN台标检测与识别的方法，其特征在于：搭建所述神经网络还包括，

利用多任务损失函数L进行边界框回归修正初选的所述候选区域，获得精确预测窗口，所述损失函数L公式如下，

所述全连接层利用proposal feature maps计算所述proposals的类别，同时再次进行边界框回归获得所述检测框最终位置。

7.如权利要求3所述的基于faster RCNN台标检测与识别的方法，其特征在于：训练所述网络模型包括，

定位学习率0.001、训练次数m100；

将所述台标数据库的训练集数据归一化处理成1280*720像素，并输入到所述神经网络内的输入层；

运行代码，直至所述训练次数m大于100时停止训练，输出所述训练结果。

8.如权利要求1或7所述的基于faster RCNN台标检测与识别的方法，其特征在于：利用训练准确率设定所述阈值r包括，

所述激活函数是多分类函数，值域为[0,1]，所述输出值是所述测试数据某一类别的概率值，所述43个类别的所述概率值总和为1，所述激活函数公式如下：

其中，样本向量z属于第j个分类的概率，共有k个类别；

利用多次训练的准确率设置所述阈值r，当所述阈值r为0.8时识别准确率能达到98.683％，设置所述阈值r为0.8；

当输出类别对应的所述输出值大于0.8时，则标注所述输出类别的识别结果。

9.一种基于faster RCNN台标检测与识别的系统，其特征在于：包括，

检测模块(100)，用于检测待识别的所述视频信号；

数据模块(200)，用于视频选帧、预处理所述测试数据；

筛选模块(300)，用于筛选候选框内的所述测试数据特征；

控制模块(400)，用于送入所述特征图进入至所述RPN网络内生成所述候选区域；

分类模块(500)，用于识别分类所述特征图，标注对应所述测试数据的识别结果。