CN111737525B

CN111737525B - 一种多视频节目匹配方法

Info

Publication number: CN111737525B
Application number: CN202010496804.0A
Authority: CN
Inventors: 曹俊; 孟哲令; 吴长丽
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2022-10-25
Anticipated expiration: 2040-06-03
Also published as: CN111737525A

Abstract

本发明公开了一种多视频节目匹配方法，通过对电视节目视频画面逐帧进行单通道AI人脸检测，获取人脸位置等帧信息，将帧信息在一定时延范围内按照一定规则进行匹配，并根据匹配结果修改相应中间值，最终根据判决值判断预匹配视频节目之间的匹配关系。本发明将视频匹配问题转化为了数值信息匹配与规则设计问题，简化了计算复杂度，实现了视频节目快速、准确和稳定地匹配，为高清编码码流分配提供了决策依据。

Description

一种多视频节目匹配方法

技术领域

本发明属于视频编码技术领域，具体涉及一种多视频节目匹配方法。

背景技术

统计复用高清编码系统利用各路电视节目的不相关性，对有限的总物理码流进行动态分配，逐帧确定每帧编码质量，提高编码效率。但在部分节目转播时，各路节目不相关性的前提条件不再满足，统计复用编码失效，导致电视画面卡顿现象时有发生，用户体验质量下降。

现有的视频匹配方法，如关键帧提取方法、相关性计算方法和模式识别、机器学习等人工智能方法均不能满足实时环境下快速性的要求，难以提供准确、稳定的实时匹配结果供编码器决策。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种多视频节目匹配方法，利用转播电视节目中多人脸的特点，将各路电视节目单通道AI人脸检测得到的人脸位置等信息在一定时延范围内进行逐帧依规比对，根据比对情况通过中间值、判决值判断各节目之间的转播关系，同时兼顾错误率低、准确率高、稳定性好、速度快的要求。匹配结果将实时送入编码器模块辅助码流分配决策。

本发明采用以下技术方案：

一种多视频节目匹配方法，包括以下步骤：

S1、将待匹配的节目频道帧图像送入单通道AI人脸检测模块，返回当前帧人脸检测结果以及有效画面的比例，检查结果并存储；

S2、将步骤S1存储的电视频道当前帧人脸检测结果与其他各频道存储区中的人脸检测结果进行比对匹配；

S3、根据步骤S2的匹配结果，记录无人脸持续帧数和同状态持续帧数，修改判决值；

S4、将步骤S3得到的判决值与阈值进行比对，得出匹配检测结果，将节目频道的匹配检测结果写入输出矩阵当中，待全部频道完成一轮匹配后，将输出矩阵送入编码器提供辅助决策依据。

具体的，步骤S1中，先将原第一层卷积三通道滤波器各通道对应像素点值相加得单通道滤波器，再进行人脸检测。

具体的，步骤S1中，在产生黑边的区域随机抽取n个像素点进行像素值检测，若像素点的像素值均在阈值thr_gray以下，则认为该区域为黑边，得到对应帧图像的有效画面比例。

具体的，步骤S1中，每一帧的帧信息由帧标志FLAG标记起始位置，直至下一个帧标志FLAG为止；记录帧的有效画面比例r，然后将检测到的人脸框起始横坐标x、纵坐标y、人脸标注框宽w和高h依次进行记录；若现存帧数超出匹配比对范围，则将最早的帧图像检测结果删除，匹配比对帧数范围SUM由最长转播时延t和帧速率fps决定。

具体的，步骤S2中，对比匹配时，首先检查当前帧有无可用人脸信息，如没有，则返回判决结果为0；若有，则从后往前依次查询其他各视频节目存储区中的基准信息，若两帧图像的有效画面比例相同，则根据当前两频道间的转播关系及要比对的人脸信息，选择预先设置好的容错率E进行比对，所有预匹配人脸均在基准人脸信息中以相应容错率找到对应的人脸信息时认为两帧匹配，返回判决结果1；若基准信息中无同时满足两帧图像有效画面比例相同和全部人脸信息均在相应容错率以内匹配的帧信息，则认为无法匹配，返回判决结果为-1。

具体的，步骤S3中，无人脸持续帧数empty和同状态持续帧数cont的修改方法为：

其中，empty'为修改后新的无人脸持续帧数，cont'为修改后新的同状态持续帧数。

进一步的，修改后，检查无人脸持续帧数empty是否超过设定的对应阈值empty_thr，若超过阈值，则修改判决值judge如下：

其中，judge'为修改后新的判决值，GAP为预先设定的跳变间隔值。

进一步的，修改后，同状态持续帧数cont用来记录有人脸情况下同一匹配结果的连续输出帧数，判决值的修改如下：

其中，judge'为修改后新的判决值，S为cont的放缩因子。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种多视频节目快速匹配的方法，单通道的AI人脸检测算法能够在保证准确率基本不变的前提下，进一步提升人脸检测效率，加快多节目匹配速度，利用转播节目人脸多的特点，将原本计算复杂的视频画面匹配问题巧妙转化为了各视频节目之间人脸位置等数值信息逐帧比对与规则设计问题，能够快速完成多节目转播状态的实时监测。

进一步的，单通道AI人脸检测方法能够直接利用手机电视系统中传输的YUV格式图像，对只含有亮度值Y的单通道灰度图像进行人脸检测，省去了RGB图像格式转换的时间以及第一层两个通道卷积的计算时间，在保证准确率基本不变的条件下加快了人脸检测和节目匹配速度。

进一步的，在黑边区域随机抽取像素点进行视频有效画面比例的检测方法，一方面使得画面长宽比规格可以快速准确得到，另一方面检测出的有效画面比例作为节目匹配信息进行匹配，解决了播放相同内容的视频节目因画面长宽比不一致带来的人脸大小与位置变动而导致匹配输出效果较差的问题。

进一步的，匹配比对帧数的设置考虑到了节目转播有时存在一定时延(如新闻联播的转播)，对于这些节目的匹配需要适度扩大匹配时间范围，提高匹配的稳定性和准确性。

进一步的，通过使用中间值，将相邻时间段内的画面帧人脸信息匹配结果综合考虑，有效保证了检测的稳定性和准确性。

进一步的，中间值的修改方法既综合了之前一段时间内的全部匹配结果，又能在同一匹配结果连续出现时快速切换判决状态，在提升方法抗干扰能力和稳定性的同时保证快速性。

综上所述，本发明通过AI人脸检测进行多节目快速匹配，为编码器码流分配提供了重要依据。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为三通道变单通道CNN人脸检测示意图；

图2为检测有效画面长宽比用随机采样法示意图；

图3为单元帧信息存储格式及匹配示意图；

图4为帧信息整体匹配流程示意图；

图5为本发明实时结果输出图；

图6为本发明流程图。

具体实施方式

随着AI技术的发展，利用卷积神经网络快速检测图像中人脸的算法已经成熟，如libfacedetection开源人脸检测库，最高可以实现1500FPS的检测速度，12x12像素以上的任何大小的多张人脸均可被检测到，同时提供人脸的位置与置信度信息。

请参阅图6，本发明一种多视频节目匹配方法，包括以下步骤：

S1、将欲匹配的节目频道帧图像送入单通道AI人脸检测模块，返回当前帧人脸检测结果以及有效画面比例，检查结果是否满足要求，并进行存储；

请参阅图1，考虑到待检测视频节目采用YUV格式存储，为能够直接利用Y值亮度信息进行单通道灰度图像的人脸检测，在现有AI人脸检测开源库libfacedetection的基础上，根据卷积公式，按照将原第一层卷积三通道滤波器各通道对应像素点值相加得单通道滤波器的方法进行单通道优化，然后再进行人脸检测。

请参阅图2，考虑到个别电视频道采用的是不同画面比例从而在转播时会有“黑边”产生，在可能产生黑边的区域(RSR)随机抽取n个像素点进行像素值检测，若这些像素点像素值均在一较低阈值thr_gray以下，则认为该区域为“黑边”，得到该帧图像的有效画面比例。该操作与人脸检测一并完成。

请参阅图3，每一帧的帧信息由帧标志FLAG标记起始位置，直至下一个帧标志FLAG为止；紧接着记录该帧的有效画面比例信息，然后将检测出来的人脸框起始横坐标x、纵坐标y、人脸标注框宽w、高h依次进行记录。为保证得到的人脸检测信息准确无误，这里只将置信度conf大于conf_thr的检测结果保存，而置信度conf本身不再记录，只用来决定是否记录得到的人脸检测结果；存储信息的帧数SUM由最长转播时延t决定。

同时，若现存帧数超出匹配比对范围，则将最早的帧图像检测结果删除。匹配比对帧数范围SUM由可能的最长转播时延t和帧速率fps决定，即

SUM＝t◇fps

S2、将电视频道的当前帧人脸检测结果与其他各频道存储区中的人脸检测结果进行比对匹配；

请参阅图3、图4，对比匹配时，首先检查当前帧有无可用人脸信息，如没有，则返回判决结果为0；若有，则从后往前依次查询其他各视频节目存储区中的信息(基准信息)，若两帧图像的有效画面比例相同，则根据当前两频道间的转播关系及要比对的人脸信息，选择预先设置好的容错率(转播容错率E_r和非转播容错率E_n)进行比对，所有预匹配人脸均可在基准人脸信息中以相应容错率找到对应的人脸信息时认为两帧匹配，返回判决结果1；若基准信息中无同时满足两帧图像有效画面比例相同和全部人脸信息均可在相应容错率以内匹配的帧信息，则认为无法匹配，返回判决结果为-1。容错率E(E_r、E_n)的定义为：

其中，width和height为该帧图像在宽度和高度方向上的像素点数。E的四个分量分别对应于x、y、w和h。

S3、根据步骤S2的匹配结果，记录无人脸持续帧数和同状态持续帧数，并据此修改判决值；

无人脸持续帧数empty和同状态持续帧数cont的修改方法为：

修改后，检查无人脸持续帧数empty是否超过设定的对应阈值empty_thr，若超过阈值，则按下式修改判决值judge具体为：

其中，judge'为修改后新的判决值，GAP是预先设定的跳变间隔值。

同状态持续帧数cont用来记录有人脸情况下同一匹配结果的连续输出帧数，此时判决值的修改遵循下式：

其中，judge'为修改后新的判决值，S为cont的放缩因子。需要注意的是，无人脸持续帧数empty、同状态持续帧数cont和判决值judge均设置上下限(up、down)，修改范围不得超过这一限制。

S4、将步骤S3得到的判决值与阈值进行比对，得出匹配检测结果。

上述具体实施方式中涉及到的参数取值请参阅下表。

节目频道的匹配检测结果将写入输出矩阵当中，待全部频道完成一轮匹配后，将输出矩阵送入编码器提供辅助决策依据。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图5，本发明一种多视频节目快速匹配的方法，可以有效地对各节目视频进行匹配，实时监测各频道间的转播关系，并同步进行输出。

请参阅图3、图6，本发明方法基于单通道优化的libfacedetection人脸检测，通过对人脸位置等信息的逐帧比对匹配，使用中间值和判决值检测多节目之间的转播匹配关系，具体流程如下：

首先，从预匹配视频节目(画面分辨率720×576)实时码流中读取一帧yuv数据，只取y值，输入单通道AI人脸检测模块，返回置信度conf_thr以上的人脸检测信息和有效画面比例检测结果，记录该帧信息，eg：(255，0，76，272，68，68，316，100，132，132)，其中，255为帧标志，0为有效画面比例代号。

如果该帧中无人脸，则返回匹配结果0。如果该帧中有人脸，则选定其他某一基准视频节目，在帧信息存储区中从后往前选择有效画面比例相同的帧逐帧进行比对，eg：(255，0，255，0，255，0，255，0，255，0，255，0，255，0，320，104，128，128，456，286，148，148)，比对时根据要比对的信息和两个视频节目之间当前的匹配关系选择预定的容错率，eg：[2.7％，4.9％，1.7％，2.1％]。如果搜索到可以满足匹配要求的帧，则返回匹配结果1，其他情况均返回匹配结果-1，eg：0＝＝0，|316-320|/720≤2.7％，|100-104|/576<4.9％，|132-128|/720<1.7％，|132-128|/576≤2.1％但|76-456|/720>2.7％，人脸(76，272，68，68)在该帧无匹配人脸，且其他帧也无法全部匹配人脸信息，则返回匹配结果-1。

根据返回的单帧匹配结果，根据规则依次修改empty、cont和judge；当judge>thr时，判定预匹配节目正在转播该选定的视频节目；否则，两视频节目不存在转播关系。

选定下一个预匹配视频节目，重复上述操作，直到全部视频节目都被选定作为一次预匹配视频节目为止，则完成一轮匹配。

上述实施例中，每完成一轮匹配，将各频道与基准频道之间的匹配情况输出给编码器，为其分配码流提供依据。

上述实施例中，将各视频节目均作为基准频道进行一次匹配，还可实现任意两个节目之间匹配关系的输出。

再如，预匹配视频节目(画面分辨率720×576)的当前帧检测信息为(255，0，76，272，68，68，316，100，132，132)，基准视频节目帧信息为(255，0，255，0，320，104，128，128，456，286，148，148，255，0，255，0，316，104，132，132，76，268，68，68，255，0，255，0，255，0)，选定容错率[0％，1.4％，0％，0％]，由于0＝＝0，|316-316|/720≤0％，|100-104|/576<1.4％，|132-132|/720<0％，|132-132|/576<0％，|76-76|/720≤0％，|272-268|/576<1.4％，|68-68|/720<0％，|68-68|/576<0％，两帧的有效画面比例相同，全部人脸(76，272，68，68)、(316，100，132，132)分别与人脸(76，268，68，68)和(316，104，132，132)匹配成功，返回单帧匹配结果1，再依据规则分别修改empty、cont和judge。

再如，预匹配视频节目(画面分辨率720×576)的当前帧检测信息为(255，0)，则直接返回单帧匹配结果0，再依据规则分别修改empty、cont和judge。

再如，预匹配视频节目(画面分辨率720×576)的当前帧检测信息为(255，1，76，272，68，68，316，100，132，132)，基准视频节目帧信息为(255，0，255，0，255，0，255，0，316，104，132，132，76，268，68，68，255，0，255，0，255，0)，因1≠0，故返回单帧匹配结果-1，再依据规则分别修改empty、cont和judge。

为进一步说明本方法具有的优点好处，选取15路电视节目频道，在2020年五四晚会时间段进行全程实时测试，得到的测试结果请参阅下表。

从测试结果中可以看出，本发明方法准确性高、稳定性好(同一检测状态过程中断次数少)，能够提供实时的多节目匹配结果供编码器决策使用。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种多视频节目匹配方法，其特征在于，包括以下步骤：

S1、将待匹配的节目频道帧图像送入单通道AI人脸检测模块，返回当前帧人脸检测结果以及有效画面的比例，检查结果并存储，在现有AI人脸检测开源库libfacedetection的基础上，根据卷积公式，先将原第一层卷积三通道滤波器各通道对应像素点值相加得单通道滤波器，再进行人脸检测；

S3、根据步骤S2的匹配结果，记录无人脸持续帧数和同状态持续帧数，修改判决值，无人脸持续帧数empty和同状态持续帧数cont的修改方法为：

其中，empty'为修改后新的无人脸持续帧数，cont'为修改后新的同状态持续帧数；

修改后，检查无人脸持续帧数empty是否超过设定的对应阈值empty_thr，若超过阈值，则修改判决值judge如下：

其中，judge'为修改后新的判决值，GAP为预先设定的跳变间隔值；

修改后，同状态持续帧数cont用来记录有人脸情况下同一匹配结果的连续输出帧数，判决值的修改如下：

其中，judge'为修改后新的判决值，S为cont的放缩因子；

2.根据权利要求1所述的多视频节目匹配方法，其特征在于，步骤S1中，在产生黑边的区域随机抽取n个像素点进行像素值检测，若像素点的像素值均在阈值thr_gray以下，则认为该区域为黑边，得到对应帧图像的有效画面比例。

3.根据权利要求1所述的多视频节目匹配方法，其特征在于，步骤S1中，每一帧的帧信息由帧标志FLAG标记起始位置，直至下一个帧标志FLAG为止；记录帧的有效画面比例r，然后将检测到的人脸框起始横坐标x、纵坐标y、人脸标注框宽w和高h依次进行记录；若现存帧数超出匹配比对范围，则将最早的帧图像检测结果删除，匹配比对帧数范围SUM由最长转播时延t和帧速率fps决定。

4.根据权利要求1所述的多视频节目匹配方法，其特征在于，步骤S2中，对比匹配时，首先检查当前帧有无可用人脸信息，如没有，则返回判决结果为0；若有，则从后往前依次查询其他各视频节目存储区中的基准信息，若两帧图像的有效画面比例相同，则根据当前两频道间的转播关系及要比对的人脸信息，选择预先设置好的容错率E进行比对，所有预匹配人脸均在基准人脸信息中以相应容错率找到对应的人脸信息时认为两帧匹配，返回判决结果1；若基准信息中无同时满足两帧图像有效画面比例相同和全部人脸信息均在相应容错率以内匹配的帧信息，则认为无法匹配，返回判决结果为-1。