CN104506946B

CN104506946B - 一种基于图像识别的电视节目识别方法和系统

Info

Publication number: CN104506946B
Application number: CN201410729624.7A
Authority: CN
Inventors: 孔炯; 马小骏
Original assignee: NANJING YUESHI NETWORK TECHNOLOGY Co Ltd
Current assignee: NANJING YUESHI NETWORK TECHNOLOGY Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2017-12-05
Anticipated expiration: 2034-12-04
Also published as: TW201622427A; CN104506946A; TWM525589U

Abstract

本发明公开了一种基于图像识别的电视节目识别方法和系统，所述方法包括：S1，视频采集卡采集各电视频道的直播视频图像，提取各电视频道的视频图像特征值，并发送到图像处理服务器；S2，图像处理服务器实时建立并更新各电视频道的视频图像特征索引表；S3，移动终端拍摄当前电视频道的屏幕画面，提取屏幕画面的视频图像特征值，并发送图像识别请求和视频图像特征值到图像处理服务器；S4，图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特征索引表中的视频图像特征值进行比对，确定当前电视频道的频道ID；S5，移动终端根据频道ID确定当前直播视频所属节目。本发明能提高图像识别的准确率和效率，抗干扰能力强。

Description

一种基于图像识别的电视节目识别方法和系统

技术领域

本发明涉及一种基于图像识别的电视节目识别方法和系统，属于图像内容识别和电视互动社交领域。

背景技术

随着三网融合的推进，IPTV日益普及，尤其是OTT平台及智能电视的快速发展，观众收视习惯日益多样化。为积极有效应对全媒体多屏融合的市场竞争，广电行业相关企事业单位正积极有效利用外部资源，充分发挥各自优势，开拓思路，努力创新，提供更多增值业务及新媒体应用，提升现有用户的ARPU值及用户黏度，并在新业务与新运营模式上进行积极探索与尝试。

电视互动社交应用系统，作为以广电有线网络为基础的一款服务于电视终端用户的互联网应用业务，一方面满足了广电网络运营商发展基础收视业务的需求，一方面满足了用户及时方便获取海量电视信息资源的需求。此应用业务可以通过手机、PAD等终端为用户提供节目导视、社交、商务、娱乐等综合信息推送与互动服务，实现跨屏导视、点播控制、互动共享及电视购物等手机与电视交互的业务模式，打造适合不同用户需求的手机互动电视资讯业务，吸引更多年轻用户回归到电视。

目前，在用户参与电视节目互动方面，除了传统的热线电话、短信参与等方式，还出现了基于声音感知的参与方式，但是基于直播视频识别的非现场互动参与方式，目前还相对缺乏。因而，如果能让用户通过移动终端摄像设备，拍摄并发送实时直播视频图像，在服务后台进行图像识别，判断用户正在参与该节目，并且推送互动参与内容，将极大改善用户的互动参与体验。

而现有的电视节目图像识别技术，一般都是提取电视画面中的电视台台标和频道名称来进行识别，确定用户正在参与的电视节目，但这种方法在实际应用过程中很难有好的效果。根据实验，通常用户与电视的距离为2-3米或更远，在这样的距离条件下手机拍摄的电视画面中的电视台台标和频道名称会非常小，拍摄光线差、拍摄视角造成的偏差也会导致拍摄画面不清晰，这几种情况下采集的图像并不适合将其与服务器后台中的频道数据进行比对分析，会导致识别的结果不准确，常常需要反复拍摄多次进行识别。

发明内容

本发明的目的在于，提供一种基于图像识别的电视节目识别方法和系统，能够提高图像识别的准确率和效率，并且抗干扰能力强。

为解决上述技术问题，本发明采用如下的技术方案：一种基于图像识别的电视节目识别方法，包括以下步骤：

S1，视频采集卡采集各电视频道的直播视频图像，提取各电视频道的视频图像特征值，并将视频图像特征值发送到图像处理服务器；

S2，图像处理服务器实时建立并更新各电视频道的视频图像特征索引表，所述视频图像特征索引表主要包含视频图像特征值与频道ID的对应关系，即采集的某张图像特征值属于哪个频道的；

S3，移动终端拍摄当前电视频道的屏幕画面，提取屏幕画面的视频图像特征值，并发送图像识别请求和视频图像特征值到图像处理服务器；

S4，图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特征索引表中的视频图像特征值进行比对，确定当前电视频道的频道ID；

S5，移动终端根据当前电视频道的频道ID确定当前直播视频所属节目。

前述的基于图像识别的电视节目识别方法中，步骤S1和步骤S3中所述提取视频图像特征值具体包括：

S11，利用深度图网格顶点的曲率值计算刚性变换不变性度量，并作为二维图像上的灰度值，创建二维灰度图像；

S12，利用SIFT算法对二维灰度图像进行特征点检测与匹配，通过映射关系建立多视图上的特征点及匹配关系。

前述的基于图像识别的电视节目识别方法中，步骤S3具体包括：

S31，判断移动终端是否有方向传感器，若有，则转至步骤S32；若没有，则转至步骤S33；

S32，判断移动终端是否有被举起动作，若有，则转至步骤S33；若没有，则重复步骤S32，直到检测到移动终端被举起动作为止；

S33，摄像头开始对焦，待对焦完成，获取当前电视频道的视频图像，并提取视频图像特征值；

S34，发送图像识别请求和视频图像特征值数据到图像处理服务器。

前述的基于图像识别的电视节目识别方法中，图像处理服务器有一个图像识别线程池，线程池中有多个功能相同的线程，称为图像识别线程；每个图像识别线程在一段时间内(比如200ms，该时间取决于图像处理服务器CPU的处理能力，CPU能力越强需要的时间越短)处理一个图像识别请求。当图像处理服务器接收到多个用户并发的图像识别请求时，先进行调度控制，再进行图像识别，所述调度控制具体为：图像处理服务器内的调度控制算法将多个用户并发图像识别请求按请求时间顺序放入一个请求队列中；监测请求队列和图像识别线程池，若发现请求队列中有未处理的图像识别请求并且图像识别线程池中有状态为空闲的图像识别线程时，则将请求时间最早的图像识别请求分配给状态为空闲的图像识别线程，从请求队列中移除此请求，将此图像识别线程的状态改为忙；一旦图像识别线程处理完请求后将立即回到图像识别线程池，并把状态改为“空闲”，等待调度控制算法分配新的图像识别请求。

前述的基于图像识别的电视节目识别方法中，步骤S4具体包括：

S41，根据视频图像特征索引表进行图像粗配，在索引表中选出最有可能配准的8～12条候选视频图像特征值；

S42，根据选出的候选视频图像特征值进行图像精配，选出完全匹配的视频图像特征值；

S43，根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的频道ID，返回该频道ID到移动终端。

优选的，所述步骤S41中，根据视频图像特征索引表进行图像粗配，在索引表中选出最有可能配准的10条候选视频图像特征值。

前述的基于图像识别的电视节目识别方法中，步骤S5具体为：移动终端根据图像处理服务器返回的频道ID，确定当前发送的视频图像所属的频道，自动调用电视节目互动服务器的电子节目菜单确定当前直播视频所属节目。

一种实现前述方法的基于图像识别的电视节目识别系统，包括：

图像采集服务器，用于通过视频采集卡采集各电视频道的直播视频图像，提取各电视频道的视频图像特征值，并将视频图像特征值发送到图像处理服务器；

图像特征索引表模块，用于图像处理服务器实时建立并更新各电视频道的视频图像特征索引表；

电视图像采集模块，用于移动终端拍摄当前电视频道的屏幕画面，提取屏幕画面的视频图像特征值，并发送图像识别请求和视频图像特征值到图像处理服务器；

图像识别模块，用于图像处理服务器将当前电视频道的视频图像特征值与实时的视频图像特征索引表中的视频图像特征值进行比对，确定当前电视频道的频道ID；

节目确定模块，用于移动终端根据当前电视频道的频道ID确定当前直播视频所属节目。

前述的基于图像识别的电视节目识别系统中，图像采集服务器包括：

视频卡采集模块，用于通过视频采集卡对各电视频道的直播节目视频流进行图像数据采集；图像预处理模块，用于利用深度图网格顶点的曲率值计算刚性变换不变性度量，并作为二维图像上的灰度值，创建二维灰度图像，再利用SIFT算法对二维灰度图像进行特征点检测与匹配，通过映射关系建立多视图上的特征点及匹配关系。

前述的基于图像识别的电视节目识别系统中，电视图像采集模块包括：

方向传感器判断模块，用于判断移动终端是否有方向传感器，若有，则转至举起动作判断模块；若没有，则转至图像特征值提取模块；

举起动作判断模块，用于判断移动终端是否有被举起动作，若有，则转至图像特征值提取模块；若没有，则一直判断是否有被举起动作，直到检测到为止；

图像特征值提取模块，用于摄像头开始对焦，待对焦完成，获取视频图像，并提取视频图像特征值；

图像识别请求模块，用于向图像处理服务器发送图像识别请求和视频图像特征值数据。

前述的基于图像识别的电视节目识别系统中，还包括识别请求控制模块，用于图像处理服务器接收多个并发的图像识别请求并对其进行调度控制，启动图像识别模块；所述识别请求控制模块包括：

队列建立模块，用于将多个用户并发图像识别请求按请求时间顺序放入一个请求队列中；

监测模块，用于监测请求队列是否有未处理的图像识别请求，以及图像识别线程池中是否有状态为空闲的图像识别线程；

请求分配模块，用于当发现请求队列中有未处理的图像识别请求并且图像识别线程池中有状态为空闲的图像识别线程时，将请求时间最早的图像识别请求分配给状态为空闲的图像识别线程，从请求队列中移除此请求，将此图像识别线程的状态改为忙。

前述的基于图像识别的电视节目识别系统中，图像识别模块包括：

粗配模块，用于根据视频图像特征索引表进行图像粗配，在索引表中选出最有可能配准的8～12条候选视频图像特征值；

精配模块，用于根据选出的候选视频图像特征值进行图像精配，选出完全匹配的视频图像特征值；

对比模块，用于根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的频道ID，返回该频道ID到移动终端。

前述的基于图像识别的电视节目识别系统中，所述节目确定模块，用于移动终端根据图像处理服务器返回的频道ID，确定当前发送的视频图像所属的频道，自动调用电视节目互动服务器的电子节目菜单确定当前直播视频所属节目。

与现有技术相比，本发明应用于数字化电视领域，通过视频卡实时采集电视直播节目视频图像，运用局部图像特征描述及匹配技术对图像进行识别，并与用户移动终端发送的节目图像进行比对，来识别用户正在观看哪个频道的哪个电视节目。

本发明没有使用电视台台标或频道名称进行图像比对，而是将移动终端拍摄的整幅图像与索引表中的整幅图像进行对比，因此能够抵抗以下干扰因素：1)拍摄距离远而造成的图像小；2)拍摄时光线差造成的图像明暗度问题；3)拍摄视角造成的图像偏差；抗干扰能力强。

在图像比对过程中，采用“粗配”和“精配”两个阶段，“粗配”耗时少，从大量后台服务器采集到的各个电视频道的图像中迅速筛选出很少一部分与移动终端发送过来的图像相似的图像，作为候选图像；粗配完成后，将进行耗时较多的精配，精配即把移动终端发送来的图像与粗选出来的多个候选图像一一进行精细的比对，这样可以大大提高算法运行的速度。在比对过程中，考虑到一张电视画面图像不一定能确保服务器比对成功，为此在预先设定的时间段内(即用户能容忍等待的时间段内)，如果一次比对不成功，移动终端还会接着发第二张电视画面图像给服务器用于比对，由此提高了算法的强壮性，使得比对成功的概率大大提高。假设有100个频道，对于每个频道，图像采集服务器每秒采集8帧图像，在1秒内系统将采集800帧图像。对于移动终端发来的一个图像识别请求，考虑两个延时因素：第一个延时是电视信号与图像采集服务器的电视信号之间可能有延时；第二个延时是移动终端发送拍摄图像到图像处理服务器过程中的网络传输延时(必然因素)。为了提高图像比对成功率，图像处理服务器必须将移动终端发来的图像与服务器中某一段时间内的所有图像进行比对，假设取时间段为60秒(根据以往的实验，对于国内的电视及网络状况，延迟产生的时间段可能在5～70秒)，这就意味着图像处理服务器在图像识别时需要将一张拍摄图像与服务器中的48000张图像进行比对，而对于目前市场流行的服务器而言，这样的比对通常需要消耗至少几十分钟甚至更长时间。而采用本发明后，从拍摄视频图像到获得确定的频道ID一般仅需要2～5秒，因此通过这样一个从粗到精的图像比对过程，既保证了系统的执行速度，又保证系统的选取准确率。

本发明是一种除传统的热线电话、短信参与等方式外的电视节目非现场互动参与方式，它极大改善用户的电视互动参与体验。用户可以借助身边的移动终端的摄像设备，发送实时直播视频图像，在服务后台通过图像识别，判断用户正在参与该节目，并且推送互动参与内容，非现场实时地参与电视节目互动，拓展电视节目的有趣性和参与感，提高电视节目收视率，使其作为用户与电视节目互动的一种现实和有效的实现途径，可以建立一个统一的电视节目互动平台，实现与传统的电视节目对接，具有巨大的市场价值。

附图说明

图1是本发明实施例1的方法流程图；

图2是本发明实施例1的电视图像采集流程图；

图3是本发明实施例1的移动终端图像识别请求流程图；

图4是本发明实施例1的图像识别流程图；

图5是本发明实施例2的系统结构示意图；

图6是本发明实施例2的电视图像采集模块的结构示意图；

图7是本发明实施例2的识别请求控制模块的结构示意图；

图8是本发明实施例2的图像识别模块的结构示意图。

下面结合附图和具体实施方式对本发明作进一步的说明。

具体实施方式

本发明实施例1：一种基于图像识别的电视节目识别方法，如图1所示，包括以下步骤：

S1，通过视频采集卡对各电视频道的直播节目视频流进行每秒N帧的图像采集，提取各电视频道的视频图像特征值，并将视频图像特征值发送到图像处理服务器(如图2所示)；

S2，图像处理服务器实时建立并更新各电视频道的视频图像特征索引表；

S5，移动终端根据图像处理服务器返回的频道ID，确定当前发送的视频图像所属的频道，自动调用电视节目互动服务器的电子节目菜单(EPG)确定当前直播视频所属节目。

所述步骤S1中N的取值根据实际需要而定，N越大则采集的图像越密集，对后续的频道图像识别越有利，但N越大会消耗服务器越多的CPU和内存资源，也为频道图像识别带来更大的代价，因此在实际应用中，必须综合考虑可接受的频道识别成功率和硬件代价这两个因素，寻找一个折中的取值。假设视频的帧率为每秒25帧，则N可以取1和25之间的任一整数。

所述步骤S1和步骤S3中所述提取视频图像特征值具体包括：

所述步骤S2中，索引表的更新时间与视频采集卡采集直播节目图像的时间是一致的，也是每秒N帧。

如图3所示，所述步骤S3具体包括：

所述步骤S32中，移动终端是否有被举起动作可通过移动终端中的重力传感器辅助判断，即：读取重力传感器x轴、y轴、z轴三个方向的数据，通过这三个数据来判断是否被举起。

图像处理服务器有一个图像识别线程池，线程池中有多个功能相同的线程，称为图像识别线程；每个图像识别线程在一段时间内(比如200ms，该时间取决于图像处理服务器CPU的处理能力，CPU能力越强需要的时间越短)处理一个图像识别请求。当图像处理服务器接收到多个用户并发的图像识别请求时，先进行调度控制，再进行图像识别。所述调度控制具体为：图像处理服务器内的调度控制算法将多个用户并发图像识别请求按请求时间顺序放入一个请求队列中；监测请求队列和图像识别线程池，若发现请求队列中有未处理的图像识别请求并且图像识别线程池中有状态为空闲的图像识别线程时，则将请求时间最早的图像识别请求分配给状态为空闲的图像识别线程，从请求队列中移除此请求，将此图像识别线程的状态改为忙；一旦图像识别线程处理完请求后将立即回到图像识别线程池，并把状态改为“空闲”，等待调度控制算法分配新的图像识别请求。

如图4所示，经过图像识别请求调度控制处理后，启动图像识别模块，所述步骤S4具体包括：

S41，根据视频图像特征索引表进行图像粗配，在索引表中选出最有可能配准的8、9、10、11或12(优选是10条)条候选视频图像特征值；

所述步骤S41中，图像粗配是为了快速查找视频图像特征索引表中的相似图像集，通过将局部视觉特征集合转化为视觉词汇，建立树形结构的分层聚类模型，利用分频词汇关键词检索技术的特点，将视觉特征转化为视觉词汇，在匹配过程中无需遍历所有节点，大大减少了查询时间，提升了系统性能。

所述步骤S42中，图像精配是利用局部特征精确匹配相似图像集，确定最终匹配结果，即：通过两两比较局部特征点集合，计算所有视觉特征的相似度并对其进行几何校验，获取相似度最高的图像，并输出结果。

本发明实施例2：一种实现实施例1的基于图像识别的电视节目识别系统，如图5所示，包括：

节目确定模块，用于终端根据图像处理服务器返回的频道ID，确定当前发送的视频图像所属的频道，自动调用电视节目互动服务器的电子节目菜单确定当前直播视频所属节目。

所述图像采集服务器包括：

如图6所示，所述电视图像采集模块包括：

系统还包括识别请求控制模块，用于图像处理服务器接收多个并发的图像识别请求并对其进行调度控制，启动图像识别模块；如图7所示，所述识别请求控制模块包括：

如图8所示，所述图像识别模块包括：

其中，该系统的网络架构中还涉及到了以下设备：

(1)图像采集服务器

主要负责从视频采集卡采集图像，同时对采集的图像进行预处理，提取图像特征并发送给图像处理服务器。

(2)图像处理服务器

图像处理服务器包括两部分：应用服务器和识别服务器。应用服务器负责接收来自移动终端的图像识别请求，解析请求并转发给识别服务器，并接收频道识别结果最终返回给手机用户；识别服务器负责处理来自用户发起的频道识别请求并把结果返回给应用服务器。

(3)移动终端

移动设备客户端应用主要包括互动参模块和电视图像采集模块。互动参与模块主要提供用户与电视节目互动功能，诸如投票功能，评论和抽奖等。电视图像采集模块主要提供通过手机摄像头实时拍摄电视节目视频图像，抽取图像局部特征值，并且向图像处理服务器发送图像识别请求；并且把图像处理服务器识别的结果告诉互动参与模块。

(4)电视节目互动内容服务器

提供一个电视节目互动内容平台，为手机电视节目互动应用提供内容和配置服务。

通过此系统网络架构，实现了用户通过移动终端应用与电视的节目实时互动。

Claims

1.一种基于图像识别的电视节目识别方法，其特征在于，包括以下步骤：

S5，移动终端根据当前电视频道的频道ID确定当前直播视频所属节目；

其中，步骤S4具体包括：

S41，根据视频图像特征索引表进行图像粗配，在索引表中选出8～12条候选视频图像特征值；

S43，根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的频道ID，返回该频道ID到移动终端；

所述步骤S41中包括，通过将局部视觉特征集合转化为视觉词汇，建立树形结构的分层聚类模型，利用所述分层聚类模型进行图像粗配。

2.根据权利要求1所述的基于图像识别的电视节目识别方法，其特征在于，步骤S1和步骤S3中所述提取视频图像特征值具体包括：

3.根据权利要求1或2所述的基于图像识别的电视节目识别方法，其特征在于，步骤S3具体包括：

4.根据权利要求3所述的基于图像识别的电视节目识别方法，其特征在于：当图像处理服务器接收到多个用户并发的图像识别请求时，先进行调度控制，再进行图像识别，所述调度控制具体为：将多个用户并发图像识别请求按请求时间顺序放入一个请求队列中；监测请求队列和图像识别线程池，若发现请求队列中有未处理的图像识别请求并且图像识别线程池中有状态为空闲的图像识别线程时，则将请求时间最早的图像识别请求分配给状态为空闲的图像识别线程，从请求队列中移除此请求，将此图像识别线程的状态改为忙。

5.一种实现权利要求1～4任意一项所述方法的基于图像识别的电视节目识别系统，其特征在于，包括：

节目确定模块，用于移动终端根据当前电视频道的频道ID确定当前直播视频所属节目；

其中，所述图像识别模块包括：

对比模块，用于根据选出的完全匹配的视频图像特征值在视频图像特征索引表中查找对应的频道ID，返回该频道ID到移动终端；

所述粗配模块具体用于通过将局部视觉特征集合转化为视觉词汇，建立树形结构的分层聚类模型，利用所述分层聚类模型进行图像粗配。

6.根据权利要求5所述的基于图像识别的电视节目识别系统，其特征在于，图像采集服务器包括：

视频卡采集模块，用于通过视频采集卡对各电视频道的直播节目视频流进行图像数据采集；

图像预处理模块，用于利用深度图网格顶点的曲率值计算刚性变换不变性度量，并作为二维图像上的灰度值，创建二维灰度图像，再利用SIFT算法对二维灰度图像进行特征点检测与匹配，通过映射关系建立多视图上的特征点及匹配关系。

7.根据权利要求5或6所述的基于图像识别的电视节目识别系统，其特征在于，电视图像采集模块包括：

8.根据权利要求7所述的基于图像识别的电视节目识别系统，其特征在于：还包括识别请求控制模块，用于图像处理服务器接收多个并发的图像识别请求并对其进行调度控制，启动图像识别模块；所述识别请求控制模块包括：