CN107484013A

CN107484013A - 一种利用移动设备进行电视节目互动的方法

Info

Publication number: CN107484013A
Application number: CN201710675544.1A
Authority: CN
Inventors: 孙剑; 刘华; 刘逸男
Original assignee: China Television Information Technology (beijing) Co Ltd
Current assignee: China Television Information Technology (beijing) Co Ltd
Priority date: 2017-08-09
Filing date: 2017-08-09
Publication date: 2017-12-15
Anticipated expiration: 2037-08-09
Also published as: CN107484013B

Abstract

本发明提供一种利用移动设备进行电视节目互动的方法，包括：移动设备的摄像机实时拍摄得到原始电视画面；接收模块判断接收到的所述原始电视画面是否为第1帧图像，如果是，则将所述原始电视画面以及绑定的本地时间t_mobile发送给所述预校正模块，计算出对应帧视频源播放时间t_tv；如果否，则将所述原始电视画面发送给所述实时交互模块；预校正模块包括：第1屏幕定位模块、频道ID识别模块和时间位移估算模块。本发明提供的利用移动设备进行电视节目互动的方法具有以下优点：是一种抗噪能力强、用户操作简单的移动设备与电视交互的方法，具有实用性强以及交互能力强等优点，可有效提高用户交互体验，从而满足观众与电视节目进行实时交互的需求。

Description

一种利用移动设备进行电视节目互动的方法

技术领域

本发明属于电视互动技术领域，具体涉及一种利用移动设备进行电视节目互动的方法。

背景技术

随着互联网技术的发展，越来越多的观众倾向于互联网观看电视节目，传统电视因缺少与观众的有效互动，造成收视率持续下降的现状。为了增强观众观看电视的趣味性，实现观众与电视节目信息的双向流动，近年来，广播电视领域互动技术得到了不断的发展，目前电视交互的模式主要有三种：

(1)基于语音识别的交互方法及系统

随着智能电视的发展，电视的操作菜单界面也越来越复杂，语音识别作为最方便直观的控制方式逐步应用到电视领域。语音识别是指：用户说出语音指令，即可将语音输入变成文字输入，进行相应的搜索。但具有以下不足：抗噪能力有限，识别成功率易受影响。

(2)基于二维码交互的方法和系统

在电视画面嵌入包含特定信息的二维码图像，因此，用户利用移动设备拍摄包含特定信息的二维码图像，通过移动设备APP软件进行解码后触发移动设备上网、名片识读、社交互动页等关联信息，为用户提供各类信息服务。但具有以下不足：破坏电视画面的整体性。

(3)基于手势交互的方法及系统

主要分为两种：一种是非接触式的；一种是可穿戴式的。基于手势交互的方法及系统，基于手势进行交互，手势的直观性和强大的语义使得人机交互变得尤为轻松。但具有以下不足：识别的性能有待提高，造价高，目前未得到很广泛的应用，用户的认知负荷(手势命令)和操作负荷(长时间操作比较疲惫)比较重。

通过对以上技术的总结，不难得出，现有的各类技术存在实用性差、交互能力弱等问题，从而无法满足观众与电视节目进行实时交互的需求。

发明内容

针对现有技术存在的缺陷，本发明提供一种利用移动设备进行电视节目互动的方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种利用移动设备进行电视节目互动的方法，应用于由移动设备和服务器组成的系统中；包括以下步骤：

步骤1，移动设备的摄像机实时拍摄得到原始电视画面，并将拍摄得到的原始电视画面以及绑定的移动设备录制视频的第1帧对应的本地时间t_mobile实时以视频的方式上传到移动设备本地；所述移动设备本地包括接收模块、预校正模块、实时交互模块和综合分析模块；

步骤2，所述接收模块判断接收到的所述原始电视画面是否为第1帧图像，如果是，则将所述原始电视画面以及绑定的本地时间t_mobile发送给所述预校正模块；如果否，则将所述原始电视画面发送给所述实时交互模块；

步骤3，所述预校正模块包括：第1屏幕定位模块、频道ID识别模块和时间位移估算模块；所述第1屏幕定位模块接收第1帧的原始电视画面，并对接收到的第1帧的原始电视画面进行识别分析处理，精确定位到无电视边框的电视画面；然后，将所述无电视边框的电视画面发送给所述频道ID识别模块；所述频道ID识别模块基于所述无电视边框的电视画面进行频道ID检测，识别到播放所述原始电视画面的电视频道ID以及视频帧在视频源的播放时间t_tv；所述频道ID识别模块将所述视频帧在视频源的播放时间t_tv发送给所述时间位移估算模块；所述时间位移估算模块用于在电视频道ID识别正确后，接收第1帧的原始电视画面所绑定的本地时间t_mobile，再结合所述视频帧在视频源的播放时间t_tv，估算得到时间延迟信息；其中，所述时间延迟信息指移动端和电视端播出节目的时间差；

所述实时交互模块接收第2帧及其以后的原始电视画面，对接收到的所述原始电视画面进行分析，确定用户选择的交互模式以及触屏位置数据；

步骤4，所述实时交互模块根据所述预校正模块获得的电视频道ID和时间延迟信息，以及获得的交互模式和触屏位置数据，获得需要向移动设备下发的对应的交互信息，并将所述需要向移动设备下发的对应的交互信息下发给所述移动设备，由此实现移动设备和电视节目互动。

优选的，所述第1屏幕定位模块具体用于：

步骤3.1，调整第1帧的原始电视画面的大小，进行归一化处理；

步骤3.2，分别采用canny算子、Laplacian算法以及MSER算子进行轮廓检测，得到若干个轮廓，并将检测出来的轮廓合并；

步骤3.3，轮廓粗筛选：分别计算检测到的每个轮廓的面积，判断计算得到的每个轮廓的面积是否大于阈值，如果是，则保留轮廓；否则，删除轮廓；

假设保留的轮廓数量为N个；对保留的N个轮廓按轮廓面积由大到小进行排序，得到N个候选轮廓；

步骤3.4，对N个候选轮廓中的每个候选轮廓进行凸包运算，由此得到N个凸多边型；

步骤3.5，对于N个凸多边型中的每个凸多边型，判断多边形的边数是否小于四，如果是，则删除对应的凸多边型，如果否，则保留，由此筛选得到M个凸多边型；其中，M≤N；

步骤3.6，在M个凸多边型中，对于每一个凸多边型，统计凸包顶点的个数，即：统计锚点的个数，并计算相邻锚点的线段长度，如果相邻锚点的线段长度大于阈值时，将相邻锚点的线段称为长线段，并保留此长线段；否则，舍弃相邻锚点的线段；然后，判断对应于一个凸多边型的长线段数目是否小于四，如果小于，则舍弃此凸多边型，否则保留此凸多边型，由此筛选得到M'个凸多边型，即：筛选得到M'个候选轮廓；其中，M'≤M；

步骤3.7，在M'个候选轮廓中，判断每个候选轮廓中是否存在斜率大于阈值的线段，如果是，则删除对应的候选轮廓，否则保留对应的轮廓，由此筛选得到1个最终的电视边框轮廓图；

步骤3.8，假设步骤3.7确定的电视边框轮廓图为由n个长线段组成的凸包轮廓，将n个长线段分别记为：L₁、L₂、…、L_n；求相邻长线段延长线的交点，共有n个交点，分别记为：P₁、P₂、…、P_n；P₁、P₂、…、P_n即为电视边框轮廓图的n个锚点；

假设步骤3.1归一化处理后的图像的四个顶点分别为N1、N2、N3和N4；

步骤3.9，计算每个交点P_i(i＝1，2，…，n)分别到图像四个顶点N1、N2、N3和N4的距离；得到距离N1最短的交点P_j1、距离N2最短的交点P_j2、距离N3最短的交点P_j3、距离N4最短的交点P_j4；其中，j1、j2、j3和j4∈(1，2，…，n)；

步骤3.10，由P_j1、P_j2、P_j3和P_j4四个点组成仿射矩阵，进行仿射变换，得到的四个点分别为M₁、M₂、M₃和M₄；M₁、M₂、M₃和M₄顺次相连，得到粗定位后的电视画面；

步骤3.11，在粗定位后的电视画面的内部四角位置，分别确定第1区域R₁、第2区域R₂、第3区域R₃和第4区域R₄；其中，第1区域R₁为以M₁点作为一个顶点的区域；第2区域R₂为以M₂点作为一个顶点的区域；第3区域R₃为以M₃点作为一个顶点的区域；第4区域R₄为以M₄点作为一个顶点的区域；

步骤3.12，对每个区域R_i(i＝1,2,3,4)进行直接检测和角点检测，找出Fast角点和Hough的交点的重合点并聚类，从而获得每个区域R_i内唯一的一个角点P_Ri作为最终电视画面的一个顶点；

由此得到最终电视画面的四个顶点，分别为P_R1、P_R2、P_R3和P_R4；

P_R1、P_R2、P_R3和P_R4四个顶点组成仿射变换矩阵，进行仿射变换，得到最终无电视边框的电视画面的四个顶点分别为O₁、O₂、O₃和O₄；至此定位到最终无电视边框的电视画面。

优选的，步骤3.3中，采用以下方法计算轮廓的面积：

对于某一轮廓，遍历所有的轮廓点，找出水平方向最大点坐标right和水平方向最小点坐标left；找出竖直方向最大点坐标top和竖直方向最小点坐标bottom；

则此轮廓的面积Area为：

Area＝(right-left)*(top-bottom)。

优选的，步骤3中，所述频道ID识别模块采用以下方法识别到播放所述原始电视画面的电视频道ID：

步骤1)建立视频特征库：手动选择每个频道的视频样本，并对视频样本进行视频解码和抽取视频关键帧；

提取每个视频关键帧的HoG特征；同时建立索引表，所述索引表包含两类信息：视频帧所属的频道ID和视频帧在视频源的播放时间t_tv；将索引表和对应的视频HoG特征存储到视频特征库中；

步骤2)移动设备拍摄的第1帧原始电视画面经第1屏幕定位模块处理，输出无电视边框的电视画面后，对无电视边框的电视画面进行HoG特征提取，得到无电视边框的电视画面HoG特征，并将所述无电视边框的电视画面HoG特征发送给属于服务器的特征匹配模块；

步骤3)特征匹配模块接收待检索的无电视边框的电视画面HoG特征，根据视频特征库建立k-d树；然后，将待检索的无电视边框的电视画面HoG特征与k-d树的所有节点进行匹配，得到匹配的视频特征库中的视频帧；

步骤4)特征匹配模块根据图像匹配的结果，查询索引表，获得待检索的无电视边框的电视画面对应的频道ID和视频帧在视频源的播放时间t_tv；

步骤5)特征匹配模块将检索到的频道ID和视频帧在视频源的播放时间t_tv推送回移动设备；

步骤6)移动设备判断检索到的频道ID是否正确，如果否，则重新拍摄电视画面，重复步骤2)～步骤5)；如果是，则将检索到的频道ID发送至特征匹配模块；同时，将检测到的视频帧在视频源的播放时间t_tv发送给时间位移估算模块。

优选的，步骤3中，时间位移估算模块采用以下方法识别到播放所述原始电视画面的时间延迟信息：

步骤a)时间位移估算模块估算各个算法的耗时，包括第1屏幕定位模块算法耗时t1；频道ID识别模块算法耗时t2，包括：特征提取耗时和特征匹配耗时；直播的时候，移动设备接受到电视画面延迟时间t3；

步骤b)时间位移估算模块获得移动设备录制视频的第1帧对应的本地时间t_mobile；时间位移估算模块还获得频道ID识别模块下发的视频帧在视频源播放时间t_tv，该视频源播放时间t_tv即为录制视频的第1帧匹配的图像在电视画面中的播放时间；

步骤c)时间位移估算模块根据以下公式计算得到播放所述原始电视画面的时间延迟信息Δt：

Δt＝t_mobile-t_tv+Δt_sum

其中，Δt_sum为算法总耗时，Δt_sum＝t1+t2+t3。

优选的，步骤3中，所述实时交互模块包括：第2屏幕定位模块、主体识别交互模块和区域交互模块；

从第2帧图像开始的每张原始电视画面均输入到所述第2屏幕定位模块；所述第2屏幕定位模块采用以上方法定位到无电视边框的电视画面；由于时间延迟信息Δt、算法总耗时Δt_sum和视频帧对应的本地时间t_mobile均为已知值，因此，计算得到对应的视频帧在视频源的视频源播放时间t_tv：

t_tv＝t_mobile+Δt_sum-Δt

记录视频帧在视频源的视频源播放时间t_tv和电视频道ID；

然后，如果用户选择的交互模式为主体识别交互模式，则将所述第2屏幕定位模块定位到的无电视边框的电视画面以及触屏位置数据发送给所述主体识别交互模块；如果用户选择的交互模式为区域交互模式，则将所述无电视边框的电视画面以及触屏位置数据发送给所述区域交互模块；

所述主体识别交互模块用于：(1)对定位后的无电视边框的电视画面进行主体区域分割；得到与触屏位置数据对应的主体区域；(2)提取主体区域的特征，将提取到的主体区域的特征发送到服务器；(3)服务器匹配主体库的特征，获得主体属性信息，并将所述主体属性信息下发到所述移动设备，由此完成交互；

所述区域交互模式包括用户与节目互动的交互以及画面内容模式的交互；

所述用户与节目互动的交互是指：所述区域交互模式捕获用户选择的兴趣区域作为触屏数据，发送触屏数据至服务器；服务器根据用户点击屏幕时的本地时间t_mobile，计算出对应的视频源播放时间t_tv，根据捕获的触屏数据和视频源播放时间t_tv，匹配用户交互的结果，最后将交互结果和视频源播放时间t_tv保存到用户数据库；

所述画面内容模式的交互是指：移动设备拍摄电视画面视频，抽取视频关键帧和对视频关键帧进行屏幕定位，得到处理后的视频帧；移动设备对处理后的视频帧进行分析，得到频道ID、时间位移信息和电视画面边框位置信息；移动设备将频道ID、对应帧视频源播放时间t_tv和电视画面边框位置信息发送到服务器；服务器根据电视画面边框的位置信息和视频源播放时间t_tv，计算出相应节目活动的位置信息，并直接向移动设备推送交互信息，使移动设备拍摄的电视画面与服务器推送的交互信息交互出现，实现增强现实的效果。

本发明提供的利用移动设备进行电视节目互动的方法具有以下优点：

是一种抗噪能力强、用户操作简单的移动设备与电视交互的方法，具有实用性强以及交互能力强等优点，可有效提高用户交互体验，从而满足观众与电视节目进行实时交互的需求。

附图说明

图1为本发明提供的利用移动设备进行电视节目互动的方法的整体流程示意图；

图2为预校正模块的工作原理图；

图3为用户拍摄到的原始电视画面的一个示意图；

图4为第1屏幕定位模块的工作原理图；

图5为一种具体的轮廓面积计算示意图；

图6为对候选轮廓进行凸包运算的示意图；

图7为存在斜率较大的凸包线段的示意图；

图8为步骤3.8的一个具体示意图；

图9为计算交点P_i分别到图像四个顶点的距离的示意图；

图10为计算得到电视的四个锚点的示意图；

图11为粗定位过程中的仿射变换示意图；

图12为细定位中区域提取示意图；

图13为Hough直线检测的示意图；

图14为Hough直线检测中得到交点的示意图；

图15为细定位过程中的仿射变换示意图；

图16为频道ID识别模块的工作原理图；

图17为摄像头对准包含背景的电视拍摄到的画面示意图；

图18为主体识别交互模块的工作原理图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

针对用户与电视互动的需求，本发明设计一种基于移动设备的电视实时交互方案。考虑到用户电视类型的多样性，采用简单的移动设备摄像模式，实时定位到电视画面，并与服务器端实时响应用户感兴趣的区域。首先，采用简单的边缘提取以及直线检测等方法，实时定位出移动端拍摄的电视边框，获取无边框的电视画面；其次，对电视画面进行频道识别，识别相相应的电视频道ID；最后，根据拍摄的画面计算出电视端和移动端的时间延迟信息，服务器向移动设备发送同步于电视画面的服务，使用户与电视产生交互。本发明提供的一种实时交互方法，用户可以根据各自目的，应用到不同的场景中。

步骤3，参考图2，为预校正模块的工作原理图；预校正模块的主要目的是获得两个参数：一是频道ID，二是移动端和电视端的时间延迟信息。

所述预校正模块包括：第1屏幕定位模块、频道ID识别模块和时间位移估算模块；所述第1屏幕定位模块接收第1帧的原始电视画面，并对接收到的第1帧的原始电视画面进行识别分析处理，精确定位到无电视边框的电视画面；然后，将所述无电视边框的电视画面发送给所述频道ID识别模块；所述频道ID识别模块基于所述无电视边框的电视画面进行频道ID检测，识别到播放所述原始电视画面的电视频道ID以及视频帧在视频源的播放时间t_tv；所述频道ID识别模块将所述视频帧在视频源的播放时间t_tv发送给所述时间位移估算模块；所述时间位移估算模块用于在电视频道ID识别正确后，接收第1帧的原始电视画面所绑定的本地时间t_mobile，再结合所述视频帧在视频源的播放时间t_tv，估算得到时间延迟信息；其中，所述时间延迟信息指移动端和电视端播出节目的时间差。

下面分别详细介绍第1屏幕定位模块、频道ID识别模块和时间位移估算模块的工作原理：

(一)第1屏幕定位模块

参考图3，为用户拍摄到的原始电视画面的一个示意图。用户在拍摄原始电视画面的过程中，因距离电视有一定的距离，所以会将电视后面的背景拍摄到视频中，如图3所示，因此在用户与电视进行互动之前，需要定位视频中的电视画面，即：图3中的黑色区域。

本发明中屏幕定位的主要思路是：定位电视的边框位置信息，电视的边框分为两种：内边框和外边框。外边框易受背景影响，内边框易受电视画面播放内容的干扰，为了更加精确的定位出电视画面，需要将电视的内边框精确定位，因此本模块将算法分为两个部分：粗定位模块和细定位模块。粗定位的主要目的是大致定位出电视外边框的位置，此定位结果中仍然包含一部分电视的边框，因此加入细定位模块，将多余的边框去除，精确的定位出电视内边框，得到最终定位的电视画面。

第1屏幕定位模块的工作原理如图4所示，包括以下步骤：

步骤3.2，分别采用canny算子、Laplacian算法以及MSER算子进行轮廓检测，得到若干个轮廓，并将检测出来的轮廓合并。

因每个算子检测的轮廓代表了不同的图像特征，所以保留所有检测出来的轮廓，即合并检测出的所有轮廓。

本步骤原理为：因电视画面在整体图像中占有较大比例，故只需考虑前N个大区域轮廓即可，将无用的小区域轮廓排除，提高算法的高效性。因轮廓以点的形式存储，故根据轮廓所有点包围的面积代表轮廓的大小，因多边形面积求解困难，故采用矩形来趋近多边形面积。当轮廓面积大于阈值时，保留轮廓，然后对满足阈值条件的轮廓根据面积大小进行排序，选取前N个轮廓，作为候选的区域，完成了初步的轮廓筛选。

具体的，采用以下方法计算轮廓的面积：

则此轮廓的面积Area为：

Area＝(right-left)*(top-bottom)。

例如，如图5所示，为一种具体的轮廓面积计算示意图。图5中轮廓一共有五个轮廓点，坐标分别为(x1,y1)，…，(x5,y5)。水平方向最大和最小的点分别为right＝x3，left＝x1，top＝y2，bottom＝y5。则Area＝(x3-x1)*(y2-y5)。则此轮廓的多边形面积由虚线表示的矩形面积来趋近。

具体的，由于电视边框是一个凸包，步骤3.3检测的轮廓有可能是凹的，为了匹配这个特性，先对候选轮廓进行凸包运算，如图6所示，为对候选轮廓进行凸包运算的示意图。其中，实线代表原始轮廓，虚线代表凸包运算之后的轮廓。

具体的，在N个凸多边型中，有的凸包可能由三条边组成或者多边形的边数小于四，因电视边框由四条边组成，是一个四边形，所以删除凸包边数小于四的轮廓，这样可得M个候选轮廓。

具体的，在M'个候选轮廓中，有的凸包线段存在大角度倾斜，即斜率较大，不符合电视边框的特性，因此删除这些包含大角度倾斜线段的轮廓。如图7所示，为存在斜率较大的凸包线段的示意图。

经过上述轮廓细筛选之后，可以得到最终的电视边框轮廓图。因为轮廓中有可能包含多个角点，即多个凸包锚点，而电视边框只有四个锚点，因此需要进行锚点筛选，确定电视边框的四个锚点。具体方法见步骤3.8。

假设步骤3.1归一化处理后的图像的四个顶点分别为N1、N2、N3和N4。

例如，如图8所示，为步骤3.8的一个具体示意图。图8中最终筛选出的轮廓为由长线段：L1，L2，…，L6组成的凸包轮廓，求相邻线段延长线的交点P₁，P₂,，…，P₆，为此轮廓的六个锚点，其中N₁，N₂，N₃，N₄为原始图像的四个顶点。因电视边框只需要四个锚点，故进行筛选。

例如，如图9所示，为计算交点P_i分别到图像四个顶点N1、N2、N3和N4的距离的示意图。在图9中，计算每个交点P_i(i＝1，2，…，6)到图像四个顶点N₁，N₂，N₃，N₄的距离，与N₁距离最短的点是P₆，依次类推，可以得到离N₂最近的点是P₁，离N₃最近的点是P₂，离N₄最近的点是P₄。得到如图10所示电视的四个锚点P₁，P₂,，P₄和P₆。

如图11所示，为仿射变换示意图。即：由P₁，P_2,，P₄和P₆四个点组成仿射矩阵，进行仿射变换，可以得到定位后的电视画面M₁，M₂，M₃，M₄。

依据上述步骤3.1-步骤3.10，移动端拍摄的画面可以粗定位电视画面，但是画面中仍包含电视的小部分边框信息，需对图像进一步处理，去除剩余的小边框，步骤3.11-3.12进入细定位模块。

例如，如图12所示，为细定位中区域提取示意图，粗定位的电视画面由M₁，M₂，M₃，M₄组成，如图12所示，因为此时有可能还包含电视的一部分边框(图12中划线阴影部分)。实际电视画面的边框为Q₁，Q₂，Q₃，Q₄四个点组成的四边形，为了找出这四个点，且提高算法的可执行性，对包含这四个点的区域R₁，R₂，R₃和R₄(图12中灰色区域)进行处理。R_i(i＝1,2,3,4)区域大小可根据实际应用场景进行更改。

为了在R_i中找出Q_i(i＝1,2,3,4)，先对R_i区域进行分析，因为电视画面明显区别于电视的边框，而且电视画面的顶点Q_i一般是两个直线的交点或者是图像的一个角点。因此对每个区域进行直接检测和角点检测，然后筛选出符合条件的电视画面的四个顶点Q₁，Q₂，Q₃，Q₄。具体参见步骤3.12。

步骤3.12，对每个区域R_i(i＝1,2,3,4)进行直接检测和角点检测，找出Fast角点和Hough的交点的重合点并聚类，从而获得每个区域R_i内唯一的一个角点P_Ri作为最终电视画面的一个顶点；由此得到最终电视画面的四个顶点，分别为P_R1、P_R2、P_R3和P_R4；P_R1、P_R2、P_R3和P_R4四个顶点组成仿射变换矩阵，进行仿射变换，如图15所示，得到最终无电视边框的电视画面的四个顶点分别为O₁、O₂、O₃和O₄；至此定位到最终无电视边框的电视画面。

下面介绍直接检测和角点检测的实施例：

Hough直线检测：

(1)如对R₁进行直线检测，如图13所示，共检测五条直线l₁，…l₅，因为此时电视画面的顶点一般是一条水平和垂直的线段的交点，对于斜率过大的直线(如l₅)，直接舍弃。为了方便求直线的交点，根据斜率和角度将直线划分为水平方向(l₃、l₄)和竖直方向(l₁、l₂)，在划分直线类型的过程中，直接舍弃了斜率过大的直线(l₅)。

(2)求直线的交点。对水平方向直线l₃、l₄和竖直方向直线l₁、l₂分别做延长线，可以得到如图14所示的四个交点，记为PtHough[i]，i＝1,2,3,4。

角点检测：

对R₁进行Fast角点检测，得到角点集合PtFast[n]，n＝1，2，…，Q。

(二)频道ID识别模块

所述频道ID识别模块采用如图16所示方法识别到播放所述原始电视画面的电视频道ID：

(三)时间位移估算模块

为了保证用户能够实时参与到活动中，需要知道用户移动端的时间和直播的电视画面的时间差，这样可以保证用户接受的区域消息的准确性。时间位移估算模块采用以下方法识别到播放所述原始电视画面的时间延迟信息：

Δt＝t_mobile-t_tv+Δt_sum

其中，Δt_sum为算法总耗时，Δt_sum＝t1+t2+t3。

计算出当前电视播放的第一帧与电视台播放视频源对应帧的Δt的原因为：针对各个不同的视频帧，因Δt为固定值，所以，可以得到之后每一帧图像对应的时间延迟信息Δt，在获取电视当前播放帧的t_mobile后，可得到对应帧在播放源的时间t_tv。

用户摄像头对准包含背景的电视，如图17箭头左侧所示，白色区域为无效的背景信息，黑色区域为电视画面。用户点击黑色区域内的画面，服务器实时推送相应画面的活动信息。

在进行交互之前，需要对输入的视频进行预处理，即定位到电视画面中。视频预处理分为两步：视频抽帧。将录制视频中的相似帧去掉，只保留关键帧，以提高算法的实时性。关键帧送入屏幕定位模块，得到定位后的电视画面，如图17箭头左侧所示。

所述实时交互模块接收第2帧及其以后的原始电视画面，对接收到的所述原始电视画面进行分析，确定用户选择的交互模式以及触屏位置数据。

所述实时交互模块用于移动端和电视端的实时交互，传送交互结果，包括：第2屏幕定位模块、主体识别交互模块和区域交互模块；

t_tv＝t_mobile+Δt_sum-Δt

记录视频帧在视频源的视频源播放时间t_tv和电视频道ID；

所述主体识别交互模块，主要是用户选择感兴趣的主体，服务器推送主体的相关信息，方便用户实时查询主体信息。具体用于：(1)对定位后的无电视边框的电视画面进行主体区域分割；得到与触屏位置数据对应的主体区域；(2)提取主体区域的特征，将提取到的主体区域的特征发送到服务器；(3)服务器匹配主体库的特征，获得主体属性信息，并将所述主体属性信息下发到所述移动设备，由此完成交互；

具体步骤如图18所示，包括：

(1)获取触屏数据。移动端用户参与交互，选择感兴趣的位置，捕获用户选择的位置信息作为触屏数据，发送至服务器。

(2)对视频帧图像进行屏幕定位，对定位后的图像进行主体区域分割。主要方法为采用显著性检测，将用户感兴趣区域的主体进行分割。

(3)提取主体区域的特征，将主体区域的特征发送到服务器。

(4)服务器匹配主体库的特征，将匹配到的主体区域属性信息发送至移动端，完成交互。

主体识别交互模块使用的交互场景为：例如，用户在观看一台晚会的时候，想要知道某个主持人A的毕业院校和工作经历等属性，则：用户使用移动端摄像头拍摄包括该主持人的视频画面，该视频画面假设共有3名主持人，则用户需要在移动端的触摸屏上点击主持人A的画面。然后，移动端对该视频画面进行主体区域分割，可分割到3个人体轮廓；并根据触摸数据，定位到主持人A的轮廓，再提取主持人A的轮廓的特征，并发送到服务器。服务器匹配到主持人A的属性，包括毕业院校和工作经历等，并下发给移动端，由此实现移动设备和电视的互动。

所述区域交互模式，根据用户是否需要选择感兴趣区域，将此类交互模式分为两种，分别为用户与节目互动的交互以及画面内容模式的交互。其中，用户与节目互动的交互是指用户选择移动端感兴趣区域，将区域信息发送至服务器，服务器匹配移动端和电视端的区域信息，推送相应区域的节目活动；而画面内容模式的交互是指：无需用户选择感兴趣区域，当交互开始时，服务器直接推送节目活动。因此，两种模式的主要区别在于用户是否选择感兴趣的区域。

所述用户与节目互动的交互，主要针对的是有奖问答，或者选手投票等，用户根据节目列出的信息点击相应的答案，将点击的位置信息发送至服务器，服务器根据位置信息匹配电视画面，并判定属于哪一类答案。实现原理为：所述区域交互模式捕获用户选择的兴趣区域作为触屏数据，发送触屏数据至服务器；服务器根据用户点击屏幕时的本地时间t_mobile，计算出对应的视频源播放时间t_tv，根据捕获的触屏数据和视频源播放时间t_tv，匹配用户交互的结果，最后将交互结果和视频源播放时间t_tv保存到用户数据库。

具体步骤如下：

(1)视频预处理。即视频抽帧和帧图像的屏幕定位，得到处理后的视频帧。

(2)捕获触屏数据。移动端用户参与交互，选择感兴趣的区域，捕获用户所选的位置信息作为触屏数据，发送触屏数据至服务器。

(3)匹配节目活动信息。根据预校正模块中的频道ID确定用户选择的电视频道；根据时间位移信息，匹配用户点击的画面与电视端播放的画面；最后，根据捕获的触屏数据，匹配用户交互的结果，并保存到用户数据库。

(4)活动结束后，服务器端将活动的结果反馈至移动端。

所述画面内容模式的交互：此类交互无需用户选择感兴趣区域，服务端根据电视画面边框的位置信息，计算出相应节目活动的位置信息，直接在移动端进行推送，使移动客户端拍摄的电视画面与服务器推送的信息交互出现，实现增强现实的效果。即：是指：移动设备拍摄电视画面视频，抽取视频关键帧和对视频关键帧进行屏幕定位，得到处理后的视频帧；移动设备对处理后的视频帧进行分析，得到频道ID、时间位移信息和电视画面边框位置信息；移动设备将频道ID、对应帧视频源播放时间t_tv和电视画面边框位置信息发送到服务器；服务器根据电视画面边框的位置信息和视频源播放时间t_tv，计算出相应节目活动的位置信息，并直接向移动设备推送交互信息，使移动设备拍摄的电视画面与服务器推送的交互信息交互出现，实现增强现实的效果。

画面内容模式的交互具体步骤为：(1)视频预处理。即视频抽帧和帧图像的屏幕定位，得到处理后的视频帧。(2)交互。发送频道ID、时间位移信息和电视画面边框位置信息至服务器，匹配数据库中相应电视画面的节目活动信息，推送活动。(3)移动端接受活动信息。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种利用移动设备进行电视节目互动的方法，其特征在于，应用于由移动设备和服务器组成的系统中；包括以下步骤：

2.根据权利要求1所述的利用移动设备进行电视节目互动的方法，其特征在于，所述第1屏幕定位模块具体用于：

3.根据权利要求2所述的利用移动设备进行电视节目互动的方法，其特征在于，步骤3.3中，采用以下方法计算轮廓的面积：

则此轮廓的面积Area为：

Area＝(right-left)*(top-bottom)。

4.根据权利要求3所述的利用移动设备进行电视节目互动的方法，其特征在于，步骤3中，所述频道ID识别模块采用以下方法识别到播放所述原始电视画面的电视频道ID：

5.根据权利要求4所述的利用移动设备进行电视节目互动的方法，其特征在于，步骤3中，时间位移估算模块采用以下方法识别到播放所述原始电视画面的时间延迟信息：

Δt＝t_mobile-t_tv+Δt_sum

其中，Δt_sum为算法总耗时，Δt_sum＝t1+t2+t3。

6.根据权利要求5所述的利用移动设备进行电视节目互动的方法，其特征在于，步骤3中，所述实时交互模块包括：第2屏幕定位模块、主体识别交互模块和区域交互模块；

t_tv＝t_mobile+Δt_sum-Δt

记录视频帧在视频源的视频源播放时间t_tv和电视频道ID；