CN103501446A

CN103501446A - 基于手势人机交互技术的互联网电视系统及其实现方法

Info

Publication number: CN103501446A
Application number: CN201310477054.2A
Authority: CN
Inventors: 郗登振; 王淑荣; 纪燕杰
Original assignee: QINGDAO YINGTIANXIA INTELLIGENT TECHNOLOGY Co Ltd
Current assignee: QINGDAO YINGTIANXIA INTELLIGENT TECHNOLOGY Co Ltd
Priority date: 2013-10-12
Filing date: 2013-10-12
Publication date: 2014-01-08
Anticipated expiration: 2033-10-12
Also published as: CN103501446B

Abstract

本发明公开了基于手势人机交互技术的互联网电视系统及其实现方法，对互联网电视的EPG系统进行改进，所述系统包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端。EPG系统包括接收模块、控制转换模块、存储模块和人机交互操作模块，用于提供丰富的节目预告信息和灵活便利的检索引擎，帮助用户快速定位节目，浏览和查询节目信息。本发明的有益效果：在互联网电视的终端界面实现交互操作指令与界面组件一一对应的事件绑定，完成所见即所得的应用选择功能，系统支持手势的智能化操控方式，交互过程可以减少不必要的重复交互，实现灵活可控的交互效果。

Description

基于手势人机交互技术的互联网电视系统及其实现方法

技术领域

本发明涉及一种基于手势人机交互技术的互联网电视系统及其实现方法。

背景技术

互联网电视，是指利用互联网智能电视设备，通过无线或有线的公共互联网（internet），以互联网协议，传输视频、音频（包括语音）、文字、图形和数据，面向电视机用户，提供互联网应用和服务的个性化、互动性、全方位服务，包括影视音像点播、音乐欣赏、游戏、有声读物、视频通讯等。互联网智能电视设备，是指具有互联网功能的电视设备，包含互联网电视、智能电视等。它可以接入广播电视网、国际互联网和移动通讯网等网络访问内容或者参与互动。有些概念的变形，例如，互联网电视（机）、智能电视（机）、智能互联网3D电视（机）等，都是指此含义的设备。互联网电视令客厅成为人们休闲娱乐的重要方式，互动点播式的客户体验以及影院般的视听效果，令互联网电视可以替代计算机成为新型娱乐终端的代表。

互联网电视的视频、音乐、应用等多媒体内容的展示都是通过EPG（Electronic ProgramGuide，电子节目菜单）的方式在终端平台进行呈现，用户通过EPG系统与互联网电视节目平台进行交互，实现对自己喜爱的节目的点播。EPG是互联网电视区别于模拟电视的一项标志性业务，被认为是数字电视的灵魂。但目前的EPG系统的界面，其业务的索引和导航的呈现缺乏统一的布局格式，每个数字电视平台都必须自己设计和开发相关的呈现界面和交互方式，造成了大量重复性劳动，并且在人机交互方面大多数仍然停留在传统的遥控器操作的方式上，即使有个别智能化的操作出现，也由于性能不佳、响应不灵敏等因素，影响了用户体验，因此亟需一种新型的呈现界面规范，弥补传统互联网电视在界面呈现和人机交互方面的不足，带来更舒适的用户体验。

总而言之，目前需要本领域技术人员迫切解决的一个技术问题是：

第一，如何提供一种智能化、开放的、支持多业务的、具有规范布局格式的EPG系统的宽带多媒体业务平台，解决业务索引和导航缺乏统一格式的问题；

第二，如何提供一种互联网电视系统的交互特性及方法，并能够支持新型组块化的交互操作，以及运用组块交互技术原理实现的互联网电视设备，实现即见即得的交互效果，提高用户体验。

发明内容

本发明针对传统互联网电视的界面呈现以及人机交互涉及存在的问题，提出了一种基于手势人机交互技术的互联网电视系统及其实现方法，该系统重点对互联网电视的EPG系统进行改进，定义一种基于组块的UI呈现界面，将应用资源内容以组件的形式进行封装，互联网电视的终端EPG系统实现手势交互操作指令与界面组件一一对应的事件绑定，完成所见即所得的应用选择功能，交互过程可以减少不必要的重复交互，实现灵活可控的交互效果，此方法实现的互联网电视系统实现了一种新型的应用呈现布局并支持手势的智能化人机交互方式，方便用户浏览和查询节目信息，提供个性化的服务。

为了实现上述目的，本发明采用如下技术方案：

基于手势人机交互技术的互联网电视系统，包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端；

所述互联网电视节目服务平台用于提供各类型的节目内容资源和服务信息；

所述互联网电视集成平台用于提供运营和业务支撑功能；

所述互联网传输系统用于实现传输分发、网络传输、载入网络功能；

所述EPG系统，用于提供丰富的节目预告信息和灵活便利的检索引擎，并实现组块化、手势的智能化人机交互操作，帮助用户快速定位节目，浏览和查询节目信息；

所述EPG系统包括接收模块、控制转换模块、指令存储模块和手势人机交互操作模块。

所述接收模块用于接收互联网传输系统传输过来的信号，进行相应的解调和解码，得到TS码流，并将TS码流中的SI信息或数据转盘中的相应信息提取出来，生成基本节目信息，然后将生成的基本节目信息传输给控制转换模块。

所述控制转换模块用于将生成的的节目内容索引以及相关联的扩展信息转换为组块化结构形式，并将转换后的数据传输给指令存储模块；

所述指令存储模块，用于存储控制转换模块转换后的组块化结构的节目菜单信息，并定义组块指令集，存储人机交互操作模块获取的用户输入的原始信息和表征指令功能的操作信息之间的映射关系库，映射关系以关键字对应关键值的形式存在。所述映射关系库中输入指令集作为关键字存在，用于匹配用户交互操作后触发的指令信息，表征指令功能的操作信息作为关键值存在，关键字与关键值的映射为一对一或多对一的关系。

所述手势人机交互操作模块用于实现组块化的人机交互操作，检测并识别用户的输入操作指令，响应并执行该操作指令，并将操作结果反馈给互联网电视终端。人机交互操作模块还包括自适应识别模块，可以对用户的手势进行自学习，即允许用户定义不同的手势指令来作为系统中功能的操作指令，从而对前期采样得到的手势模型进行必要的校正，以进一步提高识别的准确率。

所述互联网电视终端作为互联网电视系统的硬件载体，用于提供输入、显示等设备来与用户进行交互，包括显示装置和输入装置。

所述显示装置用于对接收到的EPG信息进行解析并以组块化形式的界面进行显示；

所述输入装置用于识别用户的原始输入信息，本发明是指实现手势操作的手势感应装置。

基于手势人机交互技术的互联网电视系统所采用的交互方法，主要包括如下步骤：

步骤（1）：互联网电视节目服务平台提供各类型的节目内容资源和服务信息，通过互联网传输层的传输分发给EPG系统，互联网电视集成平台提供运营和业务支撑信息；

步骤（2）：EPG系统通过接收模块接收互联网电视节目服务平台的节目内容和节目内容索引信息以及相关联的扩展内容，所述扩展内容包括节目的内容介绍、演员的介绍、导演的介绍及节目时长；

步骤（3）：控制转换模块将接收到的节目内容索引以及相关联的扩展信息转换为组块结构形式，并在指令存储模块中存储转换后的组块结构的节目菜单信息；然后将节目菜单信息传输给互联网电视终端的显示装置，进行界面的呈现；

步骤（4）：用户的交互过程通过互联网电视终端的手势输入装置进行原始操作指令的录入；

步骤（5）：通过人机交互操作模块，进行手势人机交互输入指令的识别和检测，将识别出的用户输入指令与指令存储模块映射关系库的关键字进行匹配，判断用户输入指令是否符合预设的指令集，即是否符合映射关系库中的关键字，如果是就进入步骤（6）；如果否就进入步骤（7）；

步骤（6）：系统执行相应关键字的操作指令的功能事件，并通过终端显示装置呈现操作对应的结果界面；结束；

步骤（7）：显示错误提示信息，结束。

所述步骤（6）的操作对应的结果界面通过建立数学逻辑模型并应用算法自动生成，所述数学逻辑模型是指用树结构来表示组块界面的呈现结构，组块界面作为树状图的根结点，有两种类别的结点，分别为主区结点和辅区结点，其中主区结点为必须存在的结点，辅区结点允许根据需要作为对象容器的区存在，树结构的每一层的深度代表其所表示的结点的类型。

所述步骤（5）的手势人机交互操作模块的具体工作方法如下：

手势人机交互方法的重点是手势的识别过程，通过手势感应装置采集用户的手势动作，并通过手势处理模块检测与该手势动作匹配的组块功能，并根据手势感应装置采集到的特征点所在的位置、特征点数量、及特征点的移动方向等更新显示模块中的界面。

根据操控界面的功能性，对操控指令集进行划分，并配置操控指令与组块响应事件的映射关系，实现操控指令与界面组块一一对应的操作结果，即当触发一个操控指令时必有一个组块的事件与之匹配，产生相应的操作结果。组块指令集的划分以及配置指令与组块操作指令的映射关系、以及基本手势动作的定义请参见专利《采用手势的人机交互设备》（申请号201310120461.8）。

手势动作可划分为静态手势和动态手势。其中，静态手势的识别过程为：

步骤（5a-1）：手势采集过程：先进行手势定位，获得手势图像，并进行静态手势部位的提取，通过手势采集装置采集到手的轮廓区域。

步骤（5a-2）：特征提取过程：利用凸包的数学几何方法，获得凸包集的顶点以及顶点的坐标信息，得到表示手形状的特征轮廓，取特征轮廓的中心点O为基点，以（x0，y0）表示，x0由特征轮廓上x坐标的最大值和最小值求平均值得到，表示为x0=1/2(x_min+x_max)，y0=1/2(y_min+y_max)；求得基点和凸包上任意点Q（x1，y1）的距离值

从而得到一个以距离值r为组成单位的特征向量；对各种类型的手势采集后存储到手势特征库，并进行特征提取得到特征向量集合F；

步骤（5a-3）：对特征集合F应用K-means聚类的方法生成检索关键词词典集合D，容量为d，每个类对应的关键词g由该类内所有特征向量f取平均值得到，每一个关键词g对应一个组块的执行指令，其与组块操作指令关键值的映射关系，存储到存储模块中；

步骤（5a-4）：交互过程为用户将手放置于感应装置前，摆出手的操作姿势并保持静止，手势感应装置通过采集用户的手势姿态来进行特征提取，对于输入的待识别的静态手势指令，按照步骤（5a-1）和步骤（5a-2）的方法得到一个n维的特征向量m；

步骤（5a-5）：在关键词词典集合D中，寻找与特征向量m之间Manhattan距离最小的关键词g，如果该距离小于指定的阈值，则f为匹配的向量，其对应的指令为要执行的指令，并将m归属到该关键词对应的类中，将该类的特征描述更新为g=（D*g+m）/(d+1)。

动态手势的识别过程为：将手势的移动过程看做是动态的轨迹，并定义一个特定的时间长度t来表示动态手势之间的时间间隔，创建一个队列Q存储手势动作的序列，将手势状态添加到Q中，并且每次都检测新加入的动作是不是手势的最后状态，如果是最后状态，则检测手势的变化和运动轨迹，以确定检测结果。具体操作步骤如下：

步骤（5b-1）：创建一个以时间为标准的队列Q，定义时间间隔t，每隔t的时间，系统自动检测手势的位置和动作，将当前动作添加到队列Q中，并检测当前手势和队列中的前一个手势的匹配度，如果匹配度大于预设值，并且累积时间T<T’(动态手势时间门限)则判断为静态手势，否则为动态手势；

步骤（5b-2）：如果为动态手势，则检测最新加入的数据是不是手势最后状态，即t时间后手势是否发生变化。如果是最后状态，转到步骤（5b-4）；

步骤（5b-3）：如果不是最后状态，记录当前状态的手势动作以及位移信息，继续检测新加入的手势，重复步骤（5b-2）；

步骤（5b-4）：以当前手势为队尾从队列首开始检测，根据手势的变化和运动轨迹，判断手势是否为预设的手势指令，如果是则返回操作结果，否则提示错误信息。

本发明的有益效果：

1提供一种智能化、开放的、支持多业务的、具有规范布局格式的EPG系统的宽带多媒体业务平台，解决业务索引和导航缺乏统一格式的问题；

2应用此方法实现的互联网电视系统通过EPG系统向用户提供高质量的用户体验服务，此方法构建一种新型组块式的EPG系统的界面布局形式以及交互方式，通过一一对应的界面组件和响应事件，实现所见即所得的交互效果，适合各种业务信息以及应用资源的交互，让用户感受到智能化、人性化的娱乐享受；并给用户提供简便的操作方式，适合各类人群进行操作；

3该方法定义一种基于组块的UI呈现界面，将应用资源内容以组件的形式进行封装，通过建立数学逻辑模型，实现了一种新型的应用呈现布局和交互方式。在互联网电视的终端界面实现交互操作指令与界面组件一一对应的事件绑定，完成所见即所得的应用选择功能，交互过程可以减少不必要的重复交互，提高了响应的效率，实现灵活可控的交互效果；

4提供一种互联网电视系统的交互特性及方法，并能够支持新型组块化的交互操作，以及运用组块交互技术原理实现的手势交互的互联网电视设备，能支持单点和多点的手势操作，并进行高精度的动作识别，快速响应各类手势操作，令互联网电视具有较强的产品易用性，简化了用户选择时的操作过程，使互联网电视具有良好的用户体验。

5提供一种快速有效的静态手势和动态手势的识别方法，并结合凸包算法对静态手势进行特征提取，提高了特征提取的效率，得到的特征能够较好的反映当前手势的图像的特点，识别过程引入了关键词对特征进行描述，减少了匹配过程中多于的匹配量，加快静态手势识别速率。动态识别菜用队列对手势动作进行存储和检测，只需要判断单位时间内的动作变化和轨迹便可以快速的识别出符合预设指令的动态手势，匹配过程简易便捷，大大提高了识别的速度和效率。

附图说明

图1是互联网电视呈现界面的数学模型示意图；

图2是互联网电视系统结构图；

图3是互联网电视系统的静态手势轮廓及操作指令对应图；

图4是互联网电视系统的动态手势轨迹及操作指令对应图；

图5是系统的静态手势交互识别方法流程图；

图6是系统的动态手势交互识别方法流程图；

图7是互联网电视系统的手势交互过程流程图。

具体实施方式

如图1所示，本发明实现的互联网电视系统针对传统互联网电视的呈现和交互涉及存在的问题，提出了一种基于组块交互技术的互联网电视业务实现方法，此实现方法首先对互联网电视终端的呈现界面进行改进，定义一种基于组块的UI呈现界面，将应用资源内容以组件的形式进行封装，实现了一种新型的应用呈现布局。

所述的组块形式的界面布局内容包括：主显示区块，用以显示第一承载组块；辅显示区块，用以显示第二承载组块；所述辅显示区块位于所述主显示区块的上侧、下侧、左侧、右侧、或悬浮在上方。有多个悬浮状态的区块时，采用层次递进的形态显示，即最新弹出的悬浮状态区块总是位于界面的最前端突出显示，其他层次的界面区块通过设置层次透明度显示。

所述的系统包括初始界面和多个过程界面，初始界面和过程界面的呈现形式相同，主显示区块有九个第一承载组块，排列呈宫格形；辅显示区有九个第二承载组块，横向或纵向依次排列，每个区块内显示九个承载组块，若区块内组块超过九个时，需将第十个及以上的承载组块分页显示。

与现有公开专利中涉及到的组块界面相比，本发明中为界面定义了数学模型，并可以通过算法自动的生成初始界面和过程界面，表示方法如下：

用树结构来表示组块的界面呈现结构，组块界面作为树状图的根结点，有两种类别的五个子结点，分别为主区结点（E区结点）和辅区结点（辅区1、辅区2…辅区M），其中主区结点为必须存在的结点，辅区结点可以根据需要作为对象容器的区存在，树结构的每一层的深度代表其所表示的结点的类型。如图1所示，每一个界面（包括初始界面和过程界面）作为根结点，其层次深度为1，区结点的层次深度为2，区内组块结点的层次深度为3。

组块模型，以集合Q={q|q=（主区(组块E₁,组块E₂…组块E_n)，辅区1(组块A₁,组块A₂…组块A_n)，辅区2(组块B₁,组块B₂…组块B_n)…辅区M(组块M₁,组块M₂…组块M_n)）,其中主区≠∮，n≤9}表示，即组块界面的主区不能为空，并且每个区内含有的组块数不能超过9。另外，初始界面和过程界面得到的树结构，可以根据呈现内容自动生成，得到分配树结构的子结点。

如图2所示，基于手势人机交互技术的互联网电视系统，包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端；

所述互联网电视集成平台用于提供运营和业务支撑功能；

步骤（1）：开始，互联网电视节目服务平台提供各类型的节目内容资源和服务信息，通过互联网传输层的传输分发给EPG系统，互联网电视集成平台提供运营和业务支撑信息；

步骤（5）：通过人机交互操作模块，进行输入指令的识别和检测，将识别出的用户输入指令与指令存储模块映射关系库的关键字进行匹配，判断用户输入指令是否符合预设的指令集，即是否符合映射关系库中的关键字，如果是就进入步骤（6）；如果否就进入步骤（7）；

步骤（7）：显示错误提示信息，结束。

Step1手势采集过程：先进行手势定位，获得手势图像，并进行静态手势部位的提取，通过手势采集装置采集到手的轮廓区域。

Step2特征提取过程：利用凸包的数学几何方法，获得凸包集的顶点以及顶点的坐标信息，得到表示手形状的特征轮廓，取特征轮廓的中心点O为基点，以（x0，y0）表示，x0由特征轮廓上x坐标的最大值和最小值求平均值得到，表示为x0=1/2(x_min+x_max)，y0=1/2(y_min+y_max)；求得基点和凸包上任意点Q（x1，y1）的距离值

Step3对特征集合F应用K-means聚类的方法生成检索关键词词典集合D，容量为d，每个类对应的关键词g由该类内所有特征向量f取平均值得到，每一个关键词g对应一个组块的执行指令，其与组块操作指令关键值的映射关系，存储到存储模块中；

Step4交互过程为用户将手放置于感应装置前，摆出手的操作姿势并保持静止，手势感应装置通过采集用户的手势姿态来进行特征提取，对于输入的待识别的静态手势指令，按照step1和step2的方法得到一个n维的特征向量m；

Step5在关键词词典集合D中，寻找与特征向量m之间Manhattan距离最小的关键词g，如果该距离小于指定的阈值，则f为匹配的向量，其对应的指令为要执行的指令，并将m归属到该关键词对应的类中，将该类的特征描述更新为g=（D*g+m）/(d+1)。

如图3所示，手势轮廓提取的凸包点以及与特征轮廓的对应关系，以及特征轮廓作为关键字与组块操作指令关键值的映射关系如图所示。

Step1创建一个以时间为标准的队列Q，定义时间间隔t，每隔t的时间，系统自动检测手势的位置和动作，将当前动作添加到队列Q中，并检测当前手势和队列中的前一个手势的匹配度，如果匹配度大于预设值，并且累积时间T<T’(动态手势时间门限)则判断为静态手势，否则为动态手势。

Step2如果为动态手势，则检测最新加入的数据是不是手势最后状态，即t时间后手势是否发生变化。如果是最后状态，转到4。

Step3如果不是最后状态，记录当前状态的手势动作以及位移信息，继续检测新加入的手势，重复Step2。

Step4以当前手势为队尾从队列首开始检测，根据手势的变化和运动轨迹，判断手势是否为预设的手势指令，如果是则返回操作结果，否则提示错误信息。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于手势人机交互技术的互联网电视系统，其特征是，包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端；

所述互联网电视集成平台用于提供运营和业务支撑功能；

所述EPG系统包括接收模块、控制转换模块、指令存储模块和手势人机交互操作模块；

所述手势人机交互操作模块用于实现组块化的人机交互操作，检测并识别用户的输入操作指令，响应并执行该操作指令，并将操作结果反馈给互联网电视终端；所述人机交互操作能够通过用户的手势的信息采集进行自由定义，即允许用户定义不同的手势来表示系统中的操作功能。

2.如权利要求1所述的基于手势人机交互技术的互联网电视系统，其特征是，

所述接收模块用于接收互联网传输系统传输过来的信号，进行相应的解调和解码，得到TS码流，并将TS码流中的SI信息或数据转盘中的相应信息提取出来，生成基本节目信息，然后将生成的基本节目信息传输给控制转换模块；

所述控制转换模块用于将生成的的节目内容索引以及相关联的扩展信息转换为组块化结构形式，并将转换后的数据传输给指令存储模块。

3.如权利要求1所述的基于手势人机交互技术的互联网电视系统，其特征是，

所述指令存储模块，用于存储控制转换模块转换后的组块化结构的节目菜单信息，并定义组块指令集，存储人机交互操作模块获取的用户输入的原始信息和表征指令功能的操作信息之间的映射关系库，映射关系以关键字对应关键值的形式存在；所述映射关系库中输入指令集作为关键字存在，用于匹配用户交互操作后触发的指令信息，表征指令功能的操作信息作为关键值存在，关键字与关键值的映射为一对一或多对一的关系。

4.如权利要求1所述的基于手势人机交互技术的互联网电视系统，其特征是，

所述互联网电视终端作为互联网电视系统的硬件载体，用于提供输入、显示设备来与用户进行交互，包括显示装置和输入装置；

所述输入装置用于识别用户的原始输入信息，所述输入装置允许是手势感应装置。

5.如上述任一权利要求所述的基于手势人机交互技术的互联网电视系统所采用的交互方法，其特征是，主要包括如下步骤：

步骤（2）：EPG系统通过接收模块接收互联网电视节目服务平台的节目内容和节目内容索引信息以及相关联的扩展内容；

步骤（7）：显示错误提示信息，结束。

6.如权利要求5所述的方法，其特征是，所述步骤（6）的操作对应的结果界面通过建立数学逻辑模型并应用算法自动生成，所述数学逻辑模型是指用树结构来表示组块界面的呈现结构，组块界面作为树状图的根结点，有两种类别的结点，分别为主区结点和辅区结点，其中主区结点为必须存在的结点，辅区结点允许根据需要作为对象容器的区存在，树结构的每一层的深度代表其所表示的结点的类型。

7.如权利要求5所述的方法，其特征是，所述步骤（5）手势人机交互动作分为静态手势和动态手势。

8.如权利要求7所述的方法，其特征是，所述静态手势的识别过程为：

步骤（5a-1）：手势采集过程：先进行手势定位，获得手势图像，并进行静态手势部位的提取，通过手势采集装置采集到手的轮廓区域；

9.如权利要求7所述的方法，其特征是，所述动态手势的识别过程为：将手势的移动过程看做是动态的轨迹，并定义一个特定的时间长度t来表示动态手势之间的时间间隔，创建一个队列Q存储手势动作的序列，将手势状态添加到Q中，并且每次都检测新加入的动作是不是手势的最后状态，如果是最后状态，则检测手势的变化和运动轨迹，以确定检测结果。

10.如权利要求9所述的方法，其特征是，具体操作步骤如下：

步骤（5b-2）：如果为动态手势，则检测最新加入的数据是不是手势最后状态，即t时间后手势是否发生变化；如果是最后状态，转到步骤（5b-4）；