CN103533415A

CN103533415A - 基于声控式人机交互技术的互联网电视系统及其实现方法

Info

Publication number: CN103533415A
Application number: CN201310475355.1A
Authority: CN
Inventors: 郗登振; 王淑荣; 纪燕杰
Original assignee: QINGDAO YINGTIANXIA INTELLIGENT TECHNOLOGY Co Ltd
Current assignee: QINGDAO YINGTIANXIA INTELLIGENT TECHNOLOGY Co Ltd
Priority date: 2013-10-12
Filing date: 2013-10-12
Publication date: 2014-01-22
Anticipated expiration: 2033-10-12
Also published as: CN103533415B

Abstract

本发明公开了基于声控式人机交互技术的互联网电视系统及其实现方法，对互联网电视的EPG系统进行改进，所述系统包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端。EPG系统包括接收模块、控制转换模块、存储模块和人机交互操作模块，用于提供丰富的节目预告信息和灵活便利的检索引擎，帮助用户快速定位节目，浏览和查询节目信息。本发明的有益效果：在互联网电视的终端界面实现交互操作指令与界面组件一一对应的事件绑定，完成所见即所得的应用选择功能，系统支持声控式的智能化操控方式，交互过程可以减少不必要的重复交互，实现灵活可控的交互效果。

Description

基于声控式人机交互技术的互联网电视系统及其实现方法

技术领域

本发明涉及一种基于声控式人机交互技术的互联网电视系统及其实现方法。

背景技术

互联网电视，是指利用互联网智能电视设备，通过无线或有线的公共互联网（internet），以互联网协议，传输视频、音频（包括语音）、文字、图形和数据，面向电视机用户，提供互联网应用和服务的个性化、互动性、全方位服务，包括影视音像点播、音乐欣赏、游戏、有声读物、视频通讯等。互联网智能电视设备，是指具有互联网功能的电视设备，包含互联网电视、智能电视等。它可以接入广播电视网、国际互联网和移动通讯网等网络访问内容或者参与互动。有些概念的变形，例如，互联网电视（机）、智能电视（机）、智能互联网3D电视（机）等，都是指此含义的设备。互联网电视令客厅成为人们休闲娱乐的重要方式，互动点播式的客户体验以及影院般的视听效果，令互联网电视可以替代计算机成为新型娱乐终端的代表。

互联网电视的视频、音乐、应用等多媒体内容的展示都是通过EPG（电子节目菜单）的方式在终端平台进行呈现，用户通过EPG系统与互联网电视节目平台进行交互，实现对自己喜爱的节目的点播。EPG是互联网电视区别于模拟电视的一项标志性业务，被认为是数字电视的灵魂。但目前的EPG系统的界面，其业务的索引和导航的呈现缺乏统一的布局格式，每个数字电视平台都必须自己设计和开发相关的呈现界面和交互方式，造成了大量重复性劳动，并且在人机交互方面大多数仍然停留在传统的遥控器操作的方式上，即使有个别智能化的操作出现，也由于性能不佳、响应不灵敏等因素，影响了用户体验，因此亟需一种新型的呈现界面规范，弥补传统互联网电视在界面呈现和人机交互方面的不足，带来更舒适的用户体验。

总而言之，目前需要本领域技术人员迫切解决的一个技术问题是：

第一，如何提供一种智能化、开放的、支持多业务的、具有规范布局格式的EPG系统的宽带多媒体业务平台，解决业务索引和导航缺乏统一格式的问题；

第二，如何提供一种互联网电视系统的交互特性及方法，并能够支持新型组块化的交互操作，以及运用组块交互技术原理实现的互联网电视设备，实现即见即得的交互效果，提高用户体验。

发明内容

本发明针对传统互联网电视的界面呈现以及人机交互涉及存在的问题，提出了一种基于声控式人机交互技术的互联网电视系统及其实现方法，该系统重点对互联网电视的EPG系统进行改进，定义一种基于组块的UI呈现界面，将应用资源内容以组件的形式进行封装，互联网电视的终端EPG系统实现声控式交互操作指令与界面组件一一对应的事件绑定，完成所见即所得的应用选择功能，交互过程可以减少不必要的重复交互，实现灵活可控的交互效果，此方法实现的互联网电视系统实现了一种新型的应用呈现布局并支持声控式的智能化人机交互方式，方便用户浏览和查询节目信息，提供个性化的服务。

为了实现上述目的，本发明采用如下技术方案：

基于声控式人机交互技术的互联网电视系统，包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端；

所述互联网电视节目服务平台用于提供各类型的节目内容资源和服务信息；

所述互联网电视集成平台用于提供运营和业务支撑功能；

所述互联网传输系统用于实现传输分发、网络传输、载入网络功能；

所述EPG系统，用于提供丰富的节目预告信息和灵活便利的检索引擎，并实现组块化、声控式的智能化人机交互操作，帮助用户快速定位节目，浏览和查询节目信息；

所述EPG系统包括接收模块、控制转换模块、指令存储模块和声控式人机交互操作模块。

所述接收模块用于接收互联网传输系统传输过来的信号，进行相应的解调和解码，得到TS码流，并将TS码流中的SI信息或数据转盘中的相应信息提取出来，生成基本节目信息，然后将生成的基本节目信息传输给控制转换模块。

所述控制转换模块用于将生成的节目内容索引以及相关联的扩展信息转换为组块化结构形式，并将转换后的数据传输给指令存储模块；

所述指令存储模块，用于存储控制转换模块转换后的组块化结构的节目菜单信息，并存储与界面组块指令相匹配的声控组块指令特征值，该特征值通过采集得到的语音经系统学习并特征提取后获得，存储模块还存储组块指令特征值和表征指令功能的操作信息之间的映射关系库，映射关系以关键字对应关键值的形式存在。所述映射关系库中组块指令特征值作为关键字存在，用于匹配用户交互操作后触发的指令信息，表征指令功能的操作信息作为关键值存在，关键字与关键值的映射为一对一或多对一的关系。

所述声控式人机交互操作模块用于实现组块化的人机交互操作，包括预处理模块，特征提取模块，匹配模块，执行模块，自适应识别模块。

所述预处理模块用于对收集到的语音进行预滤波、量化去除冗余信息以及降噪处理的操作,并对语音信号进行加窗处理截取一定长度的语音信号，然后将语音信号传输给特征提取模块。

所述特征提取模块，对进行录入的语音进行特征提取，得到特征向量，并根据特征向量描述建立语音库的关键词词典，存储到指令存储模块。

所述匹配模块用于判断用户在使用过程中的输入指令在经过预处理模块和特征提取模块后，提取得到的特征向量是否属于关键词词典中的某一个关键词，并匹配与该关键词对应的操作指令，通过执行模块识别并响应并执行该操作指令，最后将操作结果反馈给互联网电视终端。

所述自适应识别模块，能够对用户的语音进行自学习，即允许用户定义不同的声音指令来作为系统中功能的操作指令，采集到声音指令后，通过特征提取模块获得自定义声音的特征，通过自适应模块与存储模块中的关键词进行比较，选择最相似的类别加入进去，并建立声音指令和操作指令一一对应的映射关系，同时对前期采样得到的声音模型进行必要的校正，以进一步提高识别的准确率。

所述互联网电视终端作为互联网电视系统的硬件载体，用于提供输入、显示设备来与用户进行交互，包括显示装置和输入装置。

所述显示装置用于对接收到的EPG信息进行解析并以组块化形式的界面进行显示；

所述输入装置用于识别用户的原始输入信息，允许是实现声音录入功能的麦克风。

基于声控式人机交互技术的互联网电视系统所采用的交互方法，主要包括如下步骤：

步骤（1）：开始，互联网电视节目服务平台提供各类型的节目内容资源和服务信息，通过互联网传输层的传输分发给EPG系统，互联网电视集成平台提供运营和业务支撑信息；

步骤（2）：EPG系统通过接收模块接收互联网电视节目服务平台的节目内容和节目内容索引信息以及相关联的扩展内容，所述扩展内容允许是节目的内容介绍、演员、导演及节目时长；

步骤（3）：控制转换模块将接收到的节目内容索引以及相关联的扩展信息转换为组块结构形式，并在指令存储模块中存储转换后的组块结构的节目菜单信息；然后将节目菜单信息传输给互联网电视终端的显示装置，进行界面的呈现；

步骤（4）：用户的交互过程通过互联网电视终端的声控输入装置进行原始操作指令的录入；

步骤（5）：通过人机交互操作模块，进行输入指令的识别和检测,判断用户输入指令是否能和映射关系库中的关键字匹配，如果是就进入步骤（6）；如果否就进入步骤（7）；

步骤（6）：系统执行相应关键字的操作指令的功能事件，并通过终端显示装置呈现操作对应的结果界面；结束；

步骤（7）：显示错误提示信息，结束。

所述步骤（6）的操作对应的结果界面通过建立数学逻辑模型并应用算法自动生成，所述数学逻辑模型是指用树结构来表示组块界面的呈现结构，组块界面作为树状图的根结点，有两种类别的结点，分别为主区结点和辅区结点，其中主区结点为必须存在的结点，辅区结点允许根据需要作为对象容器的区存在，树结构的每一层的深度代表其所表示的结点的类型。

所述步骤（5）的声控式人机交互操作模块的具体工作方法如下：

步骤（5-1）：进行语音信息的采集，由于组块界面的语音操作指令与遥控式操作的指令一一对应，因此语音信息的采集只需要对特定的遥控式操作对应的语音指令进行采集，定义了三类指令：宏观指令，组块指令以及功能指令。组块指令集的划分以及配置指令与组块操作指令的映射关系请参见专利《采用声控式的人机交互设备》（申请号201310119989.3）。

步骤（5-2）：采集后的语音指令形成语音库，对于语音库中的每个语音信号波形图，提取其每段间隔帧的值得到一个n维的特征向量f，从而得到特征向量集合F；

步骤（5-3）：对特征集合F应用K-means聚类的方法生成检索关键词词典集合D，容量为d，每个类对应的关键词g由该类内所有特征向量f取平均值得到，每一个关键词g对应一个组块的执行指令，其与组块操作指令关键值的映射关系，存储到存储模块中；

步骤（5-4）：对于输入的待识别的声音指令，同样按照步骤（5-1）和步骤（5-2）的方法得到一个n维的特征向量m；

步骤（5-5）：在关键词词典集合D中，寻找与特征向量m之间Manhattan距离最小的关键词g，如果该距离小于指定的阈值，则f为匹配的向量，其对应的指令为要执行的指令，并将m归属到该关键词对应的类中，将该类的特征描述更新为g=（D*g+m）/(d+1)。

本发明的有益效果：

1提供一种智能化、开放的、支持多业务的、具有规范布局格式的EPG系统的宽带多媒体业务平台，解决业务索引和导航缺乏统一格式的问题；

2应用此方法实现的互联网电视系统通过EPG系统向用户提供高质量的用户体验服务，此方法构建一种新型组块式的EPG系统的界面布局形式以及交互方式，通过一一对应的界面组件和响应事件，实现所见即所得的交互效果，适合各种业务信息以及应用资源的交互，让用户感受到智能化、人性化的娱乐享受；并给用户提供简便的操作方式，适合各类人群进行操作；

3该方法定义一种基于组块的UI呈现界面，将应用资源内容以组件的形式进行封装，通过建立数学逻辑模型，实现了一种新型的应用呈现布局和交互方式。在互联网电视的终端界面实现交互操作指令与界面组件一一对应的事件绑定，完成所见即所得的应用选择功能，交互过程可以减少不必要的重复交互，提高了响应的效率，实现灵活可控的交互效果；

4由于组块界面的布局的优势，声控指令不需要繁琐而庞大的指令库，只通过与界面组块对应的屈指可数的指令即可实现交互操作，因此在特征提取时也可以通过更简捷的方式获得特征向量，缩短了匹配时间，保证了匹配效率。

5组块界面的组块排列采用最多不大于9的组合形式，因此声控指令最多只需要匹配1～9的9个语音，令提取出的声音指令库容量大大减少，通过定义关键词字典，对于用户输入的声音指令，使特征提取得到的关键词更加接近于匹配结果，并且匹配声音指令的工作效率也明显提高。

6提供一种互联网电视系统的交互特性及方法，并能够支持新型组块化的交互操作，以及运用组块交互技术原理实现的声控式交互的互联网电视设备，能支持单点和多点的声控操作，并进行高精度的动作识别，快速响应各类声控操作，令互联网电视具有较强的产品易用性，简化了用户选择时的操作过程，使互联网电视具有良好的用户体验。

附图说明

图1是互联网电视呈现界面的数学模型示意图；

图2是互联网电视系统结构图；

图3是互联网电视系统的声音匹配和识别的方法步骤；

图4是互联网电视系统的声控式交互方法流程图。

具体实施方式

如图1所示，本发明实现的互联网电视系统针对传统互联网电视的呈现和交互涉及存在的问题，提出了一种基于组块交互技术的互联网电视业务实现方法，此实现方法首先对互联网电视终端的呈现界面进行改进，定义一种基于组块的UI呈现界面，将应用资源内容以组件的形式进行封装，实现了一种新型的应用呈现布局。

所述的组块形式的界面布局内容包括：主显示区块，用以显示第一承载组块；辅显示区块，用以显示第二承载组块；所述辅显示区块位于所述主显示区块的上侧、下侧、左侧、右侧、或悬浮在上方。有多个悬浮状态的区块时，采用层次递进的形态显示，即最新弹出的悬浮状态区块总是位于界面的最前端突出显示，其他层次的界面区块通过设置层次透明度显示。

所述的系统包括初始界面和多个过程界面，初始界面和过程界面的呈现形式相同，主显示区块有九个第一承载组块，排列呈宫格形；辅显示区有九个第二承载组块，横向或纵向依次排列，每个区块内显示九个承载组块，若区块内组块超过九个时，需将第十个及以上的承载组块分页显示。

与现有公开专利中涉及到的组块界面相比，本发明中为界面定义了数学模型，并可以通过算法自动的生成初始界面和过程界面，表示方法如下：

用树结构来表示组块的界面呈现结构，组块界面作为树状图的根结点，有两种类别的五个子结点，分别为主区结点（E区结点）和辅区结点（辅区1、辅区2…辅区M），其中主区结点为必须存在的结点，辅区结点可以根据需要作为对象容器的区存在，树结构的每一层的深度代表其所表示的结点的类型。如图1所示，每一个界面（包括初始界面和过程界面）作为根结点，其层次深度为1，区结点的层次深度为2，区内组块结点的层次深度为3。

组块模型，以集合Q={q|q=（主区(组块E1,组块E2…组块En)，辅区1(组块A1,组块A2…组块A n)，辅区2(组块B1,组块B2…组块Bn)…辅区M(组块M1,组块M2…组块Mn)）,其中主区≠∮，n≤9}表示，即组块界面的主区不能为空，并且每个区内还有的组块数不能超过9。另外，初始界面和过程界面得到的树结构，可以根据呈现内容自动生成，得到分配树结构的子结点。

如图2所示，基于声控式人机交互技术的互联网电视系统，包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端；

所述互联网电视集成平台用于提供运营和业务支撑功能；

所述控制转换模块用于将生成的的节目内容索引以及相关联的扩展信息转换为组块化结构形式，并将转换后的数据传输给指令存储模块；

所述声控式人机交互操作模块用于实现组块化的人机交互操作，包括预处理模块，特征提取模块，匹配模块，执行模块，自适应识别模块。其中预处理模块用于对收集到的语音进行预滤波、量化等去除冗余信息以及降噪处理的操作,并对语音信号进行加窗处理截取一定长度的语音信号。特征提取模块，对进行录入的语音进行特征提取，得到特征向量，并根据特征向量描述建立语音库的关键词词典，存储到指令存储模块。匹配模块用于判断用户输入指令提取得到的特征向量是否属于某一个关键词，并匹配与该关键词对应的操作指令，通过执行模块识别并响应并执行该操作指令，最后将操作结果反馈给互联网电视终端。另外，人机交互操作模块还包括自适应识别模块，能够对用户的语音进行自学习，即允许用户定义不同的声音指令来作为系统中功能的操作指令，采集到声音指令后，通过特征提取模块获得自定义声音的特征，通过自适应模块与存储模块中的关键词进行比较，选择最相似的类别加入进去，并建立声音指令和操作指令一一对应的映射关系，同时对前期采样得到的声音模型进行必要的校正，以进一步提高识别的准确率。

所述互联网电视终端作为互联网电视系统的硬件载体，用于提供输入、显示等设备来与用户进行交互，包括显示装置和输入装置。

所述输入装置用于识别用户的原始输入信息，本发明特指实现声音录入功能的麦克风。

如图4所示，基于声控式人机交互技术的互联网电视系统所采用的交互方法，主要包括如下步骤：

步骤（7）：显示错误提示信息，结束。

如图3所示，所述步骤（5）的声控式人机交互操作模块的具体工作方法如下：

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于声控式人机交互技术的互联网电视系统，其特征是，包括互联网电视节目服务平台、互联网电视集成平台、互联网传输系统、EPG系统以及互联网电视终端；

所述互联网电视集成平台用于提供运营和业务支撑功能；

所述EPG系统包括接收模块、控制转换模块、指令存储模块和声控式人机交互操作模块；

所述声控式人机交互操作模块用于实现组块化的人机交互操作，检测并识别用户的输入操作指令，响应并执行该操作指令，并将操作结果反馈给互联网电视终端；所述人机交互操作能够通过用户的声控的信息采集进行自由定义，即允许用户定义不同的声控指令来表示系统中的操作功能。

2.如权利要求1所述的基于声控式人机交互技术的互联网电视系统，其特征是，

所述接收模块用于接收互联网传输系统传输过来的信号，进行相应的解调和解码，得到TS码流，并将TS码流中的SI信息或数据转盘中的相应信息提取出来，生成基本节目信息，然后将生成的基本节目信息传输给控制转换模块；

所述控制转换模块用于将生成的的节目内容索引以及相关联的扩展信息转换为组块化结构形式，并将转换后的数据传输给指令存储模块。

3.如权利要求1所述的基于声控式人机交互技术的互联网电视系统，其特征是，

所述指令存储模块，用于存储控制转换模块转换后的组块化结构的节目菜单信息，并定义组块指令集，存储人机交互操作模块获取的用户输入的原始信息和表征指令功能的操作信息之间的映射关系库，映射关系以关键字对应关键值的形式存在；所述映射关系库中输入指令集作为关键字存在，用于匹配用户交互操作后触发的指令信息，表征指令功能的操作信息作为关键值存在，关键字与关键值的映射为一对一或多对一的关系。

4.如权利要求1所述的基于声控式人机交互技术的互联网电视系统，其特征是，

所述声控式人机交互操作模块用于实现组块化的人机交互操作，包括预处理模块，特征提取模块，匹配模块，执行模块，自适应识别模块；

所述预处理模块用于对收集到的语音进行预滤波、量化去除冗余信息以及降噪处理的操作,并对语音信号进行加窗处理截取一定长度的语音信号，并将语音信号传输给特征提取模块；

所述特征提取模块，对进行录入的语音进行特征提取，得到特征向量，并根据特征向量描述建立语音库的关键词词典，存储到指令存储模块；

所述匹配模块用于判断用户在使用过程中的输入指令在经过预处理模块和特征提取模块后，提取得到的特征向量是否属于关键词词典中的某一个关键词，并匹配与该关键词对应的操作指令，通过执行模块识别并响应并执行该操作指令，最后将操作结果反馈给互联网电视终端；

另外，人机交互操作模块还包括自适应识别模块，能够对用户的语音进行自学习，即允许用户定义不同的声音指令来作为系统中功能的操作指令，采集到声音指令后，通过特征提取模块获得自定义声音的特征，通过自适应模块与存储模块中的关键词进行比较，选择最相似的类别加入进去，并建立声音指令和操作指令一一对应的映射关系，同时对前期采样得到的声音模型进行必要的校正，以进一步提高识别的准确率。

5.如权利要求1所述的基于声控式人机交互技术的互联网电视系统，其特征是，

6.如权利要求5所述的基于声控式人机交互技术的互联网电视系统，其特征是，

7.如上述任一权利要求所述的基于声控式人机交互技术的互联网电视系统所采用的交互方法，其特征是，主要包括如下步骤：

步骤（2）：EPG系统通过接收模块接收互联网电视节目服务平台的节目内容和节目内容索引信息以及相关联的扩展内容；

步骤（7）：显示错误提示信息，结束。

8.如权利要求7所述的方法，其特征是，所述步骤（6）的操作对应的结果界面通过建立数学逻辑模型并应用算法自动生成，所述数学逻辑模型是指用树结构来表示组块界面的呈现结构，组块界面作为树状图的根结点，有两种类别的结点，分别为主区结点和辅区结点，其中主区结点为必须存在的结点，辅区结点允许根据需要作为对象容器的区存在，树结构的每一层的深度代表其所表示的结点的类型。

9.如权利要求7所述的方法，其特征是，所述步骤（5）的声控式人机交互操作模块的具体工作方法如下：

步骤（5-1）：进行语音信息的采集，由于组块界面的语音操作指令与遥控式操作的指令一一对应，因此语音信息的采集只需要对特定的遥控式操作对应的语音指令进行采集，定义了三类指令：宏观指令，组块指令以及功能指令；

步骤（5-3）：对特征集合F应用K-means聚类的方法生成检索关键词词典集合D，容量为d，每个类对应的关键词g由该类内所有特征向量f取平均值得到；