CN105261374A

CN105261374A - 跨媒体的情感关联方法和系统

Info

Publication number: CN105261374A
Application number: CN201510612876.6A
Authority: CN
Inventors: 宋虎; 高同庆; 王新志; 余春雨; 李志强; 丁宜辰
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2015-09-23
Filing date: 2015-09-23
Publication date: 2016-01-20

Abstract

本发明实施例提供一种跨媒体的情感关联方法和系统，该方法包括：智能电视播放一组图像，提取该组图像的底层视觉特征集合发送至服务器；服务器对底层视觉特征集合进行属性约简，将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；服务器利用情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；服务器根据确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件向所述智能电视返回；所述智能电视将返回的音频文件关联该组图像进行播放。应用本发明，实现智能电视用户在浏览图像时，自动播放适应于浏览图像意境的音频文件，提高用户体验。

Description

跨媒体的情感关联方法和系统

技术领域

本发明涉及智能电视技术领域，具体而言，本发明涉及一种跨媒体的情感关联方法和系统。

背景技术

智能电视具有全开放式平台，搭载了操作系统，可以由用户自行安装和卸载软件、游戏等第三方服务商提供的程序，拥有传统电视厂商所不具备的应用平台优势。

连接网络后，可以实现网络搜索、IP电视、视频点播(VOD)、数字音乐、网络新闻、网络视频电话等各种应用服务，带给用户更便捷的体验。例如，在智能电视中，MediaCenter等应用程序是智能电视用户进行图像浏览、音频播放、视频赏析的重要表现场景。

实际应用中，在一些平台上可以针对一段文字或一篇文章，预先设置与该文字或文章的意境相适应的背景音乐。这样，在用户浏览该段文字或该篇文章时，平台可以自动播放预先设置的背景音乐，以此提高用户体验。因此，现有在智能电视用户进行图像浏览时，可以播放针对浏览的图像所预先设置的背景音乐。

然而，本发明的发明人发现，智能电视用户浏览一组图像时，可能会出现不同意境的背景音乐，即与该组图像的整体意境不适应、不关联的背景音乐，引起智能电视用户的反感，导致用户体验不佳。

因此，有必要提供一种跨媒体的关联方法，使得在智能电视用户进行图像浏览时，能够基于准确度较高的情感识别结果为用户自动检索并播放适应于当前图像组意境的音频信息，实现不同媒体数据之间的关联。

发明内容

针对上述现有技术存在的缺陷，本发明提供了一种跨媒体的情感关联方法和系统，可以实现在智能电视用户浏览图像时，基于准确度较高的情感识别结果自动播放适应于浏览图像意境的音频文件，提高用户体验。

本发明提供了一种跨媒体的情感关联方法，包括：

智能电视播放一组图像，提取该组图像的底层视觉特征集合发送至服务器；

服务器对所述底层视觉特征集合进行属性约简，将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；

所述服务器利用所述情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；

所述服务器根据确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件向所述智能电视返回；

所述智能电视将返回的音频文件关联该组图像进行播放。

根据本发明的另一个方面，还提供了一种跨媒体的情感关联系统，包括：

智能电视，用于播放一组图像，提取该组图像的底层视觉特征集合进行网络发送；以及将接收到的音频文件关联该组图像进行播放；

服务器，用于经由网络接收到所述智能电视发送的底层视觉特征集合后，对所述底层视觉特征集合进行属性约简，将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用所述情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；根据确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件向所述智能电视返回。

根据本发明的另一个方面，还提供了一种服务器，包括：

视觉特征接收模块，用于接收智能电视发送的一组图像的底层视觉特征集合；

情感识别模块，用于对所述底层视觉特征集合进行属性约简，将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用所述情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；

音频文件查找模块，用于根据所述情感识别模块确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件，发送至所述智能电视。

根据本发明的另一个方面，还提供了一种智能终端，包括：

图像播放单元，用于在播放图像时，发送特征提取通知；

特征提取单元，用于接收到所述特征提取通知后，对当前播放的一组图像提取底层视觉特征集合；

特征发送单元，用于将所述特征提取单元提取的底层视觉特征集合发送至服务器；

关联音频播放单元，用于接收到所述服务器返回的音频文件后，将所述音频文件关联该组图像播放。

根据本发明的另一个方面，还提供了一种图像的情感识别方法，包括：

对一组图像的底层视觉特征集合进行属性约简；

将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用所述情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量，将所述情感特征向量作为该组图像的情感识别结果。

根据本发明的另一个方面，还提供了一种图像的情感识别装置，包括：

约简处理单元，用于对一组图像的底层视觉特征集合进行属性约简；

情感识别单元，用于将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用所述情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量，将所述情感特征向量作为该组图像的情感识别结果。

本发明的技术方案中，可以提取智能电视用户浏览的一组图像的底层视觉特征集合，通过对底层视觉特征集合进行属性约简，消除冗余、无关的视觉特征，得到约简后可描述该组图像的情感信息的数据；之后，根据约简后的底层视觉特征集合、以及预先训练的情感模型，确定出该组图像较为准确的情感识别结果。这样，后续可以根据该组图像的情感识别结果，来查找出与该组图像情感相关联的、适应于该组图像意境的音频文件。继而，智能电视可以播放适应于该组图像意境的音频文件，增强了适用于当前图像组的情感意境，提高智能电视用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的跨媒体的情感关联系统的结构示意图；

图2为本发明实施例的图像的情感识别方法的流程示意图；

图3为本发明实施例的跨媒体的情感关联方法的流程示意图；

图4为本发明实施例的服务器的内部结构示意图；

图5a、5b为本发明实施例的情感识别模块的内部结构示意图；

图6为本发明实施例的智能终端的内部结构示意图；

图7为本发明实施例的图像的情感识别装置的内部结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunicationsService，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(PersonalDigitalAssistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(MobileInternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明的发明人发现，现有无法播放适应于用户浏览的图像组的意境的音频信息的主要原因在于：音频和图像作为两种完全异构的媒体数据之间无法实现相应的映射关系，其跨媒体检索过程存在一定的困难性。

通常，图像组和音频信息的意境可以通过反映的情感来表征。因此，本发明的发明人考虑到，可以通过情感识别结果，来检索出与图像组具有相似的情感识别结果的音频信息，以此实现不同媒体数据之间的情感关联。

进一步地，本发明的发明人还发现，人类情感表现较为丰富，其产生的情感具有主观性、模糊性等特征，且各情感之间的界限也较为模糊。当前的研究方法中，虽然可以通过图像组的单一底层特征描述图像组的情感信息；或者，通过图像组的几种底层特征共同描述图像组的情感信息。

然而，仅仅使用单一的底层特征不能完整的描述图像的情感信息，会存在图像组的情感识别的准确度不够的不足；而几种底层特征的直接融合将会导致高维的特征空间，并存在大量的信息冗余，降低图像组的情感识别的准确度。

本发明的发明人考虑到，智能电视播放一组图像后，该组图像中每张图像的底层视觉特征其体现该组图像的情感上的权重并不完全相同，有些底层视觉特征是冗余的，或者，对于体现该组图像的情感是无关的、甚至是干扰的。

为了提高一组图像的情感识别准确度，可以对由该组图像中各图像的底层视觉特征组成的底层视觉特征集合进行属性约简，得到约简后的可准确表达该组图像的情感特征的数据。

这样，后续可以基于约简后的可准确表达该组图像的情感特征的数据，确定出该组图像的情感识别结果。继而，可以根据情感识别结果从音频数据库中查找出与该组图像情感相关联的音频文件，使得智能电视可以播放适应于该组图像意境的音频文件，增强适用于当前图像组的情感意境，从而提高智能电视用户体验。

下面结合附图详细说明本发明的技术方案。

本发明提供了一种跨媒体的情感关联系统，如图1所示，该系统可以包括：智能电视101、服务器102。

其中，智能电视101用于播放一组图像，提取该组图像的底层视觉特征集合进行网络发送。

服务器102用于经由网络接收到智能电视101发送的底层视觉特征集合后，对底层视觉特征集合进行属性约简，将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；根据确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件向智能电视返回。

继而，智能电视101可以将接收到的音频文件关联该组图像进行播放，实现播放与该组图像意境关联的背景音乐，增强了适用于该组图像的情感意境，从而提高了智能电视用户的体验。

本发明方案中，上述跨媒体的情感关联系统在进行图像与音频之间的跨媒体关联的关键在于：确定出智能电视101所播放的一组图像的情感识别结果。因此，本发明提供一种图像的情感识别方法，如图2所示，该方法流程可以包括如下步骤：

S201：对一组图像的底层视觉特征集合进行属性约简。

其中，一组图像的底层视觉特征集合可以包括该组图像的如下至少一种特征：颜色特征、纹理特征、形状特征。

实际应用中，颜色特征具体是根据提取的该组图像的色调H、饱和度S和亮度V，以及分别为色调H、饱和度S和亮度V预设的权重值计算得到的。

由于人眼的视觉系统对色调H、饱和度S和亮度V的敏感度是依次增加的，因此，可以根据色调H、饱和度S和亮度V的量化级数对三个分量取不同的权重值。其中，色调H的权重值最大，亮度V的权重值最小。例如，色调H、饱和度S和亮度V的权重值可以分别为16、4和1，这样可以大大减轻亮度V和饱和度S对颜色特征描述的影响，使得提取出的颜色特征更符合人们对颜色的心理感受。

考虑到纹理体征的六个分量(粗糙度、对比度、方向度、线像度、规整度、粗略度)中的粗糙度、对比度和方向度具有直观的视觉意义，可以直接影响人的心理和情感，因此，本发明的方案可以提取纹理的粗糙度、对比度和方向度来表示图像的纹理特征。

本发明的方案中，可以采用基于轮廓的边缘方向直方图，并用Canny算子作为边缘检测的方法，确定出图像的边缘方向角梯度相角图，以及线条方向的分布直方图，再以degree度为单位对线条方向的分布直方图进行量化、并归一化，以此得到图像的形状特征。

本发明的方案中，上述颜色特征、纹理特征、形状特征的提取方法可以采用本领域技术人员常用一般性计算方法，在此不再赘述。

本发明的方案中，可以将一组图像的底层视觉特征集合表示为X，相应地，底层视觉特征集合X中的任意一维底层视觉特征可以用x表示。

具体地，可以计算出底层视觉特征集合X的属性核CORE(X)，将属性核CORE(X)作为约简后的底层视觉特征集合，即该组图像的最优约简RED(X)；其中，属性核为底层视觉特征集合的一个子集，且与底层视觉特征集合满足不可分辨关系。

具体地，与底层视觉特征集合满足不可分辨关系的属性核，可以通过如下方式来获得：

针对底层视觉特征集合X中的每一维视觉特征x，计算出该维视觉特征对底层视觉特征集合的情感重要性Sig_X-{x}(x)。

继而，根据各维底层视觉特征对底层视觉特征集合的情感重要性的排序，计算出该底层视觉特征集合的属性核CORE(X)。例如，可以将对底层视觉特征集合的情感重要性最大的底层视觉特征确定为该底层视觉特征集合的属性核。

之后，可以判断计算出的属性核与提取的底层视觉特征集合是否满足不可分辨关系。

若计算出的属性核与提取的底层视觉特征集合满足不可分辨关系IND(CORE(X))＝IND(X)，即表明计算出的属性核与提取的底层视觉特征集合之间在情感类别上是无法区分的。也就是说，通过计算出的属性核可以较为完整的描述图像组的情感类别。因此，可以将计算出的属性核作为约简后的底层视觉特征集合，即该组图像的最优约简RED(X)，以便后续基于该组图像的最优约简RED(X)进行图像组的情感识别。

若计算出的属性核与提取的底层视觉特征集合不满足不可分辨关系，则可以进一步计算提取的底层视觉特征集合中其它维的底层视觉特征对底层视觉特征集合的情感重要性。

根据各维底层视觉特征的情感重要性的排序，依次向属性核中加入重要性最大的底层视觉特征，直至得到与底层视觉特征集合满足不可分辨关系的属性核，并将满足不可分辨关系的属性核作为约简后的底层视觉特征集合。实际应用中，当重要性最大的两维底层视觉特征的情感重要性相同时，可以优先选择将属性特征少的底层视觉特征加入属性核中。

S202：根据约简后的底层视觉特征集合，确定该组图像的情感识别结果。

具体地，可以将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别。之后，利用预先训练的情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；将确定出的情感特征向量作为该组图像的情感识别结果。

本发明的方案中，情感模型(或称情感语义空间)是预先通过属性约简后的样本训练出来的。其中，样本为训练集中图像组的底层视觉特征集合，而训练集中的图像组是已经过情感识别的图像组，即训练集中的图像组的情感类别是已知的。例如，可以在对样本应用粗糙集理论的属性约简算法把冗余和不相关的属性删除后，利用约简后的样本，以及样本的情感识别结果，来训练SVM支持向量机，得到情感模型。

进一步地，可以通过预先设置的测试集对训练出的情感模型进行测试调整，保障训练出的情感模型的识别准确度。其中，测试集中的图像组的情感识别结果是预先确定的。

这样，后续可以将通过步骤S201约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别C＝{c₁，c₂，……c_i，……c_n}。继而，对于该组图像的情感类别中的每个情感特征，利用约简后的底层视觉特征集合中的各维底层视觉特征、以及情感模型中情感特征与各维底层视觉特征之间的相关系数，确定出该情感特征的情感数值v_i。

组合情感类别中各情感特征的情感数值，构成该组图像的情感类别相应的情感特征向量V＝{v1，v2，……v_i，……v_n}，以此得到该组图像的情感识别结果。

其中，情感模型可以表示为：SP_c表示情感特征c的情感数值；F_j表示底层视觉特征j的向量，表示情感特征c与底层视觉特征F_j之间的相关系数R_cj。

相比现有基于单一的底层视觉特征来描述图像组的情感，本发明提供的图像的情感识别方法中，基于颜色特征、纹理特征、形状特征等组成的底层视觉特征集合能够更加完整的描述图像组的情感；而且，相比于现有将几种底层视觉特征直接融合导致高维特征空间，并存在大量的信息冗余，本发明提供的图像的情感识别方法中，对提取的底层视觉特征集合进行属性约简，消除冗余的、无关的底层视觉特征对图像组的情感影响，提高了图像组的情感描述的准确性，即提高了图像组的情感识别结果的准确度。

基于上述图像的情感识别方法，本发明的方案中，如图3所示，跨媒体的情感关联系统可以通过如下步骤进行图像与音频之间的跨媒体关联：

S301：智能电视播放一组图像，提取该组图像的底层视觉特征集合发送至服务器。

实际应用中，智能电视用户浏览一组图像时，智能电视可以在后台自动处理该组图像的信息，并将该组图像的信息发送给云计算环境中，比如服务器。

具体地，智能电视播放一组图像，提取该组图像的用户感兴趣区域的底层视觉特征。例如，可以提取该组图像如下至少一种特征：颜色特征、纹理特征、形状特征，构成该组图像的底层视觉特征集合，并将提取的该组图像的底层视觉特征集合发送至服务器。

S302：服务器根据接收的底层视觉特征集合确定该组图像的情感识别结果。

本发明的方案中，服务器接收到智能电视发送的一组图像的底层视觉特征集合之后，可以根据接收的底层视觉特征集合确定该组图像的情感识别结果。

具体地，服务器可以参照上述图2流程所示的图像的情感识别方法，确定出一组图像的情感识别结果。

比如，服务器可以计算出底层视觉特征集合的属性核，将属性核作为约简后的底层视觉特征集合。其中，属性核为底层视觉特征集合的一个子集，且与底层视觉特征集合满足不可分辨关系。

继而，服务器可以将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；将情感特征向量作为该组图像的情感识别结果。

具体地，服务器可以将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；对于该组图像的情感类别中的每个情感特征，利用约简后的底层视觉特征集合中的各维底层视觉特征、以及情感模型中情感特征与各维底层视觉特征之间的相关系数，确定出该情感特征的情感数值；组合情感类别中各情感特征的情感数值，构成该组图像的情感特征向量之后，将得到的情感特征向量作为该组图像的情感识别结果。

本发明的方案中，情感模型是预先通过属性约简后的样本训练出来的；其中，样本为训练集中图像组的底层视觉特征集合，训练集中的图像组是已经过情感识别的图像组。

S303：服务器根据情感识别结果，从音频数据库中查找出与该组图像情感相关联的音频文件向智能电视返回。

具体地，服务器可以根据确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件向所述智能电视返回。例如，服务器可以根据情感识别结果，计算该组图像的情感特征向量，分别与各音频文件的情感特征向量之间的相似度；之后，根据计算结果选取出与该组图像情感相关联的音频文件。比如，可以选取出与该组图像的情感特征向量的相似度最高的音频文件作为与该组图像情感相关联的音频文件。

进一步地，服务器可以将选取出的与该组图像情感相关联的音频文件向智能电视返回。这样，采用图像与音频两种异构数据在情感上的相似度，可以实现不同媒体数据之间的关联和检索。

S304：智能电视将返回的音频文件关联该组图像进行播放。

具体地，智能电视在接收到服务器返回的与当前播放的一组图像情感相关联的音频文件之后，可以将返回的音频文件关联该组图像进行播放，以此实现完成图像与音频之间的跨媒体关联和检索，并通过检索并播放与当前播放的一组图像意境强关联的背景音乐，增强了适用于当前图像组的情感意境，提高智能电视用户体验。

本发明的方案中，基于上述提供的跨媒体的情感关联方法，本发明还提供了一种服务器，如图4所示，该服务器可以包括：视觉特征接收模块401、情感识别模块402、以及音频文件查找模块403。

其中，视觉特征接收模块401用于接收智能电视发送的一组图像的底层视觉特征集合。

情感识别模块402用于对底层视觉特征集合进行属性约简，将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量。

音频文件查找模块403用于根据情感识别模块402确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件，发送至智能电视。

其中，如图5a所示，情感识别模块402可以包括：约简处理单元501、以及情感识别单元502。

其中，约简处理单元501用于对一组图像的底层视觉特征集合进行属性约简。

具体地，约简处理单元501可以计算出底层视觉特征集合的属性核，将属性核作为约简后的底层视觉特征集合；其中，属性核为底层视觉特征集合的一个子集，且与底层视觉特征集合满足不可分辨关系。

例如，约简处理单元501可以针对底层视觉特征集合X中的每一维视觉特征x，计算出该维视觉特征对底层视觉特征集合的情感重要性Sig_X-{x}(x)。继而，根据各维底层视觉特征对底层视觉特征集合的情感重要性的排序，计算出该底层视觉特征集合的属性核CORE(X)。比如，可以将对底层视觉特征集合的情感重要性最大的底层视觉特征确定为该底层视觉特征集合的属性核。

之后，约简处理单元501可以判断计算出的属性核与提取的底层视觉特征集合是否满足不可分辨关系。

约简处理单元501可以根据各维底层视觉特征的情感重要性的排序，依次向属性核中加入重要性最大的底层视觉特征，直至得到与底层视觉特征集合满足不可分辨关系的属性核，并将满足不可分辨关系的属性核作为约简后的底层视觉特征集合。

本发明的方案中，情感识别单元502用于根据约简后的底层视觉特征集合，确定该组图像的情感识别结果。

具体地，情感识别单元502可以将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；将情感特征向量作为该组图像的情感识别结果。

例如，情感识别单元502可以将约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别。继而，对于该组图像的情感类别中的每个情感特征，情感识别单元502利用约简后的底层视觉特征集合中的各维底层视觉特征、以及情感模型中情感特征与各维底层视觉特征之间的相关系数，确定出该情感特征的情感数值；组合情感类别中各情感特征的情感数值，构成该组图像的情感特征向量，并将情感特征向量作为该组图像的情感识别结果。

进一步地，如图5b所示，情感识别模块402还可以包括：模型训练单元503。

模型训练单元503用于通过属性约简后的样本训练出情感模型。

其中，样本为训练集中图像组的底层视觉特征集合，训练集中的图像组是已经过情感识别的图像组。

本发明的方案中，基于上述提供的跨媒体的情感关联方法，本发明还提供了一种智能终端。如图6所示，智能终端可以包括：图像播放单元601、特征提取单元602、特征发送单元603、以及关联音频播放单元604。

其中，图像播放单元601用于在播放图像时，发送特征提取通知。

特征提取单元602用于接收到图像播放单元601发送的特征提取通知后，对当前播放的一组图像提取底层视觉特征集合。

其中，特征提取单元602提取的底层视觉特征集合可以包括如下至少一种特征：颜色特征、纹理特征、形状特征。

而颜色特征具体是根据提取的该组图像的色调、饱和度和亮度，以及分别为色调、饱和度和亮度预设的权重值计算得到的；其中，色调的权重值最大，亮度的权重值最小。

特征发送单元603用于将所述特征提取单元提取的底层视觉特征集合发送至服务器。

关联音频播放单元604用于接收到服务器返回的音频文件后，将音频文件关联该组图像播放。

本发明的方案中，基于上述提供的图像的情感识别方法，本发明还提供了一种图像的情感识别装置，如图7所示，该装置包括：约简处理单元701、以及情感识别单元702。

其中，约简处理单元701用于对一组图像的底层视觉特征集合进行属性约简。

具体地，约简处理单元701可以计算出一组图像的底层视觉特征集合的属性核，将属性核作为约简后的底层视觉特征集合。其中，属性核为所述底层视觉特征集合的一个子集，且与底层视觉特征集合满足不可分辨关系。

情感识别单元702用于根据约简后的底层视觉特征集合，确定该组图像的情感识别结果。

具体地，情感识别单元702可以将约简处理单元701约简后的底层视觉特征集合输入预先训练的情感模型，得到该组图像的情感类别；利用情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量；将情感特征向量作为该组图像的情感识别结果。

进一步地，图像的情感识别装置还可以包括：模型训练单元703。

模型训练单元703用于通过属性约简后的样本训练出情感模型。

本发明的方案中，上述图像的情感识别装置、智能终端、服务器中的模块、单元的具体功能实现可以参考上述提及的图像的情感识别方法、以及跨媒体的情感关联方法中各步骤的具体实现。

本发明的方案中，可以提取智能电视用户浏览的一组图像的底层视觉特征集合，通过对底层视觉特征集合进行属性约简，消除冗余、无关的视觉特征，得到约简后可描述该组图像的情感信息的数据；之后，根据约简后的底层视觉特征集合、以及预先训练的情感模型，确定出该组图像较为准确的情感识别结果。这样，后续可以根据情感识别结果从音频数据库中查找出与该组图像情感相关联的音频文件，实现图像与音频之间的跨媒体关联，使得智能电视可以播放适应于该组图像意境的音频文件，增强了适用于当前图像组的情感意境，提高智能电视用户体验。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory，只读存储器)、RAM(RandomAccessMemory，随即存储器)、EPROM(ErasableProgrammableRead-OnlyMemory，可擦写可编程只读存储器)、EEPROM(ElectricallyErasableProgrammableRead-OnlyMemory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种跨媒体的情感关联方法，其特征在于，包括：

所述智能电视将返回的音频文件关联该组图像进行播放。

2.根据权利要求1所述的方法，其特征在于，所述对所述底层视觉特征集合进行属性约简，具体包括：

计算出所述底层视觉特征集合的属性核；

将所述属性核作为约简后的底层视觉特征集合；

其中，所述属性核为所述底层视觉特征集合的一个子集，且与所述底层视觉特征集合满足不可分辨关系。

3.根据权利要求1所述的方法，其特征在于，所述情感模型是预先通过属性约简后的样本训练出来的；

其中，所述样本为训练集中图像组的底层视觉特征集合，所述训练集中的图像组是已经过情感识别的图像组。

4.根据权利要求1所述的方法，其特征在于，所述利用所述情感模型，以及得到的情感类别进一步确定与输入的约简后的底层视觉特征集合相应的情感特征向量，具体包括：

对于该组图像的情感类别中的每个情感特征，利用约简后的底层视觉特征集合中的各维底层视觉特征、以及所述情感模型中情感特征与各维底层视觉特征之间的相关系数，确定出该情感特征的情感数值；

组合所述情感类别中各情感特征的情感数值，构成该组图像的情感特征向量。

5.根据权利要求1所述的方法，其特征在于，所述服务器根据确定的情感特征向量，从音频数据库中查找出与该组图像情感相关联的音频文件，具体包括：

所述服务器计算该组图像的情感特征向量，分别与各音频文件的情感特征向量之间的相似度；

所述服务器根据计算结果选取出与该组图像情感相关联的音频文件。

6.一种跨媒体的情感关联系统，其特征在于，包括：

7.一种服务器，其特征在于，包括：

8.一种智能终端，其特征在于，包括：

图像播放单元，用于在播放图像时，发送特征提取通知；

9.一种图像的情感识别方法，其特征在于，包括：

对一组图像的底层视觉特征集合进行属性约简；

10.一种图像的情感识别装置，其特征在于，包括：