CN111078902A

CN111078902A - 显示装置及其操作方法

Info

Publication number: CN111078902A
Application number: CN201910982526.7A
Authority: CN
Inventors: 阿南特·拜加尔; 玄大殷; 权美呈; 郑强一; 郑昇渊; 韩栋旭
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-10-22
Filing date: 2019-10-15
Publication date: 2020-04-28
Also published as: WO2020085641A1; EP3644616A1; US11120290B2; US20200125886A1

Abstract

提供了一种显示装置，包括：显示器；存储器，存储一个或多个指令；以及处理器，被配置为执行存储在存储器中的所述一个或多个指令以进行下列操作：选择要在显示器上显示的图像，通过使用至少一个神经网络，对图像的类别进行分类，根据图像的类别获得图像的语义信息，通过分析图像获得与图像相对应的情感信息；基于图像的语义信息和与图像相对应的情感信息，确定要与所述图像一起输出的音频，以及在显示图像的同时输出音频。

Description

显示装置及其操作方法

相关申请的交叉引用

本申请基于并要求于2018年10月22日向韩国知识产权局提交的韩国专利申请No.10-2018-0126305以及于2019年4月23日向韩国知识产权局提交的韩国专利申请No.10-2019-0047516的优先权，其公开内容通过引用整体并入本文。

技术领域

本公开涉及显示装置及其操作方法，更具体地，涉及适应于显示在显示装置上的图像来提供音乐的显示装置，以及操作该显示装置的方法。

背景技术

图像显示装置在显示器上显示可以由用户从广播站发送的广播信号中选择的广播。数字广播表示传送数字图像和语音信号的广播。而且，数字广播使得能够进行双向服务。

智能电视(TV)除了数字广播功能之外还提供各种类型的内容。智能电视旨在无需用户操作的情况下分析并提供用户所期望的内容，而不是根据用户选择进行手动操作。

与现有的基于规则的智能系统不同，人工智能(AI)系统是实现人类水平智能的计算机系统，是机器自行训练、作出决定并变得更加智能的系统。

发明内容

提供了一种显示装置以及该显示装置的操作方法，该显示装置通过在显示装置显示图像期间适应于图像推荐或确定音频，并且随图像显示一起提供与图像的印象相似的音频，来最大化用户的审美体验。

附加方面部分地将在接下来的描述中阐述，且部分地将通过该描述而变得清楚明白，或者可以通过对本公开所呈现实施例的实践来获知。

根据本公开的方面，显示装置包括：显示器；存储器，存储一个或多个指令；以及处理器，被配置为执行存储在存储器中的一个或多个指令以进行下列操作：选择要在显示器上显示的图像；通过使用至少一个神经网络，对图像的类别进行分类并根据图像的分类类别获得图像的语义信息；通过分析图像获得与图像相对应的情感信息；基于图像的语义信息和与图像相对应的情感信息，确定要随图像一起输出的音频；以及在显示所选择的图像的同时输出所确定的音频。

处理器还可以被配置为执行一个或多个指令以进行下列操作：从图像中提取特征；通过使用图像特征来确定图像的类别是照片还是艺术品；响应于图像的类别为照片，通过确定与照片相对应的多个语义风格中的至少一个语义风格来获得语义信息；以及响应于图像的类别为艺术品，通过确定与艺术品相对应的多个语义风格中的至少一个语义风格来获得语义信息。

处理器还可以被配置为执行一个或多个指令以进行下列操作：通过使用与图像的语义数据相对应的元数据表来获得与图像的语义数据相对应的音频语义元数据；通过使用与图像的情感数据相对应的元数据表来获得与图像的情感数据相对应的音频情感元数据；以及基于音频语义元数据和音频情感元数据来确定要随所选择的图像一起输出的音频。

处理器还可以被配置为执行一个或多个指令以进行下列操作：将音频语义元数据和音频情感元数据发送给音乐服务提供服务器；以及从音乐服务提供服务器接收基于音频语义元数据和音频情感元数据确定的音频。

处理器还可以被配置为执行一个或多个指令以进行下列操作：基于音频语义元数据和音频情感元数据配置声音；以及将配置的声音与确定的音频进行混合。

处理器还可以被配置为执行一个或多个指令以进行下列操作：获得关于对显示器上显示的图像和输出音频的反应的用户交互信息；以及通过使用用户交互信息来更新与语义信息相对应的元数据表或与情感信息相对应的元数据表中的至少一个。

处理器还可以被配置为执行一个或多个指令以进行下列操作：接收用户关于要随所选择的图像一起输出的音频的手动选择；提取由用户手动选择的音频的元数据；以及通过使用图像的元数据和关于图像手动选择的视频的元数据来更新与语义信息相对应的元数据表或与情感信息相对应的元数据表中的至少一个。

处理器还可以被配置为执行一个或多个指令以进行下列操作：获得包括显示设备周围的环境信息的系统元数据；以及与语义信息和情感信息一起进一步基于系统元数据来确定音频。

系统元数据可以包括以下至少一项：安装显示装置的地点、安装显示装置的地点的天气、或输出图像的时间。

处理器还可以被配置为执行一个或多个指令以进行下列操作：获得有关对显示器上显示的图像和输出音频的反应的用户交互信息；以及与语义信息和情感信息一起进一步基于用户交互信息来更新音频。

处理器还可以被配置为执行一个或多个指令以提取图像的特征并基于所提取的图像特征来处理所确定的音频，或以提取所确定的音频的特征并基于所提取的音频特征来处理图像。

根据本公开的方面，一种显示装置的操作方法，所述操作方法包括：选择要在显示器上显示的图像；通过使用至少一个神经网络，对图像的类别进行分类，根据图像的分类类别获得图像的语义信息，并且通过分析图像来获得与图像相对应的情感信息；基于图像的语义信息和与图像相对应的情感信息，确定要随图像一起输出的音频；以及在显示所选择的图像的同时输出所确定的音频。

根据本公开的方面，一种计算机程序产品包括具有其上记录有用于执行显示装置的操作方法的计算机可读记录介质，其中所述操作方法包括：选择要在显示器上显示的图像；通过使用至少一个神经网络，对图像的类别进行分类，根据图像的分类类别获得图像的语义信息，并且通过分析图像来获得与图像相对应的情感信息；基于图像的语义信息和与图像相对应的情感信息，确定要随图像一起输出的音频；以及在显示所选择的图像的同时输出所确定的音频。

附图说明

根据结合附图的以下描述，本公开的特定实施例的上述和其它方面、特征以及优点将更清楚，在附图中：

图1是根据实施例的具有环境模式或相框模式的显示装置的图示；

图2是根据实施例的显示装置的配置的框图；

图3是根据实施例的显示装置的配置的框图；

图4是根据实施例的显示装置的配置的框图；

图5是根据实施例的显示装置的配置的框图；

图6是根据实施例的根据显示在显示器上的图像自适应地确定音频并输出音频的方法的流程图；

图7是根据实施例的显示装置的操作的示例的框图；

图8是根据实施例的显示装置的操作的示例的框图；

图9是根据实施例的从图像中获得语义风格和情感配置的方法的图；

图10是根据实施例的根据类别对图像进行分类并根据每个类别中的语义风格对图像进行分类的示例的图；

图11示出了根据实施例的效价-激励模型中的情感配置的示例；

图12是示出了根据实施例的从图像中学习与图像特征相对应的元数据的神经网络的示例的图；

图13A是示出了根据实施例的通过使用神经网络从图像中获得元数据的图；

图13B是示出了根据实施例的通过使用神经网络从图像中提取类别的图；

图13C是示出了根据实施例的通过使用神经网络从图像中提取语义风格的图；

图13D是示出了根据实施例的通过使用神经网络从图像中提取情感信息的图；

图14A和图14B是根据实施例的将图像元数据转换为音频元数据的方法的图；

图15示出了根据实施例的图像-音频语义关联表的示例；

图16示出根据实施例的图像-音频情感配置关联表的示例；

图17是根据实施例的基于图像的音频元数据来获得适合于图像的音频的方法的框图；

图18是示出了根据实施例的通过使用图像的音频元数据来学习推荐音频的神经网络的示例的图；

图19是根据实施例的使用系统元数据来确定要与显示装置上显示的图像一起输出的音乐；

图20A和图20B是根据实施例的在图像-音频语义关联表和图像-音频情感配置关联表上反映系统元数据的方法的图；

图21示出了根据实施例的其上反映了系统元数据的图像-音频语义关联表的示例；

图22示出了根据实施例的其上反映了系统元数据的图像-音频情感配置关联表的示例；

图23是根据实施例的使用用户交互元数据来确定要与显示装置上显示的图像一起输出的音乐的方法的框图；

图24是示出了根据实施例的用于显示装置的用户交互方法的示例的图；

图25是根据实施例的反映显示装置中的用户交互过程的示例的图；

图26A和图26B是根据实施例的在图像-音频关联表上反映用户交互信息的方法的图；

图27是根据实施例的在图像-音频情感配置关联表上反映用户交互信息的方法的图；

图28是根据实施例的动态更新图像-音频关联表的方法的示例的图；

图29是根据实施例的由显示装置对要显示的图像和推荐的音乐执行审美处理的方法的示例的图；

图30A是根据实施例的对要显示的图像执行审美处理的显示装置的图；

图30B是根据实施例的对要输出的音频执行审美处理的显示装置的图；

图31是根据实施例的对输入图像执行各种多媒体审美处理的示例的图；

图32A是根据实施例的执行图像音频混合式审美处理的显示装置的图；

图32B是根据实施例的执行图像音频混合式审美处理的显示装置的图；

图33是根据实施例的对静态图像进行动态照片化的示例的图；

图34示出了根据实施例的确定要适应于显示装置上显示的图像而输出的音乐的操作的示例；

图35示出了根据实施例的确定要适应于显示装置上显示的图像而输出的音乐的操作的示例；

图36示出了根据实施例的确定要适应于显示装置上显示的图像而输出的音乐的操作的示例；

图37是根据实施例的处理器的配置的框图；

图38是根据实施例的显示装置和服务器彼此交互以学习和识别数据的示例的图；

图39是根据实施例的用于适应于图像来提供音乐服务的系统的框图；

图40A是相关技术卷积神经网络的一部分的图；

图40B是示出了根据实施例的残差学习的图；

图41是示出了根据实施例的残差网络-50模型的微调的框图；以及

图42是示出了根据实施例的根据具有热重启的随机梯度下降的学习率调度的图。

具体实施方式

将简要定义说明书中所使用的术语，并且将详细描述本公开。

本文使用的包括描述性或技术性术语在内的所有术语应被解释为具有对于本领域普通技术人员显而易见的含义。然而，根据本领域普通技术人员的意图、先例或新技术的出现，这些术语可以具有不同的含义。而且，申请人可以任意选择一些术语，并且在这种情况下，将在本公开的具体实施方式中详细描述所选择的术语的含义。因此，必须基于术语的含义以及整个说明书中的描述来定义本文中所使用的术语。

而且，当部件“包括”或“包含”元件时，除非有相反的具体描述，否则该部件还可以包括其他元件，而不排除其他元件。在下面的描述中，诸如“单元”和“模块”之类的术语表示用于处理至少一个功能或操作的单元，其中单元和块可以被具体实现为硬件或软件，或者可以通过组合硬件和软件来具体实现。

现在将参考附图更全面地描述一个或多个实施例。然而，一个或多个实施例可以以许多不同的形式来具体实现，并且不应该被解释为限于本文所阐述的实施例。在下面的描述中，不会描述公知的功能或结构，因为它们会以非必要的细节导致一个或多个实施例晦涩且不易理解，并且在整个说明书中，相像的附图标记表示相像或相似的元件。

在整个公开中，表述“a、b或c中的至少一个”表示仅a，仅b，仅c，a和b两者，a和c两者，b和c两者，a、b和c的全部或其变体。

在一个或多个实施例中，术语“用户”指通过使用控制设备控制图像显示装置的功能或操作的人，并且可以包括观看者、管理者或安装工程师。

数字屏幕或数字电视(DTV)可以通过装饰性内容(例如个人照片、艺术品、天气预报、天气信息或在背景中播放的音乐)补充消费者的生活方式，从而提供附加价值并改善审美体验。可以在被称为“环境模式”或“相框模式”的专用屏幕模式下提供这种功能。

根据实施例，通过使用“屏幕”的技术能力来吸引人类的视觉和听觉来自然而然地创造审美体验。动态屏幕旨在通过审美地“组合”的图像和声音来为消费者提供独特的服务而增加和增强对视觉和听觉的识别。

实施例涉及感知多媒体分析、感知多媒体推荐、感知多媒体合成和感知多媒体处理。术语“多媒体”适用于图像和声音/音频领域二者。具体地，实施例处于图像领域与声音领域的交叉点，并且通过各种创造性实现将图像领域连接到声音领域，为消费产品增加价值并改善人们的生活。根据实施例的概念也可以被称为“动态屏幕”。

随着AI系统的使用，识别率得以提高，并且AI系统可以进一步准确地了解用户的品味。

AI技术包括机器学习(深度学习)和使用机器学习的元素技术。机器学习是自身对输入数据的特征进行分类和学习的算法技术，并且包括多种技术领域，比如使用诸如深度学习的机器学习算法的语言理解、视觉理解、推导或预测、知识表征和操作控制。

知识表征是将经验信息自动处理为知识数据的技术，并且包括知识构建(数据生成或分类)、知识管理(数据应用)等。操作控制是用于控制交通工具的自动驾驶或机器人的运动的技术，并且包括运动控制(导航、碰撞避免、驾驶)或操纵控制(行为控制)。

壁挂式电视可以用于改善安装电视的环境的室内设计，并且相框类型电视可提供相框式审美。

图1是根据实施例的具有环境模式或相框模式的显示装置的图；

参考图1，显示装置100设置在墙壁表面10上。根据实施例的显示装置100可以在根据用户输入显示内容的显示装置100的正常操作模式以外的状态下，通过使用显示装置100的显示器来显示一个或多个图像20。例如，显示装置100可以在环境模式下在显示器上显示墙壁表面10的背景图像，显示天气信息，显示用户的个人照片或显示艺术品。而且，当要选择要在环境模式下显示在显示器上的照片或艺术品时，显示装置100可以自行选择照片或艺术品或可以接收来自用户的选择。显示装置100可以在显示照片或艺术品的同时通过提供适合于所显示的照片或艺术品的音频来进一步增强用户体验。因为听觉体验与视觉体验相结合可以最大化用户的显示体验，所以可以提供最适合在显示装置100上显示的图像的音频，比如音乐或声音。

图2是根据实施例的显示装置100的配置的框图。

参考图2，显示装置100可以包括存储器110、处理器120、显示器130和音频输出设备140。然而，显示装置100可以包括比图2中所示的组件更多的组件，并且不限于上述组件。

根据实施例的存储器110可以存储用于处理器120的处理和控制的程序，并且可以存储输入到显示装置100或从显示装置100输出的数据。

存储器110可以包括以下至少一种类型的存储介质：闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如，安全数字(SD)或极速数字(XD)存储器)、随机存取存储器(RAM)类型、静态随机存取存储器(SRAM)类型、只读存储器(ROM)类型、电可擦除可编程只读存储器(EEPROM)类型、可编程只读存储器(PROM)类型、磁存储器类型、磁盘类型或光盘类型。

根据实施例的处理器120可以通过利用使用至少一个神经网络的训练模型来分析在显示器130上显示的图像的特征，获得与图像特征相对应的音频，并且输出音频。

根据实施例，处理器120可以通过执行存储在存储器110中的一个或多个指令来控制上述操作。在这种情况下，存储器110可以存储处理器120可执行的一个或多个指令。

根据实施例，处理器120可以将一个或多个指令存储在其自身中设置的存储器中，并且通过执行存储在其自身中设置的存储器中的一个或多个指令来控制上述操作。换言之，处理器120可以通过执行存储在存储器110中或设置在处理器120中的内部存储器中的至少一个指令或程序来执行特定操作。

处理器120控制显示装置100的全部操作。例如，处理器120可以通过执行存储在存储器110中的一个或多个指令来控制显示器130并执行图1至图14中所示的显示装置100的功能。

而且，在图2中，示出了一个处理器120，但是可以设置多个处理器。在这种情况下，根据实施例的由显示装置执行的操作均可以由多个处理器中的至少一个来执行。

根据实施例的处理器120可以通过使用至少一个神经网络，获得要在显示器130上显示的图像的图像元数据，获得与图像元数据相对应的音频元数据，基于所获得的音频元数据确定要随图像输出的音频，并且在显示图像的同时输出所确定的音频。处理器120可以提取图像特征，通过使用提取的特征对图像的类别进行分类，并且根据图像的分类类别获得图像的语义信息。图像的类别可以包括例如照片或艺术品。换言之，与照片类别相对应的语义风格和与艺术品类别相对应的语义风格是可区别地存在的。处理器120可以通过分析图像来获得图像的情感信息。

这样，在确定适合于要在显示装置100上显示的图像的音频的同时，可以通过以下操作进一步自适应地和精细地确定音频：对图像的类别进行分类，根据分类类别获得语义信息，并且使用语义信息来确定音频。例如，通过区分当图像是照片时获得的语义信息和当图像是艺术品时获得的语义信息，可以确定进一步适合于图像类别的音频。

根据实施例，处理器120可以通过使用图像-音频语义关联表和图像-音频情感配置关联表来获得分别与图像的图像语义信息和图像情感信息相对应的音频语义信息和音频情感信息，并且确定与音频语义信息和音频情感信息相对应的音频。

根据实施例，处理器120还可以将包括显示装置100的环境信息的系统元数据反映到图像-音频语义关联表和图像-音频情感配置关联表。

这样，可以在确定适合于要在显示装置100上显示的图像的音频的同时，通过进一步使用显示装置100的环境信息来进一步自适应地和精细地确定音频。例如，即使对于相同的图像，也可以基于在显示装置100上显示图像的时间是早晨还是晚上来不同地确定音频，因此可以针对输出图像的环境进一步适当地确定音频。

根据实施例，处理器120还可以将与对显示在显示器130上的图像和针对该图像推荐的输出音频的反应有关的用户交互信息反映到图像-音频语义关联表和图像-音频情感配置关联表。

这样，可以在确定适合于要在显示装置100上显示的图像的音频的同时通过进一步使用用户交互信息来进一步自适应地和精细地确定音频。例如，即使对于相同的图像，当用户的反应是正面的时候，可以进一步推荐与关于图像而确定的音频相似的音频，而当用户的反应是负面的时候，可以限制与关于图像而确定的音频相似的音频的推荐。

根据实施例，处理器120可以通过使用确定的音频的特征对要在显示器130上显示的图像执行审美处理，或者可以通过使用图像特征对要通过音频输出装置140输出的音频进行审美处理。

这样，通过使用确定的音频的特征来对要在显示器130上显示的图像执行审美处理，或者通过使用图像的特征来对要通过音频输出设备140输出的音频执行审美处理，可以提供图像或音频来进一步增强关于音频和图像的交互的协同效应。

当显示器130包括触摸屏时，显示器130除输出设备之外还可以作为输入设备。例如，显示器130可以包括以下至少一项：液晶显示器、薄膜晶体管-液晶显示器、有机发光二极管显示器、柔性显示器、3D显示器或电泳显示器中的至少一种。根据显示装置100的类型，显示装置100可以包括至少两个显示器130。

音频输出设备140可以在图像显示在显示器130上的同时输出针对图像自适应地确定的音频。音频可以包括音乐、声音、语音等。

图3是根据实施例的显示装置100的配置的框图。

在图3中，用相同的附图标记标示与图2的组件相同的组件。因此，显示装置100的描述中省略了先前参考图1和图2给出的描述。参考图3，显示装置100还可以包括通信器150和用户接口190。

通信器150可以通过有线或无线网络与外部设备进行通信。根据处理器120的控制，通信器150可以向通过有线或无线网络连接的外部设备发送数据或从其接收数据。外部设备可以是音乐服务提供服务器、电子设备等，其提供向显示装置100推荐的音频。

根据实施例，通信器150可以通过使用有线或无线网络，将与要在显示器130上显示的图像相对应的图像元数据或音频元数据发送给外部设备，并且从外部设备接收有关与图像元数据或音频元数据相对应的音频的信息。

通信器150包括至少一个通信模块，比如短距离通信模块、有线通信模块、移动通信模块和广播接收模块。至少一个通信模块表示能够使用通信技术通过网络执行数据发送和接收的通信模块，比如蓝牙、无线局域网(WLAN)、Wi-Fi、无线宽带(Wibro)、全球微波接入互操作性(Wimax)、码分多址(CDMA)、宽带码分多址(WCDMA)等或执行广播接收的调谐器。

用户接口190可以接收用于控制显示装置100的用户输入。用户接口190可以包括用户输入设备，用户输入设备包括检测用户触摸的触摸面板、接收用户按压操作的按钮、接收用户旋转操作的滚轮、以及键盘、圆顶开关等，但不限于此。而且，当由遥控器操纵显示装置100时，用户接口190可以从遥控器接收控制信号。

根据实施例，用户接口190可以接收对于图像显示在显示器130上期间正在输出的音频做出反应的用户交互。可选地，用户接口190可以接收用于选择图像显示在显示器130上期间要输出的音频的用户输入。当在显示器130上显示图像期间，通过用户接口190接收到的用户交互或用户的手动输入可以用于音频输出的更新操作。

图4是根据实施例的显示装置100的配置的框图。

在图4中，用相同的附图标记标示与图3的组件相同的组件。因此，显示装置100的描述中省略了先前参考图1至图3给出的描述。

参考图4，显示装置100还可以包括神经网络处理器170。

在显示装置100中，处理器120执行操作以控制要通过神经网络执行操作而执行的特定操作。根据实施例的显示装置100可以包括神经网络处理器170，神经网络处理器170是通过神经网络执行操作的单独处理器。

神经网络处理器170可以通过神经网络执行操作。根据实施例，神经网络处理器170可以通过执行一个或多个指令来通过神经网络执行操作。

神经网络处理器170可以通过神经网络执行操作来获得与特定图像相对应的音频元数据。例如，神经网络处理器170可以通过神经网络执行操作来获得与要在显示器130上显示的图像有关的音频语义元数据和音频情感元数据。

图5是根据实施例的显示装置100的配置的框图。

参考图5，显示装置100除了存储器110、处理器120和显示器130之外，还可以包括天线155、通信器150、检测器160、输入/输出设备180、视频处理器135、音频处理器145、音频输出设备140和用户接口190。

存储器110、处理器120和显示器130与上述相同，从而图5的显示装置100的描述中省略了先前参考图1至图4给出的描述。

通信器150可以根据处理器120的控制将显示装置100连接到外部设备(例如，音频设备等)。处理器120可以向连接到通信器150的外部设备发送内容或从其接收内容，或者从外部设备下载或浏览应用。

天线155接收从其他设备发送的信号或向其他设备发送信号。在图5中示出了一个天线155，但是可以设置多个天线。因此，根据本公开的显示装置100可以支持多输入多输出(MIMO)系统。

通信器150可以包括一个或多个模块，所述模块使显示装置100与无线通信系统之间或显示装置100与其他电子设备所处的网络之间能够进行无线通信。例如，通信器150可以包括广播接收模块151、移动通信模块152、无线互联网模块153和短距离通信模块154。通信器150可以被称为收发器。

广播接收模块151通过广播信道从外部广播管理服务器接收广播信号和/或关于广播的信息。广播信号可以包括电视广播信号、无线电广播信号、数据广播信号、其中组合了数据广播信号与电视广播信号或无线电广播信号的广播信号。

移动通信模块152向移动通信网络上的基站、外部终端或服务器中的至少一个发送无线信号或从其接收无线信号。无线信号可以包括根据语音呼叫信号、视频呼叫信号、或文本/多媒体消息发送或接收的各种类型的数据。

无线互联网模块153表示用于无线互联网访问的模块，并且可以设置在显示装置100的内部或外部。WLAN、Wi-Fi、Wibro、Wimax或高速下行链路分组接入(HSDPA)可以用作无线互联网技术。可以通过无线互联网模块153以Wi-Fi对等(P2P)标准将显示装置100连接到其他设备。可以通过这种Wi-Fi P2P连接在显示装置100和其他设备之间提供流传输服务。

短距离通信模块154表示用于短距离通信的模块。蓝牙、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)或ZigBee可用作短距离通信技术。

根据实施例的通信器150可以从外部服务器接收使用至少一个神经网络的训练模型。通信器150可以将作为分析图像以发现适合于要显示在显示器130上的图像的结果而获得的音频元数据发送给外部服务器，并且从外部服务器作为响应接收关于根据音频元数据而推荐的音频的信息。

检测器160检测用户语音、用户图像或用户交互，并且可以包括麦克风161、相机162和/或光接收器163。

麦克风161接收用户发出的语音。麦克风161可以将接收到的语音转换为电信号，并将电信号输出到处理器120。

相机162可以在相机识别范围内接收与包括手势在内的用户运动相对应的图像(例如，连续帧)。

光接收器163接收从遥控器接收的光信号(包括控制信号)。光接收器163可以从遥控器接收与用户输入(例如，触摸、按压、触摸手势、语音或动作)相对应的光信号。可以根据处理器120的控制从接收到的光信号中提取控制信号。

根据实施例，可以通过麦克风161、相机162或光接收器163中的至少一个接收在图像显示在显示器130上的同时对音频输出做出反应的用户交互。例如，用户交互可以包括使用麦克风161发出的用户语音、使用相机162的用户手势、或使用光接收器163从遥控器接收的控制信号。这样接收的用户交互信息可以用于在显示图像时输出的音频的更新操作。

输入/输出设备180根据处理器120的控制从显示装置100的外部接收视频(例如，运动图像等)、音频(例如，语音、音乐等)以及附加信息(例如，电子节目指南(EPG)等)。输入/输出设备180可以包括高清多媒体接口(HDMI)端口181、组件插孔182、个人计算机(PC)端口183和通用串行总线(USB)端口184中的一个。输入/输出设备180可以包括HDMI端口181、组件插孔182、PC端口183和USB端口184的组合。

根据实施例的存储器110可以存储用于处理器120的处理和控制的程序，并且可以存储输入到显示装置100或从显示装置100输出的数据。存储器110可以存储显示装置100的操作所需的数据。

可以基于功能将存储在存储器110中的程序分类为多个模块。存储器110可以存储至少一个用于通过使用神经网络执行特定操作的程序。例如，存储在存储器110中的至少一个程序可以是训练模块111和/或环境模式功能模块112。

训练模块111可以包括训练模型，该训练模式是通过响应于输入到至少一个神经网络的多个训练图像，学习获得与该多个训练图像相对应的音频元数据或图像元数据中的至少一种的方法而确定的。可以从外部服务器接收训练模型，并且可以将接收到的训练模型存储在训练模块111中。

环境模式功能模块112可以包括一个或多个指令，用于通过使用至少一个神经网络，获得要显示在显示器130上的图像的图像元数据，获得与图像元数据相对应的音频元数据，基于所获得的音频元数据确定要随图像输出的音频，以及在显示图像的同时输出所确定的音频。

环境模式功能模块112可以包括一个或多个算法，用于在确定显示图像期间要输出的音频时确定最适合于或适应于图像的音频。而且，可以将一个或多个用于使用神经网络来执行特定操作的程序或一个或多个用于使用神经网络来执行特定操作的指令存储在处理器120所包括的内部存储器中。

处理器120控制显示装置100的全部操作以及显示装置100的内部组件之间的信号流，并且处理数据。当满足所存储的预设条件或当存在用户输入时，处理器120可以执行存储在存储器110中的操作系统(OS)和各种应用。

处理器120可以包括内部存储器。在这种情况下，可以将存储在存储器110中的数据、程序或指令中的至少一个存储在处理器120的内部存储器中。例如，处理器120的内部存储器可以存储一个或多个用于使用神经网络来执行特定操作的程序或一个或多个用于使用神经网络来执行特定操作的指令。

视频处理器135可以处理要在显示器130上显示的图像的数据，并且可以对图像数据执行各种图像处理操作，比如解码、渲染、缩放、噪声滤波、帧速率转换和分辨率转换。

根据处理器120的控制，显示器130可以在屏幕上显示通过通信器150接收的广播信号中的视频。显示器130可以显示通过通信器150或输入/输出设备180输入的内容(例如，运动图像)。根据处理器120的控制，显示器130可以输出存储在存储器110中的图像。

音频处理器145处理音频数据。音频处理器145可以对音频数据执行各种处理，比如解码、放大、噪声过滤等。

音频输出设备140可以根据处理器120的控制，输出通过通信器150接收的广播信号中的音频、通过通信器150或输入/输出设备180输入的音频以及存储在存储器110中的音频。音频输出设备140可以包括扬声器141、头戴式耳机142或Sony/Phillips数字接口(S/PDIF)143中的至少一个，作为输出端子。

用户接口190表示用户向其中输入用于控制显示装置100的数据的单元。例如，用户接口190可以包括键区、圆顶开关、触摸板、滚轮、拨动开关等，但不限于此。

用户接口190可以是遥控器的组件或显示装置100的组件。

根据实施例的用户接口190可以接收对在图像显示在显示器130上时输出的图像作出反应的用户输入。例如，当用户接口190被配置为键区或圆顶开关时，用户可以通过点击或按压用于跳过或再次再现当前输出的音频曲目的键的输入，或者通过点击或按压方向键的输入，来控制一条或多条音频的再现，但不限于此。

同时，图2至图5的显示装置100的框图是作为实施例的框图。根据显示装置100的规范，可以组合或省略框图中的至少一个组件，或者可以添加其他组件。例如，可以根据需要将两个或更多个组件组合为一个组件，或者可以将一个组件划分为两个或更多个组件。在每个框中执行的功能是为了描述本公开的实施例，并且其详细操作或设备不限制本公开的范围。

图6是根据实施例的由显示装置100执行的根据在显示器上显示的图像自适应地确定音频并输出音频的方法的流程图。

参考图6，在操作S610中，显示装置100可以选择要在显示器上显示的图像。例如，除其中用户选择并观看常规内容的常规操作模式以外，显示装置100可以在被称为环境模式、相框模式、信息模式等的功能模式下进行操作时选择要在显示器上显示的图像。可以不同地确定要在显示器上显示的图像，例如，可以由用户选择或可以由显示装置100自行确定。要在显示器上显示的图像可以包括照片、艺术品或其他各种图形图像。

在操作S620中，显示装置100可以确定选择的图像的类别，并且根据确定的图像类别获得音频语义信息。

根据实施例，显示装置100可以基于图像是照片还是艺术品来对图像的类别进行分类。然而，图像的类别不限于照片或艺术品，例如，图形图像也可以被分类为单独的类别。

根据实施例，显示装置100可以根据图像的分类类别来确定图像的风格。例如，当图像的类别为照片时，可以基于照片中所示的对象和背景来确定关于如下的语义信息：照片与自然还是与人相关，以及当照片与自然相关时照片是否与旅行相关，或当照片与人相关时照片是否与家庭相关。例如，当图像的类别是艺术品时，可以确定关于艺术品的时期、艺术品的流派以及艺术品的表现方式的语义信息。这样，因为基于图像为照片还是艺术品而获得的语义信息会变化，所以显示装置100可以确定图像类别。

根据实施例，显示装置100可以通过使用图像-音频关联语义元数据表来获得与确定的图像语义信息相对应的音频语义信息。图像-音频关联语义元数据表是其中图像语义元数据和音频语义元数据彼此关联的表。

根据实施例，可以进一步在图像-音频关联语义元数据表中关联系统元数据。

根据实施例，可以通过反映用户交互信息来更新图像-音频关联语义元数据表。

在操作S630中，显示装置100可以通过分析图像来获得与图像相对应的音频情感信息。

根据实施例，显示装置100可以通过分析图像来获得图像情感信息。

根据实施例，显示装置100可以通过使用图像-音频关联情感元数据表来获得与确定的图像情感信息相对应的音频情感信息。图像-音频关联情感元数据表是其中图像的情感元数据和音频的情感元数据彼此关联的表。

根据实施例，可以进一步在图像-音频关联情感元数据表中关联系统元数据。

根据实施例，可以通过反映用户交互信息来更新图像-音频关联情感元数据表。

在操作S640中，显示装置100可以基于图像的音频语义信息和与图像相对应的音频情感信息来确定要与图像一起输出的音频。

根据实施例，显示装置100可以基于音频语义信息和音频情感信息来自行确定音频，或者可以将音频语义信息和音频情感信息提供给外部音乐提供服务器并从外部音乐提供服务器接收关于推荐音频的信息。

在操作S650中，显示装置100可以在所选择的图像显示在显示器上的同时输出所确定的音频。

根据实施例，显示装置100可以对所选择的图像执行多媒体审美处理，并且输出图像。

根据实施例，显示装置100可以对所确定的音频执行多媒体审美处理，并且输出音频。

根据实施例，显示装置100可以通过使用所确定的音频的特征对所选择的图像执行基于音频的图像处理，并且输出图像。

根据实施例，显示装置100可以通过使用所选择的图像的特征对所确定的音频执行基于图像的音频处理，并且输出音频。

根据实施例，当显示装置100在环境模式下从用于接收到对输出的图像和音频做出反应的用户交互时，显示装置100可以使用用户交互信息来更新音频。例如，用户交互信息可以用于更新图像-音频关联语义元数据表或图像-音频关联情感元数据表中的至少一个。

图7是根据实施例的显示装置100的操作的示例的框图。

参考图7，当确定或选择了要在显示装置100上显示的图像20时(附图标记708)，图像20被输入到图像分析和语义确定模块710，图像分析和语义确定模块710确定图像的情感配置，并且根据图像是艺术品还是照片来分析和确定图像。图像分析和语义确定模块710可以首先通过分析图像20来获得(艺术品或照片的)语义风格和图像信息。图像分析和语义确定模块710的类别分类模块711可以对图像20的类别进行分类以确定图像20是艺术品还是照片，并且风格确定模块712可以通过基于分类类别(即艺术品或照片)确定风格来获得语义类别/风格。图像分析和语义确定模块710的情感配置模块713可以通过分析图像20来获得图像20的图像信息。

语义风格和情感配置被发送到音频推荐/配置模块720，并且音频推荐/配置模块720可以适当地将推荐的音频与编制或配置的音频混合，以输出适合于图像20的音频。因此，与图像20一起，显示装置100的用户可以体验适合于图像20的推荐或编制的音频(附图标记728)。音频可以代表性地是音乐，但不限于此，并且可以包括声音、语音等。

尽管最初仅从图像20中确定情感，但是一旦再现输出音频，由于通过体验图像和音频模态而产生的情感的“跨模态交互”，人类感知的情感发生了变化，从而最初确定的情感可能不再有效。在一定时间段上由图像20和音频之间的跨模态交互产生的情感可以被称为“动态情感”，并且可以通过跨模态情感感知模型790来获得。情感配置模块713可以使用这种动态情感，情感配置模块713动态地更新情感配置以输出合适的音频播放列表，该音频播放列表连续地补偿用户的图像音频感知。

图8是根据实施例的显示装置100的操作的示例的框图。

可以将作为图像分析和语义确定模块710的分析结果而获得的元数据(例如，艺术品或照片的语义风格信息以及情感配置信息)发送到推荐适合音乐的音乐服务提供服务器。可以将作为分析结果而获得的元数据发送到基于元数据自动作曲的音乐编制模块。从音乐服务提供服务器提供的推荐音乐和由音乐编制模块编制的音乐可以由音频推荐/配置模块720进行混合/混音。图像-音频混合式审美处理模块730可以基于图像特征生成动态照片(cinemagraph)，并且还可以通过使用审美渲染多媒体可用的系统有关元数据来执行处理，比如基于图像的音频处理和/或基于音频的图像处理。可以在显示装置100的屏幕上渲染经过审美处理的多媒体(动态图像和推荐/编制的音频)。

与显示装置100的屏幕有关的用户交互数据(再现、暂停、跳过、语音命令等)被发送到用户交互分析模块740，用户交互分析模块740基于屏幕上的用户交互自适应地推荐音频，并且从用户交互分析模块740输出的用户交互分析结果可以被输入到音频推荐/配置模块720。

音频推荐/配置模块720可以进一步反映与显示装置100的环境有关的语义元数据750以推荐/配置音频，语义元数据750例如是显示装置100所处地点的天气、时间、位置等的元数据。

图9是根据实施例的从图像中获得语义风格和情感配置的方法的图。

参考图9，图像分析和语义确定模块710可以从要在显示装置的屏幕上显示的图像中提取基于颜色的统计特征910、基于形状的统计特征920和基于前景的统计特征930。图像分析和语义确定模块710可以在原始特征提取之后通过执行诸如均值、方差、偏度、峰度的部分统计分析来细分特征。这样的统计特征可以用作预训练的深度学习模型940的输入，以确定图像的语义风格和图像信息。

可以通过深度学习模型940在操作950中对图像的类别进行分类。图像的类别可以包括例如艺术品或照片。根据实施例，深度学习模型940可以通过使用图像元数据935(例如，文本)来准确地对图像进行分类。例如，当图像是艺术品时，可以将艺术品的艺术家、时期、标题等以文本形式包括在图像元数据935中。另外，当图像是照片时，可以将照片的日期、拍摄设备、拍摄地点等以文本形式包括在图像元数据935中。例如，当图像元数据935包括关于相机、拍摄地点等的信息时，深度学习模型940可以将图像分类为照片。例如，当图像元数据935包括关于标题、艺术家等的信息时，深度学习模型940可以将图像分类为艺术品。图像元数据935在深度学习模型940中不是必需的，并且可以在可获得时使用。即使当图像元数据935不可获得时，神经网络也可以自动确定图像是艺术品还是照片，并且根据艺术品或照片确定语义风格。

在将图像分类为艺术品或照片类别之后，可以在操作960中为每个类别确定图像的语义风格。当图像是照片时可用的语义信息和当图像是艺术品时可获得的语义信息可能彼此不同。因此，可以在每个类别中对图像的语义风格进行分类。

在操作970中，深度学习模型940可以通过分析图像来获得情感配置。

图10是根据实施例的基于类别对图像20进行分类并基于每个类别中的语义风格对图像20进行分类的示例的图。

参考图10，根据实施例，可以首先根据类别对图像20进行分类。图像20的类别可以包括例如艺术品1010和照片1020。用户可以上传艺术品或照片作为要在显示装置的屏幕上显示的图像。因此，当仅基于图像的情感配置来推荐音乐时，系统的质量/性能会劣化。通过首先将图像的类别分类为艺术品或照片，并且在每个类别内对图像进行子分类，与仅基于情感配置的相关技术系统相比，可以提供更合适的音乐推荐。例如，文艺复兴时期的艺术品和近期度假期间的个人照片可能都传递同样的幸福。然而，适合于文艺复兴时期的音乐和适合在度假期间拍摄的个人照片的音乐可能彼此完全不同。由于未反映这样的艺术品/照片类别，因此相关技术系统可能具有较低的性能/质量。因此，实施例的图像分析和语义确定模块输出输入图像的情感配置以及与艺术品/照片有关的图像语义风格。

参考图10，可以提供时期1011、流派1012、杂项1013作为分类为艺术品1010的类别中的子类。艺术品1010的时期1011可以包括例如文艺复兴、巴洛克、古典等来作为子类。艺术品1010的流派1012可以包括例如风景、野生动植物、建筑等来作为子类。艺术品1010的杂项1013可以包括数字艺术、图案等。艺术品1010的类别中的每个子类配置了语义风格。

被分类为照片1020的类别可以包括子类，例如事件/场合、家庭/人物、自然等。

当关于艺术品或照片使用相同的语义风格组来确定语义风格，而不将图像分类为艺术品或照片时，无法反映由于图像是艺术品还是照片而导致的精细差别。然而，在实施例中，首先根据类别对图像20进行分类，并且可以通过针对每个类别使用不同的风格组来从图像中进一步精细地提取语义风格信息，即当类别是艺术品时使用与艺术品相对应的语义风格组1015，并且当类别是照片时使用与照片相对应的语义风格组1025。

现在将详细描述图9的操作970。

从要显示在显示装置上的图像中提取的图像特征(比如颜色分布)可以用于将图像映射到人类心理学中使用的标准情感模型中的一个。标准情感模型的示例包括情感的环状模型，也被称为愉悦度-激励度-支配度(PAD)模型或效价-激励(V-A)模型。

图11示出了根据实施例的V-A模型中的情感配置的示例。

关于色彩感知和色彩心理学的各种研究都将色彩与人类情感紧密相关。例如，Valdez和Mehrabian，“Effect of Colors on Emotions”，Jour of ExperimentalPsychology，Vol.123，No.4，pp 394-409，1994提供了用于PAD模型的以下公式(该文章通过引用全部并入本文)。

[B-亮度，S-饱和度]

愉悦度(P)＝.69B+.22S

激励度(A)＝-.31B+.60S

支配度(D)＝-.76B+.32S

可以通过将图像的每个像素的亮度和饱和度代入上述等式来获得每个像素的P、A和D，并且可以通过使用P、A和D的相对值来获得如图11中所示的情感配置图。例如，当P、A和D的相对值都为正时，可以将情感表示为大胆、有创造力或有力量，而当P、A和D的相对值都为负时，则可以将情感表示为无聊、沮丧、迟钝或孤独。

参考图11，该情感朝右是愉快的，而朝左是不愉快的。情感朝上是强烈的，而朝下是温和且平静的。例如，当愉快的情感和强烈的情感较强时，可以得到诸如愉悦或幸福的情感，并且例如当不愉快的情感和温和的情感较强时，可以得到诸如无聊或沮丧的情感。例如，可以通过这种方法获得关于每个图像的情感配置。

不仅通过图像分析来获得情感，并且可以基于通过跨模态交互而生成的情感来更新情感配置，其中跨模态交互是通过随着时间的推移体验与图像一起输出的音乐而出现的。可以通过在人类心理学、情感感知和神经科学领域中的研究所支持的跨模态情感感知模型来获得这种跨模态交互。这种情感可以被称为“动态情感”。因此，可以基于当前与输入图像关联的音乐的特征来改变如图11中所示的V-A平面上预先确定的任何一点，以确定下一首音乐。

图12是示出了根据实施例的从图像中学习与图像特征相对应的元数据的神经网络的示例的图。

参考图12，一个或多个神经网络1200可以通过将多个训练图像1210、1220、1230、1240、1250和1260使用为输入值，来选择从图像中获得元数据的方法。例如，神经网络1200可以学习从多个训练图像1210至1260获得图像语义类别/风格和图像情感配置的方法。多个训练图像1210至1260可以包括艺术品、照片等，但不限于此。

至少一个神经网络1200可以响应于输入多个训练图像1210至1260，学习获得与多个训练图像1210至1260相对应的图像语义类别/风格和图像情感配置的方法，并且基于训练结果生成训练模型1270。

训练模型1270可以是训练后的神经网络自身，其允许通过神经网络1200获得目标结果。具体地，为了获得与图像特征相对应的元数据，可以通过使用多个训练图像1210至1260来设置分别施加到形成神经网络的多个节点的权重的多个值，来训练神经网络1200。权重可以表示神经网络1200中的节点之间的连接强度。可以通过反复学习来优化权重值，并且可以进行反复修改直到结果精确度满足一定的可靠性为止。训练模型1270可以是由最终设置的权重值形成的神经网络1200。

根据一个或多个实施例，可以预先执行通过使用至少一个神经网络1200来学习从图像中获得与图像特征相对应的元数据的方法的操作。当多个训练图像1210至1260中的一些训练图像改变时，可以对训练模型1270进行更新。例如，当用户通过显示装置100观看图像时，观看的图像可以用作训练图像。可以以一定时间段(例如，24小时)为单位提取用户可观看的至少一个图像，并且所提取的图像可以用作训练图像。当添加新的训练图像时，至少一个神经网络1200可以再次学习从图像中识别对象的方法，因此，可以更新训练模型1270。

根据实施例，可以由显示装置100执行或可以由外部服务器执行如下操作：训练通过使用至少一个神经网络1200从图像中获得与图像特征相对应的元数据的方法。例如，通过使用至少一个神经网络1200从图像中获得与图像特征相对应的元数据的操作可能需要相对复杂的吞吐量。因此，外部服务器可以执行学习操作，并且显示装置100可以从外部服务器接收训练模型1270，从而降低了显示装置100要执行的吞吐量。显示装置100可以预先从外部服务器接收训练模型1270，将训练模型1270存储在存储器中，并且通过使用存储的训练模型1270来获得与图像特征相对应的元数据。

根据实施例，显示装置100可以包括神经网络处理器170，神经网络处理器170是通过神经网络1200执行学习操作的单独的专用处理器。神经网络处理器170可以通过神经网络1200执行学习以确定训练模型1270，并且通过确定的训练模型1270执行元数据获得处理。

现在将参考图13A至图13D另外描述通过神经网络1200执行操作的操作。

图13A是示出了根据实施例的通过使用神经网络从图像中获得元数据的图。具体地，图13A示出了深度神经网络(DNN)1300的示例，其中隐藏层的深度具有三个深度。

参考图13A，可以通过训练数据来训练DNN 1300。训练后的DNN 1300可以执行用于对象识别的推理操作。可以根据模型实现方法(例如，卷积神经网络(CNN))、结果的准确度、结果的可靠性、处理器的吞吐速度以及处理器的容量而不同地设计DNN 1300。

DNN 1300可以包括输入层1311、隐藏层1320和输出层1330，以执行用于获得元数据的操作。DNN 1300可以包括设置在输入层1311和第一隐藏层之间的第一层1351、设置在第一隐藏层和第二隐藏层之间的第二层1352、设置在第二隐藏层和第三隐藏层之间的第三层1353、以及设置在第三隐藏层和输出层1330之间的第四层1354。

而且，形成DNN 1300的多个层中的每一层可以包括至少一个节点。例如，输入层1311可以包括接收数据的至少一个节点1310。图13A示出了输入层1311包括多个节点1310的示例。可以将根据频带缩放图像20而获得的多个图像输入到多个节点1310。

如图13A所示，两个相邻层通过多个边缘1312进行连接。每个节点具有各自的权重值，并且DNN 1300可以基于通过计算输入信号和权重值(例如，将输入信号和权重值相乘)而获得的值来获得输出数据。

DNN 1300可以被构造为基于多个训练图像而训练的模型，该模型通过识别图像特征来提取与图像相对应的元数据。具体地，为了提高通过DNN1300输出的结果的准确度，在基于多个训练图像反复执行从输出层1330到输入层1311的方向上的训练的同时，可以修改权重值，使得提高结果的准确度。

具有最终修改的权重值的DNN 1300可以用作元数据提取模型。DNN 1300可以通过分析包括在作为输入数据的多个训练图像中的信息，来输出指示与训练图像相对应的元数据的结果。

图13B示出了根据实施例的第一神经网络1350从图像20中提取类别的示例。

参考图13B，第一神经网络1350可以接收选择为要在显示装置上显示的图像20，通过使用多个层从图像20中提取特征，基于提取的特征确定图像20是艺术品还是照片，并且输出类别结果。

图13C示出了根据实施例的第二神经网络1360从图像20中提取语义风格的示例。

参考图13C，第二神经网络1360可以接收图像20和/或图像20的类别，当图像20是艺术品时，根据艺术品类别提取语义风格，并且当图像20是照片时，根据照片类别提取语义风格，并输出结果。

图13D示出了根据实施例的第三神经网络1370从图像20提取情感信息的示例。

参考图13D，在接收到选择为要在显示装置上显示的图像20时，第三神经网络1370可以基于图像20的特征来确定情感配置，并将情感配置作为结果输出。

图14A和图14B是根据实施例的将图像元数据转换为音频元数据的方法的图。

参考图14A和图14B，通过关于要在显示装置上显示的图像来使用神经网络而获得的图像语义类别/风格1410可以通过使用图像-音频语义关联表1500来获得音频语义元数据1420。图像情感配置1430可以通过使用图像-音频情感配置关联表1600来获得音频情感配置元数据1440。

图像的风格可以与音乐的流派或时期紧密相关，图像的情感配置与平衡、节奏和音乐能量紧密相关。因此，可以将彼此关联的多条元数据预存储在查找表中，并且当确定了图像的语义风格和情感配置时，语义风格和情感配置均用作查找表的输入以确定关联的音乐元数据。

图15示出了根据实施例的图像-音频语义关联表1500的示例。

参考图15，图像-音频语义关联表1500包括图像语义元数据和音频语义元数据。图像语义元数据包括基于例如图像是照片还是艺术品的图像语义类别/风格。然而，这不是限制性的，可以为艺术品和照片提供单独的表。图像语义风格指每个类别中的风格。如上参考图10所述，与图像的类别相对应的风格彼此不同。音频语义元数据包括与每个图像语义类别/风格相对应的音频语义元数据，比如流派、年龄、艺术家等。

例如，当作为分析图像特征的结果获得(艺术品/印象主义)作为图像语义类别/风格时，因为(艺术品/印象主义)映射到音频语义元数据(流派：印象主义，时期：1600-1800，艺术家：Debussy等)，所以可以获得(流派：印象主义，时期：1600-1800，艺术家：Debussy等)作为音频语义数据。

图16示出了根据实施例的图像-音频情感配置关联表1600的示例。

参考图16，图像-音频情感配置关联表1600包括图像情感配置元数据和音频情感配置元数据。音频情感配置元数据包括与每条图像情感配置元数据相对应的音频情感配置元数据，并且音频情感配置元数据可以包括平衡、节奏、能量等。

例如，当作为分析图像特征的结果获得(平静)作为图像情感配置元数据时，因为(平静)映射到图像-音频情感配置关联表1600中的音频情感配置元数据(平衡：0.7-1，节奏：＜90BPM，能量：＜0.4等)，所以可以获得(平衡：0.7-1，节奏：＜90BPM，能量：＜0.4等)作为音频情感配置元数据1440。

这样获得的图像的音频语义元数据和音频情感配置元数据可以用于搜索或编制音频，比如适合于该图像的音乐或声音。

图17是根据实施例的基于图像的音频元数据获得适合于图像的音频的方法的框图。

参考图17，当接收到要在显示装置100上显示的图像时，图像分析和语义确定模块710分析图像并确定语义以输出图像元数据。根据实施例，图像元数据可以包括图像语义类别/风格和图像情感配置数据。

音频推荐/配置模块720可以从图像分析和语义确定模块710接收图像元数据，并且推荐适合于图像元数据的音频。音频推荐/配置模块720可以包括图像-音频映射模块721、音频推荐模块722、音频配置模块723和音频混合模块724。

图像-音频映射模块721可以获得通过使用图像-音频关联表而接收的与图像元数据相对应的音频元数据，并将音频元数据提供给音乐服务提供服务器1700、音频推荐模块722或音频配置模块723中的至少一个。音频元数据可以包括例如音频语义元数据和音频情感配置元数据。

音乐服务提供服务器1700可以基于接收到的音频元数据向音频推荐模块722提供与音频元数据相对应的至少一首音乐。音乐服务提供服务器1700可以提供与音频元数据相对应的至少一首音乐，或者可以提供关于至少一首音乐的信息，即至少一首音乐的播放列表。

根据实施例，音频推荐模块722可以从音乐服务提供服务器1700接收至少一首音乐的列表，并且将音乐作为连续播放列表来推荐。音频元数据可以与至少一首音乐匹配，并且音乐服务提供服务器1700可以周期性地更新或刷新音乐的播放列表。当播放列表中的音乐再现时，用户可以根据需要暂停、跳过或重放音乐。

根据实施例，音频推荐模块722可以从音乐服务提供服务器1700接收至少一首音乐的列表，和/或可以基于从图像-音频映射模块721接收的音频元数据直接获得与音频元数据相对应的至少一首音乐。音频配置模块723可以执行适合于图像的音乐编制功能。音频配置模块723可以从图像-音频映射模块721接收音频元数据，并自动编制音乐。基于节奏、流派、音调等，音频配置模块723可以通过使用将音乐参数作为输入接收来编制音乐的AI模型来编制音乐。音频配置模块723可以使用任何基于AI的技术来编制音乐。音频配置模块723可以编制音乐，并且配置音频效果或特定声音，比如雨、风和大气。

音频混合模块724可以对从音频配置模块723接收的编制的音乐与从音频推荐模块接收的推荐的音乐进行补充、混合或混音，以提供改进的价值和审美体验。例如，当音频元数据为平静时，音频推荐模块722可以推荐平静的音乐，并且音频配置模块723可以配置诸如雨声或柔和的音乐的特定声音以提高音乐的整体审美元素。因此，当从音频推荐模块722接收到平静的音乐并从音频配置模块723接收到雨声时，音频混合模块724可以对推荐的平静音乐与雨声进行混合。备选地，除了混合推荐的音乐和配置的音乐之外，音频混合模块724还可以通过将推荐的音乐和配置的音乐交替地排列在播放列表中来配置播放列表。

根据实施例，音频混合模块724可以基于用户的偏好，选择并输出推荐音乐和配置音乐之一而不是混合它们。例如，当用户偏好是音乐推荐时，音频混合模块724可以仅输出推荐音乐并且忽略配置音乐。

根据实施例，音频推荐模块722可以直接执行音乐推荐功能，而不从音乐服务提供服务器1700接收推荐音乐的列表。当满足显示装置100的性能时，音频推荐模块722可以直接从图像-音频映射模块721接收音频元数据，并且获得与音频元数据相对应的音乐。音频推荐模块722可以在搜索与音频元数据相对应的音乐时使用至少一个神经网络。

图18是示出了根据实施例的通过使用图像的音频元数据来学习推荐音频的神经网络的示例的图。

参考图18，一个或多个神经网络1800可以通过使用多条训练元数据1810、1820、1830、1840、1850和1860作为输入值，学习从多条训练元数据1810至1860中获得推荐音频的方法。

至少一个神经网络1800可以响应于输入多条训练元数据1810至1860，学习获得与多条训练元数据1810至1860相对应的推荐音频的方法，并基于训练结果生成训练模型1870。

训练模型1870可以是训练后的神经网络本身，其允许通过神经网络1800获得目标结果。具体地，可以通过使用多条训练元数据1810至1860训练神经网络1800，来设置分别施加到形成神经网络1800的多个节点的多个权重值。权重可以表示神经网络1800中的节点之间的连接强度。可以通过反复学习来优化权重值，并且可以进行反复修改，直到结果精确度满足一定的可靠性为止。训练模型1870可以是由最终设置的权重值形成的神经网络1800。

图19是根据实施例的使用系统元数据1910来确定要与显示在显示装置100上的图像一起输出的音乐的方法的框图。除了进一步示出了系统元数据1910之外，图19的框图与图17的框图相同。

参考图19，除了图像元数据，图像-音频映射模块721可以通过进一步反映系统元数据1910来获得音频元数据。

系统元数据1910指示关于显示装置100进行操作的环境的信息。显示装置100的操作环境信息可以包括例如显示装置100操作时的天气、显示装置100操作时的时间以及显示装置100所处的地点。例如，取决于音乐是在早上还是在晚上再现，即使对于相同的输入图像，推荐的音乐也可以有所不同。例如，取决于再现音乐的地点，即使对于相同的输入图像，推荐的音乐也可以有所不同。例如，即使对于相同的图像，在韩国推荐的音乐和在美国推荐的音乐也可以有所不同。例如，取决于再现音乐的日子的天气，即使对于相同的输入图像，推荐的音乐也可以有所不同。例如，即使对于相同的图像，在炎热的日子里推荐的音乐和在寒冷的日子里推荐的音乐也可以有所不同。

这样，根据实施例，系统元数据1910可以用于推荐音乐。如图19中所示，可以将系统元数据1910反映到图像-音频映射模块721。根据实施例，可以将系统元数据1910反映到图像-音频语义关联表和图像-音频情感配置关联表。

图20A和图20B是根据实施例的在图像-音频语义关联表1500和图像-音频情感配置关联表1600上进一步反映系统元数据1910的方法的图。

除了将系统元数据1910反映到每个关联表以外，图20A和图20B中所示的系统与图14A和图14B中所示的系统相同。

参考图20A和图20B，可以将系统元数据1910进一步反映到图像-音频语义关联表1500，并且可以将系统元数据1910进一步反映到图像-音频情感配置关联表1600。因此，在图20A和图20B所示的系统中，除了图像语义元数据(即图像语义类别/风格1410)之外，还可以通过进一步考虑系统元数据1910来确定音频语义元数据1420。除了图像情感配置元数据之外，还可以通过进一步考虑系统元数据1910来确定音频情感配置元数据1440。

图21示出了根据实施例的反映了系统元数据1910的图像-音频语义关联表2100的示例。

参考图21，图像-音频语义关联表2100除了图像语义元数据和音频语义元数据之外，还包括系统元数据1910。图像语义元数据包括图像语义类别/风格，并且可以包括例如图像是照片还是艺术品。图像语义风格指每个类别中的风格。上面已参考图10描述了与图像的类别相对应的风格彼此不同。系统元数据1910可以包括例如时间信息。例如，可以将时间信息分类为早晨、中午和晚上。音频语义元数据包括与每个图像语义类别/风格和系统元数据的时间相对应的音频语义元数据，比如流派、年龄、艺术家等。

例如，当作为分析图像特征的结果，获得(艺术品/印象主义)作为图像语义类别/风格1410并获得(早晨)作为系统数据2112时，因为在图像-音频语义关联表2100中音频语义元数据(流派：印象主义，时期：1600-1800，艺术家：Debussy等)映射到(艺术品/印象主义)和(早晨)，所以可以获得(流派：印象主义，时期：1600-1800，艺术家：Debussy等)作为音频语义元数据2113。

图22示出了根据实施例的反映了系统元数据1910的图像-音频情感配置关联表2200的示例。

参考图22，图像-音频情感配置关联表2200除了图像情感配置元数据和音频情感配置元数据之外，还包括系统元数据1910。图像情感配置元数据可以包括例如平静、兴奋、悲伤等。系统元数据1910可以包括例如时间信息。例如，可以将时间信息分类为早晨、中午和晚上。音频情感配置元数据包括与每个图像情感配置元数据和系统元数据的时间相对应的音频情感配置元数据，比如流派、年龄、艺术家等。

例如，当作为分析图像特征的结果，获得(平静)作为图像情感配置1430并获得(早晨)作为系统数据2112时，因为在图像-音频情感配置关联表中(平静)和(早晨)映射到音频情感配置元数据的(平衡：0.7-1，节奏：＜90BPM，能量：＜0.4等)，所以可以获得(平衡：0.7-1，节奏：＜90BPM，能量：＜0.4等)作为音频情感元数据2213。

图23是根据实施例的使用用户交互信息2310来确定要与显示装置100上显示的图像一起输出的音乐的方法的框图。除了还示出了用于反映用户交互信息2310的框2300之外，图23的框图与图19的框图相同。

用户可以根据他或她的偏好对在环境模式下显示图像的显示装置100做出反应，并且通过接收适合于图像的音频来输出音频。例如，当用户喜欢在图像显示在显示装置100上时输出的推荐音乐时，用户可以重放该推荐音乐，而当用户不喜欢推荐音乐时，用户可以跳过并再现播放列表中的下一首音乐。用户可以手动选择和再现要与显示装置100上显示的图像一起输出的音乐。可以将用户的这种反应反映到显示装置100的音乐推荐系统以更新音乐推荐系统，从而个性化显示装置100的音乐推荐系统以适合该用户。

参考图23，用户交互分析模块740收集并分析用户关于在图像显示在显示装置100上时输出的音频的反应，即用户交互信息2310。用户交互分析模块740可以将收集到的用户交互信息2310发送给图像-音频映射模块721。

除了图像元数据和系统元数据1910之外，图像-音频映射模块721还可通过进一步反映用户交互信息2310来获得音频元数据。

这样，根据实施例，用户交互信息2310可以用于推荐音乐。如

图23中所示，可以将用户交互信息2310反映到图像-音频映射模块721。根据实施例，可以将用户交互信息2310反映到图像-音频语义关联表和图像-音频情感配置关联表。

图24是示出了根据实施例的显示装置100输出图像20并输出适合于图像20的音乐的用户交互方法的示例的图。

可以不同地确定针对显示装置100输出图像20并输出适合于图像20的音乐的用户交互方法。

根据实施例，显示装置100可以通过用户接口190接收用户交互信息。用户接口190可以包括例如设置在显示装置100的背面等的键区等。

根据实施例，显示装置100可以通过通信器150接收用户交互信息，其中通信器150通过通信网络接收数据。例如，显示装置100可以通过蓝牙通信从外部终端接收用户交互信息。

根据实施例，显示装置100可以通过检测器160的光接收器163接收用户交互信息，其中光接收器163从遥控器接收控制信号。

根据实施例，显示装置100可以通过检测用户手势的相机162接收用户交互信息。

根据实施例，显示装置100可以通过麦克风161接收用户交互信息，其中麦克风161接收用户发出的语音。

参考图24，示出了显示在显示装置100上的图像20以及用于控制从显示装置100输出的音乐的再现的语音控制命令的示例。为了指示其中显示装置100显示图像20并输出针对图像20推荐的音乐的环境模式的操作，用户可以例如发出诸如“动态模式”、“激活动态屏幕”等的语音控制命令。为了指示在环境模式下要与图像20一起输出的音乐的推荐，用户可以例如发出诸如“播放合适的音乐”、“播放适宜的音乐”、“播放匹配的音乐”等的语音控制命令。为了控制在环境模式下显示的图像20，用户可以例如发出诸如“将图像动画”、“播放动态照片”、“随音乐将图像动画”等语音控制命令。为了在环境模式下控制音乐输出，用户可以例如发出诸如“跳过音乐”、“针对图像编制新音乐”、“混合音乐”等语音控制命令。

图25是根据实施例的在显示装置100中反映用户交互的过程的示例的图。

参考图25，当选择了要在显示器上显示的图像时，显示装置100推荐适合于图像的语义信息或情感信息的音乐(操作2510)，并通过屏幕/多媒体播放器2520输出推荐的音乐。显示装置100可以接收对图像/音频的这种输出做出反应的用户输入(操作2530)。

每当接收到用户输入时，显示装置100可以存储交互事件细节(操作2540)并分析用户交互。

显示装置100可将分析用户交互的结果反映到音频映射模块2550，并且提取用户交互信息所反映到的音频元数据，并将该音频元数据发送给音乐服务提供服务器1700。音乐服务提供服务器1700可以基于接收到的音频元数据来策划播放列表，并且将策划的播放列表2570发送给显示装置100。显示装置100可以基于策划的播放列表2570推荐音乐。

图26A和图26B是根据实施例的在图像-音频关联表上反映用户交互信息2310的方法的图。

可以根据用户交互分析来自适应地个性化包括图像-音频语义关联表1500和图像-音频情感配置关联表1600的图像-音频关联表。例如，当在环境模式下用户跳过从显示装置100再现的某种类型的音乐时，可以在图像-音频关联表中替换所跳过的音乐的元数据。初始地，可以将默认的图像-音频关联表预存储在显示装置100中，但是可以根据用户交互自适应地个性化默认的图像-音频关联表。

可以在图像-音频关联表中自适应地/连续地更新用户交互信息2310，使得针对每个用户来个性化图像-音频关联表。每当用户再现推荐音乐、重放推荐音乐或跳过推荐音乐时，可以记录用户与屏幕/多媒体播放器的用户交互。也可以收集从再现音乐开始的时间段作为用户交互信息2310。因为基于用户交互信息2310估计用户的喜欢和不喜欢，所以当将用户交互信息2310反映到图像-音频关联表时，可以个性化图像-音频关联表。

这样更新了图像-音频关联表。例如，当用户频繁地跳过某种类型的音乐时，可以从图像-音频关联表中去除该类型的音乐的元数据。

在图26A和图26B中，示出了用户交互信息2310仅反映到图像-音频情感配置关联表1600，但是根据实施例，用户交互信息2310也可以反映到图像-音频语义关联表1500。

图27是根据实施例的在图像-音频情感配置关联表2700上反映用户交互信息的方法的图。

参考图27，图像-音频情感配置关联表2700包括图像情感配置元数据、系统元数据1910和音频情感配置元数据。可以根据用户交互信息，将元数据添加到图像-音频情感配置关联表2700或从图像-音频情感配置关联表2700中删除元数据。

例如，当响应于显示装置100输出基于音频情感配置元数据(即，与图像情感配置(平静)和系统元数据(早晨)对应的(平衡：0.7-1，节奏：＜90BPM，能量：＜0.4等))推荐的第一音乐而接收到跳过第一音乐的用户输入时，显示装置100可以从图像-音频情感配置关联表中删除(平衡：0.7-1，节奏：＜90BPM，能量：＜0.4等)，即与跳过的第一音乐相对应的音频情感配置元数据。

例如，当在显示装置100显示图像的同时再现由用户手动选择的第二音乐时，显示装置100可以分析显示的图像以获得图像情感配置元数据，并且分析在显示图像的同时由用户选择并再现的第二音乐的特征，以获得第二音乐的音频情感配置元数据。显示装置100可以根据图像情感配置元数据将第二音乐的音频情感配置添加到图像-音频情感配置关联表2700。这样，图像-音频情感配置关联表2700可以在开始时包括全局信息而不是个性化信息，但是在显示装置100进行操作时通过接收用户交互信息并将用户交互信息反映到图像-音频情感配置关联表2700，可以提取对于使用显示装置100的用户来个性化的音频元数据，以使得音乐推荐更精确更合适。

图28是根据实施例的动态更新图像-音频关联表的方法的示例的图。

参考图28，在操作2820中用户可以从帧艺术商店收藏或个人图像收藏2810中选择一个图像，并且在操作2830中可以将用户选择的图像显示在显示装置100上。而且，在操作2850中，当显示所选择的图像时，用户可以从个人音乐收藏2840中选择要再现的音乐。因此，在操作2860中显示装置100可以在显示用户选择的图像的同时再现用户选择的音乐。

当执行诸如选择要在显示装置100上显示的图像和选择要再现的音乐的用户交互时，在操作2870中，显示装置100可以通过使用自动内容识别(ACR)来识别音乐以提取音乐的音频元数据。在操作2880中，显示装置100可以分析并确定图像以提取图像的图像元数据。因此，在操作2890中显示装置100可以通过使用音频元数据和图像元数据来更新图像-音频关联表。上面已经参考图27描述了更新关联表的方法。

图29是根据实施例的由显示装置100对要显示的图像和推荐的音乐执行审美处理的方法的示例的图。

除了还包括用于对要在显示装置100上显示的图像和要输出的音乐执行审美处理的框2900之外，图29的框图与图23的框图相同。

参考图29，图像-音频混合式审美处理模块730可以在输入图像和推荐音乐被多媒体播放器渲染之前对它们执行审美多媒体处理。这样的审美多媒体处理可以包括图像处理、音频处理、混合式的基于图像的音频处理和混合式的基于音频的图像处理。通过这样的审美多媒体处理，可以向用户提供增强的审美体验。

图30A和图30B是根据实施例的显示装置100对要显示的图像和推荐音频执行审美处理的图。

参考图30A，可以对输入图像执行各种类型的多媒体审美处理3010以增强用户的审美体验。

参考图30B，可以对音频执行各种类型的多媒体审美处理3020。也可以对推荐音乐进行审美处理。可以将至少一种信号处理技术(比如音频信号的动态范围或总体音量的调整)应用于推荐音乐。

在相关技术装置中，用户上传静态图像，并且统计地显示这种图像。然而，根据实施例，至少一个动态纹理被合成以将图像转换成动态照片。例如，当用户上传风景图像时，可以将该风景图像转换成动态照片，如同云是沿着重复的纹理运动动画化的，水是用诸如波浪的纹理运动来合成的。类似地，音频可以反映出波浪声或运动。根据图像特征，可以将不同的运动/动画自动地应用于动态图像以呈现该动态图像。

作为另一示例，可以通过自动图像放大技术将输入图像转换成高分辨率图像。在将输入图像发送到多媒体播放器之前，可以对输入图像执行至少一个审美图像处理。

参考图31，可以通过多媒体审美处理3120将输入图像20转换成各种类型的图像3130、3140、3150和3160。

图32A和图32B是根据实施例的显示装置100执行图像-音频混合式审美处理的图。

混合处理包括跨域的基于音频的图像处理和基于图像的音频处理。当屏幕将推荐音乐与图像一起输出时，图像和声音的两种模态之间的相互作用可以向用户提供附加的审美价值。

图32A示出了示例，其中输出通过反映音频特征来对输入图像执行基于音频的图像处理3210而获得经处理的图像。

例如，参考图33，当将静态输入图像20转换成动态照片3320时，运动纹理的速度可以与推荐音乐同步。因此，可以提供适合于人类的视觉和听觉的匹配的审美体验。

根据实施例，应用于动态照片的运动纹理的类型可以基于音乐的每个流派/风格。例如，当音乐流派为经典时的运动纹理和当音乐流派为摇滚时的运动纹理可以彼此不同。而且，可以将在审美处理过的动态照片中的各个对象相对于声音的方向特征而布置在屏幕上，并且这种布置尤其在大屏幕显示器中是有用的。例如，在诸如环境/自然声音的特殊声音的情况下，当鸟叫声来自左扬声器时，鸟可能位于动态照片的左侧。同时，当声音沿向右方向移动时，动态照片中的相应对象可以沿向右方向逐渐移动。以这种方式，可以配置更加自然和美观有吸引力的动态照片。

图32B示出了示例，其中输出通过反映图像特征来对推荐音频执行基于图像的音频处理3220而获得经处理的音频。

在根据实施例的混合式审美处理中，当输入图像本身是动态的(动画化的)时，编制的音乐的节奏可以基于输入图像的动画速度。

可以使用至少一个神经网络来执行如上所述的通过确定或配置适应于要在显示装置100上显示的图像的音频来在显示图像的同时输出自适应地确定的音频的操作中的至少一些操作。

图34示出了根据实施例的使用至少一个神经网络3410来确定适应于要在显示装置100上显示的图像20而输出的音乐的操作的示例。

参考图34，当选择了要在显示装置100上显示的图像20时，所选择的图像20被输入到至少一个神经网络3410，并且可以从输入图像20中获得与图像20的特征相对应的图像语义元数据/图像情感元数据3420，并且可以通过使用神经网络3410来输出所获得的图像语义元数据/图像情感元数据3420。

显示装置100可以关于从神经网络3410输出的图像语义元数据/图像情感元数据3420通过使用图像-音频关联表3430，获得与输出的图像语义元数据/图像情感元数据3420相对应的音频元数据。

接下来，显示装置100可以通过使用获得的音频元数据来执行音频推荐3440。

图35示出了根据实施例的通过使用神经网络3510和3520中的一个或多个神经网络来确定要适应于在显示装置100上显示的图像20而输出的音乐的操作的示例。

参考图35，当选择了要在显示装置100上显示的图像20时，所选择的图像20被输入到神经网络3510，并且可以从输入图像20中获得与图像20的特征相对应的图像语义元数据/图像情感元数据3530，并且可以通过使用神经网络3510来输出所获得的图像语义元数据/图像情感元数据3530。

从神经网络3510输出的图像语义元数据/图像情感元数据3530被输入到神经网络3520，并且可以使用神经网络3520，关于图像语义元数据/图像感情元数据3530，通过使用图像-音频关联表3540，来获得和输出与图像语义元数据/图像感情元数据3530相关联的音频元数据。

接下来，显示装置100可以使用获得的音频元数据来执行音频推荐3550。

神经网络3510和神经网络3520可以是两个分离的独立神经网络，或者可以是包括在一个神经网络中的子神经网络。

图36示出了根据实施例的通过使用神经网络3610、3620和3630中的一个或多个神经网络来确定要适应于在显示装置100上显示的图像20而输出的音乐的操作的示例。

参考图36，当选择了要在显示装置100上显示的图像20时，所选择的图像20被输入到神经网络3610，并且可以从输入图像20中获得与图像20的特征相对应的图像语义元数据/图像情感元数据3640，并且可以通过使用神经网络3610来输出所获得的图像语义元数据/图像情感元数据3640。

从神经网络3610输出的图像语义元数据/图像情感元数据3640被输入到神经网络3620，并且可以使用神经网络3620，关于图像语义元数据/图像感情元数据3640，通过使用图像-音频关联表3650，来获得和输出与图像语义元数据/图像感情元数据3640相关联的音频元数据。

从神经网络3620输出的音频元数据被输入到神经网络3630，并且可以通过使用神经网络3630来获得并输出适合于音频元数据的推荐音频3660。

神经网络3610至3630可以是分离的独立神经网络，或者可以是包括在一个神经网络中的子神经网络。

图37是根据实施例的处理器120的配置的框图。

参考图37，根据实施例的处理器120可以包括数据学习器121和数据处理器122。

根据实施例，数据学习器121可以学习用于从图像获得语义信息的标准，以训练第一神经网络。数据学习器121可以学习关于图像的哪些信息(例如，特征信息)用于获得语义信息的标准。数据学习器121可以学习关于如何通过使用图像特征信息来获得语义信息的标准。数据学习器121可以通过获得要用于训练的数据(例如，图像)并将所获得的数据应用于数据处理模型(第一神经网络)来学习用于从图像中获得语义信息的标准。

根据实施例，数据学习器121可以学习用于从图像中获得情感信息的标准，以训练第二神经网络。数据学习器121可以学习关于图像的哪些信息(例如，特征信息)用于获得情感信息的标准。数据学习器121可以学习关于如何通过使用图像的特征信息来获取情感信息的标准。数据学习器121可以通过获得要用于训练的数据(例如，图像)并将所获得的数据应用于数据处理模型(第二神经网络)来学习用于从图像中获得情感信息的标准。

根据实施例，数据学习器121可以学习用于使用语义信息和情感信息来确定至少一个音频的标准，以训练第三神经网络。数据学习器121可以学习关于如何通过使用语义信息和情感信息来确定至少一个音频的标准。数据学习器121可以通过获得要用于训练的数据(例如，语义信息和情感信息)并将所获得的数据应用于数据处理模型(第三神经网络)，来学习用于确定至少一个音频的标准。可选地，数据学习器121可以学习通过使用音频元数据和情感信息来确定至少一个音频的标准，以训练第三神经网络。

可以考虑到识别模型的应用领域、学习目的、装置的计算机性能等来构建数据处理模型(例如，第一至第三神经网络)。数据处理模型可以是例如基于神经网络的。例如，诸如深度神经网络(DNN)、递归神经网络(RNN)或双向递归深度神经网络(BRDNN)的模型可以用作数据处理模型，但不限于此。

数据学习器121可以通过使用训练算法(例如，误差反向传播或梯度下降)来训练数据处理模型。

数据学习器121可以通过例如使用训练数据作为输入值的受监督学习来训练数据处理模型。数据学习器121可以经由例如通过自学数据处理所需的数据类型来发现数据处理的标准的无监督学习来训练数据处理模型，而无需任何特殊监督。数据学习器121可以通过例如使用关于根据学习的结果值是否正确的反馈的强化学习，来训练数据处理模型。

而且，当训练了数据处理模型时，数据学习器121可以存储训练后的数据处理模型。在这种情况下，数据学习器121可以将训练后的数据处理模型存储在显示装置的存储器中。备选地，数据学习器121可以将训练后的数据处理模型存储在通过有线或无线网络连接到显示装置的服务器的存储器中。

在这种情况下，存储了训练后的数据处理模型的存储器还可以存储例如与显示装置至少一个其他组件相关的命令和数据。存储器可以存储软件和/或程序。程序可以包括例如内核、中间件、应用编程接口(API)和/或应用程序(或“应用”)。

数据处理器122可以将图像输入到包括训练后的第一神经网络的数据处理模型中，并且数据处理模型可以输出与图像相对应的语义信息作为结果值。输出结果值可以用于更新包括第一神经网络的数据处理模型。

数据处理器122可以将图像输入到包括训练后的第二神经网络的数据处理模型中，并且数据处理模型可以将与图像相对应的情感信息作为结果值输出。输出结果值可以用于更新包括第二神经网络的数据处理模型。

数据处理器122可以将语义信息(或音频元数据)和情感信息输入到包括训练后的第三神经网络的数据处理模型中，并且数据处理模型可以输出关于至少一个音频的信息作为结果值。输出结果值可以用于更新包括第三神经网络的数据处理模型。

数据学习器121或数据处理器122中的至少一个可以制造为至少一个硬件芯片并且安装在显示装置上。例如，数据学习器121或数据处理器122中的至少一个可以制造为用于AI的专用硬件芯片，或者可以制造为相关技术的通用处理器(例如，中央处理单元(CPU)或应用处理器)或图形专用处理器(例如，图形处理单元(GPU))的一部分，并被安装在上述任何显示装置上。

可以在一个显示装置上或在不同的显示装置上安装数据学习器121和数据处理器122。例如，可以将数据学习器121和数据处理器122中的一个包括在显示装置中，并且可以将另一个包括在服务器中。而且，在数据学习器121和数据处理器122中，通过有线或无线方式，可以将由数据学习器121构建的模型信息提供给数据处理器122，并且可以将输入到数据处理器122的数据提供给数据学习器121作为附加训练数据。

数据学习器121或数据处理器122中的至少一个可以是软件模块。当数据学习器121或数据处理器122中的至少一个是软件模块(或包括指令的程序模块)时，软件模块可以存储在非暂时性计算机可读介质中。软件模块可以由OS或特定应用提供。备选地，软件模块的一部分可以由OS提供，而其余部分可以由特定应用提供。

图38是根据实施例的其中显示装置100和服务器3800彼此交互以学习和识别数据的示例的图。

参考图38，服务器3800可以通过学习用于从图像获得语义信息的标准来训练第一神经网络。服务器3800可以通过学习用于从图像获得情感信息的标准来训练第二神经网络。服务器3800可以通过学习用于根据语义信息和情感信息确定至少一个音频的标准来训练第三神经网络，显示装置100可以基于服务器3800的学习结果从图像中获得语义信息，从图像中获得情感信息，并且根据语义信息和情感信息确定至少一个音频。

服务器3800可以执行图37中所示的数据学习器121的功能。服务器3800可以学习有关哪些训练数据要用于从图像中获得语义信息的标准、有关哪些训练数据要用于从图像中获得情感信息的标准、有关哪些训练数据要用于从语义信息和情感信息中确定至少一个音频的标准。服务器3800可以学习通过使用数据从图像中获得语义信息的标准、从图像中获取情感信息的标准以及根据语义信息和情感信息确定至少一个音频的标准。

服务器3800可以通过使用训练数据，训练用于获得语义信息的数据处理模型(第一神经网络)、用于从图像中获得情感信息的数据处理模型(第二神经网络)以及用于根据语义信息和情感信息确定至少一个音频的数据处理模型(第三神经网络)。

显示装置100可以将数据发送给服务器3800，并且请求服务器3800将数据应用并处理到数据处理模型(第一至第三神经网络)。例如，服务器3800可以通过使用数据处理模型(第一到第三神经网络)，从图像中获得语义信息，从图像中获得情感信息，并且根据语义信息和情感信息确定至少一个音频。

备选地，显示装置100可以从服务器3800接收由服务器3800生成的数据处理模型，并且通过使用接收到的数据处理模型来处理数据。例如，显示装置100可以通过使用接收到的数据处理模型(第一到第三神经网络)，从图像中获得语义信息，从图像中获得情感信息，并且根据语义信息和情感信息确定至少一个音频。

图39是根据实施例的用于适应于图像来提供音乐服务的系统的框图。

参考图39，当输入图像时，照片/艺术品分类器3910可以对图像是照片还是艺术品进行分类。

风格分类器3920可以对已被分类为艺术品或照片的图像的风格进行分类。

情感分类器3930可以将图像的情感分类为例如效价或激励。情感分类器3930可以针对艺术品和照片中的每一个对情感进行分类。

音乐元数据引擎3940可以从风格分类器3920接收语义风格并从情感分类器3930接收情感信息，并且提取与语义风格和情感信息相对应的音乐元数据。

音乐服务提供器3950可以从音乐元数据引擎3940接收音乐元数据或关键字，并且提取并提供与音乐元数据相对应的音乐播放列表。

在图39中，照片/艺术品分类器3910、风格分类器3920和情感分类器3930可以使用神经网络对接收到的图像进行分类。神经网络的模型可以包括例如CNN、ResNet、Mobilenet、VGGNet、AlexNet等。然而，上面列出的模型仅是示例，并且可以使用能够根据目的接收图像并对图像进行分类的任何网络模型。

图40A和40B是示出根据实施例的残差学习的图。

通常，预期是当层数增加时学习效果提高。然而，实际上，当层加深时，训练网络使得网络获得满意的结果变得越来越困难。一个原因是，当CNN更新参数时，梯度值由于过大或过小的值而饱和并因此不再移动，从而消除了学习效果或减慢了学习速度。另一个原因是，当网络加深时，参数的数量成比例地增加，从而增加了误差。在这方面，已提出了一种被称为残差学习的方法。

图40A示出了相关技术CNN。相关技术CNN网络的目标是通过接收输入x并经由两个权重层输出输出H(x)的学习，来获得最优H(x)，因此，可以确定权重层的参数值，以便获得最优H(x)。

然而，当CNN的目标从获得H(x)更改为获得H(x)-x时，即当训练CNN以获得输出与输入之间的差时，可以训练两个权重层以获得H(x)-x。这里，当F(x)＝H(x)-x时，则H(x)＝F(x)+x。因此，图40A的图改变为图40B的图。这样，与相关技术CNN不同，残差学习提供从输入到直接输出的快捷连接。因为这样的快捷连接具有输入和输出直接连接而无参数的结构，所以就吞吐量而言仅需要添加了加法的计算量。过去，执行训练以获得H(x)，但是现在，执行训练以获得H(x)-x，并且由于在最优情况下F(x)应该为0，因此预先确定了训练方向来作为预调节(pre-conditioning)。当在F(x)几乎为0的方向上执行训练时，可以容易地检测输入的细小移动。另外，因为输入(例如x)直接连接到输出，因此对参数的数量没有影响，并且通过快捷连接，除了增加加法以外，不会增加吞吐量。另外，由于通过跳过几层来连接输入和输，因此简化了前向或后向路径。这样，在残差学习中，通过快捷连接甚至可以优化深度网络，并且由于深度增加而可以提高准确度。

这样的残差学习，例如残差网络-50(ResNet50)，可以用于在实施例中的训练。

图41是示出了根据实施例的ResNet50模型的微调的框图。

根据实施例的神经网络可以使用例如ResNet50模型。

参考图41，ResNet50模型可以包括输入层、多个隐藏层和输出层。为了训练ResNet50模型，训练在多个隐藏层中使用的参数或权重。因为可以完整地使用多个隐藏层中从输入图像中提取特征的一些隐藏层，即第一层至第M层，因此可以完整地使用预训练后的第一层至第M层的权重。

多个隐藏层中的一些隐藏层，例如使用所提取的特征来对图像是艺术品还是照片进行分类的隐藏层，即第M+1层至第N层，可以针对这样的分类在逐个地解冻层的同时执行微调。

例如，可以通过冻结所有的层来训练ResNet50模型，然后仅微调最末层2或3个期。然后，可以从ResNet50模型的最末尾开始逐个地冻结层。一次解冻一个附加的卷积层，并且可以微调该附加的卷积层1或2个期。

例如，参考图41，仅微调最后的第N层，而在前面的若干期上冻结所有的其他层。然后，解冻并微调第N-1层，而在接下来的若干期上冻结所有的其它层。这样，可以通过一次解冻一个层来执行微调。

可以在5至10个卷积层中重复这样的过程，并且早期停止可以用于模型收敛。

而且，可以在训练期间使用数据增强以防止过拟合。水平图像翻转、缩放或旋转可以用作数据增强。

而且，在整个ResNet50模型中，具有热重启的随机梯度下降(SGDR)可以用作学习率策略。

根据实施例，Resnet50架构用于训练，并且Resnet50架构被初始化为ImageNet数据集的训练后权重。可以去除ResNet50的最末层(包括1000个单元)并替换为softmax层。

根据实施例的替换最末层的softmax层可以包括两个单元以对图像是艺术品还是照片进行分类。

根据实施例的替换最末层的softmax层可以包括两个单元以对效价和激励的情感进行分类。

根据实施例的替换最末层的softmax层可以包括数量与风格数量n相等的单元以对艺术品的风格进行分类。

图42是示出了根据实施例的根据SGDR的学习率调度的图。

为了建立神经网络模型，通常需要找到假设H、成本C和梯度下降算法G。需要通过生成机器模型的假设H，测量假设H与实际数据之间的差异(成本C)，并经由梯度下降算法G将差异最小化，来执行预测实际值的操作。为了提高预测，需要将差异最小化。

在成本函数中，可以通过等式获得H(x)。

为了获得使成本函数最小的值，使用梯度下降算法G来找到图形的最小点，并且学习率可以用作用于找到最小点的步骤的概念。当学习率太大时，可能会出现最小点超过到相对侧的过冲现象，而当学习率太小时，可能会花费很长时间来找到最小点。因此，设置适当的学习率至关重要。

例如，可以调谐以训练DNN的超参数是学习率。

神经网络包括需要被训练以完成特定任务的参数。训练参数意味着找到并设置适当的值，使得训练参数将每批训练的损失函数最小化。

通常在SGD中可见，在训练开始时设置单个学习率，并设置学习率衰减策略。该单个学习率用于更新所有参数。在假设需要降低速度以防止在达到所需最小值时出现过冲的情况下，随每一期逐渐衰减该单个学习率。然而，可能难以选择初始学习速率，难以设置学习率更新机制以随着时间衰减学习率，并且难以将相同的学习率应用到所有参数。

在这方面，已提出了设置循环学习率而无需通过实验找到这种学习率的方法。这种方法单调地降低学习率，但是在合理的边界值之间周期性地改变学习率。以周期性学习率而不是固定值进行训练，可以通过较少的迭代来提高分类准确性，而无需执行调谐。

循环学习率和SGDR可以用作关于模型的学习率策略。可以针对每个数据集计算学习率的最优边界。在训练期间，学习率在下限和上限之间周期性变化。此外，在周期之间采用学习率衰减(通常为0.8或0.9)，同时增加连续周期中的周期长度。在图42中示出了根据实施例的学习率调度。这种策略使得模型训练能够更快且更准确。从学习率的下限到上限的快速跳跃使得模型不会被保持在局部极小值中，从而实现更好的模型收敛。

图42示出了使用SGDR的学习率调度。学习率在通过循环学习率(CLR)策略找到的边界之间周期性地变化。在连续周期的每一个周期中，最大学习率都按照衰减因子降低。随着模型趋于收敛，周期长度增加。

根据各种实施例，可以通过在显示装置显示图像时适用于图像来提供音频，最大化用户的审美体验。

根据各种实施例，可以通过对要在显示装置上显示的图像的类别进行分类并根据类别确定语义风格以对图像进行精细地分析，来准确地推荐音频。

根据各种实施例，可以通过在确定要随显示装置100上显示的图像一起输出的音频时反映图像和环境元素并通过考虑系统元数据，来准确地推荐音频。

根据各种实施例，可以通过在确定要随显示装置100上显示的图像一起输出的音频时考虑用户交互信息来反映用户偏好，建立个性化的系统。

可以通过将根据实施例的显示装置的操作方法实现为可以使用各种计算机执行的计算机程序命令，将该操作方法记录在计算机可读介质上。计算机可读记录介质可以包括程序命令、数据文件或数据结构中的至少一个。记录在计算机可读记录介质中的程序命令可以是专门设计的或计算机软件领域的普通技术人员所知的。计算机可读记录介质的示例包括被专门配置为存储和执行程序命令的硬件设备，比如磁介质(诸如硬盘、软盘和磁带)、光介质(诸如CD-ROM和DVD)、磁光介质(诸如光磁软盘)、以及ROM、RAM和闪存。计算机命令的示例包括由编译器准备的机器代码、以及可以由计算机使用解释器来执行的高级语言。

虽然已经具体描述了实施例，但是本领域普通技术人员将理解，在不脱离所附权利要求限定的本公开的精神和范围的情况下，可以进行形式和细节上的多种改变。

Claims

1.一种显示装置，包括：

显示器；

存储器，所述存储器存储一个或多个指令；以及

处理器，被配置为执行所述一个或多个指令以进行下列操作：

选择要在所述显示器上显示的图像，

通过使用至少一个神经网络，对所述图像的类别进行分类并根据所述类别获得所述图像的语义信息，

通过分析所述图像获得与所述图像相对应的情感信息，

基于所述图像的所述语义信息和与所述图像相对应的所述情感信息，确定要与所述图像一起输出的音频，并且

在显示所述图像的同时输出所述音频。

2.根据权利要求1所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

从所述图像中提取特征；

基于所述图像的所述特征，确定所述图像的所述类别是照片还是艺术品；

基于所述图像的所述类别为照片，通过确定与照片相对应的第一多个语义风格中的至少一个第一语义风格来获得所述语义信息；以及

基于所述图像的所述类别为艺术品，通过确定与艺术品相对应的第二多个语义风格中的至少一个第二语义风格来获得所述语义信息。

3.根据权利要求2所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

通过使用与所述图像的所述语义信息相对应的元数据表来获得与所述图像的所述语义信息相对应的音频语义元数据；

通过使用与所述图像的所述情感信息相对应的元数据表来获得与所述图像的所述情感信息相对应的音频情感元数据；以及

基于所述音频语义元数据和所述音频情感元数据，确定要与所述图像一起输出的所述音频。

4.根据权利要求3所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

将所述音频语义元数据和所述音频情感元数据发送给音乐服务提供服务器；以及

从所述音乐服务提供服务器接收基于所述音频语义元数据和所述音频情感元数据而确定的所述音频。

5.根据权利要求3所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

基于所述音频语义元数据和所述音频情感元数据来配置声音；以及

将配置的声音与所述音频混合。

6.根据权利要求3所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

获得与用户对显示在所述显示器上的图像和随所述图像输出的所述音频的反应有关的用户交互信息；以及

基于所述用户交互信息，更新与所述语义信息相对应的元数据表或与所述情感信息相对应的元数据表中的至少一个。

7.根据权利要求3所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

接收用户关于要与所述图像一起输出的所述音频的手动选择；

提取由所述用户手动选择的所述音频的元数据；以及

通过使用所述图像的元数据和关于所述图像而手动选择的所述音频的元数据，来更新与所述语义信息相对应的元数据表或与所述情感信息相对应的元数据表中的至少一个。

8.根据权利要求1所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

获得包括所述显示装置周围的环境信息的系统元数据；以及

基于所述系统元数据以及所述语义信息和所述情感信息来确定所述音频。

9.根据权利要求8所述的显示装置，其中所述系统元数据包括以下至少一项：安装所述显示装置的地点、安装所述显示装置的所述地点处的天气、或输出所述图像的时间。

10.根据权利要求1所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

基于所述用户交互信息更新所输出的音频。

11.根据权利要求1所述的显示装置，其中所述处理器还被配置为执行所述一个或多个指令以进行下列操作：

提取所述图像的特征并基于所述图像的所提取的特征处理所述音频，或者提取所述音频的特征并基于所述音频的所提取的特征处理所述图像。

12.一种显示装置的操作方法，所述操作方法包括：

选择要在所述显示装置的显示器上显示的图像；

通过使用至少一个神经网络，对所述图像的类别进行分类，根据所述图像的所述类别获得所述图像的语义信息，并且通过分析所述图像来获得与所述图像相对应的情感信息；

基于所述图像的所述语义信息和与所述图像相对应所述情感信息，确定要与所述图像一起输出的音频；以及

在显示所述图像的同时输出所述音频。

13.根据权利要求12所述的操作方法，还包括：

从所述图像中提取特征；

基于所述图像的所述特征来确定所述图像的所述类别是照片还是艺术品；

14.根据权利要求13所述的操作方法，还包括：

基于第一预存储表，通过将所述艺术品或所述照片的所确定的语义风格与预设的多个音频语义元数据进行匹配来获得音频语义元数据，在所述第一预存储表中，所述照片的所述第一多个语义风格和所述艺术品的所述第二多个语义风格分别映射到所述预设的多个音频语义元数据，

基于第二预存储表，通过将所述艺术品或所述照片的所述情感信息与多个预设的音频情感配置进行匹配来获得音频情感元数据，在所述第二预存储表中，所述多个预设的情感分别映射到所述多个预设的音频情感配置，以及

基于所述音频语义元数据和所述音频情感元数据来确定要与所述图像一起输出的所述音频。

15.一种计算机程序产品，包括其上记录有程序的计算机可读记录介质，所述程序在由显示装置的处理器执行时，使所述处理器执行方法，所述方法包括：

选择要在所述显示装置的显示器上显示的图像；

在显示所述图像的同时输出所述音频。