CN111587578B

CN111587578B - 显示装置和音频输出方法

Info

Publication number: CN111587578B
Application number: CN201880086508.4A
Authority: CN
Inventors: 金起范; 金善民; 赵在衍; 黄仁雨; 姜基雄
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-12-05
Filing date: 2018-11-01
Publication date: 2023-09-29
Anticipated expiration: 2038-11-01
Also published as: CN111587578A; EP3703383A4; WO2019112182A1; US11494162B2; US20210182017A1; EP3703383A1; KR20190066175A; EP3703383B1; KR102429556B1

Abstract

一种显示装置，包括：用户输入器，用于接收用户输入；内容接收单元，用于从内容源接收内容数据；显示单元，用于显示内容数据中包括的图像；声音单元，用于输出内容数据中包括的声音；以及处理器，用于：将内容数据解码为声音数据；基于用户输入根据关于声音参数的强化学习结果设置声音参数；根据设置的声音参数将声音数据转换为声音信号；以及，控制声音单元以输出与声音信号相对应的声音。

Description

显示装置和音频输出方法

技术领域

本公开的实施例涉及一种显示装置和音频输出方法，更具体地涉及根据用户输入和内容音频特性控制音频输出的显示装置和音频输出方法。

背景技术

通常，显示装置是一种输出设备，其将接收到或存储的图像信息可视地显示给用户，并且用于各种基于家庭或商业的领域。例如，作为显示装置，连接到个人计算机或服务器计算机的监控设备、便携式计算机设备、导航终端设备、通用电视设备、互联网协议电视(IPTV)设备、智能电话、便携式终端设备(例如，平板PC)、个人数字助理(PDA)或蜂窝电话、各种显示设备用于播放图像，例如工业领域或各种其他类型的音频/视频系统中的广告或电影。

显示装置还可以从各种内容源(例如，广播站、互联网服务器、视频回放设备、游戏设备和/或便携式终端)接收内容。此外，显示装置可以根据内容恢复(或解码)图像和音频，并且输出恢复的图像和声音。

近来，已经积极地进行了对显示装置的音频处理以及图像处理的研究，并且已经根据用户的偏好和内容的声音特性开发了定制的(自适应)声音处理技术。

发明内容

技术问题

一个方面提供了能够根据用户偏好和内容的声音特性来控制音频输出的显示装置和音频输出方法。

一个方面提供了能够使用强化学习进行音频处理的显示装置和音频输出方法。

一个方面提供了能够在无需用户输入的情况下控制音频模式和音频音量的显示装置和音频输出方法。

技术方案

根据本公开的一个方面，一种显示装置包括：用户输入器，被配置为接收用户输入；内容接收器，被配置为从内容源接收内容数据；显示器，被配置为显示内容数据中包括的图像；声音输出器，被配置为输出内容数据中包括的声音；以及处理器，被配置为将内容数据解码为声音数据，基于用户输入根据关于声音参数的强化学习结果设置声音参数，根据设置的声音参数将声音数据转换为声音信号，以及控制声音输出器输出与声音信号相对应的声音。

处理器可以基于环境信息来设置声音参数，并且根据通过用户输入获取的奖励来改变声音参数。

当在输出声音之后输入与声音相关的用户输入时，处理器可以处理通过用户输入获取的第一奖励，并且当在输出声音之后的预定时间内没有输入与声音相关的用户输入时，处理器可以处理通过用户输入获取的第二奖励，并且其中第二奖励大于第一奖励。

处理器可以通过使用强化学习改变声音参数来预测奖励，并且将声音参数改变为所预测的奖励变为最大时的值。

处理器可以在通过用户输入器输入用户输入之后立即改变声音参数。

处理器可以在显示装置被开启之后立即改变用户参数。

用户参数可以包括声音音量值，并且处理器可以基于内容的声音特性来设置声音音量值，以及可以根据通过用户输入获取的奖励来改变声音音量值。

处理器可以通过使用强化学习改变声音音量值来预测奖励，并且可以将声音音量值改变为所预测的奖励变为最大时的值。

声音参数可以包括语音的放大率和背景声音的放大率以用于声音渲染，并且处理器可以基于内容的声音特性来设置背景声音的放大率，以及可以根据通过用户输入获得的奖励来改变背景声音的放大率和语音的放大率。

处理器可以通过语音的放大率的改变和背景声音的放大率的改变来预测奖励，并且可以将语音的放大率和背景声音的放大率改变为所预测的奖励变为最大时的值。

根据本公开的一个方面，一种音频输出方法可以包括：从内容源接收内容；通过解码内容生成声音数据；设置声音参数；基于用户输入根据关于声音参数的强化学习来改变声音参数；根据改变后的声音参数将声音数据转换为声音信号；以及输出与声音信号相对应的声音。

改变声音参数可以包括：根据通过用户输入获取的奖励来改变声音参数。

奖励可以包括通过用户输入获取的第一奖励和通过用户输入获取的第二奖励，第一奖励是在输出声音之后输入与声音相关的用户输入时获取的，处理器处理通过用户输入的第一奖励，第二奖励是在输出声音之后的预定时间内没有输入与声音相关的用户输入时获取的，其中第二奖励可以大于第一奖励。

改变声音参数可以包括：通过使用强化学习改变声音参数来预测奖励；以及将声音参数改变为所预测的奖励变为最大时的值。

改变声音参数可以包括：在用户输入被输入之后立即改变声音参数。

改变声音参数可以包括：在显示装置被开启之后立即改变声音参数。

声音参数可以包括声音音量值。此外，设置声音音量值可以包括：基于内容的声音特性来设置声音音量值，以及根据通过用户输入获取的奖励来改变声音音量值。

改变声音参数可以包括：通过使用强化学习改变声音音量值来预测奖励，以及将声音音量值改变为所预测的奖励变为最大时的值。

声音参数可以包括语音的放大率和背景声音的放大率以用于声音渲染，并且设置声音参数可以包括：基于内容的声音特性来设置背景声音的放大率，以及根据通过用户输入获得的奖励来改变背景声音的放大率和语音的放大率。

改变声音参数可以包括：通过语音的放大率的改变和背景声音的放大率的改变来预测奖励，以及将语音的放大率和背景声音的放大率改变为所预测的奖励变为最大时的值。

有益效果

根据显示装置和音频输出方法，可以根据用户偏好和内容的声音特性来控制音频输出。

根据显示装置和音频输出方法，可以使用强化学习来控制音频处理。

根据显示装置和音频输出方法，可以在没有用户输入的情况下控制音频模式和音频音量。

附图说明

图1是示出了根据本公开的实施例的显示装置的外观的图。

图2是示出了根据实施例的显示装置的配置的图。

图3示出了根据实施例的显示装置中包括的控制器的示例。

图4和图5是用于说明强化学习的图。

图6、图7和图8是用于说明根据实施例的显示装置的强化学习的图。

图9示出了根据实施例的显示装置的声音处理方法。

图10示出了根据实施例的显示装置中包括的控制器的另一示例。

图11是用于说明根据实施例的显示装置的强化学习的图。

图12示出了根据实施例的显示装置中包括的控制器的另一示例。

图13是用于说明根据实施例的显示装置的强化学习的图。

具体实施方式

在以下描述中，整个说明书中相似的附图标记表示相似的元件。本说明书没有描述实施例的所有元件，并且在本发明所属的技术领域中，在通用内容或实施例之间没有重叠。诸如“单元”、“模块”、“构件”和“块”之类的术语可以体现为硬件或软件。根据实施例，多个“单元”、“模块”、“构件”或“块”可以被实现为单个组件，或者单个“单元”、“模块”、“构件”或“块”可以包括多个组件。

在所有说明书中，应理解，当提及元件“连接”到另一元件时，该元件可以直接或间接连接到该另一元件，其中直接连接包括“经由无线通信网络的连接”。

此外，当部件“包括”或“包含”元件时，除非有相反的具体描述，否则该部件还可以包括其他元件，而不排除其他元件。

在整个说明书中，当一个构件位于另一构件“上”时，这不仅包括一个构件紧靠另一构件的情况，还包括在两个构件之间存在另一构件的情况。

术语第一、第二等用于将一个组件与另一组件区分开，并且该组件不受上述术语的限制。

单数形式的表述涵盖复数形式的表述，除非在上下文中具有明确的不同含义。

在操作中使用的附图标记用于描述方便，并且不旨在描述操作的顺序，并且可以以不同的顺序执行操作，除非另有说明。

在下文中，将参考附图描述本公开的实施例。

图1是示出了根据本公开的实施例的显示装置的外观的图。

显示装置100是能够对从外部接收的图像信号进行处理并可视地显示处理后的图像的设备。例如，显示装置100可以以诸如监控器、便携式多媒体设备、便携式通信设备和便携式计算设备之类的各种形式来实现。如果显示装置100是视觉上再现图像信号并且声学上再现音频信号的设备，其形式不受限制。

此外，显示装置100可以是安装在室外(例如，建筑物的屋顶或公共汽车站)的大型显示装置(大型显示器LFD)。这里，户外并不一定限于室外，并且根据实施例的显示装置100可以安装在大量人员可以进出的地铁站、购物中心、电影院、公司、商店等中。

显示装置100可以从各种内容源接收视频信号和音频信号，并且输出与视频信号和音频信号相对应的视频和音频。例如，显示装置100可以通过广播接收天线或有线电缆接收电视广播内容，从内容回放设备接收内容，或者从内容提供商的内容提供服务器接收内容。

显示装置100可以使用强化学习根据用户偏好来学习声音处理，并且基于学习结果来处理声音数据。例如，显示装置100基于用户输入和环境信息(例如，内容的声音特性、声音模式、声音音量、外部噪声和观看时间)来学习声音处理，并且可以响应于改变环境信息来提供适合于用户的品味的声音。显示装置100旨在在没有关于音频输入的输入的情况下最终允许用户观看内容。

如图1所示，显示装置100包括容纳用于显示图像的多个部件的主体101、以及设置在主体101的一侧以显示图像I的屏幕102。

主体101形成显示装置100的外形，并且可以在主体101内部设置用于显示装置100的用以显示图像I的组件。图1中所示的主体101是平板形状，但是主体101的形状不限于图1中所示的形状。例如，主体101可以是弯曲的，使得左右两端都向前突出并且中心是凹面的。

屏幕102形成在主体101的前表面上，并且可以在屏幕102上显示作为视觉信息的图像I。例如，可以在屏幕102上显示静止图像或视频，并且可以显示2D平面图像或3D立体图像。

屏幕102上形成有多个像素P，并且可以通过从多个像素P发出的光的组合来形成在屏幕102上显示的图像I。例如，可以将由多个像素P发出的光组合为马赛克以在屏幕102上形成单个图像I。

多个像素P中的每一个像素可以发出各种亮度和各种颜色的光。

为了发出各种亮度的光，多个像素P中的每一个像素可以包括能够直接发光的配置(例如，有机发光二极管)，或者包括能够透射或阻挡由背光单元等发出的光的配置(例如，液晶面板)。

为了发出各种颜色的光，多个像素P中的每一个像素可以包括子像素P_R、P_G和P_B。子像素P_R、P_G和P_B包括可以发出红色光的红色子像素P_R、可以发出绿色光的绿色子像素P_G、以及可以发出蓝色光的蓝色子像素P_B。例如，红色光可以表示波长为大约620nm(纳米，一米的十亿分之一)至750nm的光，绿色光可以表示波长为大约495nm至570nm的光，而蓝色光可以表示从大约450nm至495nm的光。

通过组合红色子像素P_R的红色光、绿色子像素P_G的绿色光和蓝色子像素P_B的蓝色光，多个像素P中的每一个像素发出各种亮度和各种颜色的光。

图1所示的屏幕102是平板形状，但是屏幕102的形状不限于图1所示的形状。例如，屏幕102可以具有左右两端都向前突出并且中心部分是凹面的形状。

此外，可以在主体101的背面或侧面设置能够输出声音A的扬声器。扬声器可以输出内容源从显示装置100接收的内容中包括的声音A。

图2是示出了根据实施例的显示装置的配置的图。

显示装置100包括：用于从用户接收用户输入的用户输入器110；用于从内容源接收视频/音频内容的内容接收器120；与内容源进行通信的通信器130；用于处理由内容接收器120和/或通信器130接收的视频/音频内容的控制器140；显示由控制器140处理的图像的显示器150；以及用于输出由控制器140处理的声音的声音输出器160。

用户输入器110可以包括用于接收用户输入的输入按钮111。例如，用户输入器110可以包括：用于开启或关闭显示装置100的电源按钮；用于选择在显示装置100上显示的广播内容的频道选择按钮；用于调节由显示装置100输出的声音音量的声音控制按钮；以及用于选择内容源的源选择按钮。

输入按钮111中的每一个可以接收用户输入并将与用户输入相对应的电信号输出到控制器140，并且输入按钮可以通过各种输入装置(例如按键开关、触摸开关、拨盘、滑动开关和拨动开关)来实现。

用户输入器110还包括信号接收器112，其从遥控器112a接收遥控信号。接收用户输入的遥控器112a可以与显示装置100分开设置，并且可以接收用户输入并向显示装置100发送与用户输入相对应的无线信号。信号接收器112可以从遥控器112a接收与用户输入相对应的无线信号，并且向控制器140输出与用户输入相对应的电信号。

内容接收器120包括：接收终端121，其从内容源接收包括视频数据和音频数据的视频/音频内容；以及调谐器122，其接收包括电视广播内容的广播信号并调谐所接收的广播信号。

接收终端121可以通过电缆连接到内容源，并且可以从内容源接收包括图像数据和声音数据的视频/音频内容。以数据流的形式接收视频/音频内容，并且可以通过对图像数据和声音数据进行编码来生成数据流形式的视频/音频内容(以下称为“内容数据”)。

接收终端121可以包括用于接收模拟视频帧数据的分量(YPbPr/RGB)终端和复合(复合视频消隐和同步CVBS)终端。接收终端121可以包括用于接收数字图像帧数据的高清多媒体接口(HDMI)终端。接收终端121还可以包括用于从外部存储介质(例如，USB驱动)接收图像数据的通用串行总线(USB)终端。

调谐器122可以从广播接收天线或有线电缆接收广播信号，并且从广播信号中提取由用户选择的频道的广播信号。例如，调谐器122使通过广播接收天线2接收的各种频率的电视广播信号之中的具有与由用户选择的频道相对应的频率的电视广播信号通过，并且中断具有不同频率的电视广播信号。可以通过调制内容的数据流来生成电视广播信号，并且显示装置100可以通过对电视广播信号进行解调来生成内容数据。

这样，内容接收器120可以从内容源接收视频/音频内容，并且可以向控制器140输出视频/音频内容。

通信器130可以通过通信网络与内容源和/或外部设备交换数据。例如，通信器130可以从内容源接收视频/音频内容，或者从外部设备接收关于视频/音频内容的信息。关于视频/音频内容的信息是关于内容本身的信息，并且可以包括内容的标题、内容的类型和内容的体裁。

此时，通信网络可以包括有线通信网络和无线通信网络两者。有线通信网络包括诸如电缆网络或电话网络之类的通信网络，并且无线通信网络可以包括通过无线电波发送和接收信号的通信网络。无线通信网络还可以包括接入点(AP)，并且接入点可以无线地连接到显示装置100并且有线连接到有线通信网络。

通信器130可以包括：有线通信模块131，用于无线地与内容源和/或外部设备交换数据；以及无线通信模块132，用于无线地与内容源和/或外部设备交换数据。

有线通信模块131可以连接到有线通信网络，并且通过有线通信网络与内容源通信。例如，有线通信模块131可以通过以太网(以太网，IEEE 802.3技术标准)接入有线通信网络，并且通过有线通信网络从内容源和/或外部设备接收数据。

无线通信模块132可以与基站或接入点(AP)进行无线通信，并且可以通过基站或接入点接入无线通信网络。无线通信模块132还可以通过基站或接入点与连接到无线通信网络的内容源和/或外部设备通信。例如，无线通信模块132使用Wi-Fi(WiFi^TM，IEEE 802.11技术标准)与接入点(AP)进行无线通信，或使用CDMA、WCDMA、GSM、长期演进(LTE)、WiBro等与基站进行通信。无线通信模块132还可以经由基站或接入点从内容源和/或外部设备接收数据。

此外，无线通信模块132可以直接与内容源和/或外部设备进行无线通信。例如，无线通信模块132使用Wi-Fi、蓝牙^TM(IEEE 802.15.1技术标准)、ZigBee^TM(IEEE 802.15.4技术标准)等用于无线地从内容源和/或外部设备接收数据。

这样，通信器130可以通过有线通信模块131和/或无线通信模块132从内容源和/或外部设备接收视频/音频内容和/或视频/音频内容信息。通过有线通信模块131和/或无线通信模块132接收的视频/音频内容和/或视频/音频内容信息可以输出到控制器140。

控制器140可以根据通过用户输入器110接收的用户输入来控制内容接收器120、通信器130、显示器150和/或声音输出器160。例如，当接收到用于选择内容源的用户输入时，控制器140可以控制内容接收器120和/或通信器130从所选择的内容源接收内容数据。此外，当接收到用于图像调节和/或声音调节的用户输入时，控制器140可以控制显示器150和/或声音输出器160调节视频和/或声音。

控制器140可以处理由内容接收器120和/或通信器130接收的图像数据和/或音频数据。例如，控制器140可以通过对内容数据进行解码来恢复图像数据，并且向显示器150输出恢复后的图像数据。此外，控制器140可以对内容数据进行解码以恢复声音数据，并且处理声音数据以生成模拟声音信号(以下称为“声音信号”)。

特别地，控制器140可以使用强化学习来处理声音数据。例如，控制器140基于用户输入和环境信息(例如，内容的声音特性、声音模式、声音音量、外部噪声和观看时间)来学习对声音数据的处理，并且根据学习结果来处理声音数据。

控制器140可以包括微处理器141和存储器142。

存储器142可以存储用于控制显示装置100中包括的组件的程序和数据，并且可以临时存储在控制显示装置100中包括的组件的同时发布的内容数据。

此外，存储器142存储用于对由内容接收器120和/或通信器130接收的内容数据进行解码的程序和数据，并且临时存储在对内容数据进行解码的同时发布的图像数据和/或声音数据。

存储器142可以包括用于长时间存储数据的非易失性存储器(例如，ROM(只读存储器)、闪存)、以及用于临时存储数据的易失性存储器(例如，静态随机存取存储器(S-RAM)和动态随机存取存储器(D-RAM))。

微处理器141可以从用户输入器110接收用户输入。微处理器141可以根据用户输入生成用于控制内容接收器120、通信器130、显示器150和/或声音输出器160的控制信号。

微处理器141可以从内容接收器120和/或通信器130接收内容数据。微处理器141可以根据存储在存储器142中的程序和数据对内容数据进行解码，并且恢复图像数据和声音数据。

此外，微处理器141基于用户输入和环境信息(例如，内容的声音特性、声音模式、声音音量、外部噪声和观看时间)来学习对声音数据的处理，并且可以通过根据学习结果处理声音数据来生成模拟声音信号。

微处理器141可以包括执行逻辑运算和算术运算的运算电路、以及存储所计算的数据的存储器电路。

显示器150包括用于可视地显示图像的显示面板152和用于驱动显示面板152的显示驱动器151。

显示面板152可以包括作为用于显示图像的单元的像素。每个像素可以从显示驱动器151接收表示图像的电信号，并且输出与所接收的电信号相对应的光信号。这样，可以通过组合从多个像素输出的光信号在显示面板152上显示一个图像。

例如，显示面板152设置有多个像素，并且显示面板152上显示的图像可以由从多个像素发出的光的组合来形成。例如，可以通过将由多个像素发出的光组合为马赛克在显示面板152上形成一个图像。如上所述，多个像素中的每一个像素可以发出各种亮度和各种颜色的光。为了发出各种颜色的光，多个像素中的每一个像素可以包括红色子像素、绿色子像素和蓝色子像素。

显示面板152可以由包括各种类型的面板(例如，液晶显示面板(LCD面板)、发光二极管面板(LED面板)或有机发光二极管面板(OLED面板))实现。

显示驱动器151可以驱动显示面板152以从控制器140接收图像数据并显示与所接收的图像数据相对应的图像。具体地，显示驱动器151可以向构成显示面板152的多个像素中的每一个像素发送与图像数据相对应的电信号。

当显示驱动器151向构成显示面板152的每个像素发送与图像数据相对应的电信号时，每个像素输出与所接收的电信号相对应的光，并且可以将从每个像素输出的光进行组合以形成单个图像。

声音输出器160包括用于放大声音的音频放大器161、用于声学上输出放大的声音的扬声器162、以及用于收集环境声音的麦克风163。

控制器140可以处理声音数据并将其转换为声音信号，并且音频放大器161可以放大从控制器140输出的声音信号。

扬声器162可以将由音频放大器161放大的声音信号转换为声音(声波)。例如，扬声器162可以包括根据电声音信号振动的薄膜，并且可以通过薄膜的振动来生成声波。

麦克风163可以收集显示装置100的环境声音并将所收集的声音转换成电声音信号。由麦克风163收集的声音信号可以被输出到控制器140。

如上所述，显示装置100可以从各种内容源接收包括视频和音频的内容，并且输出内容中包括的视频和音频。此外，显示装置100可以使用强化学习根据用户偏好来学习声音处理，并且基于学习结果来处理声音数据。

在下文中，描述了显示装置100使用强化学习的声音处理。

图3示出了根据实施例的显示装置中包括的控制器的示例。图4和图5是用于说明强化学习的图。图6、图7和图8是用于说明根据实施例的显示装置的强化学习的图。

参考图3、图4、图5、图6、图7和图8，控制器140从用户输入器110接收用户输入，并且从内容接收器120接收内容数据。控制器140可以使用强化学习来处理内容数据并生成声音信号。此外，控制器140可以向声音输出器160输出根据内容数据生成的声音信号。

控制器140包括解码器210、数据收集器220、声音参数设置单元230、声音参数学习单元240和声音处理器250。解码器210、数据收集器220、声音参数设置单元230、声音参数学习单元240和声音处理器250分别存储在存储器142中，并由微处理器141(软件)或安装在微处理器141内部的数字电路(硬件)执行。

解码器210可以对内容数据进行解码以恢复图像数据和声音数据。可以根据各种压缩/编码标准对内容数据进行压缩/编码。例如，使用诸如H.264/MPEG-4运动图像专家组-4高级视频编码(AVC)和H.265/HEVC(高效视频编码)之类的视频压缩标准来压缩内容数据之中的视频数据。可以使用诸如高级音频编码(AAC)和MPEG-H 3D音频之类的声音压缩标准来压缩/编码声音数据。

解码器210可以使用图像压缩标准根据内容数据恢复图像数据，并且使用音频压缩标准根据内容数据恢复声音数据。

此外，解码器210可以向数据收集器220、声音参数设置单元230和声音处理器250输出声音数据。

数据收集器220可以收集环境信息以用于强化学习。例如，数据收集器220可以收集内容的声音特性、声音模式、声音音量、外部噪声、当前时间和观看时间等。

数据收集器220可以确定内容的声音特性。内容的声音特性可以取决于内容的体裁。内容的体裁可以包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧、音乐等。

数据收集器220可以分析与内容相关的元数据以确定内容的体裁。元数据是内容的属性信息，并且可以包括描述内容的各种信息，例如内容的位置、关于作者的信息以及关于体裁的信息。因此，当内容数据的元数据与内容数据一起被接收时，数据收集器220可以分析元数据以确定内容的体裁。此外，数据收集器220可以基于内容的体裁来确定内容的声音特性。

数据收集器220可以分析内容本身的声音数据以确定内容的体裁和/或声音的体裁。例如，数据收集器220可以使用体裁识别模型来确定内容的体裁和/或声音的体裁。可以基于多个训练声音数据通过机器学习来预先生成体裁识别模型。此外，数据收集器220可以基于内容的一部分的声音数据来确定内容的体裁和/或声音的体裁。

数据收集器220可以确定当前设置的声音模式。声音模式可以指示显示装置100的与声音处理相关的操作模式。根据声音模式，每个频带的声音放大率和语音与背景声音的声音放大率可以不同。

显示装置100可以通过用户输入器110从用户接收对声音模式的选择。声音参数设置单元230可以根据不同声音模式输出声音参数，并且声音处理器250可以通过根据不同声音模式使用不同声音参数处理声音数据来生成声音信号。

例如，在标准模式下，声音处理器250可以将相同的放大因子应用于所有频带，将相同的放大因子应用于前景和背景声音，并将相同的放大因子应用于语音和背景声音。在音乐模式下，声音处理器250可以根据音乐的体裁将不同的放大因子应用于频带，并且将背景声音的放大因子设置为高于语音的放大因子。在语音模式下，声音处理器250将相同的放大因子应用于所有频带，并且可以将语音放大因子设置为高于背景声音的放大因子。此外，在自动模式下，声音处理器250可以根据内容的体裁将不同的放大因子应用于频带，并且根据内容的体裁将不同的放大因子应用于语音和背景声音。

如上所述，声音处理器250可以根据用户输入在各种声音模式下操作，并且数据收集器220可以基于用户输入收集与声音处理器250的声音模式有关的信息。

数据收集器220可以基于通过用户输入器110实现的用户输入来确定声音音量。例如，可以基于通过设置在输入按钮111或遥控器112a上的音量增大按钮或音量减小按钮实现的用户输入来确定声音音量。

数据收集单元220可以基于通过麦克风163收集的声音信号来确定显示装置100周围的外部噪声。例如，数据收集单元220可以基于通过麦克风163收集的声音信号的幅度(magnitude)来确定外部噪声的幅度。

数据收集器220可以基于控制器140中包括的计时器的输出来确定当前时间和用户的观看时间。控制器140可以通过通信器130从外部设备接收关于当前时间的信息，或者可以基于用户的时间设置使用计时器来计算当前时间。

由数据收集器220收集的环境信息不限于上述信息，并且数据收集器220可以收集除上述信息之外的附加信息。

声音参数设置单元230可以从解码器210接收声音数据，并且从数据收集器220接收环境信息。声音参数设置单元230可以基于声音数据和环境信息生成用于声音处理的声音参数。这里，声音参数可以包括每个频带的声音放大因子、语音/背景声音的声音放大因子、以及声音音量。此外，声音参数设置单元230可以向声音参数学习单元240输出所生成的声音参数。

例如，声音参数设置单元230可以根据声音模式生成声音参数。声音参数设置单元230可以根据声音模式生成包括每个频带的声音放大率、语音/背景声音的声音放大率以及声音音量在内的声音参数。声音参数设置单元230可以存储与声音模式相对应的预设声音参数，并且向声音参数学习单元240输出与当前声音模式相对应的声音参数。特别地，在自动模式下，声音参数设置单元230可以根据内容的声音特性生成不同的声音参数。声音参数设置单元230可以存储与内容的声音特性相对应的预设声音参数，并且可以向声音参数学习单元240输出与当前内容的声音特性相对应的声音参数。

这样，声音参数设置单元230可以响应于各种环境信息来存储预设声音参数。此外，声音参数设置单元230可以向声音参数学习单元240输出与当前环境信息相对应的声音参数。

声音参数设置单元230根据环境信息输出预先存储的声音参数。预先存储的声音参数不会改变，除非显示装置100的软件被更新。因此，从声音参数设置单元230输出的声音参数可以不反映用户的品味或倾向。

声音参数学习单元240可以从声音参数设置单元230接收声音参数，从数据收集器220接收环境信息，以及从用户输入器110接收用户输入。

声音参数学习单元240可以基于环境信息和用户输入来学习声音参数。此外，声音参数学习单元240可以基于学习结果来修改声音参数，并且向声音处理器250输出修改后的声音参数。特别地，声音参数学习单元240可以学习声音参数并修改声音参数，使得与声音相关的用户输入最小化。

声音参数学习单元240可以使用强化学习基于环境信息和用户输入来学习声音参数。

强化学习是一种机器学习，其基于对动作的奖励来学习。

机器学习主要可以分类为监督学习、无监督学习和强化学习。

监督学习是指设计者或用户为数据提供标签(正确答案)以训练学习设备(例如计算机、微处理器等)，并且无监督学习是指学习设备在没有设计者或用户干预的情况下自己对数据进行分类和学习。

强化学习是监督学习与非监督学习之间的中间学习方法，并且其是指代理(学习设备)通过在给定环境中执行操作并从环境获得奖励来进行学习。

如图4所示，强化学习由代理、环境(或状态)、动作和奖励组成。

代理是指进行动作和学习的主体，并且显示装置100或声音参数学习单元240可以与强化学习的代理相对应。

环境是指给予代理的状态，并且由数据收集器220收集的环境信息可以与强化学习的环境相对应。

动作是指在给定环境中由代理执行的动作，并且声音参数学习单元240可以修改从声音参数设置单元230接收的声音参数以与强化学习的动作相对应。

此外，奖励是指针对动作给予代理的价值。通过用户输入器110输入的用户输入可以与强化学习的奖励相对应。

在强化学习中，代理可以在给定环境中采取特定的动作，并从环境获得奖励。代理可以分析环境与动作和奖励之间的相关性，并预测给定环境中针对多个动作的奖励。此外，代理可以采取动作以在给定环境中获得最大奖励。

更具体地说，代理可以基于时间t处给定的环境来确定状态s_t和可能的动作A(s_t)。代理可以采取动作A(s_t)中的任一种动作。结果，环境被改变为新的状态s_t+1，并且代理可以获取奖励r_t+1。这些代理基于给定环境中的动作与奖励之间的相互影响，采取动作以使累积奖励最大化。

例如，如图5所示，代理可以处于状态S₁、状态S₂和状态S₃中的任何一种状态。在每种状态下，代理可以采取动作A₁₂和动作A₁₃、动作A₂₁和动作A₂₃、以及动作A₃₂和动作A₃₁，并且代理可以获得奖励R₁₂和奖励R₁₃、奖励R₂₁和奖励R₂₃、以及奖励R₃₂和奖励R₃₁。

当代理在状态S₁下采取动作A₁₂时，代理的状态可以从状态S₁改变为状态S₂，并且代理可以在状态S₂下获得奖励R₁₂。当代理在状态S₁下采取动作A₁₃时，代理的状态可以从状态S₁改变为状态S₃，并且代理可以在状态S₃下获得奖励R₁₃。

当代理在状态S₂下采取动作A₂₁时，代理的状态可以从状态S₂改变为状态S₁，并且代理可以在状态S₁下获得奖励R₂₁。当代理在状态S₂下采取动作A₂₃时，代理的状态可以从状态S₂改变为状态S₃，并且代理可以在状态S₃下获得奖励R₂₃。

此外，当代理在状态S₃下采取动作A₃₁时，代理的状态可以从状态S₃改变为状态S₁，并且代理可以在状态S₁下获得奖励R₃₁。当代理在状态S₃下采取动作A₃₂时，代理的状态可以从状态S₃改变为状态S₂，并且代理可以在状态S₂下获得奖励R₃₂。

这样，代理可以通过环境在给定状态下采取各种动作，并且状态通过动作被转换，并且对代理进行奖励。

代理可以具有策略函数π作为[等式1]，以通过环境在给定的状态下选择动作。

[等式1]

π(S_t)＝a_t

这里，π表示策略函数，s_t表示在时间t处的状态，以及a_t表示在时间t处的代理动作。

当代理在给定环境中执行动作时，可以给予诸如[等式2]的奖励。

[等式2]

r(s_t，a，s_t+1)＝r_t+1

这里，r表示奖励函数，s_t表示在时间t处的状态，a_t表示在时间t处的代理的动作，s_t+1表示在时间t+1处的状态，以及r_t+1表示在时间t+1处给予代理的奖励。

代理的将来的奖励可以由[等式3]给出。

[等式3]

这里，R_t表示持续时间t之后的奖励，r_t+1表示在时间t+1处给予代理的奖励，以及γ可以表示在0与1之间的计数因子以推导(deduct)将来的奖励。

使用强化学习的声音参数学习单元240可以在给定环境中采取特定动作，并从该环境获得奖励。例如，声音参数学习单元240可以基于给定的环境信息来修改声音参数，并从用户接收用户输入。此外，声音参数学习单元240可以基于用户输入来获取奖励。

声音参数学习单元240分析环境信息(状态)、声音参数(动作)和用户输入(奖励)之间的相关性，并且可以根据给定的环境信息通过声音参数来预测用户输入。此外，声音参数学习单元240可以修改声音参数，以根据给定的环境信息获得最大奖励(最小用户输入)。

声音参数学习单元240可以在各种观点和/或各种条件下采取动作。

声音参数学习单元240可以响应于用户输入而采取动作，使得用户不识别声音参数的改变。例如，当用户改变广播频道或改变内容时，声音参数学习单元240可以改变由声音参数设置单元230设置的声音参数。

例如，显示装置100可以在早晨时间期间在标准模式下以声音音量10播放电影。此时，可以通过用户输入将由显示装置100播放的内容从电影改变为音乐表演。

声音参数学习单元240可以从数据收集器220接收包括内容的声音特性、声音模式、声音音量、外部噪声和观看时间在内的环境信息，并且声音参数学习单元240可以确定当前状态。在当前状态下，声音参数学习单元240可以修改声音参数。具体地，声音参数学习单元240可以改变声音模式或声音音量。

当声音参数学习单元240改变声音模式或声音音量时，环境信息被改变并且变为新的状态。此外，声音参数学习单元240可以从数据收集器220接收新的环境信息。

这样，用户输入通过改变声音音量、改变声音模式等来反映用户的偏好或倾向，并且如果用户对改变后的声音音量或声音模式感到满意，则用户不输入关于音量的用户输入，并且如果用户对改变后的声音音量或声音模式不满意，则用户可以输入用户输入。换句话说，用户输入可以指示在给定环境(即，给定内容的声音特性、声音模式、声音音量、外部噪声和观看时间)中用户的声音满意度，并且可以根据用户输入给予奖励。

当在新状态下通过用户输入器110接收到关于声音的用户输入时，声音参数学习单元240可以获得低奖励，或者可以减少声音参数学习单元240的累积奖励。

另一方面，如果在新状态下没有通过用户输入器110接收到与声音相关的用户输入，则声音参数学习单元240可以获得高奖励或增加声音参数学习单元240的累积奖励。

如图6中的(a)所示，当声音参数学习单元240将标准模式改变为音乐模式时，用户对正在播放音乐感到满意并保持声音模式。如上所述，由于通过声音参数学习单元240的动作(将声音模式从标准模式改变为音乐模式)没有输入用户输入，因此声音参数学习单元240可以获得高奖励。

如图6中的(b)所示，当声音参数学习单元240将标准模式改变为语音模式时，用户可能对正在播放音乐感到不满意，并且使声音模式返回到标准模式。如上所述，由于通过声音参数学习单元240的动作(将声音模式从标准模式改变为语音模式)输入了用户输入，因此声音参数学习单元240可以获得低奖励。

作为该学习的结果，为了获得高奖励，声音参数学习单元240可以在早晨时间在标准模式下以声音音量10播放音乐表演的状态下生成将声音模式改变为音乐模式的策略。

如图7中的(a)所示，当声音参数学习单元240将声音音量增大到11时，考虑到早晨时间，用户可以输入用于降低声音音量的用户输入。如上所述，由于通过声音参数学习单元240的动作(增大声音音量)输入了用户输入，因此声音参数学习单元240可以获得低奖励。

如图7中的(b)所示，当声音参数学习单元240将声音音量降低到9时，考虑到早晨时间，用户会对降低声音音量感到满意。如上所述，由于通过声音参数学习单元240的动作(调低音量)没有输入用户输入，因此声音参数学习单元240可以获得高奖励。

作为该学习的结果，为了获得高奖励，声音参数学习单元240可以在早晨时间在标准模式下以声音音量10播放音乐表演的状态下生成降低声音音量的策略。

声音参数学习单元240可以根据所生成的策略来改变声音参数的设置值，并且基于改变后的声音参数的设置值向声音处理器250输出声音参数。

此外，声音参数学习单元240可以响应于显示装置100的开启而采取动作，使得用户不识别声音参数的改变。此外，当显示装置100在开启状态下操作时，声音参数学习单元240可以获取奖励。

例如，当在关闭状态下通过用户输入开启显示装置100时，声音参数学习单元240可以基于学习结果来改变声音参数设置单元230的声音参数。此外，声音参数学习单元240可以根据在显示装置100正在操作的同时输入的用户输入来获取奖励。

在开启显示装置100之后，可以根据时间推移顺序地播放多个内容。当开启显示装置100时，声音参数学习单元240可以基于学习结果来确定声音参数的校正值。

声音参数学习单元240可以根据内容体裁是否由于内容的改变而改变来确定状态。例如，如图8中的(a)所示，可以定义改变内容体裁的状态S₁和没有改变内容体裁的状态S₂。声音参数学习单元240可以根据内容体裁是否改变来确定强化学习的状态。当显示装置100播放的内容的体裁与先前内容的体裁相同时，声音参数学习单元240确定状态为S₁。当由显示装置100再现的内容的体裁与先前内容的体裁不同时，声音参数学习单元240可以确定状态为S₂。

声音参数设置单元230和声音参数学习单元240可以根据内容体裁来设置不同的声音参数。例如，声音参数设置单元230和声音参数学习单元240可以根据内容体裁来设置不同的声音模式或不同的声音音量。

因此，声音参数可以在内容体裁改变的状态S₁下改变，并且声音参数可以在内容体裁没有改变的状态S₂下不改变。

用户可以根据内容和声音来输入诸如声音模式改变和/或声音音量改变之类的用户输入，并且声音参数学习单元240可以根据用户输入获得奖励。例如，如图8中的(b)所示，当改变声音模式时，声音参数学习单元240可以获取“-10”的奖励，而当保持声音模式时，声音参数学习单元240可以获取“+10”的奖励。此外，当改变声音音量时，声音参数学习单元240可以获得“-3”的奖励，而当保持声音音量时，声音参数学习单元240可以获得“+3”的奖励。

如上所述，当显示装置100被开启时，声音参数学习单元240可以通过用户输入获取奖励。然后，当显示装置100被关闭然后又被开启时，声音参数学习单元240基于获得的奖励来创建用于最大化奖励的策略。根据创建后的策略，可以改变声音参数的设置值。此外，声音参数学习单元240可以基于改变后的声音参数的设置值向声音处理器250输出声音参数。

声音处理器250可以从解码器210接收声音数据，并且从声音参数学习单元240接收修改后的声音参数。声音处理器250可以根据声音参数处理声音数据并生成声音信号。此外，声音处理器250可以向声音输出器160输出声音信号。

例如，声音处理器250可以根据从声音参数学习单元240接收的声音音量来处理声音数据。换句话说，声音处理器250可以根据从声音参数学习单元240接收的声音音量来调节声音信号的强度。

此外，声音处理器250可以将声音数据与语音和背景声音区分开，并且根据从声音参数学习单元240接收的声音模式以不同的放大率来放大语音和背景声音。声音处理器250可以在标准模式下以相同的放大率来放大语音和背景声音，在音乐模式下以比语音更高的放大率来放大背景声音，并且在语音模式下以比背景声音更高的放大率来放大语音。在自动模式下，声音处理器250可以根据从声音参数学习单元240接收的放大率分别放大语音和背景声音。

如上所述，控制器140可以使用声音压缩标准以及内容的声音特性、声音模式、声音音量、外部噪声、当前时间和观看时间(持续时间)根据内容数据恢复声音数据。控制器140可以生成用于处理声音数据的声音参数，并且可以基于环境信息和用户输入使用强化学习来修改声音参数。此外，控制器140可以根据通过强化学习修改的声音参数来处理声音数据，并生成声音信号。

如上所述，通过由控制器140使用强化学习来修改声音参数，显示装置100可以提供与周围环境(例如，观看时间和外部噪声)以及用户的品味/倾向相匹配的最佳声音。

图9示出了根据实施例的显示装置的声音处理方法。

如图9所示，描述了显示装置100的声音处理方法1000。

显示装置100获取声音数据(1010)。

内容接收器120和/或通信器130可以从内容源接收内容数据，并且向控制器140输出所接收的内容数据。

控制器140可以从内容接收器120和/或通信器130接收内容数据，并且使用图像压缩标准和声音压缩标准对内容数据进行解码以恢复图像数据和声音数据。

显示装置100收集环境信息(1020)。

控制器140可以收集用于强化学习的环境信息。例如，控制器140可以收集内容的声音特性、声音模式、声音音量、外部噪声、当前时间和观看时间。

具体地，控制器140可以基于声音数据和/或声音元数据确定内容体裁和声音特性，并且基于用于选择声音模式和声音音量的用户输入来确定声音模式和声音音量。此外，控制器140可以基于通过麦克风163收集的声音信号的大小来确定外部噪声，并且可以基于计时器的输出来确定当前时间和用户的观看时间。

显示装置100设置声音参数(1030)。

控制器140可以基于环境信息来设置声音参数。这里，声音参数可以包括语音/背景声音的声音放大率和音量。例如，可以根据声音模式来设置声音参数。具体地，控制器140可以存储与声音模式相对应的预设声音参数，并且设置与当前声音模式和/或当前内容的声音特性相对应的声音参数。

显示装置100基于强化学习来修改声音参数(1040)。

控制器140可以使用强化学习基于环境信息和用户输入来学习声音参数。

具体地，控制器140可以在给定环境中采取特定动作，并从该环境获得奖励。例如，控制器140可以基于给定的环境信息来修改声音参数，并且从用户接收用户输入。此外，控制器140可以基于用户输入获得奖励。

此外，控制器140可以分析环境信息与声音参数和用户输入之间的相关性，并预测用户输入(即，在给定的环境信息下修改声音参数时的奖励)。此外，控制器140可以修改声音参数，以便根据给定的环境信息获得最大奖励或最小用户输入。

控制器140可以在不同时间设置和修改声音参数。例如，控制器140响应于用户输入(例如，频道改变、内容改变等)来设置和修改声音参数，使得用户不识别声音参数的改变，或者控制器140可以在关闭状态下开启显示装置100时设置和修改声音参数。

显示装置100处理声音数据并输出声音(1050)。

控制器140根据声音参数处理声音数据并生成声音信号。例如，控制器140可以根据声音音量调节声音信号的大小。此外，控制器140可以将声音数据与语音和背景声音区分开，并且根据从声音参数学习单元240接收的声音模式以不同的放大率来放大语音和背景声音。

此外，控制器140可以向声音输出器160输出声音信号，并且声音输出器160可以将声音信号转换成声音(声波)。

显示装置100确定是否接收到与声音相关的用户输入(1060)。

用户可以收听显示装置100的声音并输入用户输入以修改声音模式和/或声音音量。控制器140可以通过用户输入器110接收用于修改声音模式和/或声音音量的用户输入。

当接收到用户输入时(1060中为“是”)，显示装置100获得关于强化学习的第一奖励(1070)。

由于控制器140通过学习以使与声音相关的用户输入最小化，因此当接收到用户输入时，控制器140可以获取低奖励(例如，负奖励)，或者可以减少控制器140的累积奖励。

如果没有接收到用户输入(1060中为“否”)，则显示装置100获得关于强化学习的第二奖励(1080)。

由于控制器140通过学习以使与声音相关的用户输入最小化，因此当接收到用户输入时，控制器140可以获得高奖励(例如，正奖励)，或者可以增加控制器140的累积奖励。

通过根据是否接收到用户输入来获取不同的奖励，控制器140可以处理声音数据，使得用户输入最小化。

如上所述，显示装置100可以使用强化学习根据用户的品味或倾向来学习对声音数据的处理，并且可以根据学习结果根据用户的品味或倾向对声音数据进行处理。

在下文中，将描述显示装置的强化学习的另一示例。

图10示出了根据实施例的显示装置中包括的控制器的另一示例。图11是用于说明根据实施例的显示装置的强化学习的图。

参考图10和图11，控制器140包括解码器210、数据收集器220、声音音量设置单元、声音音量学习单元241和声音处理器250。解码器210、数据收集器220、声音音量设置单元231、声音音量学习单元241和声音处理器250分别存储在存储器142中，并且通过微处理器141进行的应用(软件)处理来实现，或者通过安装在微处理器141内部的数字电路(硬件)来实现。

解码器210和数据收集器220可以与图3中所示的解码器和数据收集器相同。

声音音量设置单元231可以从解码器210接收声音数据，并且从数据收集器220接收环境信息。声音音量设置单元231可以基于声音数据和环境信息来生成声音音量值。例如，声音音量设置单元231可以根据声音模式生成声音音量值。此外，声音音量设置单元231可以向声音音量学习单元241输出所生成的声音音量值。

如上所述，声音音量设置单元231可以响应于各种环境信息存储预设声音音量值，并且可以向声音音量学习单元241输出与当前环境信息相对应的声音音量值。

声音音量学习单元241可以从声音音量设置单元231接收声音音量值，从数据收集器220接收环境信息，以及从用户输入器110接收用户输入。

声音音量学习单元241可以基于环境信息和用户输入来学习声音音量值。此外，声音音量学习单元241可以基于学习结果来修改声音音量值，并且向声音处理器250输出修改后的声音音量值。特别地，声音音量学习单元241可以学习声音音量值并且修改声音音量值，使得关于声音的用户输入最小化。

声音音量学习单元241可以使用强化学习以基于环境信息和用户输入来学习声音音量。

使用强化学习的声音音量学习单元241可以在给定环境中采取特定动作，并从该环境获得奖励。例如，声音音量学习单元241可以基于给定的环境信息来修改声音音量值，并从用户接收用户输入。此外，声音音量学习单元241可以通过用户输入来获取奖励。

声音音量学习单元241分析环境信息(状态)、声音音量值(动作)和用户输入(奖励)之间的相关性，并且可以根据给定的环境信息基于声音音量值来预测用户输入。此外，声音音量学习单元241可以修改声音音量值以根据给定的环境信息获得最大奖励(最小用户输入)。

例如，如图11所示，声音音量学习单元241可以在声音音量为“7”时将声音音量值修改为“6”。此后，显示装置100可以接收用于增大声音音量的用户输入。声音音量学习单元241可以通过在声音音量为“7”时减小音量来获得“-3”的奖励。

在声音音量为“7”的状态下，声音音量学习单元241可以将声音音量值修改为“8”。此后，显示装置100可以不接收与声音相关的用户输入。声音音量学习单元241可以通过在声音音量为“7”时增大声音音量来获取“+3”的奖励。

作为上述学习的结果，声音音量学习单元241可以在声音音量为“7”时生成增大声音音量的策略，以使奖励最大化。

此外，在声音音量为“8”的状态下，声音音量学习单元241可以将声音音量值修改为“7”。此后，显示装置100可以接收用于增大声音音量的用户输入。声音音量学习单元241可以通过在声音音量为“8”时减小音量来获取“-3”的奖励。

在声音音量为“8”的状态下，声音音量学习单元241可以将声音音量值修改为“9”。此后，显示装置100可以接收用于减小声音音量的用户输入。声音音量学习单元241可以通过在声音音量为“8”时增大音量来获取“-3”的奖励。

作为上述学习的结果，声音音量学习单元241可以在声音音量为“8”的状态下生成保持声音音量的策略，以使奖励最大化。

此外，在声音音量为“9”的状态下，声音音量学习单元241可以将声音音量值修改为“8”。此后，显示装置100可以不接收与声音相关的用户输入。声音音量学习单元241可以通过在声音音量为“9”时减小音量来获取“+3”的奖励。

在声音音量为“9”的状态下，声音音量学习单元241可以将声音音量值修改为“10”。此后，显示装置100可以接收用于减小声音音量的用户输入。声音音量学习单元241可以通过在声音音量为“9”时增大音量来获取“-3”的奖励。

作为上述学习的结果，声音音量学习单元241可以在声音音量为“9”时生成减小声音音量的策略，以使奖励最大化。

声音音量学习单元241可以根据所生成的策略来改变声音音量的设置值，并且基于改变后的声音音量设置值向声音处理器250输出声音音量值。

声音处理器250可以从解码器210接收声音数据，并且从声音音量学习单元241接收修改后的声音音量值。声音处理器250可以根据声音音量值处理声音数据并生成声音信号。具体地，声音处理器250可以根据声音音量值控制声音信号的强度。此外，声音处理器250可以向声音输出器160输出音频信号。

如上所述，控制器140可以生成用于处理声音数据的声音音量值，并且可以基于环境信息和用户输入使用强化学习来修改声音音量值。此外，控制器140可以根据通过强化学习校正的声音音量值来处理声音数据并生成声音信号。

如上所述，通过由控制器140使用强化学习来修改声音音量值，显示装置100可以提供与周围环境(例如，观看时间和外部噪声)以及用户的品味/倾向相匹配的最佳声音。

图12示出了根据实施例的显示装置中包括的控制器的另一示例。图13是用于说明根据实施例的显示装置的强化学习的图。

参考图12和图13，控制器140包括解码器210、数据收集器220、声音渲染设置单元232、声音渲染学习单元242和声音处理器250。解码器210、数据收集器220、声音渲染设置单元232、声音渲染学习单元242和声音处理器250分别存储在存储器142中，并由微处理器141(软件)或安装在微处理器141内部的数字电路(硬件)执行。

声音渲染设置单元232可以从解码器210接收声音数据，并且从数据收集器220接收环境信息。声音渲染设置单元232可以基于声音数据和环境信息来生成语音/背景声音的放大因子。例如，声音渲染设置单元232可以根据声音模式生成语音/背景声音的放大因子。此外，声音渲染设置单元232可以向声音渲染学习单元242输出所生成的语音/背景声音的放大因子。

如上所述，声音渲染设置单元232可以响应于各种环境信息来存储语音/背景声音的预设放大因子，并且向声音渲染学习单元242输出与当前环境信息相对应的语音/背景声音的放大因子。

声音渲染学习单元242可以从声音渲染设置单元232接收语音/背景声音的放大率，从数据收集器220接收环境信息，以及从用户输入器110接收用户输入。

声音渲染学习单元242可以基于环境信息和用户输入来学习语音/背景声音的放大率。此外，声音渲染学习单元242可以基于学习结果来修改语音/背景声音的放大因子，并且向声音处理器250输出修改后的语音/背景声音的放大因子。特别地，声音渲染学习单元242学习语音/背景声音的放大因子，并且可以修改语音/背景声音的放大因子，使得关于声音的用户输入最小化。

声音渲染学习单元242可以使用强化学习以基于环境信息和用户输入来学习语音/背景声音的放大率。

使用强化学习的声音渲染学习单元242可以在给定环境中采取特定动作，并从该环境获得奖励。例如，声音渲染学习单元242可以基于给定的环境信息来修改语音/背景声音的放大因子，并从用户接收用户输入。此外，声音渲染学习单元242可以通过用户输入来获取奖励。

声音渲染学习单元242分析环境信息(状态)和语音/背景声音的放大因子(动作)与用户输入(奖励)之间的相关性，并且可以在给定的环境信息下通过语音/背景声音的放大因子来预测用户输入。此外，声音渲染学习单元242可以修改语音/背景声音的放大因子，以便根据给定的环境信息获得最大奖励(最小用户输入)。

例如，如图13所示，在声音模式是“标准模式”的状态下，声音渲染学习单元242可以将声音模式改变为“音乐模式”，以改变语音/背景声音的放大因子。可以通过改变声音模式来改变语音/背景声音的放大率。此后，显示装置100可以接收用于将声音模式改变为“自动模式”的用户输入。声音渲染学习单元242可以通过将声音模式从“标准模式”修改为“音乐模式”来获得“-10”的奖励。

在声音模式是“标准模式”的状态下，声音渲染学习单元242可以将声音模式改变为“语音模式”，以改变语音/背景声音的放大因子。此后，显示装置100可以接收用于将声音模式改变为“自动模式”的用户输入。声音渲染学习单元242可以通过将声音模式从“标准模式”修改为“语音模式”来获得“-10”的奖励。

在声音模式是“标准模式”的状态下，声音渲染学习单元242可以将声音模式改变为“自动模式”以改变语音/背景声音的放大因子。此后，显示装置100可以不接收与声音相关的用户输入。声音渲染学习单元242可以通过将声音模式从“正常模式”修改为“自动模式”来获得“+10”的奖励。

作为上述学习的结果，声音音量学习单元241可以在声音模式是“标准模式”时生成将声音模式改变为“自动模式”的策略，以使奖励最大化。

当声音模式是“音乐模式”时，声音渲染学习单元242可以将声音模式改变为“自动模式”以改变语音/背景声音的放大因子。此后，显示装置100可以接收将声音模式返回到“音乐模式”的用户输入。声音渲染学习单元242可以通过将声音模式从“音乐模式”修改为“自动模式”来获得“-10”的奖励。

当声音模式是“语音模式”时，声音渲染学习单元242可以将声音模式改变为“自动模式”以改变语音/背景声音的放大因子。此后，显示装置100可以接收将声音模式返回到“语音模式”的用户输入。声音渲染学习单元242可以通过在声音模式是“语音模式”的状态下修改为“自动模式”来获得“-10”的奖励。

作为上述学习的结果，声音音量学习单元241可以在声音模式是“音乐模式”或“语音模式”的状态下生成不改变声音模式的策略，以使奖励最大化。

声音音量学习单元241可以根据所生成的策略来改变声音模式的设置值，并且基于改变后的声音模式的设置值向声音处理器250输出语音/背景声音的放大因子。

声音处理器250可以从解码器210接收声音数据，并且从声音渲染学习单元242接收修改后的语音/背景放大率。声音处理器250可以根据语音/背景声音的放大率来处理声音数据，并生成声音信号。具体地，声音处理器250可以将声音数据分离为语音数据和背景声音数据，并且根据语音/背景声音的放大因子来放大语音信号和背景声音信号。此外，声音处理器250可以向声音输出器160输出所生成的声音信号。

如上所述，控制器140可以生成用于处理声音数据的语音/背景声音的放大因子，并且可以基于环境信息和用户输入使用强化学习来改变语音/背景声音的放大因子。此外，控制器140可以根据通过强化学习修改的语音/背景声音的放大率来处理声音数据，并生成声音信号。

如上所述，通过使用强化学习来修改语音/背景声音的放大因子，控制器140可以提供与周围环境(例如，观看时间和外部噪声)以及用户的品味/倾向相匹配的最佳声音。

同时，可以以存储计算机可执行的指令的记录介质的形式来实现所公开的实施例。可以以程序代码的形式存储指令，并且当处理器执行指令时，可以生成程序模块以执行所公开的实施例的操作。记录介质可以被体现为计算机可读记录介质。

计算机可读记录介质包括存储可以被计算机读取的指令的各种记录介质。例如，可以存在只读存储器(ROM)、随机存取存储器(RAM)、磁带、磁盘、闪存和光学数据存储设备。

如上所述，已经参考附图描述了所公开的实施例。所公开的实施例所属领域的普通技术人员将理解，可以以与所公开的实施例不同的形式来实践所公开的实施例，而不改变所公开的实施例的技术精神或必要特征。所公开的实施例是说明性的，并且不应解释为限制性的。

Claims

1.一种显示装置，包括：

用户输入器，被配置为接收用户输入；

内容接收器，被配置为从内容源接收内容数据；

显示器，被配置为显示所述内容数据中包括的图像；

声音输出器，被配置为输出所述内容数据中包括的声音；以及

处理器，被配置为将所述内容数据解码为声音数据，基于所述用户输入根据关于声音参数的强化学习结果设置所述声音参数，根据设置的声音参数将所述声音数据转换为声音信号，以及控制所述声音输出器输出与所述声音信号相对应的所述声音，

其中，当在输出所述声音之后输入与所述声音相关的所述用户输入时，所述处理器被配置为处理第一奖励，以及

当在输出所述声音之后的预定时间内没有输入与所述声音相关的所述用户输入时，所述处理器被配置为处理第二奖励，其中所述第二奖励大于所述第一奖励。

2.根据权利要求1所述的显示装置，其中，所述处理器被配置为基于环境信息来设置所述声音参数，并且根据所述第一奖励或者第二奖励来改变所述声音参数。

3.根据权利要求2所述的显示装置，其中，所述处理器被配置为通过使用所述强化学习改变所述声音参数来预测所述第一奖励或者所述第二奖励，并且将所述声音参数改变为所预测的第一奖励或者第二奖励变为最大时的值。

4.根据权利要求2所述的显示装置，其中，所述处理器被配置为在通过所述用户输入器输入所述用户输入之后立即改变所述声音参数。

5.根据权利要求2所述的显示装置，其中，所述处理器被配置为在所述显示装置被开启之后立即改变所述声音参数。

6.根据权利要求1所述的显示装置，其中，所述声音参数包括声音音量值，以及

所述处理器被配置为基于所述内容的声音特性来设置所述声音音量值，并且根据通过所述第一奖励或者所述第二奖励来改变所述声音音量值。

7.根据权利要求6所述的显示装置，其中，所述处理器被配置为通过使用所述强化学习改变所述声音音量值来预测所述第一奖励或者所述第二奖励，并且将所述声音音量值改变为所预测的第一奖励或者第二奖励变为最大时的值。

8.根据权利要求1所述的显示装置，其中，所述声音参数包括语音的放大率和背景声音的放大率以用于声音渲染，以及

所述处理器被配置为：基于所述内容的声音特性来设置所述背景声音的放大率，并且根据所述第一奖励或者第二奖励来改变所述背景声音的放大率和所述语音的放大率。

9.根据权利要求8所述的显示装置，其中，所述处理器被配置为：通过所述语音的放大率的改变和所述背景声音的放大率的改变来预测所述第一奖励或者所述第二奖励，并且将所述语音的放大率和所述背景声音的放大率改变为所预测的第一奖励或者第二奖励变为最大时的值。

10.一种音频输出方法，包括：

从内容源接收内容；

通过解码所述内容生成声音数据；

设置声音参数；

基于用户输入根据关于所述声音参数的强化学习来改变所述声音参数；

根据改变后的声音参数将所述声音数据转换为声音信号；

输出与所述声音信号相对应的声音；

识别在输出所述声音之后是否接收到用于改变所述声音参数的用户输入；

基于在输出所述声音之后接收到用于改变所述声音参数的所述用户输入，处理第一奖励，以及

基于在输出所述声音之后的预定时间内没有接收到用于改变所述声音参数的所述用户输入，处理第二奖励，其中所述第二奖励大于所述第一奖励。

11.根据权利要求10所述的方法，其中，

所述改变所述声音参数包括：根据所述第一奖励或者所述第二奖励来改变所述声音参数。

12.根据权利要求11所述的方法，其中，所述改变所述声音参数包括：通过使用所述强化学习改变所述声音参数来预测所述第一奖励或者所述第二奖励；以及将所述声音参数改变为所预测的第一奖励或者第二奖励变为最大时的值。

13.根据权利要求11所述的方法，其中，所述改变所述声音参数包括：在所述用户输入被输入之后立即改变所述声音参数，或者在显示装置被开启之后立即改变所述声音参数。