CN111432273B - 信号处理装置和包括该信号处理装置的图像显示设备 - Google Patents

信号处理装置和包括该信号处理装置的图像显示设备 Download PDF

Info

Publication number
CN111432273B
CN111432273B CN202010017313.3A CN202010017313A CN111432273B CN 111432273 B CN111432273 B CN 111432273B CN 202010017313 A CN202010017313 A CN 202010017313A CN 111432273 B CN111432273 B CN 111432273B
Authority
CN
China
Prior art keywords
signal
image
principal component
signal processing
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010017313.3A
Other languages
English (en)
Other versions
CN111432273A (zh
Inventor
金起出
李准一
金钟乾
全善荷
朴钟河
李东润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN111432273A publication Critical patent/CN111432273A/zh
Application granted granted Critical
Publication of CN111432273B publication Critical patent/CN111432273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

信号处理装置和包括该信号处理装置的图像显示设备。公开了一种信号处理装置和包括该信号处理装置的图像显示设备。该信号处理装置和包括该信号处理装置的图像显示设备包括:转换器,其被配置为对输入立体声音频信号的频率进行转换;主分量分析器,其被配置为基于来自所述转换器的信号来执行主分量分析;特征提取器,其被配置为基于来自所述主分量分析器的信号来提取主分量信号的特征;包络调整器,其被配置为基于以深度神经网络模型为基础执行的预测来执行包络调整;以及逆转换器,其被配置为对来自所述包络调整器的信号进行逆转换,以输出多通道的上混音频信号。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。

Description

信号处理装置和包括该信号处理装置的图像显示设备
技术领域
本公开涉及信号处理装置和包括该信号处理装置的图像显示设备,并且更具体地,涉及当将下混立体声音频信号上混(upmixing)成多通道音频信号时能够改善空间失真的信号处理装置和包括该信号处理装置的图像显示设备。
背景技术
信号处理装置是可以执行图像信号处理或语音信号处理的设备。
最近,诸如ATSC 3.0、Dolby AC4、Dolby ATMOS、DTS Virtual:X等的MPEG-H3D音频这样的音频编解码器已经被标准化,并且对应的渲染技术已广泛用于诸如移动装置、家庭影院和图像显示设备这样的音频装置中。
即,范例从传统的多通道音频编解码器变为沉浸式音频编解码器。
另外,音频播放设备将由一对左右扬声器构成的两通道扩展到5.1、7.1通道等,以便再现有效的空间印象,由此在二维平面上形成声场。
另外,近来,对于诸如UHDTV这样的用于超高清的逼真音频,它已经被进一步加深到能够呈现诸如5.1.2通道或22.2通道这样的三维空间的多通道。
然而,由于诸如内容制作的高成本、用于将内容传输到消费者的传输设备、有线环境和无线环境的限制以及音频播放设备的价格竞争性这样的问题,导致低质量立体声源或多通道被下混并转移到消费者。
为了在多通道音频播放设备中有效地播放这种下混两通道立体声源,需要多通道上混方法。
再次分离其中将多个通道或声源组合成个体通道或声源的信号的方法被称为盲上混、盲源分离方法。
盲上混、源分离方法可以包括基于音频源具有独立特性的假定执行分析的独立分量分析(ICA)方法、使用主分量和环境分量信号执行分析的主分量分析(PCA)方法以及基于无监督学习的非负矩阵分解(NMF)方法。
此外,根据主分量分析方法(PCA),由于分离成主分量和环境分量的信号不同于原始多通道,因此不可能将主分量和环境分量匹配到原始多通道信号。
例如,在多通道播放设备中,如果主分量分布在前通道中并且环境分量均匀分布在整个通道中,或者如果它们被与内容创建方的实际意图不同地在后方上游通道中渲染,则出现失真的空间声音特性,使得音频对象只处于前方。
此外,由于基于ICA、NMF等的方法还基于独立分量和基础分量来分解信号,因此难以匹配到诸如实际的前、中央、低音扬声器、后和上游这样的多通道。
发明内容
本公开的一个目的是提供当将下混立体声音频信号上混成多通道音频信号时能够改善空间失真的信号处理装置和具有该信号处理装置的图像显示设备。
本公开的另一个目的是提供能够使用主分量分析方法和深度神经网络模型合成多通道信号的信号处理装置和具有该信号处理装置的图像显示设备。
为了实现以上目的,根据本公开的实施方式的一种信号处理装置和包括该信号处理装置的图像显示设备包括:转换器,该转换器被配置为对输入立体声音频信号的频率进行转换;主分量分析器,该主分量分析器被配置为基于来自转换器的信号来执行主分量分析;特征提取器,该特征提取器被配置为基于来自主分量分析器的信号来提取主分量信号的特征;包络调整器,该包络调整器被配置为基于以深度神经网络模型为基础执行的预测来执行包络调整;以及逆转换器,该逆转换器被配置为对来自包络调整器的信号进行逆转换,以输出多通道的上混音频信号。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括滤波器组,该滤波器组被配置为通过多个带通滤波器对来自转换器的频率转换后的立体声音频信号进行滤波。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括模型学习预测器,该模型学习预测器被配置为基于来自特征提取器的特征来执行基于深度神经网络模型的预测。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括掩码(masking)单元,该掩码单元被配置为针对来自模型学习预测器的预测结果执行掩码。
当多通道中的每个通道与时间和频率无关时,掩码单元基于来自模型学习预测器的预测结果,通过使用时间-频率分量来执行掩码,以执行通道分离。
包络调整器基于来自模型学习预测器的预测结果,通过根据针对频带的权重函数在频带中对信号的包络进行校正来分离通道。
包络调整器对每个频带的大小进行调整,以遵循目标通道中的包络。
主分量分析器将输入立体声音频信号的主分量信号和子分量信号进行分离。
主分量分析器执行输入立体声音频信号的主分量信号的通道之间的相关操作、主分量信号的平移(panning)增益操作和主分量信号的功率操作中的至少一个。
特征提取器提取输入立体声音频信号的主分量信号的平移增益和主分量信号的功率。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括:第二转换器,该第二转换器被配置为对从数据库接收到的下混立体声音频信号或多通道音频信号的频率进行转换;第二主分量分析器,该第二主分量分析器被配置为基于来自第二转换器的信号来执行主分量分析;以及第二特征提取器,该第二特征提取器被配置为基于来自第二主分量分析器的信号来提取主分量信号的特征;其中,基于第二特征提取器所提取的特征,基于深度神经网络模型来执行学习。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括模型学习预测器,该模型学习预测器被配置为基于第二特征提取器所提取的特征,基于深度神经网络模型来执行学习。
附图说明
将参照下图详细地描述各实施方式,其中,类似的附图标记代表类似的元件,其中:
图1是例示了根据本公开的实施方式的图像显示系统的示图;
图2是例示了图1的图像显示设备的内部框图的示例;
图3是图2中示出的信号处理装置的内部框图的示图;
图4A是例示了图2的遥控器的控制方法的示图;
图4B是图2的遥控器的内部框图;
图5是图2的显示器的内部框图;
图6A和图6B是在描述图5的有机发光二极管面板时参照的示图;
图7是根据本公开的实施方式的信号处理装置的内部框图的示例;
图8至图9B是在描述图7中示出的信号处理装置时参照的示图;
图10是根据本公开的实施方式的信号处理装置的内部框图的示例;
图11是根据本公开的实施方式的信号处理装置的内部框图的另一示例;
图12是描述图10至图11时参照的示图;
图13是例示了根据本公开的实施方式的信号处理装置的操作的流程图;以及
图14是例示了根据本公开的实施方式的信号处理装置的操作的流程图。
具体实施方式
下文中,将参照附图来详细地描述本公开。
相对于以下描述中使用的构成元件,后缀“模块”和“单元”只是在考虑了便于准备说明书的情况下给出的,并没有或并不用作不同的含义。因此,后缀“模块”和“单元”可以能互换地使用。
图1是示出了根据本公开的实施方式的图像显示系统的示图。
参照该图,根据本公开的实施方式的图像显示系统10可以包括含显示器180的图像显示设备100、机顶盒300和服务器600。
根据本公开的实施方式的图像显示设备100可以从机顶盒300或服务器600接收图像。
例如,图像显示设备100可以通过HDMI端子从机顶盒300接收图像信号。
对于另一示例,图像显示设备100可以通过网络端子从服务器600接收图像信号。
此外,图像显示设备100可以计算通过外部机顶盒300或网络接收到的原始图像信号的原始质量,根据计算出的原始质量来设置图像信号的图像质量,并且根据所设置的图像质量对图像信号执行图像质量处理。
此外,图像显示设备100可以使用深度神经网络(DNN)来计算接收到的图像信号的分辨率和噪声级别。因此,能够对接收到的图像信号准确地执行原始质量计算。
此外,图像显示设备100可以更新来自服务器600的DNN的参数,并且基于更新后的参数来计算接收到的图像信号的分辨率和噪声级别。因此,能够基于学习来准确地计算图像信号的原始质量。
此外,显示器180可以用各种面板中的任一种来实现。例如,显示器180可以是液晶显示面板(LCD面板)、有机发光二极管面板(OLED面板)、无机发光二极管面板(LED面板)中的任一种。
在本公开中,主要描述其中显示器180包括有机发光二极管面板(OLED面板)的示例。
此外,OLED面板表现出比LED快的响应速度并且在色彩再现方面极好。
因此,如果显示器180包括OLED面板,则优选的是,图像显示设备100的信号处理装置170(参见图2)对OLED面板执行图像质量处理。此外,信号处理装置可以被称为信号处理装置。
此外,图1中的图像显示设备100可以是TV、监视器、平板PC、移动终端、用于车辆的显示器等。
此外,图像显示设备100可以使用深度神经网络将立体声通道的输入音频信号上混为多通道的音频信号。
为此,根据本公开的实施方式的图像显示设备100包括:转换器1010,该转换器1010用于对输入立体声音频信号进行频率转换;主分量分析器1030,该主分量分析器1030基于来自转换器1010的信号来执行主分量分析;特征提取器1040,该特征提取器1040用于基于来自主分量分析器1030的信号来提取主分量信号的特征;包络调整器1060,该包络调整器1060用于基于以深度神经网络模型为基础执行的预测来执行包络调整;以及逆转换器1070,该逆转换器1070用于对来自包络调整器1060的信号进行逆转换,以输出多通道的上混音频信号。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。特别地,可以使用主分量分析方法和深度神经网络模型来容易地合成多通道信号。
图2是例示了图1的图像显示设备的内部框图的示例。
参照图2,根据实施方式的图像显示设备100包括广播接收单元105、存储单元140、用户输入接口150、传感器单元(未示出)、信号处理装置170、显示器180、音频输出单元185和亮度传感器197。
广播接收单元105可以包括调谐器单元110、解调器120、网络接口135和外部设备接口130。
此外,不同于附图,广播接收单元105可以仅包括调谐器单元110、解调器120和外部设备接口130。也就是说,可以不包括网络接口135。
调谐器单元110在通过天线(未示出)接收的射频(RF)广播信号当中选择与用户所选择的频道或者所有预存储的通道对应的RF广播信号。另外,所选择的RF广播信号被转换成中频信号、基带图像或音频信号。
例如,如果所选择的RF广播信号是数字广播信号,则该RF广播信号被转换成数字IF信号(DIF)。如果所选择的RF广播信号是模拟广播信号,则该RF广播信号被转换成模拟基带图像或音频信号(CVBS/SIF)。即,调谐器单元110可以处理数字广播信号或模拟广播信号。从调谐器单元110输出的模拟基带图像或音频信号(CVBS/SIF)可以被直接输入到信号处理装置170。
此外,调谐器单元110可以包括用于接收多个通道的广播信号的多个调谐器。另选地,也可以使用同时接收多个通道的广播信号的单个调谐器。
解调器120从调谐器单元110接收转换后的数字IF信号DIF并且执行解调操作。
解调器120可以执行解调和通道解码,然后输出流信号TS。此时,流信号可以是图像信号、音频信号或数据信号的复用信号。
从解调器120输出的流信号可以被输入到信号处理装置170。信号处理装置170执行分离、图像/音频信号处理等,然后将图像输出到显示器180并且将音频输出到音频输出单元185。
外部设备接口130可以与所连接的外部设备(未示出)(例如,机顶盒50)进行数据的发送或接收。为此,外部设备接口130可以包括A/V输入和输出单元(未示出)。
外部设备接口130可以有线/无线地连接到诸如数字通用盘(DVD)、蓝光、游戏设备、相机、摄录机、计算机(笔记本)、机顶盒这样的外部设备,并且可以用外部设备来执行输入/输出操作。
A/V输入和输出单元可以从外部设备接收图像信号和音频信号。此外,无线通信单元(未示出)可以与其它电子设备执行短距离无线通信。
通过无线通信单元(未示出),外部设备接口130可以与相邻的移动终端600交换数据。特别地,在镜像模式下,外部设备接口130可以从移动终端600接收装置信息、所执行应用信息、应用图像等。
网络接口135提供用于将图像显示设备100连接到包括互联网的有线/无线网络的接口。例如,网络接口135可以经由网络接收由互联网、内容供应商或网络运营商提供的内容或数据。
此外,网络接口135可以包括无线通信单元(未示出)。
存储单元140可以将针对每次信号处理和控制的程序存储在信号处理装置170中,并且可以存储信号处理后的图像、音频或数据信号。
另外,存储单元140可以用于临时存储输入到外部设备接口130的图像、音频或数据信号。另外,存储单元140可以通过诸如通道映射这样的通道存储功能来存储关于特定广播通道的信息。
尽管图2例示了与信号处理装置170分开设置存储单元,但是本公开的范围不限于此。存储单元140可以被包括在信号处理装置170中。
用户输入接口150将用户输入的信号发送到信号处理装置170,或者将信号从信号处理装置170发送到用户。
例如,它可以与遥控器200进行诸如电源开/关、频道选择、屏幕设置等这样的用户输入信号的发送/接收,可以将从诸如电源键、频道键、音量键、设置键等这样的本地键(未示出)输入的用户输入信号传送到信号处理装置170,可以将从感测用户姿势的传感器单元(未示出)输入的用户输入信号传送到信号处理装置170,或者可以将来自信号处理装置170的信号发送到传感器单元(未示出)。
信号处理装置170可以通过调谐器单元110、解调器120、网络接口135或外部设备接口130分离输入流,或者处理分离后的信号以生成并输出用于图像或音频输出的信号。
例如,信号处理装置170可以接收由广播接收单元105接收到的广播信号或HDMI信号,并且基于接收到的广播信号或HDMI信号执行信号处理,由此输出处理后的图像信号。
经信号处理装置170处理的图像信号被输入到显示器180,并且可以被作为与图像信号对应的图像来显示。另外,经信号处理装置170处理的图像信号可以通过外部设备接口130输入到外部输出设备。
经信号处理装置170处理的音频信号可以被作为音频信号输出到音频输出单元185。另外,经信号处理装置170处理的音频信号可以通过外部设备接口130输入到外部输出设备。
尽管未在图2中示出,但是信号处理装置170可以包括解复用器(demultiplexer)、图像处理单元等。即,信号处理装置170能够执行各种信号处理,并且出于这个原因,信号处理装置170可以以片上系统(SOC)的形式实现。随后,将参照图3对此进行描述。
另外,信号处理装置170可以控制图像显示设备100的整体操作。例如,信号处理装置170可以控制调谐器单元110,以控制与用户所选择的频道或先前存储的通道对应的RF广播的调谐。
另外,信号处理装置170可以根据通过用户输入接口150输入的用户命令或内部程序来控制图像显示设备100。
此外,信号处理装置170可以控制显示器180显示图像。此时,显示在显示单元180上的图像可以是静止图像或移动图像,并且可以是2D图像或3D图像。
此外,信号处理装置170可以显示在显示器180上所显示的图像中的特定对象。例如,该对象可以是被连接网页画面(报纸、杂志等)、电子节目指南(EPG)、各种菜单、窗口小部件、图标、静止图像、移动图像和文本中的至少一个。
此外,信号处理装置170可以基于拍摄单元(未示出)所拍摄的图像来识别用户的位置。例如,可以确定用户与图像显示设备100之间的距离(z轴坐标)。另外,可以确定显示器180中的与用户位置对应的x轴坐标和y轴坐标。
显示器180通过将经信号处理装置70处理的图像信号、数据信号、OSD信号和控制信号、从外部设备接口130接收到的图像信号、数据信号和控制信号等进行转换来生成驱动信号。
此外,显示器180可以被配置成触摸屏,并且除了输出装置之外,还用作输入装置。
音频输出单元185接收经信号处理装置170处理的信号并且将该信号作为音频输出。
拍摄单元(未示出)拍摄用户。拍摄单元(未示出)可以由单个相机实现,但是本公开不限于此并且可以由多个相机实现。拍摄单元(未示出)所拍摄的图像信息可以被输入到信号处理装置170。
信号处理装置170可以感测由拍摄单元(未示出)拍摄的图像、传感器单元(未示出)检测到的信号或其组合中的每一个来感测用户的姿势。
电源190向图像显示设备100供应对应的电力。特别地,电源190可以向能够以SOC形式实现的信号处理装置170、用于显示图像的显示器180和用于输出音频的音频输出单元185供应电力。
具体地,电源190可以包括用于将AC电力转换成DC电力的转换器以及用于将DC电力的电平进行转换的DC/DC转换器。
亮度传感器197可以感测显示器180的环境亮度。
遥控器200将用户输入发送到用户输入接口150。为此,遥控器200可以使用Bluetooth、射频(RF)通信、红外(IR)通信、超宽带(UWB)、ZigBee等。另外,遥控器200可以接收从用户输入接口150输出的图像、音频或数据信号,并且将其显示在遥控器200上或者将其作为音频输出。
此外,图像显示设备100可以是能够接收数字广播的固定或移动的数字广播接收机。
此外,图2中示出的图像显示设备100的框图是本公开的实施方式的框图。可以根据实际上实现的图像显示设备100的规格来集成、添加或省略框图中的每个部件。也就是说,如有需要,可以将两个或更多个部件集成到单个部件中,或者可以将单个部件可以被划分成两个或更多个部件。每个框中所执行的功能是出于例示本公开的实施方式的目的描述的,并且其具体操作或设备不限制本公开的范围。
图3是图2中示出的信号处理装置的内部框图的示图。
参照该图,根据本公开的实施方式的信号处理装置170可以包括解复用器310、图像处理单元320、处理器330和音频处理单元370。另外,它还可以包括数据处理单元(未示出)。
解复用器310可以将输入流进行分离。例如,当输入MPEG-2TS时,可以将其分别分离成图像、音频和数据信号。这里,输入到解复用器310的流信号可以是从调谐器单元110、解调器120或外部设备接口130输出的流信号。
图像处理单元320可以对输入图像执行信号处理。例如,图像处理单元320可以对经解复用器310分离后的图像信号执行图像处理。
为此,图像处理单元320可以包括图像解码器325、缩放器335、图像质量处理单元635、图像编码器(未示出)、OSD处理单元340、帧速率转换器350、格式化器360等。
图像解码器325可以对经分离的图像信号进行解码,并且缩放器335执行缩放,使得可以从显示器180输出解码后的图像信号的分辨率。
图像解码器325可以包括各种标准的解码器。例如,可以提供用于MPEG-2的3D图像解码器、用于彩色图像和深度图像的H.264解码器以及用于多视点图像的解码器。
缩放器335可以将由图像解码器325等解码的输入图像信号进行缩放。
例如,如果输入图像信号的大小或分辨率小,则缩放器335可以将输入图像信号进行放大,并且如果输入图像信号的大小或分辨率大,则缩放器335可以将输入图像信号进行缩小。
图像质量处理单元635可以对经图像解码器325等解码的输入图像信号执行图像质量处理。
例如,图像质量处理单元625可以对输入图像信号执行降噪处理,将输入图像信号的灰度级的分辨率进行扩展,执行图像分辨率增强,执行基于高动态范围(HDR)的信号处理,改变帧速率,执行适于面板(尤其是OLED面板等)的特性的图像质量处理。
OSD处理单元340可以根据用户输入或其本身生成OSD信号。例如,基于用户输入信号,OSD处理单元340可以生成用于将诸如图形或文本这样的各种信息显示在显示器180的屏幕上的信号。所生成的OSD信号可以包括诸如图像显示设备100的用户界面画面、各种菜单画面、窗口小部件和图标这样的各种数据。另外,所生成的OSD信号可以包括2D对象或3D对象。
另外,OSD处理单元340可以基于从遥控器200输入的指向信号(pointing signal)来生成能够显示在显示器上的指向器(pointer)。特别地,此指向器可以是由指向信号处理装置生成的,并且OSD处理单元340可以包括此指向信号处理装置(未示出)。显而易见,可以与OSD处理单元340分开地设置指向信号处理装置(未示出)。
帧速率转换器(FRC)350可以将输入图像的帧速率进行转换。此外,帧速率转换器350还可以直接输出帧速率,而无需任何额外的帧速率转换。
此外,格式化器360可以将输入图像信号的格式改变为适于在显示器上显示图像信号的格式,并且以改变后的格式输出图像信号。
特别地,格式化器360可以改变图像信号的格式以与显示面板对应。
处理器330可以控制图像显示设备100或信号处理装置170的整体操作。
例如,处理器330可以控制调谐器单元110,以控制与用户所选择的频道或先前存储的通道对应的RF广播的调谐。
另外,处理器330可以根据通过用户输入接口150输入的用户命令或内部程序来控制图像显示设备100。
另外,处理器330可以将数据发送到网络接口单元135或外部设备接口130。
另外,处理器330可以控制信号处理装置170中的解复用器310、图像处理电元320等。
此外,信号处理装置170中的音频处理单元370可以对分离后的音频信号执行音频处理。为此,音频处理单元370可以包括各种解码器。
另外,信号处理装置170中的音频处理单元370可以处理低音、高音、音量控制等。
信号处理装置170中的数据处理器(未示出)可以对分离后的数据信号执行数据处理。例如,当分离后的数据信号是编码后的数据信号时,可以对其进行解码。编码后的数据信号可以是电子节目指南信息,该电子节目指南信息包括诸如在每个通道上广播的广播节目的开始时间和结束时间这样的广播信息。
图3中示出的信号处理装置170的框图是本公开的实施方式的框图。可以根据实际上实现的信号处理装置170的规格来集成、添加或省略框图中的每个部件。
特别地,帧速率转换器350和格式化器360可以与图像处理单元320分开地设置。
图4A是例示了图2的遥控器的控制方法的示图。
如图4A的(a)中所示,例示了与遥控器200对应的指向器205显示在显示器180上。
用户可以将遥控器200上下、左右(图4A的(b))和来回(图4A的(c))移动或者旋转。显示在图像显示设备的显示器180上的指向器205与遥控器200的运动对应。这种遥控器200可以被称为空间遥控器或3D指向设备,因为指向器205移动并根据在3D空间中的移动而显示,如图中所示。
图4A的(b)例示了当用户将遥控器200向左移动时,显示在图像显示设备的显示器180上的指向器205也对应地向左移动。
关于通过遥控器200的传感器检测到的遥控器200的运动的信息被发送到图像显示设备。图像显示设备可以根据关于遥控器200运动的信息来计算指向器205的坐标。图像显示设备可以与计算出的坐标对应地显示指向器205。
图4A的(c)例示了以下情况:用户在按压遥控器200的特定按钮的同时,使遥控器200背离显示器180移动。因此,显示器180内的与指向器205对应的选择区域可以被放大,使得它可以被放大地显示。另一方面,如果用户使遥控器200靠近显示器180移动,则显示器180内的与指向器205对应的选择区域可以被缩小,使得它可以被缩小地显示。此外,当遥控器200背离显示器180移动时,选择区域可以被缩小,并且当遥控器200靠近显示器180时,选择区域可以被放大。
此外,当按下遥控器200的特定按钮时,能够将对垂直和横向移动的识别排除在外。即,当遥控器200背离或靠近显示器180移动时,上移动、下移动、左移动和右移动不被识别,而仅向前移动和向后移动被识别。在没有按下遥控器200的特定按钮的状态下,仅指向器205根据遥控器200的上移动、下移动、左移动和右移动而移动。
此外,指向器205的移动速度或移动方向可以与遥控器200的移动速度或移动方向对应。
图4B是图2的遥控器的内部框图。
参照该图,遥控器200包括无线通信单元425、用户输入单元430、传感器单元440、输出单元450、电源460、存储单元470和控制器480。
无线通信单元425向上述的根据本发明的实施方式的图像显示设备中的任一个发送信号/从其接收信号。在根据本发明的实施方式的图像显示设备当中,将以一个图像显示设备100为例进行描述。
在当前实施方式中,遥控器200可以包括RF模块421,该RF模块421用于根据RF通信标准与图像显示设备100进行信号的发送和接收。另外,遥控器200可以包括IR模块423,该IR模块423用于根据IR通信标准与图像显示设备100进行信号的发送和接收。
在当前实施方式中,遥控器200通过RF模块421将包含与遥控器200的运动有关的信息的信号发送给图像显示设备100。
另外,遥控器200可以通过RF模块421接收图像显示设备100所发送的信号。另外,如有必要,遥控器200可以通过IR模块423向图像显示设备100发送与电源开/关、频道改变、音量控制等相关的命令。
用户输入单元435可以由键盘、按钮、触摸板、触摸屏等实现。用户可以操作用户输入单元435向遥控器200输入与图像显示设备100相关的命令。如果用户输入单元435包括硬键按钮,则用户可以通过对硬键按钮的按压操作来向遥控器200输入与图像显示设备100相关的命令。当用户输入单元435包括触摸屏时,用户可以触摸触摸屏的软键,以向遥控器200输入与图像显示设备100相关的命令。另外,用户输入单元435可以包括用户能够操作的诸如滚动键、点动键等这样的各种类型的输入装置,并且本公开不限制本公开的范围。
传感器单元440可以包括陀螺仪传感器441或加速度传感器443。陀螺仪传感器441能够感测与遥控器200的运动有关的信息。
例如,陀螺仪传感器441能够基于x轴、y轴和z轴来感测与遥控器200的操作有关的信息。加速度传感器443能够感测与遥控器200的移动速度有关的信息。此外,还可以提供距离测量传感器,并因此,能够感测与显示器180的距离。
输出单元450可以输出与用户输入单元435的操作对应的图像或音频信号或者从图像显示设备100发送的信号。通过输出单元450,用户可以识别是操作用户输入单元435还是控制图像显示设备100。
例如,输出单元450可以包括:LED模块451,该LED模块451在操作用户输入单元430或者通过无线通信单元425与图像显示设备100进行信号的发送/接收时接通;振动模块453,该振动模块453用于产生振动;音频输出模块455,该音频输出模块455用于输出音频;或显示模块457,该显示模块457用于输出图像。
电源460向遥控器200供电。当遥控器200在特定时间内未移动时,电源460可以停止供电,以减少电力浪费。当操作遥控器200中设置的特定键时,电源460可以重新开始供电。
存储单元470可以存储控制或操作遥控器200所需的各种类型的程序、应用数据等。如果遥控器200通过RF模块421与图像显示设备100进行信号的无线发送和接收,则遥控器200和图像显示设备100可以通过特定频带来发送和接收信号。遥控器200的控制器480可以将关于用于与和遥控器200配对的图像显示设备100进行信号的无线发送和接收的频带等的信息存储在存储单元470中,并且可以参考所存储的信息。
控制器480控制与遥控器200的控制相关的各种事务。控制器480可以通过无线通信单元425向图像显示设备100发送与用户输入单元430的特定键操作对应的信号或者与传感器单元440所感测到的遥控器200的运动对应的信号。
图像显示设备100的用户输入接口150包括:无线通信单元151,该无线通信单元151可以与遥控器200进行信号的无线发送和接收;以及坐标值计算器415,该坐标值计算器415可以计算指向器的与遥控器200的操作对应的坐标值。
用户输入接口150可以通过RF模块412与遥控器200进行信号的无线发送和接收。另外,用户输入接口150可以根据IR通信标准通过IR模块413接收遥控器200所发送的信号。
坐标值计算器415可以校正手抖或与通过无线通信单元151接收到的遥控器200的操作对应的错误,并且计算要显示在显示器180上的指向器205的坐标值(x,y)。
遥控器200的通过用户输入接口150输入到图像显示设备100的发送信号被发送到图像显示设备100的信号处理装置170。信号处理装置170可以根据从遥控器200发送的信号来确定关于遥控器200的操作和键操作的信息,并且对应地,控制图像显示设备100。
对于另一示例,遥控器200可以计算与操作对应的指向器坐标值,并且将其输出到图像显示设备100的用户输入接口150。在这种情况下,图像显示设备100的用户输入接口150可以将关于接收到的指向器坐标值的信息发送到信号处理装置170,而不用单独的对手抖或错误的校正处理。
对于另一示例,与附图不同,坐标值计算器415可以被设置在信号处理装置170中,而非在用户输入接口150中。
图5是图2的显示器的内部框图。
参照图5,基于有机发光二极管面板的显示器180可以包括有机发光二极管面板210、第一接口230、第二接口231、定时控制器232、选通驱动器234、数据驱动器236、存储器240、处理器270、电源290、电流检测器510等。
显示器180接收图像信号Vd、第一DC电力V1和第二DC电力V2,并且可以基于图像信号Vd显示特定图像。
此外,显示器180中的第一接口230可以从信号处理装置170接收图像信号Vd和第一DC电力V1。
这里,第一DC电力V1可以用于显示器180中的电源290和定时控制器232的操作。
接下来,第二接口231可以从外部电源190接收第二DC电力V2。此外,第二DC电力V2可以被输入到显示器180中的数据驱动器236。
定时控制器232可以基于图像信号Vd来输出数据驱动信号Sda和选通驱动信号Sga。
例如,当第一接口230将输入图像信号Vd进行转换并输出转换后的图像信号va1时,定时控制器232可以基于转换后的图像信号va1来输出数据驱动信号Sda和选通驱动信号Sga。
除了来自信号处理装置170的图像信号Vd之外,定时控制器232还可以接收控制信号、垂直同步信号Vsync等。
除了图像信号Vd之外,基于控制信号、垂直同步信号Vsync等,定时控制器232生成用于选通驱动器234的操作的选通驱动信号Sga以及用于数据驱动器236的操作的数据驱动信号Sda。
此时,当面板210包括RGBW子像素时,数据驱动信号Sda可以是用于驱动RGBW子像素的数据驱动信号。
此外,定时控制器232还可以向选通驱动器234输出控制信号Cs。
选通驱动器234和数据驱动器236根据来自定时控制器232的选通驱动信号Sga和数据驱动信号Sda分别通过选通线GL和数据线DL将扫描信号和图像信号供应到有机发光二极管面板210。因此,有机发光二极管面板210显示特定图像。
此外,有机发光二极管面板210可以包括有机发光层。为了显示图像,可以在与有机发光层对应的各个像素中以矩阵形式设置多条选通线GL和数据线DL。
此外,数据驱动器236可以基于来自第二接口231的第二DC电力V2将数据信号输出到有机发光二极管面板210。
电源290可以向选通驱动器234、数据驱动器236和定时控制器232等供应各种电力。
电流检测器510可以检测在有机发光二极管面板210的子像素中流动的电流。检测到的电流可以被输入到处理器270等,以进行累加电流计算。
处理器270可以对显示器180执行各种类型的控制。例如,处理器270可以控制选通驱动器234、数据驱动器236、定时控制器232等。
此外,处理器270可以从电流检测器510接收在有机发光二极管面板210的子像素中流动的电流的信息。
另外,处理器270可以基于流过有机发光二极管面板210的子像素的电流的信息来计算有机发光二极管面板210的各个子像素的累加电流。计算出的累加电流可以被存储在存储器240中。
此外,关于老化,处理器270可以确定有机发光二极管面板210的各个子像素的累积电流是否等于或大于允许值。
例如,如果OLED面板210的各个子像素的累加电流等于或高于300000A,则处理器270可以确定对应的子像素是老化的子像素。
此外,如果OLED面板210的各个子像素的累加电流接近允许值,则处理器270可以确定对应的子像素是预计老化的子像素。
此外,基于由电流检测器510检测到的电流,处理器270可以确定累加电流最大的子像素是预计的老化子像素。
图6A和图6B是在描述图5的有机发光二极管面板时参照的示图。
首先,图6A是例示了有机发光二极管面板210中的像素的示图。
参照该图,有机发光二极管面板210可以包括多条扫描线Scan1至Scann以及与扫描线交叉的多条数据线R1、G1、B1、W1至Rm、Gm、Bm、Wm
此外,在有机发光二极管面板210中的扫描线与数据线的交叉区域中限定有像素(子像素)。在该图中,示出了包括RGBW的子像素SR1、SG1、SB1和SW1的像素。
图6B例示了图6A的有机发光二极管面板的像素中的任一个子像素的电路。
参照该图,有机发光子像素电路(CRTm)可以包括作为有源类型的扫描开关元件SW1、存储电容器Cst、驱动开关元件SW2和有机发光层(OLED)。
随着扫描线连接到栅极端子,扫描开关元件SW1根据输入扫描信号Vdscan而导通。当扫描开关元件SW1导通时,输入数据信号Vdata被传送到驱动开关元件SW2的栅极端子或存储电容器Cst的一端。
存储电容器Cst形成在驱动开关元件SW2的栅极端子和源极端子之间,并且存储传输到存储电容器Cst的一端的数据信号电平与传输到存储电容器Cst的另一端子的DC电力(VDD)电平之间的特定差值。
例如,当根据羽状振幅调制(PAM)方法,数据信号具有不同的电平时,存储在存储电容器Cst中的电力电平根据数据信号Vdata的电平差值而变化。
对于另一示例,当根据脉冲宽度调制(PAM)方法,数据信号具有不同的脉冲宽度时,存储在存储电容器Cst中的电力电平根据数据信号Vdata的脉冲宽度差值而变化。
驱动开关元件SW2根据存储在存储电容器Cst中的电力电平而导通。当驱动开关元件SW2导通时,与所存储的电力电平成比例的驱动电流(IOLED)在有机发光层(OLED)中流动。因此,有机发光层OLED执行发光操作。
有机发光层OLED可以包括与子像素对应的RGBW的发光层(EML),并且可以包括空穴注入层(HIL)、空穴传输层(HTL)、电子传输层(ETL)和电子注入层(EIL)中的至少一个。另外,它可以包括空穴阻挡层等。
此外,所有子像素都在有机发光层OLED中发射白光。然而,在绿色、红色和蓝色子像素的情况下,为子像素提供单独的滤色器以便实现颜色。即,在绿色、红色和蓝色子像素的情况下,各个子像素还包括绿色、红色和蓝色滤色器。此外,由于白色子像素输出白光,因此不需要单独的滤色器。
此外,在图中,例示了将p型MOSFET用于扫描开关元件SW1和驱动开关元件SW2,而n型MOSFET或者诸如JFET、IGBT、SIC等这样的其它开关元件也是可用的。
此外,像素是保持型元件,其在施加扫描信号之后,在单位显示时段期间,具体地在单位帧期间,在有机发光层(OLED)中连续地发光。
图7是根据本公开的实施方式的信号处理装置的内部框图的示例,并且图8至图9B是在描述图7中示出的信号处理装置时参照的示图。
首先,参照图7,根据本公开的实施方式的图像显示系统10可以包括图像显示设备100、服务器600和机顶盒300。
服务器600可以包括:学习DB 640,该学习DB 640被配置为接收训练图像并存储接收到的训练图像;质量计算器670,该质量计算器670被配置为使用从学习DB 640和深度神经网络(DNN)获取的训练图像来计算图像源质量;以及参数更新单元675,该参数更新单元675被配置为基于学习DB 640和质量计算器670来更新DNN的参数。
参数更新单元675可以将更新后的参数发送到图像显示设备100的质量计算器632。
机顶盒300可以从图像供应方接收输入信号,并且将图像信号发送到图像显示设备100的HDMI端子。
图像显示器100可以包括:图像接收单元105,该图像接收单元105被配置为经由外部机顶盒300或网络接收图像信号;以及信号处理装置170,该信号处理装置170被配置为对图像接收单元105接收到的图像信号执行信号处理;以及显示器180,该显示器180被配置为显示经信号处理装置170处理的图像。
此外,图像显示设备100可以对输入图像的质量应用最佳调谐。
此外,图像显示设备100可以实时地分析输入图像,以确定输入图像的原始分辨率、噪声级别、压缩级别和增强级别。
此外,图像显示设备100可以基于计算出的图像信息数据来改变图像质量设置,而没有引起不适感或失真感。
此外,信号处理装置170可以包括:质量计算器632,该质量计算器632被配置为计算经由外部机顶盒300或网络接收到的图像信号的原始质量;图像质量设置单元634,该图像质量设置单元634被配置为设置图像信号的质量;以及图像质量处理单元635,该图像质量处理单元635被配置为根据所设置的质量对图像信号执行图像质量处理。
如果输入图像信号的原始质量在第一时间点改变,则图像质量设置单元634将图像质量设置从第一设置依次改变为第二设置,并且图像质量处理单元635可以根据第一设置到第二设置的依次改变来执行图像质量处理。因此,能够减少当图像质量由于输入图像信号的原始质量的改变而改变时的闪烁。特别地,当图像信号的原始质量改变时,质量会是平稳地而非激进地改变。
此外,如果在再现图像的第一时间点修改接收到的图像信号的原始质量,则图像质量设置单元634可以将图像质量设置从第一设置依次改变为第二设置。因此,当改变接收到的图像信号的原始质量时,能够实时地改变图像质量设置。特别地,当图像信号的原始质量改变时,图像质量会是平稳地而非激进地改变。
此外,如果在从机顶盒300接收到图像信号的同时接收到的图像信号的原始质量由于通道改变或输入改变而在第一时间点改变,则图像质量设置单元634将图像质量从第一设置依次改变为第二设置。因此,能够减少当图像质量由于接收到的图像信号的原始质量的改变而改变时的闪烁。特别地,当图像信号的原始质量改变时,图像质量会是平稳地而非激进地改变。
质量计算器632可以将输入图像分为UHD(3840×2160或更高)、HD(1280×720)或SD(720×480或更高)图像。
质量计算器632可以相对于输入图像计算每个分辨率的概率,选择概率最高的分辨率作为最终分辨率并且将概率过低的分辨率排除之外。
除了分辨率之外,质量计算器632还可以预期噪声级别和压缩级别。
此外,当计算压缩级别时,质量计算器632可以基于通过参照原始状态减小压缩比特率而获得的训练数据来确定压缩级别。
例如,对于FHD,质量计算器632可以将当前的数字TV广播标准评估为1.0并且进行计算,使得当数据因压缩太多而丢失时,该值可以被减小至0.0。
此外,质量计算器632可以通过测量输入图像中的闪烁水平来计算噪声级别。
例如,质量计算器632可以将输入图像中的噪声级别计算为高级别、中级别、低等和无噪声级别这四个级别中的一个。
此外,质量计算器632可以使用DNN来计算接收到的图像信号的分辨率和噪声级别。因此,能够准确地分析输入图像。
此外,质量计算器632可以更新来自服务器600的DNN的参数,并且基于更新后的参数来计算接收到的图像信号的分辨率和噪声级别。因此,能够基于学习来准确地计算图像信号的原始质量。
此外,质量计算器632可以从图像信号提取第一区域和第二区域,并且基于第一区域来计算图像信号的原始分辨率并基于第二区域来计算图像信号的噪声级别。因此,能够基于适于质量计算的区域的提取来准确地计算图像信号的原始质量。
此外,质量计算器632可以提取图像信号中的边缘分量最大的区域作为第一区域,并且提取图像信号中的边缘分量最小的区域作为第二区域。因此,能够基于适于质量计算的区域的提取来准确地计算图像信号的原始质量。
此外,图像质量处理单元635可以随着计算出的噪声级别的增加而增加图像信号的降噪处理强度。因此,能够执行适于接收到的图像信号的噪声级别的图像质量处理。
此外,质量计算器632可以计算接收到的图像信号的原始分辨率、噪声级别和压缩级别,并且基于通过减小压缩比特率而获得的训练数据来计算压缩级别。
此外,图像质量处理单元635可以随着计算出的噪声级别的增加而降低图像信号的增强强度。因此,能够准确地计算压缩级别。
此外,图像质量处理单元635可以随着计算出的原始分辨率的增加而增加图像信号的增强强度。因此,能够执行适于接收到的图像信号的原始分辨率的图像质量处理。
此外,图像质量处理单元635可以随着计算出的噪声级别的增加而增加图像信号的模糊处理强度。因此,能够执行适于接收到的图像信号的压缩级别的图像质量处理。
此外,图像质量处理单元635可以随着图像信号的原始分辨率的增加而减少用于对图像信号进行滤波的滤波。因此,能够执行适于接收到的图像信号的原始分辨率的图像质量处理。
此外,图像质量处理单元635可以根据图像信号的原始分辨率来缩小图像信号,对经缩小的图像信号执行图像质量处理,将经图像质量处理的图像信号进行放大,并且输出放大后的图像信号。因此,能够执行适于接收到的图像信号的原始分辨率的图像质量处理。
图8是图7中的信号处理装置170的内部框图的示例。
此外,图8中的信号处理装置170可以与图2中的信号处理装置170对应。
首先,参照图8,根据本公开的实施方式的信号处理装置170可以包括图像分析器610和图像处理单元635。
图像分析器610可以包括图7中示出的质量计算器632和图像质量设置单元634。
图像分析器610可以分析输入图像信号,并且输出与所分析的输入图像信号相关的信息。
此外,图像分析器610可以将第一输入图像信号的对象区域和背景区域区分开。另选地,图像分析器610可以计算第一输入图像信号的对象区域和背景区域的概率或百分比。
输入图像信号可以是来自图像接收单元105的输入图像信号,或者是由图3中的图像解码器325解码的图像。
特别地,图像分析器610可以使用人工智能来分析输入图像信号,并且输出关于所分析的输入图像信号的信息。
具体地,图像分析器610可以输出输入图像信号的分辨率、灰度级、噪声级别和模式,并且将关于所分析的输入图像信号的信息(尤其是图像设置信息)输出到图像质量处理单元635。
图像质量处理单元635可以包括HDR处理单元705、第一降低单元710、增强单元750和第二降低单元790。
HDR处理单元705可以接收图像信号并且对输入的图像信号执行高动态范围(HDR)处理。
例如,HDR处理单元705可以将标准动态范围(SDR)图像信号转换成HDR图像信号。
对于另一示例,HDR处理单元705可以接收图像信号,并且对针对HDR的输入图像信号执行灰度级处理。
此外,如果输入图像信号是SDR图像信号,则HDR处理单元705可以绕过灰度级转换,并且,如果输入图像信号是HDR图像信号,则HDR处理单元705执行灰度级转换。因此,能够改善输入图像的高灰度级呈现。
此外,HDR处理单元705可以根据第一灰度级转换模式和第二灰度级转换模式对灰度级进行转换,在第一灰度级转换模式中,低灰度级将被增强并且高灰度级将达到饱和,在第二灰度级转换模式中,低灰度级和高灰度级被略微一致地转换。
具体地,如果实现了第一灰度级转换模式,则HDR处理单元705可以基于与查找表中的第一灰度级转换模式对应的数据对灰度级进行转换。
更具体地,如果实现了第一灰度级转换模式,则HDR处理单元705可以基于输入数据的等式和查找表中的由该等式确定的第一灰度级转换模式对灰度级进行转换。这里,输入数据可以包括视频数据和元数据。
此外,如果实现了第二灰度级转换模式,则HDR处理单元705可以基于与查找表中的第二灰度级转换模式对应的数据对灰度级进行转换。
更具体地,如果实现了第二灰度级转换模式,则HDR处理单元705可以基于输入数据的等式和查找表中的由该等式确定的第二灰度级转换模式对灰度级进行转换。这里,输入数据可以包括视频数据和元数据。
此外,HDR处理单元705可以在第二降低单元790中的高灰度级放大单元851中根据第三灰度级转换模式或第四灰度级转换模式来选择第一灰度级转换模式或第二灰度级转换模式。
例如,如果实现了第三灰度级转换模式,则第二降低单元790中的高灰度级放大单元851可以基于与查找表中的第三灰度级转换模式对应的数据对灰度级进行转换。
具体地,如果实现了第三灰度级转换模式,则第二降低单元790中的高灰度级放大单元851可以基于输入数据的等式和与查找表中的由该等式确定的第三灰度级转换模式对应的数据来执行对灰度级进行转换。这里,输入数据可以包括视频数据和元数据。
此外,如果实现了第四灰度级转换模式,则第二降低单元790中的高灰度级放大单元851可以基于与查找表中的第四灰度级转换模式对应的数据对灰度级进行转换。
具体地,如果实现了第四灰度级转换模式,则第二降低单元790中的高灰度级放大单元851可以基于输入数据的等式和与查找表中的由该等式确定的第四灰度级转换模式对应的数据来执行对灰度级进行转换。这里,输入数据可以包括视频数据和元数据。
例如,如果在第二降低单元790中的高灰度级放大单元851中实现了第四灰度级转换模式,则HDR处理单元705可以实现第二灰度级转换模式。
作为另一示例,如果在第二降低单元790中的高灰度级放大单元851中实现了第三灰度级转换模式,则HDR处理单元705可以实现第一灰度级转换模式。
另选地,第二降低单元790中的高灰度级放大单元851可以根据HDR处理单元705中的灰度级转换模式来改变灰度级转换模式。
例如,如果在HDR处理单元705中实现了第二灰度级转换模式,则第二降低单元790中的高灰度级放大单元851可以执行第四灰度级转换模式。
对于另一示例,如果在HDR处理单元705中实现了第一灰度级转换模式,则第二降低单元790中的高灰度级放大单元851可以实现第三灰度级转换模式。
此外,根据本公开的实施方式的HDR处理单元705可以实现灰度级转换模式,使得低灰度级和高灰度级被一致地转换。
此外,根据HDR处理单元705中的第二灰度级转换模式,第二降低单元790可以实现第四灰度级转换模式,并由此将接收到的输入信号的灰度级的上限进行放大。因此,能够改善输入图像的高灰度级呈现。
接下来,第一降低单元710可以对输入图像信号或经HDR处理单元705处理的图像信号执行降噪。
具体地,第一降低单元710可以对来自HDR处理单元705的输入图像信号或HDR图像执行多个阶段的降噪处理和第一阶段的灰度级扩展处理。
为此,第一降低单元710可以包括用于按多个阶段降低噪声的多个降噪部715和720以及用于扩展灰度级的第一灰度级扩展部725。
接下来,增强单元750可以对来自第一降低单元710的图像执行多个阶段的图像分辨率增强处理。
另外,增强单元750可以执行对象三维效果增强处理。另外,增强单元750可以执行颜色或对比度增强处理。
为此,增强单元750可以包括:多个分辨率增强单元735、738、742,所述多个分辨率增强单元735、738、742用于在多个阶段中增强图像的分辨率;以及对象三维效果增强单元745,该对象三维效果增强单元745用于增强对象的三维效果;以及颜色对比度增强单元749,该颜色对比度增强单元749用于增强颜色或对比度。
接下来,第二降低单元790可以基于从第一降低单元710接收到的经降噪的图像信号来执行第二阶段的灰度级扩展处理。
此外,第二降低单元790可以将输入信号的灰度级的上限进行放大,并且扩展输入信号的高灰度级的分辨率。因此,能够改善输入图像的高灰度级呈现。
例如,可以对输入信号的整个灰度级范围一致地执行灰度扩展。因此,在输入图像的整个区域上一致地执行灰度级扩展,由此改善高灰度级呈现。
此外,第二降低单元790可以基于从第一灰度级扩展部725接收到的信号来执行灰度级放大和扩展。因此,能够改善输入图像的高灰度级呈现。
此外,如果输入图像信号是SDR图像信号,则第二降低单元790可以基于用户输入信号来改变放大程度。因此,能够响应于用户设置而改善高灰度级呈现。
此外,如果输入图像信号是HDR图像信号,则第二降低单元790可以根据所设置的值来执行放大。因此,能够改善输入图像的高灰度级呈现。
此外,如果输入图像信号是HDR图像信号,则第二降低单元790可以基于用户输入信号来改变放大程度。因此,能够根据用户设置来改善高灰度级呈现。
此外,在基于用户输入信号扩展灰度级的情况下,第二降低单元790可以改变灰度级的扩展程度。因此,能够根据用户设置来改善高灰度级呈现。
此外,第二降低单元790可以根据HDR处理单元705中的灰度级转换模式来将灰度级的上限进行放大。因此,能够改善输入图像的高灰度级呈现。
信号处理装置170包括:HDR处理单元705,该HDR处理单元705被配置为接收图像信号并调整输入图像信号的亮度;以及降低单元790,该降低单元790被配置为放大从HDR处理单元705接收到的图像信号的亮度并增大图像信号的灰度级分辨率,由此生成增强的图像信号。增强的图像信号提供了图像信号增大的亮度和增大的灰度级分辨率,同时保持了所显示的HDR图像的高动态范围。
此外,通过信号处理装置170接收到的控制信号来调整图像信号的亮度范围。
此外,信号处理装置170还包括图像分析器,该图像分析器被配置为确定输入图像信号是HDR信号还是SDR信号,并且生成要提供给HDR处理器705的控制信号。只有当输入图像信号是HDR信号时,才通过控制信号来调整输入图像信号的亮度范围。
此外,从图像显示设备的控制器接收与信号处理相关的控制信号,并且该控制信号与图像显示设备的设置对应。
此外,基于图像信号的调整后的亮度的放大来增大灰度级的分辨率。
此外,基于信号处理装置170接收到的控制信号来增大灰度级的分辨率。
此外,从图像显示设备的控制器接收与信号处理相关的控制信号,并且该控制信号与图像显示设备的设置对应。
此外,降低单元790可以包括:高灰度级放大单元851,该高灰度级放大单元851被配置为将输入信号的灰度级的上限进行放大;以及去轮廓单元842和844,该去轮廓单元842和844被配置为扩展经高灰度级放大单元851放大的灰度级的分辨率。
第二降低单元790可以包括用于第二灰度级扩展的第二灰度级扩展部729。
此外,如图8中所示,根据本公开的信号处理装置170中的图像质量处理单元635的特征在于执行四个阶段的降低处理和四个阶段的图像增强处理。
这里,四个阶段的降低处理可以包括两个阶段的降噪处理以及两个阶段的灰度级扩展处理。
本文中,可以由第一降低单元710中的第一降噪部715和第二降噪部720执行这两个阶段的降噪处理,并且可以由第一降低单元710中的第一灰度级扩展部725和第二降低单元790中的第二灰度级扩展部729执行这两个阶段的灰度级扩展处理。
此外,这四个阶段的图像增强处理的可以包括三个阶段的图像分辨率增强(位分辨率增强)和对象三维效果增强。
这里,这三个阶段的图像增强处理可以由第一分辨率增强单元735、第二分辨率增强单元738和第三分辨率增强单元742执行,并且对象三维效果增强可以由对象三维增强单元745执行。
此外,本公开的信号处理装置170可以将相同算法或相似算法多次应用于图像质量处理,由此使得能够逐渐地增强图像质量。
为此,本公开的信号处理装置170的图像质量处理单元635可以通过将相同算法或相似算法应用两次或更多次来执行图像质量处理。
此外,由图像质量处理单元635实现的相同算法或相似算法在每个阶段具有不同的实现目的。另外,由于图像质量处理是在多个阶段中逐渐地执行的,因此具有使图像中出现较少伪像的效果,从而得到更自然且更生动的图像处理结果。
此外,将相同算法或相似算法与不同的图像质量算法交替地应用多次,由此带来比简单连续处理强的效果。
此外,本公开的信号处理装置170可以按多个阶段执行降噪处理。每个阶段的降噪处理都可以包括时间处理和空间处理。
此外,为了计算图像信号的原始质量,本公开使用诸如人工智能(AI)这样的最新技术。为此,可以使用深度神经网络(DNN)。
质量计算器632可以使用DNN来计算输入图像信号的分辨率和噪声级别。
质量计算器632可以获得针对每个压缩速率的原始分辨率和训练图像,并且训练网络以便提高计算的准确性。
提供在普通广播节目中通常可以看到的各种图像作为用于训练的图像,因此,能够覆盖任何输入环境。
此外,为了减少检测时间或成本,质量计算器632可以使用具有少量的层的卷积神经网络、Mobile-Net等来执行学习。
例如,质量计算器632可以仅分析整个图像的区域(例如,224×224、128×128、64×64等)。
此外,质量计算器632可以选择适于检测目的的检测区域。
例如,质量计算器632可以在检测原始分辨率时选择具有最大数目的边缘分量的第一区域,并且在检测噪声时选择具有最小数目的边缘分量的第二区域。
特别地,质量计算器632可以应用在短时间内选择检测区域的算法,以便提高处理速度。
例如,质量计算器632可以在检测区域上执行诸如快速傅里叶变换(FFT)这样的预处理。
图9A是示出了基于卷积神经网络(CNN)进行的计算的示图。
参照该图,卷积神经网络被用于所获取的图像1010中的特定区域1015。
可以实现卷积网络和解卷积网络作为卷积神经网络。
根据卷积神经网络,重复地执行卷积和池化(pooling)。
此外,根据图9A中示出的CNN方案,关于区域1015的信息可以被用于确定区域1015中的像素的类型。
图9B是示出了基于Mobile-Net进行的计算的示图。
根据该图中示出的方案,执行质量计算。
此外,随着原始质量的改变,本公开的信号处理装置170可以实时地应用与改变后的质量对应的图像质量设置。
特别地,在再现图像的同时,信号处理装置170可以在图像质量设置改变时,在没有诸如通道改变或输入改变这样的任何条件下对图像质量设置的改变执行控制应用。
在这种情况下,“实时”是指采用包括红外成像(IIR)和步进移动的时间处理技术。
此外,为了将下混立体声音频信号上混并将它们转换成多通道的音频信号,可以使用独立分量分析(ICA)方法、使用主分量和环境分量信号执行分析的主分量分析(PCA)方法、基于无监督学习的非负矩阵分解(NMF)方法。
此外,根据主分量分析方法(PCA)方法,由于分离成主分量和环境分量的信号不同于原始多通道,因此不可能将主分量和环境分量匹配到原始多通道信号。
例如,在多通道播放装置中,如果主分量处于前通道中并且环境分量均匀地分布在整个通道中,或者如果它们被与内容创建方的实际意图不同地在后方上游通道中渲染,则出现失真的空间声音特性,使得音频对象只处于前方。
因此,本公开提出了能够使用主分量分析方法(PCA)和深度神经网络(DNN)模型来合成多通道信号的上混方法。特别地,当将下混立体声音频信号上混成多通道音频信号时,提出了改善空间失真的方法。以下,将参照图10对此进行描述。
图10是根据本公开的实施方式的信号处理装置的内部框图的示例。
参照该图,为了将立体声音频信号上混成多通道音频信号,信号处理装置170可以包括转换器1010、滤波器组1020、主分量分析器1030、特征提取器1040、掩码单元1055、包络调整器1060和逆转换器1070。
转换器1010可以对输入立体声音频信号的频率进行转换。例如,转换器1010可以对输入立体声音频信号执行短时傅里叶变换(STFT)。
接下来,滤波器组1020可以通过使用多个带通滤波器对频率转换后的立体声音频信号进行滤波。
例如,滤波器组1020可以包括诸如基于听觉特性的阈值带、八度音带和伽马音调的等效矩形带宽(ERB)这样的滤波器组,并且执行对应的滤波。
此外,滤波器组1020可以执行正交镜滤波器(QMF)变换。
此外,通过滤波器组1020,在时间和频带上分析立体声音频信号的两通道信号,并且将其分离为传输诸如语音和音频对象这样的主要信息的主分量信号以及呈现混响和空间印象的环境分量信号。
因此,当通过深度神经网络(DNN)进行分析时,能够简化上混所需的参数并且降低计算复杂度。
此外,可以将基于主分量分析(PCA)的声源分离方法表达为式1。
[式1]
x1[i,k]=s1[i,k]+n1[i,k],
x2[i,k]=s2[i,k]+n2[i,k],
s2=as1
这里,s1[i,k]、s2[i,k]可以分别表示时域中的索引i和频域中的频带k的主分量信号,n1[i,k]、n2[i,k]可以分别表示时域的索引i和频域的频带k的环境分量信号,并且a可以表示平移增益。
主分量信号可以表示在立体声信号的两个通道之间具有高相关性并且仅具有幅度差的分量,并且环境分量信号可以表示在诸如由各种路径反映的声音或混响声音这样的两个通道之间具有低相关性的分量。
在主分量分析方法中,由于将诸如直接声音、语音和乐器这样的特定源分离为主分量,因此可以通过针对前通道的平移来高效地提高可理解度。
另外,主分量分析方法可以被用于使空间印象最大化,因为背景声音被分离为环境分量并且在整个通道上被一致地渲染。
然而,当将主分量平移到其中不存在主分量的部分或一侧通道时,因为相关性小,所以性能会下降。
另外,所有通道(诸如,前通道、中央通道、低音扬声器通道、后通道和上游通道)的主分量信号都混合在所估计的主分量信号中,并且所有原始通道的环境分量也都混合在环境分量中。
因此,主分量分析(PCA)方法可能难以将对应原始通道的分量准确地渲染到多通道播放设备的每个扬声器。另外,在立体声播放设备的情况下,由于不正确的多通道上混在通过适于每个通道的虚拟化来改善声场方面具有局限性,因此空间失真可能与内容创建者的意图不同地发生。
此外,由于基于ICA、NMF等的方法还基于独立分量和基础分量来分解信号,因此难以匹配到诸如实际的前、中央、低音扬声器、后和上游这样的多通道。
近来,相对于许多分层模型,随着开发了可以在不降低局部最小值的情况下提高性能的神经网络研究技术,其被扩展到除了语音识别之外的语音音频信号的诸如分类、识别、检测、检索等这样的各种领域。
因此,在本公开中,执行使用深度神经网络(DNN)模型的人工智能(AI)图像质量处理、人工智能(AI)声音质量处理等。特别地,本公开建议使用深度神经网络(DNN)模型的上混方案。
为此,必须使用深度神经网络(DNN)模型学习下混音频信号或多通道音频信号。将参照图11对此进行描述。
此外,主分量分析器1030可以基于来自转换器1010的信号来执行主分量分析。
特别地,主分量分析器1030可以基于来自滤波器组1020的信号来执行主分量分析。
特征提取器1040可以基于来自主分量分析器1030的信号来提取主分量信号的特征。
模型学习预测器1050可以基于来自特征提取器1040的特征来执行基于深度神经网络模型的预测。
掩码单元1055可以针对来自模型学习预测器1050的预测结果执行掩码。
当多个通道中的每个通道与时间和频率无关时,基于来自模型学习预测器1050的预测结果,掩码单元1055可以通过使用时间频率分量来执行掩码,以执行通道分离。
包络调整器1060可以基于以深度神经网络模型为基础执行的预测来执行包络调整。
包络调整器1060可以基于来自模型学习预测器1050的预测结果,通过根据针对频带的权重函数在频带中对信号的包络进行校正来分离通道。
包络调整器1060可以对每个频带的大小进行调整,以遵循目标通道中的包络。
逆转换器1070可以对来自包络调整器1060的信号进行逆转换,以输出多通道上混音频信号。
图11是根据本公开的实施方式的信号处理装置的内部框图的另一示例。
参照该图,为了将立体声音频信号上混成多通道音频信号,信号处理装置170还可以包括第二转换器1015、第二滤波器组1025、第二主分量分析器1035和第二特征提取器1045。
此外,数据库1005可以包含下混立体声音频信号和多通道音频信号。
此时,数据库1005可以设置在服务器600等中。
此外,第二转换器1015可以对从数据库1005接收到的下混立体声音频信号或多通道音频信号的频率进行转换。
例如,第二转换器1015可以对输入的下混立体声音频信号或多通道音频信号执行短时傅里叶变换(STFT)。
接下来,第二滤波器组1025可以通过使用多个带通滤波器对频率转换后的立体声音频信号进行滤波。
例如,第二滤波器组1025可以包括诸如基于听觉特性的阈值带、八度音带、伽马音调的等效矩形带宽(ERB)这样的滤波器组,并且可以执行对应的滤波。
此外,第二滤波器组1025可以执行正交镜滤波器(QMF)转换。
另一方面,通过第二滤波器组1025,在时间和频带上分析立体声音频信号的两通道信号或多通道音频信号,并且可以将其分离为传输诸如语音和音频对象这样的主要信息的主分量信号以及呈现混响和空间印象的环境分量信号。
第二主分量分析器1035可以相对于立体声音频信号的两通道信号或多通道音频信号分离主分量信号和环境分量信号,并且执行主分量信号的通道之间的相关操作、主分量信号的平移增益操作、主分量信号的功率操作等。
此外,第二主分量分析器1035可以执行环境分量信号的通道之间的相关操作、环境分量信号的平移增益操作、环境分量信号的功率操作等。
第二特征提取器1045可以提取诸如主分量信号的平移增益、主分量信号的功率、环境分量信号的平移增益、环境分量信号的功率等这样的特征。
此外,第二特征提取器1045所提取的特征等可以被输入到模型学习预测器1050。
此外,模型学习预测器1050可以基于第二特征提取器1045所提取的特征,基于深度神经网络模型来执行学习。
特别地,模型学习预测器1050可以基于诸如第二特征提取器1045所提取的主分量信号的平移增益以及主分量信号的功率这样的特征基于深度神经网络模型来执行学习。
此外,模型学习预测器1050可以设置在信号处理装置170中,但是也可以设置在服务器600中。
此外,图10中示出的信号处理装置170可以将立体声音频信号转换成多通道音频信号。
为此,如上所述,图10中示出的信号处理装置170可以包括转换器1010、滤波器组1020、主分量分析器1030、特征提取器1040、掩码单元1055、包络调整器1060和逆转换器1070。
转换器1010可以对输入的下混立体声音频信号进行频率转换。
接下来,滤波器组1020可以通过使用多个带通滤波器对频率转换后的立体声音频信号进行滤波。
接下来,主分量分析器1030相对于立体声音频信号的两通道信号分离主分量信号和环境分量信号,并且执行主分量信号的通道之间的相关操作、主分量信号的平移增益操作、主分量信号的功率操作等。
此外,主分量分析器1030可以执行环境分量信号的通道之间的相关操作、环境分量信号的平移增益操作、环境分量信号的功率操作等。
此外,特征提取器1040可以提取诸如主分量信号的平移增益、主分量信号的功率、环境分量信号的平移增益、环境分量信号的功率等这样的特征。
此外,特征提取器1040所提取的特征等可以被输入到模型学习预测器1050。
此外,模型学习预测器1050可以基于特征提取器1040所提取的特征来执行基于深度神经网络模型的预测。
特别地,模型学习预测器1050可以基于诸如特征提取器1040所提取的主分量信号的平移增益以及主分量信号的功率这样的特征来执行基于深度神经网络模型的预测。
此外,模型学习预测器1050可以设置在信号处理装置170中,但是也可以设置在服务器600中。
此外,如果通过主分量分析理想地分离下混输入信号,则可以将其表达为式2、式3。
[式2]
sd[i,k]=sf[i,k]+sc[i,k]+sw[i,k]+sr[i,k]+sh[i,k]
[式3]
nd[i,k]=nf[i,k]+nr[i,k]+nh[i,k]
这里,Sd、Sf、Sc、Sw、Sr、Sh分别表示下混通道的主分量以及原始多通道的前通道、中央通道、低音扬声器通道、后通道和上游通道的主分量,并且nd、nf、nr、nh分别表示下混通道的环境分量以及原始多通道的前通道、后通道和上游通道的环境分量。
在式2的主分量中,前通道、中央通道、低音扬声器通道、后通道和上游通道的主分量被混合。特别地,在中央和低音扬声器信号中,主分量是主要的,因为通过下混方法,相关性高。
在式2和式3中,假定多通道信号是5.1.2通道的布局,但是可以类似地呈现其它布局的多通道信号。
掩码单元1055可以针对模型学习预测器1050所预测的结果执行掩码。
当多通道信号中的每个通道在统计学上与时间和频率无关地独立时,掩码单元1055可以使用时间-频率分量来执行掩码,以执行每个通道分离,如式4中所示。
[式4]
Figure BDA0002359389280000321
Figure BDA0002359389280000322
这里,Msx和Mnx分别表示上混通道的主分量和环境分离的掩码函数。
根据针对输入信号的主分量和环境分量匹配的原始多通道中的任何通道的频带来确定掩码函数。
在匹配方法中,可以通过从深度神经网络(DNN)的模型预测出的多通道的主分量和环境分量的频带功率容易地得知包含关系。
因此,掩码函数可以意指将输入下混的主分量Sd和环境分量nd分离成上混通道的主分量Sx和环境分量nx的函数。
目标通道的分离的主分量和环境分量被如式5中所示地混合,以获得最终的上混信号。
[式5]
Figure BDA0002359389280000323
当如上所述使用矩形窗口的二进制掩码时,其在客观评估中有良好的性能,但是在主观音质方面有严重失真的缺点。
因此,可以使用高斯滤波器来改善听觉非自然失真。
然而,由于实际的多通道信号没有相互背叛的特性,因此不能以简单的掩码形式完全应对。
结果,包络调整器1060可以调整通过掩码输出的信号的包络。
即,包络调整器1060可以通过使用如式6中所示的加权函数来分离通道。因此,可以获得更自然的输出。
[式6]
Figure BDA0002359389280000324
Figure BDA0002359389280000325
这里,Wsx和Wnx分别表示目标通道的主分量权重函数和环境分量权重函数。
权重函数表示使相对于目标上混通道的信号和下混信号的主分量与环境分量信号之间的误差最小化的权重函数。
因此,可以将针对频带的权重函数视为在频带中对信号的包络进行校正。
即,包络调整器1060可以通过计算多通道的主分量和环境分量包络的权重来调整包络。
如式7中所示,生成了应用了权重函数的最终上混信号。
[式7]
Figure BDA0002359389280000331
为了调整包络,可以在模型学习预测器1050中根据深度神经网络DNN的模型来预测上混参数。
因此,根据模型学习预测器1050中的深度神经网络(DNN)学习性能,多通道上混性能会下降。
此外,包络调整器1060可以对每个频带的大小进行调整,以遵循目标通道的包络。在这种情况下,由于只需要估计主分量和环境分量频带的大小信息作为特征向量,因此在实现方面有优势。
另外,由于可以将根据深度神经网络(DNN)模型优化的权重函数应用于通过常规主分量分析方法估计的主分量和环境分量,因此具有能够进行实时调谐的优点。
此外,逆转换器1070可以对从包络调整器1060输出的信号进行逆转换,以输出多通道上混音频信号。
因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
图12是描述图10至图11时参照的示图。
参照该图,立体声输入信号(左信号、右信号)可以被主分量分析器1030分离成主分量信号(主)和环境分量信号(环境)。
此外,可以经由包络调整器1060等将其上混成多通道信号。
此外,多通道音频信号的前通道、中央通道和低音扬声器通道相对于频域彼此不相关。另外,由于左通道和右通道具有与同一信号的高相关性,所以左通道和右通道可以被分解成主分量。
此外,因为左通道与右通道之间的相关性低,因此后通道和上游通道可以被分解为环境分量。
此外,在深度神经网络模型中预测的权重函数被应用于由包络调整器1060分解的主分量和环境分量,以产生上混通道。
图13是例示了根据本公开的实施方式的信号处理装置的操作的流程图。
参照该图,信号处理装置170可以接收输入立体声信号(S1405)。特别地,能够接收下混立体声信号。
接下来,信号处理装置170中的转换器1030可以将输入立体声音频信号的频率进行转换(S1410)。
如上所述,可以通过使用短时傅里叶变换(STFT)对输入立体声音频信号进行转换。
接下来,滤波器组1020可以通过使用多个带通滤波器对频率转换后的立体声音频信号进行滤波(S1415)。
接下来,滤波器组1020可以通过使用多个带通滤波器对频率转换后的立体声音频信号进行滤波(S1415)。
接下来,主分量分析器1030可以基于来自转换器1010的信号来执行主分量分析(S1420)。
特别地,主分量分析器1030可以基于来自滤波器组1020的信号来执行主分量分析。
接下来,特征提取器1040可以基于来自主分量分析器1030的信号来提取主分量信号的特征(S1425)。
接下来,模型学习预测器1050可以基于来自特征提取器1040的特征来执行基于深度神经网络模型的预测(S1430)。
接下来,掩码单元1055可以针对来自模型学习预测器1050的预测结果执行掩码(S1435)。
此外,当多个通道中的每个通道与时间和频率无关时,掩码单元1055基于来自模型学习预测器1050的预测结果,利用时间频率分量来执行掩码,以执行通道分离。
接下来,包络调整器1060可以基于以深度神经网络模型为基础执行的预测来执行包络调整(1440)。
此外,基于来自模型学习预测器1050的预测结果,包络调整器1060可以通过根据针对频带的权重函数在频带中对信号的包络进行校正来分离通道。
此外,包络调整器1060可以对每个频带的大小进行调整,以遵循目标通道中的包络。
接下来,逆转换器1070可以对来自包络调整器1060的信号进行逆转换,以输出多通道上混音频信号。
因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。特别地,可以使用主分量分析方法和深度神经网络模型来容易地合成多通道信号。
图14是例示了根据本公开的实施方式的信号处理装置的操作的流程图。
参照该图,信号处理装置170可以接收从数据库1005接收到的下混立体声音频信号或多通道音频信号。
接下来,信号处理装置170中的第二转换器1015可以对从输入的数据库1005接收到的下混立体声音频信号或多通道音频信号的频率进行转换(S1310)。如上所述,可以通过使用短时傅里叶变换(STFT)对输入立体声音频信号进行转换。
接下来,第二滤波器组1025可以通过使用多个带通滤波器对频率转换后的立体声音频信号进行滤波(S1315)。
接下来,第二主分量分析器1035可以基于来自第二转换器1015的信号来执行主分量分析(S1320)。
特别地,第二主分量分析器1035可以基于来自第二滤波器组1025的信号来执行主分量分析。
接下来,第二特征提取器1045可以基于来自第二主分量分析器1035的信号来提取主分量信号的特征(S1325)。
接下来,模型学习预测器1050可以基于来自第二特征提取器1045的特征,基于深度神经网络模型来执行学习(S1330)。
因此,基于深度神经网络模型执行学习,使得可以在图13的多通道预测中执行准确预测。
此外,除了诸如TV、移动终端、车辆显示设备这样的图像显示设备之外,信号处理装置170的音频信号的上混通道生成还可以应用于能够播放音频内容的诸如便携式播放设备、家庭影院、条形音箱、汽车音频等这样的任何播放设备。
特别地,诸如家庭影院、汽车音频这样的多通道播放设备可以生成可以输出到每个扬声器的多通道音频信号。
另外,即使在用作耳机和头戴式耳机的便携式播放设备中,也可以通过将3D多通道信号与外部化技术链接来再现沉浸式音频环境。
另外,甚至TV和条形音箱形式的两通道扬声器的播放设备也可以与多通道虚拟化技术相结合,以再现进一步增强的三维音频。
如根据以上描述而清楚的,根据本公开的实施方式的一种信号处理装置和包括该信号处理装置的图像显示设备包括:转换器,该转换器被配置为对输入立体声音频信号的频率进行转换;主分量分析器,该主分量分析器被配置为基于来自转换器的信号来执行主分量分析;特征提取器,该特征提取器被配置为基于来自主分量分析器的信号来提取主分量信号的特征;包络调整器,该包络调整器被配置为基于以深度神经网络模型为基础执行的预测来执行包络调整;以及逆转换器,该逆转换器被配置为对来自包络调整器的信号进行逆转换,以输出多通道的上混音频信号。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。特别地,能够使用主分量分析方法和深度神经网络模型来容易地合成多通道信号。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括滤波器组,该滤波器组被配置为通过多个带通滤波器对来自转换器的频率转换后的立体声音频信号进行滤波。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括模型学习预测器,该模型学习预测器被配置为基于来自特征提取器的特征来执行基于深度神经网络模型的预测。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括掩码单元,该掩码单元被配置为针对来自模型学习预测器的预测结果执行掩码。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
当多通道中的每个通道与时间和频率无关时,掩码单元基于来自模型学习预测器的预测结果,通过使用时间-频率分量来执行掩码,以执行通道分离。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
包络调整器基于来自模型学习预测器的预测结果,通过根据针对频带的权重函数在频带中对信号的包络进行校正来分离通道。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
包络调整器对每个频带的大小进行调整,以遵循目标通道中的包络。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
主分量分析器将输入立体声音频信号的主分量信号和子分量信号进行分离。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
主分量分析器执行输入立体声音频信号的主分量信号的通道之间的相关操作、主分量信号的平移增益操作和主分量信号的功率操作中的至少一个。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
特征提取器提取输入立体声音频信号的主分量信号的平移增益和主分量信号的功率。因此,当将下混立体声音频信号上混为多通道音频信号时,能够改善空间失真。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括:第二转换器,该第二转换器被配置为对从数据库接收到的下混立体声音频信号或多通道音频信号的频率进行转换;第二主分量分析器,该第二主分量分析器被配置为基于来自第二转换器的信号来执行主分量分析;以及第二特征提取器,该第二特征提取器被配置为基于来自第二主分量分析器的信号来提取主分量信号的特征;其中,基于第二特征提取器所提取的特征,基于深度神经网络模型来执行学习。因此,可以基于深度神经网络模型执行学习。
根据本公开的实施方式的信号处理装置和包括该信号处理装置的图像显示设备还包括模型学习预测器,该模型学习预测器被配置为基于第二特征提取器所提取的特征基于深度神经网络模型来执行学习。因此,可以基于深度神经网络模型执行学习。
虽然为了例示性的目的已经公开了本公开的优选实施方式,但是本领域技术人员将理解,如在所附的权利要求中公开的,各种修改、添加和替换是可能的。因此,这些修改、添加和替换也应该被理解为落入本公开的范围内。
相关申请的交叉引用
本申请要求于2019年1月8日在韩国知识产权局提交的韩国专利申请No.10-2019-0002219的优先权权益,该韩国专利申请的公开内容以引用方式并入本文中。

Claims (9)

1.一种信号处理装置,该信号处理装置包括:
转换器,该转换器被配置为对输入立体声音频信号的频率进行转换;
主分量分析器,该主分量分析器被配置为基于来自所述转换器的信号来执行主分量分析;
特征提取器,该特征提取器被配置为基于来自所述主分量分析器的信号来提取主分量信号的特征;
模型学习预测器,所述模型学习预测器被配置为基于来自所述特征提取器的特征来执行基于深度神经网络模型的预测;
掩码单元,所述掩码单元被配置为针对来自模型学习预测器的预测结果执行掩码,并且当多通道中的每个通道与时间和频率无关时,基于来自所述模型学习预测器的预测结果,通过使用时间-频率分量来执行掩码,以执行通道分离;
包络调整器,该包络调整器被配置为基于来自所述模型学习预测器的预测结果,通过根据针对频带的权重函数在频带中对信号的包络进行校正来分离通道;以及
逆转换器,该逆转换器被配置为对来自所述包络调整器的信号进行逆转换,以输出多通道的上混音频信号。
2.根据权利要求1所述的信号处理装置,所述信号处理装置还包括滤波器组,所述滤波器组被配置为通过多个带通滤波器对来自所述转换器的频率转换后的立体声音频信号进行滤波。
3.根据权利要求1所述的信号处理装置,其中,所述包络调整器对每个频带的大小进行调整,以遵循目标通道中的包络。
4.根据权利要求1所述的信号处理装置,其中,所述主分量分析器将所述输入立体声音频信号的主分量信号和子分量信号进行分离。
5.根据权利要求1所述的信号处理装置,其中,所述主分量分析器执行所述输入立体声音频信号的主分量信号的通道之间的相关操作、主分量信号的平移增益操作和主分量信号的功率操作中的至少一个。
6.根据权利要求5所述的信号处理装置,其中,所述特征提取器提取所述输入立体声音频信号的所述主分量信号的平移增益和所述主分量信号的功率。
7.根据权利要求1所述的信号处理装置,所述信号处理装置还包括:
第二转换器,该第二转换器被配置为对从数据库接收到的下混立体声音频信号或多通道音频信号的频率进行转换;
第二主分量分析器,该第二主分量分析器被配置为基于来自所述第二转换器的信号来执行主分量分析;以及
第二特征提取器,该第二特征提取器被配置为基于来自所述第二主分量分析器的信号来提取所述主分量信号的特征,
其中,基于所述第二特征提取器所提取的特征,基于所述深度神经网络模型来执行学习。
8.根据权利要求7所述的信号处理装置,其中,所述模型学习预测器被配置为基于所述第二特征提取器所提取的特征,基于所述深度神经网络模型来执行学习。
9.一种图像显示设备,该图像显示设备包括根据权利要求1至8中的任一项所述的信号处理装置。
CN202010017313.3A 2019-01-08 2020-01-08 信号处理装置和包括该信号处理装置的图像显示设备 Active CN111432273B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0002219 2019-01-08
KR1020190002219A KR102603621B1 (ko) 2019-01-08 2019-01-08 신호 처리 장치 및 이를 구비하는 영상표시장치

Publications (2)

Publication Number Publication Date
CN111432273A CN111432273A (zh) 2020-07-17
CN111432273B true CN111432273B (zh) 2022-06-24

Family

ID=69147533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010017313.3A Active CN111432273B (zh) 2019-01-08 2020-01-08 信号处理装置和包括该信号处理装置的图像显示设备

Country Status (5)

Country Link
US (1) US11089423B2 (zh)
EP (1) EP3680897B1 (zh)
KR (1) KR102603621B1 (zh)
CN (1) CN111432273B (zh)
WO (1) WO2020145659A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102436512B1 (ko) * 2019-10-29 2022-08-25 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
EP4202921A4 (en) * 2020-09-28 2024-02-21 Samsung Electronics Co Ltd AUDIO ENCODING APPARATUS AND METHOD AND AUDIO DECODING APPARATUS AND METHOD
CN115712065B (zh) * 2023-01-05 2023-04-07 湖南大学 时频旋转门与卷积核感知匹配的电机故障诊断方法及系统
CN116014917B (zh) * 2023-03-22 2023-07-07 中国科学院空天信息创新研究院 无线供能系统及其闭环控制方法、最大功率跟踪方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000196611A (ja) * 1998-12-25 2000-07-14 Sony Corp 情報受信装置、及び情報送受信システム
US7072427B2 (en) * 2001-11-09 2006-07-04 Parkervision, Inc. Method and apparatus for reducing DC offsets in a communication system
CN1639984B (zh) * 2002-03-08 2011-05-11 日本电信电话株式会社 数字信号编码方法、解码方法、编码设备、解码设备
EP1475996B1 (en) * 2003-05-06 2009-04-08 Harman Becker Automotive Systems GmbH Stereo audio-signal processing system
WO2005096274A1 (fr) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
KR20070038020A (ko) * 2005-10-24 2007-04-09 엘지전자 주식회사 오디오 신호 처리 방법 및 장치와 프로그램을 기록하는컴퓨터로 읽을 수 있는 기록 매체
FR2898725A1 (fr) * 2006-03-15 2007-09-21 France Telecom Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
EP2210427B1 (en) * 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
RU2011154112A (ru) * 2009-06-05 2013-07-20 Конинклейке Филипс Электроникс Н.В. Обработка аудиоканалов
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
CN101667425A (zh) * 2009-09-22 2010-03-10 山东大学 一种对卷积混叠语音信号进行盲源分离的方法
KR20140090469A (ko) * 2013-01-09 2014-07-17 엘지전자 주식회사 영상표시장치의 동작 방법
RU2665279C2 (ru) * 2013-06-21 2018-08-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ, реализующие улучшенные концепции для tcx ltp
US20160035024A1 (en) * 2014-07-29 2016-02-04 Chicago Mercantile Exchange Inc. Initial Margining Using Decayed Scenarios
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
KR101724320B1 (ko) * 2015-12-14 2017-04-10 광주과학기술원 서라운드 채널 오디오 생성 방법
US9742593B2 (en) * 2015-12-16 2017-08-22 Kumu Networks, Inc. Systems and methods for adaptively-tuned digital self-interference cancellation
KR101871604B1 (ko) 2016-12-15 2018-06-27 한양대학교 산학협력단 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치

Also Published As

Publication number Publication date
EP3680897A1 (en) 2020-07-15
US11089423B2 (en) 2021-08-10
KR102603621B1 (ko) 2023-11-16
WO2020145659A1 (en) 2020-07-16
KR20200086064A (ko) 2020-07-16
EP3680897B1 (en) 2022-04-06
US20200221242A1 (en) 2020-07-09
CN111432273A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111432273B (zh) 信号处理装置和包括该信号处理装置的图像显示设备
US10657630B2 (en) Image display apparatus
US11669941B2 (en) Signal processing device and image display apparatus including the same
KR102661826B1 (ko) 신호 처리 장치 및 이를 구비하는 영상표시장치
KR102627646B1 (ko) 신호 처리 장치 및 이를 구비하는 영상표시장치
KR102662951B1 (ko) 신호 처리 장치 및 이를 구비하는 영상표시장치
US11315522B2 (en) Image display apparatus
US20220198994A1 (en) Image display apparatus
US20220406237A1 (en) Electronic apparatus and control method thereof
US11234042B2 (en) Display device, control method therefor and recording medium
KR102661824B1 (ko) 신호 처리 장치 및 이를 구비하는 영상표시장치
KR20210035723A (ko) 신호처리장치 및 이를 구비하는 영상표시장치
EP3982351A1 (en) Signal processing device and image display apparatus including the same
KR20200125060A (ko) 신호 처리 장치 및 이를 구비하는 영상표시장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant