CN109716780B - 电子设备及其控制方法 - Google Patents
电子设备及其控制方法 Download PDFInfo
- Publication number
- CN109716780B CN109716780B CN201780057932.1A CN201780057932A CN109716780B CN 109716780 B CN109716780 B CN 109716780B CN 201780057932 A CN201780057932 A CN 201780057932A CN 109716780 B CN109716780 B CN 109716780B
- Authority
- CN
- China
- Prior art keywords
- sound
- sound signal
- signal
- electronic device
- smart
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 230000005236 sound signal Effects 0.000 claims abstract description 273
- 230000000694 effects Effects 0.000 claims abstract description 149
- 230000004044 response Effects 0.000 claims abstract description 111
- 238000002156 mixing Methods 0.000 claims abstract description 13
- 230000008859 change Effects 0.000 claims description 62
- 238000003825 pressing Methods 0.000 claims description 36
- 238000009877 rendering Methods 0.000 claims description 30
- 238000001514 detection method Methods 0.000 description 62
- 238000012545 processing Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000004091 panning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000012780 transparent material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4852—End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
- H04N5/607—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for more than one sound signal, e.g. stereo, multilanguages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4398—Processing of audio elementary streams involving reformatting operations of audio signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
提供了一种提供智能声音模式的电子设备。该电子设备包括:用户命令接收器;输入器;输出器;以及处理器,被配置为:响应于预定事件发生,提供用于引导智能声音模式的设置的用户界面(UI);响应于智能声音模式根据通过用户命令接收器输入的用户命令被选择,基于第一声音信号是否包括语音以及第二声音信号是否包括声音效果,单独地呈现第一声音信号和第二声音信号,其中第一声音信号是形成声音信号的多个声道中的公共分量,并且第二声音信号是所述多个声道中的差分分量;将呈现的第一和第二声音信号混合成多声道声音信号;以及控制输出器输出多声道声音信号。
Description
技术领域
与示例性实施例一致的装置和方法涉及电子设备及其控制方法,更具体地,涉及提供有多个扬声器的电子设备及其控制方法。
背景技术
随着电子技术的发展,已经开发和分发了各种类型的电子设备。具体地,近年来,在诸如房屋,办公室,公共场所等的各种场所中使用的诸如扬声器的声音输出设备不断发展。
随着声音输出设备性能的提高,要输入到音频的信号具有多声道形式,以增强声音质量并形成宽广的声场。
在诸如电视(TV)的电子设备中,可以选择期望的声音模式。例如,用户可以根据用户希望观看的内容的类型来选择各种声音模式,诸如电影模式、新闻模式、音乐模式、游戏模式等,并且可以被提供所选择的声音模式。
在这种情况下,用户应该直接选择声音模式,这可能导致不便。另外,大多数用户在不设置声音模式的情况下观看内容,因此存在用户不能享受适当声音效果的问题。
发明内容
技术问题
一个或多个示例性实施例提供了一种电子设备及其控制方法,其将内容的声音信号划分成中心信号和环境信号,并根据各自的信号特性呈现信号,使得其可以提供对内容优化的声音。
一个或多个示例性实施例还提供了一种电子设备及其控制方法,其能够通过基于实时内容分析进行呈现来提供针对内容的情境(context)优化的声音。
技术手段
一个或多个示例性实施例可以克服上述缺点和上面没有描述的其他缺点。然而,应该理解,不需要一个或多个示例性实施例克服上述缺点,并且可能无法克服上述任何问题。
根据示例性实施例的一方面,提供了一种提供智能声音模式的电子设备,该电子设备包括:用户命令接收器;输入器;输出器;以及处理器,配置为:响应于根据通过用户命令接收器输入的用户命令选择智能声音模式,基于第一声音信号是否包括语音以及第二声音信号是否包括声音效果,单独地呈现第一声音信号和第二声音信号,其中第一声音信号是形成声音信号的多个声道中的公共分量,并且第二声音信号是所述多个声道中的差分分量;将呈现的第一和第二声音信号混合成多声道声音信号;以及控制输出器输出多声道声音信号。
此外,处理器可以被配置为:以预定区间为单位识别第一声音信号中的频率变化,并基于每个区间中是否存在语音来呈现第一声音信号;以及以预定区间为单位识别第二声音信号中的频率变化,并基于每个区间中是否存在声音效果来呈现第二声音信号。
此外,处理器可以被配置为:如果在第一声音信号的每个区间中具有大于或等于第一阈值的大小变化的频率的数量大于或等于第一阈值数量,则识别出相应区间中存在语音;以及如果在第二声音信号的每个区间中具有大于或等于第二阈值的大小变化的频率的数量大于或等于第二阈值数量,则识别出相应区间中存在声音效果。
此外,处理器可以被配置为:通过基于在第一声音信号的每个区间中是否存在语音,在预定呈现单位区间中将权重值应用于语音突显滤波器,来呈现第一声音信号;以及通过基于在第二声音信号的每个区间中是否存在背景声音,在预定呈现单位区间中将权重值应用于声音效果突显滤波器,来呈现第二声音信号。
此外,处理器可以被配置为:通过基于第一声音信号的每个区间是否包括语音,更新在每个预定呈现单位区间中应用的参数,来呈现第一声音信号;以及通过基于第二声音信号的每个区间是否包括声音效果,更新在每个预定呈现单位区间中应用的参数,来呈现第二声音信号。
此外,处理器可以被配置为:基于所述电子设备的设备设置信息、观看环境信息、使用历史信息以及与声音内容相关的附加信息中的至少一个,调整应用于所述第一声音信号和所述第二声音信号中的至少一个的滤波器的权重值。
此外,响应于确定在第一声音信号和第二声音信号中的至少一个中存在音乐元素,处理器可以被配置为通过应用预定的权重值到音乐突显滤波器来呈现第二声音信号。
此外,所述声音信号可以是双声道立体声信号;并且处理器可以被配置为将双声道立体声信号划分成中心信号和环境信号,中心信号是双声道立体声信号中的公共分量,环境信号是双声道立体声信号中的差分分量,并且基于中心信号是否包括语音以及环境信号是否包括声音效果,单独地呈现中心信号和环境信号。
此外,所述电子设备还可以包括显示器,并且响应于预定事件发生,处理器可以被配置为通过显示器提供用于允许进入智能声音模式的UI和用于调整智能声音效果的UI中的至少一个。
这里,所述预定事件可以包括按下控制电子设备的遥控设备上提供的预定按钮的事件和输出适于应用智能声音模式的声音部分的事件中的至少一个。
根据另一示例性实施例的一方面,提供了一种提供智能声音模式的电子设备的控制方法,该控制方法包括:接收声音信号;响应于预定事件发生,提供用于引导智能声音模式的设置的UI;响应于根据用户命令选择智能声音模式,基于第一声音信号是否包括语音以及第二声音信号是否包括声音效果,单独地呈现第一声音信号和第二声音信号,其中第一声音信号是形成接收的声音信号的多个声道中的公共分量,并且第二声音信号是所述多个声道中的差分分量;以及将呈现的第一和第二声音信号混合成多声道声音信号,并输出多声道声音信号。
此外,所述呈现可以包括:以预定区间为单位识别第一声音信号中的频率变化,并基于每个区间中是否存在语音来呈现第一声音信号;以及以预定区间为单位识别第二声音信号中的频率变化,并基于每个区间中是否存在声音效果来呈现第二声音信号。
此外,所述呈现可以包括:如果在第一声音信号的每个区间中具有大于或等于第一阈值的大小变化的频率的数量大于或等于第一阈值数量,则识别出相应区间中存在语音;以及如果在第二声音信号的每个区间中具有大于或等于第二阈值的大小变化的频率的数量大于或等于第二阈值数量,则识别出相应区间中存在声音效果。
此外,所述呈现可以包括:通过基于在第一声音信号的每个区间中是否包括语音,在预定呈现单位区间中将权重值应用于语音突显滤波器,来呈现第一声音信号;以及通过基于在第二声音信号的每个区间中是否包括背景声音,在预定呈现单位区间中将权重值应用于声音效果突显滤波器,来呈现第二声音信号。
此外,所述呈现可以包括:通过基于第一声音信号的每个区间是否包括语音,更新在每个预定呈现单位区间中应用的参数,来呈现第一声音信号;以及通过基于第二声音信号的每个区间是否包括声音效果,更新在每个预定呈现单位区间中应用的参数,来呈现第二声音信号。
此外,所述呈现可以包括:基于所述电子设备的设备设置信息、观看环境信息、使用历史信息以及与声音内容相关的附加信息中的至少一个,调整应用于所述第一声音信号和所述第二声音信号中的至少一个的滤波器的权重值。
所述控制方法还可以包括:响应于确定在第一声音信号和第二声音信号中的至少一个中存在音乐元素,通过应用预定的权重值到音乐突显滤波器来呈现第二声音信号。
所述声音信号可以是双声道立体声信号;并且所述划分可以包括将双声道立体声信号划分成中心信号和环境信号,中心信号是双声道立体声信号中的公共分量,环境信号是双声道立体声信号中的差分分量,并且所述呈现可以包括基于中心信号是否包括语音以及环境信号是否包括声音效果,单独地呈现中心信号和环境信号。
此外,所述控制方法还可以包括:响应于预定事件发生,提供用于允许进入智能声音模式的UI和用于调整智能声音效果的UI中的至少一个。
这里,所述预定事件可以包括按下控制电子设备的遥控设备上提供的预定按钮的事件和输出适于应用智能声音模式的声音部分的事件中的至少一个。
根据示例性实施例的又一方面,提供了一种提供智能声音模式的电子设备,其包括被配置为接收用户命令的用户命令接收器;输入器,被配置为接收声音信号;处理器,被配置为:将接收的信号划分成作为接收信号中的公共分量的第一声音信号和作为接收信号中的差分分量的第二声音信号;响应于所接收的信号被划分成第一声音信号和第二声音信号,通过在第一和第二声音信号中的每一个中以预定时段为单位识别频率变化,识别第一声音信号中是否存在语音以及第二信号中是否存在声音效果;基于第一声音信号中的语音和第二声音信号中的声音效果的识别结果,单独呈现第一声音信号和第二声音信号;以及将呈现的第一声音信号和呈现的第二声音信号混合成多声道声音信号;以及配置为多声道声音信号的输出器。
处理器可以被配置为响应于预定事件发生而在显示器上显示用于允许进入智能声音模式的UI和用于调整智能声音效果的UI中的至少一个。
处理器可以被配置为:如果在第一声音信号的区间中具有大于或等于第一阈值的大小变化的频率的数量大于或等于第一阈值数量,则检测到第一声音信号的区间中存在语音;如果在第二声音信号的区间中具有大于或等于第二阈值的大小变化的频率的数量大于或等于第二阈值数量,则检测到第二声音信号的区间中存在声音效果。
根据各种实施例,内容的声音信号被划分为中心信号和环境信号,并且基于它们各自的信号特性来呈现划分的信号,使得可以更清楚地提供语音并且可以关于声音效果提供更宽的声场。
另外,通过分析预定声音区间单元中的内容来执行实时呈现,从而可以提供更智能的声音效果。
技术效果
另外,基于各种附加信息来呈现内容的声音,使得执行针对用户情境优化的声音呈现,从而可以提供更智能的声音效果。
本公开的附加和/或其他方面和优点将部分地在下面的描述中阐述,并且部分地将从描述中显而易见,或者可以通过本公开的实践来学习。
附图说明
通过参考附图描述本公开的某些示例性实施例,本公开的上述和/或其他方面将更加明显,其中:
图1是示出根据示例性实施例的电子设备的一个实现示例的视图;
图2是示出根据示例性实施例的电子设备的配置的框图;
图3是示出根据示例性实施例的用于划分信号的方法的视图;
图4是示出根据示例性实施例的用于检测信号的方法的视图;
图5A至图5D是根据示例性实施例的详细示出信号检测操作的视图;
图6是示出根据示例性实施例的呈现操作的视图;
图7是示出图2的电子设备的详细配置的框图;
图8至图10D是示出根据示例性实施例的用于提供UI的方法的视图;以及
图11是示出根据示例性实施例的电子设备的控制方法的流程图。
具体实施方式
在下文中,将参考附图详细描述各种实施例。
图1是示出根据示例性实施例的电子设备的实现示例的视图。
参考图1,电子设备100可以通过使用提供有多个扬声器单元的数字TV来实现。但是,这不应被视为限制。可以应用提供有多个扬声器单元的任何设备,诸如音频设备、用户终端设备、条形音箱(sound bar)、家庭影院系统、房间扬声器等,而不限于此。
当通过使用数字TV实现电子设备100时,电子设备100可以由遥控设备10或用户动作或语音控制。例如,遥控设备10可以以各种形式实现,诸如发送与输入的键相对应的信号、检测动作并发送与该动作相对应的信号、或者识别语音并发送与识别的语音相对应的信号。在这种情况下,遥控设备10可以被实现为包括动作传感器、触摸传感器、使用光学技术的光学操纵杆(joystick,OJ)传感器、物理按钮(例如,轻触开关(tact switch))、显示屏幕和麦克风中的至少一个,以便根据实现类型接收各种类型的用户命令。
包括在电子设备100中的多个扬声器单元可以用于将电脉冲转换为声波,并且可以以通过将电信号转换为声波的原理和方法分类的动态类型来实现。但是,这不应被视为限制。在本公开的范围内,扬声器单元可以以静电类型、电介质类型、磁致伸缩类型等实现。
这里,多个扬声器单元可以分别执行多个声道的角色,诸如2声道、2.1声道、3声道、3.1声道、5.1声道、7.1声道等,并且可以再现声道。例如,多个扬声器单元可以包括左(L)声道扬声器和右(R)声道扬声器。在以下描述中,为了便于解释,假设多个扬声器单元分别再现L声道和R声道。
根据示例性实施例,当呈现要输出到多个扬声器单元的声音信号时,电子设备100可以通过将输入的声音内容划分为中心信号和环境信号来单独地执行呈现,使得电子设备100可以提供智能声音模式(或智能音频模式),其中更清晰地输出声音并且声音效果被提供有更宽的声场。在下文中,将参考附图描述各种示例性实施例。
图2是示出根据示例性实施例的电子设备的配置的框图。
参考图2,电子设备100包括用户命令接收器105、输入器110、处理器120和输出器130。
用户命令接收器105接收各种用户命令。用户命令接收器105可以根据电子设备100的实现示例以各种形式实现。例如,当通过使用数字TV实现电子设备100时,用户命令接收器105可以通过使用用于从遥控设备(图1、10)接收遥控信号的遥控接收器实现,但不限于此。用户命令接收器105可以通过使用用于接收用户动作的输入的相机、用于接收用户语音的输入的麦克风或者在电子设备100上提供的键来实现。
输入器110接收声音信号的输入。这里,输入的声音信号可以是多个声道信号(例如,立体声信号)。然而,根据示例性实施例,可以应用可以被划分为中心信号和环境信号的任何信号而没有限制。在这种情况下,声音信号可以是包括在声音内容中的声音信号,或者可以是作为图像内容的一部分的声音信号。
处理器120控制电子设备100的整体操作。处理器120可以包括中央处理单元(CPU)、控制器、应用处理器(AP)、通信处理器(CP)或高级RISC机器(ARM)处理器中的一个或多个,或者可以由相应的术语定义。
另外,处理器120可以通过使用数字信号处理器(DSP)来实现,可以通过使用其中嵌入有内容处理算法的片上系统(SoC)来实现,或者可以以现场可编程门阵列(FPGA)的形式实现。
根据示例性实施例,响应于预定事件发生,处理器120可以提供用于引导进入智能声音模式的用户界面(UI),并且响应于根据用户命令选择智能声音模式,可以执行根据本公开的信号处理操作。例如,用于引导进入智能声音模式的UI可以以用于设置电子设备100的各种功能的UI(快速设置UI)、用于在输出声音信号的同时允许进入智能声音模式的UI、以及用于调整智能声音效果的UI中的至少一种形式实现。可以在诸如输出声音信号之前或同时的各种时间提供用于引导进入智能声音模式的UI。
然而,根据另一实施例,在根据本公开的智能声音模式被设置为默认的电子设备100的情况下,可以应用相应的信号处理操作而不管用户命令。
在下文,将描述根据示例性实施例的提供智能声音效果的信号处理操作。
<信号划分>
处理器120可以将输入的声音信号划分为作为多个声道中的公共分量(commoncomponent)的第一声音信号、以及作为多个声道中的差分分量(differential component)的第二声音信号。这里,第一声音信号可以是中心信号(或主要信号),并且第二声音信号可以是环境信号(混响、掌声、风、各种背景声音)。在以下描述中,为了便于解释,假设多个声道是L声道和R声道。
通常,对于从相同声源输出的声音,收集的信号根据麦克风的位置而变化。由于生成诸如歌手或播音员的语音信号的大多数声源位于舞台的中心,因此关于从位于舞台中心的声源生成的语音信号生成的立体声信号(即,L信号和R信号)彼此相同。然而,当声源不位于舞台的中心时,即使从相同声源输出的信号在声音到达两个麦克风的强度和到达时间方面也可能彼此不同。因此,在麦克风处收集到不同的信号,因此左右立体声信号也不同。
在本公开中,通常包括在诸如语音信号的立体声信号中的信号将被称为中心信号,并且立体声信号之间的差分分量(例如,从立体声信号中减去中心信号)将被称为环境信号(或环境立体声信号)。
<信号检测>
响应于声音信号被划分成第一和第二声音信号,处理器120可以识别第一声音信号是否包括语音以及第二声音信号是否包括声音效果。根据示例性实施例,处理器130可以检测中心信号中是否存在语音以及环境信号中是否存在声音效果。
处理器120可以以预定区间(section)(下文中,称为检测区间)为单位识别第一声音信号中的频率变化,并检测每个检测区间中是否存在语音。另外,处理器120可以以预定检测区间为单位识别第二声音信号中的频率变化,并检测每个检测区间中是否存在声音效果。这里,预定检测区间单位可以是例如至少一个音频帧单元、至少一个音频场景(scene)单元和至少一个音频组块(chunk)单元中的至少一个。这里,可以通过检测音频的静音区间或低能量区间来确定音频场景。这里,频率变化可以是当前检测区间和至少一个先前检测区间之间的频率大小的变化。例如,频率变化可以是当前帧与至少一个先前帧之间的频率大小的变化。
根据示例性实施例,处理器120可以通过对于第一声音信号(或第二声音信号)中的每个预定检测区间识别频率变化来检测每个检测区间中是否存在语音(或声音效果)。例如,当预定检测区间是一帧时,处理器120可以以一帧为单位检测语音(或声音效果)是否存在。
根据另一示例性实施例,处理器120可以通过对于第一声音信号(或第二声音信号)中的预定检测区间以预定时段为单位识别频率变化来检测每个检测区间中是否存在语音。例如,当预定检测区间是一帧并且预定时段是两帧的间隔时,处理器120可以检测在第一帧、第三帧、第五帧等等中是否存在语音(或声音效果)。在这种情况下,响应于从当前帧(第五帧)检测到语音(或声音效果),来自当前帧的语音检测结果可以同等地应用于未检测其变化的至少一个帧的相邻帧(例如,第四帧或第五帧)的语音(或声音效果)。
根据又一示例性实施例,响应于确定从预定数量的连续帧检测到或未检测到语音(或声音效果),处理器120可以调整用于检测语音(或声音效果)的时段。例如,响应于作为以一帧为单位检测语音(或声音效果)的结果而从预定数量的连续帧中检测到语音(或声音效果),可以以两帧或更多帧为单位执行检测语音(或声音效果)的操作。
在下文中,为了便于解释,在通过对于每个预定检测区间识别频率变化来检测每个检测区间中是否存在语音(或声音效果)的假设下,描述本公开。
根据示例性实施例,处理器120可以基于与至少一个先前检测区间的关系,计算第一声音信号的每个检测区间中的每个频率的大小变化,并且响应于具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,处理器120可以检测到对应区间中存在语音。另外,处理器120可以基于与至少一个先前检测区间的关系,计算第二声音信号的每个检测区间中的每个频率的大小变化,并且响应于具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,处理器120可以检测到对应区间中存在声音效果。
具体地,处理器120可以基于与紧接在前的检测区间的关系来计算第一声音信号(或第二声音信号)的每个检测区间中的每个频率的大小变化,但是可以计算在至少三个连续检测区间中的每个频率的大小变化。
例如,响应于作为比较当前帧和先前帧的结果、具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,处理器120可以检测到当前帧中存在语音(或声音效果)。在另一示例中,响应于在至少三个连续帧中的每一个中具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,处理器120可以检测到在当前帧中存在语音。
换句话说,响应于在第一声音信号的每个检测区间中具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,处理器120可以确定相应的区间中存在动态分量,并检测到该区间中存在语音。响应于在第二声音信号的每个检测区间中具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,处理器120可以确定相应的区间中存在动态分量,并检测到该区间中存在声音效果。
这里,第一声音信号的每个检测区间和第二声音信号的每个检测区间和检测时段可以彼此相同或彼此不同。例如,可以以帧为单位从中心信号和环境信号两者检测频率的大小变化。然而,根据情况,可以以一帧为单位从中心信号检测频率的大小变化(即,关于前一帧的大小变化),并且可以以两帧为单位从环境信号检测频率的大小变化(即,关于前一帧和前一帧之前的帧的大小变化)。
另外,第一声音信号的阈值数量和第二声音信号的阈值数量可以彼此相同或彼此不同。
根据又一示例性实施例,处理器120可通过在第一声音信号(或第二声音信号)的每个检测区间中应用多个阈值和多个阈值数量来检测语音(或声音效果)。例如,处理器120可以基于与至少一个先前检测区间的关系来计算第一声音信号(或第二声音信号)的每个检测区间中的每个频率的大小变化,并且响应于具有大于或等于第一阈值的大小变化的频率的数量大于或等于第一阈值数量、并且每个具有大于或等于第二阈值的大小变化的频率的数量大于或等于第二阈值数量,处理器120可以检测到相应部分中存在语音(或声音效果)。
根据另外的示例性实施例,响应于关于第一声音信号的每个检测区间中的每个频率的大小变化的信息大于或等于预定阈值,处理器120可以检测到相应的检测区间中存在语音,并且,响应于关于第二声音信号的每个检测区间中的每个频率的大小变化的信息大于或等于预定阈值,处理器120可以检测到相应区间中存在声音效果。这里,关于每个检测区间中的每个频率的大小变化的信息可以是例如关于每个检测区间中的每个频率的大小变化的方差值或标准偏差值。
<呈现>
接下来,处理器120可以基于从第一声音信号检测语音的结果和从第二声音信号检测声音效果的结果来单独地呈现第一声音信号和第二声音信号。
在这种情况下,响应于从第一声音信号检测到语音,处理器120可以通过将预定权重值应用于语音突显(highlighting)滤波器来呈现第一声音信号,并且响应于从第二声音信号检测到声音效果,处理器120可以通过将预定权重值应用于声音效果突显滤波器来呈现第二声音信号。
例如,响应于从中心信号检测到语音,处理器120可以增加应用于中心声音分量的增益,并且响应于未检测到语音,处理器120可以减小所应用的增益。在这种情况下,处理器120可以通过根据应用于语音突显滤波器的增益应用权重值来呈现中心信号。
响应于从环境信号检测到声音效果,处理器120可以增加应用于背景声音分量的增益,并且响应于未检测到声音效果,处理器120可以减小所应用的增益。在这种情况下,处理器120可以通过根据应用于声音效果突显滤波器的增益应用权重值来呈现环境信号。
另外,响应于确定在第一和第二声音信号中的至少一个中存在音乐元素,处理器120可以通过将预定权重值应用于音乐突显滤波器来呈现第一和第二声音信号中的至少一个。
例如,处理器120可以基于划分的中心信号和环境信号之间的相似性,连续性、能量的变化、周期性、声音图像(形成声音的位置)等来监视音乐元素是否存在。响应于检测到音乐元素,处理器120可以将权重值应用于音乐突显滤波器。例如,响应于连续性高,处理器120可以确定存在诸如钢琴、弦乐器等的乐器的音乐元素,并且可以将权重值应用于音乐突显滤波器。然而,响应于应用于音乐突显滤波器的特定权重值,可以根据情况应用或不应用权重值到语音突显滤波器/声音效果突显滤波器。
具体地,处理器120可以通过基于是否从第一声音信号的每个检测区间检测到语音而在预定呈现单位区间中将权重值应用于语音突显滤波器,来呈现第一声音信号,并且可以通过基于是否从第二声音信号的每个检测区间检测到声音效果而在预定呈现单位区间中将权重值应用于声音效果突显滤波器,来呈现第二声音信号。这里,预定呈现单位区间可以是例如至少一个音频帧单元、至少一个音频场景单元和至少一个音频组块单元中的至少一个。另外,预定呈现单位区间可以与用于检测语音和声音效果的检测区间相同或不同。
另外,处理器120可以通过基于是否从第一信号的每个检测区间检测到语音来更新应用于每个预定呈现单位区间的呈现参数,来呈现第一声音信号,并且可以通过基于是否从第二声音信号的每个检测区间检测到声音效果来更新应用于每个预定呈现单位区间的呈现参数,来呈现第二声音信号。例如,可以预先存储或者可以从外部服务器接收基本呈现参数。处理器120可以基于是否从第一声音信号检测到语音以及是否从第二声音信号检测到声音效果来更新基本呈现参数的至少一部分。这里,基本参数可以是基于电子设备100的特性但无关内容体裁(genre)而设置的默认参数,或者可以是根据内容体裁设置的体裁参数。
另外,处理器120可以基于与电子设备100相关的设备设置信息、观看环境信息、使用历史信息和与声音内容相关的附加信息中的至少一个来呈现第一声音信号和第二声音信号。这里,设备设置信息、观看环境信息、使用历史信息和与声音内容相关的附加信息中的至少一个可以存储在电子设备100中提供的存储器(未示出)中,或者可以从外部服务器(未示出)接收。
这里,设备设置信息可以包括关于当前频道、当前音量、当前设置菜单等的信息,并且观看环境信息可以包括关于用户语音的大小/位置/保持时间、用户的数量、环境噪声的大小/位置/保持时间、当前时间等的信息。在这种情况下,电子设备100可以被提供有用于检测用户的语音的语音检测传感器、用于检测环境噪声的噪声传感器等。
另外,与声音内容相关的附加信息可以包括关于内容体裁(从电子节目指南(EPG)、事件信息表(EIT)、扩展文本表(ETT)等获得)的信息,并且使用历史信息可以包括关于用户的使用模式(例如,设备设置值改变日志)、用户访问频道/节目列表、用户注册的优选频道/节目列表、用户计划观看的频道/节目的计划信息、以及当连接外部媒体时的设备设置值的信息。在这种情况下,处理器120可以在参考基于用户使用历史信息学习/累积的呈现参数最小化用户对声音设置的干预的同时向用户提供最佳声音呈现。
处理器120可以基于上述附加信息另外确定应用各种呈现滤波器的情况,或者可以通过限制/改变应用于各种滤波器的权重值来调整权重值。
例如,响应于电子设备100的音量值小于或等于预定值,处理器120可以增加语音突显滤波器的权重值并减小声音效果突显滤波器的权重值,因为传递对话(或对白)很重要。另外,响应于音量值大于或等于预定值,处理器120可以确定存在享受声音的意愿,因此可以增加声音效果突显滤波器的权重值并减小语音突显滤波器的权重值。
根据另一示例性实施例,可以以存在概率值的形式检测中心信号中是否存在语音以及环境信号中是否存在声音效果。处理器120可以通过应用与检测到的概率值对应的权重值来对每个声音信号滤波。
例如,响应于在中心信号的每个检测区间中具有大于或等于阈值的大小变化的频率的数量大于或等于第一阈值数量,可以检测到第一概率值,并且,响应于具有大于或等于阈值的大小变化的频率的数量大于或等于第二阈值数量,可以检测到第二概率值。在这种情况下,处理器120可以通过将对应于第一概率值的第一权重值应用于语音突显滤波器来对第一声音信号进行滤波,或者可以通过将对应于第二概率值的第二权重值应用于声音效果突显滤波器来对第二声音信号进行滤波。
<混合和输出>
另外,处理器120将呈现的第一声音信号和第二声音信号混合成多个输出声道。这里,输出声道的数量可以与输入声道的数量相同,或者可以小于或大于输入声道的数量。例如,响应于输出声道的数量小于输入声道的数量,可以根据输出声道的数量对输入声道进行下混。在另一示例中,响应于输出声道的数量大于输入声道的数量,可以根据输出声道的数量对输入声道进行上混。
在这种情况下,处理器120可以包括混合器(或音频混合器)以执行混合操作,或者可以被实现为控制单独的混合器。例如,可以实现混合器以允许输入信号在通过插孔(insert)和总线之后通过输出声道被输出。混合器可以被称为混合控制台、混音台(mixingdesk)或声板(sound board),并且可以控制声音的强度和音调以及相位和环绕图像。
输出器130输出多声道声音信号。
在这种情况下,输出器130可以包括多个扬声器单元(或放大器)以输出多声道。例如,输出器130可以包括分别再现L声道和R声道的L声道扬声器和R声道扬声器。
图3是示出根据示例性实施例的执行声音处理的处理器的操作的视图。
根据实现示例,图3中示出的块可以指代由处理器120用于执行声音处理的预先存储的软件模块,或者可以指代在处理器120的芯片(例如,DSP芯片)中执行的各种功能。
参考图3,处理器120包括信号划分块121、信号检测块122、呈现块123和混合块124。
信号划分块121可以将输入的声音信号分成第一声音信号和第二声音信号,第一声音信号是形成声音信号的多个声道中的公共分量,第二声音信号是多个声道中的差分分量。例如,响应于包括L/R声道的立体声声音信号的输入,信号划分块121可以将立体声声音信号划分成中心信号和环境信号,其中中心信号是L/R声道之间的公共分量,环境信号是L/R声道之间的差分分量。
信号检测块122可以检测第一声音信号中是否存在语音,并检测第二声音信号中是否存在声音效果。例如,信号检测块122可以检测中心信号中是否存在语音并检测环境信号中是否存在声音效果。
呈现块123可以基于是否从第一声音信号检测到语音以及是否从第二声音信号检测到声音效果,单独地呈现第一声音信号和第二声音信号。
混合块123可以将呈现的第一和第二声音信号混合成多声道声音信号。
图4是示出根据示例性实施例的图3的信号划分块121的详细操作的视图。
在图4中,为了便于说明,假设包括L/R声道的立体声声音信号被分成中心信号和环境信号。
包括在输入的声音信号中的L声道信号和R声道信号可以分别输入到第一域转换块121-1和第二域转换块121-2,并且第一域转换块121-1和第二域转换块121-2分别转换L声道信号和R声道信号的域。例如,第一域转换块121-1和第二域转换块121-2使用诸如快速傅里叶变换(FFT)的算法将立体声信号转换为时频域。时频域可以用于同时表达时间和频率的变化,声音信号可以根据时间和频率值被划分成多个区间(例如,帧),并且可以通过每个时隙的频率子带值来表达每个帧中的信号。
相关系数获取块121-3使用在第一域转换块121-1和第二域转换块121-2中转换成时频域的立体声信号来获取相关系数。相关系数获取块121-3可以获取指示所述立体声信号之间的相干性的第一系数,获取指示这两个信号之间的相似性的第二系数,并且使用第一系数和第二系数来获取相关系数。这里,两个信号之间的相干性指示两个信号之间的关系度,并且可以使用相关领域的方法来获取第一和第二相关系数,并且将不再详细描述。例如,可以使用Journal of Audio Engineering Society,Vol.52,No.7/8,2004年7月/8月“Afrequency-domain approach to multichannel upmix”(由Carlos Avendano编写)中公开的方法来获得第一和第二相关系数。
中心信号获取块121-4可以使用由相关系数获取块121-3获取的相关系数和立体声信号从立体声信号中提取中心信号。例如,中心信号获取块121-4可以获得立体声信号的算术平均值,并通过将算术平均值与相关系数相乘来生成中心信号。
接下来,中心信号获取块121-4将中心信号发送到逆域转换块121-5,并且逆域转换块121-5使用诸如逆快速傅里叶变换(IFFT)的算法将在时频域中生成的中心信号转换为时域。逆域转换块121-5将转换到时域的中心信号发送到第一信号减除块121-6和第二信号减除块121-7。
第一信号减除块121-6和第二信号减除块121-7在时域中获得立体声信号和中心信号之间的差。也就是说,第一信号减除块121-6通过从L声道信号中减去中心信号来获得环境L信号,并且第二信号减除块121-7通过从R声道中减去中心信号来生成环境R信号。
然而,图4中所示的信号划分方法仅是描述示例性实施例的示例而不限于相应的实施例。可以应用各种相关技术的信号划分方法。例如,替代在时频域上获取相关系数的方法,可以应用在时域上获取相关系数的方法。另外,除了在上述实施例中描述的算法之外,可以应用各种信号划分算法,诸如主分量分析(PCA)算法、修改的PCA算法等(J.Usher和J.Benesty,“Enhancement of spatial sound quality:A new reverberation-extraction audio upmixer,“IEEE Trans.Audio,Speech,and Language Processing,vol.15,no.7,pp.2141-2150,2007,C.Faller,“Multiple-loudspeaker playback ofstereo signals,“J.AES,vol.54,no.11,pp.1051-1064,2006.,SW Jeon,YC Park,SP Lee,D.H.Yoon,“Robust Representation of Spatial Sound in Stereo-to MultichannelUpmix”,AES convention,2010,Goodwin.M.M.,“Geometric Signal Decompositions forSpatial Audio Enhancement”,IEEE ICASSP conf,pp 409-412,2008,etc.)。
响应于输入声道的数量大于两个声道,可以通过绑定两个输入声道并多次应用中心声道信号划分技术,或者通过下混输入声道然后应用中心声道划分技术,在各种位置上执行声道划分。
图5A到5D是示出根据示例性实施例的图3的信号检测块122的详细操作的视图。
图5A是示出中心信号(或环境信号)的每个预定检测区间单元(例如,帧)中的信号大小的视图。即,图5A示出了中心信号(或环境信号)的时间轴上的信号大小。
图5B是示出根据示例性实施例的在通过FFT转换中心信号(或环境信号)之后每个帧信号中包括的频率的分布和频域中的每个频率的大小的视图。
信号检测块122可以以预定检测区间为单位,即以帧为单位,测量每个频率的大小变化,并计算每帧中每个频率的大小变化。例如,其结果在图5B中示出。
参考图5B,横轴指示按时间顺序排列的帧,并且纵轴指示每帧的频率分量。为了便于说明,每个频率(Hz)由指示符1-10表示,并且频率的大小被分成多个等级。每帧中每个频率分量的大小等级由不同类型的阴影显示。这里,当包括256个采样的区间是一帧并且每秒再现48000个采样时,一个帧区间等于256/48000=5.3mm/sec。
接下来,信号检测块122可以计算每帧中具有大于或等于阈值的大小变化的频率的数量,并且计算结果在图5C中示出。即,在图5C中,每个条的高度指示基于与先前帧的关系、在每个帧中具有大于或等于阈值的大小变化的频率的数量。然而,为了便于说明,仅示出了前一帧和当前帧之间的频率变化,但是如上所述可以使用三个或更多个连续帧中的频率变化。
在这种情况下,信号检测块122可以确定从具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量(例如,Nth)的帧中检测到语音(或声音效果)。
然而,根据另一示例性实施例,信号检测块122可以以预定检测区间为单位,例如,以帧为单位,测量每个频率的大小变化,并且可以基于关于每个帧信号中每个频率的大小变化的信息,例如,方差值,来检测语音(或声音效果)。
信号检测块122可以基于每个帧的每个频率的大小变化来计算每个帧上的每个频率的大小变化的方差值,如图5B所示。并且在图5D中示出了计算结果。也就是说,图5D中的每个条的高度指示每帧中每个频率的大小变化的方差值。
在这种情况下,信号检测块122可以确定从每个频率的大小变化的方差值大于或等于阈值(例如,0.1)的帧中检测到语音(或声音效果)。
图6是示出根据示例性实施例的图3的呈现块123的详细操作的视图。呈现块123包括滤波块123-1和平移(panning)块123-2。
参考图6,滤波块123-1可以基于是否检测到语音或声音效果来对第一和第二声音信号滤波。
滤波块123-1可以使用语音突显滤波器(或中心声音分量呈现滤波器)、声音效果突显滤波器(或背景声音分量呈现滤波器)、音乐突显滤波器等,对第一和第二声音信号进行滤波。在这种情况下,可以使用各种滤波器,诸如高通滤波器、低通滤波器、带通滤波器、掩模(mask)滤波器、头部相关传递函数(head-related transfer function,HRTF)滤波器等。
语音突显滤波器可以基于能够调整语音可懂度(voice intelligibility)和语音突显程度的呈现参数来执行滤波,并且声音效果突显滤波器可以基于能够调整声音效果的环绕效果(surrounding effect)和声场的延伸程度的呈现参数来执行滤波。
滤波块123-1可以通过基于在中心信号的每个检测区间中是否检测到语音而在预定呈现单位区间中将权重值应用于语音突显滤波器,来呈现中心信号,并可以通过基于在环境信号的每个检测区间中是否检测到声音效果而在预定呈现单位区间中将权重值应用于声音效果突显滤波器,来呈现环境信号。
可以以预定呈现区间为单位来更新呈现参数。例如,预定呈现区间的单位可以是例如至少一个音频帧单元、至少一个音频场景单元和至少一个音频块单元中的至少一个。另外,预定呈现区间的单位可以与用于检测语音和声音效果的检测区间的单位相同或不同。
在这种情况下,响应于在特定呈现单位区间中没有检测到语音(或声音效果),滤波块123-1可以通过在属于预定时间范围的呈现单位区间(例如,相邻的呈现单位区间)中应用呈现参数来执行呈现。
平移模块123-2可以获得要应用于每个频带或每个声道的平移系数(或平移增益),以便相对于每个输出声道平移第一和第二声音信号,并应用平移系数。平移声音信号是指控制施加到每个输出声道的信号的大小,以在两个输出声道之间的特定位置处呈现声源。
图7是示出图2中所示的电子设备的详细配置的框图。
参考图7,电子设备100包括输入器110、处理器120、输出器130、显示器140、存储器150、光接收器160、电源170等。从图7中所示的元件中,将不再详细描述与图2中所示相同的元件。
输入器110可以以有线或无线方式与外部源连接以接收各种内容。例如,输入器110可以接收包括声音(音频)、视频、图像和文本中的至少一个的内容的输入。这里,内容可以是各种类型的内容,诸如地面广播内容、有线内容、社交内容、视频点播(VOD)内容、Web内容等。根据电子设备100的性能和配置,输入单元110可以包括有线以太网111、无线局域网(LAN)通信单元112、蓝牙通信单元113、高清多媒体接口(HDMI)输入端口114、分量输入插孔115、PC输入端口116和通用串行总线(USB)输入插孔117中的至少一个。根据示例性实施例,输入器110可以被实现为包括用于接收广播信号的调谐器。
处理器120可以包括中央处理单元(CPU)121、存储用于控制电子设备100的控制程序的只读存储器(ROM)(或非易失性存储器)122、以及随机访问存储器(RAM)(或易失性存储器)123,其存储从电子设备100的外部输入的数据或者用作与在电子设备100中执行的各种任务相对应的存储区。
处理器120可以控制从电源170提供给内部元件110-160的电力。另外,响应于预定事件发生,处理器120可以执行操作系统(OS)和存储在存储器150中的各种应用。
处理器120可以包括图形处理单元(GPU)(未示出)以处理与图像对应的图形。处理器120可以通过使用包括核(未示出)和GPU(未示出)的片上系统(SoC)来实现。处理器120可以包括单核、双核、三核、四核以及多核。
CPU 121可以访问存储器150并使用存储在存储器150中的OS来执行引导。此外,CPU 121使用存储在存储器150中的各种程序、内容和数据来执行各种操作。
ROM 122存储用于引导系统的命令集。响应于开启命令被输入和供电,CPU 121根据存储在ROM 122中的命令将存储在存储器150中的OS复制到RAM 123上,执行OS并引导系统。响应于引导完成,CPU 121将存储在存储器150中的各种程序复制到RAM 123上,执行复制到RAM 123上的程序,并执行各种操作。这里,CPU 121、ROM 122和RAM 123可以通过内部总线彼此连接。
另外,处理器120可以包括数字信号处理器(DSP),并且DSP可以添加各种功能,诸如数字滤波器、效果、声场等,并且当通过采样率转换器(SRC)执行数字模拟转换时可以应用过采样技术以防止声音质量的恶化。
输出器130可以包括用于再现多声道的多个扬声器。例如,输出器130可以包括执行通过其混合和输出信号的声道的作用的多个扬声器。根据情况,可以通过使用包括用于再现不同频带的多个扬声器单元的扬声器阵列来实现执行至少一个声道的作用的扬声器。
显示器140可以提供可以通过电子设备100提供的各种内容屏幕。这里,内容屏幕可以包括各种内容,诸如图像、运动图像、文本、音乐等,包括各种内容的应用执行屏幕、GUI屏幕等。具体地,根据示例性实施例,显示器140可以显示与智能声音模式有关的各种UI。
例如,响应于预定事件发生,处理器120可以提供根据示例性实施例的用于允许进入智能声音模式的UI和用于通过显示器140调整智能声音效果的UI中的至少一个。这里,预定事件可以包括按下控制电子设备100的遥控设备10上提供的预定按钮(或键)的事件和输出适合于应用智能声音模式的声音部分的事件中的至少一个。
在这种情况下,响应于按下预定按钮(或键)的事件或输出适合于应用智能声音模式的声音部分的事件发生,处理器120可以提供相应的指南UI,或者,响应于在输出适于应用智能声音模式的声音部分的事件的同时、按下预定按钮(或键)的事件发生,处理器120可以提供相应的指南UI。
另外,处理器120可以基于预定按钮的按压模式、按压次数、按压间隔等来提供不同形式的UI,或者可以不同地控制所提供的UI。例如,响应于按下和释放预定按钮,处理器120可以显示用于允许进入智能声音模式的UI,并且响应于按下并保持预定按钮,处理器120可以禁用智能声音模式。将参考附图详细描述相关的各种示例性实施例。
另外,显示器140可以通过使用诸如液晶显示器(LCD)、有机发光二极管(OLED)、硅上液晶(LCoS)、数字光处理(DLP)等等的各种类型的显示器来实现。另外,显示器140可以通过使用由透明材料制成并显示信息的透明显示器来实现。另外,显示器140可以以触摸屏的形式实现,触摸屏根据情况形成具有触摸板的层间结构。在这种情况下,除了输出设备之外,显示器140还可以用作用户接口。
存储器150可存储用于驱动/控制电子设备100、程序或应用的各种数据。
存储器150可以存储用于控制电子设备100和处理器120的控制程序、最初由制造商提供或从外部下载的应用、与应用相关的图形用户界面(在下文中,称为“GUI”)、用于提供GUI的对象(例如,图像文本、图标、按钮等)、用户信息、文档、数据库或相关数据。
具体地,存储器150可以存储根据示例性实施例的用于呈现声音信号的设备设置信息、观看环境信息、使用历史信息和与声音内容相关的附加信息中的至少一个。另外,存储器150可以存储用于处理声音的各种参数(例如,呈现参数)。
存储器150可以包括广播接收模块、声道控制模块、音量控制模块、通信控制模块、语音识别模块、动作识别模块、光接收模块、显示控制模块、音频控制模块、外部输入控制模块、电力控制模块、语音数据库(DB)或动作数据库(DB)。
存储器150可以包括安装在电子设备100中的存储卡(例如,微型SD卡、USB存储器等),可连接到USB端口的外部存储器(例如,USB存储器等)、非易失性存储器、易失性存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。
光接收器160通过光窗(未示出)接收从遥控设备10(参见图1)输出的光信号(包括控制信息)。光接收器160可以从遥控设备10接收与用户输入(例如,触摸、按压、触摸手势、语音或动作)相对应的光信号。在这种情况下,从接收的光信号提取的控制信息可以被发送到处理器120。
电源170在处理器120的控制下将从外部电力源输入的电力提供给电子设备100的内部元件110-160。
图8至图10D是示出根据示例性实施例的用于提供UI的方法的视图。
图8是示出根据示例性实施例的用于设置智能声音模式的UI屏幕的视图。
如图8所示,可以根据预定事件在屏幕810上提供快速设置UI 811。这里,预定事件可以是按下遥控设备10上提供的特定按钮(例如,主页按钮)的事件,但不限于此。
这里,从快速设置UI 811中包括的多个菜单中,声音模式设置菜单811-1可以被设置为“标准声音模式”。
声音模式设置菜单811-1可以以切换(toggle)方法改变为“智能声音模式”。也就是说,响应于用户选择相应的菜单,菜单可以改变为“智能声音模式”,如图中所示。响应于以这种方式选择“智能声音模式”,根据上述实施例,可以根据智能声音模式输出声音。
尽管图8中示出了快速设置UI 811,但是如果提供了包括声音模式设置菜单811-1的任何UI,则不限于此。
图9是示出根据另一示例性实施例的用于设置智能声音模式的UI屏幕的视图。
如图9所示,电子设备100可以在用户正在观看时在适当时间提供用于设置智能声音模式的UI。例如,响应于在确定需要设置智能声音模式的同时遥控设备10上提供的特定按钮(例如,用于控制音量或改变频道的按钮)被按下,电子设备100可以提供用于设置智能声音模式的UI以引导用户的设置。
例如,电子设备100可以通过分析声音来实时监视内容在应用智能声音模式方面是否有效。例如,如图5A至5D所示,电子设备100可以对于中心信号和环境信号以每个帧为单位监视每个频率的大小变化,并且可以基于其中具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量(例如,Nth)的帧的数量,确定当前输出的内容在应用智能声音模式方面是否有效。例如,响应于满足相应条件的帧数与直到当前时间输出的帧数的比率大于或等于预定阈值比率,可以确定当前输出的内容在应用智能声音模式方面是有效的。
响应于确定当前输出的内容在应用智能声音模式方面有效,电子设备100可以在用户按下遥控设备10的特定按钮时在屏幕910上提供用于推荐智能声音模式的UI 911。在这种情况下,对应的UI可以包括用于引导用于进入智能声音模式的用户操作的内容。例如,该UI可以包括引导用户按压并按住音量按钮(或音量键)的内容,如图中所示。然而,在另一示例中,UI可以包括简单地推荐智能声音模式的内容,例如,“推荐设置智能声音模式”。根据情况,可以将相应的指南提供为语音。
响应于在预定时间内未输入引导的用户操作(例如,按下并按住音量按钮),所显示的UI可以自动消失。替代地,响应于输入对应操作以外的操作(例如,按下频道按钮),显示的UI可以自动消失。
在上述实施例中,响应于输入用户的特定操作,提供与智能声音模式的设置有关的UI。然而,根据另一示例性实施例,尽管没有用户的特定操作,响应于仅仅通过分析声音内容而确定智能声音模式适于应用,也可以自动提供相应的UI。
图10A和10B是示出根据又一示例性实施例的用于设置智能声音模式的UI屏幕的视图。
如图10A所示,电子设备100可以在用户正在观看时在适当时间提供智能声音设置1011。例如,如图10A所示,当用户按下遥控设备10的特定按钮(例如,音量按钮)时,电子设备100可以在屏幕1010上提供用于选择智能声音模式的UI 1011。替代地,即使响应于没有用户操作,电子设备100也可以根据分析声音内容的结果在适当时间提供选择智能声音模式的UI 1011。
在这种情况下,可以显示相应的UI 1011以便可选择。响应于选择对应的UI 1011(例如,响应于按下选择按钮(OK按钮)),电子设备100可以进入智能声音模式。例如,处于激活状态的相应UI 1011通过用户的选择而被去激活,并且电子设备100进入智能声音模式。相应的UI 1011可以被实现为,无论用户是否选择,都在预定阈值时间过去之后在屏幕上消失。
替代地,如图10B所示,电子设备100可以提供能够反映用户对智能声音效果的偏好的UI屏幕。
如图10B所示,电子设备100可以提供UI 1012,用于使用户能够在用户正在观看时在适当时间调整智能声音效果。例如,响应于遥控设备10上提供的特定按钮(例如,用于控制音量或改变频道的按钮)被按下,电子设备100可以提供用于调整智能声音效果的UI以引导用户的设置。例如,电子设备100可以为用户提供UI以选择是否突显清晰的语音或者是否突显宽的立体声效果。
例如,如图10B所示,当用户按下遥控设备10的特定按钮(例如,音量按钮)时,电子设备100可以在屏幕1010上提供智能声音效果调整UI 1012。在这种情况下,智能声音效果可以通过控制音量按钮的上/下来调整。也就是说,响应于如图所示向上方向音量按钮被按下,可以更加突显语音可懂度,并且响应于向下方向音量按钮被按下,可以调整智能声音效果以更加突显立体声效果。
遥控设备10上提供的按钮可以以各种形式实现,并且可以根据实现形式基于各种类型的操作来调整智能声音效果。例如,如图10C所示,提供在遥控设备10上的音量按钮11可以实现为可按压的,并且可以提供在具有形成在其上部和下部上的移动空间的孔中,并且可以物理地移动到上部和下部空间。在这种情况下,用户可以通过在按下音量按钮11的同时向上/向下移动音量按钮11(即,通过按住向上/向下)来调整智能声音效果。例如,响应于音量按钮11被按住向上/向下,可以更加突显语音可懂度,并且响应于音量按钮11被按住向下,可以调整智能声音效果以更加突显立体声效果。
根据另一示例性实施例,可以单独提供用于选择本公开的智能声音模式的按钮。在这种情况下,可以根据相应按钮的操作类型来选择或禁用智能声音模式。例如,响应于如图10A所示提供的智能声音设置UI 1011并且相应的按钮被按下和释放,电子设备100可以进入智能声音模式,并且响应于按钮被按下并按住,可以禁用智能声音模式。然而,可以以语音的形式提供智能声音设置UI 1011。
替代地,可以基于当前模式选择和禁用智能声音模式,而不管操作类型如何。例如,响应于如图10A所示智能声音设置UI 1011被提供并且相应的按钮被按下,可以选择智能声音模式,并且响应于在智能声音模式状态下相应的按钮被按下,可以禁用智能声音模式。
替代地,响应于相应按钮被按下和释放并且电子设备进入智能声音模式,可以重新映射遥控设备10上提供的按钮的功能以对应于智能声音模式。例如,在电子设备100进入智能声音模式后,可以将调整智能声音效果的水平的功能映射到上/下按钮(或左/右按钮)。因此,响应于上按钮被按下,智能声音效果可以增加,并且响应于下按钮被按下,智能声音效果可以降低。
替代地,可以将不同的智能声音功能映射到上/下按钮和左/右按钮。例如,可以将语音突显功能映射到上/下按钮,并且响应于上按钮被按下,语音突显效果可以增加,并且响应于下按钮被按下,语音突显效果可以降低。另外,可以将声音效果(或声场)突显功能映射到左/右按钮,并且响应于右按钮被按下,声场突显效果可以增加,并且响应于左按钮被按下,声场突显效果可以降低。
根据又一示例性实施例,可以单独提供用于调整智能声音效果的按钮,并且例如,可以以音量按钮的形式实现,如图10C所示。在这种情况下,响应于用户按下相应的按钮11,电子设备100可以进入智能声音模式,并且响应于用户在仍然按下键的同时向上移动(按住/向上),智能声音效果可以增加,并且,响应于用户在按下键的同时向下移动(按住/向下),智能声音效果可以降低。另外,响应于相应的按钮11被按下并按住,可以禁用智能声音模式。
根据又一示例性实施例,可以单独提供用于调整智能声音效果的按钮,并且用户可以通过按下相应按钮来直接设置用于提供智能声音效果的参数。
例如,响应于用户按下并释放相应的按钮以进入智能声音模式,电子设备100进入智能声音模式。在这种情况下,智能声音效果可以由用于提供智能声音效果的多个参数设置值中的以最高优先级存储的一组设置值提供。
接下来,响应于用户再次按下相应按钮,可以改变和存储用于提供智能声音效果的多组参数设置值的优先级。例如,电子设备100可以存储多组设置值,包括用于提供各种声音效果的参数设置值。多组设置值可以包括用于突显各个阶段的语音或突显各个阶段的声场的参数设置值。
在这种情况下,电子设备100可以在每次按下相应按钮时改变多组设置值的优先级,并且可以基于改变的优先级基于具有最高优先级的多组设置值来提供智能声音效果。也就是说,响应于用户对当前提供的智能声音效果不满意,用户可以通过按下相应的按钮来调整智能声音效果,并且响应于用户期望的智能声音效果被提供,用户可以停止按下相应的按钮。因此,可以仅用一个按钮向用户提供用户所期望的智能声音效果。
之后当电子设备100进入智能声音模式时,电子设备100可以基于与智能声音效果对应的一组参数设置值来提供智能声音效果。
在另一示例性实施例中,可以单独提供用于调整智能声音效果的按钮,并且可以向用户提供用于通过按下相应按钮来直接设置用于提供智能声音效果的参数的UI。
例如,响应于用户按下并释放相应的按钮以进入智能声音效果,可以提供包括与各种智能声音效果相对应的多个选择菜单的UI屏幕1013,如图10D所示。例如,可以提供包括用于更加突显语音的“更清晰语音”菜单1013-1和“更宽的立体声”菜单1013-2的UI屏幕1013。在这种情况下,用户可以通过遥控设备10上单独提供的方向按钮在两个菜单上导航,并且可以通过选择按钮(例如,OK按钮或上述相应按钮)选择特定菜单。替代地,可以基于按下相应按钮的次数来选择特定菜单,或者可以通过数字按钮来选择特定菜单。例如,响应于按下对应的按钮一次可以选择菜单11013-1,并且响应于按下按钮两次可以选择菜单21013-2。另外,可以响应于按下数字1按钮来选择菜单11013-1,并且可以响应于按下数字2按钮来选择菜单2 1013-2。
在这种情况下,响应于选择特定菜单,可以执行与相应菜单相对应的功能,或者可以提供相应菜单的子菜单。例如,响应于选择“更清晰语音”菜单1013-1,电子设备100可以提供更突显语音的智能声音效果,或者可以提供包括多个语音突显水平的子菜单,使得用户可以从多个语音突显水平中选择所期望的一个。
替代地,在光标(或高亮)放置在特定菜单上的状态下,可以基于按下相应按钮的次数来选择相应水平的智能声音效果。例如,在光标(或高亮)被放置在“更清晰语音”菜单1013-1上的状态下,可以基于按下和释放相应按钮的次数来选择语音突显水平。例如,响应于按下按钮一次,可以基于按照第一水平突显语音的一组参数设置值来提供智能声音效果,并且响应于按下按钮两次,可以基于按照第二水平突显语音的一组参数设置值来提供智能声音效果。
上述各种示例性实施例可以以各种形式组合并且作为新的示例性实施例提供。例如,当在图9所示的实施例中使用图10C中所示的遥控设备10时,可以通过按下并按住相应的按钮11使得用于推荐智能声音模式的UI 911在屏幕上消失。
另外,在上述实施例中,通过遥控设备10控制电子设备100。然而,可以通过提供在电子设备100上的按钮来应用相应的实施例。例如,电子设备100可以响应于用户按下和释放电子设备100上提供的特定按钮进入智能声音模式,或者可以响应于用户按下并按住相应按钮而禁用智能声音模式。
图11是示出根据示例性实施例的电子设备的控制方法的流程图。
根据提供如图11所示的智能声音模式的电子设备的控制方法,响应于预定事件发生(S1110:是),提供用于引导进入智能声音模式的UI(S1120)。这里,预定事件可以包括以下中的至少一个:按下如图8至10D所述的控制电子设备100的遥控设备上提供的预定按钮的事件、按下提供在电子设备100上的预定按钮的事件、以及输出适于应用智能声音模式的声音部分的事件。另外,引导UI可以以音频的形式提供,或者可以通过显示器140显示(参见图7)。当通过显示器140提供引导UI时,可以以图8至10D中描述的各种形式提供UI。
接下来,响应于根据用户命令选择智能声音模式(S1130:是),基于是否从第一声音信号检测到语音以及是否从第二声音信号检测到声音效果,单独地呈现作为形成声音信号的多个声道中的公共分量的第一声音信号和作为多个声道中的差分分量的第二声音信号(S1140)。
此后,将所呈现的第一和第二声音信号混合成多声道声音信号,并输出多声道声音信号(S1150)。
另外,在呈现的步骤S1140中,以预定区间为单位在第一声音信号中识别频率变化,并且识别每个区间中是否存在语音,并且以预定区间为单位识别第二声音信号中的频率变化,并且识别每个区间中是否存在声音效果。
另外,在呈现的步骤S1140中,响应于在第一声音信号的每个区间中具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,识别出相应的区间中存在语音,并且响应于在第二声音信号的每个区间中具有大于或等于阈值的大小变化的频率的数量大于或等于阈值数量,识别出相应的区间中存在声音效果。
另外,在呈现的步骤S1140中,通过基于在第一声音信号的每个区间中是否识别出语音,在预定呈现单位区间中将权重值应用于语音突显滤波器来呈现第一声音信号;并且,通过基于在第二声音信号的每个区间中是否识别出声音效果,在预定呈现单位区间中将权重值应用于声音效果突显滤波器来呈现第二声音信号。
另外,在呈现的步骤S1140中,通过基于在第一声音信号的每个区间中是否识别出语音来更新在每个预定呈现单位区间中应用的参数,来呈现第一声音信号。并且,通过基于在第二声音信号的每个区间中是否识别出声音效果来更新在每个预定呈现单位区间中应用的参数,来呈现第二声音信号。
另外,在呈现的步骤S1140中,基于电子设备的设备设置信息、观看环境信息、使用历史信息以及与声音内容相关的附加信息中的至少一个,调整应用于第一声音信号和第二声音信号中的至少一个的滤波器的权重值。
另外,控制方法还可以包括:响应于确定第一声音信号和第二声音信号中的至少一个中存在音乐元素,通过将预定权重值应用到音乐突显滤波器,来呈现第一声音信号和第二声音信号中的至少一个。
另外,声音信号可以是双声道立体声信号,并且在提供的步骤S1120中,双声道立体声信号可以被划分成作为双声道立体声信号之间的公共分量的中心信号、和作为差分分量的环境信号,并且在呈现的步骤S1140中,可以基于在中心信号中是否识别出语音以及在环境信号中是否识别出声音效果来单独地呈现中心信号和环境信号。
根据各种实施例,内容的声音信号被划分为中心信号和环境信号,并且基于它们各自的信号特性来呈现划分的信号,使得可以更清楚地提供语音并且可以关于声音效果提供更宽的声场。
另外,由于通过以预定声音区间为单位执行实时呈现来执行适合于内容的每个声音区间的声音呈现,因此可以提供更智能的声音效果。
另外,基于各种附加信息来呈现内容的声音,使得执行针对用户情境优化的声音呈现,因此可以提供更智能的声音效果。
可以简单地通过升级现有电子设备的软件或硬件来实现根据上述各种示例性实施例的方法。
另外,可以通过电子设备中提供的嵌入式服务器或电子设备的外部服务器来执行上述各种示例性实施例。
另外,可以提供一种存储顺序地执行本公开的控制方法的程序的非暂时性计算机可读介质。
例如,可以提供一种非暂时性计算机可读介质,其存储用于执行以下操作的程序:将声音信号划分成第一声音信号和第二声音信号,该第一声音信号是形成声音信号的多个声道中的公共分量,该第二声音信号是多个声道中的差分分量;基于第一声音信号是否包括语音以及第二声音信号是否包括声音效果,分别呈现第一声音信号和第二声音信号;并且将呈现的第一和第二声音信号混合成多声道声音信号,并输出多声道声音信号。
上述各种示例性实施例可以通过使用软件、硬件或其组合在计算机或类似设备可读的记录介质中实现。在一些情况下,本公开中描述的实施例可以由处理器实现。根据软件实现,诸如本公开中描述的过程和功能的实施例可以由单独的软件模块实现。每个软件模块可以执行本公开中描述的一个或多个功能和操作。
用于执行根据各种实施例的显示装置100的处理操作的计算机指令可以存储在非暂时性计算机可读介质中。当指令由特定设备的处理器执行时,存储在非暂时性计算机可读介质中的计算机指令允许特定设备根据上述各种实施例在显示装置100中执行处理操作。
非暂时性计算机可读介质是指半永久地存储数据而不是在非常短的时间内存储数据的介质,诸如寄存器、高速缓存、存储器等,并且所述非暂时性计算机可读介质可由装置读取。非暂时性计算机可读介质的示例可以包括压缩盘(CD)、数字通用盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡、ROM等等。
虽然已经参考本发明的某些优选实施例示出和描述了本发明,但是本领域技术人员将理解,在不脱离由所附权利要求定义的本发明的精神和范围的情况下,可以在形式和细节上进行各种改变。因此,本发明的范围不是由本发明的详细描述限定,而是由所附权利要求限定,并且该范围内的所有差异将被解释为包括在本发明中。
Claims (13)
1.一种提供智能声音模式的电子设备,该电子设备包括:
用户命令接收器;
输入器;
输出器;以及
处理器,配置为:
响应于预定事件发生,提供用于引导智能声音模式的设置的用户界面(UI);
响应于智能声音模式根据通过用户命令接收器输入的用户命令被选择,基于第一声音信号中的频率变化来识别第一声音信号中是否存在语音,基于第二声音信号中的频率变化来识别第二声音信号中是否存在声音效果,其中第一声音信号是多个声道中的公共分量,并且第二声音信号是所述多个声道中的差分分量;
基于第一声音信号中是否存在语音来呈现第一声音信号,基于第二声音信号中是否存在声音效果来呈现第二声音信号;
将呈现的第一和第二声音信号混合成多声道声音信号;以及
控制输出器输出多声道声音信号。
2.如权利要求1所述的电子设备,其中,处理器被配置为:
如果在第一声音信号的每个区间中具有大于或等于第一阈值的大小变化的频率的数量大于或等于第一阈值数量,则识别出相应区间中存在语音;以及
如果在第二声音信号的每个区间中具有大于或等于第二阈值的大小变化的频率的数量大于或等于第二阈值数量,则识别出相应区间中存在声音效果。
3.如权利要求1所述的电子设备,其中,处理器被配置为:
通过基于在第一声音信号的每个区间中是否存在语音,在预定呈现单位区间中将权重值应用于语音突显滤波器,来呈现第一声音信号;以及
通过基于在第二声音信号的每个区间中是否存在背景声音,在预定呈现单位区间中将权重值应用于声音效果突显滤波器,来呈现第二声音信号。
4.如权利要求3所述的电子设备,其中,处理器被配置为:
通过基于第一声音信号的每个区间是否包括语音,更新在每个预定呈现单位区间中应用的参数,来呈现第一声音信号;以及
通过基于第二声音信号的每个区间是否包括声音效果,更新在每个预定呈现单位区间中应用的参数,来呈现第二声音信号。
5.如权利要求3所述的电子设备,其中,所述处理器被配置为基于所述电子设备的设备设置信息、观看环境信息、使用历史信息以及与声音内容相关的附加信息中的至少一个,调整应用于所述第一声音信号和所述第二声音信号中的至少一个的滤波器的权重值。
6.如权利要求1所述的电子设备,其中,响应于确定在第一声音信号和第二声音信号中的至少一个中存在音乐元素,处理器被配置为通过应用预定的权重值到音乐突显滤波器来呈现第二声音信号。
7.如权利要求1所述的电子设备,其中,所述声音信号是双声道立体声信号;并且
其中,处理器被配置为将双声道立体声信号划分成中心信号和环境信号,中心信号是双声道立体声信号中的公共分量,环境信号是双声道立体声信号中的差分分量,并且基于中心信号是否包括语音以及环境信号是否包括声音效果,单独地呈现中心信号和环境信号。
8.如权利要求1所述的电子设备,还包括显示器,
其中,响应于预定事件发生,处理器被配置为通过显示器提供用于允许进入智能声音模式的UI和用于调整智能声音效果的UI中的至少一个。
9.如权利要求8所述的电子设备,其中,所述预定事件包括按下控制电子设备的遥控设备上提供的预定按钮的事件和输出适于应用智能声音模式的声音部分的事件中的至少一个。
10.一种提供智能声音模式的电子设备的控制方法,该控制方法包括:
接收声音信号;
响应于预定事件发生,提供用于引导智能声音模式的设置的UI;
响应于智能声音模式根据用户命令被选择,基于第一声音信号中的频率变化来识别第一声音信号中是否存在语音,基于第二声音信号中的频率变化来识别第二声音信号中是否存在声音效果,其中第一声音信号是多个声道中的公共分量,并且第二声音信号是所述多个声道中的差分分量;
基于第一声音信号中是否存在语音来呈现第一声音信号,基于第二声音信号中是否存在声音效果来呈现第二声音信号;以及
将呈现的第一和第二声音信号混合成多声道声音信号,并输出多声道声音信号。
11.如权利要求10所述的控制方法,其中,所述呈现包括:
如果在第一声音信号的每个区间中具有大于或等于第一阈值的大小变化的频率的数量大于或等于第一阈值数量,则识别出相应区间中存在语音;以及
如果在第二声音信号的每个区间中具有大于或等于第二阈值的大小变化的频率的数量大于或等于第二阈值数量,则识别出相应区间中存在声音效果。
12.如权利要求10所述的控制方法,其中,所述·呈现包括:
通过基于在第一声音信号的每个区间中是否存在语音,在预定呈现单位区间中将权重值应用于语音突显滤波器,来呈现第一声音信号;以及
通过基于在第二声音信号的每个区间中是否存在背景声音,在预定呈现单位区间中将权重值应用于声音效果突显滤波器,来呈现第二声音信号。
13.如权利要求12所述的控制方法,其中,所述呈现包括:
通过基于第一声音信号的每个区间是否包括语音,更新在每个预定呈现单位区间中应用的参数,来呈现第一声音信号;以及
通过基于第二声音信号的每个区间是否包括声音效果,更新在每个预定呈现单位区间中应用的参数,来呈现第二声音信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2016-0122050 | 2016-09-23 | ||
KR1020160122050A KR102614577B1 (ko) | 2016-09-23 | 2016-09-23 | 전자 장치 및 그 제어 방법 |
PCT/KR2017/009942 WO2018056624A1 (en) | 2016-09-23 | 2017-09-11 | Electronic device and control method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109716780A CN109716780A (zh) | 2019-05-03 |
CN109716780B true CN109716780B (zh) | 2021-07-13 |
Family
ID=59997058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780057932.1A Active CN109716780B (zh) | 2016-09-23 | 2017-09-11 | 电子设备及其控制方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10362433B2 (zh) |
EP (1) | EP3300077A1 (zh) |
KR (1) | KR102614577B1 (zh) |
CN (1) | CN109716780B (zh) |
WO (1) | WO2018056624A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106303897A (zh) * | 2015-06-01 | 2017-01-04 | 杜比实验室特许公司 | 处理基于对象的音频信号 |
US11579835B2 (en) * | 2016-12-29 | 2023-02-14 | Huawei Technologies Co., Ltd. | Multimedia data playing method and terminal device |
CN111326172A (zh) * | 2018-12-17 | 2020-06-23 | 北京嘀嘀无限科技发展有限公司 | 冲突检测方法、装置、电子设备及可读存储介质 |
CN109682676A (zh) * | 2018-12-29 | 2019-04-26 | 上海工程技术大学 | 一种纤维拉伸断裂的声发射信号的特征提取方法 |
CN111641863A (zh) * | 2019-03-01 | 2020-09-08 | 深圳Tcl新技术有限公司 | 一种环绕声的播放控制方法、系统、装置及存储介质 |
KR20210008788A (ko) | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2021010562A1 (en) * | 2019-07-15 | 2021-01-21 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
US10805665B1 (en) * | 2019-12-13 | 2020-10-13 | Bank Of America Corporation | Synchronizing text-to-audio with interactive videos in the video framework |
CN112740708B (zh) * | 2020-05-21 | 2022-07-22 | 华为技术有限公司 | 一种音频数据传输方法及相关装置 |
CN113727240A (zh) * | 2020-05-26 | 2021-11-30 | 南宁富桂精密工业有限公司 | 声音播放调整方法及可携式装置 |
CN112351290A (zh) * | 2020-09-08 | 2021-02-09 | 深圳Tcl新技术有限公司 | 智能设备的视频录制方法、装置、设备及可读存储介质 |
CN114257924A (zh) * | 2020-09-24 | 2022-03-29 | 华为技术有限公司 | 一种分配声道的方法及相关设备 |
CN112466057B (zh) * | 2020-12-01 | 2022-07-29 | 上海旷日网络科技有限公司 | 基于人脸识别和语音识别的交互式认证取件系统 |
CN113422992B (zh) * | 2021-06-17 | 2023-03-21 | 歌尔股份有限公司 | 遥控器和电子系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1422467A (zh) * | 2000-02-04 | 2003-06-04 | 听觉增强有限公司 | 在消费者应用中话音对其余音频(vra)的使用 |
WO2016024847A1 (ko) * | 2014-08-13 | 2016-02-18 | 삼성전자 주식회사 | 음향 신호를 생성하고 재생하는 방법 및 장치 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03236691A (ja) * | 1990-02-14 | 1991-10-22 | Hitachi Ltd | テレビジョン受信機用音声回路 |
KR940001861B1 (ko) * | 1991-04-12 | 1994-03-09 | 삼성전자 주식회사 | 오디오 대역신호의 음성/음악 판별장치 |
JP3326201B2 (ja) * | 1992-07-14 | 2002-09-17 | 株式会社パラマ・テック | 血圧計及び脈波計における圧力降下速度制御装置 |
US6281749B1 (en) * | 1997-06-17 | 2001-08-28 | Srs Labs, Inc. | Sound enhancement system |
US7412380B1 (en) * | 2003-12-17 | 2008-08-12 | Creative Technology Ltd. | Ambience extraction and modification for enhancement and upmix of audio signals |
US8509092B2 (en) | 2008-04-21 | 2013-08-13 | Nec Corporation | System, apparatus, method, and program for signal analysis control and signal control |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
JP2011065093A (ja) | 2009-09-18 | 2011-03-31 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
US9042559B2 (en) | 2010-01-06 | 2015-05-26 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
KR20150022476A (ko) * | 2013-08-23 | 2015-03-04 | 삼성전자주식회사 | 디스플레이장치 및 그 제어방법 |
KR101537653B1 (ko) | 2013-12-31 | 2015-07-17 | 서울대학교산학협력단 | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 |
KR102229156B1 (ko) | 2014-03-05 | 2021-03-18 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치의 제어 방법 |
EP3175634B1 (en) * | 2014-08-01 | 2021-01-06 | Steven Jay Borne | Audio device |
-
2016
- 2016-09-23 KR KR1020160122050A patent/KR102614577B1/ko active IP Right Grant
-
2017
- 2017-09-11 WO PCT/KR2017/009942 patent/WO2018056624A1/en active Application Filing
- 2017-09-11 CN CN201780057932.1A patent/CN109716780B/zh active Active
- 2017-09-15 EP EP17191341.1A patent/EP3300077A1/en not_active Ceased
- 2017-09-19 US US15/708,396 patent/US10362433B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1422467A (zh) * | 2000-02-04 | 2003-06-04 | 听觉增强有限公司 | 在消费者应用中话音对其余音频(vra)的使用 |
WO2016024847A1 (ko) * | 2014-08-13 | 2016-02-18 | 삼성전자 주식회사 | 음향 신호를 생성하고 재생하는 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
A Novel Speech/Noise Discrimination Method for Embedded ASR System;Bian Wu等;《EURASIP Journal on Applied Signal Processing》;20041130;P1721–1726 * |
Also Published As
Publication number | Publication date |
---|---|
US10362433B2 (en) | 2019-07-23 |
EP3300077A1 (en) | 2018-03-28 |
WO2018056624A1 (en) | 2018-03-29 |
US20180091926A1 (en) | 2018-03-29 |
KR20180032860A (ko) | 2018-04-02 |
KR102614577B1 (ko) | 2023-12-18 |
CN109716780A (zh) | 2019-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109716780B (zh) | 电子设备及其控制方法 | |
US10123140B2 (en) | Dynamic calibration of an audio system | |
KR101262700B1 (ko) | 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치 | |
EP2737692B1 (en) | Control device, control method and program | |
JP4913038B2 (ja) | 音声レベル制御 | |
US10678563B2 (en) | Display apparatus and method for controlling display apparatus | |
US10782928B2 (en) | Apparatus and method for providing various audio environments in multimedia content playback system | |
JP2010515290A (ja) | ダイアログエンハンスメント技術のコントローラ及びユーザインタフェース | |
KR20220108163A (ko) | 음성 명령 추천을 제공하기 위한 시스템 및 방법 | |
US8452030B2 (en) | External equipment controlling apparatus | |
CN105635609A (zh) | 显示设备和显示方法 | |
US9703523B1 (en) | Adjusting audio volume based on a size of a display area | |
JP2023071787A (ja) | 音高に依存しない音色属性をメディア信号から抽出する方法及び装置 | |
US10972849B2 (en) | Electronic apparatus, control method thereof and computer program product using the same | |
US10992273B2 (en) | Electronic device and operation method thereof | |
US20210019113A1 (en) | Display apparatus and controlling method thereof | |
US9445210B1 (en) | Waveform display control of visual characteristics | |
US8942980B2 (en) | Method of navigating in a sound content | |
JP2022511991A (ja) | メディアコンテンツにおけるスピーチの度合に基づく光効果の決定 | |
CN115687684A (zh) | 音频播放方法、装置、电子设备及可读存储介质 | |
KR20150051073A (ko) | 이미지에 워터마크를 삽입하기 위한 전자 장치 및 방법 | |
CN114900775A (zh) | 音频播放优化方法、装置、电子设备及可读存储介质 | |
CN117061945A (zh) | 终端设备、声音调整方法、及存储介质 | |
JP2006148608A (ja) | 音声信号判別装置、音質調整装置、放送受信機、プログラム、及び記録媒体 | |
JP2018056727A (ja) | 映像音声出力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |