CN103516894A - 移动终端及其音频缩放方法 - Google Patents
移动终端及其音频缩放方法 Download PDFInfo
- Publication number
- CN103516894A CN103516894A CN201310251706.0A CN201310251706A CN103516894A CN 103516894 A CN103516894 A CN 103516894A CN 201310251706 A CN201310251706 A CN 201310251706A CN 103516894 A CN103516894 A CN 103516894A
- Authority
- CN
- China
- Prior art keywords
- sound
- voice capture
- picture
- subject
- scope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 230000008859 change Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 45
- 206010010904 Convulsion Diseases 0.000 claims description 34
- 230000000694 effects Effects 0.000 claims description 32
- 238000013459 approach Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 53
- 238000004891 communication Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000010295 mobile communication Methods 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 230000003321 amplification Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 244000287680 Garcinia dulcis Species 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012856 packing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000283973 Oryctolagus cuniculus Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000000700 radioactive tracer Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 239000010409 thin film Substances 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002789 length control Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008786 sensory perception of smell Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
- H04N23/675—Focus control based on electronic image sensor signals comprising setting of focusing regions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/8042—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
- H04N9/8211—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Telephone Function (AREA)
Abstract
本公开涉及移动终端及其音频缩放方法,能基于图像在捕捉和再现视频的同时有效地捕捉音频。根据本公开,如果在捕捉被摄体同时在预定声音捕捉范围内捕捉被摄体的声音时发生改变被摄体的捕捉位置或范围或者捕捉模式的事件,则可通过根据相关事件改变声音捕捉角度并自动控制声音捕捉范围来捕捉被摄体的声音;如果发生了改变被摄体的捕捉位置或范围或者捕捉模式的事件,则可通过根据事件自动控制声音捕捉范围来捕捉被摄体的声音。此外,当捕捉和再现图像时,可与用户在画面上的对特定区域编辑功能的输入有关地自动控制声音捕捉位置和范围,并可重新调整通过前置和后置摄像头捕捉的被摄体的声音源的捕捉位置和范围,以在再现模式中再现最优声音源。
Description
技术领域
本公开涉及一种能够在捕捉并再现视频的同时有效地捕捉由被摄体(subject)生成的声音的移动终端及其音频缩放方法。
背景技术
移动终端可以被配置为执行各种功能。各种功能的示例可以包括:数据和语音通信功能、通过摄像头的照片或视频捕捉功能、语音存储功能、通过扬声器系统的音乐文件再现功能、图像或视频显示功能等等。一些移动终端可以包括能够实现游戏的额外功能,并且一些其它移动终端可以实现为多媒体播放器。而且,最近的移动终端接收广播或多播信号,以允许用户观看视频或电视节目。
此外,已进行支持并提高移动终端的功能的努力。前述努力可以包括:添加和提高软件或硬件以及改变和提高构成移动终端的结构元件。在这些努力当中,移动终端的触摸功能甚至允许不熟悉按钮/按键输入的用户使用触摸屏方便地执行对终端的操作。近年来,除了简单输入之外,触摸功能作为终端的关键功能与用户UI一起被解决。
移动终端使用摄像头提供捕捉的被摄体的各种功能。用户可以通过操纵摄像头的控制选项围绕特定被摄体放大图像,以通过手动和自动调整图像的焦点或使用面部识别功能等执行对期望的图像的捕捉。
例如,用户可以根据被摄体的位置而选择性地使用移动终端的前置摄像头或后置摄像头以执行捕捉,并且根据景象来具体地改变捕捉模式(肖像模式或风景模式)以执行捕捉。此外,用户可以选择性地围绕画面的特定区域放大被摄体,或者甚至在再现期间重新调整焦点。
当使用各种捕捉技术捕捉被摄体或感兴趣的景象时,通过麦克风阵列捕捉和存储由该被摄体生成的语音或声音。
然而,当使用各种捕捉技术捕捉被摄体或感兴趣的景象时,根据现有技术,存在以下缺点:周围的声音和噪声以及由被摄体生成的声音同时被捕捉。
为了解决该问题,根据现有技术,通过触摸或激光指示器指出画面上的感兴趣的被摄体或特定区域,然后选择性地捕捉所指出的被摄体或区域的声音。
然而,利用传统的手动定点的声音捕捉方法具有如下缺点:用户应当逐一指出声音源,并且,尤其是,与捕捉图像无关地仅捕捉特定被摄体或区域的声音,因此,存在声音和图像在视频再现期间不同步的限制。
此外,根据现有技术中的声音捕捉方法,存在如下困难:当在存在多人的环境中捕捉特定一人的语音时,难以捕捉声音(诸如详细地控制声音捕捉范围);并且当捕捉存在于不同位置处的两个人的语音时,难以以单独的方式形成针对两个人的位置的指向性并且难以分别以各种方式来调整声音捕捉范围,等等。
特别地,根据现有技术中的声音捕捉方法,假设被摄体被定位在画面的中心周围并且还由相关被摄体生成声音,仅从被摄体生成的声音一直被关注(固定),以捕捉该声音。
然而,当被摄体的位置与从相关被摄体生成的声音的位置不同时,前述声音捕捉方法表现出明显有限的声音捕捉性能。例如,在歌手或老师使用麦克风唱歌或进行演讲的实际情况下,尽管歌手或老师位于画面的中心,但是具有在不同位置存在传递相关歌曲或语音的扬声器的情况。在这种情况下,当基于歌手或老师的位置来捕捉声音时,会导致移除歌手或老师的语音的副作用。为了克服前述缺点,当利用宽屏进行捕捉以捕捉从扬声器中生成的所有声音时,具有包含不必要的背景画面和周围噪声的缺点。
此外,为了解决现有技术的声音捕捉方法的问题,根据现有技术,已经提供了音频缩放技术和与其相关联的各种捕捉技术,该音频缩放技术能够优化由被摄体生成的声音以捕捉与用户的控制操作有关的声音,但是目前,仅在捕捉阶段主要使用该音频缩放技术。结果,当再现捕捉的并且存储的图像时,在捕捉阶段被捕捉的声音被原样再现,并且因此具有如下缺点:用户不能选择从用于再现的特定区域中生成的语音和声音。
发明内容
本公开的目的在于提供一种移动终端及其音频缩放方法,其能够与各种捕捉技术有关地以最优方式捕捉从被摄体生成的声音。
本公开的目的在于提供一种移动终端及其音频缩放方法,其能够基于捕捉图像详细地控制捕捉声音的位置和范围。
本公开的目的在于提供一种移动终端及其音频缩放方法,其能够在与期望被捕捉和再现的被摄体的位置不同的位置处形成声音指向性,以按照最优方式捕捉相关被摄体的声音。
本公开的目的在于提供一种移动终端及其音频缩放方法,其能够在视觉上提供存在于画面中或画面外的声音源的信息,以允许用户选择捕捉声音的位置和方向。
本公开的目的在于提供一种移动终端及其音频缩放方法,其能够最优化并且再现从再现画面的特定区域生成的声音。
本公开的目的在于提供一种移动终端及其音频缩放方法,其能够在再现画面上详细地控制捕捉声音的位置和范围。
为了实现前述目标,根据本公开的实施方式的移动终端的音频缩放方法可以包括如下步骤:在预定捕捉模式中配置被摄体的声音捕捉范围;在所配置的声音捕捉范围内捕捉所述被摄体的声音;当在捕捉阶段发生用于改变被摄体的捕捉位置或范围或者捕捉模式的事件时,改变声音捕捉角度以自动控制声音捕捉范围;并且在所控制的声音捕捉范围内捕捉被摄体的声音。
为了实现前述目标,根据本公开的实施方式的移动终端可以包括:显示单元,所述显示单元被配置为显示包含感兴趣的主体的画面;存储器,所述存储器被配置为存储与捕捉相关联的信息;以及控制器,所述控制器被配置为:当在捕捉阶段发生用于改变被摄体的捕捉位置或范围或者捕捉模式的事件时,自动控制所述声音捕捉范围以捕捉所述被摄体的声音。
为了实现前述目标,根据本公开的另一个实施方式的移动终端的音频缩放方法可以包括如下步骤:在捕捉模式中聚焦被摄体以捕捉图像;自动识别画面中或画面外的用于输出被摄体的声音的声音源,以将它显示在位于所述画面的一侧的音频缩略图上;在所述音频缩略图上形成由用户选择的声音源的指向性,以执行音频聚焦;并且捕捉经音频聚焦的声音源。
为了实现前述目标,根据本公开的另一个实施方式的移动终端可以包括:显示单元,所述显示单元被配置为在捕捉模式中显示聚焦在被摄体上的图像;以及控制器,所述控制器被配置为自动识别画面中或画面外的用于输出被摄体的声音的声音源,以将它显示在位于所述画面的一侧的音频缩略图上,并且在所述音频缩略图上对由用户选择的声音源执行音频聚焦,以捕捉相关声音源。
附图说明
附图被包括以提供对本发明的进一步理解,并且被并入本申请且构成本申请的一部分,附图例示了本发明的实施方式,并且与说明书一起用于说明本发明的原理。在附图中:
图1是例示与本公开的实施方式相关联的移动终端的框图;
图2是例示能够操作与本公开的实施方式相关联的移动终端的无线通信系统的框图;
图3是捕捉模式中的音频缩放技术的应用示例;
图4是再现模式中的音频缩放技术的应用示例;
图5是与本公开相关联的摄像头模式的配置示例;
图6是例示声音捕捉角度与声音捕捉范围之间的关系的视图;
图7A至图7C是例示针对每种捕捉模式的声音捕捉信息的配置示例的视图;
图8是例示与前置/后置摄像头的选择相关的声音捕捉信息的配置示例的视图;
图9A至图9E是例示各种捕捉模式的声音捕捉信息的配置示例的视图;
图10A至图10E是例示允许用户在一般捕捉模式中配置声音捕捉信息的示例的视图;
图11A至11D是例示手动地改变声音捕捉范围的显示尺寸的示例的视图;
图12A至图12E是例示提供与声音捕捉范围的变化极限有关的信息的示例的视图;
图13是例示根据本公开的实施方式的移动终端的音频缩放方法的流程图;
图14是例示当发生作为一种用户事件的画面放大/缩小时,控制声音捕捉范围的示例的视图;
图15A和图15B是例示在画面放大/缩小阶段,在声音捕捉范围内提供预置选项的示例的视图;
图16A和图16B是例示根据焦点改变的声音捕捉范围的位置改变的视图;
图17是例示当捕捉多个被摄体的声音时,改变声音捕捉对象的方法的流程图;
图18A和图18B是例示根据本公开自动改变声音捕捉对象的示例的视图;
图19A至图19C是例示当移动声音捕捉区域时,防止声音捕捉中断的视听效果的示例的视图;
图20是例示当从被摄体生成的声音与传统的被摄体位置不同时,捕捉声音的示例的视图;
图21是例示根据本公开的实施方式的音频/视频双聚焦方法的概念视图;
图22是例示根据本公开的实施方式的、当使用音频/视频双聚焦方法捕捉视频时,显示声音的位置的示例的视图;
图23是在捕捉画面上激活控制图标的示例;
图24是在捕捉图像上重叠音频缩略图的示例;
图25A和图25B是在与捕捉图像重叠的音频缩略图上显示声音图标的示例;
图26是从音频缩略图中选择将要被捕捉声音的对象的示例;
图27是同时执行声音源聚焦和被摄体聚焦的示例;
图28是例示根据本公开的实施方式的移动终端的音频/视频双聚焦方法的流程图;
图29是再现视频的同时显示多个可选择的声音捕捉范围的示例;
图30是根据本公开的实施方式的、在再现模式中显示与区域放大功能有关的声音捕捉方法的示例;
图31是根据本公开的实施方式的、在再现模式中显示与区域移除功能有关的声音捕捉方法的示例;
图32是根据本公开的实施方式的、在再现模式中显示与焦点重新调整功能有关的声音捕捉方法的示例;
图33是例示根据本公开的第一实施方式的、在双重记录模式中与用户反馈有关的声音捕捉方法的视图;
图34是例示根据本公开的第二实施方式的、在双重记录模式中与用户反馈有关的声音捕捉方法的视图;
图35A和图35B是例示根据本公开的第三实施方式的、在双重记录模式中与用户反馈有关的声音捕捉方法的视图;以及
图36是例示根据本公开的实施方式的、在再现阶段移动终端的音频缩放方法的流程图。
具体实施方式
下文中,将参照附图更加详细地描述与本公开相关联的移动终端。用于构成在以下说明书中公开的元件的后缀“模块”或“单元”仅仅旨在出于易于描述说明书的目的,并且后缀自身不给出任何特定的意义或者功能。因此,应当指出的是,后缀“模块”或“单元”可以彼此互换使用。
能够以各种形式实现终端。本文所公开的终端可以包括:诸如便携式电话、智能电话、膝上型计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪等的移动终端,以及诸如数字TV、台式计算机等的固定终端。在以下描述中,将终端假设并且描述为移动终端。然而,本领域技术人员将会理解的是,根据以下描述的配置可以应用于固定终端,固定终端不包括针对移动目的而特别配置的构成元件。
图1是例示与本公开的实施方式相关联的移动终端的框图。
移动终端100可以包括:无线通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180、电源单元190等。然而,如图1所示的构成元件不是必然需要的,并且可以以比示出的元件更多或更少数目的元件来实现移动终端。
下文中,将依次描述构成元件。
无线通信单元110通常包括一个或更多个模块,这一个或更多个模块允许移动终端100与无线通信系统之间的无线电通信,或者允许移动终端100与该移动终端100所在的网络之间的无线电通信。例如,无线通信单元110可以包括:广播接收模块111、移动通信模块112、无线因特网模块113、短程通信模块114、位置信息模块115等等。
广播接收模块111通过广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以表示生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且向移动终端100发送的服务器。广播相关信息可以表示与广播信道、广播节目、广播服务提供商等有关的信息。广播信号可以包括:TV广播信号、无线电广播信号和数据广播信号以及以将数据广播信号与TV或无线电广播信号组合的形式的广播信号。
另一方面,也可以通过移动通信网络来提供广播相关信息,并且在这种情况下,可以由移动通信模块112接收广播相关信息。
广播相关信息可以以各种形式存在。例如,可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播-手持(DVB-H)的电子服务指南(ESG)等形式存在。
广播接收模块111可以使用各种类型的广播系统来接收广播信号。特别地,广播接收模块111可以使用诸如数字多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S),媒体前向链路(MediaFLO)、数字视频广播-手持(DVB-H)、综合业务数字广播-地面(ISDB-T)等的数字广播系统来接收数字广播信号。当然,广播接收模块111被配置为除了上述数字广播系统以外,还适合于提供广播信号的每种广播系统。
可以将通过广播接收模块111接收的广播信号和/或广播相关信息存储在存储器160中。
此外,移动通信模块112通过移动通信网络向基站、外部终端和服务器中的至少一个发送无线电信号和/或从基站、外部终端和服务器中的至少一个接收无线电信号。这里,无线电信号可以包括:语音呼叫信号、视频呼叫信号和/或根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线因特网模块113表示支持无线因特网接入的模块。无线因特网模块113可以内置或外部安装于移动终端100。这里,可以使用包括WLAN(无线LAN)、Wi-Fi、WiBro(无线宽带)、Wimax(全球微波接入互操作性)、HSDPA(高速下行分组接入)等的无线因特网接入技术。
短程通信模块114是支持短程通信的模块。这里,可以使用包括蓝牙、无线射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、ZigBee等的短程通信技术。
此外,位置信息模块115是检查或获取移动终端的位置的模块,并且作为代表性示例有全球定位系统(GPS)模块。根据当前技术,GPS模块计算来自三个或更多个卫星的间隔开的距离信息和准确的时间信息,然后,将三角法(trigonometry)应用于所计算的信息,由此基于经度、维度和高度来准确地计算当前位置信息。目前,广泛使用利用三个卫星计算位置和时间信息以及利用另一个卫星校正经计算的位置和时间信息的误差的方法。此外,GPS模块能够通过连续地计算当前位置来实时地计算速度信息。
另一方面,A/V(音频/视频)输入单元120接收音频或视频信号,并且A/V(音频/视频)输入单元120可以包括摄像头121和麦克风122。摄像头121处理由图像传感器在视频电话呼叫或图像捕捉模式中获得的图像帧,诸如静态图片或视频。可以在显示单元151上显示经处理的图像帧。
可以将由摄像头121处理的图像帧存储在存储器160中或者通过无线通信单元110向外部设备发送。根据移动终端的使用环境可以设置两个或更多个摄像头121。
麦克风122在电话呼叫模式、录音模式、语音识别模式等等中通过麦克风接收外部音频信号,并且将音频信号处理成电语音数据。可以将经处理的语音数据转换并且输出为能够在电话呼叫模式中通过移动通信模块112向移动通信基站发送的格式。麦克风122可以实现各种类型的噪声消除算法,以消除在接收外部音频信号的过程中生成的噪声。
用户输入单元130可以生成输入数据,以控制终端的操作。可以通过包括小键盘、薄膜开关(dome switch)、触摸板(压力/电容)、慢动轮(jog wheel),慢动开关(jogswitch)等配置用户输入单元130。特别地,当触摸板与后面将描述的显示单元151形成夹层结构时,可以将触摸板称为触摸屏。
感测单元140检测移动终端100的当前状态,诸如移动终端100的打开或关闭状态、移动终端100的位置和移动终端100的取向(orientation)等等,并且生成控制该移动终端100的操作的感测信号。例如,当移动终端100是滑盖手机类型时,它可以感测该滑盖手机的打开或关闭状态。此外,感测单元140负责与是否从电源单元190供应电力、或者是否将外部设备耦接到接口单元170相关联的感测功能。另一方面,感测单元140可以包括接近传感器141。后面将与触摸画面相关联地对它进行描述。
此外,感测单元140可以包括:当用户移动时计算移动方向的地磁传感器、计算旋转方向的陀螺仪传感器和加速度传感器。
接口单元170执行与连接到移动终端100的所有外部设备接口连接的功能。接口单元170例如可以包括:有线/无线头戴式耳机端口、外部充电器端口、有线/无线数据端口、存储卡端口、用于耦接具有识别模块的设备的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等。
这里,识别模块可以被配置为芯片,该芯片用于存储认证授权所需的各种信息以使用移动终端100,其可以包括用户身份模块(UIM)、订户身份模块(SIM)等等。此外,可以以智能卡类型实现设置有识别模块的设备(下文中,称为“识别设备”)。因此,能够经由端口将识别设备耦接到移动终端100。接口单元170、175可以从外部设备接收数据或电力并且将接收到的数据或电力传递给移动终端100中的各个构成元件,或者向外部设备发送移动终端100内的数据。
此外,接口单元170可以用作在便携式终端100连接到外部支座(cradle)时,将电力从外部支座供应到移动终端100的通路,或者用作将用户从支座输入的各种命令信号传递给移动终端100的通路。从支座输入的这样的各种命令信号或电力可以被操作用于识别移动终端100已被准确地安装在该支座上的信号。
输出单元150被配置提供音频信号、视频信号或报警信号的输出,并且输出单元150可以包括:显示单元151、音频输出模块152和报警单元153等等。
显示单元151可以显示(输出)在移动终端100中处理的信息。例如,当移动终端100处于电话呼叫模式时,显示单元151可以显示与呼叫相关联的用户界面(UI)或者图形用户界面(GUI)。
另一方面,如上所述,在显示单元151和触摸板形成夹层结构以构成触摸屏的情况下,除了用作输出设备之外,显示151单元还可以用作输入设备。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器中的至少一个。这些显示器中的一些可以以透明类型配置,以允许通过显示单元观看外部,这样的显示单元可以被称为透明显示器。典型的透明显示器的示例可以包括透明LCD(TOLED)等等。根据移动终端100的配置方面,显示单元151可以在数量上被实现为两个或更多个。例如,可以在移动终端100上同时设置外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可以被配置为除检测触摸输入位置和面积外还检测触摸输入压力。
音频输出模块152可以在呼叫接收模式、呼叫发起模式、录音模式、语音识别模式、广播接收模式等中输出从无线通信单元110接收的或存储在存储器160中的音频数据。音频输出模块152可以输出与在便携式终端100中执行的功能有关的音频信号,例如对接收到的呼叫或接收到的消息等等进行报警的声音。音频输出模块152可以包括接收器、扬声器、蜂鸣器等等。
报警器153从便携式终端100输出通知事件的发生的信号。从移动终端发生的事件可以包括接收到的呼叫、接收到的消息、按键信号输入、触摸输入等等。报警器153不仅可以输出视频或音频信号,而且还可以输出其它类型的信号,诸如以振动方式通知事件的发生的信号。当呼叫信号或消息被接收到时,报警器153可以输出振动以通知该事件的发生。另一方面,当输入按键信号时,报警器153可以输出振动作为对于输入的按键信号的反馈。通过前述振动输出,用户能够识别事件发生。也可以通过显示单元151或音频输出模块152输出用于通知事件发生的信号。
存储器160可以存储用于对控制器180进行处理和控制的程序,或者可以临时存储输入/输出数据(例如,电话簿数据、消息、静止图像、视频等)。此外,存储器160可以存储与各种振动模式和在触摸屏上触摸输入时的音频输出有关的数据。
可以使用包括有闪存型、硬盘型、微型多媒体卡型、存储卡型(例如,SD或DX存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等任何类型的适合的存储介质来实现存储器160。此外,移动终端100可以对在因特网上执行存储器160的存储功能的网络存储器进行管理。
控制器180通常控制便携式终端100的整体操作。例如,控制器180执行与电话呼叫、数据通信、视频呼叫等等相关联的控制和处理。此外,控制器180可以包括用于再现多媒体文件的多媒体模块181。多媒体模块181可以在控制器180中实现,或者可以与控制器180分离地实现。
控制器180能够执行模式识别处理,从而将在触摸屏上执行的手写或绘图输入识别为文本或图像。
电源单元190在控制器180的控制下提供各种部件所需的电力。所提供的电力可以是内部电力或者其外部电力。
可以例如使用软件、硬件或它们的一些组合来在计算机可读介质中实现本文描述的各种实施方式。
针对硬件实现,本文描述的各种实施方式可以在以下的一个或更多个内实现:专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行本文描述的功能的其它电子单元、或者它们的选择性组合。在一些情况下,由控制器180来实现这样的实施方式。
针对软件实现,诸如程序或功能的实施方式可以与单独软件模块一起实现,所述单独的软件模块中的每一个均执行这些功能和操作中的至少一个。能够利用以任何适合的编程语言写入的软件应用来实现软件代码。此外,软件代码可以存储在存储器160中并且由控制器180执行。
如图1所示的终端100可以被配置为在包括有无线或有线通信系统和基于卫星的通信系统的、能够经由帧或分组发送数据的通信系统中运行。
下文中,参照图2,将描述通信系统,在该通信系统中能够操作与本公开相关联的终端。
通信系统可以使用不同的无线接口和/或物理层。例如,通信系统能够使用的无线可包括:频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)、通用移动电信系统(UMTS)(特别是长期演进(LTE))、全球移动通信系统(GSM)等。下文中,为了便于说明起见,通信系统将被描述为限于CDMA。然而,明显的是,本公开可以应用于包括CDMA无线通信系统的任何种类的通信系统。
如图2所示,CDMA通信系统被配置为与多个终端100、多个基站(BS)270、多个基站控制器(BSC)275和移动交换中心(MSC)280连接。MSC280被配置为与公共交换电话网络(PSTN)290连接,并且还被配置为与BSC275连接。BSC275可以通过回程线路与BS270成对地连接。回程线路可以设置有E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL和xDSL中的至少一个。因此,可以在如图2所示的系统中包括多个BSC275。
每个BS270可以包括至少一个扇区(sector),并且每个扇区可以包括全向天线或从BS270定向到特定径向方向的天线。另选地,每个扇区可以包括以各种形状的两个或更多个天线。每个BS270也可以被配置为支持多个频率的分配,其中每个频率分配具有特定频谱(例如,1.25MHz、5MHz等)。
扇区与频率分配之间的交叉点可以被称为CDMA信道。BS270也可以被称为基站收发子系统(BTS)。在这种情况下,术语“基站”可以被称为一个BSC275和至少一个BS270的组合。基站也可以指定“小区站点”。另选地,针对BS270的扇区中的每一个都可以被称为多个小区站点。
如图2所示,广播发射器(BT)295用于向在系统中运行的终端100发送广播信号。图1所示的广播接收模块111设置在终端100中,从而接收由BT295发送的广播信号。
而且,图2例示了多个全球定位系统(GPS)卫星300。卫星300用于检测多个终端100中的至少一个的位置。图2例示了两个卫星,然而,可以由多于或少于两个的卫星获得有用的位置信息。图1中例示的GPS模块115与卫星300合作,从而获得期望的位置信息。这里,模块115不仅能够使用GPS追踪技术,还能够使用允许追踪位置的所有技术来追踪位置。此外,GPS卫星300中的至少一个可以另选地或额外地处理卫星DMB发送。
在无线通信系统的典型操作当中,BS270用于从各种终端100接收反向链路信号。此时,终端100正在连接呼叫、发送和/或接收消息或执行其它通信操作。在特定BS270内处理由特定基站270接收的各反向链路信号。向连接的BSC275发送由处理所生成的数据。BSC275用于分配呼叫资源和管理实体,包括多个BS270之间的软切换的系统化。此外,BSC275向MSC280发送接收到的数据,然后MSC280提供额外的传输服务从而被连接到PSTN290。类似地,PSTN290连接到MSC280并且MSC280连接到BSC275,并且BSC275控制BS270,从而向终端100发送前向链路信号。
本公开提供与允许用户选择感兴趣的被摄体的位置、范围和情况的事件相组合的各种声音捕捉方法和音频缩放技术,以在捕捉并且再现图像的同时获得最优图像。
再现阶段的图像可以包括:被存储的、被应用了音频缩放技术的图像和被存储的、处于没有被应用音频缩放技术的状态的图像。
应用于本公开的音频缩放技术表示通过麦克风捕捉声音源,然后将音频缩放应用于它,以仅选择性地记录期望的声音的一系列操作。例如,用户允许指向性面对被摄体的位置,或者与由用户靠近的或聚焦的被摄体的位置和尺寸有关地自动优化声音捕捉范围,由此捕捉或者再现图像,同时以最优方式捕捉感兴趣的被摄体的音频。再现阶段的图像可以包括:被存储的、被应用音频缩放技术的图像和被存储的、处于没有被应用音频缩放技术的状态的图像。
根据一个实施方式,本公开提供了一种在捕捉并且再现视频的同时捕捉与画面缩小/放大有关的声音,同时的技术。
根据另一个实施方式,本公开提供了一种在捕捉并且再现视频的同时使用自动面部识别来捕捉多个窄音频的技术。
根据本发明的又一个实施方式,本公开提供了一种在特定区域被缩小或放大时,在捕捉并且再现视频的同时缩小或放大相关区域的声音以捕捉声音的技术。
根据本发明的再一个实施方式,本公开提供了一种根据景象模式(肖像模式、风景模、街道模式)而存在的音频缩放的声音捕捉范围技术。
根据本发明的再一个实施方式,本公开提供了一种能够基于前置和后置摄像头考虑图像角度来配置声音捕捉方向和范围的技术。
此外,本公开提供了一种表达技术,其中用户能够以灵敏且方便的方式控制一个或多个声音捕捉位置和范围,而不与摄像头的基本UI场景冲突,以控制画面聚焦、缩放倍率等,由此提供能够以最优方式捕捉或者再现感兴趣的被摄体的音频的方案。
对一个或多个声音捕捉位置和范围的控制通过诸如针对被捕捉或再现的图像的用户行为或者手势的接触或者非接触方案来执行。起因于接触或者非接触方案的输入可以包括:单触摸、多触摸、多点触摸、轻弹和触摸&拖动。
被捕捉或再现的图像可以显示在移动终端的显示单元上或者以与移动终端分离的方式显示在全息图上。前述输入和显示方法将共同应用于后面将描述的所有实施方式。
此外,本公开能够在多个声音捕捉位置和范围内的一个被控制时,视觉地显示每个被摄体之间的声音强度比。
一般而言,需要基于用户的水平轴或垂直轴上的声音源之间可选择的指向性,以捕捉声音源。为了提供可选择的指向性,在移动终端的后表面上以正交或交叉图案布置有多个麦克风,并且当仅使用两个麦克风时,将这两个麦克风布置为在水平或垂直直线方向上彼此远离。特别地,通过对经由多个麦克风捕捉的声音(或者语音)的信号处理(诸如波束成形)执行指向性。波束成形表示利用声束形成要进行声音捕捉的范围,以生成指向性。
图3是捕捉模式中的音频缩放技术的应用示例。
如图3所示,继应用诸如波束成形和噪声移除的音频缩放技术之后,将在捕捉图像的同时由多个麦克风122捕捉的音频信息与由摄像头121捕捉的图像信息组合,并且将组合后的图像压缩成预定格式,然后存储在存储器160中。特别地,处理波束成形的单元与移除噪声的单元一起构成处理器180的信号处理单元(未示出),作为用于在由用户选择的被摄体上自适应地形成声束的一部分,以配置声音捕捉范围。
图4是再现模式中的音频缩放技术的应用示例。
如图4所示,存储在存储器160中的视频的压缩被释放,以分别被分离(恢复)成音频信息和图像信息。继应用诸如波束成形和噪声移除的音频缩放技术之后,分离的音频信息与分离的图像再次组合以进行再现。类似地,处理波束成形的单元与执行移除噪声的单元一起构成信号处理单元(未示出),作为用于根据声音捕捉范围和位置自适应地形成声束的一部分,以生成指向性。
经压缩和解压缩处理的音频信息与直接被麦克风122捕捉的音频信号几乎没有不同,并且特别地,能够在软件方面确保由于有损压缩造成的信息改变。
在这种方式下,当已知移动终端的麦克风122和摄像头121的排列结构时,即使当将音频缩放技术直接应用于通过麦克风122捕获的音频信号或者将音频缩放技术直接应用于所存储的音频信号时,也可以获得相同的效果。
首先,将描述捕捉模式中的音频缩放方法并且将描述再现模式中的音频缩放方法。
摄像头设置菜单
图5是与本公开相关联的摄像头模式的配置示例。
本公开在摄像头模式中提供各种捕捉模式和声音捕捉模式,以实现前述音频缩放方法。捕捉模式可以包括:一般(基本)模式、风景模式、肖像模式和街道模式,如图5所示。此外,声音捕捉模式是用户在捕捉模式中选择并且配置的子模式,包括画面缩放链接模式、枪模式、声音缩放变化模式、枪位置改变模式、立体声模式、助听模式等等。当有需要时,菜单的配置和种类可以不受限制但可以按附加的或集成的方式操作。
图6是例示声音捕捉角度与声音捕捉范围之间的关系的视图。
如图6所示,捕捉画面(或预览画面)上的声音捕捉范围50以预定形状(声音捕捉区域)显示在画面上,作为由在感兴趣的被摄体方向上形成的声束的角度(即,声音捕捉角度)所形成的水平方向范围。声束表现出对感兴趣的被摄体的指向性。
声音捕捉范围50随着声音捕捉角度的增大而增大,因此能够在宽范围中捕捉声音,但是声音捕捉范围50随着声音捕捉角度的减小而减小,因此能够在窄范围中集中捕捉声音。
用户配置捕捉模式和声音捕捉模式,以捕捉感兴趣的被摄体。这是因为当捕捉感兴趣的被摄体时,能够根据选择哪个捕捉模式和哪个声音捕捉模式来适当地控制声音捕捉范围50,以在捕捉画面内选择性地捕捉至少一个或更多个感兴趣的被摄体的声音。
因此,可以按与控制声音捕捉范围50(声音捕捉区域)的含义相同的方式使用在本公开中的控制声音捕捉角度的含义。
声音捕捉信息自动设置
根据本公开,声音捕捉信息是被配置为选择性地捕捉至少一个或更多个感兴趣的被摄体的音频的信息。音频可以包括被摄体的声音和用户的语音。声音捕捉信息可以包括声音捕捉范围、声音捕捉角度以及声音捕捉范围(声音捕捉区域)的显示位置。
与用户初始设置的捕捉模式设置、前置/后置摄像头选择和声音捕捉模式设置等相关联地自动配置声音捕捉信息。即使当用户进入特定模式以捕捉被摄体时,也能够通过前述选择和设置来控制所配置的声音捕捉信息。
此外,用户可以在捕捉画面上直接配置声音捕捉信息。换言之,当用户根据环境情况和捕捉的被摄体的种类选择特定捕捉模式时,控制器180以与所选择的捕捉模式相对应的预定尺寸和形状来显示声音捕捉范围50。声音捕捉范围50可具有圆形、矩形或多边形的形状,并且在显示预定时段之后消失。当将长触摸施加于捕捉画面时,再次显示消失的声音捕捉范围50。
图7A至图7C是例示针对每种捕捉模式的声音捕捉信息的配置示例的视图。
如图7A所示,当选择了一般捕捉模式或风景模式时,声音捕捉角度被设置为180度,以在宽范围中捕捉声音,从而最大程度地包含周围的声音。此时,声音捕捉范围50被设置为最大。
此外,如图7B所示,当选择了肖像模式时,控制器180将声音捕捉角度配置为很小,从而仅捕捉特定用户的语音,并且在自动识别的面部上显示在窄范围中的声音捕捉范围50。此外,如图7C所示,当选择了街道模式时,控制器180在其左侧和右侧形成声音捕捉范围,以按立体方式捕捉图像,由此自动配置两个声音捕捉范围50。
因此,用户可以根据环境情况和捕捉的被摄体的种类来选择他或她期望的捕捉模式,以控制声音捕捉角度,由此自动控制声音捕捉范围。
图8是例示与前置/后置摄像头的选择相关联的声音捕捉信息的配置示例的视图。
安装在移动终端上的前置摄像头主要在进行视频呼叫或捕捉自拍图像时使用,而后置摄像头主要在捕捉另一个人、风景等时使用。因此,本公开可以根据基于用户行为模式对前置/后置摄像头的选择来提供预先定义的声音捕捉信息,即,指向性和声音的捕捉范围。
例如,如图8所示,在前置摄像头拍摄阶段,控制器180将声音捕捉方向设置为用户方向并且在画面中心以窄方式形成声音捕捉范围50。相反,在后置摄像头捕捉阶段,控制器180将声音捕捉方向设置为感兴趣的被摄体的方向,并且以宽方式配置声音捕捉范围50。
因此,控制器180根据用户对前置/后置摄像头的选择来控制声音捕捉角度和声音捕捉方向,以自动控制声音捕捉范围。
图9A至图9E是例示针对每种捕捉模式的声音捕捉信息的配置示例的视图。该实施方式可不限于捕捉模式,但是当用户选择再现模式时可以按相同模式被配置。
根据本公开,除了如图7A至7C例示的一般模式、风景模式、肖像模式和街道模式之外,捕捉模式还可以包括画面缩放链接模式、枪模式、声音缩放变化模式、枪位置改变模式、立体声模式、助听模式等作为子模式。可以将画面缩放链接模式、枪模式、声音缩放变化模式、枪位置改变模式、立体声模式和助听模式定义为声音捕捉模式。根据另一个实施方式,可以针对其操作将该声音捕捉模式集成到捕捉模式中。
能够在一般捕捉模式或枪模式中单独设置声音捕捉模式,并且特别地,枪模式将在设置了肖像模式的情况下自动设置,并且立体声模式将在设置了街道模式的情况下自动设置。
可以在捕捉阶段之前或期间根据用户的选择来设置捕捉模式和声音捕捉方法,并且当设置了特定的捕捉模式或声音捕捉模式时,控制器180根据相关模式自动控制声音捕捉角度。
画面缩放链接模式是期望在画面上仅捕捉由被摄体生成的声音时使用的模式。上述模式的特征事实上是与画面的缩放倍率相关联地控制声音捕捉范围50。
图9A是根据本公开的实施方式的画面缩放链接模式的示例。
如图9A所示,当用户在设置了画面缩放链接模式的状态下缩小或放大画面时,控制器180根据缩放倍率改变特定的声音捕捉角度,以控制声音捕捉范围50,由此捕捉用户的语音。
当用户缩小画面或缩放倍率被设置为“1”时,控制器180在声音捕捉范围50内以大约180度的声音捕捉角度来捕捉声音。在这种情况下,除了用户的语音之外,还捕捉了环境噪声。
当用户放大画面时,控制器180根据基于缩放倍率配置的声音捕捉角度在声音捕捉范围50内捕捉声音。
例如,当缩放倍率被设置为“2”时,声音捕捉角度是160度,而当缩放倍率被设置为“10”时,声音捕捉角度是大约10度。因此,由于声音捕捉角度随着缩放倍率的增大而减小,因此控制器180进一步捕捉用户的声音,并且移除了环境噪声。
枪模式是仅以狭窄固定的方式捕捉从特定被摄体生成的声音时使用的模式。
图9B是根据本公开的实施方式的枪模式的示例。
如图9B所示,枪模式是在捕捉画面上聚焦并且仅捕捉特定被摄体的声音的模式,并且主要在肖像模式中使用。由于50是在设置枪模式时狭窄地形成,因此用户可以固定并且仅捕捉从他或她期望的被摄体中生成的声音。
声音缩放变化模式是允许用户控制声音的捕捉范围的模式,并且枪位置改变模式是枪模式的扩展模式,用于允许用户选择声音的捕捉位置。
图9C和图9D是根据本公开的实施方式的声音缩放变化模式和枪位置改变模式的示例。
如图9C所示,声音缩放变化模式是提供以下至少一个或更多个范围的模式,该至少一个或更多个范围能够在出现用于配置感兴趣的被摄体的位置或范围和情况的事件时允许用户捕捉声音。例如,当发生缩小/放大时,在画面缩放链接模式的情况下,根据缩放倍率自动改变声音捕捉范围,但是声音缩放变化模式向用户提供多个可选择的声音捕捉允许范围50,由此允许用户手动选择他或她期望的声音捕捉范围。这种模式具有以各种方式来控制声音的捕捉范围的优点。
可以在出现用于配置感兴趣的被摄体的位置或范围和情况的事件或者在再现模式中开始再现时显示该至少一个或更多个声音捕捉允许范围。特别地,当再现的图像是应用了音频缩放技术的图像时,可以随着预置的声音捕捉范围显示该图像。当预置的声音捕捉范围和该至少一个或更多个范围在再现模式中显示时,可以临时暂停图像再现,并且在终止了特定声音捕捉范围设置的情况下释放再现暂停。
此外,如图9D所示,当设置了枪位置改变模式时,控制器180可以通过面部识别在多个用户的面部上显示声音捕捉范围50,由此允许用户选择声音捕捉范围50并且仅在特定位置处捕捉用户的语音。这种模式具有在用于捕捉声音的各种位置处聚焦用户语音的优点。
立体声模式是在同一时间针对具有诸如图7C所示的街道模式的高度左/右位置分离的被摄体执行立体双声道(左声道和右声道)声音捕捉的模式。并且助听模式是选择性地捕捉从特定方向生成的声音源的模式,如图9E所示。换言之,助听模式是用于通过麦克风捕捉声音并且然后将对声音施加音频缩放以允许用户选择性地听取从特定方向生成的声音的模式,助听模式在观看演出或听演讲时是有用的模式。
声音捕捉信息手动设置
根据本公开,用户可以在捕捉模式或再现模式中直接配置声音捕捉信息。
图10A至图10E是例示允许用户在一般捕捉模式中配置声音捕捉信息的示例的视图。实施方式可不限于捕捉模式,并且可以按相同方式应用于用户选择再现模式的情况。
图10A和图10B是在用户指定的位置处配置声音捕捉范围的示例,并且图10C至图10E是通过菜单选项配置声音捕捉范围和位置的示例。
在一般捕捉模式中,用户可以在画面上选择生成声音的特定被摄体(声音捕捉对象、声音源),以配置声音捕捉信息。声音捕捉信息可以包括声音捕捉范围50的尺寸和显示位置。通过接触或非接触方案执行选择。
如图10A所示,当用户对声音捕捉对象(位置)施加长触摸时,在触摸点周围以预置尺寸和形状(例如,圆圈)生成声音捕捉范围50。可以在对边缘部分施加双触摸时移除声音捕捉范围50。根据另一个方法,可以通过选择对边缘部分施加长触摸时生成的移除图标达较短时段来移除声音捕捉范围50。当对声音捕捉范围50的边缘部分触摸达更长时段时,显示能够配置声音捕捉范围50的形状和尺寸的设置菜单。
用户可以选择椭圆、矩形和多边形中的一种,以指定声音捕捉范围50的形状或者配置颜色或显示持续时间。
针对另一个实施方式,如图10B所示,利用由触摸&拖动形成的尺寸和形状来配置声音捕捉范围50。例如,当使用他或她的手在声音捕捉对象上绘制出预定形状时,将所绘制的形状和尺寸配置并显示为声音捕捉范围50。设置方法具有能够以灵活的方式配置声音捕捉范围的优点。
根据本公开,可以通过菜单选项将声音捕捉范围50设置为特定位置。如图10C至图10E所示,当用户在菜单选项上指定特定位置以配置声音捕捉区域时,具有缺省形状和尺寸的声音捕捉范围50被设置为指定位置。
声音捕捉范围的位置和尺寸控制
声音捕捉范围50的位置能够通过用户的触摸&拖动从根本上被移动,并且如后面将描述的,能够根据由于画面缩放倍率而引起的聚焦区域的改变或声音捕捉对象的改变而被自动地移动。
可以在一般捕捉模式或特定捕捉模式中,根据使用他或她的一只手或两只手的触摸输入(手动)来改变(放大或减小)声音捕捉范围50的尺寸,并且可以在捕捉阶段之前或捕捉阶段期间控制声音捕捉范围50的尺寸。此外,如后面将描述的,可以根据画面缩放倍率以灵活的方式来改变声音捕捉范围50的尺寸。
图11A至图11D是手动地改变声音捕捉范围50的尺寸的示例。已经在捕捉模式中描述了作为示例的实施方式,但是本公开没有必要限制于此,并且可以按相同的方式应用于用户选择了再现模式的情况。
如图11A所示,当用户用他或她的手指对声音捕捉范围50的外部施加触摸时,声音捕捉范围50的尺寸与触摸持续时间成比例地逐渐增大,并且如图11B所示,当对声音捕捉范围50的内部施加触摸时,声音捕捉范围50的尺寸与触摸持续时间成比例地逐渐减小。
此外,如图11C所示,用户可以用他或她的手指对声音捕捉范围50的边缘部分施加触摸,并且然后使其向外变宽或向内变窄,以放大或缩小声音捕捉范围50的尺寸。特别地,当在立体声模式中操作时,如图11D所示,可以他或她的两个手指分别控制左声道或右声道的声音捕捉范围,并且可以同时触摸左声道或右声道的声音捕捉范围,以使其变宽或变窄,从而识别声音捕捉的指向性。
声音捕捉范围变化的最上限的显示
如上所述,可以在声音捕捉允许区域内放大或缩小声音捕捉范围50的尺寸。然而,当通过触摸放大或缩小声音捕捉范围50的显示尺寸或者通过后面将描述的画面缩放倍率的变化放大或缩小声音捕捉范围50的显示尺寸时,用户不能知道将声音捕捉范围50增大或减小到哪个等级。
因此,本公开在极限值(即,声音捕捉范围50的最大值和最小值)处提供视觉、听觉和触觉效果,由此向用户提供与声音捕捉范围50的变换极限有关的信息。与声音捕捉范围50的变换极限有关的信息是视觉、听觉、触觉和嗅觉信息,例如,包括尺寸弹跳效果、形状弹跳效果、颜色弹跳效果、声音或振动生成等。可以以直接方式或立体(3D)方式在弹出消息或捕捉画面上显示与声音捕捉范围50的变换极限有关的信息。
图12A至图12E是提供与声音捕捉范围的变化极限有关的信息的示例。已经在捕捉模式中描述了作为示例的实施方式,但是本公开没有必要限制于此,并且可按相同的方式应用于用户选择了再现模式的情况。
如图12A和图12B所示,当用户对声音捕捉范围50的外部施加触摸以放大其尺寸或者对声音捕捉范围50的内部施加触摸以缩小其尺寸时,控制器180显示尺寸弹跳效果,在尺寸弹跳效果中,声音捕捉范围50的尺寸暂时跨越极限值,然后在声音捕捉范围50的被放大或缩小的尺寸接近极限值(最大或最小值)的情况下,再次对其进行恢复。
针对另一个实施方式,根据本公开,如图12C所示,当对声音捕捉范围50的尺寸进行放大或缩小时,控制器180提供形状弹跳效果,在形状弹跳效果中,声音捕捉范围50的形状被暂时改变,然后在声音捕捉范围50的被放大或缩小的尺寸接近极限值(最大或最小值)的情况下,再次将其恢复到原始形状。
针对又一个实施方式,根据本公开,如图12D所示,当对声音捕捉范围50的尺寸进行放大或缩小时,控制器180提供颜色弹跳效果,在颜色弹跳效果中,声音捕捉范围50的颜色被暂时改变(例如,红色改为绿色),然后在声音捕捉范围50的被放大或缩小的尺寸接近极限值(最大或最小值)的情况下,再次将其恢复到原始颜色。
针对再一个实施方式,根据本公开,如图12E所示,当对声音捕捉范围50的尺寸进行放大或缩小时,控制器180在声音捕捉范围50的被放大或缩小的尺寸接近极限值(最大或最小值)的情况下,生成新的声音或输出振动的声音达预置时段。
存储声音捕捉范围
在存储器160中存储用户配置的声音捕捉范围50和多个可选择的声音捕捉范围。因此,可以根据用户的触摸输入来显示用户配置的声音捕捉范围50,并且只要在出现用户的特定事件时可以针对用户的选择来显示多个可选择的声音捕捉范围。
下文中,将参照附图如下描述根据本公开的实施方式的移动终端的音频缩放方法。
根据本公开的音频缩放方法指代对感兴趣的被摄体的位置或范围设备展、摄像头模式、实际摄像头操作(缩放操作或聚焦移动)应用各种缩放技术,以在最优模式中捕捉相关被摄体的声音或语音。为了实现音频缩放方法,本公开使用麦克风阵列捕捉声音,并且使用波束成形技术、噪声抑制技术、人脸识别技术、自动聚焦技术等。
图13是例示根据本公开的实施方式的移动终端的音频缩放方法的流程图。已经在捕捉模式中描述了作为示例的音频缩放方法,但是本公开没有必要限制于此,并且可按相同方式应用于用户选择了再现模式的情况。
用户在他或她期望看到被摄体时靠近(放大)特定被摄体,并且在他或她对该被摄体的周围背景感兴趣时将它缩小到宽屏。因此,根据本公开的第一实施方式,使用用户通过画面的放大/缩小来指定他或她感兴趣的区域的用户偏好信息作为用于确定声音的捕捉范围的参考。
换言之,如图13所示,用户配置一般捕捉模式并在视频捕捉阶段配置声音捕捉范围50(步骤S100)。
声音捕捉范围50可以自动设置为缺省或可以由用户直接设置。可以使用图11A至图11C所示的方法,由用户直接控制自动或手动设置的声音捕捉范围50的尺寸或形状。此外,用户可以使用在画面的底部部分处显示的滚动条来控制它,或者通过输入声音捕捉角度来控制它,并且可以使用菜单选项来选择显示位置。
当用户开始图像捕捉时,控制器180在设置的声音捕捉范围内捕捉被摄体,例如,用户的语音(步骤S110)。在这种状态下,当发生用于捕捉最优图像的用户事件(即,用于改变捕捉位置或范围和被摄体的状况的用户事件)时,根据各个事件改变声音捕捉角度,以自动控制所设置的声音捕捉范围(步骤S120、S130)。
用户事件可以包括画面放大/缩小的改变或捕捉模式的改变。捕捉模式的改变可以包括在基本捕捉模式中到风景模式、肖像模式、街道模式、立体声模式和助听模式的改变中的一个改变,并且此外,捕捉模式的改变可以包括前置/后置捕捉模式的选择。然而,捕捉模式的改变不限于此,并且可以包括在其它模式中到一般捕捉模式的转换。
因此,控制器180可以在自动控制的声音捕捉范围50内捕捉被摄体的声音,以与图像改变相关联地捕捉最优声音。只要视频捕捉没有完成,控制器180就重复执行前述处理。
图14是例示当发生作为一种用户事件的画面放大/缩小时,控制声音捕捉范围的示例的流程图。已经在捕捉模式中描述了作为示例的实施方式,但是本公开没有必要限制于此,并且可按相同方式应用于用户选择了再现模式的情况。
如图14所示,当用户事件发生时,控制器180确定相关事件的种类。当确定的事件是画面放大/缩小时,控制器180根据改变的缩放倍率来改变声音捕捉角度和位置,以自动控制声音捕捉范围50(步骤S10,S11)。
相反,当确定的事件是如图7A至图7C所示的特定捕捉模式时,控制器180根据改变的捕捉模式来改变声音捕捉角度,以自动控制声音捕捉范围50(步骤S12,S13)。
针对另一个实施方式,当事件是画面放大/时,控制器180不自动改变声音捕捉范围50,而是向用户提供多个声音捕捉允许区域,由此允许用户对它进行选择。
图15A和图15B是在画面放大/缩小阶段,在声音捕捉范围内提供预置选项的示例。已经在捕捉模式中描述了作为示例的实施方式,但是本公开没有必要限制于此,并且可按相同方式应用于用户选择了再现模式的情况。
如图15A所示,控制器180在画面放大/缩小阶段检查当前模式设置,并且在设置了画面缩放链接模式时根据缩放倍率来控制声音捕捉范围,但是在设置了声音缩放链接模式时显示多个声音捕捉范围50。如果画面被放大,则根据被放大的画面重新调整和显示所显示的声音捕捉允许范围的数量,由此允许用户在画面上额外地选择声音捕捉范围50。
此外,如图15B所示,在被设置为枪模式的肖像模式的情况下,即使在画面被放大的情况下,也恒定地保持声音捕捉角度。因此,当设置了枪模式时,在恒定地保持声音捕捉角度的状态下,声音捕捉角度的显示尺寸可以放大(调整尺寸)并且与画面缩放倍率成比例地显示。
图16A和图16B是例示根据焦点改变的声音捕捉范围的位置改变的视图。已经在捕捉模式中描述了作为示例的实施方式,但是本公开没有必要限制于此,并且可按相同方式应用于用户选择了再现模式的情况。
如图14所示,当事件是画面放大/缩小时,控制器180应当根据改变的缩放倍率来改变声音捕捉位置以及声音捕捉角度。这是因为如果在通过聚焦特定区域或被摄体来执行视频再现或捕捉的同时执行画面放大(或缩小),则根据如图16A所示的缩放倍率自动改变声音捕捉区域,并且因此重新配置的聚焦区域不对应于声音捕捉范围的位置。在这种情况下,当通过现有技术中的手动定点技术来改变画面的倍率时,用户再次逐一指定声音捕捉位置。
然而,根据本公开,如图16B所示,使用位置识别功能执行自动聚焦,并且因此,根据缩放倍率在重新配置的画面自动聚焦区域周围自动重新调整声音捕捉位置。
用户手动地选择特定感兴趣的被摄体,以在该被摄体周围重新调整焦点或者使用自动聚焦控制功能来配置图像的最优焦点。
一般而言,手动画面焦点位置调整功能对于用户而言是无法达到或繁重的,因为应当在利用多个景象改变来记录或再现视频时或者在使用应并行地执行呼叫的VT呼叫时,应使用触摸实时地选择感兴趣的特定被摄体。
结果,尽管存在与对象(面部)检测/追踪技术相关的自动选择感兴趣的被摄体的功能,但是当多个被摄体(例如,两个人)存在于画面上时,如何自动选择感兴趣的特定被摄体已成为要解决的任务。作为解决方案,在具有最大面部的被摄体周围形成画面聚焦,但是当一个人在画面的中心而另一个人存在于后面以彼此交谈时,具有限制,因为仅针对具有最大面部的中心人物设置了画面聚焦。因此,当声音捕捉范围与画面聚焦相关联时,在仅对具有最大面部的中心人物设置声音捕捉范围方面存在限制。
图17是例示当捕捉多个被摄体的声音时,改变声音捕捉对象的方法的流程图。已经在捕捉模式中描述了作为示例的流程图,但是本公开没有必要限制于此,并且可按相同方式应用于用户选择了再现模式的情况。
当在根据初始配置的声音捕捉范围或事件控制的声音捕捉范围内捕捉被摄体的声音时,控制器180通过面部识别来确定是否存在多个生成声音的被摄体(步骤S20)。作为确定结果,当存在多个被摄体时,控制器180确定生成声音的被摄体,然后自动将焦点改变为当前生成声音的被摄体,以将声音捕捉范围50移动到相关被摄体,由此自动改变声音捕捉对象(步骤S21,S22)。
每当声音捕捉被摄体被改变就自动改变被摄体对象的方法可以称为音频/视频(A/V)同步自动聚焦方法。
图18A和图18B是根据本公开自动改变声音捕捉对象的示例。已经在捕捉模式中描述了作为示例的实施方式,但是本公开没有必要限制于此,并且可按相同的方式应用于用户选择了再现模式的情况。
如图18A所示,控制器180根据声音生成被摄体自动改变声音捕捉对象。
例如,当存在两个或更多个用户时,控制器180通过面部识别来检测每个用户的面部,并且然后在每个面部方向上形成窄的声束(指向性),以从每个用户收集声音。控制器180监视收集到的声音并且检测声音生成被摄体,即,生成声音的用户或者生成更大声音的用户,然后自动在相关用户的面部上聚焦,以形成带阻滤波器51,由此捕捉当前生成声音的用户语音。
然后,当生成语音的被摄体被改变时,控制器180以原始的方式自动对另一个用户的面部聚焦,以在相关用户的面部上形成声音捕捉范围,由此自动改变声音捕捉对象。因此,当用户彼此交谈时,控制器180对每个用户的面部聚焦,以移动声音捕捉范围50,由此自动改变声音捕捉对象。
如图18B所示,针对另一个实施方式,控制器180可以在捕捉到声音捕捉对象的画面中的对象的尺寸来确定声音捕捉对象。换言之,初始的声音捕捉对象可以被调整为具有最大面部尺寸的用户,并且然后在生成声音的用户上被自动聚焦,以改变对声音捕捉范围50的显示。此时,根据面部尺寸自动控制声音捕捉范围。
如上所述,当存在生成声音的多个用户时,将声音捕捉范围50移动到生成声音的用户,以捕捉声音。然而,当在很短的瞬间内移动声音捕捉范围时,可能造成声音捕捉中断的效果。因此,本公开提供了各种情绪声音捕捉范围移动方法,以在声音捕捉范围的移动期间输出平滑的视听效果。
图19A至图19C是例示当移动声音捕捉区域时,防止声音捕捉中断的视听效果的示例的视图。已经在捕捉模式中描述了作为示例的实施方式,但是本公开没有必要限制于此,并且可按相同方式应用于用户选择了再现模式的情况。
图19A例示了一种平滑的拖动技术,其中控制器180输出当声音捕捉对象被改变时移动的声音效果,以按照滑动方式移动声音捕捉范围50。此外,图19B例示了一种使用淡入/淡出技术改变声音捕捉对象的方法,其中控制器180随着视觉淡入/淡出效果生成预定的声音。此外,图19C例示了一种使用声音捕捉区域放大技术改变声音捕捉对象的方法,其中控制器180将声音捕捉范围50扩展到整个范围,并且然后再次将该将声音捕捉范围50重新配置到新的被摄体。
另一方面,当应用根据本公开的实施方式的音频缩放方法时,在被摄体的位置与相关被摄体生成的声音的位置不同的情况下,表现出明显有限的声音捕捉性能。
因此,本公开在与期望被捕捉和再现的被摄体不同的位置处形成了声音指向性,以提供能够最优地捕捉相关被摄体的声音的音频/视频双聚焦方法。
本公开可以提供与期间用户选择感兴趣的被摄体的位置、范围及状况和音频缩放技术的事件相组合的各种声音捕捉方法,以获得最优图像,同时捕捉和再现图像。
此外,本公开提供了一种表达技术,其中用户能够以灵敏且方便的方式控制一个或多个声音捕捉位置和范围,而不与摄像头的基本UI场景相冲突,以控制画面聚焦、缩放倍率等,由此提供能够在最优方式中捕捉或者再现感兴趣的被摄体的音频的方案。
对一个或多个声音捕捉位置和范围的控制通过诸如针对被捕捉或再现的图像的用户行为或者手势的接触或者非接触方案来执行。起因于接触或者非接触方案的输入可以包括:单触摸、多触摸、多点触摸、轻弹和触摸&拖动。特别地,本公开能够在多个声音捕捉位置和范围中的一个被控制时,视觉地显示每个被摄体之间的声音强度比。
被捕捉或再现的图像可以显示在移动终端的显示单元上或者以与移动终端分离的方式显示在全息图上。前述输入和显示方法将共同应用于后面将描述的所有实施方式。
此外,当在与期望被捕捉或再现的被摄体不同位置处存在声音源时,在该声音源的位置处形成声音指向性,由此提供能够最优地捕捉相关被摄体的声音的方案。
此外,本公开提供了一种能够允许用户在捕捉或再现位于前方的被摄体的同时使用用于显示存在于画面中的声音源的位置和尺寸的音频缩略图技术和用于显示存在于画面之外的声音源的方向和尺寸的增强现实(AR)技术来选择特定的声音源的方案。
为此,本公开提供了一种当被摄体的位置与从被摄体生成的声音的位置不同时,能够以独立的方式同时将音频聚焦应用到与画面聚焦不同的位置处的技术。
一般而言,需要基于用户的水平轴或垂直轴上的声音源之间的可选择的指向性以在捕捉视频的同时捕捉声音源。通过对通过多个麦克风捕捉的声音(或语音)的信号处理(如波束成形)执行指向性。波束成形表示利用声束形成要捕捉声音的范围,以生成指向性。已经在捕捉模式中描述了后面将要描述的音频缩放方法作为示例,但是本公开没有必要限制于此,并且可按相同方式应用于用户选择了再现模式的情况。
如上所述,在图6中例示了捕捉画面上的声音捕捉角度与声音捕捉范围之间的关系。照图6,捕捉画面上的声音捕捉范围指示由在被摄体方向上形成的声束的角度(即,声音捕捉角度)所形成的水平方向范围,并且具有由声音捕捉范围形成的预定形状的区域称为声音捕捉区域。根据用户的触摸输入来配置声音捕捉区域的尺寸和形状。声束表现出针对感兴趣的被摄体的指向性。声束指示由于图3中的波束成形单元而引起的操作,而不被实际显示。
声音捕捉范围随着声音捕捉角度的增大而增大,并且因此能够在宽范围中捕捉声音,但是声音捕捉范围随着声音捕捉角度的减小而减小,因此能够在窄范围中集中捕捉声音。
图20是例示当从被摄体生成的声音与传统的被摄体位置不同时,捕捉声音的示例的视图。
当歌手或老师使用麦克风唱歌或进行演讲时,尽管歌手或老师位于画面的中心,但是存在传递相关歌曲或语音的扬声器存在于不同位置的多种情况。在这种情况下,当应用前述音频缩放时,声音捕捉范围和声音捕捉区域被设置为相关对象(歌手或老师)的面部,因此通过扬声器输出的相关对象的语音趋向于没有被正确捕捉。换言之,总是以固定方式仅捕捉从在画面的非常中心区域存在的被摄体生成的声音的传统技术,在多个对象的声音生成位置彼此不同的情况下表现出明显有限的性能。
然而,如图20所示,当使用宽画面捕捉或再现,以在画面的左侧捕捉从扬声器生成的所有声音同时在画面的右侧捕捉或者再现老师的形状时,造成了包含不必要的背景画面和周围噪声的问题。
图21是例示根据本公开的实施方式的音频/视频双聚焦方法的概念视图。
如图21所示,本公开提供了一种当被摄体(例如,老师)的位置与从被摄体中生成的声音(例如,扬声器)的位置不同时,能够以独立的方式同时将音频聚焦应用到与画面聚焦不同位置的技术。换言之,图像聚焦在摄像头121的前面在被摄体的方向上执行,以捕捉该被摄体,并且音频指向性在扬声器122的方向上在左侧形成,以在窄的声音捕捉范围内捕捉由扬声器生成的声音。
由于被摄体被定位在画面的非常中心的位置处以对它进行捕捉,因此前述音频/视频聚焦方法能够基于被摄体自由地执行画面的放大/缩小,并且特别地说,前述音频/视频聚焦方法具有如下优点:能够移除由于生成被摄体和声音源的位置之间的差异而造成的情感缺口。
为了实现音频/视频双聚焦方法,本公开使用语音检测/追踪算法,以自动找到从与被摄体不同的位置生成的声音;并且使用操纵,以仅选择性地捕捉存在于任意方向中的声音,即,波束成形技术。由控制器180执行各种技术和算法。
此外,本公开提供各种用户界面(UI),其能够在画面上显示由语音检测/追踪算法找到的多个声音源的位置并且允许用户选择声音源。
图22是例示根据本公开的实施方式的、当使用音频/视频双聚焦方法捕捉视频时,显示声音的位置的示例的视图。
如图22所示,当聚焦被摄体以对其进行捕捉时,本公开显示音频缩略图200,用于通知存在于捕捉画面(主画面)的一侧的画面中或画面外的声音的位置信息(声音源的位置、尺寸和方向)。
以彼此不同的方式显示存在于画面中的声音和存在于画面外的声音。例如,以声音捕捉区域的形式显示存在于画面中的声音(A),并且以图标的形式显示存在于画面外的声音的位置。
使用增强现实(AR)技术以半透明形式显示音频缩略图200,并且显示音频缩略图200达预定时段然后消失,并且在触摸相关位置时再次显示音频缩略图200。
因此,基于当前画面通过观看在音频缩略图200上显示的声音图标,用户可以知道存在于左上方向的看不见的声音。
图23是在捕捉画面上激活控制图标的示例。
如图23所示,当用户触摸除了音频缩略图200之外的一般区域(主画面)时,多个摄像机控制图标201显示在画面的一侧,例如,在左侧。
用户可以通过选择特定的摄像机控制图标201来放大被摄体周围的图像,或者在捕捉该被摄体的同时手动地/自动地控制图像的焦点。
图24是在捕捉图像上重叠音频缩略图的示例。
由于在捕捉画面上显示的音频缩略图200尺寸很小,因此可能仅知道声音源的大致信息。音频缩略图200的尺寸通过用户的触摸输入被放大并且被显示为与捕捉图像重叠,当再次感测到相同的触摸输入,音频缩略图200减小至其原始尺寸。
在以半透明形式显示的音频缩略图200上显示声音源图标202和声音捕捉区域203,声音源图标202指示画面外的声音源,声音捕捉区域203指示画面中的声音源。因此,用户可以观看声音源图标202和声音捕捉区域203,以精确地知道声音的强度以及声音(源)的位置、尺寸和方向。
图25A和图25B是在与捕捉图像重叠的音频缩略图200上显示声音图标的示例。
当由于被定位在画面外而不能看到从与该被摄体不同的位置生成的声音,可以在各种位置显示声音源图标202。因此,如图25A所示,当改变声音的位置或在捕捉阶段添加或移除新的声音时,根据实际声音的现有位置来改变或添加或移除声音源图标202的位置。在声音源图标202上同时显示声音的强度。
针对另一个示例,声音图标可以在固定位置处展现声音的现有位置。如图25B所示,当使用固定在实际声音的位置处的声音图标来显示实际声音的位置时,在声音源图标202的一侧上显示实际声音的现有方向。特别地,可以以各种形状和颜色来显示声音源图标202。
图26是从音频缩略图中选择将要被捕捉声音的对象的示例。
在与捕捉图像重叠的音频缩略图200上显示至少一个声音源图标202和声音捕捉区域203,声音源图标202指示画面外的声音源,声音捕捉区域203指示画面中的声音源。
因此,用户选择他或她期望的声音源图标202或者选择声音捕捉区域203,以固定声音捕捉对象,然后捕捉被摄体的图像。
针对另一个实施方式,用户可以将摄像头移动到目标声音源的位置,并且然后在画面上直接选择它,以固定要被捕捉的声音源,并且然后捕捉他或她期望的被摄体的图像。
图27是同时执行声音源聚焦和被摄体聚焦的示例。
如图27所示,在与捕捉图像重叠的音频缩略图200或者未重叠的音频缩略图200上触摸声音源图标202,以将它拖动到要被捕捉的被摄体,由此同时执行声音源聚焦和被摄体聚焦。换言之,当存在于画面外的声音源被捕捉时,指示相关声音源的声音源图标202被触摸并且然后被移动到要被捕捉的被摄体,由此通过位于外部的声音源(即,扬声器)来捕捉相关被摄体的声音,同时在相关被摄体的周围进行捕捉。
图28是例示根据本公开的实施方式的移动终端的音频/视频双聚焦方法的流程图。
当用户选择了捕捉模式时,控制器180可以控制显示单元151在主画面上显示由用户聚焦的被摄体(步骤S210,S220)。
控制器18使用语音检测/追踪算法来自动检查存在于画面内或外的声音源的位置,并且然后以图标或声音源区域的形式在音频缩略图200上显示相关的声音源位置(步骤S230)。
当用户选择了音频缩略图200后,控制器180放大该音频缩略图200,然后根据增强现实技术在捕捉画面上重叠被放大的音频缩略图200(步骤S240)。由于在音频缩略图200上包含指示存在于画面内或外的声音源的位置的至少一个或更多个声音源图标202和声音捕捉区域203,因此用户能够容易地知道声音源的数量、位置和方向以及声音的强度。可以以彼此不同的形状和颜色显示声音源图标202。
然后,控制器180检查是否从音频缩略图200中选择了特定的声音源(步骤S250),并且当选择了特定的声音源时,通过波束成形技术在声音源的方向上形成窄的音频指向性以捕捉被摄体,同时对被摄体执行画面聚焦,由此执行音频/视频双聚焦(步骤S260)。通过选择特定音频图标200或声音捕捉区域203或者通过将音频图标200拖动到被摄体的操作,来执行对特定声音源的选择。重复地执行操作,直至捕捉操作完成为止(步骤S270)。
已经出于方便说明的目的,针对捕捉阶段的音频/视频双聚焦方法描述了本公开,但是本公开没有必要限制于此,并且可以显示存在于画面中或画面外的信息(声音源的位置、尺寸和方向)并且在再现阶段同时再现被定位在前表面方向上的被摄体,由此允许用户针对该被摄体编辑声音捕捉。因此,在再现阶段,可以按照相同的方式应用用于执行音频/视频双聚焦的前述所有的控制操作。
因此,当声音位置存在于与期望被捕捉或再现的被摄体不同的位置处时,本公开可以在声音位置处形成声音指向性,由此以最优方式捕捉相关被摄体的声音。特别地,本公开显示存在于画面内或画面外的声音的信息(声音源的位置、尺寸和方向),并且同时捕捉被定位在前表面方向上的被摄体,由此允许用户直接选择期望被捕捉的声音源,以捕捉被摄体的声音。
下文中,将更加详细地描述再现图像时的音频缩放方法。
本发明可以提供与用户选择感兴趣的被摄体的位置、范围和状况的事件相组合的各种声音捕捉方法和音频缩放技术,以在再现图像的同时获得最优图像。
再现阶段的图像可以包括两种图像:被应用了音频缩放技术的被存储的图像以及处于没有被应用音频缩放技术的状态的被存储的图像。
对事件或一个或多个声音捕捉位置和范围的控制通过用户的诸如针对再现图像的行为或者手势之类的接触或者非接触方案来执行。起因于接触或者非接触方案的输入可以包括:单触摸、多触摸、多点触摸、轻弹和触摸&拖动。
再现图像可以显示在移动终端的显示单元上或者以与移动终端分离的方式显示在全息图上。前述输入和显示方法将共同应用于后面将描述的所有实施方式。
如图4所示,以再现模式存储在存储器160中的图像被再次划分成音频信息和图像信息,并且通过显示单元151和音频输出单元152输出。相应地,将音频缩放技术应用于在再现模式中划分的音频信息。
本公开提供了一种方案,该方案能够在再现模式中针对特定区域,自动控制与用户的编辑功能(控制操作)有关的声音的声音捕捉位置和范围。用户的编辑功能可以包括放大功能、移除功能和焦点重新调整功能。
此外,本公开提供了一种方案,当再现在双记录模式中捕捉的图像时,该方案能够自动控制与用户的反馈有关的声音的声音捕捉位置和范围。换言之,与用户的反馈有关地重新调整通过前置/后置摄像头捕捉的被摄体的声音源的位置和尺寸。用户的反馈可以包括作为观看功能的特定图像的选择和放大功能。
图29是再现视频的同时显示多个可选择的声音捕捉范围的示例(与图9C相同)。
如图29所示,在画面上以预定形状(声音捕捉区域)显示在再现画面上的声音捕捉范围50,作为由在感兴趣的被摄体的方向上形成的声束的角度(即,声音捕捉角度)所形成的水平方向范围。声束表现出了针对感兴趣的被摄体的指向性。
声音捕捉范围50随着声音捕捉角度的增大而增大,因此能够在宽范围中捕捉声音,但是声音捕捉范围50随着声音捕捉角度的减小而减小,因此能够在窄范围中集中捕捉声音。
当用户在再现模式中开始进行特定图像的再现时,可以根据再现图像的种类显示设置为相关图像的声音捕捉范围50或者可选择的声音捕捉范围中的至少一个或多个。例如,当再现图像是之前已经被应用了缩放技术的存储的图像时,可以与预置的声音捕捉范围50一起显示多个可选择的声音捕捉范围,并且当没有应用缩放技术时,可以将多个可选择的声音捕捉范围显示为缺省。
可以以预定形状(例如,圆圈、矩形或多边形)来配置或者根据触摸并且拖动的形状来形成所显示的声音捕捉范围50。可以根据用户的触摸输入在其位置移动和尺寸控制中控制在再现阶段自动提供的声音捕捉范围50和由用户直接配置的声音捕捉范围50。特别地,可以按与控制声音捕捉范围50(声音捕捉区域)相同的方式使用控制声音捕捉角度的意义。
图30是根据本公开的实施方式的、在再现模式中显示与特定的区域放大功能有关的声音捕捉方法的示例。
用户可以通过指定并放大特定被摄体(例如,人)的部分区域来更加详细地实时观测相关区域,同时再现视频。在这种情况下,在再现阶段,本公开控制与图像的部分区域的放大有关的声音捕捉位置和范围。
换言之,当用户从再现图像中选择要被放大的被摄体或者配置放大区域60时,控制器180在与所选择的被摄体或放大区域60相对应的位置和范围处自动配置声音捕捉范围61。可以通过菜单选择或触摸手势来配置放大区域60。
当选择区域60被放大时,控制器180放大并实时再现相关区域60,并且在与被放大的选择区域60相对应的声音捕捉范围61内形成指向性,由此以最优方式输出从放大区域60生成的声音和语音。
因此,本公开允许与特定区域放大功能有关地操作再现图像,由此具有仅分离/扩大(放大)特定被摄体的声音源的效果。针对一个示例,可以提供分离然后仅检索音乐的功能。
图31是根据本公开的实施方式的、在再现模式中显示与区域移除功能有关的声音捕捉方法的示例。
用户可以在再现视频的同时移除特定被摄体的部分区域以删除不必要的被摄体(编辑)。在这种情况下,本公开与移除图像的部分区域有关地控制声音捕捉位置和范围。
如图31所示,当用户从再现图像中选择要被移除的被摄体或者配置移除区域70时,控制器180在与所选择的被摄体或移除区域70相对应的位置和范围处自动配置声音捕捉范围71。移除区域70可以由菜单选择或触摸手势来配置。
当执行移除操作时,控制器180实时移除包含在移除区域70中的被摄体,以从存储在存储器160中的原始声音中移除从与移除区域70相对应的声音捕捉范围71中生成的声音,并且同时再现视频。
因此,本公开在由用户选择的被摄体的方向上形成指向性,由此以最优方式移除从相关区域生成的声音。
图32是根据本公开的实施方式的、在再现模式中显示与焦点重新调整功能有关的声音捕捉方法的示例。
用户可以在再现视频的同时基于特定的被摄体实时地重新调整(移动)画面焦点。在这种情况下,本公开针对重新调整了焦点的被摄体形成指向性,以按照最优方式再现从相关被摄体生成的声音和语音。
如图32所示,当用户从前侧用户到后侧用户重新配置(手动设置)焦点时,控制器180在与重新配置的聚焦区域80相对应的位置和范围中自动配置声音捕捉范围81,并且仅选择性地再现从声音捕捉范围81生成的声音。
因此,根据前述实施方式,本公开可以针对重新配置了焦点的被摄体形成指向性,以按照最优方式再现从相关被摄体生成的声音和语音。
图33是根据本公开的第一实施方式的、在双记录模式中与用户反馈有关的声音捕捉方法的视图。
单记录模式(或双记录模式)是这样一种模式,其同时接收前置摄像头和后置摄像头的捕捉图像,以在一个画面上捕捉一个图像,同时在一般捕捉模式中输出该图像,如图30至图32所示。
相反,双记录模式是这样一种模式,其同时接收前置摄像头和后置摄像头的捕捉图像,以按照全HD在一个画面上同时捕捉两个图像,并且同时输出这些图像。因此,本公开提供了这样一种方案,当再现在双记录模式中捕捉的图像时,其能够根据用户选择仅选择性地再现特定图像的声音和语音。
参照图33,在再现模式中由前置摄像头和后置摄像头捕捉的图像与声音一起,同时显示在一个画面上。此时,假设由前置摄像头和后置摄像头捕捉并存储的图像分别被称为"A"和"B"。
当从画面中选择特定方向上的摄像头的图像时,控制器180在相关方向上配置声音的声音捕捉位置和范围,然后从所存储的原始声音中实时地仅再现在所选择的方向上生成的声音源。例如,当选择了前置摄像头的图像(A)时,控制器180仅从原始声音中实时地输出从前侧生成的声音。
因此,本公开具有如下效果:当以再现模式在一个画面上同时显示由前置摄像头和后置摄像头捕捉的图像时,根据用户的选择而仅选择性地再现特定图像的声音和语音。
图34是例示根据本公开的第二实施方式的、在双记录模式中与用户反馈有关的声音捕捉方法的视图。第二实施方式是控制与图像的尺寸控制有关的声音捕捉位置和范围的示例。
如图34所示,在再现模式中由前置摄像头和后置摄像头捕捉的图像与声音一起,同时显示在一个画面上。此时,由前置摄像头捕捉的图像(A)显示在子画面上,并且由后置摄像头捕捉的图像(B)显示在主画面上。
在显示两个图像(A,B)的状态下,用户可以使用触摸(例如,触摸&拖动)来控制子图像(A)的尺寸。当子图像(A)的尺寸增大或减小时,控制器180与图像尺寸成比例地自动增大或减小子图像(A)的声音。
当增大的子图像超过预定阈值范围时,控制器180执行对两个图像的画面显示切换,由此在主画面上显示由前置摄像头捕捉的图像(A),并且在子画面上显示由后置摄像头捕捉的图像(B)
因此,根据前述实施方式,本公开具有向用户提供各种视点的优点。
图35A和图35B是例示根据本公开的第三实施方式的、在双记录模式中与用户反馈有关的声音捕捉方法的视图。第三实施方式是重新调整与图像的位置有关的声音源的生成位置的示例。
如图35A所示,将前置摄像头的图像(A)的位置设置为用户(听众)的参考位置。控制器180以与实际射手在多个被摄体之间的任意位置处听到声音类似的方式形成声音源的指向性,以按照立体方式重新配置被摄体的声音源之间的位置。
例如,如图35A所示,当将前置摄像头的图像(A)定位在画面的右下部分时,控制器180识别出用户被定位在其右下部分,并且允许包含在后置摄像头的图像(B)中的被摄体的声音源的指向性面对其右下部分。然后,当将前置摄像头的图像(A)移动到其左上部分时,控制器180识别出用户被定位在其左上部分,并且允许包含在后置摄像头的图像(B)中的被摄体的声音源指向性面对其左上部分。
因此,根据射手以空间方式(即,立体方式(例如,使用HRTF的3D声音效果))的位置改变,本公开重新排列从被摄体生成的声音源的位置,由此以各种角度执行在线再现。
下文中,将在下面参照附图来描述根据本公开的实施方式的在移动终端中按再现模式的音频缩放方法。
以再现模式的音频缩放方法指代如下方法,将各种缩放技术应用于感兴趣的被摄体的位置或范围、摄像头模式、实际的摄像头操作(缩放操作或聚焦移动),以按照最优方式捕捉相关被摄体的声音或语音。
相反,以再现模式的音频缩放方法指代如下方法,自动控制与再现画面的特定区域放大/移除/焦点重新调整功能有关或者与双记录功能有关的声音的声音捕捉位置和范围。特别地,再现位置和再现声音的大小根据声音的声音捕捉位置和范围而变化。
图36是例示根据本公开的实施方式的、在再现阶段移动终端的音频缩放方法的流程图。
当用户选择再现模式时,控制器180从存储器160中检索一个或更多个捕捉图像,并且在显示单元151上显示这些图像,以允许用户选择这些图像(步骤S310、S320)。捕捉图像以图标或列表的形式显示。
当选择了要再现的特定图像(步骤S11),控制器180检查相关图像是在单记录模式(一个摄像头)中捕捉到的图像还是在双记录模式(两个摄像头)中捕捉到的图像(步骤S330)。
作为检查的结果,当相关图像是在单记录模式中捕捉到的图像时,控制器180控制与针对图像的特定区域的用户编辑功能(例如,放大、移除和焦点重新调整)有关的声音捕捉位置和范围。
例如,将声音捕捉区域自动设置为相关区域,以在用户选择要被放大的区域时仅再现从相关区域生成的被摄体的声音(图29),并且将声音捕捉区域自动设置为在用户选择要被移除的区域时移除从相关区域生成的被摄体的声音和语音(图30)。此外,当从图像将焦点重新调整到另一个被摄体时,将声音捕捉范围自动设置为聚焦区域,以仅再现从相关区域生成的被摄体的声音(图31)。
相反,作为检查的结果,当所选择的图像是在双记录模式中捕捉到的图像时,控制器180调整声音捕捉位置和范围或者调整与用户对一个图像的观看功能(例如,图像选择、图像尺寸或者位置调整)有关的声音源的生成位置(步骤S350)。
因此,控制器180按照被控制的声音捕捉位置和范围或者声音源的生成位置以最优方式再现被摄体的声音和语音(步骤S360),并且重复执行这样的一系列操作,除非再现操作没有完成(步骤S370)。
此外,即使在捕捉图像时,也可以选择性地执行在再现图像的同时再现图像的音频缩放方法的部分或全部。换言之,可以将在再现阶段与用户事件有关的声音捕捉全部应用于捕捉阶段。
如上所述,本公开执行允许用户配置感兴趣的被摄体的位置、范围和状况的事件,以在捕捉或再现模式中获得最优图像,换言之,用户允许指向性面对被摄体的位置或者与由用户靠近的或聚焦的被摄体的位置和尺寸有关地自动优化声音捕捉范围,由此以最优方式捕捉或者再现感兴趣的被摄体的声音或语音,以及使现有技术的不便(逐一手动地指出要被捕捉的声音源)最小化。特别地,本公开提供了一种表达技术,其中用户能够以灵敏且方便的方式控制一个或多个声音捕捉位置和范围,而不与摄像头的基本场景冲突,以控制缩放倍率等,由此以最优方式捕捉或者再现感兴趣的被摄体的声音或语音。
此外,根据本公开,当存在与期望被捕捉或再现的被摄体的位置不同的声音位置时,在声音位置的位置处形成声音指向性,由此以最优方式(音频/视频双聚焦)捕捉相关被摄体的声音。特别地,本公开显示存在于画面中或画面外的声音的信息(声音源的位置、尺寸和方向)并且同时捕捉位于前表面方向上的被摄体,由此允许用户直接选择期望被捕捉的声音源,以捕捉被摄体的声音。
此外,根据本公开,可以与用户针对再现画面上的特定区域编辑功能的输入有关地自动控制声音的捕捉位置和范围,并且可以重新调整通过前置和后置摄像头捕捉到的被摄体的声音源的捕捉位置和范围,由此在再现模式中执行最优的声音源再现。
根据本公开的实施方式,可将前述方法实现为在介质上的由程序所写的计算机可读的代码。计算机可读介质包括可以存储由计算机系统可读的数据的所有类型的记录装置。计算机可读介质的示例可以包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储装置等等,并且还包括经由载波(例如,经由互联网的传输)实现的装置。计算机可包括终端的控制器。
不能以限制的方式将根据上述实施方式的构造和方法应用于前述终端及其音频缩放方法,并且每个实施方式的全部或部分可被选择性地组合和配置以对其作出各种修改。
Claims (26)
1.一种移动终端的音频缩放方法,所述方法包括如下步骤:
在预定捕捉模式中配置被摄体的声音捕捉范围;
在所配置的声音捕捉范围内捕捉所述被摄体的声音;
当在捕捉阶段发生用于改变所述被摄体的捕捉位置或范围或者捕捉模式的事件时,改变声音捕捉角度以自动控制所述声音捕捉范围;以及
在所控制的声音捕捉范围内捕捉所述被摄体的声音。
2.根据权利要求1所述的方法,其中,当选择一般捕捉模式时,自动将所述声音捕捉范围设置为预置位置处的预定尺寸和形状,并且
用户事件包括画面放大/缩小或者捕捉模式的改变。
3.根据权利要求1所述的方法,其中,当所述事件是画面放大/缩小时,根据画面缩放倍率来自动改变所述声音捕捉角度,并且当所述事件是捕捉模式的改变时,根据特定捕捉模式或前/后表面捕捉模式的选择来自动改变所述声音捕捉角度。
4.根据权利要求3所述的方法,其中,所述捕捉模式的改变包括向基本捕捉模式中的风景模式、肖像模式、街道模式、立体声模式和助听模式的改变。
5.根据权利要求1所述的方法,其中,能够根据触摸输入放大或缩小所配置的声音捕捉范围,并且
在放大或缩小所述声音捕捉范围时显示声音捕捉允许范围的变化极限信息。
6.根据权利要求5所述的方法,其中,所述声音捕捉允许范围的所述变化极限信息包括以下中的一个:尺寸被改变然后被恢复的尺寸弹跳效果、形状被改变然后被恢复的形状弹跳效果、颜色被改变然后被恢复的颜色弹跳效果、以及在所述声音捕捉允许区域接近最小/最大值时生成预定声音或振动的效果。
7.根据权利要求1所述的方法,所述方法还包括:
当所述事件是画面放大/缩小时,将所述声音捕捉范围的显示位置重新调整到由自动聚焦功能重新配置的对焦区域。
8.根据权利要求1所述的方法,所述方法还包括:
当所述事件是画面放大/缩小时,在所述画面上显示多个预置的声音捕捉范围;以及
当完成所述画面放大/缩小时,重新调整并且显示声音捕捉允许区域的数量。
9.根据权利要求1所述的方法,所述方法还包括:
当多个被摄体生成声音时,通过在生成声音的被摄体上自动形成画面对焦,改变声音捕捉对象;以及
当改变所述声音捕捉对象时,输出视觉和听觉效果,以防止声音的中断,
其中,所述视觉和听觉效果包括所述画面上的声音捕捉范围移动及其相关声音效果或者淡入/淡出及其相关声音效果。
10.根据权利要求9所述的方法,其中,所述改变所述声音捕捉对象的步骤包括:
使用面部识别技术来识别用户的面部;
根据所识别的面部的尺寸形成声音捕捉范围,以感测从各用户生成的声音;以及
在生成声音的面部上或在生成最大声音的面部上自动形成画面对焦,并且捕捉所对应用户的语音。
11.根据权利要求1所述的方法,所述方法还包括:
自动识别所述画面中或画面外的、输出所述被摄体的声音的声音源,并且在位于所述画面一侧的音频缩略图上显示所识别的声音源;
在所述音频缩略图上,通过在由所述用户选择的声音源上形成指向性来执行音频聚焦;以及
捕捉音频聚焦的声音源。
12.根据权利要求11所述的方法,其中,以半透明方式显示所述音频缩略图,以显示存在于所述画面中和所述画面外的声音源的位置和尺寸,并且在触摸阶段放大所述音频缩略图,以在捕捉图像上重叠。
13.根据权利要求11所述的方法,其中,所述画面中的声音源显示为声音捕捉区域,并且所述画面外的声音源在所述音频缩略图上显示为声音源图标。
14.根据权利要求13所述的方法,其中,所述声音源图标指示声音源的方向和位置以及声音的大小,并且具有不同的形状和颜色。
15.一种移动终端,所述移动终端包括:
显示单元,所述显示单元被配置为显示包含感兴趣的被摄体的画面;
存储器,所述存储器被配置为存储与捕捉相关联的信息;以及
控制器,所述控制器被配置为:当在被摄体捕捉期间发生用于改变所述被摄体的捕捉位置或范围或者捕捉模式的事件时,自动控制声音捕捉范围以捕捉所述被摄体的声音。
16.根据权利要求15所述的移动终端,其中,当选择一般捕捉模式时,所述声音捕捉范围被自动设置为预置位置处的预定尺寸和形状,并且
用户事件包括画面放大/缩小或者捕捉模式的改变。
17.根据权利要求15所述的移动终端,其中,当所述事件是画面放大/缩小时,所述控制器根据画面缩放倍率来自动改变声音捕捉角度,并且当所述事件是捕捉模式的改变时,所述控制器根据特定捕捉模式或前/后表面捕捉模式的选择来自动改变所述声音捕捉角度,并且,
其中,所述捕捉模式的改变包括向基本捕捉模式中的风景模式、肖像模式、街道模式、立体声模式和助听模式的改变。
18.根据权利要求15所述的移动终端,其中,所述控制器根据触摸输入放大或缩小所述声音捕捉范围,并且在放大或缩小所述声音捕捉范围时显示声音捕捉允许范围的变化极限信息。
19.根据权利要求18所述的移动终端,其中,所述声音捕捉允许范围的所述变化极限信息包括以下中的一个:尺寸被改变然后被恢复的尺寸弹跳效果、形状被改变然后被恢复的形状弹跳效果、颜色被改变然后被恢复的颜色弹跳效果、以及在所述声音捕捉允许区域接近最小/最大值时生成预定声音或振动的效果。
20.根据权利要求15所述的移动终端,其中,当所述事件是画面放大/缩小时,所述控制器将所述声音捕捉范围的显示位置重新调整到由自动聚焦功能重新配置的对焦区域。
21.根据权利要求15所述的移动终端,其中,当所述事件是画面放大/缩小时,所述控制器在所述画面上显示多个预置的声音捕捉范围;以及当完成所述画面放大/缩小时,所述控制器重新调整并且显示声音捕捉允许区域的数量。
22.根据权利要求15所述的移动终端,其中,当多个被摄体生成声音时,所述控制器通过在生成声音的被摄体上自动形成画面对焦,改变声音捕捉对象,并且当改变所述声音捕捉对象时,所述控制器输出视觉和听觉效果,以防止声音的中断,并且,
其中,视觉和听觉效果包括:将前一被摄体的声音捕捉范围扩展到整个画面,并且然后逐渐将声音捕捉区域配置到另一个被摄体。
23.根据权利要求22所述的移动终端,其中,所述控制器根据使用面部识别技术所识别的面部的尺寸形成声音捕捉范围,以感测从各用户生成的声音,并且然后在生成声音的面部上或在生成最大声音的面部上自动形成画面对焦,以捕捉相关用户的语音。
24.根据权利要求15所述的移动终端,其中,所述控制器还被配置为:
自动识别输出所述被摄体的声音的所述画面中的或所述画面外的声音源,
在位于所述画面一侧的音频缩略图上显示所识别的声音源;以及
在所述音频缩略图上,在用户选择的声音源上执行音频聚焦,以捕捉相关声音源,
其中,当选择了所述音频缩略图时,所述控制器放大所述音频缩略图并且在捕捉图像上重叠所放大的音频缩略图。
25.根据权利要求24所述的移动终端,其中,以半透明方式显示所述音频缩略图,以显示存在于所述画面中和所述画面外的声音源的位置和尺寸,并且
其中,所述画面中的声音源显示为声音捕捉区域,并且所述画面外的声音源在所述音频缩略图上显示为声音源图标。
26.根据权利要求25所述的移动终端,其中,所述声音源图标指示声音源的方向和位置以及声音的大小,并且具有不同的形状和颜色。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120068212A KR101969802B1 (ko) | 2012-06-25 | 2012-06-25 | 이동 단말기 및 재생 영상의 오디오 줌잉 방법 |
KR10-2012-0068210 | 2012-06-25 | ||
KR1020120068210A KR101951419B1 (ko) | 2012-06-25 | 2012-06-25 | 이동 단말기 및 그의 오디오/비디오 듀얼 포커싱 방법 |
KR10-2012-0068212 | 2012-06-25 | ||
KR1020120068205A KR101951418B1 (ko) | 2012-06-25 | 2012-06-25 | 이동 단말기 및 그의 오디오 줌잉방법 |
KR10-2012-0068205 | 2012-06-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103516894A true CN103516894A (zh) | 2014-01-15 |
CN103516894B CN103516894B (zh) | 2017-04-12 |
Family
ID=48793853
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310251706.0A Expired - Fee Related CN103516894B (zh) | 2012-06-25 | 2013-06-24 | 移动终端及其音频缩放方法 |
CN201610085637.4A Active CN105592283B (zh) | 2012-06-25 | 2013-06-24 | 移动终端及控制移动终端的方法 |
CN201310252687.3A Active CN103516895B (zh) | 2012-06-25 | 2013-06-24 | 移动终端及其音频缩放方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610085637.4A Active CN105592283B (zh) | 2012-06-25 | 2013-06-24 | 移动终端及控制移动终端的方法 |
CN201310252687.3A Active CN103516895B (zh) | 2012-06-25 | 2013-06-24 | 移动终端及其音频缩放方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US9247192B2 (zh) |
EP (2) | EP2680616A1 (zh) |
CN (3) | CN103516894B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888703A (zh) * | 2014-03-28 | 2014-06-25 | 深圳市中兴移动通信有限公司 | 增强录音的拍摄方法和摄像装置 |
CN103957359A (zh) * | 2014-05-15 | 2014-07-30 | 深圳市中兴移动通信有限公司 | 摄像装置及其对焦方法 |
CN105391837A (zh) * | 2014-09-01 | 2016-03-09 | 三星电子株式会社 | 管理音频信号的方法和设备 |
CN110109592A (zh) * | 2016-09-23 | 2019-08-09 | 苹果公司 | 头像创建和编辑 |
CN110602424A (zh) * | 2019-08-28 | 2019-12-20 | 维沃移动通信有限公司 | 视频处理方法及电子设备 |
CN111050269A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 音频处理方法和电子设备 |
TWI699543B (zh) * | 2018-11-09 | 2020-07-21 | 國立雲林科技大學 | 主動式打火機聲源辨識系統 |
CN112425157A (zh) * | 2018-07-24 | 2021-02-26 | 索尼公司 | 信息处理装置和方法以及程序 |
US11334209B2 (en) | 2016-06-12 | 2022-05-17 | Apple Inc. | User interfaces for retrieving contextually relevant media content |
US11380077B2 (en) | 2018-05-07 | 2022-07-05 | Apple Inc. | Avatar creation user interface |
CN114924705A (zh) * | 2021-02-11 | 2022-08-19 | 诺基亚技术有限公司 | 用于旋转显示的视觉信息的装置、方法和计算机程序 |
US11442414B2 (en) | 2020-05-11 | 2022-09-13 | Apple Inc. | User interfaces related to time |
US11481988B2 (en) | 2010-04-07 | 2022-10-25 | Apple Inc. | Avatar editing environment |
US11714536B2 (en) | 2021-05-21 | 2023-08-01 | Apple Inc. | Avatar sticker editor user interfaces |
US11722764B2 (en) | 2018-05-07 | 2023-08-08 | Apple Inc. | Creative camera |
US11776190B2 (en) | 2021-06-04 | 2023-10-03 | Apple Inc. | Techniques for managing an avatar on a lock screen |
US11921998B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Editing features of an avatar |
US12033296B2 (en) | 2018-05-07 | 2024-07-09 | Apple Inc. | Avatar creation user interface |
US12147655B2 (en) | 2023-06-01 | 2024-11-19 | Apple Inc. | Avatar sticker editor user interfaces |
Families Citing this family (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US9258644B2 (en) * | 2012-07-27 | 2016-02-09 | Nokia Technologies Oy | Method and apparatus for microphone beamforming |
KR101374353B1 (ko) * | 2012-10-18 | 2014-03-17 | 광주과학기술원 | 음향 재생 장치 |
JP2014143678A (ja) * | 2012-12-27 | 2014-08-07 | Panasonic Corp | 音声処理システム及び音声処理方法 |
US9860439B2 (en) * | 2013-02-15 | 2018-01-02 | Panasonic Intellectual Property Management Co., Ltd. | Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method |
GB2516056B (en) * | 2013-07-09 | 2021-06-30 | Nokia Technologies Oy | Audio processing apparatus |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9729994B1 (en) * | 2013-08-09 | 2017-08-08 | University Of South Florida | System and method for listener controlled beamforming |
KR102089638B1 (ko) | 2013-08-26 | 2020-03-16 | 삼성전자주식회사 | 전자장치의 음성 녹음 방법 및 장치 |
KR102192704B1 (ko) * | 2013-10-22 | 2020-12-17 | 엘지전자 주식회사 | 영상 출력 장치 |
CN104598013A (zh) * | 2013-10-31 | 2015-05-06 | 鸿富锦精密工业(深圳)有限公司 | 智能展示装置 |
CN104036789B (zh) * | 2014-01-03 | 2018-02-02 | 北京智谷睿拓技术服务有限公司 | 多媒体处理方法及多媒体装置 |
KR102154528B1 (ko) * | 2014-02-03 | 2020-09-10 | 엘지전자 주식회사 | 이동 단말기 및 그 제어 방법 |
US9282399B2 (en) * | 2014-02-26 | 2016-03-08 | Qualcomm Incorporated | Listen to people you recognize |
KR102222318B1 (ko) * | 2014-03-18 | 2021-03-03 | 삼성전자주식회사 | 사용자 인식 방법 및 장치 |
US20150281832A1 (en) * | 2014-03-28 | 2015-10-01 | Panasonic Intellectual Property Management Co., Ltd. | Sound processing apparatus, sound processing system and sound processing method |
US9516412B2 (en) * | 2014-03-28 | 2016-12-06 | Panasonic Intellectual Property Management Co., Ltd. | Directivity control apparatus, directivity control method, storage medium and directivity control system |
EP2928206B1 (en) * | 2014-03-31 | 2017-08-30 | Panasonic Corporation | Directivity control apparatus, directivity control method, storage medium and directivity control system |
WO2015151130A1 (ja) * | 2014-03-31 | 2015-10-08 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理システム、及び音声処理方法 |
WO2015151131A1 (ja) * | 2014-03-31 | 2015-10-08 | パナソニックIpマネジメント株式会社 | 指向性制御装置、指向性制御方法、記憶媒体及び指向性制御システム |
JP6125457B2 (ja) * | 2014-04-03 | 2017-05-10 | 日本電信電話株式会社 | 収音システム及び放音システム |
CN105474666B (zh) * | 2014-04-25 | 2018-11-16 | 松下知识产权经营株式会社 | 声音处理系统及声音处理方法 |
CN105451139A (zh) * | 2014-06-24 | 2016-03-30 | 索尼公司 | 声音信号处理方法、装置和移动终端 |
US9508386B2 (en) | 2014-06-27 | 2016-11-29 | Nokia Technologies Oy | Method and apparatus for synchronizing audio and video signals |
US10073607B2 (en) | 2014-07-03 | 2018-09-11 | Qualcomm Incorporated | Single-channel or multi-channel audio control interface |
US9875080B2 (en) | 2014-07-17 | 2018-01-23 | Nokia Technologies Oy | Method and apparatus for an interactive user interface |
CN104253943B (zh) * | 2014-09-04 | 2018-06-22 | 广东欧珀移动通信有限公司 | 使用移动终端的视频拍摄方法和装置 |
US9693009B2 (en) * | 2014-09-12 | 2017-06-27 | International Business Machines Corporation | Sound source selection for aural interest |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
CN107004426B (zh) * | 2014-11-28 | 2020-09-11 | 华为技术有限公司 | 录取录像对象的声音的方法和移动终端 |
WO2016098315A1 (ja) * | 2014-12-15 | 2016-06-23 | パナソニックIpマネジメント株式会社 | マイクアレイ、監視システム及び収音設定方法 |
US9747068B2 (en) * | 2014-12-22 | 2017-08-29 | Nokia Technologies Oy | Audio processing based upon camera selection |
WO2016103645A1 (ja) * | 2014-12-22 | 2016-06-30 | パナソニックIpマネジメント株式会社 | 指向性制御システム、指向性制御装置、それらのいずれかを備える異常音検出システム及び指向性制御方法 |
CN104580992B (zh) * | 2014-12-31 | 2018-01-23 | 广东欧珀移动通信有限公司 | 一种控制方法及移动终端 |
US9578439B2 (en) * | 2015-01-02 | 2017-02-21 | Qualcomm Incorporated | Method, system and article of manufacture for processing spatial audio |
EP3054706A3 (en) * | 2015-02-09 | 2016-12-07 | Oticon A/s | A binaural hearing system and a hearing device comprising a beamformer unit |
CN105045840A (zh) * | 2015-06-30 | 2015-11-11 | 广东欧珀移动通信有限公司 | 一种图片展示方法及移动终端 |
EP3151534A1 (en) * | 2015-09-29 | 2017-04-05 | Thomson Licensing | Method of refocusing images captured by a plenoptic camera and audio based refocusing image system |
CN106648193B (zh) * | 2015-11-03 | 2021-01-22 | 中兴通讯股份有限公司 | 应用操作的方法及装置 |
JP2017102085A (ja) * | 2015-12-04 | 2017-06-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US9952814B2 (en) * | 2015-12-11 | 2018-04-24 | Ricoh Company, Ltd. | Information processing apparatus, information processing method, and recording medium |
JP6865371B2 (ja) * | 2016-03-24 | 2021-04-28 | パナソニックIpマネジメント株式会社 | モニタリングシステム及びモニタリング方法 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
JP6984596B2 (ja) | 2016-05-30 | 2021-12-22 | ソニーグループ株式会社 | 映像音響処理装置および方法、並びにプログラム |
CN106170034B (zh) * | 2016-06-16 | 2018-07-06 | 广东欧珀移动通信有限公司 | 一种音效处理方法及移动终端 |
EP3261367B1 (en) | 2016-06-21 | 2020-07-22 | Nokia Technologies Oy | Method, apparatus, and computer program code for improving perception of sound objects in mediated reality |
US9881647B2 (en) * | 2016-06-28 | 2018-01-30 | VideoStitch Inc. | Method to align an immersive video and an immersive sound field |
KR102561371B1 (ko) * | 2016-07-11 | 2023-08-01 | 삼성전자주식회사 | 디스플레이장치와, 기록매체 |
CN106341601A (zh) * | 2016-09-23 | 2017-01-18 | 努比亚技术有限公司 | 移动终端及拍照方法 |
EP3312718A1 (en) * | 2016-10-20 | 2018-04-25 | Nokia Technologies OY | Changing spatial audio fields |
KR20180056174A (ko) * | 2016-11-18 | 2018-05-28 | 삼성전자주식회사 | 콘텐츠 처리 방법 및 이를 지원하는 전자 장치 |
US10592199B2 (en) | 2017-01-24 | 2020-03-17 | International Business Machines Corporation | Perspective-based dynamic audio volume adjustment |
US10178490B1 (en) * | 2017-06-30 | 2019-01-08 | Apple Inc. | Intelligent audio rendering for video recording |
CN109511004B (zh) * | 2017-09-14 | 2023-09-01 | 中兴通讯股份有限公司 | 一种视频处理方法及装置 |
US10447394B2 (en) * | 2017-09-15 | 2019-10-15 | Qualcomm Incorporated | Connection with remote internet of things (IoT) device based on field of view of camera |
US10462370B2 (en) | 2017-10-03 | 2019-10-29 | Google Llc | Video stabilization |
GB201800918D0 (en) | 2018-01-19 | 2018-03-07 | Nokia Technologies Oy | Associated spatial audio playback |
EP3528509B9 (en) * | 2018-02-19 | 2023-01-11 | Nokia Technologies Oy | Audio data arrangement |
KR102531128B1 (ko) | 2018-02-23 | 2023-05-10 | 삼성전자주식회사 | 카메라를 이용하여 복수의 프레임 레이트에 따라 영상을 촬영하는 전자 장치 및 그 작동 방법 |
US10778900B2 (en) | 2018-03-06 | 2020-09-15 | Eikon Technologies LLC | Method and system for dynamically adjusting camera shots |
US11245840B2 (en) | 2018-03-06 | 2022-02-08 | Eikon Technologies LLC | Method and system for dynamically adjusting camera shots |
JP7143098B2 (ja) * | 2018-03-23 | 2022-09-28 | キヤノン株式会社 | 電子機器及びその制御方法 |
US10171738B1 (en) | 2018-05-04 | 2019-01-01 | Google Llc | Stabilizing video to reduce camera and face movement |
CN108712706B (zh) * | 2018-05-17 | 2020-09-22 | Oppo广东移动通信有限公司 | 发声方法、装置、电子装置及存储介质 |
CN108769400A (zh) * | 2018-05-23 | 2018-11-06 | 宇龙计算机通信科技(深圳)有限公司 | 一种定位录音的方法及装置 |
US11055346B2 (en) | 2018-08-03 | 2021-07-06 | Gracenote, Inc. | Tagging an image with audio-related metadata |
EP3847825A4 (en) * | 2018-09-03 | 2022-02-09 | Snap Inc. | ACOUSTIC ZOOM |
WO2020065931A1 (ja) * | 2018-09-28 | 2020-04-02 | 日本電気株式会社 | 撮影制御システム、撮影制御方法、制御装置、制御方法、および記憶媒体 |
US11012774B2 (en) * | 2018-10-29 | 2021-05-18 | Apple Inc. | Spatially biased sound pickup for binaural video recording |
CN109302664A (zh) * | 2018-11-21 | 2019-02-01 | 京东方科技集团股份有限公司 | 显示屏及其声音输出位置控制方法和装置 |
US11463615B2 (en) | 2019-03-13 | 2022-10-04 | Panasonic Intellectual Property Management Co., Ltd. | Imaging apparatus |
JP7217471B2 (ja) * | 2019-03-13 | 2023-02-03 | パナソニックIpマネジメント株式会社 | 撮像装置 |
EP3742271B1 (en) * | 2019-05-23 | 2024-02-28 | Nokia Technologies Oy | A control element |
JP6590329B1 (ja) * | 2019-06-26 | 2019-10-16 | 株式会社ラディウス・ファイブ | 画像表示システム及びプログラム |
WO2021061112A1 (en) | 2019-09-25 | 2021-04-01 | Google Llc | Gain control for face authentication |
WO2021071497A1 (en) | 2019-10-10 | 2021-04-15 | Google Llc | Camera synchronization and image tagging for face authentication |
KR102709916B1 (ko) * | 2019-10-23 | 2024-09-26 | 엘지전자 주식회사 | 복수 객체에 대한 오디오 포커싱 방법 및 장치 |
KR20210048271A (ko) * | 2019-10-23 | 2021-05-03 | 엘지전자 주식회사 | 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치 |
KR102663375B1 (ko) * | 2019-10-23 | 2024-05-08 | 엘지전자 주식회사 | 음성 및 영상 자동 포커싱 방법 및 장치 |
JP2021072575A (ja) * | 2019-10-31 | 2021-05-06 | パナソニックIpマネジメント株式会社 | 音源表示システム及び音源表示装置 |
CN110825289A (zh) | 2019-10-31 | 2020-02-21 | 北京字节跳动网络技术有限公司 | 操作用户界面的方法、装置、电子设备及存储介质 |
EP3846453B1 (en) * | 2019-12-31 | 2023-06-14 | Nokia Technologies Oy | An apparatus, method and computer program for recording audio content and image content |
EP3849202B1 (en) * | 2020-01-10 | 2023-02-08 | Nokia Technologies Oy | Audio and video processing |
KR20210091003A (ko) | 2020-01-13 | 2021-07-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN113132863B (zh) * | 2020-01-16 | 2022-05-24 | 华为技术有限公司 | 立体声拾音方法、装置、终端设备和计算机可读存储介质 |
JP6739064B1 (ja) * | 2020-01-20 | 2020-08-12 | パナソニックIpマネジメント株式会社 | 撮像装置 |
CN113365013A (zh) * | 2020-03-06 | 2021-09-07 | 华为技术有限公司 | 一种音频处理方法及设备 |
CN113365012A (zh) * | 2020-03-06 | 2021-09-07 | 华为技术有限公司 | 一种音频处理方法及设备 |
DE102020204332B4 (de) | 2020-04-02 | 2022-05-12 | Sivantos Pte. Ltd. | Verfahren zum Betrieb eines Hörsystems sowie Hörsystem |
CN113747047B (zh) * | 2020-05-30 | 2023-10-13 | 华为技术有限公司 | 一种视频播放的方法及设备 |
JP2022003753A (ja) * | 2020-06-23 | 2022-01-11 | パナソニックIpマネジメント株式会社 | 撮像装置 |
US11190689B1 (en) | 2020-07-29 | 2021-11-30 | Google Llc | Multi-camera video stabilization |
CN112188278B (zh) * | 2020-09-28 | 2022-04-15 | 卡莱特云科技股份有限公司 | 一种通过移动设备连接控制显示屏的方法及系统 |
EP4203458A4 (en) * | 2021-01-13 | 2024-04-17 | Samsung Electronics Co., Ltd. | ELECTRONIC IMAGE CAPTURE DEVICE, METHOD AND NON-TRANSITIOUS STORAGE MEDIUM |
US11646046B2 (en) * | 2021-01-29 | 2023-05-09 | Qualcomm Incorporated | Psychoacoustic enhancement based on audio source directivity |
CN115134513A (zh) * | 2021-03-29 | 2022-09-30 | 北京小米移动软件有限公司 | 拍摄方法及装置 |
CN113573120B (zh) * | 2021-06-16 | 2023-10-27 | 北京荣耀终端有限公司 | 音频的处理方法及电子设备、芯片系统及存储介质 |
CN113259826B (zh) * | 2021-06-23 | 2021-10-01 | 央广新媒体文化传媒(北京)有限公司 | 在电子终端中实现助听的方法和装置 |
CN113676687A (zh) * | 2021-08-30 | 2021-11-19 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US20240127855A1 (en) * | 2022-10-17 | 2024-04-18 | Adobe Inc. | Speaker thumbnail selection and speaker visualization in diarized transcripts for text-based video |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1650618A (zh) * | 2002-03-01 | 2005-08-03 | 汤姆森许可公司 | 在视频特技模式期间利用数字信号处理的音频缩放 |
US20100123785A1 (en) * | 2008-11-17 | 2010-05-20 | Apple Inc. | Graphic Control for Directional Audio Input |
CN101981943A (zh) * | 2008-03-27 | 2011-02-23 | 雅马哈株式会社 | 声音处理装置 |
US20110085061A1 (en) * | 2009-10-08 | 2011-04-14 | Samsung Electronics Co., Ltd. | Image photographing apparatus and method of controlling the same |
WO2011064438A1 (en) * | 2009-11-30 | 2011-06-03 | Nokia Corporation | Audio zooming process within an audio scene |
CN102256098A (zh) * | 2010-05-18 | 2011-11-23 | 宝利通公司 | 具有多个语音跟踪摄像机的视频会议端点 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4269883B2 (ja) * | 2003-10-20 | 2009-05-27 | ソニー株式会社 | マイクロホン装置、再生装置及び撮像装置 |
JP4637725B2 (ja) * | 2005-11-11 | 2011-02-23 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法、プログラム |
JP4692550B2 (ja) * | 2008-01-21 | 2011-06-01 | ソニー株式会社 | 画像処理装置、その処理方法およびプログラム |
JP5748422B2 (ja) * | 2010-06-29 | 2015-07-15 | 株式会社ザクティ | 電子機器 |
US8433076B2 (en) * | 2010-07-26 | 2013-04-30 | Motorola Mobility Llc | Electronic apparatus for generating beamformed audio signals with steerable nulls |
JP5198530B2 (ja) * | 2010-09-28 | 2013-05-15 | 株式会社東芝 | 音声付き動画像呈示装置、方法およびプログラム |
CN102480671B (zh) | 2010-11-26 | 2014-10-08 | 华为终端有限公司 | 视频通信中的音频处理方法和装置 |
DE202013005408U1 (de) * | 2012-06-25 | 2013-10-11 | Lg Electronics Inc. | Mikrophonbefestigungsanordnung eines mobilen Endgerätes |
US9007524B2 (en) * | 2012-09-25 | 2015-04-14 | Intel Corporation | Techniques and apparatus for audio isolation in video processing |
-
2013
- 2013-06-17 EP EP13003075.2A patent/EP2680616A1/en not_active Ceased
- 2013-06-17 EP EP13003074.5A patent/EP2680615B1/en active Active
- 2013-06-24 CN CN201310251706.0A patent/CN103516894B/zh not_active Expired - Fee Related
- 2013-06-24 US US13/925,439 patent/US9247192B2/en not_active Expired - Fee Related
- 2013-06-24 US US13/925,354 patent/US9332211B2/en active Active
- 2013-06-24 CN CN201610085637.4A patent/CN105592283B/zh active Active
- 2013-06-24 CN CN201310252687.3A patent/CN103516895B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1650618A (zh) * | 2002-03-01 | 2005-08-03 | 汤姆森许可公司 | 在视频特技模式期间利用数字信号处理的音频缩放 |
CN101981943A (zh) * | 2008-03-27 | 2011-02-23 | 雅马哈株式会社 | 声音处理装置 |
US20100123785A1 (en) * | 2008-11-17 | 2010-05-20 | Apple Inc. | Graphic Control for Directional Audio Input |
US20110085061A1 (en) * | 2009-10-08 | 2011-04-14 | Samsung Electronics Co., Ltd. | Image photographing apparatus and method of controlling the same |
WO2011064438A1 (en) * | 2009-11-30 | 2011-06-03 | Nokia Corporation | Audio zooming process within an audio scene |
CN102256098A (zh) * | 2010-05-18 | 2011-11-23 | 宝利通公司 | 具有多个语音跟踪摄像机的视频会议端点 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869165B2 (en) | 2010-04-07 | 2024-01-09 | Apple Inc. | Avatar editing environment |
US11481988B2 (en) | 2010-04-07 | 2022-10-25 | Apple Inc. | Avatar editing environment |
CN103888703A (zh) * | 2014-03-28 | 2014-06-25 | 深圳市中兴移动通信有限公司 | 增强录音的拍摄方法和摄像装置 |
CN103957359A (zh) * | 2014-05-15 | 2014-07-30 | 深圳市中兴移动通信有限公司 | 摄像装置及其对焦方法 |
CN103957359B (zh) * | 2014-05-15 | 2016-08-24 | 努比亚技术有限公司 | 摄像装置及其对焦方法 |
CN105391837A (zh) * | 2014-09-01 | 2016-03-09 | 三星电子株式会社 | 管理音频信号的方法和设备 |
US11334209B2 (en) | 2016-06-12 | 2022-05-17 | Apple Inc. | User interfaces for retrieving contextually relevant media content |
US11941223B2 (en) | 2016-06-12 | 2024-03-26 | Apple Inc. | User interfaces for retrieving contextually relevant media content |
US11681408B2 (en) | 2016-06-12 | 2023-06-20 | Apple Inc. | User interfaces for retrieving contextually relevant media content |
CN110109592A (zh) * | 2016-09-23 | 2019-08-09 | 苹果公司 | 头像创建和编辑 |
US11722764B2 (en) | 2018-05-07 | 2023-08-08 | Apple Inc. | Creative camera |
US12033296B2 (en) | 2018-05-07 | 2024-07-09 | Apple Inc. | Avatar creation user interface |
US11380077B2 (en) | 2018-05-07 | 2022-07-05 | Apple Inc. | Avatar creation user interface |
US11682182B2 (en) | 2018-05-07 | 2023-06-20 | Apple Inc. | Avatar creation user interface |
US11431887B2 (en) | 2018-07-24 | 2022-08-30 | Sony Semiconductor Solutions Corporation | Information processing device and method for detection of a sound image object |
CN112425157B (zh) * | 2018-07-24 | 2024-08-02 | 索尼公司 | 信息处理装置和方法以及程序 |
CN112425157A (zh) * | 2018-07-24 | 2021-02-26 | 索尼公司 | 信息处理装置和方法以及程序 |
WO2020078237A1 (zh) * | 2018-10-15 | 2020-04-23 | 华为技术有限公司 | 音频处理方法和电子设备 |
CN111050269A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 音频处理方法和电子设备 |
TWI699543B (zh) * | 2018-11-09 | 2020-07-21 | 國立雲林科技大學 | 主動式打火機聲源辨識系統 |
CN110602424A (zh) * | 2019-08-28 | 2019-12-20 | 维沃移动通信有限公司 | 视频处理方法及电子设备 |
US11442414B2 (en) | 2020-05-11 | 2022-09-13 | Apple Inc. | User interfaces related to time |
US11822778B2 (en) | 2020-05-11 | 2023-11-21 | Apple Inc. | User interfaces related to time |
US11921998B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Editing features of an avatar |
US12008230B2 (en) | 2020-05-11 | 2024-06-11 | Apple Inc. | User interfaces related to time with an editable background |
US12099713B2 (en) | 2020-05-11 | 2024-09-24 | Apple Inc. | User interfaces related to time |
CN114924705A (zh) * | 2021-02-11 | 2022-08-19 | 诺基亚技术有限公司 | 用于旋转显示的视觉信息的装置、方法和计算机程序 |
US11714536B2 (en) | 2021-05-21 | 2023-08-01 | Apple Inc. | Avatar sticker editor user interfaces |
US11776190B2 (en) | 2021-06-04 | 2023-10-03 | Apple Inc. | Techniques for managing an avatar on a lock screen |
US12147655B2 (en) | 2023-06-01 | 2024-11-19 | Apple Inc. | Avatar sticker editor user interfaces |
Also Published As
Publication number | Publication date |
---|---|
US20130342730A1 (en) | 2013-12-26 |
CN105592283A (zh) | 2016-05-18 |
EP2680615B1 (en) | 2018-08-08 |
CN105592283B (zh) | 2019-01-15 |
US9332211B2 (en) | 2016-05-03 |
EP2680615A1 (en) | 2014-01-01 |
CN103516894B (zh) | 2017-04-12 |
CN103516895A (zh) | 2014-01-15 |
EP2680616A1 (en) | 2014-01-01 |
CN103516895B (zh) | 2016-03-09 |
US9247192B2 (en) | 2016-01-26 |
US20130342731A1 (en) | 2013-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103516895B (zh) | 移动终端及其音频缩放方法 | |
KR101792641B1 (ko) | 이동 단말기 및 그의 아웃 포커싱 이미지 생성방법 | |
KR101851630B1 (ko) | 이동 단말기 및 그의 영상 변환 방법 | |
CN101931691B (zh) | 移动终端和控制移动终端的方法 | |
KR101951418B1 (ko) | 이동 단말기 및 그의 오디오 줌잉방법 | |
US9639251B2 (en) | Mobile terminal and method of controlling the mobile terminal for moving image playback | |
CN104813322A (zh) | 移动终端及其控制方法 | |
EP3667621A1 (en) | Mobile terminal and controlling method thereof | |
KR20150009069A (ko) | 이동 단말기 및 그것의 제어 방법 | |
CN105224925A (zh) | 视频处理装置、方法及移动终端 | |
KR101638912B1 (ko) | 이동 단말기 및 이것의 리코딩 제어 방법 | |
CN104917965A (zh) | 拍摄方法及装置 | |
KR101752417B1 (ko) | 이동 단말기 및 디바이스 제어방법 | |
KR101692729B1 (ko) | 이동 단말기, 및 외부 객체에 대한 메시지 생성 및 획득 방법 | |
KR20140081087A (ko) | 이동단말기 및 그 제어 방법 | |
KR102043147B1 (ko) | 이동 단말기 및 그의 제스처 레코딩 방법 | |
KR101951419B1 (ko) | 이동 단말기 및 그의 오디오/비디오 듀얼 포커싱 방법 | |
KR101651125B1 (ko) | 이동 단말기 및 이것의 영상 디스플레이 방법 | |
KR101969802B1 (ko) | 이동 단말기 및 재생 영상의 오디오 줌잉 방법 | |
KR101752897B1 (ko) | 이동 단말기 및 그 제어 방법 | |
KR101727043B1 (ko) | 이동 단말기 및 컨텐츠 편집 방법 | |
KR101527020B1 (ko) | 이동 단말기 및 그 제어방법 | |
KR101572887B1 (ko) | 촬상 장치 및 촬상 방법 | |
KR101700195B1 (ko) | 이동 단말기 및 그 제어방법 | |
KR101761623B1 (ko) | 이동 단말기 및 그 제어방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170412 Termination date: 20200624 |