CN104714734B - 用于跟踪音频的方法和电子装置 - Google Patents

用于跟踪音频的方法和电子装置 Download PDF

Info

Publication number
CN104714734B
CN104714734B CN201410768155.XA CN201410768155A CN104714734B CN 104714734 B CN104714734 B CN 104714734B CN 201410768155 A CN201410768155 A CN 201410768155A CN 104714734 B CN104714734 B CN 104714734B
Authority
CN
China
Prior art keywords
audio
extraction
region
external image
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410768155.XA
Other languages
English (en)
Other versions
CN104714734A (zh
Inventor
安重烈
李南日
黄镐哲
金冈烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN104714734A publication Critical patent/CN104714734A/zh
Application granted granted Critical
Publication of CN104714734B publication Critical patent/CN104714734B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种用于跟踪音频的方法和电子装置。所述方法包括:通过从外部获取图像来产生视频数据;从视频数据提取包括在图像中的对象;基于提取出的对象,控制音频接收单元接收音频信号。

Description

用于跟踪音频的方法和电子装置
本申请要求于2013年12月11日提交到韩国知识产权局的第10-2013-0153925号韩国专利申请的权益,其中,所述专利申请的全部公开内容通过引用合并于此。
技术领域
本发明涉及一种用于跟踪音频的方法和设备,更具体地,涉及一种用于利用视频数据来消除外部接收的音频输入的噪声的方法和设备。
背景技术
近年来,由于各种电子装置的普及率的快速提高,电子装置变成了现代生活的必需品。便携式终端可被认为是这种电子装置的一种示例。除了提供呼叫服务之外,便携式终端还可提供各种视频服务。
可通过经由便携式终端的麦克风(MIC)从外部接收音频信号来提供这种呼叫服务和视频服务。为了从接收的信号获取用户期望的信号和信息,便携式终端可消除从外部接收的信号的噪声。
在现有技术中,由于可能仅使用通过麦克风输入的信号实现音频噪音的消除,所以难以准确地接收用户期望的信号。此外,当消除音频噪声时,便携式终端可设置多麦克风(multi-microphone)的波束成形的范围。
当安装在便携式终端中的多麦克风的波束成形被设置得较宽时,由于没有充分地消除噪声,通话质量会下降或者识别率会下降。可选地,当安装在便携式终端中的多麦克风的波束成形设置得较窄时,存在的问题在于,用户期望的信号与噪声一起被消除。
发明内容
本发明可提供一种可减少以上提到的问题的用于消除噪声的一种方法和装置。
根据本发明的一方面,一种由电子装置跟踪音频的方法包括:通过从外部获取图像来产生视频数据;从视频数据提取包括在图像中的特定对象;基于提取出的对象,控制音频接收单元接收音频信号。
根据本发明的另一方面,一种电子装置包括:视频处理单元,通过从外部获取图像来产生视频数据;音频接收单元,接收音频信号;控制器,从视频数据提取包括在图像中的特定对象,并基于提取出的对象,控制音频接收单元。
附图说明
通过以下结合附图的详细描述,本发明的对象、特征和优点将更清楚,其中,
图1是示出根据电子装置的实施例的便携式终端的示意配置的框图;
图2是示出根据电子装置的实施例的控制器的配置的示图;
图3是示出根据电子装置的实施例的触摸屏中的对象的示图;
图4是示出根据电子装置的实施例的触摸屏中的对象的示图;
图5是示出根据电子装置的实施例的触摸屏中的对象的示图;
图6是示出根据电子装置的实施例的触摸屏中的对象的示图;
图7是消除音频噪声的流程图;
图8是消除音频噪声的流程图;
图9是消除音频噪声的流程图。
具体实施方式
参照附图详细地对本发明的实施例进行描述。在整个附图中,相同的标号被用于指示相同或相似的部件。可省略合并于此的对公知功能和结构的详细描述以避免模糊本发明的主题。
在对本发明进行详细描述之前,在说明书和权利要求中使用的术语和词语将不被解释为通用的字典含义,而是基于以下事实将被解释为与本发明的技术范围相关:发明人可适当地定义术语的构思来以最好的方式解释本发明。因此,实施例和在附图中描绘的配置仅为示意目的,而非表示实施例的全部技术范围,因此,将理解,在提交本申请时可存在各种等同物和修改。为了方便和清楚的目的,可放大、省略或示意地示出附图中示出的某些构成元件。此外,元件的尺寸并非完全反映实际尺寸。由此,本发明不限于附图中示出的相对尺寸和间隔。
除非另有定义,否则在本说明书中使用的包括技术术语和科学术语的术语可具有本领域的技术人员通常理解的含义。术语(诸如,在通用字典中定义的术语)应该基于相关技术的背景来理解,并且不应以理想化或过度理解。还应注意,在可选的实施方案中,在块中记录的功能/行为可不按照流程图中记录顺序发生。例如,根据涉及的功能/行为,连续示出的两个块实际上可基本同时执行,或者这两个块可有时按照相反地顺序执行。
此时,可理解,通过计算机程序指令可执行流程图中的每个块,或对流程图进行组合。由于计算机程序指令可被加载到通用计算器、专用计算器或其它可编程数据处理设备的处理器,所以通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于执行在流程图的块中描述的功能的装置。由于计算机程序指令可被存储在能够使计算机或其它可编程数据处理设备适应于按照特定方案实现功能的计算机可用存储器或计算机可读存储器中,所以存储在计算机可用存储器或计算机可读存储器中的指令可产生包含执行在流程图的块中描述的功能的指令方法的制造产品。由于计算机程序指令可被加载到计算机或其它可编程数据处理设备,所以在计算机或其它可编程数据处理设备中执行一系列操作步骤以创建由计算机执行的处理,使得执行计算机或其它可编程数据处理设备的指令可提供用于执行在流程图的块中描述的功能。
此外,每个块可指示包括用于执行特定逻辑功能的至少一个可执行指令的模块、段或代码的一部分。应注意到,不同的执行示例可不按照顺序来产生在块中描述的功能。两个连续示出的块可同时被执行,根据相应功能可按照相反的顺序来执行这两个块。
虽然本发明容许各种修改和替换形式,但是本发明的特定实施例经由附图中的示例被示出,并将在此详细地描述。在实施例中,如果本领域的普通技术人员已经知晓技术内容且该技术内容与技术主题不相关,则可省略某些部分。
此外,本发明的电子装置可包括移动电话、智能电话、膝上型计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪等。然而,为了便于解释,将便携式终端100作为电子装置的示例进行示出。然而,稍后进行描述的本发明的实施例不限于便携式终端100。
图1是示出根据电子装置的实施例的便携式终端100的示意配置的框图。便携式终端100可包括无线通信单元110、输入单元120、音频接收单元130、控制器140、存储单元150、触摸屏160、振动单元170和视频处理单元180。
无线通信单元110是用于支持便携式终端100的移动通信服务的通信模块。这个无线通信单元110可与移动通信系统形成通信频道。为此,无线通信单元110可包括无线频率发送单元和无线频率接收单元,其中,无线频率发送单元用于对发送的信号的频率进行上变换和放大,无线频率接收单元用于对接收的信号的频率进行低噪声放大和下变换。
此外,无线通信单元110可包括一个或更多个这样的模块:能够在便携式终端100与无线通信系统之间或者在便携式终端100与其它便携式终端100所位于的网络之间进行无线通信。例如,无线通信单元110可包括广播接收模块、移动通信模块、无线互联网模块、短距离通信模块和位置信息模块。
输入单元120可包括用于接收数字或字符信息并设置各种功能的多个输入键和功能键。功能键可包括方向键、侧键和设置用于执行特定功能的快捷键。此外,输入单元120可产生与用户设置和便携式终端100的功能控制相关的键信号,并将键信号发送到控制器160。
根据本发明的实施例,音频接收单元130可包括麦克风(MIC),其中,MIC用于根据便携式终端100的特定应用的激活来收集音频信号。此外,除了可包括一个麦克风之外,音频接收设备130还可包括多个麦克风。控制器140可控制输入到音频接收单元130的音频信号,并控制消除噪声。
此外,根据本发明的实施例,音频接收单元130可接收并获取与外部对象200、图像、身体、动物和发声物体相关的音频信号。
图2是示出根据电子装置的实施例的控制器的配置的示图。控制器140可控制对便携式终端100的每个配置的供电并控制支持执行初始化处理,并且可在完成初始化处理时,控制每个配置。
图3到图6是示出根据电子装置的实施例的触摸屏160中的对象200的示图。根据本发明的实施例,控制器140可包括对象测量单元141、对象跟踪单元143和对象提取单元145。
对象测量单元141可测量以下信息中的至少一项:对象200的位置信息、对象200的移动信息和对象200的数量信息。参照图1到图6,与对象200的位置、对象200的移动和对象200的数量相关的信息可包括通过使用GPS、卫星通信和短距离通信模块测量的信息。
可根据对象200在给定的单元区域内的改变测量对象200的移动信息。此外,可通过对相应区域的像素改变的计算和比较来测量对象200的移动信息。可通过将根据距离测量的对象200的比例预先存储到电子装置中并比较预先存储的比例,测量对象200的数量。
对象跟踪单元143可基于测量的信息来跟踪和更新与对象200相关的信息。对与对象200相关的信息进行跟踪的方法可包括通过计算对象的移动方向和移动速度来跟踪和识别与对象200相关的信息的方法。此外,对象的更新的方法可包括通过预先存储的方法来更新对象200的信息或由用户随意地调整对象200的信息的更新次数的方法。
对象提取单元145可跟踪并更新对象200,并从与视频数据相应的图像提取特定对象200。在这种情况下,可通过预先存储的方法来选择特定对象200,或者可由用户随意地选择特定对象200。
此外,控制器140可接收对于触摸屏160显示的选择区域210的选择输入,并基于接收的选择输入来确定对象200。对选中的输入的接收的方法可包括通过预先存储的方法自动地选择对象的方法或者通过用户触摸来接收选择输入的方法等。
根据本发明的实施例,控制器140可确定根据选择输入的接收确定的对象200是否为单数。随后,当确定的对象200是单数时,控制器140可确定对象200是否位于触摸屏160的预设第一位置图像区域300内。在这种情况下,第一位置图像区域300可以是由用户指定的范围,或者可以是以针对电子装置、音频接收单元130的类型和多麦克风的特性被调整的数据库的形式被预先存储的范围。
根据本发明的实施例,当在视频数据中,对象200位于预设第一位置图像区域300内时,音频接收单元130可被设置为单向性,以提高对象200相对于图像中其它对象的音频识别率。
这里,用于提高显示的对象200相对于图像中其它对象的音频识别率的方向性设置可表示:针对通过用户的选择输入产生的音频输出或从经由预先存储的方法自动地指定的对象产生的音频输出,权重(多麦克风的单向性参数)与其它音频数据相比被提高。这可表示多麦克风的波束成形区域的被确定为单向性。
此外,根据本发明的实施例,这种确定信息可表示设置了与多麦克风的方向性相关的参数。
这里,多麦克风的参数可被划分为单向性参数和无方向性参数。首先,在无方向性参数类型的多麦克风的情况下,由于发送端的多麦克风沿一个方向发送电磁波束、信号等,所以无方向性参数类型的多麦克风可表示准确地安排了发送端的多麦克风和接收端的多麦克风。
多麦克风的单向性参数可以是提高特定对象200的音频信号的集中性、权重和音频识别率的参数。此外,多麦克风的单向性参数可设置和处理,以相较于从其它外部信号接收到的信号来加强特定对象200的音频信号或占有更大比率。
无方向性参数类型的多麦克风可表示沿所有方向传播发送的信号。无方向性参数将所有对象200的音频数据设置和处理为具有给定的识别率,而不区分从特定对象200输出的音频信号和其它音频信号。此外,无方向性参数可将从特定对象200输出的音频信号和从外部输入并接收的其它音频信号设置并处理为具有相同的比率。
根据本发明的实施例,当确定对象200并非位于预先设置的第一位置图像区域300内时,控制器140可将音频接收单元130设置为无方向性,使得显示的对象200相对于图像中其它对象的音频识别率可保持一致。在本发明的实施例中,当确定对象200没有位于预先设置的第一位置图像区域300内时,控制器140可将多麦克风设置为无方向性参数。
根据本发明的实施例,控制器140可确定对象200是单数个还是复数个,并可将音频接收单元130确定为无方向性,使得在对象200确定为复数时,显示的对象200相对于图像中其它对象的音频识别率可保持一致。
此外,在本发明的实施例中,控制器140可确定所判定的对象200是否为单数,并当确定对象200为复数时,可将多麦克风确定为无方向性参数类型。
此外,根据本发明的实施例,控制器140可在根据单独的用户输入接收切换模式的选择输入的处理之后,执行音频接收单元130的控制。可通过包括根据用户的选择来触摸特定应用或输入特定键的操作来执行切换模式。
在这种情况下,切换模式可表示在以下情况下进行操作的模式:在从外部或通过特定距离接收到信号、信息、视频信息和音频信息时,用户想要连同通过用户能够接收到视频数据的视频数据装置(诸如,相机、摄像机和视频处理单元)一起使用。
控制器140可在从外部获取图像和产生视频数据之前接收切换模式的选择。接收对控制器140的切换模式的选择可包括在消除音频噪声时利用视频数据的操作。
存储单元150除了存储用于根据本发明的实施例的功能的处理的应用之外,还可存储用于播放各种存储的文件的应用以及用于操作触摸屏160的键映射或菜单映射等。在这种情况下,键映射和菜单映射可分别具有不同的形式。
也就是说,键映射可以是键盘映射(3*4的键映射、QWERTY键映射等),并且可以是用于控制当前激活的应用的操作的控制键映射。此外,菜单映射可以是用于控制当前激活的应用的操作的控制键映射。此外,菜单映射可以是用于控制当前激活的应用的操作的菜单映射,并且可以是具有由便携式终端100提供的各种菜单的项的菜单映射。这种存储单元150可包括程序区域和数据区域。
程序区域可存储用于便携式终端100的启动和以上提到的各个配置的操作的操作系统(OS)以及用于执行各种文件的应用(诸如,根据便携式终端100的功能支持来支持呼叫功能的应用、用于连接到互联网服务器的web浏览器、用于播放其它声源的MP3应用、用于显示照片的图像输出应用和视频播放应用等)。此外,程序区域可存储根据本发明的实施例的视频程序和音频程序。视频程序可以是存储并控制接收的视频的程序。
数据区域是存储根据便携式终端100产生的数据的区域,并且可存储电话簿信息、根据微件功能的至少一个图标和各种内容。此外,数据区域可存储当数据区域在触摸单元160中实施时通过触摸屏输入的用户输入。
触摸屏160除了可显示便携式终端100的各种菜单之外,还可显示通过用户输入的信息或提供给用户的信息。也就是说,触摸屏160可根据便携式终端100的使用提供各种屏幕(诸如,待机屏幕、菜单屏幕、写消息屏幕和呼叫屏幕)。触摸屏160可由液晶显示器(LCD)和有机发光二极管(OLED)等形成,并可被包括在输入装置中。此外,可提供放置在显示面板层的触摸传感器。此外,便携式终端100可根据触摸屏160的支持提供可基于触摸屏160执行的菜单屏幕。
根据本发明的实施例,触摸屏160可显示如图3所示的图像。此外,触摸屏160可显示与显示在对象200中的图像有区别的选择区域210。
此外,根据本发明的实施例,即使不包括对象200,触摸屏160也可显示屏幕。然而,当包括对象200时,触摸屏160可加强对象200部分,并进一步地显示选择区域210。加强对象200部分的操作可包括加强对象200的一部分或对象200的全部区域的操作。
此外,如图4和图5中所示,触摸屏160可加强用户期望的对象200部分,以显示选择区域210。可通过接收用户的选择输入或通过经由预先存储的方法自动地加强选择区域210来显示选择区域210。此外,触摸屏160可显示如图5中所示的非选择区域220。此外,可通过接收用户的选择输入来确定选择区域210和非选择区域220的区别,或者选择区域210和非选择区域220的区别可包括根据预设方法的区别。
此外,根据本发明的实施例,选择区域210和非选择区域220的差别可包括对象200两者之间的颜色差别、边界的粗细或边界的类型的差别,并且包括根据对象200的选择不同地显示具有不同大小的对象200的操作。此外,所述差别可包括与什么都没显示的视频数据相应的图像相同的操作。
振动单元170可在控制器160的控制下执行各种振动,为此,振动单元170可包括至少一个振动电机。根据用户设置,当接收到呼叫信号或者在静音振动模式下到了闹钟时间时可激活振动单元170。
视频处理单元180可包括接收和获取视频信号的视频接收装置、相机和摄像机。根据本发明的实施例,视频处理单元180可被放置在便携式终端100的正面或背面中的至少一面,并可从外部接收视频和图像信息等以将其发送到控制器140。
此外,视频处理单元180可在控制器160的控制下获取各种图像。视频处理单元180可基于获取的图像产生视频数据。参照图1到图6,视频处理单元180可用作相机,此外,视频处理单元180可执行视频、一系列静止照片和摄影录像机记录的拍摄。
图6是示出在作为电子装置的实施例的便携式终端100的触摸屏160上显示的对象200的示图。
当选中的对象200的数量是单数时,控制器140可确定对象200是否位于触摸屏160的预设第一位置图像区域300。
当对象200位于第一位置图像区域300内时,控制器140可将音频接收单元130设置为单向性,以提高显示的对象200相对于图像中其它对象的音频识别率。这可表示使用单向性参数来对确定多麦克风的波束成形区域。
当对象200没有处于第一位置图像区域300内时,控制器140可使用无方向性参数来设置多麦克风的波束成形区域。
根据本发明的实施例,用户可指定以上提到的第一位置图像区域300的范围。此外,为了确定多麦克风的参数,第一位置图像区域300可被划分为诸如第二范围和第三范围等的若干部分。可根据划分的第二范围和第三范围来确定多麦克风的波束成形区域。此外,第一位置图像区域300可被用户预先选择或指定。
图7是消除音频噪声的流程图。根据本发明的实施例,视频处理单元180可获取外部视频信号。在步骤701,视频处理单元180可基于获取的视频信号,产生视频数据。在步骤703,便携式终端100的控制器140可从与视频数据相应的图像之中提取特定对象200。特定对象200可表示通过与预先存储在存储单元150中的数据库进行比较的方法来所判定的对象200。
在步骤705,控制器140可基于提取出的对象200,控制音频接收单元130。这可表示多麦克风的波束成形区域被确定为单向性或无方向性。
图8是消除音频噪声的流程图。根据本发明的实施例,视频处理单元180可获取外部视频信号。在步骤801,视频处理单元180可基于获取的视频信号,产生视频数据。在步骤803,触摸屏160可显示图像,并且,向对象200显示与显示的图像有区别的选择区域210。可通过加强对象200所处的区域的全部区域或部分区域来显示选择区域210。
在步骤805,触摸屏160可接收对于显示的选择区域210的选择输入。这可表示可通过用户的触摸或特定输入来选择选择区域210,或者可通过预先存储的方法来自动地选择选择区域。当触摸屏160接收到选择输入时,选择区域210和非选择区域220可被重置。
在步骤807,控制器140可基于接收的选择输入来对对象200进行判定。在步骤809,控制器140可基于所判定的对象200来控制音频接收单元130。例如,控制器140可将多麦克风的波束成形区域确定为单向性或无方向性。
图9是消除音频噪声的流程图。根据本发明的实施例,视频处理单元180可获取外部视频信号。在步骤901,视频处理单元180可基于获取的视频,产生视频数据。在步骤903,触摸屏160可显示图像,并且将与显示的图像有区别的选择区域210显示于对象200处。可通过加强对象200所处的区域的全部区域或部分区域来显示选择区域210。
在步骤905,触摸屏160可接收对于显示的选择区域210的选择输入。这可表示可通过用户的触摸或特定输入来选择选择区域210,或者可通过预先存储的方法来自动地选择选择区域210。当触摸屏160接收到选择输入时,选择区域210和非选择区域220可被重置。
在步骤907,控制器140可基于接收的选择输入来对对象200进行判定。在步骤909,控制器140可检查所判定的对象200是否为单数。当检查出所判定的对象200是单数时,在步骤911,控制器140可确定对象200是否处于预设第一位置图像区域300内。
当确定所判定的对象200是复数或者对象200没有位于预设第一位置图像区域300内时,在步骤913,控制器140可将音频接收单元130设置为无方向性,使得显示的对象200相对于图像中其它对象的音频识别率可保持一致。
此外,例如,当确定所判定的对象200是复数或者对象200没有位于预设第一位置图像区域300内时,在步骤913,控制器140可将多麦克风的波束成形区域确定为无方向性。
另一方面,当确定对象200位于预设第一位置图像区域300内时,在步骤915,控制器140可将音频接收单元130设置为单向性,使得显示的对象200相对于图像中其它对象的音频识别率可被提高。这可表示多麦克风的波束成形区域被确定为单向性。
根据本发明的实施例的电子装置可使用外部视频信号,并分析对象(诸如,讲话者、人脸和具有用户期望的信号的实体,在下文中,统称为“对象”)的数量、对象的位置和对象的方向信息,使得可提高通话质量和对象的识别率并可执行用户的定制记录。
此外,根据本发明的实施例的电子装置可以不对多麦克风应用单一参数,而是可针对每个情况应用不同的参数以提高音频噪声消除功能。
此外,即使检测到具有大强度的环境信号而非用户期望的对象的信号,根据本发明的实施例的电子装置也可通过使用视频信息确定对象的位置没有改变,因而提高和提升噪声消除。
虽然在上文中已经详细地描述了本发明的实施例,但是应清楚地理解,本领域的技术人员能够想到的对于在此教导的基本发明构思的很多变化和修改将仍然落入在权利要求中限定的本发明的精神和范围内。

Claims (13)

1.一种由电子装置跟踪音频的方法,所述方法包括:
通过获取外部图像来产生视频数据;
从视频数据提取包括在外部图像中的至少一个对象;
确定提取的所述至少一个对象的数量;
当提取的所述至少一个对象的数量是1时,确定外部图像中的提取的所述至少一个对象的位置;
当提取的所述至少一个对象的数量是1时,基于提取出的所述至少一个对象的位置,控制包括多个麦克风的音频接收单元接收音频信号;
当提取的所述至少一个对象的数量是2或更多时,控制将音频接收单元设置为无方向性。
2.如权利要求1所述的方法,在产生视频数据之后,还包括:
显示外部图像;
将与显示的外部图像有区别的选择区域显示于提取的所述至少一个对象处。
3.如权利要求2所述的方法,还包括:
接收对于显示的选择区域的选择输入,
其中,提取所述至少一个对象的步骤包括:基于接收的选择输入来判定所述至少一个对象。
4.如权利要求1所述的方法,其中,确定提取的所述至少一个对象的位置的步骤包括:确定提取的所述至少一个对象是否位于预设位置图像区域内,
其中,控制音频接收单元的步骤包括:当提取的所述至少一个对象位于所述预设位置图像区域内时,将音频接收单元设置为单向性,以与外部图像的音频识别率相比提高提取的所述至少一个对象的音频识别率。
5.如权利要求1所述的方法,其中,确定提取的所述至少一个对象的位置的步骤包括:确定提取的所述至少一个对象是否位于预设位置图像区域内,
其中,控制音频接收单元的步骤包括:当提取的所述至少一个对象没有位于所述预设位置图像区域内时,将音频接收单元设置为无方向性,以将提取的所述至少一个对象的音频识别率设置为与外部图像的音频识别率相同。
6.如权利要求1所述的方法,其中,提取所述至少一个对象的步骤包括:
测量以下信息中的至少一个信息:所述至少一个对象的位置信息、所述至少一个对象的移动信息和所述至少一个对象的数量信息;
基于测量的信息,跟踪并更新所述至少一个对象;
通过跟踪并更新所述至少一个对象,提取包括在外部图像中的所述至少一个对象。
7.一种电子装置,包括:
视频处理单元,被配置为通过获取外部图像来产生视频数据;
音频接收单元,包括多个麦克风,并且被配置为接收音频信号;
控制器,被配置为:
从视频数据提取包括在外部图像中的至少一个对象,
确定提取的所述至少一个对象的数量;
当提取的所述至少一个对象的数量是1时,确定外部图像中的提取的所述至少一个对象的位置;
当提取的所述至少一个对象的数量是1时,基于提取出的所述至少一个对象的位置,控制音频接收单元接收音频信号;
当提取的所述至少一个对象的数量是2或更多时,控制将音频接收单元设置为无方向性。
8.如权利要求7所述的电子装置,还包括:
触摸屏,被配置为显示外部图像,并将与显示的外部图像有区别的选择区域显示于提取的所述至少一个对象处。
9.如权利要求8所述的电子装置,其中,触摸屏被配置为接收对于显示的选择区域的选择输入,并基于接收的选择输入来判定提取的所述至少一个对象。
10.如权利要求7所述的电子装置,其中,控制器还被配置为:确定提取的所述至少一个对象是否位于预设位置图像区域内,
其中,控制器还被配置为:当提取的所述至少一个对象位于所述预设位置图像区域内时,将音频接收单元设置为单向性,以与外部图像的音频识别率相比提高提取的所述至少一个对象的音频识别率。
11.如权利要求7所述的电子装置,其中,控制器还被配置为:确定提取的所述至少一个对象是否位于预设位置图像区域内,
控制器还被配置为:当提取的所述至少一个对象没有位于所述预设位置图像区域内时,将音频接收单元设置为无方向性,以将提取的所述至少一个对象的音频识别率设置为与外部图像的音频识别率相同。
12.如权利要求7所述的电子装置,其中,视频处理单元被布置在电子装置的正面或电子装置的背面中的至少一面。
13.如权利要求7所述的电子装置,其中,控制器包括:
对象测量单元,被配置为测量以下信息中的至少一个信息:所述至少一个对象的位置信息、所述至少一个对象的移动信息和所述至少一个对象的数量信息;
对象跟踪单元,被配置为基于测量的信息,跟踪并更新所述至少一个对象;
对象提取单元,被配置为通过跟踪并更新所述至少一个对象,提取包括在外部图像中的所述至少一个对象。
CN201410768155.XA 2013-12-11 2014-12-11 用于跟踪音频的方法和电子装置 Expired - Fee Related CN104714734B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0153925 2013-12-11
KR1020130153925A KR20150068112A (ko) 2013-12-11 2013-12-11 오디오를 추적하기 위한 방법 및 전자 장치

Publications (2)

Publication Number Publication Date
CN104714734A CN104714734A (zh) 2015-06-17
CN104714734B true CN104714734B (zh) 2019-09-13

Family

ID=52146091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410768155.XA Expired - Fee Related CN104714734B (zh) 2013-12-11 2014-12-11 用于跟踪音频的方法和电子装置

Country Status (4)

Country Link
US (1) US9928846B2 (zh)
EP (1) EP2884492A1 (zh)
KR (1) KR20150068112A (zh)
CN (1) CN104714734B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068112A (ko) * 2013-12-11 2015-06-19 삼성전자주식회사 오디오를 추적하기 위한 방법 및 전자 장치
EP3131311B1 (en) * 2015-08-14 2019-06-19 Nokia Technologies Oy Monitoring
CN111724823B (zh) * 2016-03-29 2021-11-16 联想(北京)有限公司 一种信息处理方法及装置
CN109313904B (zh) * 2016-05-30 2023-12-08 索尼公司 视频音频处理设备和方法以及存储介质
KR102311024B1 (ko) * 2017-04-20 2021-10-12 한국전자통신연구원 시선추적에 따른 공간 오디오 제어 장치 및 그 방법
CN107846646B (zh) * 2017-11-09 2019-12-13 北京小米移动软件有限公司 智能音箱的控制方法、装置及可读存储介质
US11323757B2 (en) * 2018-03-29 2022-05-03 Sony Group Corporation Information processing apparatus, information processing method, and program
WO2020031453A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 情報処理装置及び情報処理方法、並びに映像音声出力システム
US11463615B2 (en) * 2019-03-13 2022-10-04 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
KR20220065370A (ko) * 2020-11-13 2022-05-20 삼성전자주식회사 전자장치 및 그 제어방법
CN113676687A (zh) * 2021-08-30 2021-11-19 联想(北京)有限公司 一种信息处理方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111697A (zh) * 2009-12-28 2011-06-29 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
CN102160398A (zh) * 2008-07-31 2011-08-17 诺基亚公司 电子设备定向音频视频采集
CN102197646A (zh) * 2008-10-22 2011-09-21 索尼爱立信移动通讯有限公司 用便携式电子装置产生多通道音频的系统和方法
CN103404169A (zh) * 2010-12-16 2013-11-20 索尼电脑娱乐公司 采用基于图像的源位置的麦克风阵列转向

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
US7130705B2 (en) * 2001-01-08 2006-10-31 International Business Machines Corporation System and method for microphone gain adjust based on speaker orientation
JP4970557B2 (ja) 2007-03-05 2012-07-11 デジタルオプティックス・コーポレイション・ヨーロッパ・リミテッド デジタル画像取込装置における顔検索及び検出
US20090174805A1 (en) * 2008-01-07 2009-07-09 Motorola, Inc. Digital camera focusing using stored object recognition
US8319858B2 (en) * 2008-10-31 2012-11-27 Fortemedia, Inc. Electronic apparatus and method for receiving sounds with auxiliary information from camera system
US8184180B2 (en) * 2009-03-25 2012-05-22 Broadcom Corporation Spatially synchronized audio and video capture
KR20100134329A (ko) * 2009-06-15 2010-12-23 삼성전자주식회사 디지털 촬영 장치 및 그 제어 방법 및 제어 방법을 실행시키기 위한 컴퓨터 프로그램을 저장한 저장 매체
KR101242531B1 (ko) 2009-09-30 2013-03-12 에스케이플래닛 주식회사 시선 인식을 이용한 화면 처리 방법 및 휴대단말
KR20110038313A (ko) * 2009-10-08 2011-04-14 삼성전자주식회사 영상촬영장치 및 그 제어방법
CN102447993A (zh) 2010-09-30 2012-05-09 Nxp股份有限公司 声音场景操纵
KR101227883B1 (ko) 2011-05-30 2013-01-30 김호진 사용자 동작/음성 기반 제어장치 및 이에 적용되는 사용자 동작/음성 기반 제어방법
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US9258644B2 (en) * 2012-07-27 2016-02-09 Nokia Technologies Oy Method and apparatus for microphone beamforming
KR20150068112A (ko) * 2013-12-11 2015-06-19 삼성전자주식회사 오디오를 추적하기 위한 방법 및 전자 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102160398A (zh) * 2008-07-31 2011-08-17 诺基亚公司 电子设备定向音频视频采集
CN102197646A (zh) * 2008-10-22 2011-09-21 索尼爱立信移动通讯有限公司 用便携式电子装置产生多通道音频的系统和方法
CN102111697A (zh) * 2009-12-28 2011-06-29 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
CN103404169A (zh) * 2010-12-16 2013-11-20 索尼电脑娱乐公司 采用基于图像的源位置的麦克风阵列转向

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LISTEN: A System for Locating and Tracking Individual Speakers;M. Collobert等;《Proceedings of the Second International Conference on Automatic Face and Gesture Recognition》;19961016;全文 *

Also Published As

Publication number Publication date
CN104714734A (zh) 2015-06-17
US20150162019A1 (en) 2015-06-11
KR20150068112A (ko) 2015-06-19
US9928846B2 (en) 2018-03-27
EP2884492A1 (en) 2015-06-17

Similar Documents

Publication Publication Date Title
CN104714734B (zh) 用于跟踪音频的方法和电子装置
CN107885533B (zh) 管理组件代码的方法及装置
CN109091869B (zh) 虚拟对象的动作控制方法、装置、计算机设备及存储介质
CN107810470B (zh) 便携式装置和用于改变其屏幕的方法
CN107924278B (zh) 用于弹奏虚拟乐器的方法和用于支持其的电子设备
US9069439B2 (en) Graphical user interface with customized navigation
CN110476189B (zh) 用于在电子装置中提供增强现实功能的方法和设备
CN101963886B (zh) 移动终端及控制该移动终端的方法
US9262867B2 (en) Mobile terminal and method of operation
US20220229546A1 (en) Electronic device and method for operating avata video service in the same
EP3835953A1 (en) Display adaptation method and apparatus for application, device, and storage medium
US9812104B2 (en) Sound providing method and electronic device for performing the same
KR20170043065A (ko) 휴대 장치 및 휴대 장치의 화면 표시방법
CN103312890A (zh) 移动终端
US11209930B2 (en) Method of controlling device using various input types and device for performing the method
CN105339870A (zh) 用于提供虚拟输入界面的方法和可穿戴装置
KR102328102B1 (ko) 전자 장치 및 전자 장치의 화면 표시방법
KR102627191B1 (ko) 휴대 장치 및 휴대 장치의 화면 제어방법
US20150063577A1 (en) Sound effects for input patterns
EP4425318A1 (en) Electronic device for providing augmented reality, and operation method therefor
US20200209094A1 (en) Method and apparatus for executing application by using barometer
KR20200095762A (ko) 적어도 하나의 그래픽 엘리먼트를 표시하는 전자장치 및 그 제어 방법
EP2827256A2 (en) Method for editing object and electronic device therefor
KR20170026010A (ko) 이동 단말기 및 그의 스크롤 바를 이용한 정보 정렬 방법
CN111666027A (zh) 在设备上显示对象的方法及其设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190913

Termination date: 20211211

CF01 Termination of patent right due to non-payment of annual fee