CN103098491A - 用于执行麦克风波束成型的方法和设备 - Google Patents
用于执行麦克风波束成型的方法和设备 Download PDFInfo
- Publication number
- CN103098491A CN103098491A CN2011800439884A CN201180043988A CN103098491A CN 103098491 A CN103098491 A CN 103098491A CN 2011800439884 A CN2011800439884 A CN 2011800439884A CN 201180043988 A CN201180043988 A CN 201180043988A CN 103098491 A CN103098491 A CN 103098491A
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- voice signal
- search
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000465 moulding Methods 0.000 claims description 31
- 239000000284 extract Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/222—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Social Psychology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
用于执行麦克风波束成型的方法和设备。该方法包括识别说话者的语音、搜索预先存储的与该说话者相关联的图像、基于该图像通过照相机搜索该说话者、识别该说话者的位置以及根据该说话者的位置执行麦克风波束成型。
Description
技术领域
本发明涉及用于执行麦克风波束成型的方法和设备,并且尤其涉及用于执行根据说话者的位置适应性地改变波束成型的方向的麦克风波束成型的方法和设备。
背景技术
在信息和通信技术中,语音识别的发展引人关注。为了准确识别说话者的语音,需要用于区分说话者的语音与环境噪声并且去除该噪声的技术。
然而,由于说话者连续移动,所以难以准确区分说话者的语音与噪声。
发明内容
为了解决现有技术的上述缺陷,首要目的是提供一种用于适应性地执行麦克风波束成型的方法和设备。
附图说明
为了更完整地理解本公开及其优点,现在参考结合附图给出的以下说明,其中,在附图中相同的附图标记表示相同的部分:
图1是示出根据本发明一实施例的执行麦克风波束成型的方法的流程图;
图2是示出图1的方法中通过识别说话者的语音识别说话者的操作的流程图;
图3是示出根据本发明另一实施例的执行麦克风波束成型的方法的流程图;
图4a和图4b是用于解释根据本发明一实施例的、根据说话者的位置控制波束成型的方向的方法的视图;
图5a和图5b是用于解释根据本发明另一实施例的、根据说话者的位置控制波束成型的方向的方法的视图;以及
图6是示出根据本发明一实施例的用于执行麦克风波束成型的设备的框图。
具体实施方式
根据本发明的一方面,提供一种执行麦克风波束成型的方法。该方法包括识别说话者的语音,并且搜索预先存储的与该说话者相关联的图像。该方法还包括基于该图像通过照相机搜索该说话者,并且识别该说话者的位置。该方法还包括根据该说话者的位置执行麦克风波束成型。
识别该说话者的语音可以包括接收来自该说话者的语音信号,从该语音信号中提取包括预定语音信号的部分,并且基于该部分识别说话者。
识别该说话者可以包括通过比较所述预定语音信号与预先从一个或多个说话者获取并且存储的语音信号来识别该说话者。
搜索该说话者可以包括通过比较通过照相机获取的图像数据与预先存储的与一个或多个说话者相关联的图像数据,从通过照相机获取的图像数据中提取与说话者相对应的对象。
识别所述位置可以包括基于与该对象有关的信息确定该说话者的位置是否改变到改变后的位置,其中执行麦克风波束成型包括,如果该说话者的位置改变到改变后的位置,则根据改变后的位置适应性地执行麦克风波束成型。
执行麦克风波束成型可以包括放大多个区域当中该说话者所处的区域中产生的语音,并且降低其他区域中产生的语音。
根据本发明的另一方面,提供一种用于执行麦克风波束成型的设备。该设备包括被配置为识别说话者的语音的语音识别单元。该设备还包括被配置为搜索预先存储的与该说话者相关联的图像的图像搜索单元。该设备进一步包括被配置为基于该图像通过照相机搜索该说话者的说话者搜索单元。该设备进一步包括被配置为识别该说话者的位置的位置识别单元。该设备还包括被配置为根据该说话者的位置执行麦克风波束成型的波束成型执行单元。
在下面对本发明进行详细描述之前,给出在本专利文件中使用的单词和短语的定义可能是有利的:术语“包括”及其变体表示非限制性的包括;术语“或者”是包含性的,意思是和/或;短语“与…相关联”和“与其相关联”及其变体可以表示包括、被包括在…中、与…互联、包含、包含在…内、连接到…或者与…相连、可与…通信、与…合作、交错、并行、近似于…、绑定到…或者与…绑定、具有、具有…的属性等;术语“控制器”表示控制至少一个操作的任何装置、系统或者其部件,这种装置可以用硬件、固件或软件或者至少其中两者的某种组合来实现。应当指出的是,与任何具体控制器相关联的功能可以集中或分散在本地或远处。本专利文件中提供了某些单词和短语的定义,本领域的技术人员应当理解,在许多情况下,即使不是大多数情况下,这种定义适用于所定义的单词和短语的以前和将来的使用。
下面讨论的图1至图6以及用于描述本专利文件中公开的原则的各种实施例仅是示例性的,并且绝不意味着限制本公开的范围。本领域的技术人员将会理解,本公开的原则可以用任何适当配置的装置来实现。
图1是示出根据本发明一实施例的执行麦克风波束成型的方法的流程图。
在操作S110中,通过识别说话者的语音来识别说话者。
与一个或多个说话者的语音有关的特定信息可以存储在数据库中。例如,可以存储与一个或多个说话者的每个语音有关的平均频率、音调、平均带宽等。在一个实施例中,由一个或多个说话者预先定义的单词(例如,改变到语音识别模式的命令)可以被存储作为语音信号或者与语音信号有关的信息。在操作S110中,通过从说话者输入的语音信号中提取预定部分(例如,包括预定命令的部分)并且比较该部分的语音信号与存储在数据库中的每个说话者的语音信号来识别说话者。
将参照图2详细解释操作S110。
在操作S120中,搜索与其语音被识别出的说话者相关联的图像。
与一个或多个说话者相关联的图像数据可以存储在数据库中。在操作S120中,基于与在操作S110中识别的说话者相关联的信息,搜索其中存储每个说话者的图像数据的数据库。每个说话者的图像数据可以存储在客户端的内部数据库中或者存储在预定服务器中。在后一情况下,可以通过使用搜索引擎来搜索存储在服务器中的数据库。
在操作S130中,基于被搜索出的图像,通过照相机搜索说话者。可以通过比较通过照相机获取的图像数据与在操作S120中搜索出的图像数据,在通过照相机获取的图像数据中搜索与说话者相对应的对象。
在操作S140中,识别说话者的位置。
用于通过照相机识别说话者的位置的方法可以有多种。尽管下面将解释用于识别说话者的位置的三种方法,但是本实施例不局限于此。
在第一方法中,通过比较通过照相机获取的图像数据和与在操作S120中搜索到的说话者相关联的图像数据,在通过照相机获取的图像数据中确认说话者的位置。使用一个图像数据难以准确检测说话者的位置。然而,即使当只使用一个图像数据时,由于可以计算在水平或垂直方向上说话者与基准轴(例如,穿过麦克风阵列中心的轴)的偏离角度,所以可以获取该角度作为位置信息。
在第二方法中,通过比较与在操作S120中搜索到的说话者相关联的图像数据和使用一个或多个照相机在不同角度拍摄的多个图像数据,在多个图像数据中确认说话者的位置。当在不同角度同时拍摄到同一对象时,可以计算该对象和照相机之间的距离。因此,在第二方法中,可以获取在水平或垂直方向上说话者与基准点(例如,多个麦克风当中位于中间的麦克风)的偏离角度和与该基准点的距离作为位置信息。
在第三方法中,从通过麦克风阵列接收到的说话者的语音信号获取与说话者的位置相关联的第一信息,并且通过比较与在操作S120中搜索到的说话者相关联的图像数据和使用一个或多个照相机在不同角度拍摄的多个图像数据,获取与说话者的位置相关联的第二信息。通过结合第一信息和第二信息确定说话者的位置。
如果使用麦克风阵列,则麦克风可以不同地识别从同一个源产生的一个语音信号。这是因为i)语音信号的增益随该语音信号入射到每个麦克风的角度而变化,并且ii)该语音信号被输入的时间点随语音信号和每个麦克风之间的距离而变化。因此,可以通过比较在每个麦克风接收到的语音信号的增益和接收该语音信号的时间点来获取与说话者的位置有关的第一信息。
在操作S150中,根据说话者的位置执行麦克风波束成型。波束成型技术涉及选择使用多个麦克风接收语音信号的方向、只接收在所选择的方向上接收到的语音信号并且排除在其他方向上接收到的语音信号。当将该波束成型技术应用于本发明时,通过将语音可识别的区域分割为多个区域、并且放大说话者所处的区域中产生的语音并且降低其他区域中产生的语音,可以只选择性地接收期望的语音。
图2是示出图1的方法的操作S110的流程图。
在操作S112中,从说话者接收语音信号。
在操作S114中,确定该语音信号中是否包括预定语音信号,并且提取该预定语音信号。该预定语音信号是由说话者预先定义的预定语音信号,其可以包括开始命令,以在设备中启动用于执行麦克风波束成型的语音识别。例如,如果预先确定如果说话者说出“小狗”,则该设备改变到语音识别模式(在该模式中执行麦克风波束成型,然后识别说话者的语音),那么从自该说话者接收到的语音信号当中提取包括通过发音“小狗”产生的语音信号的部分。如果该语音信号中不包括该预定语音信号,则可以不执行以下步骤,并且可以结束操作S110。
根据实施例,可以通过按下装配到该设备的按钮或者按下遥控器的按钮,将该设备的模式改变到语音识别模式。在此情况下,即使在该语音信号中不包括该预定语音信号,操作S110也前进到操作S116。
在操作S116中,通过分析在操作S114中提取的预定语音信号来识别说话者。从一个或多个说话者获取的预定语音信号可以存储在数据库中。在操作S116中,通过比较在操作S114中提取的预定语音信号与存储在数据库中的预定语音信号来识别说话者。
尽管从自说话者接收到的语音信号中提取特定信号,并且该特定信号用于在操作S116中识别说话者,但是根据实施例,也可以从说话者接收到的语音信号中提取任意信号,并且该任意信号可用于识别说话者。
图3是示出根据本发明另一实施例的执行麦克风波束成型的方法的流程图。
在操作S310中,从说话者接收语音信号。
在操作S320中,基于该语音信号识别说话者。
在操作S330中,使用照相机获取包括该说话者的图像数据。
在操作S340中,通过分析在操作S330中获取的图像数据检测与该说话者相对应的对象。
在操作S350中,基于与该对象有关的信息分析该说话者的位置。
在操作S360中,根据该说话者的位置调节麦克风波束成型的方向。
在操作S370中,识别语音。
图4a和图4b是用于解释根据本发明一实施例的根据说话者的位置控制波束成型的方向的方法的视图。
麦克风阵列400接收来自说话者401的语音信号。麦克风阵列400通过使用该语音信号识别说话者401,并且从通过照相机获取的图像数据中检测与该说话者相对应的对象。通过使用该对象可以识别说话者401的位置。
参考图4b,说话者401位于从中心向右偏离大约十五(15)度。因此,麦克风阵列400在从该中心向右偏离大约十五(15)度的方向上执行波束成型。
在该波束成型进行的同时,照相机周期性地获取包括该说话者的图像数据,并且麦克风阵列400在周期性获取的图像数据中检测与该说话者相对应的对象,以确定该说话者的位置是否改变。
如图4b中所示,如果说话者402移动到麦克风阵列400的中心,则麦克风阵列400根据该说话者的位置改变波束成型的方向。也就是说,麦克风阵列400在从该中心偏转零(0)度的方向上执行波束成型。
图5a和图5b是用于解释根据本发明另一实施例的根据说话者的位置控制波束成型方向的方法的视图。
麦克风阵列500接收来自说话者501的语音信号。麦克风阵列500通过使用该语音信号识别说话者501,并且在通过照相机获取的图像数据中检测与说话者501相对应的对象。基于与该对象有关的信息识别说话者501的位置。
参考图5a,说话者501位于从麦克风阵列500的中心的底部向上偏离大约十五(15)度。因此,麦克风阵列500在从该底部向上偏离大约十五(15)度的方向上执行波束成型。
在该波束成型执行的同时,照相机周期性地获取包括该说话者的图像数据,并且麦克风阵列500在周期性获取的图像数据中检测与该说话者相对应的对象,以确定该说话者的位置是否改变。
如图5b中所示,如果说话者502站起并且从该底部向上移动,则麦克风阵列500根据该说话者的位置改变波束成型的方向。也就是说,麦克风阵列500在从该底部向上偏离大约三十(30)度的方向上执行波束成型。
为了如图5a和图5b中所示从该底部垂直地改变波束成型的方向,麦克风阵列500包括在水平方向上排列的一个或多个麦克风以及在垂直方向上排列的一个或多个麦克风。
图6是根据本发明一实施例的用于执行麦克风波束成型的设备600的框图。
设备600包括语音识别单元610、图像搜索单元620、说话者搜索单元630、位置识别单元640和波束成型执行单元650。
语音识别单元610识别说话者的语音。语音识别单元610通过搜索如上所述的其中存储有与一个或多个说话者相关联的语音信号的数据库来识别输入的语音信号所属的说话者。语音识别单元610可以包括语音信号接收单元(未示出)、语音提取单元(未示出)和识别单元(未示出)。
该语音信号接收单元接收来自用户的语音信号。该语音信号接收单元可以是包括一个或多个麦克风的麦克风阵列。
该语音提取单元从该语音信号中提取包括预定语音信号的部分。该预定语音信号可以是通过说出启动波束成型执行单元650的操作的命令而产生的语音信号。
该识别单元基于该部分识别说话者。该识别单元通过比较该部分中的语音信号与存储在数据库(未示出)中的每个说话者的语音信号来识别与从该语音信号接收单元接收到的语音信号相对应的说话者。
图像搜索单元620搜索与被识别的说话者有关的图像。如果设备600包括其中存储有与一个或多个说话者相关联的图像数据的数据库,则图像搜索单元620在该数据库中搜索与其语音被识别出的说话者相关联的图像数据。如果设备600不包括该数据库,则可以通过使用网络上的搜索引擎搜索其语音被识别出的说话者相关联的图像数据。
说话者搜索单元630基于被搜索出的图像数据通过照相机搜索该说话者。说话者搜索单元630通过比较通过该照相机获取的图像数据与被搜索出的图像数据,检测通过该照相机获取的图像数据中与该说话者相对应的对象。
位置识别单元640通过使用与该对象有关的信息(例如,位置信息或尺寸信息)识别该说话者的位置。
波束成型执行单元650根据该说话者的位置执行麦克风波束成型。如果位置识别单元640识别出该说话者的位置改变到不同位置,则波束成型执行单元650将波束成型方向改变到该改变后的位置。然而,如果位置识别单元640识别出该说话者的位置没有改变,则波束成型执行单元650不改变波束成型方向。
本发明的上述实施例可以作为可执行程序来实现,并且可以由通过使用计算机可读记录介质运行该程序的通用数字计算机或者其他数据处理系统来执行。
计算机可读介质的例子包括存储介质,如磁存储介质(例如,只读存储器(ROM)、软盘或硬盘)、光可读取介质(例如,压缩盘只读存储器(CD-ROM)或者数字多用途盘(DVD))等。
尽管已经利用示例性实施例描述了本发明,但是可以向本领域的技术人员建议各种变化和修改。本公开意图包含落入所附权利要求范围内的这种变化和修改。
Claims (15)
1.一种执行麦克风波束成型的方法,该方法包括:
识别说话者的语音;
搜索预先存储的与所述说话者相关联的图像;
基于所述图像通过照相机搜索所述说话者;
识别所述说话者的位置;以及
根据所述说话者的位置执行麦克风波束成型。
2.根据权利要求1所述的方法,其中,识别所述说话者的语音包括:
接收来自所述说话者的语音信号;
从所述语音信号中提取包括预定语音信号的部分;以及
基于所述部分识别所述说话者。
3.根据权利要求2所述的方法,其中,识别所述说话者包括:通过比较所述预定语音信号与预先从一个或多个说话者获取并存储的语音信号来识别所述说话者。
4.根据权利要求1所述的方法,其中,搜索所述说话者包括:通过比较通过所述照相机获取的图像数据和预先存储的与一个或多个说话者相关联的图像数据,从通过所述照相机获取的图像数据中提取与所述说话者相对应的对象。
5.根据权利要求4所述的方法,其中,识别所述位置包括:基于与所述对象有关的信息确定所述说话者的位置是否改变到改变后的位置,
其中,执行所述麦克风波束成型包括:如果所述说话者的位置改变到改变后的位置,则根据改变后的位置适应性地执行所述麦克风波束成型。
6.根据权利要求1所述的方法,其中,执行所述麦克风波束成型包括:放大多个区域当中所述说话者所处的区域中产生的语音并且降低在其他区域中产生的语音。
7.一种用于执行麦克风波束成型的设备,该设备包括:
语音识别单元,其被配置为识别说话者的语音;
图像搜索单元,其被配置为搜索预先存储的与所述说话者相关联的图像;
说话者搜索单元,其被配置为基于所述图像通过照相机搜索所述说话者;
位置识别单元,其被配置为识别所述说话者的位置;以及
波束成型执行单元,其被配置为根据所述说话者的位置执行麦克风波束成型。
8.根据权利要求7所述的设备,其中,所述语音识别单元包括:
语音信号接收单元,其被配置为接收来自所述说话者的语音信号;
语音提取单元,其被配置为从所述语音信号中提取包括预定语音信号的部分;以及
识别单元,其被配置为基于所述部分识别所述说话者。
9.根据权利要求8所述的设备,其中,所述识别单元通过比较所述预定语音信号与预先从一个或多个说话者获取并存储的语音信号来识别所述说话者。
10.根据权利要求7所述的设备,其中,所述说话者搜索单元通过比较通过所述照相机获取的图像数据与预先存储的与一个或多个说话者相关联的图像数据,从通过所述照相机获取的图像数据中提取与所述说话者相对应的对象。
11.根据权利要求9所述的设备,其中,所述位置识别单元基于通过所述照相机获取的图像确定所述说话者的位置是否改变到改变后的位置,
其中,所述波束成型执行单元根据所述改变后的位置适应性地执行麦克风波束成型。
12.根据权利要求7所述的设备,其中,所述波束成型执行单元放大多个区域当中所述说话者所处的区域中产生的语音并且降低其他区域中的语音。
13.根据权利要求7所述的设备,其中,所述图像搜索单元在所述设备中的数据库中搜索所述预先存储的图像。
14.根据权利要求7所述的设备,其中,所述图像搜索单元使用网络上的搜索引擎搜索所述预先存储的图像。
15.一种编码有计算机可执行指令的计算机可读记录介质,所述计算机可执行指令在被执行时使数据处理系统执行以下步骤:
识别说话者的语音;
搜索预先存储的与所述说话者相关联的图像;
基于所述图像通过照相机搜索所述说话者;
识别所述说话者的位置;以及
根据所述说话者的位置执行麦克风波束成型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100089469A KR101750338B1 (ko) | 2010-09-13 | 2010-09-13 | 마이크의 빔포밍 수행 방법 및 장치 |
KR10-2010-0089469 | 2010-09-13 | ||
PCT/KR2011/006692 WO2012036424A2 (en) | 2010-09-13 | 2011-09-09 | Method and apparatus for performing microphone beamforming |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103098491A true CN103098491A (zh) | 2013-05-08 |
CN103098491B CN103098491B (zh) | 2016-06-29 |
Family
ID=44651271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180043988.4A Active CN103098491B (zh) | 2010-09-13 | 2011-09-09 | 用于执行麦克风波束成型的方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9330673B2 (zh) |
EP (1) | EP2428951B1 (zh) |
KR (1) | KR101750338B1 (zh) |
CN (1) | CN103098491B (zh) |
WO (1) | WO2012036424A2 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105764003A (zh) * | 2014-09-01 | 2016-07-13 | 三星电子株式会社 | 管理音频信号的方法和设备 |
CN108156568A (zh) * | 2013-12-18 | 2018-06-12 | 刘璟锋 | 助听系统与助听系统的语音撷取方法 |
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
CN110475093A (zh) * | 2019-08-16 | 2019-11-19 | 北京云中融信网络科技有限公司 | 一种活动调度方法、装置及存储介质 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8744995B1 (en) | 2012-07-30 | 2014-06-03 | Google Inc. | Alias disambiguation |
US8520807B1 (en) | 2012-08-10 | 2013-08-27 | Google Inc. | Phonetically unique communication identifiers |
US8571865B1 (en) * | 2012-08-10 | 2013-10-29 | Google Inc. | Inference-aided speaker recognition |
US8583750B1 (en) | 2012-08-10 | 2013-11-12 | Google Inc. | Inferring identity of intended communication recipient |
US9173021B2 (en) | 2013-03-12 | 2015-10-27 | Google Technology Holdings LLC | Method and device for adjusting an audio beam orientation based on device location |
WO2015026933A2 (en) | 2013-08-21 | 2015-02-26 | Honeywell International Inc. | Devices and methods for interacting with an hvac controller |
US9847082B2 (en) | 2013-08-23 | 2017-12-19 | Honeywell International Inc. | System for modifying speech recognition and beamforming using a depth image |
KR101491354B1 (ko) | 2013-11-25 | 2015-02-06 | 현대자동차주식회사 | 음성인식 장치 및 방법 |
US9282399B2 (en) | 2014-02-26 | 2016-03-08 | Qualcomm Incorporated | Listen to people you recognize |
KR101733231B1 (ko) | 2015-02-17 | 2017-05-08 | 하동경 | 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치 |
KR101649710B1 (ko) | 2015-02-17 | 2016-08-23 | 하동경 | 음질 개선 방법 및 그 장치 |
US9716944B2 (en) | 2015-03-30 | 2017-07-25 | Microsoft Technology Licensing, Llc | Adjustable audio beamforming |
JP6592940B2 (ja) * | 2015-04-07 | 2019-10-23 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
KR20170044386A (ko) * | 2015-10-15 | 2017-04-25 | 삼성전자주식회사 | 전자기기 및 전자기기의 제어방법 |
KR102476600B1 (ko) | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US9747920B2 (en) * | 2015-12-17 | 2017-08-29 | Amazon Technologies, Inc. | Adaptive beamforming to create reference channels |
CN117612539A (zh) * | 2016-05-30 | 2024-02-27 | 索尼公司 | 视频音频处理设备、视频音频处理方法和存储介质 |
CN109716285A (zh) * | 2016-09-23 | 2019-05-03 | 索尼公司 | 信息处理装置和信息处理方法 |
WO2018100391A1 (en) * | 2016-12-02 | 2018-06-07 | Cirrus Logic International Semiconductor Limited | Speaker identification |
US10531187B2 (en) | 2016-12-21 | 2020-01-07 | Nortek Security & Control Llc | Systems and methods for audio detection using audio beams |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
US10524046B2 (en) | 2017-12-06 | 2019-12-31 | Ademco Inc. | Systems and methods for automatic speech recognition |
CN112335261B (zh) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | 图案形成麦克风阵列 |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
KR102537879B1 (ko) | 2018-12-13 | 2023-05-30 | 현대자동차주식회사 | 차량용 듀얼 마이크의 능동형 제어 시스템 및 그의 제어 방법 |
KR101987742B1 (ko) | 2019-02-19 | 2019-06-12 | 주식회사 소리자바 | 음성인식용 핀 마이크 장치 및 회의 작성 시스템 |
KR101970346B1 (ko) * | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치 |
KR101970347B1 (ko) * | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | 화자 음성의 노이즈를 제거하는 음성인식장치 |
WO2020191354A1 (en) | 2019-03-21 | 2020-09-24 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
JP2022526761A (ja) | 2019-03-21 | 2022-05-26 | シュアー アクイジッション ホールディングス インコーポレイテッド | 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
CN114051738A (zh) | 2019-05-23 | 2022-02-15 | 舒尔获得控股公司 | 可操纵扬声器阵列、系统及其方法 |
TW202105369A (zh) | 2019-05-31 | 2021-02-01 | 美商舒爾獲得控股公司 | 整合語音及雜訊活動偵測之低延時自動混波器 |
US10945088B2 (en) * | 2019-06-05 | 2021-03-09 | Asahi Kasei Kabushiki Kaisha | Sound reproducing apparatus capable of self diagnostic and self-diagnostic method for a sound reproducing apparatus |
US11004518B2 (en) * | 2019-06-28 | 2021-05-11 | Sandisk Technologies Llc | Threshold voltage setting with boosting read scheme |
US11297426B2 (en) | 2019-08-23 | 2022-04-05 | Shure Acquisition Holdings, Inc. | One-dimensional array microphone with improved directivity |
KR102198939B1 (ko) | 2019-12-17 | 2021-01-05 | (주)비에스소프트 | 마이크기기 |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
WO2021243368A2 (en) | 2020-05-29 | 2021-12-02 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
US11929087B2 (en) * | 2020-09-17 | 2024-03-12 | Orcam Technologies Ltd. | Systems and methods for selectively attenuating a voice |
CN116918351A (zh) | 2021-01-28 | 2023-10-20 | 舒尔获得控股公司 | 混合音频波束成形系统 |
KR102628500B1 (ko) | 2021-09-29 | 2024-01-24 | 주식회사 케이티 | 대면녹취단말장치 및 이를 이용한 대면녹취방법 |
US11741982B2 (en) * | 2021-10-05 | 2023-08-29 | Dell Products L.P. | Contextual beamforming to improve signal-to-noise ratio sensitive audio input processing efficiency in noisy environments |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038444A1 (en) * | 2005-02-23 | 2007-02-15 | Markus Buck | Automatic control of adjustable elements associated with a vehicle |
CN101394479A (zh) * | 2008-09-25 | 2009-03-25 | 上海交通大学 | 基于运动检测结合多通道融合的教师运动跟踪方法 |
CN101715102A (zh) * | 2008-10-02 | 2010-05-26 | 宝利通公司 | 在点对点和多点音频/视频会议期间显示动态呼叫者身份 |
US20100128892A1 (en) * | 2008-11-25 | 2010-05-27 | Apple Inc. | Stabilizing Directional Audio Input from a Moving Microphone Array |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5581620A (en) * | 1994-04-21 | 1996-12-03 | Brown University Research Foundation | Methods and apparatus for adaptive beamforming |
US6731334B1 (en) * | 1995-07-31 | 2004-05-04 | Forgent Networks, Inc. | Automatic voice tracking camera system and method of operation |
US6005610A (en) * | 1998-01-23 | 1999-12-21 | Lucent Technologies Inc. | Audio-visual object localization and tracking system and method therefor |
US6243683B1 (en) * | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
US6219640B1 (en) * | 1999-08-06 | 2001-04-17 | International Business Machines Corporation | Methods and apparatus for audio-visual speaker recognition and utterance verification |
JP2001067098A (ja) * | 1999-08-25 | 2001-03-16 | Sanyo Electric Co Ltd | 人物検出方法と人物検出機能搭載装置 |
US6449593B1 (en) * | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
JP2001296343A (ja) * | 2000-04-11 | 2001-10-26 | Nec Corp | 音源方位設定装置及びそれを備えた撮像装置、送信システム |
US6850265B1 (en) * | 2000-04-13 | 2005-02-01 | Koninklijke Philips Electronics N.V. | Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications |
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
US20020140804A1 (en) * | 2001-03-30 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method and apparatus for audio/image speaker detection and locator |
US20030154084A1 (en) * | 2002-02-14 | 2003-08-14 | Koninklijke Philips Electronics N.V. | Method and system for person identification using video-speech matching |
US7039199B2 (en) * | 2002-08-26 | 2006-05-02 | Microsoft Corporation | System and process for locating a speaker using 360 degree sound source localization |
EP1691344B1 (en) * | 2003-11-12 | 2009-06-24 | HONDA MOTOR CO., Ltd. | Speech recognition system |
KR100754385B1 (ko) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US20070030984A1 (en) * | 2005-08-02 | 2007-02-08 | Gotfried Bradley L | Conference system |
EP1949298A4 (en) * | 2005-09-19 | 2010-04-07 | Univ Virginia | SYSTEM AND METHOD FOR ADAPTIVE BEAM FORMATION FOR RECONSTITUTING IMAGE AND / OR LOCATING A TARGET / SOURCE |
US7599527B2 (en) * | 2005-09-28 | 2009-10-06 | Facedouble, Inc. | Digital image search system and method |
CN101268715B (zh) * | 2005-11-02 | 2012-04-18 | 雅马哈株式会社 | 电话会议装置 |
EP1971183A1 (en) * | 2005-11-15 | 2008-09-17 | Yamaha Corporation | Teleconference device and sound emission/collection device |
KR100822880B1 (ko) * | 2006-10-25 | 2008-04-17 | 한국전자통신연구원 | 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법 |
US8289363B2 (en) * | 2006-12-28 | 2012-10-16 | Mark Buckler | Video conferencing |
KR100827080B1 (ko) * | 2007-01-09 | 2008-05-06 | 삼성전자주식회사 | 사용자 인식 기반의 빔 포밍 장치 및 방법 |
KR100922963B1 (ko) * | 2007-02-06 | 2009-10-22 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 사용자 음성 인식 장치 및 그 마이크로폰 어레이 구동 방법 |
US8330787B2 (en) * | 2007-06-29 | 2012-12-11 | Microsoft Corporation | Capture device movement compensation for speaker indexing |
KR20090007882A (ko) | 2007-07-16 | 2009-01-21 | 에스케이 텔레콤주식회사 | 마이크로폰 방향 제어 장치 및 방법 |
CN101398832A (zh) * | 2007-09-30 | 2009-04-01 | 国际商业机器公司 | 利用人脸检测的图像搜索方法和系统 |
JP5144424B2 (ja) * | 2007-10-25 | 2013-02-13 | キヤノン株式会社 | 撮像装置及び情報処理方法 |
ATE554481T1 (de) * | 2007-11-21 | 2012-05-15 | Nuance Communications Inc | Sprecherlokalisierung |
US8315366B2 (en) * | 2008-07-22 | 2012-11-20 | Shoretel, Inc. | Speaker identification and representation for a phone |
US9445193B2 (en) * | 2008-07-31 | 2016-09-13 | Nokia Technologies Oy | Electronic device directional audio capture |
KR101043691B1 (ko) | 2009-02-04 | 2011-06-22 | 주식회사 유니크 | 치과용 다이 소우잉 테이블 |
KR101041039B1 (ko) | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
JP5452158B2 (ja) * | 2009-10-07 | 2014-03-26 | 株式会社日立製作所 | 音響監視システム、及び音声集音システム |
US20110243397A1 (en) * | 2010-03-30 | 2011-10-06 | Christopher Watkins | Searching digital image collections using face recognition |
US8395653B2 (en) * | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US9723260B2 (en) * | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
-
2010
- 2010-09-13 KR KR1020100089469A patent/KR101750338B1/ko active IP Right Grant
-
2011
- 2011-09-08 EP EP11180609.7A patent/EP2428951B1/en not_active Not-in-force
- 2011-09-09 WO PCT/KR2011/006692 patent/WO2012036424A2/en active Application Filing
- 2011-09-09 CN CN201180043988.4A patent/CN103098491B/zh active Active
- 2011-09-13 US US13/231,705 patent/US9330673B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038444A1 (en) * | 2005-02-23 | 2007-02-15 | Markus Buck | Automatic control of adjustable elements associated with a vehicle |
CN101394479A (zh) * | 2008-09-25 | 2009-03-25 | 上海交通大学 | 基于运动检测结合多通道融合的教师运动跟踪方法 |
CN101715102A (zh) * | 2008-10-02 | 2010-05-26 | 宝利通公司 | 在点对点和多点音频/视频会议期间显示动态呼叫者身份 |
US20100128892A1 (en) * | 2008-11-25 | 2010-05-27 | Apple Inc. | Stabilizing Directional Audio Input from a Moving Microphone Array |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108156568A (zh) * | 2013-12-18 | 2018-06-12 | 刘璟锋 | 助听系统与助听系统的语音撷取方法 |
CN105764003A (zh) * | 2014-09-01 | 2016-07-13 | 三星电子株式会社 | 管理音频信号的方法和设备 |
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
CN110475093A (zh) * | 2019-08-16 | 2019-11-19 | 北京云中融信网络科技有限公司 | 一种活动调度方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2012036424A2 (en) | 2012-03-22 |
EP2428951A3 (en) | 2013-11-06 |
US9330673B2 (en) | 2016-05-03 |
KR101750338B1 (ko) | 2017-06-23 |
WO2012036424A3 (en) | 2012-06-28 |
EP2428951A2 (en) | 2012-03-14 |
CN103098491B (zh) | 2016-06-29 |
EP2428951B1 (en) | 2014-10-08 |
KR20120027718A (ko) | 2012-03-22 |
US20120065973A1 (en) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103098491A (zh) | 用于执行麦克风波束成型的方法和设备 | |
US9495760B2 (en) | Adaptable framework for cloud assisted augmented reality | |
US8971641B2 (en) | Spatial image index and associated updating functionality | |
EP3791391A1 (en) | Multi-modal speech localization | |
CN111323024B (zh) | 定位方法及装置、设备、存储介质 | |
CN108693548B (zh) | 一种基于场景目标识别的导航方法及系统 | |
CN104575493A (zh) | 使用地理信息的声学模型适配 | |
JP2016502218A (ja) | モバイルデバイスベースのテキスト検出および追跡 | |
US10540778B2 (en) | System for determining anatomical feature orientation | |
CN104850563A (zh) | 目的地图像比较检索装置、目的地图像比较检索系统、以及目的地图像比较检索方法 | |
KR20160032533A (ko) | 예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치 | |
US9418284B1 (en) | Method, system and computer program for locating mobile devices based on imaging | |
EP2503545A1 (en) | Arrangement and method relating to audio recognition | |
US20150051912A1 (en) | Method for Segmenting Videos and Audios into Clips Using Speaker Recognition | |
US20170289522A1 (en) | Light-field camera and controlling method | |
CN111191481B (zh) | 车辆识别方法及系统 | |
CN111078982B (zh) | 一种电子页面的检索方法、电子设备及存储介质 | |
US10360221B2 (en) | Method, system, and client for content management | |
CN113611308B (zh) | 一种语音识别方法、装置、系统、服务器及存储介质 | |
KR102365757B1 (ko) | 인식 장치, 인식 방법 및 협업 처리 장치 | |
JP2007139748A (ja) | 航法マップの補完装置及び方法 | |
CN113643708A (zh) | 参会人声纹识别方法、装置、电子设备及存储介质 | |
CN113032521A (zh) | 导盲方法、导盲装置、导盲设备及计算机可读存储介质 | |
KR20160116377A (ko) | 영상 콘텐츠 내 장소 식별 방법 및 영상 콘텐츠 내 장소 식별 장치 | |
US9741345B2 (en) | Method for segmenting videos and audios into clips using speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |