CN105659317A - 具有可调音频通道的语音控制的音频记录或传输装置 - Google Patents
具有可调音频通道的语音控制的音频记录或传输装置 Download PDFInfo
- Publication number
- CN105659317A CN105659317A CN201480029995.2A CN201480029995A CN105659317A CN 105659317 A CN105659317 A CN 105659317A CN 201480029995 A CN201480029995 A CN 201480029995A CN 105659317 A CN105659317 A CN 105659317A
- Authority
- CN
- China
- Prior art keywords
- voice
- beam forming
- wave beam
- forming device
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title description 11
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000004044 response Effects 0.000 claims abstract description 33
- 230000035945 sensitivity Effects 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims description 92
- 230000001276 controlling effect Effects 0.000 claims description 44
- 230000033228 biological regulation Effects 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 206010038743 Restlessness Diseases 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 230000000903 blocking effect Effects 0.000 abstract description 4
- 238000004091 panning Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000012546 transfer Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 230000001629 suppression Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 239000000370 acceptor Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
操作方法对多个麦克风输出(112)波束形成来获得具有至少一个音频输出通道和至少一个音频控制通道的多个虚拟麦克风音频通道。该方法对音频控制通道执行语音识别以检测用于控制音频输出通道属性的语音命令,并且响应于检测到语音命令而调整音频通道属性。可以通过例如控制可调波束形成器的一个或多个参数来实现调整音频通道的属性(120)。检测的用于控制音频通道属性的语音命令可以包括用于控制音频灵敏度缩放、指定方向的摇摄、聚焦在指定方向、遮挡指定方向、混和讲述者的语音、遮挡讲述者的语音或降低背景噪声的语音命令。还公开了执行该操作方法的装置。
Description
技术领域
本公开通常涉及波束形成,更具体地涉及基于语音识别的控制系统。
背景技术
诸如移动设备(视频或音频记录器、智能电话等等)或固定电子设备(VCR、电视、家庭控制系统、电器等等)的各种电子设备可以包括用于语音至文本应用或控制设备的特征或方面的语音命令识别或更一般的语音识别特征。一个示例性设备和应用是视频记录系统,其可以包括用于控制视频捕捉的方面的语音命令识别。允许音频记录的许多这种系统采用控制音频记录的触摸控制机制。然而,许多音频传输系统可以不具有与音频相关的控制的任何机制并且仅通过麦克风“拾取”音频。关于记录,利用便携式设备有效地记录音频场景通常要求高度的用户控制,在这种情况下,当尝试同时捕捉视频场景时,触摸控制机制会很麻烦。此外,现有的便携式音频记录器不向用户提供许多实时可调记录参数。
系统麦克风能被配置为使得麦克风中的一个可以提供音频控制通道。例如,可以使用一个定向麦克风来捕捉用户命令,由此用作音频控制通道,而一个或多个另外的麦克风可以被配置成从视频场景的方向捕捉音频。在一些现有的系统中,从整体音频信号减去从音频控制通道发出的音频以便从自视频场景发出的待记录的期望音频消除或减少它。这样的系统可以消除或衰减被用来捕捉用户命令的定向麦克风的所有音频输入。
附图说明
图1A是根据实施例的具有可调波束形成的语音控制的音频记录或传输装置的示意性框图。
图1B是根据另一实施例的具有可调波束形成的语音控制的音频记录或传输装置的示意性框图。
图2是根据另一实施例的具有可调波束形成和可调信号调节的语音控制的音频记录或传输装置的示意性框图。
图3是根据实施例的具有可调波束形成的语音控制的音频记录或传输装置的命令字滤波逻辑的一个示例性滤波器逻辑实现的示意性框图。
图4是根据另一实施例的具有可调波束形成的语音控制的音频记录或传输装置的命令字滤波逻辑的一个示例性滤波器逻辑实现的示意性框图。
图5是根据实施例的波束形成器控制器的示意性框图。
图6是根据实施例的信号调节器控制器的示意性框图。
图7是根据各种实施例的被配置成提供记录区虚拟麦克风和控制区虚拟麦克风的麦克风阵列的示意性框图。
图8是根据各种实施例的示出具有可调波束形成的语音控制的音频记录系统的操作方法的流程图。
图9是根据各种实施例的示出具有可调波束形成的语音控制的语音记录或传输装置的操作方法的流程图。
图10是根据实施例的示出具有可调波束形成的语音控制的音频记录装置的命令字滤波部的滤波器逻辑的操作方法的流程图。
图11是根据实施例的示出具有可调波束形成的语音控制的音频记录装置的命令字滤波部的滤波器逻辑的操作方法的流程图。
图12是根据实施例的示出具有可调波束形成的语音控制的音频记录装置的命令字滤波部的滤波器逻辑的另一操作方法的流程图。
图13是示出如图1A、图1B或图2中所示的装置的另一操作方法的流程图。
具体实施方式
各种所公开的实施例通过用户语音命令控制来实现用户控制和用户可定义的音频记录属性。在一个实施例中,可调音频波束形成器定义用于至少一个音频记录通道和用于本身可由语音命令控制来控制的至少一个音频控制通道的虚拟麦克风。实施例利用麦克风阵列并且可以使用单个麦克风输出或可以使用波束形成来定义虚拟麦克风,其中虚拟麦克风利用一个或多个音频记录通道和至少一个音频控制通道来拾取用于相应音频通道的声音。一些实施例可以从记录的音频去除命令字,但能仍然利用在音频控制通道上接收的期望音频。
一个公开的操作方法包括使用多个麦克风输出来获得多个音频通道,其中音频通道包括至少一个音频记录通道和至少一个音频控制通道。该操作方法对音频控制通道执行语音识别以检测用于控制音频通道属性的语音命令。在检测到用于控制音频通道属性的语音命令后,该方法包括调整相应的音频通道属性。可以以各种方式实现音频通道属性调整。例如,可以通过控制波束形成器来修改对应于音频通道的波束形成来调整音频通道属性。在另一示例中,通过控制应用于音频通道的信号调节来调整音频通道属性。在各种实施例中,可以控制并且相应地调整音频记录通道或音频控制通道的音频属性。在一个实施例中,操作方法包括对多个麦克风输出进行波束形成以获得具有至少一个音频记录通道和至少一个音频控制通道的多个虚拟麦克风音频通道,对至少一个音频控制通道执行语音识别以检测用于控制至少一个音频记录通道的音频记录通道属性的语音命令,并且响应于检测到用于控制音频记录通道属性的语音命令而调整至少一个音频记录通道的属性。例如,通过调整可调波束形成器的至少一个参数来控制可调波束形成器,可用实现调整至少一个音频记录通道的属性。
检测用于控制音频记录通道属性的语音命令可以包括检测用于控制音频灵敏度缩放、指定方向摇摄、聚焦在指定方向、遮挡指定方向、混和讲述者语音、阻止讲述者的语音或降低背景噪声的语音命令。
该操作方法可以包括控制音频记录通道信号调节,包括但不限于通过调整信号调节器的至少一个参数来控制信号调节器。该操作方法可以包括在一些实施例中,通过改变提供至少一个音频记录通道的波束形成器滤波器的滤波系数,来控制可调波束形成器。
在一些实施例中,该操作方法可以包括操作和控制滤波器逻辑来从记录通道降低或消除命令字。滤波器逻辑的一个示例性操作方法包括将至少一个音频控制通道提供为自适应滤波器输入,响应于检测到语音命令而激活自适应滤波器,通过从至少一个音频记录通道减去自适应滤波器的输出来获得求和块输出,并且将求和块输出提供为到自适应滤波器的反馈和到记录器的至少一个音频记录通道。
滤波器逻辑的另一示例性操作方法包括将至少一个音频控制通道提供为自适应滤波器输入,通过从至少一个音频记录通道减去自适应滤波器的输出来获得第一求和块输出,将第一求和块输出提供为到自适应滤波器的反馈,将第一求和块输出连同检测的语音命令一起提供给第一乘法器,将至少一个记录通道连同检测的语音命令一起提供为到第二乘法器的输入,通过使第一乘法器输出和第二乘法器输出相加来获得第二求和块输出,并且将第二求和块输出提供为到记录器的至少一个音频记录通道。
滤波器逻辑的上述操作方法可以包括延迟至少一个音频控制通道,并且将延迟的至少一个音频控制通道提供为自适应滤波器输入,并且延迟至少一个音频记录通道以及将延迟的至少一个音频记录通道提供给求和块。
还公开了一种装置,用来执行各种所公开的操作方法等。在一个示例性实施例中,装置包括波束形成器,可操作地耦接到多个麦克风输出。波束形成器用来提供包括具有至少一个音频记录通道和至少一个音频控制通道的多个虚拟麦克风音频通道的输出。该装置包括可操作地耦接到波束形成器的语音命令识别逻辑。语音命令识别逻辑用来接收至少一个音频控制通道,并且执行语音识别以检测用于控制至少一个音频记录通道的音频记录通道属性的语音命令。波束形成器控制器可操作地耦接到波束形成器和语音命令识别逻辑。波束形成器控制器用来响应于由语音命令识别逻辑检测到语音命令而调整波束形成器的至少一个参数。各种检测的语音命令控制音频记录通道属性。
在一些实施例中,波束形成器包括可操作地耦接到多个麦克风输出的多个滤波器。波束形成器控制器用来通过改变波束形成器的至少一个滤波器的滤波系数来调整波束形成器的至少一个参数。
语音识别逻辑可以用来检测用于控制音频记录通道属性,包括音频灵敏度缩放、指定方向摇摄、聚焦在指定方向、遮挡指定方向、混和讲述者语音、阻止讲述者的语音或降低背景噪声的语音命令。
在一些实施例中,该装置可以包括具有噪声抑制器的信号调节器。信号调节器可操作地耦接到语音识别逻辑和波束形成器以将多个虚拟麦克风音频通道接收为输入。信号调节器提供对应于每个虚拟麦克风音频通道输入的多个相应的输出。信号调节器控制器可操作地耦接到语音识别逻辑和信号调节器,并且用来响应于检测到用于控制音频记录通道属性的语音命令而调整至少一个音频记录通道的属性。具体地,信号调节器控制器可以调整信号调节器的至少一个参数。
所公开的装置还包括可操作地耦接到波束形成器输出的滤波器逻辑以及可操作地耦接到滤波器逻辑的记录器,以将至少一个音频记录通道接收为来自滤波器逻辑的输出。
在一个示例性实施例中,滤波器逻辑可以包括自适应滤波器,使自适应滤波器输入可操作地耦接到至少一个音频控制通道。滤波器逻辑包括具有可操作地耦接到至少一个音频记录通道的第一输入以及可操作地耦接到自适应滤波器输出的第二输入的求和块。求和逻辑输出可操作地耦接到记录器。第一开关可操作地耦接到自适应滤波器和语音识别逻辑,并且用来响应于从语音识别逻辑接收的语音命令检测信号而激活自适应滤波器。第二开关可操作地耦接到求和逻辑输出、至少一个音频记录通道和记录器。第二开关进一步可操作地耦接到语音识别逻辑以接收语音命令检测信号。即,第二开关用来响应于从语音识别逻辑接收的语音命令检测信号而将来自至少一个音频记录通道的记录器输入切换到求和逻辑输出。
在另一实施例中,滤波器逻辑包括具有可操作地耦接到至少一个音频控制通道的自适应滤波器输入的自适应滤波器和具有可操作地耦接到至少一个音频记录通道的第一输入和可操作地耦接到自适应滤波器输出的第二输入的求和逻辑。求和逻辑输出可操作地耦接到反馈环中的自适应滤波器调整输入。混音逻辑也可操作地耦接到求和逻辑输出和至少一个音频记录通道。
混音逻辑包括可操作地耦接到至少一个音频记录通道和语音命令识别逻辑的第一乘法器、可操作地耦接到求和逻辑输出和语音命令识别逻辑的第二乘法器和可操作地耦接到第一乘法器和第二乘法器的输出以及记录器的混音器求和逻辑。
滤波器逻辑的各个实施例还包括可操作地耦接到至少一个音频记录通道和求和逻辑的第一延迟、以及可操作地耦接到至少一个音频控制通道和自适应滤波器输入的第二延迟。
现在转到附图,图1A是根据实施例的具有可调波束形成的语音控制的音频记录或传输装置100的示意性框图。将理解,图1A和在此提供的其他示例性框图限于仅示出用来描述各个实施例的特征和优点的那些部件,以及描述普通技术人员如何制造和使用各个实施例。因此,将理解,可以存在各种其他部件、电路和设备等等以便实现一装置,以及普通技术人员应理解那些各种其他部件、电路、设备等等存在。例如,装置可以包括用于从电源接收电力的输入、配电总线、用于在可操作耦接的部件之间发送控制信号或其他信息的通信总线等等。由此,应理解,为清楚起见,省略这样的各种其他部件、电路或设备。
包括但不限于使用术语“逻辑”所述的相对于附图所述的各种部件、电路、设备等等可以以各种方式,诸如通过在诸如中央处理单元(CPU)等等的一个或多个可编程处理器上执行的软件和/或固件或通过ASIC、DSP、硬布线电路(逻辑电路)或其任意组合实现。
如在此使用的术语学“可操作地耦接”是指实现描述为可操作地耦接的各个部件、电路、设备等等之间的操作和/或功能通信和关系的耦接,并且可以包括用来实现这样的通信的任意中间项(即总线、连接器、其他部件、电路、设备等等),诸如数据通信总线或普通技术人员理解存在的任何其他中间项。而且,应理解其他中间项可以存在于“可操作地耦接”项之间,即使这样的其他中间项不必通过操作耦接促进的功能通信。例如,数据通信总线可以存在于各个实施例中,并且可以沿可操作地耦接两个或更多个项的路径,向若干项提供数据等。在所述的图中,一般地示出这样的操作耦接。
在图1A中,示出了根据实施例的语音控制的音频记录或传输装置100,可以包括在诸如但不限于视频相机、智能电话、平板电脑、笔记本电脑、便携式音频记录器、家用电器或一些其他电子设备等等的设备中。在装置100中,一组麦克风110提供可操作地耦接到可调波束形成器120的麦克风输出112。在各个实施例中,一些麦克风可以是定向麦克风以及一些可以是全向的。尽管为清楚目的未示出,但麦克风输出112可以通过模数转换器(ADC)处理并且可以在波束形成器120前经受其他“预调节”,诸如放大、滤波等等,并且这些部件被理解为是存在的。波束形成器120是可调波束形成器,因为例如在一些实施例中,可以通过改变(即调整)一个或多个波束形成器滤波器121、123、125等等的滤波器系数,产生各种波束形成。所产生的学波束形成可以对应于可以利用来自一个或多个物理麦克风111、113、115的物理麦克风输出112的“虚拟麦克风”。虚拟麦克风由此可以提供各种虚拟麦克风音频通道,诸如一个或多个音频记录通道和一个或多个音频控制通道。因此,波束形成器滤波器121、123和125等等是可调滤波器。然而,在一些实施例中,波束形成器120滤波器还可以是自适应滤波器,使得波束形成器120可以是自适应波束形成器。尽管图1A的示例将该组麦克风110示为包括三个麦克风111、113和115,但在实施例中可以使用任意数目的麦克风。根据实施例,波束形成器120从麦克风输出112接收音频信号并且可以执行波束形成以产生包括至少一个音频记录通道和至少一个音频控制通道的各个虚拟音频通道。还可以旁路波束形成器120,使得每个音频通道对应于单个麦克风输出112。因此,在不使用波束形成器120的一个示例中,音频输出通道107可以对应于麦克风111,音频输出通道109可以对应于麦克风113以及控制通道117可以对应于麦克风115。在使用波束形成器120的另一示例中,波束形成器120可以对来自各种组合的两个或更多个麦克风的麦克风输出112进行波束形成以将包括音频输出通道107和109以及控制通道117的各个虚拟音频通道提供为输出。因此,音频通道可以是对应于单个麦克风输出的音频通道,或可以是通过对来自两个或更多个麦克风的麦克风输出进行波束形成而形成的虚拟音频通道。在一些实施例中,虚拟音频通道和单个麦克风输出的组合也可以由波束形成器120输出。换句话说,波束形成器120可以在不施加任何波束形成的情况下通过一些麦克风输出112。在一个示例中,音频输出通道107和音频输出通道109可以是由波束形成产生的虚拟音频通道,以及控制通道117可以对应于仅来自诸如麦克风115的单个麦克风的物理麦克风输出。
波束形成器120通过应用适当的滤波算法并且改变可调滤波器121、123或125等等中的一个或多个的滤波系数来产生虚拟音频通道,相应地生成对应于虚拟音频通道的波束形成。在一个示例中,由麦克风111和113接收的声音可以被组合并且适当地滤波以产生从给定方向接收声音的单个“虚拟麦克风”。如上所述,该组麦克风110可以包括若干麦克风(即,麦克风阵列),使得使用一个或多个物理麦克风输出和应用波束形成技术,可以产生一个或多个虚拟麦克风。即,经相应的波束形成,可以定向所产生的虚拟麦克风,以便集中在任何给定方向,诸如集中在特定语音、声音等等上。因此,装置100的一个示例性应用是视频记录器,其中可以使用装置100来产生一个或多个虚拟麦克风以拾取来自视频场景的方向的声音,而另一虚拟麦克风可以拾取操作者(即控制用户或讲解员等等)所处的方向中的声音。在在下文更详细地描述的图7中,示出了一个示例性波束形成图案。
示例性波束形成器120包括各种滤波器,诸如提供音频输出通道107的滤波器121、提供音频输出通道109的滤波器123和提供控制通道117的滤波器125。如图1A所示,波束形成器120可以具有任意数目的滤波器并且不限于滤波器121、123和125。类似地,虚拟音频输出通道的数目不限于音频输出通道107和109。在各种实施例中,也可以存在除控制通道117以外的其他控制通道。滤波器121、123和125是可调滤波器,并且在一些实施例中,可以是自适应滤波器。此外,在一些实施例中,滤波器可以是有限脉冲响应(FIR)、无限脉冲响应(IIR)滤波器或一些其他类型的自适应滤波器。此外,在一些实施例中,来自一个或多个滤波器的输出可以被组合或求和来产生虚拟音频通道。即,根据实施例,在波束形成器120内可以实现任何适当的滤波器配置。
由此,示例性装置100包括可调波束形成器120,其向可操作地耦接到波束形成器120的记录器或语音传输电路101提供两个音频输出通道107和109(或更多)。在装置100的各个实施例中,两个音频输出通道107和109可以是音频记录通道、音频或语音传输通道或两者,因为可以将它们提供给记录器、语音传输电路或两者。记录器可以是产生可以存储在存储器中或远程存储的可存储音频文件的记录器。语音传输电路可以是通过诸如但不限于电话系统或无线广域网、局域网等等的任何适当的网络传输语音的有线或无线收发器。在一些实施例中,语音传输电路可以包括用于语音传输的另外的信号处理、收发器和/或应用,诸如VoIP应用。在一些实施例中,记录器和语音传输电路都可以存在于装置中,然而,一些实施例可以仅包括一个或另外一个。波束形成器120还可操作地耦接到语音命令识别逻辑103以提供控制通道117。语音命令识别逻辑103进而可操作地耦接到系统控制105以提供控制信号139。控制信号139基于或由通过语音命令识别逻辑103在控制通道117上检测或识别的命令字或命令短语取得。在一些实施例中,系统控制105可以是视频系统控制,但可以是任何类型的语音可控系统控制,诸如但不限于软件应用控制、平板电脑控制、笔记本电脑控制、家用电器控制、用于诸如智能电话的移动通信设备控制、视频记录器控制或一些其他类型的控制等等。波束形成器控制器140可操作地耦接到语音命令识别逻辑103并且将其输出接收为控制信号127。波束形成器控制器140还可操作地耦接到波束形成器120来提供控制信号129以及经存储器接口171可操作地耦接到系统存储器170。波束形成器控制器140用来响应由语音命令识别逻辑103识别的、与音频输出通道107和109的音频属性的控制相关的命令字或命令短语。音频属性与能通过某些音频信号调节/信号处理的应用来调整的音频信号的一些质量或特性相关。这样的属性包括定向特性,诸如立体声分离和方向性,以及非定向特性,诸如频率响应。例如,装置100操作者可以命令波束形成器120使用诸如“左聚焦”、“右聚焦”、“前聚焦”(或“向前聚焦”)等等的命令来改变波束形成的方向。响应于这些或类似的语音命令,波束形成器控制器140将相应地调整一个或多个滤波器121、123或125来实现该命令。在一些实施例中,波束形成器控制器140可以访问系统存储器170以获得与对应于给定命令的波束形成相关的预定滤波系数设置。例如,预定滤波系数集可以存储在响应于相应的命令而可由波束形成器控制器140访问的系统存储器170中,用于在各种方向(“左”、“右”、“上”、“下”、“正前方”等等)中聚焦的波束形成。即,波束形成器控制器140经由控制信号127接收语音命令,作为响应,相应地调整波束形成器120,其可以通过向一个或多个滤波器121、123和125提供适当的滤波器系数以改变所生成的波束形成(或多个波束形成)来实现。
在图1B中,根据另一实施例的装置160包括可操作地耦接到命令字滤波逻辑130和语音命令识别逻辑103的波束形成器120。语音命令识别逻辑103可操作地耦接到命令字滤波逻辑130和系统控制105,如上所述,其可以是任何类型的语音可控系统控制。语音命令识别逻辑103进一步可操作地耦接到波束形成器控制器140并且响应于检测到与音频属性的控制相关的语音命令而提供控制信号127。波束形成器控制器140可操作地耦接到波束形成器120,并且提供控制信号129来调整用于调整波束形成器120的一个或多个属性。例如,控制信号129可以控制滤波器121、123或125等等的属性,以改变虚拟麦克风的配置或重定向虚拟麦克风波束(即,波束形成)等等或调整一些其他音频属性。
尽管为清楚目的在图1A或图1B中未示出,但装置100和装置160分别还可以包括各种信号调节和其他信号处理,诸如噪声抑制、增益、均衡、自动增益控制等等,其可以在波束形成器120输入或输出处可操作地耦接到波束形成器120。可以分布这样的信号调节或可以在波束形成器120前应用一些信号调节而一些应用在波束形成器120后。信号调节或信号处理起在波束形成器120前应用于物理麦克风输出112的诸如但不限于信号放大、模数转换/数字音频采样等等的作用,但为了清楚目的,在图1A或图1B中未示出,因为这些项应理解为现有的。
在示例性装置160中,音频输出通道107和音频输出通道109被输入到包括诸如滤波器逻辑131A和滤波器逻辑131B的一组滤波器逻辑块的命令字滤波逻辑130。由波束形成器120输出的每一虚拟记录通道将具有命令字滤波逻辑130中的相应的滤波器逻辑块。在装置160中,命令字滤波逻辑130可操作地耦接到记录器或语音传输电路101。例如,滤波器逻辑131A将音频输出通道提供为到记录器或语音传输电路101的记录器输入133,以及滤波器逻辑131B将另一音频输出通道提供为到记录器或语音传输电路101的输入135。滤波器逻辑131A和滤波器逻辑131B响应于由语音命令识别逻辑103检测的语音命令字或语音命令短语而滤波来自它们的相应的音频输出通道的语音命令字或语音命令短语。尽管波束形成器120应用波束形成来提供“干净的”音频输出通道,但一些剩余的命令字音频仍然存在于记录中。同时,在一些实例中,波束形成可以重叠,诸如当操作者进入记录区,使得控制通道波束形成与一个或多个记录通道波束形成重叠。在这样的实例中,将由记录通道拾取命令字音频。由此,命令字滤波逻辑130可以在波束形成后消除剩余的命令字音频,或当操作者物理地位于音频记录场景内时从记录通道消除命令字。
控制通道117被输入到向系统控制105提供控制信号139的语音命令识别逻辑103。如上所述,系统控制105可以是任何适当的系统控制,诸如但不限于视频记录器系统控制等等。语音命令识别逻辑103还可操作地耦接到命令字滤波逻辑130以向滤波器逻辑131A和滤波器逻辑131B提供控制信号137。
当语音命令识别逻辑103检测或识别语音命令字或短语时,波束形成器控制器140从语音命令识别逻辑103接收控制信号127。响应于根据控制信号127检测到与音频属性的调整相关的语音命令字,波束形成器控制器将波束形成器控制信号129发送到波束形成器120并且可以控制一个或多个滤波器121、123和125的各个参数。通过控制滤波器121、123和125,波束形成器120可以对由麦克风111、113和115中的每一个接收的声音进行波束形成以产生虚拟麦克风和相应的虚拟音频通道。即,由各个物理麦克风接收的声音可以以各种方式被组合来形成根据不同实施例可以由语音命令重新配置的虚拟麦克风。例如,可以由用户语音命令控制虚拟麦克风来聚焦在给定方向、放大特定语音或声音、摇摄场景等等。语音命令识别逻辑103用来检测用于控制音频记录通道属性的语音命令,所述语音命令诸如但不限于音频灵敏度缩放、加宽立体图像、均衡、自动增益控制、压缩、在指定方向摇摄、聚焦在指定方向、遮挡指定方向、混合讲解员的声音、遮挡讲解员的声音或降低背景噪声等等。
可以使用波束形成来产生虚拟控制通道,其中虚拟麦克风被配置成取决于实施例从相对于装置100或装置160的某一位置拾取声音。更具体地,可以产生朝向包括该装置的设备的操作者的音频控制通道。由语音命令识别逻辑103在虚拟控制通道上检测命令字话语并且适当地作用,而忽略出现在虚拟音频输出通道上的命令字话语。即,在一个示例中,如果由虚拟麦克风(在相应的虚拟记录通道上)记录的对象说出也是命令字的字,则该命令字将被忽略,因为其未出现在虚拟控制通道上。根据实施例,当操作者绕场景移动时,装置100或装置160的操作者可以命令系统重定向虚拟控制通道。例如,当具有装置100或160的记录设备固定时,诸如当视频记录器固定在三脚架上时,操作者任意地绕场景移动。操作者可以使用语音命令,诸如“控制通道右前”来相对于参考点将控制通道重定向到视频相机的前方和右侧。参考点可以相对于装置100或装置160定义,或相对于包括该装置的设备定义。例如,在设备为视频记录器的情况下,参考点可以相对于视频场景或相对于视频记录器的后部等等定义。因此,操作者可以位于场景内,并且继续使用语音命令来调整其他音频属性。类似地,如果装置100或装置160合并在固定设备中,诸如家庭环境控制系统内,操作者可以告知该装置她的位置。例如,操作者可以位于起居室的“左”或“右”侧(或替选地,“北”、“南”、“东”、“西”或一些其他参考)并且可以命令家庭环境控制系统将控制通道聚焦到操作者所处的位置。
如上所述,在图7中提供形成虚拟麦克风和相应的虚拟音频通道并且可以如何配置它们来从各个方向接收音频的波束形成的示例。在图7中,根据实施例的装置700可以包括在诸如但不限于视频记录器的便携式设备750中。装置700包括音频记录系统701,根据实施例,其至少包括波束形成器和波束形成器控制器。一组麦克风710或麦克风阵列可操作地耦接到音频记录系统701并且提供麦克风输出711,每一物理麦克风M1至M7一个输出。在一些实施例中,另外的麦克风也可以存在于麦克风阵列中。示例性便携式设备750包括相机720和视频记录系统730。在本示例中,可以相对于相机720的位置和位于便携式设备750后即在图7中朝向该图的下部的相机720后的操作者,定义记录区“虚拟麦克风”波束形成703。由此,波束形成703从便携式设备750操作者的角度可以视为朝向由相机720捕捉的视频场景的“左”。可以使用如由表示波束形成703的周围的椭圆所示的物理麦克风M1和M2来形成定义一个记录通道“虚拟麦克风”的波束形成703。即,通过对来自物理麦克风M1和物理麦克风M2的麦克风输出711进行波束形成,产生由示例性波束形成703表示的单个“虚拟麦克风”。类似地,通过指向便携式设备750的背面(由此在相机720后)并且指向操作者的波束形成705,形成示例性控制区虚拟麦克风。通过对来自物理麦克风M4和物理麦克风M7的音频信号进行波束形成,产生示例性波束形成705。另一波束形成707可以被视为指向由相机720捕捉的视频场景的“右”并且通过对来自如所示的物理麦克风M2、M3和M4的音频信号进行波束形成而产生。因此,应理解来自该组麦克风710的麦克风的任意组合可以用来形成波束形成和相应的各个虚拟音频通道。根据该实施例,操作者可以使用语音命令来改变虚拟麦克风的配置,或说出导致虚拟麦克风配置改变的命令。例如,操作者可以使控制区移动到便携式设备750的前方或定向到左或右等等。仅为示例和清楚目的,示例性波束形成703、705和707示为椭圆,然而,应理解实际波束形成不是真正的椭圆。本领域的技术人员将意识到波束形成703、705和707可以具有各种波束形成图案的任何一个,诸如心型、偶极、超心型等等。替选地,可以使用高阶定向波束形成图案。
转到图2的示意性框图,根据另一实施例,装置200包括具有可调波束形成的语音控制的音频记录系统,并且还包括信号调节器控制器150。如上参考图1A和图1B所述,信号调节器153可以位于波束形成器120前或波束形成器120后,如图2所示。然而,在一些实施例中,信号调节器153可以是分布式的,并且可以使一些信号调节器过程在波束形成器120前,以及一些信号调节器过程在波束形成器120后。而且,如参考图1A的示例性装置100和图1B所示的示例性装置160所述,图2中所示的示例性装置200还包括在波束形成器120前应用于物理麦克风输出112的信号放大、模数转换/数字音频采样等等,并且为了清楚目的,在图2中未示出,因为这样的部件对普通技术人员来说是现有的。
由图2所示的示例性装置200所图示的实施例包括可操作地耦接到波束形成器120、命令字滤波逻辑130和语音命令识别逻辑103的信号调节器153。如上所述,然而,应理解在一些实施例中,信号调节器153还能位于波束形成器120前,因此可以可操作地耦接到麦克风输出112并且可以向波束形成器120提供调节的麦克风输出。在图2的示例性实施例中,音频输出通道107、音频输出通道109和控制通道117输入到信号调节器153。信号调节器153可操作地耦接到语音命令识别逻辑103以将调节的控制通道161提供为到语音命令识别逻辑103的输入。信号调节器控制器150可操作地耦接到信号调节器153和语音命令识别逻辑103。信号调节器153包括诸如但不限于均衡163、自动增益控制(AGC)165和噪声抑制器167的部件。这些信号调节部件中的任何一个可以按需或按要求并且以任何次序或顺序应用于音频输出通道。分离信号调节器154可操作地耦接到波束形成器120以接收控制通道117和将调节的控制通道161提供到语音命令识别逻辑103。即,语音命令识别逻辑103可以具有不同于音频记录所需的噪声抑制需求。例如,可以由信号调节器154应用非线性信号调节,而由信号调节器153应用线性信号调节。应理解在一些实施例中,信号调节器153和信号调节器154可以集成在一起,然而,应用于音频控制通道117的信号调节仍然不同于应用于音频记录通道的信号调节。此外,不同于用于音频输出通道的信号调节,应用于音频控制通道117的信号调节可以不经受用户控制。然而,通过波束形成器控制器140和波束形成器120,可以使控制通道117的方向性音频属性经受用户控制。
当语音命令识别逻辑103检测到语音命令字或短语时,信号调节器控制器150从语音命令识别逻辑103接收控制信号155。响应于根据控制信号155检测与音频属性的调整相关的语音命令字,信号调节器控制器150将信号调节器控制信号151发送到信号调节器153并且可以控制与各种音频增强功能相关的各种音频属性中的任何一个。信号调节器153可以包括各种音频增强功能,诸如但不限于均衡163、自动增益控制(AGC)165、噪声抑制器167、混响、各种声音效果等等。这些音频增强功能可以按需、在每通道基础上并且以任何适当次序和组合应用。
信号调节器153提供对应于每个信号调节器153输入的调节的输出。即,应理解基于每一记录通道的特定需求,应用于音频输出通道107和音频输出通道109的信号调节可以不同。换句话说,因为由对应于记录通道的虚拟麦克风波束形成接收的声音面临的音频环境不同,同样地,校正音频环境所需的信号调节必须不同。例如,噪声可能存在于一个通道上,但不存在于另一个上。可以将每一调节的输出提供给命令字滤波逻辑130的滤波器逻辑块。例如,信号调节器153将调节的记录通道157提供给滤波器逻辑131A以及将调节的记录通道159提供给滤波器逻辑131B。来自信号调节器154的调节的控制通道161被输入到语音命令识别逻辑103。应理解在一些实施例中,可以在记录后,执行音频输出通道的信号调节,即记录后。例如,简单地转到图1A,可以由记录器或语音传输电路101记录音频输出通道107和音频输出通道109,没有任何信号调节。可以包括自动增益控制、去混响、噪声抑制、均衡等等的信号调节可以在某个稍后时间应用于记录的文件。而且,在一些实施例中,可以通过使用合并在记录器数据中(即,合并在记录的文件或记录的控制文件中)的时间戳,将命令字滤波应用于记录的文件记录后。在一些实施例中,还可以与记录的文件一起、或在记录的控制文件中记录控制通道117,用在记录的文件的记录后处理中。例如,命令字可以指示将要应用某些记录后信号调节的记录文件中的点。在一个示例中,操作者可以使用命令,诸如但不限于“抑制风噪声”、“抑制左侧音频”、“抑制右侧音频”、“放大右”、“放大左”等等,或可以指定值,诸如“按NdB抑制,其中”N“是表示dB值的整数等等。操作者还可以指定时间值,使得通过使用记录文件中的时间戳,在给定命令字的激活前后的数秒内,应用信号调节。
由此,在图2中,波束形成器控制器140用来通过控制可调波束形成器120来调整面向方向性的音频属性。调整面向方向性的音频属性的示例包括但不限于音频灵敏度缩放、期望方向的摇摄、遮挡指定方向、混和讲述者语音、遮挡讲述者语音、加宽立体图像、提高信噪比等等。信号调节器控制器150用来通过控制信号调节器153来调整面向非定向的音频属性。调整面向非定向的音频属性的示例包括但不限于均衡、增益、自动增益控制、压缩、混响、噪声门控、噪声抑制、其他音频效果等等。
通过图8和图9的流程图来图示装置100和装置200的示例性操作方法。以图8的操作方法开始,在操作块801,波束形成器120对诸如麦克风输出112的多个麦克风输出执行波束形成,以获得具有至少一个音频记录通道和至少一个音频控制通道的多个虚拟麦克风音频通道。如图1A、图1B和图2的示例中所示,波束形成器120通过对麦克风输出112执成波束形成来提供音频输出通道107、音频输出通道109和控制通道117。
在操作块803,语音命令识别逻辑103对诸如音频控制通道117的至少一个音频控制通道执行语音识别,检测用于控制至少一个音频记录通道的音频记录通道属性的语音命令。换句话说,语音命令识别逻辑103将检测在图1A、图1B中的音频控制通道117或在图2实施例中的调节的控制通道161上检测的任何语音命令(即,语音命令字或短语)。如果检测到命令字或命令短语,那么语音命令识别逻辑103将控制信号127发送到波束形成器控制器140。在诸如图2所示的、包括信号调节器控制器150的实施例中,语音命令识别逻辑103还将控制信号155发送到信号调节器控制器150。
波束形成器控制器140和信号调节器控制器150将响应与用于其相应的控制功能的音频属性的控制相关的检测的命令字或命令短语。系统控制105从语音命令识别逻辑103接收控制信号139并且将响应与音频记录无关但与执行诸如视频系统控制的其自己的系统控制功能相关的那些语音命令。在各个实施例中,可以以各种方式,诸如但不限于使用映射到特定命令字或命令短语的数字编码或寻址实现。即,响应于特定命令字或命令短语,可以由语音命令识别逻辑103发送二进制数字集,其中二进制数字是表示特定命令字或命令短语的编码。因此,在一些实施例中,系统控制105、信号调节器控制器150和波束形成器控制器140可以同时接收二进制数字。然而,仅预期接收者将解码二进制数字以解释命令并且采取后续动作,而其他接收者将忽略该命令。另外,波束形成器控制器140和信号调节器控制器150可以被配置成接收和响应发送为相应的波束形成器控制信号129和信号调节器控制信号151的特定数字编码或地址。
如操作块805中所示,将响应于检测到用于控制音频记录通道属性的语音命令,调整诸如音频输出通道107或音频输出通道109的至少一个记录通道的属性。即,信号调节器控制器150将发送适当的信号调节器控制信号151以调整信号调节器153的属性或波束形成器控制器140将发送适当的波束形成器控制信号129以调整波束形成器120的参数。在一个示例中,波束形成器控制器140可以改变滤波器121、123或125的一个或多个滤波器系数。
转到图9的流程图,在操作块807,由语音命令识别逻辑103检测的语音命令可以包括用于控制音频记录通道属性的语音命令,诸如但不限于音频灵敏度缩放、在指定方向摇摄、聚焦在指定方向、遮挡指定方向、混合讲解员的声音、遮挡讲解员的声音或降低背景噪声。在操作块809,波束形成器控制器140将波束形成器控制信号129发送到波束形成器120以响应于检测的语音命令而调整波束形成器120的至少一个参数。然后,如图9所示,操作方法结束。
根据实施例,可以以不同方式实现滤波器逻辑131A和滤波器逻辑131B。在图3中提供一个示例性滤波器逻辑实施例,以及在图4中提供另一示例性滤波器逻辑实施例。图3和图4中所示的示例性滤波器逻辑可以用在图1B或图2的任何一个实施例中所示的命令字滤波逻辑130中。以图3所示的实施例开始,滤波器逻辑231包括自适应滤波器233,其可以是自适应有限脉冲响应(FIR)、自适应无限脉冲响应(IIR)滤波器、频域或某个其他适当类型的自适应滤波器。自适应滤波器233可操作地耦接到控制通道,诸如图1B中的控制通道117,或当用在图2的实施例中时的调节的控制通道161。控制通道可操作地耦接到将延迟的控制通道119提供为到自适应滤波器233的输入的延迟118。延迟的长度不小于能由语音命令识别逻辑103识别的最长命令字或命令短语。换句话说,延迟的长度至少与由语音命令识别逻辑103使用的命令字或命令短语一样长。增加延迟以便确保处理信号的正确部分(包含命令字或命令短语)。
自适应滤波器233进一步可操作地耦接到求和逻辑235并且将自适应滤波器输出243提供为求和逻辑235的减法输入。求和逻辑235还通过延迟108可操作地耦接到记录通道,以将延迟的记录通道339接收为另外的输入。即,求和逻辑235从延迟的记录通道339减去自适应滤波器输出243以获得求和逻辑输出239。在反馈配置中,求和逻辑输出239可操作地耦接到自适应滤波器233的调整输入。开关241可操作地耦接到求和逻辑235,使得求和逻辑输出可操作地耦接到开关的一个端子。开关241的第二端子可操作地耦接到延迟的记录通道339,并且开关241的共用端子可操作地耦接到记录器或语音传输电路101来提供输入133。即,开关241被配置成单刀双掷(SPDT)切换开关,因为开关241用来在延迟的记录通道339和求和逻辑输出239之间切换记录器输入133。
开关241还可操作地耦接到语音命令识别逻辑103以接收控制信号137。控制信号137控制开关241以响应于检测到由语音命令识别逻辑103检测的音频属性命令字或命令短语而将记录器输入133切换到求和逻辑输出239。换句话说,控制信号137提供由语音命令识别逻辑103检测音频属性命令字或命令短语的指示。
另一开关245可操作地耦接到自适应滤波器使能输入247并且被配置成单刀单掷(SPST)通断开关。开关245还可操作地耦接到语音命令识别逻辑103以接收控制信号137。控制信号137将操作开关245,使得当开关245处于闭合位置(即,“接通”)时,激活自适应滤波器使能输入247并且自适应滤波器233开始操作。如由虚线249所示,开关241和开关245同时操作,使得开关241将记录器输入133连接到求和逻辑输出239,接通开关245来提供自适应滤波器使能信号247并且激活自适应滤波器233。
在一些实施例中,可以将开关241和245实现为具有来自语音命令识别逻辑103的单个控制信号137连接的单个逻辑电路。在其他实施例中,如普通技术人员将理解的,开关241和开关245中的一个或两个可以由三态逻辑(即,如SPST开关等等的三态缓冲器)实现。因此,在命令字滤波逻辑130的操作中,使滤波器231去激活,直到语音命令识别逻辑103检测到命令字或命令短语并且将控制信号137发送到开关241和开关245来分别将记录器输入133连接到求和逻辑输出239并且通过提供自适应滤波器使能信号247来使能自适应滤波器233。因此,响应于检测到由语音命令识别逻辑103对虚拟音频控制通道(诸如控制通道117或调节的控制通道161)检测的命令字或命令短语,滤波器逻辑231从延迟的记录通道339、由此从记录的音频衰减或消除任何命令字或命令短语。
可以以任何适当的方式,诸如但不限于使用循环缓冲或某个其他延迟实现,来实现延迟108和延迟118。实现延迟来适应用于语音命令识别控制系统的最长预期命令字或命令短语。换句话说,延迟的长度可以至少与由语音命令识别逻辑103使用的最长命令字或命令短语一样长。
图4图示可以用在图1A、图1B或图2中所示的实施例中的任何一个中的命令字滤波逻辑130的滤波器逻辑块的另一实施例。与滤波器逻辑231类似,滤波器逻辑331也包括可操作地耦接到求和逻辑235以将自适应滤波器输出243提供为到求和逻辑235的减法输入的自适应滤波器233。滤波器逻辑331的自适应滤波器233还可操作地耦接到控制通道(诸如控制通道117或调节的控制通道161),并且控制通道可操作地耦接到将延迟的控制通道119提供为到自适应滤波器233的输入的延迟118。延迟长度与滤波器逻辑231相同,即延迟的长度至少与由语音命令识别逻辑103使用的最长命令字或命令短语一样长。
求和逻辑235还通过延迟108可操作地耦接到记录通道(诸如音频输出通道107或调节的记录通道157)以将延迟的记录通道339接收为加法输入。因此,滤波器逻辑331的求和逻辑235从延迟的记录通道339减去自适应滤波器输出243来获得求和逻辑输出337。求和逻辑输出337还可操作地耦接到用于滤波器逻辑331的反馈配置中的自适应滤波器233的调整输入。
滤波器逻辑331还包括提供音频通道的滤波和未滤波版本之间渐变的自动渐变控制的混音器逻辑333。除提供到自适应滤波器233调整输入的反馈外,求和逻辑输出337还输入到混音器逻辑333。混音器逻辑333包括可操作地耦接到延迟108来接收延迟的记录通道339的第一乘法器341,换句话说,延迟的记录通道339是记录通道的未滤波版本。渐变控制351可操作地耦接到语音命令识别逻辑103以接收由渐变控制351使用来加权记录通道的滤波和未滤波版本的语音命令识别信号349。第二乘法器342可操作地耦接到求和逻辑235并且将求和逻辑输出337接收为乘法器输入335。换句话说,求和逻辑输出337是记录通道的滤波版本。第一乘法器341和第二乘法器342均可操作地耦接到渐变控制351以分别接收加权输入“k”和“1-k”,以加权记录通道的相应过滤和未过滤版本。具体地,第一乘法器341将第一乘法器输出345提供给混音器求和逻辑347,以及第二乘法器342将第二乘法器输出343提供给混音器求和逻辑347。混音器求和逻辑347使两个乘法器输出相加并且将输入133提供给记录器或语音传输电路101。换句话说,在滤波器逻辑331中,自适应滤波器233始终在延迟的记录通道339上操作并且将输出提供给混音逻辑333以从记录器输入133减去或衰减检测的命令字或命令短语。在操作中,混音器逻辑333充当在滤波(即求和逻辑输出337)和未滤波(即,延迟的记录通道339)记录通道信号之间渐变的“渐变器”。训练自适应滤波器233来滤波通过求和逻辑235从延迟的记录通道减去的延迟的控制通道119来获得求和逻辑输出337。混音器逻辑333操作由用来加权滤波和未滤波的记录通道乘法器输入的语音命令识别逻辑信号349控制。即,延迟的记录通道339由第一乘法器341乘以“k”以及求和逻辑输出337由第二乘法器342乘以“(1-k)”来控制渐变操作。
由图10的流程图图示滤波器逻辑231的示例性操作方法。操作方法开始并且在操作块811中,滤波器逻辑231提供有作为自适应滤波器输入的至少一个音频控制通道。例如,图1的实施例中的音频控制通道117或图2的实施例中的调节的控制通道161可以可操作地耦接到自适应滤波器233输入。在操作块813,响应于由语音命令识别逻辑103检测到语音命令,诸如命令字或命令短语,激活自适应滤波器。如上所述,控制信号137闭合开关245以发送自适应滤波器使能信号247并且激活自适应滤波器233。在操作块815,通过从音频记录通道减去自适应滤波器输出243来获得提交求和逻辑输出239。更具体地,如图3所示,求和逻辑235从延迟的记录通道339减去自适应滤波器输出243以产生求和逻辑输出239。在操作块817,求和逻辑输出239提供为到自适应滤波器233调整输入的反馈237并且还提供为到记录器或语音传输电路101的记录器输入133(操作开关241以连接到求和逻辑输出239)。然后,如所示,该操作方法结束。
通过图11的流程图图示对应于图4的实施例的滤波器逻辑331的操作方法。在操作块819,将至少一个音频控制通道提供为自适应滤波器输入。例如,如图4所示,将延迟的控制通道119提供到自适应滤波器233。在操作块821,通过从延迟的记录通道339减去自适应滤波器输出243来获得求和块输出。在操作块823,将求和逻辑输出337提供为到自适应滤波器233调整输入的反馈。在操作块825,将求和块输出与所检测的语音命令一起提供给第一乘法器。例如,将求和逻辑输出337提供给混音器逻辑333并且具体地提供为到第二乘法器342的乘法器输入335。在操作块827,将至少一个音频记录通道与检测的语音命令一起提供为到第二混音器的输入。如图4所示,延迟的记录通道339与语音命令识别信号349一起输入到第一乘法器341。在操作块829,通过使第一乘法器输出与第二乘法器输出相加,获得混音器求和输出。如图4所示,将乘法器输出345和乘法器输出343提供给混音器求和逻辑347。在操作块831,并且如图4所示,将混音器求和逻辑347输出提供为到记录器或语音传输电路101的记录器输入133。然后,如图11所示,该操作方法结束。
图12的流程图提供与图3中所示的滤波器逻辑231相关的另一操作方法。该操作方法开始并且在操作块901,语音命令识别逻辑103对虚拟控制通道监视语音命令。如果在判定块903中语音命令识别逻辑103检测到命令字,则在操作块905中激活自适应滤波器233。如果在判定块903中未检测到命令字,则在操作块909中将未滤波的记录通道提供给记录器,并且该操作方法结束。例如,开关241将记录器输入133与延迟的记录通道339相连,如图3所示。如果检测到命令字,则如在操作块905中所示地激活自适应滤波器233并且将输出提供给记录器。即,从记录通道减去自适应滤波器输出243,然后将减法结果(即求和逻辑输出239)提供为到自适应滤波器233的反馈237以及提供为到记录器或语音传输电路101的输入并且该操作方法结束。在其他实施例中,块905中的滤波器操作能通过例如关联实现,并且可以在记录后完成(即,记录后)。
因此,在各个实施例的其他优点中,与控制通道束的方向无关,根据实施例的语音控制的音频记录系统将抑制其他方向的噪声并且将具有适合于驱动语音命令识别逻辑103的信噪比。用于控制通道的虚拟麦克风降低题外音来增强控制通道信噪比等。在用于控制音频属性的命令的语音命令标识后,波束形成器120和诸如信号调节器153(可以包括噪声抑制、增益等等)的其他音频处理将相应地被调整来提供期望的音频记录属性。各种实施例的另一优点在于使用控制通道和语音命令识别逻辑103来从记录通道消除控制通道声音(即语音命令)。各种实施例的另一优点在于在由语音命令识别逻辑103识别语音命令后使用在控制通道上训练的自适应滤波器来从适当延迟的记录通道减去其余命令字段。
通过在图5中提供的部分示意框图来图示波束形成器控制器140的一个示例性实施例。图5中所示的示例性波束形成器控制器可以用在相对于图1或图2所述的实施例的任何一个中。示例性波束形成器控制器140包括存储器表541和可操作耦接的选择器543。存储器表541可以存储用于预定虚拟麦克风配置的预配置波束图案。可以通过存储可以由波束形成器120用来产生期望的音频束图案(诸如用于在图7中提供的虚拟麦克风示例的示例性束图案)的滤波器系数或其他滤波器参数,来存储预配置束图案。使用波束形成器120,基于操作的当前配置,选择器543将语音命令字映射到适当的存储器位置来获得期望结果。例如,假定与图7所示的示例类似的虚拟麦克风配置,操作者可以说出命令字“聚焦左”。选择器543将编码接收为控制信号127,其可以是二进制数字串或可以是应用编程接口(API)命令,并且将编码或API命令识别为与命令“聚焦左”相关。选择器543将可以被实现为指针的选择输入545发送到存储器表541的正确位置来识别将使波束形成器120将现有的虚拟麦克风束聚焦在记录装置的左侧的物体上的所存储的滤波器系数或其他存储的波束形成器120参数。然后将存储器表输出547提供给波束形成器120,作为波束形成器控制信号129。
存储器表541可以存储在波束形成器控制器140的内部存储器或系统存储器170中。在任一实施例中,内部存储器或系统存储器170是非易失性、非瞬时存储器。在使用系统存储器170来存储存储器表541的实施例中,波束形成器控制器140可操作地耦接到系统存储器170来将数据发送到系统存储器170和从系统存储器170接收数据。选择器543在存储器接口171上将选择输入545提供给系统存储器170并且还接收存储器表输出547。波束形成器控制器140将存储器表输出547转发到波束形成器120,作为波束形成器控制信号129。
可以以与图5的示例性波束形成器控制器140类似的方式来实现信号调节控制器150。图6提供信号调节控制器150的一个示例性实施例。示例性信号调节控制器150包括存储器表651和可操作耦接的选择器653。存储器表651可以存储用于预定音频属性的各种音频参数。所存储的音频参数可以包括可以对信号调节器153的噪声抑制部件选择的噪声抑制算法或产生期望的音频属性的一些其他音频相关算法。
基于由信号调节器153操作的当前配置,选择器653将语音命令字映射到适当的存储器位置来获得期望结果。例如,操作者可以说出命令字“抑制噪声负6dB”(即,抑制噪声-6dB)来调用适当的噪声抑制算法。选择器653将编码接收为控制信号127,其可以是二进制数字串或可以是应用编程接口(API)命令,并且将该编码或API命令识别为与命令“抑制噪声负6db”相关。选择器653将可以被实现为指针的选择输入655发送到存储器表651的正确位置来识别将使信号调节器153调用适当的噪声抑制算法的存储的参数。然后,将存储器表输出657提供给信号调节器153,作为信号调节器控制信号151。
存储器表651可以存储在信号调节控制器150的内部存储器中或系统存储器170中,与存储器表541类似。在使用系统存储器170来存储存储器表651的实施例中,信号调节控制器150可操作地耦接到系统存储器170来将数据发送到系统存储器170和从其接收数据。选择器653在双向存储器接口173上将选择输入655提供给系统存储器170并且还接收存储器表输出657。信号调节控制器150将存储器表输出657转发到信号调节器153作为信号调节器控制信号151。
将理解,上文相对于诸如但不限于语音命令识别逻辑103、波束形成器控制器140、信号调节器控制器150等的各个部件所述的各种“控制信号”可以以诸如使用各个部件之间的API的各种方式来实现。此外,图5和6中所示的存储器表操作可以使用指针和系统存储器170中存储的单个存储器表等来实现。此外,可以实现控制信号129和控制信号151,使得波束形成器120和信号调节器153从系统存储器170获得控制信息,诸如但不限于音频属性参数、滤波器系数等等,并且这样的实现是预期的实施例并且根据在此所述的实施例和示例。
图13的流程图提供与参考图1A、图1B或图2所述的实施例相关的另一操作方法。在操作块1001中,该组麦克风110可以用来形成至少一个音频记录通道和至少一个音频控制通道。这可以通过将单个麦克风输出用作音频通道或通过对两个或更多个麦克风输出进行波束形成来形成音频通道,诸如虚拟音频记录通道和虚拟音频控制通道或通过组合或两者(虚拟和非虚拟音频通道)来实现。对非虚拟音频通道,波束形成器120使适当的麦克风输出通过,作为记录通道或作为控制通道,而不应用任何波束形成。在操作块1003,语音命令识别逻辑103对音频控制通道执行语音识别来检测用于控制音频控制通道的语音命令和音频记录通道属性。在各种实施例中,音频通道属性可以与音频通道的方向性、或诸如与应用于音频通道的信号调节相关的那些属性的非方向性相关属性相关。换句话说,在方向性控制的情况下,语音命令可以控制应用于虚拟音频通道的波束形成图案,或可以切换定向麦克风来指向该装置的前或后等等。这样的方向性控制可以应用于音频记录通道或音频控制通道。在信号调节控制的情况下,可以以在上文中相对于各种实施例详细所述的各种方式来控制信号调节用于音频记录通道。因此,在操作块1005,响应于检测到用于控制各相应音频通道的音频通道属性的(音频控制通道上的)语音命令,对适当的音频通道调整音频通道属性。
尽管已经图示和描述了各个实施例,但应理解不限制本发明。对本领域的技术人员来说,在不背离如由所附权利要求限定的本发明的范围的情况下,能想到各种改进、改变、变形、替代和等效。
Claims (20)
1.一种方法,包括:
使用多个麦克风输出来获得多个音频通道,所述多个音频通道包括至少一个音频输出通道和至少一个音频控制通道;
对所述至少一个音频控制通道执行语音识别以检测用于控制音频通道属性的语音命令;以及
响应于检测到用于控制有关至少一个音频控制通道的音频通道属性的语音命令,调整至少一个音频通道的音频通道属性。
2.如权利要求1所述的方法,其中,调整至少一个音频通道的音频通道属性包括:
控制波束形成器来修改与至少一个音频通道相对应的波束形成。
3.如权利要求1所述的方法,其中,调整至少一个音频通道的音频属性包括:
控制应用于至少一个音频通道的信号调节。
4.如权利要求1所述的方法,其中,检测用于控制音频通道属性的语音命令包括:
检测用于控制包括音频灵敏度缩放、指定方向的摇摄、聚焦在指定方向上、遮挡指定方向、混和讲述者的语音、阻止讲述者的语音或降低背景噪声的音频通道属性的语音命令。
5.如权利要求2所述的方法,其中,控制波束形成器包括:
改变可调波束形成器滤波器的滤波器系数来修改至少一个波束形成。
6.如权利要求1所述的方法,进一步包括:
响应于检测到所述语音命令,执行自适应滤波来衰减音频输出通道中的语音命令。
7.如权利要求1所述的方法,进一步包括:
执行自适应滤波来衰减音频通道中的语音命令并且获得音频通道的滤波版本;以及
响应于检测到所述语音命令,在所述音频通道和所述音频通道的滤波版本之间执行自动渐变。
8.一种方法,包括:
对多个麦克风输出进行波束形成来获得包括至少一个音频输出通道和至少一个音频控制通道的多个虚拟麦克风音频通道;
对所述至少一个音频控制通道执行语音识别以检测用于控制至少一个音频通道的音频通道属性的语音命令;以及
响应于检测到用于控制有关所述至少一个音频控制通道的音频通道属性的语音命令,调整所述至少一个音频通道的音频通道属性。
9.如权利要求8所述的方法,其中,调整至少一个音频通道的音频通道属性包括:
调整与对应于至少一个音频通道的波束形成的方向性相关的音频通道属性。
10.如权利要求8所述的方法,其中,调整至少一个音频通道的音频通道属性包括:
通过调整可调波束形成器的至少一个参数,来控制所述可调波束形成器。
11.如权利要求8所述的方法,其中,调整至少一个音频通道的音频通道属性包括:
控制可调波束形成器来改变与所述至少一个控制通道相对应的波束形成的方向。
12.一种装置,包括:
波束形成器,所述波束形成器可操作地耦接到多个麦克风输出,所述波束形成器用来将包括至少一个音频输出通道和至少一个音频控制通道的多个虚拟麦克风音频通道提供为波束形成器输出;
语音命令识别逻辑,所述语音命令识别逻辑可操作地耦接到所述波束形成器以接收所述至少一个音频控制通道,所述语音命令识别逻辑用来对所述至少一个音频控制通道执行语音识别以检测用于控制音频通道属性的语音命令;以及
波束形成器控制器,所述波束形成器控制器可操作地耦接到所述波束形成器和所述语音命令识别逻辑,所述波束形成器控制器用来响应于由所述语音命令识别逻辑检测到语音命令而控制所述波束形成器,所述语音命令用于控制所述至少一个音频输出通道或所述至少一个控制通道的音频通道属性。
13.如权利要求12所述的装置,其中,所述波束形成器控制器进一步用来控制所述波束形成器以修改与所述至少一个音频输出通道或所述至少一个控制通道相对应的波束形成。
14.如权利要求12所述的装置,其中,所述波束形成器包括:
多个滤波器,所述多个滤波器可操作地耦接到所述多个麦克风输出;以及
其中,所述波束形成器控制器进一步用来改变所述波束形成器的至少一个滤波器的滤波器系数。
15.如权利要求12所述的装置,其中,所述语音识别逻辑进一步用来检测用于控制包括音频灵敏度缩放、指定方向的摇摄、聚焦在指定方向上、遮挡指定方向、混和讲述者的语音、阻止讲述者的语音或降低背景噪声的音频通道属性的语音命令。
16.如权利要求12所述的装置,进一步包括:
信号调节器,所述信号调节器可操作地耦接到所述语音识别逻辑和所述波束形成器以将所述多个虚拟麦克风音频通道接收为输入,所述信号调节器具有对应于每个虚拟麦克风音频通道输入的多个相应的输出;以及
信号调节器控制器,所述信号调节器控制器可操作地耦接到所述语音识别逻辑和所述信号调节器,所述信号调节器控制器用来通过调整所述信号调节器的至少一个参数响应于检测到用于控制音频输出通道属性的语音命令而调整所述至少一个音频输出通道的属性。
17.如权利要求12所述的装置,进一步包括:
可操作地耦接到所述波束形成器输出的滤波器逻辑;以及
记录器,所述记录器可操作地耦接到所述滤波器逻辑以将所述至少一个音频通道接收为来自所述滤波器逻辑的输出。
18.一种装置,包括:
多个麦克风,用来提供包括至少一个音频输出通道和至少一个音频控制通道的多个音频通道;
语音命令识别逻辑,所述语音命令识别逻辑可操作地耦接到所述多个麦克风以接收所述至少一个音频控制通道,所述语音命令识别逻辑用来对所述至少一个音频控制通道执行语音识别以检测用于控制音频通道信号调节的语音命令;以及
信号调节器控制器,所述信号调节器控制器可操作地耦接到所述语音命令识别逻辑,所述信号调节器控制器用来响应于由所述语音命令识别逻辑检测到语音命令而控制应用于音频通道的信号调节,所述语音命令用于控制音频通道信号调节。
19.如权利要求18所述的装置,进一步包括:
可操作地耦接到所述多个麦克风的波束形成器。
20.如权利要求19所述的装置,进一步包括:
可操作地耦接到所述波束形成器和所述信号调节器控制器的信号调节器。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361827052P | 2013-05-24 | 2013-05-24 | |
US61/827,052 | 2013-05-24 | ||
US13/956,335 US9984675B2 (en) | 2013-05-24 | 2013-07-31 | Voice controlled audio recording system with adjustable beamforming |
US13/956,335 | 2013-07-31 | ||
PCT/US2014/038537 WO2014189815A1 (en) | 2013-05-24 | 2014-05-19 | Voice controlled audio recording or transmission apparatus with adjustable audio channels |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105659317A true CN105659317A (zh) | 2016-06-08 |
Family
ID=50942924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480029995.2A Pending CN105659317A (zh) | 2013-05-24 | 2014-05-19 | 具有可调音频通道的语音控制的音频记录或传输装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9984675B2 (zh) |
EP (1) | EP3005349B1 (zh) |
KR (1) | KR101826274B1 (zh) |
CN (1) | CN105659317A (zh) |
WO (1) | WO2014189815A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375681A (zh) * | 2016-09-29 | 2017-02-01 | 维沃移动通信有限公司 | 一种动静结合影像的生成方法和移动终端 |
CN110140171A (zh) * | 2017-01-03 | 2019-08-16 | 皇家飞利浦有限公司 | 使用波束形成的音频捕获 |
TWI774231B (zh) * | 2021-02-05 | 2022-08-11 | 瑞昱半導體股份有限公司 | 聲音輸入輸出系統及噪音消除電路 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US9269350B2 (en) * | 2013-05-24 | 2016-02-23 | Google Technology Holdings LLC | Voice controlled audio recording or transmission apparatus with keyword filtering |
US9984675B2 (en) | 2013-05-24 | 2018-05-29 | Google Technology Holdings LLC | Voice controlled audio recording system with adjustable beamforming |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
US10609475B2 (en) | 2014-12-05 | 2020-03-31 | Stages Llc | Active noise control and customized audio system |
US9654868B2 (en) | 2014-12-05 | 2017-05-16 | Stages Llc | Multi-channel multi-domain source identification and tracking |
US20160165338A1 (en) * | 2014-12-05 | 2016-06-09 | Stages Pcs, Llc | Directional audio recording system |
US9940949B1 (en) * | 2014-12-19 | 2018-04-10 | Amazon Technologies, Inc. | Dynamic adjustment of expression detection criteria |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
KR102151682B1 (ko) | 2016-03-23 | 2020-09-04 | 구글 엘엘씨 | 다중채널 음성 인식을 위한 적응성 오디오 강화 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US10431211B2 (en) | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US9980042B1 (en) | 2016-11-18 | 2018-05-22 | Stages Llc | Beamformer direction of arrival and orientation analysis system |
US10945080B2 (en) | 2016-11-18 | 2021-03-09 | Stages Llc | Audio analysis and processing system |
US9980075B1 (en) | 2016-11-18 | 2018-05-22 | Stages Llc | Audio source spatialization relative to orientation sensor and output |
US10366702B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10362393B2 (en) | 2017-02-08 | 2019-07-23 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10229667B2 (en) * | 2017-02-08 | 2019-03-12 | Logitech Europe S.A. | Multi-directional beamforming device for acquiring and processing audible input |
US10366700B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Device for acquiring and processing audible input |
JP6874430B2 (ja) * | 2017-03-09 | 2021-05-19 | ティアック株式会社 | 音声レコーダ |
JP2019021966A (ja) * | 2017-07-11 | 2019-02-07 | オリンパス株式会社 | 収音装置および収音方法 |
US10930300B2 (en) * | 2018-11-02 | 2021-02-23 | Veritext, Llc | Automated transcript generation from multi-channel audio |
US10863296B1 (en) * | 2019-03-26 | 2020-12-08 | Amazon Technologies, Inc. | Microphone failure detection and re-optimization |
KR20200145485A (ko) | 2019-06-21 | 2020-12-30 | 김대연 | 색 구별 빨래통 |
US11355108B2 (en) * | 2019-08-20 | 2022-06-07 | International Business Machines Corporation | Distinguishing voice commands |
US11508348B2 (en) * | 2020-02-05 | 2022-11-22 | Motorola Mobility Llc | Directional noise suppression |
US11277689B2 (en) | 2020-02-24 | 2022-03-15 | Logitech Europe S.A. | Apparatus and method for optimizing sound quality of a generated audible signal |
DE102020202483A1 (de) * | 2020-02-26 | 2021-08-26 | Sivantos Pte. Ltd. | Hörsystem mit mindestens einem im oder am Ohr des Nutzers getragenen Hörinstrument sowie Verfahren zum Betrieb eines solchen Hörsystems |
CN111698631B (zh) * | 2020-05-22 | 2021-10-15 | 深圳市东微智能科技股份有限公司 | 音频设备自动调试方法、音频设备以及音频系统 |
US11848015B2 (en) * | 2020-10-01 | 2023-12-19 | Realwear, Inc. | Voice command scrubbing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1288223A (zh) * | 1999-09-14 | 2001-03-21 | 德国汤姆森-布兰特有限公司 | 用于语音控制的适应方向性特征的装置 |
JP2001203974A (ja) * | 2000-01-19 | 2001-07-27 | Matsushita Electric Ind Co Ltd | 音声制御型音声映像記録装置及び音声制御方法 |
CN1689073A (zh) * | 2002-10-23 | 2005-10-26 | 皇家飞利浦电子股份有限公司 | 基于语音来控制设备 |
US20060280312A1 (en) * | 2003-08-27 | 2006-12-14 | Mao Xiao D | Methods and apparatus for capturing audio signals based on a visual image |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4535445A (en) * | 1983-06-16 | 1985-08-13 | At&T Information Systems | Conferencing system adaptive signal conditioner |
JP2687712B2 (ja) | 1990-07-26 | 1997-12-08 | 三菱電機株式会社 | 一体型ビデオカメラ |
DE19812697A1 (de) * | 1998-03-23 | 1999-09-30 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb einer Mikrofonanordnung, insbesondere in einem Kraftfahrzeug |
US7549128B2 (en) * | 2000-08-08 | 2009-06-16 | Thomson Licensing | Building macro elements for production automation control |
US7024366B1 (en) | 2000-01-10 | 2006-04-04 | Delphi Technologies, Inc. | Speech recognition with user specific adaptive voice feedback |
US6937980B2 (en) | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
US7716047B2 (en) | 2002-10-16 | 2010-05-11 | Sony Corporation | System and method for an automatic set-up of speech recognition engines |
US10733976B2 (en) | 2003-03-01 | 2020-08-04 | Robert E. Coifman | Method and apparatus for improving the transcription accuracy of speech recognition software |
JP4209247B2 (ja) * | 2003-05-02 | 2009-01-14 | アルパイン株式会社 | 音声認識装置および方法 |
CN1947171B (zh) | 2004-04-28 | 2011-05-04 | 皇家飞利浦电子股份有限公司 | 自适应波束形成器、旁瓣抑制器、自动语音通信设备 |
US7912230B2 (en) | 2004-06-16 | 2011-03-22 | Panasonic Corporation | Howling detection device and method |
DE602005008005D1 (de) * | 2005-02-23 | 2008-08-21 | Harman Becker Automotive Sys | Spracherkennungssytem in einem Kraftfahrzeug |
US7590536B2 (en) | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
CA2571385C (en) * | 2006-12-18 | 2015-11-24 | University Of Waterloo | Adaptive channel prediction system and method |
US8005238B2 (en) | 2007-03-22 | 2011-08-23 | Microsoft Corporation | Robust adaptive beamforming with enhanced noise suppression |
US20080259731A1 (en) * | 2007-04-17 | 2008-10-23 | Happonen Aki P | Methods and apparatuses for user controlled beamforming |
FR2915631B1 (fr) | 2007-04-27 | 2009-07-10 | Thales Sa | Source laser compacte a faible largeur spectrale. |
US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
CN101779476B (zh) * | 2007-06-13 | 2015-02-25 | 爱利富卡姆公司 | 全向性双麦克风阵列 |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
US8184180B2 (en) | 2009-03-25 | 2012-05-22 | Broadcom Corporation | Spatially synchronized audio and video capture |
US8620672B2 (en) | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
US9262120B2 (en) * | 2009-09-11 | 2016-02-16 | Nokia Technologies Oy | Audio service graphical user interface |
US8786440B2 (en) * | 2009-10-02 | 2014-07-22 | Checkpoint Systems, Inc. | Calibration of beamforming nodes in a configurable monitoring device system |
US8300845B2 (en) * | 2010-06-23 | 2012-10-30 | Motorola Mobility Llc | Electronic apparatus having microphones with controllable front-side gain and rear-side gain |
US20120134507A1 (en) | 2010-11-30 | 2012-05-31 | Dimitriadis Dimitrios B | Methods, Systems, and Products for Voice Control |
US8525868B2 (en) | 2011-01-13 | 2013-09-03 | Qualcomm Incorporated | Variable beamforming with a mobile platform |
DK3190587T3 (en) | 2012-08-24 | 2019-01-21 | Oticon As | Noise estimation for noise reduction and echo suppression in personal communication |
US8600746B1 (en) | 2012-09-10 | 2013-12-03 | Google Inc. | Speech recognition parameter adjustment |
US9584642B2 (en) * | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US9525938B2 (en) * | 2013-02-06 | 2016-12-20 | Apple Inc. | User voice location estimation for adjusting portable device beamforming settings |
US9633670B2 (en) | 2013-03-13 | 2017-04-25 | Kopin Corporation | Dual stage noise reduction architecture for desired signal extraction |
US9984675B2 (en) | 2013-05-24 | 2018-05-29 | Google Technology Holdings LLC | Voice controlled audio recording system with adjustable beamforming |
US9269350B2 (en) | 2013-05-24 | 2016-02-23 | Google Technology Holdings LLC | Voice controlled audio recording or transmission apparatus with keyword filtering |
-
2013
- 2013-07-31 US US13/956,335 patent/US9984675B2/en not_active Expired - Fee Related
-
2014
- 2014-05-19 EP EP14730387.9A patent/EP3005349B1/en active Active
- 2014-05-19 KR KR1020157036317A patent/KR101826274B1/ko active IP Right Grant
- 2014-05-19 CN CN201480029995.2A patent/CN105659317A/zh active Pending
- 2014-05-19 WO PCT/US2014/038537 patent/WO2014189815A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1288223A (zh) * | 1999-09-14 | 2001-03-21 | 德国汤姆森-布兰特有限公司 | 用于语音控制的适应方向性特征的装置 |
JP2001203974A (ja) * | 2000-01-19 | 2001-07-27 | Matsushita Electric Ind Co Ltd | 音声制御型音声映像記録装置及び音声制御方法 |
CN1689073A (zh) * | 2002-10-23 | 2005-10-26 | 皇家飞利浦电子股份有限公司 | 基于语音来控制设备 |
US20060280312A1 (en) * | 2003-08-27 | 2006-12-14 | Mao Xiao D | Methods and apparatus for capturing audio signals based on a visual image |
Non-Patent Citations (1)
Title |
---|
何子述等: "《现代数字信号处理及其应用》", 31 May 2009, 清华大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375681A (zh) * | 2016-09-29 | 2017-02-01 | 维沃移动通信有限公司 | 一种动静结合影像的生成方法和移动终端 |
CN110140171A (zh) * | 2017-01-03 | 2019-08-16 | 皇家飞利浦有限公司 | 使用波束形成的音频捕获 |
CN110140171B (zh) * | 2017-01-03 | 2023-08-22 | 皇家飞利浦有限公司 | 使用波束形成的音频捕获 |
TWI774231B (zh) * | 2021-02-05 | 2022-08-11 | 瑞昱半導體股份有限公司 | 聲音輸入輸出系統及噪音消除電路 |
Also Published As
Publication number | Publication date |
---|---|
EP3005349A1 (en) | 2016-04-13 |
US20140350926A1 (en) | 2014-11-27 |
WO2014189815A1 (en) | 2014-11-27 |
EP3005349B1 (en) | 2020-04-15 |
US9984675B2 (en) | 2018-05-29 |
KR20160013142A (ko) | 2016-02-03 |
KR101826274B1 (ko) | 2018-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105659317A (zh) | 具有可调音频通道的语音控制的音频记录或传输装置 | |
US9269350B2 (en) | Voice controlled audio recording or transmission apparatus with keyword filtering | |
US11302326B2 (en) | Tone interference cancellation | |
EP3343559B1 (en) | De-reverberation control method and device thereof | |
US10560774B2 (en) | Headset mode selection | |
CN105515834B (zh) | 设备分组管理系统、方法及装置 | |
CN101911723B (zh) | 通过在来自多个麦克风的信号之间智能地进行选择而改善声音质量 | |
CN106685772A (zh) | 一种智能音箱、智能家居系统及其实现方法 | |
CN101682810A (zh) | 一种视频会议装置 | |
US20230362534A1 (en) | Microphone with Adjustable Signal Processing | |
US11812241B2 (en) | Audio signal limiter | |
KR20210124217A (ko) | 지능형 개인용 어시스턴트 | |
JP5167706B2 (ja) | 放収音装置 | |
CN104079420A (zh) | 一种信息处理方法及电子设备 | |
CN114071220B (zh) | 音效调节方法、装置、存储介质及电子设备 | |
CN207732984U (zh) | 一种具有无线音视频推送功能的功放一体机 | |
CN105681660B (zh) | 一种拍摄模式的切换方法和装置 | |
JPH10191290A (ja) | マイクロホン内蔵型ビデオカメラ | |
CN220043611U (zh) | 微型指向性录音装置及电子设备 | |
CN105827807A (zh) | 一种音量控制方法及终端设备 | |
EP4120692A1 (en) | An apparatus, method and computer program for enabling audio zooming | |
CN215072818U (zh) | 音箱及扩声系统 | |
JPH1168495A (ja) | 信号処理デバイス | |
WO2022120091A2 (en) | Progressive calculation and application of rendering configurations for dynamic applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160608 |