CN1288223A - 用于语音控制的适应方向性特征的装置 - Google Patents

用于语音控制的适应方向性特征的装置 Download PDF

Info

Publication number
CN1288223A
CN1288223A CN 00123499 CN00123499A CN1288223A CN 1288223 A CN1288223 A CN 1288223A CN 00123499 CN00123499 CN 00123499 CN 00123499 A CN00123499 A CN 00123499A CN 1288223 A CN1288223 A CN 1288223A
Authority
CN
China
Prior art keywords
user
microphone
voice control
signal
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 00123499
Other languages
English (en)
Inventor
恩斯特·F·施罗德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Thomson Brandt GmbH
Original Assignee
Deutsche Thomson Brandt GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Thomson Brandt GmbH filed Critical Deutsche Thomson Brandt GmbH
Publication of CN1288223A publication Critical patent/CN1288223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Television Systems (AREA)
  • Selective Calling Equipment (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

语音控制系统被用于不同的技术领域。首先由一个或多个麦克风(M1、M2)检测口语字,然后,馈送到语音识别系统(REC),REC从检测的信号中确定具有最高的概率这些词。有关声学干涉影响的强度可由直接紧扣或固定在讲话者的嘴的前面增加。本发明可以在相对远的距离进行语音控制,干扰背景噪声可以使用方向性麦克风或麦克风阵列(M1、M2)空间地分离。提供了检测用户所在位置的装置。一个或多个红外移动检测器用于这个目的。

Description

用于语音控制的适应方向性特征的装置
本发明涉及用于语音控制的适应方向性特征的装置,特别是控制属于消费类电子产品的电器。
语音控制系统被使用在多种技术领域。在这个例子中,口语字首先被检测为声音信号,通常由一个或多个麦克风检测,然后,声音信号被馈送到语音识别系统。在这个例子中,通常,语音识别是基于声音模型和语音模型。声音模型采用大量的语音图形、所用的数学算法指明声学上与口语字最匹配的字。而语音模型是基于分析,该分析使用多个文档样本以确定上下文,以及在该上下文中某些字是如何经常被使用。这样的语音识别系统不仅识别单个的字,并且能够高识别率的识别连续口语句子。然而,当不可忽视的背景噪声呈现时,识别率急剧下降。
有关这些声学干扰影响的强度可由各种不同的方式增加。因此,在计算机的专用系统中,耳机上的麦克风直接紧扣在讲话者嘴的前面。在这些系统中,真实的不变信号和在某些情况中的可感知的识别率只在直接邻近嘴的位置获得。同样已知通过把声音操作指令输入到集成在遥控装置中的麦克风来控制电视机。然而,在此类情况下遥控装置必须放置在用户的嘴的前面。
本发明的目的是提供一种语音控制的装置,尽管语音输入来自相对远的距离,但该装置具有足够大的抗干扰能力。本发明目的可由下面将描述的装置获得。
为了能够从相对远的距离进行语音控制,语音信号必须从干扰背景信号中分离出来。通过使用包括两个或多个麦克风的方向性麦克风或麦克风阵列完成空间分离。然而,如果目的是在语音输入期间,允许用户在室内自由移动,而不是所说的用户被限制在有限的区域,例如,居中在电器的前面,那么,必须适应这些麦克风阵列的方向性特性。麦克风信号本身将被用于这个适应。在这个例子中,首先必须检测对应信号的出现,然后,麦克风阵列对应地适应该信号,只有满足了语音识别之后才开始识别。然而,这个处理顺序需要几秒时间,因此,意味着不能够识别第一个音节甚至第一个词。
原则上,本发明的语音激励的遥控装置包括一个或多个麦克风,其把语音指令转换成为电信号,和语音识别单元,其把这些电信号转换成为操作指令,以及一个装置,用于检测用户的所在位置,该装置对用户的所在位置产生了适应麦克风的方向性特性的信号。
使用分离检测装置具有一个优点,用户所在位置的快速检测总是能够检测到和识别到指令的第一个音节或第一个词。原则上,任何快速检测装置适用于这个目的。
用于检测用户所在位置的装置有一个或多个红外移动检测器。
同样,如果检测用户所在位置装置有除了红外移动检测器之外或替换红外移动检测器的电接触,它可能是一个优点。
也提供了方向性麦克风,其定向于用户的所在位置。
根据本发明,装置的特别优点使其被集成在消费电子电器中。
参考附图论述本发明的实施例。按照本发明,所述的附图显示了语音控制的配置。
图1显示了本发明的装置,其可以被集成在电视机、录像机或DVD播放器中。为在用户发布使用指令之前检测用户的位置,提供了一个红外位置检测器。红外检测的原理是,由物体或人辐射的红外辐射的强度取决于它们的温度。红外位置检测器包括多个红外检测器IR,本领域技术人员对该检测器是熟悉的,所以对该检测器不作详细的描述,因为单个检测器只能确定用户的存在或移动,但不能确定用户的位置。根据分辨率的要求,该配置可以包括多个单检测器或阵列检测器,用于红外或热像摄像机。在这个例子中,观察范围受镜头或镜头组合的影响(未示出)。从红外检测器的红外辐射获得的电信号由放大器V3放大,然后,该信号被发送到控制单元CIR,CIR从检测到的信号确定了用户的所在位置,如果适当,也确定了用户的移动方向。
为检测语音信号,提供了包括两个麦克风M1和M2的麦克风阵列。麦克风阵列把检测到的声音信号转换成为电信号,该电信号首先由放大器V1和V2放大,然后,被馈送到信号处理单元PROC。然后,通过不同的数值或检测到的声音信号的处理,后者考虑用户各自的所在位置。然后,以这种方式处理的信号被馈送到语音识别单元REC,其把电信号转换成为词。最后,对应这些词的指令被馈送到系统管理器CSYS,用于控制系统。
麦克风阵列包括两个麦克风,两个麦克风可以方便地安装在各自电器外壳的左右两边。但是,麦克风阵列没有限制两个麦克风,可以超过两个麦克风。同样,使用具有发音方向性特性的方向性麦克风也是可能的,然后根据检测的用户的所在位置旋转该麦克风。
在基本设置中,优点在于能够在电器所放置的房间的进入区域的方向实施定向。因此,只要用户进入房间,电器立刻处于待用状态。
如果检测到多个可能的用户,那么,各种不同的处理是可以想象的。根据实施例,方向性特性总是适应首先所检测的用户,所以,麦克风阵列跟随这个用户。同样,麦克风阵列也跟随首先完成语音输入的用户。此外,在各种可能的用户之间完成经常的定向转换是可能的。最后,以这种方式,被检测物体的尺寸按顺序估算,以防止定向于用户的宠物。
此外,通过门的接触或灯开关检测用户进入房间而不通过红外检测器是可能的。最后,这样的接触与红外检测组合也是可能的。
根据进一步的实施例,检测装置可以由电器关断连续地激活。如果检测到用户,只是麦克风的方向性特性被适应,并且,语音识别被打开。如果用户发出指令,特别是发出打开被控制电器的指令,那么,将要确保电器的其它功能也将被激活。在这种方式,电器连续处于待用状态,仅为电器的要求消耗很低的功率输出。
本发明可以适用属于消费电子的各种电器的语音激励遥控装置,例如,电视机、录像机、DVD播放机、卫星接收机、电视/视频组合、音频装置或完整的音频系统,同样,适用于个人计算机或家用电器。

Claims (5)

1.用于语音激励的遥控装置,具有一个或多个麦克风(M1、M2),用于把语音指令转换成为电信号,和一个语音识别单元(REC),用于把这些电信号转换成为操作指令,其特征在于提供了检测用户所在位置的装置(IR、V3、CIR),该装置对用户所在位置产生适应麦克风的方向性特性的信号。
2.按权利要求1所述的装置,其特征在于检测用户的所在位置的装置有一个或多个红外移动检测器。
3.按权利要求1或2所述的装置,其特征在于检测用户所在位置的装置有电接触点。
4.按前述权利要求之一所述的装置,其特征在于提供的方向性麦克风定向于用户所在位置。
5.一种电子消费类装置,其特征在于采用了前述任何一个权利要求的装置。
CN 00123499 1999-09-14 2000-08-18 用于语音控制的适应方向性特征的装置 Pending CN1288223A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE1999143872 DE19943872A1 (de) 1999-09-14 1999-09-14 Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen für die Sprachsteuerung
DE19943872.2 1999-09-14

Publications (1)

Publication Number Publication Date
CN1288223A true CN1288223A (zh) 2001-03-21

Family

ID=7921896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00123499 Pending CN1288223A (zh) 1999-09-14 2000-08-18 用于语音控制的适应方向性特征的装置

Country Status (4)

Country Link
EP (1) EP1085781A3 (zh)
JP (1) JP2001125594A (zh)
CN (1) CN1288223A (zh)
DE (1) DE19943872A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670823B (zh) * 2004-03-17 2010-06-16 纽昂斯通讯公司 通过麦克风阵列检测和降低噪声的方法
CN101625871B (zh) * 2008-07-11 2012-07-04 富士通株式会社 噪声抑制装置、噪声抑制方法以及移动电话机
CN101071566B (zh) * 2006-05-09 2012-11-07 美商富迪科技股份有限公司 小阵列麦克风系统、噪声抑制装置及其抑制方法
CN101305360B (zh) * 2005-11-08 2013-07-31 微软公司 索引和搜索带有文本元数据的语音
CN103329565A (zh) * 2011-01-05 2013-09-25 皇家飞利浦电子股份有限公司 音频系统及其操作方法
CN104200816A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音控制方法和系统
CN104200817A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音控制方法和系统
CN105659317A (zh) * 2013-05-24 2016-06-08 谷歌技术控股有限责任公司 具有可调音频通道的语音控制的音频记录或传输装置
CN107018475A (zh) * 2011-12-19 2017-08-04 高通股份有限公司 自动化用户/传感器定位辨识以在分布式多传感器环境中定制音频性能
CN109479172A (zh) * 2016-04-21 2019-03-15 惠普发展公司,有限责任合伙企业 电子设备麦克风监听模式

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO316560B1 (no) * 2001-02-21 2004-02-02 Meditron Asa Mikrofon med avstandsmåler
GB2375276B (en) * 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
DE10208469A1 (de) * 2002-02-27 2003-09-04 Bsh Bosch Siemens Hausgeraete Elektrisches Gerät, insbesondere Dunstabzugshaube
DE10252457A1 (de) * 2002-11-12 2004-05-27 Harman Becker Automotive Systems Gmbh Spracheingabe-Interface
DE10308414B4 (de) * 2003-02-27 2007-10-04 Bayerische Motoren Werke Ag Verfahren zur Steuerung eines Akustiksystems im Fahrzeug
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback
EP1800291B1 (de) * 2004-10-04 2012-09-05 Volkswagen Aktiengesellschaft Vorrichtung zur akustischen kommunikation und/oder wahrnehmung in einem kraftfahrzeug
DE102004049345A1 (de) 2004-10-08 2006-04-13 Robert Bosch Gmbh Verfahren und Vorrichtung zur Steuerung eines Antriebseinheit
EP1695873B1 (en) 2005-02-23 2008-07-09 Harman Becker Automotive Systems GmbH Vehicle speech recognition system
JP4757786B2 (ja) * 2006-12-07 2011-08-24 Necアクセステクニカ株式会社 音源方向推定装置、音源方向推定方法、及びロボット装置
JP5380777B2 (ja) * 2007-02-21 2014-01-08 ヤマハ株式会社 音声会議装置
GB2493327B (en) 2011-07-05 2018-06-06 Skype Processing audio signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
JP5318258B1 (ja) * 2012-07-03 2013-10-16 株式会社東芝 集音装置
CN104267618B (zh) * 2014-07-31 2017-06-13 广东美的制冷设备有限公司 基于红外定位的语音控制方法和系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4523185A (en) * 1982-03-15 1985-06-11 Albert Roth Zoned intrusion display with series-connected sensors
US4586195A (en) * 1984-06-25 1986-04-29 Siemens Corporate Research & Support, Inc. Microphone range finder
CA2049173C (en) * 1990-08-16 1996-06-25 Shoji Fujimoto Speech recognition apparatus
JPH05207117A (ja) * 1992-01-30 1993-08-13 Mazda Motor Corp マイクロホンの指向性制御装置
DE4313256A1 (de) * 1993-04-23 1994-10-27 Sel Alcatel Ag Verfahren zum Unterdrücken von Rückkopplungen bei Saal- oder Großfeldbeschallungsanlagen und Schaltungsanordnung zur Ausführung des Verfahrens
DE4439146A1 (de) * 1994-11-03 1996-05-09 Deutsche Telekom Ag Freisprechanordnung mit einem Lautsprecher und einem Mikrofon
US5641963A (en) * 1995-09-29 1997-06-24 Mueller; Thomas J. Infrared location system
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
DE19741596A1 (de) * 1997-09-20 1999-03-25 Bosch Gmbh Robert Verfahren zur Optimierung des Empfangs akustischer Signale und elektrisches Gerät
DE19812697A1 (de) * 1998-03-23 1999-09-30 Volkswagen Ag Verfahren und Einrichtung zum Betrieb einer Mikrofonanordnung, insbesondere in einem Kraftfahrzeug
DE19844748A1 (de) * 1998-09-29 1999-10-07 Siemens Audiologische Technik Verfahren zum Bereitstellen einer Richtmikrofoncharakteristik und Hörgerät

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670823B (zh) * 2004-03-17 2010-06-16 纽昂斯通讯公司 通过麦克风阵列检测和降低噪声的方法
CN101305360B (zh) * 2005-11-08 2013-07-31 微软公司 索引和搜索带有文本元数据的语音
CN101071566B (zh) * 2006-05-09 2012-11-07 美商富迪科技股份有限公司 小阵列麦克风系统、噪声抑制装置及其抑制方法
CN101625871B (zh) * 2008-07-11 2012-07-04 富士通株式会社 噪声抑制装置、噪声抑制方法以及移动电话机
CN103329565A (zh) * 2011-01-05 2013-09-25 皇家飞利浦电子股份有限公司 音频系统及其操作方法
CN107018475A (zh) * 2011-12-19 2017-08-04 高通股份有限公司 自动化用户/传感器定位辨识以在分布式多传感器环境中定制音频性能
CN107018475B (zh) * 2011-12-19 2019-11-22 高通股份有限公司 自动化用户/传感器定位辨识以在分布式多传感器环境中定制音频性能
US10492015B2 (en) 2011-12-19 2019-11-26 Qualcomm Incorporated Automated user/sensor location recognition to customize audio performance in a distributed multi-sensor environment
CN105659317A (zh) * 2013-05-24 2016-06-08 谷歌技术控股有限责任公司 具有可调音频通道的语音控制的音频记录或传输装置
CN104200817A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音控制方法和系统
CN104200817B (zh) * 2014-07-31 2017-07-28 广东美的制冷设备有限公司 语音控制方法和系统
CN104200816A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音控制方法和系统
CN104200816B (zh) * 2014-07-31 2017-12-22 广东美的制冷设备有限公司 语音控制方法和系统
CN109479172A (zh) * 2016-04-21 2019-03-15 惠普发展公司,有限责任合伙企业 电子设备麦克风监听模式
US10993057B2 (en) 2016-04-21 2021-04-27 Hewlett-Packard Development Company, L.P. Electronic device microphone listening modes

Also Published As

Publication number Publication date
EP1085781A2 (en) 2001-03-21
EP1085781A3 (en) 2001-08-16
JP2001125594A (ja) 2001-05-11
DE19943872A1 (de) 2001-03-15

Similar Documents

Publication Publication Date Title
CN1288223A (zh) 用于语音控制的适应方向性特征的装置
CN111370014B (zh) 多流目标-语音检测和信道融合的系统和方法
US10504511B2 (en) Customizable wake-up voice commands
EP3414759B1 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
US9940949B1 (en) Dynamic adjustment of expression detection criteria
CN105532017B (zh) 用于波束形成以获得语音和噪声信号的装置和方法
US7885818B2 (en) Controlling an apparatus based on speech
EP3301948A1 (en) System and method for localization and acoustic voice interface
US11856379B2 (en) Method, device and electronic device for controlling audio playback of multiple loudspeakers
CN110970049A (zh) 多人声识别方法、装置、设备及可读存储介质
US11264017B2 (en) Robust speaker localization in presence of strong noise interference systems and methods
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
CN111415686A (zh) 针对高度不稳定的噪声源的自适应空间vad和时间-频率掩码估计
KR100827080B1 (ko) 사용자 인식 기반의 빔 포밍 장치 및 방법
WO2007138503A1 (en) Method of driving a speech recognition system
US6959095B2 (en) Method and apparatus for providing multiple output channels in a microphone
KR101874946B1 (ko) 홈 네트워크 시스템
WO2003107327A1 (en) Controlling an apparatus based on speech
Brueckmann et al. Adaptive noise reduction and voice activity detection for improved verbal human-robot interaction using binaural data
Jat et al. Voice activity detection-based home automation system for people with special needs
CN115981173A (zh) 设备控制方法、终端设备及存储介质
US11783809B2 (en) User voice activity detection using dynamic classifier
CN114268337A (zh) 智能安防控制方法、智能安防设备及控制器
Sasaki et al. Daily sound recognition using pitch-cluster-maps for mobile robot audition
KR101863098B1 (ko) 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication