CN1288224A - 语音识别装置和方法 - Google Patents

语音识别装置和方法 Download PDF

Info

Publication number
CN1288224A
CN1288224A CN00123500A CN00123500A CN1288224A CN 1288224 A CN1288224 A CN 1288224A CN 00123500 A CN00123500 A CN 00123500A CN 00123500 A CN00123500 A CN 00123500A CN 1288224 A CN1288224 A CN 1288224A
Authority
CN
China
Prior art keywords
speech recognition
signal
voice recognition
voice
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN00123500A
Other languages
English (en)
Inventor
恩斯特·F·施罗德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Thomson Brandt GmbH
Original Assignee
Deutsche Thomson Brandt GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Thomson Brandt GmbH filed Critical Deutsche Thomson Brandt GmbH
Publication of CN1288224A publication Critical patent/CN1288224A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Selective Calling Equipment (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

已知的语音识别系统的缺点是,用户必须先激活语音识别,例如,用户必须按压遥控器上的按钮。按照本发明,首先完成简单语音识别处理,然后,完成一个或多个复杂语音识别处理。简单语音识别处理不受方言和讲话者的影响,但只有小量的词汇,并不能够识别词序,然而,至少多个复杂语音识别处理之一依赖于方言和讲话者,并具有大量的词汇和/或能够识别次序。简单语音识别处理被用于接通复杂语音识别处理之一。

Description

语音识别装置和方法
本发明涉及语音控制装置和方法,特别是用于控制属于消费类电子产品的装置。
语音控制系统被使用在多种技术领域。在这个例子中,口语字首先被检测为声音信号,通常由一个或多个麦克风检测,然后,声音信号被馈送到语音识别系统。在这个例子中,通常,语音识别是基于声音模型和语音模型。声音模型采用大量的语音图形、所用的数学算法指明声学上与口语字最匹配的字。而语音模型是基于分析,该分析使用多个文档样本确定在上下文中某些字是如何经常被使用。这样的语音识别系统不仅识别单个的字并且能够高识别率的识别连续口语句子。然而,当不可忽视的背景噪声呈现时,识别率急剧下降。
有关这些声学干扰影响的强度可由各种不同的方式增加。因此,在计算机的专用系统中,耳机上的麦克风直接紧扣在讲话者嘴的前面。在这些系统中,真实的不变信号和在某些情况中的可感知的识别率只在直接邻近嘴的位置获得。同样,已知通过将声音操作指令输入到集成在遥控装置中的麦克风来控制电视机。然而,这种遥控装置必须放置在用户的嘴的前面。
然而,已知的语音识别系统的缺点是,用户必须先激活语音识别,例如,为此目的,用户必须按压遥控器上的按钮。
本发明的目的是提供一种语音控制的方法,其可以控制来自相对远距离的语音输入,而不需要用户事先激活控制装置。本发明目的可由下面描述的方法获得。
本发明的另一目的是提供实现本发明方法的装置,本发明目的可由下面描述的另一装置获得。
原则上,在语音识别方法中,由语音识别设备把对应语音指令的声音信号被转换成为电信号,该电信号被转换成为操作指令,其原理是,首先进行简单语音识别处理,然后,进行一次或多次较复杂的语音识别处理。
简单语音识别处理不受方言和讲话者的影响,但只有小量的词汇,并不能够识别词序,但至少多个复杂语音识别处理之一依赖于方言和讲话者,并具有大量的词汇和/或能够识别次序。
简单语音识别处理可以便利地用于接通复杂语音识别处理之一。
同样,如果语音识别处理用于识别讲话者,它也是很方便的。
最后,简单语音识别处理可以方便地减弱或降低音频再现的音量。
参考附图论述本发明的实施例。附图显示了本发明方法的示意性顺序。
图1以流程图的形式显示了本发明方法的顺序。首先,在步骤1,由一个或多个麦克风把声音信号转换成为电信号,该信号呈现为模拟语音信号。然后,在步骤2,由模/数转换器将该模拟信号转换位数字语音信号。在步骤3进行检查,并确定语音识别是否由简单语音识别单元事先完成。如果已经完成,进行步骤4a、4b、5b、6,否则进行步骤4a、5a、6。尽可能典型的语音的单个声音和相对与干扰和发音中变化强度的特点由各自的信号处理和分析4a、4b从数字化声学信号所获得。在所示的实施例中,这个特征的提取分别由各种不同的语音识别单元完成,也可由组合单元完成。实际的语音识别在步骤5a和5b中完成。由各自的信号处理和分析4a获得的信号被馈送到基本语音处理单元5a,其检查相对于一个或多个预定指令的信号。因此,这个语音单元只要求少量的词汇,并在很大程度上不受方言和讲话者的影响。如果只检测到预定的语音指令,例如,“电视,你好”或“开机”,那么,这些话被记录下来,以便由信号处理、分析4a和语音识别单元5b进行下一步的处理。后者具有大量的词汇,并也能够识别词序,但只在简单语音识别单元5a识别了指令之后,识别才成为有效的。相对于识别指令和/或工作顺序,在步骤6确定对应的指令,并用于控制语音控制系统,例如,菜单控制或搜索。
语音识别单元的数量没有局限于两个,使用超过两个语音识别单元的分层配置是可能的。例如,第一个语音识别单元只用于激活语音识别处理,该语音单元只有少量的词汇。具有大量词汇的第二个语音识别单元被用于驱动或选择不同菜单项。然后,语音识别单元由各自的菜单项激活。第三个语音识别单元具有大量的按顺序的词汇,以这种方式,能够进行任何要求的输入,例如,所要求传输的名称或网络电视的互联网地址的输入。
同样,第一语音识别单元可以附加地或专有地用于减弱设备的再现的声音,例如,电视机,或降低音量。此外,分层配置的语音识别单元之一可以被用于识别讲话者。例如,这对接通控制是非常有益的,特别对家长锁住电器非常有益,例如,对电子节目导视的基本设置,可以选择设置参数。最后,第一语音识别单元仅对预先确定的接通指令反应是可能的,而且可适用较宽的语言变化。然后以取决于所检测的语言的方式,激活不同的第二个或更多的语音识别单元。
不同的语音识别单元或语音识别处理的不同阶段可以使用不同的算法或不同的硬件完成。然而,通过选择不同的参数使用单个语音识别器也能够完成此结果。
对于检测语音信号,可以使用单个麦克风或由两个或多个麦克风组成的阵列完成。例如,麦克风阵列可以集成在电视接收机内。麦克风把检测到的声音信号转换成为电信号,并由放大器放大,该放大的电信号由A/D转换器转换成为数字信号,然后,该数字信号被馈送到信号处理单元。然后,由检测到声音信号的不同之或处理确定各自用户所在位置。此外,麦克风信号也由有关的扩音器输出的声音信号校正。然后,以这种方式处理的信号被馈送到本发明的语音识别单元,如上所述,识别单元把电信号转换成为词。最后,对应这些词的指令被馈送到系统管理器,以控制系统。
本发明可以适用属于消费类电子产品的各种电器的语音激励遥控装置,例如,电视机、录像机、DVD播放机、卫星接收机、电视/视频组合、音频装置或完整的音频系统,同样,适用于个人计算机或家用电器。

Claims (6)

1.一种用于多级语音识别的方法,对应语音指令的声音信号被转换成为电信号,由语音识别装置将该电信号转换成为操作指令,其特征在于首先执行简单语音识别处理,然后,执行一个或多个复杂语音识别处理。
2.按权利要求1所述的方法,其特征在于简单语音识别处理不受方言和讲话者的影响,而且只有小量的词汇,并且不能够识别词序,以及至少多个复杂语音识别处理之一依赖于方言和讲话者,而且具有大量的词汇和/或能够识别次序。
3.按权利要求1或2所述的方法,其特征在于简单语音识别处理被用于接通复杂语音识别处理之一。
4.按前述权利要求之一所述的方法,其特征在于简单语音识别处理用于识别讲话者。
5.按前述权利要求之一所述的方法,其特征在于简单语音识别用于减弱或降低音频再现的音量。
6.完成前述权利要求之一的方法的装置。
CN00123500A 1999-09-15 2000-08-18 语音识别装置和方法 Pending CN1288224A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19944325A DE19944325A1 (de) 1999-09-15 1999-09-15 Verfahren und Vorrichtung zur Spracherkennung
DE19944325.4 1999-09-15

Publications (1)

Publication Number Publication Date
CN1288224A true CN1288224A (zh) 2001-03-21

Family

ID=7922183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00123500A Pending CN1288224A (zh) 1999-09-15 2000-08-18 语音识别装置和方法

Country Status (6)

Country Link
EP (1) EP1091347A3 (zh)
JP (1) JP2001134291A (zh)
KR (1) KR20010030122A (zh)
CN (1) CN1288224A (zh)
DE (1) DE19944325A1 (zh)
ZA (1) ZA200004442B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104620314A (zh) * 2012-04-26 2015-05-13 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
CN105632491A (zh) * 2014-11-26 2016-06-01 三星电子株式会社 用于语音识别的方法和电子装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
US9418656B2 (en) 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
DE69128990T2 (de) * 1990-09-07 1998-08-27 Toshiba Kawasaki Kk Sprecherkennungsvorrichtung
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
DE4412309C2 (de) * 1994-04-09 2002-10-24 Tenovis Gmbh & Co Kg Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
EP0911808B1 (en) * 1997-10-23 2002-05-08 Sony International (Europe) GmbH Speech interface in a home network environment
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104620314A (zh) * 2012-04-26 2015-05-13 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
CN104620314B (zh) * 2012-04-26 2017-05-10 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
CN105632491A (zh) * 2014-11-26 2016-06-01 三星电子株式会社 用于语音识别的方法和电子装置
CN105632491B (zh) * 2014-11-26 2020-07-21 三星电子株式会社 用于语音识别的方法和电子装置

Also Published As

Publication number Publication date
EP1091347A2 (en) 2001-04-11
EP1091347A3 (en) 2001-05-09
KR20010030122A (ko) 2001-04-16
JP2001134291A (ja) 2001-05-18
ZA200004442B (en) 2001-03-06
DE19944325A1 (de) 2001-03-22

Similar Documents

Publication Publication Date Title
EP1556857B1 (en) Controlling an apparatus based on speech
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
CN111508474B (zh) 一种语音打断方法、电子设备及存储装置
EP0077194B1 (en) Speech recognition system
EP1189206A3 (en) Voice control of electronic devices
CN108257605B (zh) 多通道录音方法、装置及电子设备
JP2004199053A (ja) 絶対音量を使用して音声信号を処理する方法
WO2003107327A1 (en) Controlling an apparatus based on speech
CN1288224A (zh) 语音识别装置和方法
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
EP1185976B1 (en) Speech recognition device with reference transformation means
JPH06236196A (ja) 音声認識方法および装置
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
JP2011199698A (ja) Av機器
JP4408205B2 (ja) 話者認識装置
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
CN111627417B (zh) 播放语音的方法、装置及电子设备
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JPH04324499A (ja) 音声認識装置
JP2005258235A (ja) 感情発話検知による対話修正機能を備えた対話制御装置
KR100206799B1 (ko) 화자 인식형 캠코더
JPH03160499A (ja) 音声認識装置
KR20010026402A (ko) 신경망을 이용한 음성인식장치 및 그 방법
JPS6126678B2 (zh)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication