CN1720570A - 在纯声控电话机上选择用户语言 - Google Patents

在纯声控电话机上选择用户语言 Download PDF

Info

Publication number
CN1720570A
CN1720570A CNA2003801050084A CN200380105008A CN1720570A CN 1720570 A CN1720570 A CN 1720570A CN A2003801050084 A CNA2003801050084 A CN A2003801050084A CN 200380105008 A CN200380105008 A CN 200380105008A CN 1720570 A CN1720570 A CN 1720570A
Authority
CN
China
Prior art keywords
user language
language
regulate
described device
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2003801050084A
Other languages
English (en)
Inventor
K·-H·普夫劳姆
S·A·克林克
E·坎珀施勒尔
N·昆斯特曼
R·奥鲍尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1720570A publication Critical patent/CN1720570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

可以通过以要调节的用户语言说入要调节的用户语言的名称,来对装置的用户语言进行调节。

Description

在纯声控电话机上选择用户语言
在通信设备和信息设备中,以国家版规定的语言来显示文本信息。因此,用户能够将所期望的语言调节为用户语言或者操作语言。如果现在无论出于哪种原因来调节用户界面的语言,那么用户都会遇到重复调节所期望的用户语言的问题,而他不能通过文本回答得到相关的菜单登记项或者控制状态。
这种问题通常会存在,并且不限制于通过键盘输入或者鼠标输入的图形用户界面。相反,将来会有越来越多的纯声音操作的终端设备。在同样进行纯声音操作的呼叫中心也出现该问题。在此,通过语言识别进行语音输入,以及或者通过播放预制的语音储备或者通过自动化的语音合成以文本到语音的转换形式进行语音输出。
在具有屏幕或者显示输入和键盘输入的设备中,为了解决所表现出来的问题,发现下列解决方式:通常能够使设备返回到出厂时的语音设置。这多数通过确定的按键组合实现。也存在通过用户可以选择目标语言来简单地激活语言菜单的设备。这例如下面所示:
                       表1
在所述菜单中,现在用户可以选择期望的并从而可调节的用户语言。当然,这种方式对纯声控设备是不可能的。
由此为出发点,本发明以该任务为基础,使借助于纯声音的方法能够对装置的用户语言进行选择。随后,如果所述装置可以或者应该不通过显示提供支持,那么所述可能的选择正好应该可供使用。
所述任务通过独立权利要求规定的发明来解决。优选的改进方案由从属权利要求得出。通过本发明,对装置要调节的用户语言通过下述方式简单地进行调节,即简单地讲出要调节的用户语言用于选择用户语言。也即英国人说“English”,德国人简单地说“Deutsch”,法国人说“Francais”,而乌克兰人说“Ukrajins′Kyj”(波兰写法中的“ukranisch”的英语音译)。
在所述装置的语言识别工具中所述功能的实现是极其重要的,因此下面应该更详细地说明优选的可能性。
一种可能性在于,在可调节用户语言的需要识别的名称上训练单词识别器。因为这里所使用的算法大多数基于粗略的模板比较,为了所述训练,需要大量的语音储备,在所述语音储备中把讲母语的人的语言(词)录音成相应的语言(代码)。在此,尤其可以使用一种动态时间扭曲算法(“DTW”)识别器。
如果该装置例如对于其他功能已经具有基于音素的语言识别,那么有利的是,对于用户语言的调节考虑这些。对此有三种可能性。
所以,在所述语言识别工具中可以应用多种语言的隐马尔科夫模型(“HMM”),所述多种语言的隐马尔科夫模型对所有语言的音素进行建模。对此,尤其有利的是,例如以SAMPA音素的形式标准化地表示声音字母。
因此对于所述的问题提出,这种问题解决措施是具有说服力的,而在实际中表明,就识别率对多种语言的语言识别工具进行一种语言专用的建模。对于所述装置中的标准语言识别,也还需要其他的声音模型,所述模型需要另外的存储空间。
因此,另一种可能性证明是优选的,其中,从HMM中为不同的语言组合属于可调节的用户语言名称的音素序列。这里,当然必须考虑,一致性标准是不能直接相互进行比较的,所述的一致性标准为以不同音素目录建模的字提供语言识别。如果在组合的HMM中对于来自不同可识别的用户语言的音素序列可以缩放一致性标准,那么可以解决所述问题。
如果代替多种语言的HMM或者多种语言专用的HMM的音素序列组合,而只使用唯一语言专用或者国家专用的HMM,并且其中利用语言专用音素组对外国的用户语言名称进行建模,那么得出一种尤其优选的可能性。为了进行阐述,下面的例子用于德语语言,所述例子仿效
表1种的菜单。字模型采用“声音”写法。
  /d eu t sh/
  /f r o ng s ae/
  /i ng l i sh/
  /u k r ai n sk i j/
  /r o m a n e sh t sh/
       表2
这里,没有必要使用多种语言的HMM,或者在识别时将音素序列与不同的音素目录结合。
根据前述的问题提出,该装置尤其是移动或者无绳电话,耳机或者呼叫中心的服务器形式的移动终端设备。
本发明方法的优选的改进方案,类似于所述优选的本发明装置的改进方案得出。
本发明的其他基本特征或者优点借助附图从实施例的描述中得出。
图1示出在调节用户语言时的过程。
该装置能够以无绳耳机的形式实现,所述无绳耳机只能通过语言控制。这可以例如通过Bluetooth、Dect、GSM、UMTS、GAP或者其他传输标准采用电缆或者无线地与基站建立连接的耳机。
该耳机具有开/关按键以及所谓的“P2T-按键”(“push totalk(即按即说)”),通过所述按键将确定的时间窗口的音频信道接通到语言识别工具上。所述耳机的命令控制包含P2T按键的短时间按压、通过短鸣叫音退出按键按压和所期望命令的随后发音,对此所述装置作出相应反应。
在第一次接通所述装置时(第1步)或者在复位所述装置后(第2步),这例如通过长时间按压P2T按键引起,用户才可以进行用户语言选择。这通过声音信号(第3步)来通知用户,所述声音信号例如是一种长鸣叫音,或者一种用于请求说入要调节的用户语言的多语言请求。
用户现在在该装置中以要调节的语言来说入所要调节的语言的名称(第4步)。该装置的语言识别工具现在识别以所要调节的用户语言讲出的所要调节的用户语言的名称,只要所要调节的用户语言涉及了该装置的多种可调节的用户语言中的一种。随后,该装置的用户语言调节工具将该装置的用户语言调节到由语言识别工具识别的用户语言,由此该装置相应被初始化。随后,可以利用该装置进行工作(第6步),就像它已被正常接通一样(第5步)。
在对语言识别错误和操作错误进行纠正时,可以动用现有技术中合适的工具和方法。
对所有本发明的实施方案,共有的突出优点是所述装置操作的明显简化和简短。另外,只要使用基于音素的识别,那么就没有必要把语音储备存放到装置中。在此,最佳地利用了以下事实:所述装置中已经具有基于音素的声源。

Claims (10)

1.装置,具有
-语言识别工具,用于识别以要调节的用户语言讲出的所述装置要调节的用户语言的名称,
其中通过以要调节的用户语言说出相应要调节的用户语言的名称,所述装置的多种可调节用户语言可以通过所述语言识别工具进行识别,
-用户语言调节工具,用于把所述装置的用户语言调节到由所述语言识别工具识别的用户语言上。
2.按照权利要求1所述的装置,其特征在于,所述语言识别工具具有单词识别器。
3.按照权利要求1所述的装置,其特征在于,所述语言识别工具具有基于音素的识别器。
4.按照权利要求3所述的装置,其特征在于可由所述语言识别工具使用的多种语言的隐马尔科夫模型。
5.按照权利要求3所述的装置,其特征在于组合的隐马尔科夫模型,所述组合的隐马尔科夫模型包含多可识别的用户语言的音素序列,并且可由所述语言识别工具使用。
6.按照权利要求5所述的装置,其特征在于,在所述组合的隐马尔科夫模型中,对多可识别的操作语言的音素序列可以缩放一致性标准。
7.按照权利要求3所述的装置,其特征在于语言专用的隐马尔科夫模型,其中利用所述语言专用的隐马尔科夫模型的语言专用的音素组对所述多种可识别的用户语言的名称的音素进行建模。
8.按照上述权利要求之一所述的装置,其特征在于,所述装置是移动终端设备。
9.按照上述权利要求之一所述的装置,其特征在于,所述装置具有工具用于输出请求以说入所述要调节的用户语言的名称。
10.用于调节装置的用户语言的方法,
-其中,如果以要调节的用户语言讲出相应的要调节的用户语言的名称,那么多种可调节的用户语言可以通过语言识别来识别,
-其中,所述以要调节的用户语言讲出的要调节的用户语言的名称被识别,
-其中,所述被识别的要调节的用户语言被调节为所述装置的用户语言。
CNA2003801050084A 2002-12-05 2003-11-24 在纯声控电话机上选择用户语言 Pending CN1720570A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10256935.5 2002-12-05
DE10256935A DE10256935A1 (de) 2002-12-05 2002-12-05 Auswahl der Benutzersprache an einem rein akustisch gesteuerten Telefon

Publications (1)

Publication Number Publication Date
CN1720570A true CN1720570A (zh) 2006-01-11

Family

ID=32403714

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2003801050084A Pending CN1720570A (zh) 2002-12-05 2003-11-24 在纯声控电话机上选择用户语言

Country Status (6)

Country Link
US (1) US20060053013A1 (zh)
EP (1) EP1568009B1 (zh)
CN (1) CN1720570A (zh)
AU (1) AU2003283424A1 (zh)
DE (2) DE10256935A1 (zh)
WO (1) WO2004051625A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11545140B2 (en) 2017-07-31 2023-01-03 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for language-based service hailing

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011735A1 (en) * 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
US20230188799A1 (en) * 2020-04-27 2023-06-15 Lg Electronics Inc. Display device and operation method for same

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69427083T2 (de) * 1993-07-13 2001-12-06 Theodore Austin Bordeaux Spracherkennungssystem für mehrere sprachen
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
WO1998011534A1 (de) * 1996-09-10 1998-03-19 Siemens Aktiengesellschaft Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
GB2338369B (en) * 1998-06-09 2003-08-06 Nec Technologies Language selection for voice dialling
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
US6549883B2 (en) * 1999-11-02 2003-04-15 Nortel Networks Limited Method and apparatus for generating multilingual transcription groups
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
EP1346342A1 (en) * 2000-12-20 2003-09-24 Koninklijke Philips Electronics N.V. Speechdriven setting of a language of interaction
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11545140B2 (en) 2017-07-31 2023-01-03 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for language-based service hailing

Also Published As

Publication number Publication date
EP1568009A1 (de) 2005-08-31
AU2003283424A1 (en) 2004-06-23
WO2004051625A1 (de) 2004-06-17
EP1568009B1 (de) 2007-01-03
DE10256935A1 (de) 2004-07-01
US20060053013A1 (en) 2006-03-09
DE50306227D1 (de) 2007-02-15

Similar Documents

Publication Publication Date Title
US7260529B1 (en) Command insertion system and method for voice recognition applications
US6415256B1 (en) Integrated handwriting and speed recognition systems
KR100804855B1 (ko) 음성으로 제어되는 외국어 번역기용 방법 및 장치
US9553979B2 (en) Bluetooth headset and voice interaction control thereof
CN1841498B (zh) 使用口头话语验证语音输入的方法
US7203651B2 (en) Voice control system with multiple voice recognition engines
EP2202722A2 (en) Computer system with integrated telephony, handwriting and speech recognition functions
US20100145696A1 (en) Method, system and apparatus for improved voice recognition
CN104202455A (zh) 智能语音拨号的方法及装置
CN103106061A (zh) 语音输入方法和装置
WO2006126649A1 (ja) 音声編集装置、音声編集方法、および、音声編集プログラム
CN101876887A (zh) 语音输入方法及装置
EP1994529A2 (en) Communication device having speaker independent speech recognition
US6757656B1 (en) System and method for concurrent presentation of multiple audio information sources
CN101320561A (zh) 提升个人语音识别率的方法及模块
US7110948B1 (en) Method and a system for voice dialling
CN1720570A (zh) 在纯声控电话机上选择用户语言
KR100554442B1 (ko) 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
JP2001268669A (ja) 移動電話端末を利用した機器制御装置、方法、及び記録媒体
US20090055167A1 (en) Method for translation service using the cellular phone
JP5510069B2 (ja) 翻訳装置
KR20040008990A (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
JP2007286376A (ja) 音声案内システム
GB2338369A (en) Radio telephone with language selection for voice dialling
US20080256071A1 (en) Method And System For Selection Of Text For Editing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication