JP2005510771A - バージイン対話システムの操作方法 - Google Patents
バージイン対話システムの操作方法 Download PDFInfo
- Publication number
- JP2005510771A JP2005510771A JP2003548230A JP2003548230A JP2005510771A JP 2005510771 A JP2005510771 A JP 2005510771A JP 2003548230 A JP2003548230 A JP 2003548230A JP 2003548230 A JP2003548230 A JP 2003548230A JP 2005510771 A JP2005510771 A JP 2005510771A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- access channel
- unit
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000003993 interaction Effects 0.000 claims description 23
- 230000002452 interceptive effect Effects 0.000 claims description 20
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 230000011664 signaling Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 13
- 230000009471 action Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Bus Control (AREA)
- Electrophonic Musical Instruments (AREA)
- Machine Translation (AREA)
- Underground Or Underwater Handling Of Building Materials (AREA)
Abstract
Description
実践的なものである。もしそれがない場合、ユーザと対話システムは同時に発話することになってしまい、ユーザをいらだたせることになる一方で、システム出力の入力信号へのエコーにより、音声認識ユニットによるユーザの音声信号の認識を困難にしてしまう可能性もある。このような音声行動検出器は、比較的少ない計算パワーしか必要としないアクセスチャンネルのシンプルなエネルギー検出により実現される。従って、1:1の割り当ての問題なく、1つのSADが各アクセスチャンネルに対し利用可能とされ、SADは各フロントエンドコンピュータユニットの関連付けされたアクセスチャンネルと共に実現される。上記割り込みが可能でない対話システムと同様に、そのようなシステム構成は、音声認識ユニットが各アクセスチャンネルで必要となるときはいつでも、音声認識ユニットのアクセスチャンネルへの割り当てを可能にする。従って、音声認識ユニットがアクセスチャンネルに割り当てられるとき、可能な限りサーバ負荷に留意することが、そのようなシステムにおいて問題なく可能である。特に、多数のチャンネルと多数の音声認識ユニットを備えた大規模システムでは、1つの音声認識ユニットが同時にすべてのアクセスチャンネルに必要とされる確率は統計的に低いため、利用可能な音声認識ユニットの数は、アクセスチャンネルの数より小さくすることができる。
Claims (10)
- 複数のユーザによる並行利用のためのバージイン対話システムの処理方法であって、前記対話システムは、
前記複数のユーザに対し複数のアクセスチャンネルを有する1以上のフロントエンドコンピュータユニットと、
各自が音声行動検出器と音声認識ユニットを有する複数の音声処理ユニットを有する複数のサーバを有し、ユーザとの繰り返しの対話中、様々な特定の時点で、前記複数のサーバの1つにおいて新たな音声処理ユニットが前記ユーザにより利用されるフロントエンドコンピュータユニットのアクセスチャンネルに割り当てられ、それによって、前記複数のサーバにできる限り均等に負荷が与えられ、前記音声行動検出器が前記現在割り当てられているアクセスチャンネルに入力される音声信号を検出し、前記音声認識ユニットを起動させることを特徴とする方法。 - 請求項1記載の方法であって、前記音声処理ユニットのアクセスチャンネルへの再割り当ては、前記ユーザにより入力された音声信号の認識直後、あるいは前記ユーザへのシステム出力の開始から所定の短期間内に行われることを特徴とする方法。
- 請求項1または2記載の方法であって、前記複数のアクセスチャンネルの各々に対し、本質的にユーザとの対話中継続的に、音声処理ユニットが割り当てられることを特徴とする方法。
- 請求項1乃至3何れか一項記載の方法であって、前記個々のサーバに対し、常に負荷値が決定され、前記個々のサーバの負荷値の利用に対し割り当てが行われることを特徴とする方法。
- 請求項1乃至4何れか一項記載の方法であって、前記音声処理ユニットのアクセスチャンネルへの割り当ては、各自のアクセスチャンネルに入力される音声データを各自の音声処理ユニットを有するサーバに直接送るハードウェア回路により行われることを特徴とする方法。
- 複数のユーザによる並行利用のためのバージイン対話システムであって、
前記複数のユーザのための複数のアクセスチャンネルを有する1以上のフロントエンドコンピュータユニットと、
各自が音声認識ユニットと、入力音声信号を検出し、前記音声認識ユニットを起動する音声行動検出器を有する複数の音声処理ユニットを有する複数のサーバと、
ユーザとの繰り返しの対話中、様々な特定時点において、前記複数のサーバにできる限り均等に負荷が与えられるように、前記複数のサーバの1つにおける新しい音声処理ユニットをフロントエンドコンピュータユニットのユーザが配置したアクセスチャンネルに割り当てるアクセス調整ユニットとを有することを特徴とする対話システム。 - 請求項6記載の対話システムであって、
前記アクセス調整ユニットへのアクセスチャンネルに以前に入力された音声信号の認識の終了及び/または前記アクセスチャンネルを介したユーザへのシステム出力の開始を合図する手段を有することを特徴とする対話システム。 - 請求項6または7記載の対話システムであって、
前記個々のサーバの利用値を決定する手段と、
前記利用値を前記アクセス調整ユニットに転送する手段とを有することを特徴とする対話システム。 - 請求項6乃至8何れか一項記載の対話システムであって、前記アクセス調整ユニットは前記フロントエンドコンピュータユニットと一体化されることを特徴とする対話システム。
- 請求項6乃至9何れか一項記載の対話システムであって、アクセスチャンネルに入力される音声データをこの時点で前記アクセスチャンネルに割り当てられた音声処理ユニットを有するサーバに直接送るハードウェア回路を有することを特徴とする対話システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10158583A DE10158583A1 (de) | 2001-11-29 | 2001-11-29 | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
PCT/IB2002/005006 WO2003046887A1 (en) | 2001-11-29 | 2002-11-26 | Method of operating a barge-in dialogue system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005510771A true JP2005510771A (ja) | 2005-04-21 |
JP4469176B2 JP4469176B2 (ja) | 2010-05-26 |
Family
ID=7707384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003548230A Expired - Lifetime JP4469176B2 (ja) | 2001-11-29 | 2002-11-26 | バージイン対話システムの処理方法及びバージイン対話システム |
Country Status (7)
Country | Link |
---|---|
US (1) | US20050038659A1 (ja) |
EP (1) | EP1451808B1 (ja) |
JP (1) | JP4469176B2 (ja) |
AT (1) | ATE352835T1 (ja) |
AU (1) | AU2002365496A1 (ja) |
DE (2) | DE10158583A1 (ja) |
WO (1) | WO2003046887A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006323827A (ja) * | 2005-04-18 | 2006-11-30 | Ricoh Co Ltd | 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ |
KR101304112B1 (ko) * | 2011-12-27 | 2013-09-05 | 현대캐피탈 주식회사 | 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 |
KR101361724B1 (ko) * | 2007-12-28 | 2014-02-12 | 제네시스 텔레커뮤니케이션즈 래버러토리즈 인코포레이티드 | 재귀적 적응형 상호작용 관리 시스템 |
JP2016180914A (ja) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
JP2017151210A (ja) * | 2016-02-23 | 2017-08-31 | Nttテクノクロス株式会社 | 情報処理装置、音声認識方法及びプログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US7383181B2 (en) | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
US7392188B2 (en) * | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
DE10342541A1 (de) * | 2003-09-15 | 2005-05-12 | Daimler Chrysler Ag | Arbeitsbelastungsabhängige Dialogführung |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US20050177371A1 (en) * | 2004-02-06 | 2005-08-11 | Sherif Yacoub | Automated speech recognition |
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7346504B2 (en) * | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
US8346549B2 (en) * | 2009-12-04 | 2013-01-01 | At&T Intellectual Property I, L.P. | System and method for supplemental speech recognition by identified idle resources |
JP5431282B2 (ja) * | 2010-09-28 | 2014-03-05 | 株式会社東芝 | 音声対話装置、方法、プログラム |
JP2013019958A (ja) * | 2011-07-07 | 2013-01-31 | Denso Corp | 音声認識装置 |
CN103971687B (zh) * | 2013-02-01 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种语音识别系统中的负载均衡实现方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5155760A (en) * | 1991-06-26 | 1992-10-13 | At&T Bell Laboratories | Voice messaging system with voice activated prompt interrupt |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
US5459781A (en) * | 1994-01-12 | 1995-10-17 | Dialogic Corporation | Selectively activated dual tone multi-frequency detector |
GB2325112B (en) * | 1997-05-06 | 2002-07-31 | Ibm | Voice processing system |
US6119087A (en) * | 1998-03-13 | 2000-09-12 | Nuance Communications | System architecture for and method of voice processing |
US6314402B1 (en) * | 1999-04-23 | 2001-11-06 | Nuance Communications | Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
US6728677B1 (en) * | 2001-01-31 | 2004-04-27 | Nuance Communications | Method and system for dynamically improving performance of speech recognition or other speech processing systems |
US6801604B2 (en) * | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
-
2001
- 2001-11-29 DE DE10158583A patent/DE10158583A1/de not_active Withdrawn
-
2002
- 2002-11-26 WO PCT/IB2002/005006 patent/WO2003046887A1/en active IP Right Grant
- 2002-11-26 JP JP2003548230A patent/JP4469176B2/ja not_active Expired - Lifetime
- 2002-11-26 AU AU2002365496A patent/AU2002365496A1/en not_active Abandoned
- 2002-11-26 EP EP02803891A patent/EP1451808B1/en not_active Expired - Lifetime
- 2002-11-26 DE DE60217902T patent/DE60217902T2/de not_active Expired - Lifetime
- 2002-11-26 AT AT02803891T patent/ATE352835T1/de not_active IP Right Cessation
- 2002-11-26 US US10/496,548 patent/US20050038659A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006323827A (ja) * | 2005-04-18 | 2006-11-30 | Ricoh Co Ltd | 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ |
KR101361724B1 (ko) * | 2007-12-28 | 2014-02-12 | 제네시스 텔레커뮤니케이션즈 래버러토리즈 인코포레이티드 | 재귀적 적응형 상호작용 관리 시스템 |
US9092733B2 (en) | 2007-12-28 | 2015-07-28 | Genesys Telecommunications Laboratories, Inc. | Recursive adaptive interaction management system |
US9384446B2 (en) | 2007-12-28 | 2016-07-05 | Genesys Telecommunications Laboratories Inc. | Recursive adaptive interaction management system |
US10552743B2 (en) | 2007-12-28 | 2020-02-04 | Genesys Telecommunications Laboratories, Inc. | Recursive adaptive interaction management system |
KR101304112B1 (ko) * | 2011-12-27 | 2013-09-05 | 현대캐피탈 주식회사 | 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 |
JP2016180914A (ja) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
JP2017151210A (ja) * | 2016-02-23 | 2017-08-31 | Nttテクノクロス株式会社 | 情報処理装置、音声認識方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
DE60217902D1 (de) | 2007-03-15 |
US20050038659A1 (en) | 2005-02-17 |
EP1451808A1 (en) | 2004-09-01 |
DE60217902T2 (de) | 2007-10-18 |
DE10158583A1 (de) | 2003-06-12 |
WO2003046887A1 (en) | 2003-06-05 |
AU2002365496A1 (en) | 2003-06-10 |
JP4469176B2 (ja) | 2010-05-26 |
ATE352835T1 (de) | 2007-02-15 |
EP1451808B1 (en) | 2007-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4469176B2 (ja) | バージイン対話システムの処理方法及びバージイン対話システム | |
US6453020B1 (en) | Voice processing system | |
US6282268B1 (en) | Voice processing system | |
EP1503286B1 (en) | Multiple operating system networking | |
US8543704B2 (en) | Method and apparatus for multimodal voice and web services | |
US6098043A (en) | Method and apparatus for providing an improved user interface in speech recognition systems | |
US20060104293A1 (en) | Method of performing a communication service | |
CA2712272A1 (en) | Headset and audio gateway system for execution of voice input driven applications | |
EP0954855A2 (en) | Method and system arranged for selective hardware sharing in a speech-based intercommunication system with speech processing on plural levels of relative complexity | |
JP2002141955A (ja) | ローカライズされたVoIPを利用するための装置及び方法 | |
CN111770131A (zh) | 负载平衡的持久连接技术 | |
US8886542B2 (en) | Voice interactive service system and method for providing different speech-based services | |
US9060060B2 (en) | Efficient utilization of IVR resources supplied to switching systems | |
US8019607B2 (en) | Establishing call-based audio sockets within a componentized voice server | |
CN114851210A (zh) | 基于云平台的机器人调度方法及调度云平台 | |
US20040002339A1 (en) | Method and apparatus for allocating bandwidth resources | |
CN102917027B (zh) | 网页聊天室的访问方法、装置及系统 | |
EP1309220B1 (en) | Data processing system and method | |
KR20030013154A (ko) | 다채널로 입력되는 실시간 음성인식 방법 | |
KR100388065B1 (ko) | 유닉스를 사용하는 분산 시스템 상에서 공유 라이브러리 지원방법 및 장치 | |
JPH09139769A (ja) | 通信システムで資源割当を提供するための回路、システム、および方法 | |
KR20230047261A (ko) | 영상 회의 지원 방법과 이를 지원하는 서버 장치 | |
WO2020103065A1 (zh) | 对讲通信方法和对讲终端 | |
KR20010002983A (ko) | 이동 통신 시스템 제어국에서의 호 처리 장치 및 방법 | |
JPS61250698A (ja) | 音声認識応答装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100226 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |