JP2008516294A - 対話システムの忠実度を向上させる方法及びシステム - Google Patents
対話システムの忠実度を向上させる方法及びシステム Download PDFInfo
- Publication number
- JP2008516294A JP2008516294A JP2007536748A JP2007536748A JP2008516294A JP 2008516294 A JP2008516294 A JP 2008516294A JP 2007536748 A JP2007536748 A JP 2007536748A JP 2007536748 A JP2007536748 A JP 2007536748A JP 2008516294 A JP2008516294 A JP 2008516294A
- Authority
- JP
- Japan
- Prior art keywords
- input
- text
- speech
- user
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000008859 change Effects 0.000 claims abstract description 49
- 238000006243 chemical reaction Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 16
- 230000006978 adaptation Effects 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims 1
- 238000012986 modification Methods 0.000 abstract description 16
- 230000004048 modification Effects 0.000 abstract description 16
- 238000004891 communication Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 241000282326 Felis catus Species 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Inorganic Insulating Materials (AREA)
- Undergarments, Swaddling Clothes, Handkerchiefs Or Underwear Materials (AREA)
- Glass Compositions (AREA)
- Digital Computer Display Output (AREA)
Abstract
【解決手段】ステップ410において、第1のシステムの第1のユーザからの第1の入力にアクセスする。変更コンポーネント214はテキスト入力121にアクセスし、認識されていないテキスト入力のインスタンスを識別して、それらを辞書に格納する。ステップ420において、第2のシステムの第2のユーザからの第2の入力にアクセスする。変更コンポーネント214はまた、音声入力152にもアクセスし、認識されていない音声入力のインスタンスを識別して、それらを辞書に格納する。ステップ430において、第2の入力を利用して第1のシステムの出力を変更する。変更コンポーネント214は、認識されていないテキスト入力のインスタンスが認識されていない音声入力のインスタンスに対応する場合を判断するように構成される。
【選択図】図4
Description
以下の詳細な説明の一部は、手順、論理ブロック、処理、及びコンピュータメモリ内のデータビットに対する動作の他の記号的表現に関して提示する。これらの説明及び表現は、データ処理技術における当業者が自身の作業の内容を他の当業者に最も有効に伝達するために使用する手段である。本出願において、手順、論理ブロック、プロセス等は、所望の結果に導くステップ又は命令の一貫したシーケンスであると考えられる。それらのステップは、物理量の物理操作を必要とするものである。通常、必ずしもではないが、これらの量は、コンピュータシステムにおいて格納、転送、結合、比較、及び他の方法で操作することができる電気信号又は磁気信号の形態をとる。
120・・・コンピュータ
130・・・インターネット
140・・・ネットワーク
150・・・携帯電話
200・・・対話システム
121・・・テキスト入力
122・・・テキスト出力
151・・・音声出力
152・・・音声入力
153・・・スピーカ
154・・・マイク
210・・・会話エンジン
211・・・テキスト・音声変換システム
212・・・自動音声認識システム
213・・・ヒント
214・・・変更コンポーネント
506・・・表示装置
507・・・英数字入力装置
310・・・テキスト入力アクセス機構
320・・・音声入力アクセス機構
330・・・判断コンポーネント
502・・・プロセッサ
503・・・揮発性メモリ(RAM)
504・・・不揮発性メモリ(ROM)
505・・・データ記憶装置
506・・・表示装置
507・・・英数字入力装置
508・・・カーソル制御
509・・・入出力通信装置
510・・・周辺装置
Claims (10)
- 対話システムの忠実度を向上させる方法であって、
第1のモダリティで動作している第1のシステム(211)のユーザによって生成される第1の入力(121)にアクセスすることであって、前記第1のシステム(211)は前記第1の入力(121)に対応する第1の出力(151)を生成する、アクセスすることと、
第2のモダリティで動作している第2のシステム(212)のユーザによって生成される第2の入力(152)にアクセスすることであって、前記第1のシステム(211)の前記ユーザ及び前記第2のシステム(212)の前記ユーザは会話をしている、アクセスすることと、
前記第1のシステム(211)の前記第1の出力(151)を変更するために前記第2の入力(152)を利用することと
を含む方法。 - 前記第1のシステム(211)は、
テキスト・音声変換システム
を含み、
前記第2のシステム(212)は、
自動音声認識システム
を含み、
前記利用することは、
前記テキスト・音声変換システム(211)の音声出力(151)を変更するために、前記自動音声認識システム(212)の音声入力(152)を利用すること
を含む
請求項1に記載の方法。 - データベース(213)を変更することであって、本質的に辞書適応(dictionary adaptation)及び辞書増強(dictionary augmentation)からなる群から選択されるプロセスが実行される、変更すること
をさらに含む請求項1に記載の方法。 - 前記データベース(213)は、
前記第1のシステム(211)の一構成要素
を含む
請求項3に記載の方法。 - 前記データベース(213)は、
前記第2のシステム(212)の一構成要素
を含む
請求項3に記載の方法。 - 前記データベース(213)は、
前記第1のシステム(211)及び前記第2のシステム(212)の共通の構成要素
を含む
請求項3に記載の方法。 - 前記利用することは、
前記第1の出力(121)の少なくとも一部を前記第2の入力(152)で代用すること
を含む
請求項1に記載の方法。 - 前記第1のシステムは、
自動音声認識システム(212)
を含み、
前記第2のシステムは、
テキスト・音声変換システム(211)を含み、
前記利用することは、
前記自動音声認識システム(212)のテキスト出力(122)を変更するために前記テキスト・音声変換システム(211)のテキスト入力(121)を利用すること
を含む
請求項1に記載の方法。 - コンピュータシステムに対し、対話システムの忠実度を向上させる方法を実行させるコンピュータ読取可能プログラムコードが組み込まれたコンピュータ使用可能媒体であって、
前記方法は、
第1のモダリティで動作している第1のシステム(211)のユーザによって生成される第1の入力(121)にアクセスすることであって、前記第1のシステム(211)は前記第1の入力(121)に対応する第1の出力(151)を生成する、アクセスすることと、
第2のモダリティで動作している第2のシステム(212)のユーザによって生成される第2の入力(152)にアクセスすることであって、前記第1のシステム(211)の前記ユーザ及び前記第2のシステム(211)の前記ユーザは会話をしている、アクセスすることと、
前記第1のシステム(211)の前記第1の出力(151)を変更するために前記第2の入力(152)を利用することと
を含むコンピュータ使用可能媒体。 - 前記第1のシステムは、
テキスト・音声変換システム(211)
を含み、
前記第2のシステムは、
自動音声認識システム(212)
を含み、
前記利用することは、
前記テキスト・音声変換システム(211)の音声出力(151)を変更するために、前記自動音声認識システム(212)の音声入力(152)を利用すること
を含む
請求項9に記載のコンピュータ使用可能媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/965,540 | 2004-10-13 | ||
US10/965,540 US8463611B2 (en) | 2004-10-13 | 2004-10-13 | Method and system for improving the fidelity of a dialog system |
PCT/US2005/036152 WO2006044253A1 (en) | 2004-10-13 | 2005-10-07 | Method and system for improving the fidelity of a dialog system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008516294A true JP2008516294A (ja) | 2008-05-15 |
JP4809358B2 JP4809358B2 (ja) | 2011-11-09 |
Family
ID=35641478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007536748A Expired - Fee Related JP4809358B2 (ja) | 2004-10-13 | 2005-10-07 | 対話システムの忠実度を向上させる方法及びシステム |
Country Status (7)
Country | Link |
---|---|
US (1) | US8463611B2 (ja) |
EP (1) | EP1800292B1 (ja) |
JP (1) | JP4809358B2 (ja) |
KR (1) | KR100917552B1 (ja) |
AT (1) | ATE417345T1 (ja) |
DE (1) | DE602005011650D1 (ja) |
WO (1) | WO2006044253A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7643687B2 (en) * | 2005-03-18 | 2010-01-05 | Microsoft Corporation | Analysis hints |
US8380512B2 (en) * | 2008-03-10 | 2013-02-19 | Yahoo! Inc. | Navigation using a search engine and phonetic voice recognition |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
US9292254B2 (en) * | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
US9710071B2 (en) * | 2014-09-22 | 2017-07-18 | Rovi Guides, Inc. | Methods and systems for recalibrating a user device based on age of a user and received verbal input |
US11501765B2 (en) * | 2018-11-05 | 2022-11-15 | Dish Network L.L.C. | Behavior detection |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242642A (ja) * | 1999-02-18 | 2000-09-08 | Sony Corp | 翻訳処理方法及び翻訳処理装置 |
JP2001343993A (ja) * | 2000-05-30 | 2001-12-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004118720A (ja) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | 翻訳装置、翻訳方法及び翻訳プログラム |
JP2004354760A (ja) * | 2003-05-29 | 2004-12-16 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005345681A (ja) * | 2004-06-02 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 異言語間対話処理方法および装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5995590A (en) * | 1998-03-05 | 1999-11-30 | International Business Machines Corporation | Method and apparatus for a communication device for use by a hearing impaired/mute or deaf person or in silent environments |
IT251676Y1 (it) * | 2000-03-13 | 2003-12-19 | Giuseppe Baldino | Deaf and telephone "telefono per sordo muti". |
EP1283518A4 (en) | 2000-03-17 | 2004-12-29 | Migaku Takahashi | VERTICAL MAGNETIC RECORDING MEDIUM AND ITS ASSESSMENT METHOD |
US6546082B1 (en) * | 2000-05-02 | 2003-04-08 | International Business Machines Corporation | Method and apparatus for assisting speech and hearing impaired subscribers using the telephone and central office |
US6701162B1 (en) * | 2000-08-31 | 2004-03-02 | Motorola, Inc. | Portable electronic telecommunication device having capabilities for the hearing-impaired |
US7254227B2 (en) * | 2001-10-01 | 2007-08-07 | Inderpal Singh Mumick | Signal-based session management for telephonic applications |
KR20040073708A (ko) | 2003-02-14 | 2004-08-21 | (주)모이존 | 음성 및 문자를 이용한 대화가 가능한 온라인 게임 시스템 |
-
2004
- 2004-10-13 US US10/965,540 patent/US8463611B2/en active Active
-
2005
- 2005-10-07 DE DE602005011650T patent/DE602005011650D1/de active Active
- 2005-10-07 WO PCT/US2005/036152 patent/WO2006044253A1/en active Application Filing
- 2005-10-07 AT AT05802528T patent/ATE417345T1/de not_active IP Right Cessation
- 2005-10-07 JP JP2007536748A patent/JP4809358B2/ja not_active Expired - Fee Related
- 2005-10-07 EP EP05802528A patent/EP1800292B1/en not_active Not-in-force
- 2005-10-07 KR KR1020077008312A patent/KR100917552B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242642A (ja) * | 1999-02-18 | 2000-09-08 | Sony Corp | 翻訳処理方法及び翻訳処理装置 |
JP2001343993A (ja) * | 2000-05-30 | 2001-12-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004118720A (ja) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | 翻訳装置、翻訳方法及び翻訳プログラム |
JP2004354760A (ja) * | 2003-05-29 | 2004-12-16 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005345681A (ja) * | 2004-06-02 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 異言語間対話処理方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
US8463611B2 (en) | 2013-06-11 |
US20060080102A1 (en) | 2006-04-13 |
KR20070053802A (ko) | 2007-05-25 |
ATE417345T1 (de) | 2008-12-15 |
EP1800292B1 (en) | 2008-12-10 |
KR100917552B1 (ko) | 2009-09-16 |
EP1800292A1 (en) | 2007-06-27 |
DE602005011650D1 (de) | 2009-01-22 |
JP4809358B2 (ja) | 2011-11-09 |
WO2006044253A1 (en) | 2006-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8290775B2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
CN107039038B (zh) | 学习个性化实体发音 | |
US20020128840A1 (en) | Artificial language | |
RU2352979C2 (ru) | Синхронное понимание семантических объектов для высокоинтерактивного интерфейса | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
EP1267326B1 (en) | Artificial language generation | |
US8364487B2 (en) | Speech recognition system with display information | |
US9202461B2 (en) | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution | |
US20100217582A1 (en) | System and methods for maintaining speech-to-speech translation in the field | |
US20110208507A1 (en) | Speech Correction for Typed Input | |
JP2004355630A (ja) | 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト | |
US11776563B2 (en) | Textual echo cancellation | |
JP2014048506A (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
US20150254238A1 (en) | System and Methods for Maintaining Speech-To-Speech Translation in the Field | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
US20020198712A1 (en) | Artificial language generation and evaluation | |
JP4809358B2 (ja) | 対話システムの忠実度を向上させる方法及びシステム | |
JP2015052743A (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
JP2015052745A (ja) | 情報処理装置、制御方法、及びプログラム | |
CN113973095A (zh) | 发音教学方法 | |
JP2007535692A (ja) | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 | |
CN112151024A (zh) | 用于生成语音音频的经编辑的转录的方法和装置 | |
JP2020126186A (ja) | 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110810 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110818 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |