JP4809358B2 - 対話システムの忠実度を向上させる方法及びシステム - Google Patents

対話システムの忠実度を向上させる方法及びシステム Download PDF

Info

Publication number
JP4809358B2
JP4809358B2 JP2007536748A JP2007536748A JP4809358B2 JP 4809358 B2 JP4809358 B2 JP 4809358B2 JP 2007536748 A JP2007536748 A JP 2007536748A JP 2007536748 A JP2007536748 A JP 2007536748A JP 4809358 B2 JP4809358 B2 JP 4809358B2
Authority
JP
Japan
Prior art keywords
input
text
speech
user
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007536748A
Other languages
English (en)
Other versions
JP2008516294A (ja
Inventor
ロイ・サミット
ハービル・マイケル
コベル・ミシェル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2008516294A publication Critical patent/JP2008516294A/ja
Application granted granted Critical
Publication of JP4809358B2 publication Critical patent/JP4809358B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Digital Computer Display Output (AREA)
  • Glass Compositions (AREA)
  • Inorganic Insulating Materials (AREA)
  • Undergarments, Swaddling Clothes, Handkerchiefs Or Underwear Materials (AREA)

Description

本発明の実施の形態は、テキスト・音声変換(text-to-speech)システム及び自動音声認識システムの分野に関する。
通信技術において高まっている傾向は、異なる通信モダリティを単一のマルチモーダル通信システムに結合することである。たとえば、テキストメッセージを使用している(たとえばコンピュータ端末で)第1の人と、話す方を好む(たとえば車を運転している)第2の人との間のライブチャットである。第1の人がテキスト入力装置を使用してタイプ入力するテキストは、テキスト・音声(TTS)変換器を使用して可聴音声に変換される。これを、第2の人が(たとえば携帯電話の受話口を使用して)スピーカで聞くことができる。第2のユーザは、マイク(たとえば携帯電話の送話口)に単語又は文字を話す。自動音声認識(ASR)エンジンが、発話された単語をテキストに変換し、その後テキストが第1の人に表示される。
しかしながら、マルチモーダル通信を実装することは困難である。たとえば、TTSシステムによっては、書かれたテキストを正確に聞こえる音声に変換することが困難な場合がある。この問題は、特に、適切な名前及び/又はTTS変換システムの語彙にない他の単語を変換する場合によく見られる。TTSシステムによっては、単語がいかに発音される可能性があるかの仮説を立てることができるものもあるが、単語の適切な発音を正確に近似しないことが多い。さらに、外来語を発音しようとする場合、TTSシステムは、さまざまな文字の組合せの発音及び/又は単語のアクセント及び発声の文化的な相違を考慮しない場合もある。
現在、ASRの分野における研究の多くは、依然として単一ユーザの音声の認識を向上させることを対象としている。別の適応は、ユーザの音声を認識する際のASRシステムの有効性を劣化させる可能性のある環境雑音を補償することを対象としている。ASRの分野における他の研究は、言語のネイティブでない話者の音声を、そうした話者の音声を認識する確率を向上させるように認識することに向けられている。
ASRにおける別の適応は、何の話題について話されているか判断し、その主題に適当な辞書にアクセスするというものである。通常、ユーザの音声の認識は、そのユーザが何を言おうとしているかを事前に推定することに基づく。ASRシステムは、特定の主題に対してより限定された辞書にアクセスすることにより、特定の辞書における各単語に関連する確率値を増大させる。これにより、ユーザが話す時にASRシステムがそのユーザを正確に認識する確率が上昇する。たとえば、ユーザが会計について話している場合、ASRシステムは、会計、銀行業務、金銭等に関する単語を含む辞書にアクセスする。そして、ASRシステムは、ユーザの前の挙動に基づいてユーザが金融関係のことに関して話し続ける可能性があるため、この辞書における各単語に関連する確率値を増大させる。このため、ユーザが「税(tax)」という単語を話す場合、ASRシステムは、ユーザが話す単語を、「鋲(tacks)」という単語ではなく「税」であると解釈する可能性の方が高くなる。
米国特許第5995590号 国際公開第01/69895号 MASARU OHKI他, 「SIGN LANGUAGE TRANSLATION SYSTEM USING PATTERN RECOGNITION AND SYNTHESIS」 HITACHI REVIEW, HITACHI LTD. TOKOYO, JP, vol. 44, no. 4, 1995年8月 XP000550280 ISSN: 0018-277X abstract; figure 1
ASRシステムは、音声メールシステム等の商用アプリケーションでますます使用されてきている。ASRシステムは、ユーザに、選択すべき選択肢の絞り込まれたセットを提示する、入念に文言が選ばれた階層状の質問を利用するように構成されることが多い。ASRシステムは、質問の言い回しにより可能性のある回答を予め「知っている」ため、問われる質問に応じて聞こえると予測する単語の確率を増大させることができる。しかしながら、これらのシステムは、種々のユーザの音声を認識する際の誤り率を最小限にするために、実装する前に非常に長い設定及び訓練が必要である場合が多い。このため、これらのシステムはセットアップに費用がかかり、入念に文言が選ばれた階層状の質問を実装することができない状況では容易に適応できない。
本発明の実施の形態は、対話システムの忠実度を向上させる方法及びシステムを説明する。一実施の形態では、第1のモダリティで動作している第1のシステムのユーザによって生成される第1の入力にアクセスする。本発明の実施の形態では、第1のシステムはまた、第1の入力に対応する第1の出力を生成する。第1のユーザと会話している第2のユーザからの第2の入力に、第2のシステムがアクセスする。そして第2の入力を利用して、第1のシステムの第1の出力を変更する。
本明細書に組み込まれるとともにその一部を形成する添付図面は、本発明の実施の形態を例示し、説明とともに本発明の原理を説明する役割を果たす。特に指摘しない限り、この説明において参照する図面は、一定比例尺で描かれていないと理解されるべきである。
ここで、本発明の実施形態に詳細に言及する。その例は添付図面に示されている。本発明を、以下の実施形態に関連して説明するが、それらは本発明をこれらの実施形態のみに限定するようには意図されていないことが理解されよう。それどころか、本発明は、添付の特許請求の範囲によって規定されるような本発明の精神及び範囲内に含まれ得る代替形態、変更形態及び均等物を包含するように意図されている。さらに、本発明の以下の詳細な説明では、本発明が完全に理解されるように、多数の特定の詳細が示されている。しかしながら、本発明の実施形態を、これらの特定の詳細なしに実施してもよい。他の場合、本発明の態様を不必要に不明瞭にしないように、既知の方法、手順、構成要素及び回路については詳細に説明していない。
表記及び用語
以下の詳細な説明の一部は、手順、論理ブロック、処理、及びコンピュータメモリ内のデータビットに対する動作の他の記号的表現に関して提示する。これらの説明及び表現は、データ処理技術における当業者が自身の作業の内容を他の当業者に最も有効に伝達するために使用する手段である。本出願において、手順、論理ブロック、プロセス等は、所望の結果に導くステップ又は命令の一貫したシーケンスであると考えられる。それらのステップは、物理量の物理操作を必要とするものである。通常、必ずしもではないが、これらの量は、コンピュータシステムにおいて格納、転送、結合、比較、及び他の方法で操作することができる電気信号又は磁気信号の形態をとる。
しかしながら、これらの用語及び同様の用語のすべてが、適当な物理量に関連するものであり、これらの量に適用される都合のよいラベルであるに過ぎないということが念頭に置かれるべきである。以下の論考から明らかであるように特に明記しない限り、本発明を通して「アクセスする」、「利用する」、「変更する」「代用する」等の用語を利用して論じる際、それは、コンピュータシステム又は同様の電子コンピューティングデバイスであって、コンピュータシステムのレジスタ及びメモリ内の物理(電子)量として表されるデータを処理し、コンピュータシステムメモリ若しくはレジスタ又は他のこうした情報記憶装置、伝送装置又は表示装置内の物理量として同様に表される他のデータに変換する、コンピュータシステム又は同様の電子コンピューティングデバイスの動作及びプロセスを指すことが理解される。
図1は、本発明の実施形態によって使用される通信ネットワーク100の図である。図1において、第1のユーザ110は、コンピュータ120を使用して第2のユーザ160と通信する。本発明の実施形態では、コンピュータ120は、1つ又は複数の通信ネットワーク(たとえばインターネット130及び携帯電話ネットワーク140)を介して第2のユーザ160の携帯電話150と通信可能に結合される。本発明の実施形態において、公衆交換電話網(PSTN)、Bluetooth通信ネットワーク等を含む他の通信ネットワークを使用してもよいということが理解される。本発明の実施形態により、2人以上のユーザ間の会話が容易になる。それらのユーザのうちの一方は、第1のモダリティで動作している第1のシステム(たとえば、コンピュータ、個人情報端末(PDA)又は他のテキスト入出力装置によってアクセスされるテキスト・音声変換システム)を使用してもよく、もう一方のユーザは、第2のモダリティで動作している第2のシステム(たとえば、電話又は専用ASR装置等の他の音声入出力装置によってアクセスされる自動音声認識システム)を使用する。しかしながら、以下の論考は特にテキスト・音声変換システム及び自動音声認識システムを引用するが、本発明の実施形態は、これらのモダリティのみには限定されない。たとえば、本発明の実施形態の入出力を、ブライユ点字入出力装置を使用して実行してもよい。後述するように、本発明の他の実施形態では、第1のシステムは自動音声認識システムを含み、第2のシステムはテキスト・音声変換システムを含む。
図2A、図2B、図2C及び図2Dは、本発明の実施形態による変換を容易にする例示的な対話システム200の実施形態の図である。本発明の実施形態では、第1のユーザ110と第2のユーザ160との間の通信は、変更コンポーネント214と通信可能に結合される第1のシステム(たとえばテキスト・音声変換システム211)と第2のシステム(たとえば自動音声認識システム212)とを備える会話エンジン210によって容易にされる。本発明の実施形態では、会話エンジン210が複数のヒント213にアクセスすることにより、テキスト・音声変換システム211及び/又は自動音声認識システム212のより高い忠実度が促進される。本発明の実施形態では、ヒント213を、会話エンジン210、テキスト・音声変換システム(TTS)211、自動音声認識(ASR)システム212、変更コンポーネント214の一構成要素であるか、又はたとえばネットワーク接続を介してアクセスされるリモートアクセスデータベースであってもよいデータベースに格納してもよい。
これらの構成要素を単一の装置(たとえばコンピュータ120又は携帯電話150)に実装してもよく、又は分散して(たとえばコンピュータネットワーク)実装してもよい、ということが理解される。さらに、会話エンジン210を、インターネット130を介してインターネットプロバイダ(図示せず)によるか又はネットワーク140(たとえば携帯電話ネットワーク)によって提供されるサービスとして実装してもよい。本発明の実施形態では、データは、テキスト・音声変換システム211、自動音声認識システム212、及び両システムの忠実度を向上させるために使用される変更コンポーネント214間で交換される。本発明の目的で、このデータを「ヒント」(たとえば図2の213)と呼ぶ。
後に詳細に説明するように、変更コンポーネント214は、テキスト・音声変換システム及び自動音声認識システムの忠実度を、いずれかのシステムからのデータにアクセスして他方のシステムの忠実度に改良を加えることによって促進する。上述したように、一般に、2人のユーザが会話している時、彼らは通常、同じ話題(複数可)に関して話している。このため、図2A、図2B、図2C及び図2Dの実施形態では、テキスト入力121を含む認識されていない単語は、音声入力152を含む認識されていない単語に一致する可能性が高い。
図2A〜図2Dを参照してより詳細に後述するように、本発明の実施形態は、事前に規定されたパラメータを利用して、所与の認識されていないテキスト入力が認識されていない音声入力に対応する場合を判断する。その結果、本発明の実施形態では、テキスト入力121を使用して、自動音声認識システム212のテキスト出力122の忠実度を向上させることができる。これは、テキスト・音声変換システム211からの「ヒント」が、自動音声認識システム212の忠実度を向上させるために使用される一例である。別の実施形態では、音声入力(たとえば152)を使用して、テキスト・音声変換システム211の音声出力151の忠実度を向上させてもよい。これは、自動音声認識システムからの「ヒント」が、テキスト・音声変換システムの忠実度を向上させるために使用される一例である。これらの実施形態は相互に排他的ではないことが理解される。言い換えれば、会話エンジン210は、同じ会話中にテキスト・音声変換システム211及び自動音声認識システム212の忠実度を向上させることができる。
図2Aを参照すると、時刻Tにおいて、第1のユーザ110は、コンピュータ120を使用してテキスト入力121を(たとえば図5の英数字入力装置507を介して)生成する。本発明の実施形態では、時刻Tにおいて、テキスト・音声変換システム211によってテキスト入力121がアクセスされる。テキスト・音声変換システム211は、時刻Tにおいてテキスト入力121を音声出力151に変換し、それは、図1に関して上述したように時刻Tにおいて携帯電話150のスピーカ153に伝達される。
それに応じて、時刻Tにおいて、携帯電話150のユーザは、音声入力152を生成し、それは時刻Tにおいて会話エンジン210によって受け取られる。最後に、時刻Tにおいて、自動音声認識システム212はテキスト出力122を生成し、それは時刻Tにおいてコンピュータ120で受け取られる。本発明の実施形態では、イベントの順序を逆にしてもよいということが理解される。すなわち、本発明の実施形態において、音声入力152の生成が、テキスト入力121の生成に先立ってもよい。
本発明の実施形態では、会話エンジン210によってテキスト入力121及び/又は音声入力152がアクセスされる時、その入力はまた、変更コンポーネント214によってもアクセスされる。本発明の実施形態では、図2Aに示すように、テキスト入力121は、テキスト・音声変換システム211を介して変更コンポーネント214によって受け取られてもよく、又は図2Bに示すように、変更コンポーネント214が連結216を介してテキスト入力121に直接アクセスしてもよい。同様に、本発明の実施形態では、図2Aに示すように、音声入力152は、自動音声認識システム212を介して変更コンポーネント214によって受け取られてもよく、又は図2Bに示すように、変更コンポーネント214が連結217を介して音声入力152に直接アクセスしてもよい。
図3は、本発明の実施形態による例示的な変更コンポーネント214のブロック図である。本発明の実施形態では、変更コンポーネント214は、本実施形態ではテキスト入力121にアクセスするように構成される第1のアクセス機構(たとえばテキスト入力アクセス機構310)を備える。変更コンポーネント214は、本実施形態では音声入力152にアクセスするように構成される第2のアクセス機構(たとえば音声入力アクセス機構320)をさらに備える。さらに、変更コンポーネント214は、ヒント(たとえば図2A〜図2Dの213)のデータベースを備える。図3の実施形態では、変更コンポーネント214はまた、ヒント213のデータベースも備える。上述したように、ヒント213はまた、テキスト・音声変換システム211若しくは自動音声認識システム212のデータベース構成要素、又は会話エンジン210によってアクセス可能なリモートアクセスデータベースであってもよい。本発明の実施形態では、ヒント213は、TTSシステム211及び/又はASRシステム212のいずれか又は両方が、テキストから音声に又は音声からテキストに変換する時に使用する辞書を備えてもよい。さらに、本発明の実施形態では、ヒント213は、TTSシステム211及びASRシステム212によって認識されない単語の連想を含む。
判断コンポーネント330は、テキスト入力アクセス機構310及び音声入力アクセス機構320に通信可能に結合され、本実施形態では、一方のモダリティからの入力がもう一方のモダリティからの入力に一致する場合を判断するように構成される。たとえば、本実施形態では、判断コンポーネント330は、所与の音声入力152が所与のテキスト入力121に一致すると判断することができる。判断コンポーネント330はさらに、自動音声認識システム212に対し、そのテキスト入力(たとえば121)を、所与の音声入力(たとえば152)の連続したインスタンスに対してテキスト出力(たとえば122)を構成するプロセスにおいて使用させる。
本発明の実施形態では、判断コンポーネント330を使用して、テキスト・音声変換システム211に対し、所与のテキスト入力(たとえば121)の連続したインスタンスに対して音声出力(たとえば151)を構成するプロセスにおいて、音声入力(たとえば152)を使用させてもよい。図2Bに示すように、テキスト入力アクセス機構310をテキスト入力121と直接通信可能に結合してもよく、又は図2Aに示すようにテキスト・音声変換システム211に直接通信可能に結合してもよい。同様に、音声入力アクセス機構320を、図2Bに示すように音声入力152に直接通信可能に結合してもよく、又は図2Aに示すように自動音声認識システム212に直接通信可能に結合してもよい。
ここで図2A及び図2Bに戻って参照すると、本発明の実施形態では、変更コンポーネント214は、携帯電話150からの音声入力152にアクセスし、音声入力152のインスタンスがテキスト出力122に対応するか否かを判断する。たとえば、本発明の実施形態では、ASRシステム212は、データベースに格納された辞書にアクセスすることにより、音声入力(たとえば152)を対応するテキスト出力(たとえば122)と照合する。このため、ASRシステム212によって受け取られる音声入力152の各インスタンスに対し、対応するテキスト出力122がアクセスされ出力される。そして、このテキスト出力は受信側に送信され、そこで第1のユーザ110に対しコンピュータ120の表示装置506を介して表示される。
本発明の実施形態では、自動音声認識システム212は、アクセスされた辞書に格納されていない音声入力152のインスタンスを受け取ると、その単語のあり得るスペルを近似する発音に即した(phonetic)テキスト出力を生成する。上述したように、従来のASRシステムは、それらの辞書に含まれていない単語を正確に認識しないことが多い。このため、ASRシステムは、知らない音声入力のインスタンスを受け取る場合、その単語の不正確に綴られたテキスト出力を容易に生成する可能性がある。
図2A及び図2Bの実施形態では、自動音声認識システム212及び/又は変更コンポーネント214によって認識されない音声入力152のインスタンスは、変更コンポーネント214により、後に参照するために格納される。図2Bの実施形態では、音声入力152の認識は、変更コンポーネント214によって実行される。同様に、テキスト入力121の認識されていないインスタンスは、後に参照するために変更コンポーネント214によって格納される。そして、認識されていない音声入力のインスタンスは、認識されていないテキスト入力のインスタンスと比較される。本発明の実施形態では、その後、変更コンポーネント214は、認識されていないテキスト入力(たとえば121)のインスタンスが認識されていない音声入力(たとえば151)のインスタンスに対応するか否かを判断しようと試みる。本発明の実施形態では、変更コンポーネント214により、事前に求められたパラメータを使用して、テキスト入力121と音声出力152との間に、それらをデータの対応するインスタンスとして指定するために十分な類似性があるか否かが判断される。
たとえば、テキスト入力121の認識されていないインスタンスが受け取られると、テキスト・音声変換システム211は、単語の発音の仮説を立てようと試みる。この仮説が立てられた発音を認識されていない音声入力152と比較することにより、それらが実際に同じ単語を指していると想定するために十分な類似性があるか否かを判断することができる。それらが同じ単語を指していると判断されると、変更コンポーネント214は、テキスト・音声変換システム211及び/又は自動音声認識システム212によってアクセスされる辞書を更新する。それにより、音声入力152の認識されていないインスタンスはこの時、テキスト入力121の認識されていないインスタンス(たとえばヒント213にある)と関連付けられる。その結果、次にテキスト入力121の認識されていないインスタンスが会話エンジン210によってアクセスされる時、関連する音声入力152が、テキスト・音声変換システム211の音声出力151として使用される。本発明の実施形態では、たとえばコンピュータ120からのテキスト入力を使用して自動音声認識システム212のテキスト出力を変更することができるように、同様のプロセスを使用することができる。
本発明の実施形態は、概して、会話における2人の参加者が同じ話題について話している可能性が高いという前提の下で動作する。このため、認識されていないテキスト入力121及び認識されていない音声入力152は、実際には同じものを指している可能性がある。したがって、本発明の実施形態では、変更コンポーネント214は、認識されていないテキスト入力121のインスタンスを認識されていない音声入力152のインスタンスと照合するために1組のパラメータに頼る。2つのインスタンスが規定されたパラメータ内で一致する場合、変更コンポーネント214は、テキスト入力121を生成している第1のユーザ及び音声入力152を生成している第2のユーザが同じものに言及していると想定する。その結果、テキスト・音声変換システム211及び/又は自動音声認識システム212によってアクセスされる辞書(たとえばヒント213)は、テキスト入力121と音声入力152とが関連付けられるように変更コンポーネント214によって更新される。言い換えれば、テキスト入力121の所与の単語のスペルが、ASRシステム212によって所与の単語のスペルのためのヒントとして使用される。
再び図2A及び図2Bを参照すると、次に第2のユーザ160が時刻Tにおいて音声入力152を生成する時、会話エンジン213は、時刻TN+1において音声入力にアクセスし、認識されていない音声入力152のインスタンスをテキスト出力121の格納されているインスタンスと比較する。認識されていない音声入力152が格納されているテキスト入力121に一致すると判断されると、変更コンポーネント214は、自動音声認識システム212に対して、時刻N+2において、音声入力のそれ自体のスペルを近似させるのではなく、関連するテキスト入力121をテキスト出力122として利用させる。その結果、自動音声認識システム212の忠実度が向上する。なぜなら、それがもはや知らない単語のスペルを近似しないためである。会話の参加者が、汎用辞書に含まれていない可能性のあるいくつかの単語のスペル又は発音を知っている可能性の方が高いため、本発明の実施形態は、一方のシステムがヒントとしてアクセスするスペル及び/又は発音を、他方のシステムの忠実度を向上させるために使用する。
さらに、テキスト・音声変換システム211及び/又は自動音声認識システム212のいずれかによって認識される会話で使用される単語に応じて、会話エンジン210は、テキスト入力121又は音声入力152のいずれかに応じて話題に特有の辞書にアクセスされる「辞書適応」と呼ばれるプロセスを実行してもよい。通常、TTSシステムは、単一の音声出力を所与のテキスト入力に関連付けるか、又は所与のテキスト入力が種々の方法で発音される可能性がある場合、自然言語処理を実行して、テキスト入力の最も可能性の高い発音を選択する。ASRシステムは、通常、各単語に対し先に発話された単語に基づいて確率が関連付けられている辞書に依存する。
本発明の実施形態では、会話エンジン210は、テキスト入力121又は音声入力152のいずれかに関連する他の単語の確率を変更してもよい。このため、「猫(cat)」という単語が発話される場合、会話エンジン210により、猫の話題に関連する他の単語に対してより高い確率が割り当てられることになる。その結果、テキスト入力121を使用して、自動音声認識システム212によって使用される辞書において単語に関連する確率を変更することができる。同様に、音声入力152を使用して、テキスト・音声変換システム211によって使用される辞書において単語に関連する確率を変更することができる。これは、この場合もまた、会話の参加者が同じか又は同様の話題について話している可能性があるため有利である。このため、会話中に使用されている関連単語の確率が高くなる。
別の実施形態では、音声入力152を使用して、テキスト・音声変換システム211の音声出力を変更することができる。この実施形態では、次にテキスト入力121がテキスト・音声変換システム211によってアクセスされる時、テキスト・音声変換システム211はこの時、音声出力151を生成する代りに、ヒント213においてテキスト入力121に関連する音声入力152を出力する。
図2C及び図2Dを参照すると、時刻Tにおいて、第2のユーザ160は携帯電話150を使用して音声入力152を(たとえばマイク154を介して)生成する。本発明の実施形態では、時刻Tにおいて、会話エンジン210によって音声入力152がアクセスされる。自動音声認識システム212は、時刻Tにおいて音声入力152をテキスト出力122に変換し、それは時刻Tにおいてコンピュータ120の表示装置506に伝達される。
これに応じて、時刻Tにおいて、コンピュータ120のユーザはテキスト入力121を生成し、それは時刻Tにおいて会話エンジン210によって受け取られる。最後に、時刻Tにおいて、テキスト・音声変換システム211は音声出力151を生成し、この音声出力151は時刻Tにおいて携帯電話150に受け取られる。本発明の実施形態では、イベントの順序を逆にしてもよいことが理解される。すなわち、本発明の実施形態では、音声入力152の生成が、テキスト入力121の生成に先立ってもよい。
本発明の実施形態では、ASRシステム212によって認識されない単語のインスタンスは、会話エンジン210によって格納される。図2Cの実施形態では、ASRシステム212が知らない音声入力のインスタンスを受け取ると、その音声入力のコピーが変更コンポーネント214に送出されそこで格納される。図2Dの実施形態では、音声入力152のインスタンスは、変更コンポーネント214によって認識されない場合、変更コンポーネント214によって格納される。
そして、認識されていない音声入力のこれらのインスタンスは、認識されていないテキスト入力のインスタンスと比較される。本発明の実施形態では、その後、変更コンポーネント214は、認識されていないテキスト入力(たとえば121)のインスタンスが認識されていないの音声入力(たとえば152)のインスタンスに対応するか否かを判断しようと試みる。本発明の実施形態では、変更コンポーネント214が、事前に求められたパラメータを使用して、テキスト入力121と音声出力152との間に、それらをデータの対応するインスタンスとして指定するために十分な類似性があるか否かを判断する。
2つのインスタンスが規定されたパラメータ内で一致する場合、変更コンポーネント214は、テキスト入力121を生成している第1のユーザと音声入力152を生成している第2のユーザとが同じものに言及していると想定する。その結果、テキスト・音声変換システム211及び/又は自動音声認識システム212によってアクセスされる辞書(たとえばヒント213)は、変更コンポーネント214によって、テキスト入力121及び音声入力152が関連付けられるように更新される。言い換えれば、音声入力152の所与の単語の発音が、TTSシステム211によって所与の単語の発音のためのヒントとして使用される。
再び図2C及び図2Dを参照すると、次に第1のユーザ110が時刻Tにおいてテキスト入力112を生成する時、会話エンジン213は、時刻TN+1においてテキスト入力121にアクセスし、認識されていないテキスト入力121のインスタンスを音声出力152の格納されているインスタンスと比較する。認識されていないテキスト入力121が格納されている音声入力152に対応すると判断されると、変更コンポーネント214は、テキスト・音声変換システム211に対し、時刻TN+2において、テキスト入力121のそれ自体の発音を近似させるのではなく、関連するテキスト入力152をテキスト出力122として利用させる。
このデータベース(たとえば213)の拡張では、音声入力152は、基本TTSシステムに対して適当であるいかなる記述言語をも使用して特徴付けられる。通常、これは、オリジナルの音声サンプルではなく、相対的な持続時間及び語勢が留意される一連の音素である。しかしながら、これは、記録された表現としてオリジナルの音声サンプルを使用することを排除しない。その結果、次にテキスト入力121がテキスト・音声変換システム211によってアクセスされる時、テキスト・音声変換システム211はこの時、以前のように音声出力151を生成する代りに、音声入力152(たとえば、ヒント213に格納された関連音声入力152)から生成される記録された表現を使用する。記録された表現がオリジナルの音声入力152である場合、その音声を音声出力に、任意選択で知覚的一致を向上させるために音声変換をともなって混合することができる。参照として与えられるあり得る変換の一例は、Slaney、Covell及びLassiterによる、Institute of Electrical and Electronics Engineers(IEEE) International Conference on Acoustics, Speech, and Signal Processing, Atlanta GA, May 1996, vol.2, pages 1001-1004で提示された「Automatic Audio Morphing」である。
別の実施形態では、変更コンポーネント214を使用して、携帯電話150のユーザの話し方のパターンに似るように音声出力151を生成するようテキスト・音声変換システム211を構成することも可能である。たとえば、携帯電話150のユーザが独特なアクセントで話す場合、変更コンポーネント214は、音声入力152にアクセスして上述したように音声出力151を構成する単語の発音を変更することができる。その結果、本発明の実施形態により、音声出力151は、自動音声認識システム212によって正確に認識される単語を含む、音声入力152を構成する単語の発音により近似することができる。
本発明の実施形態では、TTSシステム211は、アクセスされた辞書に格納されていないテキスト入力121のインスタンスを受け取ると、その単語が何と聞こえ得るかを近似する発音に即した音声出力を生成する。上述したように、従来のTTSシステムは、発音することが訓練されなかった適当な名詞に対する正確な音声出力を生成しないことが多い。このように、TTSシステムは、知らないテキスト入力のインスタンスを受け取る場合、その単語の不正確な発音を安易に生成する可能性がある。これは、特に、TTSシステムが、さまざまな文字の組合せの発音並びに/又は外来語(たとえば非英語)のアクセント及び発声における文化的な相違を考慮しないことが多いという点で問題がある。本発明の実施形態では、テキスト・音声変換システム211によって認識されない単語のインスタンスはヒント213に格納される。
したがって、本発明の実施形態は、テキスト・音声変換システム211に対するより高い忠実度を促進する。それは、テキスト・音声変換システム211が、知らない単語の発音を推測又は近似する必要がないためである。同様に、本発明の実施形態は、自動音声認識システム212に対するより高い忠実度を促進する。それは、自動音声認識システム212が、知らない単語のスペルを推測又は近似する必要がないためである。さらに、前にアクセスされたテキスト入力を使用して、関連する単語の確率を上昇させることができる。その結果、発話された単語を認識する際の自動音声認識システム212の忠実度が向上する。
以下の論考は、本発明の実施形態による対話システム200を使用する例示的な会話である。第1のユーザ110は、第2のユーザ160に「ジョーはどんな種類の猫を手に入れたのですか?」と質問するテキスト入力121を生成する。会話エンジン210は、テキスト入力121にアクセスし、テキスト・音声変換システム211を使用して、第2のユーザ160に出力される音声出力151を「ジョーはどんな種類の猫を手にいれたのですか?」として生成する。さらに、会話エンジン210は、単語「猫」に関連する単語に対しより高い確率が与えられる辞書適応プロセスを実行する。このため、第1のユーザ110又は第2のユーザ160により、足、ひげ、ロングヘア、ショートヘア、とら猫、犬、ネズミ、鳥等、「猫」という単語に関連する他の単語が使用される場合、それらは会話エンジン210によってより容易に認識されることとなる。
音声出力151に応じて、ユーザ160は、「Usikiはロシアンショートヘアです」という音声入力152を生成する。会話エンジン210は、音声入力152にアクセスして、自動音声認識システム212を使用してテキスト出力122を生成する。しかしながら、自動音声認識システム212は、「Usiki」という単語を認識するように訓練されていないため、近似する単語を出力する。このため、第1のユーザ110は、「Oozekeはロシアンショートヘアです」として出力されるテキスト出力122を受け取る。さらに、「Usiki」という単語は通常英語の辞書には記載されていないため、自動音声認識システム212はその単語を認識しない。本発明の実施形態では、その後、会話エンジン210によってその認識されていない単語が辞書に追加される。より具体的には、音声入力152(たとえばUsikiの発音の音声ファイル)が辞書(たとえばヒント213)に追加される。同じ文において、会話エンジン210がすでに辞書適応を実行しているため、「ショートヘア」という句は、「ショーター」として不正確に認識されることなく正確に認識された。このため、会話エンジン210は、テキスト入力121を使用してあり得る音声入力をより正確に識別した。その結果、自動音声認識システムの出力を変更するために前にアクセスされたテキスト入力を使用することができるため、本発明の実施形態によって自動音声認識システム212の忠実度が向上する。本発明の実施形態では、「ロシアン」という単語に関連する単語に対してより高い確率が与えられる別の辞書適応プロセスを実行してもよい。
話題になっている猫にUsikiという名前がつけられていることを知っている第1のユーザ110は、Oozekeというテキスト出力122がスペルミスであると認識する。そして、第1のユーザ110は、「どこでUsikiを見つけたのですか?」という応答(たとえばテキスト入力121)を生成する。ここでは、「Usiki」という単語は正確に綴られている。Usikiは英語の辞書に通常記載されている単語ではないため、会話エンジン210はその辞書にUsikiという単語を追加する(たとえば、Usikiのテキスト入力がヒント213に追加される)。さらに、会話エンジン210は、Usikiのテキストエントリ(たとえばテキスト入力121)を、テキスト入力と音声入力とを照合するための事前に規定されたパラメータに従ってテキストエントリに一致する可能性がある任意の音声ファイルと照合するように試みる。このため、変更コンポーネントは、UsikiのテキストエントリがUsikiの音声ファイル(たとえば音声入力152)と一致すると判断する。その結果、これらの2つの単語は、ヒント213に格納されている辞書において関連付けられる。本発明の実施形態では、次に音声入力152において「Usiki」という単語が発話される時、テキスト出力122が生成される時に「Usiki」という単語に対する関連テキストファイルがアクセスされる。言い換えれば、「Usiki」という単語が次に音声入力152として使用される時、自動音声認識システム212からテキスト出力122を構成するプロセスにおいて、先に生成された近似する単語の代りに、ユーザ110がタイプ入力した先に格納されたテキスト入力121が使用される。
そして、会話エンジン210は、テキスト入力121(たとえば「Usikiとはどういう意味ですか?」)にアクセスし、テキスト・音声変換システム211を使用して、「Usikiとはどういう意味ですか?」として第2のユーザ160に出力される音声出力151を生成する。しかしながら、会話エンジン210によって出力される「Usiki」という発音は、第2のユーザ160によって先に入力された発音に概ね近似する。
したがって、本発明の実施形態は、自動音声認識システム212のより高い忠実度を促進する。それは、自動音声認識システム212が知らない単語のスペルを推測又は近似する必要がないためである。さらに、先にアクセスされたテキスト入力を使用して、関連する単語の確率を上昇させることができる。その結果、発話された単語を認識する際の自動音声認識システム212の忠実度が向上する。
上述した例示的なシナリオを参照すると、第1のユーザ110は、テキスト入力121を生成する時に「Usiki」を正確に綴り得る。しかしながら、TTSシステム211は、その辞書にその単語がないため、「Usiki」を不正確に発音する音声出力151を生成する。さらに、「Usiki」という単語は認識されないため、会話エンジン210によって(たとえば変更コンポーネント214によって)格納される。
「Usiki」の正確な発音を知っている第2のユーザ160は、「Usiki」が正確に発音される音声入力152を生成する。この場合もまた、「Usiki」という単語は認識されない(たとえばASRシステム212又は変更コンポーネント214によって)ため、「Usiki」の音声表現は会話エンジン210によって格納される。
本発明の実施形態では、判断コンポーネント330が、「Usiki」のテキスト表現を「Usiki」という単語の音声表現と比較し、それらがその単語の対応するインスタンスであると判断する。そして、判断コンポーネント214は、次にテキスト入力121が「Usiki」という単語を含む時、「Usiki」という単語に対する関連音声ファイルがヒント213を介してアクセスされるように、ヒント213を更新する。言い換えれば、「Usiki」という単語が次にテキスト入力121として使用される時、テキスト・音声変換システム211からの音声出力151を構成するプロセスにおいて、テキスト・音声変換システム211によって先に生成された近似する単語の代りに、ユーザ160によって発話された先に格納された音声出力152が使用される。
図4は、本発明の実施形態によるテキスト・音声変換システム及び自動音声認識システムの忠実度を向上させる方法400のフローチャートである。図4のステップ410において、第1のモダリティで動作している第1のシステムの第1のユーザからの第1の入力にアクセスする。図2に関連して上述したように、本発明の実施形態では、変更コンポーネント214はテキスト入力121にアクセスする。本発明の実施形態では、変更コンポーネント214は、認識されていないテキスト入力のインスタンスを識別し、それらを辞書(たとえば図2の215)に格納する。
図4のステップ420において、第2のモダリティで動作している第2のシステムの第2のユーザからの第2の入力にアクセスする。図2に関連して上述したように、本発明の実施形態では、変更コンポーネント214はまた、音声入力152にもアクセスする。本発明の実施形態では、変更コンポーネント214は、認識されていない音声入力のインスタンスを識別し、それらを辞書(たとえば図2の215)に格納する。
図4のステップ430において、第2の入力を利用して第1のシステムの出力を変更する。図2に関連して上述したように、変更コンポーネント214は、認識されていないテキスト入力のインスタンスが認識されていない音声入力のインスタンスに対応する場合を判断するように構成される。本発明の実施形態では、これを判断することに応じて、変更コンポーネント214は、テキスト・音声変換システム211に対し、対応するテキスト入力121がアクセスされる時に音声出力151を構成するプロセスにおいて音声入力152を使用させる。さらに、変更コンポーネント214は、自動音声認識システム212に対し、テキスト入力121を同様にテキスト出力122として使用させることができる。
図5を参照すると、本発明の部分は、たとえば汎用コンピュータネットワーク(図示せず)の一部として使用されるコンピュータシステム500に存在する、コンピュータ読取可能且つコンピュータ実行可能命令から構成される。図5のコンピュータシステム500は例示的なものに過ぎず、本発明は、汎用コンピュータシステム、組込みコンピュータシステム、ラップトップコンピュータシステム、ハンドヘルドコンピュータシステム及びスタンドアロンコンピュータシステムを含む多数の種々のコンピュータシステム内で動作することができるということが理解される。
本実施形態では、コンピュータシステム500は、さまざまな構成要素間でデジタル情報を伝達するアドレス/データバス501と、デジタル情報及び命令を処理する中央処理装置(CPU)502と、デジタル情報及び命令を格納する揮発性ランダムアクセスメモリ(RAM)から構成される揮発性メインメモリ503と、より永続的な性質の情報及び命令を格納する不揮発性リードオンリメモリ(ROM)504とを含む。さらに、コンピュータシステム500はまた、大量のデータを格納するデータ記憶装置505(たとえば、磁気ドライブ、光ドライブ、フロッピー(登録商標)ドライブ又はテープドライブ等)を含んでもよい。本発明のテキスト・音声変換システム及び自動音声認識システムの忠実度を向上させる方法を実行するソフトウェアプログラムを、揮発性メモリ503、データ記憶装置505、又は外部記憶装置(図示せず)のいずれかに格納することができることに留意されたい。
任意選択でコンピュータシステム500に結合される装置には、コンピュータユーザに情報を表示する表示装置506と、英数字入力装置507(たとえばキーボード)と、データ、選択、更新等を入力するカーソル制御装置508(たとえば、マウス、トラックボール、ライトペン等)とが含まれる。コンピュータシステム500はまた、可聴信号を発する機構(図示せず)を含むことも可能である。
さらに図5を参照すると、図5の任意選択の表示装置506は、液晶装置、ブラウン管、又はユーザに認識可能なグラフィックイメージ及び英数字を作成するために適した他の表示装置であってもよい。任意選択のカーソル制御装置508により、コンピュータユーザは、表示装置506の表示画面における可視シンボル(カーソル)の2次元移動を動的に通知することができる。変位の所与の方向又は方法の移動を通知することができる英数字入力装置507上のトラックボール、マウス、タッチパッド、ジョイスティック、又は特別なキーを含むカーソル制御装置508の多くのインプリメンテーションが、当該技術分野において既知である。別法として、カーソルを、英数字入力装置507からの入力を介して特別なキー及びキーシーケンスコマンドを使用して誘導(direct)及び/又は起動することができるということが理解されよう。別法として、カーソルを、特別に適合された多数のカーソル誘導装置からの入力を介して誘導及び/又は起動してもよい。
さらに、コンピュータシステム500は、周辺装置510(たとえば、コンピュータネットワーク、モデム、大容量記憶装置等)とインタフェースする入出力(I/O)信号ユニット(たとえばインタフェース)509を含むことができる。したがって、コンピュータシステム500を、クライアント/サーバ環境等のネットワークに結合してもよく、それにより、多数のクライアント(たとえばパーソナルコンピュータ、ワークステーション、ポータブルコンピュータ、ミニコンピュータ、端末等)を使用して所望のタスクを実行するプロセスが実行される。特に、コンピュータシステム500を、テキスト・音声変換システム及び自動音声認識システムの忠実度を向上させる方法のためのシステムに結合することができる。
このように、本発明、すなわち対話システムの忠実度を向上させる方法及びシステムの好ましい実施形態について説明した。本発明を特定の実施形態で説明したが、本発明はこうした実施形態によって限定されるものと解釈されるべきではなく、添付の特許請求の範囲に従って解釈されるべきであることが理解されるべきである。
本発明の実施形態によって使用される通信ネットワークの図である。 本発明の実施形態による例示的な対話システムの図である。 本発明の実施形態による例示的な対話システムの図である。 本発明の実施形態による例示的な対話システムの図である。 本発明の実施形態による例示的な対話システムの図である。 本発明の実施形態による例示的な変更コンポーネントのブロック図である。 本発明の実施形態による対話システムの忠実度を向上させる方法のフローチャートである。 本発明の実施形態を実装してもよい例示的なコンピュータシステムの図である。
符号の説明
100・・・通信ネットワーク
120・・・コンピュータ
130・・・インターネット
140・・・ネットワーク
150・・・携帯電話
200・・・対話システム
121・・・テキスト入力
122・・・テキスト出力
151・・・音声出力
152・・・音声入力
153・・・スピーカ
154・・・マイク
210・・・会話エンジン
211・・・テキスト・音声変換システム
212・・・自動音声認識システム
213・・・ヒント
214・・・変更コンポーネント
506・・・表示装置
507・・・英数字入力装置
310・・・テキスト入力アクセス機構
320・・・音声入力アクセス機構
330・・・判断コンポーネント
502・・・プロセッサ
503・・・揮発性メモリ(RAM)
504・・・不揮発性メモリ(ROM)
505・・・データ記憶装置
506・・・表示装置
507・・・英数字入力装置
508・・・カーソル制御
509・・・入出力通信装置
510・・・周辺装置

Claims (7)

  1. 対話システムの忠実度を向上させる方法であって、
    テキストを使用する第1のモダリティで動作しているテキスト・音声変換システムである第1のシステム(211)の第1のユーザによって第1の端末を使用して生成されるテキスト入力(121)にアクセスすることと、
    前記第1のシステム(211)が、変更コンポーネント(214)のデータベース(213)に格納された、テキストと音声とを関連付けるための辞書に基づいて、前記アクセスされたテキスト入力(121)に対応する音声出力(151)を生成することと、
    音声を使用する第2のモダリティで動作している自動音声認識システムである第2のシステム(212)の第2のユーザによって第2の端末を使用して生成される音声入力(152)にアクセスすることと、
    前記第2のシステム(212)が、前記辞書に基づいて、前記アクセスされた音声入力(152)に対応するテキスト出力(122)を生成することと、
    記アクセスされたテキスト入力(121)が前記第1のシステム(211)または変更コンポーネント(214)に認識されていない場合に、このテキスト入力(121)を、前記データベース(213)に格納することと、
    前記アクセスされた音声入力(152)が前記第2のシステム(212)または変更コンポーネント(214)に認識されていない場合に、この音声入力(152)を、前記データベース(213)に格納することと、
    前記第1のシステム(211)が前記格納されたテキスト入力(121)について発音を仮定し、その仮定された発音が前記格納された音声入力(152)と対応すると判断された場合に、前記変更コンポーネント(214)が、前記格納されたテキスト入力(121)と前記格納された音声入力(152)とを関連付けることと、
    次に第1のユーザによって生成されたテキスト入力(121)がアクセスされる場合に、前記テキスト入力(121)と関連付けられ第2のユーザによって生成された音声入力(152)を前記第2のユーザが使用する第2の端末への音声出力(151)として使用することと
    を含む方法。
  2. 前記データベース(213)は、
    前記第1のシステム(211)の一構成要素
    を含む
    請求項1に記載の方法。
  3. 前記データベース(213)は、
    前記第2のシステム(212)の一構成要素
    を含む
    請求項1に記載の方法。
  4. 前記データベース(213)は、
    前記第1のシステム(211)及び前記第2のシステム(212)の共通の構成要素
    を含む
    請求項1に記載の方法。
  5. 対話システムの忠実度を向上させる方法であって、
    テキストを使用する第1のモダリティで動作しているテキスト・音声変換システムである第1のシステム(211)の第1のユーザによって第1の端末を使用して生成されるテキスト入力(121)にアクセスすることと、
    前記第1のシステム(211)が、変更コンポーネント(214)のデータベース(213)に格納された、テキストと音声とを関連付けるための辞書に基づいて、前記アクセスされたテキスト入力(121)に対応する音声出力(151)を生成することと、
    音声を使用する第2のモダリティで動作している自動音声認識システムである第2のシステム(212)の第2のユーザによって第2の端末を使用して生成される音声入力(152)にアクセスすることと、
    前記第2のシステム(212)が、前記辞書に基づいて、前記アクセスされた音声入力(152)に対応するテキスト出力(122)を生成することと、
    記アクセスされたテキスト入力(121)が前記第1のシステム(211)または変更コンポーネント(214)に認識されていない場合に、このテキスト入力(121)を、前記データベース(213)に格納することと、
    前記アクセスされた音声入力(152)が前記第2のシステム(212)または変更コンポーネント(214)に認識されていない場合に、この音声入力(152)を、前記データベース(213)に格納することと、
    前記第1のシステム(211)が前記格納されたテキスト入力(121)について発音を仮定し、その仮定された発音が前記格納された音声入力(152)と対応すると判断された場合に、前記変更コンポーネント(214)が、前記格納されたテキスト入力(121)と前記格納された音声入力(152)とを関連付けることと、
    次に第2のユーザによって生成された音声入力(122)がアクセスされる場合に、前記音声入力(152)と関連付けられ第1のユーザによって生成されたテキスト入力(121)を前記第1のユーザが使用する第1の端末へのテキスト出力(122)として使用することと
    を含む方法。
  6. コンピュータシステムに対し、対話システムの忠実度を向上させる方法を実行させるコンピュータ読取可能プログラムコードが組み込まれたコンピュータ使用可能媒体であって、
    前記方法は、
    テキストを使用する第1のモダリティで動作しているテキスト・音声変換システムである第1のシステム(211)の第1のユーザによって第1の端末を使用して生成されるテキスト入力(121)にアクセスすることと、
    前記第1のシステム(211)が、変更コンポーネント(214)のデータベース(213)に格納された、テキストと音声とを関連付けるための辞書に基づいて、前記アクセスされたテキスト入力(121)に対応する音声出力(151)を生成することと、
    音声を使用する第2のモダリティで動作している自動音声認識システムである第2のシステム(212)の第2のユーザによって第2の端末を使用して生成される音声入力(152)にアクセスすることと、
    前記第2のシステム(212)が、前記辞書に基づいて、前記アクセスされた音声入力(152)に対応するテキスト出力(122)を生成することと、
    記アクセスされたテキスト入力(121)が前記第1のシステム(211)または変更コンポーネント(214)に認識されていない場合に、このテキスト入力(121)を、前記データベース(213)に格納することと、
    前記アクセスされた音声入力(152)が前記第2のシステム(212)または変更コンポーネント(214)に認識されていない場合に、この音声入力(152)を、前記データベース(213)に格納することと、
    前記第1のシステム(211)が前記格納されたテキスト入力(121)について発音を仮定し、その仮定された発音が前記格納された音声入力(152)と対応すると判断された場合に、前記変更コンポーネント(214)が、前記格納されたテキスト入力(121)と前記格納された音声入力(152)とを関連付けることと、
    次に第1のユーザによって生成されたテキスト入力(121)がアクセスされる場合に、前記テキスト入力(121)と関連付けられ第2のユーザによって生成された音声入力(152)を前記第2のユーザが使用する第2の端末への音声出力(151)として使用することと
    を含む
    コンピュータ使用可能媒体。
  7. コンピュータシステムに対し、対話システムの忠実度を向上させる方法を実行させるコンピュータ読取可能プログラムコードが組み込まれたコンピュータ使用可能媒体であって、
    前記方法は、
    テキストを使用する第1のモダリティで動作しているテキスト・音声変換システムである第1のシステム(211)の第1のユーザによって第1の端末を使用して生成されるテキスト入力(121)にアクセスすることと、
    前記第1のシステム(211)が、変更コンポーネント(214)のデータベース(213)に格納された、テキストと音声とを関連付けるための辞書に基づいて、前記アクセスされたテキスト入力(121)に対応する音声出力(151)を生成することと、
    音声を使用する第2のモダリティで動作している自動音声認識システムである第2のシステム(212)の第2のユーザによって第2の端末を使用して生成される音声入力(152)にアクセスすることと、
    前記第2のシステム(212)が、前記辞書に基づいて、前記アクセスされた音声入力(152)に対応するテキスト出力(122)を生成することと、
    記アクセスされたテキスト入力(121)が前記第1のシステム(211)または変更コンポーネント(214)に認識されていない場合に、このテキスト入力(121)を、前記データベース(213)に格納することと、
    前記アクセスされた音声入力(152)が前記第2のシステム(212)または変更コンポーネント(214)に認識されていない場合に、この音声入力(152)を、前記データベース(213)に格納することと、
    前記第1のシステム(211)が前記格納されたテキスト入力(121)について発音を仮定し、その仮定された発音が前記格納された音声入力(152)と対応すると判断された場合に、前記変更コンポーネント(214)が、前記格納されたテキスト入力(121)と前記格納された音声入力(152)とを関連付けることと、
    次に第2のユーザによって生成された音声入力(122)がアクセスされる場合に、前記音声入力(152)と関連付けられ第1のユーザによって生成されたテキスト入力(121)を前記第1のユーザが使用する第1の端末へのテキスト出力(122)として使用することと
    を含む
    コンピュータ使用可能媒体。
JP2007536748A 2004-10-13 2005-10-07 対話システムの忠実度を向上させる方法及びシステム Expired - Fee Related JP4809358B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/965,540 US8463611B2 (en) 2004-10-13 2004-10-13 Method and system for improving the fidelity of a dialog system
US10/965,540 2004-10-13
PCT/US2005/036152 WO2006044253A1 (en) 2004-10-13 2005-10-07 Method and system for improving the fidelity of a dialog system

Publications (2)

Publication Number Publication Date
JP2008516294A JP2008516294A (ja) 2008-05-15
JP4809358B2 true JP4809358B2 (ja) 2011-11-09

Family

ID=35641478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007536748A Expired - Fee Related JP4809358B2 (ja) 2004-10-13 2005-10-07 対話システムの忠実度を向上させる方法及びシステム

Country Status (7)

Country Link
US (1) US8463611B2 (ja)
EP (1) EP1800292B1 (ja)
JP (1) JP4809358B2 (ja)
KR (1) KR100917552B1 (ja)
AT (1) ATE417345T1 (ja)
DE (1) DE602005011650D1 (ja)
WO (1) WO2006044253A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7643687B2 (en) * 2005-03-18 2010-01-05 Microsoft Corporation Analysis hints
US8380512B2 (en) * 2008-03-10 2013-02-19 Yahoo! Inc. Navigation using a search engine and phonetic voice recognition
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9292254B2 (en) * 2013-05-15 2016-03-22 Maluuba Inc. Interactive user interface for an intelligent assistant
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US9710071B2 (en) * 2014-09-22 2017-07-18 Rovi Guides, Inc. Methods and systems for recalibrating a user device based on age of a user and received verbal input
US11501765B2 (en) * 2018-11-05 2022-11-15 Dish Network L.L.C. Behavior detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242642A (ja) * 1999-02-18 2000-09-08 Sony Corp 翻訳処理方法及び翻訳処理装置
JP2001343993A (ja) * 2000-05-30 2001-12-14 Atr Onsei Gengo Tsushin Kenkyusho:Kk 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004118720A (ja) * 2002-09-27 2004-04-15 Toshiba Corp 翻訳装置、翻訳方法及び翻訳プログラム
JP2004354760A (ja) * 2003-05-29 2004-12-16 Mitsubishi Electric Corp 音声認識装置
JP2005345681A (ja) * 2004-06-02 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 異言語間対話処理方法および装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995590A (en) * 1998-03-05 1999-11-30 International Business Machines Corporation Method and apparatus for a communication device for use by a hearing impaired/mute or deaf person or in silent environments
IT251676Y1 (it) * 2000-03-13 2003-12-19 Giuseppe Baldino Deaf and telephone "telefono per sordo muti".
WO2001069595A1 (fr) 2000-03-17 2001-09-20 Migaku Takahashi Support d'enregistrement magnetique vertical et son procede d'evaluation
US6546082B1 (en) * 2000-05-02 2003-04-08 International Business Machines Corporation Method and apparatus for assisting speech and hearing impaired subscribers using the telephone and central office
US6701162B1 (en) * 2000-08-31 2004-03-02 Motorola, Inc. Portable electronic telecommunication device having capabilities for the hearing-impaired
US7254227B2 (en) * 2001-10-01 2007-08-07 Inderpal Singh Mumick Signal-based session management for telephonic applications
KR20040073708A (ko) 2003-02-14 2004-08-21 (주)모이존 음성 및 문자를 이용한 대화가 가능한 온라인 게임 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242642A (ja) * 1999-02-18 2000-09-08 Sony Corp 翻訳処理方法及び翻訳処理装置
JP2001343993A (ja) * 2000-05-30 2001-12-14 Atr Onsei Gengo Tsushin Kenkyusho:Kk 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004118720A (ja) * 2002-09-27 2004-04-15 Toshiba Corp 翻訳装置、翻訳方法及び翻訳プログラム
JP2004354760A (ja) * 2003-05-29 2004-12-16 Mitsubishi Electric Corp 音声認識装置
JP2005345681A (ja) * 2004-06-02 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 異言語間対話処理方法および装置

Also Published As

Publication number Publication date
JP2008516294A (ja) 2008-05-15
KR20070053802A (ko) 2007-05-25
US8463611B2 (en) 2013-06-11
US20060080102A1 (en) 2006-04-13
WO2006044253A1 (en) 2006-04-27
ATE417345T1 (de) 2008-12-15
KR100917552B1 (ko) 2009-09-16
EP1800292A1 (en) 2007-06-27
DE602005011650D1 (de) 2009-01-22
EP1800292B1 (en) 2008-12-10

Similar Documents

Publication Publication Date Title
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
CN107039038B (zh) 学习个性化实体发音
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
US20020128840A1 (en) Artificial language
US8364487B2 (en) Speech recognition system with display information
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
JP4818683B2 (ja) 言語モデルを作成する方法
US20020198715A1 (en) Artificial language generation
US20100217582A1 (en) System and methods for maintaining speech-to-speech translation in the field
KR20210103002A (ko) 감정 정보 기반의 음성 합성 방법 및 장치
JP4809358B2 (ja) 対話システムの忠実度を向上させる方法及びシステム
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
US11776563B2 (en) Textual echo cancellation
US20150254238A1 (en) System and Methods for Maintaining Speech-To-Speech Translation in the Field
CN117043856A (zh) 高效流式非递归设备上的端到端模型
Sharma et al. Exploration of speech enabled system for English
JP2007535692A (ja) 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
Raheem et al. Real-time speech recognition of arabic language
Delic et al. Speech-Enabled Computers as a Tool for Serbian-Speaking Blind Persons
CN113973095A (zh) 发音教学方法
JP2020126186A (ja) 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法
Deng et al. A speech-centric perspective for human-computer interface

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110810

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110818

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees