JP4509039B2 - 音声対話インターフェース装置及び方法 - Google Patents

音声対話インターフェース装置及び方法 Download PDF

Info

Publication number
JP4509039B2
JP4509039B2 JP2006025544A JP2006025544A JP4509039B2 JP 4509039 B2 JP4509039 B2 JP 4509039B2 JP 2006025544 A JP2006025544 A JP 2006025544A JP 2006025544 A JP2006025544 A JP 2006025544A JP 4509039 B2 JP4509039 B2 JP 4509039B2
Authority
JP
Japan
Prior art keywords
system response
user
action frame
speech
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006025544A
Other languages
English (en)
Other versions
JP2006227611A (ja
Inventor
炳 ▲クヮン▼ 郭
在 原 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2006227611A publication Critical patent/JP2006227611A/ja
Application granted granted Critical
Publication of JP4509039B2 publication Critical patent/JP4509039B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04GSCAFFOLDING; FORMS; SHUTTERING; BUILDING IMPLEMENTS OR AIDS, OR THEIR USE; HANDLING BUILDING MATERIALS ON THE SITE; REPAIRING, BREAKING-UP OR OTHER WORK ON EXISTING BUILDINGS
    • E04G21/00Preparing, conveying, or working-up building materials or building elements in situ; Other devices or measures for constructional work
    • E04G21/32Safety or protective measures for persons during the construction of buildings
    • E04G21/3204Safety or protective measures for persons during the construction of buildings against falling down
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63CLAUNCHING, HAULING-OUT, OR DRY-DOCKING OF VESSELS; LIFE-SAVING IN WATER; EQUIPMENT FOR DWELLING OR WORKING UNDER WATER; MEANS FOR SALVAGING OR SEARCHING FOR UNDERWATER OBJECTS
    • B63C5/00Equipment usable both on slipways and in dry docks
    • B63C5/02Stagings; Scaffolding; Shores or struts
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04GSCAFFOLDING; FORMS; SHUTTERING; BUILDING IMPLEMENTS OR AIDS, OR THEIR USE; HANDLING BUILDING MATERIALS ON THE SITE; REPAIRING, BREAKING-UP OR OTHER WORK ON EXISTING BUILDINGS
    • E04G7/00Connections between parts of the scaffold
    • E04G7/30Scaffolding bars or members with non-detachably fixed coupling elements
    • E04G7/32Scaffolding bars or members with non-detachably fixed coupling elements with coupling elements using wedges

Landscapes

  • Engineering & Computer Science (AREA)
  • Architecture (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Structural Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Civil Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Ocean & Marine Engineering (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声対話インターフェースに係り、より詳細には、音声対話システムにおいて、従来のフレーム基盤モデルとプラン基盤モデルとの長所を利用することによって、多様な対話現象に対する処理が可能な対話モデルを提示し、それを通じてドメイン間の移動性及びサービスの拡張性にも能動的に対処できる音声対話インターフェース装置及び方法に関する。
図1は、従来の音声対話インターフェース装置の動作を示すブロック図であり、まず、ユーザの発話から音声認識を行う(110)。次いで、認識された音声を分析して、ユーザが話した言葉を解釈した後(120)、解釈された言葉を利用して対話処理を行う(130)。
例えば、解釈された言葉が特定機器を制御する制御命令である場合には、該当する機器を制御する動作を行うようにする(150)。このような動作を、以下では’サービス実行’と称する。
サービス実行には、特定機器を制御すること以外にもユーザの音声による要請によって情報検索を行うことも含みうる。すなわち、サービス実行は、ユーザが音声を通じて要請する特定の動作を行うことを意味する。
一方、前記音声対話インターフェース装置が対話処理(130)を行うに当って、プラン管理(140)を行わせうるが、それは、特定のサービスを実行するために要求される一連の細部動作を管理及び計画することを意味する。すなわち、前記音声対話インターフェース装置は、対話処理を行うとき、プラン管理によって状況に合うサービスを順に実行するように構成できる。
音声対話インターフェース装置は、ユーザの音声を理解できなかった場合やサービス実行に対する結果を受信した場合には、その結果をユーザに知らせる必要がある。
したがって、既設定された音声対話モデルによってユーザに応答する言葉を発生し(160)、発生した言葉を所定のディスプレイ装置を通じてユーザに知らせるか(180)、あるいは、前記応答する言葉を音声に変換する音声合成過程(170)を経て、スピーカを通じてユーザに知らせる。
図1に示すような方法は、ユーザの音声を認識し、認識された音声を解釈して特定の機能を行った後、その結果を再びユーザに音声で知らせる音声対話インターフェース装置に一般的に使われている方法である。ただし、解釈された言葉をいかなる方法で処理するかについての対話処理(130)については、多様な音声対話モデルが提示されており、図2〜図5では、このような音声対話モデルのうち、代表的な4つのモデルについて例示している。
図2は、パターンマッチング方法による従来の音声対話モデルを示す例示図である。
まず、ユーザの音声から複数のキーワードを抽出し(210)、抽出されたキーワードリスト及び対話スクリプトDB 220に保存された対話パターン情報を利用して、パターンマッチング動作を行う(230)。マッチングするパターンが存在している場合には、該当する対話スクリプトを選択し、選択された対話スクリプトにあるテンプレートを利用して応答を生成する(240)。次いで、音声対話インターフェース装置は、生成された応答をユーザに伝達する。
パターンマッチング方式による音声対話モデルについては、特許文献1に開示されている。
図3は、有限状態モデルによる従来の音声対話モデルの一例を示す模式図である。
有限状態モデルにおいて、それぞれの状態で、音声対話インターフェース装置はユーザに質疑し、この質疑に対するユーザからの応答を解釈する。このとき、それぞれの状態において、音声対話インターフェイス装置は、それより以前の状態を認識した状態で処理を実行する。例えば、図3に図示された状態−4段階では、状態−1及び状態−2の結果を認識した状態でユーザとの対話が行われる。
有限状態モデルでの対話は、主に音声対話インターフェース装置により主導されるが、このような例として、自動応答システム(ARS)がある。有限状態モデルによる音声対話モデルについては、特許文献2に開示されている。
図4は、フレーム基盤モデルによる従来の音声対話モデルを示す例示図である。
フレーム基盤モデルは、図4で図示したテーブル形態のフレーム400に基づいて音声対話を行う。
このとき、フレーム400は、音声対話インターフェース装置がユーザの言葉を認識するときに必要なパラメータフィールド410と、パラメータフィールド410にセットされた値によってユーザに応答する内容が設定された応答フィールド420とを含む。
例えば、図4では、飛行機予約のためのフレーム基盤音声対話インターフェース装置におけるフレーム構造を示している。
パラメータフィールド410には、それぞれ出発地、出発時間、到着地、飛行機No.、現在予約状態を表すフィールドを含んでおり、例えば、音声対話インターフェース装置は、ユーザの音声から出発地、出発時間に関する情報のみ認識した場合に、その応答としてユーザに到着地がどこであるかを質問する。さらに他の実施形態として、音声対話インターフェース装置は、ユーザの音声から出発地、出発時間、到着地に関する情報を認識したケースに該当する飛行機No.及び予約状態を、飛行機予約状況に関するDBを検索してユーザに知らせる。
フレーム基盤モデルによる音声対話モデルについては、特許文献3に開示されている。
図5は、プラン基盤モデルによる従来の音声対話モデルを示す例示図である。
プラン基盤モデルでは階層的なツリー構造を利用するが、この階層的なツリー構造では、ユーザの最終的な目的が最上位階層に位置し、その目的を達成するために必要な要素が下位階層に位置する。
図5では、列車旅行に関するツリー構造を例としているが、例えば、列車旅行のための列車選択、列車票購入、搭乗時間及び搭乗口に関する情報が下位階層に位置しており、ユーザが列車旅行に関するサービス要請を行う時、プラン基盤音声対話インターフェース装置は、図5に図示したツリー構造によってユーザに応答する。
プラン基盤モデルによる音声対話モデルについては、特許文献4に開示されている。前記のような音声対話インターフェースを行うための音声対話モデルのうち、図2に図示したパターンマッチングによる音声対話モデルは対話知識を構築しやすい一方、単純なパターンマッチングのみを行うために多様な対話処理が難しいという問題点がある。また、図5に図示したプラン基盤による音声対話モデルは多様な対話処理が可能な一方、多様な対話のためのぼう大な対話知識が構築されねばならないという問題点がある。そして、このように構築された対話知識の維持補修も容易でないという問題点がある。
したがって、多様な対話処理が可能であり、しかも対話知識の構築が容易な音声対話モデルが必要である。
米国特許第6,604,090号明細書 米国特許第6,356,869号明細書 米国特許第6,044,347号明細書 米国特許第6,786,651号明細書
本発明は、前記問題点に鑑みてなされたものであり、本発明は、ドメインアクションフレームを利用してツリー構造の対話知識を構築し、バックオフ方式を利用して応答生成を行うことにより、対話知識の構築が容易であり、かつ多様な対話処理が可能な音声対話インターフェース装置及び方法を提供するところに目的がある。
本発明の目的は、以上で言及した目的に制限されず、言及されていない他の目的は下の記載から当業者に明確に理解されうる。
前記目的を達成するために、本発明の実施形態による音声対話インターフェース装置は、サウンド信号から人間の音声を認識する音声認識モジュールと、前記認識された音声から文章を抽出してユーザの意図を解釈するユーザ意図解釈モジュールと、前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するユーザ意図選択モジュールと、前記選択されたユーザの意図に対応するシステム応答文章を生成するシステム応答生成モジュールとを含み、前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含むとともに階層化されたツリー構造を持つように構成される。
また、前記目的を達成するために、本発明の実施形態による音声対話インターフェース方法は、サウンド信号から人間の音声を認識するステップと、前記認識された音声から文章を抽出してユーザの意図を解釈するステップと、前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するステップと、前記選択されたユーザの意図に対応するシステム応答文章を生成するステップとを含み、前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含むとともに、階層化されたツリー構造を維持するように構成される。
その他の実施例の具体的な事項は詳細な説明及び図面に含まれている。
本発明の実施によって、ドメイン間の移動性及び拡張性を向上させ、ユーザと音声対話インターフェース装置との間に多様な対話現象を処理できる。
本発明の利点及び特徴、そしてこれを達成する方法は添付された図面に基づいて詳細に後述されている実施例を参照すれば明確になる。しかし、本発明は以下で開示される実施例に限定されるものではなく、この実施例から外れて多様な形に具現でき、本明細書で説明する実施例は本発明の開示を完全にし、本発明が属する技術分野における当業者に発明の範ちゅうを完全に示すために提供されるものであり、本発明は請求項及び発明の詳細な説明により定義されるだけである。一方、明細書全体に亙って同一の参照符号は同一の構成要素を示す。
以下、添付した図面を参照して本発明の望ましい実施形態について詳細に説明する。ここで図示したフローチャートの各ブロックとフロ−チャートの組合わせは、コンピュータプログラムインストラクションにより実行可能であることを示す。これらコンピュータプログラムインストラクションは、汎用コンピュータ、特殊コンピュータまたはその他のプログラマブルデータプロセッシング装備のプロセッサーに搭載されうるので、コンピュータまたはその他のプログラマブルデータプロセッシング装備のプロセッサーを通じて実行されるそのインストラクションが、フローチャートのブロックで説明された機能を行う手段を生成するように構成することができる。これらコンピュータプログラムインストラクションは、特定方式で機能を具現するために、コンピュータまたはその他のプログラマブルデータプロセッシング装備を指向できるコンピュータ利用可能またはコンピュータ判読可能メモリに保存されることも可能なので、そのコンピュータ利用可能またはコンピュータ判読可能メモリに保存されたインストラクションは、フローチャートのブロックで説明された機能を行うインストラクション手段を内包する製造品目を生産することも可能である。コンピュータプログラムインストラクションは、コンピュータまたはその他のプログラム可能なデータプロセッシング装備上に搭載することも可能なので、コンピュータまたはその他のプログラマブルデータプロセッシング装備上で一連の動作段階が実行されてコンピュータで実行されるプロセスを生成し、コンピュータまたはその他のプログラマブルデータプロセッシング装備を行うインストラクションはフローチャートのブロックで説明された機能を実行するための段階を提供することも可能である。
また、各ブロックは特定の論理的機能を行うための1つ以上の実行可能なインストラクションを含むモジュール、セグメントまたはコードの一部とすることができる。また、いくつかの代替実行例では、本明細書で記載している以外の順で各ブロックの機能を処理することも可能である。例えば、連続して図示されている2つのブロックは、実質的に同時に行われてもよく、またはそのブロックが他のブロックの機能と逆順に実行されてもよい。
図6は、本発明の実施による音声対話インターフェース装置を示すブロック図である。
音声対話インターフェース装置600は、音声認識モジュール610、言葉解釈モジュール620、対話管理モジュール630、プラン管理モジュール650、サービス実行モジュール660及び音声合成モジュール670を含む。
また、対話管理モジュール630は、ユーザ意図解釈モジュール632、文脈復元モジュール634、ユーザ意図選択モジュール636、システム意図選択モジュール638、システム応答生成モジュール640、対話モデル保存モジュール642、ドメインアクションフレーム保存モジュール644及びバックオフ応答モデル保存モジュール646を含む。
この時、’モジュール’は、ソフトウェアまたはFPGA(Field Programmable Gate Array)または注文型半導体(Application Specific Integrated Circuit;ASIC)のような所定の役割を行うハードウェア構成要素を意味する。しかし、モジュールはソフトウェアまたはハードウェアに限定されるものではない。モジュールは、アドレッシング可能な保存媒体に存在すべく構成されても良く、1つまたはそれ以上のプロセッサーを実行させるように構成されても良い。したがって、一例としてモジュールは、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数を含む。構成要素とモジュールから提供される機能は、より少数の構成要素及びモジュールで結合されるか、追加的な構成要素とモジュールにさらに分離されうる。
以下、前記モジュール間の動作を具体的に説明する。
まず、音声認識モジュール610は、サウンド信号からユーザの音声を認識する。このとき、音声認識モジュール610がユーザの音声を認識する方法は、従来の多様な音声認識アルゴリズムを利用できる。音声認識モジュール610により音声が認識されると、言葉解釈モジュール620は、認識された音声からテキスト文章を抽出し、抽出された文章からユーザが話した言葉を解釈する。このとき、同じ言葉でもユーザが話す状況により異なって解釈される。例えば、ユーザが単純に電源を消せという言葉を言う時、音声対話インターフェース装置はTVの電源を消せということなのか、オーディオの電源を消せということなのかが分からなくなる。したがって、言葉解釈モジュール620では、解釈可能なN個のセマンティック形式をユーザ意図解釈モジュール632に伝達し、ユーザ意図解釈モジュール632では、対話モデル保存モジュール642に保存された多様な形態の対話モデルを参照して、N個のセマンティック形式に対するユーザの対話意図を決定する。
一方、一般的に人間は縮めて話す習慣があるので、直前に話したことは繰り返さない傾向がある。したがって、文脈復元モジュール634は、このような特性を利用して以前にユーザが話した内容に関する履歴を管理し、それを参照してユーザが話した内容の文脈を復元する役割を行う。
ユーザ意図選択モジュール636は、最終的にN個のセマンティック形式からユーザの意図であると判断される1個のセマンティック形式を選択する。このとき、ユーザ意図選択モジュール636は、ドメインアクションフレーム保存モジュール644から選択されたセマンティック形式に該当するドメインアクションフレームを抽出して、システム意図選択モジュール638に伝達する。ここで、ドメインアクションフレーム保存モジュール644は、任意のドメインで提供するサービスを1つのノードとして把握し、各ノードが階層化されたツリー形態のデータ構造を持つように認識する。ここで’ドメイン’とは、例えば、音声対話インターフェース装置を利用して宅内にある家電機器を制御しようとする時、制御対象となるTV、冷蔵庫、DVDプレーヤー、オーディオなどをそれぞれ1つのドメインとして取扱う。そして、それぞれのドメイン、例えば、TVドメインでTVの電源をオンまたはオフにするか、チャンネルを変更するか、またはボリュームを調節することは、TVドメインで提供される’サービス’または’ドメインアクション’と見なしうる。図7では、ノード−1(710)に対するドメインアクションフレーム720と、ノード−2(730)に対するドメインアクションフレーム740とを例示している。例えば、ノード−1(710)に対するドメインアクションフレーム720は、チャンネルを設定するサービスを表す’ドメインアクション’フィールドと、チャンネル設定サービスのために必要なパラメータフィールド(’パラメータ1’フィールド及び’パラメータ2’フィールド)とを含んでいる。
システム意図選択モジュール636は、ユーザ意図選択モジュール636から受信したドメインアクションフレームと、ユーザ音声から抽出したパラメータとを利用してシステムの意図を決定する。
図7で図示したドメインアクションフレーム720を例とすれば、ユーザがチャンネル設定のために、チャンネル設定しようとするデバイス及びチャンネル番号を話し、それを音声対話インターフェース装置600が認識した場合には、システムの意図は’Accept’となり、サービス実行モジュール660を動作させてデバイスのチャンネルを設定できる。サービス実行モジュール660がデバイスと直接連結されてチャンネルを設定するか、デバイスを制御する他のサーバを動作させてデバイスのチャンネルを設定することもできる。そして、’Accept’に該当する応答内容をシステム応答生成モジュール640に伝達し、音声合成モジュール670は、’Accept’に該当する応答内容を音声に変換してユーザに応答する。
もし、ユーザがチャンネル番号のみ話してチャンネルを設定しようとするデバイスの名称を言わない場合には、システム意図選択モジュール638はサービス実行モジュール660を動作させず、システム応答生成モジュール640に、ドメインアクションフレーム720に示すように’どのデバイスのチャンネルを調整しましょうか?’という文章を伝達し、音声合成モジュール670は、伝達された文章を音声に変換してユーザに応答する。
一方、プラン管理モジュール650は、ユーザの要請に基づく処理を行うために必要なドメインアクション等のリストを生成して管理するが、このとき、ドメインアクションフレーム保存モジュール644を参照する。ユーザの要請を満足させるために複数のドメインアクション、すなわち、サービスを行わねばならない場合には、システム意図選択モジュール638は、プラン管理モジュール650から順にドメインアクションを受信して、サービス実行モジュール660をして該当するドメインアクションを行わせる。
図6に図示した音声対話インターフェース装置の動作過程を要約すれば、図8に図示したフローチャートに従う。
すなわち、音声対話インターフェース装置600がユーザから音声を認識し(S810)、認識された音声から文章または単語を抽出して言葉を解釈した後(S820)、ユーザの意図を選択する(S830)。
次いで、選択されたユーザの意図及びそれに該当するドメインアクションフレームを利用して、音声対話インターフェース装置600がユーザにどの応答をすべきかを選択する(S840)。
もし、このとき、音声対話インターフェース装置600が応答しようとする内容のうち一部パラメータが欠けている場合には、システム応答生成モジュール640は、バックオフ応答モデル保存モジュール646を利用して応答を発生させる(S850)。バックオフ応答モデルについては、図9で説明する。
まず、システム意図選択モジュール634は、ユーザ意図選択モジュール636から受信した情報にエラーが発生していないと判断すると、サービス実行モジュール660に、ユーザが要請したドメインアクション、すなわち、サービスを行わせ(S920)、音声対話インターフェース装置600が応答する対話意図を決定する(S930)。
このとき、システム応答生成モジュール640は、応答する内容が図7に示すようなドメインアクションフレームに応答する内容のテンプレートが記述されているかどうかを検査して(S950)、もし、存在している場合には、該当する応答テンプレートを利用して応答を生成し(S960)、生成した応答を音声合成モジュール670に伝達する。しかし、もし、応答する内容のテンプレートが存在していない場合には、一般テンプレートを利用して応答を生成し(S970)、生成された応答を音声合成モジュール670に伝達する。このとき、システム応答生成モジュール640は、バックオフ応答モデル保存モジュール646を参照して一般テンプレートを得る。
一方、S910ステップでエラーが発生した場合には、ユーザが要請したドメインアクションを行えないので、システム意図選択モジュール638は、音声対話インターフェース装置600が応答する対話意図を決定し、システム応答生成モジュール640は、一般テンプレートを利用して応答を生成する(S970)。
すなわち、バックオフ応答モデルは、音声対話インターフェース装置600がユーザに対して応答する時、該当するドメインアクションフレームに応答テンプレートが存在していなくても、一般テンプレートを利用して応答を生成できるモデルを意味し、このようなモデルは、図7に図示された階層化されたツリー構造を利用して容易に行われうる。すなわち、それぞれのノードが上位階層へ行くほどさらに一般化された応答テンプレートを持つように設計することによって、例えば、任意のノードに対するドメインアクションフレームで応答テンプレートが存在していない場合、上位ノードに対するドメインアクションフレームから応答テンプレートを得ることができる。このようなツリー構造は、特定のドメインアクションに対するドメインアクションフレームの再使用性を高め、ユーザがさらに容易に対話知識を構築可能にする。
以上、本発明について詳細に記述したが、本発明が属する技術分野の当業者ならば、特許請求の範囲に定義された本発明の精神及び範囲を外れずに本発明を多様に変形または変更して実施できることは自明であり、よって本発明の実施例に係る単純な変更は本発明の技術を逸脱できない。
本発明は、音声対話インターフェース装置の関連技術分野に好適に用いられる。
従来の音声対話インターフェース装置の動作を示すブロック図である。 パターンマッチング方法による従来の音声対話モデルを示す例示図である。 有限状態モデルによる従来の音声対話モデルを示す例示図である。 フレーム基盤モデルによる従来の音声対話モデルを示す例示図である。 プラン基盤モデルによる従来の音声対話モデルを示す例示図である。 本発明の実施による音声対話インターフェース装置のブロック図である。 本発明の実施によるドメインアクションフレームの構造を示す例示図である。 本発明の実施による音声対話インターフェース方法を示すフローチャートである。 本発明の実施によるバックオフ過程を示すフローチャートである。
符号の説明
600 音声対話インターフェース装置
610 音声認識モジュール
620 言葉解釈モジュール
630 対話管理モジュール
636 ユーザ意図選択モジュール
638 システム意図選択モジュール
640 システム応答生成モジュール
644 ドメインアクションフレーム保存モジュール
646 バックオフ応答モデル保存モジュール
650 プラン管理モジュール
660 サービス実行モジュール
670 音声合成モジュール

Claims (12)

  1. サウンド信号から人間の音声を認識する音声認識モジュールと、
    前記認識された音声から文章を抽出してユーザの意図を解釈するユーザ意図解釈モジュールと、
    前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するユーザ意図選択モジュールと、
    前記選択されたユーザの意図に対応するシステム応答文章を生成するシステム応答生成モジュールと、
    を含み、
    前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含み、それぞれのドメインアクションフレームは、上位階層へ行くほどさらに一般化されるように階層化されたツリー構造で構成され、
    前記システム応答文書は、前記ドメインアクションフレームに設定され、
    該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する音声対話インターフェース装置。
  2. 前記システム応答生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成モジュールをさらに含む請求項1に記載の音声対話インターフェース装置。
  3. 前記ユーザ意図選択モジュールにより選択されたユーザの意図によるサービスを行い、その結果を伝達するシステム意図選択モジュールをさらに含み、前記システム応答生成モジュールは、前記システム意図選択モジュールにより伝達される結果に対応するシステム応答文章を生成する請求項1に記載の音声対話インターフェース装置。
  4. 前記システム応答文章は、前記ドメインアクションフレームに設定される請求項に記載の音声対話インターフェース装置。
  5. 該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する請求項に記載の音声対話インターフェース装置。
  6. 前記システム応答生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成モジュールをさらに含む請求項に記載の音声対話インターフェース装置。
  7. サウンド信号から人間の音声を認識するステップと、
    前記認識された音声から文章を抽出してユーザの意図を解釈するステップと、
    前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するステップと、
    前記選択されたユーザの意図に対応するシステム応答文章を生成するステップと、
    を含み、
    前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含み、それぞれのドメインアクションフレームは、上位階層へ行くほどさらに一般化されるように階層化されたツリー構造で構成され、
    前記システム応答文章は、前記ドメインアクションフレームに設定され、
    該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答文章を生成ステップは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する音声対話インターフェース方法。
  8. 前記生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成段階をさらに含む請求項に記載の音声対話インターフェース方法。
  9. 前記システム応答生成段階は前記選択されたユーザの意図によるサービスを行い、その結果を伝達する段階と、前記伝えられた結果に対応するシステム応答文章を生成する段階と、
    をさらに備える請求項に記載の音声対話インターフェース方法。
  10. 前記システム応答文章は、前記ドメインアクションフレームに設定される請求項に記載の音声対話インターフェース方法。
  11. 該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する段階を備える請求項10に記載の音声対話インターフェース方法。
  12. 前記生成されたシステム応答文章を音声に変換してユーザに出力する音声合成段階をさらに含む請求項に記載の音声対話インターフェース方法。
JP2006025544A 2005-02-15 2006-02-02 音声対話インターフェース装置及び方法 Expired - Fee Related JP4509039B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050012361A KR100679043B1 (ko) 2005-02-15 2005-02-15 음성 대화 인터페이스 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2006227611A JP2006227611A (ja) 2006-08-31
JP4509039B2 true JP4509039B2 (ja) 2010-07-21

Family

ID=36816740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006025544A Expired - Fee Related JP4509039B2 (ja) 2005-02-15 2006-02-02 音声対話インターフェース装置及び方法

Country Status (3)

Country Link
US (1) US7725322B2 (ja)
JP (1) JP4509039B2 (ja)
KR (1) KR100679043B1 (ja)

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100810500B1 (ko) * 2005-12-08 2008-03-07 한국전자통신연구원 대화형 음성 인터페이스 시스템에서의 사용자 편의성증대 방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR100913130B1 (ko) * 2006-09-29 2009-08-19 한국전자통신연구원 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치
US20090125299A1 (en) * 2007-11-09 2009-05-14 Jui-Chang Wang Speech recognition system
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101211796B1 (ko) * 2009-12-16 2012-12-13 포항공과대학교 산학협력단 외국어 학습 장치 및 그 제공 방법
KR20110072847A (ko) * 2009-12-23 2011-06-29 삼성전자주식회사 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법
KR101649911B1 (ko) 2010-01-04 2016-08-22 삼성전자 주식회사 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8515766B1 (en) * 2011-09-30 2013-08-20 Google Inc. Voice application finding and user invoking applications related to a single entity
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) * 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10276157B2 (en) 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
KR101709187B1 (ko) * 2012-11-14 2017-02-23 한국전자통신연구원 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
US20140149118A1 (en) * 2012-11-28 2014-05-29 Lg Electronics Inc. Apparatus and method for driving electric device using speech recognition
KR101565658B1 (ko) * 2012-11-28 2015-11-04 포항공과대학교 산학협력단 기억 능력을 이용한 대화 관리 방법 및 장치
US9530405B2 (en) * 2012-11-30 2016-12-27 Mitsubishi Electric Corporation Intention estimating device and intention estimating method
US9558275B2 (en) 2012-12-13 2017-01-31 Microsoft Technology Licensing, Llc Action broker
KR102072826B1 (ko) * 2013-01-31 2020-02-03 삼성전자주식회사 음성 인식 장치 및 응답 정보 제공 방법
US9607617B2 (en) * 2013-04-02 2017-03-28 Nuance Communications, Inc. Concept cloud in smart phone applications
US9110889B2 (en) * 2013-04-23 2015-08-18 Facebook, Inc. Methods and systems for generation of flexible sentences in a social networking system
US9606987B2 (en) 2013-05-06 2017-03-28 Facebook, Inc. Methods and systems for generation of a translatable sentence syntax in a social networking system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US9925402B2 (en) * 2013-09-05 2018-03-27 Hydrovent, Llc Smoke elimination device
US9721570B1 (en) * 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
WO2017083504A1 (en) * 2015-11-12 2017-05-18 Semantic Machines, Inc. Interaction assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
AU2017100585B4 (en) * 2016-06-09 2018-02-01 Apple Inc. Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP7000671B2 (ja) * 2016-10-05 2022-01-19 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
KR102241970B1 (ko) 2016-11-07 2021-04-20 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
KR20180060328A (ko) 2016-11-28 2018-06-07 삼성전자주식회사 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
WO2018195185A1 (en) 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US11081106B2 (en) * 2017-08-25 2021-08-03 Microsoft Technology Licensing, Llc Contextual spoken language understanding in a spoken dialogue system
WO2019161207A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
US11308312B2 (en) 2018-02-15 2022-04-19 DMAI, Inc. System and method for reconstructing unoccupied 3D space
KR102635811B1 (ko) * 2018-03-19 2024-02-13 삼성전자 주식회사 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
WO2019216876A1 (en) 2018-05-07 2019-11-14 Google Llc Activation of remote devices in a networked system
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US11222283B2 (en) 2018-10-23 2022-01-11 International Business Machines Corporation Hierarchical conversational policy learning for sales strategy planning
CN109326289B (zh) * 2018-11-30 2021-10-22 深圳创维数字技术有限公司 免唤醒语音交互方法、装置、设备及存储介质
CN110008325B (zh) * 2019-03-29 2020-02-07 海南中智信信息技术有限公司 一种基于商用对话系统的口语语言理解及改写方法
KR20210036169A (ko) 2019-09-25 2021-04-02 현대자동차주식회사 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197107A (ja) * 2000-12-26 2002-07-12 Victor Co Of Japan Ltd 自然言語対話型システム
JP2003256419A (ja) * 2001-12-28 2003-09-12 Fujitsu Ltd 対話方法、対話装置、対話プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体
JP2004288018A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 対話制御システム及び方法
JP2005122718A (ja) * 2003-09-24 2005-05-12 Internatl Business Mach Corp <Ibm> 音声ポートレットにグローバル・ナビゲーション情報を提供するためのシステムおよび方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB828701A (en) * 1955-04-21 1960-02-24 Monsanto Chemicals Rust-inhibiting compositions and lubricants containing the same
US3785975A (en) * 1971-06-18 1974-01-15 Gulf Research Development Co Vapor space inhibited turbine oil
US4304678A (en) * 1978-09-11 1981-12-08 Mobil Oil Corporation Lubricant composition for reduction of fuel consumption in internal combustion engines
US4741848A (en) * 1986-03-13 1988-05-03 The Lubrizol Corporation Boron-containing compositions, and lubricants and fuels containing same
US6604090B1 (en) 1997-06-04 2003-08-05 Nativeminds, Inc. System and method for selecting responses to user input in an automated interface program
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6631346B1 (en) * 1999-04-07 2003-10-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for natural language parsing using multiple passes and tags
US6356869B1 (en) 1999-04-30 2002-03-12 Nortel Networks Limited Method and apparatus for discourse management
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US6330537B1 (en) * 1999-08-26 2001-12-11 Matsushita Electric Industrial Co., Ltd. Automatic filtering of TV contents using speech recognition and natural language
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7251595B2 (en) * 2001-03-22 2007-07-31 Nippon Telegraph And Telephone Corporation Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same
US6786651B2 (en) 2001-03-22 2004-09-07 Primarion, Inc. Optical interconnect structure, system and transceiver including the structure, and method of forming the same
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US7019749B2 (en) * 2001-12-28 2006-03-28 Microsoft Corporation Conversational interface agent

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197107A (ja) * 2000-12-26 2002-07-12 Victor Co Of Japan Ltd 自然言語対話型システム
JP2003256419A (ja) * 2001-12-28 2003-09-12 Fujitsu Ltd 対話方法、対話装置、対話プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体
JP2004288018A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 対話制御システム及び方法
JP2005122718A (ja) * 2003-09-24 2005-05-12 Internatl Business Mach Corp <Ibm> 音声ポートレットにグローバル・ナビゲーション情報を提供するためのシステムおよび方法

Also Published As

Publication number Publication date
US20060184370A1 (en) 2006-08-17
US7725322B2 (en) 2010-05-25
JP2006227611A (ja) 2006-08-31
KR20060091469A (ko) 2006-08-21
KR100679043B1 (ko) 2007-02-05

Similar Documents

Publication Publication Date Title
JP4509039B2 (ja) 音声対話インターフェース装置及び方法
US11437041B1 (en) Speech interface device with caching component
US10803869B2 (en) Voice enablement and disablement of speech processing functionality
JP6637848B2 (ja) 音声認識装置及び方法と電子装置
KR102309540B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
US20210358496A1 (en) A voice assistant system for a vehicle cockpit system
JP4131978B2 (ja) 音声認識機器制御装置
US10838954B1 (en) Identifying user content
JP6595912B2 (ja) 既存の単一言語プロセスからマルチ言語プロセスを構築すること
JP2003263188A (ja) 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
CN111916088B (zh) 一种语音语料的生成方法、设备及计算机可读存储介质
US11475878B2 (en) Electronic device and operating method thereof
JP2005196134A (ja) 音声対話システム及び方法並びに音声対話プログラム
KR20230002690A (ko) 발화의 음성 인식 오류 교정
EP4285358A1 (en) Instantaneous learning in text-to-speech during dialog
JP2007033478A (ja) マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
US11699444B1 (en) Speech recognition using multiple voice-enabled devices
Kos et al. A speech-based distributed architecture platform for an intelligent ambience
US12125489B1 (en) Speech recognition using multiple voice-enabled devices
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
KR20240131133A (ko) 전자 장치 및 이의 제어 방법
JP2006023444A (ja) 音声対話装置
US11893984B1 (en) Speech processing system
JP2005316247A (ja) 音声対話システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100427

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4509039

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees