JP3375449B2 - 統合認識対話装置 - Google Patents

統合認識対話装置

Info

Publication number
JP3375449B2
JP3375449B2 JP03858195A JP3858195A JP3375449B2 JP 3375449 B2 JP3375449 B2 JP 3375449B2 JP 03858195 A JP03858195 A JP 03858195A JP 3858195 A JP3858195 A JP 3858195A JP 3375449 B2 JP3375449 B2 JP 3375449B2
Authority
JP
Japan
Prior art keywords
user
recognition
dialogue
keyword
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP03858195A
Other languages
English (en)
Other versions
JPH08234789A (ja
Inventor
夏樹 湯浅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP03858195A priority Critical patent/JP3375449B2/ja
Publication of JPH08234789A publication Critical patent/JPH08234789A/ja
Application granted granted Critical
Publication of JP3375449B2 publication Critical patent/JP3375449B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、統合認識対話装置に関
し、特に人間の音声・動作等の多チャネルの情報を統合
して認識を行ない、ユーザとの自然な対話を可能にする
統合認識対話装置に関するものである。
【0002】
【従来の技術】従来、計算機との対話を、人間との対話
のように自然に行なうためには、音声、顔の動き、身振
り、視線などの複数のチャネルを用いて、これらの認識
結果を統合することが必要となる。特開平5−3074
32号公報に開示されている時刻タグ付加による多チャ
ネル間同期統合装置では、複数のチャネルの認識結果そ
れぞれについて入力データの時刻情報(時刻タグ)を併
せて出力させることによって認識結果の統合を行なって
いる。
【0003】
【発明が解決しようとする課題】しかし、特開平5−3
07432号公報に開示されている時刻タグ付加による
多チャネル間同期統合装置においては、時刻情報をどの
ように使って各チャネルの認識結果を統合するのかにつ
いては明らかにされていない。
【0004】本発明は以上の事情を考慮してなされたも
ので、マルチモーダル対話データベースの情報を元にし
て、複数の入力チャネルからの入力を統合して扱うこと
で、より自然な対話を行なうことができる統合認識対話
装置を提供することを目的とする。
【0005】
【課題を解決するための手段】請求項1に記載の統合認
識対話装置は、時刻情報を出力する時刻取得手段と、
ーザの音声信号、顔の動き、視線、体の動作等の少なく
とも1つを含む入力データをそれぞれ認識する複数の認
識手段と、音声信号から単語を識別するための文脈情報
を出力する文脈情報取得手段と、時刻情報、文脈情報及
前記複数の認識手段より並列に出力される認識結果を
統合処理してユーザの意図の認識を行なう統合処理手段
と、前記統合処理手段によって認識されたユーザの意図
に基づいて対話を進める対話管理手段と、前記対話管理
手段から渡された出力データをユーザに出力する出力手
段とを具備する統合認識対話装置であって、前記統合処
理手段がユーザの意図の認識を行なう期間を、前記出力
手段からユーザに出力される前記出力データに含まれる
キーワードの発話タイミング近傍で開始させることを特
徴とする。
【0006】請求項2に記載の統合認識対話装置は、
記ユーザの意図の認識を行う期間を、前記出力手段から
ユーザへの出力が終わってから所定の時間経過後で終了
させることを特徴とする。
【0007】
【0008】請求項3に記載の統合認識対話装置は、
刻情報を出力する時刻取得手段と、ユーザの音声信号、
顔の動き、視線、体の動作等の少なくとも1つを含む入
力データをそれぞれ認識する複数の認識手段と、音声信
号から単語を識別するための文脈情報を出力する文脈情
報取得手段と、時刻情報、文脈情報及び前記複数の認識
手段より並列に出力される認識結果を統合処理してユー
ザの意図の認識を行なう統合処理手段と、前記統合処理
手段によって認識されたユーザの意図に基づいて対話を
進める対話管理手段と、前記対話管理手段から渡された
出力データをユーザに出力する出力手段とを具備する統
合認識対話装置であって、前記統合処理手段は、前記対
話管理手段と前記文脈情報取得手段からの情報に基づい
てユーザの音声信号を認識するための所定個数のキーワ
ード群を設定し、前記キーワード群がユーザが肯定を意
図する「肯定キーワード群」と、ユーザが否定を意図す
る「否定キーワード群」とを含むことを特徴とする。
【0009】
【0010】
【0011】
【0012】請求項4に記載の統合認識対話装置は、
刻情報を出力する時刻取得手段と、ユーザの音声信号、
顔の動き、視線、体の動作等の少なくとも1つを含む入
力データをそれぞれ認識する複数の認識手段と、音声信
号から単語を識別するための文脈情報を出力する文脈情
報取得手段と、時刻情報、文脈情報及び前記複数の認識
手段より並列に出力される認識結果を統合処理してユー
ザの意図の認識を行なう統合処理手段と、前記統合処理
手段によって認識されたユーザの意図に基づいて対話を
進める対話管理手段と、前記対話管理手段から渡された
出力データをユーザに出力する出力手段とを具備する統
合認識対話装置であって、前記複数の認識手段のうちユ
ーザの顔の動きを認識する認識手段はユーザの顔の縦振
り動作を認識し、前記統合処理手段が、ユーザの発話の
後半で出現したユーザの顔の縦振り動作を無視すること
を特徴とする。
【0013】
【作用】請求項1に記載の統合認識対話装置において
は、各認識手段において認識された信号の開始時刻と終
了時刻とが時刻取得手段から取得され、認識結果とその
開発時刻、終了時刻が統合処理手段に渡される。統合処
理手段においてユーザの発話意図の識別が行われ、その
識別結果が対話管理手段に渡される。統合処理手段から
渡されるこの識別結果によって対話管理手段により新た
な状態に遷移され、出力手段によってつぎに発話される
内容が決定される。ユーザの発話意図の識別が行われる
期間、すなわちレスポンスウインドウは、出力手段によ
ってつぎに発話される内容に含まれるキーワードの発話
タイミングから算出されるタイミングで開始される。こ
のように構成されているので、請求項1に記載の統合認
識対話装置によれば、ユーザはあたかも人間と対話をす
るかのような感覚で自然な対話を行うことができる。加
えて、レスポンスウインドウは、人間同士の対話におけ
る自然な間に合わせて設定されるので、ユーザは気持ち
の良い対話を行うことができる。
【0014】請求項2に記載の統合認識対話装置におい
ては、レスポンスウインドウは、出力手段による発話の
出力が終わってから所定の時間経過後のタイミングで終
了する。これにより、レスポンスウインドウは、人間同
士の対話における自然な間により合わせて設定されるの
で、ユーザはさらに気持ちの良い対話を行うことができ
る。
【0015】
【0016】請求項に記載の統合認識対話装置におい
ては、統合処理手段によりユーザの肯定/否定の意図の
判定が行なわれる場合には、対話管理手段から渡された
キーワードと文脈情報取得手段とが用いられて「肯定キ
ーワード」と「否定キーワード」が設定される。これら
のキーワードによりユーザの肯定及び否定の意図の判断
が確実に行われる。
【0017】
【0018】
【0019】
【0020】請求項に記載の統合認識対話装置におい
ては、認識手段により認識されたユーザの顔の縦振り動
作のうち、ユーザの発話の後半で出現したものを統合処
理手段が無視するので、ユーザ自身の発話にたいしての
うなずきであることが多い顔の縦振り動作に起因する誤
識別を防ぐことができる。
【0021】
【実施例】以下、本発明の統合認識対話装置の第1の実
施例の構成を図1を参照しながら説明する。
【0022】本実施例の統合認識対話装置は、音声信
号、顔の動き、視線、体の動作等の時刻情報を含む入力
データ101〜104を認識する複数チャネルの認識手
段105〜108を具備しており、認識手段105〜1
08には、時刻情報を出力する時刻取得手段109と、
各認識手段より並列に出力される認識結果を統合処理し
てユーザの意図の認識を行なう統合処理手段110とが
接続されている。統合処理手段110には、文脈情報を
出力する文脈情報取得手段111と、統合処理手段によ
り認識されたユーザの意図に基づいて対話を進める対話
管理手段112とが接続されており、対話管理手段11
2には、出力データを出力する出力手段113が接続さ
れている。
【0023】なお、各認識手段105〜108は、その
認識データに応じた認識アルゴリズムを持ち、さらに認
識結果の開始時刻と終了時刻を時刻取得手段109から
得るように構成されている。文脈情報取得手段111に
は、音声認識手段から得られる「単語」に対応する文脈
情報が格納されている。文脈情報は、同じような状況、
場面、文脈で用いられる「単語」は類似した値を持つよ
うに構成される。
【0024】文脈情報の構成方法を単語の特徴べクトル
の例で説明する。
【0025】まず、文書データベースと単語の辞書が用
意される。特徴べクトルの次元数が適当な数に定めら
れ、その個数の単語が選出される。単語選出は、通常は
データベース中の出現頻度の多い順に選出されれば良
い。選出された単語は特徴べクトルの各要素に対応する
ことになる。単語の特徴べクトルは、文書データベース
中の一塊すなわち文,段落,記事等の文書中に含まれて
いる単語の出現頻度分布に、その単語のその一塊の文書
データ中での出現頻度を掛けたものが加算されていくこ
とによって得られる。
【0026】これをより具体的な例で説明する。
【0027】例文A「アメリカ政府が先進主要国にココ
ム規制の抜本的な見直しを提案してきた。」 例文B「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削滅する意向のようだ。」という文書データからどの
ように単語の特徴べクトルを作成するかを説明する。こ
こでは、文書データは「一文」という単位で読み込まれ
ることとするが、これは一段落、一記事など、他の単位
でも構わない。
【0028】また、この例では特徴べクトルの次元数は
21次元すなわち特徴べクトルを生成するための単語数
が21個で各要素が「アメリカ、政府、先進、主要、
国、ココム、規制、抜本的、見直し、提案、対象、兵
器、製造、工業、製品、輸出、条件、品目、大幅、削
減、意向」という単語に対応しているとする。
【0029】このような条件のもとで、例文Aが読み込
まれ、形態素解析が行なわれると「アメリカ、政府、先
進、主要、国、ココム、規制、抜本的、見直し、提案」
が抽出される。これから得られる単語出現頻度分布は
(1,1,1,1,1,1,1,1,1,1,0,0,
0,0,0,0,0,0,0,0)である。従って、図
2に示すように、「アメリカ」「政府」等、例文Aに出
現する単語の特徴べクトルには(1,1,1,1,1,
1,1,1,1,1,0,0,0,0,0,0,0,
0,0,0)を加算することになる。
【0030】次に例文Bが読み込まれ、形態素解析が行
なわれると「規制、対象、国、兵器、製造、工業、製
品、輸出、規制、条件、ココム、規制、品目、大幅、削
減、意向」が抽出される。これから得られる単語出現頻
度分布は(0,0,0,0,1,1,3,0,0,0,
1,1,1,1,1,1,1,1,1,1,1)であ
る。「規制」は3回出現しているので、この単語出現頻
度分布を3倍したべクトルである(0,0,0,0,
3,3,9,0,0,0,3,3,3,3,3,3,
3,3,3,3,3)が「規制」の特徴べクトルに加算
され、「対象」「国」等、図3に示すように、例文Bに
1回しか出現していない単語の特徴べクトルには(0,
0,0,0,1,1,3,0,0,0,1,1,1,
1,1,1,1,1,1,1,1)が加算される。
【0031】このような処理が行われながら多くの文章
が読み込まれて最終的に得られた特徴べクトルは、絶対
値が1に正規化されて、文脈情報取得手段111に格納
される。
【0032】つぎに、一実施例として、音声認識と顔の
振りの認識と視線の向きの認識を統合することで、シス
テムが発話する質問文に対するユーザの反応が「肯定」
なのか「否定」なのかが判定されるシステムの場合によ
り、対話管理手段112や統合処理手段110を説明す
る。なお、この例では音声認識は予め定められたキーワ
ード内でワードスポッティングによる認識が行なわれ、
顔の振りの認識は「縦振り」「横振り」「かしげ」が認
識され、視線の向きの認識は、「正面(視線一致)」
「正面以外(泳ぎ)」が認識される。
【0033】対話管理手段112により、図8に示すよ
うに、現在の状態すなわちシステムとユーザとの対話が
どの程度進んでいるか否かが把握され、次の発話内容が
決定され、その発話内容のキーワードや、キーワード発
話時刻や、発話終了時刻が統合処理手段110に渡され
てから、発話内容が出力手段113から出力される。
【0034】統合処理手段110により、対話管理手段
112から渡されたキーワードKWをもとにして、「肯
定キーワード」と「否定キーワード」が作成される。
「肯定キーワード」とはキーワードKWと、「はい」
「うん」「そうです」等の肯定に用いる常套句である。
「否定キーワード」とはキーワードKWと意味的に反対
あるいは類似したキーワードと、「いいえ」等の否定に
用いる常套句である。「キーワードKWと意味的に反対
あるいは類似したキーワード」とは、音声認識できるす
べてのキーワードの中でキーワードKWとの類似度〔こ
れは文脈情報取得手段111より特徴べクトルが取得さ
れ、これを用いて、各キーワードの特徴べクトル間の類
似度(べクトルの値を絶対値を1に正規化してから内積
をとったもの)を計算すれば良い〕がある閾値以上のキ
ーワードのことである。
【0035】電子化された類義語辞典や反意語辞典が利
用できる場合はこれらを用いてキーワードKWと意味的
に反対あるいは類似したキーワードを検索することもで
きる。また、統合処理手段110により、対話管理手段
112からキーワードKWの発話開始時刻T1や発話自
体の終了時刻T2も受けとられる。T1としてはキーワ
ードKWの発話開始時刻ではなく、キーワードKWがキ
ーワードKWであると識別できるところまで発話された
時点の時刻をとっても良い。しかし、キーワードKWが
キーワードKWであると識別できるところというのは文
脈によっても変化するので、簡単にはキーワードKWの
発話終了時刻―MT(例えば0.5秒)と、キーワード
KWの発話開始時刻とで時刻の遅い方をT1とする手法
をとることもできる。
【0036】時刻T1からT2+WT(例えば0.5
秒)の間に認識されたユーザの発話や顔の振り等をもと
にして、ユーザの意図が認識される。図4Aに示すよう
に、ここでは時刻T1からT2+WTの間のことを「レ
スポンスウィンドウ」と呼ぶことにする。レスポンスウ
ィンドウはユーザの発話や動作によって短縮されたり伸
長されたりする。短縮されるのは、図4Bに示すよう
に、ユーザが意味のある発話や行動を行なってからWT
たっても次の発話や動作が見られなかった場合である。
伸長されるのは、レスポンスウィンドウの右端の時点で
ユーザから意味のある発話や動作(「かしげ」や「目の
泳ぎ」や「不要語(「えーと」等)の発話」を含む)が
見られた場合であり、この場合はそれらの動作が終了し
てからWTの時間がたつまで待ち、その時点でユーザの
発話や動作が見られなければ、図4Cに示すように、そ
の時点までをレスポンスウィンドウとする。
【0037】WTの例として「0.5秒」を示している
のは、マルチモーダル対話データベースの解析結果に基
づく。マルチモーダル対話データベースから人間同士の
対話が解析されると、0.5秒以上何の反応もないとい
う状況はなく、例えば質問が発話されてから0.5秒以
内に、発話/目の泳ぎ/顔のかしげ等なんらかの反応が
起こることがわかっている。これが人間同士の対話にお
ける自然な間(ま)を構成しているものと考えられる。
したがって、レスポンスウィンドウは0.5秒以上の何
の反応も生じなかった場合に閉じるのが自然な対話を促
すのではないかと考えられるため、WTの例として
「0.5秒」を示した。このWTの値は、個人差があ
り、またシステムの発話速度とも関係するので、必要に
応じて変更できるようにしておく。
【0038】各認識手段105〜108から渡される一
つ一つの情報は、「開始時刻(st),終T時刻(e
t),モード(md),認識結果(rs),尤度(s
c)の五つ組で表される。開始時刻や終了時刻は時刻取
得手段109から渡される値であり、その認識結果を得
た入力データの開始時刻と終了時刻とを表す。モードと
は「音声」「顔の振り」「顔の向き」「視線の向き」
「表情」「ジェスチャー」等、同時に発生可能なユーザ
からの複数の出力の種類を指す。認識結果はモードに応
じて、「音声」なら「認識単語」、「顔の振り」なら
「縦振り」「構振り」「かしげ」等、「顔の向き」なら
「正面」「右」「左」「上」「下」「右上」等、「視線
の向き」なら「正面(視線一致)」「正面以外(泳
ぎ)」「右」「左」「上」「下」「右上」等、「表情」
なら「笑い」「怒り」「悲しみ」等である。尤度は、そ
の認識結果の確からしさを示す数値であり、例えば認識
用のテンプレートと実際に認識されるものとの間の距離
から求められる。
【0039】統合処理手段110により、各認識手段1
05〜108から渡される情報の中の開始時刻と終了時
刻がまず注目され、この二つともが「レスポンスウィン
ドウ」に入っているものだけが統合認識に用いられる。
【0040】この実施例では、音声認識手段から得られ
るキーワードは「肯定キーワード」か「否定キーワー
ド」か「その他のキーワード(肯定キーワードでも否定
キーワードでもないキーワード)」かの3種類に限定す
ることができる。用途によっては「その他のキーワー
ド」は使わない方が良い場合もあり、この場合はその他
のキーワードが認識されたら、他の認識結果に基づいて
「肯定/否定」の判断が行なわれ、その判断結果がユー
ザに正しいかどうか質問され、それが正しければその判
断結果に基づいてそのキーワードが「肯定キーワード」
か「否定キーワード」のどちらかに入れられ、以後は同
じ質間文が使われる場合にはそのキーワードは「肯定キ
ーワード」か「否定キーワード」に入れられるという使
い方ができる。ただし、システムを使用する人が違った
り、同じ人でも時間がたつと同じキーワードが「肯定キ
ーワード」になったり「否定キーワード」になったりす
る可能性があるので、ユーザが認識されて区別された
り、それまでの判断結果からべイズ識別等がされたりす
ると良い。
【0041】ユーザの意図が「肯定」なのか「否定」な
のかが判断されるのはレスポンスウィンドウ内での「肯
定キーワードの発話」「否定キーワードの発話」「その
他キーワードの発話」「顔の縦振り」「顔の横振り」の
5つについてのべイズ識別による。システムにより発話
される質問文には肯定/否定の対象となるキーワードが
存在するので、そのキーワード発話時点(T1)から、
発話自体の終了時刻(T2)+WTまでの間がレスポン
スウィンドウに設定され、そのレスポンスウィンドウ内
で上述の5つ(「肯定キーワードの発話」「否定キーワ
ードの発話」「その他キーワードの発話」「顔の縦振
り」「顔の横振り」)で判定される。ただし、べイズ識
別に用いるのは上述の5つであるが、「かしげ」や「目
の泳ぎ」や「不要語(「えーと」等)の発話」等が認識
されると、レスポンスウィンドウは時間的に後ろに伸長
される。また、「肯定キーワード」や「否定キーワー
ド」が発話されたり、「縦振り」や「横振り」が発生さ
れてからWTの時間がたっても次の発話や顔の動きが使
出されなかった場合には、レスポンスウィンドウはそこ
で打ち切られる。
【0042】以上のことをより詳しく説明する。
【0043】システムにより質問文が発話し始められた
ら、T1からT2+WTまでの時間に発生したユーザの
「肯定キーワードの発話」「否定キーワードの発話」
「その他キーワードの発話」「顔の縦振り」「顔の横振
り」が調べられる。T2の時刻までの間にこれらの反応
が見られず、ユーザの「かしげ」や「目の泳ぎ」あるい
は「えーと」などの不要語の発話が認識された場合は、
レスポンスウィンドウが伸長される。「かしげ」の場合
は頭がまっすぐになるか「縦振り」「横振り」が生じる
まで待機され、「目の泳ぎ」の場合は正面を見るように
なるまで待機され、不要語の場合は不要語の発話終了後
WTだけ待機され、その時点でユーザの発話や顔の振り
等の動作が発生していなければ、それまでに発生したも
のがべイズ識別に用いられる。ユーザの発話や顔の振り
等の動作が発生していれば、レスポンスウィンドウの伸
長がし続けられる。ただし、ユーザ発話の後半に複数回
の「顔の縦振り」が存在する場合は、その「顔の縦振
り」はユーザ自分自身に対する縦振りなので、無視さ
れ、べイズ識別時には使用されない。
【0044】T2+WTの時刻までの間にこれらの反応
が見られず、ユーザの「かしげ」や「目の泳ぎ」あるい
は「えーと」などの不要語の発話(レスポンスウィンド
ウ伸長動作)も認識されなかった場合や、これらのレス
ポンスウィンドウ伸長動作が認識されて待機された後に
WTの時間がたってもユーザの発話や顔の振り等の動作
が発生されなかった場合は、統合処理手段110により
「ユーザが何の反応もしない」という旨が対話管理手段
112へ伝えられる。すると、対話管理手段112によ
り現在の状況に応じて「もしもし」、「何か答えてくだ
さい」等の発話が出力手段113を通じて行なわれる。
なお、べイズ識別ではマルチモーダル対話データベース
の情報が用いられる。
【0045】次に、他の実施例として、音声認識と顔の
振りの認識と顔や視線の向きの認識が統合されること
で、システムにより発話される質問文に対するユーザの
反応が「肯定」なのか「否定」なのかが判定される以外
に、右/左等の向きが認識されるシステムの場合によ
り、対話管理手段112及び統合処理手段110を説明
する。
【0046】この場合は対話管理手段112により統合
処理手段110から「肯定/否定」を答として受けとり
たいのか、「右/左等の向き」を答として受けとりたい
のかが、キーワードKWや発話時刻が統合処理手段11
0に送られる時に一緒に送られる必要がある。対話管理
手段112によるそれ以外の点では、上述実施例と同様
である。また、出力手段113も上述実施例と同様であ
る。
【0047】統合処理手段110については、「肯定/
否定」を答として受けとりたい場合の処理は前述のシス
テムと同様にすれば良い。
【0048】「右/左等の向き」を答として受けとりた
い場合の統合処理手段110の処理は、ユーザからのデ
ータとして、例えば音声としては「それ」等の指示語や
「各方向に特有のキーワード発話」(「右」「左」等)
や「画面に表示されている物の名前とそれに類似した単
語」等が認識され、他のモードとしては「顔の向き」、
「視線の向き」、「手を伸ばした方向」等が認識され、
やはりマルチモーダル対話データベースの情報が用いら
れてレスポンスウィンドウ内でのべイズ識別が行なわれ
る。レスポンスウィンドウの設定方法は上述実施例と同
様である。
【0049】「画面に表示されている物の名称に類似し
た単語」は、対話管理手段112から「両面に表示され
ている物の名称」を受け取り、これをDW1,DW
2,...DWnとすると、音声認識できるすべてのキ
ーワードの中でDWiとの類似度(これは文脈情報取得
手段の情報から得られる。例えば、類似度を求めたい単
語の特徴べクトルとDWiの特徴べクトルとの内積を取
れば良い)がある閾値以上のキーワードのことである。
このDWiとの類似度がある閾値以上になるキーワード
群が「キーワード群i」となる。
【0050】ここで、べイズ識別の方法について説明す
る。
【0051】マルチモーダル対話データベースには、図
7に示すように、人間同士の対話(各人の役割がシステ
ムとユーザとにそれぞれ対応しているものもある)や、
システムとユーザとの対話の様子を様々なモードでとら
えたものが記録されている。肯定/否定を識別するため
のべイズ識別を行なうには、マルチモーダル対話データ
ベース中から、ユーザが肯定/否定で答える対話のもの
だけが抜き出され、その対話データのレスポンスウィン
ドウ内での「肯定キーワード」「否定キーワード」「そ
の他のキーワード」「顔の縦振り」「顔の横振り」の存
在の有無が調査され、その調査結果が一つの学習データ
とされる。なお、対話データの中に「かしげ」や「目の
泳ぎ」がある場合はそれらがなくなるまでレスポンスウ
ィンドウが拡張されて調査される。
【0052】例えば、「今日は暑いですね」というシス
テムからの問いかけに対するユーザの応答データがある
とする。この場合、キーワードKWは「暑い」であり、
肯定キーワードとしては「はい」「うん」「そうです」
「暑い」等が考えられ、否定キーワードとしては「いい
え」「暑くない」「涼しい」等が考えられる。肯定の答
のデータ例として、レスポンスウィンドウ内で「はい」
という発話があり、「顔の縦振り」が見られたという場
合は、 Y10010 という学習データが得られる。先頭のYは肯定の答えを
意味し、次の1と0は、それぞれ「肯定キーワード」
「否定キーワード」「その他のキーワード」「顔の縦振
り」「顔の横振り」が存在するなら1、存在しないなら
0である。
【0053】また、否定の答のデータ例として、レスポ
ンスウィンドウ内で「いいえ暑くないです」という発話
があり、顔の動きは特に見られなかった場合は、 N01000 という学習データが得られる。先頭のNは否定の答えを
意味する。このような学習データをたくさん用意してお
き、認識データとして例えば「10010」(「肯定キ
ーワード」の発話と「顔の縦振り」が見られた)が与え
られたら学習データの中の「Y10010」と「N10
010」の個数が比べられ、「Y10010」の方が多
ければ、その時のユーザの意図は「肯定」であるとみな
され、「N10010」の方が多ければ、その時のユー
ザの意図は「否定」であるとみなされる。もしも同数
(両方とも0だった場合を含む)だった場合は「不明」
なので、その旨が対話管理手段112に返信され、対話
管理手段112により、その場合はもう一度質問がし直
される。また、個数の差が小さい場合もユーザに意図の
識別が正しかったかが確認されるようにすると良い場合
がある。この「10010」のような識別結果の先頭に
認識データ(YかN)を加えたものを学習データに加え
ることで、ユーザが使用すればするほど学習データが増
えて認識率が高まる。
【0054】次に「右/左等の向き」を答えとして受け
とりたい場合のべイズ識別の例を説明する。なお、説明
の都合上「右」と「左」と「上」の3つを識別する場合
について説明するが、方向が増えたりしても考え方は同
じである。この場合はマルチモーダル対話データベース
の中から、システムにより方向をたずねている対話のも
のだけが抜き出され、その対話データのレスポンスウィ
ンドウ内での「『右』や右に表示されている物の名称、
及び右に表示されている物の名称に類似した単語の発
話」「『左』や左に表示されている物の名称、及び左に
表示されている物の名称に類似した単語の発話」
「『上』や上に表示されている物の名称、及び上に表示
されている物の名称に類似した単語の発話」「指示語発
話と同時に顔の向きが右」「指示語発話と同時に顔の向
きが左」「指示語発話と同時に顔の向きが上」「指示語
発話と同時に視線の向きが右」「指示語発話と同時に視
線の向きが左」「指示語発話と同時に視線の向きが上」
「指示語発話と同時に手を伸ばした方向が右」「指示語
発話と同時に手を伸ばした方向が左」「指示語発話と同
時に手を伸ばした方向が上」「顔の向きが右」「顔の向
きが左」「顔の向きが上」「視線の向きが右」「視線の
向きが左」「視線の向きが上」「手を伸ばした方向が
右」「手を伸ばした方向が左」「手を伸ばした方向が
上」等の存在の有無を調査(これらの中の一部だけしか
使わないようにしても良い)し、その調査結果を一つの
学習データとする。なお、対話データの中に「かしげ」
や「目の泳ぎ」がある場合はそれらがなくなるまでレス
ポンスウィンドウが伸長されて調査される。
【0055】例えば、システムの出力画面の右側に手帳
が、左に鉛筆が、上に消しゴムが表示されている場合
に、「どれが一番欲しいですか」というシステムからの
問いかけに対するユーザの応答データがあるとする。こ
の場合、キーワードKWは「欲しい」であり、キーワー
ドDW1は「手帳」であり、キーワードDW2は「鉛
筆」であり、キーワードDW3は「消しゴム」である。
すると、キーワード群1としては「手帳」「ノート」な
どが入ることが考えられ、キーワード群2としては「鉛
筆」「ペン」などが入ることが考えられ、キーワード群
3としては「消しゴム」「イレーサ」などが入ることが
考えられる。なお、どのような単語が入るかは文脈情報
取得手段111からの情報に左右される。すると、
「『右』や右に表示されている物の名称、及び右に表示
されている物の名称に類似した単語の発話」としては
「右」「手帳」「ノート」等が考えられ、「『左』や左
に表示されている物の名称、及び左に表示されている物
の名称に類似した単語の発話」としては「左」「鉛筆」
「ペン」等が考えられ、「『上』や上に表示されている
物の名称、及び上に表示されている物の名称に類似した
単語の発話」としては「上」「消しゴム」「イレーサ」
等が考えられる。
【0056】「右」が答であるデータ例として、レスポ
ンスウィンドウ内で「指示語発話と同時に顔の向きが
右」「顔の向きが右」「顔の向きが左」「顔の向きが
上」が見られた場合は、 R000100000000111000000 という学習データが得られる。先頭のRは「右」が答で
あることを意味し、次の1と0は、それぞれ上記の状態
が存在するなら1、存在しないなら0である。
【0057】また、「左」が答であるデータ例として、
レスポンスウィンドウ内で「『左』や左に表示されてい
る物の名称の発話、及び左に表示されている物の名称に
類似した単語の発話」「顔の向きが右」「顔の向きが
左」「顔の向きが上」が見られた場合は、 L010000000000111000000 という学習データが得られる。先頭のLは「左」が答で
あることを意味する。
【0058】また、「上」が答であるデータ例として、
レスポンスウィンドウ内で「指示語発話と同時に視線の
向きが上」「指示語発話と同時に手を伸ばした方向が
上」「視線の向きが右」「視線の向きが左」「視線の向
きが上」「手を伸ばした方向が上」が見られた場合は、 U000000001001000111001 という学習データが得られる。先頭のUは「上」が答え
であることを意味する。
【0059】このような学習データをたくさん用意して
おき、認識データとして例えば「1001000000
00111000000」(「『右』や右に表示されて
いる物の名称、及び右に表示されている物の名称に類似
した単語の発話」と「指示語発話と同時に顔の向きが
右」と「顔の向きが右」と「顔の向きが左」と「顔の向
きが上」が見られた)が与えられたら、学習データの中
の「R100100000000111000000」
と「L100100000000111000000」
と「U100100000000111000000」
の個数が比べられ、最も多いデータの先頭の文字によっ
て、「R」なら「右」、「L」なら「左」、「U」なら
「上」であるとみなされる。もしも、同数(三つとも0
だった場合を含む)だった場合は「不明」なので、その
旨が対話管理手段112に返信され、対話管理手段11
2により、その場合はもう一度質問をし直されたりす
る。また、個数の差が小さい場合もユーザに方向の識別
が正しかったかどうかが確認されるようにすると良い場
合がある。これらの識別結果の先頭に認識データ(Rか
LかU)を加えたものを学習データに加えることで、ユ
ーザが使用すればするほど学習データが増えるようにす
ることができる。
【0060】図5は、本発明を「商品紹介システム」に
応用した実施例である。この場合は、レスポンスウィン
ドウの伸長のために「顔の振りのかしげ」や「視線の泳
ぎ(視線が正面を向いていない)」を用い、肯定/否定
のべイズ識別において「肯定キーワードの発話」「否定
キーワードの発話」「その他のキーワードの発話」「顔
の縦振り」「顔の横振り」を用い、方向の判定に「指示
語の発話」「方向キーワードの発話」「商品名、及び商
品名に類似した単語の発話」「顔の向き」が用いられて
いる。
【0061】この「商品紹介システム」の対話例を図6
Aから図6Dを用いて詳細に説明する。なお、ここでは
システムの発話を『S「発話内容」』、ユーザの発話や
動作を『U「発話や動作内容」』で表している。
【0062】S「こんにちは」 S「商品の紹介を致します。よろしいでしょうか?」 U「『はい』と発話してうなずく」 (図6A参照) S「どちらの商品に興味がありますか?」 U「右を見てうなずきながら『それです』と発話する」
(図6Bでは顔が右を向いているかどうかが一定の間
隔で出力されている) S「右ですね?」 U「『はい』と発話してうなずく」 (図6C参照) S「これは、FAX機能を内蔵した電子手帳ザウルスで
す。」 S「こちらのビューカムには興味はございますか?」 U「顔を横振り」 (図6D参照) S「ありがとうざいました。」 なお、本実施例ではべイズ識別に用いるデータは「肯定
キーワードの発話」「否定キーワードの発話」「その他
キーワードの発話」「顔の縦振り」「顔の構振り」
「『右』や右に表示されている物の名称、及び右に表示
されている物の名称に類似した単語の発話」「『左』や
左に表示されている物の名称、及び左に表示されている
物の名称に類似した単語の発話」「『上』や上に表示さ
れている物の名称、及び上に表示されている物の名称に
類似した単語の発話」「指示語発話と同時に顔の向きが
右」「指示語発話と同時に顔の向きが左」「指示語発話
と同時に顔の向きが上」「指示語発話と同時に視線の向
きが右」「指示語発話と同時に視線の向きが左」「指示
語発話と同時に視線の向きが上」「指示語発話と同時に
手を伸ばした方向が右」「指示語発話と同時に手を伸ば
した方向が左」「指示語発話と同時に手を伸ばした方向
が上」「顔の向きが右」「顔の向きが左」「顔の向きが
上」「視線の向きが右」「視線の向きが左」「視線の向
きが上」「手を伸ばした方向が右」「手を伸ばした方向
が左」「手を伸ばした方向が上」等が使われているが、
これはマルチモーダル対話データベースから得られる情
報なら何を使っても良く、より一般化して書けば、 モードM1,モードM2,...,モードMn で、それぞれのモードの有無が調査されれば良い。例え
ば「肯定キーワードの発話」「否定キーワードの発話」
「その他キーワードの発話」「顔の縦振り」「顔の横振
り」が使われた場合というのはn=5で、モードM1
「肯定キーワードの発話」、モードM2=「否定キーワ
ードの発話」、モードM3=「その他キーワードの発
話」、モードM4=「顔の縦振り」、モードM5=「顔の
構振り」とした場合ということになる。
【0063】また、各モードの有無についても、単なる
0,1を用いる以外に、尤度として0〜1の実数値をと
らせることもできる。この場合のべイズの識別は、学習
データから線形補間を行なえば良い。例えばレスポンス
ウィンドウ内で0.8,0,0,0.7,0 という認
識データが得られた場合には、学習データ中の「Y10
010」の個数をy11、「N10010」の個数を
11、「Y00010」の個数をy01、「N0001
0」の個数をn01、「Y10000」の個数をy10
「N10000」の個数をn10、「Y00000」の個
数をy00、「N00000」の個数をn00、とすると、 nY=0.8×0.7×y11+(1−0.8)×0.7×
01+0.8×(1−0.7)y10+(1−0.8)×
(1−0.7)y00N=0.8×0.7×n11+(1−0.8)×0.7×
01+0.8×(1−0.7)n10+(1−0.8)×
(1−0.7)n00 が計算され、nYとnNの大小が比較され、nYの方が大
きければ、その時のユーザの意図は「肯定」であるとみ
なされ、nNの方が大きければ、その時のユーザの意図
は「否定」であるとみなされる。
【0064】また、「キーワード群」は、対話管理手段
112から与えられた各キーワードDWiをもとに、あ
らかじめ求めておく場合で説明したが、単語Wを音声認
識後に、各キーワードDWiとの類似度から、単語Wが
どのキーワード群に入っているかを求めることもでき
る。これは単語Wの特徴べクトルとDWiの特徴べクト
ルとの内積が最大となるiをmとすると、単語Wはキー
ワード群mに属することにすれば良い。または、所定閾
値を定めておき、類似度がこの閾値以上になるキーワー
ド群に属する(複数のキーワード群に属する場合もあ
る)とみなしてもよい。
【0065】肯定キーワード/否定キーワードの場合も
同様で、対話管理手段112から与えられたキーワード
KWに対し、あらかじめ「肯定キーワード」「否定キー
ワード」を求めておかなくても、単語Wを音声認識後
に、単語WとキーワードKWが同じであれば、単語Wは
「肯定キーワード」とみなせるし、単語Wとキーワード
KWとの類似度が所定閾値以上であれば単語Wは「否定
キーワード」とみなせる。
【0066】また、「レスポンスウィンドウ」は、一対
の対話に対して一つだけ存在する場合について説明した
が、システム側の発話にキーワードKWが複数ある場合
などは複数のレスポンスウィンドウを設定することもで
きる。この場合、レスポンスウィンドウiは、キーワー
ドKWiの発話開始時刻からKW(i+1)の発話開始
時刻+WTまでの時間となる。ただし、最後のレスポン
スウィンドウの終了時刻は、システムの発話自体の終了
時刻+WTとなる。これを、キーワードKWが、KW
1,KW2,KW3の三つある場合で説明すると、図9
に示すように、KW1の発話開始時刻からKW2の発話
開始時刻+WTまでの時間を「レスポンスウィンドウ
1」、KW2の発話開始時刻からKW3の発話開始時刻
+WTまでの時間を「レスポンスウィンドウ2」、KW
3の発話開始時刻からシステムの発話自体の終了時刻+
WTまでの時間を「レスポンスウィンドウ3」に設定す
れば良い。この場合、各レスポンスウィンドウ間で重複
している時間が生じるが、これによるあいまい性は、シ
ステムからもう一度聞き直す等をして確認を取るように
すれば良い。
【0067】
【発明の効果】請求項1に記載の統合認識対話装置によ
れば、統合処理手段においてユーザの発話意図の識別が
行われ、その識別結果が対話管理手段に渡され、対話管
理手段により新たな状態に遷移され、出力手段によって
つぎに発話される内容が決定され、ユーザの発話意図の
識別が行われる期間、すなわちレスポンスウインドウ
は、出力手段によってつぎに発話される内容に含まれる
キーワードの発話タイミングから算出されるタイミング
で開始されるので、ユーザはあたかも人間と対話をする
かのような感覚で自然な対話を行うことができる。加え
て、レスポンスウインドウは、人間同士の対話における
自然な間に合わせて設定されるので、ユーザは気持ちの
良い対話を行うことができる。
【0068】請求項2に記載の統合認識対話装置によれ
ば、統合処理手段において人間同士の対話における自然
な間により合わせて、すなわち出力手段による発話の出
力が終わってから所定の時間経過後のタイミングで終了
するように、レスポンスウインドウが設定されるので、
ユーザはさらに気持ちの良い対話を行うことができる。
【0069】
【0070】請求項に記載の統合認識対話装置によれ
ば、統合処理手段においてユーザの肯定/否定の意図の
判定が行なわれる場合には、対話管理手段から渡された
キーワードと文脈情報取得手段とが用いられて「肯定キ
ーワード」と「否定キーワード」が設定されるので、こ
れらのキーワードによりユーザの肯定及び否定の意図の
判断が確実に行われる。
【0071】
【0072】
【0073】
【0074】請求項に記載の統合認識対話装置によれ
ば、認識手段により認識されたユーザの顔の縦振り動作
のうち、ユーザの発話の後半で出現したものを統合処理
手段が無視するので、ユーザ自身の発話にたいしてのう
なずきであることが多い顔の縦振り動作に起因する誤識
別を防ぐことができる。
【図面の簡単な説明】
【図1】本発明の統合認識対話装置の基本構成を示すブ
ロック図である。
【図2】本発明の単語の特徴べクトルの生成を説明する
図である。
【図3】本発明の単語の特徴べクトルの生成を説明する
図である。
【図4A】本発明のレスポンスウィンドウを説明する図
である。
【図4B】本発明のレスポンスウィンドウの短縮を説明
する図である。
【図4C】本発明のレスポンスウィンドウの伸長を説明
する図である。
【図5】本発明の統合認識対話装置を「商品紹介システ
ム」に応用した場合の構成を示すブロック図である。
【図6A】商品紹介システムでの対話例を示す図であ
る。
【図6B】商品紹介システムでの対話例を示す図であ
る。
【図6C】商品紹介システムでの対話例を示す図であ
る。
【図6D】商品紹介システムでの対話例を示す図であ
る。
【図7】マルチモーダル対話データベースを示す図であ
る。
【図8】対話管理手段による状態の遷移の様子を示す図
である。
【図9】複数のレスポンスウィンドウを示す図である。
【符号の説明】
105 認識手段 106 認織手段 107 認識手段 108 認識手段 109 時刻取得手段 110 統合処理手段 111 文脈情報取得手段 112 対話管理手段 113 出力手段
フロントページの続き (56)参考文献 特開 平7−114572(JP,A) 特開 平4−311996(JP,A) 特開 昭63−121096(JP,A) 特開 昭61−200762(JP,A) 特開 平3−40177(JP,A) 特開 平6−62398(JP,A) 特開 平6−118988(JP,A) 特開 平5−307432(JP,A) 実開 平5−82703(JP,U) 実開 平7−36199(JP,U) 綿貫啓子,他,マルチモーダル対話デ ータの解析,日本音響学会平成6年度春 季研究発表会講演論文集,日本,1994年 3月,1−7−20,p.39−40 外川文雄,他,マルチモーダルデータ ベースに基づく対話の解析,電子情報通 信学会春季大会講演論文集,日本,1994 年,A−342,p.1−345 坂本憲治,他,マルチモーダル対話解 析,人工知能学会言語・音声理解と対話 処理研究会資料,日本,1994年,p.39 −46 綿貫啓子,他,マルチモーダル対話デ ータベースにもとづく対話解析,情報処 理学会音声言語情報処理研究会研究報 告,日本,1995年2月3日,95−SLP −5,p.17−22 湯浅夏樹,他,大量文書データ中の単 語間共起を利用した文書分類,情報処理 学会論文誌,日本,1995年8月,Vo l.36,No.8,p.1819−1827 湯浅夏樹,他,マルチモーダル対話デ ータベースに基づく音声と身振りの認識 系統合モデル,情報処理学会論文誌,日 本,1996年6月,Vol.37,No. 6,p.1049−1060 (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 G10L 15/24 G10L 15/28 G06F 3/16 320 G06F 17/30 G06T 1/00 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 時刻情報を出力する時刻取得手段と、
    ーザの音声信号、顔の動き、視線、体の動作等の少なく
    とも1つを含む入力データをそれぞれ認識する複数の認
    識手段と、音声信号から単語を識別するための文脈情報
    を出力する文脈情報取得手段と、時刻情報、文脈情報及
    前記複数の認識手段より並列に出力される認識結果を
    統合処理してユーザの意図の認識を行なう統合処理手段
    と、前記統合処理手段によって認識されたユーザの意図
    に基づいて対話を進める対話管理手段と、前記対話管理
    手段から渡された出力データをユーザに出力する出力手
    段とを具備する統合認識対話装置であって、前記統合処
    理手段がユーザの意図の認識を行なう期間を、前記出力
    手段からユーザに出力される前記出力データに含まれる
    キーワードの発話タイミング近傍で開始させることを特
    徴とする統合認識対話装置。
  2. 【請求項2】 前記統合処理手段が前記ユーザの意図の
    認識を行う期間を、前記出力手段からユーザへの出力が
    終わってから所定の時間経過後で終了させることを特徴
    とする、請求項1に記載の統合認識対話装置。
  3. 【請求項3】 時刻情報を出力する時刻取得手段と、
    ーザの音声信号、顔の動き、視線、体の動作等の少なく
    とも1つを含む入力データをそれぞれ認識する複数の認
    識手段と、音声信号から単語を識別するための文脈情報
    を出力する文脈情報取得手段と、時刻情報、文脈情報及
    前記複数の認識手段より並列に出力される認識結果を
    統合処理してユーザの意図の認識を行なう統合処理手段
    と、前記統合処理手段によって認識されたユーザの意図
    に基づいて対話を進める対話管理手段と、前記対話管理
    手段から渡された出力データをユーザに出力する出力手
    段とを具備する統合認識対話装置であって、前記統合処
    理手段は、前記対話管理手段と前記文脈情報取得手段か
    らの情報に基づいてユーザの音声信号を認識するための
    所定個数のキーワード群を設定し、前記キーワード群が
    ユーザが肯定を意図する「肯定キーワード群」と、ユー
    ザが否定を意図する「否定キーワード群」とを含むこと
    を特徴とする統合認識対話装置。
  4. 【請求項4】 時刻情報を出力する時刻取得手段と、
    ーザの音声信号、顔の動き、視線、体の動作等の少なく
    とも1つを含む入力データをそれぞれ認識する複数の認
    識手段と、音声信号から単語を識別するための文脈情報
    を出力する文脈情報取得手段と、時刻情報、文脈情報及
    前記複数の認識手段より並列に出力される認識結果を
    統合処理してユーザの意図の認識を行なう統合処理手段
    と、前記統合処理手段によって認識されたユーザの意図
    に基づいて対話を進める対話管理手段と、前記対話管理
    手段から渡された出力データをユーザに出力する出力手
    段とを具備する統合認識対話装置であって、前記複数の
    認識手段のうちユーザの顔の動きを認識する認識手段
    は、ユーザの顔の縦振り動作を認識し、前記統合処理手
    段が、ユーザの発話の後半で出現したユーザの顔の縦振
    り動作を無視することを特徴とする統合認識対話装置。
JP03858195A 1995-02-27 1995-02-27 統合認識対話装置 Expired - Lifetime JP3375449B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03858195A JP3375449B2 (ja) 1995-02-27 1995-02-27 統合認識対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03858195A JP3375449B2 (ja) 1995-02-27 1995-02-27 統合認識対話装置

Publications (2)

Publication Number Publication Date
JPH08234789A JPH08234789A (ja) 1996-09-13
JP3375449B2 true JP3375449B2 (ja) 2003-02-10

Family

ID=12529267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03858195A Expired - Lifetime JP3375449B2 (ja) 1995-02-27 1995-02-27 統合認識対話装置

Country Status (1)

Country Link
JP (1) JP3375449B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JP3822357B2 (ja) * 1998-02-09 2006-09-20 株式会社東芝 マルチモーダル入出力装置のインタフェース装置及びその方法
JP3844874B2 (ja) * 1998-02-27 2006-11-15 株式会社東芝 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH11272293A (ja) * 1998-03-24 1999-10-08 Sanyo Electric Co Ltd 遠隔制御装置
JP2000148183A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP3514372B2 (ja) * 1999-06-04 2004-03-31 日本電気株式会社 マルチモーダル対話装置
KR100576553B1 (ko) * 2000-01-20 2006-05-03 한국전자통신연구원 멀티모달 인터페이스 처리 장치 및 그 방법
JP3652961B2 (ja) * 2000-06-27 2005-05-25 シャープ株式会社 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP2005321730A (ja) 2004-05-11 2005-11-17 Fujitsu Ltd 対話システム、対話システム実行方法、及びコンピュータプログラム
JP4416643B2 (ja) 2004-06-29 2010-02-17 キヤノン株式会社 マルチモーダル入力方法
JP2006313287A (ja) * 2005-05-09 2006-11-16 Toyota Motor Corp 音声対話装置
KR100611680B1 (ko) * 2005-06-28 2006-08-14 한국과학기술연구원 멀티모달 인터랙션 기반 원격미팅 시스템
JP4825473B2 (ja) * 2005-09-05 2011-11-30 アイシン精機株式会社 顔向き判別装置
JP2007219190A (ja) * 2006-02-17 2007-08-30 Murata Mach Ltd 音声認識装置と認識方法及びそのプログラム
KR100758789B1 (ko) * 2006-05-29 2007-09-14 주식회사 케이티 멀티모달 시스템
JP4505862B2 (ja) * 2006-06-26 2010-07-21 村田機械株式会社 音声対話装置と音声対話方法及びそのプログラム
KR100777569B1 (ko) * 2006-09-20 2007-11-20 주식회사 케이티 멀티모달을 이용한 음성 인식 방법 및 그 장치
KR101581883B1 (ko) 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
EP2426598B1 (en) 2009-04-30 2017-06-21 Samsung Electronics Co., Ltd. Apparatus and method for user intention inference using multimodal information
US9684372B2 (en) 2012-11-07 2017-06-20 Samsung Electronics Co., Ltd. System and method for human computer interaction
JP5993421B2 (ja) * 2014-09-22 2016-09-14 ソフトバンク株式会社 会話処理システム及びプログラム
JP6334815B2 (ja) 2015-03-20 2018-05-30 株式会社東芝 学習装置、方法、プログラムおよび音声対話システム
WO2018061743A1 (ja) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 ウェアラブル端末
JP2021113835A (ja) * 2018-04-19 2021-08-05 ソニーグループ株式会社 音声処理装置および音声処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0779397B2 (ja) * 1985-03-01 1995-08-23 日本電信電話株式会社 複数メディア入出力装置
JPS63121096A (ja) * 1986-11-10 1988-05-25 松下電器産業株式会社 対話型音声入出力装置
JPH0340177A (ja) * 1989-07-07 1991-02-20 Seiko Epson Corp 音声認識装置
JPH04311996A (ja) * 1991-04-11 1992-11-04 Seiko Epson Corp 音声認識装置
JPH0582703U (ja) * 1992-04-14 1993-11-09 ナイルス部品株式会社 音声認識装置
JPH05307432A (ja) * 1992-04-30 1993-11-19 Nippon Telegr & Teleph Corp <Ntt> 時刻タグ付加による多チャネル間同期統合装置
JPH0662398A (ja) * 1992-08-07 1994-03-04 Matsushita Electric Ind Co Ltd 画像通信端末装置
JPH06118988A (ja) * 1992-10-02 1994-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声対話処理装置
JP2978044B2 (ja) * 1993-10-18 1999-11-15 シャープ株式会社 文書分類装置
JPH0736199U (ja) * 1993-12-16 1995-07-04 クラリオン株式会社 音声認識装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
坂本憲治,他,マルチモーダル対話解析,人工知能学会言語・音声理解と対話処理研究会資料,日本,1994年,p.39−46
外川文雄,他,マルチモーダルデータベースに基づく対話の解析,電子情報通信学会春季大会講演論文集,日本,1994年,A−342,p.1−345
湯浅夏樹,他,マルチモーダル対話データベースに基づく音声と身振りの認識系統合モデル,情報処理学会論文誌,日本,1996年6月,Vol.37,No.6,p.1049−1060
湯浅夏樹,他,大量文書データ中の単語間共起を利用した文書分類,情報処理学会論文誌,日本,1995年8月,Vol.36,No.8,p.1819−1827
綿貫啓子,他,マルチモーダル対話データの解析,日本音響学会平成6年度春季研究発表会講演論文集,日本,1994年3月,1−7−20,p.39−40
綿貫啓子,他,マルチモーダル対話データベースにもとづく対話解析,情報処理学会音声言語情報処理研究会研究報告,日本,1995年2月3日,95−SLP−5,p.17−22

Also Published As

Publication number Publication date
JPH08234789A (ja) 1996-09-13

Similar Documents

Publication Publication Date Title
JP3375449B2 (ja) 統合認識対話装置
Morency et al. Contextual recognition of head gestures
US6526395B1 (en) Application of personality models and interaction with synthetic characters in a computing system
US5473705A (en) Sign language translation system and method that includes analysis of dependence relationships between successive words
Wu et al. Two-level hierarchical alignment for semi-coupled HMM-based audiovisual emotion recognition with temporal course
JP2004527809A (ja) 個人のインタラクションをシミュレートする環境反応型ユーザインタフェース/エンタテインメントデバイス
WO2019160100A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JP2004513444A (ja) 個人のインタラクションをシミュレートし、関連するデータによって外部データベースを拡充するユーザインタフェース/エンタテインメントデバイス
JP2004513445A (ja) 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2004527808A (ja) 個人のインタラクションをシミュレートする自己更新式ユーザインタフェース/エンタテインメントデバイス
JP4729902B2 (ja) 音声対話システム
Aneja et al. Understanding conversational and expressive style in a multimodal embodied conversational agent
WO2019160090A1 (ja) 非言語情報生成装置、方法、及びプログラム
WO2019160105A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Ghotkar et al. Dynamic hand gesture recognition and novel sentence interpretation algorithm for indian sign language using microsoft kinect sensor
CN114676259B (zh) 一种基于因果感知交互网络的对话情绪识别方法
Ballard et al. A multimodal learning interface for word acquisition
KR102297480B1 (ko) 비정형 질문 또는 요구 발화의 구조화된 패러프레이징 시스템 및 방법
CN117520811A (zh) 基于渐进自适应模态增强注意力网络的多模态人格特质分析方法
WO2019160104A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Noh et al. Emotion-aware speaker identification with transfer learning
Venkatagiri Speech recognition technology applications in communication disorders
Sen et al. AI-Based DBMS Controlled Speech Recognition Model for Some Common Computing Commands
Mukherjee et al. A visual context-aware multimodal system for spoken language processing.
CN118410813B (zh) 一种语言学习方法、系统及存储介质

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101129

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term