JPH0916800A

JPH0916800A - 顔画像付き音声対話システム

Info

Publication number: JPH0916800A
Application number: JP7168544A
Authority: JP
Inventors: Yoshihiro Sato; 義浩佐藤; Hiroshi Naito; 浩内藤; Kenichi Hagiwara; 賢一萩原
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 1995-07-04
Filing date: 1995-07-04
Publication date: 1997-01-17

Abstract

(57)【要約】【目的】発話テーマの変更にも容易に対応し得る、実
用的かつユーザとの自然な対話が可能な顔画像付き音声
対話システムを提供する。【構成】入力音声をテキスト情報に変換する音声認識
部１１、テキスト情報に対応する応答を生成する応答生
成部１２、テキスト情報から音韻コードを生成し応答生
成部１２で生成される感情情報から表情情報を生成する
応答制御部１３、テキスト情報から音声を合成する音声
合成部１４、合成した音声を出力するスピーカ１５、上
記音韻コードと表情情報から顔の画像情報を生成する表
情合成部１６、その画像情報を出力するモニタ１７、ユ
ーザの発話に対する応答の内容を対応付けて格納した辞
書１９を設け、これをテーマ毎に適宜選択可能とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、人間の表情を模
すための顔画像付き音声対話システムに関するものであ
る。

【０００２】

【従来の技術】従来、この種の表情を持った音声対話シ
ステムとして、例えば特開平５−２１６６１８号公報に
示すものが知られている。これは、図１２に示すように
音声理解部３１、対話管理部３２、応答生成出力部３
３、ディスプレイ３４およびスピーカ３５等を設け、外
部より音声が入力されると、その意味内容を音声理解部
３１で理解し、その意味内容から対話管理部３２により
応答内容を決定し、これに応じてディスプレイ３４によ
り画面表示出力を行なうとともに、スピーカ３５により
音声出力を行なうものである。

【０００３】

【発明が解決しようとする課題】しかし、音声認識技術
には誤認識や曖昧性があることから、実用的なシステム
を開発する場合に、不特定のユーザが自由に発する音声
（以下、単に発話ともいう）に対応する応答は簡単には
定義できず、また、どのシステムにも簡単に対応するこ
とができないのが現状であり、業務テーマ毎にシステム
の開発が必要になるという問題がある。さらには、モニ
タに表示される口の形状が発話の音量に関わらず一定で
あり、音声応答に対する表情変化が不自然である、など
の問題もある。したがって、この発明の課題は、業務テ
ーマの変更にも容易に対応し得る実用的なシステムにす
るとともに、ユーザとの自然な対話を可能とすることに
ある。

【０００４】

【課題を解決するための手段】このような課題を解決す
るため、請求項１の発明では、顔画像付き音声対話シス
テムで実行すべき業務テーマに応じて、ユーザの発話と
その応答との対応関係を定義してテーブルなどに格納し
ておき、テーマに応じて選択することにより、実用的な
システムの構築を可能としている。音声認識のための辞
書をテーマ別に用意しておき、これを対話中のテーマに
応じて変更可能にする機能を付加することで、音声認識
のための速度，精度を向上させ、実用性を向上させる
（請求項２の発明）。また、請求項１の発明に加えて、
顔画像の口の動作の大きさを、前記出力すべき音声の音
量に応じて可変とする、前記応答に音声として出力すべ
き応答情報の他に、少なくとも感情コードと感情レベル
からなる感情情報を含めた上で、前記顔画像を感情情報
に応じて変化させるか、または前記感情レベルを時間の
経過とともに減衰させる機能を持たせることで、より自
然な対話を可能としている（請求項３，４，５および６
の発明）。

【０００５】

【発明の実施の形態】図１はこの発明の実施形態を示す
機能ブロック図である。すなわち、入力音声をテキスト
情報に変換する音声認識部１１、音声認識部１１で生成
したテキスト情報に対応する応答を生成する応答生成部
１２、応答生成部１２で生成される応答のうち、音声出
力のためのテキスト情報から音韻コードを生成し、応答
生成部１２で生成される感情情報から表情情報を生成す
る応答制御部１３、応答生成部１２で生成したテキスト
情報から音声を合成する音声合成部１４、合成した音声
を出力する音声出力部（スピーカ）１５、上記応答生成
部１２で生成した音韻コードと表情情報から顔の画像情
報を生成する表情合成部１６、表情合成部１６で生成し
た画像情報を表示する顔画像表示部（モニタ）１７およ
び辞書１８，１９などから構成される。なお、応答生成
部１２には対話中テーマ２０およびテーマ履歴２１の各
テーブルが、また、応答制御部１３には感情状態のテー
ブル２２がそれぞれ用意されている。

【０００６】このような構成において、音声認識部１１
はユーザが発した音声を、辞書１８にもとづき、テキス
ト情報に変換する。この処理では、音声内容の理解は行
なわず、一意的に音声をテキスト情報に変換し、応答生
成部１２に対しテキスト情報を送る。応答生成部１２
は、音声認識部１１からのテキスト情報をユーザのシス
テムに対する発話と見なし、辞書１９に格納されている
発話キーワードと応答のテーブルと、対話中テーマ２
０，テーマ履歴２１の各テーブルにもとづき発話に対す
る応答を生成する。

【０００７】応答生成部１２は、図２に示すような個々
の業務テーマ別に発話と応答を対として定義したテーブ
ルを有している。この定義にもとづき、音声出力するテ
キスト情報とそれに対応する感情情報（感情コードと感
情レベルのリスト）が生成され、応答制御部１３に与え
られる。応答制御部１３は、応答生成部１２が生成した
応答のうち、音声出力のためのテキスト情報を、例えば
図３に示すような音韻コードテーブルから音韻コードリ
ストに変換する。また、応答生成部１２が生成した感情
情報から、感情状態テーブル２２を更新する。

【０００８】更新した感情状態テーブル２２から生成す
る表情情報は、例えば文献（Ｐ．Ｅｋｍａｎａｎｄ
Ｗ．Ｖ．Ｆｒｉｅｓｅｎ：「ＦａｃｉａｌＡｃｔｉｏ
ｎＣｏｄｉｎｇＳｙｓｔｅｍ」Ｃｏｎｓｕｌｔｉｎｇ
ＰｓｙｃｈｏｌｏｇｉｓｔＰｒｅｓｓ（１９７
７））に発表された、図４に示すようなＡＵ（Ａｃｔｉ
ｏｎＵｎｉｔ）番号のテーブルと、文献（森島「知的
インタフェースのための表情分析・合成とメディア変換
技術」ＯＰｌｕｓＥ，１９９４年８月）に発表され
た、図５に示すような感情コードと、ＡＵ番号と度合い
のリストテーブルにより合成する。この図５では、ＡＵ
番号と度合いのリストは括弧内が度合いを示し、０から
１００の数値で表わされる。

【０００９】次に、生成した表情情報（ＡＵ番号とその
度合いのリスト）と、音韻コードリストと、応答生成部
１２から与えられる音声出力のためのテキスト情報とか
ら、表情合成部１６を音声合成部１４と同期して動作さ
せる。音声合成部１４は、応答制御部１３が生成した音
韻コードとその度合いから音声に変換し、スピーカ１５
を通して出力する。表情合成部１６は応答制御部１３か
ら与えられる表情情報により、多面体で表現された顔の
画像を生成し、音声合成部１４と同期をとってモニタ１
７に表示する。

【００１０】以下、具体的に説明する。音声認識部１１
は、不特定話者が発声する連続音声を認識する。このよ
うな連続音声認識については、例えば文献（平山，平島
「不特定話者、連続音声認識システムの開発とその応
用」ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍ
“ＣｏｍｐｕｔｅｒＷｏｒｌｄ’９１”Ｓｅｐｔｅｍ
ｂｅｒ２４−２６，１９９１，Ｏｓａｋａ，Ｊａｐａ
ｎ）に示される手法により実現することができる。現在
の技術では不特定話者，連続音声，大語彙を認識するの
は認識速度，認識精度低下のため現実的ではないので、
予め設定した語彙を持った辞書に基づき認識することに
なる。この実施例では、例えば図６のように常時参照す
る語彙を持つ基本辞書１８１と、対話中のテーマ毎に参
照する語彙を持つ個別辞書１８２（１８２Ａ，１８２
Ｂ，１８２Ｃなど）とを用意し、テーマ毎に切り換えて
認識することで、速度と精度の向上を図っている。

【００１１】応答生成部１２は、音声認識部１１が認識
しテキスト情報に変換したユーザからの発話を受け取
り、それに対応する応答を生成し、対話中テーマ２０お
よびテーマ履歴２１として記憶する。図７は、或るユー
ザとの現在対話中のテーマと、過去の応答の出力テーマ
リストを示すテーブル（２０，２１）である。図２は、
ユーザの発話とそれに対応する応答を定義したテーブル
の１部を示すものである。すなわち、図２の「発話キー
ワード」は、ユーザの発話とマッチングをとるためのキ
ーワードのリストである。「入力テーマ」には、発話キ
ーワードが図７の「対話中のテーマ」をもとに、有効で
あるか否かをチェックするためのテーマを記述する。

【００１２】また、図２の「入力履歴」には、「発話キ
ーワード」が図７の「テーマ履歴」をもとに有効である
か否かをチェックするためのテーマを記述する。「応
答」には、「発話キーワード」に対するシステムの「応
答」を記述する。「感情コード」は、「応答」に対応し
て生成する感情を符号化したものであり、図８に例示す
るような人間の基本的な感情をコード化したものであ
る。「感情レベル」は「感情コード」に対応し、その各
々について０（感情の度合いが最小）〜１００（感情の
度合いが最大）の数値で記述する。「出力テーマ」は、
「応答」を行なったときに図７のような「対話中のテー
マ」のテーブル２０に設定されるとともに、「テーマ履
歴」のテーブルに追加される。

【００１３】ここで、ユーザが例えば「中央食堂ではう
どんが食べられますか」と発話したとする。音声認識部
１１は、認識したユーザの発話のテキスト情報「中央食
堂ではうどんが食べられますか」を応答生成部１２に送
る。応答生成部１２は、テキスト情報「中央食堂ではう
どんが食べられますか」が、図２に示す「発話キーワー
ド」を全て含むかどうかを項目毎にチェックし、全て含
んでいればマッチングした発話キーワードの候補とす
る。全ての項目の「発話キーワード」のチェック後、マ
ッチングした発話キーワードの候補の中からキーワード
の数が最大の「発話キーワード」を、マッチングした発
話キーワードとする。

【００１４】マッチングした発話キーワード「中央食
堂」，「うどん」，「食べられますか」には、図２の例
の場合「入力履歴」の記述がないため無条件に有効とし
て、対応する「応答」として、「はい、食べられま
す。」と、感情コード「１，３」、「１，３」、感情レ
ベル「２０，１０」を応答制御部１３に送り、「出力テ
ーマ」に記述された「中央食堂」，「うどん」を図７の
「テーマ履歴」のテーブル２１に、図７の「対話中のテ
ーマ」のテーブル２０に設定する。図７の「テーマ履
歴」に「中央食堂」，「うどん」が存在しない場合は、
図７の「テーマ履歴」に「中央食堂」，「うどん」を追
加する。テーマ変更により、認識する語彙を持った辞書
を「中央食堂」，「うどん」に変更する。

【００１５】応答制御部１３は、図３の音韻コードテー
ブルにもとづき、応答「はい、食べられます。」につい
ては、「１，２，０，１，４，１，４，１，３」の音韻
コード列を生成する。なお、図３に示すように、句読点
は発声なしなので０とし、「長音符」は７で示してい
る。また、図９に示す感情状態テーブル２２の感情コー
ド「１」の感情レベルには「２０」が加算され、同じく
感情コード「３」の感情レベルには「１０」が加算され
る。なお、この具体例では、感情レベルの値を図１０に
示すように時間の経過に伴って減少させ、自然な感じを
出すようにしている。

【００１６】現在の感情状態は図９に示すように、感情
コード「１」は感情レベル「２０」で、感情コード
「３」は感情レベル「１０」である。感情コードに対す
るＡＵ番号と度合いのリストは図５に示されるので、感
情コード「１」の感情レベル「２０」の場合は、感情コ
ード「１」のリストの度合いを０．２（２０％）して、
「１（１３），６（１４），１２（２），１４（２）」
となる。同様に、感情コード「３」の感情レベル「１
０」の場合は、感情コード「３」のリストの度合いを
０．１（１０％）して、「１（４），２（３），５
（６），１５（２），１６（３），２０（１），２６
（６）」となる。そして、感情コード「１」に対するＡ
Ｕ番号と度合いのリストと、感情コード「１」に対する
ＡＵ番号と度合いのリストとの平均を取り、「１
（９），２（２），５（３），６（７），１２（１），
１４（１），１５（１），１６（２），２０（１），２
６（３）」とする。

【００１７】次に、合成した応答に対するＡＵ番号と度
合いのリストと、図９の現在の感情状態から０以外の感
情コードの感情レベル「２０」と「１０」の平均値「１
５」を、標準の音声出力の音量に対する増分値（１５
％）として図１の表情合成部１６に送る。また、標準の
音声出力の音量に対する増分値「１５」と、応答生成部
１２および応答制御部１３を介して与えられる応答「は
い、食べられます。」を、音声出力のためのテキスト情
報として音声合成部１４に送る。音声合成部１４では、
応答制御部１３から与えられたテキスト情報をディジタ
ル／アナログ変換するとともに、標準の音声出力の音量
に対する増分値「１５」から音声の音量を標準設定の１
５％増しとして決定し、スピーカ１５から音声を出力す
る。

【００１８】表情合成部１６では、無表情時の人物を表
わした形状の多面体の頂点座標と、図４に示す各ＡＵ番
号に対する標準形状の多面体の頂点座標と、図３の各音
韻コードに対する口形の標準形状の多面体の頂点座標を
有しており、応答制御部１３からの応答に対応するＡＵ
番号と度合いのリスト「１（９），２（２），５
（３），６（７），１２（１），１４（１），１５
（１），１６（２），２０（１），２６（３）」から、
表情の変化量を決定する。例えば、ＡＵ番号「１」は図
４から「眉の内側を上げる」の動作であるが、この例で
はその度合いが「９」であるため、標準の「眉の内側を
上げる」の動作に対して形状変化量を９％とするもので
ある。同様に、応答制御部１３から与えられる各ＡＵ番
号について上述のように形状変化量を決定し、得られた
変化量を無表情時の人物を表わした形状に対して加算
し、これから表示する人物の形状の多面体の頂点座標を
求める。

【００１９】次に、現在表示している人物の形状と、こ
れから表示する人物の形状から中間の形状を補完して生
成し、生成した形状を連続的に表示することにより、表
情を変化させる。表情変化後に、応答制御部１３からの
音韻コードリストと感情レベルの平均値「１５」から、
音韻コードリストに対応する標準形状の変化量を中間形
状（変化量５０％）に加えて６５％とし、口形を決定す
る。ここで、表情による口形と音韻コードによる口形と
で、口形に矛盾が発声する場合がある。この場合は、表
情による口形と音韻コードによる口形の平均や加算によ
り口形を決定しても良いが、ここでは、システムの音声
出力に対応する口形を重視し、音韻コードによる口形を
優先させることとする。

【００２０】また、口形変化のタイミングとしては、例
えば図１１に示すように応答音声出力と同期して動作す
る。具体的には、１個の音韻毎に口形変化と音声出力を
同期させる方法もあるが、そのための経費が増大する。
そこで、図１１のように１個の音韻の口形変化時間と音
声出力時間を同一の定数とし、音韻コードリスト単位で
音声合成部１４と表情合成部１６を同時に動作させるこ
とで、同期をとるが可能となる。なお、１個の口形変化
時間と音声出力時間を同一の変数とすることにより、口
形変化と音声出力の時間を可変とすることもできる。

【００２１】その後、ユーザが「他になにか食べられま
すか」と発話したものとすると、図１の音声認識部１１
は、認識したユーザの発話のテキスト情報「他になにか
食べられますか」を応答生成部１２に送る。応答生成部
１２テキスト情報「他になにか食べられますか」が、図
２のテーブルの「発話キーワード」を全て含むか否かを
チェックし、全て含んでいればマッチングした発話キー
ワードの候補とする。全ての「発話キーワード」をチェ
ックし、マッチングした発話キーワードの候補の中から
キーワードの数が最大の「発話キーワード」をマッチン
グした発話キーワードとする。

【００２２】マッチングした発話キーワード「他」，
「食べられますか」には、図２の例では「入力テーマ」
の記述「うどん」があるため、「対話中のテーマ」に
「うどん」があるかどうかをチェックする。この例では
前回の応答により「対話中のテーマ」に「うどん」があ
るので、次の処理に移行する。このとき、今回がユーザ
のはじめての発話で「対話中のテーマ」に「うどん」が
設定されていない場合は、発話の内容が分からない旨を
ユーザに通知する。次に、「入力履歴」の記述「中央食
堂」があるため、「テーマ履歴」の中に「中央食堂」が
あるかのチェックを行なう。この例では前回の応答によ
り「テーマ履歴」に「中央食堂」があるため、次の処理
に移る。このとき、今回がユーザのはじめての発話で
「テーマ履歴」に「中央食堂」が設定されていない場合
は、発話の内容が分からない旨をユーザに通知する。そ
の後、マッチングした「発話キーワード」に対応する応
答として、「定食，鉄板焼きが食べられます。」を生成
し、以下、上記と同様の処理を行なう。

【００２３】

【発明の効果】この発明によれば、顔画像付き音声対話
システムで実行すべき業務テーマに応じて、ユーザの発
話とその応答との対応関係を定義してテーブルなどに格
納しておき、テーマに応じて選択することで、実用的な
システムの構築が可能となる。音声認識のための辞書を
テーマ別に用意しておき、対話中のテーマに応じて変更
可能にする機能を付加することで、音声認識のための速
度，精度を向上させ、実用性を向上させる。加えて、顔
画像の口の動作の大きさを、前記出力すべき音声の音量
に応じて可変とする、前記応答に音声として出力すべき
応答情報の他に、少なくとも感情コードと感情レベルか
らなる感情情報を含め、前記顔画像を感情情報に応じて
変化させる、さらには前記感情レベルを時間の経過とと
もに減衰させる機能を付加することで、より自然な対話
が可能となる。

【図面の簡単な説明】

【図１】この発明による実施の形態を示すブロック図で
ある。

【図２】発話キーワードと応答テーブル例の一部を示す
説明図である。

【図３】基本的な音韻と音韻コードの対応関係説明図で
ある。

【図４】基本的な表情の動作とＡＵ番号の対応関係説明
図である。

【図５】感情コードとＡＵ番号の度合いの対応関係説明
図である。

【図６】音声認識のための語彙を保存する辞書の例を示
す構成図である。

【図７】対話状態テーブルの例を示す構成図である。

【図８】基本的な感情と感情コードの対応関係説明図で
ある。

【図９】感情状態テーブルの例を示す構成図である。

【図１０】感情レベルの時間的変化例を示すグラフであ
る。

【図１１】ユーザとシステムとの対話タイミング例を示
すタイムチャートである。

【図１２】従来例を示すブロック図である。

【符号の説明】

１１…音声認識部、１２…応答生成部、１３…応答制御
部、１４…音声合成部、１５…音声出力（スピーカ）、
１６…表情合成部、１７…顔画像表示（モニタ）、１
８，１９…辞書、２０，２１，２２…テーブル。

Claims

【特許請求の範囲】

【請求項１】外部より入力される音声を認識しその発
言内容（発話）を理解して、それに対応する音声応答出
力を顔画像と併せて出力可能な顔画像付き音声対話シス
テムにおいて、前記発話に対応する応答内容をテーブルとして予め定義
しておき、この定義されたテーブルを種々の業務テーマ
に応じて選択可能にしたことを特徴とする顔画像付き音
声対話システム。
【請求項２】前記音声認識のための辞書をテーマ別に
用意しておき、これを対話中のテーマに応じて変更可能
にしたことを特徴とする請求項１に記載の顔画像付き音
声対話システム。
【請求項３】前記顔画像の口の動作の大きさを、前記
出力すべき音声の音量に応じて可変とすることを特徴と
する請求項１に記載の顔画像付き音声対話システム。
【請求項４】前記応答には、音声として出力すべき応
答情報の他に、少なくとも感情コードと感情レベルから
なる感情情報を含むことを特徴とする請求項１に記載の
顔画像付き音声対話システム。
【請求項５】前記顔画像を感情情報に応じて変化させ
ることを特徴とする請求項４に記載の顔画像付き音声対
話システム。
【請求項６】前記感情レベルは時間の経過とともに減
衰させることを特徴とする請求項４に記載の顔画像付き
音声対話システム。