JP4729902B2

JP4729902B2 - 音声対話システム

Info

Publication number: JP4729902B2
Application number: JP2004319327A
Authority: JP
Inventors: 良子徳久; 立太寺嶌; 敏裕脇田
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2003-12-12
Filing date: 2004-11-02
Publication date: 2011-07-20
Anticipated expiration: 2024-11-02
Also published as: JP2005196134A

Description

本発明は、音声対話システムにかかり、特に、システム内での内部処理をより適切にしながらユーザーとの対話を自然に進めることが可能な音声対話システムに関する。

従来より、任意の入力単位で自由発話された入力音声を音声認識し、この音声認識の結果得られた文字列を、文の単位または文に相当する単位である言語処理単位に変換して出力する音声言語処理単位変換装置が知られている（例えば、特許文献１参照）。この音声言語処理単位変換装置では、音声認識により形態素単位に分割された文字列を入力し、言語処理単位らしさを予め学習した統計モデルと、経済的知識を予め抽出して作成した経験的規則とを用いて、ポーズ地点（無音区間）には読点を、言語処理単位には句点を付けて出力している。

この従来の技術は、翻訳を行うことを目的としたシステムであり、翻訳するために適切な意味のまとまりを言語処理単位（意味処理単位）とし、その意味処理単位のみを判定するものである。
特開平１１−１２６０９号公報

しかしながら、翻訳や検索等における意味処理単位と、ユーザーとの発話のやり取りをする応答単位とは異なっているため、上記従来の技術を音声対話システムに適用した場合、図３（２）の対話に対する適用結果（負例）に示すように、「大人の雰囲気の〈Ｐ〉静かなバーをお願いします〈Ｐ〉」（ただし、Pはポーズを表す。）の時点で言語処理単位（意味処理単位）の区切りＳ３と判定され、システムが「大人の雰囲気の静かなバーですね。」と応答する対話になることが予想される。すなわち、上記従来の技術を音声対話システムに適用する場合には、適切な応答タイミングで応答することができない、という問題がある。

本発明は、上記従来の問題点を解決するためになされたもので、システム内での内部処理をより適切にしながらユーザーとの対話を自然に進めることが可能な音声対話システムを提供することを目的とする。

上記目的を達成するために、本発明の音声対話システムは、発話中のユーザーの画像情報を抽出する抽出手段と、ユーザーから発話された音声の音響的特徴を抽出する抽出手段と、ユーザーから発話された音声を認識する音声認識手段と、前記音声認識手段の音声認識結果に基づいて、ユーザーから発話された音声の言語的特徴を抽出する抽出手段と、前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、意味処理単位であるか否かを表わすデータとに基づいて予め生成された、意味処理を行う単位を統計的にモデル化した意味処理単位モデルを記憶した意味処理単位モデル記憶手段と、前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、応答単位であるか否かを表わすデータとに基づいて予め生成された、対話中の一方の話者が応答を行う応答タイミングを統計的にモデル化した応答単位モデルを記憶した応答単位モデル記憶手段と、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記意味処理単位モデルに基づいて、意味処理タイミングを判定し、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記応答単位モデルに基づいて、応答タイミングを判定する判定手段と、前記音声認識手段の認識結果に基づいて、前記意味処理タイミングで意味処理単位の意味処理を行う処理手段と、意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答する応答手段と、を含んで構成されている。

本発明の意味処理単位は、データベース検索の検索要求を理解するための意味処理等のシステム内部の処理を行うタイミングから次の処理を行なうタイミングまでの発話区間を指すものである。

また、応答単位は、対話において一方の話者が他方の話者に対して応答したタイミングから次に応答するタイミングまでの発話区間を指すものである。

本発明では、意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答しているため、翻訳や検索等のシステム内での内部処理をより適切にしながらユーザーとの対話を自然に進めることができる。

本発明では、応答タイミングでありかつ意味処理タイミングでないと判定されたときに、意味処理を行なった内容を反映させることなく音声で応答することができる。これによって、応答タイミングのみのときに意味処理を行なった内容が反映されないため、応答タイミングのみに応じた適切な応答を行なうことができる。

また、本発明では、意味処理タイミングでありかつ応答タイミングでないと判定されたときに、音声での応答を停止することができる。これによって、不必要なタイミングにおいて音声で応答するのが防止される。

意味処理単位モデルは、意味処理単位の情報を備えた対話や文書データを用い、これらのデータから得られる意味処理タイミング前後に発話された語の品詞情報等の言語的特徴、発話された語のパワーやピッチ等の音響的特徴、音声認識結果、及びユーザーのうなずきや視線等の画像情報に基づいて、学習を行なうことによってモデル化することができる。

このように学習された意味処理単位モデルを用いて意味処理タイミングを判定するには、意味処理単位モデルの他に、学習の際に用いた物理量、すなわち、言語的特徴、音響的特徴、音声認識結果、及び画像情報を用いて判定することができる。

応答単位モデルは、意味処理単位モデルと同様に、応答単位の情報を備えた対話や文書データを用い、これらのデータから得られる応答タイミング前後に発話された語の品詞情報等の言語的特徴、発話された語のパワーやピッチ等の音響的特徴、音声認識結果、及びユーザーのうなずきや視線等の画像情報に基づいて、学習を行なうことによってモデル化することができる。

学習された応答単位モデルを用いて応答タイミングを判定するには、応答単位モデルの他に、学習の際に用いた物理量、すなわち、言語的特徴、音響的特徴、音声認識結果、及び画像情報を用いて判定することができる。

このように、意味処理単位モデル及び応答単位モデルの両方のモデルを用いることにより、より精度よく、意味処理タイミング及び応答タイミングの両方を判定することができる。

また、応答単位と意味処理単位とを各々モデル化して、意味処理タイミングと応答タイミングとを各々判定することで、翻訳や検索等の意味処理をシステム内部で実行しながらユーザーとの対話を円滑に進行することが可能となる。

応答タイミングは、ユーザから対話主導権を奪ってユーザを聞き手にさせるのに最適なタイミングであり、相槌以外の応答をすべきタイミングである。応答タイミングは、音声認識手段の認識結果、画像特徴量抽出手段により抽出された画像特徴量、抽出手段によって抽出された音響的特徴、抽出手段によって抽出された言語的特徴、及び応答単位モデルに基づいて判定される。なお、応答タイミング判定手段は、ユーザの発話中の無音区間について、応答タイミングであるか否かを判定してもよい。

以上説明したように本発明によれば、意味処理単位でかつ応答単位であると判定された場合のみ意味処理結果を反映させて音声応答しているので、違和感の無い音声応答を行なうことができる、という効果が得られる。

［第１の実施の形態］
以下、図面を参照して本発明の第１の実施の形態を詳細に説明する。本実施の形態には、図１に示すように、発話者であるユーザの顔部分を撮影するカメラ１０、及び発話者の音声を入力するためのマイク１２が設けられている。

カメラ１０は、カメラ１０から出力される画像信号から発話者の視線の時系列変化を抽出し、視線の時系列情報を画像情報として出力する視線抽出部１４を介して処理単位判定部１６に接続されている。

マイク１２は、マイク１２から出力される音声データから発話された語の音響的特徴である発話のピッチを抽出し、ピッチの時系列情報を出力するピッチ抽出部１８を介して処理単位判定部１６に接続されている。また、マイク１２は、マイク１２から出力される音声データに基づいて、認識用辞書が記憶された記憶装置２２を用いて音声認識を行ない、音声認識の結果を文字列として出力する音声認識部２０、及び音声認識部２０の音声認識結果に基づいて係り受け解析を行なう係り受け解析部２４を介して処理単位判定部１６に接続されている。この係り受け解析部２４は、言語的特徴である係り受け情報を出力する。

処理単位判定部１６には、学習により生成された応答単位モデルを記憶した記憶装置２６、及び学習により生成された意味処理単位モデルを記憶した記憶装置２８が接続されている。処理単位判定部１６は、後述するように、視線の時系列情報、ピッチの時系列情報、音声認識結果、及び係り受け情報等の発話者の音声から得られる情報と、意味処理単位及び応答単位の各モデルとに基づいて、意味処理単位及び応答単位の判定を行う。

処理単位判定部１６は、処理単位判定部１６の意味処理単位及び応答単位の判定結果に基づいて、意味処理としてのデータベース検索処理や応答生成を行う動作制御部３０に接続されている。動作制御部３０には、応答用コーパスを記憶した記憶装置３４が接続された応答生成部３２、及び検索用のデータベース３８が接続された検索部３６が接続されると共に、検索や応答の結果を報知するスピーカ４０及びディスプレイ４２が接続されている。

次に、応答単位モデル及び意味処理単位モデルのモデル化の方法について説明する。このモデル化では、図２に示すように、記憶装置２６及び記憶装置２８の各々に、学習器４４及び学習器４６を接続し、学習器４４及び学習器４６の学習によって得られた結果を記憶装置２６及び２８の各々にモデルとして記憶する。

図３（１）の正例に示した「大人の雰囲気の＜Ｐ＞静かなバーをお願いします＜Ｐ＞あとは〜＜Ｐ＞おつまみがおしゃれな所＜Ｐ＞がいいですね＜Ｐ＞」という発話について、ある地点が応答単位もしくは意味処理単位であるかどうかをモデル化することを例に、モデル化の方法を説明する。
（１）ステップ１
まず、最初のステップ１では、図４に示すように、応答単位の情報及び意味処理単位の情報を備えた発話について、モデル化する地点の前後に直前Ｎ個及び直後ｎ個の窓（ウインド）を設けて、形態素単位に区切られた単語列を抽出する。図４は「大人の雰囲気の」の直後が応答単位もしくは意味処理単位であるかどうかをモデル化する場合を示すものである。窓幅は任意に定めることができるが、本実施の形態の窓では、直前4個、直後1個の単語が含まれる大きさとした。
（２）ステップ２
ステップ２では、ステップ１で、窓枠を設けた各範囲に対して、特徴量をベクトルデータに変換する。本実施の形態では、形態素情報や係り受け情報等の言語的特徴、ピッチの時系列情報等の音響的特徴、及び視線の時系列情報等の画像情報を特徴として用い、これらの全ての特徴に対して特徴量である一意のベクトル値を割り当てる。

図４に示すように「大人の雰囲気の」の直後をモデル化する場合には、破線内の各特徴の各々に対して、例えば、名詞＝−1、助詞＝−2、・・・、修飾する＝9のように、一意のベクトル値を与える。

次に、これらのベクトル値の線形結合に対して、予め与えられた応答単位及び意味処理単位の正解データが区切りであれば＋1、つなぎであれば−1のベクトルデータを割り当てる。ここで、区切りとは応答単位や意味処理単位であることを表し、つなぎとは応答単位や意味処理単位でないことを表す。

すなわち、これらの線形結合に対して、応答単位のモデルを作成する場合には、応答単位であるとき＋1、応答単位でない時−1のベクトルデータを与える。また、意味処理単位のモデルを作成する場合にも同様に、意味処理単位であるとき＋1、意味処理単位でない時−1のベクトルデータを与える。

ここでは「大人の雰囲気の」の直後をモデル化する例のみを示したが、窓を図の右方にずらすことで全ての形態素についてベクトルデータを作成し、これを学習データとしてモデル化する。
（３）ステップ３
ステップ３では、全学習データに対して学習器４４及び学習器４６でモデルを作成する。すなわち、上記ステップ２で作成した学習データに対して、応答単位と意味処理単位の各モデルを各々作成する。

この問題は、＋または−の2値判別問題であるので、学習識別手法として、例えば、サポートベクターマシン（Support Vector Machine，SVM）を用いることができる。SVMは、パターンの識別手法の１つであり、ある特徴ベクトル空間に対して適切な識別面を決定することができる学習器である。ｌ個の学習データに対し、任意のベクトルデータｉの正解値をｙi、特徴ベクトルをｘiとすると、この学習器は、下記の制約条件の下で下記（１）式のｆ（α）を最大化する。

ここで、Ｋは任意の核関数（Ｋｅｒｎｅｌ関数）である。また。モデルは、α（≠０）、このαに対応するｘ、ｙ、及び以下の（２）式で得られるｂとして求めることができる。

なお、SVMに関する詳細は、文献（「痛快！サポートベクトルマシン」、前田英作、情報処理42巻7号、pp.676−663,2001年7月）等に記載されている。

次に、本実施の形態の音声対話システムを用いて、データベース３８に記憶された飲食店のデータから目的の店を検索する音声対話システム全体の動作ロジックを図５に示すフローチャートを参照して説明する。この音声対話システムは、車両に搭載することができる。

図５に示す動作ロジックの処理が開始されると、ステップ１００で初期化処理が実行され、ステップ１０２においてスピーカー４０から「検索条件を言ってください。」という音声が提示され、それと同時に図６に示す初期画面がディスプレイ４２に表示される。この初期画面には、「マイクに向かって、検索条件をお話ください。」というユーザへの動作指示、ユーザーの検索要求の表示ウインド、及びユーザーの検索結果の表示ウインドウが表示され、各ウインドウには、処理の進行に従ってユーザーへの動作指示、ユーザーの検索要求、及びデータベースの検索結果等の動作の詳細が表示される。

マイク１２から音声データが入力されると、ステップ１０４において、記憶装置２２に記憶されている認識用辞書を用いて音声認識部２０によって、スピーカからの音声提示に応じてユーザから発話された音声の音声認識が行なわれる。また、音声データからピッチ抽出器１８により発話のピッチが時系列で抽出され、カメラの画像データから視線抽出器１４により発話者の視線が時系列で抽出される。音声認識結果より得られた文字列データは、係り受け解析器２４に入力され、各文字について係り受け情報が求められる。

音声認識結果、ピッチの時系列情報、視線の時系列情報、係り受け情報は、処理単位判定部１６に入力され、ステップ１０６で処理単位判定部１６によって各モデルに基づいて、検索要求を理解するための意味処理単位（検索要求単位）及び応答単位の処理単位判定、すなわち意味処理タイミング及び応答タイミングの判定を以下のように行う。
（１）ステップ１
ステップ１では、判別する地点の前後に窓を設けて判別する箇所の前後の単語を抽出する。ここで使用する窓は、抽出する単語の個数がモデル化の際の個数と同一になる窓を使用する。
（２）ステップ２
ステップ２では、与えられた線形ベクトルの値をSVMで計算する。すなわち、ステップ１で得られた範囲のデータを学習時と同様に特徴ベクトルデータｘに変換し、学習時に得られたパラメータを用いて、下記（３）式に基づいてＣを求める。

（３）ステップ３
ステップ３では、計算されたＣの値により区切りか、つなぎかを判定する。すなわち、ステップ２で計算されたＣの値が正であれば応答単位や意味処理単位の区切りを表し、負であれば応答単位や意味処理単位のつなぎを表すと判断する。

ステップ１１０で、意味処理単位であり、かつ応答単位であると判定されたか否か、すなわち意味処理タイミングでかつ応答タイミングであるかを判断し、意味処理単位であり、かつ、応答単位であると判定された場合には、ステップ１１２において意味処理の結果得られた検索キーを音声と画像とでユーザーに提示する。

次のステップ１１４では、処理単位判定部１６の処理単位判定結果に従って、動作制御部３０によってデータベースの検索と応答生成とを実行する。データベース検索は、データベース３８に記憶された飲食店のデータに基づいて行なわれ、応答は、応答生成部３２により記憶装置３４に予め記憶された応答用コーパスに基づいて生成される。

データベース検索及び応答の生成が終了すると、検索及び応答の結果は、スピーカー４０から音声で報知されると共にディスプレイ４２に画像で表示される。

ユーザーが「大人、の、雰囲気、の、バー、が、いい、かな、あと、〈ポーズ〉、できれば、駅の、近く、〈ポーズ〉、」と発話し、この入力の処理単位判定結果がステップ１１０で意味処理単位でかつ応答単位である、と判定された場合には、「“大人の雰囲気のバー”と“できれば駅の近く”という条件で検索します。」とスピーカ４０から音声提示すると共に、ディスプレイに表示された検索要求のウインドウの未確認の欄に図７に示すように「大人の雰囲気のバー」と「できれば駅の近く」という検索キーワードを表示する。

また、データベースでの検索結果は、スピーカから「２件、バーAとパブBが見つかりました。」と音声提示すると共に、図８に示すように、ディスプレイのウインドウに「件数：２件詳細：１件目バーA ２件目パブB」のように表示する。

したがって、意味処理単位であり、かつ、応答単位であると判定された場合には、意味処理の結果得られた検索要求の結果を反映させて音声で応答される。

一方、ステップ１１０で意味処理単位でかつ応答単位でないと判定された場合には、ステップ１１８において意味処理単位（検索要求単位）か否かを判断し、検索要求単位であると判断されたときは、ステップ１２２で検索キーワードをディスプレイに表示すると共に、ステップ１２４でデータベースを用いて検索し、ステップ１２６で検索結果をディスプレイに表示する。すなわち、意味処理単位でかつ応答単位でないと判断されたときは、音声で報知することなく表示のみによってユーザーに検索キー及び検索結果が提示され、次の入力を待つ処理を行なう。具体的には、ユーザーが「大人、の、雰囲気、の、バー、が、いい、かな、あと、〈ポーズ〉、できれば、駅の、近く、が、いい、です。」と発話し、この入力の処理単位判定結果が意味処理単位であるが応答単位ではないを判定された場合には、スピーカーからの音声による応答を行なうことなく、画像のみで検索キーワードを提示してデータベース検索を行う。検索結果は、図８のようにディスプレイに表示される。

また、ステップ１１８で検索要求単位で無いと判定され、かつステップ１２０で応答単位であると判定された場合、すなわち意味処理単位でないが応答単位であると判定された場合には、ステップ１２８でスピーカーから音声によってユーザに適切な応答を返し、次の入力を待つ処理を行なう。具体的には、ユーザーが「大人、の、雰囲気、の、バー、が、いい、かな、あと、〈ポーズ〉、」と発話し、処理単位判定結果が意味処理単位でないが応答単位であるであった場合には、「はい」などの相槌に相当する音声応答を行う。

ステップ１２０で応答単位でないと判定された場合、すなわち意味処理単位でも応答単位でもないと判定された場合には、検索や応答は行わずに次の入力を待つ。具体的には、ユーザーが「大人、の、雰囲気、の、」と発話し、処理単位判定結果が、意味処理利単位でも応答単位でもなかった場合には、ステップ１０４の音声認識処理に戻り、次の入力を待つ。

以上説明したように、本実施の形態では、意味処理単位でかつ応答単位であると判定された場合のみ検索結果を反映させて音声応答しているので、違和感の無い音声応答を行なうことができる、という効果が得られる。

図３に、本実施の形態を用いた場合の対話例と用いない場合の対話例とを比較して示す。ここで、括弧内の発話はユーザーの発話を、丸枠の吹き出しはシステムの応答を、角枠の吹き出しは意味単位処理状態を表す。また対話中の〈Ｐ〉は無音区間（ポーズ）を表す。

まず、本実施の形態を用いる場合には、システムの判定の結果、Ｕ１及びＵ２が応答単位、Ｓ１及びＳ２が意味処理単位と判定された場合には、応答単位とのみ判定されたＵ１とＵ２では、システムは相槌や検索内容の確認等の応答を返す。意味処理単位とのみ判定されたＳ1では、システムはデータベース検索のための検索キー作成等の内部処理を進める。一方、応答単位でかつ意味処理単位と判定されたＳ2では、データベース検索結果を反映させて応答する。

このように、応答を行うべき単位を判定することで、非常にスムーズな発話のやり取りが実現する。また、意味処理単位を判定することにより、ユーザーの要求を適切に反映した対話を実現している。さらに、これらを独立に判定することにより、ユーザーと自然な対話を実現しながらシステム内部で適切に検索処理を実行することを可能にしている。

一方、本実施の形態を用いない場合の対話例は、本実施の形態のように応答単位と意味処理単位とを個々に判定するのではなく、意味処理単位を行う単位が応答単位であるとしているため、ユーザーは本来伝えたかった「おつまみがおしゃれである」という要求を発話する前にシステムが検索を実行し検索結果を応答したことから、発話のやり取りが不自然になっている。また、ユーザーの要求を検索に適切に反映して検索できていない。

以上述べたとおり、応答単位を判定することにより、より自然な発話のやり取りを実現することが可能となる。また、意味処理単位を判定することにより、ユーザーの要求をより正確に反映した検索を行うことが可能となる。さらに、これらを組み合わせることで、適切な検索をシステム内部で実行しながら、ユーザーと自然な対話を実現することが可能となる。

本実施の形態では、応答と検索の処理単位との各々を判定し、システム動作を制御することで、より適切な内部処理を可能にしながら、ユーザーとの対話を自然に進めることが可能となる。

なお、上記では、音声認識結果、ピッチの時系列情報、視線の時系列情報、係り受け情報、及び応答単位モデルを用いて応答タイミングを判定する判定する例について説明したが、これらのいずれか１つを用いて応答タイミングを判定するようにしてもよい。また、音声認識結果、ピッチの時系列情報、視線の時系列情報、係り受け情報、及び意味処理単位モデルを用いて意味処理タイミングを判定する例について説明したが、これらのいずれか１つを用いて意味処理タイミングを判定するようにしてもよい。また、発話された語のパワーの時系列情報、及びユーザーのうなずきの時系列情報を更に用いて応答タイミングまたは意味処理タイミングを判定するようにしてもよい。

［第２の実施の形態］
つぎに、本発明の第２の実施形態について説明する。なお、第１の実施形態と同一の部位には同一の符号を付し、その詳細な説明は省略する。

図９は、第２の実施形態に係る音声対話システムの構成を示す図である。音声対話システムは、発話者であるユーザの音声を入力するマイク１２と、マイク１２からの音声データに基づいて、認識用辞書を用いて音声認識を行い、音声認識結果を文字列として出力する音声認識部２０Ａと、上記認識用辞書を記憶している認識用辞書記憶装置２２と、出力すべき発話を生成する発話生成部５０と、音声出力するスピーカ４０と、画像出力するディスプレイ４２と、を備えている。

音声認識部２０Ａは、第１の実施形態におけるピッチ抽出部１８、音声認識部２０、係り受け解析部２４の各機能を有している。つまり、音声認識部２０Ａは、音声データから形態素情報、係り受け及びピッチなどの特徴量を抽出し、認識用辞書を用いて文字列を生成し、これらを発話生成部５０に供給する。

発話生成部５０は、音声認識部２０Ａによる音声認識結果に対して言語処理（例えば、形態素情報の生成など）を行う言語処理部５１と、発話が終了したか否かを判定する終了発話判定部５２と、応答単位であるか否かを判定する応答単位判定部５３と、応答単位モデルを記憶する応答単位モデル記憶装置２６と、応答内容を生成する応答生成部５４と、相槌を生成する相槌生成部５５とを備えている。

終了発話判定部５２は、終了発話辞書を予め記憶しており、当該終了発話辞書を用いて、言語処理部５１で言語処理された文字列が終了発話か否かを判定する。

図１０は、終了発話判定部５２に記憶されている終了発話辞書を示す図である。終了発話とは、発話の最後に用いられる発話であり、例えば図１０に示すように、「またね」、「ばいばい」、「さようなら」、「じゃあね」、「おやすみ」、「終了」がある。終了発話辞書は、これらの様々な終了発話を有している。

応答単位判定部５３は、応答単位モデル記憶装置２６に記憶されている応答モデルを用いて、発話中の無音区間が応答タイミング（応答単位）であるか否かを判定する。応答タイミングとは、ユーザから対話主導権を奪ってユーザを聞き手にさせるのに最適なタイミングであり、相槌以外の応答をすべきタイミングである。応答単位は、応答タイミング間の単位をいい、ユーザから対話主導権を奪ってよいのかを判断するのに必要な最小限の意味情報を持っている。なお、応答単位判定部５３の構成については詳しくは後述する。

応答単位モデル記憶装置２６には、応答単位を表す応答単位モデルが記憶されている。応答単位モデルは、図４に示すように、応答タイミングの直前Ｎ個及び直後ｎ個の形態素に関する特徴量をモデル化したものであり、発話された語の品詞情報などの言語的特徴（本実施形態では、例えば、形態素情報単位モデル、係り受け単位モデル）、パワーやピッチなどの音響的特徴（本実施形態では、例えば、ピッチ単位モデル）からそれぞれ構成されている。

なお、第１の実施形態では、Ｎ＝３、ｎ＝１としたが、第２の実施形態では、Ｎ＝３、ｎ＝０とする。また、第２の実施形態では、視線の特徴量は用いていないが、第１の実施形態と同様に、ユーザの顔を撮像するカメラがある場合、うなずきや視線などの画像特徴を応答単位モデルとして用いてもよい。

応答生成部５４は、応答単位判定部５３により無音区間が応答タイミングであると判定されたときに、相槌以外の応答を生成する。また、応答生成部５４は、終了応答辞書を記憶しており、終了発話判定部５２によって終了発話が判定されたときに、所定の応答を行う。

図１１は、終了応答辞書を示す図である。終了応答辞書は、ユーザとの対話終了時にユーザに対して発話する用語を示したものであり、例えば、「またね」、「ばいばい」、「お話を聞かせてくれてありがとう。またね。」、「お話を聞かせてくれてありがとう。また話そうね。」などがある。

相槌生成部５５は、応答単位判定部５３により無音区間が応答タイミングでないと判定されたときに、「うん」、「はい」などの相槌を生成する。このようにして生成された応答や相槌は、スピーカ４０を介して音声出力されたり、ディスプレイ４２を介して画像出力される。

以上のように構成された音声対話システムは、音声が入力されると、次のような処理を実行する。

図１２は、第２の実施形態に係る音声対話処理ルーチンを示すフローチャートである。音声対話システムは、図示しないスイッチが押圧されると、初期化を実行して（ステップ２００）、ユーザが発話するまで待機する。ここでは、ユーザは、「すごく行列だったけど（無音区間）そんなに待たなくて（無音区間）よかったよ（無音区間）」と発話したとする。

音声認識部２０Ａは、ユーザの発話を認識する（ステップ２０２）。このとき音声認識部２０Ａによって認識された文字列は、発話生成部５０の言語処理部５１で言語処理される。

終了発話判定部５２は、音声認識の結果得られた文字列に対して、終了発話辞書を用いて終了発話判定を行い（ステップ２０４）、上記文字列が終了発話であるか否かを判定する（ステップ２０６）。終了発話であると判定したときはステップ２２０に進み、終了発話でないと判定したときはステップ２０８に進む。

応答単位判定部５３は、音声認識部２０で抽出された特徴量や言語処理部５１で得られた形態素情報と、応答単位モデル記憶装置２６に記憶された各応答単位モデルとを用いて応答単位の判定を行い（ステップ２０８）、無音区間が応答タイミングであるか否かを判定する（ステップ２１０）。ユーザが上記のように「すごく行列だったけど（無音区間）そんなに待たなくて（無音区間）よかったよ（無音区間）」と発話をした場合、応答単位判定部５３は次の処理を行う。

図１３は、応答単位判定の一例を説明する図であり、（Ａ）は最初の無音区間を判別箇所ｔ１とした場合、（Ｂ）は２番目の無音区間を判別箇所ｔ２とした場合、（Ｃ）は最後の無音区間を判別箇所ｔ３とした場合である。

応答単位判定部５３は、３箇所の無音区間をそれぞれ判別箇所ｔ１、ｔ２、ｔ３とし、これらの判別箇所が応答単位であるか否かを判定する。応答単位判定部５３は、最初に、判別箇所ｔ１について、当該判別箇所ｔ１の直前にある例えば３個の形態素のｎグラムモデルと、応答単位モデルとを比較して、応答単位か判別する。

そして、応答単位でないときはステップ２１６に進み、応答単位であるときはステップ２１２に進む。再びステップ２１０に戻ると、応答単位判定部５３は次に判別箇所ｔ２について判定する。さらに、再びステップ２１０に戻ると、応答単位判定部５３は最後に判別箇所ｔ３について判定する。なお、本実施形態では、判別箇所ｔ３が応答単位と判別されたものとする。

応答生成部５４は、無音区間が応答単位であると判定されたときに、音声認識結果の意味内容に応じて応答発話を生成し（ステップ２１２）、この応答発話を、スピーカ４０を介して音声出力する（ステップ２１４）。応答発話としては、例えば、ユーザがポジティブな発話をした場合は「いいな」、「すごい」など、ユーザがネガティブな発話をした場合は「残念だね」、「がんばって」などがある。なお、応答内容は、相槌以外であり、かつ音声認識結果の意味内容を反映したものであれば、特に限定されない。そして、ステップ２１４が終了すると、ステップ２０２に戻る。

一方、相槌生成部５５は、無音区間が応答単位ではないと判定されたときに、相槌発話を生成し（ステップ２１６）、この相槌発話を、スピーカ４０を介して音声出力する（ステップ２１８）。これにより、例えば判別箇所ｔ１、ｔ２において、「はい」、「うん」などの相槌が出力される。なお、相槌生成部５５は、相槌の代わりに、ユーザの発話に含まれていたキーワードを出力してもよい。

そして、ステップ２１８が終了すると、ステップ２０２に戻る。このように、ユーザが終了発話を発するまで、ステップ２０２からステップ２１８までの処理が繰り返し実行される。

また、応答単位判定部５３により応答単位であると判定されると（ステップ２０６の肯定判定）、応答生成部５４は、図１１に示す終了応答辞書を参照して、これらの中からランダムに用語を選択し、選択した用語（例えば「ばいばい」）を、スピーカ４０を介して音声出力する。

従来、ユーザが例えば「すごく行列だったけど（無音区間）そんなに待たなくて（無音区間）よかったよ（無音区間）」とシステムに発話をした場合、ユーザとシステムの対話は、
ユーザ：「すごく行列だったけど（無音区間）」
システム：「えー最悪だね」
ユーザ：「そんなに待たなくて（無音区間）」
システム：「いいね」
ユーザ：「よかったよ（無音区間）」
システム：「へーよかったね」
となり、テンポの悪い対話になっていた。

これに対して、ユーザが上記のように本実施形態に係る音声対話システムに発話をした場合、ユーザとシステムの対話は、
ユーザ：「すごく行列だったけど（無音区間）」
システム：「うん」
ユーザ：「そんなに待たなくて（無音区間）」
システム：「うん」
ユーザ：「よかったよ（無音区間）」
システム：「へーよかったね」
となり、テンポのよい対話が成立する。

以上のように、第２の実施形態に係る音声対話システムは、ユーザの発話に含まれている複数の無音区間から応答タイミング（応答単位）を判定し、応答タイミングのときに応答することにより、ユーザの発話を妨げることなく、ユーザにユーザ自身の伝えたい意図を最後まで発話させることができる。

また、上記音声対話システムは、応答タイミングでないときに相槌することにより、適切なタイミングで相槌することができる。これにより、テンポのよい発話のやり取りが生まれ、自然な対話を実現することができる。また、ユーザは、発話途中であっても、音声対話システムからの相槌を聞くことで、音声対話システムが発話を理解していると考えるので、安心して発話を続けることができる。

［第３の実施の形態］
つぎに、本発明の第３の実施形態について説明する。なお、上述した実施形態と同一の部位には同一の符号を付し、その詳細な説明は省略する。

図１４は、第３の実施形態に係る音声対話システムの構成を示す図である。音声対話システムは、発話者であるユーザの音声を入力するマイク１２と、マイク１２からの音声データに基づいて、認識用辞書及び感情語辞書を用いて音声認識を行い、音声認識結果を文字列として出力する音声認識部２０Ｂと、認識用辞書を記憶している認識用辞書記憶装置２２と、感情語辞書を記憶している感情語辞書記憶装置２３と、出力すべき発話を生成する発話生成部５０Ａと、非言語の応答を生成する非言語応答生成部６０と、インタフェースロボット７０と、を備えている。

音声認識部２０Ｂは、第２の実施形態で示した機能を実行することができ、さらに、感情語辞書を参照して、認識した文字列がどのような感情語であるかを判定することができる。

図１５は、感情語辞書記憶装置２３に記憶されている感情語辞書を示す図である。感情語辞書は、認識された文字列がポジティブ、ネガティブ、ニュートラルのいずれの感情語であるかを判定するときに用いられる。例えば、おいしい、明るい、本格的な味、待たない、回転が速い、よい等は、ポジティブな感情語に該当する。人が多い、待つ、行列は、ネガティブな感情語に該当する。そして、上記以外のものはニュートラルな感情語に該当する。なお、これらの用語は例示であり、感情語辞書は図１４の構成に限定されるものではない。

発話生成部５０Ａは、音声認識部２０Ｂによる音声認識結果に対して言語処理を行う言語処理部５１と、発話が終了したか否かを判定する終了発話判定部５２と、応答単位であるか否かを判定する応答単位判定部５３と、応答単位モデルを記憶する応答単位モデル記憶装置２６と、感情を込めた応答内容を生成する応答生成部５４Ａと、感情を込めた相槌を生成する相槌生成部５５Ａと、感情処理を行う感情処理部５６と、を備えている。

感情処理部５６は、音声認識部２０Ｂで判別された感情語を用いて、１つの応答単位について１つの感情表現を算出する。感情表現の算出ルールは、以下の通りである。
（１）１つの応答単位の中で矛盾した感情語が複数存在する場合は後半の節の感情語を優先する。
（２）同じ節の中で感情語が矛盾した場合は、述語の感情語を優先する。
（３）上記の（１）及び（２）を適用してもなおポジティブ／ネガティブの判定が矛盾する場合は、ニュートラルと判定する。

応答生成部５４Ａは、応答単位判定部５３により無音区間が応答タイミングであると判定されたときに、次の感情表現−応答対応テーブルを参照して、感情処理部５６で算出された感情表現に対応する応答を生成する。

図１６は、応答生成部５４Ａに記憶されている感情表現−応答対応表を示す図である。感情表現−応答対応表では、ポジティブな感情に対して、「へーすごい」、「よかったね」、「いいなぁ」の応答が対応付けられている。ネガティブな感情に対して、「げー最悪だね」、「そりゃひどいね」、「何それ最低」の応答が対応付けられている。ニュートラルな感情に対して、「それでそれで？」の応答が対応付けられている。

相槌生成部５５Ａは、応答単位判定部５３により無音区間が応答タイミングでないと判定されたときに、次の感情表現−相槌対応テーブルを参照して、感情処理部５６で算出された感情表現に対応する相槌を生成する。

図１７は、相槌生成部５５に記憶されている感情表現−相槌対応表を示す図である。感情表現−相槌対応表では、ポジティブな感情に対して、「ほぅほぅ」、「うんうん」の相槌が対応付けられている。ネガティブな感情に対して、「げ」、「あらら」、「うわー」の相槌が対応付けられている。ニュートラルな感情に対して、「うん」の相槌が対応付けられている。

このようにして生成された応答や相槌は、インタフェースロボット７０内の図示しないスピーカを介して音声出力される。

非言語応答生成部６０は、感情処理部５６で算出された感情表現に対応する応答又は相槌をするようにインタフェースロボット７０を制御する。具体的には、非言語応答生成部６０は、状況−動作ＩＤ対応表を参照して感情表現に対応する動作ＩＤを選択し、そして、動作ＩＤ−動作対応表を参照して動作ＩＤが示す動作を実行するようにインタフェースロボット７０を制御する。

図１８は、非言語応答生成部６０に記憶されている状況−動作ＩＤ対応表を示す図である。状況−動作ＩＤ対応表は、初期化、ポジティブ応答、ネガティブ応答、ニュートラル応答、ポジティブ相槌、ネガティブ相槌、ニュートラル相槌、終了応答にそれぞれ対応する動作ＩＤを表している。

状況−動作ＩＤ対応表の「状況」は、初期化及び終了応答を除いて、応答単位判定部５３及び感情処理部５６の判定結果によって決定される。例えば、ポジティブ応答は、感情表現がポジティブであり、かつ応答タイミングと判定されたときの状況をいう。ネガティブ相槌は、感情表現がネガティブであり、かつ応答タイミングでないと判定されたときの状況をいう。

また、状況−動作ＩＤ対応表において、複数の動作ＩＤが“ｏｒ”によって連結されているときは、ランダムに動作ＩＤが選択される。例えば、非言語応答生成部６０は、初期化時では動作ＩＤ１、２、３のいずれかをランダムに選択し、ポジティブ応答時では動作ＩＤ１及び４の組合せ、動作ＩＤ１及び５の組合せ、のいずれかの組合せをランダムに選択する。

図１９は、非言語応答生成部６０に記憶されている動作ＩＤ−動作対応表を示す図である。動作ＩＤ−動作対応表では、動作ＩＤ１〜１０のぞれぞれに、インタフェースロボット７０の動作が対応付けられている。

図２０は、第３の実施形態に係る音声対話処理ルーチンを示すフローチャートである。音声対話システムは、図示しないスイッチが押圧されると、初期化を実行して（ステップ３００）、ユーザが発話するまで待機する。ここでは、ユーザは、「すごく行列だったけど（無音区間）そんなに待たなくて（無音区間）よかったよ（無音区間）」と発話したとする。

音声認識部２０Ｂは、ユーザの発話を認識する（ステップ３０２）。音声認識部２０Ｂによって認識された文字列は、発話生成部５０Ａの言語処理部５１で言語処理される。

終了発話判定部５２は、言語処理済みの文字列に対して、終了発話辞書を用いて終了発話判定を行い（ステップ３０４）、上記文字列が終了発話であるか否かを判定する（ステップ３０６）。終了発話であると判定したときはステップ３１４に進み、終了発話でないと判定したときはステップ３０８に進む。

応答単位判定部５３は、音声認識部２０Ａで抽出された特徴量や言語処理部５１で得られた形態素情報と、応答単位モデル記憶装置２６に記憶された各応答単位モデルとを用いて応答単位の判定を行い、無音区間が応答タイミングであるか否かを判定する。また、感情処理部５６は、音声認識部２０Ｂで判別された感情語を用いて、１つの応答単位について、感情表現を算出する（ステップ３０８）。

図２１は、ユーザの発話から求められた応答単位及び感情語を示す図である。ユーザが上記のような発話をした場合、応答単位判定部５３は、応答単位として「すごく行列だったけどそんなに待たなくてよかったよ」を求める。この応答単位では、「行列」に対応する感情語は「ネガティブ」、「待たない（なく）」に対応する感情語は「ポジティブ」、「よい（よかっ）」に対応する感情語は「ポジティブ」である。

そこで、感情処理部５６は、上述した感情表現の算出ルールに従って、上記応答単位について感情表現を算出する。ここでは、算出ルール（１）が適用され、上記応答単位の感情表現として「ポジティブ」が算出される。

非言語応答生成部６０は、感情処理部５６で算出された感情表現に対応する非言語応答を生成する（ステップ３１０）。具体的には、非言語応答生成部６０は、応答単位判定部５３及び感情処理部５６の判定結果に基づいて「状況」を判定し、図１８に示す状況−動作ＩＤ対応表を参照して、現在の状況に対応する動作ＩＤを選択する。このとき、応答生成部５４Ａ又は相槌生成部５５Ａは、言語応答するための応答又は相槌を生成してもよい。

例えば、応答生成部５４Ａは、無音区間が応答タイミングであると判定されたときに、感情表現−応答対応テーブルを参照して、感情処理部５６で算出された感情表現に対応する応答を生成すればよい。また、相槌生成部５５Ａは、無音区間が応答タイミングでないと判定されたときに、感情表現−相槌対応テーブルを参照して、感情処理部５６で算出された感情表現に対応する相槌を生成すればよい。

非言語応答生成部６０は、選択した動作ＩＤに対応する動作を行うようにインタフェースロボット７０を制御することで、非言語応答又は非言語相槌をインタフェースロボット７０に行わせる（ステップ３１２）。また、インタフェースロボット７０に設けられた図示しないスピーカは、応答生成部５４Ａで生成された応答又は相槌生成部５５Ａで生成された相槌の音声を出力してもよい。そして、ステップ３１２からステップ３０２に戻る。

一方、ステップ３０６で肯定判定の場合、非言語応答生成部６０は、動作ＩＤ１０を選択し、お辞儀をするようにインタフェースロボット７０を制御して、終了応答を行う。

以上のように、第３の実施形態に係る音声対話システムは、ユーザの発話に含まれている複数の無音区間から応答タイミング（応答単位）を判定し、応答タイミングのときにインタフェースロボット７０に応答動作をさせることにより、ユーザの発話を妨げることなく、ユーザにユーザ自身の伝えたい意図を最後まで発話させることができる。

また、上記音声対話システムは、応答タイミングでないときにインタフェースロボット７０に相槌動作をさせることにより、適切なタイミングで相槌することができる。これにより、テンポのよい発話のやり取りが生まれ、自然な対話を実現することができる。また、ユーザは、発話途中であっても、インタフェースロボット７０が相槌動作をすることで、音声対話システムが発話を理解していると考えるので、安心して発話を続けることができる。

特に、上記音声対話システムは、言語以外の情報を用いてインタフェースロボット７０に応答や相槌をさせることによって、ユーザの発話を妨げることなく、対話することができる。

なお、本実施形態では、音声対話システムは、言語及び非言語の両方を用いて応答や相槌を行ったが、言語、非言語のいずれか一方だけを用いてもよい。

［応答単位判定部５３の構成］
応答単位判定部５３の詳細な構成について説明する。応答単位判定部５３は、形態素情報、係り受け、ピッチに基づいて、無音区間が応答タイミングであるか否かを判定する。

図２２は、応答単位判定部５３の構成を示すブロック図である。応答単位判定部５３は、様々な特徴量毎に無音区間が応答タイミングであるかを判定する判定器７１、７２、７３と、判定器７１、７２、７３の各々の判定結果から総合的に応答タイミングであるか否かを判定する判定器７４とを備えている。

応答単位モデル記憶装置２６は、応答単位モデルとして、形態素情報単位モデル、係り受け単位モデル、ピッチ単位モデルを記憶している。形態素情報単位モデル、係り受け単位モデル、ピッチ単位モデルは、学習器８０が学習データ（形態素情報、係り受け、ピッチの正解値）を用いて学習することによって、生成されたものである。なお、各モデルの生成方法は、第１の実施形態において説明した通りである。

判定器７１は、形態素情報と形態素モデルとに基づいて、無音区間が応答タイミングであるかを判定し、応答タイミングであるときは判定結果α₁＝“１”を出力し、応答タイミングでないときは判定結果α₁＝“−１”を出力する。

判定器７２は、特徴量として音声認識部２０Ｂから供給された係り受け情報と係り受けモデルとに基づいて、無音区間が応答タイミングであるかを判定し、応答タイミングであるときは判定結果α₂＝“１”を出力し、応答タイミングでないときは判定結果α₂＝“−１”を出力する。

判定器７３は、特徴量として音声認識部２０Ｂから供給されたピッチ情報とピッチモデルとに基づいて、無音区間が応答タイミングであるかを判定し、応答タイミングであるときは判定結果α₃＝“１” を出力し、応答タイミングでないときは判定結果α₃＝“−１”を出力する。

判定器７４は、判定器７１、７２，７３の各々の判定結果と、各判定結果の信頼度Ｃ₁、Ｃ₂、Ｃ₃とに基づいて、無音区間が応答タイミングであるかを総合的に判定する。なお、信頼度Ｃ_i（ｉ＝１、２、３）は、０以上１以下であるとする。具体的には、判定器７４は、次の（４）式の演算を行う。

判定器７４は、（４）式の演算結果の符号を判定し、符号が正であるときは応答タイミングであると判定し、符号が負であるときは応答タイミングでないと判定する。なお、判定器７４は、第１の実施形態と同様に、（４）式の代わりに（３）式を演算し、求められたＣの値が正であれば応答タイミングであると判定し、負の値であれば応答タイミングでない（つなぎ）と判定してもよい。

以上の説明では、ｉが１から３までの場合を例に挙げたが、応答単位判定部５３の構成はこれに限定されるものではない。すなわち、特徴量がｘ個ある場合は、ｉは１からｘまでとなり、各特徴量を判定する判定器をｘ個設ければよい。

［モデルの学習方法］
第１の実施の形態では、学習器は、形態素情報、係り受け、ピッチなどの特徴量列の正解値を学習した結果、形態素情報、係り受け、ピッチなどの各モデルを生成する。つまり、学習器で使用される学習データは、特徴量列の正解値である。

一方、判定器である応答単位判定部５３は、特徴量抽出器で抽出された形態素情報、係り受け、ピッチなどの特徴量と、上記の各々のモデルとに基づいて、応答タイミングであるかを判定する。しかし、特徴量抽出器で抽出された形態素情報、係り受け、ピッチなどの特徴量は、抽出誤りを含んだものである一方、各モデルは抽出誤りを含んでいない。このため、応答タイミングの判定結果の精度が低下することがある。

図２３は、第２及び第３の実施形態におけるモデルの学習方法を示す図である。学習器８０で使用される学習データは、特徴量抽出器８１で抽出された形態素情報、係り受け、ピッチなどであり、抽出誤りを含んでいる。したがって、学習器８０は、このような学習データを用いて学習するので、抽出誤りを含んだモデルを生成する。

そして、判定器である応答単位判定部５３は、特徴量抽出器で抽出された形態素情報、係り受け、ピッチなどの特徴量列と、上記モデルとに基づいて、応答タイミングであるかを判定して、判定結果を出力する。このため、精度のよい判定結果を得ることができる。

本発明は、上述した実施形態に限定されるものではなく、例えば特許請求の範囲に記載された事項の範囲内で設計変更されたものについても適用可能である。

例えば、コンピュータに音声対話プログラムがインストールされた場合、そのコンピュータが、上述した第１乃至第３の実施形態で説明した処理を実行してもよい。また、音声対話プログラムは、光ディスクや磁気ディスク等の記録媒体に記録されたものでもよいし、ＬＡＮやインターネット等の回線を通じて伝送されたものでもよい。

また、第２及び第３の実施形態では、音声データにより得られた特徴量及び応答単位モデルを用いたが、第１の実施形態と同様に、画像データにより得られた画像特徴量及び応答単位モデルを更に用いてもよい。

本発明の実施の形態の音声対話システムのブロック図である。応答単位モデル及び意味処理単位モデルを学習状態を説明するがめのブロック図である。本実施の形態のシステムの応答タイミングと従来の応答タイミングとを比較して示す説明図である。応答単位モデル及び意味処理単位モデルのモデル化を説明するための説明図である。本発明の実施の形態の音声対話システム全体の処理を示すフローチャートである。初期状態の提示画面を示す平面図である。検索要求単位でかつ応答要求単位でないときの提示画面を示す平面図である。検索要求単位でかつ応答要求単位のときの提示画面を示す平面図である。第２の実施形態に係る音声対話システムの構成を示す図である。終了発話判定部に記憶されている終了発話辞書を示す図である。終了応答辞書を示す図である。第２の実施形態に係る音声対話処理ルーチンを示すフローチャートである。応答単位判定の一例を説明する図であり、（Ａ）は最初の無音区間を判別箇所ｔ１とした場合、（Ｂ）は２番目の無音区間を判別箇所ｔ２とした場合、（Ｃ）は最後の無音区間を判別箇所ｔ３とした場合である。第３の実施形態に係る音声対話システムの構成を示す図である。感情語辞書記憶装置に記憶されている感情語辞書を示す図である。応答生成部に記憶されている感情表現−応答対応表を示す図である。相槌生成部に記憶されている感情表現−相槌対応表を示す図である。非言語応答生成部に記憶されている状況−動作ＩＤ対応表を示す図である。非言語応答生成部に記憶されている動作ＩＤ−動作対応表を示す図である。第３の実施形態に係る音声対話処理ルーチンを示すフローチャートである。ユーザの発話から求められた応答単位及び感情語を示す図である。応答単位判定部の構成を示すブロック図である。第２及び第３の実施形態におけるモデルの学習方法を示す図である。

符号の説明

１０カメラ
１２マイク
１６処理単位判定部
２６応答単位モデルを記憶した記憶装置
２８意味処理単位モデルを記憶した記憶装置
５０、５０Ａ発話生成部
５３応答単位判定部
５４、５４Ａ応答生成部
５５、５５Ａ相槌生成部
６０非言語応答生成部
７０インタフェースロボット

Claims

発話中のユーザーの画像情報を抽出する抽出手段と、
ユーザーから発話された音声の音響的特徴を抽出する抽出手段と、
ユーザーから発話された音声を認識する音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、ユーザーから発話された音声の言語的特徴を抽出する抽出手段と、
前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、意味処理単位であるか否かを表わすデータとに基づいて予め生成された、意味処理を行う単位を統計的にモデル化した意味処理単位モデルを記憶した意味処理単位モデル記憶手段と、
前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、応答単位であるか否かを表わすデータとに基づいて予め生成された、対話中の一方の話者が応答を行う応答タイミングを統計的にモデル化した応答単位モデルを記憶した応答単位モデル記憶手段と、
前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記意味処理単位モデルに基づいて、意味処理タイミングを判定し、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記応答単位モデルに基づいて、応答タイミングを判定する判定手段と、
前記音声認識手段の認識結果に基づいて、前記意味処理タイミングで意味処理単位の意味処理を行う処理手段と、
意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答する応答手段と、
を含む音声対話システム。
前記抽出手段は、前記画像情報として、視線の時系列情報を抽出する請求項１記載の音声対話システム。
コンピュータを、
発話中のユーザーの画像情報を抽出する抽出手段、
ユーザーから発話された音声の音響的特徴を抽出する抽出手段、
ユーザーから発話された音声を認識する音声認識手段、
前記音声認識手段の音声認識結果に基づいて、ユーザーから発話された音声の言語的特徴を抽出する抽出手段、
前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、意味処理単位であるか否かを表わすデータとに基づいて予め生成された、意味処理を行う単位を統計的にモデル化した意味処理単位モデルを記憶した意味処理単位モデル記憶手段、
前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、応答単位であるか否かを表わすデータとに基づいて予め生成された、対話中の一方の話者が応答を行う応答タイミングを統計的にモデル化した応答単位モデルを記憶した応答単位モデル記憶手段、
前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記意味処理単位モデルに基づいて、意味処理タイミングを判定し、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記応答単位モデルに基づいて、応答タイミングを判定する判定手段、
前記音声認識手段の認識結果に基づいて、前記意味処理タイミングで意味処理単位の意味処理を行う処理手段、及び
意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答する応答手段
として機能させるための音声対話プログラム。