JP4729902B2 - 音声対話システム - Google Patents

音声対話システム Download PDF

Info

Publication number
JP4729902B2
JP4729902B2 JP2004319327A JP2004319327A JP4729902B2 JP 4729902 B2 JP4729902 B2 JP 4729902B2 JP 2004319327 A JP2004319327 A JP 2004319327A JP 2004319327 A JP2004319327 A JP 2004319327A JP 4729902 B2 JP4729902 B2 JP 4729902B2
Authority
JP
Japan
Prior art keywords
unit
response
semantic processing
timing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004319327A
Other languages
English (en)
Other versions
JP2005196134A (ja
Inventor
良子 徳久
立太 寺嶌
敏裕 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2004319327A priority Critical patent/JP4729902B2/ja
Publication of JP2005196134A publication Critical patent/JP2005196134A/ja
Application granted granted Critical
Publication of JP4729902B2 publication Critical patent/JP4729902B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、音声対話システムにかかり、特に、システム内での内部処理をより適切にしながらユーザーとの対話を自然に進めることが可能な音声対話システムに関する。
従来より、任意の入力単位で自由発話された入力音声を音声認識し、この音声認識の結果得られた文字列を、文の単位または文に相当する単位である言語処理単位に変換して出力する音声言語処理単位変換装置が知られている(例えば、特許文献1参照)。この音声言語処理単位変換装置では、音声認識により形態素単位に分割された文字列を入力し、言語処理単位らしさを予め学習した統計モデルと、経済的知識を予め抽出して作成した経験的規則とを用いて、ポーズ地点(無音区間)には読点を、言語処理単位には句点を付けて出力している。
この従来の技術は、翻訳を行うことを目的としたシステムであり、翻訳するために適切な意味のまとまりを言語処理単位(意味処理単位)とし、その意味処理単位のみを判定するものである。
特開平11−12609号公報
しかしながら、翻訳や検索等における意味処理単位と、ユーザーとの発話のやり取りをする応答単位とは異なっているため、上記従来の技術を音声対話システムに適用した場合、図3(2)の対話に対する適用結果(負例)に示すように、「大人の雰囲気の〈P〉静かなバーをお願いします〈P〉」(ただし、Pはポーズを表す。)の時点で言語処理単位(意味処理単位)の区切りS3と判定され、システムが「大人の雰囲気の静かなバーですね。」と応答する対話になることが予想される。すなわち、上記従来の技術を音声対話システムに適用する場合には、適切な応答タイミングで応答することができない、という問題がある。
本発明は、上記従来の問題点を解決するためになされたもので、システム内での内部処理をより適切にしながらユーザーとの対話を自然に進めることが可能な音声対話システムを提供することを目的とする。
上記目的を達成するために、本発明の音声対話システムは、発話中のユーザーの画像情報を抽出する抽出手段と、ユーザーから発話された音声の音響的特徴を抽出する抽出手段と、ユーザーから発話された音声を認識する音声認識手段と、前記音声認識手段の音声認識結果に基づいて、ユーザーから発話された音声の言語的特徴を抽出する抽出手段と、前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、意味処理単位であるか否かを表わすデータとに基づいて予め生成された、意味処理を行う単位を統計的にモデル化した意味処理単位モデルを記憶した意味処理単位モデル記憶手段と、前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、応答単位であるか否かを表わすデータとに基づいて予め生成された、対話中の一方の話者が応答を行う応答タイミングを統計的にモデル化した応答単位モデルを記憶した応答単位モデル記憶手段と、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記意味処理単位モデルに基づいて、意味処理タイミングを判定し、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記応答単位モデルに基づいて、応答タイミングを判定する判定手段と、前記音声認識手段の認識結果に基づいて、前記意味処理タイミングで意味処理単位の意味処理を行う処理手段と、意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答する応答手段と、を含んで構成されている。
本発明の意味処理単位は、データベース検索の検索要求を理解するための意味処理等のシステム内部の処理を行うタイミングから次の処理を行なうタイミングまでの発話区間を指すものである。
また、応答単位は、対話において一方の話者が他方の話者に対して応答したタイミングから次に応答するタイミングまでの発話区間を指すものである。
本発明では、意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答しているため、翻訳や検索等のシステム内での内部処理をより適切にしながらユーザーとの対話を自然に進めることができる。
本発明では、応答タイミングでありかつ意味処理タイミングでないと判定されたときに、意味処理を行なった内容を反映させることなく音声で応答することができる。これによって、応答タイミングのみのときに意味処理を行なった内容が反映されないため、応答タイミングのみに応じた適切な応答を行なうことができる。
また、本発明では、意味処理タイミングでありかつ応答タイミングでないと判定されたときに、音声での応答を停止することができる。これによって、不必要なタイミングにおいて音声で応答するのが防止される。
味処理単位モデルは、意味処理単位の情報を備えた対話や文書データを用い、これらのデータから得られる意味処理タイミング前後に発話された語の品詞情報等の言語的特徴、発話された語のパワーやピッチ等の音響的特徴、音声認識結果、及びユーザーのうなずきや視線等の画像情報に基づいて、学習を行なうことによってモデル化することができる。
このように学習された意味処理単位モデルを用いて意味処理タイミングを判定するには、意味処理単位モデルの他に、学習の際に用いた物理量、すなわち、言語的特徴、音響的特徴、音声認識結果、及び画像情報を用いて判定することができる。
答単位モデルは、意味処理単位モデルと同様に、応答単位の情報を備えた対話や文書データを用い、これらのデータから得られる応答タイミング前後に発話された語の品詞情報等の言語的特徴、発話された語のパワーやピッチ等の音響的特徴、音声認識結果、及びユーザーのうなずきや視線等の画像情報に基づいて、学習を行なうことによってモデル化することができる。
学習された応答単位モデルを用いて応答タイミングを判定するには、応答単位モデルの他に、学習の際に用いた物理量、すなわち、言語的特徴、音響的特徴、音声認識結果、及び画像情報を用いて判定することができる。
このように、意味処理単位モデル及び応答単位モデルの両方のモデルを用いることにより、より精度よく意味処理タイミング及び応答タイミングの両方を判定することができる。
また、応答単位と意味処理単位とを各々モデル化して、意味処理タイミングと応答タイミングとを各々判定することで、翻訳や検索等の意味処理をシステム内部で実行しながらユーザーとの対話を円滑に進行することが可能となる。
応答タイミングは、ユーザから対話主導権を奪ってユーザを聞き手にさせるのに最適なタイミングであり、相槌以外の応答をすべきタイミングである。応答タイミングは、音声認識手段の認識結果、画像特徴量抽出手段により抽出された画像特徴量、抽出手段によって抽出された音響的特徴、抽出手段によって抽出された言語的特徴、及び応答単位モデルに基づいて判定される。なお、応答タイミング判定手段は、ユーザの発話中の無音区間について、応答タイミングであるか否かを判定してもよい。
以上説明したように本発明によれば、意味処理単位でかつ応答単位であると判定された場合のみ意味処理結果を反映させて音声応答しているので、違和感の無い音声応答を行なうことができる、という効果が得られる。
[第1の実施の形態]
以下、図面を参照して本発明の第1の実施の形態を詳細に説明する。本実施の形態には、図1に示すように、発話者であるユーザの顔部分を撮影するカメラ10、及び発話者の音声を入力するためのマイク12が設けられている。
カメラ10は、カメラ10から出力される画像信号から発話者の視線の時系列変化を抽出し、視線の時系列情報を画像情報として出力する視線抽出部14を介して処理単位判定部16に接続されている。
マイク12は、マイク12から出力される音声データから発話された語の音響的特徴である発話のピッチを抽出し、ピッチの時系列情報を出力するピッチ抽出部18を介して処理単位判定部16に接続されている。また、マイク12は、マイク12から出力される音声データに基づいて、認識用辞書が記憶された記憶装置22を用いて音声認識を行ない、音声認識の結果を文字列として出力する音声認識部20、及び音声認識部20の音声認識結果に基づいて係り受け解析を行なう係り受け解析部24を介して処理単位判定部16に接続されている。この係り受け解析部24は、言語的特徴である係り受け情報を出力する。
処理単位判定部16には、学習により生成された応答単位モデルを記憶した記憶装置26、及び学習により生成された意味処理単位モデルを記憶した記憶装置28が接続されている。処理単位判定部16は、後述するように、視線の時系列情報、ピッチの時系列情報、音声認識結果、及び係り受け情報等の発話者の音声から得られる情報と、意味処理単位及び応答単位の各モデルとに基づいて、意味処理単位及び応答単位の判定を行う。
処理単位判定部16は、処理単位判定部16の意味処理単位及び応答単位の判定結果に基づいて、意味処理としてのデータベース検索処理や応答生成を行う動作制御部30に接続されている。動作制御部30には、応答用コーパスを記憶した記憶装置34が接続された応答生成部32、及び検索用のデータベース38が接続された検索部36が接続されると共に、検索や応答の結果を報知するスピーカ40及びディスプレイ42が接続されている。
次に、応答単位モデル及び意味処理単位モデルのモデル化の方法について説明する。このモデル化では、図2に示すように、記憶装置26及び記憶装置28の各々に、学習器44及び学習器46を接続し、学習器44及び学習器46の学習によって得られた結果を記憶装置26及び28の各々にモデルとして記憶する。
図3(1)の正例に示した「大人の雰囲気の<P>静かなバーをお願いします<P>あとは〜<P>おつまみがおしゃれな所<P>がいいですね<P>」という発話について、ある地点が応答単位もしくは意味処理単位であるかどうかをモデル化することを例に、モデル化の方法を説明する。
(1)ステップ1
まず、最初のステップ1では、図4に示すように、応答単位の情報及び意味処理単位の情報を備えた発話について、モデル化する地点の前後に直前N個及び直後n個の窓(ウインド)を設けて、形態素単位に区切られた単語列を抽出する。図4は「大人の雰囲気の」の直後が応答単位もしくは意味処理単位であるかどうかをモデル化する場合を示すものである。窓幅は任意に定めることができるが、本実施の形態の窓では、直前4個、直後1個の単語が含まれる大きさとした。
(2)ステップ2
ステップ2では、ステップ1で、窓枠を設けた各範囲に対して、特徴量をベクトルデータに変換する。本実施の形態では、形態素情報や係り受け情報等の言語的特徴、ピッチの時系列情報等の音響的特徴、及び視線の時系列情報等の画像情報を特徴として用い、これらの全ての特徴に対して特徴量である一意のベクトル値を割り当てる。
図4に示すように「大人の雰囲気の」の直後をモデル化する場合には、破線内の各特徴の各々に対して、例えば、名詞=−1、助詞=−2、・・・、修飾する=9のように、一意のベクトル値を与える。
次に、これらのベクトル値の線形結合に対して、予め与えられた応答単位及び意味処理単位の正解データが区切りであれば+1、つなぎであれば−1のベクトルデータを割り当てる。ここで、区切りとは応答単位や意味処理単位であることを表し、つなぎとは応答単位や意味処理単位でないことを表す。
すなわち、これらの線形結合に対して、応答単位のモデルを作成する場合には、応答単位であるとき+1、応答単位でない時−1のベクトルデータを与える。また、意味処理単位のモデルを作成する場合にも同様に、意味処理単位であるとき+1、意味処理単位でない時−1のベクトルデータを与える。
ここでは「大人の雰囲気の」の直後をモデル化する例のみを示したが、窓を図の右方にずらすことで全ての形態素についてベクトルデータを作成し、これを学習データとしてモデル化する。
(3)ステップ3
ステップ3では、全学習データに対して学習器44及び学習器46でモデルを作成する。すなわち、上記ステップ2で作成した学習データに対して、応答単位と意味処理単位の各モデルを各々作成する。
この問題は、+または−の2値判別問題であるので、学習識別手法として、例えば、サポートベクターマシン(Support Vector Machine,SVM)を用いることができる。SVMは、パターンの識別手法の1つであり、ある特徴ベクトル空間に対して適切な識別面を決定することができる学習器である。l個の学習データに対し、任意のベクトルデータiの正解値をyi、特徴ベクトルをxiとすると、この学習器は、下記の制約条件の下で下記(1)式のf(α)を最大化する。
Figure 0004729902
ここで、Kは任意の核関数(Kernel関数)である。また。モデルは、α(≠0)、このαに対応するx、y、及び以下の(2)式で得られるbとして求めることができる。
Figure 0004729902
なお、SVMに関する詳細は、文献(「痛快!サポートベクトルマシン」、前田英作、情報処理42巻7号、pp.676−663,2001年7月)等に記載されている。
次に、本実施の形態の音声対話システムを用いて、データベース38に記憶された飲食店のデータから目的の店を検索する音声対話システム全体の動作ロジックを図5に示すフローチャートを参照して説明する。この音声対話システムは、車両に搭載することができる。
図5に示す動作ロジックの処理が開始されると、ステップ100で初期化処理が実行され、ステップ102においてスピーカー40から「検索条件を言ってください。」という音声が提示され、それと同時に図6に示す初期画面がディスプレイ42に表示される。この初期画面には、「マイクに向かって、検索条件をお話ください。」というユーザへの動作指示、ユーザーの検索要求の表示ウインド、及びユーザーの検索結果の表示ウインドウが表示され、各ウインドウには、処理の進行に従ってユーザーへの動作指示、ユーザーの検索要求、及びデータベースの検索結果等の動作の詳細が表示される。
マイク12から音声データが入力されると、ステップ104において、記憶装置22に記憶されている認識用辞書を用いて音声認識部20によって、スピーカからの音声提示に応じてユーザから発話された音声の音声認識が行なわれる。また、音声データからピッチ抽出器18により発話のピッチが時系列で抽出され、カメラの画像データから視線抽出器14により発話者の視線が時系列で抽出される。音声認識結果より得られた文字列データは、係り受け解析器24に入力され、各文字について係り受け情報が求められる。
音声認識結果、ピッチの時系列情報、視線の時系列情報、係り受け情報は、処理単位判定部16に入力され、ステップ106で処理単位判定部16によって各モデルに基づいて、検索要求を理解するための意味処理単位(検索要求単位)及び応答単位の処理単位判定、すなわち意味処理タイミング及び応答タイミングの判定を以下のように行う。
(1)ステップ1
ステップ1では、判別する地点の前後に窓を設けて判別する箇所の前後の単語を抽出する。ここで使用する窓は、抽出する単語の個数がモデル化の際の個数と同一になる窓を使用する。
(2)ステップ2
ステップ2では、与えられた線形ベクトルの値をSVMで計算する。すなわち、ステップ1で得られた範囲のデータを学習時と同様に特徴ベクトルデータxに変換し、学習時に得られたパラメータを用いて、下記(3)式に基づいてCを求める。
Figure 0004729902
(3)ステップ3
ステップ3では、計算されたCの値により区切りか、つなぎかを判定する。すなわち、ステップ2で計算されたCの値が正であれば応答単位や意味処理単位の区切りを表し、負であれば応答単位や意味処理単位のつなぎを表すと判断する。
ステップ110で、意味処理単位であり、かつ応答単位であると判定されたか否か、すなわち意味処理タイミングでかつ応答タイミングであるかを判断し、意味処理単位であり、かつ、応答単位であると判定された場合には、ステップ112において意味処理の結果得られた検索キーを音声と画像とでユーザーに提示する。
次のステップ114では、処理単位判定部16の処理単位判定結果に従って、動作制御部30によってデータベースの検索と応答生成とを実行する。データベース検索は、データベース38に記憶された飲食店のデータに基づいて行なわれ、応答は、応答生成部32により記憶装置34に予め記憶された応答用コーパスに基づいて生成される。
データベース検索及び応答の生成が終了すると、検索及び応答の結果は、スピーカー40から音声で報知されると共にディスプレイ42に画像で表示される。
ユーザーが「大人、の、雰囲気、の、バー、が、いい、かな、あと、〈ポーズ〉、できれば、駅の、近く、〈ポーズ〉、」と発話し、この入力の処理単位判定結果がステップ110で意味処理単位でかつ応答単位である、と判定された場合には、「“大人の雰囲気のバー”と“できれば駅の近く”という条件で検索します。」とスピーカ40から音声提示すると共に、ディスプレイに表示された検索要求のウインドウの未確認の欄に図7に示すように「大人の雰囲気のバー」と「できれば駅の近く」という検索キーワードを表示する。
また、データベースでの検索結果は、スピーカから「2件、バーAとパブBが見つかりました。」と音声提示すると共に、図8に示すように、ディスプレイのウインドウに「件数:2件 詳細:1件目バーA 2件目パブB」のように表示する。
したがって、意味処理単位であり、かつ、応答単位であると判定された場合には、意味処理の結果得られた検索要求の結果を反映させて音声で応答される。
一方、ステップ110で意味処理単位でかつ応答単位でないと判定された場合には、ステップ118において意味処理単位(検索要求単位)か否かを判断し、検索要求単位であると判断されたときは、ステップ122で検索キーワードをディスプレイに表示すると共に、ステップ124でデータベースを用いて検索し、ステップ126で検索結果をディスプレイに表示する。すなわち、意味処理単位でかつ応答単位でないと判断されたときは、音声で報知することなく表示のみによってユーザーに検索キー及び検索結果が提示され、次の入力を待つ処理を行なう。具体的には、ユーザーが「大人、の、雰囲気、の、バー、が、いい、かな、あと、〈ポーズ〉、できれば、駅の、近く、が、いい、です。」と発話し、この入力の処理単位判定結果が意味処理単位であるが応答単位ではないを判定された場合には、スピーカーからの音声による応答を行なうことなく、画像のみで検索キーワードを提示してデータベース検索を行う。検索結果は、図8のようにディスプレイに表示される。
また、ステップ118で検索要求単位で無いと判定され、かつステップ120で応答単位であると判定された場合、すなわち意味処理単位でないが応答単位であると判定された場合には、ステップ128でスピーカーから音声によってユーザに適切な応答を返し、次の入力を待つ処理を行なう。具体的には、ユーザーが「大人、の、雰囲気、の、バー、が、いい、かな、あと、〈ポーズ〉、」と発話し、処理単位判定結果が意味処理単位でないが応答単位であるであった場合には、「はい」などの相槌に相当する音声応答を行う。
ステップ120で応答単位でないと判定された場合、すなわち意味処理単位でも応答単位でもないと判定された場合には、検索や応答は行わずに次の入力を待つ。具体的には、ユーザーが「大人、の、雰囲気、の、」と発話し、処理単位判定結果が、意味処理利単位でも応答単位でもなかった場合には、ステップ104の音声認識処理に戻り、次の入力を待つ。
以上説明したように、本実施の形態では、意味処理単位でかつ応答単位であると判定された場合のみ検索結果を反映させて音声応答しているので、違和感の無い音声応答を行なうことができる、という効果が得られる。
図3に、本実施の形態を用いた場合の対話例と用いない場合の対話例とを比較して示す。ここで、括弧内の発話はユーザーの発話を、丸枠の吹き出しはシステムの応答を、角枠の吹き出しは意味単位処理状態を表す。また対話中の〈P〉は無音区間(ポーズ)を表す。
まず、本実施の形態を用いる場合には、システムの判定の結果、U1及びU2が応答単位、S1及びS2が意味処理単位と判定された場合には、応答単位とのみ判定されたU1とU2では、システムは相槌や検索内容の確認等の応答を返す。意味処理単位とのみ判定されたS1では、システムはデータベース検索のための検索キー作成等の内部処理を進める。一方、応答単位でかつ意味処理単位と判定されたS2では、データベース検索結果を反映させて応答する。
このように、応答を行うべき単位を判定することで、非常にスムーズな発話のやり取りが実現する。また、意味処理単位を判定することにより、ユーザーの要求を適切に反映した対話を実現している。さらに、これらを独立に判定することにより、ユーザーと自然な対話を実現しながらシステム内部で適切に検索処理を実行することを可能にしている。
一方、本実施の形態を用いない場合の対話例は、本実施の形態のように応答単位と意味処理単位とを個々に判定するのではなく、意味処理単位を行う単位が応答単位であるとしているため、ユーザーは本来伝えたかった「おつまみがおしゃれである」という要求を発話する前にシステムが検索を実行し検索結果を応答したことから、発話のやり取りが不自然になっている。また、ユーザーの要求を検索に適切に反映して検索できていない。
以上述べたとおり、応答単位を判定することにより、より自然な発話のやり取りを実現することが可能となる。また、意味処理単位を判定することにより、ユーザーの要求をより正確に反映した検索を行うことが可能となる。さらに、これらを組み合わせることで、適切な検索をシステム内部で実行しながら、ユーザーと自然な対話を実現することが可能となる。
本実施の形態では、応答と検索の処理単位との各々を判定し、システム動作を制御することで、より適切な内部処理を可能にしながら、ユーザーとの対話を自然に進めることが可能となる。
なお、上記では、音声認識結果、ピッチの時系列情報、視線の時系列情報、係り受け情報、及び応答単位モデルを用いて応答タイミングを判定する判定する例について説明したが、これらのいずれか1つを用いて応答タイミングを判定するようにしてもよい。また、音声認識結果、ピッチの時系列情報、視線の時系列情報、係り受け情報、及び意味処理単位モデルを用いて意味処理タイミングを判定する例について説明したが、これらのいずれか1つを用いて意味処理タイミングを判定するようにしてもよい。また、発話された語のパワーの時系列情報、及びユーザーのうなずきの時系列情報を更に用いて応答タイミングまたは意味処理タイミングを判定するようにしてもよい。
[第2の実施の形態]
つぎに、本発明の第2の実施形態について説明する。なお、第1の実施形態と同一の部位には同一の符号を付し、その詳細な説明は省略する。
図9は、第2の実施形態に係る音声対話システムの構成を示す図である。音声対話システムは、発話者であるユーザの音声を入力するマイク12と、マイク12からの音声データに基づいて、認識用辞書を用いて音声認識を行い、音声認識結果を文字列として出力する音声認識部20Aと、上記認識用辞書を記憶している認識用辞書記憶装置22と、出力すべき発話を生成する発話生成部50と、音声出力するスピーカ40と、画像出力するディスプレイ42と、を備えている。
音声認識部20Aは、第1の実施形態におけるピッチ抽出部18、音声認識部20、係り受け解析部24の各機能を有している。つまり、音声認識部20Aは、音声データから形態素情報、係り受け及びピッチなどの特徴量を抽出し、認識用辞書を用いて文字列を生成し、これらを発話生成部50に供給する。
発話生成部50は、音声認識部20Aによる音声認識結果に対して言語処理(例えば、形態素情報の生成など)を行う言語処理部51と、発話が終了したか否かを判定する終了発話判定部52と、応答単位であるか否かを判定する応答単位判定部53と、応答単位モデルを記憶する応答単位モデル記憶装置26と、応答内容を生成する応答生成部54と、相槌を生成する相槌生成部55とを備えている。
終了発話判定部52は、終了発話辞書を予め記憶しており、当該終了発話辞書を用いて、言語処理部51で言語処理された文字列が終了発話か否かを判定する。
図10は、終了発話判定部52に記憶されている終了発話辞書を示す図である。終了発話とは、発話の最後に用いられる発話であり、例えば図10に示すように、「またね」、「ばいばい」、「さようなら」、「じゃあね」、「おやすみ」、「終了」がある。終了発話辞書は、これらの様々な終了発話を有している。
応答単位判定部53は、応答単位モデル記憶装置26に記憶されている応答モデルを用いて、発話中の無音区間が応答タイミング(応答単位)であるか否かを判定する。応答タイミングとは、ユーザから対話主導権を奪ってユーザを聞き手にさせるのに最適なタイミングであり、相槌以外の応答をすべきタイミングである。応答単位は、応答タイミング間の単位をいい、ユーザから対話主導権を奪ってよいのかを判断するのに必要な最小限の意味情報を持っている。なお、応答単位判定部53の構成については詳しくは後述する。
応答単位モデル記憶装置26には、応答単位を表す応答単位モデルが記憶されている。応答単位モデルは、図4に示すように、応答タイミングの直前N個及び直後n個の形態素に関する特徴量をモデル化したものであり、発話された語の品詞情報などの言語的特徴(本実施形態では、例えば、形態素情報単位モデル、係り受け単位モデル)、パワーやピッチなどの音響的特徴(本実施形態では、例えば、ピッチ単位モデル)からそれぞれ構成されている。
なお、第1の実施形態では、N=3、n=1としたが、第2の実施形態では、N=3、n=0とする。また、第2の実施形態では、視線の特徴量は用いていないが、第1の実施形態と同様に、ユーザの顔を撮像するカメラがある場合、うなずきや視線などの画像特徴を応答単位モデルとして用いてもよい。
応答生成部54は、応答単位判定部53により無音区間が応答タイミングであると判定されたときに、相槌以外の応答を生成する。また、応答生成部54は、終了応答辞書を記憶しており、終了発話判定部52によって終了発話が判定されたときに、所定の応答を行う。
図11は、終了応答辞書を示す図である。終了応答辞書は、ユーザとの対話終了時にユーザに対して発話する用語を示したものであり、例えば、「またね」、「ばいばい」、「お話を聞かせてくれてありがとう。またね。」、「お話を聞かせてくれてありがとう。また話そうね。」などがある。
相槌生成部55は、応答単位判定部53により無音区間が応答タイミングでないと判定されたときに、「うん」、「はい」などの相槌を生成する。このようにして生成された応答や相槌は、スピーカ40を介して音声出力されたり、ディスプレイ42を介して画像出力される。
以上のように構成された音声対話システムは、音声が入力されると、次のような処理を実行する。
図12は、第2の実施形態に係る音声対話処理ルーチンを示すフローチャートである。音声対話システムは、図示しないスイッチが押圧されると、初期化を実行して(ステップ200)、ユーザが発話するまで待機する。ここでは、ユーザは、「すごく行列だったけど(無音区間)そんなに待たなくて(無音区間)よかったよ(無音区間)」と発話したとする。
音声認識部20Aは、ユーザの発話を認識する(ステップ202)。このとき音声認識部20Aによって認識された文字列は、発話生成部50の言語処理部51で言語処理される。
終了発話判定部52は、音声認識の結果得られた文字列に対して、終了発話辞書を用いて終了発話判定を行い(ステップ204)、上記文字列が終了発話であるか否かを判定する(ステップ206)。終了発話であると判定したときはステップ220に進み、終了発話でないと判定したときはステップ208に進む。
応答単位判定部53は、音声認識部20で抽出された特徴量や言語処理部51で得られた形態素情報と、応答単位モデル記憶装置26に記憶された各応答単位モデルとを用いて応答単位の判定を行い(ステップ208)、無音区間が応答タイミングであるか否かを判定する(ステップ210)。ユーザが上記のように「すごく行列だったけど(無音区間)そんなに待たなくて(無音区間)よかったよ(無音区間)」と発話をした場合、応答単位判定部53は次の処理を行う。
図13は、応答単位判定の一例を説明する図であり、(A)は最初の無音区間を判別箇所t1とした場合、(B)は2番目の無音区間を判別箇所t2とした場合、(C)は最後の無音区間を判別箇所t3とした場合である。
応答単位判定部53は、3箇所の無音区間をそれぞれ判別箇所t1、t2、t3とし、これらの判別箇所が応答単位であるか否かを判定する。応答単位判定部53は、最初に、判別箇所t1について、当該判別箇所t1の直前にある例えば3個の形態素のnグラムモデルと、応答単位モデルとを比較して、応答単位か判別する。
そして、応答単位でないときはステップ216に進み、応答単位であるときはステップ212に進む。再びステップ210に戻ると、応答単位判定部53は次に判別箇所t2について判定する。さらに、再びステップ210に戻ると、応答単位判定部53は最後に判別箇所t3について判定する。なお、本実施形態では、判別箇所t3が応答単位と判別されたものとする。
応答生成部54は、無音区間が応答単位であると判定されたときに、音声認識結果の意味内容に応じて応答発話を生成し(ステップ212)、この応答発話を、スピーカ40を介して音声出力する(ステップ214)。応答発話としては、例えば、ユーザがポジティブな発話をした場合は「いいな」、「すごい」など、ユーザがネガティブな発話をした場合は「残念だね」、「がんばって」などがある。なお、応答内容は、相槌以外であり、かつ音声認識結果の意味内容を反映したものであれば、特に限定されない。そして、ステップ214が終了すると、ステップ202に戻る。
一方、相槌生成部55は、無音区間が応答単位ではないと判定されたときに、相槌発話を生成し(ステップ216)、この相槌発話を、スピーカ40を介して音声出力する(ステップ218)。これにより、例えば判別箇所t1、t2において、「はい」、「うん」などの相槌が出力される。なお、相槌生成部55は、相槌の代わりに、ユーザの発話に含まれていたキーワードを出力してもよい。
そして、ステップ218が終了すると、ステップ202に戻る。このように、ユーザが終了発話を発するまで、ステップ202からステップ218までの処理が繰り返し実行される。
また、応答単位判定部53により応答単位であると判定されると(ステップ206の肯定判定)、応答生成部54は、図11に示す終了応答辞書を参照して、これらの中からランダムに用語を選択し、選択した用語(例えば「ばいばい」)を、スピーカ40を介して音声出力する。
従来、ユーザが例えば「すごく行列だったけど(無音区間)そんなに待たなくて(無音区間)よかったよ(無音区間)」とシステムに発話をした場合、ユーザとシステムの対話は、
ユーザ :「すごく行列だったけど(無音区間)」
システム:「えー最悪だね」
ユーザ :「そんなに待たなくて(無音区間)」
システム:「いいね」
ユーザ :「よかったよ(無音区間)」
システム:「へーよかったね」
となり、テンポの悪い対話になっていた。
これに対して、ユーザが上記のように本実施形態に係る音声対話システムに発話をした場合、ユーザとシステムの対話は、
ユーザ :「すごく行列だったけど(無音区間)」
システム:「うん」
ユーザ :「そんなに待たなくて(無音区間)」
システム:「うん」
ユーザ :「よかったよ(無音区間)」
システム:「へーよかったね」
となり、テンポのよい対話が成立する。
以上のように、第2の実施形態に係る音声対話システムは、ユーザの発話に含まれている複数の無音区間から応答タイミング(応答単位)を判定し、応答タイミングのときに応答することにより、ユーザの発話を妨げることなく、ユーザにユーザ自身の伝えたい意図を最後まで発話させることができる。
また、上記音声対話システムは、応答タイミングでないときに相槌することにより、適切なタイミングで相槌することができる。これにより、テンポのよい発話のやり取りが生まれ、自然な対話を実現することができる。また、ユーザは、発話途中であっても、音声対話システムからの相槌を聞くことで、音声対話システムが発話を理解していると考えるので、安心して発話を続けることができる。
[第3の実施の形態]
つぎに、本発明の第3の実施形態について説明する。なお、上述した実施形態と同一の部位には同一の符号を付し、その詳細な説明は省略する。
図14は、第3の実施形態に係る音声対話システムの構成を示す図である。音声対話システムは、発話者であるユーザの音声を入力するマイク12と、マイク12からの音声データに基づいて、認識用辞書及び感情語辞書を用いて音声認識を行い、音声認識結果を文字列として出力する音声認識部20Bと、認識用辞書を記憶している認識用辞書記憶装置22と、感情語辞書を記憶している感情語辞書記憶装置23と、出力すべき発話を生成する発話生成部50Aと、非言語の応答を生成する非言語応答生成部60と、インタフェースロボット70と、を備えている。
音声認識部20Bは、第2の実施形態で示した機能を実行することができ、さらに、感情語辞書を参照して、認識した文字列がどのような感情語であるかを判定することができる。
図15は、感情語辞書記憶装置23に記憶されている感情語辞書を示す図である。感情語辞書は、認識された文字列がポジティブ、ネガティブ、ニュートラルのいずれの感情語であるかを判定するときに用いられる。例えば、おいしい、明るい、本格的な味、待たない、回転が速い、よい等は、ポジティブな感情語に該当する。人が多い、待つ、行列は、ネガティブな感情語に該当する。そして、上記以外のものはニュートラルな感情語に該当する。なお、これらの用語は例示であり、感情語辞書は図14の構成に限定されるものではない。
発話生成部50Aは、音声認識部20Bによる音声認識結果に対して言語処理を行う言語処理部51と、発話が終了したか否かを判定する終了発話判定部52と、応答単位であるか否かを判定する応答単位判定部53と、応答単位モデルを記憶する応答単位モデル記憶装置26と、感情を込めた応答内容を生成する応答生成部54Aと、感情を込めた相槌を生成する相槌生成部55Aと、感情処理を行う感情処理部56と、を備えている。
感情処理部56は、音声認識部20Bで判別された感情語を用いて、1つの応答単位について1つの感情表現を算出する。感情表現の算出ルールは、以下の通りである。
(1)1つの応答単位の中で矛盾した感情語が複数存在する場合は後半の節の感情語を優先する。
(2)同じ節の中で感情語が矛盾した場合は、述語の感情語を優先する。
(3)上記の(1)及び(2)を適用してもなおポジティブ/ネガティブの判定が矛盾する場合は、ニュートラルと判定する。
応答生成部54Aは、応答単位判定部53により無音区間が応答タイミングであると判定されたときに、次の感情表現−応答対応テーブルを参照して、感情処理部56で算出された感情表現に対応する応答を生成する。
図16は、応答生成部54Aに記憶されている感情表現−応答対応表を示す図である。感情表現−応答対応表では、ポジティブな感情に対して、「へーすごい」、「よかったね」、「いいなぁ」の応答が対応付けられている。ネガティブな感情に対して、「げー最悪だね」、「そりゃひどいね」、「何それ最低」の応答が対応付けられている。ニュートラルな感情に対して、「それでそれで?」の応答が対応付けられている。
相槌生成部55Aは、応答単位判定部53により無音区間が応答タイミングでないと判定されたときに、次の感情表現−相槌対応テーブルを参照して、感情処理部56で算出された感情表現に対応する相槌を生成する。
図17は、相槌生成部55に記憶されている感情表現−相槌対応表を示す図である。感情表現−相槌対応表では、ポジティブな感情に対して、「ほぅほぅ」、「うんうん」の相槌が対応付けられている。ネガティブな感情に対して、「げ」、「あらら」、「うわー」の相槌が対応付けられている。ニュートラルな感情に対して、「うん」の相槌が対応付けられている。
このようにして生成された応答や相槌は、インタフェースロボット70内の図示しないスピーカを介して音声出力される。
非言語応答生成部60は、感情処理部56で算出された感情表現に対応する応答又は相槌をするようにインタフェースロボット70を制御する。具体的には、非言語応答生成部60は、状況−動作ID対応表を参照して感情表現に対応する動作IDを選択し、そして、動作ID−動作対応表を参照して動作IDが示す動作を実行するようにインタフェースロボット70を制御する。
図18は、非言語応答生成部60に記憶されている状況−動作ID対応表を示す図である。状況−動作ID対応表は、初期化、ポジティブ応答、ネガティブ応答、ニュートラル応答、ポジティブ相槌、ネガティブ相槌、ニュートラル相槌、終了応答にそれぞれ対応する動作IDを表している。
状況−動作ID対応表の「状況」は、初期化及び終了応答を除いて、応答単位判定部53及び感情処理部56の判定結果によって決定される。例えば、ポジティブ応答は、感情表現がポジティブであり、かつ応答タイミングと判定されたときの状況をいう。ネガティブ相槌は、感情表現がネガティブであり、かつ応答タイミングでないと判定されたときの状況をいう。
また、状況−動作ID対応表において、複数の動作IDが“or”によって連結されているときは、ランダムに動作IDが選択される。例えば、非言語応答生成部60は、初期化時では動作ID1、2、3のいずれかをランダムに選択し、ポジティブ応答時では動作ID1及び4の組合せ、動作ID1及び5の組合せ、のいずれかの組合せをランダムに選択する。
図19は、非言語応答生成部60に記憶されている動作ID−動作対応表を示す図である。動作ID−動作対応表では、動作ID1〜10のぞれぞれに、インタフェースロボット70の動作が対応付けられている。
以上のように構成された音声対話システムは、音声が入力されると、次のような処理を実行する。
図20は、第3の実施形態に係る音声対話処理ルーチンを示すフローチャートである。音声対話システムは、図示しないスイッチが押圧されると、初期化を実行して(ステップ300)、ユーザが発話するまで待機する。ここでは、ユーザは、「すごく行列だったけど(無音区間)そんなに待たなくて(無音区間)よかったよ(無音区間)」と発話したとする。
音声認識部20Bは、ユーザの発話を認識する(ステップ302)。音声認識部20Bによって認識された文字列は、発話生成部50Aの言語処理部51で言語処理される。
終了発話判定部52は、言語処理済みの文字列に対して、終了発話辞書を用いて終了発話判定を行い(ステップ304)、上記文字列が終了発話であるか否かを判定する(ステップ306)。終了発話であると判定したときはステップ314に進み、終了発話でないと判定したときはステップ308に進む。
応答単位判定部53は、音声認識部20Aで抽出された特徴量や言語処理部51で得られた形態素情報と、応答単位モデル記憶装置26に記憶された各応答単位モデルとを用いて応答単位の判定を行い、無音区間が応答タイミングであるか否かを判定する。また、感情処理部56は、音声認識部20Bで判別された感情語を用いて、1つの応答単位について、感情表現を算出する(ステップ308)。
図21は、ユーザの発話から求められた応答単位及び感情語を示す図である。ユーザが上記のような発話をした場合、応答単位判定部53は、応答単位として「すごく行列だったけどそんなに待たなくてよかったよ」を求める。この応答単位では、「行列」に対応する感情語は「ネガティブ」、「待たない(なく)」に対応する感情語は「ポジティブ」、「よい(よかっ)」に対応する感情語は「ポジティブ」である。
そこで、感情処理部56は、上述した感情表現の算出ルールに従って、上記応答単位について感情表現を算出する。ここでは、算出ルール(1)が適用され、上記応答単位の感情表現として「ポジティブ」が算出される。
非言語応答生成部60は、感情処理部56で算出された感情表現に対応する非言語応答を生成する(ステップ310)。具体的には、非言語応答生成部60は、応答単位判定部53及び感情処理部56の判定結果に基づいて「状況」を判定し、図18に示す状況−動作ID対応表を参照して、現在の状況に対応する動作IDを選択する。このとき、応答生成部54A又は相槌生成部55Aは、言語応答するための応答又は相槌を生成してもよい。
例えば、応答生成部54Aは、無音区間が応答タイミングであると判定されたときに、感情表現−応答対応テーブルを参照して、感情処理部56で算出された感情表現に対応する応答を生成すればよい。また、相槌生成部55Aは、無音区間が応答タイミングでないと判定されたときに、感情表現−相槌対応テーブルを参照して、感情処理部56で算出された感情表現に対応する相槌を生成すればよい。
非言語応答生成部60は、選択した動作IDに対応する動作を行うようにインタフェースロボット70を制御することで、非言語応答又は非言語相槌をインタフェースロボット70に行わせる(ステップ312)。また、インタフェースロボット70に設けられた図示しないスピーカは、応答生成部54Aで生成された応答又は相槌生成部55Aで生成された相槌の音声を出力してもよい。そして、ステップ312からステップ302に戻る。
一方、ステップ306で肯定判定の場合、非言語応答生成部60は、動作ID10を選択し、お辞儀をするようにインタフェースロボット70を制御して、終了応答を行う。
以上のように、第3の実施形態に係る音声対話システムは、ユーザの発話に含まれている複数の無音区間から応答タイミング(応答単位)を判定し、応答タイミングのときにインタフェースロボット70に応答動作をさせることにより、ユーザの発話を妨げることなく、ユーザにユーザ自身の伝えたい意図を最後まで発話させることができる。
また、上記音声対話システムは、応答タイミングでないときにインタフェースロボット70に相槌動作をさせることにより、適切なタイミングで相槌することができる。これにより、テンポのよい発話のやり取りが生まれ、自然な対話を実現することができる。また、ユーザは、発話途中であっても、インタフェースロボット70が相槌動作をすることで、音声対話システムが発話を理解していると考えるので、安心して発話を続けることができる。
特に、上記音声対話システムは、言語以外の情報を用いてインタフェースロボット70に応答や相槌をさせることによって、ユーザの発話を妨げることなく、対話することができる。
なお、本実施形態では、音声対話システムは、言語及び非言語の両方を用いて応答や相槌を行ったが、言語、非言語のいずれか一方だけを用いてもよい。
[応答単位判定部53の構成]
応答単位判定部53の詳細な構成について説明する。応答単位判定部53は、形態素情報、係り受け、ピッチに基づいて、無音区間が応答タイミングであるか否かを判定する。
図22は、応答単位判定部53の構成を示すブロック図である。応答単位判定部53は、様々な特徴量毎に無音区間が応答タイミングであるかを判定する判定器71、72、73と、判定器71、72、73の各々の判定結果から総合的に応答タイミングであるか否かを判定する判定器74とを備えている。
応答単位モデル記憶装置26は、応答単位モデルとして、形態素情報単位モデル、係り受け単位モデル、ピッチ単位モデルを記憶している。形態素情報単位モデル、係り受け単位モデル、ピッチ単位モデルは、学習器80が学習データ(形態素情報、係り受け、ピッチの正解値)を用いて学習することによって、生成されたものである。なお、各モデルの生成方法は、第1の実施形態において説明した通りである。
判定器71は、形態素情報と形態素モデルとに基づいて、無音区間が応答タイミングであるかを判定し、応答タイミングであるときは判定結果α1=“1”を出力し、 応答タイミングでないときは判定結果α1=“−1”を出力する。
判定器72は、特徴量として音声認識部20Bから供給された係り受け情報と係り受けモデルとに基づいて、無音区間が応答タイミングであるかを判定し、応答タイミングであるときは判定結果α2=“1”を出力し、 応答タイミングでないときは判定結果α2=“−1”を出力する。
判定器73は、特徴量として音声認識部20Bから供給されたピッチ情報とピッチモデルとに基づいて、無音区間が応答タイミングであるかを判定し、応答タイミングであるときは判定結果α3=“1” を出力し、応答タイミングでないときは判定結果α3=“−1”を出力する。
判定器74は、判定器71、72,73の各々の判定結果と、各判定結果の信頼度C1、C2、C3とに基づいて、無音区間が応答タイミングであるかを総合的に判定する。なお、信頼度Ci(i=1、2、3)は、0以上1以下であるとする。具体的には、判定器74は、次の(4)式の演算を行う。
Figure 0004729902
判定器74は、(4)式の演算結果の符号を判定し、符号が正であるときは応答タイミングであると判定し、符号が負であるときは応答タイミングでないと判定する。なお、判定器74は、第1の実施形態と同様に、(4)式の代わりに(3)式を演算し、求められたCの値が正であれば応答タイミングであると判定し、負の値であれば応答タイミングでない(つなぎ)と判定してもよい。
以上の説明では、iが1から3までの場合を例に挙げたが、応答単位判定部53の構成はこれに限定されるものではない。すなわち、特徴量がx個ある場合は、iは1からxまでとなり、各特徴量を判定する判定器をx個設ければよい。
[モデルの学習方法]
第1の実施の形態では、学習器は、形態素情報、係り受け、ピッチなどの特徴量列の正解値を学習した結果、形態素情報、係り受け、ピッチなどの各モデルを生成する。つまり、学習器で使用される学習データは、特徴量列の正解値である。
一方、判定器である応答単位判定部53は、特徴量抽出器で抽出された形態素情報、係り受け、ピッチなどの特徴量と、上記の各々のモデルとに基づいて、応答タイミングであるかを判定する。しかし、特徴量抽出器で抽出された形態素情報、係り受け、ピッチなどの特徴量は、抽出誤りを含んだものである一方、各モデルは抽出誤りを含んでいない。このため、応答タイミングの判定結果の精度が低下することがある。
図23は、第2及び第3の実施形態におけるモデルの学習方法を示す図である。学習器80で使用される学習データは、特徴量抽出器81で抽出された形態素情報、係り受け、ピッチなどであり、抽出誤りを含んでいる。したがって、学習器80は、このような学習データを用いて学習するので、抽出誤りを含んだモデルを生成する。
そして、判定器である応答単位判定部53は、特徴量抽出器で抽出された形態素情報、係り受け、ピッチなどの特徴量列と、上記モデルとに基づいて、応答タイミングであるかを判定して、判定結果を出力する。このため、精度のよい判定結果を得ることができる。
本発明は、上述した実施形態に限定されるものではなく、例えば特許請求の範囲に記載された事項の範囲内で設計変更されたものについても適用可能である。
例えば、コンピュータに音声対話プログラムがインストールされた場合、そのコンピュータが、上述した第1乃至第3の実施形態で説明した処理を実行してもよい。また、音声対話プログラムは、光ディスクや磁気ディスク等の記録媒体に記録されたものでもよいし、LANやインターネット等の回線を通じて伝送されたものでもよい。
また、第2及び第3の実施形態では、音声データにより得られた特徴量及び応答単位モデルを用いたが、第1の実施形態と同様に、画像データにより得られた画像特徴量及び応答単位モデルを更に用いてもよい。
本発明の実施の形態の音声対話システムのブロック図である。 応答単位モデル及び意味処理単位モデルを学習状態を説明するがめのブロック図である。 本実施の形態のシステムの応答タイミングと従来の応答タイミングとを比較して示す説明図である。 応答単位モデル及び意味処理単位モデルのモデル化を説明するための説明図である。 本発明の実施の形態の音声対話システム全体の処理を示すフローチャートである。 初期状態の提示画面を示す平面図である。 検索要求単位でかつ応答要求単位でないときの提示画面を示す平面図である。 検索要求単位でかつ応答要求単位のときの提示画面を示す平面図である。 第2の実施形態に係る音声対話システムの構成を示す図である。 終了発話判定部に記憶されている終了発話辞書を示す図である。 終了応答辞書を示す図である。 第2の実施形態に係る音声対話処理ルーチンを示すフローチャートである。 応答単位判定の一例を説明する図であり、(A)は最初の無音区間を判別箇所t1とした場合、(B)は2番目の無音区間を判別箇所t2とした場合、(C)は最後の無音区間を判別箇所t3とした場合である。 第3の実施形態に係る音声対話システムの構成を示す図である。 感情語辞書記憶装置に記憶されている感情語辞書を示す図である。 応答生成部に記憶されている感情表現−応答対応表を示す図である。 相槌生成部に記憶されている感情表現−相槌対応表を示す図である。 非言語応答生成部に記憶されている状況−動作ID対応表を示す図である。 非言語応答生成部に記憶されている動作ID−動作対応表を示す図である。 第3の実施形態に係る音声対話処理ルーチンを示すフローチャートである。 ユーザの発話から求められた応答単位及び感情語を示す図である。 応答単位判定部の構成を示すブロック図である。 第2及び第3の実施形態におけるモデルの学習方法を示す図である。
符号の説明
10 カメラ
12 マイク
16 処理単位判定部
26 応答単位モデルを記憶した記憶装置
28 意味処理単位モデルを記憶した記憶装置
50、50A 発話生成部
53 応答単位判定部
54、54A 応答生成部
55、55A 相槌生成部
60 非言語応答生成部
70 インタフェースロボット

Claims (3)

  1. 発話中のユーザーの画像情報を抽出する抽出手段と、
    ユーザーから発話された音声の音響的特徴を抽出する抽出手段と、
    ユーザーから発話された音声を認識する音声認識手段と、
    前記音声認識手段の音声認識結果に基づいて、ユーザーから発話された音声の言語的特徴を抽出する抽出手段と、
    前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、意味処理単位であるか否かを表わすデータとに基づいて予め生成された、意味処理を行う単位を統計的にモデル化した意味処理単位モデルを記憶した意味処理単位モデル記憶手段と、
    前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、応答単位であるか否かを表わすデータとに基づいて予め生成された、対話中の一方の話者が応答を行う応答タイミングを統計的にモデル化した応答単位モデルを記憶した応答単位モデル記憶手段と、
    前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記意味処理単位モデルに基づいて、意味処理タイミングを判定し、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記応答単位モデルに基づいて、応答タイミングを判定する判定手段と、
    前記音声認識手段の認識結果に基づいて、前記意味処理タイミングで意味処理単位の意味処理を行う処理手段と、
    意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答する応答手段と、
    を含む音声対話システム。
  2. 前記抽出手段は、前記画像情報として、視線の時系列情報を抽出する請求項1記載の音声対話システム。
  3. コンピュータを、
    発話中のユーザーの画像情報を抽出する抽出手段、
    ユーザーから発話された音声の音響的特徴を抽出する抽出手段、
    ユーザーから発話された音声を認識する音声認識手段、
    前記音声認識手段の音声認識結果に基づいて、ユーザーから発話された音声の言語的特徴を抽出する抽出手段、
    前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、意味処理単位であるか否かを表わすデータとに基づいて予め生成された、意味処理を行う単位を統計的にモデル化した意味処理単位モデルを記憶した意味処理単位モデル記憶手段、
    前記画像情報、前記音響的特徴、前記音声認識手段の音声認識結果、及び前記言語的特徴と、応答単位であるか否かを表わすデータとに基づいて予め生成された、対話中の一方の話者が応答を行う応答タイミングを統計的にモデル化した応答単位モデルを記憶した応答単位モデル記憶手段、
    前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記意味処理単位モデルに基づいて、意味処理タイミングを判定し、前記抽出手段によって抽出された前記画像情報、前記抽出手段によって抽出された前記音響的特徴、前記音声認識手段の音声認識結果、前記抽出手段によって抽出された前記言語的特徴、及び前記応答単位モデルに基づいて、応答タイミングを判定する判定手段、
    前記音声認識手段の認識結果に基づいて、前記意味処理タイミングで意味処理単位の意味処理を行う処理手段、及び
    意味処理タイミングでかつ応答タイミングであると判定されたときに、意味処理を行なった内容を反映させて音声で応答する応答手段
    として機能させるための音声対話プログラム。
JP2004319327A 2003-12-12 2004-11-02 音声対話システム Expired - Fee Related JP4729902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004319327A JP4729902B2 (ja) 2003-12-12 2004-11-02 音声対話システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003414820 2003-12-12
JP2003414820 2003-12-12
JP2004319327A JP4729902B2 (ja) 2003-12-12 2004-11-02 音声対話システム

Publications (2)

Publication Number Publication Date
JP2005196134A JP2005196134A (ja) 2005-07-21
JP4729902B2 true JP4729902B2 (ja) 2011-07-20

Family

ID=34829080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004319327A Expired - Fee Related JP4729902B2 (ja) 2003-12-12 2004-11-02 音声対話システム

Country Status (1)

Country Link
JP (1) JP4729902B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4953767B2 (ja) * 2006-11-02 2012-06-13 アルパイン株式会社 音声生成装置
JP5030150B2 (ja) * 2007-03-20 2012-09-19 独立行政法人産業技術総合研究所 筋電位信号による音声認識装置
JP5051882B2 (ja) * 2007-06-20 2012-10-17 学校法人早稲田大学 音声対話装置、音声対話方法及びロボット装置
JP5251132B2 (ja) * 2008-01-09 2013-07-31 株式会社豊田中央研究所 応答生成装置、及び応答生成プログラム
JP6375605B2 (ja) * 2013-09-25 2018-08-22 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム
EP3007165B1 (en) 2013-05-31 2018-08-01 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP6448950B2 (ja) * 2014-08-20 2019-01-09 シャープ株式会社 音声対話装置及び電子機器
JP6649200B2 (ja) * 2016-08-04 2020-02-19 日本電信電話株式会社 発話生成装置、方法、及びプログラム
JP6712754B2 (ja) * 2016-08-23 2020-06-24 株式会社国際電気通信基礎技術研究所 談話機能推定装置及びそのためのコンピュータプログラム
JP6461058B2 (ja) * 2016-09-06 2019-01-30 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP2018140477A (ja) * 2017-02-28 2018-09-13 シャープ株式会社 発話制御装置、電子機器、発話制御装置の制御方法、および制御プログラム
JP6736225B2 (ja) * 2017-03-28 2020-08-05 日本電信電話株式会社 対話装置、対話装置の制御方法およびプログラム
JP2019053351A (ja) * 2017-09-12 2019-04-04 大日本印刷株式会社 応対装置、コンピュータプログラム及び応対方法
CN110140167A (zh) * 2017-11-02 2019-08-16 索尼公司 信息处理设备和信息处理方法
KR101891489B1 (ko) * 2017-11-03 2018-08-24 주식회사 머니브레인 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
KR101932263B1 (ko) 2017-11-03 2018-12-26 주식회사 머니브레인 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
EP3486900A1 (en) * 2017-11-16 2019-05-22 Softbank Robotics Europe System and method for dialog session management
WO2020036195A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
JP7342419B2 (ja) * 2019-05-20 2023-09-12 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム
JP2021117371A (ja) * 2020-01-27 2021-08-10 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2021246056A1 (ja) * 2020-06-05 2021-12-09 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61123324A (ja) * 1984-11-20 1986-06-11 Matsushita Electric Ind Co Ltd 反響信号除去装置
JPH07219961A (ja) * 1994-01-31 1995-08-18 Hitachi Ltd 音声対話システム
JPH09269889A (ja) * 1996-04-02 1997-10-14 Sharp Corp 対話装置
JPH1069292A (ja) * 1996-08-29 1998-03-10 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 発話関係認識装置
JP2000214882A (ja) * 1999-01-22 2000-08-04 Matsushita Electric Ind Co Ltd 子供や外国人話者の対処に苦慮する音声に対し、迅速に照合できる音声認識および音声学習装置
JP2001296879A (ja) * 2000-04-12 2001-10-26 Sharp Corp 感情喚起処理装置
JP2001306199A (ja) * 2000-04-17 2001-11-02 Sharp Corp ネットワーク機器制御装置
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP2003202895A (ja) * 2002-01-10 2003-07-18 Sony Corp 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61123324A (ja) * 1984-11-20 1986-06-11 Matsushita Electric Ind Co Ltd 反響信号除去装置
JPH07219961A (ja) * 1994-01-31 1995-08-18 Hitachi Ltd 音声対話システム
JPH09269889A (ja) * 1996-04-02 1997-10-14 Sharp Corp 対話装置
JPH1069292A (ja) * 1996-08-29 1998-03-10 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 発話関係認識装置
JP2000214882A (ja) * 1999-01-22 2000-08-04 Matsushita Electric Ind Co Ltd 子供や外国人話者の対処に苦慮する音声に対し、迅速に照合できる音声認識および音声学習装置
JP2001296879A (ja) * 2000-04-12 2001-10-26 Sharp Corp 感情喚起処理装置
JP2001306199A (ja) * 2000-04-17 2001-11-02 Sharp Corp ネットワーク機器制御装置
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP2003202895A (ja) * 2002-01-10 2003-07-18 Sony Corp 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム

Also Published As

Publication number Publication date
JP2005196134A (ja) 2005-07-21

Similar Documents

Publication Publication Date Title
JP4729902B2 (ja) 音声対話システム
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
KR101203188B1 (ko) 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
US7949530B2 (en) Conversation controller
US7949531B2 (en) Conversation controller
US11538478B2 (en) Multiple virtual assistants
JP3454897B2 (ja) 音声対話システム
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP3581881B2 (ja) 音声補完方法、装置および記録媒体
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
WO2002086864A1 (en) System and method for adaptive language understanding by computers
JP2013205842A (ja) プロミネンスを使用した音声対話システム
JP7036015B2 (ja) 対話制御装置および方法
JP2011504624A (ja) 自動同時通訳システム
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2010197644A (ja) 音声認識システム
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
Venkatagiri Speech recognition technology applications in communication disorders
US11670285B1 (en) Speech processing techniques
Schuller et al. Speech communication and multimodal interfaces

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees