JP6696923B2

JP6696923B2 - 音声対話装置、その処理方法及びプログラム

Info

Publication number: JP6696923B2
Application number: JP2017040580A
Authority: JP
Inventors: 達也河原; 高梨　克也; 克也高梨; 亮輔中西; 生聖渡部
Original assignee: Kyoto University; Toyota Motor Corp
Current assignee: Kyoto University; Toyota Motor Corp
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2020-05-20
Anticipated expiration: 2037-03-03
Also published as: US10452352B2; CN108630203A; US20180253280A1; EP3370230A1; EP3370230B1; CN108630203B; JP2018146715A

Description

本発明は、ユーザと音声対話を行う音声対話装置、その処理方法及びプログラムに関する。

対話間にフィラー語（場つなぎ語）を挿入して不自然に間延びしないようにする音声対話装置が知られている（特許文献１参照）。

特開２０１４−１９１０３０号公報

しかしながら、対話間の待ち時間が生じたときの場つなぎ語として、形式的なフィラー語を出力している。このため、そのフィラー語が対話内容に合わず、対話の自然性が損なわれる虞がある。

本発明は、このような問題点を解決するためになされたものであり、より自然な対話を行うことができる音声対話装置、その処理方法及びプログラムを提供することを主たる目的とする。

上記目的を達成するための本発明の一態様は、ユーザの音声を認識する音声認識手段と、前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置であって、前記応答文生成手段により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類手段を備え、前記出力手段が、第１の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第２の前記応答文を出力する場合において、前記分類手段は、前記第１の応答文を、前記発話パターンのうちのいずれかに分類し、前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー語を生成する、ことを特徴とする音声対話装置である。
本態様によれば、第１の応答文の発話パターンに応じてフィラー語を生成することで、その後のユーザの音声内容に対応した、最適なフィラー語を生成することができる。この最適なフィラー語を出力することで、より自然な対話を行うことができる。
この一態様において、前記発話パターンと、該発話パターンに対応付けられた特徴量の種類に関する情報と、を含むテーブル情報を記憶する記憶手段と、前記分類手段により分類された発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する特徴量算出手段と、を更に備え、前記フィラー生成手段は、前記特徴量算出手段により算出された特徴量に基づいて、前記フィラー語を生成してもよい。
これにより、第１の応答文を、所定の発話パターンのうちのいずれかに分類し、分類された発話パターンに対応した最適な先行又は後続の発話の特徴量を算出し、算出した特徴量を用いてその対話に最適なフィラー語を生成できる。
この一態様において、前記特徴量の種類に関する情報は、先行発話の韻律情報、先行発話の言語情報、後続発話の言語情報、及び、後続発話の韻律情報のうち少なくとも１つを含んでいてもよい。
これにより、処理負荷の軽減と適切なフィラー語の生成との両立を図り、対話のリズム及び自然性を向上させることができる。
この一態様において、前記記憶手段は、少なくとも１つの前記フィラー語を含み該フィラー語の系統を示すフィラー系に特徴量がそれぞれ対応付けられたフィラー形態情報を記憶しており、前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー系の数を絞り込み、該絞り込んだフィラー系の中から、前記特徴量算出手段により算出された特徴量に対応付けられ１つのフィラー系を選択し、該選択したフィラー系に含まれる前記フィラー語を選択することで、前記フィラー語を生成してもよい。
このように、事前にフィラー系の数を絞り込むことで、さらに処理負荷を軽減することができる。
上記目的を達成するための本発明の一態様は、ユーザの音声を認識する音声認識手段と、前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置の処理方法であって、前記出力手段が、第１の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第２の前記応答文を出力する場合において、前記第１の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類するステップと、前記分類された発話パターンに基づいて、前記フィラー語を生成するステップと、を含むことを特徴とする音声対話装置の処理方法であってもよい。
上記目的を達成するための本発明の一態様は、ユーザの音声を認識する音声認識手段と、前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置のプログラムであって、前記出力手段が、第１の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第２の前記応答文を出力する場合において、前記第１の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する処理と、前記分類された発話パターンに基づいて、前記フィラー語を生成する処理と、をコンピュータに実行させることを特徴とする音声対話装置のプログラムであってもよい。

本発明によれば、より自然な対話を行うことができる音声対話装置、音声対話方法及びプログラムを提供することができる。

本発明の一実施形態に係る音声対話装置の概略的なシステム構成を示すブロック図である。発話パターンの一例を示す図である。装置発話及びユーザ発話の一例を示す図である。先行の装置発話と後続のユーザ発話との対応の一例を示す図である。発話パターンと特徴量の種類とを対応づけたテーブル情報の一例である。フィラー系の一例を示す図である。本発明の一実施形態に係る音声対話装置の処理方法のフローを示すフローチャートである。

以下、図面を参照して本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る音声対話装置の概略的なシステム構成を示すブロック図である。本実施形態に係る音声対話装置１は、例えば、ロボット、ＰＣ（PersonalComputer）、携帯端末（スマートフォン、タブレットなど）等に搭載され、ユーザと対話を行う。

音声対話装置１は、例えば、ユーザの音声を認識する音声認識部２と、音声の構文を解析する構文解析部３と、ユーザの音声に対する応答文を生成する応答文生成部４と、フィラー語を生成するフィラー生成部５と、音声を出力する音声出力部６と、発話の分類を行う分類部７と、特徴量を算出する特徴量算出部８と、データを記憶する記憶部９と、を備えている。

なお、音声対話装置１は、例えば、演算処理等と行うＣＰＵ（Central Processing Unit）、ＣＰＵによって実行される演算プログラム等が記憶されたＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）からなるメモリ、外部と信号の入出力を行うインターフェイス部（Ｉ／Ｆ）、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。ＣＰＵ、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。

音声認識部２は、音声認識手段の一具体例である。音声認識部２は、例えば、マイクを介して入力されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。

例えば、音声認識部２は、マイクを介して入力されたユーザの音声情報をデジタル化する。音声認識部２は、そのデジタル化した情報から発話区間を検出し、検出した発話区間の音声情報に対して、統計言語モデルなどを参照してパターンマッチングを行うことで音声認識を行う。

ここで、統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、記憶部９などに予め記憶されている。音声認識部２は、ユーザの音声情報の各形態素に対してその品詞種類（名詞、形容詞、動詞、副詞など）を付加した品詞情報付き形態素情報を生成する。音声認識部２は、認識したユーザの音声情報を構文解析部３に出力する。

記憶部９は記憶手段の一具体例である。記憶部９は、例えば、メモリなどで構成されている。

構文解析部３は、音声認識部２により認識された音声情報の構文を解析する。構文解析部３は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構文解析部３は、文字列情報の解析結果（形態素情報、係り受け情報、認識結果のテキストなどを含む）を応答文生成部４に出力する。

応答文生成部４は、応答文生成手段の一具体例である。応答文生成部４は、構文解析部３により解析された音声情報の構文に基づいて、ユーザの音声情報に対する応答文を生成する。

応答文生成部４は、例えば、構文解析部３から出力される文字列情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。より、具体的には、応答文生成部４は、文字列情報「囲碁を打ちますよ。」から一つの述語項「囲碁を打つ」を抜き出す。構文解析部３は、抜き出した形態素列「囲碁を打つ」を特徴べクトルとし、ＳＶＭ（support vector machine）モデルを用いて、文字列情報を解析して予め定めた二つの分類のいずれかに属するかを判別する。

応答文生成部４は、文字列情報を解析した結果、予め定めた分類のうちの一方の分類に属すると判別された場合、応答文「いいですね。」を生成する。一方、応答文生成部４は、文字列情報を解析した結果、予め定めた分類のうちの他方の分類に属すると判別された場合、応答文「大変ですね。」を生成する。なお、上述した応答文の生成方法は一例であり、これに限定されず、予め定めた分類の数を増やすなど、任意の生成方法を用いることができる。また、応答文生成部４は、予め定めた分類を「ポジティブ」と「ネガティブ」のように感情として感情判別を行っても良い。応答文生成部４は、生成した応答文を音声出力部６に出力する。

フィラー生成部５は、フィラー生成手段の一具体例である。フィラー生成部５は、ユーザと音声対話装置１との対話間に挿入するフィラー語を生成する。フィラー語は、例えば「あのー」、「えーと」、「うーん」、等の、場つなぎ語である。フィラー生成部５は、生成したフィラー語を音声出力部６に出力する。

音声出力部６は、出力手段の一具体例である。音声出力部６は、応答文生成部４により生成された応答文及びフィラー生成部５により生成されたフィラー語を、音声で出力する。音声出力部６は、例えば、スピーカなどを用いてユーザに対して応答文及びフィラー語の音声を出力する。

音声出力部６は、例えば、フィラー生成部５により生成されたフィラー語と、応答文生成部４により生成された応答文と、に基づいて、フィラー語及び応答文の音声を合成し、合成した音声を出力する。音声出力部６は、予め記憶部９などに設定された音声ファイルを選択することで、フィラー語及び応答文の音声を出力してもよい。

ところで、従来の音声対話装置においては、例えば、対話間の待ち時間が生じたときの場つなぎ語として、形式的なフィラー語を出力している。このため、そのフィラー語が対話内容に合わず、対話の自然性が損なわれる虞がある。

これに対し、本実施形態に係る音声対話装置１は、応答文生成部４により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類部７を備えている。音声出力部６が、第１の応答文に続くユーザの音声後、フィラー語を出力し、第２の応答文を出力する。この場合において、分類部７は、第１の応答文を、発話パターンのうちのいずれかに分類する。フィラー生成部５は、分類部７により分類された発話パターンに基づいて、フィラー語を生成する。

第１の応答文の内容に応じて、後続のユーザの音声及び第２の応答文の内容は変化する。したがって、第１の応答文の発話パターンに基づいてフィラー語を生成することで、ユーザの音声及び第２の応答文の内容に対応した、最適なフィラー語を生成することができる。この最適なフィラー語を出力することで、より自然な対話を行うことができる。例えば、雑談時などにおいては、最適なフィラー語を出力することで、形式的なフィラー語とは異なる、人間らしい自然な場つなぎを行うことができる。

分類部７は、分類手段の一具体例である。分類部７は、音声出力部６により出力される応答文（以下、装置発話）及びユーザの音声（以下、ユーザ発話）を、複数の発話パターンのうちのいずれかに分類する。発話パターンは、予め設定され発話の種類を示すものである。

発話パターンは、例えば、ユーザ又は音声対話装置１が行う対話行為に基づいて、複数のパターンに分類されており、記憶部９などに設定されている。対話行為は、ユーザ発話と装置発話の関係性を示したものである。

発話パターンは、例えば、図２に示す如く、（１）真偽を問う質問パターン「Yes／No質問パターン」、（２）集合の中から選ぶ質問パターン「Wh（When、Where、What、Why）質問パターン」、（３）回答、同意、受諾などを含むパターン「回答パターン」、（４）自己開示、依頼などを含むパターン「開示パターン」、（５）挨拶、導入などを含むパターン「それ以外パターン」、などに分類される。なお、この発話パターンは一例であり、これに限定されない。

図３は、装置発話及びユーザ発話の一例を示す図である。図３において、装置発話及びユーザ発話が時系列に並べられている。時刻Ｔ−３〜Ｔ−１は現在時刻Ｔ前の過去の装置発話及びユーザ発話（先行発話）であり、時刻Ｔ＋１〜Ｔ＋３は現在時刻Ｔ後の装置発話及びユーザ発話（後続発話）である。

例えば、図３に示す如く、分類部７は、時刻Ｔ−３〜Ｔ＋３までのユーザ発話及び装置発話に基づいて、ルールベースや分類モデルを用いて、ユーザ発話及び装置発話を分類できる。より具体的には、分類部７は、時刻Ｔの装置発話「何か趣味はありますか？」を、ユーザへの「Wh質問パターン」に分類し、それに続く時刻Ｔ＋１のユーザ発話「囲碁を打ちますよ。」を、「回答パターン」に分類する。分類部７は、その後、状態系列推定モデル（条件付き確率場）などを用いて、さらに続く時刻Ｔ＋３の装置発話「いいですね」を「回答パターン」に分類する。

分類部７は、先行するユーザ発話と、それに続く装置発話とを組み合わせて分類を行ってもよい。例えば、発話パターンが「yes/no質問パターン」である場合、それに続く発話パターンは「回答パターン」に必然的に決まる。したがって、分類部７は、先行するユーザ発話が「yes/no質問パターン」である場合、それに続く装置発話を「回答パターン」に分類する。同様に、分類部７は、先行するユーザ発話が「回答パターン」である場合、それに続く装置発話を「回答パターン」に分類する。

分類部７は、ルールベースを用いて、先行の装置発話に応じて、その後続のユーザ発話を分類してもよい。例えば、図４に示す如く、分類部７は、ルールベースを用いて、時刻Ｔの装置発話が「yes/no質問パターン」あるいは「wh質問パターン」の場合、時刻Ｔ＋１のユーザ発話を「回答パターン」に分類する。同様に、分類部７は、ルールベースを用いて、時刻Ｔの装置発話が「回答パターン」の場合、時刻Ｔ＋１のユーザ発話を「開示パターン」に分類する。

分類部７は、事前に品詞とその系列、述語項とその系列、及び、正解となる分類を付与したデータに基づいて分類モデルを学習し、その学習結果を用いて時刻Ｔ＋1のユーザ発話を分類してもよい。分類部７は、Ｔ−３〜Ｔ＋１発話までの系列に基づいて、時刻Ｔ＋２の装置発話の分類を行うことができる。

特徴量算出部８は、特徴量算出手段の一具体例である。特徴量算出部８は、分類部７により分類された第１の応答文（装置発話）の発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する。

ここで、対話シーンによって、その対話間に挿入する最適なフィラー形態は異なる。例えば、時刻Ｔの第１の応答文に続く時刻Ｔ＋１のユーザの音声後、時刻Ｔ＋２のフィラー語を出力し、時刻Ｔ＋３の第２の応答文を出力する対話シーンでは、第１の応答文の内容によって、その後に挿入する最適なフィラー形態は異なる。さらに、その最適なフィラー形態を判別するのに最適な特徴の捉え方も異なる。

例えば、真偽を問う「yes／No質問パターン」の後に挿入するフィラー形態は、先行発話の韻律情報（発話長など）が深くかかわる。このため、先行発話の韻律情報の特徴を捉え、その特徴に合ったフィラー形態を選択し、フィラー語を生成することが、より自然な対話を行う上で特に有効となる。

したがって、特徴量算出部８は、分類部７により分類された第１の応答文の発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する。フィラー生成部５は、特徴量算出部８により算出された特徴量に応じて、最適なフィラー語を生成する。

これにより、第１の応答文を、所定の発話パターンのうちのいずれかに分類し、分類された発話パターンに対応した最適な先行又は後続の発話の特徴量を算出し、算出した特徴量を用いてその対話に最適なフィラー語を生成できる。

発話パターンには、例えば、図５に示す如く、特徴量の種類に関する情報が対応付けられている。図５は、発話パターンと特徴量の種類と、を対応づけたテーブル情報の一例である。テーブル情報は、記憶部９などに予め設定されている。なお、図５に示すテーブル情報は一例であり、これに限定されない。

図５において、例えば、「Yes／No質問パターン」は、「先行発話の韻律情報」に対応付けられ、「Wh質問パターン」は、「先行発話の韻律情報」及び「先行発話の言語情報」に対応付けられ、「回答パターン」は、「後続発話の言語情報」に対応付けられている。

ここで、「先行発話の韻律情報」は、先行発話における、例えば、音声の発話末の所定時間（１００msec程度）におけるＦ０（基本周波数）、パワーの最大値、最小値、平均、一次回帰係数（傾き）、発話長、ポーズ長、話速などを含む。

「先行発話の言語情報」は、先行発話における、例えば、発話末の品詞、発話末の節境界ラベル、単語数、文節数などを含む。節境界ラベルは、節境界直後の切れ目の大きさという観点から、「思います」などの絶対境界、「けれども」などの強境界、「なら」などの弱境界、という３つのレベルに区分されている。「後続発話の言語情報」では、後続発話における、冒頭発話の品詞、単語数、文節数などを含む。

特徴量算出部８は、分類部７により分類された発話パターンと、記憶部９のテーブル情報と、に基づいて、分類された発話パターンに対応する特徴量（特徴ベクトル）を算出する。特徴量算出部８は、音声認識部２からのユーザの音声情報、構文解析部３からの文字列情報、応答文生成部４からの応答文（テキストデータ）などに基づいて、先行発話の韻律情報、先行発話の言語情報、及び後続発話の言語情報の特徴ベクトルを算出する。

例えば、特徴量算出部８は、記憶部９のテーブル情報に基づいて、分類部７により分類された発話パターン「回答パターン」に対応する「後続発話の言語情報」（冒頭発話の品詞、単語数、文節数など）の特徴ベクトルを算出する。

図５に示す如く、１つの発話パターンに複数の特徴量の種類に関する情報が対応付けられていてもよい。例えば、発話パターン「Wh質問パターン」には、先行発話の韻律情報及び先行発話の言語情報が対応付けられている。この場合、特徴量算出部８は、記憶部９のテーブル情報に基づいて、分類部７により分類された発話パターン「Wh質問パターン」に対応する、「先行発話の韻律情報」の特徴ベクトルと、「先行発話の言語情報」の特徴ベクトルと、を夫々算出し、これら特徴ベクトルを統合した特徴ベクトルを算出する。

ここで、後続発話の言語情報に基づいた処理は、後続であり構文解析を行うため、処理負荷が高くリードタイムが大きくなる（５秒程度）。同様に、先行発話の言語情報に基づいた処理も、構文解析を行うため、処理負荷が高くリードタイムが大きくなる（４秒程度）。これらの高処理負荷によって対話のリズムや自然性が低下する虞がある。このため可能であれば先行発話の韻律情報のみに基づいた処理が好ましい。しかし、適切なフィラー語を生成するためには言語情報を利用した方が良い場合もある。

したがって、本実施形態においては、処理負荷の軽減と適切なフィラー語の生成との両立を図るように、テーブル情報において、「韻律情報」及び「言語情報」の対応付けを行っている。これにより、処理負荷の軽減と適切なフィラー語の生成との両立を図り、対話のリズム及び自然性を向上させることができる。

上述の如く、発話の特徴量は、言語情報における言語的特徴（品詞列等）と、韻律情報における音響的特徴（ピッチ等）と、に大別することができる。言語的特徴は、上述の如く、処理負荷が高く出力に時間がかかる。このため、本実施形態においては、主として音響的特徴を用いつつ、適宜、言語的特徴を用いている。これにより発話の特徴を効果的に捉え最適なフィラー語を生成しつつ、同時に処理負荷の軽減を図ることができる。

フィラー生成部５は、特徴量算出部８により算出された特徴量に基づいて、フィラー語を生成する。フィラー生成部５は、例えば、予め設定されたフィラー形態情報を用いて、フィラー語を生成する。

フィラー形態情報は、例えば、記憶部９などに予め設定されている。フィラー形態情報において、例えば、図６に示す、フィラー語の各系統「以下、フィラー系」に特徴量がそれぞれ対応付けられている。フィラー系は、固有系、応答詞系、指示詞系、副詞系、気づき系、その他、なし、などを含む。

各フィラー系には、単数あるいは複数のフィラー語が対応付けられている。例えば、固有系には、フィラー語「えっと」、「えー」などが対応付けられている。各フィラー系と特徴量とは、決定木の組み合わせのような構造をもつRandom forestなどの学習器を用いて、対応付けられるのが好ましい。なお、ロジスティック回帰などの学習器を用いてもよく、任意の学習器を用いることができる。

フィラー生成部５は、特徴量算出部８により算出された特徴量と、記憶部９のフィラー形態情報と、に基づいて、算出された特徴量に対応付けられたフィラー系を選択し、さらに、該フィラー系の中から１つのフィラー語を選択することで、フィラー語を生成する。これにより、対話シーンの特徴を示す特徴量を用いて、その対話シーンに合わせたフィラー形態を選択でき、選択したフィラー形態を基づいて最適なフィラー語を生成できる。

フィラー生成部５は、例えば、選択したフィラー系の中から１つのフィラー語をランダムに選択する。フィラー生成部５は、選択したフィラー系の中から、所定の優先順位に従って、１つのフィラー語を選択してもよく、選択方法は任意でよい。

フィラー生成部５は、特徴量算出部８により算出された特徴量と、記憶部９のフィラー形態情報と、に基づいて、７種類のフィラー系の中から、特徴量に対応付けられ１つのフィラー系を選択しているが、これに限定されない。フィラー生成部５は、分類部７により分類された発話パターンに基づいて、フィラー系の数を絞り込み、絞り込んだ各フィラー系の中から、特徴量に対応付けられ１つのフィラー系を選択し、フィラー語を生成してもよい。このように、事前にフィラー系の数を絞り込むことで、さらに処理負荷を軽減することができる。

例えば、発話パターンが「回答」である場合、必然的に、それに対する最適なフィラー系は、予め４種類のフィラー系（固有系、副詞系、その他、なし）に絞り込むことができる。したがって、フィラー生成部５は、分類部７により分類された発話パターン「回答」に基づいて、７種類のフィラー系を４種類のフィラー系（固有系、副詞系、その他、なし）に絞り込み、絞り込んだフィラー系の中から、特徴量に対応付けられた１つのフィラー系を選択し、フィラー語を生成する。例えば、発話パターンに、絞り込んだフィラー系を対応づけた情報が記憶部９などに設定されている。フィラー生成部５は、記憶部９のこの情報に基づいて、上記フィラー系の絞り込みを行ってもよい。

フィラー生成部５は、特徴量算出部８により算出された特徴量と、記憶部９のフィラー形態情報と、に基づいて、１つのフィラー系「なし」を選択した場合、フィラー語を生成しない。この場合、フィラー語は出力されない。これは、フィラー語を出力しないことがその対話のシーンに合っているという意味である。

フィラー生成部５は、上述のように生成したフィラー語を音声出力部６に出力する。音声出力部６は、例えば、フィラー生成部５により生成された時刻Ｔ＋２のフィラー語を出力し、応答文生成部４により生成された時刻Ｔ＋３の応答文を出力する。

図７は、本実施形態に係る音声対話装置の処理方法のフローを示すフローチャートである。
分類部７は、記憶部９のテーブル情報に基づいて、応答文生成部により生成された第１の応答文を、テーブル情報に設定された発話パターンのうちのいずれかに分類する（ステップＳ１０１）。

特徴量算出部８は、分類部７により分類された発話パターンと、記憶部９のテーブル情報と、に基づいて、分類された発話パターンに対応する特徴量の種類の特徴ベクトルを算出する（ステップＳ１０２）。

フィラー生成部５は、特徴量算出部８により算出された特徴ベクトルと、記憶部９のフィラー形態情報と、に基づいて、フィラー形態情報に設定された複数のフィラー系の中から、１つのフィラー系を選択し、さらに、該フィラー系の中からフィラー語を選択することで、フィラー語を生成する（ステップＳ１０３）。

音声出力部６は、フィラー生成部５により生成されたフィラー語を出力する（ステップＳ１０４）。

以上、本実施形態に係る音声対話装置１は、応答文生成部４により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類部７を備えている。音声出力部６が、第１の応答文に続くユーザの音声後、フィラー語を出力し、第２の応答文を出力する。この場合において、分類部７は、第１の応答文を、発話パターンのうちのいずれかに分類する。フィラー生成部５は、分類部７により分類された発話パターンに基づいて、フィラー語を生成する。

第１の応答文の発話パターンに応じてフィラー語を生成することで、その後のユーザの音声内容に対応した、最適なフィラー語を生成することができる。この最適なフィラー語を出力することで、より自然な対話を行うことができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

上記実施形態において、出力手段として、音声を出力する音声出力部６が適用されているが、これに限定されない。出力手段として、例えば、文字を出力する表示部が適用されてもよい。

本発明は、例えば、図７に示す処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１音声対話装置、２音声認識部、３構文解析部、４応答文生成部、５フィラー生成部、６音声出力部、７分類部、８特徴量算出部、９記憶部

Claims

ユーザの音声を認識する音声認識手段と、
前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、
前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、
前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、
を備える音声対話装置であって、
前記応答文生成手段により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類手段を備え、
前記出力手段が、第１の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第２の前記応答文を出力する場合において、
前記分類手段は、前記第１の応答文を、前記発話パターンのうちのいずれかに分類し、
前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー語を生成する、
ことを特徴とする音声対話装置。
請求項１記載の音声対話装置であって、
前記発話パターンと、該発話パターンに対応付けられた特徴量の種類に関する情報と、を含むテーブル情報を記憶する記憶手段と、
前記分類手段により分類された発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する特徴量算出手段と、
を更に備え、
前記フィラー生成手段は、前記特徴量算出手段により算出された特徴量に基づいて、前記フィラー語を生成する、
を特徴とする音声対話装置。
請求項２記載の音声対話装置であって、
前記特徴量の種類に関する情報は、先行発話の韻律情報、先行発話の言語情報、後続発話の言語情報、及び、後続発話の韻律情報のうち少なくとも１つを含む、
ことを特徴とする音声対話装置。
請求項２又は３記載の音声対話装置であって、
前記記憶手段は、少なくとも１つの前記フィラー語を含み該フィラー語の系統を示すフィラー系に特徴量がそれぞれ対応付けられたフィラー形態情報を記憶しており、
前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー系の数を絞り込み、該絞り込んだフィラー系の中から、前記特徴量算出手段により算出された特徴量に対応付けられ１つのフィラー系を選択し、該選択したフィラー系に含まれる前記フィラー語を選択することで、前記フィラー語を生成する、
ことを特徴とする音声対話装置。
ユーザの音声を認識する音声認識手段と、
前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、
前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、
前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置の処理方法であって、
前記出力手段が、第１の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第２の前記応答文を出力する場合において、
前記第１の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類するステップと、
前記分類された発話パターンに基づいて、前記フィラー語を生成するステップと、
を含む
ことを特徴とする音声対話装置の処理方法。
ユーザの音声を認識する音声認識手段と、
前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、
前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、
前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置のプログラムであって、
前記出力手段が、第１の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第２の前記応答文を出力する場合において、
前記第１の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する処理と、
前記分類された発話パターンに基づいて、前記フィラー語を生成する処理と、
をコンピュータに実行させることを特徴とする音声対話装置のプログラム。