JP7151181B2

JP7151181B2 - 音声対話システム、その処理方法及びプログラム

Info

Publication number: JP7151181B2
Application number: JP2018104982A
Authority: JP
Inventors: 生聖渡部; 佐和樋口; 達朗堀
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2022-10-12
Anticipated expiration: 2038-05-31
Also published as: US11270691B2; JP2019211515A; CN110634479B; US20190371302A1; CN110634479A

Description

本発明は、ユーザと音声対話を行う音声対話システム、その処理方法及びプログラムに関する。

ユーザの音声を認識し、該音声に含まれる単語が、登録された単語と一致する場合、その音声を聞返しとして検出する音声対話システムが知られている（特許文献１参照）。ユーザの音声に含まれる感動詞に基づいて、聞返しを検出する音声対話システムが知られている（特許文献２参照）。

特開２０１４－０９５７５３号公報特開２０１０－２１７５０２号公報

上記特許文献１に示す音声対話システムにおいては、音声認識に時間がかかるだけでなく、登録されていない単語に関して聞返しを検出できないという問題がある。上記特許文献２に示す音声対話システムにおいては、聞返しを検出できる音声が、感動詞を含む音声に限られ、非常に限定されたものとなってしまうという問題がある。

本発明は、このような問題点を解決するためになされたものであり、聞返し用の単語を登録しておく必要もなく、感動詞を含まない幅広い音声に対しても聞返しを検出できる音声対話システム、その処理方法及びプログラムを提供することを主たる目的とする。

上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムであって、
前記音声対話の話題を推定し、該推定した話題の変化を検出する話題検出手段と、
前記話題検出手段により前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出する聞返し検出手段と、
を備える、ことを特徴とする音声対話システム
である。
この一態様において、前記ユーザの音声の韻律情報を分析し、該韻律の変化量を検出する韻律検出手段を更に備え、前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記韻律検出手段により検出された韻律の変化量が所定量以上である場合に、前記ユーザの音声を該ユーザによる聞返しとして検出してもよい。
この一態様において、前記韻律情報を入力とし、前記聞返し検出を出力として、前記韻律情報と前記聞返し検出との関係を機械学習する学習手段を備え、前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記ユーザの音声の韻律情報が前記学習手段により入力され該学習手段が前記聞返し検出を出力した場合に、前記ユーザの音声を該ユーザによる聞返しとして検出してもよい。
この一態様において、前記聞返し検出手段により聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する応答文生成手段を更に備え、前記応答文生成手段は、前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成してもよい。
上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムの処理方法であって、
前記音声対話の話題を推定し、該推定した話題の変化を検出するステップと、
前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出するステップと、
を含む、ことを特徴とする音声対話システムの処理方法
であってもよい。
上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムのプログラムであって、
前記音声対話の話題を推定し、該推定した話題の変化を検出する処理と、
前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出する処理と、
をコンピュータに実行させる、ことを特徴とする音声対話システムのプログラム
であってもよい。

本発明によれば、聞返し用の単語を登録しておく必要もなく、感動詞を含まない幅広い音声に対しても聞返しを検出できる音声対話システム、その処理方法及びプログラムを提供することができる。

本発明の実施形態１に係る音声対話システムの概略的なシステム構成を示すブロック図である。韻律の変化を示す図である。テーブル情報の一例を示す図である。本発明の実施形態１に係る音声対話システムの処理方法のフローを示すフローチャートである。本発明の実施形態２に係る音声対話システムの概略的なシステム構成を示すブロック図である。本発明の実施形態２に係る音声対話システムの処理方法のフローを示すフローチャートである。

実施形態１
以下、図面を参照して本発明の実施形態について説明する。
図１は、本発明の実施形態１に係る音声対話システムの概略的なシステム構成を示すブロック図である。本実施形態１に係る音声対話システム１は、例えば、ロボット、ＰＣ（Personal Computer）、携帯端末（スマートフォン、タブレットなど）、ナビゲーション装置等に搭載され、ユーザと対話を行う。

ここで、ユーザは、音声対話システム１と音声対話を行う際、音声対話システム１の音声を聞き取れなかった場合に、例えば、「もう一回言って？」などの、その音声を聞き返すこと（以下、聞返し）を行う。本実施形態１に係る音声対話システム１は、このようなユーザの「聞返し」を検出するものである。

本実施形態１に係る音声対話システム１は、ユーザの音声を認識する音声認識部２と、音声の構文を解析する構文解析部３と、ユーザの音声に対する応答文を生成する応答文生成部４と、音声を出力する音声出力部５と、ユーザの音声の韻律の変化量を検出する韻律検出部６と、話題の変化を検出する話題検出部７と、ユーザによる聞返しを検出する聞返し検出部８と、を備えている。

なお、音声対話システム１は、例えば、演算処理等と行うＣＰＵ（Central Processing Unit）、ＣＰＵによって実行される演算プログラム等が記憶されたＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）からなるメモリ、外部と信号の入出力を行うインターフェイス部（Ｉ／Ｆ）、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。ＣＰＵ、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。

音声認識部２は、例えば、マイクを介して入力されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。

例えば、音声認識部２は、マイクを介して入力されたユーザの音声情報をデジタル化する。音声認識部２は、そのデジタル化した情報から発話区間を検出し、検出した発話区間の音声情報に対して、統計言語モデルなどを参照してパターンマッチングを行うことで音声認識を行う。

ここで、統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、メモリなどに予め記憶されている。音声認識部２は、ユーザの音声情報の各形態素に対してその品詞種類（名詞、形容詞、動詞、副詞など）を付加した品詞情報付き形態素情報を生成する。音声認識部２は、認識したユーザの音声情報を構文解析部３に出力する。

構文解析部３は、音声認識部２により認識された音声情報の構文を解析する。構文解析部３は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構文解析部３は、文字列情報の解析結果（形態素情報、係り受け情報、認識結果のテキストなどを含む）を応答文生成部４に出力する。

応答文生成部４は、構文解析部３により解析された音声情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。

応答文生成部４は、例えば、構文解析部３から出力される文字列情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。より具体的には、応答文生成部４は、文字列情報「囲碁を打ちますよ。」から一つの述語項「囲碁を打つ」を抜き出す。構文解析部３は、抜き出した形態素列「囲碁を打つ」を特徴べクトルとし、ＳＶＭ（support vector machine）モデルを用いて感情判別（ネガティブ及びポジティブ）を行う。

応答文生成部４は、感情判別結果がポジティブである場合、応答文「いいですね。」を生成する。一方、応答文生成部４は、感情判別結果がネガティブである場合、応答文「大変ですね。」を生成する。なお、上述した応答文の生成方法は一例であり、これに限定されず、任意の生成方法を用いることができる。応答文生成部４は、生成した応答文を音声出力部５に出力する。

音声出力部５は、応答文生成部４により生成された応答文を、音声で出力する。音声出力部５は、例えば、スピーカなどを用いてユーザに対して応答文の音声を出力する。

ところで、従来の音声対話システムにおいては、音声認識に時間がかかるだけでなく、登録されていない単語に関して聞返しを検出できないという問題がある。また、従来の音声対話システムにおいては、聞返しを検出できる音声が、感動詞を含む音声に限られ、非常に限定されたものとなってしまうという問題がある。

これに対し、本実施形態１に係る音声対話システム１は、話題検出部７により話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。

音声対話の話題の変化時には、ユーザはその音声を聞き取り難く、聞返しが発生し易い。さらに、聞返しの音声は、特徴的な韻律変化がある。本実施形態１に係る音声対話システム１は、これら特性を踏まえて、上述の如く、話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。これにより、上述のような聞返し用の単語を予め登録しておく必要もなく、感動詞を含まない幅広い音声に対しても聞返しを検出できる。

また、話題変化及び韻律情報に基づいて聞返しの検出を行うことで、処理遅延が生じ難く、聞返しの言葉や音声認識の精度に依存せず、聞返しの検出精度を向上させることができる。

韻律検出部６は、韻律検出手段の一具体例である。韻律検出部６は、例えば、マイクを介して入力されたユーザの音声の韻律情報を分析し、韻律の変化量を検出する。ここで、ユーザの音声が聞返しの場合、その音声の句末に特徴が現れる。したがって、韻律検出部６は、例えば、ユーザの音声の句末の、所定期間を２分割し、その前半区間の音声高さの平均値とその後半区間の音声高さの平均値との差分（又は傾き）を、韻律の変化量として検出する。

より具体的には、韻律検出部６は、図２に示す如く、ユーザの音声「山に行ってね」の終わりの１００ミリ秒間の音声高さの平均値と、その直前の１００ミリ秒間の音声高さの平均値との差分を、韻律の変化量として検出する。韻律検出部６は、検出した韻律の変化量を聞返し検出部８に出力する。

話題検出部７は、話題検出手段の一具体例である。話題検出部７は、応答文生成部４により生成された応答文中に出現する単語に基づいて、音声対話の話題を推定する。話題検出部７は、応答文中の単語と、予めメモリに設定されたテーブル情報と、を照らし合わせて話題を推定する。

テーブル情報には、図３に示す如く、話題と、その話題に含まれる単語とが対応付けられている。話題検出部７は、テーブル情報の話題の中から、最も多くのテーブル情報の単語が出現した話題を推定する。なお、話題検出部７は、出現した単語数が同数の場合、テーブル情報において、上位の話題を推定してもよい。

例えば、話題検出部７は、応答文「朝ごはんをいっぱい食べたよ」中の単語「朝ごはん」、「いっぱい」、「食べたよ」と、テーブル情報と、を照らし合わせる。話題検出部７は、テーブル情報の話題「食事」、「健康」、「家族」の中から、最も多くのテーブル情報の単語「朝ごはん」、「食べる」が出現した話題「食事」を推定する。なお、上述した話題検出部７の推定方法は一例であり、これに限定されない。

話題検出部７は、マイクを介して入力されたユーザの音声中に出現する単語に基づいて、音声対話の話題を推定してもよい。話題検出部７は、ユーザの音声中の単語と、予めメモリに設定されたテーブル情報と、を照らし合わせて話題を推定する。

話題検出部７は、上述の如く、音声対話の話題を推定し、該推定した話題の変化を検出する。話題検出部７は、例えば、推定した話題が「食事」から「健康」に変化した場合、その話題の変化を検出する。

聞返し検出部８は、聞返し検出手段の一具体例である。聞返し検出部８は、上述の如く、話題検出部７により話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。

ここで、ユーザの音声が聞返しの場合、図２に示す如く、その音声の句末において、韻律の変化量が大きくなる。これは、聞返しの場合、例えば、質問口調になるため音声の句末で音声が高くなるからである。

したがって、聞返し検出部８は、例えば、話題検出部７により話題の変化が検出され、かつ、韻律検出部６により検出された韻律の変化量が所定量以上で高い場合に、ユーザの音声を該ユーザによる聞返しとして検出する。上記所定量は、予め、聞返し時の音声句末における韻律の変化量が実験的に求められ、メモリに設定されている。聞返し検出部８は、聞返しを検出すると、その結果を示す検出信号を応答文生成部４に対して出力する。

応答文生成部４は、応答文生成手段の一具体例である。応答文生成部４は、聞返し検出部８から検出信号を受けると、そのユーザによる聞返しの音声の直前に出力した応答文に基づいて、聞返し用の応答文を生成する。応答文生成部４は、例えば、そのユーザによる聞返しの音声の直前に出力した応答文をそのまま、聞返し用の応答文として再生成する。これにより、聞返し用の応答文を簡易に生成できる。

ここで、聞返し用の応答文中にユーザにとって聞き取り難い単語が含まれている場合、その応答文を繰り返しても、やはり聞き取り難いという状況は変わらない虞がある。

これに対し、応答文生成部４は、聞返し直前にユーザに応答した応答文において、ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる聞返し用の応答文を生成する。

例えば、応答文生成部４は、聞返し直前の応答文「岐阜へゴルフに行ったよ」に対し、出現頻度が第１所定値以下の単語「ゴルフ」のみからなる聞返し用の応答文「ゴルフ」を生成する。

ユーザとの音声対話の履歴（以下、音声対話履歴）において出現頻度が低い単語は、ユーザにとって聞き慣れない単語であり、聞き取り難い単語と推定できる。したがって、応答文生成部４は、聞返し直前の応答文において、ユーザとの音声対話の履歴における出現頻度が第１所定値以下で低い単語が含まれる場合、その聞き取り難い単語のみからなる聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難い単語のみを抜出し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。

音声対話履歴は、ユーザと音声対話システム１とで行われた音声対話の履歴であり、複数の音声対話が含まれる。音声対話履歴は、メモリなどに逐次記憶されている。上記第１所定値は、例えば、予め、ユーザが聞き取り難いと判断されたときの単語の出現頻度が実験的に求められ、メモリに記憶されている。

応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれる場合、その応答文において、その単語を強調した聞返し用の応答文を生成してもよい。これにより、ユーザにとって、特に聞き取り難い単語を強調し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。

例えば、応答文生成部４は、聞返し直前の応答文において、その単語の音声速度を、該単語以外の単語の音声速度よりも低下させる。これにより、音声速度が遅い、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。

応答文生成部４は、聞返し直前の応答文において、その単語の音量を、該単語以外の単語の音量よりも大きくする。これにより、音量が大きい、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。上記音声速度及び音量は、予め、ユーザが聞き取り易い音声速度及び音量が実験的に求められ、メモリに設定されている。

応答文生成部４は、聞返し直前の応答文において、その単語と前後の単語との間隔を空ける。これにより、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。

さらに、応答文生成部４は、聞返し直前の応答文において、上記を任意に組み合わせて聞返し用の応答文を生成してもよい。例えば、応答文生成部４は、聞返し直前の応答文において、その単語の音声速度及び音量を、該単語以外の単語の音声速度及び音量よりも低下させた聞返し用の応答文を生成してもよい。

応答文生成部４は、生成した聞返し用の応答文を音声出力部５に出力する。音声出力部５は、応答文生成部４により生成された聞返し用の応答文を、音声で出力する。これにより、音声対話システム１は、ユーザからの聞返しに対して、的確に応答することができる。

図４は、本発明の実施形態１に係る音声対話システムの処理方法のフローを示すフローチャートである。韻律検出部６は、マイクを介して入力されたユーザの音声の韻律を分析し、韻律の変化量を検出する（ステップＳ１０１）。

話題検出部７は、音声対話の話題を推定し、該推定した話題の変化を検出する（ステップＳ１０２）。聞返し検出部８は、話題検出部７により話題の変化が検出され、かつ、韻律検出部６により検出された韻律の変化量が所定量以上である場合に、ユーザの音声を該ユーザによる聞返しとして検出する（ステップＳ１０３）。

聞返し検出部８が、聞返しを検出した場合（ステップＳ１０３のＹＥＳ）、応答文生成部４は、聞返し用の応答文を生成し（ステップＳ１０４）、生成した応答文を音声出力部５に出力し、後述の（ステップＳ１０８）に遷移する。

一方で、聞返し検出部８が、聞返しを検出しない場合（ステップＳ１０３のＮＯ）、音声認識部２は、ユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識し、認識したユーザの音声情報を構文解析部３に出力する（ステップＳ１０５）。

構文解析部３は、音声認識部２により認識された音声情報の構文を解析し、その解析結果を応答文生成部４に出力する（ステップＳ１０６）。応答文生成部４は、構文解析部３により解析された音声情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する（ステップＳ１０７）。音声出力部５は、応答文生成部４により生成された応答文を、音声で出力する（ステップＳ１０８）。

以上、本実施形態１に係る音声対話システム１は、話題検出部７により話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。これにより、聞返し用の単語を予め登録しておく必要もなく、感動詞を含まない幅広い音声に対しても聞返しを検出できる。

実施形態２
図５は、本発明の実施形態２に係る音声対話システムの概略的なシステム構成を示すブロック図である。本実施形態２に係る音声対話システム２０は、ユーザの音声の韻律情報を入力とし、聞返し検出を出力として、ユーザの音声の韻律情報と聞返し検出との関係を機械学習する学習部９を更に備えている。

学習部９は、学習手段の一具体例である。学習部９は、入力としての聞返しの時のユーザの音声の韻律情報と、出力としての聞返し検出と、を対応付けた学習データで予め学習する。学習部９は、例えば、ＲＮＮ（Recurrent neural Network）などのニューラルネットワークで構成されている。このＲＮＮは、中間層にＬＳＴＭ（Long Short Term Memory）を有している。学習部９により、聞返し時におけるユーザの音声の韻律変化を学習し、その特性を捉えることで、より高精度に聞返しを検出できる。

上記学習部９の構成は、例えば、Towards a General, Continuous Model of Turn-taking in Spoken Dialogue using LSTM Recurrent Neural Networks, Sigdial 2017,に詳細に開示されており、これを援用できるものとする。

学習部９は、ニューラルネットワークの代わりに、ＳＶＭ（Support Vector Machine）などの他の学習器で構成されてもよい。

話題検出部７は、応答文生成部４により生成された応答文の単語ベクトルに基づいて、その単語の上位概念語を特定し、話題を推定してもよい。これにより、テーブル情報にない、未知の話題を推定できる。

上記推定方法は、「上位語・下位語の射影関係とそのクラスタの同時学習、山根丈亮、高谷智哉、山田整、三輪誠、佐々木裕、第２２回言語処理学会年次大会、Ｂ３－４、仙合、２０１６」に詳細に開示されており、これを援用できるものとする。

なお、音声対話システム１が主体となってユーザとの対話を進める場合がある。この場合、音声対話システム１には、ユーザと音声対話を行う話題が予め設定されている。したがって、話題検出部７は、予め設定されたその音声対話の話題を推定してもよい。これにより、確実に音声対話の話題を推定できる。

話題検出部７は、上述の如く、音声対話の話題を推定し、該推定した話題の変化を検出する。聞返し検出部８は、話題検出部７により話題の変化が検出され、かつ、韻律検出部６からユーザの音声の韻律情報が学習部９により入力され、該学習部９が聞返し検出を出力した場合に、ユーザの音声を該ユーザによる聞返しとして検出する。

図６は、本発明の実施形態２に係る音声対話システムの処理方法のフローを示すフローチャートである。学習部９は、聞返しの時のユーザの音声の韻律情報と、聞返し検出と、を対応付けた学習データで学習する（ステップＳ２０１）。

韻律検出部６は、マイクを介して入力されたユーザの音声の韻律を分析し、韻律情報（韻律の変化量など）を検出する（ステップＳ２０２）。話題検出部７は、応答文生成部４により生成された応答文の単語ベクトルに基づいて、その単語の上位概念語を特定し、話題を推定し、該推定した話題の変化を検出する（ステップＳ２０３）。

ユーザの音声の韻律情報が、韻律検出部６から学習部９に入力される（ステップＳ２０４）。聞返し検出部８は、話題検出部７により話題の変化が検出され、かつ、学習部９が聞返し検出を出力した場合に、ユーザの音声を該ユーザによる聞返しとして検出する（ステップＳ２０５）。

聞返し検出部８が、聞返しを検出した場合（ステップＳ２０５のＹＥＳ）、応答文生成部４は、聞返し用の応答文を生成し（ステップＳ２０６）、生成した応答文を音声出力部５に出力し、後述の（ステップＳ２１０）に遷移する。

聞返し検出部８が、聞返しを検出しない場合（ステップＳ２０５のＮＯ）、音声認識部２は、ユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識し、認識したユーザの音声情報を構文解析部３に出力する（ステップＳ２０７）。

構文解析部３は、音声認識部２により認識された音声情報の構文を解析し、その解析結果を応答文生成部４に出力する（ステップＳ２０８）。応答文生成部４は、構文解析部３により解析された音声情報の構文に基づいて、ユーザの音声情報に対する応答文を生成する（ステップＳ２０９）。音声出力部５は、応答文生成部４により生成された応答文を、音声で出力する（ステップＳ２１０）。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

本発明は、例えば、図４及び図６に示す処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１音声対話システム、２音声認識部、３構文解析部、４応答文生成部、５音声出力部、６韻律検出部、７話題検出部、８聞返し検出部、９学習部、２０音声対話システム

Claims

ユーザと音声対話を行う音声対話システムであって、
前記音声対話の話題を推定し、該推定した話題の変化を検出する話題検出手段と、
前記話題検出手段により前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出する聞返し検出手段と、
前記聞返し検出手段により聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する応答文生成手段と、
を備え、
前記応答文生成手段は、前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システム。
請求項１記載の音声対話システムであって、
前記ユーザの音声の韻律情報を分析し、該韻律の変化量を検出する韻律検出手段を更に備え、
前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記韻律検出手段により検出された韻律の変化量が所定量以上である場合に、前記ユーザの音声を該ユーザによる聞返しとして検出する、
ことを特徴とする音声対話システム。
請求項１記載の音声対話システムであって、
前記韻律情報を入力とし、前記聞返し検出を出力として、前記韻律情報と前記聞返し検出との関係を機械学習する学習手段を備え、
前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記ユーザの音声の韻律情報が前記学習手段により入力され該学習手段が前記聞返し検出を出力した場合に、前記ユーザの音声を該ユーザによる聞返しとして検出する、
ことを特徴とする音声対話システム。
ユーザと音声対話を行う音声対話システムの処理方法であって、
前記音声対話の話題を推定し、該推定した話題の変化を検出するステップと、
前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出するステップと、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成するステップと、
を含み、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムの処理方法。
ユーザと音声対話を行う音声対話システムのプログラムであって、
前記音声対話の話題を推定し、該推定した話題の変化を検出する処理と、
前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出する処理と、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する処理と、
をコンピュータに実行させ、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムのプログラム。