JP6840862B2

JP6840862B2 - 発話文生成システム及び発話文生成プログラム

Info

Publication number: JP6840862B2
Application number: JP2019554224A
Authority: JP
Inventors: 唯子角森
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2017-11-16
Filing date: 2018-11-13
Publication date: 2021-03-10
Anticipated expiration: 2038-11-13
Also published as: US20210133398A1; US11055495B2; JPWO2019098185A1; WO2019098185A1

Description

本発明は、発話文生成システム及び発話文生成プログラムに関する。

ユーザと対話を行うシステムが知られている。このようなシステムでは、雑多な話題に対応可能とされており、ユーザからの発話の入力に応じて、適切な発話文を出力する。例えば、ＷｅｂやＳＮＳ等から取得した語句及び文章から適切なものを抽出して、ユーザに応答するための適切な発話を構成するシステムが知られている（例えば、特許文献１参照）。

特開２０１４−２１９８７２号公報

しかしながら、Ｗｅｂ等から取得した文章等を用いて発話を構成すると、ユーザに対する応答内容が単調になる場合があった。また、応答内容が単調となることを改善すべく、複数の文章等を連結してユーザの応答に用いることが考えられるが、連結された発話文の長さが適切ではない場合に、単調さを解消できなかったり、冗長となったりすることがあった。

そこで、本発明は、上記問題点に鑑みてなされたものであり、複数の文を連結してユーザに応答するための発話文を生成するに際して、適切な長さの発話文を出力可能な発話文生成装置及び発話文生成プログラムを提供することを目的とする。

上記課題を解決するために、本発明の一形態に係る発話文生成装置は、ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムであって、ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報をユーザ発話に基づいて抽出する焦点抽出部と、焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定部と、興味状態に基づいて、連結させる発話文の数を決定する連結文数決定部と、連結文数決定部により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成部と、連結発話文を出力する発話文出力部と、を備える。

また、本発明の一形態に係る発話文生成プログラムは、コンピュータを、ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムとして機能させるための発話文生成プログラムであって、コンピュータに、ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報をユーザ発話に基づいて抽出する焦点抽出機能と、焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定機能と、興味状態に基づいて、連結させる発話文の数を決定する連結文数決定機能と、連結文数決定機能により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成機能と、連結発話文を出力する発話文出力機能と、を実現させる。

上記の形態によれば、ユーザ発話の話題を表す焦点情報が抽出され、焦点情報に対するユーザの興味の度合いに応じて、連結される文の数が決定される。これにより、ユーザの興味の度合いが反映された適切な長さの連結発話文が出力される。

複数の文を連結してユーザに応答するための発話文を生成するに際して、適切な長さの発話文を出力可能な発話文生成装置及び発話文生成プログラムを提供することが可能となる。

本実施形態の発話文生成装置を含む発話文生成システムの機能的構成を示すブロック図である。発話文生成装置のハードブロック図である。連結文数テーブルの構成及び記憶されているデータの例を示す図である。図４（ａ）は、発話文ＤＢに記憶されているデータの例を示す図である。図４（ｂ）は、発話文ＤＢに記憶されているデータの例を示す図である。発話文ＤＢに記憶されているデータの例を示す図である。連結発話文の修正の例を示す図である。連結発話文の修正の例を示す図である。本実施形態の発話文生成方法の処理内容を示すフローチャートである。発話文生成プログラムの構成を示す図である。

本発明に係る発話文生成装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、本実施形態に係る発話文生成装置１０を含む発話文生成システム１の機能的構成を示す図である。発話文生成装置１０は、ユーザにより入力された発話に応答するための発話文を出力する装置である。

本実施形態の発話文生成システム１は、例えば、目的地までの経路を提示する等の特定の用途のためではなく、例えば雑談のように、内容についての特段の想定がされないユーザ発話に応じて、音声及びテキスト等により発話文を出力する。発話文生成システム１または発話文生成装置１０を構成する装置は限定されないが、携帯端末及びパーソナルコンピュータ等の装置により構成されることとしてもよいし、コンピュータが組み込まれたロボットにより構成されてもよい。

図１に示すように、発話文生成システム１は、発話文生成装置１０、ユーザ状態取得部３０、連結文数テーブル４０及び発話文ＤＢ５０を含む。

発話文生成システム１は、１つの装置として構成されてもよいし、発話文生成装置１０、ユーザ状態取得部３０、連結文数テーブル４０及び発話文ＤＢ５０のうちの一つまたは複数がそれぞれ一つの装置を構成してもよい。一例としては、ユーザ状態取得部３０が一つの端末として構成され、発話文生成装置１０、連結文数テーブル４０及び発話文ＤＢ５０がサーバにより構成されてもよい。また、他の一例としては、発話文生成装置１０及びユーザ状態取得部３０が一つの端末として構成されてもよい。連結文数テーブル４０及び発話文ＤＢ５０の各記憶手段は、発話文生成装置１０からアクセス可能に構成されていればいかなる態様の装置で構成されてもよい。

本実施形態では、ユーザ状態取得部３０を構成する端末、または、発話文生成装置１０及びユーザ状態取得部３０を構成する端末は、例えば、高機能携帯電話機（スマートフォン）や携帯電話機などの携帯端末として構成される。

図１に示すように、発話文生成装置１０は、機能的には、ユーザ発話取得部１１、焦点抽出部１２、興味状態推定部１３、連結文数決定部１４、連結発話文生成部１５、非文判定部１６、文成立判定部１７、出力情報制御部１８、連結文修正部１９、発話文出力部２０を備える。また、ユーザ状態取得部３０は、音声取得部３１及び画像取得部３２を備える。これらの各機能部については後に詳述する。

なお、図１に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に(例えば、有線及び／又は無線)で接続し、これら複数の装置により実現されてもよい。

例えば、本発明の一実施の形態における発話文生成装置１０は、コンピュータとして機能してもよい。図２は、本実施形態に係る発話文生成装置１０のハードウェア構成の一例を示す図である。発話文生成装置１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。発話文生成装置１０のハードウェア構成は、図２に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

発話文生成装置１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。例えば、図１に示した各機能部１１〜２０などは、プロセッサ１００１で実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、発話文生成装置１０の各機能部１１〜１３は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る棚割情報生成方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ−ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、発話文生成装置１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

再び図１を参照して、ユーザ状態取得部３０について説明する。ユーザ状態取得部３０は、音声取得部３１及び画像取得部３２を含む。音声取得部３１は、音声を取得する。具体的には、音声取得部３１は、ユーザにより発せられた音声を取得することができ、例えば、マイク等の装置により取得された音声を取得する。

画像取得部３２は、画像を取得する。具体的には、画像取得部３２は、ユーザの外観を表す画像を取得することができ、例えば、カメラ等の撮像装置により取得された画像を取得する。

続いて、発話文生成装置１０の各機能部について説明する。ユーザ発話取得部１１は、ユーザ発話を取得する。ユーザ発話は、ユーザにより入力された発話である。発話の入力は、例えば音声及びテキスト等により行われる。具体的には、ユーザ発話取得部１１は、ユーザにより発せられた音声を、例えば音声取得部３１を介して取得する。また、ユーザ発話取得部１１は、キーボード等の入力装置１００５、タッチパネルに構成された入力キー等を介して、テキストとしてのユーザ発話を取得してもよい。なお、本実施形態の発話文生成システム１では、ユーザ発話は、例えば雑談のように、内容についての特段の想定がされないものを対象とすることができる。

焦点抽出部１２は、ユーザ発話の話題の少なくとも一部を表す焦点情報を、ユーザ発話取得部１１により取得されたユーザ発話に基づいて抽出する。焦点情報は、例えば、ユーザの発話において最も話題の中心となっている単語である。ユーザ発話からの焦点情報の抽出には、種々の周知の技術を適用することができ、例えば、ディープラーニング、ＳＶＭ等の機械学習の手法を用いることができる。

一例として、具体的には、焦点抽出部１２は、ユーザ発話に対する形態素解析により抽出された単語を焦点情報の候補として抽出し、焦点情報の候補の単語から抽出された所定の特徴量に基づいて、予め所定の機械学習により得られた所定特徴量に基づく焦点情報の推定モデルを用いてスコアを算出し、算出されたスコアに基づいて焦点情報を抽出する。

興味状態推定部１３は、焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する。具体的には、興味状態推定部１３は、例えば、ユーザの状態に関する所定の検出情報に基づいて興味状態を推定する。より具体的には、興味状態推定部１３は、ユーザ発話における音響的特徴、ユーザの視線、ユーザの表情及びユーザの発話内容の少なくとも一つを検出情報として取得することができる。

興味状態の推定には、種々の周知の技術を適用することができ、例えば、ディープラーニング、ＳＶＭ等の機械学習の手法を用いることができる。一例として、具体的には、興味状態推定部１３は、ユーザの状態に関する検出情報から抽出された所定の特徴量に基づいて、予め所定の機械学習により得られた所定特徴量に基づく興味状態の推定モデルを用いて、ユーザの興味の度合いを示すスコアを算出する。

興味状態推定部１３は、検出情報に基づいて所定の特徴量を抽出する。例えば、興味状態推定部１３は、ユーザ発話における音響的特徴である、ユーザの声の高さ（周波数）及び声の強さ（音量）等を特徴量として用いることができる。また、興味状態推定部１３は、画像取得部３２を介して取得したユーザの眼の画像から、ユーザの視線の方向及び注視時間等を取得して、特徴量として用いることができる。

また、興味状態推定部１３は、画像取得部３２を介して取得したユーザの顔画像に基づいて表情を判定し、判定した表情を特徴量として用いることができる。また、興味状態推定部１３は、音声取得部３１を介して取得したユーザの発話内容を特徴量として用いることができる。具体的には、例えば、興味状態推定部１３は、ユーザの発話内容に対して形態素分析を実施して単語を抽出し、抽出された単語が表す意味の肯定的／否定的度合いを特徴量として用いることができる。

また、興味状態推定部１３は、ユーザが使用するデバイスから取得できる情報を特徴量として用いることができる。具体的には、例えば、興味状態推定部１３は、ユーザのプロファイル情報に基づいて興味状態を推定してもよい。ユーザのプロファイル情報は、例えば、ユーザのＷｅｂ閲覧履歴及びＰＯＩ（ＰｏｉｎｔｏｆＩｎｔｅｒｆａｃｅ）等が例示される。興味状態推定部１３は、Ｗｅｂ閲覧履歴及びＰＯＩ訪問履歴等に対して形態素解析を実施して単語を抽出し、抽出された単語と焦点情報に示される話題との関連度及びその単語の頻度を特徴量として用いることができる。

連結文数決定部１４は、推定された興味状態に基づいて、連結させる発話文の数を決定する。一例として、具体的には、連結文数決定部１４は、連結文数テーブル４０を参照して、連結させる発話文の数を決定する。

連結文数テーブル４０は、興味状態を表す情報と、連結する発話文の数とを関連付けて記憶しているテーブルである。図３は、連結文数テーブル４０の構成及び記憶されているデータの例を示す図である。図３において、興味状態ｉｓ１〜ｉｓ５は、ユーザの興味の度合いを示すスコアを表す。例えば、興味状態推定部１３により、ユーザの興味の程度が興味状態ｉｓ２であることが推定された場合には、連結文数決定部１４は、連結させる発話文の数を「２」に決定する。

連結発話文生成部１５は、連結文数決定部１４により決定された数の発話文を連結させて連結発話文を生成する。連結発話文生成部１５は、発話文ＤＢ５０から、発話文を取得して、取得した発話文を連結させる。

発話文ＤＢ５０は、発話文を記憶しているデータベースである。図４（ａ）及び図４（ｂ）は、発話文ＤＢ５０の構成及び記憶されているデータの例を示す図である。図４（ａ）に示されるように、発話文ＤＢ５０は、焦点情報に関連付けられた述語項構造ペアを含む発話文データ５０Ａを記憶している。述語項構造ペアは、動詞に例示されるような述語と、その述語の主語及び目的語となるような項とのペアである。本実施形態では、連結発話文生成部１５は、発話文データ５０Ａに示される述語項構造ペア「ご飯＿食べる」に基づいて、周知の手法により、「ご飯を食べます」、「ご飯を食べたい」等の種々の形式の発話文を生成することができる。

また、図４（ｂ）に示されるように、発話文ＤＢ５０は、焦点情報に一つの発話文を関連付けた態様の発話文データ５０Ｂを記憶していてもよい。

連結発話文生成部１５は、焦点抽出部１２により抽出された焦点情報により表される話題を有する複数の発話文を連結させることとしてもよい。連結発話文生成部１５による発話文の連結の例を以下に説明する。ここでは、焦点抽出部１２により、焦点情報「ご飯」が抽出され、連結文数決定部１４により、連結する文の数「２」が決定されたとする。このような場合において、連結発話文生成部１５は、発話文ＤＢ５０を参照して、焦点情報「ご飯」に関連付けられた２つの発話文を取得する。

図５は、発話文ＤＢ５０の構成及び記憶されている発話文データの例を示す図である。連結発話文生成部１５は、図５の発話文データ５０Ｃに示される発話文の中から、例えば、焦点情報「ご飯」に関連付けられた発話文「おなかがすきました」及び発話文「夕食はなにが良いか」を取得する。連結発話文生成部１５は、発話文ＤＢ５０から取得した２つの発話文を連結させて、連結発話文「おなかがすきました。夕食は何が良いか。」を生成する。

また、焦点抽出部１２により、焦点情報「ご飯」が抽出され、連結文数決定部１４により、連結する文の数「３」が決定された場合には、連結発話文生成部１５は、発話文ＤＢ５０を参照して、焦点情報「ご飯」に関連付けられた３つの発話文を取得する。例えば、連結発話文生成部１５は、発話文データ５０Ｃに示される発話文の中から、焦点情報「ご飯」に関連付けられた発話文「おなかがすきました」、発話文「夕食はなにが良いか」及び発話文「今の旬は筍です」を取得する。そして、連結発話文生成部１５は、発話文ＤＢ５０から取得した３つの発話文を連結させて、連結発話文「おなかがすきました。夕食は何が良いか。今の旬は筍です。」を生成する。

なお、発話文ＤＢ５０から取得した個々の発話文について、発話文としての自然さが判定されることとしてもよい。非文判定部１６は、連結発話文生成部１５による連結発話文の生成に先立って、発話文ＤＢ５０から取得した発話文、または、発話文ＤＢ５０から取得した述語項構造ペアから生成された発話文の、発話文としての自然さを判定する。

発話文の自然さの判定には、種々の周知の技術を適用することができ、例えば、ディープラーニング、ＳＶＭ等の機械学習の手法を用いることができる。一例として、具体的には、非文判定部１６は、発話文の特徴量に基づいて、予め所定の機械学習により得られた所定特徴量に基づく発話文の自然さの判定モデルを用いて、発話文ごとの自然さを判定する。発話文の特徴量には、例えば、発話文のベクトル表現が用いられ、Ｂａｇｏｆｗｏｒｄｓ、Ｗｏｒｄ２Ｖｅｃといった周知の手法を適用できる。

非文判定部１６により個々の発話文の自然さが判定される場合には、連結発話文生成部１５は、非文判定部１６により所定以上の自然さを有することが判定された発話文のみを、連結発話文生成部１５の生成に用いることとしてもよい。なお、本実施形態の発話文生成装置１０において、非文判定部１６は必須の構成ではない。

文成立判定部１７は、連結発話文生成部１５により生成された連結発話文が発話文として成立していることの程度を判定する。この判定には、種々の周知の技術を適用することができ、例えば、ディープラーニング、ＳＶＭ等の機械学習の手法を用いることができる。一例として、具体的には、文として成立しているか否かを示す成立ラベルを伴う複数の（大量の）文章を複数準備する。それらの文章をＢａｇｏｆｗｏｒｄｓ、Ｗｏｒｄ２Ｖｅｃ等の周知の技術によりベクトル化し、ベクトル化された文章と成立ラベルとのペアに対して、前述の所定の機械学習を行い、判定のためのモデルを生成する。文成立判定部１７は、このモデルを用いて、連結発話文の文として成立していることの程度を示すスコアを出力する。

文成立判定部１７により、連結発話文に対して文として成立していることの判定が行われる場合には、出力情報制御部１８は、文成立判定部１７により文として成立していることの程度が所定の程度以上であることが判定された連結発話文を発話文出力部２０に出力させる。即ち、出力情報制御部１８は、文成立判定部１７により判定されたスコアが所定値以上である連結発話文のみを発話文出力部２０に出力させ、当該スコアが所定値未満の連結発話文を発話文出力部２０に出力させないように制御する。なお、本実施形態の発話文生成装置１０において、文成立判定部１７及び出力情報制御部１８は必須の構成ではない。

連結文修正部１９は、連結発話文に含まれる各発話文の文体を所定の文体に統一させる。具体的には、例えば、連結文修正部１９は、周知の手法により、連結発話文に含まれる各発話文の文体（例えば、常体（ｉｎｆｏｒｍａｌｓｔｙｌｅ）、敬体（ｆｏｒｍａｌｓｔｙｌｅ）など）を解析する。そして、連結文修正部１９は、連結発話文が異なる文体の発話文を含んでいる場合に、文体が統一されるように、連結発話文を修正する。統一させる文体は、例えば、連結発話文の冒頭または末尾の発話文の文体、連結発話文に含まれる複数の発話文の文体のうち最も多い文体であってもよい。また、連結文修正部１９は、ユーザの属性情報に基づいて、統一させる文体を決定してもよい。

図６は、連結発話文の修正の例を示す図である。図６に示すように、修正前の連結発話文ＣＳ１は、敬体の発話文「おなかがすきました。（I am hungry.）」及び常体の発話文「夕食はなにが良いか。（What do you want to have for dinner ?）」を含む。連結文修正部１９は、修正前の連結発話文ＣＳ１における常体の発話文を敬体の発話文「夕食はなにが良いですか。（What would you like to have for dinner ?）」に修正して、修正後の連結発話文ＣＳ２を生成することができる。

図７は、英語における連結発話文の修正の例を示す図である。図７に示すように、修正前の連結発話文ＣＳ２１は、フォーマルスタイルの発話文”May I help you ?”及びインフォーマルスタイルの発話文”Open the window?”を含む。連結文修正部１９は、修正前の連結発話文ＣＳ２１におけるインフォーマルスタイルの発話文をフォーマルスタイルの発話文”Could you open the window ?”に修正して、修正後の連結発話文ＣＳ２２を生成することができる。

また、連結文修正部１９は、連結発話文に含まれる発話文の間に所定の接続詞を付与することとしてもよい。具体的には、連結文修正部１９は、連結発話文に含まれる各発話文に対して、周知の言語処理技術による形態素解析、構文解析、意味解析及び文脈解析等を実施する。例えば、連結文修正部１９は、連結された２つの発話文の意味の差異（例えば、文が有する意味のポジティブ／ネガティブ度合いの差異）に応じて、２つの発話文の間に接続詞を付与する。また、連結文修正部１９は、連結された２つの発話文のそれぞれをベクトル化して、それらのベクトルの類似度に応じて、２つの発話文の間に接続詞を付与することとしてもよい。なお、本実施形態の発話文生成装置１０において、連結文修正部１９は必須の構成ではない。

発話文出力部２０は、連結発話文を出力する。具体的には、発話文出力部」２０は、ユーザ発話取得部１１により取得されたユーザ発話に応じて、音声及びテキスト等により発話文を出力する。

次に、図８を参照して、発話文生成装置１０における発話文生成方法について説明する。図８は、本実施形態の発話文生成方法の処理内容の例を示すフローチャートである。

ステップＳ１において、ユーザ発話取得部１１は、ユーザ発話を取得する。ステップＳ２において、焦点抽出部１２は、ユーザ発話に関する焦点情報を、ステップＳ１においてユーザ発話取得部１１により取得されたユーザ発話に基づいて抽出する。

ステップＳ３において、興味状態推定部１３は、ステップＳ２において焦点抽出部１２により抽出された焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を、ユーザの状態に関する所定の検出情報に基づいて推定する。

ステップＳ４において、連結文数決定部１４は、ステップＳ３において興味状態推定部１３により推定された興味状態に基づいて、連結させる発話文の数を決定する。ステップＳ５において、連結発話文生成部１５は、ステップＳ４において連結文数決定部１４により決定された数の発話文を連結させて連結発話文を生成する。なお、連結発話文生成部１５による連結発話文の生成に先立って、非文判定部１６は、発話文ＤＢ５０から取得した発話文の、発話文としての自然さを判定してもよい。

ステップＳ６において、文成立判定部１７は、ステップＳ５において連結発話文生成部１５により生成された連結発話文が発話文として成立していることの程度を示すスコアを判定する。

ステップＳ７において、出力情報制御部１８は、ステップＳ６において判定されたスコアが所定値以上であるか否かを判定する。スコアが所定値以上であると判定された場合には、処理はステップＳ８に進む。一方、スコアが所定値以上であると判定されなかった場合には、処理は終了する。なお、このフローチャートにおいて、ステップＳ６，Ｓ７は必須の処理ステップではない。

ステップＳ８において、発話文出力部２０は、ステップＳ５において連結発話文生成部１５により生成された連結発話文を出力する。なお、連結発話文の出力に先立って連結文修正部１９は、連結発話文に含まれる各発話文の文体を所定の文体に統一させ、または、連結発話文に含まれる発話文の間に所定の接続詞を付与することとしてもよい。

次に、コンピュータを、本実施形態の発話文生成装置１０として機能させるための発話文生成プログラムについて説明する。図９は、発話文生成プログラムＰ１の構成を示す図である。

発話文生成プログラムＰ１は、発話文生成装置１０における発話文生成処理を統括的に制御するメインモジュールｍ１０、ユーザ発話取得モジュールｍ１１、焦点抽出モジュールｍ１２、興味状態推定モジュールｍ１３、連結文数決定モジュールｍ１４、連結発話文生成モジュールｍ１５、非文判定モジュールｍ１６、文成立判定モジュールｍ１７、出力情報制御モジュールｍ１８、連結文修正モジュールｍ１９及び発話文出力モジュールｍ２０を備えて構成される。そして、各モジュールｍ１１〜ｍ２０により、発話文生成装置１０におけるユーザ発話取得部１１、焦点抽出部１２、興味状態推定部１３、連結文数決定部１４、連結発話文生成部１５、非文判定部１６、文成立判定部１７、出力情報制御部１８、連結文修正部１９及び発話文出力部２０のための各機能が実現される。なお、発話文生成プログラムＰ１は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図９に示されるように、記録媒体Ｍ１に記憶される態様であってもよい。なお、非文判定モジュールｍ１６、文成立判定モジュールｍ１７、出力情報制御モジュールｍ１８及び連結文修正モジュールｍ１９は、発話文生成プログラムＰ１における必須の構成ではない。

以上説明した本実施形態の発話文生成装置１０、棚割情報生成方法及び発話文生成プログラムＰ１では、ユーザ発話の話題を表す焦点情報が抽出され、焦点情報に対するユーザの興味の度合いに応じて、連結される文の数が決定される。これにより、ユーザの興味の度合いが反映された適切な長さの連結発話文が出力される。

また、別の形態に係る発話文生成装置では、前記興味状態推定部は、前記ユーザの状態に関する所定の検出情報に基づいて前記興味状態を推定することとしてもよい。

上記形態によれば、ユーザの状態に応じて興味の度合いが推定される。従って、焦点情報に対する興味状態が適切に推定される。

また、別の形態に係る発話文生成装置では、興味状態推定部は、ユーザ発話における音響的特徴、ユーザの視線、ユーザの表情及びユーザの発話内容の少なくとも一つを検出情報として取得することとしてもよい。

上記形態によれば、ユーザの興味の状態が現れる各種の検出情報に基づいて、興味の度合いが推定される。従って、焦点情報に対する興味状態が適切に推定される。

また、別の形態に係る発話文生成装置では、連結発話文生成部は、焦点抽出部により抽出された焦点情報により表される話題を有する複数の発話文を連結させることとしてもよい。

上記形態によれば、ユーザ発話に基づき抽出された焦点情報により表される話題を含む複数の発話文により連結発話文が構成されるので、ユーザ発話に対する応答として適切な発話文が生成される。

また、別の形態に係る発話文生成装置では、連結文数決定部は、興味状態を表す情報と、連結する発話文の数とを関連付けて記憶している連結文数テーブルを参照して、連結させる発話文の数を決定することとしてもよい。

上記形態によれば、興味状態を表す情報に応じて連結させる文の数として好ましいと想定される数が予めテーブルに設定されているので、適切な数の発話文を連結させることができる。また、特段の計算処理を要さずに予め設定されたテーブルを参照するのみ連結させる発話文の数を決定できるので、処理負荷が軽減される。

また、別の形態に係る発話文生成装置は、連結発話文が、発話文として成立していることの程度を判定する文成立判定部と、文成立判定部により発話文として成立していることの程度が所定の程度以上であることが判定された連結発話文を発話文出力部に出力させる出力情報制御部と、を更に備えることとしてもよい。

上記形態によれば、発話文として成立していることの程度が所定の程度未満の連結発話文が出力されないこととなる。従って、発話文として妥当でない連結発話文がユーザ発話に対する応答に用いられることが防止される。

また、別の形態に係る発話文生成装置は、連結発話文に含まれる各発話文の文体を所定の文体に統一させる、または、発話文の間に所定の接続詞を付与する、連結文修正部、を更に備えることとしてもよい。

上記形態によれば、複数の発話文の連結により構成される連結発話文を、全体として自然な態様とすることができる。

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

情報等は、上位レイヤ(または下位レイヤ)から下位レイヤ(または上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。

また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。

１…発話文生成システム、１０…発話文生成装置、１１…ユーザ発話取得部、１２…焦点抽出部、１３…興味状態推定部、１４…連結文数決定部、１５…連結発話文生成部、１６…非文判定部、１７…文成立判定部、１８…出力情報制御部、１９…連結文修正部、２０…発話文出力部、３０…ユーザ状態取得部、３１…音声取得部、３２…画像取得部、４０…連結文数テーブル、５０…発話文ＤＢ、Ｍ１…記録媒体、ｍ１０…メインモジュール、ｍ１１…ユーザ発話取得モジュール、ｍ１２…焦点抽出モジュール、ｍ１３…興味状態推定モジュール、ｍ１４…連結文数決定モジュール、ｍ１５…連結発話文生成モジュール、ｍ１６…非文判定モジュール、ｍ１７…文成立判定モジュール、ｍ１８…出力情報制御モジュール、ｍ１９…連結文修正モジュール、ｍ２０…発話文出力モジュール、Ｐ１…発話文生成プログラム。

Claims

ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムであって、
ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報を前記ユーザ発話に基づいて抽出する焦点抽出部と、
前記焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定部と、
前記興味状態に基づいて、連結させる発話文の数を決定する連結文数決定部と、
前記連結文数決定部により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成部と、
前記連結発話文を出力する発話文出力部と、
を備える発話文生成システム。
前記興味状態推定部は、前記ユーザの状態に関する所定の検出情報に基づいて前記興味状態を推定する、請求項１に記載の発話文生成システム。
前記興味状態推定部は、前記ユーザ発話における音響的特徴、前記ユーザの視線、前記ユーザの表情及び前記ユーザの発話内容の少なくとも一つを前記検出情報として取得する、
請求項２に記載の発話文生成システム。
前記連結発話文生成部は、前記焦点抽出部により抽出された前記焦点情報により表される話題を有する複数の発話文を連結させる、
請求項１〜３のいずれか一項に記載の発話文生成システム。
前記連結文数決定部は、
前記興味状態を表す情報と、連結する発話文の数とを関連付けて記憶している連結文数テーブルを参照して、連結させる発話文の数を決定する、
請求項１〜４のいずれか一項に記載の発話文生成システム。
前記連結発話文が、発話文として成立していることの程度を判定する文成立判定部と、
前記文成立判定部により発話文として成立していることの程度が所定の程度以上であることが判定された前記連結発話文を前記発話文出力部に出力させる出力情報制御部と、
を更に備える請求項１〜５の何れか一項に記載の発話文生成システム。
前記連結発話文に含まれる各発話文の文体を所定の文体に統一させる、または、前記発話文の間に所定の接続詞を付与する、連結文修正部、
を更に備える請求項１〜６のいずれか一項に記載の発話文生成システム。
コンピュータを、ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムとして機能させるための発話文生成プログラムであって、
前記コンピュータに、
ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報を前記ユーザ発話に基づいて抽出する焦点抽出機能と、
前記焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定機能と、
前記興味状態に基づいて、連結させる発話文の数を決定する連結文数決定機能と、
前記連結文数決定機能により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成機能と、
前記連結発話文を出力する発話文出力機能と、
を実現させる発話文生成プログラム。