JP7469211B2

JP7469211B2 - 対話型コミュニケーション装置、コミュニケーションシステム及びプログラム

Info

Publication number: JP7469211B2
Application number: JP2020176397A
Authority: JP
Inventors: 公太平瀬; 拓也川田; 明子大野
Original assignee: Tokyo Gas Co Ltd
Current assignee: Tokyo Gas Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2024-04-16
Anticipated expiration: 2040-10-21
Also published as: JP2022067685A

Description

本発明は、対話型コミュニケーション装置、コミュニケーションシステム、プログラムに関する。

ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置が存在する。

特許文献１には、脚式ロボットが記載されている。この脚式ロボットは、本あるいはその他の印刷媒体・記録媒体に印刷・記録されたストーリ、あるいはネットワーク経由でダウンロードされたストーリを朗読する際に、記述された文字通りに単に逐語的に読み上げるのではなく、時間の変化、季節の変化、あるいはユーザの感情変化などの外部要因を利用して、元の内容との実質的同一の範囲内で動的にストーリを改編し、毎回異なった内容を朗読することができる。

特開２００２－２０５２９１号公報

ナレーターや声優が書籍を朗読したものを録音した音声コンテンツがインターネットを介してダウンロード可能になってきている。また、これらの音声コンテンツを幼児向けに読み聞かせるホームロボットも出現している。通常、これらの音声コンテンツは、ナレーターや声優の朗読を録音した音声を再生するだけであるので、毎回、同じ音声が同じ音調で出力されるだけである。ところが、幼児は、同じストーリを何度も何度も聞きたがる傾向があり、毎回同じ音声出力では、面白味に欠けることがある。幼児の親にとっても本の内容に興味を持って幼児に付き添うことが望まれるため、読み聞かせ方に変化をもたせることが望まれていた。
本発明は、従来の常に同一の朗読と比較して、ユーザとの会話を通じてその場に適した書籍及び朗読パターンで朗読を行う対話型コミュニケーション装置等を提供することを目的とする。

かくして本発明によれば、ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、ユーザから朗読に関する要求を取得する要求取得手段と、ユーザとの会話からユーザの状態を検知する検知手段と、朗読パターンを記憶する記憶手段と、検知されたユーザの状態に応じて、朗読パターンを記憶手段から選択する選択手段と、選択された朗読パターンにより、書籍を朗読する音声出力手段と、を有することを特徴とする対話型コミュニケーション装置が提供される。

さらに選択手段は、検知したユーザの状態及び／又は予め登録されたユーザ情報に基づき、朗読する書籍を選択するようにすることができる。この場合、書籍の選択がより的確になる。
また、ユーザの音声を取得する音声取得手段をさらに有し、検知手段は、音声取得手段が取得した音声を基にユーザの状態を検知することができる。この場合、ユーザの音声に含まれる文言を基に、ユーザの状態を検知することができる。
さらに、選択手段は、同一のユーザに対し同一の書籍について過去に朗読した履歴により朗読パターンを変更することができる。この場合、ユーザの状態が同じときに、同一の朗読パターンがいつも選択されることを防止できる。
またさらに、選択手段は、検知したユーザの状態に基づき、朗読する速度、音声の高低レベル、音声の質、抑揚のうち少なくとも１つ以上のパラメータの組み合わせから特定される朗読パターンを選択することができる。この場合、朗読のパターンに変化を付けやすくなる。
さらに、検知手段は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知し、選択手段は、ユーザの評価をさらに加味して朗読パターンを選択することができる。この場合、ユーザの評価をフィードバックして朗読パターンを選択することができる。
そして、検知手段は、複数のユーザを判別し、選択手段は、複数のユーザの中の何れかのユーザの状態に応じて、朗読パターンを選択することができる。この場合、複数のユーザの中から朗読を聞かせるユーザを判別することができる。
また、選択手段は、複数のユーザの中で、子供の状態に応じて、朗読パターンを選択することができる。この場合、子共に対する読み聞かせを行うときに有効な朗読パターンを選択することができる。
さらに、検知手段は、自装置の周辺の状況をさらに検知し、選択手段は、検知した状況に基づき、朗読パターンを選択することができる。この場合、周囲の状況をさらに加えて朗読パターンを選択することができる。

さらに、本発明によれば、書籍を朗読する対話型コミュニケーション装置と、書籍を朗読した音声コンテンツのデータを保存する保存装置と、を備え、対話型コミュニケーション装置は、ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、ユーザから朗読に関する要求を取得する要求取得手段と、ユーザとの会話からユーザの状態を検知する検知手段と、朗読パターンを記憶する記憶手段と、検知されたユーザの状態に応じて、朗読パターンを記憶手段から選択する選択手段と、選択された朗読パターンにより、書籍を朗読する音声出力手段と、を有することを特徴とするコミュニケーションシステムが提供される。

またさらに、本発明によれば、コンピュータに、ユーザから朗読に関する要求を取得する要求取得機能と、ユーザとの会話からユーザの状態を検知する検知機能と、検知されたユーザの状態に応じて、朗読パターンを選択する選択機能と、選択された朗読パターンにより、書籍を朗読する音声出力機能と、を実現させるためのプログラムが提供される。

本発明によれば、従来の常に同一の朗読と比較して、ユーザとの会話を通じてその場に適した朗読を行う対話型コミュニケーション装置等を提供することができる。

本実施の形態におけるコミュニケーションシステムの構成例を示す図である。端末装置をロボットとした場合について説明した図である。コミュニケーションシステムの機能構成例を示したブロック図である。本実施形態のコミュニケーションシステムの動作の例について説明したフローチャートである。（ａ）～（ｂ）は、書籍名に関し、記憶部に保存されるデータ構造について示した図である。朗読パターンに関し、記憶部に保存されるデータ構造について示した図である。（ａ）～（ｃ）は、音声を、基本周波数と非周期成分とに分けた場合を示した図である。スペクトル包絡の例について示した図である。ユーザの年齢を推定する方法の一例を示した図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。

＜コミュニケーションシステム１全体の説明＞
図１は、本実施の形態におけるコミュニケーションシステム１の構成例を示す図である。
図示するように本実施の形態のコミュニケーションシステム１は、端末装置１０と、管理サーバ２０とが、ネットワーク７０、ネットワーク８０、アクセスポイント９０を介して接続されることにより構成されている。

端末装置１０は、書籍を朗読する対話型コミュニケーション装置の一例である。端末装置１０は、言葉や動作など、何らかの手段によってユーザとコミュニケーションをすることができ、ユーザとの会話によってコミュニケーションを進行させることができる。即ち、ユーザが、問いや指示を音声にて発すると、端末装置１０は、この問いや指示に対し何らかの反応を返す。この反応は、例えば、音声、画像、ジェスチャーなどである。また逆に、端末装置１０が、問いや指示を行い、ユーザがこの問いや指示に対し音声やジェスチャーを返すこともある。そして、ユーザや端末装置１０が、これらの動作をすることで、ユーザと端末装置１０との間で、コミュニケーションが成立する。端末装置１０は、例えば、ロボットとすることができる。このロボットは、例えば、ロボットを所有するユーザの住居に置かれる。

図２は、端末装置１０をロボットとした場合について説明した図である。
図２に示した、ロボットとしての端末装置１０は、歩行等を行うことで移動する機能を有する移動式としてもよいが、移動しない非移動式としてもよい。
端末装置１０は、情報の送信及び受信を行う通信アンテナ１０１と、音声を取得するマイクロフォン１０２と、音声等の音を出力するスピーカ１０３と、ユーザが操作を行う操作ボタン１０４と、端末装置１０の全体の制御を行う制御部１０５とを備える。

管理サーバ２０は、コミュニケーションシステム１の全体の管理をするサーバコンピュータである。管理サーバ２０は、保存装置の一例であり、ナレーターや声優が書籍を朗読したものを録音した音声コンテンツのデータを保存する。そして、端末装置１０は、管理サーバ２０から音声コンテンツのデータをダウンロードし、端末装置１０内に保存して、音声出力することができる。あるいは、端末装置１０は、管理サーバ２０からストリーミング形式で音声コンテンツをダウンロードし、音声出力することもできる。

管理サーバ２０は、演算手段であるＣＰＵ（Central Processing Unit）と、記憶手段であるメインメモリを備える。ここで、ＣＰＵは、ＯＳ（基本ソフトウェア）やアプリ（応用ソフトウェア）等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域である。さらに、管理サーバ２０は、外部との通信を行うための通信インタフェース（以下、「通信Ｉ／Ｆ」と表記する）と、ビデオメモリやディスプレイ等からなる表示機構と、入力ボタン、タッチパネル、キーボード等の入力機構とを備える。また、管理サーバ２０は、補助記憶装置として、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等のストレージを備える。

ネットワーク７０は、端末装置１０及び管理サーバ２０の情報通信に用いられる通信手段であり、例えば、インターネットである。
ネットワーク８０も、ネットワーク７０と同様に、端末装置１０及び管理サーバ２０の間の情報通信に用いられる通信手段であり、例えば、ＬＡＮ（Local Area Network）である。

アクセスポイント９０は、無線通信回線を利用して無線通信を行う機器である。アクセスポイント９０は、端末装置１０とネットワーク７０との間の情報の送受信を媒介する。
無線通信回線の種類としては、携帯電話回線、ＰＨＳ（Personal Handy-phone System）回線、Ｗｉ－Ｆｉ（Wireless Fidelity）、Bluetooth（登録商標）、ZigBee、ＵＷＢ（Ultra Wideband）等の各回線が使用可能である。

次に、本実施の形態のコミュニケーションシステム１の詳細な機能構成及び動作について説明する。

＜コミュニケーションシステム１の機能構成の説明＞
図３は、コミュニケーションシステム１の機能構成例を示したブロック図である。
なおここでは、コミュニケーションシステム１が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
コミュニケーションシステム１において、端末装置１０は、音声コンテンツのデータの受信等を行う送受信部１１と、ユーザの音声を取得する音声取得部１２と、ユーザの要求を取得する要求取得部１３と、ユーザの状態を検知する検知部１４と、音声コンテンツのデータを記憶する記憶部１５と、朗読パターンを選択する選択部１６と、選択された朗読パターンによる音声を作成する音声作成部１７と、音声を出力する音声出力部１８とを備える。

送受信部１１は、管理サーバ２０に対し、音声コンテンツのダウンロードの要求を送信する。また、送受信部１１は、音声コンテンツのデータの受信を行う。送受信部１１は、例えば、通信Ｉ／ＦやＣＰＵであり、これは例えば、通信アンテナ１０１や制御部１０５に対応する。送受信部１１は、ネットワーク７０、ネットワーク８０及びアクセスポイント９０を介し、管理サーバ２０との間でこれらの情報の送受信を行う。

音声取得部１２は、音声取得手段の一例であり、ユーザの音声等の音を取得する。音声取得部１２は、例えば、マイクロフォン１０２に対応する。マイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いてよい。また、マイクロフォンとして、無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンであることが好ましい。

要求取得部１３は、要求取得手段の一例であり。ユーザの音声を基に、ユーザの要求を取得する。要求取得部１３は、例えば、ユーザの音声を音声文字変換し、テキスト化する。そして、このテキストを基にユーザの要求を判断する。ここでは、要求取得部１３は、ユーザから朗読に関する要求を取得する。

検知部１４は、検知手段の一例であり、ユーザとの会話からユーザの状態を検知する。この場合、検知部１４は、音声取得部１２が取得した音声を基にユーザの状態を検知する。ユーザの状態とは、例えば、ユーザは忙しい、急いでいる、怒っている、疲れている等を言う。
記憶部１５は、記憶手段の一例であり、音声コンテンツを記憶する。また、記憶部１５は、書籍の朗読のパターンである朗読パターンを記憶する。朗読パターンは、例えば、朗読する速度、音声の高低レベル、音声の質、抑揚のパターンである。さらに、記憶部１５は、検知部１４が検知したユーザの状態やユーザ情報を記憶する。ここで、ユーザ情報とは、ユーザに関する情報であれば、特に限られるものではない。ユーザ情報は、例えば、ユーザの性別、年齢、家族構成、続柄、生年月日などである。ユーザ情報は、操作ボタン１０４をユーザが操作することで、予めユーザが設定することができる。また、後述するように、端末装置１０がユーザ情報を推定することもできる。

選択部１６は、選択手段の一例であり、検知されたユーザの状態に応じて、朗読パターンを記憶部１５から選択する。さらに、選択部１６は、検知したユーザの状態及び／又は予め登録されたユーザ情報に基づき、朗読する書籍を選択する。
音声作成部１７は、選択された朗読パターンに応じた音声を作成する。音声作成部１７は、送受信部１１により取得された音声コンテンツのデータを基に、音声の変換を行い、選択された朗読パターンに応じた音声を作成する。
音声出力部１８は、音声出力手段の一例であり、選択された朗読パターンにより、書籍を朗読する。

要求取得部１３、検知部１４、選択部１６は、例えば、ＣＰＵであり、制御部１０５に対応する。また、記憶部１５は、例えば、メインメモリ、ストレージなどであり、制御部１０５に対応する。さらに、音声出力部１８は、例えば、スピーカ１０３に対応する。

管理サーバ２０は、音声コンテンツのデータの送信等を行う送受信部２１と、音声コンテンツを保存する保存部２２と、管理サーバ２０全体の制御を行う制御部２３とを備える。
送受信部２１は、端末装置１０から、音声コンテンツのダウンロードの要求を受け付けると、端末装置１０に対し、音声コンテンツのデータの送信を行う。送受信部２１は、例えば、通信Ｉ／Ｆに対応する。

保存部２２は、音声コンテンツのデータの保存を行う。保存部２２は、例えば、ストレージに対応する。
制御部２３は、端末装置１０からの音声コンテンツのダウンロードの要求に応じ、必要な音声コンテンツのデータを選択する。そして、保存部２２から、選択した音声コンテンツのデータを取得し、送受信部２１を介して端末装置１０に対し送る。制御部２３は、例えば、ＣＰＵやメインメモリに対応する。

＜コミュニケーションシステム１の動作の説明＞
次に、本実施の形態のコミュニケーションシステム１の動作について、より詳細に説明を行う。
図４は、本実施形態のコミュニケーションシステム１の動作の例について説明したフローチャートである。
まず、端末装置１０の音声取得部１２が、ユーザの音声を取得する（ステップ１０１）。
次に、要求取得部１３が、ユーザから、書籍の朗読の要求がなされたか否かを判断する（ステップ１０２）。これは、音声取得部１２が取得したユーザの音声の中に、書籍の朗読の要求を行う文言が含まれるか否かで判断することができる。即ち、ユーザが、「本読んで。」、「○○を読んでください。」、「ねえ、何か読んでよ。」などの音声が含まれる場合、要求取得部１３は、書籍の朗読の要求がなされたと判断する。なお、この場合、「○○」は、書籍の題名である。

その結果、ユーザから、書籍の朗読の要求がなされていない場合（ステップ１０２でＮｏ）、検知部１４は、ユーザの状態を検知する（ステップ１０３）。そして、ステップ１０１に戻る。ユーザの状態は、音声取得部１２が取得したユーザの音声の中の文言から、判断することができる。具体的には、「時間がない」などの文言が含まれる場合は、検知部１４は、ユーザが忙しいと判断する。また、「早くして」などの文言が含まれる場合は、検知部１４は、ユーザが急いでいると判断する。さらに、「いいかげんにして」などの文言が含まれる場合は、検知部１４は、ユーザが怒っていると判断する。またさらに、「疲れた」などの文言が含まれる場合は、検知部１４は、ユーザが疲れていると判断する。検知されたユーザの状態は、順次、記憶部１５に記憶される。

また、検知部１４は、分散表現を利用した手法で、ユーザの状態を検知してもよい。具体的には、ユーザの音声を音声認識してテキスト化し、テキストを構成する単語を、分散表現を利用して、高次元の実数ベクトルで表現する。単語を高次元の実数ベクトルで表すには、例えば、word2vecを利用して行うことができる。Word2vecは、ニューラルネットワークを利用して自然言語を解析し、文中に出現した単語の潜在表現をベクトルの形で表現することができる。そして、このベクトルのユークリッド距離が近い単語同士は、近い意味を有すると考えることができる。よって、検知部１４は、このベクトル空間内で、予め定められた領域を定め、それぞれの単語が、何れの領域に含まれるか否かを調べる。この領域は、ユーザの状態に対応付けられる。即ち、上述した、ユーザは忙しい、急いでいる、怒っている、疲れているなどの状態に対応する。そして、それぞれの領域に属する単語の数により、ユーザの状態を判断できる。例えば、このベクトル空間内で、「忙しい」に対応する領域に単語が多く含まれる場合は、ユーザの状態は、「忙しい」と判断できる。

また、ユーザから、書籍の朗読の要求がなされていた場合（ステップ１０２でＹｅｓ）、選択部１６は、書籍の選択を行う（ステップ１０４）。選択部１６は、ユーザの要求の中に書籍名が明示されていた場合は、この書籍名の書籍を選択する。また、選択部１６は、ユーザの要求の中に書籍名がない場合は、検知したユーザの状態やユーザ情報に基づき、朗読する書籍を選択する。例えば、ユーザの状態が、疲れている状態の場合、選択部１６は、ユーザをリラックスさせるような書籍を選択する。また、ユーザ情報により、ユーザが３歳の女の子であることがわかれば、選択部１６は、この子に興味をもってもらえそうな童話を選択する。

書籍名は、ユーザの状態やユーザ情報と予め関連付けられ、記憶部１５に保存されている。また、ユーザの状態やユーザ情報に対し、複数の書籍名が記憶され、この中から選択することができることが好ましい。これにより、いつも同じ書籍が選択されることがなくなる。

図５（ａ）～（ｂ）は、書籍名に関し、記憶部１５に保存されるデータ構造について示した図である。
図示するデータ構造は、ユーザ情報であるユーザの年齢、ユーザの状態及び書籍名が関連付けられる。
ここで、図５（ａ）に示したデータ構造は、ユーザの年齢とそれに応じたグループとが関連付けられる。即ち、ユーザの年齢に合わせた書籍を選択できるように、ユーザの年齢に合わせて書籍をグループ分けする。ここでは、区分された年齢に合わせ、グループＡ，グループＢ、… にグループ分けされている。
また、図５（ｂ）に示したデータ構造は、それぞれのグループ毎に設定され、ユーザの状態と書籍名とを関連付けさせる。そして、ユーザの状態に応じ、書籍名は，複数関連付けられる。この場合、ユーザの状態に応じてそれぞれ３つの書籍名が関連付けられている。即ち、選択部１６は、これらの中から何れの書籍名を選択してもよい。このようなデータ構造とすることで、選択部１６は、ユーザの年齢や状態に応じた書籍を選択することができる。

図４に戻り、次に、送受信部１１が、管理サーバ２０に対し、選択部１６により選択された書籍名の音声コンテンツのデータのダウンロードの要求を行う（ステップ１０５）。
ダウンロードの要求は、管理サーバ２０の送受信部２１が受信し、制御部２３は、保存部２２から、要求された書籍名の音声コンテンツのデータを取得する。（ステップ１０６）。
音声コンテンツのデータは、制御部２３が、送受信部２１を介し、端末装置１０に送信し、端末装置１０の送受信部１１が受信する（ステップ１０７）。

次に、選択部１６は、検知部１４により検知されたユーザの状態に応じて、朗読パターンを記憶部１５から選択する（ステップ１０８）。このとき、選択部１６は、検知したユーザの状態に基づき、朗読する速度、音声の高低レベル、音声の質、抑揚のうち少なくとも１つ以上のパラメータの組み合わせから特定される朗読パターンを選択する。

朗読パターンは、ユーザの状態と予め関連付けられ、記憶部１５に保存されている。
図６は、朗読パターンに関し、記憶部１５に保存されるデータ構造について示した図である。
図示するデータ構造は、ユーザの状態と朗読パターンとが関連付けられる。そして、ユーザの状態に応じて朗読パターンは，複数関連付けられる。この場合、ユーザの状態に応じてそれぞれ３つの朗読パターンが関連付けられている。即ち、選択部１６は、これらの中から何れの朗読パターンを選択してもよい。朗読パターンを複数設定することで、ユーザの状態が同じときに、同一の朗読パターンが常に選択されることを防止できる。

検知部１４が、ユーザの状態として、忙しい、急いでいると判断した場合は、選択部１６は、例えば、朗読の速度が速い朗読パターンを選択する。また、検知部１４が、ユーザが、疲れていると判断した場合は、選択部１６は、例えば、音声をやや低くゆっくりした口調の朗読パターンを選択する。

音声作成部１７は、選択された朗読パターンに応じた音声を作成する（ステップ１０９）。そして、作成された音声は、音声出力部１８から出力される（ステップ１１０）。
音声作成部１７は、送受信部１１により取得された音声コンテンツのデータを基に、音声の変換を行い、選択された朗読パターンに応じた音声を作成する。そして、音声出力部１８は、選択された朗読パターンに応じた、速度、音声の高低レベル、音声の質、抑揚にて、書籍を朗読する音声を出力する。

音声作成部１７が、音声の変換を行うには、例えば、以下の方法を用いることができる。
まず、音声作成部１７は、音声を、基本周波数と非周期成分とに分ける。
図７（ａ）～（ｃ）は、音声を、基本周波数と非周期成分とに分けた場合を示した図である。
ここで、図７（ａ）は、音声の信号を表す。また、図７（ｂ）は、音声の信号の基本周波数を表し、図７（ｃ）は、音声の信号の非周期成分を表す。図７（ａ）～（ｃ）で、横軸は、時間であり、縦軸は、信号の強さである。
つまり、図７（ａ）で示す音声の信号は、図７（ｂ）で示す基本周波数と、図７（ｃ）で示す非周期成分の２つに分けることができる。
基本周波数を異なる周波数とすることで、声の高さを変更することができる。つまり、音声の高低レベを変更できる。また、非周期成分は、声色を表す。よって、非周期成分の大きさを変化させることでも音声の質が変化する。例えば、非周期成分が小さいほど、声のかすれが小さくなり、大きいほど声のかすれが大きくなる。そして、変換後の波形を再合成すると、音声の質を変更できる。また、非周期成分の大きさを変化させることで、抑揚についても変更できる。

また、スペクトル包絡を変換することで、異なる音声とすることができる。
この場合、音声作成部１７は音声の信号をフーリエ変換し、周波数スペクトルを求め、これからスペクトル包絡を抽出する。スペクトル包絡は、周波数スペクトルの対数をさらにフーリエ変換したものであり、いわば、スペクトルのスペクトルである。

図８は、スペクトル包絡の例について示した図である。
図８で、横軸は、周波数を表し、縦軸は、スペクトル強度を表す。図中、Ｓｓで表す線は、周波数スペクトルである。一方、Ｓｈで表す線は、スペクトル包絡である。このスペクトル包絡Ｓｈは、周波数スペクトルＳｓのなだらかな変動を表したものであり、周波数スペクトルＳｓから、周波数スペクトルＳｓの細かな変動（スペクトル微細構造）を分離したものである。そして、このスペクトル包絡Ｓｈは、人間の声道の特性を表している。よって、このスペクトル包絡Ｓｈを変換することで、異なる声道のスペクトル包絡Ｓｈを再現することができる。つまり、元とは異なる音声とすることができる。これにより、音声の高低レベル、音声の質、抑揚が変更できる。

以上説明した形態によれば、従来の常に同一の朗読と比較して、ユーザとの会話を通じてその場に適した書籍及び朗読パターンで朗読を行うことができる。
また、以上説明した形態によれば、端末装置１０が、ユーザの状態やユーザの情報に応じた書籍及び朗読パターンを選択する。このため、親が子に絵本等の書籍の読み聞かせをする場合、読み聞かせ方に変化をもたせることができる。その結果、聞き手の子に対し、より興味を引きやすくなるばかりか、子の親も朗読に関心を抱きやすくなる。この場合、親にとっては、書籍の朗読の手間が削減するだけでなく、親子で高い関心をもって満足感のある時間を共有することができる。そして、親子の一体感の形成にも寄与することができる。

＜変形例＞
以下、コミュニケーションシステム１の変形例について説明を行う。
（変形例１）
変形例１では、選択部１６は、同一のユーザに対し同一の書籍について過去に朗読した履歴により朗読パターンを変更する、つまり、このような場合は、既にユーザは、過去にこの書籍の朗読を聞いているため、選択部１６は、前回とは異なる朗読パターンを選択する。例えば、選択部１６は、ややスピードを上げて朗読する朗読パターンを選択する。
また、選択部１６は、毎回異なる朗読パターンを選択してもよく、同じ朗読パターンを予め定められた回数の中で１回だけとするようにしてもよい。これにより、同じ書籍の朗読を聞く場合でも、ユーザは、より新鮮な気分で朗読を聞くことができる

（変形例２）
変形例２では、検知部１４は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知する。そして、選択部１６は、ユーザの評価をさらに加味して朗読パターンを選択する。つまり、この場合、選択部１６は、ユーザの評価をフィードバックして、朗読パターンを選択する。例えば、端末装置１０や親が、書籍について「この本は面白かった？」と質問をした際に、子供の幼児からの回答である、「楽しかった」、「怖かった」等を記憶部１５にて記憶し、選択部１６は、次回の朗読パターンの選択の際にフィードバックを行う。これにより、ユーザの書籍に対する興味の傾向を把握することができ、より興味を抱きやすい朗読パターンや書籍を選択することができる。

（変形例３）
変形例３では、検知部１４は、複数のユーザを判別する。そして、選択部１６は、複数のユーザの中の何れかのユーザの状態に応じて、朗読パターンを選択する。この複数のユーザは、例えば、親とその子供である。この場合、選択部１６は、複数のユーザの中で、子供の状態に応じて、朗読パターンを選択する。また同様に、選択部１６は、子供のユーザ情報や状態に応じて、書籍を選択する。端末装置１０として、図２に示すようなロボットを使用した場合、書籍の朗読は、大人よりも子供への絵本等の読み聞かせに用いられることが多い。よって、このようにすることで、朗読パターンや書籍の選択が、より的確になる。

（変形例４）
変形例４では、検知部１４は、自装置の周辺の状況をさらに検知し、選択部１６は、検知した状況に基づき、朗読パターンを選択する。
ここでは、検知部１４は、自装置の周囲の状態として、端末装置１０の周囲の環境音を識別し、選択部１６は、環境音に応じて朗読パターンを選択する。
この環境音は、ユーザの周囲から聞こえる音であり、雨の音、波の音、風の音、鳥や蝉の鳴き声、雑踏の音、自動車、電車、飛行機が通過する音等である。そして、この環境音が大きい場合、ユーザは、朗読を聞き取りにくくなる。そのため、選択部１６は、環境音の音圧が大きいと判断された場合は、それに応じて書籍の朗読する際の音量を大きくしたり、朗読の速度を遅くする。
また、例えば、選択部１６は、時間帯に合わせ、朗読を行う際の音量を設定してもよい。例えば、昼間には、音量を大きくし、夜間には、音量を小さくする。

（変形例５）
変形例５では、端末装置１０がユーザ情報を推定する。ここでは、ユーザ情報として、ユーザの年齢や性別を推定する場合について説明する。
図９は、ユーザの年齢を推定する方法の一例を示した図である。
図９は、音声の周波数スペクトルについて示している。ここで、横軸は、周波数を表し、縦軸は、スペクトル強度を表す。即ち、周波数スペクトルは、音声に含まれる周波数成分について、周波数とその強度との関係を示している。
ここでは、音声について、４０歳、５０歳、６０歳、７０歳の人物の周波数スペクトルの一例を示している。図示するように、年齢が上昇するに従い、４ｋＨｚ以上のスペクトル強度が増加することがわかる。実際には、４ｋＨｚ以上のスペクトル強度が増加することで、音声が、よりかれた状態となる嗄声（させい）となる。
よって、検知部１４は、周波数スペクトルのうち、４ｋＨｚ以上のスペクトル強度を見ることで、ユーザの年齢を推定する。
また、図７に挙げた基本周波数は、声の高さを表す。例えば、男声の基本周波数は、１００Ｈｚ～２００Ｈｚであり、女声の基本周波数は、２５０Ｈｚ～５００Ｈｚである。よって、検知部１４は、基本周波数により、ユーザの性別を推定することができる。

以上詳述した形態では、コミュニケーションシステム１は、端末装置１０及び管理サーバ２０が、ネットワーク７０、ネットワーク８０、アクセスポイント９０を介して接続されることにより構成されていたが、管理サーバ２０の機能を端末装置１０に集約してもよい。この場合、端末装置１０は、コミュニケーションシステム１であるとして捉えることができる。また、端末装置１０で行う処理は、管理サーバ２０でも同様のことができる。つまり、端末装置１０の機能を管理サーバ２０に集約してもよい。よって、この場合、管理サーバ２０は、コミュニケーションシステム１であるとして捉えることができる。
さらに、上述した例では、端末装置１０は、ロボットである例を示したが、これに限られるものではない。例えば、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のモバイル端末であってもよく、デスクトップコンピュータであってもよい。

＜プログラムの説明＞
ここで、以上説明を行った本実施の形態における端末装置１０が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。そして、この処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置１０に設けられたコンピュータ内部の図示しないＣＰＵが、上述した各機能を実現するプログラムを実行し、これらの各機能を実現させる。

よって、本実施の形態で、端末装置１０が行う処理は、コンピュータに、ユーザから朗読に関する要求を取得する要求取得機能と、ユーザとの会話からユーザの状態を検知する検知機能と、検知されたユーザの状態に応じて、朗読パターンを選択する選択機能と、選択された朗読パターンにより、書籍を朗読する音声出力機能と、を実現させるためのプログラムとして捉えることもできる。

なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろんＣＤ－ＲＯＭ等の記録媒体に格納して提供することも可能である。

以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

１…コミュニケーションシステム、１０…端末装置、１１…送受信部、１２…音声取得部、１３…要求取得部、１４…検知部、１５…記憶部、１６…選択部、１７…音声作成部、１８…音声出力部、２０…管理サーバ

Claims

ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、
ユーザから朗読に関する要求を取得する要求取得手段と、
ユーザとの会話からユーザの状態を検知する検知手段と、
朗読パターンを記憶する記憶手段と、
検知された前記ユーザの状態に応じて、朗読パターンを前記記憶手段から選択する選択手段と、
選択された朗読パターンにより、書籍を朗読する音声出力手段と、
を有し、
前記検知手段は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知し、
前記選択手段は、ユーザの評価をさらに加味して朗読パターンを選択する、
ことを特徴とする対話型コミュニケーション装置。
さらに前記選択手段は、検知した前記ユーザの状態及び／又は予め登録されたユーザ情報に基づき、朗読する書籍を選択する、
ことを特徴とする請求項１記載の対話型コミュニケーション装置。
ユーザの音声を取得する音声取得手段をさらに有し、
前記検知手段は、前記音声取得手段が取得した音声を基に前記ユーザの状態を検知する、
ことを特徴とする請求項１に記載の対話型コミュニケーション装置。
前記選択手段は、同一のユーザに対し同一の書籍について過去に朗読した履歴により朗読パターンを変更する、
ことを特徴とする請求項１記載の対話型コミュニケーション装置。
前記選択手段は、検知した前記ユーザの状態に基づき、朗読する速度、音声の高低レベル、音声の質、抑揚のうち少なくとも１つ以上のパラメータの組み合わせから特定される朗読パターンを選択する、
ことを特徴とする請求項１記載の対話型コミュニケーション装置。
前記検知手段は、複数のユーザを判別し、
前記選択手段は、複数のユーザの中の何れかのユーザの状態に応じて、朗読パターンを選択する、
ことを特徴とする請求項１記載の対話型コミュニケーション装置。
前記選択手段は、複数のユーザの中で、子供の状態に応じて、朗読パターンを選択する、
ことを特徴とする請求項１記載の対話型コミュニケーション装置。
前記検知手段は、自装置の周辺の状況をさらに検知し、
前記選択手段は、検知した状況に基づき、朗読パターンを選択する、
ことを特徴とする請求項１に記載の対話型コミュニケーション装置。
書籍を朗読する対話型コミュニケーション装置と、
前記書籍を朗読した音声コンテンツのデータを保存する保存装置と、
を備え、
前記対話型コミュニケーション装置は、
ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、
ユーザから朗読に関する要求を取得する要求取得手段と、
ユーザとの会話からユーザの状態を検知する検知手段と、
朗読パターンを記憶する記憶手段と、
検知された前記ユーザの状態に応じて、朗読パターンを前記記憶手段から選択する選択手段と、
選択された朗読パターンにより、書籍を朗読する音声出力手段と、
を有し、
前記検知手段は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知し、
前記選択手段は、ユーザの評価をさらに加味して朗読パターンを選択する、
ことを特徴とするコミュニケーションシステム。
コンピュータに、
ユーザから朗読に関する要求を取得する要求取得機能と、
ユーザとの会話からユーザの状態を検知し、ユーザとの会話から書籍の朗読に対するユーザの評価を検知する検知機能と、
検知された前記ユーザの状態およびユーザの評価に応じて、朗読パターンを選択する選択機能と、
を実現させるためのプログラム。