JP2020076885A

JP2020076885A - 音声出力システムおよびプログラム

Info

Publication number: JP2020076885A
Application number: JP2018210672A
Authority: JP
Inventors: 彩華清石; Ayaka Kiyoishi; 岳陽冨田; Takeharu Tomita; 友希新田; Yuki Nitta
Original assignee: Tokyo Gas Co Ltd
Current assignee: Tokyo Gas Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2020-05-21

Abstract

【課題】話者が文章を読み上げることにより話者から発せられた音声を出力させる構成に比べて、話者から発せられた音声に基づいて音声により出力される文章の種類を多様化させる。【解決手段】話者から発せられた音声に関する音声情報を取得する音声情報取得手段と、表示媒体に表示される表示内容に応じた文章を、音声情報に基づき話者の音声の態様を模した音声により、表示媒体のユーザに用いられる音声出力機器に出力させる出力制御手段と、を備えた、音声出力システム。【選択図】図５

Description

本発明は、音声出力システムおよびプログラムに関する。

例えば特許文献１には、声優または声優志願者が書籍を朗読することで発せられた音声が録音され、録音データはＷｅｂ上のサーバに保持され、書籍の読者が、保持された録音データをダウンロードして聴くことが開示されている。

特開２０１４−３８２９８号公報

例えば、話者が書籍を読み上げることにより話者から発せられた音声を、この話者とは異なるユーザの端末に出力させるとともに、この端末に書籍の表示内容を表示させるシステムがある。この場合、端末から音声により出力される文章は話者に読み上げられた文章に限られるため、音声により出力される文章の種類が単調になりやすかった。

本発明は、話者が文章を読み上げることにより話者から発せられた音声を出力させる構成に比べて、話者から発せられた音声に基づいて音声により出力される文章の種類を多様化させることを目的とする。

請求項１に記載の発明は、話者から発せられた音声に関する音声情報を取得する音声情報取得手段と、表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる出力制御手段と、を備えた、音声出力システムである。
請求項２に記載の発明は、前記音声の態様には、前記話者から発せられた前記音声のうち言葉以外の音声の態様が含まれることを特徴とする請求項１記載の音声出力システムである。
請求項３に記載の発明は、前記話者が前記音声を発している際の当該話者が映っている画像を取得する画像取得手段をさらに備え、前記出力制御手段は、前記画像に基づいて、前記話者が前記文章を音声により発する際における当該話者の態様を模した画像を前記ユーザの前記表示媒体に表示させることを特徴とする請求項１記載の音声出力システムである。
請求項４に記載の発明は、前記ユーザと前記話者との会話に関する会話情報を取得する会話情報取得手段と、前記ユーザからの質問を受け付ける受付手段と、をさらに備え、前記出力制御手段は、前記会話情報に基づいて、前記受付手段に受け付けられた前記質問に対する回答を、前記音声の態様を模した音声により前記音声出力機器に出力させることを特徴とする請求項１記載の音声出力システムである。
請求項５に記載の発明は、前記表示媒体には、絵が表示され、前記文章は、前記絵に係る文章であることを特徴とする請求項１記載の音声出力システムである。
請求項６に記載の発明は、コンピュータに、話者から発せられた音声に関する音声情報を取得する機能と、表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる機能と、
を実現させるための、プログラムである。

本発明によれば、話者が文章を読み上げることにより話者から発せられた音声を出力させる構成に比べて、話者から発せられた音声に基づいて音声により出力される文章の種類を多様化させることができる。

本実施形態に係る読み聞かせシステムの全体構成例を示す図である。管理サーバ、主ユーザの端末、および副ユーザの端末のハードウェア構成例を示す図である。管理サーバの機能構成例を示した図である。読み聞かせシステムのシーケンス図である。主ユーザの端末における画像の表示例を示した図である。主ユーザの端末における画像の表示例を示した図である。主ユーザの端末における画像の表示例を示した図である。変形例としての読み聞かせシステムを示した図である。絵本情報管理テーブルの一例を示した図である。読み聞かせ中において開かれている絵本および主ユーザの端末における画像の表示例を示した図である。

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
＜読み聞かせシステムの構成＞
図１は、本実施形態に係る読み聞かせシステム１の全体構成例を示す図である。
音声出力システムの一例としての読み聞かせシステム１は、絵本に関する情報をユーザに提供することにより、絵本の読み聞かせを行う。
読み聞かせシステム１は、管理サーバ１０と、端末３０と、端末４０とを備える。管理サーバ１０と端末３０、および管理サーバ１０と端末４０とは、ネットワークを介して接続されている。

管理サーバ１０は、絵本の絵に関する情報および絵本の文章に関する情報を提供する。具体的には、管理サーバ１０は、読み聞かせシステム１の利用申請を、端末３０から受け付ける。また、管理サーバ１０は、読み聞かせシステム１の利用グループへの招待の承諾を、端末４０から受け付ける。さらに、管理サーバ１０は、端末４０のユーザから発せられた音声を、端末４０を介して受け付ける。そして、管理サーバ１０は、端末３０から絵本の読み聞かせの指示を受けると、絵本の絵に関する情報および絵本の文章に関する情報を端末３０に送信する。さらに、管理サーバ１０は、絵本の文章に関する情報を、端末４０のユーザの音声の態様を模した音声により端末３０に出力させる。本実施形態では、絵本の読み聞かせを指示するユーザを、主ユーザと称する。また、絵本の読み聞かせ中に出力される音声の基となる音声を入力するユーザを、副ユーザと称する。なお、主ユーザおよび副ユーザを区別せずに説明する場合には、単にユーザと称する。

管理サーバ１０は、例えば、コンピュータにより実現される。管理サーバ１０は、単一のコンピュータにより構成しても良いし、複数のコンピュータによる分散処理により実現しても良い。

主ユーザの端末３０は、画像表示部３１と、カメラ３２とを備える。
画像表示部３１は、画像を表示する。カメラ３２は、撮影領域内の被写体を撮影する。主ユーザの端末３０は、カメラ３２により撮影された画像や動画を、ネットワークを介して管理サーバ１０に送信する機能を有する。
副ユーザの端末４０は、画像表示部４１と、カメラ４２とを備える。
副ユーザの端末４０は、主ユーザの端末３０と同じ構成である。

主ユーザの端末３０および副ユーザの端末４０には、スマートフォンなどの携帯電話、タブレット型端末などの携帯端末機器など、ユーザが持ち歩くことが可能な装置を用いることができる。なお、主ユーザの端末３０および副ユーザの端末４０は、例えば、コンピュータ、その他の情報処理装置により実現されてもよい。
本実施形態の主ユーザの端末３０および副ユーザの端末４０には、タッチパネルが設けられており、画面をユーザがタッチすることで画面に表示される画像に対する操作および指示を行う。

管理サーバ１０と端末３０との接続、および管理サーバ１０と端末４０との接続に用いられるネットワークは、データの送受信が可能であれば、その種類は特に限定されず、例えばインターネット、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等として良い。データ通信に用いられる通信回線は、有線であっても無線であっても良い。また、複数のネットワークや通信回線を介して各装置を接続する構成としても良い。

＜ハードウェア構成例＞
図２は、管理サーバ１０、主ユーザの端末３０、および副ユーザの端末４０のハードウェア構成例を示す図である。
図２に示すように、管理サーバ１０、主ユーザの端末３０、および副ユーザの端末４０は、演算手段であるＣＰＵ(Central Processing Unit)１００ａと、主記憶手段であるメモリ１００ｃとを備える。また、各装置は、外部デバイスとして、磁気ディスク装置(ＨＤＤ：Hard Disk Drive)１００ｇ、ネットワークインターフェイス１００ｆ、表示機構１００ｄ、音声機構１００ｈ、キーボードやマウス等の入力デバイス１００ｉ等を備える。

メモリ１００ｃおよび表示機構１００ｄは、システムコントローラ１００ｂを介してＣＰＵ１００ａに接続されている。また、ネットワークインターフェイス１００ｆ、磁気ディスク装置１００ｇ、音声機構１００ｈおよび入力デバイス１００ｉは、ブリッジコントローラ１００ｅを介してシステムコントローラ１００ｂと接続されている。各構成要素は、システムバスや入出力バスなどの各種のバスによって接続される。

磁気ディスク装置１００ｇには、各機能を実現するためのプログラムが格納されている。そして、このプログラムがメモリ１００ｃにロードされ、このプログラムに基づく処理がＣＰＵ１００ａにより実行されることで、各種の機能が実現される。

＜管理サーバの機能構成＞
次に、管理サーバ１０の機能構成について説明する。
図３は、管理サーバ１０の機能構成例を示した図である。
管理サーバ１０は、送受信部１１と、利用受付部１２と、利用者管理部１３と、通信制御部１４と、ユーザ情報取得部１５と、ユーザ情報管理部１６と、絵本情報管理部１７と、作成部１８と、読み聞かせ指示受付部１９と、出力内容管理部２０とを備える。

送受信部１１は、ネットワークを介して、主ユーザの端末３０および副ユーザの端末４０と接続するためのネットワークインターフェイスである。これにより、管理サーバ１０は、主ユーザの端末３０および副ユーザの端末４０とデータ交換を行う。

利用受付部１２は、主ユーザの端末３０から、読み聞かせシステム１の利用の申請を受け付ける。利用受付部１２は、主ユーザの端末３０から利用の申請を受けると、主ユーザの端末３０へのログインＩＤの付与や、主ユーザの端末３０からの暗証番号の登録の受付を行う。そして、ログインＩＤおよび暗証番号が入力された主ユーザの端末３０による読み聞かせシステム１の利用を許可し、利用を許可した主ユーザをグループの一員とする読み聞かせシステム１の利用グループを作成する。

また、利用受付部１２は、読み聞かせシステム１の利用グループに加える副ユーザを決定する。具体的には、利用受付部１２は、主ユーザの端末３０から、利用グループに招待したいユーザの指定を受け付ける。ユーザの指定は、例えば、招待したいユーザのメールアドレスを主ユーザの端末３０に入力することによって行われる。そして、主ユーザに指定されたユーザの端末４０に対し、読み聞かせシステム１の利用グループへの招待を通知する。利用グループへの招待がユーザの端末４０により承諾されると、利用受付部１２は、このユーザを副ユーザとして読み聞かせシステム１の利用グループに加える。利用受付部１２は、利用グループ内の各ユーザに関するユーザ情報を、各ユーザが主ユーザおよび副ユーザの何れであるかを識別可能な形式で利用者管理部１３へ送信する。

利用者管理部１３は、読み聞かせシステム１の利用者を管理する。具体的には、利用者管理部１３は、読み聞かせシステム１の利用グループごとに、利用グループ内の主ユーザと副ユーザとを関連付けて記憶する。

通信制御部１４は、例えば、主ユーザの端末３０から副ユーザの端末４０へ送信された通信依頼が副ユーザの端末４０にて承諾されることに基づいて、主ユーザの端末３０と副ユーザの端末４０との音声通信を確立する。音声通信としては、例えば、Ｐ２Ｐ(Peer to Peer)による通信方式やＶｏＩＰ(Voice over Internet Protocol)による通信方式等が用いられる。

また、通信制御部１４は、主ユーザの端末３０と副ユーザの端末４０との音声通信を確立する際に、送受信部１１を介して副ユーザの端末４０に撮影指示を送信し、副ユーザの端末４０のカメラ４２による撮影を開始させる。

ユーザ情報取得部１５は、読み聞かせシステム１の利用グループに属する主ユーザに関する情報および副ユーザに関する情報を取得する。ユーザ情報取得部１５は、予め定められた文章を副ユーザの音声により副ユーザの端末４０に入力させる。ユーザ情報取得部１５は、例えば、予め定められた文章を音声により副ユーザの端末４０に入力することを副ユーザの端末４０に通知することで、副ユーザに音声の入力を促す。さらに、このとき、送受信部１１を介して副ユーザの端末４０に撮影指示を送信し、副ユーザの端末４０のカメラ４２による撮影を開始させる。そして、ユーザ情報取得部１５は、副ユーザの端末４０に入力された音声を、音声データとして送受信部１１を介して取得する。また、副ユーザの端末４０に音声が入力されているときに副ユーザの端末４０のカメラ４２に撮影された副ユーザの映像を、動画データとして送受信部１１を介して取得する。予め定められた文章は、後述する作成部１８が絵本の文章に関する情報を音声データとして作成するために必要な内容が設定された文章である。ユーザ情報取得部１５は、予め定められた種類の予め定められた文章を、音声により副ユーザの端末４０に入力させる。予め定められた種類は、作成部１８が音声データを作成するために副ユーザの音声による入力が必要な予め定められた文章の種類である。

また、ユーザ情報取得部１５は、主ユーザの端末３０と副ユーザの端末４０との音声通信が通信制御部１４により確立されている際に主ユーザと副ユーザとの間で行われた会話を、音声データとして送受信部１１を介して取得する。
また、ユーザ情報取得部１５は、主ユーザと副ユーザとが会話している際に副ユーザの端末４０のカメラ４２によって撮影された副ユーザの映像を、動画データとして送受信部１１を介して取得する。

ユーザ情報管理部１６は、主ユーザに関する情報および副ユーザに関する情報を管理する。ユーザ情報管理部１６は、ユーザ情報取得部１５に取得された音声データや動画データを記憶する。この場合に、ユーザ情報管理部１６は、主ユーザと副ユーザとの会話としてユーザ情報取得部１５に取得された音声データを、主ユーザの音声と副ユーザの音声とを識別可能に記憶する。

絵本情報管理部１７は、複数種類の絵本に関する情報を記憶する。絵本情報管理部１７は、例えば、絵本の絵を画像データとして記憶し、絵本の文章をテキストデータとして記憶する。また、絵本情報管理部１７は、絵本の各ページに対応する絵と文章とを関連付けて記憶する。以下では、画像データとして記憶されている絵本の絵を、絵情報と称する。また、テキストデータとして記憶されている絵本の文章を、文章情報と称する。
また、絵本情報管理部１７には、絵本の読み聞かせ中において主ユーザの端末３０や副ユーザの端末４０に表示される画像が記憶されている。

作成部１８は、絵本情報管理部１７に記憶されている文章情報に基づいて、文章を音声データとして作成する。作成部１８は、ユーザ情報管理部１６に記憶されている音声データに基づいて、副ユーザの音声の態様を模した音声による音声データを作成する。具体的には、予め定められた文章の音声データ、および、主ユーザと副ユーザとの会話の音声データに基づいて、音声データを作成する。
副ユーザの音声の態様としては、例えば、副ユーザが話す速度、副ユーザが話しているときの間の取り方、副ユーザの声色、副ユーザから発せられた方言、咳等の副ユーザの癖などが挙げられる。

作成部１８は、副ユーザから発せられた音声の態様を検出する。具体的には、ユーザ情報管理部１６に記憶されている音声データに基づいて、副ユーザから発せられた音声の特徴量を算出する。ユーザ情報管理部１６は、例えば、副ユーザから発せられた音声の最小単位である音素ごとに、副ユーザから発せられた音声の特徴量を算出する。さらに、算出した特徴量から、副ユーザから発せられた音声の態様を検出する。そして、文章情報に基づいて文章を音声データとして作成する際に、検出した副ユーザの音声の態様を反映させることにより、副ユーザの音声の態様を模した音声による音声データを作成する。作成した音声データは、作成の対象となった文章情報に関連付けられて絵本情報管理部１７に記憶される。

また、作成部１８は、ユーザ情報管理部１６に記憶されている動画データに基づいて、副ユーザを模した動画データを作成する。具体的には、予め定められた文章が音声により入力されているときの副ユーザの映像、および、主ユーザと副ユーザとの会話中における副ユーザの映像に基づいて、音声データとして作成された文章が副ユーザに読み上げられる際の副ユーザの態様を模した映像の動画データを作成する。
文章が副ユーザに読み上げられる際の副ユーザの態様としては、例えば、副ユーザの動作や表情などが挙げられる。副ユーザの動作としては、例えば、頭の動き、顔の向き、顔の構成部位（目、口等）の動き、腕や脚の動き、身体の向き、身体の移動などの動作が挙げられる。また、副ユーザの表情としては、例えば、笑顔、苦しんでいる顔、困っている顔、悲しんでいる顔、怒っている顔などが挙げられる。

作成部１８は、副ユーザの動作や表情を検出する。作成部１８は、まず、ユーザ情報管理部１６に記憶されている動画データを解析し、副ユーザの部位が映っている領域を識別する。具体的には、副ユーザが映っている領域、被介護者の頭部、体部、腕部、手部、指等が映っている領域、頭部の顔、目、口、鼻、耳等が映っている領域、その他身体の各特徴点が映っている領域などを識別する。また、作成部１８は、識別した領域に映っている身体の部位を特定し、副ユーザが発した音声の最小単位である音素ごとに、特定した部位の動作を検出する。この検出は、特定した部位ごとに行われる。さらに、作成部１８は、識別した領域に映っている顔を特定し、副ユーザが発した音声の最小単位である音素ごとに、特定した顔の表情を検出する。そして、検出した副ユーザの動作や表情に基づいて、音声データとして作成された文章が副ユーザに読み上げられる際の副ユーザの態様を模した映像の動画データを作成する。作成した動画データは、この動画データに係る音声データに対応する文章情報に関連付けられて絵本情報管理部１７に記憶される。

また、作成部１８は、絵本の読み聞かせ中に主ユーザから質問を受けると、この質問に対する回答を音声データとして作成する。具体的には、作成部１８は、主ユーザの端末３０から送信された音声データとしての質問を送受信部１１を介して取得すると、主ユーザと副ユーザとの会話の音声データに基づいて、質問に対する回答を作成する。作成部１８は、例えば、音声データとしてユーザ情報管理部１６に記憶されている主ユーザと副ユーザとの会話のうちの、主ユーザからの質問に対する副ユーザの回答を抽出する。そして、抽出した回答に基づいて、絵本の読み聞かせ中における主ユーザからの質問に対する回答を作成する。この場合に、作成部１８は、副ユーザの音声の態様を模した音声による音声データとして回答を作成する。また、作成部１８は、作成した回答が副ユーザに読み上げられる際の副ユーザの態様を模した映像の動画データを作成する。そして、作成した音声データおよび動画データを、出力内容管理部２０へ送信する。なお、作成部１８は、主ユーザからの質問を受け付ける受付手段として捉えられる。

読み聞かせ指示受付部１９は、主ユーザの端末３０から、絵本の読み聞かせの指示を受け付ける。読み聞かせ指示受付部１９は、読み聞かせの指示を受け付けると、主ユーザの端末３０から、複数種類の絵本のうち読み聞かせてほしい絵本の選択を受け付ける。そして、選択された絵本に関する絵本情報を、出力内容管理部２０に送信する。

出力内容管理部２０は、読み聞かせ指示受付部１９から絵本情報を取得すると、絵本情報管理部１７に記憶されている絵情報および文章情報のうち、絵本情報に基づいて特定される絵情報および文章情報を主ユーザの端末３０に送信する。具体的には、出力内容管理部２０は、絵本情報から、絵本情報管理部１７に記憶されている複数種類の絵本のうちの一の絵本を特定する。そして、特定した絵本の１ページ目に対応する絵情報および文章情報を、主ユーザの端末３０の画像表示部３１に表示させる。さらに、出力内容管理部２０は、表示させる文章情報に関連付けられて絵本情報管理部１７に記憶されている音声データを主ユーザの端末３０に出力させる。またさらに、出力内容管理部２０は、表示させる文章情報に関連付けられて絵本情報管理部１７に記憶されている動画データを画像表示部３１に表示させる。

また、出力内容管理部２０は、主ユーザからの質問に対する回答としての音声データ、およびこの音声データに係る動画データを作成部１８から取得する。そして、取得した音声データを主ユーザの端末３０に出力させるとともに、取得した動画データを主ユーザの端末３０における画像表示部３１に表示させる。
なお、作成部１８および出力内容管理部２０は、出力制御手段として捉えられる。

＜読み聞かせシステムの動作例＞
続いて、本実施形態の読み聞かせシステム１の動作例について説明する。
図４は、読み聞かせシステム１のシーケンス図である。
図４に示すように、主ユーザは、主ユーザの端末３０を用いて、読み聞かせシステム１の利用申請を行う（Ｓ１０１）。
管理サーバ１０の利用受付部１２は、主ユーザの端末３０からの利用申請を受け付け、主ユーザによる読み聞かせシステム１の利用を許可する（Ｓ１０２）。また、主ユーザの端末３０に対し、読み聞かせシステム１の利用グループに招待したいユーザを指定させる（Ｓ１０３）。

主ユーザは、利用グループに招待したいユーザを指定する（Ｓ１０４）。
管理サーバ１０の利用受付部１２は、主ユーザに指定された副ユーザの端末４０に対し、利用グループへの招待を通知する（Ｓ１０５）。
副ユーザは、副ユーザの端末４０を用いて、利用グループへの招待を承諾する（Ｓ１０６）。
管理サーバ１０の利用受付部１２は、主ユーザの端末３０に対し、副ユーザの利用グループへの招待が承諾されたことを通知する（Ｓ１０７）。

ユーザ情報取得部１５は、副ユーザの端末４０から、音声データや動画データを取得する（Ｓ１０８）。取得した音声データや動画データは、ユーザ情報管理部１６に記憶される。
作成部１８は、ユーザ情報管理部１６に記憶されている音声データに基づいて、副ユーザの音声を模した音声による音声データを作成する（Ｓ１０９）。また、記憶されている動画データに基づいて、副ユーザの態様を模した映像の動画データを作成する（Ｓ１１０）。

主ユーザは、主ユーザの端末３０を用いて、絵本の読み聞かせの指示を行う（Ｓ１１１）。
管理サーバ１０の読み聞かせ指示受付部１９は、主ユーザの端末３０に対し、読み聞かせてほしい絵本を選択させる（Ｓ１１２）。
主ユーザは、主ユーザの端末３０の画像表示部３１に表示されている絵本の中から、読み聞かせてほしい絵本を選択する（Ｓ１１３）。

管理サーバ１０の出力内容管理部２０は、絵本情報管理部１７に記憶されている絵情報および文章情報のうち、主ユーザに選択された絵本の１ページ目に対応する絵情報および文章情報を、主ユーザの端末３０における画像表示部３１に表示させる（Ｓ１１４）。
また、出力内容管理部２０は、表示させた文章情報に関連付けられて絵本情報管理部１７に記憶されている音声データを主ユーザの端末３０に出力させる（Ｓ１１５）。さらに、出力内容管理部２０は、表示させる文章情報に関連付けられて絵本情報管理部１７に記憶されている動画データを画像表示部３１に表示させる（Ｓ１１６）。

＜読み聞かせ中における画像の表示例＞
次に、絵本の読み聞かせ中において主ユーザの端末３０の画像表示部３１における画像の表示例について説明する。
図５〜図７は、主ユーザの端末３０における画像の表示例を示した図である。

図５に示すように、主ユーザの端末３０の画像表示部３１には、絵本画面５１が表示されている。絵本画面５１には、絵情報５２と文章情報５３とが表示されている。画像表示部３１に表示されている絵情報５２と文章情報５３とは、絵本情報管理部１７に関連付けられて記憶されている絵情報および文章情報である。図示の例では、文章情報５３には、「みきちゃんは、バッグをさがしていました。」という文章が表示されている。

また、このとき、主ユーザの端末３０のスピーカー（不図示）から、副ユーザの音声の態様を模した音声が出力される。具体的には、主ユーザの端末３０から、「みきちゃんはね、バッグをね、さがして・・・いたんだよ。」という文章が音声により出力される。このように、主ユーザの端末３０から音声により出力される文章は、画像表示部３１に表示されている文章情報５３とは異なっている。すなわち、本実施形態では、副ユーザの音声の態様を模した音声による文章が出力されるため、音声の入力を行う副ユーザごとに異なる文章が出力されるようになる。

また、このとき、画像表示部３１には、副ユーザ動画５４が表示されている。副ユーザ動画５４には、副ユーザを模した副ユーザ模倣映像５５が表示されている。副ユーザ模倣映像５５は、主ユーザの端末３０から音声により出力される文章が副ユーザに読み上げられる際の副ユーザの態様を模した映像である。

ここで、例えば、図６に示すように、主ユーザが、主ユーザの端末３０のマイク（不図示）に向かって「バッグなくなっちゃったの？」と質問する。
この場合、図７に示すように、主ユーザの端末３０から、主ユーザの質問に対する回答が音声により出力される。図示の例では、「きっとね、すぐにね、みつかると・・・おもうよ。」という回答が音声により出力される。

また、このとき、副ユーザ模倣映像５５には、回答が副ユーザに読み上げられる際の副ユーザの態様を模した映像が表示されている。すなわち、主ユーザが質問する前と後とで、副ユーザ模倣映像５５の表示内容が異なっている。

このように、本実施形態では、副ユーザから発せられた音声に関する情報を取得する。そして、主ユーザの端末３０に表示される表示内容に応じた文章を、取得した音声に関する情報に基づき副ユーザの音声の態様を模した音声により、主ユーザの端末３０に出力させる。
この場合、副ユーザが文章を読み上げることにより副ユーザから発せられた音声を主ユーザの端末３０に出力させる構成に比べて、副ユーザから発せられた音声に基づいて音声により主ユーザの端末３０に出力される文章の種類が多様化する。

特に、本実施形態では、文章を、主ユーザと副ユーザとの会話の音声データに基づき副ユーザの音声の態様を模した音声による音声データとして作成する。そのため、副ユーザが文章を読み上げる際に発せられた音声のみに基づき副ユーザの音声を模した音声による音声データを作成する場合に比べて、作成する音声データに副ユーザの音声の態様が反映されやすくなる。

また、本実施形態では、副ユーザが話しているときの間の取り方や、咳等の副ユーザの癖など、副ユーザから発せられた音声のうち言葉以外の音声の態様を模した音声により文章を出力させる。そのため、主ユーザは、この音声から、より副ユーザらしさを感じることができる。

また、本実施形態では、主ユーザの端末３０に出力される文章を副ユーザが発する際における副ユーザの態様を模した映像を主ユーザの端末３０に表示させる。そのため、主ユーザは、主ユーザの端末３０に表示される映像と相まって、絵本を読み上げる音声から副ユーザらしさを感じることができる。

＜変形例＞
続いて、読み聞かせシステム１の変形例について説明する。
主ユーザに用いられる表示媒体は、主ユーザの端末３０に限定されない。
図８は、変形例としての読み聞かせシステム１を示した図である。なお、上記と同様の構成については、同一の符号を用いる。
読み聞かせシステム１には、絵本９０が設けられている。管理サーバ１０と絵本９０とは、ネットワークを介して接続されている。

絵本９０は、主ユーザへの読み聞かせの対象となる本である。本実施形態の絵本９０には、各ページに、絵が描かれているとともにこの絵を説明するための文章が記載されている。
絵本９０には、複数の識別シール９１と、読取装置９４とが取り付けられている。

識別シール９１は、絵本９０に対して付け外し可能になっている。本実施形態では、主ユーザによって、識別シール９１が、絵本９０の見開き左側の各ページにそれぞれ取り付けられている。また、識別シール９１には、識別子９２と、識別番号９３とが表示されている。

識別子９２は、識別シール９１が取り付けられている絵本９０のページを識別するために用いられる。識別子９２としては、例えば、ＱＲ(Quick Response)コード（登録商標）などの二次元コードや、バーコードなどが用いられる。
識別番号９３は、識別子９２に対応付けられている絵本９０のページを識別する番号である。本実施形態では、識別番号９３に表示されている数字は、この識別番号９３が付された識別シール９１の識別子９２に対応付けられている絵本９０のページ番号を意味する。すなわち、識別番号９３が「７」である場合（図８参照）、この識別番号９３が付された識別シール９１の識別子９２には、絵本９０の「７ページ」が対応付けられている。主ユーザは、一の識別シール９１に表示されている識別番号９３から、この一の識別シール９１を取り付ける対象となる絵本９０のページを認識する。

読取装置９４は、識別シール９１に表示されている識別子９２を読み取る。読取装置９４は、例えば、絵本９０に取り付けられた識別子９２を読み取り可能な位置に設けられる。読取装置９４としては、例えば、コードリーダが用いられる。読取装置９４は、識別子９２を読み取ると、読み取った識別子９２に対応付けられている絵本９０のページを識別するページ識別情報、および読み取った識別子９２が付されている識別シール９１を識別するシール識別情報を生成する。そして、生成したページ識別情報およびシール識別情報を管理サーバ１０に送信する。
なお、読取装置９４は、図中矢印Ａ方向へ移動することで、絵本９０に対して進退可能になっている。

変形例において、利用受付部１２（図３参照）は、主ユーザの端末３０から利用の申請を受けると、主ユーザの絵本９０に取り付けられる識別シール９１の登録を行う。識別シール９１の登録は、例えば、識別シール９１に付された識別ＩＤの入力などによって行われる。
また、利用受付部１２は、主ユーザの端末３０による読み聞かせシステム１の利用を許可すると、主ユーザに登録された識別シール９１の情報を利用者管理部１３へ送信する。

利用者管理部１３は、主ユーザと、この主ユーザに登録された識別シール９１とを関連付けて記憶する。
絵本情報管理部１７は、複数種類の絵本９０に関する情報を記憶する。絵本情報管理部１７の記憶内容については、後に詳述する。
読み聞かせ指示受付部１９は、主ユーザからの読み聞かせの指示を受け付けた後に、複数種類の絵本９０のうち読み聞かせてほしい絵本９０の選択を受け付ける。そして、選択された絵本９０が示された選択情報を、出力内容管理部２０に送信する。

出力内容管理部２０は、読み聞かせ指示受付部１９から選択情報を取得すると、取得した選択情報から、主ユーザが選択した絵本９０を特定する。
また、出力内容管理部２０は、ページ識別情報を取得すると、取得したページ識別情報から絵本９０のページを特定する。そして、絵本情報管理部１７に記憶されている文章情報のうち、特定の絵本９０の特定のページの文章情報に関連付けられて記憶されている音声データを、主ユーザの端末３０に出力させる。さらに、特定のページの文章情報に関連付けられて記憶されている動画データを、主ユーザの端末３０における画像表示部３１に表示させる。出力内容管理部２０が音声データおよび動画データを出力させる処理については、後述する。

＜絵本情報管理部の記憶内容＞
次に、絵本情報管理部１７の記憶内容について説明する。
図９は、絵本情報管理テーブルの一例を示した図である。
図９に示す絵本情報管理テーブルは、絵本のページと、文章情報とを関連付けて管理するためのテーブルである。

絵本情報管理テーブルでは、「絵本」に、絵本９０のタイトルが示されている。また、「文章情報」に、絵本９０に記載されている文章が示されている。「文章情報」の「ページ」には、絵本９０の該当ページに記載されている文章が示されている。一例を挙げると、「みきちゃんのおでかけ」の「１〜２ページ」には、みきちゃんのおでかけというタイトルの絵本９０における１〜２ページに記載されている文章「あるお家に、みきちゃん〜」が示されている。
また、図示を省略するが、「絵本」ごとに、「文章情報」の「ページ」に、この「文章情報」に基づいて作成部１８に作成された音声データ、およびこの音声データに係る動画データが関連付けられている。

絵本情報管理テーブルでは、「ページ」ごとに、複数種類の絵本９０の該当ページに記載されている文章に関する「文章情報」がそれぞれ示されている。そのため、同じ「ページ」であっても、「絵本」ごとにそれぞれ異なる「文章情報」が示されている。

＜出力内容管理部の処理＞
出力内容管理部２０の処理について説明する。出力内容管理部２０は、選択情報を取得すると、絵本情報管理テーブルに示されている「絵本」のうち取得した選択情報に示された「絵本」を特定する。また、ページ識別情報を取得すると、取得したページ識別情報から識別されるページを含む「ページ」を特定する。そして、特定した「絵本」の「ページ」に示されている文章情報に関連付けられて絵本情報管理部１７に記憶されている音声データおよび動画データを、主ユーザの端末３０に出力させる。

＜開かれている絵本のページと端末に表示される画像との関係＞
次に、絵本９０の読み聞かせ中において開かれている絵本９０のページと、主ユーザの端末３０に表示される画像との関係について説明する。図１０は、読み聞かせ中において開かれている絵本９０および主ユーザの端末３０における画像の表示例を示した図である。

図１０に示すように，主ユーザは、絵本９０の３ページおよび４ページを開いている。絵本９０の３ページには、女の子の絵２０１が描かれているとともに、この絵２０１を説明するための文章２０２が記載されている。図示の例では、３ページの文章２０２には、「きょうはまちにまったおでかけです。」というメッセージが表示されている。

また、絵本９０の３ページには、識別番号９３が「３」である識別シール９１が取り付けられている。識別シール９１に表示されている識別子９２が読取装置９４に読み取られることにより、主ユーザの端末３０から、文章２０２に係る文章が音声により出力される。具体的には、主ユーザの端末３０から、「きょうはね、まちにまった・・・おでかけですよ。」という文章が音声により出力される。

また、このとき、主ユーザの端末３０における画像表示部３１には、副ユーザ動画５４が表示されている。副ユーザ動画５４には、主ユーザの端末３０から出力される音声としての文章が副ユーザに読み上げられる際の副ユーザの態様を模した副ユーザ模倣映像５５が表示されている。
このように、主ユーザに用いられる表示媒体は、主ユーザの端末３０に限られず、絵本９０であってもよい。

なお、本実施形態では、読取装置が絵本９０に取り付けられる構成を説明したが、これに限定されない。
例えば、読取装置は、主ユーザに取り付け可能に設けられてもよい。

また、本実施形態では、主ユーザの端末３０を用いて絵本９０の読み聞かせを指示することを説明したが、これに限定されない。
例えば、絵本９０に取り付けられている識別子９２が読取装置に読み取られると、ページ識別情報やシール識別情報とともに、読み聞かせの指示が管理サーバ１０に送信されてもよい。この場合、主ユーザが、読み聞かせを指示するためだけの操作を行う必要がなくなる。

また、主ユーザによる絵本９０の選択は、読取装置や他の端末により実行可能であってもよい。さらに、読み聞かせ中において主ユーザの端末３０から出力される音声や動画が、音声や動画を出力可能な読取装置や他の端末から出力されてもよい。例えば、ロボットなどの動作装置から音声や動画を出力させてもよい。この場合に、出力させる音声や動画に応じて、動作装置を動作させてもよい。ここで、読取装置、他の端末、および動作装置は、情報を表示する表示媒体として捉えられる。
また、絵本９０が、主ユーザによる絵本９０の選択を実行可能に設けられてもよい。さらに、絵本９０に音声や動画を出力可能な出力機器を設け、読み聞かせ中において音声や動画が絵本９０の出力機器から出力されてもよい。
すなわち、絵本９０の読み聞かせには主ユーザの端末３０が用いられなくてもよい。

また、本実施形態では、識別子９２から絵本９０における特定の１ページが識別されることを説明したが、識別されるページ数は、２ページ以上であってもよい。
また、本実施形態では、絵本情報管理テーブルに、文章情報が２ページごとに管理されていることを説明したが、３ページ分以上の文章に係る文章情報が管理されてもよいし、２ページ分よりも少ない文章に係る文章情報が管理されてもよい。

また、本実施形態では、読取装置を用いて識別子９２を読み取ることを説明したが、例えば、主ユーザの端末３０を用いて識別子９２を読み取り、生成した情報が管理サーバ１０に送信されてもよい。

また、例えば、主ユーザが属する利用グループ内に複数の副ユーザが属している場合、主ユーザは、管理サーバ１０に対して読み聞かせの指示を行う際に、何れの副ユーザに係る音声により読み聞かせしてもらうかを選択するようにしてもよい。

また、本実施形態では、主ユーザに指定されたユーザが利用グループへの招待を承諾することによって副ユーザが加わることを説明したが、これに限定されない。
例えば、利用グループへの招待の有無に関わらず、読み聞かせ中に出力される音声の基となる音声を端末に入力したユーザを、副ユーザとして登録してもよい。この場合に、主ユーザは、自らが所属している利用グループ外の副ユーザに係る音声により読み聞かせしてもらうことを選択してもよい。
また、例えば、主ユーザが支払った金額に応じて、何れの副ユーザに係る音声により読み聞かせしてもらうかの選択範囲が設定されてもよい。

また、本実施形態では、作成部１８は、予め定められた文章の音声データおよび主ユーザと副ユーザとの会話の音声データに基づいて副ユーザの音声を模した音声データを作成することを説明したが、これに限定されない。
例えば、作成部１８は、予め定められた文章の音声データのみに基づいて、副ユーザの音声を模した音声データを作成してもよい。すなわち、作成部１８は、音声データの作成において、主ユーザと副ユーザとの会話の音声データを用いなくてもよい。
また、例えば、主ユーザと副ユーザとの会話の音声データのみに基づいて副ユーザの音声を模した音声データを作成してもよい。すなわち、作成部１８は、音声データの作成において、予め定められた文章の音声データを用いなくてもよい。

また、本実施形態では、作成部１８は、予め定められた文章が音声により副ユーザの端末４０に入力されているときの副ユーザの映像、および、主ユーザと副ユーザとの会話中における副ユーザの映像に基づいて、副ユーザの態様を模した映像の動画データを作成することを説明したが、これに限定されない。
例えば、作成部１８は、予め定められた文章が音声により副ユーザの端末４０に入力されているときの副ユーザの映像のみに基づいて、副ユーザの態様を模した映像の動画データを作成してもよい。すなわち、動画データの作成において、主ユーザと副ユーザとの会話中における副ユーザの映像を用いなくてもよい。
また、例えば、作成部１８は、主ユーザと副ユーザとの会話中における副ユーザの映像に基づいて、副ユーザの態様を模した映像の動画データを作成してもよい。すなわち、動画データの作成において、予め定められた文章が音声により副ユーザの端末４０に入力されているときの副ユーザの映像を用いなくてもよい。

また、作成部１８は、副ユーザの態様を模した映像の動画データを作成することを説明したが、例えば、副ユーザの態様を模した一以上の画像データを作成するようにしてもよい。

また、本実施形態では、主ユーザの端末３０における画像表示部３１に文章情報を表示させるとともに主ユーザの端末３０に音声データを出力させることを説明したが、これに限定されない。
例えば、出力内容管理部２０は、画像表示部３１に文章情報を表示させることなく音声データを主ユーザの端末３０に出力させてもよい。

また、本実施形態では、絵本に関する画像を主ユーザの端末３０に表示させることを説明したが、画像を表示可能な表示媒体であれば、主ユーザの端末３０とは別の表示媒体に画像を表示させてもよい。

また、本実施形態では、絵本に関する画像を表示媒体に表示させるとともに、表示媒体に表示させる画像に関する音声を音声出力機器に出力させることを説明したが、表示媒体や音声出力機器に出力させる情報は、絵本に関する情報に限られない。

また、本実施形態では、管理サーバ１０から送信された情報が主ユーザの端末３０に出力されることで絵本の読み聞かせが実現される構成としたが、これに限定されない。
例えば、主ユーザの端末３０が管理サーバ１０の機能を有してもよい。言い換えると、主ユーザの端末３０が、管理サーバ１０の送受信部１１、利用受付部１２、利用者管理部１３、通信制御部１４、ユーザ情報取得部１５、ユーザ情報管理部１６、絵本情報管理部１７、作成部１８、読み聞かせ指示受付部１９、出力内容管理部２０等の機能を備えることとしてもよい。

また、本発明の実施形態を実現するプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で提供し得る。また、インターネットなどの通信手段を用いて提供することも可能である。

以上、本発明の実施形態について説明したが、本発明の技術的範囲は上記の実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

１…読み聞かせシステム、１０…管理サーバ、１１…送受信部、１２…利用受付部、１３…利用者管理部、１４…通信制御部、１５…ユーザ情報取得部、１６…ユーザ情報管理部、１７…絵本情報管理部、１８…作成部、１９…読み聞かせ指示受付部、２０…出力内容管理部、３０…端末、３１…画像表示部、３２…カメラ、４０…端末、９０…絵本

Claims

話者から発せられた音声に関する音声情報を取得する音声情報取得手段と、
表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる出力制御手段と、
を備えた、音声出力システム。
前記音声の態様には、前記話者から発せられた前記音声のうち言葉以外の音声の態様が含まれることを特徴とする請求項１記載の音声出力システム。
前記話者が前記音声を発している際の当該話者が映っている画像を取得する画像取得手段をさらに備え、
前記出力制御手段は、前記画像に基づいて、前記話者が前記文章を音声により発する際における当該話者の態様を模した画像を前記ユーザの前記表示媒体に表示させることを特徴とする請求項１記載の音声出力システム。
前記ユーザと前記話者との会話に関する会話情報を取得する会話情報取得手段と、
前記ユーザからの質問を受け付ける受付手段と、
をさらに備え、
前記出力制御手段は、前記会話情報に基づいて、前記受付手段に受け付けられた前記質問に対する回答を、前記音声の態様を模した音声により前記音声出力機器に出力させることを特徴とする請求項１記載の音声出力システム。
前記表示媒体には、絵が表示され、
前記文章は、前記絵に係る文章であることを特徴とする請求項１記載の音声出力システム。
コンピュータに、
話者から発せられた音声に関する音声情報を取得する機能と、
表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる機能と、
を実現させるための、プログラム。