JP2020076885A - 音声出力システムおよびプログラム - Google Patents

音声出力システムおよびプログラム Download PDF

Info

Publication number
JP2020076885A
JP2020076885A JP2018210672A JP2018210672A JP2020076885A JP 2020076885 A JP2020076885 A JP 2020076885A JP 2018210672 A JP2018210672 A JP 2018210672A JP 2018210672 A JP2018210672 A JP 2018210672A JP 2020076885 A JP2020076885 A JP 2020076885A
Authority
JP
Japan
Prior art keywords
user
voice
sub
terminal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018210672A
Other languages
English (en)
Inventor
彩華 清石
Ayaka Kiyoishi
彩華 清石
岳陽 冨田
Takeharu Tomita
岳陽 冨田
友希 新田
Yuki Nitta
友希 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Gas Co Ltd
Original Assignee
Tokyo Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Gas Co Ltd filed Critical Tokyo Gas Co Ltd
Priority to JP2018210672A priority Critical patent/JP2020076885A/ja
Publication of JP2020076885A publication Critical patent/JP2020076885A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】話者が文章を読み上げることにより話者から発せられた音声を出力させる構成に比べて、話者から発せられた音声に基づいて音声により出力される文章の種類を多様化させる。【解決手段】話者から発せられた音声に関する音声情報を取得する音声情報取得手段と、表示媒体に表示される表示内容に応じた文章を、音声情報に基づき話者の音声の態様を模した音声により、表示媒体のユーザに用いられる音声出力機器に出力させる出力制御手段と、を備えた、音声出力システム。【選択図】図5

Description

本発明は、音声出力システムおよびプログラムに関する。
例えば特許文献1には、声優または声優志願者が書籍を朗読することで発せられた音声が録音され、録音データはWeb上のサーバに保持され、書籍の読者が、保持された録音データをダウンロードして聴くことが開示されている。
特開2014−38298号公報
例えば、話者が書籍を読み上げることにより話者から発せられた音声を、この話者とは異なるユーザの端末に出力させるとともに、この端末に書籍の表示内容を表示させるシステムがある。この場合、端末から音声により出力される文章は話者に読み上げられた文章に限られるため、音声により出力される文章の種類が単調になりやすかった。
本発明は、話者が文章を読み上げることにより話者から発せられた音声を出力させる構成に比べて、話者から発せられた音声に基づいて音声により出力される文章の種類を多様化させることを目的とする。
請求項1に記載の発明は、話者から発せられた音声に関する音声情報を取得する音声情報取得手段と、表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる出力制御手段と、を備えた、音声出力システムである。
請求項2に記載の発明は、前記音声の態様には、前記話者から発せられた前記音声のうち言葉以外の音声の態様が含まれることを特徴とする請求項1記載の音声出力システムである。
請求項3に記載の発明は、前記話者が前記音声を発している際の当該話者が映っている画像を取得する画像取得手段をさらに備え、前記出力制御手段は、前記画像に基づいて、前記話者が前記文章を音声により発する際における当該話者の態様を模した画像を前記ユーザの前記表示媒体に表示させることを特徴とする請求項1記載の音声出力システムである。
請求項4に記載の発明は、前記ユーザと前記話者との会話に関する会話情報を取得する会話情報取得手段と、前記ユーザからの質問を受け付ける受付手段と、をさらに備え、前記出力制御手段は、前記会話情報に基づいて、前記受付手段に受け付けられた前記質問に対する回答を、前記音声の態様を模した音声により前記音声出力機器に出力させることを特徴とする請求項1記載の音声出力システムである。
請求項5に記載の発明は、前記表示媒体には、絵が表示され、前記文章は、前記絵に係る文章であることを特徴とする請求項1記載の音声出力システムである。
請求項6に記載の発明は、コンピュータに、話者から発せられた音声に関する音声情報を取得する機能と、表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる機能と、
を実現させるための、プログラムである。
本発明によれば、話者が文章を読み上げることにより話者から発せられた音声を出力させる構成に比べて、話者から発せられた音声に基づいて音声により出力される文章の種類を多様化させることができる。
本実施形態に係る読み聞かせシステムの全体構成例を示す図である。 管理サーバ、主ユーザの端末、および副ユーザの端末のハードウェア構成例を示す図である。 管理サーバの機能構成例を示した図である。 読み聞かせシステムのシーケンス図である。 主ユーザの端末における画像の表示例を示した図である。 主ユーザの端末における画像の表示例を示した図である。 主ユーザの端末における画像の表示例を示した図である。 変形例としての読み聞かせシステムを示した図である。 絵本情報管理テーブルの一例を示した図である。 読み聞かせ中において開かれている絵本および主ユーザの端末における画像の表示例を示した図である。
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<読み聞かせシステムの構成>
図1は、本実施形態に係る読み聞かせシステム1の全体構成例を示す図である。
音声出力システムの一例としての読み聞かせシステム1は、絵本に関する情報をユーザに提供することにより、絵本の読み聞かせを行う。
読み聞かせシステム1は、管理サーバ10と、端末30と、端末40とを備える。管理サーバ10と端末30、および管理サーバ10と端末40とは、ネットワークを介して接続されている。
管理サーバ10は、絵本の絵に関する情報および絵本の文章に関する情報を提供する。具体的には、管理サーバ10は、読み聞かせシステム1の利用申請を、端末30から受け付ける。また、管理サーバ10は、読み聞かせシステム1の利用グループへの招待の承諾を、端末40から受け付ける。さらに、管理サーバ10は、端末40のユーザから発せられた音声を、端末40を介して受け付ける。そして、管理サーバ10は、端末30から絵本の読み聞かせの指示を受けると、絵本の絵に関する情報および絵本の文章に関する情報を端末30に送信する。さらに、管理サーバ10は、絵本の文章に関する情報を、端末40のユーザの音声の態様を模した音声により端末30に出力させる。本実施形態では、絵本の読み聞かせを指示するユーザを、主ユーザと称する。また、絵本の読み聞かせ中に出力される音声の基となる音声を入力するユーザを、副ユーザと称する。なお、主ユーザおよび副ユーザを区別せずに説明する場合には、単にユーザと称する。
管理サーバ10は、例えば、コンピュータにより実現される。管理サーバ10は、単一のコンピュータにより構成しても良いし、複数のコンピュータによる分散処理により実現しても良い。
主ユーザの端末30は、画像表示部31と、カメラ32とを備える。
画像表示部31は、画像を表示する。カメラ32は、撮影領域内の被写体を撮影する。主ユーザの端末30は、カメラ32により撮影された画像や動画を、ネットワークを介して管理サーバ10に送信する機能を有する。
副ユーザの端末40は、画像表示部41と、カメラ42とを備える。
副ユーザの端末40は、主ユーザの端末30と同じ構成である。
主ユーザの端末30および副ユーザの端末40には、スマートフォンなどの携帯電話、タブレット型端末などの携帯端末機器など、ユーザが持ち歩くことが可能な装置を用いることができる。なお、主ユーザの端末30および副ユーザの端末40は、例えば、コンピュータ、その他の情報処理装置により実現されてもよい。
本実施形態の主ユーザの端末30および副ユーザの端末40には、タッチパネルが設けられており、画面をユーザがタッチすることで画面に表示される画像に対する操作および指示を行う。
管理サーバ10と端末30との接続、および管理サーバ10と端末40との接続に用いられるネットワークは、データの送受信が可能であれば、その種類は特に限定されず、例えばインターネット、LAN(Local Area Network)、WAN(Wide Area Network)等として良い。データ通信に用いられる通信回線は、有線であっても無線であっても良い。また、複数のネットワークや通信回線を介して各装置を接続する構成としても良い。
<ハードウェア構成例>
図2は、管理サーバ10、主ユーザの端末30、および副ユーザの端末40のハードウェア構成例を示す図である。
図2に示すように、管理サーバ10、主ユーザの端末30、および副ユーザの端末40は、演算手段であるCPU(Central Processing Unit)100aと、主記憶手段であるメモリ100cとを備える。また、各装置は、外部デバイスとして、磁気ディスク装置(HDD:Hard Disk Drive)100g、ネットワークインターフェイス100f、表示機構100d、音声機構100h、キーボードやマウス等の入力デバイス100i等を備える。
メモリ100cおよび表示機構100dは、システムコントローラ100bを介してCPU100aに接続されている。また、ネットワークインターフェイス100f、磁気ディスク装置100g、音声機構100hおよび入力デバイス100iは、ブリッジコントローラ100eを介してシステムコントローラ100bと接続されている。各構成要素は、システムバスや入出力バスなどの各種のバスによって接続される。
磁気ディスク装置100gには、各機能を実現するためのプログラムが格納されている。そして、このプログラムがメモリ100cにロードされ、このプログラムに基づく処理がCPU100aにより実行されることで、各種の機能が実現される。
<管理サーバの機能構成>
次に、管理サーバ10の機能構成について説明する。
図3は、管理サーバ10の機能構成例を示した図である。
管理サーバ10は、送受信部11と、利用受付部12と、利用者管理部13と、通信制御部14と、ユーザ情報取得部15と、ユーザ情報管理部16と、絵本情報管理部17と、作成部18と、読み聞かせ指示受付部19と、出力内容管理部20とを備える。
送受信部11は、ネットワークを介して、主ユーザの端末30および副ユーザの端末40と接続するためのネットワークインターフェイスである。これにより、管理サーバ10は、主ユーザの端末30および副ユーザの端末40とデータ交換を行う。
利用受付部12は、主ユーザの端末30から、読み聞かせシステム1の利用の申請を受け付ける。利用受付部12は、主ユーザの端末30から利用の申請を受けると、主ユーザの端末30へのログインIDの付与や、主ユーザの端末30からの暗証番号の登録の受付を行う。そして、ログインIDおよび暗証番号が入力された主ユーザの端末30による読み聞かせシステム1の利用を許可し、利用を許可した主ユーザをグループの一員とする読み聞かせシステム1の利用グループを作成する。
また、利用受付部12は、読み聞かせシステム1の利用グループに加える副ユーザを決定する。具体的には、利用受付部12は、主ユーザの端末30から、利用グループに招待したいユーザの指定を受け付ける。ユーザの指定は、例えば、招待したいユーザのメールアドレスを主ユーザの端末30に入力することによって行われる。そして、主ユーザに指定されたユーザの端末40に対し、読み聞かせシステム1の利用グループへの招待を通知する。利用グループへの招待がユーザの端末40により承諾されると、利用受付部12は、このユーザを副ユーザとして読み聞かせシステム1の利用グループに加える。利用受付部12は、利用グループ内の各ユーザに関するユーザ情報を、各ユーザが主ユーザおよび副ユーザの何れであるかを識別可能な形式で利用者管理部13へ送信する。
利用者管理部13は、読み聞かせシステム1の利用者を管理する。具体的には、利用者管理部13は、読み聞かせシステム1の利用グループごとに、利用グループ内の主ユーザと副ユーザとを関連付けて記憶する。
通信制御部14は、例えば、主ユーザの端末30から副ユーザの端末40へ送信された通信依頼が副ユーザの端末40にて承諾されることに基づいて、主ユーザの端末30と副ユーザの端末40との音声通信を確立する。音声通信としては、例えば、P2P(Peer to Peer)による通信方式やVoIP(Voice over Internet Protocol)による通信方式等が用いられる。
また、通信制御部14は、主ユーザの端末30と副ユーザの端末40との音声通信を確立する際に、送受信部11を介して副ユーザの端末40に撮影指示を送信し、副ユーザの端末40のカメラ42による撮影を開始させる。
ユーザ情報取得部15は、読み聞かせシステム1の利用グループに属する主ユーザに関する情報および副ユーザに関する情報を取得する。ユーザ情報取得部15は、予め定められた文章を副ユーザの音声により副ユーザの端末40に入力させる。ユーザ情報取得部15は、例えば、予め定められた文章を音声により副ユーザの端末40に入力することを副ユーザの端末40に通知することで、副ユーザに音声の入力を促す。さらに、このとき、送受信部11を介して副ユーザの端末40に撮影指示を送信し、副ユーザの端末40のカメラ42による撮影を開始させる。そして、ユーザ情報取得部15は、副ユーザの端末40に入力された音声を、音声データとして送受信部11を介して取得する。また、副ユーザの端末40に音声が入力されているときに副ユーザの端末40のカメラ42に撮影された副ユーザの映像を、動画データとして送受信部11を介して取得する。予め定められた文章は、後述する作成部18が絵本の文章に関する情報を音声データとして作成するために必要な内容が設定された文章である。ユーザ情報取得部15は、予め定められた種類の予め定められた文章を、音声により副ユーザの端末40に入力させる。予め定められた種類は、作成部18が音声データを作成するために副ユーザの音声による入力が必要な予め定められた文章の種類である。
また、ユーザ情報取得部15は、主ユーザの端末30と副ユーザの端末40との音声通信が通信制御部14により確立されている際に主ユーザと副ユーザとの間で行われた会話を、音声データとして送受信部11を介して取得する。
また、ユーザ情報取得部15は、主ユーザと副ユーザとが会話している際に副ユーザの端末40のカメラ42によって撮影された副ユーザの映像を、動画データとして送受信部11を介して取得する。
ユーザ情報管理部16は、主ユーザに関する情報および副ユーザに関する情報を管理する。ユーザ情報管理部16は、ユーザ情報取得部15に取得された音声データや動画データを記憶する。この場合に、ユーザ情報管理部16は、主ユーザと副ユーザとの会話としてユーザ情報取得部15に取得された音声データを、主ユーザの音声と副ユーザの音声とを識別可能に記憶する。
絵本情報管理部17は、複数種類の絵本に関する情報を記憶する。絵本情報管理部17は、例えば、絵本の絵を画像データとして記憶し、絵本の文章をテキストデータとして記憶する。また、絵本情報管理部17は、絵本の各ページに対応する絵と文章とを関連付けて記憶する。以下では、画像データとして記憶されている絵本の絵を、絵情報と称する。また、テキストデータとして記憶されている絵本の文章を、文章情報と称する。
また、絵本情報管理部17には、絵本の読み聞かせ中において主ユーザの端末30や副ユーザの端末40に表示される画像が記憶されている。
作成部18は、絵本情報管理部17に記憶されている文章情報に基づいて、文章を音声データとして作成する。作成部18は、ユーザ情報管理部16に記憶されている音声データに基づいて、副ユーザの音声の態様を模した音声による音声データを作成する。具体的には、予め定められた文章の音声データ、および、主ユーザと副ユーザとの会話の音声データに基づいて、音声データを作成する。
副ユーザの音声の態様としては、例えば、副ユーザが話す速度、副ユーザが話しているときの間の取り方、副ユーザの声色、副ユーザから発せられた方言、咳等の副ユーザの癖などが挙げられる。
作成部18は、副ユーザから発せられた音声の態様を検出する。具体的には、ユーザ情報管理部16に記憶されている音声データに基づいて、副ユーザから発せられた音声の特徴量を算出する。ユーザ情報管理部16は、例えば、副ユーザから発せられた音声の最小単位である音素ごとに、副ユーザから発せられた音声の特徴量を算出する。さらに、算出した特徴量から、副ユーザから発せられた音声の態様を検出する。そして、文章情報に基づいて文章を音声データとして作成する際に、検出した副ユーザの音声の態様を反映させることにより、副ユーザの音声の態様を模した音声による音声データを作成する。作成した音声データは、作成の対象となった文章情報に関連付けられて絵本情報管理部17に記憶される。
また、作成部18は、ユーザ情報管理部16に記憶されている動画データに基づいて、副ユーザを模した動画データを作成する。具体的には、予め定められた文章が音声により入力されているときの副ユーザの映像、および、主ユーザと副ユーザとの会話中における副ユーザの映像に基づいて、音声データとして作成された文章が副ユーザに読み上げられる際の副ユーザの態様を模した映像の動画データを作成する。
文章が副ユーザに読み上げられる際の副ユーザの態様としては、例えば、副ユーザの動作や表情などが挙げられる。副ユーザの動作としては、例えば、頭の動き、顔の向き、顔の構成部位(目、口等)の動き、腕や脚の動き、身体の向き、身体の移動などの動作が挙げられる。また、副ユーザの表情としては、例えば、笑顔、苦しんでいる顔、困っている顔、悲しんでいる顔、怒っている顔などが挙げられる。
作成部18は、副ユーザの動作や表情を検出する。作成部18は、まず、ユーザ情報管理部16に記憶されている動画データを解析し、副ユーザの部位が映っている領域を識別する。具体的には、副ユーザが映っている領域、被介護者の頭部、体部、腕部、手部、指等が映っている領域、頭部の顔、目、口、鼻、耳等が映っている領域、その他身体の各特徴点が映っている領域などを識別する。また、作成部18は、識別した領域に映っている身体の部位を特定し、副ユーザが発した音声の最小単位である音素ごとに、特定した部位の動作を検出する。この検出は、特定した部位ごとに行われる。さらに、作成部18は、識別した領域に映っている顔を特定し、副ユーザが発した音声の最小単位である音素ごとに、特定した顔の表情を検出する。そして、検出した副ユーザの動作や表情に基づいて、音声データとして作成された文章が副ユーザに読み上げられる際の副ユーザの態様を模した映像の動画データを作成する。作成した動画データは、この動画データに係る音声データに対応する文章情報に関連付けられて絵本情報管理部17に記憶される。
また、作成部18は、絵本の読み聞かせ中に主ユーザから質問を受けると、この質問に対する回答を音声データとして作成する。具体的には、作成部18は、主ユーザの端末30から送信された音声データとしての質問を送受信部11を介して取得すると、主ユーザと副ユーザとの会話の音声データに基づいて、質問に対する回答を作成する。作成部18は、例えば、音声データとしてユーザ情報管理部16に記憶されている主ユーザと副ユーザとの会話のうちの、主ユーザからの質問に対する副ユーザの回答を抽出する。そして、抽出した回答に基づいて、絵本の読み聞かせ中における主ユーザからの質問に対する回答を作成する。この場合に、作成部18は、副ユーザの音声の態様を模した音声による音声データとして回答を作成する。また、作成部18は、作成した回答が副ユーザに読み上げられる際の副ユーザの態様を模した映像の動画データを作成する。そして、作成した音声データおよび動画データを、出力内容管理部20へ送信する。なお、作成部18は、主ユーザからの質問を受け付ける受付手段として捉えられる。
読み聞かせ指示受付部19は、主ユーザの端末30から、絵本の読み聞かせの指示を受け付ける。読み聞かせ指示受付部19は、読み聞かせの指示を受け付けると、主ユーザの端末30から、複数種類の絵本のうち読み聞かせてほしい絵本の選択を受け付ける。そして、選択された絵本に関する絵本情報を、出力内容管理部20に送信する。
出力内容管理部20は、読み聞かせ指示受付部19から絵本情報を取得すると、絵本情報管理部17に記憶されている絵情報および文章情報のうち、絵本情報に基づいて特定される絵情報および文章情報を主ユーザの端末30に送信する。具体的には、出力内容管理部20は、絵本情報から、絵本情報管理部17に記憶されている複数種類の絵本のうちの一の絵本を特定する。そして、特定した絵本の1ページ目に対応する絵情報および文章情報を、主ユーザの端末30の画像表示部31に表示させる。さらに、出力内容管理部20は、表示させる文章情報に関連付けられて絵本情報管理部17に記憶されている音声データを主ユーザの端末30に出力させる。またさらに、出力内容管理部20は、表示させる文章情報に関連付けられて絵本情報管理部17に記憶されている動画データを画像表示部31に表示させる。
また、出力内容管理部20は、主ユーザからの質問に対する回答としての音声データ、およびこの音声データに係る動画データを作成部18から取得する。そして、取得した音声データを主ユーザの端末30に出力させるとともに、取得した動画データを主ユーザの端末30における画像表示部31に表示させる。
なお、作成部18および出力内容管理部20は、出力制御手段として捉えられる。
<読み聞かせシステムの動作例>
続いて、本実施形態の読み聞かせシステム1の動作例について説明する。
図4は、読み聞かせシステム1のシーケンス図である。
図4に示すように、主ユーザは、主ユーザの端末30を用いて、読み聞かせシステム1の利用申請を行う(S101)。
管理サーバ10の利用受付部12は、主ユーザの端末30からの利用申請を受け付け、主ユーザによる読み聞かせシステム1の利用を許可する(S102)。また、主ユーザの端末30に対し、読み聞かせシステム1の利用グループに招待したいユーザを指定させる(S103)。
主ユーザは、利用グループに招待したいユーザを指定する(S104)。
管理サーバ10の利用受付部12は、主ユーザに指定された副ユーザの端末40に対し、利用グループへの招待を通知する(S105)。
副ユーザは、副ユーザの端末40を用いて、利用グループへの招待を承諾する(S106)。
管理サーバ10の利用受付部12は、主ユーザの端末30に対し、副ユーザの利用グループへの招待が承諾されたことを通知する(S107)。
ユーザ情報取得部15は、副ユーザの端末40から、音声データや動画データを取得する(S108)。取得した音声データや動画データは、ユーザ情報管理部16に記憶される。
作成部18は、ユーザ情報管理部16に記憶されている音声データに基づいて、副ユーザの音声を模した音声による音声データを作成する(S109)。また、記憶されている動画データに基づいて、副ユーザの態様を模した映像の動画データを作成する(S110)。
主ユーザは、主ユーザの端末30を用いて、絵本の読み聞かせの指示を行う(S111)。
管理サーバ10の読み聞かせ指示受付部19は、主ユーザの端末30に対し、読み聞かせてほしい絵本を選択させる(S112)。
主ユーザは、主ユーザの端末30の画像表示部31に表示されている絵本の中から、読み聞かせてほしい絵本を選択する(S113)。
管理サーバ10の出力内容管理部20は、絵本情報管理部17に記憶されている絵情報および文章情報のうち、主ユーザに選択された絵本の1ページ目に対応する絵情報および文章情報を、主ユーザの端末30における画像表示部31に表示させる(S114)。
また、出力内容管理部20は、表示させた文章情報に関連付けられて絵本情報管理部17に記憶されている音声データを主ユーザの端末30に出力させる(S115)。さらに、出力内容管理部20は、表示させる文章情報に関連付けられて絵本情報管理部17に記憶されている動画データを画像表示部31に表示させる(S116)。
<読み聞かせ中における画像の表示例>
次に、絵本の読み聞かせ中において主ユーザの端末30の画像表示部31における画像の表示例について説明する。
図5〜図7は、主ユーザの端末30における画像の表示例を示した図である。
図5に示すように、主ユーザの端末30の画像表示部31には、絵本画面51が表示されている。絵本画面51には、絵情報52と文章情報53とが表示されている。画像表示部31に表示されている絵情報52と文章情報53とは、絵本情報管理部17に関連付けられて記憶されている絵情報および文章情報である。図示の例では、文章情報53には、「みきちゃんは、バッグをさがしていました。」という文章が表示されている。
また、このとき、主ユーザの端末30のスピーカー(不図示)から、副ユーザの音声の態様を模した音声が出力される。具体的には、主ユーザの端末30から、「みきちゃんはね、バッグをね、さがして・・・いたんだよ。」という文章が音声により出力される。このように、主ユーザの端末30から音声により出力される文章は、画像表示部31に表示されている文章情報53とは異なっている。すなわち、本実施形態では、副ユーザの音声の態様を模した音声による文章が出力されるため、音声の入力を行う副ユーザごとに異なる文章が出力されるようになる。
また、このとき、画像表示部31には、副ユーザ動画54が表示されている。副ユーザ動画54には、副ユーザを模した副ユーザ模倣映像55が表示されている。副ユーザ模倣映像55は、主ユーザの端末30から音声により出力される文章が副ユーザに読み上げられる際の副ユーザの態様を模した映像である。
ここで、例えば、図6に示すように、主ユーザが、主ユーザの端末30のマイク(不図示)に向かって「バッグなくなっちゃったの?」と質問する。
この場合、図7に示すように、主ユーザの端末30から、主ユーザの質問に対する回答が音声により出力される。図示の例では、「きっとね、すぐにね、みつかると・・・おもうよ。」という回答が音声により出力される。
また、このとき、副ユーザ模倣映像55には、回答が副ユーザに読み上げられる際の副ユーザの態様を模した映像が表示されている。すなわち、主ユーザが質問する前と後とで、副ユーザ模倣映像55の表示内容が異なっている。
このように、本実施形態では、副ユーザから発せられた音声に関する情報を取得する。そして、主ユーザの端末30に表示される表示内容に応じた文章を、取得した音声に関する情報に基づき副ユーザの音声の態様を模した音声により、主ユーザの端末30に出力させる。
この場合、副ユーザが文章を読み上げることにより副ユーザから発せられた音声を主ユーザの端末30に出力させる構成に比べて、副ユーザから発せられた音声に基づいて音声により主ユーザの端末30に出力される文章の種類が多様化する。
特に、本実施形態では、文章を、主ユーザと副ユーザとの会話の音声データに基づき副ユーザの音声の態様を模した音声による音声データとして作成する。そのため、副ユーザが文章を読み上げる際に発せられた音声のみに基づき副ユーザの音声を模した音声による音声データを作成する場合に比べて、作成する音声データに副ユーザの音声の態様が反映されやすくなる。
また、本実施形態では、副ユーザが話しているときの間の取り方や、咳等の副ユーザの癖など、副ユーザから発せられた音声のうち言葉以外の音声の態様を模した音声により文章を出力させる。そのため、主ユーザは、この音声から、より副ユーザらしさを感じることができる。
また、本実施形態では、主ユーザの端末30に出力される文章を副ユーザが発する際における副ユーザの態様を模した映像を主ユーザの端末30に表示させる。そのため、主ユーザは、主ユーザの端末30に表示される映像と相まって、絵本を読み上げる音声から副ユーザらしさを感じることができる。
<変形例>
続いて、読み聞かせシステム1の変形例について説明する。
主ユーザに用いられる表示媒体は、主ユーザの端末30に限定されない。
図8は、変形例としての読み聞かせシステム1を示した図である。なお、上記と同様の構成については、同一の符号を用いる。
読み聞かせシステム1には、絵本90が設けられている。管理サーバ10と絵本90とは、ネットワークを介して接続されている。
絵本90は、主ユーザへの読み聞かせの対象となる本である。本実施形態の絵本90には、各ページに、絵が描かれているとともにこの絵を説明するための文章が記載されている。
絵本90には、複数の識別シール91と、読取装置94とが取り付けられている。
識別シール91は、絵本90に対して付け外し可能になっている。本実施形態では、主ユーザによって、識別シール91が、絵本90の見開き左側の各ページにそれぞれ取り付けられている。また、識別シール91には、識別子92と、識別番号93とが表示されている。
識別子92は、識別シール91が取り付けられている絵本90のページを識別するために用いられる。識別子92としては、例えば、QR(Quick Response)コード(登録商標)などの二次元コードや、バーコードなどが用いられる。
識別番号93は、識別子92に対応付けられている絵本90のページを識別する番号である。本実施形態では、識別番号93に表示されている数字は、この識別番号93が付された識別シール91の識別子92に対応付けられている絵本90のページ番号を意味する。すなわち、識別番号93が「7」である場合(図8参照)、この識別番号93が付された識別シール91の識別子92には、絵本90の「7ページ」が対応付けられている。主ユーザは、一の識別シール91に表示されている識別番号93から、この一の識別シール91を取り付ける対象となる絵本90のページを認識する。
読取装置94は、識別シール91に表示されている識別子92を読み取る。読取装置94は、例えば、絵本90に取り付けられた識別子92を読み取り可能な位置に設けられる。読取装置94としては、例えば、コードリーダが用いられる。読取装置94は、識別子92を読み取ると、読み取った識別子92に対応付けられている絵本90のページを識別するページ識別情報、および読み取った識別子92が付されている識別シール91を識別するシール識別情報を生成する。そして、生成したページ識別情報およびシール識別情報を管理サーバ10に送信する。
なお、読取装置94は、図中矢印A方向へ移動することで、絵本90に対して進退可能になっている。
変形例において、利用受付部12(図3参照)は、主ユーザの端末30から利用の申請を受けると、主ユーザの絵本90に取り付けられる識別シール91の登録を行う。識別シール91の登録は、例えば、識別シール91に付された識別IDの入力などによって行われる。
また、利用受付部12は、主ユーザの端末30による読み聞かせシステム1の利用を許可すると、主ユーザに登録された識別シール91の情報を利用者管理部13へ送信する。
利用者管理部13は、主ユーザと、この主ユーザに登録された識別シール91とを関連付けて記憶する。
絵本情報管理部17は、複数種類の絵本90に関する情報を記憶する。絵本情報管理部17の記憶内容については、後に詳述する。
読み聞かせ指示受付部19は、主ユーザからの読み聞かせの指示を受け付けた後に、複数種類の絵本90のうち読み聞かせてほしい絵本90の選択を受け付ける。そして、選択された絵本90が示された選択情報を、出力内容管理部20に送信する。
出力内容管理部20は、読み聞かせ指示受付部19から選択情報を取得すると、取得した選択情報から、主ユーザが選択した絵本90を特定する。
また、出力内容管理部20は、ページ識別情報を取得すると、取得したページ識別情報から絵本90のページを特定する。そして、絵本情報管理部17に記憶されている文章情報のうち、特定の絵本90の特定のページの文章情報に関連付けられて記憶されている音声データを、主ユーザの端末30に出力させる。さらに、特定のページの文章情報に関連付けられて記憶されている動画データを、主ユーザの端末30における画像表示部31に表示させる。出力内容管理部20が音声データおよび動画データを出力させる処理については、後述する。
<絵本情報管理部の記憶内容>
次に、絵本情報管理部17の記憶内容について説明する。
図9は、絵本情報管理テーブルの一例を示した図である。
図9に示す絵本情報管理テーブルは、絵本のページと、文章情報とを関連付けて管理するためのテーブルである。
絵本情報管理テーブルでは、「絵本」に、絵本90のタイトルが示されている。また、「文章情報」に、絵本90に記載されている文章が示されている。「文章情報」の「ページ」には、絵本90の該当ページに記載されている文章が示されている。一例を挙げると、「みきちゃんのおでかけ」の「1〜2ページ」には、みきちゃんのおでかけというタイトルの絵本90における1〜2ページに記載されている文章「あるお家に、みきちゃん〜」が示されている。
また、図示を省略するが、「絵本」ごとに、「文章情報」の「ページ」に、この「文章情報」に基づいて作成部18に作成された音声データ、およびこの音声データに係る動画データが関連付けられている。
絵本情報管理テーブルでは、「ページ」ごとに、複数種類の絵本90の該当ページに記載されている文章に関する「文章情報」がそれぞれ示されている。そのため、同じ「ページ」であっても、「絵本」ごとにそれぞれ異なる「文章情報」が示されている。
<出力内容管理部の処理>
出力内容管理部20の処理について説明する。出力内容管理部20は、選択情報を取得すると、絵本情報管理テーブルに示されている「絵本」のうち取得した選択情報に示された「絵本」を特定する。また、ページ識別情報を取得すると、取得したページ識別情報から識別されるページを含む「ページ」を特定する。そして、特定した「絵本」の「ページ」に示されている文章情報に関連付けられて絵本情報管理部17に記憶されている音声データおよび動画データを、主ユーザの端末30に出力させる。
<開かれている絵本のページと端末に表示される画像との関係>
次に、絵本90の読み聞かせ中において開かれている絵本90のページと、主ユーザの端末30に表示される画像との関係について説明する。図10は、読み聞かせ中において開かれている絵本90および主ユーザの端末30における画像の表示例を示した図である。
図10に示すように,主ユーザは、絵本90の3ページおよび4ページを開いている。絵本90の3ページには、女の子の絵201が描かれているとともに、この絵201を説明するための文章202が記載されている。図示の例では、3ページの文章202には、「きょうはまちにまったおでかけです。」というメッセージが表示されている。
また、絵本90の3ページには、識別番号93が「3」である識別シール91が取り付けられている。識別シール91に表示されている識別子92が読取装置94に読み取られることにより、主ユーザの端末30から、文章202に係る文章が音声により出力される。具体的には、主ユーザの端末30から、「きょうはね、まちにまった・・・おでかけですよ。」という文章が音声により出力される。
また、このとき、主ユーザの端末30における画像表示部31には、副ユーザ動画54が表示されている。副ユーザ動画54には、主ユーザの端末30から出力される音声としての文章が副ユーザに読み上げられる際の副ユーザの態様を模した副ユーザ模倣映像55が表示されている。
このように、主ユーザに用いられる表示媒体は、主ユーザの端末30に限られず、絵本90であってもよい。
なお、本実施形態では、読取装置が絵本90に取り付けられる構成を説明したが、これに限定されない。
例えば、読取装置は、主ユーザに取り付け可能に設けられてもよい。
また、本実施形態では、主ユーザの端末30を用いて絵本90の読み聞かせを指示することを説明したが、これに限定されない。
例えば、絵本90に取り付けられている識別子92が読取装置に読み取られると、ページ識別情報やシール識別情報とともに、読み聞かせの指示が管理サーバ10に送信されてもよい。この場合、主ユーザが、読み聞かせを指示するためだけの操作を行う必要がなくなる。
また、主ユーザによる絵本90の選択は、読取装置や他の端末により実行可能であってもよい。さらに、読み聞かせ中において主ユーザの端末30から出力される音声や動画が、音声や動画を出力可能な読取装置や他の端末から出力されてもよい。例えば、ロボットなどの動作装置から音声や動画を出力させてもよい。この場合に、出力させる音声や動画に応じて、動作装置を動作させてもよい。ここで、読取装置、他の端末、および動作装置は、情報を表示する表示媒体として捉えられる。
また、絵本90が、主ユーザによる絵本90の選択を実行可能に設けられてもよい。さらに、絵本90に音声や動画を出力可能な出力機器を設け、読み聞かせ中において音声や動画が絵本90の出力機器から出力されてもよい。
すなわち、絵本90の読み聞かせには主ユーザの端末30が用いられなくてもよい。
また、本実施形態では、識別子92から絵本90における特定の1ページが識別されることを説明したが、識別されるページ数は、2ページ以上であってもよい。
また、本実施形態では、絵本情報管理テーブルに、文章情報が2ページごとに管理されていることを説明したが、3ページ分以上の文章に係る文章情報が管理されてもよいし、2ページ分よりも少ない文章に係る文章情報が管理されてもよい。
また、本実施形態では、読取装置を用いて識別子92を読み取ることを説明したが、例えば、主ユーザの端末30を用いて識別子92を読み取り、生成した情報が管理サーバ10に送信されてもよい。
また、例えば、主ユーザが属する利用グループ内に複数の副ユーザが属している場合、主ユーザは、管理サーバ10に対して読み聞かせの指示を行う際に、何れの副ユーザに係る音声により読み聞かせしてもらうかを選択するようにしてもよい。
また、本実施形態では、主ユーザに指定されたユーザが利用グループへの招待を承諾することによって副ユーザが加わることを説明したが、これに限定されない。
例えば、利用グループへの招待の有無に関わらず、読み聞かせ中に出力される音声の基となる音声を端末に入力したユーザを、副ユーザとして登録してもよい。この場合に、主ユーザは、自らが所属している利用グループ外の副ユーザに係る音声により読み聞かせしてもらうことを選択してもよい。
また、例えば、主ユーザが支払った金額に応じて、何れの副ユーザに係る音声により読み聞かせしてもらうかの選択範囲が設定されてもよい。
また、本実施形態では、作成部18は、予め定められた文章の音声データおよび主ユーザと副ユーザとの会話の音声データに基づいて副ユーザの音声を模した音声データを作成することを説明したが、これに限定されない。
例えば、作成部18は、予め定められた文章の音声データのみに基づいて、副ユーザの音声を模した音声データを作成してもよい。すなわち、作成部18は、音声データの作成において、主ユーザと副ユーザとの会話の音声データを用いなくてもよい。
また、例えば、主ユーザと副ユーザとの会話の音声データのみに基づいて副ユーザの音声を模した音声データを作成してもよい。すなわち、作成部18は、音声データの作成において、予め定められた文章の音声データを用いなくてもよい。
また、本実施形態では、作成部18は、予め定められた文章が音声により副ユーザの端末40に入力されているときの副ユーザの映像、および、主ユーザと副ユーザとの会話中における副ユーザの映像に基づいて、副ユーザの態様を模した映像の動画データを作成することを説明したが、これに限定されない。
例えば、作成部18は、予め定められた文章が音声により副ユーザの端末40に入力されているときの副ユーザの映像のみに基づいて、副ユーザの態様を模した映像の動画データを作成してもよい。すなわち、動画データの作成において、主ユーザと副ユーザとの会話中における副ユーザの映像を用いなくてもよい。
また、例えば、作成部18は、主ユーザと副ユーザとの会話中における副ユーザの映像に基づいて、副ユーザの態様を模した映像の動画データを作成してもよい。すなわち、動画データの作成において、予め定められた文章が音声により副ユーザの端末40に入力されているときの副ユーザの映像を用いなくてもよい。
また、作成部18は、副ユーザの態様を模した映像の動画データを作成することを説明したが、例えば、副ユーザの態様を模した一以上の画像データを作成するようにしてもよい。
また、本実施形態では、主ユーザの端末30における画像表示部31に文章情報を表示させるとともに主ユーザの端末30に音声データを出力させることを説明したが、これに限定されない。
例えば、出力内容管理部20は、画像表示部31に文章情報を表示させることなく音声データを主ユーザの端末30に出力させてもよい。
また、本実施形態では、絵本に関する画像を主ユーザの端末30に表示させることを説明したが、画像を表示可能な表示媒体であれば、主ユーザの端末30とは別の表示媒体に画像を表示させてもよい。
また、本実施形態では、絵本に関する画像を表示媒体に表示させるとともに、表示媒体に表示させる画像に関する音声を音声出力機器に出力させることを説明したが、表示媒体や音声出力機器に出力させる情報は、絵本に関する情報に限られない。
また、本実施形態では、管理サーバ10から送信された情報が主ユーザの端末30に出力されることで絵本の読み聞かせが実現される構成としたが、これに限定されない。
例えば、主ユーザの端末30が管理サーバ10の機能を有してもよい。言い換えると、主ユーザの端末30が、管理サーバ10の送受信部11、利用受付部12、利用者管理部13、通信制御部14、ユーザ情報取得部15、ユーザ情報管理部16、絵本情報管理部17、作成部18、読み聞かせ指示受付部19、出力内容管理部20等の機能を備えることとしてもよい。
また、本発明の実施形態を実現するプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で提供し得る。また、インターネットなどの通信手段を用いて提供することも可能である。
以上、本発明の実施形態について説明したが、本発明の技術的範囲は上記の実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
1…読み聞かせシステム、10…管理サーバ、11…送受信部、12…利用受付部、13…利用者管理部、14…通信制御部、15…ユーザ情報取得部、16…ユーザ情報管理部、17…絵本情報管理部、18…作成部、19…読み聞かせ指示受付部、20…出力内容管理部、30…端末、31…画像表示部、32…カメラ、40…端末、90…絵本

Claims (6)

  1. 話者から発せられた音声に関する音声情報を取得する音声情報取得手段と、
    表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる出力制御手段と、
    を備えた、音声出力システム。
  2. 前記音声の態様には、前記話者から発せられた前記音声のうち言葉以外の音声の態様が含まれることを特徴とする請求項1記載の音声出力システム。
  3. 前記話者が前記音声を発している際の当該話者が映っている画像を取得する画像取得手段をさらに備え、
    前記出力制御手段は、前記画像に基づいて、前記話者が前記文章を音声により発する際における当該話者の態様を模した画像を前記ユーザの前記表示媒体に表示させることを特徴とする請求項1記載の音声出力システム。
  4. 前記ユーザと前記話者との会話に関する会話情報を取得する会話情報取得手段と、
    前記ユーザからの質問を受け付ける受付手段と、
    をさらに備え、
    前記出力制御手段は、前記会話情報に基づいて、前記受付手段に受け付けられた前記質問に対する回答を、前記音声の態様を模した音声により前記音声出力機器に出力させることを特徴とする請求項1記載の音声出力システム。
  5. 前記表示媒体には、絵が表示され、
    前記文章は、前記絵に係る文章であることを特徴とする請求項1記載の音声出力システム。
  6. コンピュータに、
    話者から発せられた音声に関する音声情報を取得する機能と、
    表示媒体に表示される表示内容に応じた文章を、前記音声情報に基づき前記話者の音声の態様を模した音声により、当該表示媒体のユーザに用いられる音声出力機器に出力させる機能と、
    を実現させるための、プログラム。
JP2018210672A 2018-11-08 2018-11-08 音声出力システムおよびプログラム Pending JP2020076885A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018210672A JP2020076885A (ja) 2018-11-08 2018-11-08 音声出力システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018210672A JP2020076885A (ja) 2018-11-08 2018-11-08 音声出力システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2020076885A true JP2020076885A (ja) 2020-05-21

Family

ID=70724142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018210672A Pending JP2020076885A (ja) 2018-11-08 2018-11-08 音声出力システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2020076885A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222192A (ja) * 1997-02-07 1998-08-21 Nippon Shoko Fuainansu Kk 代読装置
JP2001282281A (ja) * 2000-03-28 2001-10-12 Toshiba Corp 記憶媒体、配信方法及び音声出力装置
JP2005249880A (ja) * 2004-03-01 2005-09-15 Xing Inc 携帯式通信端末によるディジタル絵本システム
JP2016511837A (ja) * 2013-01-07 2016-04-21 マイクロソフト テクノロジー ライセンシング,エルエルシー 分散型ストーリーリーディングのための音声変更

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222192A (ja) * 1997-02-07 1998-08-21 Nippon Shoko Fuainansu Kk 代読装置
JP2001282281A (ja) * 2000-03-28 2001-10-12 Toshiba Corp 記憶媒体、配信方法及び音声出力装置
JP2005249880A (ja) * 2004-03-01 2005-09-15 Xing Inc 携帯式通信端末によるディジタル絵本システム
JP2016511837A (ja) * 2013-01-07 2016-04-21 マイクロソフト テクノロジー ライセンシング,エルエルシー 分散型ストーリーリーディングのための音声変更

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
森田 眞弘 MASAHIRO MORITA: "音声処理技術 音声インタフェースのトータルソリューションを提供", 東芝レビュー 第68巻 第9号 TOSHIBA REVIEW, vol. 第68巻, JPN6022021504, 1 September 2013 (2013-09-01), ISSN: 0004785996 *

Similar Documents

Publication Publication Date Title
US11403595B2 (en) Devices and methods for creating a collaborative virtual session
CN102598084B (zh) 远程通信系统和方法
JP4395687B2 (ja) 情報処理装置
US11024286B2 (en) Spoken dialog system, spoken dialog device, user terminal, and spoken dialog method, retrieving past dialog for new participant
US8243116B2 (en) Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications
Greenhalgh Large scale collaborative virtual environments
US20120204120A1 (en) Systems and methods for conducting and replaying virtual meetings
US20070011273A1 (en) Method and Apparatus for Sharing Information in a Virtual Environment
US20120204118A1 (en) Systems and methods for conducting and replaying virtual meetings
CN105144286A (zh) 用于交互的虚拟人物对话的系统和方法
JP2001229392A (ja) 少ないメッセージ交信により会話式キャラクタを実施する合理的アーキテクチャ
WO2019033663A1 (zh) 视频教学互动方法、装置、设备及存储介质
JP6292295B2 (ja) 連携システム、装置、方法、および記録媒体
JP2020534567A (ja) ロボット対話方法およびデバイス
US11267121B2 (en) Conversation output system, conversation output method, and non-transitory recording medium
JP7193015B2 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
US20120204119A1 (en) Systems and methods for conducting and replaying virtual meetings
WO2018186416A1 (ja) 翻訳処理方法、翻訳処理プログラム、及び、記録媒体
CN106105245A (zh) 互连视频的回放
TW200910203A (en) Device for information communication and interaction and method for the same
WO2022193635A1 (zh) 客服服务系统、方法、装置、电子设备及存储介质
JP2020136921A (ja) ビデオ通話システム、およびコンピュータプログラム
JP2020076885A (ja) 音声出力システムおよびプログラム
KR20090044362A (ko) 사용자 커뮤니케이션을 위한 메시징 서비스 제공 방법 및그 시스템
WO2012109006A2 (en) Systems and methods for conducting and replaying virtual meetings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220628

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221018