JP2020086027A

JP2020086027A - 音声再生システムおよびプログラム

Info

Publication number: JP2020086027A
Application number: JP2018217272A
Authority: JP
Inventors: 遥香松本; Haruka Matsumoto; 智治町田; Tomoharu Machida; 宮本　登; Noboru Miyamoto; 登宮本
Original assignee: Tokyo Gas Co Ltd
Current assignee: Tokyo Gas Co Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-06-04
Anticipated expiration: 2038-11-20
Also published as: JP7284570B2

Abstract

【課題】聞き手の身体状態や周囲の状況を加味して音声の再生条件を決定する音声再生システム等を提供する。【解決手段】音声を取得する取得部３３と、送信された音声の再生を行う再生部３４と、音声の聞き手の状態と、再生部３４により音声の再生を行うときの自装置の周囲の状態と、を分析する分析部３５と、分析部３５による分析の結果から、再生部３４で音声の再生を行う条件である再生条件を決定する決定部３６と、を有する音声再生システム。【選択図】図４

Description

本発明は、音声再生システム、プログラムに関する。

音声を録音し、録音した音声を別の人物が再生することでコミュニケーションを図る装置が存在する。

特許文献１に記載の情報処理装置では、変化判定部は、キー情報と、再生対象である楽曲データの楽曲テンポとに基づいて、再生対象である楽曲データの再生テンポを変更するかどうかを判定する。テンポ変更予告部は、変化判定部により再生テンポを変更すると判定された場合、その変更をユーザに予告する。検索結果出力部は、再生対象である楽曲データの再生テンポを、いまの再生テンポから、キー情報が表す再生テンポに変更し、その再生テンポで再生対象である楽曲データを再生する。

また、特許文献２に記載の音響再生装置は、撮像部に設けられたカメラにおいて観覧者の聴取空間を撮像し、このカメラにおいて撮像された画像データに基づいて観覧者の聴取位置を検出する。そして、検出結果に基づいて信号処理部において信号処理を行う際のフィルタ係数を算出し、算出されたフィルタ係数により音響データに信号処理を施して、ＳＰアレイシステムに出力する。また、観覧者の聴取位置の変化を検出し、変化に合わせてフィルタ係数を変更する。

特開２００７−５８０４８号公報国際公開第２００６／０５７１３１号

音声の再生を行う際に、この音声を聞く聞き手の聴力が弱かったり、周囲が騒がしい場合など、聞き取りにくい場合がある。ところがこのような、聞き手の身体状態や周囲の状況は現状では考慮されていない。
本発明の目的は、聞き手の身体状態や周囲の状況を加味して音声の再生条件を決定する音声再生システム等を提供することを目的とする。

かくして本発明によれば、音声を取得する取得手段と、送信された音声の再生を行う再生手段と、音声の聞き手の状態と、再生手段により音声の再生を行うときの自装置の周囲の状態と、を分析する分析手段と、分析手段による分析の結果から、再生手段で音声の再生を行う条件である再生条件を決定する決定手段と、を有する音声再生システムが提供される。

ここで、分析手段は、音声の取得時に取得手段が取得した聞き手の音声から、音声の聞き手の状態として、聞き手の年齢を推定し、決定手段は、推定された年齢に応じて再生条件を変更するようにすることができる。この場合、年齢に応じた声質や形式で再生を行うことができる。
また、分析手段は、音声の再生時に取得手段が取得した聞き手の音声の意味から、音声の聞き手の状態を分析するようにすることができる。この場合、聞き手の状態をより容易に把握することができる。
さらに、聞き手の状態は、聞き手の聴力であるようにすることができる。この場合、音声を聞く上で重要な情報を得ることができる。
またさらに、分析手段は、音声の取得時および／または音声の再生時に、取得手段が取得した聞き手の健康状態に関する音を識別し、決定手段は、識別された音に応じて再生条件を変更するようにすることができる。そして、分析手段は、自装置の周囲の状態として、音声の取得時および／または音声の再生時に取得された自装置の周囲の環境音を識別し、決定手段は、環境音に応じて再生条件を変更するようにすることができる。この場合、聞き手が音声を聞きやすくなる。
さらに、再生条件は、音量の調整、再生の速度および周波数変換の少なくとも一つであるようにすることができる。この場合、聞き手が音声を聞きやすくなるために、重要なパラメータを変更することができる。
そして、決定手段は、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行うようにすることができる。この場合、周囲の状況も加えて送信情報の再生を行うことができる。

さらに、本発明によれば、コンピュータに、音声を取得する取得機能と、送信された音声の再生を行う再生機能と、音声の聞き手の状態と、再生機能により音声の再生を行うときの自装置の周囲の状態と、を分析する分析機能と、分析機能による分析の結果から、再生機能で音声の再生を行う条件である再生条件を決定する決定機能と、を実現させるためのプログラムが提供される。

本発明によれば、聞き手の身体状態や周囲の状況を加味して音声の再生条件を決定する音声再生システム等を提供することができる。

本実施の形態における音声再生システムの構成例を示す図である。端末装置をロボットとした場合について説明した図である。音声再生システムの概略動作の例について示した図である。音声再生システムの機能構成例を示したブロック図である。本実施形態の音声再生システムの動作の例について説明したフローチャートである。ユーザの年齢を推定する方法の一例を示した図である。（ａ）〜（ｂ）は、音声の周波数変換について示した図である。（ａ）〜（ｂ）は、ユーザの健康状態を推定する方法の第１の例を示した図である。（ａ）〜（ｃ）は、ユーザの健康状態を推定する方法の第２の例を示した図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。

＜音声再生システム１全体の説明＞
図１は、本実施の形態における音声再生システム１の構成例を示す図である。
図示するように本実施の形態の音声再生システム１は、携帯端末２０と、端末装置３０とが、ネットワーク７０およびアクセスポイント９０を介して接続されることにより構成されている。図１では、携帯端末２０は、１つのみ示したが、個数はいくつでもよい。

携帯端末２０は、例えば、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のモバイル端末である。携帯端末２０は、無線通信を行うためにアクセスポイント９０に接続する。そして、携帯端末２０は、アクセスポイント９０を介して、有線で通信を行うネットワーク７０に接続する。

携帯端末２０は、演算手段であるＣＰＵ（Central Processing Unit）と、記憶手段であるメインメモリを備える。ここで、ＣＰＵは、ＯＳ（基本ソフトウェア）やアプリ（応用ソフトウェア）等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域である。さらに、携帯端末２０は、外部との通信を行うための通信インタフェース（以下、「通信Ｉ／Ｆ」と表記する）と、ビデオメモリやディスプレイ等からなる表示機構と、入力ボタン、タッチパネル、キーボード等の入力機構とを備える。そして、携帯端末２０は、音声の出力を行うスピーカと、音声の入力を行うマイクロフォンとを備える。

端末装置３０は、例えば、ロボットとすることができる。このロボットは、ロボットを所有するユーザの住居に置かれる。
図２は、端末装置３０をロボットとした場合について説明した図である。
図２に示した、ロボットとしての端末装置３０は、歩行等を行うことで移動する機能を有する移動式としてもよいが、移動しない非移動式としてもよい。
端末装置３０は、送信情報の送信および受信を行う通信アンテナ３０１と、音声を取得するマイクロフォン３０２と、音声等の音を出力するスピーカ３０３と、ユーザが操作を行う操作ボタン３０４と、端末装置３０の全体の制御を行う制御部３０５とを備える。また、操作ボタン３０４は、録音を行う録音ボタン３０４ａと、送られた送信情報を再生する再生ボタン３０４ｂと、端末装置３０の設定などを行うためのメニューボタン３０４ｃとを備える。

ネットワーク７０は、携帯端末２０および端末装置３０の情報通信に用いられる通信手段であり、例えば、インターネットである。

アクセスポイント９０は、有線で通信を行うネットワーク７０に対して、無線通信回線を利用して無線通信を行う機器である。アクセスポイント９０は、携帯端末２０や端末装置３０とネットワーク７０との間の情報の送受信を媒介する。
無線通信回線の種類としては、携帯電話回線、ＰＨＳ（Personal Handy-phone System）回線、Ｗｉ−Ｆｉ（Wireless Fidelity）、Bluetooth（登録商標）、ZigBee、ＵＷＢ（Ultra Wideband）等の各回線が使用可能である。

＜音声再生システム１の動作の概略説明＞
図３は、音声再生システム１の概略動作の例について示した図である。
まず、端末装置３０を所有するユーザＡが、送信情報を作成する（１Ａ）。送信情報は、端末装置３０と携帯端末２０との間で、やりとりを行う際に用いられる電子情報である。送信情報は、詳しくは後述するが、音声の情報である。ユーザＡは、携帯端末２０を所有するユーザＢへのメッセージを、音声により作成する。なお、ユーザＡとユーザＢとは、予め定められた人物であり、所定の交友関係がある。例えば、親子の関係であったり、友人同士の関係である。

音声の情報は、ユーザＡが、端末装置３０に向かって話しかけ、この際に、マイクロフォン３０２により音声を取得し、録音を行うことで、作成することができる。具体的には、ユーザＡは、例えば、端末装置３０に対し相対する位置に自らの顔を向ける。そして、ユーザＡが、操作ボタン３０４の録音ボタン３０４ａを押下すると、押下している間だけマイクロフォン３０２により、録音が行われる。録音を停止したい場合は、録音ボタン３０４ａから手を離せばよい。そして、ユーザＡは、録音ボタン３０４ａを押下している間に、自らの音声によりユーザＢに対し伝えたい内容を話す。録音した音声の情報は、制御部３０５のメモリに保存される。

そして、制御部３０５は、この音声の情報を送信情報として、携帯端末２０に対し送信する。送信情報は、通信アンテナ３０１、アクセスポイント９０、ネットワーク７０を介し、携帯端末２０に送られる（１Ｂ）。
携帯端末２０では、音声再生システム１を実現するための専用のアプリが動作しており、この送信情報を、通信Ｉ／Ｆが取得する。ＣＰＵは、この送信情報をメモリに保存する（１Ｃ）。またこのとき、ロボットにＬＥＤなどからなる発光源を別途設け、この発光源を点滅等させることで、ユーザＡから送信情報が到着した旨を、ユーザＢに対し知らせてもよい。また、ユーザＡから送信情報が到着した旨の案内を、着信音や音声等で出力してもよい。

ユーザＢは、送信情報の再生を行うことができる。具体的には、ユーザＢが、携帯端末２０のタッチパネル等の入力機構において、再生ボタン等を押下する。これにより、ユーザＡから送信された音声が、メモリから読み出され、スピーカから出力される（１Ｄ）。これにより、ユーザＢは、ユーザＡから送信されたメッセージを聞くことができる。

そして、ユーザＢは、ユーザＡへ返信を行うための送信情報を作成する（１Ｅ）。この送信情報の作成方法は、上述したユーザＡの場合で説明した方法と同様である。

そして、携帯端末２０のＣＰＵは、この音声の情報を送信情報として、端末装置３０に対し送信する（１Ｆ）。送信情報は、通信Ｉ／Ｆ、アクセスポイント９０、ネットワーク７０を介し、端末装置３０に送られる。
端末装置３０では、この送信情報を、通信アンテナ３０１で受け、制御部３０５が取得して、メモリに記憶する（１Ｇ）。ユーザＡの操作により、ユーザＢから送られた送信情報をメモリから読み出し、再生を行う（１Ｈ）。
そして、以下、同様の動作が繰り返される。即ち、ユーザＡとユーザＢとの間で、送信情報のやりとりが行われる。

次に、本実施の形態の音声再生システム１の詳細な機能構成および動作について説明する。

＜音声再生システム１の機能構成の説明＞
図４は、音声再生システム１の機能構成例を示したブロック図である。
なおここでは、音声再生システム１が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
音声再生システム１において、携帯端末２０は、情報の送受信を行う送受信部２１と、画像の表示を行う表示部２２と、情報を入力する入力部２３と、音声を取得する音声出力部２４とを備える。

送受信部２１は、例えば、通信Ｉ／Ｆであり、アクセスポイント９０およびネットワーク７０を介し、端末装置３０と情報の送受信を行う。

表示部２２は、各種情報が表示される表示機構であり、例えば、タッチパネル等のディスプレイである。
入力部２３は、テキストや音声等の入力を行う入力機構であり、例えば、上述したタッチパネルや、入力ボタン・キーボード等である。また、入力部２３は、ユーザＢの音声を入力する入力機構であり、例えば、マイクロフォンである。
音声出力部２４は、音声の出力を行うスピーカである。

端末装置３０は、送信情報の送受信を行う送受信部３１と、送信情報を記憶する記憶部３２と、音声の取得を行う取得部３３と、音声を再生する再生部３４と、音の分析を行う分析部３５と、音声の再生の条件を決定する決定部３６と、ユーザＡの操作を受け付ける操作部３７と、音声の再生の制御を行う再生制御部３８とを備える。

送受信部３１は、携帯端末２０を所有するユーザＢからの送信情報を受信する。また、送受信部３１は、ユーザＡからユーザＢへの送信情報を送信する。送受信部３１は、例えば、通信Ｉ／Ｆであり、制御部３０５に含まれる。また、通信アンテナ３０１もこれに含まれる。送受信部３１は、アクセスポイント９０およびネットワーク７０を介し、端末装置３０および携帯端末２０の間で送信情報の送受信を行う。

記憶部３２は、受信された送信情報を記憶する。また、記憶部３２は、必要な場合にこれを出力する。記憶部３２は、例えば、メモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）などであり、制御部３０５に含まれる。

取得部３３は、取得手段の一例であり、音声等の音を取得する。取得部３３は、マイクロフォン３０２に対応する。マイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いてよい。また、マイクロフォンとして、無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンであることが好ましい。
再生部３４は、再生手段の一例であり、ユーザＢから送信された音声の再生を行う。再生部３４は、スピーカ３０３に対応する。

分析部３５は、分析手段の一例であり、音声の聞き手の状態と、再生部３４により音声の再生を行うときの自装置の周囲の状態と、を分析する。この場合、分析部３５は、音声の聞き手の状態として、ユーザＡの状態を分析する。
決定部３６は、決定手段の一例であり、分析部３５による分析の結果から、再生部３４で音声の再生を行う条件である再生条件を決定する。再生条件は、詳しくは後述するが、音量の調整、再生の速度および周波数変換の少なくとも一つである。
分析部３５および決定部３６は、例えば、ＣＰＵであり、制御部３０５に含まれる。

操作部３７は、録音や再生を行うためのユーザＡによる操作を受け付ける。操作部３７は、操作ボタン３０４に対応する。また、操作部３７は、キーボードやマウス等で構成されていてもよい。
再生制御部３８は、再生部３４で音声の再生を行う際に、決定部３６により決定された再生条件により、音声の再生の制御を行う。再生制御部３８は、例えば、ＣＰＵであり、制御部３０５に含まれる。

＜音声再生システム１の動作の説明＞
次に、本実施の形態の音声再生システム１の動作について、より詳細に説明を行う。
図５は、本実施形態の音声再生システム１の動作の例について説明したフローチャートである。
まず、ユーザＡが、端末装置３０の操作部３７を操作し、取得部３３を使用して、音声の録音を行う（ステップ１０１）。音声の情報は、送信情報として記憶部３２に記憶される（ステップ１０２）。さらに、送受信部３１が、送信情報を携帯端末２０に向け、送信する（ステップ１０３）。なお、送信情報には、送信情報を作成した際の日時の情報等を含めてもよい。

端末装置３０から送信された送信情報は、アクセスポイント９０およびネットワーク７０を介して、携帯端末２０に送られる。携帯端末２０では、送信情報を、送受信部２１が取得する（ステップ１０４）。そして、携帯端末２０のＣＰＵは、この送信情報をメモリに保存する（ステップ１０５）。

一方、ユーザＢは、携帯端末２０の表示部２２および入力部２３に対応するタッチパネル等の入力機構において、専用アプリから再生ボタン等を押下する。その結果、携帯端末２０の音声出力部２４であるスピーカにより、ユーザＡから送信された音声が、再生される（ステップ１０６）。

そして、ユーザＢは、ユーザＡへ返信を行うための送信情報を作成する（ステップ１０７）。この送信情報の作成方法は、ユーザＡの場合で上述した方法と同様であり、入力部２３に対応するマイクロフォンを使用して、ユーザＢの音声を録音することで行う。録音した音声は、送信情報としてメモリに保存される（ステップ１０８）。

そして、携帯端末２０の送受信部２１は、この音声の情報を送信情報として、端末装置３０に対し送信する（ステップ１０９）。送信情報は、携帯端末２０の送受信部２１、アクセスポイント９０、ネットワーク７０を介し、端末装置３０に送られる。
端末装置３０では、送受信部３１が、この送信情報を受信する（ステップ１１０）。そして、送られた送信情報は、記憶部３２が記憶する（ステップ１１１）。

さらに、端末装置３０では、ユーザＡが、操作部３７を操作し、再生部３４によりユーザＢから返信された音声の再生を行う（ステップ１１２）。このとき、音声の再生の制御は、再生制御部３８が行う。
そして、再生の際に、取得部３３が、自装置の周囲の音を取得する（ステップ１１３）。さらに、分析部３５が、自装置の周囲の音を基に、ユーザＡの状態と、再生部３４により音声の再生を行うときの自装置の周囲の状態とを分析する（ステップ１１４）。

そして、決定部３６は、分析部３５による分析の結果から、再生部３４で音声の再生を行う条件である再生条件を決定する（ステップ１１５）。これにより、次に再生部３４で音声の再生を行う際に、この再生条件が適用される。
なお、詳しくは後述するが、ステップ１１４〜ステップ１１５の処理は、ユーザＡが録音した音声に基づき、ステップ１０２とステップ１０３の間で行われることがある。

＜分析部３５および決定部３６の動作の詳細説明＞
次に、分析部３５が、自装置の周囲の音を基に、ユーザＡの状態と、再生部３４により音声の再生を行うときの自装置の周囲の状態とを分析する方法について、詳細に説明を行う。また併せて、分析部３５が分析した結果に応じて、決定部３６が決定する再生条件について説明を行う。決定部３６が決定する再生条件は、音量の調整、再生の速度および周波数変換の少なくとも一つである。

（ユーザＡの年齢の分析）
ここでは、分析部３５は、ユーザＡの音声の取得時に取得部３３が取得したユーザＡの音声から、ユーザＡの状態として、ユーザＡの年齢を推定する。そして、決定部３６は、推定された年齢に応じて再生条件を変更する。

図６は、ユーザＡの年齢を推定する方法の一例を示した図である。
図６は、音声の周波数スペクトルについて示している。ここで、横軸は、周波数を表し、縦軸は、スペクトル強度を表す。即ち、周波数スペクトルは、音声に含まれる周波数成分について、周波数とその強度との関係を示している。
ここでは、音声について、４０歳、５０歳、６０歳、７０歳の人物の周波数スペクトルの一例を示している。図示するように、年齢が上昇するに従い、４ｋＨｚ以上のスペクトル強度が増加することがわかる。実際には、４ｋＨｚ以上のスペクトル強度が増加することで、音声が、よりかれた状態となる嗄声（させい）となる。
よって、分析部３５は、周波数スペクトルのうち、４ｋＨｚ以上のスペクトル強度を見ることで、ユーザＡの年齢を推定することができる。

そして、決定部３６は、例えば、ユーザＡの年齢が高いほど、再生する際の音量を大きくする。また、決定部３６は、例えば、年齢が６０歳以上と推定された場合は、再生の速度を遅くする。
さらに、決定部３６は、例えば、年齢が６０歳以上と推定された場合は、音声の周波数変換を行ってもよい。つまり、高齢者の場合は、低音域および中音域は聞こえるが、高音域が聞こえにくくなることが多い。そのため高音域の音について、中音域への周波数変換を行い、音声に高音域の音が含まれていても、聞こえるようにする。

図７（ａ）〜（ｂ）は、音声の周波数変換について示した図である。
ここで、横軸は、周波数を示し、縦軸は、強度を示す。
このうち、図７（ａ）は、音声の周波数変換として、周波数の圧縮を行った場合を示している。この場合、実線で示した音声の波形について、高音域として、４０００Ｈｚ以上の周波数領域について、圧縮し、点線で示す波形にしている。
また、図７（ｂ）は、音声の周波数変換として、周波数の移行を行った場合を示している。この場合、実線で示した音声の波形について、高音域として、４０００Ｈｚ以上の周波数領域について、中音域にスライド（移行）させ、点線で示す波形にしている。
このような音声の周波数変換を行うことで、本来聞こえない領域の音も聞こえるようになり、音声をより聞きやすくなる。

（再生時におけるユーザＡの音声の分析）
ここでは、分析部３５は、音声の再生時に取得部３３が取得した聞き手の音声の意味から、音声の聞き手の状態を分析する。そして、決定部３６は、分析の結果に応じて再生条件を決定する。
ユーザＢの音声を再生する際に、ユーザＡの発話する音声を取得部３３で取得する。つまり、再生される音声の音量が小さいような場合、ユーザＡは、例えば、「えっ？」、「今、なんて言ったの？」等の音声を無意識に発することがある。また、ユーザＡの聴力が弱くなっている場合も同様である。分析部３５は、取得部３３で取得したユーザＡの音声から、このような聞き返すような意味を含む発話がなかったか否かを分析する。具体的には、分析部３５は、取得部３３で取得した音から、ユーザＢの音声をできるだけ消去する。さらに、分析部３５は、残った音にユーザＡの音声が含まれる場合、聞き返すような意味を含む発話があるか否かを判断する。

そして、決定部３６は、このような発話があった場合は、再生する際の音量を大きくしたり、再生の速度を遅くする。さらに、決定部３６は、音声の周波数変換を行ってもよい。

（ユーザＡの健康状態の分析）
ここでは、分析部３５は、音声の取得時および／または音声の再生時に、取得部３３が取得したユーザＡの健康状態に関する音を識別し、決定部３６は、識別された音に応じて再生条件を変更する。

図８（ａ）〜（ｂ）は、ユーザＡの健康状態を推定する方法の第１の例を示した図である。
図８（ａ）は、ユーザＡが咳をしたときの音の波形を示している。また、図８（ｂ）は、ユーザＡがくしゃみをしたときの音の波形を示している。両図は、ともに横軸が時間を表し、縦軸が、音に含まれる周波数成分を示している。
図８（ａ）に示す咳の場合、３０ｋＨｚ付近までの周波数成分を含み、そして、この周波数成分が含まれる時間は、約０．１ｓと短い。また、図８（ｂ）に示すくしゃみの場合、４５ｋＨｚ付近までの周波数成分を含み、そして、この周波数成分が含まれる時間は、同様に約０．１ｓと短い。
よって、この特徴により、分析部３５は、ユーザＡが、咳やくしゃみをしたか否かを判断できる。そして、この回数が、予め定められた時間内で予め定められた回数以上検出されたときは、分析部３５は、ユーザＡが風邪等に罹患していると判断する。つまり、この場合、分析部３５は、健康状態に関する音として、咳およびくしゃみの音を識別する。

図９（ａ）〜（ｃ）は、ユーザＡの健康状態を推定する方法の第２の例を示した図である。
ここで、横軸は、時間を示し、縦軸は、強さを示す。
図９（ａ）で示す音声の信号は、図９（ｂ）で示す基本周波数と、図９（ｃ）で示す非周期成分の２つに分けることができる。基本周波数は、声の高さを表す。例えば、男声の基本周波数は、１００Ｈｚ〜２００Ｈｚであり、女声の基本周波数は、２５０Ｈｚ〜５００Ｈｚである。また、非周期成分は、声色を表す。また、非周期成分は、声のかすれについて表し、非周期成分が小さいほどかすれは小さく、大きいほどかすれが大きくなる。
よって、分析部３５は、取得した音声を基本周波数と非周期成分の２つに分け、非周期成分の大きさを分析し、ユーザＡの音声にかすれがあるか否かを判断する。そして、分析部３５は、かすれが大きいと判断したときは、ユーザＡが風邪等に罹患していると判断する。つまり、この場合、分析部３５は、健康状態に関する音として、音声のかすれを識別する。

そして、決定部３６は、ユーザＡが風邪等に罹患していると判断された場合は、再生する際の音量を大きくしたり、再生の速度を遅くする。さらに、決定部３６は、音声の周波数変換を行ってもよい。

（環境音の分析）
ここでは、分析部３５は、自装置の周囲の状態として、音声の取得時および／または音声の再生時に取得された自装置の周囲の環境音を識別し、決定部３６は、環境音に応じて再生条件を変更する。
この環境音は、ユーザＡの周囲から聞こえる音であり、雨の音、波の音、風の音、鳥や蝉の鳴き声、雑踏の音、自動車、電車、飛行機が通過する音等である。そして、この環境音が大きい場合、ユーザＡは、音声を聞き取りにくくなる。
よって、分析部３５は、環境音の音圧を分析する。

そして、決定部３６は、環境音の音圧が大きいと判断された場合は、それに応じて再生する際の音量を大きくしたり、再生の速度を遅くする。

＜変形例＞
本実施の形態では、決定部３６は、取得部３３が取得した音声に基づき、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行う。
例えば、決定部３６は、時間帯に合わせ、音声を再生する際の音量を設定する。例えば、夜間には、音量を小さくする。
また、決定部３６は、取得部３３が取得した音声に基づき、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行ってもよい。例えば、自装置の周辺が騒がしいときは、音量を大きくする。

以上詳述した音声再生システム１によれば、聞き手の身体状態や周囲の状況を加味して音声の再生条件を決定する。そのため、聞き手にとって、音声が、より聞き取りやすい音声再生システム１を提供することができる。

また、以上詳述した形態では、音声再生システム１は、携帯端末２０および端末装置３０が、ネットワーク７０、アクセスポイント９０を介して接続されることにより構成されていたが、端末装置３０だけでも音声再生システムであるとして捉えることができる。また端末装置３０で行う処理は、携帯端末２０でも同様のことができる。よって携帯端末２０を音声再生システムとして捉えることもできる。
さらに、上述した例では、端末装置３０は、ロボットである例を示したが、これに限られるものではない。例えば、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のモバイル端末であってもよく、デスクトップコンピュータであってもよい。
さらに、上述した例では、端末装置３０と携帯端末２０とは、ネットワーク７０、アクセスポイント９０を介してピアツーピア接続していたが、これに限られるものではなく、サーバを介して接続していてもよい。なおこの場合、端末装置３０で行う処理は、サーバでも同様のことができる。よって、このサーバを再生システムとして捉えることもできる。

＜プログラムの説明＞
ここで、以上説明を行った本実施の形態における端末装置３０が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。そして、この処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置３０に設けられたコンピュータ内部の図示しないＣＰＵが、上述した各機能を実現するプログラムを実行し、これらの各機能を実現させる。

よって、本実施の形態で、端末装置３０が行う処理は、コンピュータに、音声を取得する取得機能と、送信された音声の再生を行う再生機能と、音声の聞き手の状態と、再生機能により音声の再生を行うときの自装置の周囲の状態と、を分析する分析機能と、分析機能による分析の結果から、再生機能で音声の再生を行う条件である再生条件を決定する決定機能と、を実現させるためのプログラムとして捉えることもできる。

なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろんＣＤ−ＲＯＭ等の記録媒体に格納して提供することも可能である。

以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

１…音声再生システム、２０…携帯端末、３０…端末装置、３１…送受信部、３２…記憶部、３３…取得部、３４…再生部、３５…分析部、３６…決定部、３７…操作部、３８…再生制御部

Claims

音声を取得する取得手段と、
送信された音声の再生を行う再生手段と、
音声の聞き手の状態と、前記再生手段により音声の再生を行うときの自装置の周囲の状態と、を分析する分析手段と、
前記分析手段による分析の結果から、前記再生手段で音声の再生を行う条件である再生条件を決定する決定手段と、
を有する音声再生システム。
前記分析手段は、音声の取得時に前記取得手段が取得した聞き手の音声から、音声の聞き手の状態として、聞き手の年齢を推定し、
前記決定手段は、推定された年齢に応じて前記再生条件を変更することを特徴とする請求項１に記載の音声再生システム。
前記分析手段は、音声の再生時に前記取得手段が取得した聞き手の音声の意味から、音声の聞き手の状態を分析することを特徴とする請求項１に記載の音声再生システム。
聞き手の状態は、聞き手の聴力であることを特徴とする請求項３に記載の音声再生システム。
前記分析手段は、音声の取得時および／または音声の再生時に、前記取得手段が取得した聞き手の健康状態に関する音を識別し、
前記決定手段は、識別された音に応じて前記再生条件を変更することを特徴とする請求項１に記載の音声再生システム。
前記分析手段は、自装置の周囲の状態として、音声の取得時および／または音声の再生時に取得された自装置の周囲の環境音を識別し、
前記決定手段は、前記環境音に応じて前記再生条件を変更することを特徴とする請求項１に記載の音声再生システム。
前記再生条件は、音量の調整、再生の速度および周波数変換の少なくとも一つであることを特徴とする請求項１に記載の音声再生システム。
前記決定手段は、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行うことを特徴とする請求項１に記載の音声再生システム。
コンピュータに、
音声を取得する取得機能と、
送信された音声の再生を行う再生機能と、
音声の聞き手の状態と、前記再生機能により音声の再生を行うときの自装置の周囲の状態と、を分析する分析機能と、
前記分析機能による分析の結果から、前記再生機能で音声の再生を行う条件である再生条件を決定する決定機能と、
を実現させるためのプログラム。