以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。図1には、本実施形態に係るコンテンツ再生装置10の基本的な構成が示されている。図1に示すように、本実施形態に係るコンテンツ再生装置10は、音声取得部11、動作検出部12、期間内動作判定部13及び再生制御部14を備えている。
音声取得部11は、第1の音としてコンテンツ再生装置10のユーザの周囲の音を取得し、該周囲の音に含まれる音声区間を検出する。また、動作検出部12は、上記ユーザの周囲の音に対する反応動作を検出する。また、期間内動作判定部13は、音声取得部11によって取得された上記ユーザの周囲の音及び動作検出部12によって検出された反応動作の時間的な関係に基づいて、次の場合に期間内動作有りと判定する。ユーザの周囲の音が取得された時点から、所定の期間内に上記反応動作が検出された場合である。さらに、再生制御部14は、期間内動作判定部13により期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。
すなわち、例えば、一例として図2に示すように、コンテンツ再生装置10のユーザが周囲の人と会話をしている場合、ユーザは、周囲の音(図2に示す例では、「例の件だけども、」との周囲の人による発話)に対して、何らかの反応動作を行う。すなわち、この場合、ユーザは、周囲の音に含まれる音声区間が開始した時点を始点とし、該音声区間が終了してから比較的短い時間である所定時間DT(一例として4秒)が経過した時点を終点とする期間内に、何らかの反応動作(図2に示す例では、「はい」との発話)を行う。なお、この周囲の音に含まれる音声区間が開始した時点を始点とし、該音声区間が終了してから所定時間DTが経過した時点を終点とする所定の期間を、以下では「反応判定期間」という。
これに対し、ユーザが周囲の人と会話をしておらず、周囲の人同士で会話をしている場合、ユーザは周囲の音に対して上記のように反応動作を行うことはない。
このことを利用し、本実施形態に係るコンテンツ再生装置10では、まず、音声取得部11により、コンテンツ再生装置10のユーザの周囲の音を取得して、該周囲の音に含まれる音声区間を検出する。また、コンテンツ再生装置10では、動作検出部12により、上記ユーザの周囲の音に対する反応動作を検出する。次に、コンテンツ再生装置10では、期間内動作判定部13により、音声取得部11によって検出された音声区間から所定の期間内に、動作検出部12により反応動作が検出された場合に期間内動作有りと判定する。そして、コンテンツ再生装置10では、再生制御部14により、期間内動作判定部13により期間内動作有りと判定された場合に、一例として記憶部15に記憶されているコンテンツの再生を制限する制御を行う。
なお、ユーザの周囲の音に対する反応動作としては、図2を参照して説明した発話による反応動作の他、頭部の向きを変えることによる反応動作、頭部を垂直方向又は水平方向に振動させることによる反応動作及び視線を移動させることによる反応動作が例示される。また、ユーザの周囲の音に対する反応動作としては、キーボードを操作している場合の該キーボードに対する入力頻度が変化することによる反応動作、及びユーザが移動することによる反応動作も例示される。
ここで、発話による反応動作は、会話する相手に自分の意見や意志等を伝えるため、会話の相手に対して発話することによって生じる。また、頭部の向きを変える、すなわち振り返ることによる反応動作は、相手の顔を見るため、相手がいる方向に自身の頭部の前方を向けることによって生じる。また、頭部を振動させることによる反応動作は、相手に意図を簡易に示すため、首を縦に振ったり(頷きであり、「はい」との意図。)、首を横に振ったり(首振りであり、「いいえ」との意図。)することによる、所謂ボディー・ランゲージによって生じる。また、視線を移動することによる反応動作は、相手の顔を見るため、相手に対して視線を向けることによって生じる。また、キーボードに対する入力頻度が変化すること(キーボード入力の停滞)による反応動作は、会話に集中するため、会話を行っている最中にはキーボードによる入力を止めたり、入力速度を遅くしたりすることによって生じる。さらに、ユーザ自身が移動することによる反応動作は、会話の相手までの距離が遠いと声が届かなかったり、相手の顔が見辛かったりして、会話に支障をきたすため、会話を行っている最中は会話の相手の近くへ移動することによって生じる。
なお、コンテンツ再生装置10における音声取得部11は開示の技術に係る音声取得部の一例であり、動作検出部12は開示の技術に係る動作検出部の一例である。また、コンテンツ再生装置10における期間内動作判定部13は開示の技術に係る期間内動作判定部の一例であり、再生制御部14は開示の技術に係る再生制御部の一例である。
本実施形態に係るコンテンツ再生装置10は、ユーザが周囲の音に対して関心が有ると推定される場合に記憶部15に記憶されているコンテンツの再生を制限する制御を行う、一例として図3に示すコンテンツ再生処理を実行する。
次に、図3を参照して、コンテンツ再生処理を実行する場合のコンテンツ再生装置10の作用を説明する。なお、ここでは、コンテンツの再生を制限する制御の一例として、コンテンツの再生を停止する制御を行う場合について説明する。また、ここでは、錯綜を回避するため、記憶部15に、再生すべきコンテンツを示す情報が記憶されている場合について説明する。
コンテンツ再生処理のステップ100において、再生制御部14は、コンテンツの再生モードを設定するための変数である変数Mにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。次のステップ102において、再生制御部14は、図4に示す出力モード判定処理を行う。
出力モード判定処理のステップ200において、音声取得部11は、コンテンツ再生装置10のユーザの周囲から音が発音される区間である音声区間が検出されるか否かを判定し、肯定判定となった場合はステップ202に移行する。ステップ202において、動作検出部12は、ユーザの周囲の音に対する反応動作の検出を試みる。そして、ステップ202において、期間内動作判定部13は、反応判定期間内にユーザが反応動作を行っているか否かを判定することにより、期間内動作有りと判定するか否か、すなわち、ユーザが周囲の音に対して関心が有ると推定されるか否かを判定する。この判定が肯定判定となった場合はステップ204に移行する。
ステップ204において、再生制御部14は、変数Mにコンテンツの再生を停止することを表す「停止」を示す値を設定する。次のステップ206において、再生制御部14は、経過時間を示す変数である変数Tをクリア(本実施形態では、0(零)を設定)した後、出力モード判定処理を終了する。また、ステップ202において否定判定となった場合はステップ208に移行し、再生制御部14は、変数Mに上述した「出力」を示す値を設定し、その後に出力モード判定処理を終了する。
一方、ステップ200において否定判定となった場合はステップ210に移行し、再生制御部14は、図5に示す復帰判定処理を行う。
復帰判定処理のステップ300において、再生制御部14は、変数Mに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ302に移行する。ステップ302において、再生制御部14は、変数Tの値が所定閾値THを超えたか否かを判定し、肯定判定となった場合はステップ304に移行して、再生制御部14は、変数Mに上述した「出力」を示す値を設定した後、復帰判定処理を終了する。
一方、ステップ302において否定判定となった場合はステップ306に移行し、再生制御部14は、変数Tの値を所定値(本実施形態では、‘1’)だけインクリメントし、その後に復帰判定処理を終了する。なお、ステップ300において否定判定となった場合は、以上のステップ302〜ステップ306の処理を実行することなく、復帰判定処理を終了する。復帰判定処理が終了すると、図4に示す出力モード判定処理を終了する。出力モード判定処理が終了すると、図3に示すコンテンツ再生処理のステップ106に移行する。
なお、本実施形態に係る復帰判定処理では、コンテンツの再生が停止されてからの経過時間を示す変数Tの値が閾値THを超えた場合に、該コンテンツの再生を自動的に再開するための処理を行っている。従って、復帰判定処理のステップ302の処理で用いる閾値THは、停止しているコンテンツの再生を自動的に再開させるまでの所望の期間に対応する変数Tの値として予め設定しておく。
コンテンツ再生処理のステップ106において、再生制御部14は、変数Mに上述した「出力」を示す値が設定されているか否かを判定し、否定判定となった場合はステップ102に戻る一方、肯定判定となった場合はステップ108に移行する。
ステップ108において、再生制御部14は、記憶部15に記憶されているコンテンツを示す情報から所定単位量の情報を読み出して再生する。次のステップ110において、再生制御部14は、再生すべきコンテンツを示す情報の全ての記憶部15からの読み出し及び再生が終了したか否かを判定する。ここで、否定判定となった場合はステップ102に戻る一方、肯定判定となった時点でコンテンツ再生処理を終了する。
以下、以上の基本的な実施形態に対応する、より具体的な実施形態について、図面を参照しつつ詳細に説明する。
〔第1実施形態〕
第1実施形態では、コンテンツ再生装置10を、サーバ、端末(クライアント)、ウェアラブルヘッドセット(以下、単に「ヘッドセット」という。)及び収録機を有するシステムに適用した場合について説明する。また、第1実施形態では、端末として、据え置き型のPCを適用した場合について説明する。
図6には、本実施形態に係るサーバ30A、端末40A、ヘッドセット60A及び収録機70が示されている。図6に示すように、本実施形態に係るサーバ30Aは、音声取得部11A、動作検出部12A、期間内動作判定部13A、再生制御部14A、バッファメモリ15A、音声コンテンツ生成部16A、受信部17A及び送信部18Aを備えている。また、端末40Aは、受信部50A、送信部50B、送信部50C、受信部50D、送信制御部52A及び再生部54を備えている。また、ヘッドセット60Aは、マイクロホン(以下、「マイク」という。)62及びスピーカ64を備えている。さらに、収録機70は、複数のマイク72を備えている。
収録機70に備えられている複数のマイク72は、端末40Aのユーザの周囲に設けられており、各々、ユーザの周囲の音を集音し、該音を示す音声データを出力する。本実施形態では、複数のマイク72として、端末40Aの周囲に存在し、かつ端末40Aのユーザ以外の複数のユーザ(以下、「他のユーザ」という。)が各々使用する指向性マイクを適用しているが、これに限るものではない。例えば、マイク72として、複数の他のユーザの音をまとめて集音する無指向性のマイクを適用してもよい。
一方、ヘッドセット60Aに備えられているマイク62は、端末40Aのユーザによる発話を集音するものであり、端末40Aのユーザがヘッドセット60Aを装着した際に該ユーザの口元に近接するようにヘッドセット60Aに設けられている。本実施形態では、マイク62として、ユーザの口元の方向から発せられる音声を精度よく集音する指向性マイクを用いているが、これに限るものではない。端末40Aのユーザと他のユーザとの距離や、他のユーザの人数等によっては、マイク62として無指向性のマイクを用いてもよい。また、ヘッドセット60Aに備えられているスピーカ64は、端末40Aのユーザがヘッドセット60Aを装着した際に該ユーザの耳に近接するようにヘッドセット60Aに設けられている。
収録機70の複数のマイク72は端末40Aの受信部50Aに接続されており、各マイク72による集音によって得られた音声データは端末40Aに送信される。また、ヘッドセット60Aのマイク62も端末40Aの受信部50Aに接続されており、マイク62による集音によって得られた音声データも端末40Aに送信される。さらに、ヘッドセット60Aのスピーカ64は端末40Aの送信部50Cに接続されており、スピーカ64は、端末40Aから送信された音声データに応じた音声を再生する。
また、端末40Aの送信部50Bはサーバ30Aの受信部17Aに接続されており、端末40Aの受信部50Dはサーバ30Aの送信部18Aに接続されている。
そして、端末40Aの送信制御部52Aは、収録機70の各マイク72及びヘッドセット60Aのマイク62から受信部50Aを介して受信した音声データをサーバ30Aに送信部50Bを介して送信する。また、再生部54は、サーバ30Aから受信部50Dを介して受信した音声データを、送信部50Cを介してヘッドセット60Aのスピーカ64に出力する。これにより、スピーカ64は、端末40Aから受信した音声データにより示される音を再生する。
一方、サーバ30Aの音声取得部11Aは、先に説明した音声取得部11に相当し、収録機70の複数のマイク72によって得られた音声データ(以下、「周囲音声データ」という。)を、端末40Aを介して取得することにより、ユーザの周囲の音を取得する。本実施形態に係る音声取得部11Aは、端末40Aのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態で複数のマイク72によって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。また、音声取得部11Aは、各マイク72によって得られた音声データの、対応するマイク72によって得られた上記雑音を示す音声データに対する比率であるSNR(Signal to Noise Ratio)をマイク72の各々毎に求める。そして、音声取得部11Aは、求めたSNRが所定閾値以上である区間を端末40Aのユーザの周囲における音声区間として検出する。従って、この音声区間は、最大でマイク72の数と同じ数まで、一部期間または全期間が重複した状態で検出され得る。なお、この周囲の音に含まれる音声区間を、以下では、「周囲音声区間」という。
また、動作検出部12Aは、先に説明した動作検出部12に相当し、ヘッドセット60Aのマイク62によって得られた音声データ(以下、「ユーザ音声データ」という。)を、端末40Aを介して取得する。そして、動作検出部12Aは、取得したユーザ音声データに基づいて、端末40Aのユーザの周囲の音に対する反応動作を検出する。本実施形態に係る動作検出部12Aは、端末40Aのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク62によって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。そして、動作検出部12Aは、マイク62によって得られた音声データの、上記雑音を示す音声データに対する比率であるSNRが所定閾値以上である区間を、端末40Aのユーザの発話による音声区間(反応動作)として検出する。このユーザ音声データに含まれる音声区間を、以下では、「ユーザ音声区間」という。なお、上記SNRについては、開示の技術の発明者等による特開2014−228753号公報にも記載されているため、ここでの、これ以上の説明は省略する。
本実施形態では、音声取得部11Aにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部12Aにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイク62及びマイク72の各々の集音特性の違いや、端末40Aのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。
一方、期間内動作判定部13Aは、先に説明した期間内動作判定部13に相当し、音声取得部11Aによって音声区間(周囲音声区間)が検出された時点から所定の期間内に動作検出部12Aによって反応動作が検出されたか否かを判定する。この判定は、周囲の音に対してユーザの関心が有るか否かを推定することに相当する。本実施形態に係る期間内動作判定部13Aでは、次の式(1)に示す条件が成立する場合に、端末40Aのユーザが他のユーザと会話しており、端末40Aのユーザの期間内動作有りと判定する。この判定は、端末40Aのユーザが周囲の音に対して関心が有ると推定することに相当する。なお、図2にも示すように、式(1)において、toeは周囲音声区間の終了時刻を表し、tusはユーザ音声区間の開始時刻を表し、DTは上述したように所定時間を表す。
すなわち、式(1)は、周囲音声区間の開始時刻から、周囲音声区間の終了時刻toeに所定時間DTを加算して得られた時刻までの期間(反応判定期間)に、ユーザ音声区間の開始時刻tusが含まれることを示しており、図2の「会話をしている場合」に該当する。なお、本実施形態では、所定時間DTとして、周囲音声区間の終了時刻toeから、該周囲音声区間の音声に応じて端末40Aのユーザが発話を開始するまでに要する時間として想定される最も長い期間(一例として、4秒)を固定的に適用している。但し、これに限定されるものではなく、例えば、端末40Aのユーザの疲労の度合いや、端末40Aのユーザが端末40Aによって何らかのコンテンツを再生している場合の、該コンテンツの種類等に応じて、所定時間DTを適宜設定できるようにしてもよい。
ここで、本実施形態では、上述したように、複数のマイク72の各々に対応して、複数の周囲音声区間が、一部期間または全期間が重複した状態で検出される場合がある。この場合、本実施形態では、複数の周囲音声区間の開始時刻のうちの最も早い時刻から、該複数の周囲音声区間の終了時刻toeのうちの最も遅い時刻に所定時間DTを加算して得られた時刻までの期間を、反応判定期間として適用する。但し、この形態に限らず、例えば、複数の周囲音声区間の各々別に反応判定期間を導出する形態としてもよい。この場合、各反応判定期間のうちの少なくとも1つの期間について式(1)に示す条件が成立する場合に、端末40Aのユーザの期間内動作有りと判定する形態等を適用することができる。
一方、音声コンテンツ生成部16Aは、端末40Aのユーザによる端末40Aに対する入力情報に応じて、音声のコンテンツ(以下、「音声コンテンツ」という。)を生成する。なお、本実施形態に係る音声コンテンツ生成部16Aは、端末40Aのユーザに対して送信された電子メールによるテキスト情報の読み上げを行う音声データを音声コンテンツとして生成する。
また、バッファメモリ15Aは、音声コンテンツ生成部16Aにより生成された音声データを一時的に格納する記憶領域である。本実施形態では、バッファメモリ15Aとして、FIFO(First In First Out)形式のメモリを用いている。そして、本実施形態に係る音声コンテンツ生成部16Aは、バッファメモリ15Aに対して、上記テキスト情報の読み上げを行う音声データを所定の単位で記憶する。この際、音声コンテンツ生成部16Aは、その時点でバッファメモリ15Aに最後に記憶されている音声データの次のアドレスに新たな音声データを記憶する。なお、上記所定の単位としては、例えば、モーラ単位、単語単位、文節単位、文章単位、段落単位、事象単位等が例示されるが、本実施形態では、文節単位を上記所定の単位として適用している。
また、バッファメモリ15Aは、読み出しポインタにより示されるアドレスから1フレーム分の音声データを読み出して再生制御部14Aに出力する。そして、バッファメモリ15Aは、1フレーム分の音声データの読み出しが終了した時点で、読み出した音声データの次の音声データが記憶されているアドレスに読み出しポインタを更新する。
図7には、バッファメモリ15Aに記憶された音声コンテンツの音声データが模式的に示されている。図7に示す例では、音声コンテンツの音声データが、先頭アドレスから順に、「各位」、「本日、」、・・・、「よろしく」、「お願いします」との文節単位で、時系列順にバッファメモリ15Aに記憶されている。
そして、再生制御部14Aは、先に説明した再生制御部14に相当し、期間内動作判定部13Aによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部14Aでは、期間内動作判定部13Aによって期間内動作有りと判定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。
一方、端末40Aの送信制御部52Aは、収録機70の各マイク72から受信した周囲音声データ及びヘッドセット60Aのマイク62から受信したユーザ音声データのサーバ30Aへの送信を制御する。また、再生部54は、サーバ30Aの再生制御部14Aによる制御に応じて、音声コンテンツをヘッドセット60Aのスピーカ64により再生させる。
上述したサーバ30A及び端末40Aは、図8に示すコンピュータ・システム20Aに含まれるサーバ30A及び端末40Aによって各々実現することができる。本実施形態に係るコンピュータ・システム20Aは、ネットワーク80に各々アクセス可能とされたサーバ30Aと、端末40Aと、を含んでいる。
サーバ30Aは、CPU(Central Processing Unit)31、メモリ32、記憶部33、入力部34、表示部35、媒体読み書き装置(R/W)36及び通信インタフェース(I/F)部37を備えている。CPU31、メモリ32、記憶部33、入力部34、表示部35、媒体読み書き装置36及び通信I/F部37はバス38を介して互いに接続されている。媒体読み書き装置36は、記録媒体96に書き込まれている情報の読み出し及び記録媒体96への情報の書き込みを行う。なお、上述したバッファメモリ15Aは、メモリ32に含まれる。
記憶部33は、HDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記憶部33には、サーバ30Aを図6に示したサーバ30Aとして機能させるためのコンテンツ再生プログラム33Aが記憶されている。コンテンツ再生プログラム33Aは、該プログラム33Aが書き込まれた記録媒体96が媒体読み書き装置36にセットされ、媒体読み書き装置36が記録媒体96からのコンテンツ再生プログラム33Aの読み出しを行うことで、記憶部33へ記憶される。CPU31は、コンテンツ再生プログラム33Aを記憶部33から読み出してメモリ32に展開し、コンテンツ再生プログラム33Aが有するプロセスを順次実行する。
コンテンツ再生プログラム33Aは、音声取得プロセス33A1、動作検出プロセス33A2A、期間内動作判定プロセス33A3A及び再生制御プロセス33A4Aを有する。CPU31は、音声取得プロセス33A1を実行することで、図6に示す音声取得部11Aとして動作する。また、CPU31は、動作検出プロセス33A2Aを実行することで、図6に示す動作検出部12Aとして動作する。また、CPU31は、期間内動作判定プロセス33A3Aを実行することで、図6に示す期間内動作判定部13Aとして動作する。さらに、CPU31は、再生制御プロセス33A4Aを実行することで、図6に示す再生制御部14Aとして動作する。
以上により、コンテンツ再生プログラム33Aを実行したサーバ30Aが、図6に示すサーバ30Aとして機能することになる。なお、コンテンツ再生プログラム33Aは開示の技術に係るコンテンツ再生プログラムの一例である。
一方、端末40Aは、CPU41、メモリ42、記憶部43、入力部44、表示部45、媒体読み書き装置46、通信I/F部47及び入出力I/F部48を備えている。CPU41、メモリ42、記憶部43、入力部44、表示部45、媒体読み書き装置46、通信I/F部47及び入出力I/F部48はバス49を介して互いに接続されている。媒体読み書き装置46は、記録媒体96に書き込まれている情報の読み出し及び記録媒体96への情報の書き込みを行う。
記憶部43はHDDやフラッシュメモリ等によって実現できる。記憶部43には、端末40Aを図6に示す端末40Aとして機能させるための端末処理プログラム43Aが記憶されている。
端末処理プログラム43Aは、端末処理プログラム43Aが書き込まれた記録媒体96が媒体読み書き装置46にセットされ、媒体読み書き装置46が記録媒体96からの端末処理プログラム43Aの読み出しを行うことで、記憶部43へ記憶される。CPU41は、端末処理プログラム43Aを記憶部43から読み出してメモリ42に展開し、端末処理プログラム43Aが有するプロセスを順次実行する。
端末処理プログラム43Aは、送信制御プロセス43A1及び再生プロセス43A2を有する。CPU41は、送信制御プロセス43A1を実行することで、図6に示す送信制御部52Aとして動作する。また、CPU41は、再生プロセス43A2を実行することで、図6に示す再生部54として動作する。
以上により、端末処理プログラム43Aを実行した端末40Aが、図6に示す端末40Aとして機能することになる。
なお、本実施形態に係るコンピュータ・システム20Aでは、サーバ30Aと、端末40Aとの間で、ネットワーク80を介して各種情報が送受信されるが、これに限定されるものではない。例えば、サーバ30Aと端末40Aとの間で直接、有線通信または無線通信により各種情報の送受信を行うようにしてもよい。また、コンピュータ・システム20Aでは、サーバ30A及び端末40Aを、各々に設けられた通信I/F部により有線通信にてネットワーク80に接続された他の装置との間で各種情報の送受信を行っているが、これに限定されるものではない。例えば、サーバ30A及び端末40Aの少なくとも一方を無線通信にてネットワーク80に接続された他の装置との間で各種情報の送受信を行う形態としてもよい。
次に、本実施形態の作用を説明する。なお、以下では、端末40Aのユーザが、端末40Aに接続されたヘッドセット60Aを装着した状態で、端末40Aを用いて音声コンテンツを再生する場合を想定する。この場合、端末40Aのユーザは、端末40Aによって端末処理プログラム43Aを実行させることで、図9に示す端末処理が行われる。
端末処理のステップ500において、送信制御部52Aは、収録機70の各マイク72から受信した周囲音声データ及びヘッドセット60Aのマイク62から受信したユーザ音声データのリアルタイムでのサーバ30Aへの送信を開始する。一方、サーバ30Aは、後述するように、音声コンテンツ生成部16Aによって生成され、バッファメモリ15Aに記憶された音声コンテンツ(本実施形態では、電子メールによるテキスト情報)の読み上げを行う音声データを端末40Aに1フレーム分毎に送信する。
そこで、次のステップ502において、再生部54は、サーバ30Aからの1フレーム分の音声データの受信待ちを行い、該音声データが受信されると肯定判定となってステップ504に移行する。
ステップ504において、再生部54は、サーバ30Aから受信した音声データをヘッドセット60Aのスピーカ64に送信することによって該音声データにより示される音を再生する。次のステップ506において、再生部54は、ユーザによる端末40Aの利用が終了したか否かを判定し、否定判定となった場合はステップ500に戻り、肯定判定となった時点で端末処理を終了する。なお、本実施形態では、ステップ506による端末40Aの利用が終了したか否かの判定を、ユーザによって端末処理の終了を指示する指示入力が入力部44を介して行われたか否かを判定することにより行っているが、これに限るものではない。例えば、端末40Aの電源スイッチがオフ状態とされたか否かを判定することにより端末40Aの利用が終了したか否かを判定する形態等としてもよい。
一方、サーバ30Aは、端末40Aからのアクセスが開始された際にコンテンツ再生プログラム33Aを実行させることにより、図10に示すコンテンツ再生処理が行われる。
コンテンツ再生処理のステップ150において、再生制御部14Aは、コンテンツの再生モードを設定するための変数である変数Mにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。次のステップ152において、音声コンテンツ生成部16Aは、端末40Aのユーザ宛に新たに受信された電子メールによるテキスト情報の所定のメールサーバからの入力を試みる。次のステップ154において、音声コンテンツ生成部16Aは、上記メールサーバから上記テキスト情報が入力されたか否かを判定し、否定判定となった場合は後述するステップ158に移行する一方、肯定判定となった場合はステップ156に移行する。
ステップ156において、音声コンテンツ生成部16Aは、メールサーバから入力されたテキスト情報の読み上げを行う音声データを生成し、メモリ32の所定の記憶領域に記憶する。この際、音声コンテンツ生成部16Aは、本コンテンツ再生処理の実行を開始して最初にステップ156を実行する際には、上記所定の記憶領域の先頭アドレスに、該記憶領域に対応する読み出しポインタ(以下、「第1読み出しポインタ」という。)を設定する。
次のステップ158において、音声取得部11A及び動作検出部12Aは、端末40Aからの所定量の周囲音声データ及びユーザ音声データの受信待ちを行い、ステップ158において肯定判定となった場合はステップ160に移行する。ステップ160において、再生制御部14Aは、図11に示す出力モード判定処理を行う。
出力モード判定処理のステップ250Aにおいて、動作検出部12Aは、ユーザ音声データからのユーザ音声区間の検出を試み、次のステップ252において、音声取得部11Aは、周囲音声データからの周囲音声区間の検出を試みる。次のステップ254において、期間内動作判定部13Aは、ユーザ音声区間及び周囲音声区間が検出され、かつ検出されたユーザ音声区間及び周囲音声区間において、上述した式(1)に示す条件が成立するか否かを判定する。ここで、肯定判定となった場合は、端末40Aのユーザによる期間内動作有りと見なしてステップ256に移行する。
ステップ256において、再生制御部14Aは、変数Mにコンテンツの再生を停止することを表す「停止」を示す値を設定する。次のステップ258において、再生制御部14Aは、経過時間を示す変数である変数Tをクリア(本実施形態では、0(零)を設定)した後、出力モード判定処理を終了する。
一方、ステップ254において否定判定となった場合はステップ260に移行し、再生制御部14Aは、図12に示す復帰判定処理を行う。
復帰判定処理のステップ350において、再生制御部14Aは、変数Mに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ352に移行する。ステップ352において、再生制御部14Aは、変数Tの値が所定閾値THを超えたか否かを判定し、肯定判定となった場合はステップ354に移行して、再生制御部14Aは、変数Mに上述した「出力」を示す値を設定した後、復帰判定処理を終了する。なお、ステップ352の処理において適用する閾値THは、例えば、図5に示す復帰判定処理のステップ302の処理において適用した閾値THと同様のものである。
一方、ステップ352において否定判定となった場合はステップ356に移行し、再生制御部14Aは、変数Tの値を所定値(本実施形態では、‘1’)だけインクリメントし、その後に復帰判定処理を終了する。なお、ステップ350において否定判定となった場合は、以上のステップ352〜ステップ356の処理を実行することなく、復帰判定処理を終了する。復帰判定処理が終了すると、図11に示す出力モード判定処理を終了する。出力モード判定処理が終了すると、図10に示すコンテンツ再生処理のステップ162に移行し、再生制御部14Aは、図13に示す出力処理を行う。
出力処理のステップ400において、再生制御部14Aは、変数Mに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ402に移行する。ステップ402において、再生制御部14Aは、バッファメモリ15Aに音声データが記憶されているか否かを判定し、肯定判定となった場合は後述するステップ406に移行する一方、否定判定となった場合はステップ404に移行する。
ステップ404において、再生制御部14Aは、メモリ32の第1読み出しポインタが示すアドレスに記憶されている音声データを上記所定の単位量だけ読み出してバッファメモリ15Aに記憶した後、ステップ406に移行する。この際、再生制御部14Aは、本コンテンツ再生処理の実行を開始して最初にステップ404を実行する際には、バッファメモリ15Aの先頭アドレスに、該バッファメモリ15Aに対応する読み出しポインタ(以下、「第2読み出しポインタ」という。)を設定する。
ステップ406において、再生制御部14Aは、バッファメモリ15Aの第2読み出しポインタが示すアドレスに記憶されている1フレーム分の音声データをバッファメモリ15Aから読み出し、端末40Aに送信する。次のステップ408において、再生制御部14Aは、バッファメモリ15Aに記憶されている全ての音声データの端末40Aへの送信が終了したか否かを判定し、否定判定となった場合は出力処理を終了する一方、肯定判定となった場合はステップ410に移行する。ステップ410において、再生制御部14Aは、第1読み出しポインタの値を更新(上記所定の単位量に相当するアドレスだけインクリメント)し、その後に出力処理を終了する。
一方、ステップ400において否定判定となった場合はステップ412に移行し、再生制御部14Aは、バッファメモリ15Aをクリアする。次のステップ414において、再生制御部14Aは、1フレーム分の空データを音声データとして端末40Aに送信し、その後に出力処理を終了する。出力処理が終了すると、図10に示すコンテンツ再生処理のステップ164に移行する。
ステップ164において、再生制御部14Aは、端末40Aからの上記アクセスが終了したか否かを判定し、否定判定となった場合はステップ152に戻る一方、肯定判定となった時点でコンテンツ再生処理を終了する。
以上、詳細に説明したように、本実施形態では、音声取得部11により、ユーザの周囲の音を取得して、該周囲の音に含まれる音声区間を検出し、動作検出部12により、ユーザの周囲の音に対する反応動作を検出する。また、本実施形態では、期間内動作判定部13により、音声取得部11によって音声区間が検出された時点から所定の期間内に動作検出部12によって反応動作が検出された場合に期間内動作有りと判定する。そして、本実施形態では、再生制御部14により、期間内動作判定部13によって期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合に、コンテンツの再生を制限する制御を行う。このため、本実施形態では、周囲の音に対するユーザの反応動作を考慮しない従来の技術に比較して、より適切な状態でコンテンツを再生することができる。
また、本実施形態では、動作検出部12により、反応動作として、ユーザの発話動作を検出している。これにより、ユーザが発話している状態においてコンテンツの再生を制限する制御を行うことができる。
また、本実施形態では、取得された周囲の音の音声区間が開始された時点を始点とし、該音声区間が終了して所定時間経過した時点を終点とする期間(反応判定期間)内に反応動作が検出された場合に期間内動作有りと判定することにより、周囲の音に対してユーザの関心が有ると推定している。これにより、上記所定時間を、ユーザの性格や、ユーザの周囲の状況等に応じて適切に設定することにより、周囲の音に対するユーザの関心の有無を、適切に推定することができる。
また、本実施形態では、期間内動作有りと判定した後、反応判定期間内に反応動作が検出されなくなった場合に、期間内動作無しと判定することにより、周囲の音に対してユーザの関心が無くなったと推定する。そして、本実施形態では、期間内動作無しと判定された場合に、期間内動作有りと判定して行った制御を解除している。これにより、期間内動作無しと判定した場合、すなわち、周囲の音に対してユーザの関心が無くなったと推定される場合に、通常と同様にコンテンツを再生することができる結果、ユーザにとっての利便性を向上させることができる。
また、本実施形態では、再生制御部14により、期間内動作判定部13により周囲の音に対してユーザの関心が有ると推定された場合に、コンテンツの再生を停止する制御を行う。また、本実施形態では、再生制御部14により、該コンテンツの再生を停止する制御を行っている場合で、かつ期間内動作判定部13により周囲の音に対してユーザの関心が無くなったと推定された場合に、コンテンツの再生を再開する制御を行っている。これにより、コンテンツの再生の停止及び再開を、より適切に行うことができる。
さらに、本実施形態では、動作検出部12により、ユーザの発話動作により生じる音声の大きさ(本実施形態では、SNR)が所定閾値以上である場合に上記反応動作として検出している。これにより、ユーザの発話による反応動作を、より適切に検出することができる。
〔第2実施形態〕
第2実施形態では、コンテンツ再生装置10を、サーバ、マイクを内蔵した端末(クライアント)及びヘッドセットを有するシステムに適用した場合について説明する。
図14には、本実施形態に係るサーバ30B、端末40B及びヘッドセット60Aが示されている。なお、図14における図6と同一の構成要素には図6と同一の符号を付して、その説明を極力省略する。
図14に示すように、本実施形態に係る端末40Bは、送信制御部52Aが、該送信制御部52Aとは異なる処理を行う送信制御部52Bとされている点が第1実施形態に係る端末40Aと異なっている。また、本実施形態に係る端末40Bは、音声取得部11B、動作検出部12B、期間内動作判定部13B、第1再生制御部14B1及びマイク56Aが新たに設けられている点が第1実施形態に係る端末40Aと異なっている。一方、本実施形態に係るサーバ30Bは、音声取得部11A、動作検出部12A及び期間内動作判定部13Aが設けられていない点が第1実施形態に係るサーバ30Aと異なっている。また、本実施形態に係るサーバ30Bは、再生制御部14Aが、該再生制御部14Aとは異なる処理を行う第2再生制御部14B2とされている点が第1実施形態に係るサーバ30Aと異なっている。なお、本実施形態では、収録機70は用いられていない。
端末40Bの送信制御部52Bは、ヘッドセット60Aのスピーカ64によって再生させたいコンテンツを指定する情報をサーバ30Bに送信する制御を行う。また、マイク56Aは、ユーザの周囲の音を集音し、該音を示す音声データを出力する。本実施形態では、マイク56Aとして、無指向性のマイクを適用している。
また、音声取得部11Bは、先に説明した音声取得部11に相当し、マイク56Aによって得られた音声データ(周囲音声データ)を取得することにより、ユーザの周囲の音を取得する。本実施形態に係る音声取得部11Bは、端末40Bのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク56Aによって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。そして、音声取得部11Bは、マイク56Aによって得られた音声データの、上記雑音を示す音声データに対する比率であるSNRが所定閾値以上である区間を端末40Bのユーザの周囲における音声区間(周囲音声区間)として検出する。
また、動作検出部12Bは、先に説明した動作検出部12に相当し、ヘッドセット60Aのマイク62によって得られた音声データ(ユーザ音声データ)を取得する。そして、動作検出部12Bは、取得したユーザ音声データに基づいて、端末40Bのユーザの周囲の音に対する反応動作を検出する。本実施形態に係る動作検出部12Bは、端末40Bのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク62によって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。そして、動作検出部12Bは、マイク62によって得られた音声データの、上記雑音を示す音声データに対する比率であるSNRが所定閾値以上である区間を、端末40Bのユーザの発話による音声区間(ユーザ音声区間)として検出する。
本実施形態でも、音声取得部11Bにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部12Bにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイク56A及びマイク62の各々の集音特性の違いや、端末40Bのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。
さらに、期間内動作判定部13Bは、先に説明した期間内動作判定部13に相当する。期間内動作判定部13Bは、音声取得部11Bによって音声区間が検出された時点から所定の期間内に動作検出部12Bによるユーザ音声区間(発話による反応動作)の検出が有るか無いかに基づいて、期間内動作有りか、期間内動作無しかを判定する。本実施形態に係る期間内動作判定部13Bでも、上述した式(1)に示す条件が成立する場合に、端末40Bのユーザが他のユーザと会話しており、期間内動作有りと判定することにより、周囲の音に対して端末40Bのユーザの関心が有ると推定できる。
一方、端末40Bの第1再生制御部14B1及びサーバ30Bの第2再生制御部14B2は、先に説明した再生制御部14に相当する。第1再生制御部14B1及び第2再生制御部14B2は協同して、端末40Bの期間内動作判定部13Bによって期間内動作有りと判定された場合、すなわち、ユーザが周囲の音に対して関心が有ると推定できる場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る第1再生制御部14B1及び第2再生制御部14B2でも、ユーザが周囲の音に対して関心が有ると推定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。
なお、本実施形態に係るサーバ30Bの音声コンテンツ生成部16Aは、ユーザによって端末40Bを用いて予め選択されたWebニュースの読み上げを行う音声データをコンテンツとして生成する。
図15には、バッファメモリ15Aに記憶された音声コンテンツの音声データが模式的に示されている。図15に示す例では、音声コンテンツの音声データが、先頭アドレスから順に、「明日の」、「天気は」、・・・、「午後から」、「雨になるでしょう」との文節単位で、時系列順にバッファメモリ15Aに記憶されている。
上述したサーバ30B及び端末40Bは、図16に示すコンピュータ・システム20Bに含まれるサーバ30B及び端末40Bによって各々実現することができる。なお、図16における図8と同一の構成要素には図8と同一の符号を付して、その説明を極力省略する。
図16に示すように、本実施形態に係るサーバ30Bの記憶部33には、コンテンツ再生プログラム33Aに代えて、サーバ30Bを図14に示したサーバ30Bとして機能させるためのサーバ処理プログラム33Cが記憶されている。サーバ処理プログラム33Cは、該プログラム33Cが書き込まれた記録媒体96が媒体読み書き装置36にセットされ、媒体読み書き装置36が記録媒体96からのサーバ処理プログラム33Cの読み出しを行うことで、記憶部33へ記憶される。CPU31は、サーバ処理プログラム33Cを記憶部33から読み出してメモリ32に展開し、サーバ処理プログラム33Cが有するプロセスを順次実行する。
サーバ処理プログラム33Cは、第2再生制御プロセス33C1を有する。CPU31は、第2再生制御プロセス33C1を実行することで、図14に示す第2再生制御部14B2として動作する。
以上により、サーバ処理プログラム33Cを実行したサーバ30Bが、図14に示すサーバ30Bとして機能することになる。なお、サーバ処理プログラム33Cは開示の技術に係るコンテンツ再生プログラムの一部の処理を含む。
一方、図16に示すように、本実施形態に係る端末40Bは、バス49にマイク56Aが接続されている。また、本実施形態に係る端末40Bの記憶部43には、端末処理プログラム43Aに代えて、端末40Bを図14に示した端末40Bとして機能させるためのコンテンツ再生プログラム43Bが記憶されている。コンテンツ再生プログラム43Bは、該プログラム43Bが書き込まれた記録媒体96が媒体読み書き装置46にセットされ、媒体読み書き装置46が記録媒体96からのコンテンツ再生プログラム43Bの読み出しを行うことで、記憶部43へ記憶される。CPU41は、コンテンツ再生プログラム43Bを記憶部43から読み出してメモリ42に展開し、コンテンツ再生プログラム43Bが有するプロセスを順次実行する。
コンテンツ再生プログラム43Bは、音声取得プロセス43B1、動作検出プロセス43B2、期間内動作判定プロセス43B3、第1再生制御プロセス43B4、再生プロセス43B5及び送信制御プロセス43B6を有する。CPU41は、音声取得プロセス43B1を実行することで、図14に示す音声取得部11Bとして動作する。また、CPU41は、動作検出プロセス43B2を実行することで、図14に示す動作検出部12Bとして動作する。また、CPU41は、期間内動作判定プロセス43B3を実行することで、図14に示す期間内動作判定部13Bとして動作する。また、CPU41は、第1再生制御プロセス43B4を実行することで、図14に示す第1再生制御部14B1として動作する。また、CPU41は、再生プロセス43B5を実行することで、図14に示す再生部54として動作する。さらに、CPU41は、送信制御プロセス43B6を実行することで、図14に示す送信制御部52Bとして動作する。
以上により、コンテンツ再生プログラム43Bを実行した端末40Bが、図14に示す端末40Bとして機能することになる。なお、コンテンツ再生プログラム43Bは開示の技術に係るコンテンツ再生プログラムの一部の処理を含む。
次に、本実施形態の作用を説明する。なお、以下では、端末40Bのユーザが、端末40Bに接続されたヘッドセット60Aを装着した状態で、端末40Bを用いて音声コンテンツを再生する場合を想定する。この場合、端末40Bのユーザは、端末40Bによってコンテンツ再生プログラム43Bを実行させることで、図17に示すコンテンツ再生処理が行われる。以下では、錯綜を回避するため、端末40Bのユーザによって端末40Bで再生して欲しい複数件のWebニュースを特定するための特定情報(本実施形態では、URL(Uniform Resource Locators))が予め端末40Bに入力されている場合について説明する。
コンテンツ再生処理のステップ600において、送信制御部52Bは、上記特定情報に含まれる1件分のWebニュースを指定する情報(以下、「Web指定情報」という。)をサーバ30Bに送信する。
次のステップ602において、動作検出部12Bは、ユーザ音声データからのユーザ音声区間の検出を試み、次のステップ604において、音声取得部11Bは、周囲音声データからの周囲音声区間の検出を試みる。次のステップ606において、期間内動作判定部13Bは、ユーザ音声区間及び周囲音声区間が検出され、かつ検出されたユーザ音声区間及び周囲音声区間において、上述した式(1)に示す条件が成立するか否かを判定する。ここで、肯定判定となった場合は、期間内動作有りと判定し、すなわち、端末40Bのユーザが周囲の音に対して関心が有ると見なし、ステップ608に移行する。
ステップ608において、第1再生制御部14B1は、コンテンツの再生モードを設定するための変数である変数Mにコンテンツの再生を停止することを表す「停止」を示す値を設定する。次のステップ610において、第1再生制御部14B1は、経過時間を示す変数である変数Tをクリア(本実施形態では、0(零)を設定)した後、ステップ614に移行する。
一方、ステップ606において否定判定となった場合はステップ612に移行し、第1再生制御部14B1は、図18に示す復帰判定処理を行う。
復帰判定処理のステップ700において、第1再生制御部14B1は、変数Mに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ702に移行する。ステップ702において、第1再生制御部14B1は、変数Tの値が所定閾値THを超えたか否かを判定し、肯定判定となった場合はステップ704に移行して、第1再生制御部14B1は、変数Mに「出力」を示す値を設定した後、復帰判定処理を終了する。なお、ステップ702の処理において適用する閾値THは、例えば、図5に示す復帰判定処理のステップ302の処理において適用した閾値THと同様のものである。
一方、ステップ702において否定判定となった場合はステップ706に移行し、第1再生制御部14B1は、変数Tの値を所定値(本実施形態では、‘1’)だけインクリメントし、その後に復帰判定処理を終了する。なお、ステップ700において否定判定となった場合は、以上のステップ702〜ステップ706の処理を実行することなく、復帰判定処理を終了する。復帰判定処理が終了すると、図17に示すコンテンツ再生処理のステップ614に移行する。
ステップ614において、第1再生制御部14B1は、以上の処理によって変数Mに設定されている値を再生モード情報としてサーバ30Bに送信する。
一方、サーバ30Bは、端末40BからWeb指定情報を受信すると、受信したWeb指定情報により指定されたWebニュースを、ネットワーク80やインターネット等を介して取得する。また、サーバ30Bは、取得したWebニュースを読み上げる音声データを生成してバッファメモリ15Aに一旦記憶した後に端末40Bに順次送信する。この際、サーバ30Bは、端末40Bから受信した再生モード情報により示される再生モードでWebニュースが再生されるように、Webニュースの読み上げを行う音声データを端末40Bに1フレーム分毎に送信する。
そこで、次のステップ616において、再生部54は、サーバ30Bからの1フレーム分毎の音声データの受信待ちを行い、該音声データが受信されると肯定判定となってステップ618に移行する。
ステップ618において、再生部54は、サーバ30Bから受信した音声データをヘッドセット60Aのスピーカ64に送信することによって該音声データにより示される音を再生する。次のステップ620において、再生部54は、ユーザによる端末40Bの利用が終了したか否かを判定し、否定判定となった場合はステップ600に戻り、肯定判定となった時点でコンテンツ再生処理を終了する。ここで、ステップ600〜ステップ620の処理を繰り返し実行する際に、送信制御部52Bは、ステップ600の処理において、上記特定情報における、それまでに送信していないWebニュースを指定するWeb指定情報をサーバ30Bに送信する。
なお、本実施形態では、ステップ620による端末40Bの利用が終了したか否かの判定を、上記特定情報によって特定される全てのWebニュースに対応するWeb指定情報をサーバ30Bに送信したか否かを判定することにより行っている。但し、これに限るものではなく、例えば、ユーザによってコンテンツ再生処理の終了を指示する指示入力が入力部44を介して行われたか否かを判定することにより、端末40Bの利用が終了したか否かを判定する形態としてもよい。また、例えば、端末40Bの電源スイッチがオフ状態とされたか否かを判定することにより、端末40Bの利用が終了したか否かを判定する形態としてもよい。
一方、サーバ30Bは、端末40Bからのアクセスが開始された際(本実施形態では、Web指定情報が受信された際)にサーバ処理プログラム33Cを実行させることにより、図19に示すサーバ処理が行われる。
サーバ処理のステップ170において、第2再生制御部14B2は、変数Mにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。次のステップ172において、音声コンテンツ生成部16Aは、端末40Bから受信されたWeb指定情報により指定されたWebニュースの受信を試みる。次のステップ174において、音声コンテンツ生成部16Aは、Webニュースが受信されたか否かを判定し、否定判定となった場合は後述するステップ178に移行する一方、肯定判定となった場合はステップ176に移行する。
ステップ176において、音声コンテンツ生成部16Aは、受信されたWebニュースの読み上げを行う音声データを生成し、メモリ32の所定の記憶領域に記憶する。この際、音声コンテンツ生成部16Aは、本サーバ処理の実行を開始して最初にステップ176を実行する際には、上記所定の記憶領域の先頭アドレスに、該記憶領域に対応する第1読み出しポインタを設定する。
次のステップ178において、第2再生制御部14B2は、端末40Bからの再生モード情報の受信待ちを行い、ステップ178において肯定判定となった場合は、受信した再生モード情報を変数Mに代入した後、ステップ180に移行する。ステップ180において、第2再生制御部14B2は、図13に示す出力処理を行う。なお、該出力処理は第1実施形態と同様であるので、ここでの説明は省略する。出力処理が終了すると、図19に示すサーバ処理のステップ182に移行する。
ステップ182において、第2再生制御部14B2は、端末40Bからのアクセスが終了したか否かを判定し、否定判定となった場合はステップ172に戻る一方、肯定判定となった時点でサーバ処理を終了する。
以上、詳細に説明したように、本実施形態では、第1実施形態と同様の効果を奏することができると共に、端末40Bからサーバ30Bへの周囲音声データ及びユーザ音声データの送信を行う必要がないため、該送信のための通信量を削減することができる。
〔第3実施形態〕
第3実施形態では、コンテンツ再生装置10を、マイクアレイ及びカメラを内蔵した端末及びヘッドセットを有するシステムに適用した場合について説明する。
図20には、本実施形態に係る端末40C及びヘッドセット60Aが示されている。なお、図20における図14と同一の構成要素には図14と同一の符号を付して、その説明を極力省略する。
図20に示すように、本実施形態に係る端末40Cは、カメラ58及びキーボード59が新たに設けられている点、送信部50B及び受信部50Dが設けられていない点が第2実施形態に係る端末40Bと異なっている。また、本実施形態に係る端末40Cは、マイク56Aに代えてマイクアレイ56Bが設けられている点が第2実施形態に係る端末40Bと異なっている。
また、本実施形態に係る端末40Cは、音声取得部11Bが、該音声取得部11Bとは異なる処理を行う音声取得部11Cとされている点が第2実施形態に係る端末40Bと異なっている。また、本実施形態に係る端末40Cは、動作検出部12Bが、該動作検出部12Bとは異なる処理を行う動作検出部12Cとされている点が第2実施形態に係る端末40Bと異なっている。また、本実施形態に係る端末40Cは、期間内動作判定部13Bが、該期間内動作判定部13Bとは異なる処理を行う期間内動作判定部13Cとされている点が第2実施形態に係る端末40Bと異なっている。また、本実施形態に係る端末40Cは、第1再生制御部14B1が、該第1再生制御部14B1とは異なる処理を行う再生制御部14Cとされている点が第2実施形態に係る端末40Cと異なっている。
さらに、本実施形態に係る端末40Cは、記憶部43にコンテンツが記憶されている点が第2実施形態に係る端末40Bと異なっている。なお、本実施形態では、サーバ30Bは用いられていない。
端末40Cのマイクアレイ56Bは、複数のマイク素子が並んで配置されたものであり、各マイク素子により、端末40Cのユーザの周囲の音を集音し、該音を示す音声データを出力する。また、カメラ58は、端末40Cのユーザの顔を撮影することができるものである。なお、本実施形態では、カメラ58が端末40Cにおける表示部45の上部に設けられているが、これに限るものではなく、端末40Cのユーザの顔が撮影できる位置であれば、カメラ58の位置は何れの位置であってもよい。
本実施形態に係る音声取得部11Cは、先に説明した音声取得部11に相当し、マイクアレイ56Bの複数のマイク素子によって得られた音声データ(周囲音声データ)を取得することにより、ユーザの周囲の音を取得する。本実施形態に係る音声取得部11Cは、端末40Cのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態で各マイク素子によって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。また、音声取得部11Cは、各マイク素子によって得られた音声データの、対応するマイク素子によって得られた上記雑音を示す音声データに対する比率であるSNRをマイク素子の各々毎に求める。そして、音声取得部11Cは、求めたSNRが所定閾値以上である区間を端末40Cのユーザの周囲における音声区間(周囲音声区間)として検出する。従って、この周囲音声区間は、最大でマイク素子の数と同じ数まで、一部期間または全期間が重複した状態で検出され得る。
また、動作検出部12Cは、先に説明した動作検出部12に相当し、ヘッドセット60Aのマイク62によって得られた音声データ(ユーザ音声データ)に加えて、マイクアレイ56Bによって得られた音声データ(周囲音声データ)を取得する。また、動作検出部12Cは、カメラ58による撮影によって得られた周囲の映像を示す画像データ(以下、「ユーザ画像データ」という。)を取得する。さらに、動作検出部12Cは、キーボード59に対するユーザによる入力状態を示す信号(以下、「キーボード入力信号」という。)を取得する。そして、動作検出部12Cは、取得したユーザ音声データ、周囲音声データ、ユーザ画像データ及びキーボード入力信号に基づいて、端末40Cのユーザの周囲の音に対する反応動作を検出する。
本実施形態に係る動作検出部12Cは、端末40Cのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク62によって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。そして、動作検出部12Cは、マイク62によって得られた音声データの、上記雑音を示す音声データに対する比率であるSNRが所定閾値以上である区間を、端末40Cのユーザの発話による音声区間(ユーザ音声区間)として検出する。
また、動作検出部12Cは、マイクアレイ56Bにより得られた複数の周囲音声データに基づいて、端末40Cの周辺の音源の方向を推定する。なお、該音源の方向の推定は、例えば、「及川他、“Matching Pursuitを用いた音源方向推定の最適化”、日本音響学会講演論文集、2005年9月」に記載の技術等の従来既知の技術で実現できる。このため、ここでの音源の方向の推定方法の詳細な説明は省略する。なお、以下では、時刻tにおいて推定された音源の方向をoa(t)とする。
また、動作検出部12Cは、一例として特開2007−200298号公報に記載の技術等の従来既知の技術を用いて、ユーザ画像データにより示される、端末40Cのユーザの顔の画像から該ユーザの頭部の向きをリアルタイムで検出する。そして、動作検出部12Cでは、推定した音源の方向oa(t)及び検出したユーザの頭部の向きに基づいて、次のようにユーザの頭部の動作を検出する。
すなわち、動作検出部12Cは、まず、ユーザ画像データに基づいて、端末40Cのユーザの胴体の正面方向の角度を0(零)度とした場合の頭部の向きの角度を得る。ここで、時刻tのときに得られる水平方向の角度をh(t)とし、垂直方向の角度をv(t)とする。また、水平方向の角度については、ユーザの右手側を+1〜+179度の範囲とし、左手側を−1〜−179度の範囲とし、背面方向を±180度とし、垂直方向の角度については、上側を+1〜+90度の範囲とし、下側を−1〜−90度の範囲とする。
次に、動作検出部12Cは、次の式(2)〜式(5)の少なくとも1つの条件が成立した場合に、周囲の音に対する端末40Cのユーザの反応動作としてユーザの頭部が動作(以下、「頭部反応動作」という。)したと判断する。
式(2)は、ユーザの頭部が、閾値TH_STで規定される所定範囲内で正面を向いた状態(|h(t-a)|<TH_ST)から、一定時間DH内に閾値TH_RTで規定される範囲内で音源の方向(oa(t-a))を向く動作(以下、「振り向き動作」という。)を行う場合の条件を表す。また、式(3)は、ユーザの頭部が、一定時間DH2内に閾値TH_RT2で規定される角度を超えて下方向を向き、その後の一定時間DH2内に該角度を超えて上方向を向く動作(以下、「頷き動作」という。)を行う場合の条件を表す。また、式(4)、式(5)は、ユーザの頭部が、一定時間DH2内に閾値TH_RT3で規定される角度を超えて左右の一方の方向を向き、その後の一定時間DH2内に該角度を超えて左右の他方の方向を向く動作(以下、「首振り動作」という。)を行う場合の条件を表す。
また、動作検出部12Cは、一例として特開2014−39617号公報に記載の技術等の従来既知の技術を用いて、ユーザ画像データにより示される、端末40Cのユーザの顔の画像から該ユーザの視線の向きをリアルタイムで検出する。そして、動作検出部12Cは、上述した式(2)により示される振り向き動作と同様の条件が成立した場合に、周囲の音に対する端末40Cのユーザの反応動作としてユーザの視線が動作(以下、「視線反応動作」という。)したと判断する。なお、ここで、式(2)の条件の成否を判断する場合には、頭部の向きを視線の向きに置き換える。
また、動作検出部12Cは、一例として特許第5204323号公報に記載の技術等の従来既知の技術を用いて、ユーザ画像データにより示される、端末40Cのユーザの顔の画像からユーザの在席状況を判断する。そして、動作検出部12Cは、ユーザが在席している状態から在席していない状態に変化した場合に、周囲の音に対する端末40Cのユーザの反応動作としてユーザの体が移動(以下、「移動反応動作」という。)したと判断する。
さらに、動作検出部12Cは、キーボード入力信号に基づいて、所定時間当たり(本実施形態では、1秒当たり)のキーの入力数の平均値(以下、「平均入力数」という。)を導出する。そして、動作検出部12Cは、所定期間(本実施形態では、2秒)経過した後の平均入力数が、経過前の平均入力数に対して所定閾値(本実施形態では、経過前の平均入力数の50%)以上減少したか否かを判断する。そして、動作検出部12Cは、上記所定閾値以上減少したと判断した場合に、周囲の音に対する端末40Cのユーザの反応動作としてユーザのキーボード59に対する入力数の低下反応、すなわち、キーボード入力の停滞(以下、「キーボード反応動作」という。)が生じたと判断する。
本実施形態でも、音声取得部11Cにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部12Cにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイクアレイ56B及びマイク62の各々の集音特性の違いや、端末40Cのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。
一方、期間内動作判定部13Cは、先に説明した期間内動作判定部13に相当し、音声取得部11Cによって音声区間が検出された時点から所定の期間内に動作検出部12Cによる反応動作の検出が有るか否か無いかを判定することにより、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部13Cでは、次の式(6)〜式(10)に示す5つの条件のうち、少なくとも1つの条件が成立し、かつ該成立している状態が所定時間以上継続している場合に、期間内動作有りと判定し、周囲の音に対して端末40Cのユーザの関心が有ると推定できる。なお、式(6)〜式(10)において、tosは周囲音声区間の開始時刻を表し、toeは周囲音声区間の終了時刻を表し、tusはユーザ音声区間の開始時刻を表し、DTは上述したように所定時間を表す。また、thは頭部反応動作を表し、teは視線反応動作を表し、tmは移動反応動作を表し、さらにtiはキーボード反応動作を表す。
すなわち、式(6)は、周囲音声区間の開始時刻tosから、周囲音声区間の終了時刻toeに所定時間DTを加算して得られた時刻までの期間(反応判定期間)に、ユーザ音声区間の開始時刻tusがあることを示している。同様に、式(7)は、反応判定期間に頭部反応動作が行われたことを示しており、式(8)は、反応判定期間に視線反応動作が行われたことを示している。また、式(9)は、反応判定期間に移動反応動作が行われたことを示しており、式(10)は、反応判定期間にキーボード反応動作が行われたことを示している。
ここで、本実施形態では、上述したように、複数のマイク素子の各々に対応して、複数の周囲音声区間が、一部期間または全期間が重複した状態で検出される場合がある。この場合、本実施形態では、例えば、複数の周囲音声区間の開始時刻tosのうちの最も早い時刻から、該複数の周囲音声区間の終了時刻toeのうちの最も遅い時刻に所定時間DTを加算して得られた時刻までの期間を、反応判定期間として適用する。但し、この形態に限らず、例えば、複数の周囲音声区間の各々別に反応判定期間を導出する形態としてもよい。この場合、各反応判定期間のうちの少なくとも1つの期間について式(6)〜式(10)に示す条件のうちの少なくとも1つが成立する場合に、期間内動作有りと判定することで、周囲の音に対して端末40Cのユーザの関心が有ると推定できる形態等を適用することができる。
一方、再生制御部14Cは、先に説明した再生制御部14に相当し、期間内動作判定部13Cによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部14Cでは、期間内動作判定部13Cによって期間内動作有りと判定された場合、すなわち、ユーザが周囲の音に対して関心が有ると推定できる場合には音声コンテンツの再生音量を低下する制御を行い、その他の場合には音声コンテンツの再生音量を通常の音量とする制御を行う。
上述した端末40Cは、図21に示す端末40Cによって実現することができる。なお、図21における図16と同一の構成要素には図16と同一の符号を付して、その説明を極力省略する。
図21に示すように、本実施形態に係る端末40Cは、バス49に、マイク56Aに代えてマイクアレイ56Bが接続され、かつカメラ58及びキーボード59が接続されている。また、本実施形態に係る端末40Cの記憶部43には、コンテンツ再生プログラム43Bに代えて、端末40Cを図20に示した端末40Cとして機能させるためのコンテンツ再生プログラム43Cが記憶されている。コンテンツ再生プログラム43Cは、該プログラム43Cが書き込まれた記録媒体96が媒体読み書き装置46にセットされ、媒体読み書き装置46が記録媒体96からのコンテンツ再生プログラム43Cの読み出しを行うことで、記憶部43へ記憶される。CPU41は、コンテンツ再生プログラム43Cを記憶部43から読み出してメモリ42に展開し、コンテンツ再生プログラム43Cが有するプロセスを順次実行する。
コンテンツ再生プログラム43Cは、音声取得プロセス43C1、動作検出プロセス43C2、期間内動作判定プロセス43C3、再生制御プロセス43C4及び再生プロセス43C5を有する。CPU41は、音声取得プロセス43C1を実行することで、図20に示す音声取得部11Cとして動作する。また、CPU41は、動作検出プロセス43C2を実行することで、図20に示す動作検出部12Cとして動作する。また、CPU41は、期間内動作判定プロセス43C3を実行することで、図20に示す期間内動作判定部13Cとして動作する。また、CPU41は、再生制御プロセス43C4を実行することで、図20に示す再生制御部14Cとして動作する。さらに、CPU41は、再生プロセス43C5を実行することで、図20に示す再生部54として動作する。
以上により、コンテンツ再生プログラム43Cを実行した端末40Cが、図20に示す端末40Cとして機能することになる。なお、コンテンツ再生プログラム43Cは開示の技術に係るコンテンツ再生プログラムの一例である。
次に、本実施形態の作用を説明する。なお、以下では、端末40Cのユーザが、端末40Cに接続されたヘッドセット60Aを装着した状態で、端末40Cを用いて音声コンテンツを再生する場合を想定する。この場合、端末40Cのユーザは、端末40Cによってコンテンツ再生プログラム43Cを実行させることで、図22に示すコンテンツ再生処理が行われる。以下では、錯綜を回避するため、端末40Cのユーザによって端末40Cにより再生して欲しい音声コンテンツを示す音声データが記憶部43に予め記憶されている場合について説明する。
コンテンツ再生処理のステップ650において、再生制御部14Cは、コンテンツの再生モードを設定するための変数である変数Mにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。
次のステップ652において、動作検出部12Cは、ユーザ音声データからのユーザ音声区間の検出を試み、次のステップ654において、音声取得部11Cは、周囲音声データからの周囲音声区間の検出を試みる。次のステップ656において、動作検出部12Cは、端末40Cのユーザによる上述した移動反応動作の検出を試み、次のステップ658において、動作検出部12Cは、端末40Cのユーザの上述した頭部反応動作の検出を試みる。次のステップ660において、動作検出部12Cは、端末40Cのユーザによる上述した視線反応動作の検出を試み、次のステップ662において、動作検出部12Cは、端末40Cのユーザによる上述したキーボード反応動作の検出を試みる。
次のステップ664において、期間内動作判定部13Cは、式(6)〜式(10)に示す5つの条件のうち、少なくとも1つの条件が成立するか否かを判定することにより、端末40Cのユーザが、反応判定期間内に周囲の音に対して反応動作を行ったか否かを判定する。ここで、肯定判定となった場合はステップ666に移行する。
ステップ666において、期間内動作判定部13Cは、ステップ664の処理において成立すると判定した条件の持続時間を示す変数である変数KTの値が所定閾値以上となったか否かを判定し、肯定判定となった場合はステップ668に移行する。ステップ668において、再生制御部14Cは、変数Mにコンテンツの再生状態を制御することを表す「制御」を示す値を設定し、その後にステップ672に移行する。一方、ステップ666において否定判定となった場合はステップ670に移行し、期間内動作判定部13Cは、変数KTの値を該変数KTの値に経過時間を示す変数Tの値を加算することにより更新し、その後にステップ672に移行する。
ステップ672において、再生制御部14Cは、変数Tをクリア(本実施形態では、0(零)を設定)した後、ステップ678に移行する。
一方、ステップ664において否定判定となった場合はステップ674に移行し、期間内動作判定部13Cは、変数KTをクリアした後、ステップ676に移行して、再生制御部14Cは、図18に示す復帰判定処理を行った後、ステップ678に移行する。ステップ678において、再生制御部14Cは、図23に示す出力処理を行う。
出力処理のステップ450において、再生制御部14Cは、記憶部43に記憶されている音声コンテンツから1フレーム分の音声データS(t)を読み出す。次のステップ452において、再生制御部14Cは、変数Mに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合は後述するステップ456に移行する一方、否定判定となった場合はステップ454に移行する。
ステップ454において、再生制御部14Cは、次の式(11)により、音声データS(t)に対して、該音声データS(t)により再生される音の音量を減少させるための変換を行い、その後にステップ456に移行する。なお、式(11)におけるGは、音量の減少の割合を示す変数であり、本実施形態では、0(零)以上1未満の範囲内の値(本実施形態では、0.5)として予め設定されている。
ステップ456において、再生部54は、音声データS(t)をヘッドセット60Aのスピーカ64に送信することによって該音声データにより示される音を再生し、その後に出力処理を終了する。出力処理が終了すると、図22に示すコンテンツ再生処理のステップ680に移行する。
ステップ680において、再生部54は、ユーザによる端末40Cの利用が終了したか否かを判定し、否定判定となった場合はステップ652に戻り、肯定判定となった時点でコンテンツ再生処理を終了する。
なお、本実施形態では、ステップ680による端末40Cの利用が終了したか否かの判定を、記憶部43に記憶されている全ての音声データの再生が終了したか否かを判定することにより行っている。但し、これに限るものではなく、例えば、ユーザによってコンテンツ再生処理の終了を指示する指示入力が入力部44を介して行われたか否かを判定することにより、端末40Cの利用が終了したか否かを判定する形態としてもよい。また、例えば、端末40Cの電源スイッチがオフ状態とされたか否かを判定することにより、端末40Cの利用が終了したか否かを判定する形態としてもよい。
以上、詳細に説明したように、本実施形態では、第2実施形態と同様の効果を奏することができると共に、以下の効果を奏することができる。
すなわち、本実施形態では、動作検出部12により、反応動作として、ユーザの頭部の動きを検出している。これにより、ユーザが発話していない状態であっても、ユーザの頭部の動きに応じて、コンテンツの再生を制限する制御を行うことができる。
また、本実施形態では、動作検出部12により、反応動作として、ユーザによるキーボードに対する入力頻度の変化を検出している。これにより、ユーザが発話していない状態であっても、ユーザによるキーボードに対する入力頻度の変化に応じて、コンテンツの再生を制限する制御を行うことができる。
また、本実施形態では、動作検出部12により、反応動作として、ユーザの移動動作を検出している。これにより、ユーザが発話していない状態であっても、ユーザによる移動動作に応じて、コンテンツの再生を制限する制御を行うことができる。
また、本実施形態では、動作検出部12により、反応動作として、ユーザの視線の動きを検出している。これにより、ユーザが発話していない状態であっても、ユーザによる視線の動きに応じて、コンテンツの再生を制限する制御を行うことができる。
また、本実施形態では、再生制御部14により、期間内動作判定部13により期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合に、コンテンツの再生音量を低下させる制御を行っている。また、本実施の形態では、コンテンツの再生音量を低下させる制御を行っている場合で、かつ期間内動作判定部13により期間内動作無しと判定された場合、すなわち、周囲の音に対してユーザの関心が無くなったと推定できる場合に、コンテンツの再生音量を元に戻す制御を行っている。これにより、ユーザが周囲の音に対して関心が有ると推定される場合にも、音量を低減してコンテンツの再生を継続することができるため、ユーザにとっての利便性を、より向上させることができる。
また、本実施形態では、動作検出部12により、ユーザの頭部の動きとして、該頭部の水平方向の回転動作を検出している。これにより、ユーザの振り向き動作を反応動作として検出することができる。
また、本実施形態では、動作検出部12により、周囲の音の発生源の方向に対する頭部の水平方向の回転動作を検出している。これにより、ユーザによる周囲の音に対する反応動作を、より高精度で検出することができる。
また、本実施形態では、動作検出部12により、ユーザの頭部の動きとして、頭部の振動を検出している。これにより、ユーザの頷き動作を反応動作として検出することができる。
また、本実施形態では、動作検出部12により、キーボードに対する入力頻度の変化として、該入力頻度が所定量以上低下する動作を検出している。これにより、ユーザによる周囲の音に対する反応動作を、より高精度で検出することができる。
また、本実施形態では、動作検出部12により、周囲の音の発生源の方向に対する視線の動きを検出している。これにより、ユーザによる周囲の音に対する反応動作を、より高精度で検出することができる。
さらに、本実施形態では、取得した周囲の音に含まれる音声区間が開始された時点を始点とし、該音声区間が終了して所定時間経過した時点を終点とする期間(反応判定期間)内に、反応動作を所定期間以上検出した場合に、周囲の音に対してユーザの関心が有ると推定している。これにより、周囲の音に対するユーザの関心の有無を、より高精度で推定することができる。
〔第4実施形態〕
第4実施形態では、コンテンツ再生装置10を、マイク、マイクアレイ、動き検出センサ、スピーカ及びディスプレイを有するグラス型(眼鏡型)のウェアラブル端末(以下、単に「端末」という。)に適用した場合について説明する。
図24には、本実施形態に係る端末40Dが示されている。なお、図24における図20と同一の構成要素には図20と同一の符号を付して、その説明を極力省略する。
図24に示すように、本実施形態に係る端末40Dは、動き検出センサ51、マイク53、スピーカ55及びディスプレイ57が新たに設けられている点が第3実施形態に係る端末40Cと異なっている。また、本実施形態に係る端末40Dは、カメラ58、キーボード59、受信部50A及び送信部50Cが設けられていない点が第3実施形態に係る端末40Cと異なっている。
また、本実施形態に係る端末40Dは、動作検出部12Cが、該動作検出部12Cとは異なる処理を行う動作検出部12Dとされている点が第3実施形態に係る端末40Cと異なっている。また、本実施形態に係る端末40Dは、期間内動作判定部13Cが、該期間内動作判定部13Cとは異なる処理を行う期間内動作判定部13Dとされている点が第3実施形態に係る端末40Cと異なっている。また、本実施形態に係る端末40Dは、再生制御部14Cが、該再生制御部14Cとは異なる処理を行う再生制御部14Dとされている点が第3実施形態に係る端末40Cと異なっている。
さらに、本実施形態に係る端末40Dは、記憶部43に記憶されているコンテンツが音声付きの動画像を示すコンテンツ(以下、「映像コンテンツ」という。)とされている点が第3実施形態に係る端末40Cと異なっている。なお、本実施形態では、ヘッドセット60Aは用いられていない。
動き検出センサ51は、端末40Dの動きを検出するためのセンサであり、本実施形態では、ジャイロセンサを適用しているが、これに限るものではない。例えば、3軸加速度センサ、電子コンパス等の端末40Dの動きを検出することのできる他のセンサを適用してもよい。
また、マイク53は、端末40Dのユーザによる発話を集音するものであり、端末40Dのユーザが端末40Dを装着した際に該ユーザの口元に近接するように端末40Dに設けられている。本実施形態では、マイク53として、ユーザの口元の方向から発せられる音声を精度よく集音する指向性マイクを用いているが、これに限るものではない。端末40Dのユーザと他のユーザとの距離や、他のユーザの人数等によっては、マイク53として無指向性のマイクを用いてもよい。また、スピーカ55は、端末40Dのユーザが端末40Dを装着した際に該ユーザの耳に近接するように端末40Dに設けられている。さらに、ディスプレイ57は、端末40Dの一方の側面に設けられた映像投影部を有し、該一方の側面側のレンズの一部に映像が投影されるものとされているが、映像の表示形態は、このような投影方式に限定されるものではない。
一方、動作検出部12Dは、先に説明した動作検出部12に相当し、動き検出センサ51によって得られた端末40Dの動きの状態を示す信号(以下、「動き状態信号」という。)及びマイク53によって得られた音声データ(ユーザ音声データ)を取得する。また、動作検出部12Dは、マイクアレイ56Bによって得られた音声データ(周囲音声データ)を取得する。そして、動作検出部12Dは、動き状態信号、ユーザ音声データ及び周囲音声データに基づいて、端末40Dのユーザの周囲の音に対する反応動作を検出する。
本実施形態に係る動作検出部12Dは、端末40Dのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク53によって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。そして、動作検出部12Dは、マイク53によって得られた音声データの、上記雑音を示す音声データに対する比率であるSNRが所定閾値以上である区間を、端末40Dのユーザの発話による音声区間(ユーザ音声区間)として検出する。
また、動作検出部12Dは、第3実施形態に係る動作検出部12Cと同様に、マイクアレイ56Bにより得られた複数の周囲音声データに基づいて、端末40Dの周辺の音源の方向oa(t)を推定する。
また、動作検出部12Dは、推定した音源の方向oa(t)及び動き状態信号に基づいて、次のようにユーザの頭部の動作を検出する。
すなわち、動作検出部12Dは、時刻tの時点で動き検出センサ51からの動き状態信号によって得られる水平方向の角速度をvh(t)とし、垂直方向の角速度をvv(t)とする。また、水平方向の角度については、時計回り方向を+1〜+179度の範囲とし、反時計回り方向を−1〜−179度の範囲とし、背面方向を±180度とし、垂直方向の角度については、上回りを+1〜+90度の範囲とし、下回りを−1〜−90度の範囲とする。
次に、動作検出部12Dは、次の式(12)〜式(15)の少なくとも1つの条件が成立した場合に、周囲の音に対する端末40Dのユーザの反応動作としてユーザの頭部が動作(頭部反応動作)したと判断する。
式(12)は、ユーザの頭部が、一定時間DH1内に閾値TH_RT1で規定される範囲内で音源の方向(oa(t-a))を向く動作(振り向き動作)を行う場合の条件を表す。また、式(13)は、ユーザの頭部が、一定時間DH2内に閾値TH_RT2で規定される角度を超えて下方向を向き、その後の一定時間DH2内に該角度を超えて上方向を向く動作(頷き動作)を行う場合の条件を表す。さらに、式(14)及び式(15)は、ユーザの頭部が、一定時間DH2内に閾値TH_RT2で規定される角度を超えて左右の一方の方向を向き、その後の一定時間DH2内に該角度を超えて左右の他方の方向を向く動作(首振り動作)を行う場合の条件を表す。
また、動作検出部12Dは、動き状態信号に基づいて、ユーザの歩行動作を、従来既知の技術(一例として、万歩計(登録商標)と同様の技術)により検出する。そして、動作検出部12Dは、所定歩数(本実施形態では、5歩)以上の歩行動作を検出した場合に、周囲の音に対する端末40Dのユーザの反応動作としてユーザが移動動作(移動反応動作)を行ったと判断する。
本実施形態でも、音声取得部11Cにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部12Dにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイクアレイ56B及びマイク53の各々の集音特性の違いや、端末40Dのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。
一方、期間内動作判定部13Dは、先に説明した期間内動作判定部13に相当し、音声取得部11Cによって検出された音声区間から所定の期間内に動作検出部12Dによる反応動作の検出が所定の頻度で有るか無いかに基づいて、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部13Dでは、次の式(16)〜式(18)に示す3つの条件のうち、少なくとも1つの条件が成立し、かつ該成立している状態が所定回数以上継続している場合に、周囲の音に対して端末40Dのユーザの関心が有ると推定する。なお、式(16)〜式(18)において、tosは周囲音声区間の開始時刻を表し、toeは周囲音声区間の終了時刻を表し、tusはユーザ音声区間の開始時刻を表し、DTは上述したように所定時間を表す。また、thは頭部反応動作を表し、tmは移動反応動作を表す。
すなわち、式(16)は、周囲音声区間の開始時刻tosから、周囲音声区間の終了時刻toeに所定時間DTを加算して得られた時刻までの期間(反応判定期間)に、ユーザ音声区間の開始時刻tusがあることを示している。同様に、式(17)は、反応判定期間に頭部反応動作が行われたことを示しており、さらに、式(18)は、反応判定期間に移動反応動作が行われたことを示している。
一方、再生制御部14Dは、先に説明した再生制御部14に相当し、期間内動作判定部13Dによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部14Dでは、期間内動作判定部13Dによって期間内動作有りと判定される場合、すなわち、ユーザが周囲の音に対して関心が有ると推定できる場合には映像コンテンツの再生速度を低下する制御を行い、その他の場合には映像コンテンツの再生速度を通常の速度とする制御を行う。
上述した端末40Dは、図25に示す端末40Dによって実現することができる。なお、図25における図21と同一の構成要素には図21と同一の符号を付して、その説明を極力省略する。
図25に示すように、本実施形態に係る端末40Dは、バス49に、表示部45に代えてディスプレイ57が接続され、かつ動き検出センサ51、マイク53及びスピーカ55が接続されている。また、本実施形態に係る端末40Dの記憶部43には、コンテンツ再生プログラム43Cに代えて、端末40Dを図24に示した端末40Dとして機能させるためのコンテンツ再生プログラム43Dが記憶されている。コンテンツ再生プログラム43Dは、該プログラム43Dが書き込まれた記録媒体96が媒体読み書き装置46にセットされ、媒体読み書き装置46が記録媒体96からのコンテンツ再生プログラム43Dの読み出しを行うことで、記憶部43へ記憶される。CPU41は、コンテンツ再生プログラム43Dを記憶部43から読み出してメモリ42に展開し、コンテンツ再生プログラム43Dが有するプロセスを順次実行する。
コンテンツ再生プログラム43Dは、音声取得プロセス43D1、動作検出プロセス43D2、期間内動作判定プロセス43D3、再生制御プロセス43D4及び再生プロセス43D5を有する。CPU41は、音声取得プロセス43D1を実行することで、図24に示す音声取得部11Cとして動作する。また、CPU41は、動作検出プロセス43D2を実行することで、図24に示す動作検出部12Dとして動作する。また、CPU41は、期間内動作判定プロセス43D3を実行することで、図24に示す期間内動作判定部13Dとして動作する。また、CPU41は、再生制御プロセス43D4を実行することで、図24に示す再生制御部14Dとして動作する。さらに、CPU41は、再生プロセス43D5を実行することで、図24に示す再生部54として動作する。
以上により、コンテンツ再生プログラム43Dを実行した端末40Dが、図24に示す端末40Dとして機能することになる。なお、コンテンツ再生プログラム43Dは開示の技術に係るコンテンツ再生プログラムの一例である。
次に、本実施形態の作用を説明する。なお、以下では、端末40Dのユーザが、端末40Dを装着した状態で、端末40Dを用いて映像コンテンツを再生する場合を想定する。この場合、端末40Dのユーザは、端末40Dによってコンテンツ再生プログラム43Dを実行させることで、図26に示すコンテンツ再生処理が行われる。以下では、錯綜を回避するため、端末40Dのユーザによって端末40Dにより再生して欲しい映像コンテンツを示す動画像データ及び音声データを含む映像データが記憶部43に予め記憶されている場合について説明する。また、図26の図22と同一の処理を実行するステップには図22と同一のステップ番号を付して、その説明を極力省略する。
コンテンツ再生処理のステップ656Bにおいて、動作検出部12Dは、端末40Dのユーザによる上述した移動反応動作の検出を試み、次のステップ658Bにおいて、動作検出部12Dは、端末40Dのユーザの上述した頭部反応動作の検出を試みる。
次のステップ664Bにおいて、期間内動作判定部13Dは、式(16)〜式(18)に示す3つの条件のうち、少なくとも1つの条件が成立するか否かを判定することにより、端末40Dのユーザが、反応判定期間内に周囲の音に対して反応動作を行ったか否かを判定する。ここで、肯定判定となった場合はステップ666Bに移行する。
ステップ666Bにおいて、期間内動作判定部13Dは、ステップ664Bの処理において成立すると判定した条件の持続回数を示す変数である変数KNの値が所定閾値以上となったか否かを判定し、肯定判定となった場合はステップ668に移行する。一方、ステップ666Bにおいて否定判定となった場合はステップ670Bに移行し、期間内動作判定部13Dは、変数KNの値を1だけインクリメントすることにより更新し、その後にステップ672に移行する。一方、ステップ664Bにおいて否定判定となった場合はステップ674Bに移行し、期間内動作判定部13Dは、変数KNをクリアした後、ステップ676に移行する。その後、ステップ678Bにおいて、再生制御部14Dは、図27に示す出力処理を行う。
出力処理のステップ470において、再生制御部14Dは、変数Mに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ472に移行する。ステップ472において、再生制御部14Dは、記憶部43に記憶されている映像コンテンツから1フレーム分の動画像データ及び音声データを読み出し、その後に後述するステップ478に移行する。
一方、ステップ470において否定判定となった場合はステップ474に移行し、再生制御部14Dは、記憶部43に記憶されている映像コンテンツから複数(N)のフレーム分の動画像データ及び音声データを読み出す。次のステップ476において、再生制御部14Dは、読み出した動画像データ及び音声データによる映像の再生速度が所定割合(本実施形態では、50%)だけ低下するように各データを変換(補正)し、その後にステップ478に移行する。
ステップ478において、再生部54は、以上の処理を経て得られた音声データをスピーカ55に送信し、動画像データをディスプレイ57に送信することで、これらの音声データ及び動画像データにより示される映像コンテンツを再生した後、出力処理を終了する。出力処理が終了すると、図26に示すコンテンツ再生処理のステップ680に移行する。
以上、詳細に説明したように、本実施形態では、第3実施形態と略同様の効果を奏することができると共に、以下の効果を奏することができる。
すなわち、本実施形態では、再生制御部14により、期間内動作判定部13によって期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合に、コンテンツの再生速度を低下させる制御を行う。そして、本実施形態では、再生制御部14により、コンテンツの再生速度を低下させる制御を行っている場合で、かつ期間内動作判定部13により期間内動作無しと判定された場合、すなわち、周囲の音に対してユーザの関心が無くなったと推定できる場合に、コンテンツの再生速度を元に戻す制御を行っている。これにより、ユーザが周囲の音に対して関心を有していると推定される場合にも、再生速度を低減してコンテンツの再生を継続することができるため、ユーザにとっての利便性を、より向上させることができる。
さらに、本実施形態では、取得した周囲の音の発音が開始された時点を始点とし、該発音が終了して所定時間経過した時点を終点とする期間内に、反応動作を所定期間当たり所定回数以上検出した場合に、期間内動作有りと判定している。これにより、周囲の音に対するユーザの関心の有無を、より高精度で推定することができる。
〔第5実施形態〕
第5実施形態では、第1実施形態と同様に、コンテンツ再生装置10を、サーバ、端末(据え置き型のPC)、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。
図28には、本実施形態に係るサーバ30C、端末40A、ヘッドセット60B及び収録機70が示されている。なお、図28における図6と同一の構成要素には図6と同一の符号を付して、その説明を極力省略する。
図28に示すように、本実施形態に係るサーバ30Cは、動作検出部12Aが、該動作検出部12Aとは異なる処理を行う動作検出部12Eとされている点が第1実施形態に係るサーバ30Aと異なっている。また、本実施形態に係るヘッドセット60Bは、マイク62が設けられていない点が第1実施形態に係るヘッドセット60Aと異なっている。従って、端末40Aは、ヘッドセット60Bからユーザ音声データを受信することはない。
サーバ30Cの動作検出部12Eは、先に説明した動作検出部12に相当し、端末40Aを介して収録機70の何れかのマイク72(以下、「特定マイク」という。)によって得られた周囲音声データを取得する。そして、動作検出部12Eは、取得した周囲音声データに基づいて、端末40Aのユーザの周囲の音に対する反応動作を検出する。なお、本実施形態では、特定マイクとして、端末40Aのユーザに最も近接する他のユーザが使用するマイク72を適用しているが、これに限定されるものではない。
本実施形態に係る動作検出部12Eは、端末40Aのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態で特定マイクによって得られた音声データを背景の雑音を示す音声データとして予め学習(記憶)しておく。また、動作検出部12Eは、端末40Aのユーザのみが発話し、該発話に応じて特定マイクによって得られた周囲音声データに基づく周囲音声区間のスペクトル特徴量を予め学習(記憶)しておく。
一方、動作検出部12Eは、特定マイクによって得られた音声データの、上記雑音を示す音声データに対する比率であるSNRが所定閾値以上である区間を、端末40Aのユーザの発話によるユーザ音声区間の候補として検出する。そして、動作検出部12Eは、該ユーザ音声区間の候補のスペクトル特徴量と、予め学習しておいたスペクトル特徴量とのマッチングを行い、距離が所定閾値以下の場合に、該ユーザ音声区間が、端末40Aのユーザによるユーザ音声区間であるとして決定する。なお、この際の音声データから特定のユーザの音声データを特定する技術については、特公平01−36960号公報等にも記載されており、従来既知であるため、これ以上の説明は省略する。
本実施形態でも、音声取得部11Aにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部12Eにおいてユーザ音声区間の候補を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。端末40Aのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。
上述したサーバ30C及び端末40Aは、図29に示すコンピュータ・システム20Cに含まれるサーバ30C及び端末40Aによって各々実現することができる。なお、図29における図8と同一の構成要素には図8と同一の符号を付して、その説明を極力省略する。
図29に示すように、本実施形態に係るサーバ30Cは、コンテンツ再生プログラム33Aにおける動作検出プロセス33A2Aが動作検出プロセス33A2Bとされている点のみが第1実施形態に係るサーバ30Aと異なる。
CPU41は、動作検出プロセス33A2Bを実行することで、図28に示す動作検出部12Eとして動作し、これにより、コンテンツ再生プログラム33Aを実行したサーバ30Cが、図28に示すサーバ30Cとして機能することになる。
次に、本実施形態の作用を説明する。なお、本実施形態に係る端末40Aの作用は第1実施形態と同様であるので、ここでの説明は省略し、以下、サーバ30Cの作用を説明する。
サーバ30Cは、端末40Aからのアクセスが開始された際にコンテンツ再生プログラム33Aを実行させることにより、図10に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ30Cで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力モード判定処理が図30に示す出力モード判定処理とされている点のみが第1実施形態と異なっている。そこで、以下では、図30に示す出力モード判定処理のみについて説明する。なお、図30の図11と同一の処理を実行するステップには図11と同一のステップ番号を付して、その説明を極力省略する。
出力モード判定処理のステップ250Bにおいて、動作検出部12Eは、上述したように、予め学習しておいた端末40Aのユーザの発話に基づくスペクトル特徴量を用いたマッチングにより、周囲音声データからのユーザ音声区間の検出を試みる。
以上、詳細に説明したように、本実施形態では、第1実施形態と同様の効果を奏することができると共に、端末40Aのユーザの発話を集音するためのマイク62を削減することができる結果、開示の技術を、より低コストで実現することができる。
〔第6実施形態〕
第6実施形態では、第1実施形態と同様に、コンテンツ再生装置10を、サーバ、端末(据え置き型のPC)、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。
図31には、本実施形態に係るサーバ30D、端末40A、ヘッドセット60A及び収録機70が示されている。なお、図31における図6と同一の構成要素には図6と同一の符号を付して、その説明を極力省略する。
図31に示すように、本実施形態に係るサーバ30Dは、期間内動作判定部13Aが、該期間内動作判定部13Aとは異なる処理を行う期間内動作判定部13Eとされている点が第1実施形態に係るサーバ30Aと異なっている。また、本実施形態に係るサーバ30Dは、再生制御部14Aが、該再生制御部14Aとは異なる処理を行う再生制御部14Eとされている点が第1実施形態に係るサーバ30Aと異なっている。
サーバ30Dの期間内動作判定部13Eは、先に説明した期間内動作判定部13に相当し、音声取得部11Aによって検出された音声区間から所定の期間内に動作検出部12Aによる反応動作の検出が所定の頻度で有るか無いかに基づいて、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部13Eでは、反応判定期間内に動作検出部12Aによって検出された反応動作の所定期間当たりの回数(以下、「反応頻度」という。)が閾値TH2を超えた場合に、期間内動作有りと判定する。また、期間内動作判定部13Eでは、期間内動作有りと判定した後、反応頻度が閾値TH2以下となった場合に、期間内動作無しと判定する。
なお、本実施形態に係る期間内動作判定部13Eでは、時刻tにおける反応頻度rate[t]を次の式(19)により算出する。なお、式(19)において、vad[t]は時刻tにおける、反応動作の検出が有るか無いかの判定結果を表し、本実施形態では、反応動作の検出が有る場合に‘1’が代入され、反応動作の検出が無い場合に‘0’が代入される。また、式(19)において、Lは反応頻度の算出対象として過去に遡るフレーム数(本実施形態では、50フレーム)を表す。
一方、再生制御部14Eは、先に説明した再生制御部14に相当し、期間内動作判定部13Eによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部14Eでは、期間内動作判定部13Eによって期間内動作有りと判定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。
上述したサーバ30D及び端末40Aは、図32に示すコンピュータ・システム20Dに含まれるサーバ30D及び端末40Aによって各々実現することができる。なお、図32における図8と同一の構成要素には図8と同一の符号を付して、その説明を極力省略する。
図32に示すように、本実施形態に係るサーバ30Dは、コンテンツ再生プログラム33Aにおける期間内動作判定プロセス33A3Aが期間内動作判定プロセス33A3Bとされている点が第1実施形態に係るサーバ30Aと異なる。また、本実施形態に係るサーバ30Dは、コンテンツ再生プログラム33Aにおける再生制御プロセス33A4Aが再生制御プロセス33A4Bとされている点が第1実施形態に係るサーバ30Aと異なる。
CPU31は、期間内動作判定プロセス33A3Bを実行することで、図31に示す期間内動作判定部13Eとして動作し、再生制御プロセス33A4Bを実行することで、図31に示す再生制御部14Eとして動作する。これにより、コンテンツ再生プログラム33Aを実行したサーバ30Dが、図31に示すサーバ30Dとして機能することになる。
次に、本実施形態の作用を説明する。なお、本実施形態に係る端末40Aの作用は第1実施形態と同様であるので、ここでの説明は省略し、以下、サーバ30Dの作用を説明する。
サーバ30Dは、端末40Aからのアクセスが開始された際にコンテンツ再生プログラム33Aを実行させることにより、図10に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ30Dで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力モード判定処理が図33に示す出力モード判定処理とされている点が第1実施形態と異なっている。また、本実施形態に係るサーバ30Dで実行される出力モード判定処理では、該出力モード判定処理において実行される復帰判定処理が図34に示す復帰判定処理とされている点が第1実施形態と異なっている。
そこで、以下では、本実施形態に係る出力モード判定処理及び復帰判定処理のみについて説明する。なお、図33の図11と同一の処理を実行するステップには図11と同一のステップ番号を付して、その説明を極力省略する。また、図34の図12と同一の処理を実行するステップには図12と同一のステップ番号を付して、その説明を極力省略する。
出力モード判定処理のステップ253Aにおいて、期間内動作判定部13Eは、この時点が反応判定期間内であるか否かを判定し、否定判定となった場合は出力モード判定処理を終了する一方、肯定判定となった場合はステップ253Bに移行する。
ステップ253Bにおいて、期間内動作判定部13Eは、上述した式(19)により反応頻度rate[t]を算出する。次のステップ253Cにおいて、期間内動作判定部13Eは、反応頻度rate[t]が所定閾値TH2を超えたか否かを判定し、肯定判定となった場合はステップ256に移行する一方、否定判定となった場合はステップ260Cに移行する。
ステップ260Cにおいて、再生制御部14Eは、図34に示す復帰判定処理を行う。なお、本実施形態に係る復帰判定処理は、図12に示す第1実施形態に係る復帰判定処理に対して、ステップ352及びステップ356の各処理が削除された点のみが異なるので、ここでの説明は省略する。
以上、詳細に説明したように、本実施形態では、第1実施形態と同様の効果を奏することができると共に、以下の効果を奏することができる。
すなわち、本実施形態では、期間内動作判定部13により、期間内動作有りと判定された後に、反応判定期間内に反応頻度が閾値TH2以下となった場合に、期間内動作無しと判定している。このため、本実施形態では、反応頻度を用いない技術に比較して、より適切な状態でコンテンツを再生することができる。
〔第7実施形態〕
第7実施形態では、第1実施形態と同様に、コンテンツ再生装置10を、サーバ、端末(据え置き型のPC)、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。
図35には、本実施形態に係るサーバ30E、端末40A、ヘッドセット60A及び収録機70が示されている。なお、図35における図6と同一の構成要素には図6と同一の符号を付して、その説明を極力省略する。
図35に示すように、本実施形態に係るサーバ30Eは、期間内動作判定部13Aが、該期間内動作判定部13Aとは異なる処理を行う期間内動作判定部13Fとされている点が第1実施形態に係るサーバ30Aと異なっている。また、本実施形態に係るサーバ30Eは、再生制御部14Aが、該再生制御部14Aとは異なる処理を行う再生制御部14Fとされている点が第1実施形態に係るサーバ30Aと異なっている。
サーバ30Eの期間内動作判定部13Fは、先に説明した期間内動作判定部13に相当する。期間内動作判定部13Fは、音声取得部11Aによって音声区間が検出された時点から所定の期間内に動作検出部12Aによる反応動作の検出が有るか無いかに基づいて、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部13Fでは、期間内動作有りと判定した後に、周囲の音に含まれる音声区間の検出が無くなり、反応動作が検出されなくなった場合に、期間内動作無しと判定する。
また、再生制御部14Fは、先に説明した再生制御部14に相当し、期間内動作判定部13Fによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部14Fでは、期間内動作判定部13Fによって期間内動作有りと判定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。
上述したサーバ30E及び端末40Aは、図36に示すコンピュータ・システム20Eに含まれるサーバ30E及び端末40Aによって各々実現することができる。なお、図36における図8と同一の構成要素には図8と同一の符号を付して、その説明を極力省略する。
図36に示すように、本実施形態に係るサーバ30Eは、コンテンツ再生プログラム33Aにおける期間内動作判定プロセス33A3Aが期間内動作判定プロセス33A3Cとされている点が第1実施形態に係るサーバ30Aと異なる。また、本実施形態に係るサーバ30Eは、コンテンツ再生プログラム33Aにおける再生制御プロセス33A4Aが再生制御プロセス33A4Cとされている点が第1実施形態に係るサーバ30Aと異なる。
CPU31は、期間内動作判定プロセス33A3Cを実行することで、図35に示す期間内動作判定部13Fとして動作し、再生制御プロセス33A4Cを実行することで、図35に示す再生制御部14Fとして動作する。これにより、コンテンツ再生プログラム33Aを実行したサーバ30Eが、図35に示すサーバ30Eとして機能することになる。
次に、本実施形態の作用を説明する。なお、本実施形態に係る端末40Aの作用は第1実施形態と同様であるので、ここでの説明は省略し、以下、サーバ30Eの作用を説明する。
サーバ30Eは、端末40Aからのアクセスが開始された際にコンテンツ再生プログラム33Aを実行させることにより、図10に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ30Eで実行されるコンテンツ再生処理では、出力モード判定処理において実行される復帰判定処理が図37に示す復帰判定処理とされている点が第1実施形態と異なっている。
そこで、以下では、復帰判定処理のみについて説明する。なお、図37の図12と同一の処理を実行するステップには図12と同一のステップ番号を付して、その説明を極力省略する。
復帰判定処理のステップ350において、再生制御部14Fは、変数Mに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ351Aに移行する。
ステップ351Aにおいて、期間内動作判定部13Fは、音声取得部11Aによって周囲音声区間が検出されていないか否かを判定し、否定判定となった場合は後述するステップ351Cに移行する一方、肯定判定となった場合はステップ351Bに移行する。ステップ351Bにおいて、期間内動作判定部13Fは、動作検出部12Aによってユーザ音声区間が検出されていないか否かを判定し、否定判定となった場合はステップ351Cに移行する。
ステップ351Cにおいて、期間内動作判定部13Fは、周囲音声区間及びユーザ音声区間の何れの音声区間もない時間(以下、「無音継続時間」という。)を示す変数である変数NTをクリア(本実施形態では、0(零)を設定)し、その後に復帰判定処理を終了する。
一方、ステップ351Bにおいて肯定判定となった場合はステップ352Bに移行し、期間内動作判定部13Fは、変数NTの値によって示される無音継続時間が所定閾値TH3を超えているか否かを判定する。この判定において、肯定判定となった場合はステップ354に移行する一方、否定判定となった場合はステップ356Bに移行する。
ステップ356Bにおいて、期間内動作判定部13Fは、変数NTの値を所定値(本実施形態では、‘1’)だけインクリメントし、その後に復帰判定処理を終了する。
以上、詳細に説明したように、本実施形態では、第1実施形態と同様の効果を奏することができると共に、以下の効果を奏することができる。
すなわち、本実施形態では、期間内動作有りと判定された後、すなわち、周囲の音に対してユーザの関心が有ると推定できる後に、周囲の音に含まれる音声区間が検出されなくなり、かつ反応動作が検出されなくなった場合に、期間内動作無しと判定されて、周囲の音に対してユーザの関心が無くなったと推定できる。このため、本実施形態では、より高精度に周囲の音に対してユーザの関心が無くなったと推定することができる。
〔第8実施形態〕
第8実施形態では、第1実施形態と同様に、コンテンツ再生装置10を、サーバ、端末(据え置き型のPC)、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。
図38には、本実施形態に係るサーバ30F、端末40A、ヘッドセット60A及び収録機70が示されている。なお、図38における図6と同一の構成要素には図6と同一の符号を付して、その説明を極力省略する。
図38に示すように、本実施形態に係るサーバ30Fは、再生制御部14Aが、該再生制御部14Aとは異なる処理を行う再生制御部14Gとされている点が第1実施形態に係るサーバ30Aと異なっている。
サーバ30Fの再生制御部14Gは、先に説明した再生制御部14に相当し、期間内動作有りと判定された場合に、上記所定の期間内の反応動作の検出が継続する期間内に再生されたコンテンツの部分を該期間後に再再生する制御を行う。
すなわち、本実施形態に係る再生制御部14Gでは、期間内動作有りと判定され、ユーザが周囲の音に対して関心が有ると推定できる場合でも音声コンテンツの再生を停止する制御は行わない。但し、音声コンテンツの再生を停止しないのは開示の技術の一態様であり、音声コンテンツの再生を停止してもよい。そして、本実施形態に係る再生制御部14Gでは、期間内動作無しと判定された場合に、上記所定の期間内の反応動作の検出が継続する期間内に再生された音声コンテンツの部分を再再生する。
上述したサーバ30F及び端末40Aは、図39に示すコンピュータ・システム20Fに含まれるサーバ30F及び端末40Aによって各々実現することができる。なお、図39における図8と同一の構成要素には図8と同一の符号を付して、その説明を極力省略する。
図39に示すように、本実施形態に係るサーバ30Fは、コンテンツ再生プログラム33Aにおける再生制御プロセス33A4Aが再生制御プロセス33A4Dとされている点のみが第1実施形態に係るサーバ30Aと異なる。
CPU31は、再生制御プロセス33A4Dを実行することで、図38に示す再生制御部14Gとして動作し、これにより、コンテンツ再生プログラム33Aを実行したサーバ30Fが、図38に示すサーバ30Fとして機能することになる。
次に、本実施形態の作用を説明する。なお、本実施形態に係る端末40Aの作用は第1実施形態と同様であるので、ここでの説明は省略し、以下、サーバ30Fの作用を説明する。
サーバ30Fは、端末40Aからのアクセスが開始された際にコンテンツ再生プログラム33Aを実行させることにより、図10に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ30Fで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力モード判定処理が図40に示す出力モード判定処理とされている点が第1実施形態と異なっている。また、本実施形態に係るサーバ30Fで実行される出力モード判定処理では、該出力モード判定処理において実行される復帰判定処理が図41に示す復帰判定処理とされている点が第1実施形態と異なっている。さらに、本実施形態に係るサーバ30Fで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力処理が図42に示す出力処理とされている点が第1実施形態と異なっている。
そこで、以下では、本実施形態に係る出力モード判定処理、復帰判定処理及び出力処理のみについて説明する。なお、図40の図11と同一の処理を実行するステップには図11と同一のステップ番号を付して、その説明を極力省略する。また、図41の図12と同一の処理を実行するステップには図12と同一のステップ番号を付して、その説明を極力省略する。さらに、図42の図13と同一の処理を実行するステップには図13と同一のステップ番号を付して、その説明を極力省略する。
出力モード判定処理のステップ254において肯定判定となった場合はステップ255Aに移行し、再生制御部14Gは、変数Mに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ255Bに移行する。ステップ255Bにおいて、再生制御部14Gは、第1読み出しポインタの値をメモリ32に記憶し、その後にステップ256に移行する。なお、ステップ255Aにおいて否定判定となった場合は出力モード判定処理を終了する。
一方、ステップ254において否定判定となった場合はステップ260Bに移行し、再生制御部14Gは、図41に示す復帰判定処理を行う。
復帰判定処理のステップ352において肯定判定となった場合はステップ353Aに移行し、再生制御部14Gは、第1読み出しポインタに、ステップ255Bの処理によってメモリ32に記憶した値を設定する。次のステップ353Bにおいて、再生制御部14Gは、バッファメモリ15Aをクリアし、その後にステップ354に移行する。
一方、本実施形態に係る出力処理は、図13に示す第1実施形態に係る出力処理におけるステップ400、ステップ412及びステップ414が削除されている。従って、本実施形態に係る出力処理では、再生モードの如何に関わらず、コンテンツを通常通りに再生する。これに対し、復帰判定処理においてコンテンツの再生を復帰させる場合には、再生モードが「停止」に設定された時点の第1読み出しポインタの値が該第1読み出しポインタに設定されてコンテンツの再生が行われる。このため、再生モードが「停止」に設定された時点で再生されていたコンテンツが再度再生されることになる。
以上、詳細に説明したように、本実施形態では、第1実施形態と略同様の効果を奏することができると共に、以下の効果を奏することができる。
すなわち、本実施形態では、再生制御部14により、期間内動作判定部13により期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合、上記所定の期間内の反応動作の検出が継続する期間内に再生されたコンテンツの部分を該期間後に再再生する制御を行う。このため、本実施形態では、周囲の音に対してユーザの関心が有ると推定できる期間もコンテンツの再生を行うことができ、また、該期間の後に同様のコンテンツの再生を行うことができるので、ユーザにとっての利便性を、より向上させることができる。
なお、上記各実施形態では、コンテンツ再生プログラム、端末処理プログラム及びサーバ処理プログラムを記録媒体96から媒体読み書き装置を介して、対応する装置の記憶部に読み込む態様を説明したが、これに限定されるものではない。例えば、コンテンツ再生プログラム、端末処理プログラム及びサーバ処理プログラムを、上記記憶部に予め記憶(インストール)しておく形態としてもよく、ネットワーク80を介して外部装置から上記記憶部にダウンロードする形態としてもよい。
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
第1の音を取得する音声取得部と、
ユーザの動作を検出する動作検出部と、
前記音声取得部によって取得された前記第1の音及び前記動作検出部によって検出された前記動作の時間的な関係に基づいて、前記第1の音が取得された時点から、所定の期間内に前記動作が検出された場合に期間内動作有りと判定する期間内動作判定部と、
前記期間内動作判定部により前記期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う再生制御部と、
を含むコンテンツ再生装置。
(付記2)
前記音声取得部は、前記第1の音に含まれる音声区間を検出する、
付記1記載のコンテンツ再生装置。
(付記3)
前記動作検出部は、センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第2の音及びキーボード入力の少なくとも1つを入力信号として取得し、前記入力信号から前記ユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも1つを検出することで前記動作を検出する、
付記1又は付記2記載のコンテンツ再生装置。
(付記4)
前記動作検出部は、前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出する、
付記3記載のコンテンツ再生装置。
(付記5)
前記所定の期間は、前記音声取得部によって取得された前記第1の音の音声区間が開始した時点を始点とし、該音声区間が終了して所定の時間が経過した時点を終点とする、
付記2記載のコンテンツ再生装置。
(付記6)
前記期間内動作判定部は、前記期間内動作有りと判定した後に、前記音声取得部によって前記音声区間が検出された時点から所定の経過時間内に前記動作検出部による前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記再生制御部は、前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記2又は付記5記載のコンテンツ再生装置。
(付記7)
前記期間内動作判定部は、前記期間内動作有りと判定した後に、前記音声取得部によって前記音声区間が検出されなくなり、かつ前記動作検出部による前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記再生制御部は、前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記2又は付記5記載のコンテンツ再生装置。
(付記8)
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生を停止する制御を行い、該コンテンツの再生を停止する制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生を再開する制御を行う、
付記6又は付記7記載のコンテンツ再生装置。
(付記9)
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生速度を低下させる制御を行い、該コンテンツの再生速度を低下させる制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生速度を元に戻す制御を行う、
付記6又は付記7記載のコンテンツ再生装置。
(付記10)
前記コンテンツは、音が再生されるコンテンツであり、
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生音量を低下させる制御を行い、該コンテンツの再生音量を低下させる制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生音量を元に戻す制御を行う、
付記6又は付記7記載のコンテンツ再生装置。
(付記11)
第1の音を取得し、
ユーザの動作を検出し、
取得した前記第1の音及び検出した前記動作の時間的な関係に基づいて、前記第1の音を取得した時点から、所定の期間内に前記動作を検出した場合に期間内動作有りと判定し、
前記期間内動作有りと判定した場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う、
処理をコンピュータに実行させることを特徴とするコンテンツ再生プログラム。
(付記12)
前記第1の音に含まれる音声区間を検出し、
検出した前音声区間及び検出した前記動作の時間的な関係に基づいて、前記音声区間を検出した時点から、所定の期間内に前記動作を検出した場合に前記期間内動作有りと判定する、
付記11記載のコンテンツ再生プログラム。
(付記13)
センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第2の音及びキーボード入力の少なくとも1つを入力信号として取得し、前記入力信号から前記ユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも1つを検出することで前記動作を検出する、
付記11又は付記12記載のコンテンツ再生プログラム。
(付記14)
前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出する、
付記13記載のコンテンツ再生プログラム。
(付記15)
前記所定の期間は、取得した前記第1の音の音声区間が開始した時点を始点とし、該音声区間が終了して所定の時間が経過した時点を終点とする、
付記12記載のコンテンツ再生プログラム。
(付記16)
前記期間内動作有りと判定した後に、前記音声区間を検出した時点から所定の経過時間内に前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定して行った前記制御を解除する、
付記12又は付記15記載のコンテンツ再生プログラム。
(付記17)
前記期間内動作有りと判定した後に、前記音声区間が検出されなくなり、かつ前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記12又は付記15記載のコンテンツ再生プログラム。
(付記18)
前記期間内動作有りと判定した場合に、前記コンテンツの再生を停止する制御を行い、該コンテンツの再生を停止する制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生を再開する制御を行う、
付記16又は付記17記載のコンテンツ再生プログラム。
(付記19)
前記期間内動作有りと判定した場合に、前記コンテンツの再生速度を低下させる制御を行い、該コンテンツの再生速度を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生速度を元に戻す制御を行う、
付記16又は付記17記載のコンテンツ再生プログラム。
(付記20)
前記コンテンツは、音が再生されるコンテンツであり、
前記期間内動作有りと判定した場合に、前記コンテンツの再生音量を低下させる制御を行い、該コンテンツの再生音量を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生音量を元に戻す制御を行う、
付記16又は付記17記載のコンテンツ再生プログラム。
(付記21)
第1の音を取得し、
ユーザの動作を検出し、
取得した前記第1の音及び検出した前記動作の時間的な関係に基づいて、前記第1の音を取得した時点から、所定の期間内に前記動作を検出した場合に期間内動作有りと判定し、
前記期間内動作有りと判定した場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う、
ことを含む処理をコンピュータに実行させるコンテンツ再生方法。
(付記22)
前記第1の音に含まれる音声区間を検出し、
検出した前音声区間及び検出した前記動作の時間的な関係に基づいて、前記音声区間を検出した時点から、所定の期間内に前記動作を検出した場合に前記期間内動作有りと判定する、
付記21記載のコンテンツ再生方法。
(付記23)
センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第2の音及びキーボード入力の少なくとも1つを入力信号として取得し、前記入力信号から前記ユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも1つを検出することで前記動作を検出する、
付記21又は付記22記載のコンテンツ再生方法。
(付記24)
前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出する、
付記23記載のコンテンツ再生方法。
(付記25)
前記所定の期間は、取得した前記第1の音の音声区間が開始した時点を始点とし、該音声区間が終了して所定の時間が経過した時点を終点とする、
付記22記載のコンテンツ再生方法。
(付記26)
前記期間内動作有りと判定した後に、前記音声区間を検出した時点から所定の経過時間内に前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定して行った前記制御を解除する、
付記22又は付記25記載のコンテンツ再生方法。
(付記27)
前記期間内動作有りと判定した後に、前記音声区間が検出されなくなり、かつ前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記22又は付記25記載のコンテンツ再生方法。
(付記28)
前記期間内動作有りと判定した場合に、前記コンテンツの再生を停止する制御を行い、該コンテンツの再生を停止する制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生を再開する制御を行う、
付記26又は付記27記載のコンテンツ再生方法。
(付記29)
前記期間内動作有りと判定した場合に、前記コンテンツの再生速度を低下させる制御を行い、該コンテンツの再生速度を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生速度を元に戻す制御を行う、
付記26又は付記27記載のコンテンツ再生方法。
(付記30)
前記コンテンツは、音が再生されるコンテンツであり、
前記期間内動作有りと判定した場合に、前記コンテンツの再生音量を低下させる制御を行い、該コンテンツの再生音量を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生音量を元に戻す制御を行う、
付記26又は付記27記載のコンテンツ再生方法。