JP6582514B2

JP6582514B2 - コンテンツ再生装置、コンテンツ再生プログラム及びコンテンツ再生方法

Info

Publication number: JP6582514B2
Application number: JP2015088717A
Authority: JP
Inventors: 千里塩田; 太郎外川; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2019-10-02
Anticipated expiration: 2035-04-23
Also published as: EP3091337A1; JP2016206461A; US20160314801A1

Description

開示の技術はコンテンツ再生装置、コンテンツ再生プログラム及びコンテンツ再生方法に関する。

近年、音声読み上げの機能や、ウェアラブル（Wearable）ヘッドセットの普及により、今後、該ウェアラブルヘッドセットを常時着用し、音声情報を随時再生させる形態が普及すると考えられる。例えば、電子メールが届いたら、自動的にタイトルが読み上げられる、といった形態である。

この技術においては、ユーザが会話している最中に音声が読み上げられると、該会話における自身の発話が行いにくく、会話の相手による発話も聞き取りにくい。

そこで、この問題を解決するために適用可能な従来の技術として、情報提供装置により、車内の会話状況に基づいて情報の出力を制御し、車内の会話を盛り上げることができるようにする技術があった。この技術によれば、車内の音声を基に会話状況を検出し、検出した車内の会話状況に基づき、情報音出力手段から出力する情報音を制御していた。具体的には、車内の会話状態を集音部（マイクロホン）を通じて集音し、一定期間の車内音の平均音量の変化量が正の値の場合に会話が始まったと判断して情報音を停止し、該変化量が０（零）又は負の値の場合に会話が収束したと判断して情報音の再生を行っている。

特開２００４−４８５７０号公報

上記従来の技術を、上述したウェアラブルヘッドセットを着用して音声情報を再生させる技術に適用する場合、ユーザの周囲の音を集音部によって集音する。そして、この技術では、一定期間の周囲の音の平均音量の変化量が正の値の場合に音声情報の再生を停止し、該変化量が０（零）又は負の値の場合に音声情報の再生を行うこととなる。

しかしながら、この平均音量の変化量に応じて音声情報の再生及び再生の停止を切り換える技術では、ユーザ以外の周囲の人同士が会話している場合にもユーザが会話しているものと誤判断してしまう場合がある。この場合、ユーザが会話していないにもかかわらず、音声情報の再生を停止してしまうため、ユーザは該音声情報を聞くことができない。

なお、この音声情報を聞くことができないという問題は、以上のようにウェアラブルヘッドセットを用いる技術のみにおいて生じるとは限らない。この問題は、例えば、ウェアラブルヘッドセット等のヘッドセットを着用することなく、ＰＣ（Personal Computer）によって音声情報を再生する技術、車内において音響機器等により音声情報を再生する技術等においても生じ得る問題である。また、この問題は、ユーザが会話しているか否かの状況のみにおいて生じるとは限らず、ユーザが会話はしていないものの、周囲の状況に単に関心が有るか否かの状況等においても生じ得る問題である。さらに、この問題は、音声情報を再生する技術のみにおいて生じるとは限らず、音声情報を除く、例えば、動画像情報等の各種コンテンツを再生（表示）する技術においても生じ得る問題である。

開示の技術は、一つの側面として、より適切な状態でコンテンツを再生することができるようにすることが目的である。

開示の技術は、第１の音を取得する音声取得部と、ユーザの動作を検出する動作検出部と、を含む。また、開示の技術は、前記音声取得部によって取得された前記第１の音及び前記動作検出部によって検出された前記動作の時間的な関係に基づいて、次の場合に期間内動作有りと判定する期間内動作判定部を含む。前記第１の音が取得された時点から、所定の期間内に前記動作が検出された場合である。ここで期間内動作有りと判定されるということは、すなわち、前記第１の音に対して前記ユーザの関心が有ることに相当する。さらに、開示の技術は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、次の２つの制御の何れか一方を行う再生制御部を含む。第１の制御は、コンテンツの再生を制限する制御であり、第２の制御は、前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御である。

開示の技術は、一つの側面として、より適切な状態でコンテンツを再生することができる、という効果を有する。

実施形態に係るコンテンツ再生装置の基本的な構成を示す機能ブロック図である。実施形態に係るコンテンツ再生機能の原理の説明に供する模式図である。実施形態に係るコンテンツ再生処理の一例を示すフローチャートである。実施形態に係る出力モード判定処理の一例を示すフローチャートである。実施形態に係る復帰判定処理の一例を示すフローチャートである。第１実施形態に係るサーバ及び端末の機能ブロック図である。第１実施形態に係る音声コンテンツのバッファメモリでの記憶状態の一例を示す図表である。第１実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。第１実施形態に係る端末処理の一例を示すフローチャートである。第１実施形態に係るコンテンツ再生処理の一例を示すフローチャートである。第１実施形態に係る出力モード判定処理の一例を示すフローチャートである。第１実施形態に係る復帰判定処理の一例を示すフローチャートである。第１実施形態に係る出力処理の一例を示すフローチャートである。第２実施形態に係るサーバ及び端末の機能ブロック図である。第２実施形態に係る音声コンテンツのバッファメモリでの記憶状態の一例を示す図表である。第２実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。第２実施形態に係るコンテンツ再生処理の一例を示すフローチャートである。第２実施形態に係る復帰判定処理の一例を示すフローチャートである。第２実施形態に係るサーバ処理の一例を示すフローチャートである。第３実施形態に係る端末の機能ブロック図である。第３実施形態に係る端末の概略構成を示すブロック図である。第３実施形態に係るコンテンツ再生処理の一例を示すフローチャートである。第３実施形態に係る出力処理の一例を示すフローチャートである。第４実施形態に係る端末の機能ブロック図である。第４実施形態に係る端末の概略構成を示すブロック図である。第４実施形態に係るコンテンツ再生処理の一例を示すフローチャートである。第４実施形態に係る出力処理の一例を示すフローチャートである。第５実施形態に係るサーバ及び端末の機能ブロック図である。第５実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。第５実施形態に係る出力モード判定処理の一例を示すフローチャートである。第６実施形態に係るサーバ及び端末の機能ブロック図である。第６実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。第６実施形態に係る出力モード判定処理の一例を示すフローチャートである。第６実施形態に係る復帰判定処理の一例を示すフローチャートである。第７実施形態に係るサーバ及び端末の機能ブロック図である。第７実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。第７実施形態に係る復帰判定処理の一例を示すフローチャートである。第８実施形態に係るサーバ及び端末の機能ブロック図である。第８実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。第８実施形態に係る出力モード判定処理の一例を示すフローチャートである。第８実施形態に係る復帰判定処理の一例を示すフローチャートである。第８実施形態に係る出力処理の一例を示すフローチャートである。

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。図１には、本実施形態に係るコンテンツ再生装置１０の基本的な構成が示されている。図１に示すように、本実施形態に係るコンテンツ再生装置１０は、音声取得部１１、動作検出部１２、期間内動作判定部１３及び再生制御部１４を備えている。

音声取得部１１は、第１の音としてコンテンツ再生装置１０のユーザの周囲の音を取得し、該周囲の音に含まれる音声区間を検出する。また、動作検出部１２は、上記ユーザの周囲の音に対する反応動作を検出する。また、期間内動作判定部１３は、音声取得部１１によって取得された上記ユーザの周囲の音及び動作検出部１２によって検出された反応動作の時間的な関係に基づいて、次の場合に期間内動作有りと判定する。ユーザの周囲の音が取得された時点から、所定の期間内に上記反応動作が検出された場合である。さらに、再生制御部１４は、期間内動作判定部１３により期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。

すなわち、例えば、一例として図２に示すように、コンテンツ再生装置１０のユーザが周囲の人と会話をしている場合、ユーザは、周囲の音（図２に示す例では、「例の件だけども、」との周囲の人による発話）に対して、何らかの反応動作を行う。すなわち、この場合、ユーザは、周囲の音に含まれる音声区間が開始した時点を始点とし、該音声区間が終了してから比較的短い時間である所定時間ＤＴ（一例として４秒）が経過した時点を終点とする期間内に、何らかの反応動作（図２に示す例では、「はい」との発話）を行う。なお、この周囲の音に含まれる音声区間が開始した時点を始点とし、該音声区間が終了してから所定時間ＤＴが経過した時点を終点とする所定の期間を、以下では「反応判定期間」という。

これに対し、ユーザが周囲の人と会話をしておらず、周囲の人同士で会話をしている場合、ユーザは周囲の音に対して上記のように反応動作を行うことはない。

このことを利用し、本実施形態に係るコンテンツ再生装置１０では、まず、音声取得部１１により、コンテンツ再生装置１０のユーザの周囲の音を取得して、該周囲の音に含まれる音声区間を検出する。また、コンテンツ再生装置１０では、動作検出部１２により、上記ユーザの周囲の音に対する反応動作を検出する。次に、コンテンツ再生装置１０では、期間内動作判定部１３により、音声取得部１１によって検出された音声区間から所定の期間内に、動作検出部１２により反応動作が検出された場合に期間内動作有りと判定する。そして、コンテンツ再生装置１０では、再生制御部１４により、期間内動作判定部１３により期間内動作有りと判定された場合に、一例として記憶部１５に記憶されているコンテンツの再生を制限する制御を行う。

なお、ユーザの周囲の音に対する反応動作としては、図２を参照して説明した発話による反応動作の他、頭部の向きを変えることによる反応動作、頭部を垂直方向又は水平方向に振動させることによる反応動作及び視線を移動させることによる反応動作が例示される。また、ユーザの周囲の音に対する反応動作としては、キーボードを操作している場合の該キーボードに対する入力頻度が変化することによる反応動作、及びユーザが移動することによる反応動作も例示される。

ここで、発話による反応動作は、会話する相手に自分の意見や意志等を伝えるため、会話の相手に対して発話することによって生じる。また、頭部の向きを変える、すなわち振り返ることによる反応動作は、相手の顔を見るため、相手がいる方向に自身の頭部の前方を向けることによって生じる。また、頭部を振動させることによる反応動作は、相手に意図を簡易に示すため、首を縦に振ったり（頷きであり、「はい」との意図。）、首を横に振ったり（首振りであり、「いいえ」との意図。）することによる、所謂ボディー・ランゲージによって生じる。また、視線を移動することによる反応動作は、相手の顔を見るため、相手に対して視線を向けることによって生じる。また、キーボードに対する入力頻度が変化すること（キーボード入力の停滞）による反応動作は、会話に集中するため、会話を行っている最中にはキーボードによる入力を止めたり、入力速度を遅くしたりすることによって生じる。さらに、ユーザ自身が移動することによる反応動作は、会話の相手までの距離が遠いと声が届かなかったり、相手の顔が見辛かったりして、会話に支障をきたすため、会話を行っている最中は会話の相手の近くへ移動することによって生じる。

なお、コンテンツ再生装置１０における音声取得部１１は開示の技術に係る音声取得部の一例であり、動作検出部１２は開示の技術に係る動作検出部の一例である。また、コンテンツ再生装置１０における期間内動作判定部１３は開示の技術に係る期間内動作判定部の一例であり、再生制御部１４は開示の技術に係る再生制御部の一例である。

本実施形態に係るコンテンツ再生装置１０は、ユーザが周囲の音に対して関心が有ると推定される場合に記憶部１５に記憶されているコンテンツの再生を制限する制御を行う、一例として図３に示すコンテンツ再生処理を実行する。

次に、図３を参照して、コンテンツ再生処理を実行する場合のコンテンツ再生装置１０の作用を説明する。なお、ここでは、コンテンツの再生を制限する制御の一例として、コンテンツの再生を停止する制御を行う場合について説明する。また、ここでは、錯綜を回避するため、記憶部１５に、再生すべきコンテンツを示す情報が記憶されている場合について説明する。

コンテンツ再生処理のステップ１００において、再生制御部１４は、コンテンツの再生モードを設定するための変数である変数Ｍにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。次のステップ１０２において、再生制御部１４は、図４に示す出力モード判定処理を行う。

出力モード判定処理のステップ２００において、音声取得部１１は、コンテンツ再生装置１０のユーザの周囲から音が発音される区間である音声区間が検出されるか否かを判定し、肯定判定となった場合はステップ２０２に移行する。ステップ２０２において、動作検出部１２は、ユーザの周囲の音に対する反応動作の検出を試みる。そして、ステップ２０２において、期間内動作判定部１３は、反応判定期間内にユーザが反応動作を行っているか否かを判定することにより、期間内動作有りと判定するか否か、すなわち、ユーザが周囲の音に対して関心が有ると推定されるか否かを判定する。この判定が肯定判定となった場合はステップ２０４に移行する。

ステップ２０４において、再生制御部１４は、変数Ｍにコンテンツの再生を停止することを表す「停止」を示す値を設定する。次のステップ２０６において、再生制御部１４は、経過時間を示す変数である変数Ｔをクリア（本実施形態では、０（零）を設定）した後、出力モード判定処理を終了する。また、ステップ２０２において否定判定となった場合はステップ２０８に移行し、再生制御部１４は、変数Ｍに上述した「出力」を示す値を設定し、その後に出力モード判定処理を終了する。

一方、ステップ２００において否定判定となった場合はステップ２１０に移行し、再生制御部１４は、図５に示す復帰判定処理を行う。

復帰判定処理のステップ３００において、再生制御部１４は、変数Ｍに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ３０２に移行する。ステップ３０２において、再生制御部１４は、変数Ｔの値が所定閾値ＴＨを超えたか否かを判定し、肯定判定となった場合はステップ３０４に移行して、再生制御部１４は、変数Ｍに上述した「出力」を示す値を設定した後、復帰判定処理を終了する。

一方、ステップ３０２において否定判定となった場合はステップ３０６に移行し、再生制御部１４は、変数Ｔの値を所定値（本実施形態では、‘１’）だけインクリメントし、その後に復帰判定処理を終了する。なお、ステップ３００において否定判定となった場合は、以上のステップ３０２〜ステップ３０６の処理を実行することなく、復帰判定処理を終了する。復帰判定処理が終了すると、図４に示す出力モード判定処理を終了する。出力モード判定処理が終了すると、図３に示すコンテンツ再生処理のステップ１０６に移行する。

なお、本実施形態に係る復帰判定処理では、コンテンツの再生が停止されてからの経過時間を示す変数Ｔの値が閾値ＴＨを超えた場合に、該コンテンツの再生を自動的に再開するための処理を行っている。従って、復帰判定処理のステップ３０２の処理で用いる閾値ＴＨは、停止しているコンテンツの再生を自動的に再開させるまでの所望の期間に対応する変数Ｔの値として予め設定しておく。

コンテンツ再生処理のステップ１０６において、再生制御部１４は、変数Ｍに上述した「出力」を示す値が設定されているか否かを判定し、否定判定となった場合はステップ１０２に戻る一方、肯定判定となった場合はステップ１０８に移行する。

ステップ１０８において、再生制御部１４は、記憶部１５に記憶されているコンテンツを示す情報から所定単位量の情報を読み出して再生する。次のステップ１１０において、再生制御部１４は、再生すべきコンテンツを示す情報の全ての記憶部１５からの読み出し及び再生が終了したか否かを判定する。ここで、否定判定となった場合はステップ１０２に戻る一方、肯定判定となった時点でコンテンツ再生処理を終了する。

以下、以上の基本的な実施形態に対応する、より具体的な実施形態について、図面を参照しつつ詳細に説明する。

〔第１実施形態〕
第１実施形態では、コンテンツ再生装置１０を、サーバ、端末（クライアント）、ウェアラブルヘッドセット（以下、単に「ヘッドセット」という。）及び収録機を有するシステムに適用した場合について説明する。また、第１実施形態では、端末として、据え置き型のＰＣを適用した場合について説明する。

図６には、本実施形態に係るサーバ３０Ａ、端末４０Ａ、ヘッドセット６０Ａ及び収録機７０が示されている。図６に示すように、本実施形態に係るサーバ３０Ａは、音声取得部１１Ａ、動作検出部１２Ａ、期間内動作判定部１３Ａ、再生制御部１４Ａ、バッファメモリ１５Ａ、音声コンテンツ生成部１６Ａ、受信部１７Ａ及び送信部１８Ａを備えている。また、端末４０Ａは、受信部５０Ａ、送信部５０Ｂ、送信部５０Ｃ、受信部５０Ｄ、送信制御部５２Ａ及び再生部５４を備えている。また、ヘッドセット６０Ａは、マイクロホン（以下、「マイク」という。）６２及びスピーカ６４を備えている。さらに、収録機７０は、複数のマイク７２を備えている。

収録機７０に備えられている複数のマイク７２は、端末４０Ａのユーザの周囲に設けられており、各々、ユーザの周囲の音を集音し、該音を示す音声データを出力する。本実施形態では、複数のマイク７２として、端末４０Ａの周囲に存在し、かつ端末４０Ａのユーザ以外の複数のユーザ（以下、「他のユーザ」という。）が各々使用する指向性マイクを適用しているが、これに限るものではない。例えば、マイク７２として、複数の他のユーザの音をまとめて集音する無指向性のマイクを適用してもよい。

一方、ヘッドセット６０Ａに備えられているマイク６２は、端末４０Ａのユーザによる発話を集音するものであり、端末４０Ａのユーザがヘッドセット６０Ａを装着した際に該ユーザの口元に近接するようにヘッドセット６０Ａに設けられている。本実施形態では、マイク６２として、ユーザの口元の方向から発せられる音声を精度よく集音する指向性マイクを用いているが、これに限るものではない。端末４０Ａのユーザと他のユーザとの距離や、他のユーザの人数等によっては、マイク６２として無指向性のマイクを用いてもよい。また、ヘッドセット６０Ａに備えられているスピーカ６４は、端末４０Ａのユーザがヘッドセット６０Ａを装着した際に該ユーザの耳に近接するようにヘッドセット６０Ａに設けられている。

収録機７０の複数のマイク７２は端末４０Ａの受信部５０Ａに接続されており、各マイク７２による集音によって得られた音声データは端末４０Ａに送信される。また、ヘッドセット６０Ａのマイク６２も端末４０Ａの受信部５０Ａに接続されており、マイク６２による集音によって得られた音声データも端末４０Ａに送信される。さらに、ヘッドセット６０Ａのスピーカ６４は端末４０Ａの送信部５０Ｃに接続されており、スピーカ６４は、端末４０Ａから送信された音声データに応じた音声を再生する。

また、端末４０Ａの送信部５０Ｂはサーバ３０Ａの受信部１７Ａに接続されており、端末４０Ａの受信部５０Ｄはサーバ３０Ａの送信部１８Ａに接続されている。

そして、端末４０Ａの送信制御部５２Ａは、収録機７０の各マイク７２及びヘッドセット６０Ａのマイク６２から受信部５０Ａを介して受信した音声データをサーバ３０Ａに送信部５０Ｂを介して送信する。また、再生部５４は、サーバ３０Ａから受信部５０Ｄを介して受信した音声データを、送信部５０Ｃを介してヘッドセット６０Ａのスピーカ６４に出力する。これにより、スピーカ６４は、端末４０Ａから受信した音声データにより示される音を再生する。

一方、サーバ３０Ａの音声取得部１１Ａは、先に説明した音声取得部１１に相当し、収録機７０の複数のマイク７２によって得られた音声データ（以下、「周囲音声データ」という。）を、端末４０Ａを介して取得することにより、ユーザの周囲の音を取得する。本実施形態に係る音声取得部１１Ａは、端末４０Ａのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態で複数のマイク７２によって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。また、音声取得部１１Ａは、各マイク７２によって得られた音声データの、対応するマイク７２によって得られた上記雑音を示す音声データに対する比率であるＳＮＲ（Signal to Noise Ratio）をマイク７２の各々毎に求める。そして、音声取得部１１Ａは、求めたＳＮＲが所定閾値以上である区間を端末４０Ａのユーザの周囲における音声区間として検出する。従って、この音声区間は、最大でマイク７２の数と同じ数まで、一部期間または全期間が重複した状態で検出され得る。なお、この周囲の音に含まれる音声区間を、以下では、「周囲音声区間」という。

また、動作検出部１２Ａは、先に説明した動作検出部１２に相当し、ヘッドセット６０Ａのマイク６２によって得られた音声データ（以下、「ユーザ音声データ」という。）を、端末４０Ａを介して取得する。そして、動作検出部１２Ａは、取得したユーザ音声データに基づいて、端末４０Ａのユーザの周囲の音に対する反応動作を検出する。本実施形態に係る動作検出部１２Ａは、端末４０Ａのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク６２によって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。そして、動作検出部１２Ａは、マイク６２によって得られた音声データの、上記雑音を示す音声データに対する比率であるＳＮＲが所定閾値以上である区間を、端末４０Ａのユーザの発話による音声区間（反応動作）として検出する。このユーザ音声データに含まれる音声区間を、以下では、「ユーザ音声区間」という。なお、上記ＳＮＲについては、開示の技術の発明者等による特開２０１４−２２８７５３号公報にも記載されているため、ここでの、これ以上の説明は省略する。

本実施形態では、音声取得部１１Ａにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部１２Ａにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイク６２及びマイク７２の各々の集音特性の違いや、端末４０Ａのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。

一方、期間内動作判定部１３Ａは、先に説明した期間内動作判定部１３に相当し、音声取得部１１Ａによって音声区間（周囲音声区間）が検出された時点から所定の期間内に動作検出部１２Ａによって反応動作が検出されたか否かを判定する。この判定は、周囲の音に対してユーザの関心が有るか否かを推定することに相当する。本実施形態に係る期間内動作判定部１３Ａでは、次の式（１）に示す条件が成立する場合に、端末４０Ａのユーザが他のユーザと会話しており、端末４０Ａのユーザの期間内動作有りと判定する。この判定は、端末４０Ａのユーザが周囲の音に対して関心が有ると推定することに相当する。なお、図２にも示すように、式（１）において、ｔｏｅは周囲音声区間の終了時刻を表し、ｔｕｓはユーザ音声区間の開始時刻を表し、ＤＴは上述したように所定時間を表す。

すなわち、式（１）は、周囲音声区間の開始時刻から、周囲音声区間の終了時刻ｔｏｅに所定時間ＤＴを加算して得られた時刻までの期間（反応判定期間）に、ユーザ音声区間の開始時刻ｔｕｓが含まれることを示しており、図２の「会話をしている場合」に該当する。なお、本実施形態では、所定時間ＤＴとして、周囲音声区間の終了時刻ｔｏｅから、該周囲音声区間の音声に応じて端末４０Ａのユーザが発話を開始するまでに要する時間として想定される最も長い期間（一例として、４秒）を固定的に適用している。但し、これに限定されるものではなく、例えば、端末４０Ａのユーザの疲労の度合いや、端末４０Ａのユーザが端末４０Ａによって何らかのコンテンツを再生している場合の、該コンテンツの種類等に応じて、所定時間ＤＴを適宜設定できるようにしてもよい。

ここで、本実施形態では、上述したように、複数のマイク７２の各々に対応して、複数の周囲音声区間が、一部期間または全期間が重複した状態で検出される場合がある。この場合、本実施形態では、複数の周囲音声区間の開始時刻のうちの最も早い時刻から、該複数の周囲音声区間の終了時刻ｔｏｅのうちの最も遅い時刻に所定時間ＤＴを加算して得られた時刻までの期間を、反応判定期間として適用する。但し、この形態に限らず、例えば、複数の周囲音声区間の各々別に反応判定期間を導出する形態としてもよい。この場合、各反応判定期間のうちの少なくとも１つの期間について式（１）に示す条件が成立する場合に、端末４０Ａのユーザの期間内動作有りと判定する形態等を適用することができる。

一方、音声コンテンツ生成部１６Ａは、端末４０Ａのユーザによる端末４０Ａに対する入力情報に応じて、音声のコンテンツ（以下、「音声コンテンツ」という。）を生成する。なお、本実施形態に係る音声コンテンツ生成部１６Ａは、端末４０Ａのユーザに対して送信された電子メールによるテキスト情報の読み上げを行う音声データを音声コンテンツとして生成する。

また、バッファメモリ１５Ａは、音声コンテンツ生成部１６Ａにより生成された音声データを一時的に格納する記憶領域である。本実施形態では、バッファメモリ１５Ａとして、ＦＩＦＯ（First In First Out）形式のメモリを用いている。そして、本実施形態に係る音声コンテンツ生成部１６Ａは、バッファメモリ１５Ａに対して、上記テキスト情報の読み上げを行う音声データを所定の単位で記憶する。この際、音声コンテンツ生成部１６Ａは、その時点でバッファメモリ１５Ａに最後に記憶されている音声データの次のアドレスに新たな音声データを記憶する。なお、上記所定の単位としては、例えば、モーラ単位、単語単位、文節単位、文章単位、段落単位、事象単位等が例示されるが、本実施形態では、文節単位を上記所定の単位として適用している。

また、バッファメモリ１５Ａは、読み出しポインタにより示されるアドレスから１フレーム分の音声データを読み出して再生制御部１４Ａに出力する。そして、バッファメモリ１５Ａは、１フレーム分の音声データの読み出しが終了した時点で、読み出した音声データの次の音声データが記憶されているアドレスに読み出しポインタを更新する。

図７には、バッファメモリ１５Ａに記憶された音声コンテンツの音声データが模式的に示されている。図７に示す例では、音声コンテンツの音声データが、先頭アドレスから順に、「各位」、「本日、」、・・・、「よろしく」、「お願いします」との文節単位で、時系列順にバッファメモリ１５Ａに記憶されている。

そして、再生制御部１４Ａは、先に説明した再生制御部１４に相当し、期間内動作判定部１３Ａによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部１４Ａでは、期間内動作判定部１３Ａによって期間内動作有りと判定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。

一方、端末４０Ａの送信制御部５２Ａは、収録機７０の各マイク７２から受信した周囲音声データ及びヘッドセット６０Ａのマイク６２から受信したユーザ音声データのサーバ３０Ａへの送信を制御する。また、再生部５４は、サーバ３０Ａの再生制御部１４Ａによる制御に応じて、音声コンテンツをヘッドセット６０Ａのスピーカ６４により再生させる。

上述したサーバ３０Ａ及び端末４０Ａは、図８に示すコンピュータ・システム２０Ａに含まれるサーバ３０Ａ及び端末４０Ａによって各々実現することができる。本実施形態に係るコンピュータ・システム２０Ａは、ネットワーク８０に各々アクセス可能とされたサーバ３０Ａと、端末４０Ａと、を含んでいる。

サーバ３０Ａは、ＣＰＵ（Central Processing Unit）３１、メモリ３２、記憶部３３、入力部３４、表示部３５、媒体読み書き装置（Ｒ／Ｗ）３６及び通信インタフェース（Ｉ／Ｆ）部３７を備えている。ＣＰＵ３１、メモリ３２、記憶部３３、入力部３４、表示部３５、媒体読み書き装置３６及び通信Ｉ／Ｆ部３７はバス３８を介して互いに接続されている。媒体読み書き装置３６は、記録媒体９６に書き込まれている情報の読み出し及び記録媒体９６への情報の書き込みを行う。なお、上述したバッファメモリ１５Ａは、メモリ３２に含まれる。

記憶部３３は、ＨＤＤ（Hard Disk Drive）やフラッシュメモリ等によって実現できる。記憶部３３には、サーバ３０Ａを図６に示したサーバ３０Ａとして機能させるためのコンテンツ再生プログラム３３Ａが記憶されている。コンテンツ再生プログラム３３Ａは、該プログラム３３Ａが書き込まれた記録媒体９６が媒体読み書き装置３６にセットされ、媒体読み書き装置３６が記録媒体９６からのコンテンツ再生プログラム３３Ａの読み出しを行うことで、記憶部３３へ記憶される。ＣＰＵ３１は、コンテンツ再生プログラム３３Ａを記憶部３３から読み出してメモリ３２に展開し、コンテンツ再生プログラム３３Ａが有するプロセスを順次実行する。

コンテンツ再生プログラム３３Ａは、音声取得プロセス３３Ａ１、動作検出プロセス３３Ａ２Ａ、期間内動作判定プロセス３３Ａ３Ａ及び再生制御プロセス３３Ａ４Ａを有する。ＣＰＵ３１は、音声取得プロセス３３Ａ１を実行することで、図６に示す音声取得部１１Ａとして動作する。また、ＣＰＵ３１は、動作検出プロセス３３Ａ２Ａを実行することで、図６に示す動作検出部１２Ａとして動作する。また、ＣＰＵ３１は、期間内動作判定プロセス３３Ａ３Ａを実行することで、図６に示す期間内動作判定部１３Ａとして動作する。さらに、ＣＰＵ３１は、再生制御プロセス３３Ａ４Ａを実行することで、図６に示す再生制御部１４Ａとして動作する。

以上により、コンテンツ再生プログラム３３Ａを実行したサーバ３０Ａが、図６に示すサーバ３０Ａとして機能することになる。なお、コンテンツ再生プログラム３３Ａは開示の技術に係るコンテンツ再生プログラムの一例である。

一方、端末４０Ａは、ＣＰＵ４１、メモリ４２、記憶部４３、入力部４４、表示部４５、媒体読み書き装置４６、通信Ｉ／Ｆ部４７及び入出力Ｉ／Ｆ部４８を備えている。ＣＰＵ４１、メモリ４２、記憶部４３、入力部４４、表示部４５、媒体読み書き装置４６、通信Ｉ／Ｆ部４７及び入出力Ｉ／Ｆ部４８はバス４９を介して互いに接続されている。媒体読み書き装置４６は、記録媒体９６に書き込まれている情報の読み出し及び記録媒体９６への情報の書き込みを行う。

記憶部４３はＨＤＤやフラッシュメモリ等によって実現できる。記憶部４３には、端末４０Ａを図６に示す端末４０Ａとして機能させるための端末処理プログラム４３Ａが記憶されている。

端末処理プログラム４３Ａは、端末処理プログラム４３Ａが書き込まれた記録媒体９６が媒体読み書き装置４６にセットされ、媒体読み書き装置４６が記録媒体９６からの端末処理プログラム４３Ａの読み出しを行うことで、記憶部４３へ記憶される。ＣＰＵ４１は、端末処理プログラム４３Ａを記憶部４３から読み出してメモリ４２に展開し、端末処理プログラム４３Ａが有するプロセスを順次実行する。

端末処理プログラム４３Ａは、送信制御プロセス４３Ａ１及び再生プロセス４３Ａ２を有する。ＣＰＵ４１は、送信制御プロセス４３Ａ１を実行することで、図６に示す送信制御部５２Ａとして動作する。また、ＣＰＵ４１は、再生プロセス４３Ａ２を実行することで、図６に示す再生部５４として動作する。

以上により、端末処理プログラム４３Ａを実行した端末４０Ａが、図６に示す端末４０Ａとして機能することになる。

なお、本実施形態に係るコンピュータ・システム２０Ａでは、サーバ３０Ａと、端末４０Ａとの間で、ネットワーク８０を介して各種情報が送受信されるが、これに限定されるものではない。例えば、サーバ３０Ａと端末４０Ａとの間で直接、有線通信または無線通信により各種情報の送受信を行うようにしてもよい。また、コンピュータ・システム２０Ａでは、サーバ３０Ａ及び端末４０Ａを、各々に設けられた通信Ｉ／Ｆ部により有線通信にてネットワーク８０に接続された他の装置との間で各種情報の送受信を行っているが、これに限定されるものではない。例えば、サーバ３０Ａ及び端末４０Ａの少なくとも一方を無線通信にてネットワーク８０に接続された他の装置との間で各種情報の送受信を行う形態としてもよい。

次に、本実施形態の作用を説明する。なお、以下では、端末４０Ａのユーザが、端末４０Ａに接続されたヘッドセット６０Ａを装着した状態で、端末４０Ａを用いて音声コンテンツを再生する場合を想定する。この場合、端末４０Ａのユーザは、端末４０Ａによって端末処理プログラム４３Ａを実行させることで、図９に示す端末処理が行われる。

端末処理のステップ５００において、送信制御部５２Ａは、収録機７０の各マイク７２から受信した周囲音声データ及びヘッドセット６０Ａのマイク６２から受信したユーザ音声データのリアルタイムでのサーバ３０Ａへの送信を開始する。一方、サーバ３０Ａは、後述するように、音声コンテンツ生成部１６Ａによって生成され、バッファメモリ１５Ａに記憶された音声コンテンツ（本実施形態では、電子メールによるテキスト情報）の読み上げを行う音声データを端末４０Ａに１フレーム分毎に送信する。

そこで、次のステップ５０２において、再生部５４は、サーバ３０Ａからの１フレーム分の音声データの受信待ちを行い、該音声データが受信されると肯定判定となってステップ５０４に移行する。

ステップ５０４において、再生部５４は、サーバ３０Ａから受信した音声データをヘッドセット６０Ａのスピーカ６４に送信することによって該音声データにより示される音を再生する。次のステップ５０６において、再生部５４は、ユーザによる端末４０Ａの利用が終了したか否かを判定し、否定判定となった場合はステップ５００に戻り、肯定判定となった時点で端末処理を終了する。なお、本実施形態では、ステップ５０６による端末４０Ａの利用が終了したか否かの判定を、ユーザによって端末処理の終了を指示する指示入力が入力部４４を介して行われたか否かを判定することにより行っているが、これに限るものではない。例えば、端末４０Ａの電源スイッチがオフ状態とされたか否かを判定することにより端末４０Ａの利用が終了したか否かを判定する形態等としてもよい。

一方、サーバ３０Ａは、端末４０Ａからのアクセスが開始された際にコンテンツ再生プログラム３３Ａを実行させることにより、図１０に示すコンテンツ再生処理が行われる。

コンテンツ再生処理のステップ１５０において、再生制御部１４Ａは、コンテンツの再生モードを設定するための変数である変数Ｍにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。次のステップ１５２において、音声コンテンツ生成部１６Ａは、端末４０Ａのユーザ宛に新たに受信された電子メールによるテキスト情報の所定のメールサーバからの入力を試みる。次のステップ１５４において、音声コンテンツ生成部１６Ａは、上記メールサーバから上記テキスト情報が入力されたか否かを判定し、否定判定となった場合は後述するステップ１５８に移行する一方、肯定判定となった場合はステップ１５６に移行する。

ステップ１５６において、音声コンテンツ生成部１６Ａは、メールサーバから入力されたテキスト情報の読み上げを行う音声データを生成し、メモリ３２の所定の記憶領域に記憶する。この際、音声コンテンツ生成部１６Ａは、本コンテンツ再生処理の実行を開始して最初にステップ１５６を実行する際には、上記所定の記憶領域の先頭アドレスに、該記憶領域に対応する読み出しポインタ（以下、「第１読み出しポインタ」という。）を設定する。

次のステップ１５８において、音声取得部１１Ａ及び動作検出部１２Ａは、端末４０Ａからの所定量の周囲音声データ及びユーザ音声データの受信待ちを行い、ステップ１５８において肯定判定となった場合はステップ１６０に移行する。ステップ１６０において、再生制御部１４Ａは、図１１に示す出力モード判定処理を行う。

出力モード判定処理のステップ２５０Ａにおいて、動作検出部１２Ａは、ユーザ音声データからのユーザ音声区間の検出を試み、次のステップ２５２において、音声取得部１１Ａは、周囲音声データからの周囲音声区間の検出を試みる。次のステップ２５４において、期間内動作判定部１３Ａは、ユーザ音声区間及び周囲音声区間が検出され、かつ検出されたユーザ音声区間及び周囲音声区間において、上述した式（１）に示す条件が成立するか否かを判定する。ここで、肯定判定となった場合は、端末４０Ａのユーザによる期間内動作有りと見なしてステップ２５６に移行する。

ステップ２５６において、再生制御部１４Ａは、変数Ｍにコンテンツの再生を停止することを表す「停止」を示す値を設定する。次のステップ２５８において、再生制御部１４Ａは、経過時間を示す変数である変数Ｔをクリア（本実施形態では、０（零）を設定）した後、出力モード判定処理を終了する。

一方、ステップ２５４において否定判定となった場合はステップ２６０に移行し、再生制御部１４Ａは、図１２に示す復帰判定処理を行う。

復帰判定処理のステップ３５０において、再生制御部１４Ａは、変数Ｍに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ３５２に移行する。ステップ３５２において、再生制御部１４Ａは、変数Ｔの値が所定閾値ＴＨを超えたか否かを判定し、肯定判定となった場合はステップ３５４に移行して、再生制御部１４Ａは、変数Ｍに上述した「出力」を示す値を設定した後、復帰判定処理を終了する。なお、ステップ３５２の処理において適用する閾値ＴＨは、例えば、図５に示す復帰判定処理のステップ３０２の処理において適用した閾値ＴＨと同様のものである。

一方、ステップ３５２において否定判定となった場合はステップ３５６に移行し、再生制御部１４Ａは、変数Ｔの値を所定値（本実施形態では、‘１’）だけインクリメントし、その後に復帰判定処理を終了する。なお、ステップ３５０において否定判定となった場合は、以上のステップ３５２〜ステップ３５６の処理を実行することなく、復帰判定処理を終了する。復帰判定処理が終了すると、図１１に示す出力モード判定処理を終了する。出力モード判定処理が終了すると、図１０に示すコンテンツ再生処理のステップ１６２に移行し、再生制御部１４Ａは、図１３に示す出力処理を行う。

出力処理のステップ４００において、再生制御部１４Ａは、変数Ｍに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ４０２に移行する。ステップ４０２において、再生制御部１４Ａは、バッファメモリ１５Ａに音声データが記憶されているか否かを判定し、肯定判定となった場合は後述するステップ４０６に移行する一方、否定判定となった場合はステップ４０４に移行する。

ステップ４０４において、再生制御部１４Ａは、メモリ３２の第１読み出しポインタが示すアドレスに記憶されている音声データを上記所定の単位量だけ読み出してバッファメモリ１５Ａに記憶した後、ステップ４０６に移行する。この際、再生制御部１４Ａは、本コンテンツ再生処理の実行を開始して最初にステップ４０４を実行する際には、バッファメモリ１５Ａの先頭アドレスに、該バッファメモリ１５Ａに対応する読み出しポインタ（以下、「第２読み出しポインタ」という。）を設定する。

ステップ４０６において、再生制御部１４Ａは、バッファメモリ１５Ａの第２読み出しポインタが示すアドレスに記憶されている１フレーム分の音声データをバッファメモリ１５Ａから読み出し、端末４０Ａに送信する。次のステップ４０８において、再生制御部１４Ａは、バッファメモリ１５Ａに記憶されている全ての音声データの端末４０Ａへの送信が終了したか否かを判定し、否定判定となった場合は出力処理を終了する一方、肯定判定となった場合はステップ４１０に移行する。ステップ４１０において、再生制御部１４Ａは、第１読み出しポインタの値を更新（上記所定の単位量に相当するアドレスだけインクリメント）し、その後に出力処理を終了する。

一方、ステップ４００において否定判定となった場合はステップ４１２に移行し、再生制御部１４Ａは、バッファメモリ１５Ａをクリアする。次のステップ４１４において、再生制御部１４Ａは、１フレーム分の空データを音声データとして端末４０Ａに送信し、その後に出力処理を終了する。出力処理が終了すると、図１０に示すコンテンツ再生処理のステップ１６４に移行する。

ステップ１６４において、再生制御部１４Ａは、端末４０Ａからの上記アクセスが終了したか否かを判定し、否定判定となった場合はステップ１５２に戻る一方、肯定判定となった時点でコンテンツ再生処理を終了する。

以上、詳細に説明したように、本実施形態では、音声取得部１１により、ユーザの周囲の音を取得して、該周囲の音に含まれる音声区間を検出し、動作検出部１２により、ユーザの周囲の音に対する反応動作を検出する。また、本実施形態では、期間内動作判定部１３により、音声取得部１１によって音声区間が検出された時点から所定の期間内に動作検出部１２によって反応動作が検出された場合に期間内動作有りと判定する。そして、本実施形態では、再生制御部１４により、期間内動作判定部１３によって期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合に、コンテンツの再生を制限する制御を行う。このため、本実施形態では、周囲の音に対するユーザの反応動作を考慮しない従来の技術に比較して、より適切な状態でコンテンツを再生することができる。

また、本実施形態では、動作検出部１２により、反応動作として、ユーザの発話動作を検出している。これにより、ユーザが発話している状態においてコンテンツの再生を制限する制御を行うことができる。

また、本実施形態では、取得された周囲の音の音声区間が開始された時点を始点とし、該音声区間が終了して所定時間経過した時点を終点とする期間（反応判定期間）内に反応動作が検出された場合に期間内動作有りと判定することにより、周囲の音に対してユーザの関心が有ると推定している。これにより、上記所定時間を、ユーザの性格や、ユーザの周囲の状況等に応じて適切に設定することにより、周囲の音に対するユーザの関心の有無を、適切に推定することができる。

また、本実施形態では、期間内動作有りと判定した後、反応判定期間内に反応動作が検出されなくなった場合に、期間内動作無しと判定することにより、周囲の音に対してユーザの関心が無くなったと推定する。そして、本実施形態では、期間内動作無しと判定された場合に、期間内動作有りと判定して行った制御を解除している。これにより、期間内動作無しと判定した場合、すなわち、周囲の音に対してユーザの関心が無くなったと推定される場合に、通常と同様にコンテンツを再生することができる結果、ユーザにとっての利便性を向上させることができる。

また、本実施形態では、再生制御部１４により、期間内動作判定部１３により周囲の音に対してユーザの関心が有ると推定された場合に、コンテンツの再生を停止する制御を行う。また、本実施形態では、再生制御部１４により、該コンテンツの再生を停止する制御を行っている場合で、かつ期間内動作判定部１３により周囲の音に対してユーザの関心が無くなったと推定された場合に、コンテンツの再生を再開する制御を行っている。これにより、コンテンツの再生の停止及び再開を、より適切に行うことができる。

さらに、本実施形態では、動作検出部１２により、ユーザの発話動作により生じる音声の大きさ（本実施形態では、ＳＮＲ）が所定閾値以上である場合に上記反応動作として検出している。これにより、ユーザの発話による反応動作を、より適切に検出することができる。

〔第２実施形態〕
第２実施形態では、コンテンツ再生装置１０を、サーバ、マイクを内蔵した端末（クライアント）及びヘッドセットを有するシステムに適用した場合について説明する。

図１４には、本実施形態に係るサーバ３０Ｂ、端末４０Ｂ及びヘッドセット６０Ａが示されている。なお、図１４における図６と同一の構成要素には図６と同一の符号を付して、その説明を極力省略する。

図１４に示すように、本実施形態に係る端末４０Ｂは、送信制御部５２Ａが、該送信制御部５２Ａとは異なる処理を行う送信制御部５２Ｂとされている点が第１実施形態に係る端末４０Ａと異なっている。また、本実施形態に係る端末４０Ｂは、音声取得部１１Ｂ、動作検出部１２Ｂ、期間内動作判定部１３Ｂ、第１再生制御部１４Ｂ１及びマイク５６Ａが新たに設けられている点が第１実施形態に係る端末４０Ａと異なっている。一方、本実施形態に係るサーバ３０Ｂは、音声取得部１１Ａ、動作検出部１２Ａ及び期間内動作判定部１３Ａが設けられていない点が第１実施形態に係るサーバ３０Ａと異なっている。また、本実施形態に係るサーバ３０Ｂは、再生制御部１４Ａが、該再生制御部１４Ａとは異なる処理を行う第２再生制御部１４Ｂ２とされている点が第１実施形態に係るサーバ３０Ａと異なっている。なお、本実施形態では、収録機７０は用いられていない。

端末４０Ｂの送信制御部５２Ｂは、ヘッドセット６０Ａのスピーカ６４によって再生させたいコンテンツを指定する情報をサーバ３０Ｂに送信する制御を行う。また、マイク５６Ａは、ユーザの周囲の音を集音し、該音を示す音声データを出力する。本実施形態では、マイク５６Ａとして、無指向性のマイクを適用している。

また、音声取得部１１Ｂは、先に説明した音声取得部１１に相当し、マイク５６Ａによって得られた音声データ（周囲音声データ）を取得することにより、ユーザの周囲の音を取得する。本実施形態に係る音声取得部１１Ｂは、端末４０Ｂのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク５６Ａによって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。そして、音声取得部１１Ｂは、マイク５６Ａによって得られた音声データの、上記雑音を示す音声データに対する比率であるＳＮＲが所定閾値以上である区間を端末４０Ｂのユーザの周囲における音声区間（周囲音声区間）として検出する。

また、動作検出部１２Ｂは、先に説明した動作検出部１２に相当し、ヘッドセット６０Ａのマイク６２によって得られた音声データ（ユーザ音声データ）を取得する。そして、動作検出部１２Ｂは、取得したユーザ音声データに基づいて、端末４０Ｂのユーザの周囲の音に対する反応動作を検出する。本実施形態に係る動作検出部１２Ｂは、端末４０Ｂのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク６２によって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。そして、動作検出部１２Ｂは、マイク６２によって得られた音声データの、上記雑音を示す音声データに対する比率であるＳＮＲが所定閾値以上である区間を、端末４０Ｂのユーザの発話による音声区間（ユーザ音声区間）として検出する。

本実施形態でも、音声取得部１１Ｂにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部１２Ｂにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイク５６Ａ及びマイク６２の各々の集音特性の違いや、端末４０Ｂのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。

さらに、期間内動作判定部１３Ｂは、先に説明した期間内動作判定部１３に相当する。期間内動作判定部１３Ｂは、音声取得部１１Ｂによって音声区間が検出された時点から所定の期間内に動作検出部１２Ｂによるユーザ音声区間（発話による反応動作）の検出が有るか無いかに基づいて、期間内動作有りか、期間内動作無しかを判定する。本実施形態に係る期間内動作判定部１３Ｂでも、上述した式（１）に示す条件が成立する場合に、端末４０Ｂのユーザが他のユーザと会話しており、期間内動作有りと判定することにより、周囲の音に対して端末４０Ｂのユーザの関心が有ると推定できる。

一方、端末４０Ｂの第１再生制御部１４Ｂ１及びサーバ３０Ｂの第２再生制御部１４Ｂ２は、先に説明した再生制御部１４に相当する。第１再生制御部１４Ｂ１及び第２再生制御部１４Ｂ２は協同して、端末４０Ｂの期間内動作判定部１３Ｂによって期間内動作有りと判定された場合、すなわち、ユーザが周囲の音に対して関心が有ると推定できる場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る第１再生制御部１４Ｂ１及び第２再生制御部１４Ｂ２でも、ユーザが周囲の音に対して関心が有ると推定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。

なお、本実施形態に係るサーバ３０Ｂの音声コンテンツ生成部１６Ａは、ユーザによって端末４０Ｂを用いて予め選択されたＷｅｂニュースの読み上げを行う音声データをコンテンツとして生成する。

図１５には、バッファメモリ１５Ａに記憶された音声コンテンツの音声データが模式的に示されている。図１５に示す例では、音声コンテンツの音声データが、先頭アドレスから順に、「明日の」、「天気は」、・・・、「午後から」、「雨になるでしょう」との文節単位で、時系列順にバッファメモリ１５Ａに記憶されている。

上述したサーバ３０Ｂ及び端末４０Ｂは、図１６に示すコンピュータ・システム２０Ｂに含まれるサーバ３０Ｂ及び端末４０Ｂによって各々実現することができる。なお、図１６における図８と同一の構成要素には図８と同一の符号を付して、その説明を極力省略する。

図１６に示すように、本実施形態に係るサーバ３０Ｂの記憶部３３には、コンテンツ再生プログラム３３Ａに代えて、サーバ３０Ｂを図１４に示したサーバ３０Ｂとして機能させるためのサーバ処理プログラム３３Ｃが記憶されている。サーバ処理プログラム３３Ｃは、該プログラム３３Ｃが書き込まれた記録媒体９６が媒体読み書き装置３６にセットされ、媒体読み書き装置３６が記録媒体９６からのサーバ処理プログラム３３Ｃの読み出しを行うことで、記憶部３３へ記憶される。ＣＰＵ３１は、サーバ処理プログラム３３Ｃを記憶部３３から読み出してメモリ３２に展開し、サーバ処理プログラム３３Ｃが有するプロセスを順次実行する。

サーバ処理プログラム３３Ｃは、第２再生制御プロセス３３Ｃ１を有する。ＣＰＵ３１は、第２再生制御プロセス３３Ｃ１を実行することで、図１４に示す第２再生制御部１４Ｂ２として動作する。

以上により、サーバ処理プログラム３３Ｃを実行したサーバ３０Ｂが、図１４に示すサーバ３０Ｂとして機能することになる。なお、サーバ処理プログラム３３Ｃは開示の技術に係るコンテンツ再生プログラムの一部の処理を含む。

一方、図１６に示すように、本実施形態に係る端末４０Ｂは、バス４９にマイク５６Ａが接続されている。また、本実施形態に係る端末４０Ｂの記憶部４３には、端末処理プログラム４３Ａに代えて、端末４０Ｂを図１４に示した端末４０Ｂとして機能させるためのコンテンツ再生プログラム４３Ｂが記憶されている。コンテンツ再生プログラム４３Ｂは、該プログラム４３Ｂが書き込まれた記録媒体９６が媒体読み書き装置４６にセットされ、媒体読み書き装置４６が記録媒体９６からのコンテンツ再生プログラム４３Ｂの読み出しを行うことで、記憶部４３へ記憶される。ＣＰＵ４１は、コンテンツ再生プログラム４３Ｂを記憶部４３から読み出してメモリ４２に展開し、コンテンツ再生プログラム４３Ｂが有するプロセスを順次実行する。

コンテンツ再生プログラム４３Ｂは、音声取得プロセス４３Ｂ１、動作検出プロセス４３Ｂ２、期間内動作判定プロセス４３Ｂ３、第１再生制御プロセス４３Ｂ４、再生プロセス４３Ｂ５及び送信制御プロセス４３Ｂ６を有する。ＣＰＵ４１は、音声取得プロセス４３Ｂ１を実行することで、図１４に示す音声取得部１１Ｂとして動作する。また、ＣＰＵ４１は、動作検出プロセス４３Ｂ２を実行することで、図１４に示す動作検出部１２Ｂとして動作する。また、ＣＰＵ４１は、期間内動作判定プロセス４３Ｂ３を実行することで、図１４に示す期間内動作判定部１３Ｂとして動作する。また、ＣＰＵ４１は、第１再生制御プロセス４３Ｂ４を実行することで、図１４に示す第１再生制御部１４Ｂ１として動作する。また、ＣＰＵ４１は、再生プロセス４３Ｂ５を実行することで、図１４に示す再生部５４として動作する。さらに、ＣＰＵ４１は、送信制御プロセス４３Ｂ６を実行することで、図１４に示す送信制御部５２Ｂとして動作する。

以上により、コンテンツ再生プログラム４３Ｂを実行した端末４０Ｂが、図１４に示す端末４０Ｂとして機能することになる。なお、コンテンツ再生プログラム４３Ｂは開示の技術に係るコンテンツ再生プログラムの一部の処理を含む。

次に、本実施形態の作用を説明する。なお、以下では、端末４０Ｂのユーザが、端末４０Ｂに接続されたヘッドセット６０Ａを装着した状態で、端末４０Ｂを用いて音声コンテンツを再生する場合を想定する。この場合、端末４０Ｂのユーザは、端末４０Ｂによってコンテンツ再生プログラム４３Ｂを実行させることで、図１７に示すコンテンツ再生処理が行われる。以下では、錯綜を回避するため、端末４０Ｂのユーザによって端末４０Ｂで再生して欲しい複数件のＷｅｂニュースを特定するための特定情報（本実施形態では、ＵＲＬ（Uniform Resource Locators））が予め端末４０Ｂに入力されている場合について説明する。

コンテンツ再生処理のステップ６００において、送信制御部５２Ｂは、上記特定情報に含まれる１件分のＷｅｂニュースを指定する情報（以下、「Ｗｅｂ指定情報」という。）をサーバ３０Ｂに送信する。

次のステップ６０２において、動作検出部１２Ｂは、ユーザ音声データからのユーザ音声区間の検出を試み、次のステップ６０４において、音声取得部１１Ｂは、周囲音声データからの周囲音声区間の検出を試みる。次のステップ６０６において、期間内動作判定部１３Ｂは、ユーザ音声区間及び周囲音声区間が検出され、かつ検出されたユーザ音声区間及び周囲音声区間において、上述した式（１）に示す条件が成立するか否かを判定する。ここで、肯定判定となった場合は、期間内動作有りと判定し、すなわち、端末４０Ｂのユーザが周囲の音に対して関心が有ると見なし、ステップ６０８に移行する。

ステップ６０８において、第１再生制御部１４Ｂ１は、コンテンツの再生モードを設定するための変数である変数Ｍにコンテンツの再生を停止することを表す「停止」を示す値を設定する。次のステップ６１０において、第１再生制御部１４Ｂ１は、経過時間を示す変数である変数Ｔをクリア（本実施形態では、０（零）を設定）した後、ステップ６１４に移行する。

一方、ステップ６０６において否定判定となった場合はステップ６１２に移行し、第１再生制御部１４Ｂ１は、図１８に示す復帰判定処理を行う。

復帰判定処理のステップ７００において、第１再生制御部１４Ｂ１は、変数Ｍに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ７０２に移行する。ステップ７０２において、第１再生制御部１４Ｂ１は、変数Ｔの値が所定閾値ＴＨを超えたか否かを判定し、肯定判定となった場合はステップ７０４に移行して、第１再生制御部１４Ｂ１は、変数Ｍに「出力」を示す値を設定した後、復帰判定処理を終了する。なお、ステップ７０２の処理において適用する閾値ＴＨは、例えば、図５に示す復帰判定処理のステップ３０２の処理において適用した閾値ＴＨと同様のものである。

一方、ステップ７０２において否定判定となった場合はステップ７０６に移行し、第１再生制御部１４Ｂ１は、変数Ｔの値を所定値（本実施形態では、‘１’）だけインクリメントし、その後に復帰判定処理を終了する。なお、ステップ７００において否定判定となった場合は、以上のステップ７０２〜ステップ７０６の処理を実行することなく、復帰判定処理を終了する。復帰判定処理が終了すると、図１７に示すコンテンツ再生処理のステップ６１４に移行する。

ステップ６１４において、第１再生制御部１４Ｂ１は、以上の処理によって変数Ｍに設定されている値を再生モード情報としてサーバ３０Ｂに送信する。

一方、サーバ３０Ｂは、端末４０ＢからＷｅｂ指定情報を受信すると、受信したＷｅｂ指定情報により指定されたＷｅｂニュースを、ネットワーク８０やインターネット等を介して取得する。また、サーバ３０Ｂは、取得したＷｅｂニュースを読み上げる音声データを生成してバッファメモリ１５Ａに一旦記憶した後に端末４０Ｂに順次送信する。この際、サーバ３０Ｂは、端末４０Ｂから受信した再生モード情報により示される再生モードでＷｅｂニュースが再生されるように、Ｗｅｂニュースの読み上げを行う音声データを端末４０Ｂに１フレーム分毎に送信する。

そこで、次のステップ６１６において、再生部５４は、サーバ３０Ｂからの１フレーム分毎の音声データの受信待ちを行い、該音声データが受信されると肯定判定となってステップ６１８に移行する。

ステップ６１８において、再生部５４は、サーバ３０Ｂから受信した音声データをヘッドセット６０Ａのスピーカ６４に送信することによって該音声データにより示される音を再生する。次のステップ６２０において、再生部５４は、ユーザによる端末４０Ｂの利用が終了したか否かを判定し、否定判定となった場合はステップ６００に戻り、肯定判定となった時点でコンテンツ再生処理を終了する。ここで、ステップ６００〜ステップ６２０の処理を繰り返し実行する際に、送信制御部５２Ｂは、ステップ６００の処理において、上記特定情報における、それまでに送信していないＷｅｂニュースを指定するＷｅｂ指定情報をサーバ３０Ｂに送信する。

なお、本実施形態では、ステップ６２０による端末４０Ｂの利用が終了したか否かの判定を、上記特定情報によって特定される全てのＷｅｂニュースに対応するＷｅｂ指定情報をサーバ３０Ｂに送信したか否かを判定することにより行っている。但し、これに限るものではなく、例えば、ユーザによってコンテンツ再生処理の終了を指示する指示入力が入力部４４を介して行われたか否かを判定することにより、端末４０Ｂの利用が終了したか否かを判定する形態としてもよい。また、例えば、端末４０Ｂの電源スイッチがオフ状態とされたか否かを判定することにより、端末４０Ｂの利用が終了したか否かを判定する形態としてもよい。

一方、サーバ３０Ｂは、端末４０Ｂからのアクセスが開始された際（本実施形態では、Ｗｅｂ指定情報が受信された際）にサーバ処理プログラム３３Ｃを実行させることにより、図１９に示すサーバ処理が行われる。

サーバ処理のステップ１７０において、第２再生制御部１４Ｂ２は、変数Ｍにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。次のステップ１７２において、音声コンテンツ生成部１６Ａは、端末４０Ｂから受信されたＷｅｂ指定情報により指定されたＷｅｂニュースの受信を試みる。次のステップ１７４において、音声コンテンツ生成部１６Ａは、Ｗｅｂニュースが受信されたか否かを判定し、否定判定となった場合は後述するステップ１７８に移行する一方、肯定判定となった場合はステップ１７６に移行する。

ステップ１７６において、音声コンテンツ生成部１６Ａは、受信されたＷｅｂニュースの読み上げを行う音声データを生成し、メモリ３２の所定の記憶領域に記憶する。この際、音声コンテンツ生成部１６Ａは、本サーバ処理の実行を開始して最初にステップ１７６を実行する際には、上記所定の記憶領域の先頭アドレスに、該記憶領域に対応する第１読み出しポインタを設定する。

次のステップ１７８において、第２再生制御部１４Ｂ２は、端末４０Ｂからの再生モード情報の受信待ちを行い、ステップ１７８において肯定判定となった場合は、受信した再生モード情報を変数Ｍに代入した後、ステップ１８０に移行する。ステップ１８０において、第２再生制御部１４Ｂ２は、図１３に示す出力処理を行う。なお、該出力処理は第１実施形態と同様であるので、ここでの説明は省略する。出力処理が終了すると、図１９に示すサーバ処理のステップ１８２に移行する。

ステップ１８２において、第２再生制御部１４Ｂ２は、端末４０Ｂからのアクセスが終了したか否かを判定し、否定判定となった場合はステップ１７２に戻る一方、肯定判定となった時点でサーバ処理を終了する。

以上、詳細に説明したように、本実施形態では、第１実施形態と同様の効果を奏することができると共に、端末４０Ｂからサーバ３０Ｂへの周囲音声データ及びユーザ音声データの送信を行う必要がないため、該送信のための通信量を削減することができる。

〔第３実施形態〕
第３実施形態では、コンテンツ再生装置１０を、マイクアレイ及びカメラを内蔵した端末及びヘッドセットを有するシステムに適用した場合について説明する。

図２０には、本実施形態に係る端末４０Ｃ及びヘッドセット６０Ａが示されている。なお、図２０における図１４と同一の構成要素には図１４と同一の符号を付して、その説明を極力省略する。

図２０に示すように、本実施形態に係る端末４０Ｃは、カメラ５８及びキーボード５９が新たに設けられている点、送信部５０Ｂ及び受信部５０Ｄが設けられていない点が第２実施形態に係る端末４０Ｂと異なっている。また、本実施形態に係る端末４０Ｃは、マイク５６Ａに代えてマイクアレイ５６Ｂが設けられている点が第２実施形態に係る端末４０Ｂと異なっている。

また、本実施形態に係る端末４０Ｃは、音声取得部１１Ｂが、該音声取得部１１Ｂとは異なる処理を行う音声取得部１１Ｃとされている点が第２実施形態に係る端末４０Ｂと異なっている。また、本実施形態に係る端末４０Ｃは、動作検出部１２Ｂが、該動作検出部１２Ｂとは異なる処理を行う動作検出部１２Ｃとされている点が第２実施形態に係る端末４０Ｂと異なっている。また、本実施形態に係る端末４０Ｃは、期間内動作判定部１３Ｂが、該期間内動作判定部１３Ｂとは異なる処理を行う期間内動作判定部１３Ｃとされている点が第２実施形態に係る端末４０Ｂと異なっている。また、本実施形態に係る端末４０Ｃは、第１再生制御部１４Ｂ１が、該第１再生制御部１４Ｂ１とは異なる処理を行う再生制御部１４Ｃとされている点が第２実施形態に係る端末４０Ｃと異なっている。

さらに、本実施形態に係る端末４０Ｃは、記憶部４３にコンテンツが記憶されている点が第２実施形態に係る端末４０Ｂと異なっている。なお、本実施形態では、サーバ３０Ｂは用いられていない。

端末４０Ｃのマイクアレイ５６Ｂは、複数のマイク素子が並んで配置されたものであり、各マイク素子により、端末４０Ｃのユーザの周囲の音を集音し、該音を示す音声データを出力する。また、カメラ５８は、端末４０Ｃのユーザの顔を撮影することができるものである。なお、本実施形態では、カメラ５８が端末４０Ｃにおける表示部４５の上部に設けられているが、これに限るものではなく、端末４０Ｃのユーザの顔が撮影できる位置であれば、カメラ５８の位置は何れの位置であってもよい。

本実施形態に係る音声取得部１１Ｃは、先に説明した音声取得部１１に相当し、マイクアレイ５６Ｂの複数のマイク素子によって得られた音声データ（周囲音声データ）を取得することにより、ユーザの周囲の音を取得する。本実施形態に係る音声取得部１１Ｃは、端末４０Ｃのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態で各マイク素子によって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。また、音声取得部１１Ｃは、各マイク素子によって得られた音声データの、対応するマイク素子によって得られた上記雑音を示す音声データに対する比率であるＳＮＲをマイク素子の各々毎に求める。そして、音声取得部１１Ｃは、求めたＳＮＲが所定閾値以上である区間を端末４０Ｃのユーザの周囲における音声区間（周囲音声区間）として検出する。従って、この周囲音声区間は、最大でマイク素子の数と同じ数まで、一部期間または全期間が重複した状態で検出され得る。

また、動作検出部１２Ｃは、先に説明した動作検出部１２に相当し、ヘッドセット６０Ａのマイク６２によって得られた音声データ（ユーザ音声データ）に加えて、マイクアレイ５６Ｂによって得られた音声データ（周囲音声データ）を取得する。また、動作検出部１２Ｃは、カメラ５８による撮影によって得られた周囲の映像を示す画像データ（以下、「ユーザ画像データ」という。）を取得する。さらに、動作検出部１２Ｃは、キーボード５９に対するユーザによる入力状態を示す信号（以下、「キーボード入力信号」という。）を取得する。そして、動作検出部１２Ｃは、取得したユーザ音声データ、周囲音声データ、ユーザ画像データ及びキーボード入力信号に基づいて、端末４０Ｃのユーザの周囲の音に対する反応動作を検出する。

本実施形態に係る動作検出部１２Ｃは、端末４０Ｃのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク６２によって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。そして、動作検出部１２Ｃは、マイク６２によって得られた音声データの、上記雑音を示す音声データに対する比率であるＳＮＲが所定閾値以上である区間を、端末４０Ｃのユーザの発話による音声区間（ユーザ音声区間）として検出する。

また、動作検出部１２Ｃは、マイクアレイ５６Ｂにより得られた複数の周囲音声データに基づいて、端末４０Ｃの周辺の音源の方向を推定する。なお、該音源の方向の推定は、例えば、「及川他、“ＭａｔｃｈｉｎｇＰｕｒｓｕｉｔを用いた音源方向推定の最適化”、日本音響学会講演論文集、２００５年９月」に記載の技術等の従来既知の技術で実現できる。このため、ここでの音源の方向の推定方法の詳細な説明は省略する。なお、以下では、時刻ｔにおいて推定された音源の方向をｏａ（ｔ）とする。

また、動作検出部１２Ｃは、一例として特開２００７−２００２９８号公報に記載の技術等の従来既知の技術を用いて、ユーザ画像データにより示される、端末４０Ｃのユーザの顔の画像から該ユーザの頭部の向きをリアルタイムで検出する。そして、動作検出部１２Ｃでは、推定した音源の方向ｏａ（ｔ）及び検出したユーザの頭部の向きに基づいて、次のようにユーザの頭部の動作を検出する。

すなわち、動作検出部１２Ｃは、まず、ユーザ画像データに基づいて、端末４０Ｃのユーザの胴体の正面方向の角度を０（零）度とした場合の頭部の向きの角度を得る。ここで、時刻ｔのときに得られる水平方向の角度をｈ（ｔ）とし、垂直方向の角度をｖ（ｔ）とする。また、水平方向の角度については、ユーザの右手側を＋１〜＋１７９度の範囲とし、左手側を−１〜−１７９度の範囲とし、背面方向を±１８０度とし、垂直方向の角度については、上側を＋１〜＋９０度の範囲とし、下側を−１〜−９０度の範囲とする。

次に、動作検出部１２Ｃは、次の式（２）〜式（５）の少なくとも１つの条件が成立した場合に、周囲の音に対する端末４０Ｃのユーザの反応動作としてユーザの頭部が動作（以下、「頭部反応動作」という。）したと判断する。

式（２）は、ユーザの頭部が、閾値TH_STで規定される所定範囲内で正面を向いた状態（|h(t-a)|<TH_ST）から、一定時間DH内に閾値TH_RTで規定される範囲内で音源の方向（oa(t-a)）を向く動作（以下、「振り向き動作」という。）を行う場合の条件を表す。また、式（３）は、ユーザの頭部が、一定時間DH2内に閾値TH_RT2で規定される角度を超えて下方向を向き、その後の一定時間DH2内に該角度を超えて上方向を向く動作（以下、「頷き動作」という。）を行う場合の条件を表す。また、式（４）、式（５）は、ユーザの頭部が、一定時間DH2内に閾値TH_RT3で規定される角度を超えて左右の一方の方向を向き、その後の一定時間DH2内に該角度を超えて左右の他方の方向を向く動作（以下、「首振り動作」という。）を行う場合の条件を表す。

また、動作検出部１２Ｃは、一例として特開２０１４−３９６１７号公報に記載の技術等の従来既知の技術を用いて、ユーザ画像データにより示される、端末４０Ｃのユーザの顔の画像から該ユーザの視線の向きをリアルタイムで検出する。そして、動作検出部１２Ｃは、上述した式（２）により示される振り向き動作と同様の条件が成立した場合に、周囲の音に対する端末４０Ｃのユーザの反応動作としてユーザの視線が動作（以下、「視線反応動作」という。）したと判断する。なお、ここで、式（２）の条件の成否を判断する場合には、頭部の向きを視線の向きに置き換える。

また、動作検出部１２Ｃは、一例として特許第５２０４３２３号公報に記載の技術等の従来既知の技術を用いて、ユーザ画像データにより示される、端末４０Ｃのユーザの顔の画像からユーザの在席状況を判断する。そして、動作検出部１２Ｃは、ユーザが在席している状態から在席していない状態に変化した場合に、周囲の音に対する端末４０Ｃのユーザの反応動作としてユーザの体が移動（以下、「移動反応動作」という。）したと判断する。

さらに、動作検出部１２Ｃは、キーボード入力信号に基づいて、所定時間当たり（本実施形態では、１秒当たり）のキーの入力数の平均値（以下、「平均入力数」という。）を導出する。そして、動作検出部１２Ｃは、所定期間（本実施形態では、２秒）経過した後の平均入力数が、経過前の平均入力数に対して所定閾値（本実施形態では、経過前の平均入力数の５０％）以上減少したか否かを判断する。そして、動作検出部１２Ｃは、上記所定閾値以上減少したと判断した場合に、周囲の音に対する端末４０Ｃのユーザの反応動作としてユーザのキーボード５９に対する入力数の低下反応、すなわち、キーボード入力の停滞（以下、「キーボード反応動作」という。）が生じたと判断する。

本実施形態でも、音声取得部１１Ｃにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部１２Ｃにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイクアレイ５６Ｂ及びマイク６２の各々の集音特性の違いや、端末４０Ｃのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。

一方、期間内動作判定部１３Ｃは、先に説明した期間内動作判定部１３に相当し、音声取得部１１Ｃによって音声区間が検出された時点から所定の期間内に動作検出部１２Ｃによる反応動作の検出が有るか否か無いかを判定することにより、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部１３Ｃでは、次の式（６）〜式（１０）に示す５つの条件のうち、少なくとも１つの条件が成立し、かつ該成立している状態が所定時間以上継続している場合に、期間内動作有りと判定し、周囲の音に対して端末４０Ｃのユーザの関心が有ると推定できる。なお、式（６）〜式（１０）において、ｔｏｓは周囲音声区間の開始時刻を表し、ｔｏｅは周囲音声区間の終了時刻を表し、ｔｕｓはユーザ音声区間の開始時刻を表し、ＤＴは上述したように所定時間を表す。また、ｔｈは頭部反応動作を表し、ｔｅは視線反応動作を表し、ｔｍは移動反応動作を表し、さらにｔｉはキーボード反応動作を表す。

すなわち、式（６）は、周囲音声区間の開始時刻ｔｏｓから、周囲音声区間の終了時刻ｔｏｅに所定時間ＤＴを加算して得られた時刻までの期間（反応判定期間）に、ユーザ音声区間の開始時刻ｔｕｓがあることを示している。同様に、式（７）は、反応判定期間に頭部反応動作が行われたことを示しており、式（８）は、反応判定期間に視線反応動作が行われたことを示している。また、式（９）は、反応判定期間に移動反応動作が行われたことを示しており、式（１０）は、反応判定期間にキーボード反応動作が行われたことを示している。

ここで、本実施形態では、上述したように、複数のマイク素子の各々に対応して、複数の周囲音声区間が、一部期間または全期間が重複した状態で検出される場合がある。この場合、本実施形態では、例えば、複数の周囲音声区間の開始時刻ｔｏｓのうちの最も早い時刻から、該複数の周囲音声区間の終了時刻ｔｏｅのうちの最も遅い時刻に所定時間ＤＴを加算して得られた時刻までの期間を、反応判定期間として適用する。但し、この形態に限らず、例えば、複数の周囲音声区間の各々別に反応判定期間を導出する形態としてもよい。この場合、各反応判定期間のうちの少なくとも１つの期間について式（６）〜式（１０）に示す条件のうちの少なくとも１つが成立する場合に、期間内動作有りと判定することで、周囲の音に対して端末４０Ｃのユーザの関心が有ると推定できる形態等を適用することができる。

一方、再生制御部１４Ｃは、先に説明した再生制御部１４に相当し、期間内動作判定部１３Ｃによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部１４Ｃでは、期間内動作判定部１３Ｃによって期間内動作有りと判定された場合、すなわち、ユーザが周囲の音に対して関心が有ると推定できる場合には音声コンテンツの再生音量を低下する制御を行い、その他の場合には音声コンテンツの再生音量を通常の音量とする制御を行う。

上述した端末４０Ｃは、図２１に示す端末４０Ｃによって実現することができる。なお、図２１における図１６と同一の構成要素には図１６と同一の符号を付して、その説明を極力省略する。

図２１に示すように、本実施形態に係る端末４０Ｃは、バス４９に、マイク５６Ａに代えてマイクアレイ５６Ｂが接続され、かつカメラ５８及びキーボード５９が接続されている。また、本実施形態に係る端末４０Ｃの記憶部４３には、コンテンツ再生プログラム４３Ｂに代えて、端末４０Ｃを図２０に示した端末４０Ｃとして機能させるためのコンテンツ再生プログラム４３Ｃが記憶されている。コンテンツ再生プログラム４３Ｃは、該プログラム４３Ｃが書き込まれた記録媒体９６が媒体読み書き装置４６にセットされ、媒体読み書き装置４６が記録媒体９６からのコンテンツ再生プログラム４３Ｃの読み出しを行うことで、記憶部４３へ記憶される。ＣＰＵ４１は、コンテンツ再生プログラム４３Ｃを記憶部４３から読み出してメモリ４２に展開し、コンテンツ再生プログラム４３Ｃが有するプロセスを順次実行する。

コンテンツ再生プログラム４３Ｃは、音声取得プロセス４３Ｃ１、動作検出プロセス４３Ｃ２、期間内動作判定プロセス４３Ｃ３、再生制御プロセス４３Ｃ４及び再生プロセス４３Ｃ５を有する。ＣＰＵ４１は、音声取得プロセス４３Ｃ１を実行することで、図２０に示す音声取得部１１Ｃとして動作する。また、ＣＰＵ４１は、動作検出プロセス４３Ｃ２を実行することで、図２０に示す動作検出部１２Ｃとして動作する。また、ＣＰＵ４１は、期間内動作判定プロセス４３Ｃ３を実行することで、図２０に示す期間内動作判定部１３Ｃとして動作する。また、ＣＰＵ４１は、再生制御プロセス４３Ｃ４を実行することで、図２０に示す再生制御部１４Ｃとして動作する。さらに、ＣＰＵ４１は、再生プロセス４３Ｃ５を実行することで、図２０に示す再生部５４として動作する。

以上により、コンテンツ再生プログラム４３Ｃを実行した端末４０Ｃが、図２０に示す端末４０Ｃとして機能することになる。なお、コンテンツ再生プログラム４３Ｃは開示の技術に係るコンテンツ再生プログラムの一例である。

次に、本実施形態の作用を説明する。なお、以下では、端末４０Ｃのユーザが、端末４０Ｃに接続されたヘッドセット６０Ａを装着した状態で、端末４０Ｃを用いて音声コンテンツを再生する場合を想定する。この場合、端末４０Ｃのユーザは、端末４０Ｃによってコンテンツ再生プログラム４３Ｃを実行させることで、図２２に示すコンテンツ再生処理が行われる。以下では、錯綜を回避するため、端末４０Ｃのユーザによって端末４０Ｃにより再生して欲しい音声コンテンツを示す音声データが記憶部４３に予め記憶されている場合について説明する。

コンテンツ再生処理のステップ６５０において、再生制御部１４Ｃは、コンテンツの再生モードを設定するための変数である変数Ｍにコンテンツを再生することを表す「出力」を示す値をデフォルトとして設定する。

次のステップ６５２において、動作検出部１２Ｃは、ユーザ音声データからのユーザ音声区間の検出を試み、次のステップ６５４において、音声取得部１１Ｃは、周囲音声データからの周囲音声区間の検出を試みる。次のステップ６５６において、動作検出部１２Ｃは、端末４０Ｃのユーザによる上述した移動反応動作の検出を試み、次のステップ６５８において、動作検出部１２Ｃは、端末４０Ｃのユーザの上述した頭部反応動作の検出を試みる。次のステップ６６０において、動作検出部１２Ｃは、端末４０Ｃのユーザによる上述した視線反応動作の検出を試み、次のステップ６６２において、動作検出部１２Ｃは、端末４０Ｃのユーザによる上述したキーボード反応動作の検出を試みる。

次のステップ６６４において、期間内動作判定部１３Ｃは、式（６）〜式（１０）に示す５つの条件のうち、少なくとも１つの条件が成立するか否かを判定することにより、端末４０Ｃのユーザが、反応判定期間内に周囲の音に対して反応動作を行ったか否かを判定する。ここで、肯定判定となった場合はステップ６６６に移行する。

ステップ６６６において、期間内動作判定部１３Ｃは、ステップ６６４の処理において成立すると判定した条件の持続時間を示す変数である変数ＫＴの値が所定閾値以上となったか否かを判定し、肯定判定となった場合はステップ６６８に移行する。ステップ６６８において、再生制御部１４Ｃは、変数Ｍにコンテンツの再生状態を制御することを表す「制御」を示す値を設定し、その後にステップ６７２に移行する。一方、ステップ６６６において否定判定となった場合はステップ６７０に移行し、期間内動作判定部１３Ｃは、変数ＫＴの値を該変数ＫＴの値に経過時間を示す変数Ｔの値を加算することにより更新し、その後にステップ６７２に移行する。

ステップ６７２において、再生制御部１４Ｃは、変数Ｔをクリア（本実施形態では、０（零）を設定）した後、ステップ６７８に移行する。

一方、ステップ６６４において否定判定となった場合はステップ６７４に移行し、期間内動作判定部１３Ｃは、変数ＫＴをクリアした後、ステップ６７６に移行して、再生制御部１４Ｃは、図１８に示す復帰判定処理を行った後、ステップ６７８に移行する。ステップ６７８において、再生制御部１４Ｃは、図２３に示す出力処理を行う。

出力処理のステップ４５０において、再生制御部１４Ｃは、記憶部４３に記憶されている音声コンテンツから１フレーム分の音声データＳ（ｔ）を読み出す。次のステップ４５２において、再生制御部１４Ｃは、変数Ｍに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合は後述するステップ４５６に移行する一方、否定判定となった場合はステップ４５４に移行する。

ステップ４５４において、再生制御部１４Ｃは、次の式（１１）により、音声データＳ（ｔ）に対して、該音声データＳ（ｔ）により再生される音の音量を減少させるための変換を行い、その後にステップ４５６に移行する。なお、式（１１）におけるＧは、音量の減少の割合を示す変数であり、本実施形態では、０（零）以上１未満の範囲内の値（本実施形態では、０．５）として予め設定されている。

ステップ４５６において、再生部５４は、音声データＳ（ｔ）をヘッドセット６０Ａのスピーカ６４に送信することによって該音声データにより示される音を再生し、その後に出力処理を終了する。出力処理が終了すると、図２２に示すコンテンツ再生処理のステップ６８０に移行する。

ステップ６８０において、再生部５４は、ユーザによる端末４０Ｃの利用が終了したか否かを判定し、否定判定となった場合はステップ６５２に戻り、肯定判定となった時点でコンテンツ再生処理を終了する。

なお、本実施形態では、ステップ６８０による端末４０Ｃの利用が終了したか否かの判定を、記憶部４３に記憶されている全ての音声データの再生が終了したか否かを判定することにより行っている。但し、これに限るものではなく、例えば、ユーザによってコンテンツ再生処理の終了を指示する指示入力が入力部４４を介して行われたか否かを判定することにより、端末４０Ｃの利用が終了したか否かを判定する形態としてもよい。また、例えば、端末４０Ｃの電源スイッチがオフ状態とされたか否かを判定することにより、端末４０Ｃの利用が終了したか否かを判定する形態としてもよい。

以上、詳細に説明したように、本実施形態では、第２実施形態と同様の効果を奏することができると共に、以下の効果を奏することができる。

すなわち、本実施形態では、動作検出部１２により、反応動作として、ユーザの頭部の動きを検出している。これにより、ユーザが発話していない状態であっても、ユーザの頭部の動きに応じて、コンテンツの再生を制限する制御を行うことができる。

また、本実施形態では、動作検出部１２により、反応動作として、ユーザによるキーボードに対する入力頻度の変化を検出している。これにより、ユーザが発話していない状態であっても、ユーザによるキーボードに対する入力頻度の変化に応じて、コンテンツの再生を制限する制御を行うことができる。

また、本実施形態では、動作検出部１２により、反応動作として、ユーザの移動動作を検出している。これにより、ユーザが発話していない状態であっても、ユーザによる移動動作に応じて、コンテンツの再生を制限する制御を行うことができる。

また、本実施形態では、動作検出部１２により、反応動作として、ユーザの視線の動きを検出している。これにより、ユーザが発話していない状態であっても、ユーザによる視線の動きに応じて、コンテンツの再生を制限する制御を行うことができる。

また、本実施形態では、再生制御部１４により、期間内動作判定部１３により期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合に、コンテンツの再生音量を低下させる制御を行っている。また、本実施の形態では、コンテンツの再生音量を低下させる制御を行っている場合で、かつ期間内動作判定部１３により期間内動作無しと判定された場合、すなわち、周囲の音に対してユーザの関心が無くなったと推定できる場合に、コンテンツの再生音量を元に戻す制御を行っている。これにより、ユーザが周囲の音に対して関心が有ると推定される場合にも、音量を低減してコンテンツの再生を継続することができるため、ユーザにとっての利便性を、より向上させることができる。

また、本実施形態では、動作検出部１２により、ユーザの頭部の動きとして、該頭部の水平方向の回転動作を検出している。これにより、ユーザの振り向き動作を反応動作として検出することができる。

また、本実施形態では、動作検出部１２により、周囲の音の発生源の方向に対する頭部の水平方向の回転動作を検出している。これにより、ユーザによる周囲の音に対する反応動作を、より高精度で検出することができる。

また、本実施形態では、動作検出部１２により、ユーザの頭部の動きとして、頭部の振動を検出している。これにより、ユーザの頷き動作を反応動作として検出することができる。

また、本実施形態では、動作検出部１２により、キーボードに対する入力頻度の変化として、該入力頻度が所定量以上低下する動作を検出している。これにより、ユーザによる周囲の音に対する反応動作を、より高精度で検出することができる。

また、本実施形態では、動作検出部１２により、周囲の音の発生源の方向に対する視線の動きを検出している。これにより、ユーザによる周囲の音に対する反応動作を、より高精度で検出することができる。

さらに、本実施形態では、取得した周囲の音に含まれる音声区間が開始された時点を始点とし、該音声区間が終了して所定時間経過した時点を終点とする期間（反応判定期間）内に、反応動作を所定期間以上検出した場合に、周囲の音に対してユーザの関心が有ると推定している。これにより、周囲の音に対するユーザの関心の有無を、より高精度で推定することができる。

〔第４実施形態〕
第４実施形態では、コンテンツ再生装置１０を、マイク、マイクアレイ、動き検出センサ、スピーカ及びディスプレイを有するグラス型（眼鏡型）のウェアラブル端末（以下、単に「端末」という。）に適用した場合について説明する。

図２４には、本実施形態に係る端末４０Ｄが示されている。なお、図２４における図２０と同一の構成要素には図２０と同一の符号を付して、その説明を極力省略する。

図２４に示すように、本実施形態に係る端末４０Ｄは、動き検出センサ５１、マイク５３、スピーカ５５及びディスプレイ５７が新たに設けられている点が第３実施形態に係る端末４０Ｃと異なっている。また、本実施形態に係る端末４０Ｄは、カメラ５８、キーボード５９、受信部５０Ａ及び送信部５０Ｃが設けられていない点が第３実施形態に係る端末４０Ｃと異なっている。

また、本実施形態に係る端末４０Ｄは、動作検出部１２Ｃが、該動作検出部１２Ｃとは異なる処理を行う動作検出部１２Ｄとされている点が第３実施形態に係る端末４０Ｃと異なっている。また、本実施形態に係る端末４０Ｄは、期間内動作判定部１３Ｃが、該期間内動作判定部１３Ｃとは異なる処理を行う期間内動作判定部１３Ｄとされている点が第３実施形態に係る端末４０Ｃと異なっている。また、本実施形態に係る端末４０Ｄは、再生制御部１４Ｃが、該再生制御部１４Ｃとは異なる処理を行う再生制御部１４Ｄとされている点が第３実施形態に係る端末４０Ｃと異なっている。

さらに、本実施形態に係る端末４０Ｄは、記憶部４３に記憶されているコンテンツが音声付きの動画像を示すコンテンツ（以下、「映像コンテンツ」という。）とされている点が第３実施形態に係る端末４０Ｃと異なっている。なお、本実施形態では、ヘッドセット６０Ａは用いられていない。

動き検出センサ５１は、端末４０Ｄの動きを検出するためのセンサであり、本実施形態では、ジャイロセンサを適用しているが、これに限るものではない。例えば、３軸加速度センサ、電子コンパス等の端末４０Ｄの動きを検出することのできる他のセンサを適用してもよい。

また、マイク５３は、端末４０Ｄのユーザによる発話を集音するものであり、端末４０Ｄのユーザが端末４０Ｄを装着した際に該ユーザの口元に近接するように端末４０Ｄに設けられている。本実施形態では、マイク５３として、ユーザの口元の方向から発せられる音声を精度よく集音する指向性マイクを用いているが、これに限るものではない。端末４０Ｄのユーザと他のユーザとの距離や、他のユーザの人数等によっては、マイク５３として無指向性のマイクを用いてもよい。また、スピーカ５５は、端末４０Ｄのユーザが端末４０Ｄを装着した際に該ユーザの耳に近接するように端末４０Ｄに設けられている。さらに、ディスプレイ５７は、端末４０Ｄの一方の側面に設けられた映像投影部を有し、該一方の側面側のレンズの一部に映像が投影されるものとされているが、映像の表示形態は、このような投影方式に限定されるものではない。

一方、動作検出部１２Ｄは、先に説明した動作検出部１２に相当し、動き検出センサ５１によって得られた端末４０Ｄの動きの状態を示す信号（以下、「動き状態信号」という。）及びマイク５３によって得られた音声データ（ユーザ音声データ）を取得する。また、動作検出部１２Ｄは、マイクアレイ５６Ｂによって得られた音声データ（周囲音声データ）を取得する。そして、動作検出部１２Ｄは、動き状態信号、ユーザ音声データ及び周囲音声データに基づいて、端末４０Ｄのユーザの周囲の音に対する反応動作を検出する。

本実施形態に係る動作検出部１２Ｄは、端末４０Ｄのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態でマイク５３によって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。そして、動作検出部１２Ｄは、マイク５３によって得られた音声データの、上記雑音を示す音声データに対する比率であるＳＮＲが所定閾値以上である区間を、端末４０Ｄのユーザの発話による音声区間（ユーザ音声区間）として検出する。

また、動作検出部１２Ｄは、第３実施形態に係る動作検出部１２Ｃと同様に、マイクアレイ５６Ｂにより得られた複数の周囲音声データに基づいて、端末４０Ｄの周辺の音源の方向ｏａ（ｔ）を推定する。

また、動作検出部１２Ｄは、推定した音源の方向ｏａ（ｔ）及び動き状態信号に基づいて、次のようにユーザの頭部の動作を検出する。

すなわち、動作検出部１２Ｄは、時刻ｔの時点で動き検出センサ５１からの動き状態信号によって得られる水平方向の角速度をｖｈ（ｔ）とし、垂直方向の角速度をｖｖ（ｔ）とする。また、水平方向の角度については、時計回り方向を＋１〜＋１７９度の範囲とし、反時計回り方向を−１〜−１７９度の範囲とし、背面方向を±１８０度とし、垂直方向の角度については、上回りを＋１〜＋９０度の範囲とし、下回りを−１〜−９０度の範囲とする。

次に、動作検出部１２Ｄは、次の式（１２）〜式（１５）の少なくとも１つの条件が成立した場合に、周囲の音に対する端末４０Ｄのユーザの反応動作としてユーザの頭部が動作（頭部反応動作）したと判断する。

式（１２）は、ユーザの頭部が、一定時間DH1内に閾値TH_RT1で規定される範囲内で音源の方向（oa(t-a)）を向く動作（振り向き動作）を行う場合の条件を表す。また、式（１３）は、ユーザの頭部が、一定時間DH2内に閾値TH_RT2で規定される角度を超えて下方向を向き、その後の一定時間DH2内に該角度を超えて上方向を向く動作（頷き動作）を行う場合の条件を表す。さらに、式（１４）及び式（１５）は、ユーザの頭部が、一定時間DH2内に閾値TH_RT2で規定される角度を超えて左右の一方の方向を向き、その後の一定時間DH2内に該角度を超えて左右の他方の方向を向く動作（首振り動作）を行う場合の条件を表す。

また、動作検出部１２Ｄは、動き状態信号に基づいて、ユーザの歩行動作を、従来既知の技術（一例として、万歩計（登録商標）と同様の技術）により検出する。そして、動作検出部１２Ｄは、所定歩数（本実施形態では、５歩）以上の歩行動作を検出した場合に、周囲の音に対する端末４０Ｄのユーザの反応動作としてユーザが移動動作（移動反応動作）を行ったと判断する。

本実施形態でも、音声取得部１１Ｃにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部１２Ｄにおいてユーザ音声区間を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。マイクアレイ５６Ｂ及びマイク５３の各々の集音特性の違いや、端末４０Ｄのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。

一方、期間内動作判定部１３Ｄは、先に説明した期間内動作判定部１３に相当し、音声取得部１１Ｃによって検出された音声区間から所定の期間内に動作検出部１２Ｄによる反応動作の検出が所定の頻度で有るか無いかに基づいて、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部１３Ｄでは、次の式（１６）〜式（１８）に示す３つの条件のうち、少なくとも１つの条件が成立し、かつ該成立している状態が所定回数以上継続している場合に、周囲の音に対して端末４０Ｄのユーザの関心が有ると推定する。なお、式（１６）〜式（１８）において、ｔｏｓは周囲音声区間の開始時刻を表し、ｔｏｅは周囲音声区間の終了時刻を表し、ｔｕｓはユーザ音声区間の開始時刻を表し、ＤＴは上述したように所定時間を表す。また、ｔｈは頭部反応動作を表し、ｔｍは移動反応動作を表す。

すなわち、式（１６）は、周囲音声区間の開始時刻ｔｏｓから、周囲音声区間の終了時刻ｔｏｅに所定時間ＤＴを加算して得られた時刻までの期間（反応判定期間）に、ユーザ音声区間の開始時刻ｔｕｓがあることを示している。同様に、式（１７）は、反応判定期間に頭部反応動作が行われたことを示しており、さらに、式（１８）は、反応判定期間に移動反応動作が行われたことを示している。

一方、再生制御部１４Ｄは、先に説明した再生制御部１４に相当し、期間内動作判定部１３Ｄによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部１４Ｄでは、期間内動作判定部１３Ｄによって期間内動作有りと判定される場合、すなわち、ユーザが周囲の音に対して関心が有ると推定できる場合には映像コンテンツの再生速度を低下する制御を行い、その他の場合には映像コンテンツの再生速度を通常の速度とする制御を行う。

上述した端末４０Ｄは、図２５に示す端末４０Ｄによって実現することができる。なお、図２５における図２１と同一の構成要素には図２１と同一の符号を付して、その説明を極力省略する。

図２５に示すように、本実施形態に係る端末４０Ｄは、バス４９に、表示部４５に代えてディスプレイ５７が接続され、かつ動き検出センサ５１、マイク５３及びスピーカ５５が接続されている。また、本実施形態に係る端末４０Ｄの記憶部４３には、コンテンツ再生プログラム４３Ｃに代えて、端末４０Ｄを図２４に示した端末４０Ｄとして機能させるためのコンテンツ再生プログラム４３Ｄが記憶されている。コンテンツ再生プログラム４３Ｄは、該プログラム４３Ｄが書き込まれた記録媒体９６が媒体読み書き装置４６にセットされ、媒体読み書き装置４６が記録媒体９６からのコンテンツ再生プログラム４３Ｄの読み出しを行うことで、記憶部４３へ記憶される。ＣＰＵ４１は、コンテンツ再生プログラム４３Ｄを記憶部４３から読み出してメモリ４２に展開し、コンテンツ再生プログラム４３Ｄが有するプロセスを順次実行する。

コンテンツ再生プログラム４３Ｄは、音声取得プロセス４３Ｄ１、動作検出プロセス４３Ｄ２、期間内動作判定プロセス４３Ｄ３、再生制御プロセス４３Ｄ４及び再生プロセス４３Ｄ５を有する。ＣＰＵ４１は、音声取得プロセス４３Ｄ１を実行することで、図２４に示す音声取得部１１Ｃとして動作する。また、ＣＰＵ４１は、動作検出プロセス４３Ｄ２を実行することで、図２４に示す動作検出部１２Ｄとして動作する。また、ＣＰＵ４１は、期間内動作判定プロセス４３Ｄ３を実行することで、図２４に示す期間内動作判定部１３Ｄとして動作する。また、ＣＰＵ４１は、再生制御プロセス４３Ｄ４を実行することで、図２４に示す再生制御部１４Ｄとして動作する。さらに、ＣＰＵ４１は、再生プロセス４３Ｄ５を実行することで、図２４に示す再生部５４として動作する。

以上により、コンテンツ再生プログラム４３Ｄを実行した端末４０Ｄが、図２４に示す端末４０Ｄとして機能することになる。なお、コンテンツ再生プログラム４３Ｄは開示の技術に係るコンテンツ再生プログラムの一例である。

次に、本実施形態の作用を説明する。なお、以下では、端末４０Ｄのユーザが、端末４０Ｄを装着した状態で、端末４０Ｄを用いて映像コンテンツを再生する場合を想定する。この場合、端末４０Ｄのユーザは、端末４０Ｄによってコンテンツ再生プログラム４３Ｄを実行させることで、図２６に示すコンテンツ再生処理が行われる。以下では、錯綜を回避するため、端末４０Ｄのユーザによって端末４０Ｄにより再生して欲しい映像コンテンツを示す動画像データ及び音声データを含む映像データが記憶部４３に予め記憶されている場合について説明する。また、図２６の図２２と同一の処理を実行するステップには図２２と同一のステップ番号を付して、その説明を極力省略する。

コンテンツ再生処理のステップ６５６Ｂにおいて、動作検出部１２Ｄは、端末４０Ｄのユーザによる上述した移動反応動作の検出を試み、次のステップ６５８Ｂにおいて、動作検出部１２Ｄは、端末４０Ｄのユーザの上述した頭部反応動作の検出を試みる。

次のステップ６６４Ｂにおいて、期間内動作判定部１３Ｄは、式（１６）〜式（１８）に示す３つの条件のうち、少なくとも１つの条件が成立するか否かを判定することにより、端末４０Ｄのユーザが、反応判定期間内に周囲の音に対して反応動作を行ったか否かを判定する。ここで、肯定判定となった場合はステップ６６６Ｂに移行する。

ステップ６６６Ｂにおいて、期間内動作判定部１３Ｄは、ステップ６６４Ｂの処理において成立すると判定した条件の持続回数を示す変数である変数ＫＮの値が所定閾値以上となったか否かを判定し、肯定判定となった場合はステップ６６８に移行する。一方、ステップ６６６Ｂにおいて否定判定となった場合はステップ６７０Ｂに移行し、期間内動作判定部１３Ｄは、変数ＫＮの値を１だけインクリメントすることにより更新し、その後にステップ６７２に移行する。一方、ステップ６６４Ｂにおいて否定判定となった場合はステップ６７４Ｂに移行し、期間内動作判定部１３Ｄは、変数ＫＮをクリアした後、ステップ６７６に移行する。その後、ステップ６７８Ｂにおいて、再生制御部１４Ｄは、図２７に示す出力処理を行う。

出力処理のステップ４７０において、再生制御部１４Ｄは、変数Ｍに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ４７２に移行する。ステップ４７２において、再生制御部１４Ｄは、記憶部４３に記憶されている映像コンテンツから１フレーム分の動画像データ及び音声データを読み出し、その後に後述するステップ４７８に移行する。

一方、ステップ４７０において否定判定となった場合はステップ４７４に移行し、再生制御部１４Ｄは、記憶部４３に記憶されている映像コンテンツから複数（Ｎ）のフレーム分の動画像データ及び音声データを読み出す。次のステップ４７６において、再生制御部１４Ｄは、読み出した動画像データ及び音声データによる映像の再生速度が所定割合（本実施形態では、５０％）だけ低下するように各データを変換（補正）し、その後にステップ４７８に移行する。

ステップ４７８において、再生部５４は、以上の処理を経て得られた音声データをスピーカ５５に送信し、動画像データをディスプレイ５７に送信することで、これらの音声データ及び動画像データにより示される映像コンテンツを再生した後、出力処理を終了する。出力処理が終了すると、図２６に示すコンテンツ再生処理のステップ６８０に移行する。

以上、詳細に説明したように、本実施形態では、第３実施形態と略同様の効果を奏することができると共に、以下の効果を奏することができる。

すなわち、本実施形態では、再生制御部１４により、期間内動作判定部１３によって期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合に、コンテンツの再生速度を低下させる制御を行う。そして、本実施形態では、再生制御部１４により、コンテンツの再生速度を低下させる制御を行っている場合で、かつ期間内動作判定部１３により期間内動作無しと判定された場合、すなわち、周囲の音に対してユーザの関心が無くなったと推定できる場合に、コンテンツの再生速度を元に戻す制御を行っている。これにより、ユーザが周囲の音に対して関心を有していると推定される場合にも、再生速度を低減してコンテンツの再生を継続することができるため、ユーザにとっての利便性を、より向上させることができる。

さらに、本実施形態では、取得した周囲の音の発音が開始された時点を始点とし、該発音が終了して所定時間経過した時点を終点とする期間内に、反応動作を所定期間当たり所定回数以上検出した場合に、期間内動作有りと判定している。これにより、周囲の音に対するユーザの関心の有無を、より高精度で推定することができる。

〔第５実施形態〕
第５実施形態では、第１実施形態と同様に、コンテンツ再生装置１０を、サーバ、端末（据え置き型のＰＣ）、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。

図２８には、本実施形態に係るサーバ３０Ｃ、端末４０Ａ、ヘッドセット６０Ｂ及び収録機７０が示されている。なお、図２８における図６と同一の構成要素には図６と同一の符号を付して、その説明を極力省略する。

図２８に示すように、本実施形態に係るサーバ３０Ｃは、動作検出部１２Ａが、該動作検出部１２Ａとは異なる処理を行う動作検出部１２Ｅとされている点が第１実施形態に係るサーバ３０Ａと異なっている。また、本実施形態に係るヘッドセット６０Ｂは、マイク６２が設けられていない点が第１実施形態に係るヘッドセット６０Ａと異なっている。従って、端末４０Ａは、ヘッドセット６０Ｂからユーザ音声データを受信することはない。

サーバ３０Ｃの動作検出部１２Ｅは、先に説明した動作検出部１２に相当し、端末４０Ａを介して収録機７０の何れかのマイク７２（以下、「特定マイク」という。）によって得られた周囲音声データを取得する。そして、動作検出部１２Ｅは、取得した周囲音声データに基づいて、端末４０Ａのユーザの周囲の音に対する反応動作を検出する。なお、本実施形態では、特定マイクとして、端末４０Ａのユーザに最も近接する他のユーザが使用するマイク７２を適用しているが、これに限定されるものではない。

本実施形態に係る動作検出部１２Ｅは、端末４０Ａのユーザや、他のユーザが会話や移動等の音を発する動作を行っていない状態で特定マイクによって得られた音声データを背景の雑音を示す音声データとして予め学習（記憶）しておく。また、動作検出部１２Ｅは、端末４０Ａのユーザのみが発話し、該発話に応じて特定マイクによって得られた周囲音声データに基づく周囲音声区間のスペクトル特徴量を予め学習（記憶）しておく。

一方、動作検出部１２Ｅは、特定マイクによって得られた音声データの、上記雑音を示す音声データに対する比率であるＳＮＲが所定閾値以上である区間を、端末４０Ａのユーザの発話によるユーザ音声区間の候補として検出する。そして、動作検出部１２Ｅは、該ユーザ音声区間の候補のスペクトル特徴量と、予め学習しておいたスペクトル特徴量とのマッチングを行い、距離が所定閾値以下の場合に、該ユーザ音声区間が、端末４０Ａのユーザによるユーザ音声区間であるとして決定する。なお、この際の音声データから特定のユーザの音声データを特定する技術については、特公平０１−３６９６０号公報等にも記載されており、従来既知であるため、これ以上の説明は省略する。

本実施形態でも、音声取得部１１Ａにおいて周囲音声区間を検出する際に用いる閾値と、動作検出部１２Ｅにおいてユーザ音声区間の候補を検出する際に用いる閾値と、を同一の値としているが、これに限るものではない。端末４０Ａのユーザと他のユーザとの距離、他のユーザの人数等に応じて各閾値を異なる値としてもよい。

上述したサーバ３０Ｃ及び端末４０Ａは、図２９に示すコンピュータ・システム２０Ｃに含まれるサーバ３０Ｃ及び端末４０Ａによって各々実現することができる。なお、図２９における図８と同一の構成要素には図８と同一の符号を付して、その説明を極力省略する。

図２９に示すように、本実施形態に係るサーバ３０Ｃは、コンテンツ再生プログラム３３Ａにおける動作検出プロセス３３Ａ２Ａが動作検出プロセス３３Ａ２Ｂとされている点のみが第１実施形態に係るサーバ３０Ａと異なる。

ＣＰＵ４１は、動作検出プロセス３３Ａ２Ｂを実行することで、図２８に示す動作検出部１２Ｅとして動作し、これにより、コンテンツ再生プログラム３３Ａを実行したサーバ３０Ｃが、図２８に示すサーバ３０Ｃとして機能することになる。

次に、本実施形態の作用を説明する。なお、本実施形態に係る端末４０Ａの作用は第１実施形態と同様であるので、ここでの説明は省略し、以下、サーバ３０Ｃの作用を説明する。

サーバ３０Ｃは、端末４０Ａからのアクセスが開始された際にコンテンツ再生プログラム３３Ａを実行させることにより、図１０に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ３０Ｃで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力モード判定処理が図３０に示す出力モード判定処理とされている点のみが第１実施形態と異なっている。そこで、以下では、図３０に示す出力モード判定処理のみについて説明する。なお、図３０の図１１と同一の処理を実行するステップには図１１と同一のステップ番号を付して、その説明を極力省略する。

出力モード判定処理のステップ２５０Ｂにおいて、動作検出部１２Ｅは、上述したように、予め学習しておいた端末４０Ａのユーザの発話に基づくスペクトル特徴量を用いたマッチングにより、周囲音声データからのユーザ音声区間の検出を試みる。

以上、詳細に説明したように、本実施形態では、第１実施形態と同様の効果を奏することができると共に、端末４０Ａのユーザの発話を集音するためのマイク６２を削減することができる結果、開示の技術を、より低コストで実現することができる。

〔第６実施形態〕
第６実施形態では、第１実施形態と同様に、コンテンツ再生装置１０を、サーバ、端末（据え置き型のＰＣ）、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。

図３１には、本実施形態に係るサーバ３０Ｄ、端末４０Ａ、ヘッドセット６０Ａ及び収録機７０が示されている。なお、図３１における図６と同一の構成要素には図６と同一の符号を付して、その説明を極力省略する。

図３１に示すように、本実施形態に係るサーバ３０Ｄは、期間内動作判定部１３Ａが、該期間内動作判定部１３Ａとは異なる処理を行う期間内動作判定部１３Ｅとされている点が第１実施形態に係るサーバ３０Ａと異なっている。また、本実施形態に係るサーバ３０Ｄは、再生制御部１４Ａが、該再生制御部１４Ａとは異なる処理を行う再生制御部１４Ｅとされている点が第１実施形態に係るサーバ３０Ａと異なっている。

サーバ３０Ｄの期間内動作判定部１３Ｅは、先に説明した期間内動作判定部１３に相当し、音声取得部１１Ａによって検出された音声区間から所定の期間内に動作検出部１２Ａによる反応動作の検出が所定の頻度で有るか無いかに基づいて、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部１３Ｅでは、反応判定期間内に動作検出部１２Ａによって検出された反応動作の所定期間当たりの回数（以下、「反応頻度」という。）が閾値ＴＨ２を超えた場合に、期間内動作有りと判定する。また、期間内動作判定部１３Ｅでは、期間内動作有りと判定した後、反応頻度が閾値ＴＨ２以下となった場合に、期間内動作無しと判定する。

なお、本実施形態に係る期間内動作判定部１３Ｅでは、時刻ｔにおける反応頻度ｒａｔｅ［ｔ］を次の式（１９）により算出する。なお、式（１９）において、ｖａｄ［ｔ］は時刻ｔにおける、反応動作の検出が有るか無いかの判定結果を表し、本実施形態では、反応動作の検出が有る場合に‘１’が代入され、反応動作の検出が無い場合に‘０’が代入される。また、式（１９）において、Ｌは反応頻度の算出対象として過去に遡るフレーム数（本実施形態では、５０フレーム）を表す。

一方、再生制御部１４Ｅは、先に説明した再生制御部１４に相当し、期間内動作判定部１３Ｅによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部１４Ｅでは、期間内動作判定部１３Ｅによって期間内動作有りと判定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。

上述したサーバ３０Ｄ及び端末４０Ａは、図３２に示すコンピュータ・システム２０Ｄに含まれるサーバ３０Ｄ及び端末４０Ａによって各々実現することができる。なお、図３２における図８と同一の構成要素には図８と同一の符号を付して、その説明を極力省略する。

図３２に示すように、本実施形態に係るサーバ３０Ｄは、コンテンツ再生プログラム３３Ａにおける期間内動作判定プロセス３３Ａ３Ａが期間内動作判定プロセス３３Ａ３Ｂとされている点が第１実施形態に係るサーバ３０Ａと異なる。また、本実施形態に係るサーバ３０Ｄは、コンテンツ再生プログラム３３Ａにおける再生制御プロセス３３Ａ４Ａが再生制御プロセス３３Ａ４Ｂとされている点が第１実施形態に係るサーバ３０Ａと異なる。

ＣＰＵ３１は、期間内動作判定プロセス３３Ａ３Ｂを実行することで、図３１に示す期間内動作判定部１３Ｅとして動作し、再生制御プロセス３３Ａ４Ｂを実行することで、図３１に示す再生制御部１４Ｅとして動作する。これにより、コンテンツ再生プログラム３３Ａを実行したサーバ３０Ｄが、図３１に示すサーバ３０Ｄとして機能することになる。

次に、本実施形態の作用を説明する。なお、本実施形態に係る端末４０Ａの作用は第１実施形態と同様であるので、ここでの説明は省略し、以下、サーバ３０Ｄの作用を説明する。

サーバ３０Ｄは、端末４０Ａからのアクセスが開始された際にコンテンツ再生プログラム３３Ａを実行させることにより、図１０に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ３０Ｄで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力モード判定処理が図３３に示す出力モード判定処理とされている点が第１実施形態と異なっている。また、本実施形態に係るサーバ３０Ｄで実行される出力モード判定処理では、該出力モード判定処理において実行される復帰判定処理が図３４に示す復帰判定処理とされている点が第１実施形態と異なっている。

そこで、以下では、本実施形態に係る出力モード判定処理及び復帰判定処理のみについて説明する。なお、図３３の図１１と同一の処理を実行するステップには図１１と同一のステップ番号を付して、その説明を極力省略する。また、図３４の図１２と同一の処理を実行するステップには図１２と同一のステップ番号を付して、その説明を極力省略する。

出力モード判定処理のステップ２５３Ａにおいて、期間内動作判定部１３Ｅは、この時点が反応判定期間内であるか否かを判定し、否定判定となった場合は出力モード判定処理を終了する一方、肯定判定となった場合はステップ２５３Ｂに移行する。

ステップ２５３Ｂにおいて、期間内動作判定部１３Ｅは、上述した式（１９）により反応頻度ｒａｔｅ［ｔ］を算出する。次のステップ２５３Ｃにおいて、期間内動作判定部１３Ｅは、反応頻度ｒａｔｅ［ｔ］が所定閾値ＴＨ２を超えたか否かを判定し、肯定判定となった場合はステップ２５６に移行する一方、否定判定となった場合はステップ２６０Ｃに移行する。

ステップ２６０Ｃにおいて、再生制御部１４Ｅは、図３４に示す復帰判定処理を行う。なお、本実施形態に係る復帰判定処理は、図１２に示す第１実施形態に係る復帰判定処理に対して、ステップ３５２及びステップ３５６の各処理が削除された点のみが異なるので、ここでの説明は省略する。

以上、詳細に説明したように、本実施形態では、第１実施形態と同様の効果を奏することができると共に、以下の効果を奏することができる。

すなわち、本実施形態では、期間内動作判定部１３により、期間内動作有りと判定された後に、反応判定期間内に反応頻度が閾値ＴＨ２以下となった場合に、期間内動作無しと判定している。このため、本実施形態では、反応頻度を用いない技術に比較して、より適切な状態でコンテンツを再生することができる。

〔第７実施形態〕
第７実施形態では、第１実施形態と同様に、コンテンツ再生装置１０を、サーバ、端末（据え置き型のＰＣ）、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。

図３５には、本実施形態に係るサーバ３０Ｅ、端末４０Ａ、ヘッドセット６０Ａ及び収録機７０が示されている。なお、図３５における図６と同一の構成要素には図６と同一の符号を付して、その説明を極力省略する。

図３５に示すように、本実施形態に係るサーバ３０Ｅは、期間内動作判定部１３Ａが、該期間内動作判定部１３Ａとは異なる処理を行う期間内動作判定部１３Ｆとされている点が第１実施形態に係るサーバ３０Ａと異なっている。また、本実施形態に係るサーバ３０Ｅは、再生制御部１４Ａが、該再生制御部１４Ａとは異なる処理を行う再生制御部１４Ｆとされている点が第１実施形態に係るサーバ３０Ａと異なっている。

サーバ３０Ｅの期間内動作判定部１３Ｆは、先に説明した期間内動作判定部１３に相当する。期間内動作判定部１３Ｆは、音声取得部１１Ａによって音声区間が検出された時点から所定の期間内に動作検出部１２Ａによる反応動作の検出が有るか無いかに基づいて、期間内動作有りなのか、期間内動作無しなのかを判定する。本実施形態に係る期間内動作判定部１３Ｆでは、期間内動作有りと判定した後に、周囲の音に含まれる音声区間の検出が無くなり、反応動作が検出されなくなった場合に、期間内動作無しと判定する。

また、再生制御部１４Ｆは、先に説明した再生制御部１４に相当し、期間内動作判定部１３Ｆによって期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行う。本実施形態に係る再生制御部１４Ｆでは、期間内動作判定部１３Ｆによって期間内動作有りと判定された場合には音声コンテンツの再生を停止し、その他の場合には音声コンテンツの再生を継続する制御を行う。

上述したサーバ３０Ｅ及び端末４０Ａは、図３６に示すコンピュータ・システム２０Ｅに含まれるサーバ３０Ｅ及び端末４０Ａによって各々実現することができる。なお、図３６における図８と同一の構成要素には図８と同一の符号を付して、その説明を極力省略する。

図３６に示すように、本実施形態に係るサーバ３０Ｅは、コンテンツ再生プログラム３３Ａにおける期間内動作判定プロセス３３Ａ３Ａが期間内動作判定プロセス３３Ａ３Ｃとされている点が第１実施形態に係るサーバ３０Ａと異なる。また、本実施形態に係るサーバ３０Ｅは、コンテンツ再生プログラム３３Ａにおける再生制御プロセス３３Ａ４Ａが再生制御プロセス３３Ａ４Ｃとされている点が第１実施形態に係るサーバ３０Ａと異なる。

ＣＰＵ３１は、期間内動作判定プロセス３３Ａ３Ｃを実行することで、図３５に示す期間内動作判定部１３Ｆとして動作し、再生制御プロセス３３Ａ４Ｃを実行することで、図３５に示す再生制御部１４Ｆとして動作する。これにより、コンテンツ再生プログラム３３Ａを実行したサーバ３０Ｅが、図３５に示すサーバ３０Ｅとして機能することになる。

次に、本実施形態の作用を説明する。なお、本実施形態に係る端末４０Ａの作用は第１実施形態と同様であるので、ここでの説明は省略し、以下、サーバ３０Ｅの作用を説明する。

サーバ３０Ｅは、端末４０Ａからのアクセスが開始された際にコンテンツ再生プログラム３３Ａを実行させることにより、図１０に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ３０Ｅで実行されるコンテンツ再生処理では、出力モード判定処理において実行される復帰判定処理が図３７に示す復帰判定処理とされている点が第１実施形態と異なっている。

そこで、以下では、復帰判定処理のみについて説明する。なお、図３７の図１２と同一の処理を実行するステップには図１２と同一のステップ番号を付して、その説明を極力省略する。

復帰判定処理のステップ３５０において、再生制御部１４Ｆは、変数Ｍに上述した「停止」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ３５１Ａに移行する。

ステップ３５１Ａにおいて、期間内動作判定部１３Ｆは、音声取得部１１Ａによって周囲音声区間が検出されていないか否かを判定し、否定判定となった場合は後述するステップ３５１Ｃに移行する一方、肯定判定となった場合はステップ３５１Ｂに移行する。ステップ３５１Ｂにおいて、期間内動作判定部１３Ｆは、動作検出部１２Ａによってユーザ音声区間が検出されていないか否かを判定し、否定判定となった場合はステップ３５１Ｃに移行する。

ステップ３５１Ｃにおいて、期間内動作判定部１３Ｆは、周囲音声区間及びユーザ音声区間の何れの音声区間もない時間（以下、「無音継続時間」という。）を示す変数である変数ＮＴをクリア（本実施形態では、０（零）を設定）し、その後に復帰判定処理を終了する。

一方、ステップ３５１Ｂにおいて肯定判定となった場合はステップ３５２Ｂに移行し、期間内動作判定部１３Ｆは、変数ＮＴの値によって示される無音継続時間が所定閾値ＴＨ３を超えているか否かを判定する。この判定において、肯定判定となった場合はステップ３５４に移行する一方、否定判定となった場合はステップ３５６Ｂに移行する。

ステップ３５６Ｂにおいて、期間内動作判定部１３Ｆは、変数ＮＴの値を所定値（本実施形態では、‘１’）だけインクリメントし、その後に復帰判定処理を終了する。

すなわち、本実施形態では、期間内動作有りと判定された後、すなわち、周囲の音に対してユーザの関心が有ると推定できる後に、周囲の音に含まれる音声区間が検出されなくなり、かつ反応動作が検出されなくなった場合に、期間内動作無しと判定されて、周囲の音に対してユーザの関心が無くなったと推定できる。このため、本実施形態では、より高精度に周囲の音に対してユーザの関心が無くなったと推定することができる。

〔第８実施形態〕
第８実施形態では、第１実施形態と同様に、コンテンツ再生装置１０を、サーバ、端末（据え置き型のＰＣ）、ヘッドセット及び収録機を有するシステムに適用した場合について説明する。

図３８には、本実施形態に係るサーバ３０Ｆ、端末４０Ａ、ヘッドセット６０Ａ及び収録機７０が示されている。なお、図３８における図６と同一の構成要素には図６と同一の符号を付して、その説明を極力省略する。

図３８に示すように、本実施形態に係るサーバ３０Ｆは、再生制御部１４Ａが、該再生制御部１４Ａとは異なる処理を行う再生制御部１４Ｇとされている点が第１実施形態に係るサーバ３０Ａと異なっている。

サーバ３０Ｆの再生制御部１４Ｇは、先に説明した再生制御部１４に相当し、期間内動作有りと判定された場合に、上記所定の期間内の反応動作の検出が継続する期間内に再生されたコンテンツの部分を該期間後に再再生する制御を行う。

すなわち、本実施形態に係る再生制御部１４Ｇでは、期間内動作有りと判定され、ユーザが周囲の音に対して関心が有ると推定できる場合でも音声コンテンツの再生を停止する制御は行わない。但し、音声コンテンツの再生を停止しないのは開示の技術の一態様であり、音声コンテンツの再生を停止してもよい。そして、本実施形態に係る再生制御部１４Ｇでは、期間内動作無しと判定された場合に、上記所定の期間内の反応動作の検出が継続する期間内に再生された音声コンテンツの部分を再再生する。

上述したサーバ３０Ｆ及び端末４０Ａは、図３９に示すコンピュータ・システム２０Ｆに含まれるサーバ３０Ｆ及び端末４０Ａによって各々実現することができる。なお、図３９における図８と同一の構成要素には図８と同一の符号を付して、その説明を極力省略する。

図３９に示すように、本実施形態に係るサーバ３０Ｆは、コンテンツ再生プログラム３３Ａにおける再生制御プロセス３３Ａ４Ａが再生制御プロセス３３Ａ４Ｄとされている点のみが第１実施形態に係るサーバ３０Ａと異なる。

ＣＰＵ３１は、再生制御プロセス３３Ａ４Ｄを実行することで、図３８に示す再生制御部１４Ｇとして動作し、これにより、コンテンツ再生プログラム３３Ａを実行したサーバ３０Ｆが、図３８に示すサーバ３０Ｆとして機能することになる。

次に、本実施形態の作用を説明する。なお、本実施形態に係る端末４０Ａの作用は第１実施形態と同様であるので、ここでの説明は省略し、以下、サーバ３０Ｆの作用を説明する。

サーバ３０Ｆは、端末４０Ａからのアクセスが開始された際にコンテンツ再生プログラム３３Ａを実行させることにより、図１０に示すコンテンツ再生処理が行われる。但し、本実施形態に係るサーバ３０Ｆで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力モード判定処理が図４０に示す出力モード判定処理とされている点が第１実施形態と異なっている。また、本実施形態に係るサーバ３０Ｆで実行される出力モード判定処理では、該出力モード判定処理において実行される復帰判定処理が図４１に示す復帰判定処理とされている点が第１実施形態と異なっている。さらに、本実施形態に係るサーバ３０Ｆで実行されるコンテンツ再生処理では、該コンテンツ再生処理において実行される出力処理が図４２に示す出力処理とされている点が第１実施形態と異なっている。

そこで、以下では、本実施形態に係る出力モード判定処理、復帰判定処理及び出力処理のみについて説明する。なお、図４０の図１１と同一の処理を実行するステップには図１１と同一のステップ番号を付して、その説明を極力省略する。また、図４１の図１２と同一の処理を実行するステップには図１２と同一のステップ番号を付して、その説明を極力省略する。さらに、図４２の図１３と同一の処理を実行するステップには図１３と同一のステップ番号を付して、その説明を極力省略する。

出力モード判定処理のステップ２５４において肯定判定となった場合はステップ２５５Ａに移行し、再生制御部１４Ｇは、変数Ｍに上述した「出力」を示す値が設定されているか否かを判定し、肯定判定となった場合はステップ２５５Ｂに移行する。ステップ２５５Ｂにおいて、再生制御部１４Ｇは、第１読み出しポインタの値をメモリ３２に記憶し、その後にステップ２５６に移行する。なお、ステップ２５５Ａにおいて否定判定となった場合は出力モード判定処理を終了する。

一方、ステップ２５４において否定判定となった場合はステップ２６０Ｂに移行し、再生制御部１４Ｇは、図４１に示す復帰判定処理を行う。

復帰判定処理のステップ３５２において肯定判定となった場合はステップ３５３Ａに移行し、再生制御部１４Ｇは、第１読み出しポインタに、ステップ２５５Ｂの処理によってメモリ３２に記憶した値を設定する。次のステップ３５３Ｂにおいて、再生制御部１４Ｇは、バッファメモリ１５Ａをクリアし、その後にステップ３５４に移行する。

一方、本実施形態に係る出力処理は、図１３に示す第１実施形態に係る出力処理におけるステップ４００、ステップ４１２及びステップ４１４が削除されている。従って、本実施形態に係る出力処理では、再生モードの如何に関わらず、コンテンツを通常通りに再生する。これに対し、復帰判定処理においてコンテンツの再生を復帰させる場合には、再生モードが「停止」に設定された時点の第１読み出しポインタの値が該第１読み出しポインタに設定されてコンテンツの再生が行われる。このため、再生モードが「停止」に設定された時点で再生されていたコンテンツが再度再生されることになる。

以上、詳細に説明したように、本実施形態では、第１実施形態と略同様の効果を奏することができると共に、以下の効果を奏することができる。

すなわち、本実施形態では、再生制御部１４により、期間内動作判定部１３により期間内動作有りと判定された場合、すなわち、周囲の音に対してユーザの関心が有ると推定できる場合、上記所定の期間内の反応動作の検出が継続する期間内に再生されたコンテンツの部分を該期間後に再再生する制御を行う。このため、本実施形態では、周囲の音に対してユーザの関心が有ると推定できる期間もコンテンツの再生を行うことができ、また、該期間の後に同様のコンテンツの再生を行うことができるので、ユーザにとっての利便性を、より向上させることができる。

なお、上記各実施形態では、コンテンツ再生プログラム、端末処理プログラム及びサーバ処理プログラムを記録媒体９６から媒体読み書き装置を介して、対応する装置の記憶部に読み込む態様を説明したが、これに限定されるものではない。例えば、コンテンツ再生プログラム、端末処理プログラム及びサーバ処理プログラムを、上記記憶部に予め記憶（インストール）しておく形態としてもよく、ネットワーク８０を介して外部装置から上記記憶部にダウンロードする形態としてもよい。

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
第１の音を取得する音声取得部と、
ユーザの動作を検出する動作検出部と、
前記音声取得部によって取得された前記第１の音及び前記動作検出部によって検出された前記動作の時間的な関係に基づいて、前記第１の音が取得された時点から、所定の期間内に前記動作が検出された場合に期間内動作有りと判定する期間内動作判定部と、
前記期間内動作判定部により前記期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う再生制御部と、
を含むコンテンツ再生装置。

（付記２）
前記音声取得部は、前記第１の音に含まれる音声区間を検出する、
付記１記載のコンテンツ再生装置。

（付記３）
前記動作検出部は、センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第２の音及びキーボード入力の少なくとも１つを入力信号として取得し、前記入力信号から前記ユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも１つを検出することで前記動作を検出する、
付記１又は付記２記載のコンテンツ再生装置。

（付記４）
前記動作検出部は、前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出する、
付記３記載のコンテンツ再生装置。

（付記５）
前記所定の期間は、前記音声取得部によって取得された前記第１の音の音声区間が開始した時点を始点とし、該音声区間が終了して所定の時間が経過した時点を終点とする、
付記２記載のコンテンツ再生装置。

（付記６）
前記期間内動作判定部は、前記期間内動作有りと判定した後に、前記音声取得部によって前記音声区間が検出された時点から所定の経過時間内に前記動作検出部による前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記再生制御部は、前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記２又は付記５記載のコンテンツ再生装置。

（付記７）
前記期間内動作判定部は、前記期間内動作有りと判定した後に、前記音声取得部によって前記音声区間が検出されなくなり、かつ前記動作検出部による前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記再生制御部は、前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記２又は付記５記載のコンテンツ再生装置。

（付記８）
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生を停止する制御を行い、該コンテンツの再生を停止する制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生を再開する制御を行う、
付記６又は付記７記載のコンテンツ再生装置。

（付記９）
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生速度を低下させる制御を行い、該コンテンツの再生速度を低下させる制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生速度を元に戻す制御を行う、
付記６又は付記７記載のコンテンツ再生装置。

（付記１０）
前記コンテンツは、音が再生されるコンテンツであり、
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生音量を低下させる制御を行い、該コンテンツの再生音量を低下させる制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生音量を元に戻す制御を行う、
付記６又は付記７記載のコンテンツ再生装置。

（付記１１）
第１の音を取得し、
ユーザの動作を検出し、
取得した前記第１の音及び検出した前記動作の時間的な関係に基づいて、前記第１の音を取得した時点から、所定の期間内に前記動作を検出した場合に期間内動作有りと判定し、
前記期間内動作有りと判定した場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う、
処理をコンピュータに実行させることを特徴とするコンテンツ再生プログラム。

（付記１２）
前記第１の音に含まれる音声区間を検出し、
検出した前音声区間及び検出した前記動作の時間的な関係に基づいて、前記音声区間を検出した時点から、所定の期間内に前記動作を検出した場合に前記期間内動作有りと判定する、
付記１１記載のコンテンツ再生プログラム。

（付記１３）
センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第２の音及びキーボード入力の少なくとも１つを入力信号として取得し、前記入力信号から前記ユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも１つを検出することで前記動作を検出する、
付記１１又は付記１２記載のコンテンツ再生プログラム。

（付記１４）
前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出する、
付記１３記載のコンテンツ再生プログラム。

（付記１５）
前記所定の期間は、取得した前記第１の音の音声区間が開始した時点を始点とし、該音声区間が終了して所定の時間が経過した時点を終点とする、
付記１２記載のコンテンツ再生プログラム。

（付記１６）
前記期間内動作有りと判定した後に、前記音声区間を検出した時点から所定の経過時間内に前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定して行った前記制御を解除する、
付記１２又は付記１５記載のコンテンツ再生プログラム。

（付記１７）
前記期間内動作有りと判定した後に、前記音声区間が検出されなくなり、かつ前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記１２又は付記１５記載のコンテンツ再生プログラム。

（付記１８）
前記期間内動作有りと判定した場合に、前記コンテンツの再生を停止する制御を行い、該コンテンツの再生を停止する制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生を再開する制御を行う、
付記１６又は付記１７記載のコンテンツ再生プログラム。

（付記１９）
前記期間内動作有りと判定した場合に、前記コンテンツの再生速度を低下させる制御を行い、該コンテンツの再生速度を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生速度を元に戻す制御を行う、
付記１６又は付記１７記載のコンテンツ再生プログラム。

（付記２０）
前記コンテンツは、音が再生されるコンテンツであり、
前記期間内動作有りと判定した場合に、前記コンテンツの再生音量を低下させる制御を行い、該コンテンツの再生音量を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生音量を元に戻す制御を行う、
付記１６又は付記１７記載のコンテンツ再生プログラム。

（付記２１）
第１の音を取得し、
ユーザの動作を検出し、
取得した前記第１の音及び検出した前記動作の時間的な関係に基づいて、前記第１の音を取得した時点から、所定の期間内に前記動作を検出した場合に期間内動作有りと判定し、
前記期間内動作有りと判定した場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う、
ことを含む処理をコンピュータに実行させるコンテンツ再生方法。

（付記２２）
前記第１の音に含まれる音声区間を検出し、
検出した前音声区間及び検出した前記動作の時間的な関係に基づいて、前記音声区間を検出した時点から、所定の期間内に前記動作を検出した場合に前記期間内動作有りと判定する、
付記２１記載のコンテンツ再生方法。

（付記２３）
センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第２の音及びキーボード入力の少なくとも１つを入力信号として取得し、前記入力信号から前記ユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも１つを検出することで前記動作を検出する、
付記２１又は付記２２記載のコンテンツ再生方法。

（付記２４）
前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出する、
付記２３記載のコンテンツ再生方法。

（付記２５）
前記所定の期間は、取得した前記第１の音の音声区間が開始した時点を始点とし、該音声区間が終了して所定の時間が経過した時点を終点とする、
付記２２記載のコンテンツ再生方法。

（付記２６）
前記期間内動作有りと判定した後に、前記音声区間を検出した時点から所定の経過時間内に前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定して行った前記制御を解除する、
付記２２又は付記２５記載のコンテンツ再生方法。

（付記２７）
前記期間内動作有りと判定した後に、前記音声区間が検出されなくなり、かつ前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記期間内動作無しと判定した場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
付記２２又は付記２５記載のコンテンツ再生方法。

（付記２８）
前記期間内動作有りと判定した場合に、前記コンテンツの再生を停止する制御を行い、該コンテンツの再生を停止する制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生を再開する制御を行う、
付記２６又は付記２７記載のコンテンツ再生方法。

（付記２９）
前記期間内動作有りと判定した場合に、前記コンテンツの再生速度を低下させる制御を行い、該コンテンツの再生速度を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生速度を元に戻す制御を行う、
付記２６又は付記２７記載のコンテンツ再生方法。

（付記３０）
前記コンテンツは、音が再生されるコンテンツであり、
前記期間内動作有りと判定した場合に、前記コンテンツの再生音量を低下させる制御を行い、該コンテンツの再生音量を低下させる制御を行っている場合で、かつ前記期間内動作無しと判定した場合に、前記コンテンツの再生音量を元に戻す制御を行う、
付記２６又は付記２７記載のコンテンツ再生方法。

１０コンテンツ再生装置
１１音声取得部
１１Ａ〜１１Ｃ音声取得部
１２動作検出部
１２Ａ〜１２Ｅ動作検出部
１３期間内動作判定部
１３Ａ〜１３Ｆ期間内動作判定部
１４再生制御部
１４Ａ、１４Ｂ１、１４Ｂ２、１４Ｃ〜１４Ｇ再生制御部
１５記憶部
１５Ａバッファメモリ
２０Ａ〜２０Ｆコンピュータ・システム
３０Ａ〜３０Ｆサーバ
３１ＣＰＵ
３３記憶部
３３Ａコンテンツ再生プログラム
３３Ｃサーバ処理プログラム
３４入力部
３５表示部
４０Ａ〜４０Ｄ端末
４１ＣＰＵ
４３記憶部
４３Ａ端末処理プログラム
４３Ｂコンテンツ再生プログラム
４４入力部
４５表示部
５１動き検出センサ
５２Ａ、５２Ｂ送信制御部
５３マイク
５４再生部
５５スピーカ
５６Ａマイク
５６Ｂマイクアレイ
５７ディスプレイ
５８カメラ
５９キーボード
６０Ａ〜６０Ｂヘッドセット
６２マイク
６４スピーカ
７０収録機
７２マイク
９６記録媒体

Claims

第１の音を取得する音声取得部と、
センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第２の音及びキーボード入力の少なくとも１つを入力信号として取得し、前記入力信号からユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも１つを検出することで前記ユーザの動作を検出し、前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出する動作検出部と、
前記音声取得部によって取得された前記第１の音及び前記動作検出部によって検出された前記動作の時間的な関係に基づいて、前記第１の音が取得された時点から、所定の期間内に前記動作が検出された場合に期間内動作有りと判定する期間内動作判定部と、
前記期間内動作判定部により前記期間内動作有りと判定された場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う再生制御部と、
を含むコンテンツ再生装置。
前記音声取得部は、前記第１の音に含まれる音声区間を検出する、
請求項１記載のコンテンツ再生装置。
前記所定の期間は、前記音声取得部によって取得された前記第１の音の音声区間が開始した時点を始点とし、該音声区間が終了して所定の時間が経過した時点を終点とする、
請求項２記載のコンテンツ再生装置。
前記期間内動作判定部は、前記期間内動作有りと判定した後に、前記音声取得部によって前記音声区間が検出された時点から所定の経過時間内に前記動作検出部による前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記再生制御部は、前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
請求項２又は請求項３記載のコンテンツ再生装置。
前記期間内動作判定部は、前記期間内動作有りと判定した後に、前記音声取得部によって前記音声区間が検出されなくなり、かつ前記動作検出部による前記動作の検出が無くなった場合に期間内動作無しと判定し、
前記再生制御部は、前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記期間内動作有りと判定されて行った前記制御を解除する、
請求項２又は請求項３記載のコンテンツ再生装置。
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生を停止する制御を行い、該コンテンツの再生を停止する制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生を再開する制御を行う、
請求項４又は請求項５記載のコンテンツ再生装置。
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生速度を低下させる制御を行い、該コンテンツの再生速度を低下させる制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生速度を元に戻す制御を行う、
請求項４又は請求項５記載のコンテンツ再生装置。
前記コンテンツは、音が再生されるコンテンツであり、
前記再生制御部は、前記期間内動作判定部により前記期間内動作有りと判定された場合に、前記コンテンツの再生音量を低下させる制御を行い、該コンテンツの再生音量を低下させる制御を行っている場合で、かつ前記期間内動作判定部により前記期間内動作無しと判定された場合に、前記コンテンツの再生音量を元に戻す制御を行う、
請求項４又は請求項５記載のコンテンツ再生装置。
第１の音を取得し、
センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第２の音及びキーボード入力の少なくとも１つを入力信号として取得し、前記入力信号からユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも１つを検出することで前記ユーザの動作を検出し、前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出し、
取得した前記第１の音及び検出した前記動作の時間的な関係に基づいて、前記第１の音を取得した時点から、所定の期間内に前記動作を検出した場合に期間内動作有りと判定し、
前記期間内動作有りと判定した場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う、
処理をコンピュータに実行させることを特徴とするコンテンツ再生プログラム。
第１の音を取得し、
センサの位置、センサの向き、センサの速度、センサの加速度、周囲の映像、第２の音及びキーボード入力の少なくとも１つを入力信号として取得し、前記入力信号からユーザの振り向き、頷き、首振り、発話、体の移動、キーボード入力の停滞及び視線の移動の少なくとも１つを検出することで前記ユーザの動作を検出し、前記キーボード入力の頻度が所定値以上減少した場合に前記キーボード入力の停滞として検出し、
取得した前記第１の音及び検出した前記動作の時間的な関係に基づいて、前記第１の音を取得した時点から、所定の期間内に前記動作を検出した場合に期間内動作有りと判定し、
前記期間内動作有りと判定した場合に、コンテンツの再生を制限する制御を行うか、又は前記所定の期間内の前記動作の検出が継続する期間内に再生された前記コンテンツの部分を該期間後に再再生する制御を行う、
ことを含む処理をコンピュータに実行させるコンテンツ再生方法。