JP6029626B2

JP6029626B2 - 制御装置、および制御方法

Info

Publication number: JP6029626B2
Application number: JP2014164766A
Authority: JP
Inventors: 祐介阪井; 真生近藤
Original assignee: Saturn Licensing LLC
Current assignee: Saturn Licensing LLC
Priority date: 2014-08-13
Filing date: 2014-08-13
Publication date: 2016-11-24
Anticipated expiration: 2030-09-29
Also published as: JP2015015728A

Description

本発明は、制御装置、および制御方法に関する。

近年、例えばＰＣ（Personal Computer）などのように、コンテンツデータの再生を行いながら、外部装置との間でユーザ間の通話に関する通信を行うことが可能な装置の普及が進んでいる。上記のような装置の中には、例えばコンテンツデータの再生に係るアプリケーションや通話に関する通信に係るアプリケーションなどが有する音声ミキサ機能をユーザが利用することによって、コンテンツデータが示す音声の音量と、ユーザの発話音声の音量とをそれぞれ調整可能なものもある。しかしながら、上記のような装置のユーザは、例えば通話状態などに応じて適宜手動で音量を調整しなければならない。そのため、上記のような装置を用いるユーザの利便性が損なわれていた。

このような中、音量を自動的に調整する技術が開発されている。一の音声の出力中に他の音データに対応する音声を出力する場合には、当該一の音声の音量を下げる技術としては、例えば、特許文献１が挙げられる。

特開平１１−４５０９６号公報

音量を自動的に調整する従来の技術（以下、単に「従来の技術」という。）が適用された制御装置（以下、「従来の制御装置」という。）は、一の音声の出力中に他の音データに対応する音声を出力する場合には、当該一の音声の音量を下げる。つまり、例えば従来の制御装置がコンテンツデータの再生を行いながら、外部装置との間でユーザ間の通話に関する通信を行う場合には、従来の制御装置は、ユーザの発話音声を出力させるごとに、再生中のコンテンツデータが示す音声（以下、「コンテンツ音声」という。）の音量を自動的に下げることとなる。よって、従来の技術を用いる場合には、ユーザは、通話状態などに応じて適宜手動でコンテンツ音声や発話音声の音量を調整しなくてもよいので、ユーザの利便性をある程度は向上させることができる可能性はある。

しかしながら、上記のように、従来の制御装置は、一の音声の出力中に他の音データに対応する音声を出力する場合には、当該一の音声の音量を下げてしまう。そのため、従来の制御装置では、例えば“ユーザがコンテンツ音声の音量を下げることを所望していない場合であっても、自動的に当該音量が下がってしまう”などの望ましくない事態が生じてしまう。

したがって、従来の技術を用いたとしても、ユーザの利便性の向上は、望むべくもない。

本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、通信対象装置との間で通話に関する通信を行う場合におけるユーザの利便性の向上を図ることが可能な、新規かつ改良された制御装置、および制御方法を提供することにある。

上記目的を達成するために、本発明の第１の観点によれば、１または２以上の通信対象装置との間で、音声による通話に関する通信を行う通信部と、音声、または、音声および画像を示すコンテンツデータの再生を行う再生処理部と、上記通話に関する通信におけるユーザの発話音声を検出する検出部と、上記再生処理部が再生しているコンテンツデータ、および／または、上記検出部により検出された発話音声に対応するユーザに設定されている優先度に基づいて、上記優先度がより高く設定されている音声の音量がより大きくなるように、上記コンテンツデータが示す音声の音量と上記発話音声の音量とをそれぞれ選択的に調整する音量制御部と、を備える制御装置が提供される。

かかる構成により、通信対象装置との間で通話に関する通信を行う場合におけるユーザの利便性の向上を図ることができる。

また、再生されている上記コンテンツデータに上記優先度が設定されており、検出された上記発話音声に対応するユーザに上記優先度が設定されていない場合、または、再生されている上記コンテンツデータおよび検出された上記発話音声に対応するユーザに上記優先度が設定されており、上記コンテンツデータに設定されている上記優先度がより高い場合には、上記音量制御部は、上記コンテンツデータが示す音声の音量を、上記コンテンツデータが示す音声の音量の基準となる第１基準値以上に設定し、上記発話音声の音量を、上記第１基準値より小さく設定してもよい。

また、再生されている上記コンテンツデータに上記優先度が設定されておらず、検出された上記発話音声に対応するユーザに上記優先度が設定されている場合、または、再生されている上記コンテンツデータおよび検出された上記発話音声に対応するユーザに上記優先度が設定されており、上記発話音声に対応するユーザに設定されている上記優先度がより高い場合には、上記音量制御部は、上記コンテンツデータが示す音声の音量を、上記発話音声の音量の基準となる第２基準値より小さく設定してもよい。

また、上記音量制御部は、上記発話音声の音量を、上記第２基準値より大きな第３基準値に設定してもよい。

また、上記検出部において複数のユーザの発話音声が検出された場合、上記音量制御部は、優先度がより高く設定されたユーザに対応する発話音声の音量を、第３基準値に設定してもよい。

また、再生されている上記コンテンツデータおよび検出された上記発話音声に対応するユーザに上記優先度が設定されていない場合、上記音量制御部は、上記発話音声に対応するユーザに対して上記コンテンツデータよりもより高い上記優先度が設定されていると判定して、上記コンテンツデータが示す音声の音量と上記発話音声の音量とをそれぞれ選択的に調整してもよい。

また、音量制御部は、上記コンテンツデータが示す音声の音量と上記発話音声の音量とをそれぞれ大きく調整する場合には、所定の時間をかけて徐々に大きくし、上記コンテンツデータが示す音声の音量と上記発話音声の音量とをそれぞれ小さく調整する場合には、所定の時間をかけて徐々に小さくしてもよい。

また、音量制御を行うか否かを判定する判定部をさらに備え、上記音量制御部は、上記判定部において音量制御を行うと判定された場合に、上記コンテンツデータが示す音声の音量と上記発話音声の音量との選択的な音量の調整を行ってもよい。

また、上記判定部は、撮像により得られた動画像である撮像画像に基づいてユーザの所定の動作を検出し、検出結果に基づいて音量制御を行うか否かを判定してもよい。

また、上記検出部は、外部音声入力装置において生成された音声信号と、上記通信部が上記通信対象装置から受信した外部音声信号とに基づいて、上記通話に関する通信におけるユーザの発話音声を検出し、上記判定部は、上記外部音声入力装置とユーザとの距離を示す距離情報に基づいて、音量制御を行うか否かを判定してもよい。

また、音声信号を生成する音声入力部をさらに備え、上記検出部は、上記音声入力部において生成された音声信号と、上記通信部が上記通信対象装置から受信した外部音声信号とに基づいて、上記通話に関する通信におけるユーザの発話音声を検出し、上記判定部は、上記音声入力部とユーザとの距離を示す距離情報に基づいて、音量制御を行うか否かを判定してもよい。

また、上記通信部は、撮像により得られた動画像である撮像画像および音声による通話に関する通信を行い、上記再生処理部が再生したコンテンツデータが示す画像と、上記通信部が上記通信対象装置から受信した上記撮像画像とが共に表示される画像を、表示画面に表示させる表示制御部をさらに備えてもよい。

また、上記表示制御部は、上記音量制御部における上記コンテンツデータが示す音声の音量と上記発話音声の音量との選択的な音量の調整と連動して、コンテンツデータが示す画像と上記通信部が受信した上記撮像画像との表示比率を変更させてもよい。

上記目的を達成するために、本発明の第２の観点によれば、１または２以上の通信対象装置との間で、音声による通話に関する通信を行うステップと、音声、または、音声および画像を示すコンテンツデータの再生を行うステップと、上記通話に関する通信におけるユーザの発話音声を検出するステップと、上記再生を行うステップにおいて再生されているコンテンツデータ、および／または、上記検出するステップにおいて検出された発話音声に対応するユーザに設定されている優先度に基づいて、上記優先度がより高く設定されている音声の音量がより大きくなるように、上記コンテンツデータが示す音声の音量と上記発話音声の音量とをそれぞれ選択的に調整するステップと、を有する制御方法が提供される。

かかる方法を用いることにより、通信対象装置との間で通話に関する通信を行う場合におけるユーザの利便性の向上を図ることができる。

本発明によれば、通信対象装置との間で通話に関する通信を行う場合におけるユーザの利便性の向上を図ることができる。

本発明の実施形態に係る制御装置における利便性向上アプローチに係る処理の一例を示す流れ図である。本発明の実施形態に係る制御装置における優先度に基づく音量制御処理の一例を示す流れ図である。本発明の実施形態に係る制御装置におけるコンテンツ音声の音量と発話音声の音量との調整の一例を示す説明図である。本発明の実施形態に係る制御装置における発話音声の音量調整処理の一例を示す流れ図である。本発明の第１の実施形態に係る制御装置の構成の一例を示すブロック図である。本発明の実施形態に係る制御装置のハードウェア構成の一例を示す説明図である。本発明の第２の実施形態に係る制御装置の構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、以下では、下記に示す順序で説明を行う。
１．本発明の実施形態に係るアプローチ
２．本発明の実施形態に係る制御装置
３．本発明の実施形態に係るプログラム

（本発明の実施形態に係るアプローチ）
本発明の実施形態に係る制御装置（以下、「制御装置１００」と示す場合がある。）の構成について説明する前に、本発明の実施形態に係る利便性向上アプローチについて説明する。なお、以下に示す本発明の実施形態に係る利便性向上アプローチに係る処理は、本発明の実施形態に係る制御方法に係る処理と捉えることができる。

また、以下では、制御装置１００が、コンテンツデータの再生に係る処理と、１、または２以上の通信対象装置との間における通話に関する通信に係る処理とを平行して行う場合を例に挙げて説明する。ここで、本発明の実施形態に係るコンテンツデータとは、音声、または、音声および画像（動画像／静止画像）を示すデータである。コンテンツデータとしては、例えば、音楽データや映像データなどが挙げられる。また、本発明の実施形態に係る通話に関する通信としては、例えば、音声による通話に関する通信が挙げられるが、本発明の実施形態に係る通話に関する通信は、上記に限られない。例えば、本発明の実施形態に係る通話に関する通信は、撮像により得られた動画像である撮像画像および音声による通話（例えばビデオ通話）に関する通信であってもよい。また、本発明の実施形態に係る撮像画像とは、例えば、撮像により得られた動画像（または、時間軸方向に連続して撮像された静止画像の集合体）である。

［利便性向上アプローチの概要］
上述したように、従来の制御装置は、一の音声の出力中に他の音データに対応する音声を出力する場合には、当該一の音声の音量を下げる。しかしながら、仮に、従来の制御装置がコンテンツデータの再生を行いながら、外部装置との間でユーザ間の通話に関する通信を行う機能を有しているときには、例えば“ユーザがコンテンツ音声の音量を下げることを所望していない場合であっても、自動的に当該音量が下がってしまう”などの望ましくない事態が生じる恐れがある。ユーザがコンテンツ音声の音量を下げることを所望していない場合としては、例えば、再生されている映画（コンテンツの一例）のクライマックスシーンにおいて、コンテンツ音声が自動的に下がってしまった場合などが挙げられる。ここで、上記のような望ましくない事態が生じた場合には、音量を自動的に調整することがかえってユーザの利便性を損ねる可能性がある。したがって、従来の制御装置を用いたとしても、ユーザの利便性を向上させることができるとは限らない。

一方、例えば上記のように映画（コンテンツの一例）のクライマックスシーンが再生されているときであっても、コンテンツ音声が自動的に下がって欲しいとユーザが所望する場合も想定しうる。コンテンツ音声が自動的に下がって欲しいとユーザが所望する場合としては、例えば、ユーザが、再生されているコンテンツよりも、通話を優先したい場合などが挙げられる。上記の場合には、例えば従来の技術のように、一の音声の出力中に他の音データに対応する音声を出力するときに当該一の音声の音量を下げることが、ユーザの利便性の向上に資することとなる。

そこで、本発明の実施形態に係る制御装置１００は、再生しているコンテンツデータ、および／または、検出された発話音声に対応するユーザに設定されている優先度に基づいて、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整する。より具体的には、制御装置１００は、優先度がより高く設定されている音声の音量がより大きくなるように、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整する。

ここで、本発明の実施形態に係る優先度とは、制御装置１００が、コンテンツ音声や発話音声の音量を調整するときにどの音声の音量を優先的に大きくするのかを判定するために用いる指標である。制御装置１００は、例えば、コンテンツデータと発話音声に対応するユーザとのいずれか一方に優先度が設定されている場合には、優先度が設定されているものを優先度が高いと判定し、また、双方に優先度が設定されている場合には、優先度がより高い方を優先度が高いと判定する。優先度としては、例えば、１〜１０などの複数段階で表される数値が挙げられる。なお、本発明の実施形態に係る優先度は、上記のように複数段階で表される数値に限られず、上記判断が可能であればどのような形式で表されるものであってもよい。また、本発明の実施形態に係る優先度が複数段階で表される数値である場合、例えば、値が大きい方が優先度が高くてもよいし、または、値が小さい方が優先度が高くてもよい。以下では、本発明の実施形態に係る優先度が、複数段階で表された数値であり、値が大きい方が優先度が高い場合を例に挙げて説明する。

コンテンツデータには、例えば、優先度がメタデータとして設定される。上記の場合には、制御装置１００は、再生しているコンテンツデータのメタデータを適宜参照することによって、例えばシーンごと（コンテンツデータが映像データの場合）や、フレーズごと（コンテンツデータが音楽データの場合）に、当該コンテンツデータの優先度を動的に解釈することが可能となる。ここで、コンテンツデータに設定される優先度は、例えば当該コンテンツデータの作成者により予め設定されるが、上記に限られず、例えばユーザ操作に基づいて制御装置１００が設定したものであってもよい。また、上記メタデータは、例えば、コンテンツデータに含まれていてもよいし、別データ（外部メタデータ）であってもよい。

また、制御装置１００は、例えば、自装置が記憶する優先度情報や、通信対象装置から送信される優先度情報に基づいて、通話に係る発話音声に対応するユーザに設定されている優先度を特定する。ここで、本発明の実施形態に係る優先度情報とは、ユーザ名と優先度とが対応付けて記録された情報である。優先度情報に設定される優先度は、例えば優先度情報の作成時に設定されるが、上記に限られず、例えばユーザ操作に基づいて制御装置１００が設定したものであってもよい。

また、例えば自装置が記憶する優先度情報と通信対象装置から送信される優先度情報とが同一のユーザに対応する優先度情報であるなど、同一のユーザに対応する優先度情報が複数存在する場合には、制御装置１００は、例えば、いずれか一方の優先度情報を選択的に用いて優先度を特定する。上記の場合、制御装置１００は、例えば自装置に記憶されている優先度情報を優先的に用いるなど、予め規定された設定またはユーザ操作に基づく設定に従って、使用する優先度情報を選択する。なお、同一のユーザに対応する優先度情報が複数存在する場合における制御装置１００の処理は、上記に限られない。例えば、制御装置１００は、同一のユーザに対応する複数の優先度情報に設定されている優先度の平均値を算出して、当該平均値を当該ユーザに対応する新たな優先度とすることもできる。

なお、制御装置１００における発話音声に対応するユーザに設定されている優先度の特定方法は、上記に限られない。例えば、制御装置１００は、記憶しているユーザ名とユーザを特定する情報とが対応付けて記録されたユーザ情報と、優先度情報とに基づいて、発話音声に対応するユーザに設定されている優先度を特定することもできる。より具体的には、制御装置１００は、例えば、ユーザ情報に基づいて発話したユーザを特定し、特定されたユーザに対応する優先度を優先度情報から取得することによって、発話音声に対応するユーザに設定されている優先度を特定する。ここで、本発明の実施形態に係るユーザ情報に記録されるユーザを特定する情報としては、例えば、ユーザの声紋の情報（音声の周波数や強度などの情報）や、ユーザの顔の特徴を示す顔情報（例えば、骨格の情報や、目・鼻・口の位置関係を示す情報など）などが挙げられる。制御装置１００は、例えば、発話音声と記憶するユーザの声紋の情報との照合や、撮像画像から抽出した顔情報と記憶する顔情報との照合など、任意の声紋認証技術や顔認識技術を用いることによって、発話しているユーザを特定することが可能である。

上記のように、設定されている優先度に基づいて、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整することによって、制御装置１００は、優先度がより高く設定されている音声の音量をより大きくさせることができる。よって、制御装置１００は、設定されている優先度に基づいて音量を動的に制御することによって、コンテンツ音声の音量を発話音声の音量よりも大きくすることができ、また、発話音声の音量をコンテンツ音声の音量よりも大きくすることができる。

したがって、制御装置１００は、上述した望ましくない事態が生じる可能性をより低減させつつ、音量を制御することが可能となるので、ユーザの利便性の向上を図ることができる。

なお、上記では、制御装置１００が優先度に基づいて音量を制御する例を示したが、本発明の実施形態に係る制御装置１００における処理は、上記に限られない。例えば、制御装置１００と通信対象装置とが、撮像画像および音声による通話（例えばビデオ通話）に関する通信を行っている場合、制御装置１００は、選択的な音量の調整と連動して、再生しているコンテンツデータが示す画像と通話に係る撮像画像との表示比率を変更させることもできる。本発明の実施形態に係る選択的な音量の調整と連動した表示比率の変更としては、例えば、制御装置１００が、通信対象装置を用いて通話を行っている通話対象ユーザの発話音声を大きくする場合に、当該通話対象ユーザを示す撮像画像の表示サイズを大きく表示させることが挙げられる。また、制御装置１００は、例えば、上記撮像画像の表示サイズの変更と連動して、コンテンツデータが示す画像の表示サイズを小さくしてもよい。なお、本発明の実施形態に係る選択的な音量の調整と連動した表示比率の変更に係る処理が、上記に限られないことは、言うまでもない。

上記のように選択的な音量の調整と連動して表示比率の変更が行われることによって、例えば、音量が大きくなった発話音声がどの通信対象装置のユーザであるかを、制御装置１００のユーザに視覚的に通知することが可能となる。したがって、選択的な音量の調整と連動して表示比率の変更を行うることによって、制御装置１００は、ユーザの利便性をさらに高めることができる。

また、制御装置１００は、コンテンツデータおよび発話音声に対応するユーザの双方に優先度が設定されていない場合には、例えば、発話音声に対応するユーザに対して、コンテンツデータよりもより高い優先度が設定されていると判定する（例外処理の一例）。そして、制御装置１００は、上記判定結果に基づいて、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整する。よって、制御装置１００は、コンテンツデータおよび発話音声に対応するユーザの双方に優先度が設定されていない場合であっても、上記のように予め規定された判定結果に基づいて、発話音声の音量をコンテンツ音声の音量よりも大きくすることができる。なお、上記では、コンテンツデータおよび発話音声に対応するユーザの双方に優先度が設定されていない場合において、発話音声が優先される例を示したが、制御装置１００は、コンテンツ音声が優先されるように音量を制御してもよい。上記のように、予め規定された判定結果に基づいてコンテンツ音声の音量と発話音声の音量とを制御することによって、制御装置１００は、たとえコンテンツデータおよび発話音声に対応するユーザの双方に優先度が設定されていない場合であっても、自動的に音量を制御することができる。

［利便性向上アプローチに係る処理の具体例］
次に、上述した本発明の実施形態に係る利便性向上アプローチを実現するための処理の一例について説明する。図１は、本発明の実施形態に係る制御装置１００における利便性向上アプローチに係る処理の一例を示す流れ図である。

制御装置１００は、コンテンツ音声の音量を第１基準値に設定し（Ｓ１００）、発話音声の音量を第２基準値に設定する（Ｓ１０２）。

ここで、本発明の実施形態に係る第１基準値とは、コンテンツ音声の音量の基準となる値である。また、本発明の実施形態に係る第２基準値とは、発話音声の音量の基準となる値である。つまり、ステップＳ１００、Ｓ１０２の処理は、コンテンツ音声の音量および発話音声の音量の初期値を設定する処理に相当する。

また、図１では、ステップＳ１００の処理が行われた後にステップＳ１０２の処理が行われている例を示しているが、制御装置１００における利便性向上アプローチに係る処理は、上記に限られない。例えば、制御装置１００は、ステップＳ１０２の処理が行われた後にステップＳ１００の処理を行ってもよいし、ステップＳ１００、Ｓ１０２の処理を同期して行うこともできる。

ステップＳ１００、Ｓ１０２の処理が行われると、制御装置１００は、本発明の実施形態に係る利便性向上アプローチに係る音量制御を行うか否かを判定する（Ｓ１０４）。ここで、制御装置１００は、例えば、音量制御のオン／オフを規定するハードウェアスイッチや、リモートコントローラなどの外部操作装置から送信される外部操作信号に基づいて音量制御のオン／オフを規定するソフトウェアスイッチの状態に基づいて、ステップＳ１０４の判定を行う。なお、本発明の実施形態に係る制御装置１００におけるステップＳ１０４の処理は、上記に限られない。

例えば、制御装置１００は、撮像画像に基づいてユーザの所定の動作を検出し、検出結果に基づいて音量制御を行うか否かを判定してもよい。上記の場合、制御装置１００は、例えば、自装置が備える撮像デバイス（後述する撮像部）や、外部撮像デバイス（後述する撮像装置）が生成した撮像画像を画像処理することによって、撮像画像に含まれるユーザの所定の動作（例えば、音量制御のオン／オフを示す手の形状や周期動作など）を検出する。そして、制御装置１００は、例えば、音量制御のオン動作が検出された場合には音量制御を行うと判定する。ここで、制御装置１００は、音量制御のオン動作が検出された場合には、例えば音量制御のオフ動作が検出されるまで音量制御を行うと判定するが、制御装置１００における処理は、上記に限られない。例えば、制御装置１００は、音量制御のオン動作が検出されている場合に限り、音量制御を行うと判定してもよい。

また、制御装置１００は、例えば、自装置が備える音声入力デバイス（後述する音声入力部）や、外部音声入力デバイス（後述する音声入力装置）が生成した、これらのデバイスとユーザとの距離を示す距離情報に基づいて、距離情報が示す距離が所定の閾値以下の場合（または閾値未満の場合）に、音量制御を行うと判定することもできる。上記の場合、制御装置１００は、例えば、距離情報が示す距離が所定の閾値を超えるまで（または閾値以上となるまで）、音量制御を行うと判定する。なお、上記距離情報は、例えば音声入力デバイスや外部音声入力デバイスが備える距離センサにより生成されるが、当該距離センサが、例えば音声入力デバイスや外部音声入力デバイスそのものに備えられておらず別体のデバイスであってもよいことは、言うまでもない。上記の場合には、後述する音声入力部や後述する音声入力装置とは別体の、距離情報生成部（図示せず）や距離測定装置（図示せず）が距離情報を生成することとなる。また、上記の場合における距離情報は、自装置が備える音声入力デバイス（後述する音声入力部）や外部音声入力デバイス（後述する音声入力装置）とユーザとの間のおよその距離を示すこととなる。

ステップＳ１０４において音量制御を行うと判定されない場合には、制御装置１００は、利便性向上アプローチに係る処理を終了する。なお、図１に示す利便性向上アプローチに係る処理は、一度終了すれば再度行われないという類の処理ではなく、制御装置１００は、一旦処理が終了しても定期的／非定期的に図１に示す利便性向上アプローチに係る処理を繰り返すことが可能である。

また、ステップＳ１０４において音量制御を行うと判定された場合には、制御装置１００は、コンテンツデータの再生が行われているか否かを判定する（Ｓ１０６）。制御装置１００は、例えば、記憶部（後述する）に記憶しているコンテンツデータを再生している場合、または、通信対象装置やサーバなどの外部装置から送信されたコンテンツデータを再生している場合に、コンテンツデータの再生が行われていると判定する。ここで、制御装置１００は、例えば、外部装置から送信されたコンテンツデータをストリーミング方式にて再生させてもよいし、また、ダウンロード方式で再生させることもできる

ステップＳ１０６においてコンテンツデータの再生が行われていると判定されない場合には、制御装置１００は、ステップＳ１０４からの処理を繰り返す。

また、ステップＳ１０６においてコンテンツデータの再生が行われていると判定された場合には、制御装置１００は、発話音声が検出されたか否かを判定する（Ｓ１０８）。ここで、制御装置１００は、例えば、音声入力デバイス（後述する音声入力部）を備える場合には、当該音声入力デバイスにおいて生成された音声信号と、通信対象装置から受信した外部音声信号とに基づいて、これらの音声信号が検出されたときに発話音声が検出されたと判定する。また、制御装置１００は、例えば、上記音声入力デバイスを備えていない場合には、外部音声入力デバイス（後述する音声入力装置）において生成された音声信号と、通信対象装置から受信した外部音声信号とに基づいて、これらの音声信号が検出されたときに発話音声が検出されたと判定する。

ステップＳ１０８において発話音声が検出されたと判定されない場合には、制御装置１００は、ステップＳ１０４からの処理を繰り返す。

また、ステップＳ１０８において発話音声が検出されたと判定された場合には、制御装置１００は、優先度に基づく音量制御を行う（Ｓ１１０）。

〔優先度に基づく音量制御処理の一例〕
図２は、本発明の実施形態に係る制御装置１００における優先度に基づく音量制御処理の一例を示す流れ図であり、図１のステップＳ１１０の処理の一例を示している。

制御装置１００は、再生しているコンテンツデータに優先度が設定されているか否かを判定する（Ｓ２００）。制御装置１００は、例えばコンテンツデータのメタデータに基づいて、ステップＳ２００の判定を行う。

〔１〕コンテンツデータに優先度が設定されていない場合
ステップＳ２００において再生しているコンテンツデータに優先度が設定されていると判定されない場合には、制御装置１００は、発話音声に対応するユーザに対して優先度が設定されているか否かを判定する（Ｓ２０２）。ここで、制御装置１００は、例えば、自装置が記憶する優先度情報や、通信対象装置から送信される優先度情報に基づいて、通話に係る発話音声に対応するユーザに設定されている優先度を特定することにより、ステップＳ２０２の処理を行う。

ステップＳ２０２において発話音声に対応するユーザに対して優先度が設定されていると判定された場合には、制御装置１００は、後述するステップＳ２０６、Ｓ２０８の処理を行う。

また、ステップＳ２０２において発話音声に対応するユーザに対して優先度が設定されていると判定されない場合には、制御装置１００は、発話音声に対応するユーザに対して、再生しているコンテンツデータよりもより高い優先度が設定されていると判定する（Ｓ２０４）。ここで、ステップＳ２０４の処理は、優先度に基づく音量制御処理における一種の例外処理である。

ステップＳ２０２において発話音声に対応するユーザに対して優先度が設定されていると判定された場合、または、ステップＳ２０４の処理が行われた場合には、制御装置１００は、コンテンツ音声の音量を第２基準値よりも小さく設定する（Ｓ２０６）。また、制御装置１００は、発話音声の音量を調整する（Ｓ２０８）。

なお、図２では、ステップＳ２０６の処理が行われた後にステップＳ２０８の処理が行われている例を示しているが、制御装置１００における音量制御処理は、上記に限られない。例えば、制御装置１００は、ステップＳ２０８の処理が行われた後にステップＳ２０６の処理を行ってもよいし、ステップＳ２０６、Ｓ２０８の処理を同期して行うこともできる。

図３は、本発明の実施形態に係る制御装置１００におけるコンテンツ音声の音量と発話音声の音量との調整の一例を示す説明図である。

ここで、図３では、音声入力デバイス（後述する音声入力部）または外部音声入力デバイス（後述する音声入力装置）が生成した音声信号に対応する発話音声を“第１発話音声”と示し、また、通話対象装置から送信された外部音声信号に対応する発話音声（すなわち、通話相手の音声）を“第２発話音声”と示している。なお、以下では、図３に示す第１発話音声と第２発話音声とを総称して“発話音声”と示す場合がある。また、図３では、第２発話音声が１つの場合、すなわち、制御装置１００と１つの通信対象装置とが通話に関する通信を行っている例を示している。また、図３では、第１基準値よりも第２基準値が小さい例を示しているが、本発明の実施形態に係る第１基準値と第２基準値との関係は、上記に限られない。例えば、本発明の実施形態に係る第２基準値は、第１基準値以上の値であってもよい。

図３のＡに示すように、第１発話音声または第２発話音声が検出されると、制御装置１００は、コンテンツ音声の音量と発話音声の音量とをそれぞれ調整する。より具体的には、制御装置１００は、例えば、コンテンツ音声の音量を第２基準値より小さく設定する。また、制御装置１００は、例えば、発話音声の音量を、第２基準値より大きな第３基準値に設定する。ここで、本発明の実施形態に係る第３基準値とは、例えば、本発明の実施形態に係る音量制御処理において制御装置１００が設定する発話音声の音量の最大値である。また、第３基準値の値は、例えば、予め規定された値であってもよいし、ユーザ操作に基づいて変更可能な値であってもよい。

なお、図３では、制御装置１００が、コンテンツ音声の音量と発話音声の音量との双方を調整する例を示しているが、本発明の実施形態に係る制御装置１００における音量制御処理は、上記に限られない。例えば、制御装置１００は、コンテンツ音声の音量を第２基準値より小さく設定して発話音声の音量を調整しない、または、発話音声の音量を第３基準値に設定してコンテンツ音声の音量を調整しない（第１基準値＜第３基準値の場合）、など、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整することもできる。つまり、制御装置１００は、優先度がより高く設定されている音声の音量がより大きくなるように、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整する。

また、図３のＢに示すように、第１発話音声および第２発話音声が検出されなくなると、制御装置１００は、所定の期間（図３のＣに示す期間）、発話音声が検出されない状態が続くか否かを判定する。そして、所定の期間（図３のＣに示す期間）発話音声が検出されないと判定した場合には、制御装置１００は、コンテンツ音声の音量を第１基準値に設定し、また、発話音声の音量を第２基準値に設定して、コンテンツ音声の音量と発話音声の音量とをそれぞれ再調整する。ここで、制御装置１００が、所定の期間（図３のＣに示す期間）発話音声が検出されない状態が続くと判定した場合に、コンテンツ音声の音量と発話音声の音量とをそれぞれ再調整するのは、通話に関する通信の場合、発話音声が一旦途切れた後、次の発話音声がすぐに検出される可能性があるからである。よって、上記のように所定の判定期間を設けることによって、音量の調整が頻繁に行われることにより起こりうる、コンテンツ音声、発話音声のバタツキを防止することが可能となる。

また、制御装置１００は、コンテンツ音声の音量と発話音声の音量とをそれぞれ大きく調整する場合には、所定の時間（例えば図３のＤ、Ｅに示す期間）をかけて徐々に大きくする（いわゆる、フェードイン）。また、制御装置１００は、コンテンツ音声の音量と発話音声の音量とをそれぞれ小さく調整する場合には、所定の時間（例えば図３のＤ、Ｅに示す期間）をかけて徐々に小さくする（いわゆる、フェードアウト）。ここで、制御装置１００は、例えば図３のＤに示すように、コンテンツ音声の音量の調整に要する所定の時間と発話音声の音量の調整に要する所定の時間とを同一に設定することもでき、また、例えば図３のＥに示すように、これらの所定の時間を相異なるように設定することもできる。

制御装置１００は、例えば図３に示すように、コンテンツ音声の音量と発話音声の音量とを調整する。なお、図３では、第１発話音声の音量と第２発話音声の音量とを同期して調整する例を示したが、本発明の実施形態に係る制御装置１００における発話音声の音量の調整処理は、上記に限られない。例えば、制御装置１００は、複数の発話音声がある場合に、優先度がより高いユーザに対応する発話音声の音量を調整することもできる。

＜発話音声の音量調整処理の一例＞
図４は、本発明の実施形態に係る制御装置１００における発話音声の音量調整処理の一例を示す流れ図であり、図２のステップＳ２０８の処理の一例を示している。

制御装置１００は、図２のステップＳ２０２と同様に、発話音声に対応するユーザに対して優先度が設定されているか否かを判定する（Ｓ３００）。

ステップＳ３００において発話音声に対応するユーザに対して優先度が設定されていないと判定された場合には、制御装置１００は、発話音声の音量を第３基準値に設定する（Ｓ３０２）。そして、制御装置１００は、発話音声の音量調整処理を終了する。

また、ステップＳ３００において発話音声に対応するユーザに対して優先度が設定されてると判定された場合には、制御装置１００は、複数の発話音声が検出されているか否かを判定する（Ｓ３０４）。ステップＳ３０４において複数の発話音声が検出されていると判定されない場合には、制御装置１００は、ステップＳ３０２の処理を行い、発話音声の音量調整処理を終了する。

また、ステップＳ３０４において複数の発話音声が検出されていると判定された場合には、制御装置１００は、優先度がより高く設定されているユーザに対応する発話音声の音量を第３基準値に設定する（Ｓ３０６）。そして、制御装置１００は、発話音声の音量調整処理を終了する。

ここで、制御装置１００は、ステップＳ３０６の処理において、例えば、優先度がより高い１または２以上のユーザに対応する発話音声の音量を調整し、他のユーザに対応する発話音声の音量を調整しないが、本発明の実施形態に係るステップＳ３０６の処理は、上記に限られない。例えば、制御装置１００は、ユーザそれぞれに設定されている優先度に応じた音量を、それぞれの発話音声に設定することもできる。制御装置１００は、例えば、優先度と音量とが対応付けられたルックアップテーブルを用いることによって、ユーザそれぞれに設定されている優先度に応じた音量を設定する。

制御装置１００は、例えば、図４に示す処理を行うことによって、複数の発話音声がある場合であっても、当該発話音声それぞれに対応するユーザに設定されている優先度に基づいて、当該発話音声それぞれの音量を調整することができる。なお、本発明の実施形態に係る発話音声の音量調整処理が、図４に示す例に限られないことは、言うまでもない。

再度図２を参照して、本発明の実施形態に係る制御装置１００における優先度に基づく音量制御処理の一例について説明する。ステップＳ２０８の処理が行われると、制御装置１００は、発話音声が所定の期間検出されていないか否かを判定する（Ｓ２１０）。ここで、ステップＳ２１０における所定の期間は、例えば図３のＣに示す期間に相当する。

ステップＳ２１０において発話音声が所定の期間検出されていないと判定されない場合には、制御装置１００は、ステップＳ２０８からの処理を繰り返す。また、ステップＳ２１０において発話音声が所定の期間検出されていないと判定された場合には、制御装置１００は、優先度に基づく音量制御処理を終了する。

〔２〕コンテンツデータに優先度が設定されている場合
次に、コンテンツデータに優先度が設定されている場合における優先度に基づく音量制御処理の一例について説明する。ステップＳ２００において再生しているコンテンツデータに優先度が設定されていると判定された場合には、制御装置１００は、ステップＳ２０２と同様に、発話音声に対応するユーザに対して優先度が設定されているか否かを判定する（Ｓ２１２）。

ステップＳ２１２において発話音声に対応するユーザに対して優先度が設定されていると判定されない場合には、制御装置１００は、後述するステップＳ２１６、Ｓ２１８の処理を行う。

また、ステップＳ２１２において発話音声に対応するユーザに対して優先度が設定されていると判定された場合には、制御装置１００は、コンテンツデータに設定されている優先度が発話音声に対応するユーザに設定されている優先度よりも高いか否かを判定する（Ｓ２１４）。

ステップＳ２１４においてコンテンツデータに設定されている優先度が発話音声に対応するユーザに設定されている優先度よりも高いと判定された場合には、制御装置１００は、ステップＳ２０６以降の処理を行う。

また、ステップＳ２１４においてコンテンツデータに設定されている優先度が発話音声に対応するユーザに設定されている優先度よりも高いと判定されない場合には、制御装置１００は、コンテンツ音声の音量を調整しない（Ｓ２１６）。また、制御装置１００は、発話音声の音量を第１基準値よりも小さく設定する（Ｓ２１８）。

ここで、図２では、ステップＳ２１６の処理において、制御装置１００がコンテンツ音声の音量を調整しない例を示しているが、本発明の実施形態に係るステップＳ２１６の処理は、上記に限られない。例えば、制御装置１００は、コンテンツデータに設定されている優先度が発話音声に対応するユーザに設定されている優先度よりも高いと判定されない場合に、コンテンツ音声の音量を第１基準値よりもさらに大きな値に設定してもよい。また、第１基準値よりも第２基準値が小さい値である場合には、制御装置１００は、例えば、ステップＳ２１８の処理において発話音声の音量を第２基準値よりもさらに小さくする。

なお、図２では、ステップＳ２１６の処理が行われた後にステップＳ２１８の処理が行われている例を示しているが、制御装置１００における音量制御処理は、上記に限られない。例えば、制御装置１００は、ステップＳ２１８の処理が行われた後にステップＳ２１６の処理を行ってもよいし、ステップＳ２１６、Ｓ２１８の処理を同期して行うこともできる。

ステップＳ２１８の処理が行われると、制御装置１００は、ステップＳ２１０と同様に、発話音声が所定の期間検出されていないか否かを判定する（Ｓ２２０）。

ステップＳ２２０において発話音声が所定の期間検出されていないと判定されない場合には、制御装置１００は、発話音声が所定の期間検出されていないと判定されるまで処理を進めない。また、ステップＳ２２０において発話音声が所定の期間検出されていないと判定された場合には、制御装置１００は、優先度に基づく音量制御処理を終了する。

制御装置１００は、例えば図２に示す処理を行うことによって、コンテンツデータ、および／または、発話音声に対応するユーザに設定されている優先度に基づく音量制御処理を行う。なお、本発明の実施形態に係る優先度に基づく音量制御処理が、図２に示す例に限られないことは、言うまでもない。

再度図１を参照して、本発明の実施形態に係る利便性向上アプローチを実現するための処理の一例について説明する。ステップＳ１１０の処理（優先度に基づく音量制御処理）が終了すると、制御装置１００は、ステップＳ１００からの処理を繰り返す。

制御装置１００は、例えば図１に示す処理を行うことによって、再生しているコンテンツデータの音声の音量と、通話に関する通信に係る発話音声の音量とをそれぞれ選択的に調整する。ここで、制御装置１００は、例えば図２に示すような優先度に基づく音量制御処理を行うことによって、優先度がより高く設定されている音声の音量がより大きくなるように、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整する。したがって、制御装置１００は、図１に示す処理を行うことによって、本発明の実施形態に係る利便性向上アプローチを実現することができるので、通信対象装置との間で通話に関する通信を行う場合におけるユーザの利便性の向上を図ることができる。なお、本発明の実施形態に係る利便性向上アプローチを実現するための処理が、図１に示す処理に限られないことは、言うまでもない。

（本発明の実施形態に係る制御装置）
次に、上述した本発明の実施形態に係る利便性向上アプローチに係る処理を行うことが可能な、本発明の実施形態に係る制御装置１００の構成の一例について説明する。

［第１の実施形態］
図５は、本発明の第１の実施形態に係る制御装置１００の構成の一例を示すブロック図である。

ここで、図５では、表示画面への画像（静止画像または動画像）の表示、表示画面の表示方向を撮像することによる撮像画像の生成、および音声による通話を実現するための音声入力・音声出力を行う表示システム２００と、ネットワーク４００で接続された通信対象装置３００、…とを併せて示している。ここで、上記「ネットワーク４００で接続されている」とは、一の装置と他の装置とがネットワーク４００を介して通信を行っていること、または通信可能な状態にあることをいう。また、ネットワーク４００としては、例えば、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）などの有線ネットワーク、基地局を介した無線ＷＡＮ（ＷＷＡＮ；Wireless Wide Area Network）などの無線ネットワーク、あるいは、ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol）などの通信プロトコルを用いたインターネットなどが挙げられる。なお、制御装置１００と通信対象装置３００とは、ネットワーク４００を介して通信を行うことに限られず、例えば、直接的に通信を行ってもよい。

図５に示す構成により、制御装置１００と表示システム２００とを用いるユーザは、例えばビデオ通話のような撮像画像および音声による通話を、通信対象装置３００のユーザとの間で行うことができる。なお、図５の表示システム２００を、例えば、マイクやスピーカなどから構成される、音声による通話を実現するための音声入力・音声出力を行う音声入出力システム（図示せず）に置き換えてもよい。上記の場合には、制御装置１００と音声入出力システム（図示せず）とを用いるユーザは、音声による通話を通信対象装置３００のユーザとの間で行うこととなる。

また、図５では、表示システム２００が、表示を行う表示装置５００と、撮像を行う撮像装置６００と、音声を出力する音声出力装置７００と、音声を入力する音声入力装置８００とからなる例を示しているが、本発明の実施形態に係る表示システム２００の構成は、上記に限られない。例えば、表示システム２００は、表示装置５００、撮像装置６００、音声出力装置７００が一体となった装置（例えば撮像機能および音声出力機能を有する表示装置）であってもよい。また、表示システム２００は、例えば、表示機能、撮像機能、音声出力機能、および音声入力機能を有する、１つの装置であってもよい。

ここで、表示システム２００が表示画面の表示方向を撮像した撮像画像を生成することによって、当該表示画面を見ているユーザを撮像した撮像画像が得られる。したがって、表示システム２００が生成した撮像画像を処理することによって、制御装置１００は、例えば、発話音声に対応するユーザに設定されている優先度の特定に係る顔認識処理などをより容易に行うことが可能となる。

図５を参照すると、制御装置１００は、記憶部１０２と、通信部１０４と、入力部１０６と、制御部１０８とを備える。

また、制御装置１００は、例えば、ＲＯＭ（Read Only Memory；図示せず）や、ＲＡＭ（Random Access Memory；図示せず）、ユーザが操作可能な操作部（図示せず）などを備えてもよい。制御装置１００は、例えば、データの伝送路としてのバス（bus）により各構成要素間を接続する。

ここで、ＲＯＭ（図示せず）は、例えば制御部１０８が使用するプログラムや演算パラメータなどの制御用データを記憶する。ＲＡＭ（図示せず）は、例えば制御部１０８により実行されるプログラムなどを一時的に記憶する。また、操作部（図示せず）としては、例えば、ボタンや、方向キー、あるいは、これらの組み合わせなどが挙げられる。なお、制御装置１００は、制御装置１００の外部装置としての操作入力デバイス（例えば、キーボードやマウスなど）と接続されてもよい。

〔制御装置１００のハードウェア構成例〕
図６は、本発明の実施形態に係る制御装置１００のハードウェア構成の一例を示す説明図である。ここで、図６は、制御装置１００のハードウェア構成のうちの、音声による通話に係るハードウェア構成の一例を示しており、同様の構成を有する通信対象装置３００（すなわち、通信対象の他の制御装置１００）を併せて示している。つまり、本発明の実施形態に係る制御装置１００のハードウェア構成は、図６に示す構成に限られない。例えば、制御装置１００は、記憶部１０２としての役目を果たす記録媒体（図示せず）や、入力部１０６としての役目を果たす入出力インタフェース（図示せず）などを備える。また、図６では、制御装置１００が、例えばスピーカで構成される、音声出力装置７００に対応する音声出力デバイス７００Ａ（後述する音声出力部に該当）を備えている例を示している。

記録媒体（図示せず）は、制御装置１００が備える記憶手段であり、ユーザ情報や、優先度情報、コンテンツデータ、アプリケーションなどを記憶する。ここで、記録媒体（図示せず）としては、例えば、ハードディスクなどの磁気記録媒体や、ＥＥＰＲＯＭ（Electrically Erasable and Programmable Read Only Memory）、フラッシュメモリ（flash memory）、ＭＲＡＭ（Magnetoresistive Random Access Memory）、ＦｅＲＡＭ（Ferroelectric Random Access Memory）、ＰＲＡＭ（Phase change Random Access Memory）などの不揮発性メモリ（nonvolatile memory）が挙げられる。また、制御装置１００は、制御装置１００から着脱可能な記録媒体（図示せず）を備えることもできる。

入出力インタフェース（図示せず）としては、例えば、音声入力端子や、音声出力端子、ＵＳＢ（Universal Serial Bus）端子、ＤＶＩ（Digital Visual Interface）端子、ＨＤＭＩ（High-Definition Multimedia Interface）端子、各種処理回路などが挙げられる。

図６を参照すると、制御装置１００は、例えば、通信モジュール１５０と、ＭＰＵ１５２と、コンテンツデータ処理回路１５４と、ＡＤコンバータ１５６と、サウンドミキサ１５８と、アンプ１６０とを備える。また、通信対象装置３００は、例えば、通信モジュール３５０と、ＭＰＵ３５２と、コンテンツデータ処理回路３５４と、ＡＤコンバータ３５６と、サウンドミキサ３５８と、アンプ３６０とを備える。ここで、通信対象装置３００の各構成要素は、後述する制御装置１００の対応する各構成要素と同一の構成をとることができるので、以下では、通信対象装置３００についての説明を省略する。

通信モジュール１５０は、制御装置１００が備える通信手段であり、ネットワーク４００を介して（あるいは、直接的に）、例えば表示システム２００や、通信対象装置３００、コンテンツデータを記憶するサーバ（図示せず）などの外部装置と無線／有線で通信を行う通信部１０４としての役目を果たす。ここで、通信インタフェース（図示せず）としては、例えば、通信アンテナおよびＲＦ回路や、ＩＥＥＥ８０２．１５．１ポートおよび送受信回路、ＩＥＥＥ８０２．１１ｂポートおよび送受信回路、あるいはＬＡＮ端子および送受信回路などが挙げられる。

なお、制御装置１００と表示システム２００とは、例えば、通信モジュール１５０および／または入出力インタフェース（図示せず）を用いて、音声信号や画像信号などの送受信を行うことが可能である。よって、本発明の実施形態に係る制御装置１００は、通信モジュール１５０が、通信部１０４および入力部１０６の役目を果たす構成であってもよい。また、図６では、制御装置１００が１つの通信モジュール１５０を備える構成を示しているが、本発明の実施形態に係る制御装置１００の構成は、上記に限られない。例えば、制御装置１００は、複数の通信モジュールを備え、複数の通信モジュールのうちの一の通信モジュールが通信部１０４の役目を果たし、複数の通信モジュールのうちの他の通信モジュールが入力部１０６としての役目を果たすこともできる。

ＭＰＵ１５２は、例えば、ＭＰＵ（Micro Processing Unit）や、声紋認証処理、顔認識処理、画像処理などの各種機能を実現するための複数の回路が集積された集積回路などで構成され、制御装置１００全体を制御する制御部１５２として機能する。また、ＭＰＵ１５２は、制御装置１００において、例えば、後述する再生処理部１１０、検出部１１２、判定部１１４、音量制御部１１６、および表示制御部１１８としての役目を果たす。なお、図５では、制御装置１００が、ＭＰＵ１５２と別途に、コンテンツデータ処理回路１５４とサウンドミキサ１５８とを備える例を示しているが、制御装置１００の構成は、上記に限られない。例えば、本発明の実施形態に係る制御装置１００は、ＭＰＵ１５２が、コンテンツデータ処理回路１５４およびサウンドミキサ１５８の機能を有していてもよい。

ＭＰＵ１５２は、例えば、ＡＤコンバータ１５６から伝達される音声データ１を、声紋認識に係る音声判定プログラムを実行して処理し、音声データ１に含まれる発話音声に対応するユーザ（図６の例では、ユーザＡ）を特定する。そして、ＭＰＵ１５２は、特定したユーザに対応するユーザ情報を通信モジュール１５０を介して通信対象装置３００へ送信する（信号線Ｌ１参照）。

また、ＭＰＵ１５２は、例えば、優先度に基づく音量制御処理に係るミキサ制御プログラムを実行する。そして、ＭＰＵ１５２は、送信したユーザ情報、通信モジュール１５０から伝達される通信対象装置３００から送信されたユーザ情報（信号線Ｌ２参照）、および再生されているコンテンツデータの優先度に基づいて、サウンドミキサ１５８を制御する。

コンテンツデータ処理回路１５４は、コンテンツデータの再生に係る処理を行う。ここで、コンテンツデータ処理回路１５４としては、例えばエンコーダやデコーダなどの各種回路が集積された集積回路が挙げられる。コンテンツデータ処理回路１５４において再生された、コンテンツ音声を示す音声データ３は、サウンドミキサ１５８へ伝達される。

ＡＤコンバータ１５６（Analog to Digital Converter）は、音声入力装置８００Ａから受信した音声信号１を音声データ１に変換する。ここで、音声信号１には、例えば、ユーザＡの発話音声、および／または、音声出力デバイス７００Ａから出力される音声が含まれうる。そして、ＡＤコンバータ１５６は、音声データ１を通信モジュール１５０に伝達し（信号線Ｌ３参照）、音声データ１は、通信対象装置３００へ送信される。また、ＡＤコンバータ１５６は、ＭＰＵ１５２およびサウンドミキサ１５８へ音声データ１を伝達する。

サウンドミキサ１５８は、ＭＰＵ１５２により制御され、発話音声が含まれうる音声データ１、通信モジュール１５０から伝達される通信対象装置３００から送信された、発話音声が含まれうる音声データ２（信号線Ｌ４参照）、およびコンテンツ音声を示す音声
データ３それぞれの音量を調整する。

サウンドミキサ−１５８により調整された音声データは、アンプ１６０において音声信号に変換、増幅され、音声信号が音声出力デバイス７００Ａへ伝達される。よって、音声出力デバイス７００Ａからは、優先度に基づく音量制御処理により調整された音量で、コンテンツ音声と発話音声とが出力される。

制御装置１００は、例えば図６に示す構成により、本発明の実施形態に係る利便性向上アプローチに係る処理を実現する。なお、本発明の実施形態に係る制御装置１００の構成が、図６に示す構成に限られないことは、言うまでもない。

再度図５を参照して、本発明の第１の実施形態に係る制御装置１００の構成の一例について説明する。記憶部１０２は、制御装置１００が備える記憶手段である。ここで、記憶部１０２としては、例えば、ハードディスクなどの磁気記録媒体や、フラッシュメモリなどの不揮発性メモリなどが挙げられる。

また、記憶部１０２は、例えば、ユーザ情報や、優先度情報、コンテンツデータ、アプリケーションなどを記憶する。図５では、ユーザ情報１３０と、優先度情報１３２と、コンテンツデータ１３４、…とが記憶部１０２に記憶されている例を示している。

通信部１０４は、制御装置１００が備える通信手段であり、ネットワーク４００を介して（あるいは、直接的に）、表示システム２００や通信対象装置３００、サーバ（図示せず）などの外部装置と無線／有線で通信を行う。制御装置１００は、通信部１０４を備えることによって、１または２以上の通信対象装置との間で通信を行い、通話に関する通信（音声による通話、または、撮像画像および音声による通話に関する通信）を行うことができる。また、通信部１０４は、例えば、制御部１０８により通信が制御される。

ここで、通信部１０４としては、例えば、通信アンテナおよびＲＦ回路や、ＬＡＮ端子および送受信回路などが挙げられるが、通信部１０４は、上記に限られない。例えば、通信部１０４は、ネットワーク４００を介して外部装置と通信可能な任意の構成をとることができる。

入力部１０６は、例えば、撮像装置６００が撮像により生成した撮像画像や、音声入力装置８００が生成した音声信号を受信する。そして、入力部１０６は、受信した（入力された）撮像画像や音声信号を、制御部１０８へ伝達する。ここで、入力部１０６としては、例えば、音声入力端子や、音声出力端子、ＵＳＢ端子、ＤＶＩ端子、ＨＤＭＩ端子、各種処理回路などが挙げられるが、入力部１０６は、上記に限られない。例えば、入力部１０６は、外部装置から撮像画像や音声信号を有線または無線で受信することが可能な任意の構成をとることができる。

また、入力部１０６は、音声入力装置８００が生成した距離データを受信した場合には、当該距離データを制御部１０８へ伝達する。

制御部１０８は、例えば、ＭＰＵや、コンテンツデータ処理回路やサウンドミキサなどの各種処理回路が集積された集積回路などで構成され、制御装置１００全体を制御する役目を果たす。また、制御部１０８は、再生処理部１１０と、検出部１１２と、判定部１１４と、音量制御部１１６と、表示制御部１１８とを備え、本発明の実施形態に係る利便性向上アプローチに係る処理を主導的に行う役目を果たす。

再生処理部１１０は、記憶部１０２に記憶しているコンテンツデータ、または、通信部１０４が受信した、通信対象装置３００やサーバ（図示せず）などの外部装置から送信されたコンテンツデータを再生する。

検出部１１２は、入力部１０６から伝達される音声信号と、通信部１０４が受信した外部音声信号とに基づいて、通話に関する通信におけるユーザの発話音声を検出する。

また、判定部１１４は、音量制御を行うか否かを判定する。より具体的には、判定部１１４は、例えば、音量制御のオン／オフを規定するハードウェアスイッチやソフトウェアスイッチの状態や、撮像画像、距離情報に基づいて、図１のステップＳ１０４の処理を行う。

なお、図５では、制御装置１００が判定部１１４を備える構成を示しているが、本発明の実施形態に係る制御装置１００の構成は、上記に限られない。例えば、制御装置１００は、判定部１１４を備えない構成をとることができる。上記の場合には、制御装置１００は、例えば図１のステップＳ１０４において音量制御を行うと判定される状態で、本発明の実施形態に係る利便性向上アプローチに係る処理を行うこととなる。

音量制御部１１６は、優先度に基づく音量制御処理を主導的に行う役目を果たす。より具体的には、音量制御部１１６は、再生処理部が再生しているコンテンツデータ、および／または、検出部により検出された発話音声に対応するユーザに設定されている優先度に基づいて、例えば図２に示す処理を行う。そして、音量制御部１１６は、音量を調整した音声に対応する音声信号を、例えば通信部１０４を介して音声出力装置７００へ送信して、音量を調整した音声を音声出力装置７００に出力させる。

また、音量制御部１１６は、コンテンツ音声の音量と発話音声の音量とを調整する場合には、いわゆるフェードイン、フェードアウトが実現されるように、徐々に音量を大きくまたは小さくする。

また、音量制御部１１６は、判定部１１４において音量制御を行うと判定された場合に、コンテンツ音声の音量と発話音声の音量との選択的な音量の調整を行う。音量制御部１１６が判定部１１４の判定結果に応じて音量の調整を行うことによって、制御装置１００では、例えば、ハードウェアスイッチやソフトウェアスイッチの状態や、ユーザの所定の動作、ユーザと音声入力装置８００との距離などに基づいて、音量制御を選択的に有効化／無効化することが可能となる。

表示制御部１１８は、表示画面への画像の表示を制御する役目を果たす。より具体的には、例えばコンテンツ再生部１１０が画像を含むコンテンツに係るコンテンツデータを再生した場合には、表示制御部１１８は、表示装置５００や自装置が備える表示部（後述する）に、当該画像を表示させる。また、表示制御部１１８は、例えば、制御装置１００と通信対象装置３００とが、例えば撮像画像および音声による通話に関する通信を行っている場合には、再生処理部１１０が再生したコンテンツデータが示す画像と、通信部１０４が通信対象装置３００から受信した撮像画像とが共に表示される画像を、表示画面に表示させる。なお、制御装置１００と通信対象装置３００とが、例えば撮像画像および音声による通話に関する通信を行っている場合、表示制御部１１８は、上記コンテンツデータが示す画像などに加え、さらに入力部１０６が受信した撮像画像を表示画面に表示させてもよい。つまり、表示制御部１１８は、例えば、コンテンツデータが示す画像と共に、通話に係る撮像画像を表示画面に表示させる。

また、コンテンツデータが示す画像と撮像画像とが共に表示される画像を表示画面に表示させる場合、表示制御部１１８は、例えば、音量制御部１１６におけるコンテンツ音声の音量と発話音声の音量との選択的な音量の調整と連動して、再生しているコンテンツデータが示す画像と通話に係る撮像画像との表示比率を変更させる。

第１の実施形態に係る制御装置１００は、例えば図５に示す構成によって、本発明の実施形態に係る利便性向上アプローチに係る処理を実現することができる。したがって、制御装置１００は、例えば図５に示す構成によって、１、または２以上の通信対象装置との間で通話に関する通信を行う場合における、ユーザの利便性の向上を図ることができる。なお、本発明の第１の実施形態に係る制御装置１００の構成が、図５に示す構成に限られないことは、言うまでもない。

［第２の実施形態］
図７は、本発明の第２の実施形態に係る制御装置１００の構成の一例を示すブロック図である。ここで、図７では、図５と同様に、ネットワーク４００で接続された通信対象装置３００、…を併せて示している。

図７に示す第２の実施形態に係る制御装置１００は、図５に示す第１の実施形態に係る制御装置１００と基本的に同様の構成を有するが、図５に示す第１の実施形態に係る制御装置１００と比較すると、第２の実施形態に係る制御装置１００は、入力部１０６を備えず、また、音声入力部１２０と、撮像部１２２と、表示部１２４と、音声出力部１２６とをさらに備えている。

音声入力部１２０は、制御装置１００が備える音声信号生成手段である。音声入力部１２０としては、例えばマイクロフォンが挙げられる。なお、音声入力部１２０は、制御装置１００から着脱可能であってもよい。

また、音声入力部１２０は、ユーザとの距離を測定する距離センサを備え、距離情報を生成する構成をとることもできる。なお、制御装置１００は、音声入力部１２０が距離センサを備える構成に限られず、例えば、距離情報生成部（図示せず）として機能する距離センサを、音声入力部１２０とは別体に備えていてもよい。

撮像部１２２は、制御装置１００が備える撮像手段であり、表示部１２４が表示する表示画面の表示方向を撮像して、撮像画像を生成する。なお、第２の実施形態に係る制御装置１００が、撮像画像および音声による通話に関する通信を行う機能を有さない場合には、制御装置１００は、撮像部１２２を備えない構成であってもよい。

また、撮像部１２２としては、例えば、レンズ／撮像素子と信号処理回路とから構成される撮像デバイスが挙げられる。ここで、光学系のレンズと、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を複数用いたイメージセンサとで構成される。また、信号処理回路は、例えば、ＡＧＣ（Automatic Gain Control）回路やＡＤコンバータを備え、撮像素子により生成されたアナログ信号をデジタル信号（画像データ）に変換し、各種信号処理を行う。信号処理回路が行う信号処理としては、例えば、ＷｈｉｔｅＢａｌａｎｃｅ補正処理、補間処理、色調補正処理、ガンマ補正処理、ＹＣｂＣｒ変換処理、エッジ強調処理、およびコーディング処理などが挙げられる。

表示部１２４は、制御装置１００が備える表示手段であり、表示画面に様々な情報や画像を表示する。表示部１２４の表示画面に表示される画面としては、例えば、コンテンツデータが示す画像を表示するコンテンツ表示画面や、通話に係る撮像画像が表示される画面、所望する動作を制御装置１００に対して行わせるための操作画面などが挙げられる。なお、上記通話に係る撮像画像が表示される画面において、撮像画像は、コンテンツが示す画像と並列に表示されてもよく、または、コンテンツが示す画像に重畳して表示されてもよい。

また、表示部１２４としては、例えば、液晶ディスプレイ（Liquid Crystal Display；ＬＣＤ）や有機ＥＬディスプレイ（organic ElectroLuminescence display。または、ＯＬＥＤディスプレイ（Organic Light Emitting Diode display）ともよばれる。）などが挙げられる。

音声出力部１２６は、制御装置１００が備える音声出力手段であり、例えばコンテンツ音声や、通話に係る発話音声、制御装置１００におけるシステム音声など、様々な音声を出力する。

また、音声出力部１２６としては、例えば、ＤＳＰ（Digital Signal Processor）と、増幅器（アンプ）やスピーカなどから構成される音声出力デバイスが挙げられる。

第２の実施形態に係る制御装置１００は、図５に示す第１の実施形態に係る制御装置１００と基本的に同様の構成を有する。よって、第２の実施形態に係る制御装置１００は、図７に示す構成によって、第１の実施形態に係る制御装置１００と同様に、本発明の実施形態に係る利便性向上アプローチに係る処理を実現することができる。したがって、制御装置１００は、例えば図７に示す構成によって、１、または２以上の通信対象装置との間で通話に関する通信を行う場合における、ユーザの利便性の向上を図ることができる。なお、本発明の第２の実施形態に係る制御装置１００の構成は、図７に示す構成に限られない。例えば第２の実施形態に係る制御装置１００は、図５に示す第１の実施形態に係る制御装置１００と同様に、入力部１０６を備えていてもよい。

以上のように、本発明の実施形態に係る制御装置１００は、再生しているコンテンツデータ、および／または、検出された発話音声に対応するユーザに設定されている優先度に基づいて、優先度がより高く設定されている音声の音量がより大きくなるように、コンテンツ音声の音量と発話音声の音量とをそれぞれ選択的に調整する。よって、制御装置１００は、設定されている優先度に基づいて音量を動的に制御することによって、コンテンツ音声の音量を、通話に係る発話音声の音量よりも大きくすることができ、また、通話に係る発話音声の音量をコンテンツ音声の音量よりも大きくすることができる。

したがって、制御装置１００は、上述した望ましくない事態が生じる可能性をより低減させつつ、音量を制御することができるので、通信対象装置との間で通話に関する通信を行う場合におけるユーザの利便性の向上を図ることができる。

以上、本発明の実施形態として制御装置１００を挙げて説明したが、本発明の実施形態は、かかる形態に限られない。本発明の実施形態は、例えば、ＰＣやサーバなどのコンピュータ、テレビ受像機やサイネージ装置などの表示装置、携帯電話などの携帯型通信装置、映像／音楽再生装置（または映像／音楽記録再生装置）、ゲーム機、セットトップボックスなど、様々な機器に適用することができる。

また、本発明の実施形態として表示システム２００を挙げて説明したが、本発明の実施形態は、かかる形態に限られない。本発明の実施形態は、例えば、ＰＣなどのコンピュータ、テレビ受像機やサイネージ装置などの表示装置、携帯電話などの携帯型通信装置など、様々な機器に適用することができる。なお、本発明の実施形態に係る表示システム２００は、表示を行う機器と、撮像を行う機器と、音声信号を生成する機器と、音声を出力する機器との組合せであってもよい。

（本発明の実施形態に係るプログラム）
コンピュータを、本発明の実施形態に係る制御装置として機能させるためのプログラム（例えば図１、図２、図４に示すような、本発明の実施形態に係る利便性向上アプローチに係る処理を実現するためのプログラム）によって、通信対象装置との間で通話に関する通信を行う場合におけるユーザの利便性の向上を図ることができる。

以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

例えば、本発明の実施形態に係る制御装置１００は、図５、図７に示す再生処理部１１０、検出部１１２、判定部１１４、音量制御部１１６、および表示制御部１１８を個別に備える（例えば、それぞれを個別の処理回路で実現する）ことができる。

また、上記では、コンピュータを、本発明の実施形態に係る制御装置として機能させるためのプログラム（コンピュータプログラム）が提供されることを示したが、本発明の実施形態は、さらに、上記プログラムを記憶させた記憶媒体も併せて提供することができる。

上述した構成は、本発明の実施形態の一例を示すものであり、当然に、本発明の技術的範囲に属するものである。

１００制御装置
１０２記憶部
１０４通信部
１０６入力部
１０８制御部
１１０再生処理部
１１２検出部
１１４判定部
１１６音量制御部
１１８表示制御部
１２０音声入力部
１２２撮像部
１２４表示部
１２６音声出力部
２００表示システム
３００通信対象装置
５００表示装置
６００撮像装置
７００音声出力装置
８００、８００Ａ、８００Ｂ音声入力装置

Claims

第１の音声信号が示す第１の音声と第２の音声信号が示す第２の音声とをそれぞれ出力する音声出力部と、
ユーザの操作により設定された優先度、または予め設定された優先度に基づいて、前記第１の音声の音量と前記第２の音声の音量とを制御する音量制御部と、
を備え、
前記音量制御部は、前記第１の音声と前記第２の音声とが同時に出力される場合には、より高い前記優先度が設定されている音声の音量がより大きくなるように音量を調整し、
前記優先度は、複数段階で表される数値で表され、
前記第１の音声信号に対応するコンテンツデータに前記優先度が設定される場合には、前記第１の音声信号に対応するコンテンツデータの前記優先度は、前記コンテンツデータのメタデータに設定され、
前記第１の音声信号に対応するコンテンツデータに前記優先度が設定されない場合には、前記第１の音声信号に対応するコンテンツデータの前記優先度は、前記メタデータに設定されず、
前記音量制御部は、
再生されている前記コンテンツデータの前記メタデータを参照することにより、前記第１の音声に設定されている前記優先度を特定し、
撮像画像に基づいて前記第２の音声を発話したユーザが特定された結果に基づき、前記第２の音声に設定されている前記優先度を特定する、制御装置。
前記音量制御部は、前記第１の音声の音量と前記第２の音声の音量とを同期して調整する、請求項１に記載の制御装置。
前記音量制御部は、より高い前記優先度が設定されている音声の音量がより大きくなるように音量を調整しながら、より低い前記優先度が設定されている音声の音量がより小さくなるように音量を調整する、請求項２に記載の制御装置。
前記第１の音声信号に対応するコンテンツデータを記憶する記憶部をさらに備える、請求項１〜３のいずれか１項に記載の制御装置。
第１の音声信号が示す第１の音声と第２の音声信号が示す第２の音声とをそれぞれ出力する音声出力ステップと、
ユーザの操作により設定された優先度、または予め設定された優先度に基づいて、前記第１の音声の音量と前記第２の音声の音量とを制御する音量制御ステップと、
を有し、
前記音量制御ステップでは、前記第１の音声と前記第２の音声とが同時に出力される場合には、より高い前記優先度が設定されている音声の音量がより大きくなるように音量が調整され、
前記優先度は、複数段階で表される数値で表され、
前記第１の音声信号に対応するコンテンツデータに前記優先度が設定される場合には、前記第１の音声信号に対応するコンテンツデータの前記優先度は、前記コンテンツデータのメタデータに設定され、
前記第１の音声信号に対応するコンテンツデータに前記優先度が設定されない場合には、前記第１の音声信号に対応するコンテンツデータの前記優先度は、前記メタデータに設定されず、
前記音量制御ステップでは、
再生されている前記コンテンツデータの前記メタデータが参照されることにより、前記第１の音声に設定されている前記優先度が特定され、
撮像画像に基づいて前記第２の音声を発話したユーザが特定された結果に基づき、前記第２の音声信号に設定されている前記優先度が特定される、制御装置により実行される制御方法。