JP2018101452A

JP2018101452A - 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造

Info

Publication number: JP2018101452A
Application number: JP2016246433A
Authority: JP
Inventors: 敦英高橋; Atsuhide Takahashi
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2018-06-28
Also published as: CN108206948A; US20180176708A1

Abstract

【課題】視聴者の高さに応じた臨場感のある音声を出力できるようにする。
【解決手段】コンテンツ出力装置２の制御部２１は、撮影部２４に視聴者を撮影させ、得られた撮影画像に基づいて、コンテンツを視聴している視聴者の高さを検出し、検出された高さに応じたコンテンツの音声を音声出力部２６に出力させる。
【選択図】図７

Description

本発明は、出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造に関する。

従来、パノラマ投影が可能なデバイスが知られている（例えば、特許文献１参照）。

特表２０１０−５３６０６１号公報

しかしながら、従来のパノラマ投影の技術では、視聴者がどの高さで視聴しても出力される音声は変わらず、臨場感が得られなかった。

本発明の課題は、視聴者の高さに応じた臨場感のある音声を出力できるようにすることである。

上記課題を解決するため、本発明の出力制御装置は、
コンテンツを視聴している視聴者の高さを検出する検出手段と、
前記検出手段により検出された高さに応じた前記コンテンツの音声を出力手段に出力させる制御手段と、
を備える。

また、本発明のコンテンツ記憶装置は、
コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得する音声取得手段と、
前記音声取得手段により取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して前記動画像の動画データに対応付けて記憶する記憶手段と、
を備える。

また、本発明のデータ構造は、
コンテンツデータのデータ構造であって、
動画データと、前記動画データに基づく動画像に合わせて出力する音声を複数の高さ方向の位置で取得することによって得られた複数の音声データであって、それぞれに音声取得時の高さ情報が付与されている複数の音声データと、が対応付けられている。

本発明によれば、視聴者の高さに応じた臨場感のある音声を出力することが可能となる。

本実施形態のコンテンツ出力システムの全体構成例を示す図である。図１のコンテンツ記憶装置の機能的構成を示すブロック図である。本実施形態におけるコンテンツ出力装置の設置状態を示す図である。図１のコンテンツ出力装置によりコンテンツを投影した状態を示すイメージ図である。図１のコンテンツ出力装置の機能的構成を示すブロック図である。図１のコンテンツ記憶装置を用いた撮影時のマイクの装着を説明するための図である。図５の制御部により実行される出力制御処理を示すフローチャートである。

以下、添付図面を参照して本発明に係る実施形態を詳細に説明する。なお、本発明は、図示例に限定されるものではない。

［コンテンツ出力システムの構成］
図１は、本発明の実施形態におけるコンテンツ出力システム１００の全体構成を示す図である。コンテンツ出力システム１００は、図１に示すように、コンテンツ記憶装置１とコンテンツ出力装置２とを備えて構成されている。コンテンツ記憶装置１とコンテンツ出力装置２は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークＮを介して通信接続が可能である。

［コンテンツ記憶装置１の構成］
コンテンツ記憶装置１は、動画撮影を行うことによりコンテンツデータを取得して記憶する装置である。

図２は、コンテンツ記憶装置１の主制御構成を示すブロック図である。図２に示すように、コンテンツ記憶装置１は、制御部１１、操作部１２、記憶部１３、撮影部１４、音声取得部１５、通信部１６等を備えて構成されている。

制御部１１は、記憶部１３に記憶されている各種のプログラムを実行して所定の演算や各部の制御を行うＣＰＵ（Central Processing Unit）とプログラム実行時の作業領域となるメモリとを備えている（いずれも図示略）。制御部１１は、記憶部１３のプログラム記憶部１３１に記憶されているプログラムとの協働により、各種処理を実行する。

操作部１２は、複数の機能ボタンを備え、機能ボタンの押下信号を検出して制御部１１に出力する。

記憶部１３は、ＨＤＤ（Hard Disk Drive）や不揮発性の半導体メモリ等により構成される。記憶部１３には、図１に示すように、プログラム記憶部１３１、コンテンツ記憶部１３２が設けられている。

プログラム記憶部１３１には、制御部１１で実行されるシステムプログラムや各種処理プログラム、これらのプログラムの実行に必要なデータ等が記憶されている。

コンテンツ記憶部１３２には、撮影部１４において動画撮影により取得された動画データと、音声取得部１５において動画撮影と同期して複数の高さ方向の位置で取得された複数の音声データであって、それぞれに音声取得時の高さ情報が付与された音声データと、が対応付けられてコンテンツデータとして記憶される。ここで、音声とは、人の声のみを指すのではなく、音楽や自然音等の広く一般的な音を含む。

撮影部１４は、３６０°（全方位）の動画撮影が可能なカメラであり、制御部１１からの指示に応じて３６０°の動画データを取得する。

音声取得部１５は、複数のマイクを備え、制御部１１からの指示に応じて複数の高さ方向の位置の音声データを取得する。本実施形態において、音声取得部１５は、撮影者Ｍの頭部に装着されるマイク１５１と、腰部に装着されるマイク１５２と、膝部に装着されるマイク１５３と、を備えて構成され（図６参照）、３つの高さ方向の位置の音声データを取得する。音声取得部１５は、音声取得手段として機能する。

通信部１６は、モデム、ルータ、ネットワークカード等により構成され、通信ネットワークＮに接続されたコンテンツ出力装置２等の外部機器との通信を行う。

［コンテンツ出力装置２の構成］
コンテンツ出力装置２は、例えば、図３に示すように、室内の天井等に設けられ、図４に示すように、室内の全方位（３６０°全面）にコンテンツの出力（投影）を行う装置である。

図５は、本実施形態におけるコンテンツ出力装置２の主制御構成を示すブロック図である。図５に示すように、コンテンツ出力装置２は、制御部２１、記憶部２２、操作部２３、撮影部２４、プロジェクタ２５、音声出力部２６、通信部２７等を備えて構成されている。

制御部２１は、記憶部２２に記憶されている各種のプログラムを実行して所定の演算や各部の制御を行うＣＰＵ（Central Processing Unit）とプログラム実行時の作業領域となるメモリとを備えている（いずれも図示略）。制御部２１は、記憶部２２のプログラム記憶部２２１に記憶されているプログラムとの協働により、後述する出力制御処理を実行し、制御手段として機能する。また、撮影部２４との協働により、検出手段として機能する。

記憶部２２は、ＨＤＤ（Hard Disk Drive）や不揮発性の半導体メモリ等により構成される。記憶部２２には、図５に示すように、プログラム記憶部２２１、コンテンツ記憶部２２２が設けられている。

プログラム記憶部２２１には、制御部２１で実行されるシステムプログラムや各種処理プログラム、これらのプログラムの実行に必要なデータ等が記憶されている。

コンテンツ記憶部２２２には、コンテンツ記憶装置１から送信されたコンテンツデータが記憶されている。

操作部２３は、複数の機能ボタンを備え、機能ボタンの押下信号を検出して制御部２１に出力する。

撮影部２４は、光学系及び撮像素子を備えるカメラと、カメラを制御する撮影制御部とを備える。カメラの光学系は、室内の視聴者を撮影可能な方向に向けられており、視聴者の撮影画像を取得する。

プロジェクタ２５は、魚眼レンズを備え、制御部２１から出力されたコンテンツの動画データを全方位に向けて投影する。

音声出力部２６は、Ｄ／Ａコンバータ、増幅器、スピーカ等を備え、制御部２１からの指示に従って音声データをＤ／Ａコンバータによりアナログ信号に変換後、このアナログ音声信号を増幅器により所定の音量に増幅して、スピーカから音声として出力する。音声出力部２６は、サラウンドであり、複数方向からの音声出力が可能である。
プロジェクタ２５、音声出力部２６は、出力手段として機能する。

通信部２７は、モデム、ルータ、ネットワークカード等により構成され、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークに接続されたコンテンツ記憶装置１を始めとする外部機器との通信を行う。

［コンテンツ記憶装置１の動作］
次に、本実施形態におけるコンテンツ記憶装置１の動作について説明する。
コンテンツ記憶装置１を用いて動画撮影を行う際、図６に示すように、撮影者Ｍは、頭部に撮影部１４及びマイク１５１を装着し、腰部にマイク１５２を装着し、膝部にマイク１５３を装着した状態で、操作部１２により動画撮影開始を指示する。コンテンツ記憶装置１の制御部１１は、操作部１２による指示に応じて、プログラム記憶部１３１に記憶されているプログラムとの協働により以下の処理を実行する。

コンテンツ記憶装置１の制御部１１は、操作部１２により動画撮影の開始が入力されると、撮影部１４に動画撮影を開始させるとともに、動画撮影開始のタイミングと同期して音声取得部１５のマイク１５１〜１５３のそれぞれに音声の取得を開始させる。これにより、動画像に合わせて出力される音声の音声データを複数の高さ方向の位置で取得することができる。

操作部１２により動画撮影の終了が指示されると、制御部１１は、撮影部１４による動画撮影及び音声取得部１５による音声データの取得を停止させ、マイク１５１〜１５３により複数の高さ方向の位置で取得された音声データに、音声取得時の高さ情報を付与する。本実施形態においては、制御部１１は、高さ情報として、例えば、マイク１５１により取得された音声データには「頭部」、マイク１５２により取得された音声データには「腰部」、マイク１５３により取得された音声データには「膝部」を付与する。音声データは、例えば、所定の音声ファイルフォーマットであり、制御部１１は、高さ情報をそのメタデータに書き込む。そして、制御部１１は、動画撮影により取得された動画データと複数の高さ方向の位置で取得された複数の音声データを対応付けてコンテンツデータとして記憶部１３に記憶させる。

操作部１２によりコンテンツ記憶部１３２に記憶されているコンテンツデータが選択され、コンテンツ出力装置２への送信が指示されると、制御部１１は、選択されたコンテンツデータを通信部１６によりコンテンツ出力装置２に送信する。

コンテンツ出力装置２において、通信部２７によりコンテンツ記憶装置１からのコンテンツデータが受信されると、制御部２１は、受信したコンテンツデータをコンテンツ記憶部２２２に記憶させる。

［コンテンツ出力装置２の動作］
次に、本実施形態におけるコンテンツ出力装置２の動作について説明する。
操作部２３によりコンテンツが選択され、コンテンツの出力が指示されると、制御部２１は、プロジェクタ２５及び音声出力部２６により選択されたコンテンツの出力を開始する。即ち、制御部２１は、コンテンツ記憶部２２２から選択されたコンテンツのコンテンツデータを読み出し、読み出したコンテンツデータの動画データを全方位投影用の投影データに変換してプロジェクタ２５によりコンテンツの動画を全方位に投影させる。また、読み出したコンテンツデータの音声データに基づいて音声出力部２６によりコンテンツの音声を出力させる。コンテンツ出力開始時には、制御部２１は、予め定められた高さ方向の音声データ、例えば、高さ情報が「腰部」の音声データに基づいて音声を出力させる。

また、コンテンツの出力が開始されると、制御部２１は、図７に示す出力制御処理を実行する。出力制御処理は、制御部２１とプログラム記憶部２２１に記憶されているプログラムとの協働により実行される。

出力制御処理において、制御部２１は、まず、コンテンツを視聴している視聴者の高さを検出する（ステップＳ１）。
例えば、制御部２１は、撮影部２４により撮影を行わせ、撮影により得られた撮影画像から視聴者の顔を認識し、撮影画像における認識した顔の高さに基づいて、視聴者の高さＨを検出する。

次いで、制御部２１は、視聴者の高さに基づいて、視聴者の体位を判断する（ステップＳ２）。例えば、制御部２１は、Ｈ＞閾値Ｔ１である場合は、視聴者が立位であると判断し、閾値Ｔ１≧Ｈ＞閾値Ｔ２である場合は、視聴者が椅子の座位であると判断し、閾値Ｔ２≧Ｈの場合は、視聴者が床の座位であると判断する（Ｔ１＞Ｔ２）。

視聴者の体位が立位であると判断した場合（ステップＳ３；ＹＥＳ）、制御部２１は、頭部の位置で取得された音声データに基づいて音声出力部２６により動画の音声を出力させ（ステップＳ４）、ステップＳ９に移行する。

視聴者の体位が椅子の座位であると判断した場合（ステップＳ３；ＮＯ、ステップＳ５；ＹＥＳ）、制御部２１は、腰部の位置で取得された音声データに基づいて音声出力部２６により動画の音声を出力させ（ステップＳ６）、ステップＳ９に移行する。

視聴者の体位が床の座位であると判断した場合（ステップＳ３；ＮＯ、ステップＳ５；ＮＯ、ステップＳ７；ＹＥＳ）、制御部２１は、膝部の位置で取得された音声データに基づいて音声出力部２６により動画の音声を出力させ（ステップＳ８）、ステップＳ９に移行する。

視聴者の体位が床の座位ではないと判断した場合（ステップＳ３；ＮＯ、ステップＳ５；ＮＯ、ステップＳ７；ＮＯ）、制御部２１は、ステップＳ９に移行する。ここで、ステップＳ７でＮＯと判断される場合は、例えば、撮影画像における顔認識が失敗した場合（人が存在しない場合等）である。

ステップＳ９において、制御部２１は、コンテンツが終了したか否かを判断する（ステップＳ９）。コンテンツが終了していないと判断した場合（ステップＳ９；ＮＯ）、制御部２１は、ステップＳ１に戻り、ステップＳ１〜Ｓ９を繰り返し実行する。
コンテンツが終了したと判断した場合（ステップＳ９；ＹＥＳ）、制御部２１は、出力制御処理を終了する。

以上説明したように、コンテンツ出力装置２によれば、制御部２１は、撮影部２４に視聴者を撮影させ、得られた撮影画像に基づいて、コンテンツを視聴している視聴者の高さを検出し、検出された高さに応じたコンテンツの音声を音声出力部２６に出力させる。
従って、視聴者の高さに応じた臨場感のある音声を出力することが可能となる。

例えば、コンテンツは、複数の高さ方向の位置で取得された複数の音声を有し、制御部２１は、複数の音声のうち検出された高さに応じた位置で取得された音声を音声出力部２６により出力させるので、視聴者の高さに応じた音声を出力することが可能となる。

また、例えば、制御部２１は、検出された視聴者の高さに基づいて視聴者の体位を判断し、視聴者の体位に応じた高さ方向の位置で取得された音声を音声出力部２６により出力させるので、例えば、視聴者が体位を立位から座位に変更した場合に、低い位置で取得された音声を出力することができ、視聴者の体位に応じた臨場感のある音声を出力することが可能となる。

また、コンテンツは、全方位に出力される動画像であり、動画像に合わせて視聴者の高さに応じた音声を出力するので、臨場感のあるコンテンツを出力することが可能となる。

また、コンテンツ記憶装置１によれば、コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得し、取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して動画像の動画データに対応付けてコンテンツデータとしてコンテンツ記憶部１３２に記憶する。従って、コンテンツ出力装置２において、視聴者の高さに応じた音声を出力することが可能なコンテンツデータを取得して記憶しておくことが可能となる。

また、コンテンツデータは、動画データと、動画データに基づく動画像に合わせて出力する音声を複数の高さ方向の位置で取得することによって得られた複数の音声データであって、それぞれに音声取得時の高さ情報が付与されている複数の音声データと、が対応付けられている。従って、コンテンツ出力装置２において、視聴者の高さに応じたコンテンツの音声を出力することが可能となる。

なお、上記実施形態における記述内容は、本発明に係るコンテンツ記憶装置、コンテンツ出力装置の好適な一例であり、これに限定されるものではない。

例えば、上記実施形態においては、撮影者Ｍの頭部、腰部、膝部にマイクを取り付けて複数の高さ方向の位置により音声データを取得し、高さ情報として「頭部」「腰部」「膝部」の区別を高さ情報として付与することとしたが、これに限定されない。例えば、マイク１５１〜１５３のそれぞれに気圧センサ等を設けて、動画撮影開始時等に各マイクの高さを測定し、その測定値を高さ情報として各マイクで取得された音声データに付与してもよい。そして、コンテンツを視聴している視聴者の高さと、各音声データに付与されている高さ情報に基づいて、複数の音声データのうち何れの音声データに基づく音声を出力するかを決定してもよい。

また、上記実施形態においては、本発明の検出手段及び制御手段を備える出力制御装置と、コンテンツを出力する出力手段（プロジェクタ２５、音声出力部２６）と、がコンテンツ出力装置２に備えられていることとして説明したが、これらは、例えば通信ネットワークを介して接続された別体の装置であってもよい。

また、上記実施形態では、コンテンツ出力装置がプロジェクタを用いてコンテンツの映像を投影するものである場合を例にとり説明したが、ＶＲ（Virtual Reality）ヘッドマウントディスプレイとしてもよい。この場合、例えば、ＶＲヘッドマウントディスプレイに気圧センサを設け、気圧センサを用いてＶＲヘッドマウントディスプレイを装着した視聴者の高さを検出し、検出された高さと予め定められた閾値との比較結果に基づいて複数の高さ方向の音声データのうち何れかを選択し、選択した音声データに基づいて音声を出力することとしてもよい。これにより、ＶＲヘッドマウントディスプレイにおいても、視聴者の高さ方向の動きや姿勢に応じた臨場感のある音声を出力することが可能となる。また、例えば高さを検出するセンサとして気圧センサに限らず、加速度センサによって高さの方向の変動を検出する方法等で高さを検出してもよい。

その他、コンテンツ出力システムを構成する各装置の細部構成及び細部動作に関しても、発明の趣旨を逸脱することのない範囲で適宜変更可能である。

本発明のいくつかの実施形態を説明したが、本発明の範囲は、上述の実施形態に限定するものではなく、特許請求の範囲に記載された発明の範囲とその均等の範囲を含む。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
［付記］
＜請求項１＞
コンテンツを視聴している視聴者の高さを検出する検出手段と、
前記検出手段により検出された高さに応じた前記コンテンツの音声を出力手段に出力させる制御手段と、
を備える出力制御装置。
＜請求項２＞
前記コンテンツは、複数の高さ方向の位置で取得された複数の音声を有し、
前記制御手段は、前記複数の音声のうち前記検出手段により検出された高さに応じた位置で取得された音声を前記出力手段に出力させる請求項１に記載の出力制御装置。
＜請求項３＞
前記制御手段は、前記検出手段により検出された高さに基づいて前記視聴者の体位を判断し、前記視聴者の体位に応じた位置で取得された音声を前記出力手段に出力させる請求項２に記載の出力制御装置。
＜請求項４＞
前記コンテンツは、全方位に出力される動画像であり、前記音声は、前記動画像に合わせて出力される音声である請求項１〜３のいずれか一項に記載の出力制御装置。
＜請求項５＞
コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得する音声取得手段と、
前記音声取得手段により取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して前記動画像の動画データに対応付けて記憶する記憶手段と、
を備えるコンテンツ記憶装置。
＜請求項６＞
コンテンツを視聴している視聴者の高さを検出する検出工程と、
前記検出工程において検出された高さに応じた前記コンテンツの音声を出力手段に出力させる制御工程と、
を含む出力制御方法。
＜請求項７＞
コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得する音声取得工程と、
前記音声取得工程により取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して前記動画像の動画データに対応付けて記憶する記憶工程と、
を含むコンテンツ記憶方法。
＜請求項８＞
コンピュータを、
コンテンツを視聴している視聴者の高さを検出する検出手段、
前記検出手段により検出された高さに応じた前記コンテンツの音声を出力手段に出力させる制御手段、
として機能させるためのプログラム。
＜請求項９＞
コンピュータを、
コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得する音声取得手段、
前記音声取得手段により取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して前記動画像の動画データに対応付けて記憶する記憶手段、
として機能させるためのプログラム。
＜請求項１０＞
コンテンツデータのデータ構造であって、
動画データと、前記動画データに基づく動画像に合わせて出力する音声を複数の高さ方向の位置で取得することによって得られた複数の音声データであって、それぞれに音声取得時の高さ情報が付与されている複数の音声データと、が対応付けられているコンテンツデータのデータ構造。

１００コンテンツ出力システム
１コンテンツ記憶装置
１１制御部
１２操作部
１３記憶部
１３１プログラム記憶部
１３２コンテンツ記憶部
１４撮影部
１５音声取得部
１６通信部
２コンテンツ出力装置
２１制御部
２２記憶部
２２１プログラム記憶部
２２２コンテンツ記憶部
２３操作部
２４撮影部
２５プロジェクタ
２６音声出力部
２７通信部

Claims

コンテンツを視聴している視聴者の高さを検出する検出手段と、
前記検出手段により検出された高さに応じた前記コンテンツの音声を出力手段に出力させる制御手段と、
を備える出力制御装置。
前記コンテンツは、複数の高さ方向の位置で取得された複数の音声を有し、
前記制御手段は、前記複数の音声のうち前記検出手段により検出された高さに応じた位置で取得された音声を前記出力手段に出力させる請求項１に記載の出力制御装置。
前記制御手段は、前記検出手段により検出された高さに基づいて前記視聴者の体位を判断し、前記視聴者の体位に応じた位置で取得された音声を前記出力手段に出力させる請求項２に記載の出力制御装置。
前記コンテンツは、全方位に出力される動画像であり、前記音声は、前記動画像に合わせて出力される音声である請求項１〜３のいずれか一項に記載の出力制御装置。
コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得する音声取得手段と、
前記音声取得手段により取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して前記動画像の動画データに対応付けて記憶する記憶手段と、
を備えるコンテンツ記憶装置。
コンテンツを視聴している視聴者の高さを検出する検出工程と、
前記検出工程において検出された高さに応じた前記コンテンツの音声を出力手段に出力させる制御工程と、
を含む出力制御方法。
コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得する音声取得工程と、
前記音声取得工程により取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して前記動画像の動画データに対応付けて記憶する記憶工程と、
を含むコンテンツ記憶方法。
コンピュータを、
コンテンツを視聴している視聴者の高さを検出する検出手段、
前記検出手段により検出された高さに応じた前記コンテンツの音声を出力手段に出力させる制御手段、
として機能させるためのプログラム。
コンピュータを、
コンテンツの動画像に合わせて出力する音声を複数の高さ方向の位置で取得する音声取得手段、
前記音声取得手段により取得された複数の音声の音声データのそれぞれに音声取得時の高さ情報を付与して前記動画像の動画データに対応付けて記憶する記憶手段、
として機能させるためのプログラム。
コンテンツデータのデータ構造であって、
動画データと、前記動画データに基づく動画像に合わせて出力する音声を複数の高さ方向の位置で取得することによって得られた複数の音声データであって、それぞれに音声取得時の高さ情報が付与されている複数の音声データと、が対応付けられているコンテンツデータのデータ構造。