JP2017010326A

JP2017010326A - 画像データ生成装置およびコンテンツ再生装置

Info

Publication number: JP2017010326A
Application number: JP2015125896A
Authority: JP
Inventors: 辰弥寺島; Tatsuya Terajima
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-06-23
Filing date: 2015-06-23
Publication date: 2017-01-12

Abstract

【課題】コンテンツの内容に合わせた画像を生成する画像データ生成装置およびコンテンツ再生装置を提供する。【解決手段】画像データ生成装置は、コンテンツデータを取得する取得部と、画像データを生成する画像データ生成部と、前記コンテンツデータからテキスト情報を抽出する抽出部と、を備えている。そして、前記画像データ生成部は、複数の素材画像から、前記抽出部が抽出したテキスト情報に対応する素材画像を読み出し、前記コンテンツデータに同期した画像データを生成することを特徴とする。【選択図】図６

Description

本発明は、画像データを生成する画像データ生成装置に関する。

画像データ生成装置の一例として、例えばカラオケ装置がある。カラオケ装置は、カラオケ曲の再生を行うとともに、ＬＣＤ等の表示装置に背景映像を表示することが一般的である。

背景映像は、曲調および歌詞の内容と一致しない場合、歌唱意欲を低下させることになり、カラオケにおいては好ましくない。しかし、曲毎に適切な背景映像を個別に用意するのは手間がかかり、かつデータ量が膨大となる。

そこで、例えば特許文献１には、歌詞に含まれるキーワードから背景映像を選択するカラオケ装置が提案されている。

特開平０９−１７９５６８号公報

しかし、特許文献１の手法では、キーワードに対応する汎用的な背景映像が読み出されるだけであり、コンテンツの内容との一致精度には限界がある。

そこで、本発明は、より高精度にコンテンツの内容に合わせた画像を生成する画像データ生成装置および当該画像データ生成装置を備えたコンテンツ再生装置を提供することを目的とする。

本発明の画像データ生成装置は、コンテンツデータを取得する取得部と、画像データを生成する画像データ生成部と、前記コンテンツデータからテキスト情報を抽出する抽出部と、を備えている。そして、前記画像データ生成部は、複数の素材画像から、前記抽出部が抽出したテキスト情報に対応する素材画像を読み出し、前記コンテンツデータの再生進行に応じた画像データを生成することを特徴とする。

コンテンツデータは、テキスト情報が含まれたデータであり、例えば電子書籍、カラオケ楽曲、ニュースコンテンツ、またはブログ等のＳＮＳコンテンツ等がある。画像データ生成装置は、コンテンツデータに同期して、当該コンテンツデータからテキスト情報を抽出して、対応する素材画像を読み出して画像データを生成することで、コンテンツの内容に合わせた画像の表示を行う。例えば、画像データ生成装置がカラオケの楽曲データを取得する場合、歌詞の内容に一致した内容の画像が生成される。

なお、抽出部は、前記コンテンツデータを所定区間毎に区切り、各所定区間について前記テキスト情報を抽出することが好ましい。この場合、さらに高精度にコンテンツの内容に一致した画像データ生成される。

また、各素材画像は、前記画像データにおける各素材画像の配置を指定する情報と対応付けられていることで、素材毎に適した配置を実現することができる。

なお、抽出されるテキスト情報に対応する素材画像が、複数存在する場合がある。そのため、各素材画像は、複数のキーワードと対応付けられていて、各キーワードには、優先度が割り当てられている態様とすることが好ましい。この場合、画像データ生成部は、テキスト情報に一致するキーワードを有する素材画像を複数選択し、選択した複数の素材画像から、最も優先度が高いキーワードと対応付けられた素材画像を読み出す。

また、画像データ生成部は、テキスト情報に対応する素材画像がなかった場合に、コンテンツ名に対応する素材画像を読み出すことで、何も表示されない状態を防ぐことが好ましい。

本発明の画像データ生成装置は、コンテンツの内容に合わせた画像を生成することができる。

カラオケ装置の構成を示したブロック図である。楽曲データの構造を示す図である。解析部１４の機能ブロック図である。歌詞の一例を示す図である。オブジェクト情報を示す図である。テキスト情報とオブジェクト情報の関係を示す図である。図７（Ａ）は、仮想空間の一例を示す図であり、図７（Ｂ）は、生成された画像データの一例を示す図である。カラオケ装置の動作を示すフローチャートである。シーケンス動作を示すフローチャートである。コンテンツ再生装置の最小構成を示すブロック図である。ヘッドマウントディスプレイを用いる場合の例を示す図である。

図１は、コンテンツ再生装置の構成を示すブロック図である。コンテンツ再生装置は、コンテンツデータを再生し、コンテンツの内容に合った画像データを生成する装置である。コンテンツデータは、少なくともテキスト情報を含むデータである。コンテンツ再生装置は、例えば電子書籍、カラオケ楽曲、ニュースコンテンツ、またはブログ等のＳＮＳコンテンツを再生する。図１においては、一例としてカラオケ装置１を示し、コンテンツデータの一例として楽曲データを示す。

カラオケ装置１は、ＣＰＵ１１、ＲＡＭ１２、ＨＤＤ１３、ネットワークインタフェース（Ｉ／Ｆ）１４、ＬＣＤ（タッチパネル）１５、マイク１６、Ａ／Ｄコンバータ１７、音源１８、ミキサ（エフェクタ）１９、サウンドシステム（ＳＳ）２０、スピーカ２１、出力部２２、モニタ２３、操作部２４、および送受信部２５を備えている。

ＣＰＵ１１は、カラオケ装置１の動作を統括的に制御する。ＣＰＵ１１には、ＲＡＭ１２、ＨＤＤ１３、ネットワークインタフェース（Ｉ／Ｆ）１４、ＬＣＤ（タッチパネル）１５、Ａ／Ｄコンバータ１７、音源１８、ミキサ（エフェクタ）１９、出力部２２、操作部２４、および送受信部２５が接続されている。

ＣＰＵ１１は、ＨＤＤ１３に記憶されている動作用プログラムを読み出し、ワークメモリであるＲＡＭ１２に読み出して種々の動作を行う。例えば、ＣＰＵ１１は、楽曲データに応じてカラオケ曲を演奏する曲シーケンサ１０１の機能を実現する（本発明の再生部として機能する）。また、ＣＰＵ１１は、モニタ２３に背景映像として表示するための画像データを生成する画像シーケンサ１０３の機能を実現する（本発明の画像データ生成部として機能する）。

タッチパネル１５および操作部２４は、カラオケ装置の前面に設けられている。ＣＰＵ１１は、タッチパネル１５から入力される操作情報に基づいて、操作情報に応じた画像をタッチパネル１５上に表示し、ＧＵＩを実現する。また、リモコン９も同様のＧＵＩを実現するものである。ＣＰＵ１１は、タッチパネル１５、操作部２４、または送受信部２５を介してリモコン９から入力される操作情報に基づいて、各種の動作を行う。ＣＰＵ１１は、例えば音量の変更、テンポの変更、またはキーの変更等の動作を行う。

次に、カラオケ演奏について説明する。上述したように、ＣＰＵ１１は、機能的に曲シーケンサ１０１を内蔵している。ＣＰＵ１１は、ＲＡＭ１２の予約リストに登録された予約曲の曲番号に対応する楽曲データをＨＤＤ１３から読み出し、曲シーケンサ１０１でカラオケ演奏を開始する。なお、楽曲データは、ネットワークＩ／Ｆ１４を介して、定期的に配信センタ等から受信する。

図２は、楽曲データの構造を示す図である。楽曲データは、図２に示すように、曲番号、曲名（タイトル）、アーティスト、作詞作曲者、および楽曲ジャンル等が書き込まれているヘッダと、演奏用ＭＩＤＩデータが書き込まれている楽音トラックと、ガイドメロディ用ＭＩＤＩデータが書き込まれているガイドメロディトラックと、歌詞用ＭＩＤＩデータが書き込まれている歌詞トラックと、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラックと、からなる。

楽音トラックは、楽音を発生させる楽器の種類、タイミング、音程（キー）、強さ、長さ、定位（パン）、および音響効果（エフェクト）等を示す情報が記録されている。ガイドメロディトラックは、お手本の歌唱に対応する各音の発音開始タイミング、および発音の長さ等の情報が記録されている。

曲シーケンサ１０１は、楽音トラックのデータに基づいて音源１８を制御し、カラオケ曲の楽音を発生する。音源１８は、曲シーケンサ１０１の処理によってＣＰＵ１１から入力されたデータ（ノートイベントデータ）に応じて楽音信号（デジタル音声信号）を生成する。生成された楽音信号は、ミキサ１９に入力される。

また、曲シーケンサ１０１は、曲の進行に従ってコーラストラックの音声データ（楽曲データに付随しているＭＰ３等の圧縮音声データ）を再生する。再生されたコーラス音は、デジタル音声信号としてミキサ１９に入力される。

ミキサ１９は、音源１８が発生した楽音信号、コーラス音、およびマイク（歌唱音声入力手段）１６からＡ／Ｄコンバータ１７を介して入力された歌唱者の歌唱音声信号に対してエコー等の音響効果を付与するとともに、これらの信号をミキシングする。なお、エコー等の音響効果のパラメータは、画像シーケンサ１０３により生成される背景映像の内容に応じて変更してもよい。例えば反射音が大きい空間（例えば洞窟等）の背景映像が生成される場合には、反射音が大きくなるパラメータを設定する。

ミキシングされた信号は、サウンドシステム２０に入力される。サウンドシステム２０は、Ｄ／Ａコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ２１から放音する。ミキサ１９が各音声信号に付与する効果およびミキシングのバランスは、ＣＰＵ１１によって制御される。このようにして、カラオケ楽曲がスピーカ２１から出力される。

また、ＣＰＵ１１の歌詞シーケンサ１０２は、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを生成する。歌詞シーケンサ１０２は、歌詞トラックが示すノートイベントに従って文字パターンを生成する。歌詞シーケンサ１０２により生成された文字パターンは、画像シーケンサ１０３により背景映像に合成される。

画像シーケンサ１０３は、曲シーケンサ１０１による楽音の発生と同期して、ＨＤＤ１３から素材画像（素材データ）を読み出し、背景映像となる画像データを生成する。読み出す対象と読み出すタイミングを示すシーケンスデータは、解析部１０４により生成される。なお、画像シーケンサ１０３が生成する画像データは、静止画または動画である。

図３は、解析部１０４の構成を示す機能ブロック図である。解析部１０４は、楽曲解析部１４１、歌詞解析部１４２、マッチング部１４３、およびシーケンスデータ作成部１４４を備えている。

楽曲解析部１４１は、ＨＤＤ１３から読み出した楽曲データを解析し、歌唱区間、間奏区間、調、またはコード進行、等を抽出する。歌唱区間、間奏区間、調、またはコード進行、等の情報は、背景映像の切り替えタイミングを決めるための情報である。歌唱区間は、ガイドメロディトラックのうちノートイベントがない箇所で区切る。あるいは、楽曲データがＭＰ３等のオーディオデータである場合、楽曲解析部１４１は、無音区間を抽出し、当該無音区間を区切りとしてもよい。楽曲解析部１４１は、楽曲データのうち、抽出した歌唱区間を示す情報を歌詞解析部１４２およびシーケンスデータ作成部１４４に入力する。

歌詞解析部１４２は、本発明の抽出部に相当し、楽曲データの歌詞トラックから、歌唱区間毎にテキスト情報を抽出する。テキスト情報は、名詞、形容詞、または固有名詞等からなる。抽出手法は、コスト最小法、あるいは最長一致法等、どの様な手法を用いてもよい。抽出したテキスト情報は、マッチング部１４３に入力される。例えば、図４に示すような歌唱区間の歌詞であれば、「冬」、「雪」、「富士山」、「月」、「夜」、および「水辺」等のテキスト情報が抽出される。

マッチング部１４３は、歌詞解析部１４２で抽出されたテキスト情報に対応する素材データをＨＤＤ１３から検索する。

図５は、素材データを管理するためのオブジェクト情報を示す図である。オブジェクト情報は、各素材データのヘッダとして、あるいは各素材データと対応付けられた別データとして、ＨＤＤ１３に記憶されている。

図５に示すように、オブジェクト情報には、代表単語、情景単語、属性、禁止属性、輝度情報、素材データ所在、移動シーケンス、追加オブジェクト指定、追加オブジェクト座標、追加オブジェクトサイズ、および追加オブジェクト角度等の情報が含まれている。

マッチング部１４３は、歌詞解析部１４２で抽出されたテキスト情報と同じ代表単語を有するオブジェクト情報を検索する。また、マッチング部１４３は、歌詞解析部１４２で抽出されたテキスト情報と同じ情景単語を有するオブジェクト情報も検索する。すなわち、マッチング部１４３は、画像シーケンサ１０３が画像データを生成するために必要な素材データを選択する処理を行う。

画像データの生成には、例えばＢＡＳＥ、ＢＡＣＫＧＲＯＵＮＤ、ＷＥＡＴＨＥＲ、ＦＬＹ−ＯＢＪＥＣＴ、ＮＥＡＲ−ＯＢＪＥＣＴ、およびＦＡＲ−ＯＢＪＥＣＴ等の属性を有する素材データが必要である。ＢＡＳＥは、地面に配置される素材であり、例えば浜辺、アスファルト、草原、部屋、ホール、スタジアム、または砂丘、等の素材である。ＢＡＣＫＧＲＯＵＮＤは、地平線または水平線の近くに配置される素材であり、山、雲、またはビル等の素材である。ＷＥＡＴＨＥＲは、空に配置される素材であり、朝、夜、雨、雪、流れ星、虹、霧、またはオーロラ等の素材である。ＦＬＹ−ＯＢＪＥＣＴは、背景映像内を飛ぶ物体に係る素材であり、例えば鳥、ほたる、水、パーティクル、隕石、飛行機、または人工衛星等の素材である。ＮＥＡＲ−ＯＢＪＥＣＴは、視点の近くに配置される物体に係る素材であり、テーブル、マイク、照明、または木等の素材である。ＦＡＲ−ＯＢＪＥＣＴは、視点の遠くに配置される物体に係る素材であり、例えば富士山、木、またはビル等の素材である。

また、オブジェクト情報には、同時に使用できない属性として「禁止属性」が設定されている場合がある。例えば、ＢＡＳＥとして「ホール」が選択された場合には、ＢＡＣＫＧＲＯＵＮＤの属性は選択されないようになっている。すなわち、「ホール」は室内であり、地平線および水平線が存在しないため、地平線または水平線の近くに配置される素材が選択されないようになっている。

マッチング部１４３は、ＢＡＳＥから順に、ＢＡＣＫＧＲＯＵＮＤ、ＷＥＡＴＨＥＲ、ＦＬＹ−ＯＢＪＥＣＴ、ＮＥＡＲ−ＯＢＪＥＣＴ、およびＦＡＲ−ＯＢＪＥＣＴまで、それぞれ歌詞解析部１４２で抽出されたテキスト情報に対応するオブジェクト情報を選択する。ただし、マッチング部１４３は、複数のオブジェクト情報が検索された場合には、情景単語に付加されている優先順位点（優先度）が最も高いものを選択する。あるいは、利用者から各素材の人気投票を受け付け、利用者からの投票結果を集計して各素材に点数を付加し、当該点数の高いものを選択するようにしてもよい。

また、一致するオブジェクト情報がなかった場合には、コンテンツ名（曲名）に対応するオブジェクト情報を選択してもよい。あるいは、楽曲解析部１４１で解析された調に係る情報から対応するオブジェクト情報を選択してもよい。この場合、各調に対応するオブジェクト情報を予め用意しておく。

マッチング部１４３は、選択した各属性のオブジェクト情報をシーケンスデータ作成部１４４に入力する。シーケンスデータ作成部１４４は、入力されたオブジェクト情報に基づいて、画像シーケンサ１０３が画像データを生成するためのシーケンスデータを作成する。

画像シーケンサ１０３が画像データを生成するためのシーケンスデータは、楽音トラックおよび歌詞トラックと同様に、ＭＩＤＩ規格に準じたデータであり、使用する素材データを指定する情報（素材データ所在）と、当該素材データの配置を示す情報（属性）と、当該素材データを背景映像内に表示させるタイミングを示す情報と、が含まれている。また、当該素材データ自体の動きを示す情報（移動シーケンス）が含まれている場合もある。移動シーケンスは、各処理タイミングにおける素材データの位置を示す情報が含まれて、当該移動シーケンスを画像シーケンサ１０３が読み出すことで、素材データを移動させることができる。また、各素材自体が可動部を有する場合には、各可動部の動きを制御するための情報が含まれている。

例えば、図６（Ａ）に示す例では、テキスト情報として、「冬」、「雪」、「富士山」、「月」、「夜」、および「水辺」等のテキスト情報が抽出されている。したがって、オブジェクト情報として、図６（Ｂ）乃至図６（Ｆ）に示すような属性を有するオブジェクト情報が選択される。すなわち、この例では、ＢＡＳＥ属性として「水辺」のオブジェクト情報、ＷＥＡＴＨＥＲ属性として「雪」および「夜」のオブジェクト情報、ＦＬＹ−ＯＢＪＥＣＴ属性として「月」のオブジェクト情報、ＦＡＲ−ＯＢＪＥＣＴ属性として「富士山」のオブジェクト情報が選択される。

したがって、シーケンスデータ作成部１４４は、これらオブジェクト情報に対応する素材データを指定する情報と、各素材データの配置を示す情報と、を含むシーケンスデータを作成する。また、代表単語「雪」のオブジェクト情報は、移動シーケンスが含まれているため、各処理タイミングにおける「雪」の素材データの位置を示す情報を生成する。ただし、「雪」のような素材データは、揺れながら緩やかに落下するように移動すればよいため、各処理タイミングにおける素材データの位置を示す情報までは不要である。例えばシーケンスデータ作成部１４４は、「揺れながら緩やかに落下させる」と示す情報を付加し、画像シーケンサ１０３は、当該情報に基づいて「雪」の画像を移動させればよい。

これにより、画像シーケンサ１０３は、対応する素材データをＨＤＤ１３から読み出し、画像データを生成する。すなわち、画像シーケンサ１０３は、まずＢＡＳＥの属性の素材データをＨＤＤ１３から読み出し、仮想空間内に配置する。同様に、画像シーケンサ１０３は、ＢＡＣＫＧＲＯＵＮＤ、ＷＥＡＴＨＥＲ、ＦＬＹ−ＯＢＪＥＣＴ、ＮＥＡＲ−ＯＢＪＥＣＴ、およびＦＡＲ−ＯＢＪＥＣＴの素材データを仮想空間内に配置する。そして、視点位置を任意に設定し、視点位置からカメラで撮影したような背景映像（画像データ）を生成する。なお、視点位置は固定であってもよいし、ランダムに移動させる動作を行ってもよい。あるいは、オブジェクト情報に視点位置（視点シーケンス）が記載されていてもよい。

例えば、図６（Ｂ）乃至図６（Ｆ）に示したオブジェクト情報が選択された場合、画像シーケンサ１０３は、図７（Ａ）に示すように、水辺画像５２、雪画像５３、夜画像５４、月画像５５、および富士山画像５６を、仮想空間上のそれぞれの属性に対応する位置に配置する。また、代表単語「夜」のオブジェクト情報には、輝度情報として「−５０％］の情報が含まれているため、画像シーケンサ１０３は、空の画像を暗く設定する。さらに、図６（Ｂ）乃至図６（Ｆ）に示したオブジェクト情報では、追加オブジェクトとして松画像５８および山脈画像５９も含まれているため、画像シーケンサ１０３は、これら松画像５８および山脈画像５９も指定された位置に配置する。

これにより、ＣＰＵ１１は、歌詞トラックから抽出したテキスト情報に対応する素材データを読み出し、カラオケ曲の再生進行に応じた画像データを生成することができる。

また、生成された画像データには、歌詞の文字パターンも重畳される。上述したように、ＣＰＵ１１の歌詞シーケンサ１０２は、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを生成する。ＣＰＵ１１の画像シーケンサ１０３は、歌詞シーケンサ１０２の動作により生成された文字パターンを背景映像に重畳させる。ＣＰＵ１１は、当該文字パターンが重畳された２次元画像を出力部２２に出力する。

なお、歌詞の文字パターンも、素材データの１つとして仮想空間上に配置されることが好ましい。この場合、視点の位置および方向の変化に応じて、他の素材データとともに歌詞の画像も画面内で移動することになる。また、歌詞に対応する素材データは、仮想空間内に１つだけ配置する例に限らず、複数箇所（例えば４箇所あるいは８箇所）に配置されていてもよい。複数箇所に配置されることで、視点位置および方向が変化した場合にも利用者は、必ず歌詞を視認することができる。

以上のようにして、モニタ２３には、図７（Ｂ）に示すような背景映像および歌詞画像が表示される。上述したように、素材データは、所定の歌唱区間毎に歌詞を解析して選択されたものであり、かつ歌唱区間毎に変化するため、高精度に楽曲の内容に合致した背景映像が表示されることになる。ただし、背景映像の切り替えタイミングは、歌唱区間に限るものではない。例えば所定時間経過毎に定期的に切り替えられるようにしてもよい。

また、素材データは、予めＨＤＤ１３に記憶されている場合、各楽曲データの容量が大きくなることはなく、新曲等の定期的な配信時にダウンロード量が大きくなることはない。

次に、カラオケ装置１の動作についてフローチャートを参照して説明する。図８は、カラオケ装置１の動作を示すフローチャートである。

まず、ＣＰＵ１１は、歌唱者から楽曲のリクエストを受け付ける（ｓ１１）。次に、ＣＰＵ１１は、リクエストされた楽曲データを読み出し（ｓ１２）、解析を行う（ｓ１３）。解析は、ＣＰＵ１１の機能部である解析部１０４が行う。上述したように、解析部１０４は、歌詞トラックを読み出して、歌唱区間毎にテキスト情報を抽出し、対応する素材データを読み出すためのシーケンスデータを作成する。

次に、ＣＰＵ１１は、解析部１０４で作成したシーケンスデータ、およびＨＤＤ１３から読み出した楽曲データを用いてシーケンス動作を行う（ｓ１４）。

図９は、シーケンス動作を示すフローチャートである。シーケンス動作は、曲シーケンサ１０１、歌詞シーケンサ１０２、および画像シーケンサ１０３がそれぞれ行うが、所定のクロック（指定されたテンポ）単位で、楽曲データにおける各トラックが示す処理を行うことにより同期される。

まず、曲シーケンサ１０１、歌詞シーケンサ１０２、および画像シーケンサ１０３は、初期化処理を行う（ｓ１０１）。次に、曲シーケンサ１０１は、楽音トラックのシーケンスを行う。楽音トラックがノートイベントを指し示す場合には、当該ノートイベントに従って音源１８を制御し、カラオケ曲の楽音の生成を行う（ｓ４２）。また、曲シーケンサ１０１は、コーラストラックのシーケンスも行い、バックコーラスの音声データを再生する。なお、ここでは、曲シーケンサ１０１は、音源１８を制御して楽音の生成を行う例を示しているが、ＭＰ３等のオーディオデータを再生することも可能である。

画像シーケンサ１０３は、シーケンスデータ作成部１４４で作成されたシーケンスデータが示す素材データをＨＤＤ１３から読み出し（ｓ２２）、仮想空間上に配置する（ｓ２３）。そして、画像シーケンサ１０３は、所定の視点位置から仮想空間上の素材データの投影変換を行い、２次元画像を生成する（ｓ２４）。これにより、背景映像が生成される。

一方、歌詞シーケンサ１０２は、歌詞トラックのシーケンスを行う。歌詞シーケンサ１０２は、歌詞トラックがノートイベントを指し示す場合、当該ノートイベントに従って文字パターンを生成する（ｓ３２）。歌詞シーケンサ１０２により生成された文字パターンは、画像シーケンサ１０３により背景映像に合成される（ｓ２５）。このようにして生成された背景映像が出力部２２に出力され（ｓ２６）、モニタ２３に表示される。

以上のような処理が終了すると、次のクロックに移行する（ｓ１０２）。ＣＰＵ１１は、カラオケ曲の演奏が曲の終了まで進行したか否かを判断し（ｓ１５）、曲が終了するまで楽音の生成、背景映像の生成、および歌詞画像の生成を行う。また、フローチャートには示していないが、採点処理および採点結果に応じた点数を表示する処理等も行う。

以上のようにして、楽音の生成、背景映像の生成、および歌詞画像の生成が同期して進行される。

なお、本実施形態では、素材データとして３ＤＣＧを用意し、仮想空間上に配置して、所定の視点位置から当該素材データを見た場合の２次元の背景映像を生成する例を示したが、本発明において必須の処理ではない。例えば２次元画像を読み出して、２次元座標上に配置して背景映像を生成するだけでもよい。

なお、本実施形態では、画像データ生成装置を備えたコンテンツ再生装置として、カラオケ装置１を用いてカラオケ演奏および背景映像の表示を行う態様を示したが、例えばユーザの所有するＰＣやスマートフォン、ゲーム機等の情報処理装置を用いることでも、本発明の画像データ生成装置を実現することが可能である。

画像データ生成装置は、図１０に示すように、ＲＯＭ７３に記憶されているプログラムをＲＡＭ７２に読み出し、コンテンツデータを取得するコンテンツ取得処理、解析処理、および画像データ生成処理を行うＣＰＵ７１を備えていればよい。図１０に示すハードウェア以外の構成は、本発明において必須の要素ではない。また、コンテンツデータ、オブジェクト情報、および素材データは、それぞれ画像データ生成装置のＲＯＭ７３に記憶されて、当該ＲＯＭ７３から取得する必要はなく、インターネットを介して都度サーバ等からダウンロード（ストリーミング）して取得すればよい。

次に、図１１は、カラオケ装置の応用例を示す図である。この応用例では、ユーザが、ヘッドフォン８１およびヘッドマウントディスプレイ（以下、ＨＭＤと称する。）８２を装着する。

ＨＭＤ８２は、モーションセンサを備え、ユーザの位置（Ｘ，Ｙ，Ｚ座標）およびユーザが向いている方位（ヨーθおよびピッチφ）を検出する。ユーザの位置は、室内に設置されたカメラでＨＭＤ８２を撮影することで検出してもよい。

ヘッドフォン８１は、カラオケ装置１に接続されていて、サウンドシステム２０から出力されるカラオケ楽曲のオーディオ信号が入力される。

ＨＭＤ８２は、カラオケ装置１に接続されていて、モーションセンサで検出したユーザの位置および方位をカラオケ装置１のＣＰＵ１１に出力する。また、ＨＭＤ８２は、出力部２２から出力される背景映像を入力し、ディスプレイに表示する。

ＨＭＤ８２は、右目用のディスプレイと左目用のディスプレイとを備えている。したがって、ＣＰＵ１１は、右目用の背景映像（Ｒ）と、左目用の背景映像（Ｌ）と、を生成する。右目用の背景映像（Ｒ）および左目用の背景映像（Ｌ）は、視差を考慮して左右に所定距離だけずれた映像となっている。すなわち、ＣＰＵ１１は、視点位置データに示されるカメラ位置をオフセットして、右目用カメラ位置および左目用カメラ位置を設定し、右目用カメラ位置から見た２次元画像と、左目用カメラ位置から見た２次元画像と、をそれぞれ生成する。これにより、ユーザは、奥行きのある３Ｄ映像を見ることができ、より臨場感を得られる。

また、ＣＰＵ１１は、ＨＭＤ８２から得られたユーザの位置および方位を用いて、カメラ位置および方位を変化させてもよい。ＣＰＵ１１は、例えばカラオケ曲の演奏開始時点のユーザの位置および方位を初期値として、ユーザが右に９０度向いた場合に、仮想空間内におけるカメラ６１の方位も右に９０度回転させた映像を生成する。

このようにして、ＨＭＤ８２を用いて背景映像を表示することで、利用者は、より没入感を得ることができる。

なお、本実施形態では、楽曲データは、一例としてＭＩＤＩデータを示したが、本発明のコンテンツデータは、ＭＩＤＩ規格に準じたデータに限るものではない。例えば、楽音トラックは、ＰＣＭあるいはＭＰ３等のオーディオデータからなる態様であってもよい。また、歌詞トラックについても、歌詞文字列と歌詞表示時間が対応付けられたデータ列があればどのような形式であってもよい。画像データを生成するためのシーケンスデータも、ＭＩＤＩ規格に準ずる必要はなく、使用する素材データを指定する情報と、当該素材データの配置を示す情報と、当該素材データを背景映像内に表示させるタイミングを示す情報と、が含まれているデータ列であればどのような形式であってもよい。

１…カラオケ装置
９…リモコン
１１…ＣＰＵ
１２…ＲＡＭ
１３…ＨＤＤ
１４…解析部
１５…タッチパネル
１６…マイク
１７…Ａ／Ｄコンバータ
１８…音源
１９…ミキサ
２０…サウンドシステム
２１…スピーカ
２２…出力部
２３…モニタ
２４…操作部
２５…送受信部
５２…水辺画像
５３…雪画像
５４…夜画像
５５…月画像
５６…富士山画像
５８…松画像
５９…山脈画像
６１…カメラ
７１…ＣＰＵ
７２…ＲＡＭ
７３…ＲＯＭ
７４…出力部
８１…ヘッドフォン
８２…ＨＭＤ
１０１…曲シーケンサ
１０２…歌詞シーケンサ
１０３…画像シーケンサ
１０４…解析部
１４１…楽曲解析部
１４２…歌詞解析部
１４３…マッチング部
１４４…シーケンスデータ作成部

Claims

コンテンツデータを取得する取得部と、
画像データを生成する画像データ生成部と、
前記コンテンツデータからテキスト情報を抽出する抽出部と、
を備えた画像データ生成装置であって、
前記画像データ生成部は、複数の素材画像から、前記抽出部が抽出したテキスト情報に対応する素材画像を読み出し、前記コンテンツデータに同期した画像データを生成することを特徴とする画像データ生成装置。
前記抽出部は、前記コンテンツデータを所定区間毎に区切り、
前記画像データ生成部は、所定区間毎に前記画像データを生成する請求項１に記載の画像データ生成装置。
各素材画像は、前記画像データにおける各素材画像の配置を指定する情報と対応付けられている請求項１または請求項２に記載の画像データ生成装置。
各素材画像は、複数のキーワードと対応付けられていて、
各キーワードには、優先度が割り当てられていて、
前記画像データ生成部は、前記テキスト情報に一致するキーワードを有する素材画像を複数選択し、選択した複数の素材画像から、最も優先度が高いキーワードと対応付けられた素材画像を読み出す請求項１乃至請求項３のいずれかに記載の画像データ生成装置。
前記画像データ生成部は、前記テキスト情報に対応する素材画像がなかった場合に、コンテンツ名に対応する素材画像を読み出す請求項１乃至請求項４のいずれかに記載の画像データ生成装置。
請求項１乃至請求項５のいずれかに記載の画像データ生成装置と、
前記コンテンツデータを再生する再生部と、
前記画像データを出力する出力部と、
を備えたコンテンツ再生装置。