JP2018032316A

JP2018032316A - 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム

Info

Publication number: JP2018032316A
Application number: JP2016165787A
Authority: JP
Inventors: 健太丹羽; Kenta Niwa; 一哉武田; Kazuya Takeda; 健登大谷; Kento Otani
Original assignee: Nagoya University NUC; Nippon Telegraph and Telephone Corp
Current assignee: Nagoya University NUC; Nippon Telegraph and Telephone Corp
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2018-03-01
Anticipated expiration: 2036-08-26
Also published as: JP6701478B2

Abstract

【課題】音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成する映像生成装置等を提供する。【解決手段】映像生成装置２００は、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、N個の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含む。【選択図】図１

Description

本発明は、楽器の演奏または歌唱それぞれに係る音響信号を演奏または歌唱するエージェントの映像を得る映像生成技術に関する。

(a)音楽に対して、演奏やダンスをつける技術として、MikuMikuDance(MMD)(非特許文献１参照)が知られている。また、(b)対話システムの合成音声に合わせて3Dモデルが動くMMDエージェントに関する研究として非特許文献２が知られている。また、(c)既存の音楽動画の映像部分を、新たな別の音楽に合うように切り貼りして映像を自動生成するものとしてDanceReProducer(非特許文献３参照)が知られている。

(a)のMMD技術は、フリーの3DCGムービー製作ツールである。あらかじめ、3Dモデルを用意し、行動を自分自身でつける、または、配布されているモーション(行動)ファイルを読み込むことで、3Dモデルを動かす。なお、行動のパターンについては任意の動きをツール上で作成可能であり、時間と行動の対応関係については作成者自身がマニュアルで記述する。

(b)のMMDエージェント技術では、対話のシナリオに応じた会話文と行動の関係についてあらかじめ記述する。ユーザとエージェントが対話し、音声認識された結果に応じてシーンを推定し、あらかじめ作成された会話文と行動を出力するシステムである。

(c)のDanceReProducer技術は、youtubeやニコニコ動画等で配信された音楽動画(別の楽曲でも可)の映像を、入力した音楽に合うように切り貼りして映像を自動生成する技術である。

"Vocaloid Promotion Video Project"、[online]、[平成28年7月18日検索]、インターネット<URL:http://www.geocities.jp/higuchuu4/index.htm> "MMDAgent"、[online]、[平成28年7月18日検索]、インターネット<URL:http://http://www.mmdagent.jp/> 室伏空, 中野倫靖，後藤真孝, 森島繁生. "ダンス動画コンテンツを再利用して音楽に合わせた動画を自動生成するシステム"、情報処理学会音楽情報科学研究会研究報告. Vol.2009-MUS-81, No.7, pp.1-5, July 2009.

しかしながら、(a)MMD,(b)MMDエージェントに共通するのは、音に対する行動があらかじめ記述されていることである。つまり、人手により所定の音(音楽や会話)に対する所定の行動パターンを記述しておき、それに基づき、エージェントに所定の行動を実行させている。また、(c)については、エージェントの行動を推定するという研究ではない。よって、何れの従来技術も音からエージェントの行動が自動的に推定されている訳ではない。

シナリオが有限に限られる場合には、マニュアルで音と行動の関係を入力すればよいが、音楽における音と楽器演奏/ボーカルの行動の関係となると、シナリオ(特徴量と行動の関係)をマニュアルで入力することも難しく、また、行動を記述すべきオブジェクト数(=楽器数)も多い。よって、自動化することが好ましい。

本発明は、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成する映像生成装置、そのための映像生成モデルを学習する映像生成モデル学習装置、その方法、及びプログラムを提供することを目的とする。なお、「エージェントの映像を生成する」とは、エージェントのモーション（行動）を生成または取得することを意味してもよいし、その生成したモーションを用いて実際にエージェントの映像を生成することを意味してもよい。例えば、本発明の映像生成装置は、エージェントのモーション（行動）を生成または取得し、外部の映像生成装置にモーションデータを出力し、外部の映像生成装置が映像を生成し、提示してもよい。

上記の課題を解決するために、本発明の一態様によれば、映像生成装置は、Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、N個の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成装置は、Ｎを1以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、その時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、N種類の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、N種類の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成モデル学習装置は、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習する事前学習部を含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成装置は、Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、N個の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、(i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶された記憶部と、利用者画面上に、(i)記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか１つと、(ii)記憶部に記憶された少なくとも1つの仮想空間の背景の映像に対応する少なくとも1つの被選択物のうちの何れか１つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示部と、選択提示部で提示した少なくとも1つの被選択物のうちの何れか１つの利用者の選択結果の入力を受け付ける利用者選択入力受付部と、(i)利用者選択入力受付部で選択された１つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して記憶部に記憶された課金情報と、(ii)利用者選択入力受付部で選択された１つの被選択物に対応する仮想空間の背景映像に対応して記憶部に記憶された課金情報との少なくとも何れかに基づいて、利用者に課金を行う課金部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成装置は、Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、N個の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶された記憶部と、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか１つを利用者が選択可能なように提示する選択提示部と、選択提示部で提示した少なくとも1つの被選択物のうちの何れか１つの利用者の選択結果の入力を受け付ける利用者選択入力受付部と、利用者選択入力受付部で選択された１つの被選択物に対応する第一配置に対応して記憶部に記憶された課金情報に基づいて、利用者に課金を行う課金部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N個の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Ｎを1以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、その時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N種類の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N種類の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成モデル学習方法は、事前学習部が、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習する事前学習ステップを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N個の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、(i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶部に記憶されるものとし、選択提示部が、利用者画面上に、(i)記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか１つと、(ii)記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか１つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示ステップと、利用者選択入力受付部が、選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか１つの利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、課金部が、(i)利用者選択入力受付ステップで選択された１つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して記憶部に記憶された課金情報と、(ii)利用者選択入力受付部で選択された１つの被選択物に対応する仮想空間の背景映像に対応して記憶部に記憶された課金情報との少なくとも何れかに基づいて、利用者に課金を行う課金ステップとを含む。

上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N個の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶部に記憶されるものとし、選択提示部が、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか１つを利用者が選択可能なように提示する選択提示ステップと、利用者選択入力受付部が、選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか１つの利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、課金部が、利用者選択入力受付ステップで選択された１つの被選択物に対応する第一配置に対応して記憶部に記憶された課金情報に基づいて、利用者に課金を行う課金ステップとを含む。

本発明によれば、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。

第一実施形態に係る映像生成装置の機能ブロック図。第一実施形態に係る映像生成装置の処理フローの例を示す図。学習用時系列音響信号と学習用行動ラベルを説明するための図。時系列全体映像の例を示す図。俯瞰映像の例を示す図。課金情報記憶部２２２に記憶されるデータの例を示す図。エージェントデザイン選択画面の例、及び、背景デザイン選択画面の例を示す図。利用者画面上に複数の選択肢を提示する例を示す図。第二実施形態の構成例を示す図。第二実施形態に係る音源強調装置の機能ブロック図。第一実施形態に係る音源強調装置の処理フローの例を示す図。従来技術の構成を説明するための図。座標系の定義を説明するための図。第三実施形態に係る映像生成装置の機能ブロック図。第三実施形態に係る映像生成装置の処理フローの例を示す図。合成パラメータ選択画面の例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
図１は第一実施形態に係る映像生成装置の機能ブロック図を、図２はその処理フローを示す。

映像生成装置２００は、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号s_n(t)(n=1,2,…,N)を入力とし、その時系列音響信号s_n(t)全体を演奏または歌唱するエージェントの映像である時系列映像を生成し、利用者が見る画面(以下、利用者画面ともいう)上に表示する。tは時間のインデックスを、nは楽器の演奏または歌唱のインデックスを表す。Nは1以上の整数の何れかである。なお、本実施形態では、N種類のエージェントの時系列映像を用いて、N種類のエージェントの時系列映像を部分映像として含む１つの時系列映像である時系列全体映像を生成し、利用者画面上に表示する。また、本実施形態では、映像生成装置２００は、N個の時系列音響信号s_n(t)から得られる全体音響信号を出力し、利用者の聴く再生装置で再生する。

このような構成により、利用者は、全体音響信号と、全体音響信号を演奏するエージェントの映像とを合わせて視聴することができる。

映像生成装置２００は、部分映像取得部２０１と、時系列映像取得部２０２と、全体映像生成部２０３と、音響信号生成部２０４と、俯瞰映像提示部２１２と、入力受付部２１３と、事前学習部２９１とを含む。

＜本実施形態のポイント＞
本実施形態では、深層学習を用いて、音と行動の関係をあらかじめニューラルネットワークを用いて記述することで、音を入力するだけで行動パターンを推定する。

図１に示すように、あらかじめ楽曲から各楽器/ボーカルを強調して収音した分離信号群、あるいは事前に各楽器の近傍に設置したマイクロホンで観測した信号(他の音の混入レベルが低い)を用いることを前提とする。この信号が時系列音響信号s_n(t)に相当する。事前に学習したニューラルネットに時系列音響信号s_n(t)、あるいはそれらを特徴量子化したベクトル群を入力することで、時系列音響信号s_n(t)に対応する演奏者または歌手の行動動パターンを推定する。行動パターンとは数個〜数十個のインデックスを表し、例えば、ドラムの演奏の行動パターンであれば、(i)4拍子でリズムを刻む、(ii)頭にシンバルを叩いて4拍子でリズムを刻む、(iii)フィルインでタムを回すなどの行動をそれぞれ一つのインデックスで表すこととする。ニューラルネットは、楽器/ボーカルごとに別々に生成されるとする。例えば、ドラム演奏モデル、ギター演奏モデル、鍵盤演奏モデル、男性ボーカル振付モデル、女性ボーカル振付モデル等が生成される。なお、各時系列音響信号s_n(t)がどの楽器/ボーカルの音響信号であるかはあらかじめ既知であるとする。

図１の処理フローについて簡潔に説明する。部分映像取得部２０１では、時系列音響信号s_n(t)を入力とし、各時刻における尤もらしい行動パターンのインデックスを出力する。なお、n、tはそれぞれ各楽器/ボーカル、時刻を示すインデックスである。時系列音響信号の個数をNとし、n=1,2,…,Nである。ここで、ニューラルネットは全結合型深層ニューラルネット(Full-connected Deep Neural Networks)、再帰型ニューラルネット(Recurrent Neural Networks)（参考文献１参照）、畳み込みニューラルネットワーク(Convolutional Neural Networks)（参考文献１参照）等のどれでもよい。つまり、ニューラルネットワークの実装形態に依存しない。なお、実際に行った実装に用いたのは、RNNの一種であるLSTM(Long Short Term Memories)（参考文献１参照）である。
（参考文献１）岡谷貴之, ”深層学習(第一版)”, 講談社サイエンティフィク, 2015, p.7-54.

なお、ネットワークパラメータは、事前に大量のデータセットを用いて訓練する必要がある。例えば、データセットは、学習用時系列音響信号s_L2,n(t)と各学習用時系列音響信号s_L2,n(t)に含まれる各時間区間の演奏または歌唱するものの行動を示す学習用行動ラベルL_L2,n(t)とのセットを含む。

図３に示すように、ニューラルネットパラメータを訓練するために用意した学習用時系列音響信号s_L2,n(t)(図３では、ドラムの演奏に係る音響信号(ステレオ信号s_L2,n ^(R)(t)、s_L2,n ^(L)(t))を利用している)の各時刻tに対して、行動インデックスのラベリングを行った。
このようにして、学習用時系列音響信号s_L2,n(t)を特徴量子化したベクトル群(e.g.フィルタバンク出力パワー)と教師となる学習用行動ラベルL_L2,n(t)との組から成るデータセットをあらかじめ用意する。学習用行動ラベルL_L2,n(t)は、例えば、10パターンの行動があらかじめ用意されているとし、3番目の行動インデックスがマニュアルで与えたラベルとすると「0,0,1,0,0,0,0,0,0,0」のような系列をラベルベクトルとする。

誤差逆伝搬法(あるいはネットワーク形状に依ってはその変形)に則って、事前学習部２９１においてネットワークパラメータを事前に学習する。部分映像取得部２０１では、学習された後の固定のネットワークパラメータが与えられたという前提の下で、行動パターンを得る。

＜事前学習部２９１＞
事前学習部２９１は、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号s_L2,n(t)と、N個の各学習用時系列音響信号s_L2,n(t)に含まれる各時間区間の演奏または歌唱するものの行動を示す学習用行動ラベルL_L2,n(t)とを入力とし、時系列音響信号s_n(t)と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習し、学習結果を部分映像取得部２０１に出力する。なお、演奏または歌唱するものの行動の遷移には傾向があり、現在の行動から次の行動を推定することができる。そのため、行動生成モデルは、時間遷移を考慮したモデルであることが望ましい。

本実施形態では、行動生成モデルをニューラルネットワークで記述し、事前学習部２９１は、ニューラルネットワークで用いるネットワークパラメータを学習し、学習結果を部分映像取得部２０１に出力する。

＜部分映像取得部２０１＞
部分映像取得部２０１は、学習結果(本実施形態ではニューラルネットワークで用いるネットワークパラメータ)を入力とし、事前にニューラルネットワークに与えておく。

部分映像取得部２０１は、N個の時系列音響信号s_n(t)を入力とし、N個の各時系列音響信号s_n(t)に含まれる各時間区間について、時系列音響信号s_n(t)の時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得（Ｓ２０１）、時系列映像取得部２０２に出力する。なお、時間区間映像の時間区間は、時刻を表すインデックスtが離散時刻を表すとき、離散時刻と同じ時間区間でもよいし、離散時刻の時間区間の数倍から数十倍に設定してもよい。

このとき、部分映像取得部２０１は、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデル(本実施形態ではニューラルネットワーク)を用いて、N個の各時系列音響信号s_n(t)に含まれる各時間区間についてのエージェントの時間区間映像を得る。例えば、部分映像取得部２０１は、時系列音響信号s_n(t)を特徴量子化したベクトル群(e.g.フィルタバンク出力パワー)をニューラルネットワークに与え、ニューラルネットワークの出力値(行動ラベルL_n(t))を受け取り、行動ラベルにL_n(t)に対応するエージェントの演奏映像または歌唱映像を図示しない記憶部から取り出し、時間区間映像として取得する。なお、図示しない記憶部には、全ての行動ラベルにL_n(t)に対応するエージェントの演奏映像または歌唱映像が事前に記憶されているものとする。

＜時系列映像取得部２０２＞
時系列映像取得部２０２は、時系列音響信号s_n(t)の時間区間に対応する時間区間映像を入力とし、N個の各時系列音響信号s_n(t)(n=1,2,…,N)について、時系列音響信号s_n(t)について部分映像取得部２０１で得た1個以上の時間区間映像を時系列順に組み合わせることにより、時系列音響信号s_n(t)全体に対応するエージェントの演奏または歌唱に係る時系列映像を得（Ｓ２０２）、出力する。

＜全体映像生成部２０３＞
時系列映像は、時系列音響信号s_n(t)毎に得られるものであり、１種類の楽器または歌唱に係るエージェントの演奏または歌唱の映像である。

全体映像生成部２０３は、N種類のエージェントの時系列映像と後述するエージェント位置と後述する視点位置とを入力とし、N種類のエージェントの時系列映像を用いて、N種類のエージェントの時系列映像を部分映像として含む１つの時系列映像である時系列全体映像を得（Ｓ２０３）、出力する。図４は時系列全体映像の例を示す。なお、全体映像生成部２０３は、エージェント位置と視点位置とを用いて、エージェント位置に、対応するエージェントの時系列映像を配置し、それを視点位置から見た１つの時系列全体映像を生成し、出力する。なお、N=1の場合には、全体映像生成部２０３を用いなくともよい。

＜入力受付部２１３及び俯瞰映像提示部２１２＞
入力受付部２１３は、利用者からの入力（以下、利用者入力ともいう）を受け付ける。なお、利用者入力は、利用者端末の入力部(タッチパネル等)や利用者端末に接続された入力装置(タッチパネルディスプレイやマウス、キーボード等)を介して利用者の操作により入力される。図４の時系列全体映像の中に「edit」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置２００に送信される。映像生成装置２００の入力受付部２１３は、その制御信号を受け付け、俯瞰映像提示部２１２に制御信号を出力する。

俯瞰映像提示部２１２は、「edit」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、利用者画面に所定の仮想空間を俯瞰する映像(以下、俯瞰映像ともいう)を提示するように全体映像生成部２０３に指示し、全体映像生成部２０３は、俯瞰映像を生成し、出力する。よって、俯瞰映像提示部２１２は、全体映像生成部２０３を介して俯瞰映像を利用者に提示する。図５は俯瞰映像の例を示す。

例えば、俯瞰映像では以下のような操作が可能である。

俯瞰映像には、各エージェントの仮想空間における位置と、受聴位置と、視点位置とを提示する。

利用者は、各エージェントの仮想空間における位置と、受聴位置と、視点位置とを変更することができる。例えば、入力部または入力装置を使って、何れかの位置をドラッグ＆ドロップすることで変更することができる。また、例えば、一度目のタップ(クリック)で、変更しようとする各エージェントの仮想空間における位置、受聴位置、視点位置を指定し、二度目のタップ(クリック)で変更後の位置を指定することで変更してもよい。

このようにして、入力受付部２１３は、俯瞰映像提示部２１２が提示した画面上の所望の位置に、(i)N種類のエージェントのそれぞれを配置するための入力、(ii)視点を配置するための入力、(iii)俯瞰映像提示部が提示した画面上の所望の位置に、受聴点を配置するための入力を受け付ける。

なお、入力受付前には、各位置の初期値が設定されているものとする。なお、二回目以降に映像生成装置を利用した場合は、前回の利用終了時の各位置をそれぞれ利用してもよい。

入力受付部２１３は、各エージェント位置と視点位置とを全体映像生成部２０３に出力し、各エージェント位置と受聴位置とを音響信号生成部２０４に出力する。

全体映像生成部２０３は、入力受付部２１３で受け付けられた入力に基づく仮想空間内の各位置に、N種類のエージェントの時系列映像を配置した１つの俯瞰映像を得、利用者画面に表示させる。

図５の俯瞰映像の中に「Return」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置２００に送信される。映像生成装置２００の入力受付部２１３は、その制御信号を受け付け、俯瞰映像提示部２１２に制御信号を出力する。

俯瞰映像提示部２１２は、「Return」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、時系列全体映像を提示するように全体映像生成部２０３に指示し、全体映像生成部２０３は、入力受付部２１３で受け付けられた入力に基づく仮想空間内の各位置に、N種類のエージェントの時系列映像を配置し、それを視点位置から見た１つの時系列全体映像を生成し（図４参照）、出力する。なお、俯瞰映像は、利用者が仮想空間上の位置を特定することができるような映像であればどのような映像であってもよい。

＜音響信号生成部２０４＞
音響信号生成部２０４は、N個の時系列音響信号s_n(t)とN個のエージェント位置と受聴位置とを入力とし、エージェント位置に対応する時系列音響信号s_n(t)に対する定位操作をし、それらを加算することで、受聴位置から受聴した際の全体音響信号を得（Ｓ２０４）、出力する。

＜効果＞
以上の構成により、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができ、音楽に含まれる楽器/ボーカル信号群と演奏/ダンスといった行動を自動で記述することができる。これは、CDやインターネット経由で配信された音楽からライブのような映像へ自動で可視化することに役立つ。

＜実装について＞
映像生成装置２００は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。事前学習部２９１をサーバ上に実装し、それ以外の構成を利用者端末上に実装し、学習結果(パラメータ、さらには、パラメータにより特定される映像生成モデル)を部分映像取得部２０１で利用してもよい。事前学習部２９１は、映像生成モデルを学習する装置として、別途設けてもよい。この観点から事前学習部２９１を映像生成モデル学習装置ともいう。例えば、利用者端末としてはスマホ、タブレット、PC等が考えられる。

映像生成装置２００を利用者端末上に実装する場合には、N個の時系列音響信号s_n(t)をダウンロードしたり、CD等の記録媒体や、N個の時系列音響信号s_n(t)を記録した利用者端末内の記憶部から取り出し、そのN個の時系列音響信号s_n(t)から全体音響信号と時系列全体映像とを生成し、利用者端末の再生部や利用者端末に接続された再生装置(スピーカ等)で全体音響信号を再生し、同時に、利用者端末の画面(ディスプレイやタッチパネル等)や、利用者端末に接続された表示装置(ディスプレイなど)に時系列全体映像を表示する。

一方、映像生成装置２００をサーバ上に実装した場合には、利用者端末がN個の音響信号s_n(t)を通信回線等をサーバに送信する。また、サーバ上にN個の音響信号s_n(t)を記憶しておく構成としてもよい。この場合、複数の曲名を利用者画面上に表示し、利用者は、利用者端末の入力部や入力装置を介して、曲名を選択し、選択結果が通信回線等を介してサーバに送信される。サーバは、選択された曲名に対応するN個の音響信号s_n(t)をサーバ内の記憶部から取り出す。映像生成装置２００は、N個の音響信号s_n(t)から全体音響信号と時系列全体映像とを生成し、通信回線等を介して利用者端末に送信する。利用者端末の再生部や再生装置で全体音響信号を再生し、同時に、利用者端末の画面や表示装置に時系列全体映像を表示する。なお、N個の音響信号s_n(t)や全体音響信号、時系列全体映像は信号をそのまま送るのではなく、信号から得られる特徴量を送信し、特徴量から各信号を生成する構成としてもよい。利用者入力は、利用者端末の入力部や利用者端末に接続された入力装置を介して利用者の操作により入力され、通信回線を介してサーバに送信される。

＜第一変形例＞
第一実施形態と異なる部分を中心に説明する。

映像生成装置２００は、さらに、選択提示部２２１と課金部２２３と課金情報記憶部２２２とを含む(図１中、破線で示す)。

＜課金情報記憶部２２２＞
課金情報記憶部２２２には、(i)少なくとも1つのエージェントの識別子と、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する、少なくとも1つの仮想空間の背景の識別子と、各背景に対応する課金情報とが記憶されている。図６は、課金情報記憶部２２２に記憶されるデータの例を示す。なお、課金情報は0以上であればよい。

＜選択提示部２２１＞
図４の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置２００に送信される。映像生成装置２００の入力受付部２１３は、その制御信号を受け付け、選択提示部２２１に制御信号を出力する。

選択提示部２２１は、「Select」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、利用者画面にエージェントデザイン選択画面、背景デザイン選択画面を提示するように全体映像生成部２０３に指示し、全体映像生成部２０３はエージェントデザイン選択画面、背景デザイン選択画面を生成し、出力する。よって、選択提示部２２１は、全体映像生成部２０３を介してエージェントデザイン選択画面、背景デザイン選択画面を利用者に提示する。図７はエージェントデザイン選択画面、背景デザイン選択画面の例を示す。

例えば、エージェントデザイン選択画面、背景デザイン選択画面では以下のような操作が可能である。

エージェントデザイン選択画面には、各エージェントのデザインと、そのエージェントの値段(課金情報)とを提示する。背景デザイン選択画面には、各背景のデザインと、その背景の値段(課金情報)とを提示する。

利用者は、少なくとも1つのエージェントのデザインの中から一つのエージェントデザインを選択することができる。また、少なくとも1つの背景のデザインの中から一つのエージェントデザインを選択することができる。例えば、入力部または入力装置を使って、デザインをタップ(クリック)することで選択することができる。なお、エージェントのデザインとは、エージェント自体だけではなく、エージェントの衣装や身に着けるアイテムのデザインを含んでもよい。

このようにして、入力受付部２１３は、利用者の選択結果を受け付ける。

なお、入力受付前には、エージェントデザイン、背景の初期値が設定されているものとする。なお、二回目以降に映像生成装置を利用した場合は、前回の利用終了時の各エージェントデザイン、背景をそれぞれ利用してもよい。

入力受付部２１３は、選択結果を課金部２２３に出力する。

＜課金部２２３＞
課金部２２３は、選択結果に対応するエージェントに対応して課金情報記憶部２２２に記憶された課金情報と、選択結果に対応する背景に対応して課金情報記憶部２２２に記憶された課金情報との少なくとも何れかに基づいて課金を行う。例えば、初めて映像生成装置２００を利用する際に、利用者に利用者登録処理を促し、その際に、利用者IDの登録と請求情報(例えば、クレジットカード番号等)の登録を求める。課金が行われた際には、その利用者IDと請求情報とから課金処理を実行する。

課金部２２３は、選択結果に対応するエージェントのデザインに基づき、時間区間映像を得るように部分映像取得部２０１に指示する。部分映像取得部２０１は、N個の時系列音響信号s_n(t)を入力とし、N個の各時系列音響信号s_n(t)に含まれる各時間区間について、時系列音響信号s_n(t)の時間区間に対応するエージェントの演奏映像または歌唱映像(選択結果に対応するエージェントのデザインに対応する演奏映像または歌唱映像)である時間区間映像を得（Ｓ２０１）、時系列映像取得部２０２に出力する。

課金部２２３は、選択結果に対応する背景のデザインに基づき、時系列全体映像を生成するように全体映像生成部２０３に指示する。全体映像生成部２０３は、選択結果に対応する背景の映像を用いて時系列全体映像を生成し、出力する。

図７のエージェントデザイン選択画面、背景デザイン選択画面の中に「Return」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置２００に送信される。映像生成装置２００の入力受付部２１３は、その制御信号を受け付け、選択提示部２２１に制御信号を出力する。

選択提示部２２１は、「Return」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、時系列全体映像を提示するように全体映像生成部２０３に指示し、全体映像生成部２０３は、入力受付部２１３で受け付けられた入力に基づくエージェントのデザイン、背景のデザインで時系列全体映像を生成し（図４参照）、出力する。

このような構成により、課金を含む、より柔軟なシステム設計が可能となる。

本変形例では、エージェントのデザインと背景のデザインとの両方を選択可能としたが、何れか一方のみを選択可能としてもよい。また、エージェントのデザインと背景のデザインとの中で必要な部分のみを課金対象とすればよい。なお、エージェントのデザインは、少なくともN体のエージェントに対して、全て同じデザインを適用してもよいし、エージェント毎に異なるデザインを適用してもよい。エージェント毎に異なるデザインを適用する場合には、利用者がエージェント毎にデザインを選択すればよい。

なお、エージェントのデザインや背景のデザインに代えて、複数のエージェントの配置を選択可能としてもよい。

その場合、課金情報記憶部２２２には、N体のエージェントそれぞれに対するそれぞれに対するN個の配置からなる第一配置の識別子が少なくとも1つと、各第一配置に対応する課金情報とが記憶される。なお、複数の第一配置を用意した場合には、各第一配置は、互いに異なるものとする。

選択提示部２２１は、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか１つを利用者が選択可能なように提示する（図８参照）。なお、図８の○はエージェント位置を示す。具体的な処理はエージェントのデザインや背景のデザインの場合と同じである。

課金部２２３は、選択結果に対応する第一配置に対応して課金情報記憶部２２２に記憶された課金情報に基づいて課金を行う。

なお、選択提示部２２１は、利用者画面上に、課金情報記憶部２２２に記憶された複数の第一配置のそれぞれに対応する複数の点(図４中破線で示しているが、この破線で示した複数の点は表示されなくともよく、スライドバーのツマミ部分が離散的に移動するように設計してもよい)を１軸上に並べて提示するとともに、提示された複数の点のうちの何れか１つを利用者が選択可能なスライドバーを提示するものとしてもよい（図４参照）。なお、スライドバーの全ての点を課金対象としてもよいし、スライドバーの一部の点を課金対象としてもよい。

入力受付部２１３は、選択提示部２２１が提示したスライドバーによる、提示された複数の点のうちの何れか１つの利用者の選択結果の入力を受け付ける。

なお、この例では、第一配置は、N体のエージェントそれぞれに対するそれぞれに対するN個の配置からなるものとしたが、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなるものとしてもよい。Tを1以上N以下の整数の何れかとする。その他の（N-T）体のエージェントの配置に関しては、システム側で設定してもよいし、利用者が設定してもよい。

＜その他の変形例＞
本実施形態では、エージェント位置、受聴位置、視点位置をそれぞれ変更可能としたが、必ずしも変更可能としなくともよい。例えば、エージェント位置、受聴位置、視点位置の何れか、または、全てを固定（変更不可能）としてもよい。そのような場合であっても、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。

全体映像生成部２０３を含まず、時系列映像取得部２０２の出力値を映像生成装置２００の出力としてもよい。そのような場合であっても、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。

また、受聴位置と視点位置とを同一の位置に固定してもよい。そのような設定とすることで、受聴位置と視点位置とを異なるように設定した場合に比べ、利用者が仮想空間上の視点位置（受聴位置）において演奏を聴いているように感じ、高い臨場感を得ることができる。ただし、本実施形態の場合であっても、利用者が受聴位置と視点位置とを同一の位置に設定すれば同様の効果を得ることができる。

なお、本実施形態では、エージェント位置に対応する時系列音響信号s_n(t)を定位させているが、エージェント位置とは異なる位置に時系列音響信号s_n(t)を定位させてもよい。

本実施形態では、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号を対象としたが、他の時系列音響信号を対象としてもよい。エージェントの映像は、時系列音響信号を表出するものであればよく、演奏または歌唱するエージェントの映像に限定されない。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第二実施形態に係る映像生成装置２００は、その前段に音源強調装置１００を配置し、音源強調装置１００の出力値を入力とする（図９参照）。なお、映像生成装置２００が、音源強調装置１００を含む構成としてもよい。

音源強調装置１００は、N個の時系列音響信号を含む楽曲信号からN個の時系列音響信号をそれぞれ強調し（Ｓ１００）、強調信号^s(t)を出力する。映像生成装置２００では、強調信号^s(t)を時系列音響信号s_n(t)の代わりに用いる。

以下に、音源強調装置１００の一例を示す。

図１０は音源強調装置１００の機能ブロック図を、図１１はその処理フローを示す。

特定の音源の音信号（強調したい音響信号）をs(t)、強調したい音源以外の雑音の音信号(以下、雑音信号ともいう)をn(t)と表す。例えば、楽曲信号からギターの音だけを抽出したい場合には、ギターの音響信号をs(t)、雑音信号（その他の音源(ベース、ドラム、キーボード、ボーカルなど)が混合された音信号）をn(t)として扱うことを意味する。s(t)、n(t)の周波数領域に展開された信号をS(τ,ω)、N(τ,ω)と表す。ここで、τ,ωは、時間フレーム、周波数のインデックスを表す。この時、強調前の音響信号（混合信号）X(τ,ω)は、以下のように表現される。
X(τ,ω) = S(τ,ω) + N(τ,ω)
なお、混合信号X(τ,ω)の時間領域表現は、x(t)である。

音源強調装置１００は、N種類の、楽器の演奏または歌唱それぞれに係る音源の音響信号s_n(t)を含む混合信号x(t)を入力とし、N種類の音響信号s_n(t)に対応するN個の強調信号^s_n(t)を出力する。ただし、n=1,2,…,Nであり、Nは1以上の整数の何れかである。

音源強調装置１００は、周波数領域変換部１０２、雑音抑圧量推定部１０３、音源強調部１０４、時間領域変換部１０５、データベース部１９０、特徴量−ラベル生成部１９１及び事前学習部１９２を含む。

＜周波数領域変換部１０２＞
周波数領域変換部１０２は、時間領域の混合信号x(t)を入力とし、時間領域の混合信号x(t)を周波数領域の混合信号X(τ,ω)に変換し（Ｓ１０２）、出力する。時間領域の信号を周波数領域の信号に変換する方法として、例えば、短時間フーリエ変換等を用いる。

＜データベース部１９０＞
データベース部１９０には、学習用の混合信号X_L(τ,ω)と、それを構成する強調したい学習用の音響信号S_L,n(τ,ω)と、学習用の雑音信号N_L,n(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するような雑音抑圧量を推定する場合、学習用の音響信号S_L,n(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号N_L,n(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。n=1,2,…,Nであり、N種類全ての、楽器の演奏または歌唱それぞれに係る音源に対して、学習用の音響信号S_L,n(τ,ω)と学習用の雑音信号N_L,n(τ,ω)とが用意され、格納されている。なお、X_L(τ,ω)=S_L,n(τ,ω)+N_L,n(τ,ω)であり、データベース部１９０には、X_L(τ,ω),S_L,n(τ,ω),N_L,n(τ,ω)のうちの何れか二つを記憶しておき、残りの1つをデータベース部１９０または特徴量−ラベル生成部１９１で計算により求めてもよい。

＜特徴量−ラベル生成部１９１＞
特徴量−ラベル生成部１９１は、従来方式(参考文献２参照)と以下の2点において異なる。
(参考文献２)Y. Wang, A. Narayanan and D.L.Wang, "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.

(差異1)
従来方式では、周波数ごとに特徴量-ラベルを用意していた。本実施形態では、複数の周波数を集約化した周波数バンドごとに特徴量-ラベルを用意するような実装を行う。なお、Ω_O個のバンドで構成されるとし、そのインデックス集合をΩ={1,…,Ω_O}と表す。従来方式ではラベルを2値化しているため、周波数ごとにラベルを用意している。一方、本実施形態では、ラベルを2値以上のパターン(例えば4段階[1,0.5,0.3,0.1])となるように実装している。ラベルの値は、どの程度雑音を抑圧したらよいかを表している。2値以上のパターンでラベルの値を表すことになるので、以後、この値のことをマスクではなく雑音抑圧量と表現することにする。なお、ラベルの値を雑音抑圧量参照値ともいう。雑音抑圧量参照値のパターン数は、実験では4程度で利用しているが、これはパターン数が多くし過ぎると、どのパターンに属するかについての推定精度が悪くなる、または、学習データの量が膨大になることが想定されるためである。

(差異2)
分離後の強調信号群(ギター、ベース、ドラム等)を再合成した際に、元の混合信号との歪を計算し、できるだけその歪を小さくなるようにしたい。よって、特徴量-ラベルのセットは、全ての音源分計算する必要がある。例えば、ボーカル、ギター、ベース、ドラム、キーボードの5つの音源に分類する場合には、音源数N=5であり、N=5組の特徴量-ラベルを用意する。

ここで、SNR_L,nは観測時点のSN比であり、θ₁、θ₂、…、θ_C-1は学習用雑音抑圧量W_L,nの値(q₁、q₂、…、q_C)を決定する際に用いる閾値であり、θ₁<θ₂<…<θ_C-1であり、0≦q₁<q₂<…<q_C-1≦1である。ラベル[q₁,q₂,…,q_C]は周波数ωごとに書かれる。閾値θ₁、θ₂、…、θ_C-1は実験等により適切な値を求めておく。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)がどの程度の割合を示す音源かを示す。また、フロア値q₁は、0を利用してもよいし、0<q₁<q₂<…<q_C-1≦1を満たす値q₁を用いてもよい。例えばq₁を0.1〜0.3 程度の値とする。フロア値q₁を0より大きな値とすることで、「プッ」っと音が途切れるような音響信号が再生されるのを防ぐことができる。なお、SNR_L,nは、以下のように計算される。

このようにして、特徴量−ラベル生成部１９１は、特徴量(例えば、パワースペクトル|S_L,n(τ,ω)|²、|N_L,n(τ,ω)|²やそれを平滑化した値)とラベル(学習用雑音抑圧量W_L,n(τ,ω))とを求め、出力する。

＜事前学習部１９２＞
事前学習部１９２は、特徴量(例えば、パワースペクトル|S_L,n(τ,ω)|²、|N_L,n(τ,ω)|²やそれを平滑化した値)とラベル(学習用雑音抑圧量W_L,n(τ,ω))とを入力とし、雑音抑圧量推定部１０３で雑音抑圧量を推定するために必要となるパラメータpを求め、出力する。(i)2値以上の値を利用して連続的な雑音抑圧量を表す点と、(ii)N個の強調信号群を再合成した際に、元の混合信号との歪が小さくなるように雑音抑圧量の最適設定できるという2点において、従来方式との差分がある。

まず、(i)の連続的な雑音抑圧量を表す方式について簡潔に説明する。例えば、C段階の雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T)とn番目の音響信号S_n(τ,ω)(時間フレームτ、周波数ω)のC段階の雑音抑圧量参照値に対する出力確率をo_n(τ,ω)=[o_n,1(τ,ω),…,o_n,C(τ,ω)]^Tとするとき、n番目の音響信号S_n(τ,ω)(時間フレームτ、周波数ω)に対する連続量で表した雑音抑圧量の推定値W_n(τ,ω)は、以下で書くことができる。
W_n(τ,ω)=q^To_n(τ,ω) (5)
よって、雑音抑圧量の推定値W_n(τ,ω)は、出力確率o_n(τ,ω)を重みとする2個以上の離散値(雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T))の重み付け加算により連続値で表現される。なお、出力確率o_n(τ,ω)は、雑音抑圧量推定部１０３を構成するニューラルネットワークの出力値であり、以下の関係が成立するように正規化されて出力される。

次に、(ii)の再合成時の元の信号の再現性を保証するためのパラメータpを最適化する提案方式について説明する。まず、n番目の音源を強調した信号(以下、強調信号ともいう)を^S_n(τ,ω)と表す。強調信号^S_n(τ,ω)は、
^S_n(τ,ω)=W_n(τ,ω)X(τ,ω)=q^To_n(τ,ω)X(τ,ω) (7)
となる。

N個の強調信号を単純加算した信号と、元の混合信号X(τ,ω)との二乗誤差E(τ)を以下で定義する。

以下のように、二乗誤差E(τ)をニューラルネットの出力層の値o_n(τ,ω)で微分することで、再合成信号の再現性を考慮して、パラメータpを最適化できるのではないかと考えた。

誤差逆伝搬法(参考文献１参照)に則って、ニューラルネットのパラメータを最適化する方法について簡略的に説明する。

一つの例として、全結合型DNN(Deep Neural Networks)をNN(Neural Networks)構築に用いた場合についてのみ説明する。なお、この部分は、従来のCNN(Convolutional Neural Networks)、RNN(Recurrent Neural Networks)等で置き換え可能である。まず、順方向のニューラルネットの計算について説明する。なお、この順方向のニューラルネットの計算は、最適化されたパラメータpと入力信号(上述の混合信号に相当)X(τ,ω)を入力として、雑音抑圧量推定部１０３にて行う演算に対応する。入力信号X(τ,ω)をΩ_O個の周波数バンドに分割し、式(10)のように特徴量化する。
q⁽¹⁾=[|X(τ,1)|²,…,|X(τ,Ω_O)|²]^T (10)

ここで、|X(τ,Ω)|²は、Ω番目の周波数バンド、時間フレームτにおける入力信号のバンドパワーを表す。Ω={1,…,Ω_O}とする。ψ層目のノード数をJ_ψと表すとき、J₁=Ω_Oである。つまり、1層目のノード数と周波数バンドの総数Ω_Oとが一致する。また、層の総数をΨとし、ψ=1,2,…,Ψとする。パラメータpは、ニューラルネットで用いられるパラメータであり、重み行列{P⁽²⁾,…,P^(Ψ)}とバイアス{b⁽²⁾,…,b^(Ψ)}とが含まれる。以下の計算をΨ-1回繰り返すことでパラメータpが得られる。
u^(ψ)=P^(ψ)q^(ψ-1)+b^(ψ) (11)
q^(ψ)=f^(ψ)(u^(ψ)) (12)
ここで、各変数の次元は、u^(ψ)∈R^J_ψ×1、q^(ψ)∈R^J_ψ×1、P^(ψ)∈R^{J_ψ×J_(ψ-1)}、b^(ψ)∈R^J_ψ×1である。なお、上付き添え字X_YはX_Yを意味する。また、f^(ψ)(・)はψ層目の活性化関数である。例えばΨ-1層目までの計算では、ランプ関数(ReLU)を用いることが多い。
f^(ψ)(u^(ψ))=max(0,u^(ψ)) (ψ=2,…,Ψ-1) (13)
最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。周波数バンドΩに対応するノード(C種類の雑音抑圧量参照値に対する出現確率値)のインデックスをV_i,1,…,V_i,Cとする。そして、u^(ψ)の対応する要素をu_{V_i,1},…,u_{V_i,C}とする。ただし、下付き添え字X_YはX_Yを意味する。その場合、最終層の出力値はソフトマックス関数で表すことができる。

なお、
o_n(τ,ω)=q^(Ψ) (15)
である。また、J_Ψ=C×Ω_Oである。

次に、誤差逆伝搬法に則って、パラメータpを最適化する計算について説明する。学習用のサンプル総数をDとする。つまり、Dフレーム分のデータを使用する。D個のサンプルに対して、式(11)、(12)の処理を実施する場合、以下のような行列形式で表される。
U^(ψ)=P^(ψ)Q^(ψ-1)+b^(ψ)1^T _D (16)
Q^(ψ)=f^(ψ)(U^(ψ)) (17)
ここで、U^(ψ)∈R^J_ψ×D、Q^(ψ)∈R^J_ψ×Dである。ネットワークパラメータの勾配は、出力層から入力層の順に計算される。正解値に最も近いC種類の雑音抑圧量参照値にのみ1を立てたベクトルをΞとするとき、ψ層目の勾配Δ^(ψ)は以下で計算される。

ネットワークパラメータの勾配は、

となるので、以下のように逐次的に更新される。
P^(ψ)←P^(ψ)+ΔP^(ψ) (21)
b^(ψ)←b^(ψ)+Δb^(ψ) (22)
ここで、
ΔP^(ψ)=μΔP^(ψ)*-γ(∂P^(ψ)+λP^(ψ)) (23)
Δb^(ψ)=μΔb^(ψ)*-γ∂b^(ψ) (24)
であり、ΔP^(ψ)*とΔb^(ψ)*は前回の更新における摂動であり、γは学習係数、μはモメンタム、λは重み減衰である。

よって、パラメータpは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号S_L,n(τ,ω)と、(ii)N種類の学習用音響信号S_L,nを含む学習用混合信号X_L(τ,ω)と、(iii)N種類の学習用音響信号S_L,n(τ,ω)に対して付与される雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T))とを用いて、事前に学習されたものと言える。なお、雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T))は、学習用混合信号X_L(τ,ω)に含まれる雑音を抑圧する量を示すものである。

＜雑音抑圧量推定部１０３＞
雑音抑圧量推定部１０３は、混合信号X(τ,ω)とパラメータpとを入力とし、混合信号X(τ,ω)と、N種類の音響信号S_n(τ,ω)の総和と、の差分が小さくなるように、各音響信号S_n(τ,ω)に対する雑音抑圧量を推定し（Ｓ１０３）、推定値W_n(τ,ω)を出力する。なお、式(10)-(15)の計算と、式(5)を行うことで、推定値W_n(τ,ω)を得る。つまり、混合信号X(τ,ω)を用いて、
q⁽¹⁾=[|X(τ,1)|²,…,|X(τ,Ω_O)|²]^T (10)
を求める。パラメータpに含まれる重み行列{P⁽²⁾,…,P^(Ψ)}とバイアス{b⁽²⁾,…,b^(Ψ)}とを用いて、
u^(ψ)=P^(ψ)q^(ψ-1)+b^(ψ) (11)
q^(ψ)=f^(ψ)(u^(ψ)) (12)
を計算する。前述の通り、f^(ψ)(・)はψ層目の活性化関数であり、例えば、Ψ-1層目までの計算では、ランプ関数(ReLU)を用いる。
f^(ψ)(u^(ψ))=max(0,u^(ψ)) (ψ=2,…,Ψ-1) (13)
このようにして、q⁽²⁾,q⁽³⁾,…,q^(Ψ-1)を求める。最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。その場合、最終層の出力値はソフトマックス関数で表すことができる。よって、

なお、
o_n(τ,ω)=q^(Ψ) (15)
である。以上の処理により、o_n(τ,ω)を求め、次式により、雑音抑圧量の推定値W_ψ(τ,ω)を求め、音源強調部１０４に出力する。

W_n(τ,ω)=q^To_n(τ,ω) (5)
q=[q₁,q₂,…,q_C]^T
o_n(τ,ω)=[o_n,1(τ,ω),o_n,2(τ,ω),…,o_n,C(τ,ω)]^T
なお、この演算はN個の音源nそれぞれに対して行う。

よって、雑音抑圧量の推定値W_n(τ,ω)は、(i)C個の雑音抑圧量参照値q=[q₁,q₂,…,q_C]^Tと、(ii)音響信号S_n(τ,ω)の雑音抑圧量参照値qに対する出力確率o_n(τ,ω)と、の重み付け加算により表現されるものと言える。出力確率o_n(τ,ω)は、前述の通り、混合信号X(τ,ω)とパラメータpとに基づき得られる値である。

＜音源強調部１０４＞
音源強調部１０４は、混合信号X(τ,ω)とN個の推定値W_n(τ,ω)とを入力とし、次式により、混合信号X(τ,ω)に含まれる音響信号S_n(τ,ω)を強調した強調信号^S_n(τ,ω)を求め（Ｓ１０４）、出力する。
^S_n(τ,ω)=W_n(τ,ω)X(τ,ω)
なお、この演算はN個の音源nそれぞれに対して行う。

＜時間領域変換部１０５＞
時間領域変換部１０５は、強調信号^S_n(τ,ω)を入力とし、周波数領域の強調信号^S_n(τ,ω)を時間領域の強調信号^s_n(t)に変換し（Ｓ１０５）、出力する。周波数領域の信号を時間領域の信号に変換する方法として、周波数領域変換部１０２に対応する方法を用いればよい。例えば、逆短時間フーリエ変換等を用いる。

以上の構成により、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる。楽曲信号に対して適用することで、楽器音を強調して抽出することができる。例えば、本変形例のように、楽曲のリミックスやリマスタリングなどに適する。

なお、本実施形態では、式(5),(6)-(9),(15)を周波数ωで行っているが、周波数バンドΩで同様の処理を行ってもよい。

本実施形態では、パラメータpを求める際に用いるモデルとしてニューラルネットワークを利用しているが、他のモデル(例えば、混合ガウス分布(GMM))を利用してもよい。

＜効果＞
音源強調装置１００は、楽器(ドラム、ギター、ベース、鍵盤)/ボーカル(男性、女性)ごとに強調するための統計モデル(e.g.ニューラルネットワークのパラメータも含む)を用意されており、ドラム強調音、ギター強調音…といった具合に、それぞれの指定したオーディオオブジェクト毎に強調された強調信号群を出力する。この場合、ドラムを強調した信号に対して、ドラムの演奏行動モデルを適応し、行動パターンを生成するといったことが可能となるので、演奏モデルの対応関係が取りやすいというメリットがある。

なお、本実施形態と第一実施形態の変形例を組合せてもよい。

＜実装について＞
前述の通り、音源強調装置１００を、映像生成装置２００の前段に配置してもよいし、映像生成装置２００に含まれる構成としてもよい。また、音源強調装置１００は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。

音源強調装置１００を利用者端末上に実装する場合には、混合信号x(t)をダウンロードしたり、CD等の記録媒体や、混合信号x(t)を記録した利用者端末内の記憶部から取り出し、N個の強調信号^s_n(t)を生成し、後段の映像生成装置２００に出力する。なお、混合信号x(t)はモノラル信号であってもよいし、ステレオ信号等の多チャネル信号であってもよい。多チャネル信号の場合には、加算したり、重み付け加算してシングルチャネル化することで、本実施形態の混合信号x(t)と同様の処理を適用することができる。また、チャネル毎に混合信号x(t)と同様の処理を適用し、最後に加算したり、重み付け加算してN個の強調信号^s_n(t)を生成してもよい。

一方、音源強調装置１００をサーバ上に実装した場合には、利用者端末において、混合信号x(t)をダウンロードしたり、CD等の記録媒体や、混合信号x(t)を記録した利用者端末内の記憶部から取り出し、音源強調処理を行わずに、混合信号x(t)(モノラル信号であってもよいし、多チャネル信号であってもよい)を通信回線等を介してサーバに送信する。サーバ上の音源強調装置１００は、混合信号x(t)からN個の強調信号^s(t)を生成し、後段の映像生成装置２００に出力する。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。

まず、本実施形態の処理内容を説明するために、従来技術（参考文献３）の内容を説明する。
（参考文献３）K. Ohtani, K. Niwa, K. Takeda, "Single Dimensional Control of Spatial Audio Object Arrangement", Proc. of 12th Western Pacific Acoustics Conference 2015 (WESPAC2015), pp. 456-461, Dec. 2015.

＜参考文献３の内容＞
図１２は、従来技術の簡略化した構成図を示す。

再合成部８１では、周波数領域の音響信号S_n(τ,ω)および各音響信号に対応する印象操作パラメータrとを入力とし、受聴信号y^(L)(t)、y^(R)(t)を出力する。なお、受聴信号y^(L)(t)、y^(R)(t)が、第一実施形態の全体音響信号に相当する。左耳の受聴信号の時間周波数領域表現をY^(L)(τ,ω)、右耳の受聴信号の時間周波数領域表現をY^(R)(τ,ω)と表した。畳み込み混合に対する周波数領域での演算は以下で表される。

受聴信号y^(L)(t)、y^(R)(t)は、Y^(L)(τ,ω)、Y^(R)(τ,ω)を逆離散フーリエ変換することで得られる。H^(L) _n(ω,r)、H^(R) _n(ω,r)は、それぞれn番目の音響信号に対する左耳、右耳用の空間印象関数を表す。空間印象関数とは、個々の音源の定位感を操作するための関数で、例えば両耳間の音量差だけを制御するパンニングであれば、以下のようにH^(L) _n(ω,r)、H^(R) _n(ω,r)を設計することができる。

座標系の定義は、図１３に示す。パンニング関数に含まれるθ_nは、受聴者に対するn番目の音源の到来角度に相当し、各音源合成パラメータに含まれることになる。また、上下前後方向を含めて、立体感のある音響印象を付加するためには、頭部伝達関数をH^(L) _n(ω,r)、H^(R) _n(ω,r)として利用することも可能である。なお、空間印象関数は、受聴者の三次元位置(以下、単に位置と表現)、N個の音源群の位置に応じて計算または選択されるものである。

音源配置推薦部８２では、合成パラメータrを出力する。合成パラメータrは、受聴者の位置、N個の音源群の位置で構成される。従来技術では、受聴信号の聴感上の印象が互いに異なるようなJパターンの合成パラメータを推薦する方式を提案した。なお、Jは人間が簡単に選択できる程度の数で10程度を想定している。Jパターンの合成パラメータは、１次元のツマミ/スライダーで操作できるように実装した。これにより、多数のボタン、ツマミ、スライダーがインタフェース上に現れないので、システムの操作に不慣れな利用者でも簡易に利用することができる。以下、聴感上の印象ができるだけ異なるようなJパターンの合成パラメータを算出する方法に関して簡単に説明する。

まず、候補となる合成パラメータはM通り存在することとする。例えば、平面上に25cm間隔で、縦10点、横10点の離散位置を設置し、そのどこかに音源を配置できるとする。N個の音源があるので、M=₁₀₀P_Nとなる。M個の音源アレンジ候補から、互いに聴感上の印象が異なるJ種類の合成パラメータを選択するために、聴感上の印象を簡易的に算出することとする。一つの手段として、合成パラメータの内積値で表した。k(i,j)はi番目の合成パラメータr_iとj番目の合成パラメータr_jにおける聴感上の印象の類似性を表す値であり、以下のように計算される。
k(i,j)=r_i・r_j (35)
ただし、・は内積演算を表す。J種類の合成パラメータの相互的な類似度は次のような行列で表すことが出来る。

できるだけ異なる聴感印象を持つJ種類の合成パラメータを選択することは、Kの非対角成分の値が小さくなるに音源配置を構成することに相当する。行列Kの対角度cを以下のように計算する。

ここで、Tr{・}はトレース演算子である。cが大きくなる際、行列Kは対角行列に近づき、それは、異なる聴覚印象を得られるようなJ種類の音源配置が得られることを示す。つまり、cが大きくなるほど良い。

従来技術では、以下のようなアルゴリズムを実装し、J種類の聴覚印象の異なる合成パラメータを取得するようにした。
ステップ1.存在するM種類の合成パラメータのうちの2種類を選択する全組み合わせに対し、2×2行列Kの対角度cを計算する。
ステップ2._MC₂組の中からcを最大化する2種類の合成パラメータの組み合わせを取得する。
ステップ3.前ステップの2種類の合成パラメータに別の合成パラメータを加え、3×3行列Kに対して対角度cを計算する。

M-2種類の合成パラメータについて対角度の計算を繰り返し、対角度cを最大化する合成パラメータを新たに一つ加える。
ステップ4.J種類の合成パラメータを得るまでステップ3を繰り返す。つまり、それまでに加えたj種類の合成パラメータに別の合成パラメータを1つ加え、(j+1)×(j+1)行列Kに対して対角度cを計算する。M-j種類の合成パラメータについて対角度の計算を繰り返し、対角度cを最大化する合成パラメータを新たに一つ加え、j=Jになるまで繰り返す。

＜参考文献３の課題＞
参考文献３では、受聴信号の聴感上の印象ができる限り異なるようなＪ個の音源配置群(J個の合成パラメータr_jを含むR)を出力していた。しかし、個々の利用者にとって好ましい印象の音源配置群が提示されているとは限らなかった。そのため、参考文献３では、合成パラメータr_jが、各利用者に対して最適化されていないことが課題である。

＜本実施形態のポイント＞
本実施形態では、参考文献３に含まれる一次元の操作系(ツマミ、スライダー)を用いた楽曲印象操作の機能を保持しつつ、各利用者がクライアント上にあるGUI(Graphical User Interface)で簡易的なフィードバック(e.g.「いいね」ボタンが画面上にあり、それを押すことで利用者の意志を送信する)を送信し、サーバでフィードバックデータを収集し、それを用いてデータ解析することで、各利用者に対して最適化されたと考えられる（各利用者が好ましいと思うような）合成パラメータrを返す機構を追加した。よって、本実施形態の映像生成装置３００は、サーバ上に実装される。

これにより、個々の利用者が好ましいと思われる聴感上の印象を得られるような楽曲印象操作系を提供する。

図１４は本実施形態の映像生成装置３００の機能ブロック図を、図１５はその処理フローの例を示す。

映像生成装置３００は、映像生成装置２００の構成に加え、フィードバック記憶部３３１と個人最適化部３３２とを含む。

なお、音響信号生成部２０４が、図１２の再合成部８１に相当する。ただし、本実施形態では、音響信号生成部２０４に利用者ごとに最適化された合成パラメータr_u(u=1,…,U)が入力される。なお、uは利用者を示すインデックスである。なお、本実施形態では、合成パラメータr_uは、各エージェントの位置、受聴位置、視点位置を含む。

＜入力受付部２１３＞
入力受付部２１３は、複数の合成パラメータのそれぞれについて、音響信号生成部２０４で得た全体音響信号を利用者に提示した際の利用者の評価(フィードバック情報f_u)の入力を受け付ける。フィードバック情報f_uを得るために、利用者画面のGUI上にボタンやスライダー等が配置されているインタフェースが用意されていることを想定する。評価(フィードバック情報f_u)の入力を受け付ける例を二つ提示する。

(1)例えば、図４の時系列全体映像の中に「Like」とのボタンアイコンを表示し、利用者が好ましいと感じたときに、そのボタンアイコンを押下するようにする。ボタンが押下されると、エージェント位置、受聴位置、視点位置に関する情報と「Like」ボタンを押したという情報(好印象を持った旨)を伝えるフィードバック情報f_uが映像生成装置２００に送信される。このような構成とすることで、好ましい音源配置に関する情報を収集できると考えられる。

(2)エージェント位置、受聴位置、視点位置が変更されたときに、利用者が（移動する前の）元々の配置よりも、移動後の配置のほうが好ましいと感じたのだろう推定する。なお、エージェント位置、受聴位置、視点位置を変更するためのインターフェースは、例えば、第一実施形態で説明したものである。変更後のエージェント位置、受聴位置、視点位置に関する情報が送信され、映像生成装置３００は変更後の音源位置を好ましいと感じていると判断し、変更後のエージェント位置、受聴位置、視点位置に関する情報とその音源位置が好ましいとの情報をフィードバック情報f_uとする。

なお、(1),(2)両方を採用し、双方のフィードバック情報をマージした情報f_uを各利用者ごとに送信する機構を有してもよい。

＜フィードバック記憶部３３１＞
映像生成装置２００の入力受付部２１３は、そのフィードバック情報f_uを受け付け、フィードバック記憶部３３１に記憶する。このようにして、フィードバック記憶部３３１は、全利用者u(u=1,…,U)からのフィードバック情報f_uを収集し、集約する。ユーザ情報(個人ID、楽曲ID)や利用者のフィードバック情報f_uをマージした情報をfと記載する。

＜個人最適化部３３２＞
個人最適化部３３２は、フィードバック情報fを入力とし、フィードバック情報fに少なくとも基づいて、利用者uに適した１つ以上の合成パラメータr_uを得（Ｓ３３２）、音響信号生成部２０４及び全体映像生成部２０３に出力する。

(合成パラメータが一つの場合)
音響信号生成部２０４は、N個の時系列音響信号を合成パラメータに含まれるエージェント位置と受聴位置とを用いて合成して全体音響信号を得、出力する。

全体映像生成部２０３は、合成パラメータr_uに含まれるエージェント位置と視点位置を用いて、エージェントの位置に、それぞれ対応するN種類のエージェントの時系列映像を配置し、それを視点位置から見た１つの時系列全体映像を生成し、出力する。

（合成パラメータが複数の場合）
選択提示部２２１は、利用者画面上に、複数の合成パラメータのそれぞれに対応する複数の点を１軸上に並べて提示するとともに、提示された複数の点のうちの何れか１つを利用者が選択可能なスライドバーを提示する（図４参照）。

入力受付部２１３は、選択提示部２２１が提示したスライドバーによる、提示された複数の点のうちの何れか１つの利用者の選択結果の入力を受け付ける。選択結果に対応する合成パラメータに含まれるエージェント位置と受聴位置を音響信号生成部２０４に出力し、合成パラメータに含まれるエージェント位置と視点位置を全体映像生成部２０３に出力する。音響信号生成部２０４及び全体映像生成部２０３における処理は合成パラメータが一つの場合と同様である。

ただし、合成パラメータが複数の場合、必ずしも利用者が選択可能なスライドバーを提示する必要はなく、他の方法で選択可能としてもよい。例えば、複数の合成パラメータに対応する複数の配置(エージェント位置、受聴位置、視点位置の配置)を提示する配置選択画面を表示し、利用者に選択可能としてもよい。また、必ずしも選択可能としなくともよい。例えば、映像生成装置３００側で、何らかの方法で、複数の配置の中から１つの配置を選択してもよい。例えば、利用者uに最も適した配置を選択してもよいし、ランダムに選択してもよいし、利用者uに適した度合いを重みとしてランダムに選択してもよい。

個人最適化部３３２において、フィードバック情報fに少なくとも基づいて、利用者uに適した１つ以上の合成パラメータr_uを得る方法を説明する。

処理は、大きく2ブロックで構成される。

(i)まず、利用者uが、フィードバック情報f_uを返す条件下で、エージェント位置、受聴位置及び視点位置の配置(以下、単に配置ともいう)lを好む確率P(l|u,f)を混合数Jの混合ガウス分布(GMM)を利用してモデル化する。例えば、混合数Jの混合ガウス分布(GMM)でフィッティングし、モデル化する。フィッティングのアルゴリズムはEMアルゴリズムといった従来からよく用いられているものを利用すればよい。

(ii)その後、J個それぞれのガウス分布の平均値に一番近い配置インデックス群(J個)を合成パラメータr_uを構成する要素として抽出し、出力する。以下では、配置lを好む確率をP(l|u,f)の求め方を説明する。

(i)第1のブロックであるP(l|u,f)を算出するための方法について述べる。まず、フィードバック情報f_uに基づいて、各利用者uについて、フィードバック情報f_uに基づく各配置lに対する好みを表す確率関数Q(l|u,f)を計算する。

ここで、P(l|u',f)は、利用者u'が各配置lを好む確率であり、利用者uに対してどの程度他の利用者u'の各配置lに対する好みを表すP(l|u',f)を足し込むのかを重み係数w_u,u'で表している。w_u,u'は例えば以下のように実装される。

ここで、0<b<1はバイアスパラメータであり、利用者u自身の好みの反映を保証する程度を表す。式(41)の

は、フィードバック情報を多く返す利用者に対しては利用者自身の好みをより強く反映させることに対応する。相対的に、フィードバック情報をあまり返さないユーザに対しては他のユーザのフィードバック情報の影響をより強く反映させることになる。また、式(41)の

は、他者の好みに対しては、重み係数w_u,u'を一定にし、一様に取り入れることに対応する。また、フィードバック情報をあまり返さない利用者の場合、分子(1-w_u,u)が大きくなり、他の利用者のフィードバック情報の影響をより強く反映させることになる。よって、評価の回数が多い利用者ほど、その利用者の評価をより強く反映させた合成パラメータを得ることができる。

このようにして、各配置lを好む確率をP(l|u,f)を求め、各配置lを好む確率P(l|u,f)からお勧めの配置(J個の合成パラメータ)を抽出することができる。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、楽曲のオブジェクトを自在に操作できる楽曲定位操作系において、各利用者の好ましいと感じるように、合成パラメータが最適化されていく。それにより、利用者の利用頻度が高まるような楽曲定位操作系が構築される。

なお、合成パラメータの最適化を行うという観点からすると、映像生成装置３００を合成パラメータ最適化装置と呼んでもよい。

全体映像生成部２０３、音響信号生成部２０４、入力受付部２１３では、複数の合成パラメータのそれぞれに対応する利用者の評価を得ており、全体映像生成部２０３、音響信号生成部２０４、入力受付部２１３を含む構成を評価部ともいう。

全体音響信号を聴く際に合成パラメータを最適化する場合(時系列全体映像が不要な場合)、音響信号生成部２０４、入力受付部２１３、フィードバック記憶部３３１、個人最適化部３３２とを含めばよく、合成パラメータはエージェント位置と受聴位置を含めばよい。エージェント位置や受聴位置を利用者が編集できるようにする場合には、俯瞰映像提示部２１２や全体映像生成部２０３を含めばよい。

一方、時系列全体映像を見る際に合成パラメータを最適化する場合(全体音響信号が不要な場合)、全体映像生成部２０３と入力受付部２１３、フィードバック記憶部３３１、個人最適化部３３２とを含めばよく、合成パラメータはエージェント位置と視点位置を含めばよい。エージェント位置や視点位置を利用者が編集できるようにする場合には、俯瞰映像提示部２１２を含めばよい。

なお、本実施形態と第一実施形態、第二実施形態、または、それらの変形例とを組合せてもよい。

＜第一変形例＞
第三実施形態と異なる部分を中心に説明する。

映像生成装置３００は、さらに、選択提示部２２１と課金部２２３と課金情報記憶部２２２とを含む(図１４中、破線で示す)。

＜課金情報記憶部２２２＞
課金情報記憶部２２２には、複数の合成パラメータの識別子と、各合成パラメータに対応する課金情報が記憶されている。

＜選択提示部２２１＞
図４の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置３００に送信される。映像生成装置３００の入力受付部２１３は、その制御信号を受け付け、選択提示部２２１に制御信号を出力する。

選択提示部２２１は、「Select」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、利用者画面にエージェントデザイン選択画面、背景デザイン選択画面を提示するように全体映像生成部２０３に指示し、全体映像生成部２０３は合成パラメータ選択画面を生成し、出力する。選択提示部２２１は、全体映像生成部２０３を介して合成パラメータ選択画面を利用者に提示する。図１６は合成パラメータ選択画面の例を示す。なお、図１６中、○はエージェント位置を、●は受聴位置を、□は視点位置を示す。

例えば、合成パラメータ選択画面では以下のような操作が可能である。

合成パラメータ選択画面には、合成パラメータに含まれるエージェント位置、受聴位置及び視点位置と、その合成パラメータの値段(課金情報)とを提示する。

利用者は、複数の合成パラメータの中から一つの合成パラメータを選択することができる。例えば、入力部または入力装置を使って、デザインをタップ(クリック)することで選択することができる。

なお、入力受付前には、合成パラメータの初期値が設定されているものとする。なお、二回目以降に映像生成装置を利用した場合は、前回の利用終了時の各エージェントデザイン、背景をそれぞれ利用してもよい。

＜課金部２２３＞
課金部２２３は、選択結果に対応する合成パラメータに対応して課金情報記憶部２２２に記憶された課金情報に基づいて課金を行う。

課金部２２３は、選択結果に対応する合成パラメータに含まれるエージェント位置と視点位置で時系列全体映像を得るように全体映像生成部２０３に指示する。

課金部２２３は、選択結果に対応する合成パラメータに含まれるエージェント位置と受聴位置で、全体音響信号を生成するように音響信号生成部２０４に指示する。

図１６の合成パラメータ選択画面の中に「Return」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置３００に送信される。映像生成装置３００の入力受付部２１３は、その制御信号を受け付け、選択提示部２２１に制御信号を出力する。

選択提示部２２１は、「Return」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、時系列全体映像を提示するように全体映像生成部２０３に指示し、全体映像生成部２０３は、入力受付部２１３で受け付けられた入力に基づく合成パラメータに含まれるエージェント位置と視点位置で時系列全体映像を生成し、出力する。

なお、選択提示部２２１は、利用者画面上に、課金情報記憶部２２２に記憶された複数の合成パラメータのそれぞれに対応する複数の点を１軸上に並べて提示するとともに、提示された複数の点のうちの何れか１つを利用者が選択可能なスライドバーを提示するものとしてもよい（図４参照）。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含む、
映像生成装置。
請求項１の映像生成装置であって、
前記N個の時系列音響信号を含む楽曲信号から前記N個の時系列音響信号をそれぞれ強調する音源強調部を更に含む、
映像生成装置。
Ｎを1以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含む、
映像生成装置。
請求項１〜３の何れかの映像生成装置であって、
前記部分映像取得部は、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデルを用いて、前記N個の各時系列音響信号に含まれる各時間区間についての前記エージェントの時間区間映像を得、
前記行動生成モデルは、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを用いて、事前に学習により得られる、
映像生成装置。
N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習する事前学習部を含む、
映像生成モデル学習装置。
請求項５の映像生成モデル学習装置であって、
前記行動生成モデルは、時間遷移を考慮したモデルである、
映像生成モデル学習装置。
請求項１から４の何れかの映像生成装置であって、
Ｎは２以上の整数の何れかとし、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む１つの時系列映像である時系列全体映像を得る全体映像生成部を更に含む、
映像生成装置。
請求項７の映像生成装置であって、
利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部とを更に含み、
前記全体映像生成部は、前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した１つの時系列全体映像を得る、
映像生成装置。
請求項７の映像生成装置であって、
利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付部とを更に含み、
前記全体映像生成部は、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された１つの時系列全体映像であって、前記視点位置入力受付部で受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
映像生成装置。
請求項７記載の映像生成装置であって、
利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部と、
前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む
映像生成装置。
請求項７に記載の映像生成装置であって、
利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付部と、
前記時系列音響信号を用いて、前記受聴位置入力受付部で受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む、
映像生成装置。
Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、
(i)少なくとも１つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも１つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶された記憶部と、
利用者画面上に、(i)前記記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか１つと、(ii)前記記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか１つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示部と、
前記選択提示部で提示した少なくとも1つの被選択物のうちの何れか１つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部と、
(i)前記利用者選択入力受付部で選択された１つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して前記記憶部に記憶された課金情報と、(ii)前記利用者選択入力受付部で選択された１つの被選択物に対応する仮想空間の背景映像に対応して前記記憶部に記憶された課金情報との少なくとも何れかに基づいて、前記利用者に課金を行う課金部とを含む、
映像生成装置。
Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、
Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶された記憶部と、
利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか１つを利用者が選択可能なように提示する選択提示部と、
前記選択提示部で提示した少なくとも1つの被選択物のうちの何れか１つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部と、
前記利用者選択入力受付部で選択された１つの被選択物に対応する第一配置に対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金部とを含む、
映像生成装置。
請求項１３の映像生成装置であって、
前記記憶部には、複数の第一配置が記憶され、
前記選択提示部は、
利用者画面上に、前記記憶部に記憶された複数の第一配置のそれぞれに対応する複数の点を１軸上に並べて提示するとともに、前記提示された複数の点のうちの何れか１つを前記利用者が選択可能なスライドバーを提示するものであり、
前記利用者選択入力受付部は、
前記選択提示部が提示したスライドバーによる、前記提示された複数の点のうちの何れか１つの前記利用者の選択結果の入力を受け付けるものである、
映像生成装置。
Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含む、
映像生成方法。
Ｎを1以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含む、
映像生成方法。
事前学習部が、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習する事前学習ステップを含む、
映像生成モデル学習方法。
請求項１７の映像生成モデル学習方法であって、
前記行動生成モデルは、時間遷移を考慮したモデルである、
映像生成モデル学習方法。
Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、
(i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶部に記憶されるものとし、
選択提示部が、利用者画面上に、(i)前記記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか１つと、(ii)前記記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか１つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示ステップと、
利用者選択入力受付部が、前記選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか１つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、
課金部が、(i)前記利用者選択入力受付ステップで選択された１つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して前記記憶部に記憶された課金情報と、(ii)前記利用者選択入力受付部で選択された１つの被選択物に対応する仮想空間の背景映像に対応して前記記憶部に記憶された課金情報との少なくとも何れかに基づいて、前記利用者に課金を行う課金ステップとを含む、
映像生成方法。
Ｎを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、
Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶部に記憶されるものとし、
選択提示部が、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか１つを利用者が選択可能なように提示する選択提示ステップと、
利用者選択入力受付部が、前記選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか１つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、
課金部が、前記利用者選択入力受付ステップで選択された１つの被選択物に対応する第一配置に対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金ステップとを含む、
映像生成方法。
請求項１から請求項４及び請求項７から請求項１４の何れかの映像生成装置、または、請求項５若しくは請求項６の映像生成モデル学習装置として、コンピュータを機能させるためのプログラム。