JP6504614B2 - 合成パラメータ最適化装置、その方法、及びプログラム - Google Patents
合成パラメータ最適化装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6504614B2 JP6504614B2 JP2016165788A JP2016165788A JP6504614B2 JP 6504614 B2 JP6504614 B2 JP 6504614B2 JP 2016165788 A JP2016165788 A JP 2016165788A JP 2016165788 A JP2016165788 A JP 2016165788A JP 6504614 B2 JP6504614 B2 JP 6504614B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- unit
- synthesis
- parameter
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003786 synthesis reaction Methods 0.000 title claims description 168
- 230000015572 biosynthetic process Effects 0.000 title claims description 166
- 238000005457 optimization Methods 0.000 title claims description 52
- 238000000034 method Methods 0.000 title claims description 43
- 238000011156 evaluation Methods 0.000 claims description 73
- 230000005236 sound signal Effects 0.000 claims description 59
- 238000003860 storage Methods 0.000 claims description 42
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 19
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 239000003795 chemical substances by application Substances 0.000 description 119
- 238000013461 design Methods 0.000 description 52
- 230000001629 suppression Effects 0.000 description 37
- 230000009471 action Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 29
- 238000013528 artificial neural network Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 21
- 230000006399 behavior Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 230000001755 vocal effect Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 11
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Landscapes
- Stereophonic System (AREA)
Description
k(i,j)=ri・rj (5)
ただし、・は内積演算を表す。J種類の合成パラメータの相互的な類似度は次のような行列で表すことが出来る。
ステップ1.存在するM種類の合成パラメータのうちの2種類を選択する全組み合わせに対し、2×2行列Kの対角度cを計算する。
ステップ2.MC2組の中からcを最大化する2種類の合成パラメータの組み合わせを取得する。
ステップ3.前ステップの2種類の合成パラメータに別の合成パラメータを加え、3×3行列Kに対して対角度cを計算する。
ステップ4.J種類の合成パラメータを得るまでステップ3を繰り返す。つまり、それまでに加えたj種類の合成パラメータに別の合成パラメータを1つ加え、(j+1)×(j+1)行列Kに対して対角度cを計算する。M-j種類の合成パラメータについて対角度の計算を繰り返し、対角度cを最大化する合成パラメータを新たに一つ加え、j=Jになるまで繰り返す。
まず、本実施形態の処理内容を説明するために、従来技術の内容を説明する。本実施形態では、楽器の演奏または歌唱それぞれに係る音響信号を演奏または歌唱するエージェントの映像を得る。
(参考文献1)"Vocaloid Promotion Video Project"、[online]、[平成28年7月18日検索]、インターネット<URL:http://www.geocities.jp/higuchuu4/index.htm>
(参考文献2)"MMDAgent"、[online]、[平成28年7月18日検索]、インターネット<URL:http://http://www.mmdagent.jp/>
(参考文献3)室伏空, 中野倫靖,後藤真孝, 森島繁生. "ダンス動画コンテンツを再利用して音楽に合わせた動画を自動生成するシステム"、 情報処理学会音楽情報科学研究会研究報告. Vol.2009-MUS-81, No.7, pp.1-5, July 2009.
本実施形態では、深層学習を用いて、音と行動の関係をあらかじめニューラルネットワークを用いて記述することで、音を入力するだけで行動パターンを推定する。
(参考文献4)岡谷貴之, ”深層学習(第一版)”, 講談社サイエンティフィク, 2015, p.7-54.
このようにして、学習用時系列音響信号sL2,n(t)を特徴量子化したベクトル群(e.g.フィルタバンク出力パワー)と教師となる学習用行動ラベルLL2,n(t)との組から成るデータセットをあらかじめ用意する。学習用行動ラベルLL2,n(t)は、例えば、10パターンの行動があらかじめ用意されているとし、3番目の行動インデックスがマニュアルで与えたラベルとすると「0,0,1,0,0,0,0,0,0,0」のような系列をラベルベクトルとする。
事前学習部291は、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号sL2,n(t)と、N個の各学習用時系列音響信号sL2,n(t)に含まれる各時間区間の演奏または歌唱するものの行動を示す学習用行動ラベルLL2,n(t)とを入力とし、時系列音響信号sn(t)と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習し、学習結果を部分映像取得部201に出力する。なお、演奏または歌唱するものの行動の遷移には傾向があり、現在の行動から次の行動を推定することができる。そのため、行動生成モデルは、時間遷移を考慮したモデルであることが望ましい。
部分映像取得部201は、学習結果(本実施形態ではニューラルネットワークで用いるネットワークパラメータ)を入力とし、事前にニューラルネットワークに与えておく。
時系列映像取得部202は、時系列音響信号sn(t)の時間区間に対応する時間区間映像を入力とし、N個の各時系列音響信号sn(t)(n=1,2,…,N)について、時系列音響信号sn(t)について部分映像取得部201で得た1個以上の時間区間映像を時系列順に組み合わせることにより、時系列音響信号sn(t)全体に対応するエージェントの演奏または歌唱に係る時系列映像を得(S202)、出力する。
時系列映像は、時系列音響信号sn(t)毎に得られるものであり、1種類の楽器または歌唱に係るエージェントの演奏または歌唱の映像である。
入力受付部213は、利用者からの入力(以下、利用者入力ともいう)を受け付ける。なお、利用者入力は、利用者端末の入力部(タッチパネル等)や利用者端末に接続された入力装置(タッチパネルディスプレイやマウス、キーボード等)を介して利用者の操作により入力される。図6の時系列全体映像の中に「edit」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、俯瞰映像提示部212に制御信号を出力する。
音響信号生成部204は、N個の時系列音響信号sn(t)とN個のエージェント位置と受聴位置とを入力とし、エージェント位置に対応する時系列音響信号sn(t)に対する定位操作をし、それらを加算することで、受聴位置から受聴した際の全体音響信号を得(S204)、出力する。
以上の構成により、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができ、音楽に含まれる楽器/ボーカル信号群と演奏/ダンスといった行動を自動で記述することができる。これは、CDやインターネット経由で配信された音楽からライブのような映像へ自動で可視化することに役立つ。
映像生成装置200は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。事前学習部291をサーバ上に実装し、それ以外の構成を利用者端末上に実装し、学習結果(パラメータ、さらには、パラメータにより特定される映像生成モデル)を部分映像取得部201で利用してもよい。事前学習部291は、映像生成モデルを学習する装置として、別途設けてもよい。この観点から事前学習部291を映像生成モデル学習装置ともいう。例えば、利用者端末としてはスマホ、タブレット、PC等が考えられる。
第一実施形態と異なる部分を中心に説明する。
課金情報記憶部222には、(i)少なくとも1つのエージェントの識別子と、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する、少なくとも1つの仮想空間の背景の識別子と、各背景に対応する課金情報とが記憶されている。図8は、課金情報記憶部222に記憶されるデータの例を示す。なお、課金情報は0以上であればよい。
図6の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
課金部223は、選択結果に対応するエージェントに対応して課金情報記憶部222に記憶された課金情報と、選択結果に対応する背景に対応して課金情報記憶部222に記憶された課金情報との少なくとも何れかに基づいて課金を行う。例えば、初めて映像生成装置200を利用する際に、利用者に利用者登録処理を促し、その際に、利用者IDの登録と請求情報(例えば、クレジットカード番号等)の登録を求める。課金が行われた際には、その利用者IDと請求情報とから課金処理を実行する。
本実施形態では、エージェント位置、受聴位置、視点位置をそれぞれ変更可能としたが、必ずしも変更可能としなくともよい。例えば、エージェント位置、受聴位置、視点位置の何れか、または、全てを固定(変更不可能)としてもよい。そのような場合であっても、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。
第一実施形態と異なる部分を中心に説明する。
X(τ,ω) = S(τ,ω) + N(τ,ω)
なお、混合信号X(τ,ω)の時間領域表現は、x(t)である。
周波数領域変換部102は、時間領域の混合信号x(t)を入力とし、時間領域の混合信号x(t)を周波数領域の混合信号X(τ,ω)に変換し(S102)、出力する。時間領域の信号を周波数領域の信号に変換する方法として、例えば、短時間フーリエ変換等を用いる。
データベース部190には、学習用の混合信号XL(τ,ω)と、それを構成する強調したい学習用の音響信号SL,n(τ,ω)と、学習用の雑音信号NL,n(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するような雑音抑圧量を推定する場合、学習用の音響信号SL,n(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号NL,n(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。n=1,2,…,Nであり、N種類全ての、楽器の演奏または歌唱それぞれに係る音源に対して、学習用の音響信号SL,n(τ,ω)と学習用の雑音信号NL,n(τ,ω)とが用意され、格納されている。なお、XL(τ,ω)=SL,n(τ,ω)+NL,n(τ,ω)であり、データベース部190には、XL(τ,ω),SL,n(τ,ω),NL,n(τ,ω)のうちの何れか二つを記憶しておき、残りの1つをデータベース部190または特徴量−ラベル生成部191で計算により求めてもよい。
特徴量−ラベル生成部191は、従来方式(参考文献5参照)と以下の2点において異なる。
(参考文献5)Y. Wang, A. Narayanan and D.L.Wang, "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.
従来方式では、周波数ごとに特徴量-ラベルを用意していた。本実施形態では、複数の周波数を集約化した周波数バンドごとに特徴量-ラベルを用意するような実装を行う。なお、ΩO個のバンドで構成されるとし、そのインデックス集合をΩ={1,…,ΩO}と表す。従来方式ではラベルを2値化しているため、周波数ごとにラベルを用意している。一方、本実施形態では、ラベルを2値以上のパターン(例えば4段階[1,0.5,0.3,0.1])となるように実装している。ラベルの値は、どの程度雑音を抑圧したらよいかを表している。2値以上のパターンでラベルの値を表すことになるので、以後、この値のことをマスクではなく雑音抑圧量と表現することにする。なお、ラベルの値を雑音抑圧量参照値ともいう。雑音抑圧量参照値のパターン数は、実験では4程度で利用しているが、これはパターン数が多くし過ぎると、どのパターンに属するかについての推定精度が悪くなる、または、学習データの量が膨大になることが想定されるためである。
分離後の強調信号群(ギター、ベース、ドラム等)を再合成した際に、元の混合信号との歪を計算し、できるだけその歪を小さくなるようにしたい。よって、特徴量-ラベルのセットは、全ての音源分計算する必要がある。例えば、ボーカル、ギター、ベース、ドラム、キーボードの5つの音源に分類する場合には、音源数N=5であり、N=5組の特徴量-ラベルを用意する。
事前学習部192は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを入力とし、雑音抑圧量推定部103で雑音抑圧量を推定するために必要となるパラメータpを求め、出力する。(i)2値以上の値を利用して連続的な雑音抑圧量を表す点と、(ii)N個の強調信号群を再合成した際に、元の混合信号との歪が小さくなるように雑音抑圧量の最適設定できるという2点において、従来方式との差分がある。
Wn(τ,ω)=qTon(τ,ω) (25)
よって、雑音抑圧量の推定値Wn(τ,ω)は、出力確率on(τ,ω)を重みとする2個以上の離散値(雑音抑圧量参照値(q=[q1,q2,…,qC]T))の重み付け加算により連続値で表現される。なお、出力確率on(τ,ω)は、雑音抑圧量推定部103を構成するニューラルネットワークの出力値であり、以下の関係が成立するように正規化されて出力される。
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)=qTon(τ,ω)X(τ,ω) (27)
となる。
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (30)
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (31)
q(ψ)=f(ψ)(u(ψ)) (32)
ここで、各変数の次元は、u(ψ)∈RJ_ψ×1、q(ψ)∈RJ_ψ×1、P(ψ)∈RJ_ψ×J_(ψ-1)、b(ψ)∈RJ_ψ×1である。なお、上付き添え字X_YはXYを意味する。また、f(ψ)(・)はψ層目の活性化関数である。例えばΨ-1層目までの計算では、ランプ関数(ReLU)を用いることが多い。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (33)
最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。周波数バンドΩに対応するノード(C種類の雑音抑圧量参照値に対する出現確率値)のインデックスをVi,1,…,Vi,Cとする。そして、u(ψ)の対応する要素をuV_i,1,…,uV_i,Cとする。ただし、下付き添え字X_YはXYを意味する。その場合、最終層の出力値はソフトマックス関数で表すことができる。
on(τ,ω)=q(Ψ) (35)
である。また、JΨ=C×ΩOである。
U(ψ)=P(ψ)Q(ψ-1)+b(ψ)1T D (36)
Q(ψ)=f(ψ)(U(ψ)) (37)
ここで、U(ψ)∈RJ_ψ×D、Q(ψ)∈RJ_ψ×Dである。ネットワークパラメータの勾配は、出力層から入力層の順に計算される。正解値に最も近いC種類の雑音抑圧量参照値にのみ1を立てたベクトルをΞとするとき、ψ層目の勾配Δ(ψ)は以下で計算される。
P(ψ)←P(ψ)+ΔP(ψ) (41)
b(ψ)←b(ψ)+Δb(ψ) (42)
ここで、
ΔP(ψ)=μΔP(ψ)*-γ(∂P(ψ)+λP(ψ)) (43)
Δb(ψ)=μΔb(ψ)*-γ∂b(ψ) (44)
であり、ΔP(ψ)*とΔb(ψ)*は前回の更新における摂動であり、γは学習係数、μはモメンタム、λは重み減衰である。
雑音抑圧量推定部103は、混合信号X(τ,ω)とパラメータpとを入力とし、混合信号X(τ,ω)と、N種類の音響信号Sn(τ,ω)の総和と、の差分が小さくなるように、各音響信号Sn(τ,ω)に対する雑音抑圧量を推定し(S103)、推定値Wn(τ,ω)を出力する。なお、式(30)-(35)の計算と、式(25)を行うことで、推定値Wn(τ,ω)を得る。つまり、混合信号X(τ,ω)を用いて、
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (30)
を求める。パラメータpに含まれる重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とを用いて、
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (31)
q(ψ)=f(ψ)(u(ψ)) (32)
を計算する。前述の通り、f(ψ)(・)はψ層目の活性化関数であり、例えば、Ψ-1層目までの計算では、ランプ関数(ReLU)を用いる。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (33)
このようにして、q(2),q(3),…,q(Ψ-1)を求める。最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。その場合、最終層の出力値はソフトマックス関数で表すことができる。よって、
on(τ,ω)=q(Ψ) (35)
である。以上の処理により、on(τ,ω)を求め、次式により、雑音抑圧量の推定値Wψ(τ,ω)を求め、音源強調部104に出力する。
q=[q1,q2,…,qC]T
on(τ,ω)=[on,1(τ,ω),on,2(τ,ω),…,on,C(τ,ω)]T
なお、この演算はN個の音源nそれぞれに対して行う。
音源強調部104は、混合信号X(τ,ω)とN個の推定値Wn(τ,ω)とを入力とし、次式により、混合信号X(τ,ω)に含まれる音響信号Sn(τ,ω)を強調した強調信号^Sn(τ,ω)を求め(S104)、出力する。
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)
なお、この演算はN個の音源nそれぞれに対して行う。
時間領域変換部105は、強調信号^Sn(τ,ω)を入力とし、周波数領域の強調信号^Sn(τ,ω)を時間領域の強調信号^sn(t)に変換し(S105)、出力する。周波数領域の信号を時間領域の信号に変換する方法として、周波数領域変換部102に対応する方法を用いればよい。例えば、逆短時間フーリエ変換等を用いる。
音源強調装置100は、楽器(ドラム、ギター、ベース、鍵盤)/ボーカル(男性、女性)ごとに強調するための統計モデル(e.g.ニューラルネットワークのパラメータも含む)を用意されており、ドラム強調音、ギター強調音…といった具合に、それぞれの指定したオーディオオブジェクト毎に強調された強調信号群を出力する。この場合、ドラムを強調した信号に対して、ドラムの演奏行動モデルを適応し、行動パターンを生成するといったことが可能となるので、演奏モデルの対応関係が取りやすいというメリットがある。
前述の通り、音源強調装置100を、映像生成装置200の前段に配置してもよいし、映像生成装置200に含まれる構成としてもよい。また、音源強調装置100は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。
第一実施形態と異なる部分を中心に説明する。
本実施形態では、非特許文献1に含まれる一次元の操作系(ツマミ、スライダー)を用いた楽曲印象操作の機能を保持しつつ、各利用者がクライアント上にあるGUI(Graphical User Interface)で簡易的なフィードバック(e.g.「いいね」ボタンが画面上にあり、それを押すことで利用者の意志を送信する)を送信し、サーバでフィードバックデータを収集し、それを用いてデータ解析することで、各利用者に対して最適化されたと考えられる(各利用者が好ましいと思うような)合成パラメータrを返す機構を追加した。よって、本実施形態の映像生成装置300は、サーバ上に実装される。
入力受付部213は、複数の合成パラメータのそれぞれについて、音響信号生成部204で得た全体音響信号を利用者に提示した際の利用者の評価(フィードバック情報fu)の入力を受け付ける。フィードバック情報fuを得るために、利用者画面のGUI上にボタンやスライダー等が配置されているインタフェースが用意されていることを想定する。評価(フィードバック情報fu)の入力を受け付ける例を二つ提示する。
映像生成装置200の入力受付部213は、そのフィードバック情報fuを受け付け、フィードバック記憶部331に記憶する。このようにして、フィードバック記憶部331は、全利用者u(u=1,…,U)からのフィードバック情報fuを収集し、集約する。ユーザ情報(個人ID、楽曲ID)や利用者のフィードバック情報fuをマージした情報をfと記載する。
個人最適化部332は、フィードバック情報fを入力とし、フィードバック情報fに少なくとも基づいて、利用者uに適した1つ以上の合成パラメータruを得(S332)、音響信号生成部204及び全体映像生成部203に出力する。
音響信号生成部204は、N個の時系列音響信号を合成パラメータに含まれるエージェント位置と受聴位置とを用いて合成して全体音響信号を得、出力する。
選択提示部221は、利用者画面上に、複数の合成パラメータのそれぞれに対応する複数の点を1軸上に並べて提示するとともに、提示された複数の点のうちの何れか1つを利用者が選択可能なスライドバーを提示する(図6参照)。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、楽曲のオブジェクトを自在に操作できる楽曲定位操作系において、各利用者の好ましいと感じるように、合成パラメータが最適化されていく。それにより、利用者の利用頻度が高まるような楽曲定位操作系が構築される。
第三実施形態と異なる部分を中心に説明する。
課金情報記憶部222には、複数の合成パラメータの識別子と、各合成パラメータに対応する課金情報が記憶されている。
図6の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置300に送信される。映像生成装置300の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
課金部223は、選択結果に対応する合成パラメータに対応して課金情報記憶部222に記憶された課金情報に基づいて課金を行う。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (13)
- Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号を利用者に適した合成パラメータを用いて合成して全体音響信号を得るための、前記利用者に適した合成パラメータを得る合成パラメータ最適化装置であって、
所定の複数の合成パラメータのそれぞれに対応する前記利用者の評価を得る評価部と、
複数の利用者の、前記評価部で得た前記複数の合成パラメータのそれぞれに対応する評価に少なくとも基づいて、前記利用者に適した1つ以上の合成パラメータを得る個人最適化部とを含み、
前記評価部は、
前記複数の合成パラメータのそれぞれについて、前記N個の時系列音響信号を合成パラメータを用いて合成して全体音響信号を得る音響信号生成部と、
前記複数の合成パラメータのそれぞれについて、前記音響信号生成部で得た全体音響信号を利用者に提示した際の利用者の評価の入力を受け付ける利用者評価入力受付部と、を含み、
前記合成パラメータは、前記N個の時系列音響信号の音源位置及び受聴位置を示すものである、
合成パラメータ最適化装置。 - 請求項1の合成パラメータ最適化装置であって、
前記個人最適化部は、前記利用者に適した複数の合成パラメータを得るものであり、
利用者画面上に、前記個人最適化部が得た前記利用者に適した複数の合成パラメータのそれぞれに対応する複数の点を1軸上に並べて提示するとともに、提示された前記複数の点のうちの何れか1つを前記利用者が選択可能なスライドバーを提示する合成パラメータ選択提示部と、
前記スライドバーによる、提示された前記複数の点のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部とを更に含み、
前記利用者選択入力受付部で選択された1つの点に対応する合成パラメータを用いて、前記N個の時系列音響信号を合成して得た全体音響信号を前記利用者に提示する、
合成パラメータ最適化装置。 - 請求項1または請求項2の合成パラメータ最適化装置であって、
前記利用者評価入力受付部は、提示された前記全体音響信号に対して前記利用者が好印象を持った旨を、前記利用者の評価として前記利用者によるボタンまたはボタンアイコンの押下により受け付けるものである、
合成パラメータ最適化装置。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号を利用者に適した合成パラメータを用いて合成して全体音響信号を得るための、前記利用者に適した合成パラメータを得る合成パラメータ最適化装置であって、
複数の合成パラメータと、各合成パラメータに対応する課金情報と、が記憶された記憶部と、
利用者画面上に、前記記憶部に記憶された複数の合成パラメータそれぞれに対応する複数の選択肢のうちの何れか1つを前記利用者が選択可能なように提示する合成パラメータ選択提示部と、
前記合成パラメータ選択提示部で提示した複数の選択肢のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部と、
前記利用者選択入力受付部で選択された1つの選択肢に対応する合成パラメータを用いて、前記N個の時系列音響信号を合成して全体音響信号を得る音響信号生成部と、
前記利用者選択入力受付部で選択された1つの選択肢に対応する合成パラメータに対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金部とを含み、
前記合成パラメータは、前記N個の時系列音響信号の音源位置及び受聴位置を示すものである、
合成パラメータ最適化装置。 - 請求項4の合成パラメータ最適化装置であって、
前記合成パラメータ選択提示部は、
利用者画面上に、前記記憶部に記憶された複数の合成パラメータのそれぞれに対応する複数の点を1軸上に並べて提示するとともに、前記提示された複数の点のうちの何れか1つを前記利用者が選択可能なスライドバーを提示するものであり、
前記利用者選択入力受付部は、
前記合成パラメータ選択提示部が提示したスライドバーによる、前記提示された複数の点のうちの何れか1つの前記利用者の選択結果の入力を受け付けるものである、
合成パラメータ最適化装置。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る映像であるN個の時系列映像を利用者に適した合成パラメータを用いて合成して全体映像を得るための、前記利用者に適した合成パラメータを得る合成パラメータ最適化装置であって、
所定の複数の合成パラメータのそれぞれに対応する前記利用者の評価を得る評価部と、
複数の利用者の、前記評価部で得た前記複数の合成パラメータのそれぞれに対応する評価に少なくとも基づいて、前記利用者に適した1つ以上の合成パラメータを得る個人最適化部とを含み、
前記評価部は、
前記複数の合成パラメータのそれぞれについて、前記N個の時系列映像を合成パラメータを用いて合成して全体映像を得る映像生成部と、
前記複数の合成パラメータのそれぞれについて、前記映像生成部で得た全体映像を利用者に提示した際の利用者の評価の入力を受け付ける利用者評価入力受付部と、を含み、
前記合成パラメータは、前記N個の時系列映像に対応するエージェントの位置と視点位置を示すものである、
合成パラメータ最適化装置。 - 請求項6の合成パラメータ最適化装置であって、
前記個人最適化部は、前記利用者に適した複数の合成パラメータを得るものであり、
利用者画面上に、前記個人最適化部が得た前記利用者に適した複数の合成パラメータのそれぞれに対応する複数の点を1軸上に並べて提示するとともに、提示された前記複数の点のうちの何れか1つを前記利用者が選択可能なスライドバーを提示する合成パラメータ選択提示部と、
前記スライドバーによる、提示された前記複数の点のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部とを更に含み、
前記利用者選択入力受付部で選択された1つの点に対応する合成パラメータを用いて、前記N個の時系列映像を合成して得た全体映像を前記利用者に提示する、
合成パラメータ最適化装置。 - 請求項1から請求項7の何れかの合成パラメータ最適化装置であって、
前記個人最適化部は、評価の回数が多い利用者ほど、その利用者の評価をより強く反映させた合成パラメータを得る、
合成パラメータ最適化装置。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号を利用者に適した合成パラメータを用いて合成して全体音響信号を得るための、前記利用者に適した合成パラメータを得る合成パラメータ最適化方法であって、
評価部が、所定の複数の合成パラメータのそれぞれに対応する前記利用者の評価を得る評価ステップと、
個人最適化部が、複数の利用者の、前記評価ステップで得た前記複数の合成パラメータのそれぞれに対応する評価に少なくとも基づいて、前記利用者に適した1つ以上の合成パラメータを得る個人最適化ステップとを含み、
前記評価ステップは、
音響信号生成部が、前記複数の合成パラメータのそれぞれについて、前記N個の時系列音響信号を合成パラメータを用いて合成して全体音響信号を得る音響信号生成ステップと、
利用者評価入力受付部が、前記複数の合成パラメータのそれぞれについて、前記音響信号生成ステップで得た全体音響信号を利用者に提示した際の利用者の評価の入力を受け付ける利用者評価入力受付ステップと、を含み、
前記合成パラメータは、前記N個の時系列音響信号の音源位置及び受聴位置を示すものである、
合成パラメータ最適化方法。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号を利用者に適した合成パラメータを用いて合成して全体音響信号を得るための、前記利用者に適した合成パラメータを得る合成パラメータ最適化方法であって、
複数の合成パラメータと、各合成パラメータに対応する課金情報と、が記憶部に記憶されるものとし、
合成パラメータ選択提示部が、利用者画面上に、前記記憶部に記憶された複数の合成パラメータそれぞれに対応する複数の選択肢のうちの何れか1つを前記利用者が選択可能なように提示する合成パラメータ選択提示ステップと、
利用者選択入力受付部が、前記合成パラメータ選択提示ステップで提示した複数の選択肢のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、
音響信号生成部が、前記利用者選択入力受付ステップで選択された1つの選択肢に対応する合成パラメータを用いて、前記N個の時系列音響信号を合成して全体音響信号を得る音響信号生成ステップと、
課金部が、前記利用者選択入力受付ステップで選択された1つの選択肢に対応する合成パラメータに対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金ステップとを含み、
前記合成パラメータは、前記N個の時系列音響信号の音源位置及び受聴位置を示すものである、
合成パラメータ最適化方法。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る映像であるN個の時系列映像を利用者に適した合成パラメータを用いて合成して全体映像を得るための、前記利用者に適した合成パラメータを得る合成パラメータ最適化方法であって、
評価部が、所定の複数の合成パラメータのそれぞれに対応する前記利用者の評価を得る評価ステップと、
個人最適化部が、複数の利用者の、前記評価ステップで得た前記複数の合成パラメータのそれぞれに対応する評価に少なくとも基づいて、前記利用者に適した1つ以上の合成パラメータを得る個人最適化ステップとを含み、
前記評価ステップは、
映像生成部が、前記複数の合成パラメータのそれぞれについて、前記N個の時系列映像を合成パラメータを用いて合成して全体映像を得る映像生成ステップと、
利用者評価入力受付部が、前記複数の合成パラメータのそれぞれについて、前記映像生成ステップで得た全体映像を利用者に提示した際の利用者の評価の入力を受け付ける利用者評価入力受付ステップと、を含み、
前記合成パラメータは、前記N個の時系列映像に対応するエージェントの位置と視点位置を示すものである、
合成パラメータ最適化方法。 - 請求項9から請求項11の何れかの合成パラメータ最適化方法であって、
前記個人最適化ステップにおいて、評価の回数が多い利用者ほど、その利用者の評価をより強く反映させた合成パラメータを得る、
合成パラメータ最適化方法。 - 請求項1から請求項8の何れかの合成パラメータ最適化装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016165788A JP6504614B2 (ja) | 2016-08-26 | 2016-08-26 | 合成パラメータ最適化装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016165788A JP6504614B2 (ja) | 2016-08-26 | 2016-08-26 | 合成パラメータ最適化装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018033093A JP2018033093A (ja) | 2018-03-01 |
JP6504614B2 true JP6504614B2 (ja) | 2019-04-24 |
Family
ID=61303598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016165788A Active JP6504614B2 (ja) | 2016-08-26 | 2016-08-26 | 合成パラメータ最適化装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6504614B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023141461A (ja) * | 2022-03-24 | 2023-10-05 | ヤマハ株式会社 | 映像処理方法および映像処理装置 |
KR102693161B1 (ko) * | 2022-08-05 | 2024-08-08 | 이화여자대학교 산학협력단 | 딥러닝 기반 가창 음성 합성 장치 및 이를 이용한 가창 음성 합성 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4940671B2 (ja) * | 2006-01-26 | 2012-05-30 | ソニー株式会社 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
JP5000989B2 (ja) * | 2006-11-22 | 2012-08-15 | シャープ株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2014064066A (ja) * | 2012-09-19 | 2014-04-10 | Sd Advisors Co Ltd | データ生成方法、データ生成システム、データ生成を行うサーバ装置、およびプログラム |
JP6585049B2 (ja) * | 2013-08-28 | 2019-10-02 | ランダー オーディオ インコーポレイテッド | 意味データを用いて自動オーディオ生成を行うシステム及び方法 |
JP2017092832A (ja) * | 2015-11-13 | 2017-05-25 | ヤマハ株式会社 | 再生方法および再生装置 |
-
2016
- 2016-08-26 JP JP2016165788A patent/JP6504614B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018033093A (ja) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gan et al. | Foley music: Learning to generate music from videos | |
US11501532B2 (en) | Audiovisual source separation and localization using generative adversarial networks | |
Zhou et al. | Sep-stereo: Visually guided stereophonic audio generation by associating source separation | |
Ghose et al. | Autofoley: Artificial synthesis of synchronized sound tracks for silent videos with deep learning | |
JP6701478B2 (ja) | 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム | |
Ofli et al. | Learn2dance: Learning statistical music-to-dance mappings for choreography synthesis | |
KR102192210B1 (ko) | Lstm 기반 댄스 모션 생성 방법 및 장치 | |
Camurri et al. | The MEGA project: Analysis and synthesis of multisensory expressive gesture in performing art applications | |
Bryan et al. | ISSE: An interactive source separation editor | |
Cartwright et al. | Mixploration: Rethinking the audio mixer interface | |
Lee et al. | Sound-guided semantic video generation | |
Jin et al. | MetaMGC: a music generation framework for concerts in metaverse | |
Camurri et al. | Multimodal analysis of expressive gesture in music performance | |
Chen et al. | Automatic DJ transitions with differentiable audio effects and generative adversarial networks | |
JP6504614B2 (ja) | 合成パラメータ最適化装置、その方法、及びプログラム | |
Jeong et al. | Träumerai: Dreaming music with stylegan | |
Nistal et al. | Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models | |
Kamath et al. | Example-Based Framework for Perceptually Guided Audio Texture Generation | |
Heinrichs et al. | Human performance of computational sound models for immersive environments | |
Nuanáin et al. | Rhythmic concatenative synthesis for electronic music: techniques, implementation, and evaluation | |
Tachibana et al. | A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques | |
Dean et al. | The mirage of real-time algorithmic synaesthesia: Some compositional mechanisms and research agendas in computer music and sonification | |
Desai-Stephens | The infrastructure of engagement: Musical aesthetics and the rise of YouTube in India | |
Mayor et al. | Kaleivoicecope: voice transformation from interactive installations to video games | |
Serrano | A neural analysis-synthesis approach to learning procedural audio models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180410 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6504614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |