JP6858072B2 - 音声信号補正装置及びプログラム - Google Patents

音声信号補正装置及びプログラム Download PDF

Info

Publication number
JP6858072B2
JP6858072B2 JP2017097432A JP2017097432A JP6858072B2 JP 6858072 B2 JP6858072 B2 JP 6858072B2 JP 2017097432 A JP2017097432 A JP 2017097432A JP 2017097432 A JP2017097432 A JP 2017097432A JP 6858072 B2 JP6858072 B2 JP 6858072B2
Authority
JP
Japan
Prior art keywords
audio signal
unit
frequency
position information
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017097432A
Other languages
English (en)
Other versions
JP2017211649A (ja
Inventor
岳大 杉本
岳大 杉本
一穂 小野
一穂 小野
陽 佐々木
陽 佐々木
小森 智康
智康 小森
大出 訓史
訓史 大出
北島 周
周 北島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Publication of JP2017211649A publication Critical patent/JP2017211649A/ja
Application granted granted Critical
Publication of JP6858072B2 publication Critical patent/JP6858072B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声信号補正装置及びプログラムに関する。
近年、多数の音声チャンネルを用いることにより、マルチチャンネル音響や音声オブジェクトを用いたオブジェクトベース音響のような、高い臨場感の音響再生を実現する音響システムが提案されている(例えば、非特許文献1参照)。一例として、Dolby ATMOSのような音響システムを用いたホームシアターが市場に登場してきている。また例えば、8Kスーパーハイビジョン放送においては、22.2ch音響というマルチチャンネル音響が採用されている(例えば、非特許文献2参照)。
Recommendation ITU-R BS.2051-0,"Advanced sound system for programme production",International Telecommunication Union,2014 ARIB STD-B32,「デジタル放送における映像符号化、音声符号化及び多重化方式」,一般社団法人 電波産業会,3.5版,2015年
家庭において音響システムを使用する場合、各家庭に設置されるスピーカの数は、コンテンツ制作時に使用されたスピーカ数よりも少ないことがほとんどであると想定される。このため、オブジェクトベース音響やマルチチャンネル音響を家庭で再生するには、レンダリングやダウンミックスのように、再生環境に応じた少数の再生スピーカ用に音声信号を変換する手法が必要になる。しかしながら、ダウンミックスやレンダリングによる音声信号変換では、音声信号の加算によって、音声信号の周波数特性が元の特性から変化してしまい、制作意図を損なうことがあった。
本発明は、このような事情を考慮してなされたもので、複数の音声信号が加算された音声信号を、制作意図に合わせた音声信号に補正することができる音声信号補正装置及びプログラムを提供する。
本発明の一態様は、複数の音声信号を加算することにより、変換された音声信号を生成する音声信号変換部と、変換前の前記音声信号それぞれの周波数特性の和を規準として、変換後の前記音声信号の周波数特性を補正する補正部と、を備え、前記補正部は、変換後の前記音声信号における所定の周波数以上の高域成分を補正する、音声信号補正装置である。
本発明の一態様は、上述した音声信号補正装置であって、変換後の前記音声信号を前記所定の周波数に基づいて高域成分と低域成分に分離する分離部と、前記補正部により補正された変換後の前記音声信号の高域成分と、変換後の前記音声信号の補正されていない低域成分とを、周波数軸上のクロスフェードによって合成する合成部とをさらに備え、前記補正部は、前記分離部により分離された変換後の前記音声信号の高域成分を補正する。
本発明の一態様は、上述した音声信号補正装置であって、前記音声信号変換部は、記憶部に記憶される複数の音声信号のうち未選択の2個の音声信号を選択する選択部と、前記選択部が選択した2個の前記音声信号を前記記憶部から選択済みとして除外する除外部と、前記選択部が選択した2個の前記音声信号を加算する加算部とを備え、該音声信号補正装置は、前記加算部により加算された前記音声信号を前記所定の周波数に基づいて高域成分と低域成分に分離する分離部と、前記補正部により補正された加算された前記音声信号の高域成分と、加算された前記音声信号の補正されていない低域成分とを合成する合成部と、前記選択部により選択された2個の前記音声信号に付加される位置情報に基づいて前記合成部により合成された前記音声信号に位置情報を付与する位置情報付与部と、前記記憶部に未選択の音声信号が記憶されている場合は、前記位置情報付与部により前記位置情報が付与された前記音声信号を前記記憶部に記憶させ、前記記憶部に未選択の音声信号が記憶されていない場合は、前記位置情報付与部により前記位置情報が付与された前記音声信号を出力する出力選択部とをさらに備える。
本発明の一態様は、上述した音声信号補正装置であって、前記選択部は、複数の前記音声信号のうち前記音声信号に付加されている位置情報に基づいて算出された距離が最も短い2個の音声信号の組み合わせを選択する。
本発明の一態様は、上述した音声信号補正装置であって、前記所定の周波数は、変換された前記音声信号を生成するために加算された前記音声信号それぞれに付与された位置情報が示す位置間の距離に基づいて決定される。
本発明の一態様は、上述した音声信号補正装置であって、前記所定の周波数は、加算前の前記音声信号それぞれに付与された位置情報が示す位置間の距離に基づく空間エイリアシング周波数である。
本発明の一態様は、コンピュータを、上述したいずれかの音声信号補正装置として機能させるプログラムである。
本発明によれば、複数の音声信号が加算された音声信号を、制作意図に合わせた音声信号に補正する。
本発明の第1の実施形態による音声信号補正装置が行う音声信号補正処理の原理を示す図である。 同実施形態による音声信号補正装置のブロック図である。 同実施形態による音声信号補正装置を用いたダウンミックス装置の機能ブロック図である。 同実施形態による音声信号補正装置が実行する音声信号補正処理を示すフローチャートである。 第2の実施形態による音声信号補正装置のブロック図である。 同実施形態によるクロスフェードによる加算に用いられるフィルタ係数を示す図である。 第3の実施形態による音声信号補正装置のブロック図である。 第4の実施形態による音声信号補正装置のブロック図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
従来、VBAP(Vector Base Amplitude Panning)をベースとした、少数の再生スピーカに対する音声信号の変換手法が利用されてきた。この従来の手法は、あくまで幾何学的な音声信号の分配方法であり、音声信号の周波数特性の変化は補償できない。そこで、本実施形態の音声信号補正装置は、音声信号の加算時に発生する音声信号の周波数特性変化を、加算前の音声信号が個別に有する周波数特性に合わせて補正する。この周波数特性の補正は、正負両方の補正量、正の補正量のみ、負の補正量のみ、から選択できるものとする。また、これらの補正量の上限及び下限などは、表1に示す制御パラメータにより設定される。表1は、CmpCeil、CmpFloor、CmpThr、noCmpFreqの4つの制御パラメータと、その説明とを示している。
Figure 0006858072
これらの制御パラメータを用いて、補正の目的別に、補正量の上限及び下限を、予め以下のように設定することも可能である。
表2は、仮想音源やダイバージェンスに由来する同相加算が原因の過剰なレベルを補正する場合の制御パラメータの設定を示す。
Figure 0006858072
表3は、音声信号の高域に音素材の基音が含まれず、相対的に低域よりレベルの低いアンビエンスや残響成分が支配的な場合に、過剰補正を防ぐ場合の制御パラメータの設定を示す。
Figure 0006858072
表4は、音声信号の内容が明示的ではない場合に、破綻のない平均的な補正を施す場合(−24LKFS(Loudness K-weighting Full Scale)、48kHz、24ビットで制作されたコンテンツに対して、2048サンプルの窓長で処理する場合)の制御パラメータの設定を示す。
Figure 0006858072
以下では、位置情報を有する音声信号を例として各実施形態を説明する。位置情報は、三次元空間における位置を表す。以下の説明では、音声信号に付加された位置情報が示す位置を、音声信号の位置と記載する。また、ある音声信号に付加された位置情報が示す位置と他の音声信号に付加された位置情報が示す位置との間の距離を、それら音声信号の間の距離と記載する。
(第1の実施形態)
図1は、第1の一実施形態による音声信号補正装置1が行う音声信号補正処理の原理を示す図である。以下の説明では、音声信号をp、音声信号間の距離をrで表す。同図では、3個の音声信号pとして位置情報付きの音声信号p〜pが与えられ、これら音声信号p〜pを加算して、音声信号の変換信号を得る場合の例を示している。
図1に示す音声信号pと音声信号pの間の距離をrとし、音声信号pと音声信号pの間の距離をrとする。ここで、距離r<距離rである場合、音声信号補正装置1は、音声信号pと音声信号pとを加算して音声信号(p+p)を生成する。このとき、各音声信号の周波数成分ごとの位相関係によって周波数特性変化が起きる。また、距離rに対応する空間エイリアシング周波数を周波数fで表す。空間エイリアシング周波数とは、離れた位置のスピーカから音波が放射されたときの合成音場に空間的な誤差やスペクトル上の誤差が生じる境界の周波数である。なお、空間エイリアシング周波数は、音速c/(2×スピーカ間の距離r)により算出される。また、空間エイリアシング周波数よりも低い周波数では、音声信号の加算による周波数特性の変化は小さく、その影響はあまり問題にならない。
音声信号補正装置1は、音声信号pの周波数特性と音声信号pの周波数特性とを加算したときに生じる音声信号(p+p)の周波数特性変化を、音声信号pの周波数特性と音声信号pの周波数特性との和を規準として補正する。具体的には、音声信号補正装置1は、周波数特性として、エネルギースペクトルを用いる。また、音声信号補正装置1は、音声信号(p+p)における所定の周波数以上の高域成分のみを補正する。具体的には、音声信号補正装置1は、音声信号(p+p)のエネルギースペクトルにおける周波数f以上のエネルギースペクトルの周波数特性を、音声信号pのエネルギースペクトルと音声信号pのエネルギースペクトルとを加算したときの周波数f以上のエネルギースペクトルの周波数特性に一致させるように補正する。この補正により、音声信号補正装置1は補正後の音声信号pを生成する。音声信号補正装置1は、音声信号pを、予め定められた方法に従って音声信号pの位置と音声信号pの位置との間の位置に配置する。なお、音声信号pの位置と音声信号pの間の距離はrである。
音声信号補正装置1は、音声信号pと音声信号pについて行った加算及び補正を、音声信号pと音声信号pの間で再度実施し、その結果を最終的な補正音声信号として出力する。すなわち、音声信号補正装置1は、音声信号pと音声信号pとを加算して音声信号(p+p)を生成する。距離rに対応する空間エイリアシング周波数を周波数fとする。このとき、音声信号補正装置1は、音声信号(p+p)のエネルギースペクトルにおける周波数f以上の成分の周波数特性を、音声信号pのエネルギースペクトルと音声信号pのエネルギースペクトルとの和における周波数f以上の成分に一致させるように補正する。
図2は、第1の実施形態による音声信号補正装置1の構成例を示す機能ブロック図である。音声信号補正装置1は、記憶部11と、音声信号変換部12と、LPF(ローパスフィルタ)13(分離部)と、HPF(ハイパスフィルタ)14(分離部)と、エネルギースペクトル計算部15と、HPF16と、エネルギースペクトル計算部17と、HPF18と、エネルギースペクトル計算部19と、スペクトル加算部20と、スペクトル補正部21(補正部)と、周波数成分加算部22(合成部)と、位置情報付与部23と、出力選択部24とを備える。
記憶部11は、音声信号補正装置1が入力した位置情報付きの音声信号である音声信号p〜p(nは2以上の整数)を記憶する。また、記憶部11は、出力選択部24から出力された音声信号px1〜px(n−1)を記憶する。記憶部11は、音声信号変換部12から既組み合わせ信号除外情報を受信した場合、既組み合わせ信号除外情報により指示された音声信号を除外する。記憶部11は、音声信号の除外を、記憶部11から音声信号を消去することにより行ってもよく、音声信号に除外を示す情報を付加することにより行ってもよい。記憶部11は、全ての音声信号を除外した場合、出力選択部24に出力指示を出力する。
音声信号変換部12は、複数の音声信号を加算することにより、変換された音声信号を生成する。音声信号変換部12は、選択部121と、加算部122と、除外部123と、分割周波数指示部124と、選択信号出力部125とを備える。
選択部121は、記憶部11に記憶される未選択の音声信号の位置情報を取得する。選択部121は、記憶部11に記憶される未選択の音声信号の全ての組み合わせの中から、音声信号の間の距離が最短になる2個の音声信号(p,p)を選択する(k≠l、k及びlは1以上n以下の整数)。
加算部122は、選択部121が選択した2個の音声信号(p,p)を加算し、加算音声信号(p+p)を生成する。加算部122は、加算音声信号(p+p)をLPF13及びHPF14に出力する。なお、加算部122は、選択された音声信号(p,p)にそれぞれ異なる係数を掛け合わせてから加算してもよい。
除外部123は、選択部121が選択した音声信号(p,p)を選択済みとして未選択の音声信号から除外するよう指示する既組み合わせ信号除外情報を記憶部11に出力する。これにより、記憶部11は、既組み合わせ信号除外情報に基づき、音声信号(p,p)を除外する。
分割周波数指示部124は、音声信号(p,p)の距離に応じた空間エイリアシング周波数を求める。分割周波数指示部124は、求めた空間エイリアシング周波数を示す空間エイリアシング周波数情報を、LPF13、HPF14、HPF16及びHPF18に出力する。
選択信号出力部125は、選択部121が選択した音声信号pをHPF16に、音声信号pをHPF18に出力する。なお、加算部122が、音声信号p、音声信号pそれぞれに異なる係数を掛け合わせてから加算した場合、選択信号出力部125は、その係数をかけた音声信号p、音声信号pを出力する。
LPF13は、加算音声信号(p+p)の空間エイリアシング周波数以下の低域成分を通過させる。LPF13は、通過させた低域成分の加算音声信号ploを周波数成分加算部22に出力する。HPF14は、加算音声信号(p+p)の空間エイリアシング周波数以上の高域成分を通過させる。HPF14は、通過させた高域成分の加算音声信号phi’を、エネルギースペクトル計算部15及びスペクトル補正部21に出力する。エネルギースペクトル計算部15は、HPF14が通過させた高域成分の加算音声信号phi’をエネルギースペクトルESに変換する。エネルギースペクトル計算部15は、エネルギースペクトルESをスペクトル補正部21に出力する。
HPF16は、音声信号pの空間エイリアシング周波数以上の高域成分を通過させ、エネルギースペクトル計算部17に出力する。エネルギースペクトル計算部17は、HPF16が通過させた音声信号pの高域成分をエネルギースペクトルに変換する。エネルギースペクトル計算部17は、変換により得られたエネルギースペクトルをスペクトル加算部20に出力する。
HPF18は、音声信号pの空間エイリアシング周波数以上の高域成分を通過させ、エネルギースペクトル計算部19に出力する。エネルギースペクトル計算部19は、HPF18が通過させた音声信号pの高域成分をエネルギースペクトルに変換する。エネルギースペクトル計算部19は、変換により得られたエネルギースペクトルをスペクトル加算部20に出力する。
スペクトル加算部20は、エネルギースペクトル計算部17が出力したエネルギースペクトルと、エネルギースペクトル計算部19が出力したエネルギースペクトルとを加算する。スペクトル加算部20は、加算結果のエネルギースペクトルESをスペクトル補正部21に出力する。
スペクトル補正部21は、エネルギースペクトルESとエネルギースペクトルESとの比較に基づいて音声信号phi’の周波数特性を補正する。具体的には、スペクトル補正部21は、エネルギースペクトルESの包絡が、エネルギースペクトルESと同じ包絡となるように周波数特性を補正する。このとき、スペクトル補正部21は、予め音声信号補正装置1に設定された選択に応じて、正負両方の補正量、正の補正量のみ、又は、負の補正量のみについて、周波数特性の補正を行う。音声信号補正装置1に制御パラメータが設定されている場合、スペクトル補正部21は、周波数特性の補正を、制御パラメータの設定値が示す条件に従って行う。つまり、増幅を行う補正の場合はCmpCeilに設定された補正量を上限とし、抑圧を行う補正の場合はCmpFloorに設定された補正量を下限とする。また、スペクトル補正部21は、CmpThrに設定されたレベル以下の各周波数の成分、及び、NoCmpFreqに設定された周波数帯域以上または以下の帯域には補正を行わない。スペクトル補正部21は、補正により得られた音声信号phiを周波数成分加算部22に出力する。
周波数成分加算部22は、LPF13から出力された音声信号ploと、スペクトル補正部21から出力された音声信号phiとを加算する。周波数成分加算部22は、加算により得られた補正音声信号である音声信号pxi’を位置情報付与部23に出力する。なお、音声信号pxi’のiは1以上n−1以下の整数であり、周波数成分加算部22のi回目の加算処理により生成された音声信号である。
位置情報付与部23は、周波数成分加算部22から出力された音声信号pxi’に位置情報を付加し、音声信号pxiを生成する。なお、音声信号pxi’に既に何らかの位置情報が付与されている場合、位置情報付与部23は、その位置情報を更新する。位置情報付与部23は、音声信号pxi’に、音声信号pの位置と音声信号pの位置との間の位置を示す位置情報を付加する。例えば、位置情報付与部23は、音声信号pの位置と音声信号pの位置の間の重心、又は、音声信号pの位置と音声信号pの位置の中心を示す位置を位置情報に設定する。音声信号pの位置と音声信号pの位置の間の重心は、音声信号pの位置と音声信号pの位置との間を、音声信号pのエネルギーの大きさと、音声信号pのエネルギーの大きさとに応じた比率で分割した位置である。位置情報付与部23は、音声信号pxiを出力選択部24に出力する。
出力選択部24は、記憶部11から出力指示を受信していない場合、位置情報付与部23から出力された音声信号pxiを記憶部11に出力する。記憶部11は、音声信号pxiを記憶する。出力選択部24は、記憶部11から出力指示を受信した場合、音声信号pxj(j=n−1)を、音声信号補正装置1の外部に出力する。
上記構成により、選択部121は、記憶部11に記憶される位置情報付き音声信号を入力し、各音声信号の位置情報を取得する。選択部121は、音声信号の全ての組み合わせの中から距離が最短の2個の音声信号(p,p)を選択する。加算部122は、選択された音声信号を加算し、加算音声信号(p+p)を出力する。記憶部11は、選択された音声信号(p,p)を除外する。
LPF13及びHPF14は、加算音声信号(p+p)を、音声信号(p,p)の距離に対応した空間エイリアシング周波数を基準として高域成分と低域成分に帯域分割する。低域成分の加算音声信号ploはそのまま出力される。また、エネルギースペクトル計算部15は、高域成分の加算音声信号Phi’をエネルギースペクトルESに変換する。
一方、選択信号出力部125は、選択された2個の音声信号(p,p)を個別に出力する。音声信号(p,p)はそれぞれHPF16、18によって、空間エイリアシング周波数以上の高域成分が抽出された後、エネルギースペクトル計算部17、19によってエネルギースペクトルに変換される。スペクトル加算部20は、これらのエネルギースペクトルを加算し、エネルギースペクトルESを生成する。
スペクトル補正部21は、エネルギースペクトルESとエネルギースペクトルESとの比較に基づいて加算音声信号phi’の周波数特性を補正し、加算音声信号phiを生成する。位置情報付与部23は、加算音声信号ploと加算音声信号phiとを加算して得られた音声信号pxi’に新しい位置情報を付与し、音声信号pxiを生成する。記憶部11は、音声信号pxiを記憶する。
その後、音声信号補正装置1は、記憶部11に記憶されている音声信号p、p以外の位置情報付き音声信号と、音声信号pxiとに対して、前述の処理を繰り返す。記憶部11に記憶される音声信号が全て加算されると、記憶部11は出力指示を出力する。これにより、出力選択部24は、音声信号pxj(j=n−1)を補正音声信号として出力する。
図3は、図2に示す音声信号補正装置1を用いたダウンミックス装置5のブロック図である。ダウンミックス装置5は、音声信号選択部51と、1以上の音声信号補正装置1を備える。一般に、ダウンミックス装置5は、入力された複数の音声信号をダウンミックス法に則って変換し、ダウンミックス信号を生成する。音声信号選択部51は、m個(n>m)のダウンミックス信号A〜Aそれぞれを生成するために、位置情報付き音声信号である音声信号p〜pを入力し、音声信号p〜pに係数を乗算して出力する。例えば、音声信号選択部51は、音声信号p〜pに、音声信号p〜pのそれぞれに対応した変換係数aを乗算し、1個目の音声信号補正装置1に出力する。1個目の音声信号補正装置1は、変換係数aが乗算された音声信号p〜pを加算し、変換音声としてダウンミックス信号Aを生成する。同様に、音声信号選択部51は、音声信号p〜pに、音声信号p〜pのそれぞれに対応した変換係数aを乗算し、2個目の音声信号補正装置1に出力する。2個目の音声信号補正装置1は、変換係数aが乗算された音声信号p〜pを加算し、変換音声としてダウンミックス信号Aを生成する。このように、m個の各音声信号補正装置1はそれぞれ、音声信号選択部51により変換係数が乗算された音声信号p〜pを加算し、ダウンミックス信号A〜Aを生成する。つまり、m個の音声信号補正装置1のそれぞれに入力される位置情報付き音声信号は、ダウンミックス法により音声信号選択部51が変換係数を乗算した音声信号p〜pである。
図4は、音声信号補正装置1が実行する音声信号補正処理を示すフローチャートである。
まず、ステップS105で、記憶部11は、音声信号補正装置1が入力した位置情報付き音声信号を記憶する。ステップS110で、選択部121は、記憶部11に記憶される未選択の各音声信号の位置情報を取得する。選択部121は、未選択の音声信号の全ての組み合わせについて、取得した位置情報を用いて音声信号間の距離を算出する。ステップS115で、選択部121は、未選択の音声信号の中から、距離が最短の2個の音声信号を選択する。除外部123は、選択部121が選択した2個の音声信号の除外を指示する既組み合せ信号除外情報を記憶部11に出力する。記憶部11は、既組み合せ信号除外情報により指示された音声信号を除外する。
ステップS120で、分割周波数指示部124は、選択された2個の音声信号の間の距離に基づく空間エイリアシング周波数を計算し、LPF13、HPF14、HPF16及びHPF18に出力する。ステップS125で、加算部122は、選択された2個の音声信号を加算し、加算音声信号をLPF13及びHPF14に出力する。ステップS130で、LPF13及びHPF14は、加算音声信号を空間エイリアシング周波数以下の周波数成分と、空間エイリアシング周波数以上の周波数成分とに帯域分割する。
ステップS135で、LPF13は、加算音声信号の空間エイリアシング周波数以下の成分を補正せずに出力する。ステップS140で、エネルギースペクトル計算部15は、加算音声信号の空間エイリアシング周波数以上の成分のエネルギースペクトルを計算する。
一方、ステップS145で、選択信号出力部125は、ステップS115において選択した2個の音声信号を個別に出力する。ステップS150で、HPF16及びHPF18は、個別に出力された2個の音声信号のそれぞれを、個別に空間エイリアシング周波数以上の成分に帯域分割する。ステップS155で、エネルギースペクトル計算部17及びエネルギースペクトル計算部19は、空間エイリアシング周波数以上の成分に帯域分割された2個の音声信号それぞれのエネルギースペクトルを計算する。ステップS160で、スペクトル加算部20は、ステップS155において個別に計算されたエネルギースペクトルを加算する。
ステップS165で、スペクトル補正部21は、ステップS160において加算されたエネルギースペクトルと、ステップS140において計算されたエネルギースペクトルとを比較し、空間エイリアシング周波数以上の加算音声信号のエネルギースペクトルの補正値を決定する。ステップS170で、スペクトル補正部21は、ステップS165において決定した補正値により、空間エイリアシング周波数以上の加算音声信号のエネルギースペクトルを補正する。スペクトル補正部21は、ステップS170において補正された時間波形を周波数成分加算部22に出力する。ステップS175で、周波数成分加算部22は、スペクトル補正部21から入力した空間エイリアシング周波数以上の補正された加算音声信号の成分と、LPF13から入力した空間エイリアシング周波数以下の加算音声信号の成分とを加算して新たな音声信号を生成する。
ステップS180で、位置情報付与部23は、ステップS175において生成された音声信号に位置情報を付与する。出力選択部24は、記憶部11に加算前の音声信号が残っている場合は(ステップS185:YES)、ステップS180において位置情報を付与した音声信号を記憶部11に入力する。ステップS190で、記憶部11は、入力した音声信号を記憶する。音声信号補正装置1は、ステップS115からの処理を、記憶部11の加算前の音声信号のすべての処理が終了するまで繰り返す。
そして、音声信号補正装置1が記憶部11に記憶される音声信号を全て選択して加算した場合(ステップS185:NO)、出力選択部24は、ステップS195の処理を行う。ステップS195で、出力選択部24は、位置情報付与部23が最後に位置情報を付与した音声信号を、補正音声信号として出力する。
なお、本実施形態が対象としている三次元の位置を示す位置情報を有する音声信号は、オブジェクトベース音響における音声オブジェクトのみならず、マルチチャンネル音響の各チャンネルをも対象とすることは、言うまでもない。さらに、マルチチャンネル音響の各チャンネルの三次元の位置情報は、制作された環境のスピーカの設置場所であっても構わないし、予め定められた既定値でも構わない。また、各音声信号に適宜係数を与えてから加算する場合にも、本実施形態に適応可能であることは言うまでもない。
なお、上記においては、分割周波数指示部124は、LPF13及びHPF14、16、18に設定する周波数を、加算対象として選択した音声信号間の距離に応じた空間エイリアシング周波数としているが、加算する音声信号間の距離に応じて予め決められた0Hz以上の任意の周波数としてもよい。
また、分割周波数指示部124は、加算対象として選択された音声信号間の距離に応じた空間エイリアシング周波数を都度LPF13及びHPF14、16、18に設定しているが、加算対象として選択した音声信号に依らずに0Hz以上の同一の周波数を設定してもよい。この場合に設定する周波数は、音声信号p〜pの全ての組み合わせの距離のうち、最も長い音声信号間の距離に応じた空間エイリアシング周波数、又は、その距離に応じて予め決められた任意の周波数である。なお、音声信号p〜pの全ての組み合わせの距離のうち、任意の音声信号間の距離に応じた空間エイリアシング周波数、又は、その距離に応じて予め決められた任意の周波数を用いてもよい。なお、加算対象として選択した音声信号に依らずにLPF13及びHPF14、16、18に0Hzを設定することは、加算音声信号を周波数分割せずに、加算音声信号全体の周波数特性を補正することに相当する。
また、上記においては、選択部121は、記憶部11に記憶される音声信号の組み合わせのうち、最も距離が短い音声信号の組み合わせを加算対象として選択しているが、選択する音声信号の組み合わせを任意としてもよい。例えば、選択部121は、記憶部11に記憶される音声信号の組み合わせのうち、最も距離が長い音声信号の組み合わせを選択してもよい。音声信号の組み合わせの選択順は、例えば、音声信号においてエネルギーが大きな周波数帯などに応じて決めることができる。
(第2の実施形態)
第1の実施形態において、音声信号補正装置1は、空間エイリアシング周波数で加算音声信号を分離し、空間エイリアシング周波数以下の低域成分の加算音声信号ploと空間エイリアシング周波数以上の高域成分の補正された加算音声信号phiとを加算していた。第2の実施形態において、音声信号補正装置1aは、低域成分の加算音声信号ploと、高域成分の補正された加算音声信号phiとを、周波数軸上のクロスフェードによって合成する。以下、第1の実施形態と異なる構成を中心に本実施形態を説明する。
図5は、第2の実施形態のよる音声信号補正装置1aの構成を示す機能ブロック図である。同図において、図2に示す第1の実施形態による音声信号補正装置1と同一の部分には同一の符号を付し、その説明を省略する。音声信号補正装置1aと、第1の実施形態の音声信号補正装置1とが異なる点は、LPF13、HPF14、HPF16、HPF18及び周波数成分加算部22に代えて、フィルタ部213、フィルタ部214、フィルタ部216、フィルタ部218及び周波数成分加算部222を備える点である。
フィルタ部213は、加算音声信号(p+p)を入力し、空間エイリアシング周波数に所定の周波数Δfを加算した周波数よりも低域成分の加算音声信号ploを通過させる。フィルタ部214は、加算音声信号(p+p)を入力し、空間エイリアシング周波数から所定の周波数Δfを減算した周波数よりも高域成分の加算音声信号phi’を出力する。フィルタ部216は、音声信号pを入力し、空間エイリアシング周波数から所定の周波数Δfを減算した周波数よりも高域成分を出力する。フィルタ部218は、音声信号pを入力し、空間エイリアシング周波数から所定の周波数Δfを減算した周波数よりも高域成分を出力する。周波数成分加算部222は、低域成分の加算音声信号ploと、高域成分の加算音声信号phiとを、周波数軸上でクロスフェードすることにより合成する。
図6は、クロスフェードにより各音声信号を加算するときのフィルタ係数の一例を示す図である。図5に示す音声信号補正装置1aの周波数成分加算部222は、図6に示すフィルタ係数α1を低域成分の加算音声信号ploに乗じた値と、フィルタ係数α2を高域成分の加算音声信号phiに乗じた値とを加算し、第1の実施形態と同様の処理により音声信号Pxi’を合成する。フィルタ係数α1は、(空間エイリアシング周波数−Δf)より低い周波数以下は1、(空間エイリアシング周波数+Δf)より高い周波数は0であり、(空間エイリアシング周波数−Δf)から(空間エイリアシング周波数+Δf)の間は傾き−1/2Δfの直線上の値である。フィルタ係数α2は、(空間エイリアシング周波数−Δf)より低い周波数以下は0、(空間エイリアシング周波数+Δf)より高い周波数は1であり、(空間エイリアシング周波数−Δf)から(空間エイリアシング周波数+Δf)の間は傾き1/2Δfの直線上の値である。
これにより、低域成分の加算音声信号ploと高域成分の補正された加算音声信号phiとを加算して得られた音声信号が、空間エイリアシング周波数の付近で不連続とならないようにすることができる。
(第3の実施形態)
第2の実施形態の音声信号補正装置1aは、低域成分の加算音声信号と、高域成分の加算音声信号とを加算する周波数成分加算部222において、周波数軸上のクロスフェードによる合成を行っていた。本実施形態では、周波数軸上のクロスフェードによる合成が行えるように、加算音声信号を高域成分と低域成分とに分離したうえで加算された音声信号を補正する。以下では、第1の実施形態との差分を中心に本実施形態を説明する。
図7は、第3の実施形態のよる音声信号補正装置1bの構成を示す機能ブロック図である。同図において、図2に示す第1の実施形態による音声信号補正装置1と同一の部分には同一の符号を付し、その説明を省略する。音声信号補正装置1bと、第1の実施形態の音声信号補正装置1とが異なる点は、LPF13、HPF14、HPF16及びHPF18に代えて、フィルタ部313、フィルタ部314、フィルタ部316及びフィルタ部318を備える点である。
フィルタ部313は、加算音声信号(p+p)に図6に示すフィルタ係数α1を乗算して出力する。フィルタ部314は、加算音声信号(p+p)に図6に示すフィルタ係数α2を乗算して出力する。フィルタ部316は、音声信号pに図6に示すフィルタ係数α2を乗算して出力する。フィルタ部318は、音声信号pに図6に示すフィルタ係数α2を乗算して出力する。これにより、周波数成分加算部22が、フィルタ部313から出力された低域成分の加算音声信号ploと、スペクトル補正部21でスペクトルが補正された高域成分の加算音声信号phiとをそのまま加算しても、周波数軸上のクロスフェードによる合成が行われる。
(第4の実施形態)
第1〜第3の実施形態では、加算音声信号の高域成分のみを補正している。本実施形態では、加算音声信号の全体の周波数特性を補正する。つまり、本実施形態では、第1の実施形態において、LPF13及びHPF14、16、18に0Hzを設定する場合と同様に音声信号を補正する。以下では、第1の実施形態との差分を中心に本実施形態を説明する。
図8は、第4の実施形態による音声信号補正装置1cの構成を示す機能ブロック図である。同図において、図2に示す第1の実施形態による音声信号補正装置1と同一の部分には同一の符号を付し、その説明を省略する。音声信号補正装置1cは、記憶部11と、音声信号変換部412と、エネルギースペクトル計算部415と、エネルギースペクトル計算部417と、エネルギースペクトル計算部419と、スペクトル加算部20と、スペクトル補正部421と、位置情報付与部23と、出力選択部24とを備える。音声信号変換部412は、複数の音声信号を加算することにより、変換された音声信号を生成する。音声信号変換部412は、選択部121と、加算部122と、除外部123と、選択信号出力部125とを備える。
加算部122は、選択部121が選択した音声信号を加算した結果の加算音声信号(p+p)出力する。エネルギースペクトル計算部415は、加算音声信号(p+p)を、エネルギースペクトルESに変換する。一方、選択信号出力部125は、選択された2個の音声信号(p,p)を個別に出力する。エネルギースペクトル計算部417は音声信号pをエネルギースペクトルに変換し、エネルギースペクトル計算部419は音声信号pをエネルギースペクトルに変換する。スペクトル加算部20は、音声信号pのエネルギースペクトルと音声信号pのエネルギースペクトルとを加算し、エネルギースペクトルESを生成する。スペクトル補正部21は、エネルギースペクトルESとエネルギースペクトルESとの比較に基づいて加算音声信号(p+p)の周波数特性を補正する。具体的には、スペクトル補正部21は、エネルギースペクトルESの包絡が、エネルギースペクトルESと同じ包絡となるように周波数特性を補正する。スペクトル補正部421は、補正により得られた音声信号pxi’を位置情報付与部23に出力する。
このように、音声信号補正装置1cは、加算部122により加算された音声信号を周波数で分離することなく、加算前の2個の音声信号のエネルギースペクトルの和に基づいて、加算された音声信号を補正する。
以上説明した実施形態によれば、音声信号補正装置において、音声信号変換部は、複数の音声信号を加算することにより、変換された音声信号を生成する。補正部は、変換前の音声信号それぞれの周波数特性の和を規準として、変換後の音声信号の周波数特性を補正する。周波数特性には、エネルギースペクトルを用いることができる。また、補正部は、変換後の音声信号における所定の周波数以上の高域成分のみを補正してもよい。所定の周波数は、0Hz以上の任意の周波数とすることができる。
また、音声信号補正装置は、変換後の音声信号を所定の周波数に基づいて高域成分と低域成分に分離し、補正部により補正された変換後の音声信号の高域成分と、変換後の音声信号の補正されていない低域成分とを合成してもよい。音声信号補正装置は、この合成を、周波数軸上のクロスフェードによって行ってもよい。
上述した実施形態によれば、複数の音声信号が加算された音声信号を、制作意図に合わせた音声信号に補正することが可能となる。
なお、上述の音声信号補正装置1、1a、1b、1cは、内部にコンピュータシステムを有している。そして、音声信号補正装置1、1a、1b、1cの動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1、1a、1b、1c…音声信号補正装置
5…ダウンミックス装置
11…記憶部
12、412…音声信号変換部
13…LPF(ローパスフィルタ)
14、16、18…HPF(ハイパスフィルタ)
15、17、19、415、417、419…エネルギースペクトル計算部
20…スペクトル加算部
21、421…スペクトル補正部
22、222…周波数成分加算部
23…位置情報付与部
24…出力選択部
51…音声信号選択部
121…選択部
122…加算部
123…除外部
124…分割周波数指示部
125…選択信号出力部
213、214、216、218、313、314、316、318…フィルタ部

Claims (7)

  1. 複数の音声信号を加算することにより、変換された音声信号を生成する音声信号変換部と、
    変換前の前記音声信号それぞれの周波数特性の和を規準として、変換後の前記音声信号の周波数特性を補正する補正部と、を備え、
    前記補正部は、変換後の前記音声信号における所定の周波数以上の高域成分を補正する、
    ことを特徴とする音声信号補正装置。
  2. 変換後の前記音声信号を前記所定の周波数に基づいて高域成分と低域成分に分離する分離部と、
    前記補正部により補正された変換後の前記音声信号の高域成分と、変換後の前記音声信号の補正されていない低域成分とを、周波数軸上のクロスフェードによって合成する合成部とをさらに備え、
    前記補正部は、前記分離部により分離された変換後の前記音声信号の高域成分を補正する、
    ことを特徴とする請求項1に記載の音声信号補正装置。
  3. 前記音声信号変換部は、
    記憶部に記憶される複数の音声信号のうち未選択の2個の音声信号を選択する選択部と、
    前記選択部が選択した2個の前記音声信号を前記記憶部から選択済みとして除外する除外部と、
    前記選択部が選択した2個の前記音声信号を加算する加算部とを備え、
    該音声信号補正装置は、
    前記加算部により加算された前記音声信号を前記所定の周波数に基づいて高域成分と低域成分に分離する分離部と、
    前記補正部により補正された加算された前記音声信号の高域成分と、加算された前記音声信号の補正されていない低域成分とを合成する合成部と、
    前記選択部により選択された2個の前記音声信号に付加される位置情報に基づいて前記合成部により合成された前記音声信号に位置情報を付与する位置情報付与部と、
    前記記憶部に未選択の音声信号が記憶されている場合は、前記位置情報付与部により前記位置情報が付与された前記音声信号を前記記憶部に記憶させ、前記記憶部に未選択の音声信号が記憶されていない場合は、前記位置情報付与部により前記位置情報が付与された前記音声信号を出力する出力選択部とをさらに備える、
    ことを特徴とする請求項1に記載の音声信号補正装置。
  4. 前記選択部は、複数の前記音声信号のうち前記音声信号に付加されている位置情報に基づいて算出された距離が最も短い2個の音声信号の組み合わせを選択する、
    ことを特徴とする請求項3に記載の音声信号補正装置。
  5. 前記所定の周波数は、変換された前記音声信号を生成するために加算された前記音声信号それぞれに付与された位置情報が示す位置間の距離に基づいて決定される、
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の音声信号補正装置。
  6. 前記所定の周波数は、加算前の前記音声信号それぞれに付与された位置情報が示す位置間の距離に基づく空間エイリアシング周波数である、
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の音声信号補正装置。
  7. コンピュータを、請求項1から請求項6のいずれか一項に記載の音声信号補正装置として機能させるプログラム。
JP2017097432A 2016-05-24 2017-05-16 音声信号補正装置及びプログラム Active JP6858072B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016103668 2016-05-24
JP2016103668 2016-05-24

Publications (2)

Publication Number Publication Date
JP2017211649A JP2017211649A (ja) 2017-11-30
JP6858072B2 true JP6858072B2 (ja) 2021-04-14

Family

ID=60474850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017097432A Active JP6858072B2 (ja) 2016-05-24 2017-05-16 音声信号補正装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6858072B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145776B (zh) * 2018-11-02 2021-10-29 北京微播视界科技有限公司 音频处理方法和装置

Also Published As

Publication number Publication date
JP2017211649A (ja) 2017-11-30

Similar Documents

Publication Publication Date Title
JP7367785B2 (ja) 音声処理装置および方法、並びにプログラム
JPWO2009054228A1 (ja) オーディオ信号補間装置及びオーディオ信号補間方法
JP6858072B2 (ja) 音声信号補正装置及びプログラム
US7330552B1 (en) Multiple positional channels from a conventional stereo signal pair
JP2004343590A (ja) ステレオ音響信号処理方法、装置、プログラムおよび記憶媒体
KR20220125225A (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램
CN110312198A (zh) 用于数字影院的虚拟音源重定位方法及装置
JP2009294501A (ja) オーディオ信号補間装置
JP6630599B2 (ja) アップミックス装置及びプログラム
WO2018193161A1 (en) Spatially extending in the elevation domain by spectral extension

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210323

R150 Certificate of patent or registration of utility model

Ref document number: 6858072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250