JP6994221B2

JP6994221B2 - 抽出発生音補正装置、抽出発生音補正方法、プログラム

Info

Publication number: JP6994221B2
Application number: JP2018132865A
Authority: JP
Inventors: 優鎌本; 尚佐藤; 善史白木; 亮介杉浦; 隆仁川西; 健弘守谷; 萌恵西川; 一彦河原; 朗穂藤森; 一弘大内; 章尾本
Original assignee: Kyushu University NUC; Nippon Telegraph and Telephone Corp
Current assignee: Kyushu University NUC; Nippon Telegraph and Telephone Corp
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2022-01-14
Anticipated expiration: 2038-07-13
Also published as: JP2020014037A

Description

本発明は、音場空間で発生した音を抽出する技術に関する。

会場で発生した音を抽出するために、エコーキャンセラ技術が用いられる（非特許文献１）。以下、図１を参照して、エコーキャンセラ技術について説明する。

まず、会場Ａで発生した音x(k)(k=1,2,…、以下、kをサンプル番号という)が会場Ｂに伝送される。会場Ｂに伝送された入力音x(k)を、例えば、K個のサンプルで構成されるフレームごとに処理する場合、Kはフレーム長となる。また、入力音x(k)は、例えば、電話の音声、会場Ａに設置されたコンテンツ配信システムの音である。

次に、入力音x(k)が会場Ｂに設置されたスピーカ９１０から再生され、（スピーカ９１０からマイク９２０までの）会場Ｂの音響エコーh0(k)が畳み込まれた畳み込み入力音x(k)*h0(k)として会場Ｂに設置されたマイク９２０により収音される。ここで、*は畳み込み演算子を表す。また、音響エコーのことを伝達関数やインパルス応答ということもあるが、以下では、音響エコーまたは伝達関数ということにする。

マイク９２０により収音される音は、畳み込み入力音x(k)*h0(k)だけではない。会場Ｂで発生する環境音（例えば、音声や拍手音）c1(k)もその音源からマイク９２０までの音響エコーh1(k)が畳み込まれた畳み込み環境音c1(k)*h1(k)として収音される。また、マイク９２０にはノイズn(k)も混入する。したがって、マイク９２０により収音される音y(k)（以下、収音会場音y(k)という。）はy(k)=x(k)*h0(k)+c1(k)*h1(k)+n(k)と表すことができる。

このまま収音会場音y(k)を会場Ａに伝送し、会場Ａで再生すると、ハウリングやダブルトークを生じてしまい、相手方にとって聞きづらい音となってしまう。そこで、エコーキャンセラ９３０は、畳み込み入力音x(k)*h0(k)を近似するx’(k)=x(k)*h0’(k)を推定し、会場Ｂで発生した音を抽出した抽出発生音e(k)=y(k)-x’(k)=c1(k)*h1(k)+n(k)+d(k)を求め、この抽出発生音e(k)を会場Ａに伝送する。

しかし、推定された伝達関数h0’(k)と真の伝達関数h0(k)は異なるため、残留信号d(k)が生じてしまう。この問題を解決するためにNLMS(Normalized Least-Mean-Squares)法などの適応アルゴリズム（適応フィルタ）が使われる。NLMS法を用いると、伝達関数h0’(k)を伝達関数h0(k)に近づけることができる。特に、会場Ｂが小さい（つまり、スピーカとマイクの距離が比較的近くなる）場合は伝達関数h0’(k)を精度よく推定できるため、残留信号d(k)の振幅値は十分小さくなり、聴感上の違和感を小さくすることができる。

北脇信彦，"ディジタル音声・オーディオ技術"，株式会社オーム社，pp.223-225.

上記エコーキャンセラ技術を用いることによって、例えば、スピーカホンの用途のようにスピーカとマイクの位置が近い場合には、会場Ｂで発生した音を適切に抽出することが
できる。

しかし、スピーカとマイクの位置が離れ、あえて残響を加えるように設計されている環境（例えば、コンサート会場や演劇会場のようなライブビューイングにおけるライブ会場（会場Ａ）とは別のビューイング会場（会場Ｂ））では、伝達関数h0’(k)を伝達関数h0(k)に十分に近づけることができない。そのため、残留信号d(k)の振幅値が大きくなってしまい、会場Ｂで発生した音だけを抽出することができないことになる。

スピーカホンによる音声通話などでエコーキャンセラを用いる場合には、会議室（会場Ｂ）での音声を含む環境音c1(k)が相手側に届かないと困るため、残留信号d(k)が多少残っていたとしても、抽出発生音e(k)をそのまま伝送する方が好ましい。

しかし、ライブビューイングの場合には、ライブ会場（会場Ａ）での聴感を大きく損ねることになるため、抽出発生音e(k)をそのまま伝送するのは好ましくない。特に、ビューイング会場（会場Ｂ）で発生した拍手音や手拍子音などの環境音c1(k)そのものを伝送する代わりに、伝送先であるライブ会場（会場Ａ）で環境音c1(k)を生成するために用いるパラメータを伝送する場合、ビューイング会場（会場Ｂ）で発生した環境音c1(k)を誤抽出してしまうと、伝送先で誤った形で拍手音や手拍子音（つまり、拍手音や手拍子音以外の音も含んだ音）を生成してしまい、もともとのコンテンツを楽しんでいるライブ会場（会場Ａ）の聴衆に迷惑がかかってしまうことになる。

図２は、このような状況を示すものであり、残留信号d(k)が大きく残った（入力音x(k)と収音会場音y(k)の差異が大きい）場合における、入力音x(k)、収音会場音y(k)、抽出発生音e(k)の様子を示す図である。図２の網掛け部は、通常のエコーキャンセラを用いた場合に、残留信号d(k)が大きく、スピーカから再生された音x(k)が抽出発生音e(k)に残ってしまっており、会場Ｂの環境音c1(k)が正しく抽出されていないこと示している。

つまり、通常のエコーキャンセラでは、ビューイング会場（会場Ｂ）のようにスピーカとマイクが近くにないような大きな会場で発生する音を、ライブ会場（会場Ａ）で再生する場合の聴感上の違和感を抑えた形で抽出することができないという問題がある。

そこで本発明では、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる抽出発生音補正技術を提供することを目的とする。

この発明の一態様による抽出発生音補正装置は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、抽出発生音e(k)から、抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出部と、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY _k と抽出発生音e(k)のパワーである抽出発生音パワーE _k を算出するパワー算出部と、収音会場音パワーY _k に対する抽出発生音パワーE _k の比E _k /Y _k と、スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含む抽出発生音補正装置であり、抽出発生音補正部は、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q _k が小さいことを示す所定の範囲にあり、かつ、比E _k /Y _k が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、または、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、比E _k /Y _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する。
この発明の一態様による抽出発生音補正装置は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、抽出発生音e(k)から、抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出部と、抽出発生音e(k)から、抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S _k を算出するスパース尺度算出部と、スパース尺度S _k と、スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含む抽出発生音補正装置であり、抽出発生音補正部は、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q _k が小さいことを示す所定の範囲にあり、かつ、スパース尺度S _k が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、または、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、スパース尺度S _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する。
この発明の一態様による抽出発生音補正装置は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、抽出発生音e(k)から、抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出部と、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY _k と抽出発生音e(k)のパワーである抽出発生音パワーE _k を算出するパワー算出部と、抽出発生音e(k)から、抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S _k を算出するスパース尺度算出部と、収音会場音パワーY _k に対する抽出発生音パワーE _k の比E _k /Y _k と、スパース尺度S _k と、スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含む抽出発生音補正装置であり、抽出発生音補正部は、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q _k が小さいことを示す所定の範囲にあり、かつ、比E _k /Y _k が小さいことを示す所定の範囲にあり、かつ、スパース尺度S _k が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、または、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、比E _k /Y _k が大きいことを示す所定の範囲にあり、かつ、スパース尺度S _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する。

本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。

エコーキャンセラ技術を説明するための図。残留信号d(k)が大きく残った場合における、入力音x(k)、収音会場音y(k)、抽出発生音e(k)の様子の一例を示す図。抽出発生音補正装置１００を含む抽出発生音補正システム１０の構成の一例を示すブロック図。抽出発生音補正装置１００の構成の一例を示すブロック図。抽出発生音補正装置１００の動作の一例を示すフローチャート。抽出発生音補正装置１００の入力である抽出発生音e(k)と出力である補正済抽出発生音e’(k)の様子の一例を示す図。抽出発生音補正装置１０１の構成の一例を示すブロック図。抽出発生音補正装置１０１の動作の一例を示すフローチャート。環境音c1(k)が拍手音である場合の振幅の様子の一例を示す図。抽出発生音補正装置２００の構成の一例を示すブロック図。抽出発生音補正装置２００の動作の一例を示すフローチャート。抽出発生音補正装置２０１の構成の一例を示すブロック図。抽出発生音補正装置２０１の動作の一例を示すフローチャート。抽出発生音補正装置４００の構成の一例を示すブロック図。抽出発生音補正装置４００の動作の一例を示すフローチャート。抽出発生音補正装置４０１の構成の一例を示すブロック図。抽出発生音補正装置４０１の動作の一例を示すフローチャート。抽出発生音補正装置３００の構成の一例を示すブロック図。抽出発生音補正装置３００の動作の一例を示すフローチャート。抽出発生音補正装置３０１の構成の一例を示すブロック図。抽出発生音補正装置３０１の動作の一例を示すフローチャート。抽出発生音補正装置３０２の構成の一例を示すブロック図。抽出発生音補正装置３０２の動作の一例を示すフローチャート。抽出発生音補正装置３０３の構成の一例を示すブロック図。抽出発生音補正装置３０３の動作の一例を示すフローチャート。抽出発生音補正装置３０４の構成の一例を示すブロック図。抽出発生音補正装置３０４の動作の一例を示すフローチャート。抽出発生音補正装置３０５の構成の一例を示すブロック図。抽出発生音補正装置３０５の動作の一例を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

ここまでの説明では、会場Ｂに伝送されてくる入力音x(k)をモノラル信号、会場Ｂで発生する環境音はc1(k)の1つであるとして説明してきたが、入力音x(k)はステレオ信号であってもよいし、会場Ｂで発生する環境音は複数あってもよい。

例えば、入力音がモノラル信号x(k)であり、会場Ｂで発生する環境音がc1(k),…,cM(k)のM個（Mは1以上の整数）であった場合、入力音x(k)、環境音c1(k),…,cM(k)の音響エコーをそれぞれh0(k),h1(k),…,hM(k)、ノイズをn(k)とすると、マイクにより収音される収音会場音y(k)はy(k)=x(k)*h0(k)+c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)と表すことができる。さらに、伝達関数h0(k)を推定した伝達関数をh0’(k)、残留信号をd(k)とすると、抽出発生音e(k)はe(k)=y(k)-x(k)*h0’(k)=c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)+d(k)と表すことができる。

また、入力音がステレオ信号xR(k),xL(k)であり、会場Ｂで発生する環境音がc1(k),…,
cM(k)のM個（Mは1以上の整数）であった場合、入力音xR(k),xL(k)、環境音c1(k),…,cM(k)の音響エコーをそれぞれhR0(k),hL0(k),h1(k),…,hM(k)、ノイズをn(k)とすると、マイクにより収音される収音会場音y(k)はy(k)=xR(k)*hR0(k)+xL(k)*hL0(k)+c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)と表すことができる。さらに、伝達関数hR0(k),hL0(k)を推定した伝達関数をそれぞれhR0’(k),hL0’(k)、残留信号をd(k)とすると、抽出発生音e(k)はe(k)=y(k)-{xR(k)*hR0’(k)+xL(k)*hL0’(k)}=c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)+d(k)と表すことができる。

３つの例からわかるように、収音会場音y(k)は、畳み込み入力音と畳み込み環境音とノイズの和として表現することができる。また、抽出発生音e(k)は、畳み込み環境音とノイズと残響信号の和として表現することができる。

音響環境としては、モノラルやステレオ以外に、サラウンド環境、22.2ch環境など様々なものが存在するが、収音会場音y(k)、抽出発生音e(k)は上記３つの例と同様に扱うことができる。

そこで、以下説明する各実施形態では、入力音がモノラル信号であり、環境音が1つである場合を用いて説明することにする。

まず、各実施形態で用いる用語について説明する。

サンプル番号kをk=1,2,…とする。入力音x(k)をK個のサンプルで構成されるフレームごとに処理する場合、i番目のフレームXiは、Xi=[x(1) x(2) …x(K)]というベクトルで表現することができる。ここで、i(i=1,2,…)はフレーム番号を表す。

以下、説明を簡素化するために、Xi=x(k)、つまり、各フレームは1個のサンプルで構成されるものとして、各実施形態を説明するが、複数個のサンプルで構成されるとした場合と内容は変わらない。

収音会場音y(k)を会場で再生された音及び会場で発生した音を収音したサンプル番号kの音とする。会場で再生された音とは、別の会場から伝送されてきて再生された音のことであり、先ほどの例で言えば、ライブ会場の音である。また、会場で発生した音とは、先ほどの例で言えば、ビューイング会場で発生した拍手音などの環境音やノイズのことである。

抽出発生音e(k)を収音会場音y(k)から会場で発生した音を抽出したサンプル番号kの音とする。

＜第一実施形態＞
以下、図３を参照して抽出発生音補正システム１０について説明する。図３は、抽出発生音補正システム１０の構成を示すブロック図である。図３に示すように抽出発生音補正システム１０は、スピーカ９１０、マイク９２０、エコーキャンセラ９３０、抽出発生音補正装置１００を含む。

スピーカ９１０、マイク９２０、エコーキャンセラ９３０は、図１のそれと同一の機能を有するものである。具体的には、スピーカ９１０は、伝送されてきた会場Ａの音x(k)を会場Ｂにて再生する装置である。マイク９２０は、会場Ｂで発生した環境音c1(k)を収音することを目的とした装置であるが、実際には、スピーカ９１０から再生された入力音x(k)を畳み込んだ畳み込み入力音x(k)*h0(k)と会場Ｂで発生した環境音c1(k)を畳み込んだ畳み込み環境音c1(k)*h1(k)とノイズn(k)を収音する装置である。エコーキャンセラ９３
０は、入力音x(k)とマイク９２０により収音された収音会場音y(k)（=x(k)*h0(k)+c1(k)*h1(k)+n(k)）から抽出発生音e(k)を生成する。抽出発生音e(k)=c1(k)*h1(k)+n(k)+d(k)は、会場Ｂで発生した音をエコーキャンセラ９３０が抽出した音である。ここで、d(k)は残留信号である。

なお、スピーカ９１０からマイク９２０への伝達遅延を考慮し、入力音x(k)の代わりに、入力音x(k)に所定の遅延を加えてからエコーキャンセラ９３０に入力するようにしてもよい。また、スピーカ９１０からマイク９２０への伝達遅延を考慮し、入力音x(k)の代わりに、環境音やノイズが十分小さいときに測定した伝達関数を入力音x(k)に畳み込んだ畳み込み入力音をエコーキャンセラ９３０に入力するようにしてもよい。

抽出発生音補正装置１００は、収音会場音y(k)と抽出発生音e(k)から補正済抽出発生音e’(k)を生成する。ここで、補正済抽出発生音e’(k)は、収音会場音y(k)と抽出発生音e(k)を用いて抽出発生音e(k)を補正したサンプル番号kの音である。スピーカホンなどで用いられている従来の抽出発生音補正装置は、残留信号d(k)による聴感上の違和感がなくなるように、抽出発生音e(k)を補正して補正済抽出発生音e’(k)を得ることを目的としていた。これに対し、本発明の抽出発生音補正装置１００は、収音会場音y(k)が主に含まれるように、抽出発生音e(k)を補正して補正済抽出発生音e’(k)を得ることを目的とするものである。

以下、図４～図５を参照して抽出発生音補正装置１００について説明する。図４は、抽出発生音補正装置１００の構成を示すブロック図である。図５は、抽出発生音補正装置１００の動作を示すフローチャートである。図４に示すように抽出発生音補正装置１００は、パワー算出部１１０、抽出発生音補正部１２０、記録部１９０を含む。記録部１９０は、抽出発生音補正装置１００の処理に必要な情報を適宜記録する構成部である。

図５に従い抽出発生音補正装置１００の動作について説明する。パワー算出部１１０は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY_kと抽出発生音e(k)のパワーである抽出発生音パワーE_kを算出する（Ｓ１１０）。例えば、収音会場音パワーY_kを、収音会場音y(k)を含む一定時間（Kサンプル分（ただし、Kは1以上の整数））の収音会場音のパワーとして算出する。サンプルk以前のK個のサンプルを用いる場合は次式のようになる。

また、抽出発生音パワーE_kを、抽出発生音e(k)を含む一定時間（Kサンプル分）の抽出発生音のパワーとして算出する。サンプルk以前のK個のサンプルを用いる場合は次式のようになる。

また、以下のように、上記の収音会場音パワーY_k、抽出発生音パワーE_kをそれぞれサン
プル数Kで割った値を収音会場音パワーY_k、抽出発生音パワーE_kとしてもよい。

抽出発生音補正部１２０は、収音会場音パワーY_kと抽出発生音パワーE_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する（Ｓ１２０）。例えば、E_k>Y_kの場合、e’(k)=e(k)とし、E_k≦Y_kの場合、e’(k)=0として補正済抽出発生音を生成する。E_k>Y_kの場合にe’(k)=e(k)とする理由は、この場合には環境音c1(k)が入力音x(k)に比べて十分大きく、抽出発生音e(k)に含まれる主な成分は環境音c1(k)であると考えられるためである。また、E_k≦Y_kの場合、e’(k)=0とする理由は、環境音c1(k)が入力音x(k)に比べて十分小さく、抽出発生音e(k)の中では環境音c1(k)は残留信号d(k)に埋もれている、すなわち、抽出発生音e(k)の主な成分は残留信号d(k)であると考えられるためである。なお、後述する（変形例２）との関係でいえば、E_k≦Y_kの場合、e(k)をパラメータ生成に用いても良好な結果を得られないと考えられるため、e’(k)=0とする。

図６は、抽出発生音補正装置１００の入力である抽出発生音e(k)と出力である補正済抽出発生音e’(k)の様子を示す図である。図６を見ると、スピーカ９１０から再生された入力音x(k)の影響を減じ、環境音c1(k)が抽出できていることがわかる。

なお、αをあらかじめ定められた正の定数（以下、αのことを倍率という）として、E_k>αY_kの場合、e’(k)=e(k)とし、E_k≦αY_kの場合、e’(k)=0として補正済抽出発生音を生成するようにしてもよい。

もちろん、E_k>Y_k、E_k≦Y_kの代わりに、E_k≧Y_k、E_k<Y_kを、E_k>αY_k、E_k≦αY_kの代わりに、E_k≧αY_k、E_k<αY_kを用いてもよい。

以上まとめると、α=1の場合も含めて、E_k/Y_k≦αまたはE_k/Y_k<αとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた正の定数αに対してE_k/Y_k≦αまたはE_k/Y_k<αとなることを、収音会場音パワーY_kに対する抽出発生音パワーE_kの比E_k/Y_kが小さいことを示す所定の範囲にあるという。このとき、αのことを比E_k/Y_kが小さいことを示す所定の範囲にあることを示す値という。

（変形例１）
抽出発生音補正部１２０における収音会場音パワーY_kと抽出発生音パワーE_kの比較では、比較条件に用いる倍率αを時間経過によらず不変であるものとして扱ったが、一定のタイミングで倍率αを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、倍率αが追従することができるようになる。

例えば、α₀（ただし、α₀はあらかじめ定められた正の定数）を倍率の初期値として、サンプルごとに倍率αを更新して比較するようにしてもよい。具体的には、k=1,…として、E_k>α_k-1Y_kの場合、e’(k)=e(k)とし、E_k≦α_k-1Y_kの場合、e’(k)=0として補正済抽出
発生音e’(k)を生成する。次に、次のサンプルのための倍率としてα_k=E_k/Y_kを求め、同様にE_k+1>α_kY_k+1の場合、e’(k+1)=e(k+1)とし、E_k+1≦α_kY_k+1の場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。

なお、倍率αをα_k=(E_k-L+1/Y_k-L+1+…+E_k/Y_k)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、倍率αの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数（ただし、ω>0）として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、倍率α_kを以下のように求めてもよい。

（変形例２）
抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。

以下、図７～図８を参照して抽出発生音補正装置１０１について説明する。図７は、抽出発生音補正装置１０１の構成を示すブロック図である。図８は、抽出発生音補正装置１０１の動作を示すフローチャートである。図７からわかるように、抽出発生音補正装置１０１は、補正済抽出発生音パラメータ生成部１３０をさらに含む点においてのみ抽出発生音補正装置１００と異なる。また、図８からわかるように、抽出発生音補正装置１０１の動作は、Ｓ１３０が追加されている点においてのみ抽出発生音補正装置１００の動作と異なる。補正済抽出発生音パラメータ生成部１３０は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する（Ｓ１３０）。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。例えば、補正済抽出発生音e’(k)を含む一定時間の補正済抽出発生音のパワーE’_kを用いて、補正済抽出発生音パラメータp(k)を生成することができる（式(2)参照）。

具体的には、パワーE’_kの取り得る値の範囲をあらかじめ定められた場合の数に量子化して得られるインデックスを補正済抽出発生音パラメータp(k)とする。

なお、後述する式(8)や式(6)のように、一定時間での絶対値和や任意の累乗和などを上記パワーE’_kの代わりに用いて、同様の手順により、補正済抽出発生音パラメータp(k)を生成するようにしてもよい。さらに、それらの対数を取ったもの（logΣ_i=k-K+1 ^ke(i)×e(i), logΣ_i=k-K+1 ^k|e(i)|, logΣ_i=k-K+1 ^ke(i)×e(i)×e(i)×e(i)）を用いて、同様の手順により、補正済抽出発生音パラメータp(k)を生成するようにしてもよい。

また、p(k)のサンプリング周波数が伝送フォーマットのサンプリング周波数と異なることもある。この場合、伝送フォーマットのサンプリング周波数を考慮して、p(k)のサンプリング周波数を変更した新たなパラメータp’(j)(j=1,2,…、ただし、jはサンプル番号)を生成するようにしてもよい。例えば、サンプリング周波数が48kHzであるp(k)を、伝送フォーマットのサンプリング周波数8kHzでサンプリングしたパラメータp’(k)に変更したいときは、次式のように平均値を求めて、変更するようにしてもよいし、音響信号で使われるようなリサンプラを用いて変更するようにしてもよい。

さらに、p(k)やp’(j)の量子化精度と伝送フォーマットの量子化精度が異なる場合には、量子化精度を変換したパラメータp^(k)やp’^(j)を生成するようにしてもよい。例えばp(k)の量子化精度が16ビット、p^(k)の量子化精度が8ビットである場合には、単純にp(k)を8ビット右にシフト、つまり、p^(k)=p(k)>>8と演算して量子化精度を変換してもよい（8ビット右にシフトする代わりに、256で割るようにしてもよい）。もしくは、ITU-T G.711のA-law/μ-law変換のように、16ビット精度を一度14ビット精度に落としてから、対数関数で変換して8ビット精度に変換するようにしてもよい。なお、以上の処理は、ルックアップテーブルを用いて、p^(k)=LUT(p(k))やp’^(j)=LUT(p’(j))のように変換してもよい。

本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。

＜第二実施形態＞
環境音c1(k)が例えば拍手音である場合、図９の網掛け部（点線枠部）に示すように、環境音c1(k)は時間方向にスパースな信号となる。そこで、抽出発生音e(k)の時間方向におけるスパースさの程度を調べ、スパースであると判定された場合、環境音c1(k)が入力音x(k)に比べて十分に大きいと判断して、e’(k)=e(k)とし、スパースでないと判定された場合、環境音c1(k) が入力音x(k)に比べて十分に小さく、環境音c1(k)が抽出できないとして、e’(k)=0として補正済抽出発生音を生成するようにする。

以下、図１０～図１１を参照して抽出発生音補正装置２００について説明する。図１０は、抽出発生音補正装置２００の構成を示すブロック図である。図１１は、抽出発生音補正装置２００の動作を示すフローチャートである。図１０に示すように抽出発生音補正装置２００は、スパース尺度算出部２１０、抽出発生音補正部２２０、記録部１９０を含む。

図１０に従い抽出発生音補正装置２００の動作について説明する。スパース尺度算出部２１０は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度S_kを算出する（Ｓ２１０）。スパース尺度とは、時間方向におけるスパースさの程度を表す値である。例えば、サンプルk以前のK個のサンプルの抽出発生音を用いて、スパース尺度S_kを次式により算出し
てもよい。

なお、E2_k,E4_kのことを尖度といい、スパース尺度S_kのことを尖度係数ということもある。また、スパース尺度S_kを次式により算出してもよい。

さらに、別の例として、振幅絶対値の最大値と振幅絶対値の平均値から算出される比をスパース尺度S_kとして用いてもよい。

なお、振幅絶対値の最大値の代わりに、上位P個（ただし、P<K）の平均値をE0_kとしてもよい。つまり、j=1,…,Pに対して、f_jを|e(i)|（i=k-K+1,…,k）の中でj番目に大きい値として、E0_k=(f₁+f₂+…+f_P)/Pとしてもよい。

抽出発生音補正部２２０は、スパース尺度S_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する（Ｓ２２０）。例えば、βをあらかじめ定められた定数（以下、βのことを閾値ともいう）として、S_k>βの場合、e’(k)=e(k)とし、S_k≦βの場合、e’(k)=0として補正済抽出発生音を生成する。

もちろん、S_k>β、S_k≦βの代わりに、S_k≧β、S_k<βを用いてもよい。

以上まとめると、S_k≦βまたはS_k<βとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた定数βに対してS_k≦βまたはS_k<βとなることを、スパース尺度S_kが小さいことを示す所定の範囲にあるという。このとき、βのことをスパース尺度S_kが小さいことを示す所定の範囲にあることを示す値という。

（変形例１）
抽出発生音補正部２２０におけるスパース尺度S_kと閾値βの比較では、比較条件に用いる閾値βを時間経過によらず不変であるものとして扱ったが、一定のタイミングで閾値βを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、閾値βが追従することができるようになる。

例えば、β₀（ただし、β₀はあらかじめ定められた数）を閾値の初期値として、サンプルごとに閾値βを更新して比較するようにしてもよい。具体的には、k=1,…として、S_k>β_k-1の場合、e’(k)= e(k)とし、S_k≦β_k-1の場合、e’(k)=0として補正済抽出発生音e’(k)を生成する。次に、次のサンプルのための閾値をβ_k=S_kとし、同様にS_k+1>β_kの場合、e’(k+1)=e(k+1)とし、S_k+1≦β_kの場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。

なお、閾値βをβ_k=(S_k-L+1+…+S_k)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、閾値βの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数（ただし、ω>0）として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、閾値β_kを以下のように求めてもよい。

（変形例２）
第一実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。

以下、図１２～図１３を参照して抽出発生音補正装置２０１について説明する。図１２は、抽出発生音補正装置２０１の構成を示すブロック図である。図１３は、抽出発生音補正装置２０１の動作を示すフローチャートである。図１２からわかるように、抽出発生音補正装置２０１は、補正済抽出発生音パラメータ生成部１３０をさらに含む点においてのみ抽出発生音補正装置２００と異なる。また、図１３からわかるように、抽出発生音補正装置２０１の動作は、Ｓ１３０が追加されている点においてのみ抽出発生音補正装置２００の動作と異なる。補正済抽出発生音パラメータ生成部１３０は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する（Ｓ１３０）。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。

本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した
抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。

＜第三実施形態＞
環境音c1(k)が例えば拍手音である場合、環境音c1(k)のスペクトル包絡は平坦となる。そこで、抽出発生音e(k)のスペクトル包絡の平坦度合いを調べ、スペクトル包絡が平坦であると判定された場合、環境音c1(k)が入力音x(k)に比べて十分に大きいと判断して、e’(k)=e(k)とし、スペクトル包絡が平坦でないと判定された場合、環境音c1(k) が入力音x(k)に比べて十分に小さく、環境音c1(k)が抽出できないとして、e’(k)=0として補正済抽出発生音を生成するようにする。

以下、図１４～図１５を参照して抽出発生音補正装置４００について説明する。図１４は、抽出発生音補正装置４００の構成を示すブロック図である。図１５は、抽出発生音補正装置４００の動作を示すフローチャートである。図１４に示すように抽出発生音補正装置４００は、スペクトル平坦指標値算出部４１０、抽出発生音補正部４２０、記録部１９０を含む。

図１４に従い抽出発生音補正装置４００の動作について説明する。スペクトル平坦指標値算出部４１０は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q_kを算出する（Ｓ４１０）。例えば、スペクトル平坦指標値算出部４１０は、サンプルkを含む一定時間（例えば、フレーム）のサンプルの抽出発生音を用いて、スペクトル包絡の平坦度合いの指標値Q_kを以下の例１から例５の何れかにより算出すればよい。

（例１）
スペクトル平坦指標値算出部４１０は、抽出発生音e(k)を含む一定時間のサンプルからT次のLSPパラメータθ[1],θ[2],…,θ[T]を得て、得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、下記の式(A1)により求まる指標値Q1_kをスペクトル包絡の平坦度合いの指標値Q_kとして得る。

（例２）
スペクトル平坦指標値算出部４１０は、抽出発生音e(k)を含む一定時間のサンプルからT次のLSPパラメータθ[1],θ[2],…,θ[T]を得て、得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の最小値、すなわち、下記の式(A2)により求まる指標値Q2_kをスペクトル包絡の平坦度合いの指標値Q_kとして得る。

（例３）
スペクトル平坦指標値算出部４１０は、抽出発生音e(k)を含む一定時間のサンプルからT次のLSPパラメータθ[1],θ[2],…,θ[T]を得て、得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の値と最低次のLSPパラメータの値のうちの最小値、すなわち、下記の式(A3)により求まる指標値Q3_kをスペクトル包絡の平坦度合いの指標値Q_kとして得る。

（例４）
スペクトル平坦指標値算出部４１０は、抽出発生音e(k)を含む一定時間のサンプルからT次のPARCOR係数par[1],par[2],…,par[T]を得て、得たT次のPARCOR係数par[1],par[2],…,par[T]を用いて、下記の式(A4)により求まる指標値Q4_kをスペクトル包絡の平坦度合いの指標値Q_kとして得る。

（例５）
スペクトル平坦指標値算出部４１０は、まず、例１から例４のうちの何れか２個以上の方法により、指標値Q1_k, Q2_k, Q3_k, Q4_kのうちの何れか２個以上を得る。スペクトル平坦指標値算出部４１０は、さらに、ここで得た２個以上の指標値の重み付け加算により、それぞれの指標値が大きな値になるほど大きな値になる重み付け加算後指標値を、スペクトル包絡の平坦度合いの指標値Q_kとして得る。

抽出発生音補正部４２０は、スペクトル包絡の平坦度合いの指標値Q_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する（Ｓ４２０）。例えば、γをあらかじめ定められた定数（以下、γのことを閾値ともいう）として、Q_k>γの場合、e’(k)=e(k)とし、Q_k≦γの場合、e’(k)=0として補正済抽出発生音を生成する。

もちろん、Q_k>γ、Q_k≦γの代わりに、Q_k≧γ、Q_k<γを用いてもよい。

以上まとめると、Q_k≦γまたはQ_k<γとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた定数γに対してQ_k≦γまたはQ_k<γとなることを、スペクトル包絡の平坦度合いの指標値Q_kが小さいことを示す所定の範囲にあるという。このとき、γのことをスペクトル包絡の平坦度合いの指標値Q_kが小さいことを示す所定の範囲にあることを示す値という。

（変形例１）
抽出発生音補正部４２０におけるスペクトル包絡の平坦度合いの指標値Q_kと閾値γの比較では、比較条件に用いる閾値γを時間経過によらず不変であるものとして扱ったが、一定のタイミングで閾値γを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、閾値γが追従すること
ができるようになる。

例えば、γ₀（ただし、γ₀はあらかじめ定められた数）を閾値の初期値として、サンプルごとに閾値γを更新して比較するようにしてもよい。具体的には、k=1,…として、Q_k>γ_k-1の場合、e’(k)= e(k)とし、Q_k≦γ_k-1の場合、e’(k)=0として補正済抽出発生音e’(k)を生成する。次に、次のサンプルのための閾値をγ_k=Q_kとし、同様にQ_k+1>γ_kの場合、e’(k+1)=e(k+1)とし、Q_k+1≦γ_kの場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。

なお、閾値γをγ_k=(γ_k-L+1+…+γ_k)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、閾値γの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数（ただし、ω>0）として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、閾値γ_kを以下のように求めてもよい。

（変形例２）
第一実施形態および第二実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。

以下、図１６～図１７を参照して抽出発生音補正装置４０１について説明する。図１６は、抽出発生音補正装置４０１の構成を示すブロック図である。図１７は、抽出発生音補正装置４０１の動作を示すフローチャートである。図１６からわかるように、抽出発生音補正装置４０１は、補正済抽出発生音パラメータ生成部１３０をさらに含む点においてのみ抽出発生音補正装置４００と異なる。また、図１７からわかるように、抽出発生音補正装置４０１の動作は、Ｓ１３０が追加されている点においてのみ抽出発生音補正装置４００の動作と異なる。補正済抽出発生音パラメータ生成部１３０は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する（Ｓ１３０）。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。

＜第四実施形態＞
第一実施形態ではパワー比E_k/Y_kを、第三実施形態ではスペクトル包絡の平坦度合いの指標値Q_kを用いて、抽出発生音を補正するための条件判定を行った。ここでは、パワー比E_k/Y_kとスペクトル包絡の平坦度合いの指標値Q_kの２つを用いた条件判定を行う。

以下、図１８～図１９を参照して抽出発生音補正装置３００について説明する。図１８は、抽出発生音補正装置３００の構成を示すブロック図である。図１９は、抽出発生音補正装置３００の動作を示すフローチャートである。図１８に示すように抽出発生音補正装置３００は、パワー算出部１１０、スペクトル平坦指標値算出部４１０、抽出発生音補正部３２０、記録部１９０を含む。

図１９に従い抽出発生音補正装置３００の動作について説明する。パワー算出部１１０は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY_kと抽出発生音e(k)のパワーである抽出発生音パワーE_kを算出する（Ｓ１１０）。スペクトル平坦指標値算出部４１０は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q_kを算出する（Ｓ４１０）。抽出発生音補正部３２０は、収音会場音パワーY_kと抽出発生音パワーE_kとスペクトル包絡の平坦度合いの指標値Q_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する（Ｓ３２０）。例えば、倍率α、閾値γに対して、E_k>αY_kかつQ_k>γ（E_k≧αY_kかつQ_k≧γ）となる場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。その際、例えば、Y_k,E_kについては式(1)、式(2)を用いて、Q_kについては第三実施形態で説明した例１～例５により算出することができる。

もちろん、例えば、倍率α、閾値γに対して、E_k≦αY_kかつQ_k≦γ（E_k<αY_kかつQ_k<γ）となる場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。

さらに、抽出発生音補正部３２０における抽出発生音を補正するための条件判定に用いる条件を複数にしてもよい。例えば、抽出発生音補正部３２０が、収音会場音パワーY_kと抽出発生音パワーE_kとスペクトル包絡の平坦度合いの指標値Q_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する際、倍率α1,α2、閾値γ1,γ2（ただし、α1<α2、γ1>γ2）に対して、以下の第１条件、第２条件のいずれかが成立する場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。
第１条件：E_k>α1・Y_kかつQ_k>γ1
第２条件：E_k>α2・Y_kかつQ_k>γ2
もちろん、倍率α1,α2、閾値γ1,γ2（ただし、α1<α2、γ1>γ2）に対して、以下の第３条件、第４条件のいずれかが成立する場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
第３条件：E_k≦α1・Y_kかつQ_k≦γ1
第４条件：E_k≦α2・Y_kかつQ_k≦γ2

（変形例１）
第一実施形態や第三実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。

以下、図２０～図２１を参照して抽出発生音補正装置３０１について説明する。図２０は、抽出発生音補正装置３０１の構成を示すブロック図である。図２１は、抽出発生音補正装置３０１の動作を示すフローチャートである。図２０からわかるように、抽出発生音補正装置３０１は、補正済抽出発生音パラメータ生成部１３０をさらに含む点においてのみ抽出発生音補正装置３００と異なる。また、図２１からわかるように、抽出発生音補正装置３０１の動作は、Ｓ１３０が追加されている点においてのみ抽出発生音補正装置３００の動作と異なる。補正済抽出発生音パラメータ生成部１３０は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する（Ｓ１３０）。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメー
タはどのようなものであってもよい。

＜第五実施形態＞
第四実施形態ではパワー比E_k/Y_kとスペクトル包絡の平坦度合いの指標値Q_kの２つを用いて、抽出発生音を補正するための条件判定を行った。ここでは、スパース尺度S_kとスペクトル包絡の平坦度合いの指標値Q_kの２つを用いた条件判定を行う。

以下、図２２～図２３を参照して抽出発生音補正装置３０２について説明する。図２２は、抽出発生音補正装置３０２の構成を示すブロック図である。図２３は、抽出発生音補正装置３０２の動作を示すフローチャートである。図２２に示すように抽出発生音補正装置３０２は、スパース尺度算出部２１０、スペクトル平坦指標値算出部４１０、抽出発生音補正部３２２、記録部１９０を含む。

図２３に従い抽出発生音補正装置３０２の動作について説明する。スパース尺度算出部２１０は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度S_kを算出する（Ｓ２１０）。スペクトル平坦指標値算出部４１０は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q_kを算出する（Ｓ４１０）。抽出発生音補正部３２２は、スパース尺度S_kとスペクトル包絡の平坦度合いの指標値Q_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する（Ｓ３２２）。例えば、閾値β、閾値γに対して、S_k>βかつQ_k>γ（S_k≧βかつQ_k≧γ）となる場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。その際、例えば、S_kについては、式(5)～式(7)、または、式(8)～式(10)、または、式(11)～式(13)を用いて算出することができる。また、Q_kについては第三実施形態で説明した例１～例５により算出することができる。

もちろん、例えば、閾値β、閾値γに対して、S_k≦βかつQ_k≦γ（S_k<βかつQ_k<γ）となる場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。

さらに、抽出発生音補正部３２０における抽出発生音を補正するための条件判定に用いる条件を複数にしてもよい。例えば、抽出発生音補正部３２０が、スパース尺度S_kとスペクトル包絡の平坦度合いの指標値Q_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する際、閾値β1,β2,γ1,γ2（ただし、β1<β2、γ1>γ2）に対して、以下の第１条件、第２条件のいずれかが成立する場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。
第１条件：S_k>β1かつQ_k>γ1
第２条件：S_k>β2かつQ_k>γ2
もちろん、閾値β1,β2,γ1,γ2（ただし、β1<β2、γ1>γ2）に対して、以下の第３条件、第４条件のいずれかが成立する場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
第３条件：S_k≦β1かつQ_k≦γ1
第４条件：S_k≦β2かつQ_k≦γ2

（変形例１）
第二実施形態や第三実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータであ
る補正済抽出発生音パラメータp(k)を生成するようにしてもよい。

以下、図２４～図２５を参照して抽出発生音補正装置３０３について説明する。図２４は、抽出発生音補正装置３０３の構成を示すブロック図である。図２５は、抽出発生音補正装置３０３の動作を示すフローチャートである。図２４からわかるように、抽出発生音補正装置３０３は、補正済抽出発生音パラメータ生成部１３０をさらに含む点においてのみ抽出発生音補正装置３０２と異なる。また、図２５からわかるように、抽出発生音補正装置３０３の動作は、Ｓ１３０が追加されている点においてのみ抽出発生音補正装置３０２の動作と異なる。補正済抽出発生音パラメータ生成部１３０は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する（Ｓ１３０）。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。

＜第六実施形態＞
第四実施形態と第五実施形態ではスペクトル包絡の平坦度合いの指標値Q_kと、パワー比E_k/Y_kまたはスパース尺度S_kと、を用いて、抽出発生音を補正するための条件判定を行った。ここでは、パワー比E_k/Y_kとスパース尺度S_kとスペクトル包絡の平坦度合いの指標値Q_kの３つを用いた条件判定を行う。

以下、図２６～図２７を参照して抽出発生音補正装置３０４について説明する。図２６は、抽出発生音補正装置３０４の構成を示すブロック図である。図２７は、抽出発生音補正装置３０４の動作を示すフローチャートである。図２６に示すように抽出発生音補正装置３０４は、パワー算出部１１０、スパース尺度算出部２１０、スペクトル平坦指標値算出部４１０、抽出発生音補正部３２４、記録部１９０を含む。

図２７に従い抽出発生音補正装置３０４の動作について説明する。パワー算出部１１０は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY_kと抽出発生音e(k)のパワーである抽出発生音パワーE_kを算出する（Ｓ１１０）。スパース尺度算出部２１０は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度S_kを算出する（Ｓ２１０）。スペクトル平坦指標値算出部４１０は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q_kを算出する（Ｓ４１０）。抽出発生音補正部３２４は、収音会場音パワーY_kと抽出発生音パワーE_kとスパース尺度S_kとスペクトル包絡の平坦度合いの指標値Q_kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する（Ｓ３２４）。例えば、倍率α、閾値β、閾値γに対して、E_k>αY_kかつS_k>βかつQ_k>γ（E_k≧αY_kかつS_k≧βかつQ_k≧γ）となる場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。その際、例えば、Y_k,E_kについては式(1)、式(2)を用いて算出することができる。また、S_kについては、式(5)～式(7)、または、式(8)～式(10)、または、式(11)～式(13)を用いて算出することができる。また、Q_kについては第三実施形態で説明した例１～例５により算出することができる。

もちろん、例えば、倍率α、閾値β、閾値γに対して、E_k≦αY_kかつS_k≦βかつQ_k≦γ（E_k<αY_kかつS_k<βかつQ_k<γ）となる場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。

（変形例１）
第一実施形態や第二実施形態や第三実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。

以下、図２８～図２９を参照して抽出発生音補正装置３０５について説明する。図２８は、抽出発生音補正装置３０５の構成を示すブロック図である。図２９は、抽出発生音補正装置３０５の動作を示すフローチャートである。図２８からわかるように、抽出発生音補正装置３０５は、補正済抽出発生音パラメータ生成部１３０をさらに含む点においてのみ抽出発生音補正装置３０４と異なる。また、図２９からわかるように、抽出発生音補正装置３０５の動作は、Ｓ１３０が追加されている点においてのみ抽出発生音補正装置３０４の動作と異なる。補正済抽出発生音パラメータ生成部１３０は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する（Ｓ１３０）。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティ
が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出部と、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY_kと前記抽出発生音e(k)のパワーである抽出発生音パワーE_kを算出するパワー算出部と、
前記収音会場音パワーY _k に対する前記抽出発生音パワーE _k の比E _k /Y _k と、前記スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q_kが小さいことを示す所定の範囲にあり、かつ、前記比E_k/Y_kが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、前記比E _k /Y _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正装置。
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出部と、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S_kを算出するスパース尺度算出部と、
前記スパース尺度S _k と、前記スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q_kが小さいことを示す所定の範囲にあり、かつ、前記スパース尺度S_kが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正装置。
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出部と、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY_kと前記抽出発生音e(k)のパワーである抽出発生音パワーE_kを算出するパワー算出部と、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S_kを算出するスパース尺度算出部と、
前記収音会場音パワーY _k に対する前記抽出発生音パワーE _k の比E _k /Y _k と、前記スパース尺度S _k と、前記スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q_kが小さいことを示す所定の範囲にあり、かつ、前記比E_k/Y_kが小さいことを示す所定の範囲にあり、かつ、前記スパース尺度S_kが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、前記比E _k /Y _k が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正装置。
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出ステップと、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY _k と前記抽出発生音e(k)のパワーである抽出発生音パワーE _k を算出するパワー算出ステップと、
前記収音会場音パワーY _k に対する前記抽出発生音パワーE _k の比E _k /Y _k と、前記スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が小さいことを示す所定の範囲にあり、かつ、前記比E _k /Y _k が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、前記比E _k /Y _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正方法。
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出ステップと、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S _k を算出するスパース尺度算出ステップと、
前記スパース尺度S _k と、前記スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が小さいことを示す所定の範囲にあり、かつ、前記スパース尺度S _k が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正方法。
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q _k を算出するスペクトル平坦指標値算出ステップと、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY _k と前記抽出発生音e(k)のパワーである抽出発生音パワーE _k を算出するパワー算出ステップと、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S _k を算出するスパース尺度算出ステップと、
前記収音会場音パワーY _k に対する前記抽出発生音パワーE _k の比E _k /Y _k と、前記スパース尺度S _k と、前記スペクトル包絡の平坦度合いの指標値Q _k と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が小さいことを示す所定の範囲にあり、かつ、前記比E _k /Y _k が小さいことを示す所定の範囲にあり、かつ、前記スパース尺度S _k が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q _k が大きいことを示す所定の範囲にあり、かつ、前記比E _k /Y _k が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S _k が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正方法。
請求項１から３の何れかに記載の抽出発生音補正装置としてコンピュータを機能させるためのプログラム。