JP7144078B2

JP7144078B2 - 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム

Info

Publication number: JP7144078B2
Application number: JP2020538007A
Authority: JP
Inventors: 昭彦杉山; 良次宮原
Original assignee: NEC Platforms Ltd; NEC Corp
Current assignee: NEC Platforms Ltd; NEC Corp
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2022-09-29
Anticipated expiration: 2038-08-24
Also published as: JPWO2020039597A1; WO2020039597A1; US20210174820A1

Description

本発明は、信号処理装置、音声通話端末、信号処理方法および信号処理プログラムに関する。

上記技術分野において、特許文献１には、音声とノイズを入力し、分析したノイズと同種の別のノイズを、あらかじめ準備したデータベースから選択して、音声に加算する技術が開示されている。

ＵＳ８７９８９９２Ｂ２特開２００２－２０４１７５ＷＯ２００７／０２６６９１特開２００７－６８１２５ＷＯ２０１５／０４９９２１特開平９ー１８２９１ＷＯ２００５／０２４７８７

1979年4月、アイ・イー・イー・イー・トランザクション・オン・アクースティクス・スピーチ・アンド・シグナル・プロセッシング、第27巻、第2号、(IEEE TRANSACTION ON ACOUSTIC, SPEECH, AND SIGNAL PROCESSING, VOL.27, No. 2, PP.113ー120, APR 1979) 113～120 ページ 1984年12月、アイ・イー・イー・イー・トランザクション・オン・アクースティクス・スピーチ・アンド・シグナル・プロセッシング、第32巻、第6号、(IEEE TRANSACTION ON ACOUSTIC, SPEECH, AND SIGNAL PROCESSING, VOL.32, No. 6, PP.1109ー1121, DEC 1984) 1109～1121 ページ 1982年1月、アイ・イー・イー・イー・トランザクション・オン・アクースティクス・スピーチ・アンド・シグナル・プロセッシング、第30巻、第1号、(IEEE TRANSACTION ON ACOUSTIC, SPEECH, AND SIGNAL PROCESSING, VOL.30, No. 1, PP.27ー34, JAN 1982) 27～34 ページ 2008年、「ハンドブック・オブ・スピーチ・プロセシング」、シュプリンガー、ベルリンハイデルベルグニューヨーク(HANDBOOK OF SPEECH PROCESSING, SPRINGER, BERLIN HEIDELBERG NEW YORK, 2008.) 2015年4月、アイ・イー・イー・イー・プロシーディングス・オブ・インターナショナル・カンファレンス・オン・アクースティクス・スピーチ・アンド・シグナル・プロセッシング、(IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNNAL PROCESSING, PP.524ー528, APR 2015) 524～528ページ 1975年12月、プロシーディングス・オブ・アイ・イー・イー・イー、第63巻、第12号、(PROCEEDINGS OF IEEE, VOL.63, No. 12, PP.1692ー1716, DEC 1975) 1692～1716ページ

しかしながら、上記文献に記載の技術では、音声とノイズが分離された状態で入力することを仮定しているため、音声とノイズが混合された状態でしか得られない場合には適用できない。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る装置は、
音響信号を記憶する記憶部と、
少なくとも一つの目的信号と背景信号とを含む混合信号を受信して、前記記憶部に記憶された複数の音響信号から、通話相手または通話状況に応じて１つの音響信号を選択し、選択された１つの音響信号を前記背景信号の定数倍にして、前記背景信号の定数倍にされた前記音響信号と前記目的信号とを合成する信号処理部と、
を備えた信号処理装置である。

上記目的を達成するため、本発明に係る端末は、
上記信号処理装置を内蔵する音声通話端末において、
前記混合信号を入力するマイクを備え、
前記信号処理部は、入力した前記混合信号に含まれる前記目的信号としてのユーザ音声信号と、前記背景信号の定数倍にされた前記音響信号とを合成し、
合成された合成信号を送信する送信部をさらに備えた音声通話端末である。

上記目的を達成するため、本発明に係る他の端末は、
上記信号処理装置を内蔵する音声通話端末において、
発呼側音声通話端末から前記混合信号を受信する受信部を備え、
前記信号処理部は、受信した前記混合信号に含まれる前記目的信号としてのユーザ音声信号と、前記背景信号の定数倍にされた前記音響信号とを合成し、
合成された合成信号を音声出力する音声出力部をさらに備えた音声通話端末である。

上記目的を達成するため、本発明に係る方法は、
受信部が、少なくとも一つの目的信号と背景信号とを含む混合信号を受信する受信ステップと、
信号処理部が、あらかじめ記憶された複数の音響信号のうち、通話相手または通話状況に応じて１つの音響信号を選択し、選択された１つの音響信号を前記背景信号の定数倍にして、前記背景信号の定数倍にされた前記音響信号と前記目的信号とを合成する信号処理ステップと、
を含む信号処理方法である。
上記目的を達成するため、本発明に係るプログラムは、
少なくとも一つの目的信号と背景信号とを含む混合信号を受信する受信ステップと、
あらかじめ記憶された複数の音響信号のうち、通話相手または通話状況に応じて１つの音響信号を選択し、選択された１つの音響信号を前記背景信号の定数倍にして、前記背景信号の定数倍にされた前記音響信号と前記目的信号とを合成する信号処理ステップと、
をコンピュータに実行させる信号処理プログラムである。

本発明によれば、少なくとも一つの目的信号を含む混合信号を受信して、所望の合成信号を出力できる。

本発明の第１実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第２実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第２実施形態に係る抽出部の構成を示すブロック図である。本発明の第２実施形態に係る音声検出部の構成を示すブロック図である。本発明の第２実施形態に係る子音検出部の構成を示すブロック図である。本発明の第２実施形態に係る母音検出部の構成を示すブロック図である。本発明の第２実施形態に係る衝撃音検出部の構成を示すブロック図である。本発明の第２実施形態に係る振幅補正部の構成を示すブロック図である。本発明の第２実施形態に係る位相補正部の構成を示すブロック図である。本発明の第３実施形態に係る抽出部の構成を示すブロック図である。本発明の第４実施形態に係る信号処理部の構成を示すブロック図である。本発明の第４実施形態に係る分離部の構成を示すブロック図である。本発明の第５実施形態に係る分離部の構成を示すブロック図である。本発明の第６実施形態に係る分離部の構成を示すブロック図である。本発明の第７実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第８実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第９実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第９実施形態に係る信号処理部の構成を示すブロック図である。本発明の第９実施形態に係る他の信号処理部の構成を示すブロック図である。本発明の第１０実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第１１実施形態に係る信号処理部の構成を示すブロック図である。本発明の第１２実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第１２実施形態に係る信号処理装置の処理の流れを示すフローチャートである。本発明の第１２実施形態に係る信号処理装置の処理の流れを示すフローチャートである。本発明の第１３実施形態に係る音声通話端末の構成を示すブロック図である。本発明の第１３実施形態に係る音響信号選択データベースの構成を示す図である。本発明の第１４実施形態に係る音声通話端末の構成を示すブロック図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。また、一部の実施形態で入力される混合信号の数が４のものについて説明しているが、これはあくまで例示であり、２以上の任意の信号数について同じ説明が成り立つ。また、説明において信号の振幅を用いている部分はこれをパワーで、信号のパワーを用いている部分はこれを振幅で置き換えても、説明はそのまま成り立つ。パワーは振幅の２乗として、振幅はパワーの平方根として、それぞれ求められるためである。

［第１実施形態］
本発明の第１実施形態としての信号処理装置１００について、図１を用いて説明する。図１に示すように、信号処理装置１００は、記憶部１０１と信号処理部１０２とを含む。

記憶部１０１は、音響信号１１１を記憶する。

信号処理部１０２は、少なくとも一つの目的信号１３１を含む混合信号１３０を受信して、記憶部１０１に記憶された音響信号１１１と目的信号１２１とを合成する。

本実施形態によれば、音声とノイズが混合した混合信号を入力して、所望の合成信号１５０を出力できる。

［第２実施形態］
次に本発明の第２実施形態に係る信号処理装置２００について、図２を用いて説明する。図２は、本実施形態に係る信号処理装置２００の構成を説明するための図である。信号処理装置２００は、目的信号（例えば音声）と背景信号（例えば環境音）が混在した混合信号をマイクなどのセンサや外部端子から入力して、背景信号を別の音響信号で置換して置換音響信号とする装置である。

本実施形態にかかる信号処理装置２００は、記憶部２０１と信号処理部２０２とを含む。

記憶部２０１は、音響信号２１１を記憶する。記憶部２０１は、信号処理装置２００が動作開始する前に、あらかじめ、目的信号に合成するための音響信号を記憶する。

信号処理部２０２は、混合信号２３０を受信して少なくとも一つの目的信号２３１を抽出する抽出部２２１と、音響信号２１１と目的信号２３１とを合成する合成部２２２とを含む。

信号処理部２０２は、記憶部２０１から供給された音響信号２１１を用いて、目的信号と背景信号とは異なる音響信号(置換背景信号)の混在した合成信号２５０を求める。

抽出部２２１は、目的信号と背景信号を含む混合信号を受けて、目的信号を抽出し、出力する。

合成部２２２は、目的信号２３１と記憶部２０１に記憶されている音響信号２１１とを受けて、目的信号２３１と音響信号２１１を合成し、合成信号２５０として出力する。合成部２２２は、目的信号と音響信号を単純に加算してもよいし、異なった周波数で異なった加算割合を適用して加算してもよい。また、心理聴覚分析を行い、その結果を加算する際に利用することもできる。

図３は、抽出部２２１の構成例を表す図である。抽出部２２１は、図３に示すように、変換部３０１、振幅補正部３０２、位相補正部３０３、逆変換部３０４、整形部３０５、音声検出部３０６、衝撃音検出部３０７を含む。

変換部３０１は、混合信号を受けて複数の信号サンプルをブロックにまとめ、周波数変換を適用して複数の周波数成分における振幅と位相に分解する。周波数変換としては、フーリエ変換、コサイン変換、サイン変換、ウェーブレット変換、アダマール変換など、様々な変換を用いることができる。また、変換に先立って、ブロックごとに窓関数をかけることも広く行われている。さらに、ブロックの一部を隣接するブロックの一部と重複処理するオーバラップ処理も、広く適用されている。得られた複数の信号サンプルを複数のグループ(サブバンド)に統合し、各グループを代表する値を各グループ内の周波数成分で共通して使用することもできる。また、各サブバンドを新たな一つの周波数点として取り扱い、周波数点数を削減することもできる。さらに、ブロック処理に基づく周波数変換の代わりに、分析フィルタバンクを用いてサンプル毎の処理としながら複数の周波数点に対応したデータを求めることもできる。その際に、各周波数点が周波数軸上に等間隔で並ぶ等分割フィルタバンクや不等間隔で並ぶ不等分割フィルタバンクを用いることができる。不等分割フィルタバンクでは、入力される信号の重要な周波数帯域における周波数間隔が狭くなるように設定する。音声の場合には、低周波領域で周波数間隔が狭くなるように設定する。

音声検出部３０６は、変換部３０１から複数の周波数における振幅を受けて、音声の存在を検出し、音声フラグとして出力する。衝撃音検出部３０７は、変換部３０１から複数の周波数における振幅と位相を受けて、衝撃音の存在を検出し、衝撃音フラグとして出力する。振幅補正部３０２は、変換部３０１から複数の周波数における振幅を、音声検出部３０６から音声フラグを、衝撃音検出部３０７から衝撃音フラグを受けて、複数の周波数における振幅を補正し、補正振幅として出力する。位相補正部３０３は、変換部３０１から複数の周波数における位相を、音声検出部３０６から音声フラグを、衝撃音検出部３０７から衝撃音フラグを受けて、複数の周波数における位相を補正し、補正位相として出力する。

逆変換部３０４は、振幅補正部３０２から補正振幅を、位相補正部３０３から補正位相を受けて、逆周波数変換を適用することによって時間領域信号を求め、これを出力する。逆変換部３０４は、変換部３０１において適用した変換の逆変換を行う。例えば、変換部３０１でフーリエ変換を実施したときは、逆変換部３０４は逆フーリエ変換を実施する。また、変換部３０１と同様に、窓関数やオーバラップ処理も、広く適用されている。変換部３０１で、複数の信号サンプルを複数のグループ(サブバンド)に統合したときには、各サブバンドを代表する値を各サブバンド内の全周波数点の値としてコピーし、その後に逆変換を実施する。

整形部３０５は、逆変換部３０４から時間領域信号を受けて整形処理を実施し、整形結果を目的信号として出力する。整形処理には、信号の平滑化や予測が含まれる。平滑化を行う場合、変換部３０４から受けた複数の信号サンプルと比較して、整形結果は時間と共により滑らかに変化する。線形予測を行う場合、整形部は逆変換部３０４から受けた複数の信号サンプルの線形結合として、整形結果を得る。線形結合を表す係数は、逆変換部３０４から受けた複数の信号サンプルを用いて、レビンソン－ダービン法で求めることができる。

また、整形部３０５は、逆変換部３０４から受けた複数の信号サンプルのうち最新のサンプル、すなわち時間的に最も遅れているサンプルと、最新のサンプルよりも過去のサンプルを用いて最新のサンプルを予測した結果（予測係数を用いた過去のサンプルの線形結合）の差分の二乗誤差の期待値を最小化するように、勾配法などを用いて線形結合を表す係数を求めることもできる。逆変換部３０４から受けた複数の信号サンプルと比較して、線形予測結果は、欠落している調波成分が補われるために、時間と共により滑らかに変化する。整形部３０５は、ボルテラフィルタなどの非線形フィルタに基づく、非線形予測を行ってもよい。

なお、図３において、変換部３０１と逆変換部３０４は必須ではない。音声検出部３０６における処理は、そのまま、あるいは等価な処理として、時間領域で実施することもできる。また、衝撃音検出部３０７における処理をそのまま時間領域で実施することはできないが、代わりに信号パワーの急増と急減を検出することで、衝撃音検出を実施することは可能である。

図４は、音声検出部３０６の構成例を表す図である。音声検出部３０６は、図４に示すように、子音検出部４０１、母音検出部４０２、論理和計算部４０３を含む。

子音検出部４０１は、複数の周波数における振幅を受けて、周波数別に子音を検出し、検出されたときは１を、検出されなかったときは０を、子音フラグとして出力する。母音検出部４０２は、複数の周波数における振幅を受けて、周波数別に母音を検出し、検出されたときは１を、検出されなかったときは０を、母音フラグとして出力する。論理和計算部４０３は、子音フラグを子音検出部４０１から、母音フラグを母音検出部４０２から受けて、両フラグの論理和を求め、音声フラグとして出力する。すなわち、音声フラグは、子音フラグまたは母音フラグのいずれかが１であるときに１、子音フラグと母音フラグの双方が０のときに０となる。子音または母音のいずれかの存在があるときに、音声が存在していると判定していることになる。

図５は、図４の音声検出部３０６に含まれる子音検出部４０１の構成例を表す図である。子音検出部４０１は、図５に示すように、最大値探索部５０１、正規化部５０２、振幅比較部５０３、サブバンドパワー計算部５０５、パワー比計算部５０６、パワー比比較部５０７、論理積計算部５０４を含む。

最大値探索部５０１、正規化部５０２、振幅比較部５０３は、全帯域にわたって振幅スペクトルの平坦度が高いことを検出する平坦度評価部を構成する。サブバンドパワー計算部５０５、パワー比計算部５０６、パワー比比較部５０７は、高域のパワーが大きいことを検出する高域パワー評価部を構成する。論理積計算部５０４は、振幅スペクトル平坦度が高く、かつ高域パワーが大きいという２条件を満足するときに１を、満足しないときに０を、子音フラグとして出力する。子音検出部４０１は、平坦度評価部と高域パワー評価部のいずれか一つだけを有してもよい。

最大値探索部５０１は、複数の周波数における振幅を受けて、最大値を求める。正規化部５０２は、複数の周波数における振幅の総和を求めて最大値探索部５０１が求めた最大値で正規化し、正規化総振幅を求める。振幅比較部５０３は、正規化部５０２から正規化総振幅を受けてあらかじめ定められた閾値と比較し、正規化総振幅が閾値より大きいときに１を、それ以外の場合に０を出力する。振幅スペクトルの平坦度が高いときは、振幅の最大値は他の振幅とほぼ等しく、著しく大きな値とならない。したがって、正規化総振幅は相対的に大きな値となる。このため、正規化総振幅が閾値を超えるときに振幅スペクトルの平坦度が高いと判断し、振幅比較部５０３の出力を１に設定する。反対に振幅スペクトルの平坦度が低いときには振幅値の分散は大きく、最大値は他の振幅よりも著しく大きな値となる可能性が高い。このため、正規化総振幅は相対的に小さな値となる。その場合には、正規化総振幅は閾値よりも大きな値とならず、振幅比較部５０３の出力は０に設定される。以上説明した動作によって、最大値探索部５０１、正規化部５０２、振幅比較部５０３は、全帯域にわたって振幅スペクトルの平坦度が高いことを検出することができる。

サブバンドパワー計算部５０５は、複数の周波数における振幅を受けて、全周波数点の部分集合をなす複数のサブバンドそれぞれに対して、サブバンド内総パワーを計算する。サブバンドは全帯域を等分割してもよいし、不等分割してもよい。

パワー比計算部５０６は、サブバンドパワー計算部５０５から複数のサブバンドパワーを受けて、高域サブバンドのパワーを低域サブバンドのパワーで除したパワー比を計算する。サブバンド数が２である場合には、パワー比の計算方法は一意に定まる。サブバンド数が２を超える場合には、高域サブバンドと低域サブバンドの選択は任意である。任意のサブバンドを選択し、常に周波数が高いサブバンドの総パワーを周波数が低いサブバンドの総パワーで除して、パワー比を計算する。

パワー比比較部５０７は、パワー比計算部５０６からパワー比を受けてあらかじめ定めされた閾値と比較し、パワー比が閾値より大きいときに１を、それ以外の場合に０を出力する。高域パワーが低域パワーより大きいとき、音声は子音である確率が高い。反対に、母音では、低域パワーが高域パワーよりも大きいことが知られている。したがって、高域と低域のパワーを計算して、その比を閾値と比較することで、子音であるか否かを判定することができる。以上説明した動作によって、サブバンドパワー計算部５０５、パワー比計算部５０６、パワー比比較部５０７は、高域のパワーが大きいことを検出することができる。

そして、論理積計算部５０４で平坦度評価と高域パワー評価の論理積をとることにより、平坦度が高く、高域のパワーが大きい音声を子音と判定することができる。

図６は、図４の音声検出部３０６に含まれる母音検出部４０２の構成例を表す図である。母音検出部４０２は、図６に示すように、背景雑音推定部６０１、パワー比計算部６０２、音声区間検出部６０３、ハングオーバー部６０４、平坦度計算部６０５、ピーク検出部６０６、基底周波数探索部６０７、倍音成分検証部６０８、ハングオーバー部６０９、論理積計算部６１０を含む構成を有する。

背景雑音推定部６０１、パワー比計算部６０２、音声区間検出部６０３、ハングオーバー部６０４、平坦度計算部６０５は、ＳＮＲ（信号対雑音比）が高く、振幅スペクトル平坦度が高いことを検出する、ＳＮＲおよび平坦度評価部を構成する。ピーク検出部６０６、基本周波数探索部６０７、倍音検証部６０８、ハングオーバー部６０９は、調波構造の存在を検出する調波構造検出部を構成する。論理積計算部６１０は、ＳＮＲが高く、振幅スペクトル平坦度が高く、かつ調波構造があるという３条件を満足するときに１を、満足しないときに０を、母音フラグとして出力する。母音検出部は、ＳＮＲおよび平坦度評価部と調波構造検出部のいずれか一つだけから構成してもよい。

背景雑音推定部６０１は、複数の周波数における振幅を受けて、周波数別に背景雑音を推定する。背景雑音は、目的信号以外の全ての信号成分を含んでもよい。雑音推定の方法については、最小統計法や重み付き雑音推定などが、非特許文献１および非特許文献２に開示されているが、それ以外の方法を用いることもできる。パワー比計算部６０２は、複数の周波数における振幅と背景雑音推定部６０１が計算した複数の周波数における背景雑音推定値を受けて、各周波数における複数のパワー比を計算する。推定雑音を分母にすれば、パワー比は近似的にＳＮＲを表す。

平坦度計算部６０５は、複数の周波数における振幅を用いて、周波数方向の振幅平坦度を計算する。平坦度の例としては、スペクトル平坦度(SFM: spectral flatness measure)などを用いることができる。

音声区間検出部６０３は、ＳＮＲと振幅平坦度を受けて、ＳＮＲがあらかじめ定められた閾値よりも高く、平坦度があらかじめ定められた閾値よりも低いときに、音声区間であると宣言して１を、それ以外のときに０を出力する。これらの値は、周波数点ごとに計算する。閾値は、全周波数点において等しく設定してもよいし、異なった値に設定してもよい。音声の母音区間では、一般的にＳＮＲが高く、振幅平坦度が低いので、音声区間検出部６０３は母音を検出することができる。

ハングオーバー部６０４は、あらかじめ定められた閾値よりも多いサンプル数の間、音声区間検出部の出力が変化しないときに、あらかじめ定められたサンプル数の間、過去の検出結果を保持する。例えば、連続サンプル数閾値が４、保持サンプル数が２であるとき、過去に４以上音声区間が連続した後に初めて非音声区間と判定された場合に、その後２サンプルは強制的に音声区間を表す１を出力する。音声区間の終端部では一般的にパワーが弱く、誤って非音声区間と判定しやすいことによる悪影響を防止できる。

ピーク検出部６０６は、複数の周波数における振幅を周波数方向に低域から高域まで探索して、高低両側の隣接周波数における値よりも大きな振幅値を有する周波数を同定する。高低両側に１サンプルと比較してもよいし、複数サンプルと比較する複数の条件を課してもよい。また、低域側と高域側で比較するサンプル数が異なってもよい。人間の聴覚特性を反映させると、一般に高域側に低域側よりも多数のサンプルと比較する。

基本周波数探索部６０７は、検出されたピーク周波数のうち最低の値を求めて基本周波数に設定する。基本周波数における振幅値があらかじめ定められた値よりも大きくないとき、または基本周波数があらかじめ定められた周波数の範囲にないときは、次に高い周波数のピークを基本周波数に設定する。

倍音検証部６０８は、基本周波数の整数倍に相当する周波数における振幅が、基本周波数における振幅と比較して十分に大きいかを検証する。一般的に、基本周波数における振幅または２倍音における振幅が最大であり、周波数が高くなるにつれて振幅は小さくなるので、この特性を考慮して倍音の検証を行う。通常は、３から５倍音程度までを検証し、倍音の存在が確認できたときは１を、それ以外は０を出力する。倍音が存在することは明確な調波構造が存在することの証である。

ハングオーバー部６０９は、あらかじめ定められた閾値よりも多いサンプル数の間、倍音検証部の出力が変化しないときに、あらかじめ定められたサンプル数の間、過去の検出結果を保持する。例えば、連続サンプル数閾値が４、保持サンプル数が２であるとき、過去に４以上倍音区間が連続した後初めて非倍音区間と判定された場合に、その後２サンプルは強制的に倍音区間を表す１を出力する。音声区間の終端部では一般的にパワーが弱く、倍音が検出しにくくなるので、誤って非倍音区間と判定しやすいことによる悪影響を防止できる。

ハングオーバー部６０４および６０９は、音声区間末端における音声区間と倍音区間の検出精度を高くするための処理である。したがって、ハングオーバー部６０４および６０９が存在しなくても、精度は変わるが同様の母音検出効果を得ることができる。

以上説明した動作によって、母音検出部４０２は、母音を検出することができる。

図７は、衝撃音検出部３０７の構成例を表す図である。衝撃音検出部３０７は、図７に示すように、背景雑音推定部７０１、パワー比計算部７０２、閾値比較部７０３、位相傾き計算部７０４、基準位相傾き計算部７０５、位相直線性計算部７０６、振幅平坦度計算部７０７、衝撃音尤度計算部７０８、閾値比較部７０９、フルバンド多数決部７１０、サブバンド多数決部７１１、論理積計算部７１２、ハングオーバー部７１３を含む。

背景雑音推定部７０１、パワー比計算部７０２、閾値比較部７０３は、背景雑音が入力信号と比較して十分に小さいかどうかを評価し、十分に小さいときに１を、それ以外のときに０を出力する背景雑音評価部を構成する。

背景雑音推定部７０１は、複数の周波数における振幅を受けて、周波数別に背景雑音を推定する。基本的に動作は、背景雑音推定部６０１と同様である。したがって、背景雑音推定部６０１の出力を背景雑音推定部７０１の出力として利用することで、背景雑音推定部７０１を省力することもできる。

パワー比計算部７０２は、複数の周波数における振幅と背景雑音推定部７０１が計算した複数の周波数における背景雑音推定値を受けて、各周波数における複数のパワー比を計算する。推定雑音を分母にすれば、パワー比は近似的にＳＮＲを表す。パワー比計算部７０２の動作はパワー比計算部６０２の動作と同様であり、パワー比計算部６０２の出力をパワー比計算部７０２の出力として利用することで、パワー比計算部７０２を省略することもできる。

閾値比較部７０３は、パワー比計算部７０２から受けたパワー比をあらかじめ定められた閾値と比較して、背景雑音が十分に小さいかどうかを評価する。パワー比がＳＮＲを表すときは、パワー比が十分に大きいときに１を、それ以外のときに０を、背景雑音評価結果として出力する。パワー比としてＳＮＲの逆数を用いるときには、パワー比が十分に小さいときに１を、それ以外のときに０を、背景雑音評価結果として出力する。

位相傾き計算部７０４は、複数の周波数における位相を受けて、ある周波数における位相と隣接する周波数における位相との関係を用いて、各周波数点における位相傾きを計算する。

基準位相傾き計算部７０５は、背景雑音評価結果と位相傾きを受けて、背景雑音が十分に小さい周波数点の位相傾きの値を選択し、選択した複数の位相に基づいて基準位相傾きを計算する。例えば、選択された位相の平均値を基準位相傾きとしてもよいし、中央値、最頻値など他の統計処理によって得られる値を基準位相傾きとしてもよい。すなわち、基準位相傾きは、全ての周波数に対して同一の値を有する。

位相直線性計算部７０６は、複数の周波数における位相傾きと基準位相傾きを受けて比較し、各周波数点における両者の差分または比として位相直線性を求める。

振幅平坦度計算部７０７は、複数の周波数における振幅を受けて、周波数方向の振幅平坦度を計算する。平坦度の例としては、スペクトル平坦度(SFM: spectral flatness measure)などを用いることができる。

衝撃音尤度計算部７０８は、複数の周波数における位相直線性と振幅平坦度を受けて、衝撃音の存在確率を衝撃音尤度として出力する。位相直線性が高いほど、衝撃音尤度を高く設定する。また、振幅平坦度が高いほど、衝撃音尤度を高く設定する。これは、衝撃音に関して、位相直線性が高く、振幅平坦度が高いという特性を有していることによる。位相直線性と振幅平坦度はどのように組み合わせてもよく、どちらか一方だけを用いたり、両者の重み付き和を用いたりすることもできる。

閾値比較部７０９は、衝撃音尤度を受けてあらかじめ定められた閾値と比較して、衝撃音の存在を各周波数で評価する。衝撃音尤度があらかじめ定められた閾値よりも大きいときに１を、それ以外の場合に０を出力する。

フルバンド多数決部７１０は、複数の周波数における衝撃音の存在状況を受けて、フルバンド（全周波数帯域）における衝撃音の存在を評価する。例えば、全周波数点で衝撃音の存在を表す１を多数決し、結果が多数であれば、全周波数において衝撃音が存在するとして全周波数点の値を１に置換する。

サブバンド多数決部７１１は、複数の周波数における衝撃音の存在状況を受けて、サブバンド（部分周波数帯域）における衝撃音の存在を評価する。例えば、各サブバンド内で衝撃音の存在を表す１を多数決し、結果が多数であれば、該サブバンド内において衝撃音が存在するとして該サブバンド内における全周波数点の値を１に置換する。

論理積計算部７１２は、フルバンド多数決の結果得られた衝撃音存在情報とサブバンド多数決の結果得られた衝撃音存在情報の論理積をとり、各周波数点に対する最終的な衝撃音の存在情報を１または０で表す。

ハングオーバー部７１３は、あらかじめ定められた閾値よりも多いサンプル数の間、衝撃音存在情報が変化しないときに、あらかじめ定められたサンプル数の間、過去の存在情報を保持する。例えば、連続サンプル数閾値が４、保持サンプル数が２であるとき、過去に４以上衝撃音の存在が連続した後初めて衝撃音が不在と判定された場合に、その後２サンプルは強制的に衝撃音の存在を表す１を出力する。音声衝撃音区間の終端部では一般的に衝撃音パワーが弱く、衝撃音を検出しにくくなるので、誤って衝撃音不在と判定しやすいことによる悪影響を防止できる。

ハングオーバー部７１３は、衝撃音区間末端における衝撃音の検出精度を高くするための処理である。したがって、ハングオーバー部７１３が存在しなくても、精度は変わるが同様の衝撃音検出効果を得ることができる。以上説明した動作によって、衝撃音検出部３０７は、衝撃音を検出することができる。

図８は、図３の振幅補正部３０２の構成例を表す図である。振幅補正部３０２は、図８に示すように、フルバンドパワー計算部８０１、非音声パワー計算部８０２、パワー比較部８０３、論理積計算部８０４、スイッチ８０５、スイッチ８０６を含む。振幅補正部３０２は、入力信号振幅、衝撃音フラグ、音声フラグを受けて、入力信号が衝撃音ではなく、音声であるときだけ、入力信号振幅を出力する。

フルバンドパワー計算部８０１は、複数の周波数における振幅を受けて、全帯域のパワー総和を求める。さらに、このパワー総和を全帯域の周波数点数で除して、商をフルバンド平均パワーとする。

非音声パワー計算部８０２は、複数の周波数における振幅と複数の周波数における音声フラグを受けて、非音声と判定された周波数点のパワー総和を求める。さらに、このパワー総和を非音声と判定された周波数点の数で除して、商を非音声の平均パワーとする。

パワー比較部８０３は、フルバンド平均パワーと非音声の平均パワー受けて、両者の比を求める。この比の値が１に近いときは、フルバンド平均パワーと非音声の平均パワーの値が近く、入力信号は非音声である。パワー比較部８０３は、入力信号が非音声であると判断される場合に１を、それ以外の場合に０を出力する。すなわち、０は音声を表す。

論理積計算部８０４は、パワー比較部８０３の出力と衝撃音フラグを受けて、両者の論理積を出力する。すなわち、論理積計算部８０４の出力は、入力信号が音声のときに０、それ以外のときの０となる。

スイッチ８０５は、論理積計算部８０４の出力を受けて、論理積計算部８０４の出力が０、すなわち音声を表すときに回路を閉じて、入力信号の振幅を出力する。スイッチ８０５はまた、さらに衝撃音フラグを受けて、衝撃音フラグが１で衝撃音が存在し、入力が音声であるときに、音声のピーク周波数の間の周波数で振幅を減じてもよい。これは、ピーク周波数間で振幅スペクトルを掘り下げることに相当し、衝撃音成分によって平坦化した振幅スペクトルを、音声の振幅スペクトルに近づける効果がある。

スイッチ８０６は、スイッチ８０５の出力と音声フラグを受けて、音声フラグが０で音声が存在するときに回路を閉じて、スイッチ８０５の出力を補正振幅として出力する。

以上説明した動作によって、振幅補正部３０２は、入力信号が衝撃音ではなく、音声であるときだけ、入力信号振幅を補正振幅として出力することができる。

図９は、位相補正部３０３の構成例を表す図である。位相補正部３０３は、図９に示すように、制御データ生成部９０１、位相保持部９０２、位相予測部９０３、スイッチ９０４を含む。位相補正部３０３は、音声フラグ、衝撃音フラグ、入力信号の位相を受けて、入力信号が音声であるときに入力信号の位相を、入力信号が音声でなく衝撃音であるときに予測した位相を、入力信号が音声でも衝撃音でもないときに入力信号の位相を、補正位相として出力する。

制御データ生成部９０１は、音声フラグと衝撃音フラグを受けて、制御データを出力する。制御データ生成部９０１は、音声フラグが１であるときに１を、音声フラグが０で衝撃音フラグが１であるときに０を、音声フラグと衝撃音フラグの双方が０のときに１を出力する。音声フラグと衝撃音フラグの双方が０のときには、入力信号のパワーは大きくない。したがって、出力信号に対する影響は無視できるので、音声フラグと衝撃音フラグの双方が０のときに０を出力してもよい。その場合、衝撃音フラグの値によらず、音声フラグが１であれば１が、音声フラグが０であれば０が、制御データ生成部９０１の出力となる。すなわち、制御データ生成部９０１は、音声フラグだけを受けて、音声フラグが１のときは１を、音声フラグが０のときは０を、制御データとして出力するように構成してもよい。

位相保持部９０２は、位相補正部３０３の出力である補正位相を受けて、これを保持する。位相予測部９０３は、位相保持部９０２が保持している位相を受けて、これを用いて現在の位相を予測する。周波数ｆ、サンプリング周波数Ｆｓ、フレームシフトがＭサンプルとすると、隣接フレーム間の時間ずれは、Ｍ／Ｆｓ秒となる。位相は１秒で２πｆ進むので、フレームｋにおける位相をθｋ、フレームｋ－１における位相をθｋ－１とすると、
θｋ＝θｋ－１＋２πｆＭ／Ｆｓ
となる。すなわち、位相保持部９０２に保持されている位相はθｋ－１、位相予測部９０３の出力する予測位相はθｋである。

スイッチ９０４は、制御データ生成部９０１から供給される制御データが１のときに入力信号の位相を、制御データ生成部９０１から供給される制御データが０のときに予測した位相を選択して、補正位相として出力する。

以上説明した動作によって、位相補正部３０３は、入力信号が音声であるときに入力信号の位相を、入力信号が音声でなく衝撃音であるときに予測した位相を、入力信号が音声でも衝撃音でもないときに入力信号の位相を、補正位相として出力する。

このような構成により、信号処理装置２００は、混在信号に含まれる目的信号に記憶部２０１から供給される音響信号を合成した合成信号を生成することができる。

［第３実施形態］
次に本発明の第３実施形態に係る信号処理装置について、図１０を用いて説明する。本実施形態に係る信号処理装置は、図３の抽出部２２１よりも単純化された構成を有する抽出部１０００を有する点で第２実施形態と異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

図１０に示すように、抽出部１０００は、図３の抽出部２０１に存在する位相補正部３０３、衝撃音検出部３０７が存在しない。

このため、衝撃音を検出して、検出したときに位相を補正することがない。入力信号に衝撃音が含まれないときには位相の補正は不要である。したがって、衝撃音が入力に含まれないときには、第２実施形態の信号処理装置は、第１実施形態と比較して、簡単な構成で同等の効果を奏することができる。

［第４実施形態］
本発明の第４実施形態としての信号処理装置について、図１１を用いて説明する。本実施形態に係る信号処理装置は、図２に示した信号処理部２０２を、図１１の信号処理部１１０２に置き換えた構成を有する。

図１１に示すように、信号処理部１１０２は、目的信号と背景信号を含む混合信号を受け、背景信号を別の音響信号に置き換えた後、これを合成信号として出力する。分離部１１２１は、目的信号と背景信号を含む混合信号を受け、目的信号と背景信号を分離する。置換部１１２２は、背景信号と新たな音響信号を受けて、新たな音響信号を置換背景信号として出力する。合成部１１２３は、目的信号と置換背景信号を受けて、目的信号と置換背景信号を合成し、合成信号として出力する。

図１２は、図１１の分離部１１２１の構成例を表す図である。分離部１１２１は、図１２に示すように、抽出部１２０１、および推定部１２０２を含む構成を有する。

抽出部１２０１は、混合信号を受けて、目的信号を抽出する。抽出部１２０１は、一般にノイズサプレッサと呼ばれる構成を有している。ノイズサプレッサの詳細は、特許文献２、特許文献３、非特許文献１、非特許文献２などに開示されている。また、抽出部１２０１の内部構成は、図３に示した抽出部２２１、または図１０に示した抽出部１０００と同様でもよい。

推定部１２０２は、混合信号と目的信号とに基づいて、背景信号を推定する。混合信号は目的信号と背景信号の和であり、目的信号と背景信号が無相関であると仮定すれば、混合信号のパワーは目的信号のパワーと背景信号のパワーの和である。したがって、推定部１２０２では、混合信号のパワーと目的信号のパワーを求め、前者から後者を差し引くことで、背景信号のパワーを求める。推定部１２０２は、得られた減算結果に混合信号の位相を組み合わせて、背景信号を求める。また、推定部１２０２は、混合信号から抽出部１２０１の出力である目的信号を単純減算した結果を背景信号としてもよい。推定部１２０２の処理は、時間領域で行ってもよいし、フーリエ変換などを用いて信号を周波数領域に変換してから周波数領域で行ってもよい。周波数領域で処理を実行した際には、パワーと位相を組み合わせた後に、時間領域信号に変換する。

［第５実施形態］
本発明の第５実施形態としての信号処理装置について、図１３を用いて説明する。本実施形態に係る信号処理装置は、図１２に示した分離部１１２１を、図１３の分離部１３００に置き換えた構成を有する。

図１３に示すように、分離部１３００は、抽出部１３０１、および推定部１３０２を含む。抽出部１３０１は、複数の混合信号を受けて、指向性に基づいて目的信号を抽出し、出力する。複数の混合信号は、直線上に等間隔に配置された複数のセンサで取得されたもので、各々のセンサの位置関係に従って、位相と振幅が異なる。なお、直線の代わりに円状や円弧状に配置されたり、センサ間隔がそれぞれ異なる場合には、円や円弧を直線に変換したり、センサ間隔を補正したりする追加の処理を行うことで、取得した信号を利用することができる。抽出部１３０１は、一般にビームフォーマと呼ばれる構成を有している。ビームフォーマの詳細は、特許文献４、特許文献５、非特許文献３などに開示されている。分離部１３００としては、非特許文献５に示される位相差に基づくフィルタリングを適用してもよい。

推定部１３０２は、複数の混合信号と目的信号を受けて、背景信号を求める。推定部１３０２を推定部１２０２と比べると、推定部１３０２は複数の混合信号を受けて、まずこれを単一の混合信号に統合する点で異なる。その他の構成および動作は、推定部１２０２と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

単一の混合信号としては、複数の混合信号のうち、いずれか任意のものを選択して用いることができる。あるいは、これらの信号に関する統計値を用いてもよい。統計値としては、平均値、最大値、最小値、中央値などを用いることができる。平均値と中央値は、複数のセンサの中央に存在する仮想センサにおける信号を与える。最大値は、信号が正面以外の方向から到来するときに、信号までの距離が最短であるセンサにおける信号を与える。最小値は、信号が正面以外の方向から到来するときに、信号までの距離が最長であるセンサにおける信号を与える。さらに、これらの信号の単純加算を用いることもできる。あるいは、非特許文献４に示されるアレイ信号処理のいずれかを適用してもよい。アレイ信号処理としては、遅延和ビームフォーマ、フィルタ和ビームフォーマ、ＭＳＮＲ（Maximum Signal-to-Noise Ratio）ビームフォーマ、ＭＭＳＥ（Minimum Mean Square Error）ビームフォーマ、ＬＣＭＶ（Linearly Constrained Minimum Variance）ビームフォーマ、入れ子（Nested）ビームフォーマなどを含むが、これらに限定されない。このようにして計算された値を、単一の混合信号とする。

推定部１３０２は、統合によって得られた単一の混合信号と目的信号を受けて、推定部１２０２と同じ方法で、背景信号を求める。

このような構成により、第４実施形態の効果に加えて、分離部が指向性を利用して目的信号を抽出した後で背景信号を分離するので、特に特定方向から到来する信号を含む混合信号に対して高性能な信号処理装置を提供することができる。

［第６実施形態］
本発明の第６実施形態としての信号処理装置について、図１４を用いて説明する。本実施形態に係る信号処理装置は、図１２に示した分離部１１２１を、図１４の分離部１４００に置き換えた構成を有する。分離部１４００は、分離部１１２１と比べると、抽出部１２０１が抽出部１４０１に置き換えられている点において異なる。その他の構成および動作は、分離部１１２１と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

抽出部１４０１は、混合信号と、背景信号と相関のある参照信号を受けて、目的信号を抽出する。抽出部１４０１は、一般にノイズキャンセラと呼ばれる構成を有している。ノイズキャンセラの詳細は、特許文献６、特許文献７、非特許文献６などに開示されている。

このような構成により、本実施形態によれば、参照信号を利用して目的信号を抽出した後で背景信号を分離するので、特に拡散性信号を含む混合信号に対して高性能な信号処理装置を提供することができる。

［第７実施形態］
本発明の第７実施形態としての信号処理装置について、図１５を用いて説明する。本実施形態に係る信号処理装置は、図２に示した第２実施形態と比べると、選択情報を入力する選択部１５０１が追加されている点において異なる。その他の構成および動作は、第１実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

図１５に示すように、選択部１５０１は、記憶部２０１から音響信号を受け、このうちの特定の音響信号を選択情報に基づいて選択して選択音響信号を生成する。記憶部２０１から受けた音響信号のうち、どの音響信号を選択するかは、選択情報によって決定される。記憶部２０１には、多くの音響信号２１１が記憶されている。例えば、鳥の声や、せせらぎや、町の雑踏、あるいは広告音声などが挙げられる。また、選択部１５０１には、人工知能が組み込まれており、ユーザの過去の行動履歴などに基づいて、最適と思われる音響信号を記憶部２０１から選択してもよい。

このような構成により、本実施形態によれば、記憶部に記憶された複数の音響信号のうち適切なものを選択情報に従って選択して背景信号と置換することができるので、利用者の意図やその場の状況に応じた背景信号を選択して、目的信号と合成することができる。

［第８実施形態］
次に本発明の第８実施形態に係る信号処理装置について、図１６を用いて説明する。図１６は、本実施形態に係る信号処理装置１６００の構成を説明するための図である。本実施形態に係る信号処理装置１６００は、上記第７実施形態と比べると、補正部１６０１を有する点で異なる。その他の構成および動作は、第７実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

図１６に示すように、補正部１６０１は、選択部１５０１から選択音響信号を受け、これを補正して補正音響信号を信号処理部２０２に伝達する。選択音響信号をどの程度補正するかは、第１補正情報によって決定される。例えば、補正部１６０１で選択音響信号を２．５倍して補正音響信号としたいときは、第１補正情報として２．５を供給する。第１補正情報は、複数の周波数において異なった値であってもよい。

このような構成により、本実施形態によれば、選択音響信号を第１補正情報によって補正してから背景信号と置換することができるので、合成信号における目的信号と背景信号の振幅またはパワーの関係を、利用者の意図やその場の状況に応じて適切に設定することができる。

［第９実施形態］
本発明の第９実施形態としての信号処理装置について、図１７を用いて説明する。本実施形態に係る信号処理装置１７００は、図１６に示した第８実施形態と比べると、分析部１７０１が追加されて、信号処理部２０２が信号処理部１７０３で置換されている点において異なる。その他の構成および動作は、第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

図１７に示すように、信号処理部１７０３は、信号処理部２０２と同様の構成で同様に動作するが、混合信号から分離した目的信号を、外部へ供給する点において異なる。

分析部１７０１は、信号処理部１７０３から目的信号を受けて、その振幅またはパワーを求める。分析部１７０１は、さらに第２補正情報を受けて、目的信号の振幅またはパワーと第２補正情報から第１補正情報を求める。

図１６に示した第８実施形態では、外部から与えられた第１補正情報によって選択音響信号の補正程度を規定するが、本実施形態では外部から与えられた第２補正情報と分析部１７０１で目的信号を分析して得られた振幅またはパワーを用いて、第１補正情報を計算する。第２補正情報は、例えば、合成信号における目的信号と置換背景信号の比（目的信号対背景信号比）である。目的信号対背景信号比と目的信号の振幅またはパワーが既知であれば、背景信号の取るべき振幅またはパワーは容易に求めることができる。記憶部２０１に格納されている音響信号の振幅またはパワーは既知なので、背景信号のとるべき振幅またはパワーと音響信号の振幅またはパワーから、第１補正情報を計算することができる。

図１８は、信号処理部１７０３の構成例を表す図である。信号処理部１７０３は、図２に示す信号処理部２０２と同様の構成で同様に動作するが、混合信号から抽出した目的信号を、外部へ供給する点において異なる。その他の構成および動作は、第７実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

図１９は、信号処理部１７０３の別の構成例を表す図である。信号処理部１９００は、図１１に示す信号処理部１１０２と同様の構成で同様に動作するが、混合信号から分離した目的信号を、外部へ供給する点において異なる。その他の構成および動作は、第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

このような構成により、本実施形態によれば、外部から与えられた第２補正情報と目的信号を分析して得られた振幅またはパワーを用いて第１補正情報を求め、選択音響信号を第１補正情報によって補正してから背景信号と置換することができる。その結果、合成信号における目的信号と背景信号の振幅またはパワーの関係を、利用者の意図やその場の状況に応じて適切に設定することができる。

［第１０実施形態］
本発明の第１０実施形態としての信号処理装置について、図２０を用いて説明する。本実施形態に係る信号処理装置２０００は、図１７に示した第９実施形態と比べると、分析部１７０１が分析部２００１で、信号処理部１７０３が信号処理部２００３で置換されている点において異なる。その他の構成および動作は、第９実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

分析部２００１は、信号処理部２００３から分離された背景信号を受けて、その振幅またはパワーを求める。記憶部２０１に格納されている音響信号の振幅またはパワーは既知なので、背景信号のとるべき振幅またはパワーと音響信号の振幅またはパワーから、第１補正情報を計算することができる。第１補正情報は、補正音響信号の振幅またはパワーが背景信号の振幅またはパワーと等しくなるように計算することもできるし、意図的に一方が他方の定数倍になるように計算することもできる。

図２１は、信号処理部２００３の構成例を表す図である。信号処理部２００３は、信号処理部１１０２と同様の構成で同様に動作するが、混合信号から分離した背景信号を、外部へ供給する点において異なる。その他の構成および動作は、第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

［第１１実施形態］
本発明の第１１実施形態としての信号処理装置について、図２２、および図２３を用いて説明する。図２２は、本実施形態にかかる信号処理装置２２００をソフトウェアを用いて実現する場合のハードウェア構成について説明する図である。

信号処理装置２２００は、プロセッサ２２１０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２２２０、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２４０、ストレージ２２５０、入出力インタフェース２２６０、操作部２２６１、入力部２２６２、および出力部２２６３を備えている。プロセッサ２２１０は中央処理部であって、様々なプログラムを実行することにより信号処理装置２２００全体を制御する。

ＲＯＭ２２２０は、プロセッサ２２１０が最初に実行すべきブートプログラムの他、各種パラメータ等を記憶している。ＲＡＭ２２４０は、不図示のプログラムロード領域の他に、混合信号２２４１（入力信号）、目的信号（推定値）２２４２、背景信号（推定値）２２４３、音響信号２２４４、合成信号２２４５（出力信号）等を記憶する領域を有している。

また、ストレージ２２５０は、信号処理プログラム２２５１を格納している。信号処理プログラム２２５１は、分離・抽出モジュール２２５１ａ、選択モジュール２２５１ｂ、分析モジュール２２５１ｃ、補正モジュール２２５１ｄ、合成モジュール２２５１ｅを含んでいる。信号処理プログラム２２５１に含まれる各モジュールをプロセッサ２２１０が実行することにより、図１の信号処理部１０２、図２の抽出部２２１および合成部２２２など、上述した実施形態に含まれる各機能を実現できる。

プロセッサ２２１０が実行した信号処理プログラム２２５１に関する出力である合成信号２２４５は、入出力インタフェース２２６０を介して出力部２２６３から出力される。これにより、例えば、入力部２２６２から入力した混合信号２２４１に含まれる目的信号以外の背景信号を別の音響信号で置換することができる。

図２３は、信号処理プログラム２２５１によって実行される処理の一例を説明するためのフローチャートである。この一連の処理は、図１７で説明した信号処理装置１７００と同様の機能を実現するものである。ステップＳ２３１０では、目的信号と背景信号を含む混合信号２２４１が分離・抽出モジュール２２５１ａに供給され、ステップＳ２３２０では、分離・抽出モジュール２２５１ａが目的信号を抽出する。

次にステップＳ２３３０において、選択モジュール２２５１ｂを実行することにより、選択情報を用いて音響信号を選択する。次にステップＳ２３４０において、分析モジュール２２５１ｃを実行することにより、第２補正情報と目的信号から第１補正情報（音響信号のレベル）を計算する。ステップＳ２３５０において、補正モジュール２２５１ｄを実行することにより、選択音響信号を第１補正情報で補正する。ステップＳ２３６０で、合成モジュール２２５１ｅを実行することにより目的信号と補正選択音響信号を合成する。これらの処理において、Ｓ２３２０とＳ２３３０、およびＳ２３３０とＳ２３４０の処理順序は、交換が可能である。

図２４は、信号処理プログラム２２５１による他の処理の流れを説明するためのフローチャートである。図２３で説明した処理との違いは、ステップＳ２４２０において、目的信号と背景信号とを分離する点と、ステップＳ２４６０において、背景信号を補正選択音響信号で置換する点にある。他の処理は、図２３と同様であるため、同じ処理については同じ符号を付して説明を省略する。

図２３および図２４では、本実施形態に係る信号処理装置において、上述の信号処理部１７０３および信号処理部１９００とした構成をソフトウェアで実現する場合の処理の流れの一例を説明した。しかし、第１乃至第９実施形態のいずれの実施形態に関しても、各々のブロック図における違いを適宜省略および追加することで、同様にソフトウェアで各実施形態を実現できる。

このような構成により、信号処理装置は、元の背景信号とは異なる音響信号と目的信号の混在した合成信号を生成することができる。

［第１２実施形態］
次に本発明の第１２実施形態に係る音声通話端末について、図２５を用いて説明する。図２５は、本実施形態に係る音声通話端末２５００の構成を説明するための図である。本実施形態に係る音声通話端末２５００は、マイク２５０１と、送信部２５０２の他に、上記第１～第１１実施形態で説明した信号処理装置のいずれかを備えている。ここでは信号処理装置１００を備えているもの仮定して説明を進める。

マイク２５０１は、混合信号を入力し、信号処理装置１００は、入力した混合信号に含まれる目的信号としてのユーザ音声信号と、あらかじめ用意していた音響信号と合成し、送信部１１０２は、合成された合成信号を、他の音声通話端末に送信する。

音声通話端末２５００は、インターネット上にある音響データベース２５５０から、音響データをダウンロードしてもよい。その際、ユーザに対して課金を行なう仕組みであってもよい。

さらに、音声通話端末２５００は、音響信号を選択する条件を設定するための音響信号選択データベース２５０３を有してもよい。音響信号選択データベース２５０３の一例を図２６に示す。

音響信号選択データベース２５０３は、基本的に、個々の通話相手に対応して音響信号を設定することができる。しかし、例えば、家族との通話の際に付加する音響信号、友人との通話の際に付加する音響信号、職場との通話の際に付加する音響信号など、グループ化した通話相手に対応する音響信号を設定してもよい。

また、様々な通話状況に応じて合成する音響信号を選択してもよい。例えばユーザの体調が悪い場合には、通話相手に拘わらず、「○○は体調が悪いため声が出ません。ご用件はメールでお願い致します」といった緊急音響信号（ここではaaa.mp3）を合成して送信してもよい。この場合、音声通話端末２５００と不図示のウェアラブル端末とを連動させることにより、ユーザの体調を自動で管理してもよい。

その他、午前中の通話にはこの音響信号を付加する、自宅からの通話にはこの音響信号を付加する、自動車運転中や自転車走行中などの通話にはこの音響信号を付加する、と言った設定を行なうことも可能である。

以上、本実施形態によれば、様々な状況において、通話中の背景音を、自由に変更して通話相手に聞かせることが可能となる。

［第１３実施形態］
次に本発明の第１３実施形態に係る音声通話端末について、図２７を用いて説明する。図２７は、本実施形態に係る音声通話端末２７００の構成を説明するための図である。本実施形態に係る音声通話端末２７００は、受信部２７０１と、音声出力部２７０２の他に、上記第１～第１１実施形態で説明した信号処理装置のいずれかを備えている。ここでは信号処理装置１００を備えているもの仮定して説明を進める。

受信部２７０１は、他の音声通話端末から混合信号と通話相手を示す情報とを受信し、信号処理装置１００は、受信した混合信号に含まれる目的信号としてのユーザ音声信号と、あらかじめ用意していた音響信号と合成し、音声出力部２７０２は、合成された合成信号を、音声出力する。

合成に用いる音響信号は、第１２実施形態と同様に、時刻、位置、環境、受信者の体調に応じて選択することもできるし、合成する際の信号レベルも適切に設定することができる。その目的で、図２６に示す表に相当するデータを準備する。

本実施形態によれば、第１２実施形態と同様に、通話相手に応じて好みの背景音を聞きながら通話を楽しむことが可能となる。

［他の実施形態］
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）は本発明の範疇に含まれる。

［実施形態の他の表現］
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
音響信号を記憶する記憶部と、
少なくとも一つの目的信号を含む混合信号を受信して、前記記憶部に記憶された音響信号と前記目的信号とを合成する信号処理部と、
を備えた信号処理装置。
（付記２）
前記記憶部は前記音響信号を複数種類記憶し、
前記目的信号を合成すべき音響信号を前記記憶部から選択する選択部をさらに備えた付記１に記載の信号処理装置。
（付記３）
前記目的信号と合成する前に、前記記憶部から読み出した前記音響信号のレベルを補正する補正部をさらに備えた付記１または２に記載の信号処理装置。
（付記４）
前記補正部は、前記混合信号に含まれる前記目的信号のレベルに応じて、前記記憶部から読み出した前記音響信号のレベルを補正する付記３に記載の信号処理装置。
（付記５）
前記信号処理部は、前記混合信号を前記目的信号と、それ以外の背景信号とに分離する分離部を含み、
前記補正部は、前記混合信号に含まれる前記背景信号のレベルに応じて、前記記憶部から読み出した前記音響信号のレベルを補正する付記３に記載の信号処理装置。
（付記６）
前記補正部は、外部から指定された前記目的信号と前記音響信号の比に基づいて、前記音響信号のレベルを補正する付記４または５に記載の信号処理装置。
（付記７）
付記１乃至６のいずれかに記載の信号処理装置を内蔵する音声通話端末において、
前記混合信号を入力するマイクを備え、
前記信号処理部は、入力した前記混合信号に含まれる前記目的信号としてのユーザ音声信号と、あらかじめ用意していた前記音響信号と合成し、
合成された合成信号を送信する送信部をさらに備えた音声通話端末。
（付記８）
前記信号処理部は、通話相手または通話状況に応じて、合成する前記音響信号を選択する付記７に記載の音声通話端末。
（付記９）
付記１乃至６のいずれかに記載の信号処理装置を内蔵する音声通話端末において、
発呼側音声通話端末から前記混合信号を受信する受信部を備え、
前記信号処理部は、受信した前記混合信号に含まれる前記目的信号としてのユーザ音声信号と、あらかじめ用意していた前記音響信号と合成し、
合成された合成信号を音声出力する音声出力部をさらに備えた音声通話端末。
（付記１０）
少なくとも一つの目的信号を含む混合信号を受信する受信ステップと、
あらかじめ記憶された音響信号と前記目的信号とを合成する信号処理ステップと、
を含む信号処理方法。
（付記１１）
少なくとも一つの目的信号を含む混合信号を受信する受信ステップと、
あらかじめ記憶された音響信号と前記目的信号とを合成する信号処理ステップと、
をコンピュータに実行させる信号処理プログラム。

Claims

音響信号を記憶する記憶部と、
少なくとも一つの目的信号と背景信号とを含む混合信号を受信して、前記記憶部に記憶された複数の音響信号から、通話相手または通話状況に応じて１つの音響信号を選択し、選択された１つの音響信号を前記背景信号の定数倍にして、前記背景信号の定数倍にされた前記音響信号と前記目的信号とを合成する信号処理部と、
を備えた信号処理装置。
前記記憶部は前記音響信号を複数種類記憶し、
前記目的信号を合成すべき音響信号を前記記憶部から選択する選択部をさらに備えた請求項１に記載の信号処理装置。
前記目的信号と合成する前に、前記記憶部から読み出した前記音響信号のレベルを補正する補正部をさらに備えた請求項１または２に記載の信号処理装置。
前記補正部は、前記混合信号に含まれる前記目的信号のレベルに応じて、前記記憶部から読み出した前記音響信号のレベルを補正する請求項３に記載の信号処理装置。
前記信号処理部は、前記混合信号を前記目的信号と、前記背景信号とに分離する分離部を含み、
前記補正部は、前記混合信号に含まれる前記背景信号のレベルに応じて、前記記憶部から読み出した前記音響信号のレベルを補正する請求項３に記載の信号処理装置。
前記補正部は、外部から指定された前記目的信号と前記音響信号の比に基づいて、前記音響信号のレベルを補正する請求項４または５に記載の信号処理装置。
請求項１乃至６のいずれかに記載の信号処理装置を内蔵する音声通話端末において、
前記混合信号を入力するマイクを備え、
前記信号処理部は、入力した前記混合信号に含まれる前記目的信号としてのユーザ音声信号と、前記背景信号の定数倍にされた前記音響信号とを合成し、
合成された合成信号を送信する送信部をさらに備えた音声通話端末。
請求項１乃至６のいずれかに記載の信号処理装置を内蔵する音声通話端末において、
発呼側音声通話端末から前記混合信号を受信する受信部を備え、
前記信号処理部は、受信した前記混合信号に含まれる前記目的信号としてのユーザ音声信号と、前記背景信号の定数倍にされた前記音響信号とを合成し、
合成された合成信号を音声出力する音声出力部をさらに備えた音声通話端末。
受信部が、少なくとも一つの目的信号と背景信号とを含む混合信号を受信する受信ステップと、
信号処理部が、あらかじめ記憶された複数の音響信号のうち、通話相手または通話状況に応じて１つの音響信号を選択し、選択された１つの音響信号を前記背景信号の定数倍にして、前記背景信号の定数倍にされた前記音響信号と前記目的信号とを合成する信号処理ステップと、
を含む信号処理方法。
少なくとも一つの目的信号と背景信号とを含む混合信号を受信する受信ステップと、
あらかじめ記憶された複数の音響信号のうち、通話相手または通話状況に応じて１つの音響信号を選択し、選択された１つの音響信号を前記背景信号の定数倍にして、前記背景信号の定数倍にされた前記音響信号と前記目的信号とを合成する信号処理ステップと、
をコンピュータに実行させる信号処理プログラム。