JP6729187B2

JP6729187B2 - 音声処理プログラム、音声処理方法及び音声処理装置

Info

Publication number: JP6729187B2
Application number: JP2016168628A
Authority: JP
Inventors: 紗友梨香村; 太郎外川; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2020-07-22
Anticipated expiration: 2036-08-30
Also published as: US20180061436A1; EP3291228A1; JP2018036442A; US10607628B2; EP3291228B1

Description

本発明は、音声処理プログラム、音声処理方法及び音声処理装置に関する。

音声認識や音声分析のニーズが高まり、話者が発した音声を正確に分析する技術が求められている。音声分析の技術の一つにバイナリマスキングという方法がある。バイナリマスキングでは、複数の入力装置で得られる音声それぞれについて周波数解析を行い、周波数成分毎に信号レベルの大きさを比較して、信号レベルが大きい目的音の入力と小さい非目的音（目的音以外の雑音等）の入力の特定を行い、非目的音を除去することにより、目的音の分析を行う。

特開２００９−２０４７１号公報

しかしながら、周辺環境が変化することによって、音声の周波数スペクトルに変化が生じて、目的音と非目的音の大小が逆転することがあり、目的音と非目的音の分離精度が低下する場合があり、結果として音声分析を誤ることがある。

一つの側面では、本発明は、音声分析の精度を向上することを目的とする。

一つの実施態様では、複数の入力装置それぞれに入力される音声信号を変換して複数の周波数スペクトルを生成し、複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、複数の周波数スペクトルに含まれる特定の周波数スペクトルとは異なる１または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、特定の周波数スペクトルの振幅が１または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、抽出した周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、複数の入力装置それぞれに入力される音声に対応する出力を制御する。

一つの側面では、音声の分析の精度を向上することができる。

第１の実施形態に係る音声処理装置の構成例を示す図である。第１の実施形態に係る音声処理装置の処理フローを示す図である。抑圧量算出関数のグラフを示す図である。第２の実施形態に係る音声処理装置の構成例を示す図である。第２の実施形態に係る音声処理装置の処理フローを示す図である第３の実施形態に係る音声処理装置の構成例を示す図である。第３の実施形態に係る音声処理装置の処理フローを示す図である。第４の実施形態に係る音声処理装置の構成例を示す図である。第４の実施形態に係る音声処理装置の処理フローを示す図である。音声処理装置のハードウェア構成例を示す図である。

以下、図面を参照しながら、第１の実施形態に係る音声処理装置１００について説明する。

音声処理装置１００は、複数の入力装置から受信した音声信号を周波数解析し、複数の周波数スペクトルを生成する。音声処理装置１００は、各周波数スペクトルについて、他の周波数スペクトルとの間で同じ周波数同士の信号レベルの比較を行う。なお、比較する対象の周波数は予め定められた特定の周波数としても良いし、推定した雑音スペクトルとの関係で求めても良い。音声処理装置１００は、各周波数における信号レベルの比較結果に基づいて、各周波数スペクトルに対する抑圧量を算出する。そして音声処理装置１００は、算出した抑圧量を用いて抑圧処理を行い、その結果を反映した音声信号を出力する。第１の実施形態に係る音声処理装置１００は、例えば、ボイスレコーダー等に備えられる。

図１は第１の実施形態に係る音声処理装置１００の構成例を示す図である。

図１に示すように、第１の実施形態に係る音声処理装置１００は、入力部１０１、周波数解析部１０２、雑音推定部１０３、算出部１０４、制御部１０５、変換部１０６、出力部１０７、記憶部１０８を有する。算出部１０４は、対象周波数算出部１０４ａ、占有周波数算出部１０４ｂ、占有率算出部１０４ｃ、抑圧量算出部１０４ｄを有する。

入力部１０１は、マイクなどの複数の入力装置から音声を受信する。入力部１０１は、受信した音声をアナログ／デジタル変換器により音声信号へ変換する。ただし、すでにデジタル化した信号を受信しても良い。その際はアナログ／デジタル変換は省略して良い。

周波数解析部１０２は、入力部１０１から取得する音声信号を周波数解析する。周波数解析の方法について以下に説明する。周波数解析部１０２は、入力部１０１でデジタル化した音声信号を、所定長Ｔ（例えば１０ｍｓｅｃ）の長さのフレーム単位に分割する。そして周波数解析部１０２は、フレーム毎に音声信号を周波数解析する。周波数解析部１０２は、例えば、短時間離散フーリエ変換（ＳＴＦＴ：ＳｈｏｒｔＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行い、音声信号を周波数解析する。ただし、音声信号を周波数解析する方法は上述の方法に限定されない。

雑音推定部１０３は、周波数解析部１０２で算出した周波数スペクトルに含まれる雑音スペクトルの推定を行う。雑音スペクトルとは、音声信号が入力装置に入力されていない場合に、入力装置が検出する信号に対応したスペクトルである。雑音スペクトルを算出する方法として、例えば、スペクトルサブトラクション法がある。ただし、雑音推定部１０３による雑音スペクトルの算出方法は、上述のスペクトルサブトラクション法に限定されない。

算出部１０４の対象周波数算出部１０４ａは、音声分析の対象とする周波数（以降、対象周波数と称する）を特定する。対象周波数とは、音声処理装置１００に入力された音声に対する抑圧量を算出するために用いる周波数である。具体的には、対象周波数算出部１０４ａは、所定の間隔でサンプリングした周波数毎に、入力された周波数スペクトルと推定した雑音スペクトルとについて、振幅の比較を行う。そして対象周波数算出部１０４ａは、サンプリングした周波数の内、振幅の差が所定の値以上である周波数を対象周波数とする。そして対象周波数算出部１０４ａは、前述の方法により特定した対象周波数の数を計数して、その総数を対象周波数の総数とする。なお、上述した処理を省略し、予め定めた周波数を対象周波数とし、対象周波数を計数し、その総数を対象周波数の総数としても良い。

占有周波数算出部１０４ｂは、対象周波数算出部１０４ａで算出した各対象周波数について、入力された複数の周波数スペクトルのうち最も大きい信号レベルを有する周波数スペクトルを特定する。そして占有周波数算出部１０４ｂは、複数の周波数スペクトルそれぞれが、最も大きい信号レベルを示す周波数スペクトルとして特定された回数を計数してその総数を各周波数スペクトルにおける占有周波数の総数とする。ここで、占有周波数の総数を算出する際、最も大きい信号レベルを示す対象周波数のみを計数して占有周波数の総数とする必要はなく、周波数スペクトル毎に信号レベルが所定値以上の対象周波数の数を計数して占有周波数の総数としても良い。

占有率算出部１０４ｃは、各周波数スペクトルについて対象周波数算出部１０４ａで算出した対象周波数の総数と、占有周波数算出部１０４ｂで算出した占有周波数の総数とに基づき、対象周波数の総数に占める占有周波数の総数の割合である占有率を算出する。そのため、占有率が大きい周波数スペクトルである程、その周波数スペクトルに対応する音声が目的音である可能性が高い。

抑圧量算出部１０４ｄは、占有率算出部１０４ｃで求めた所定の占有率を抑圧量算出関数に代入し、複数の周波数スペクトルそれぞれに対する抑圧量を算出する。抑圧量算出部１０４ｄは、周波数スペクトルの占有率が大きくなるほど、抑圧量をより小さくし、占有率が小さくなるほど、抑圧量をより大きくする。

制御部１０５は、周波数解析部１０２で生成した周波数スペクトルに抑圧量算出部１０４ｄで算出した抑圧量を乗じ、複数の周波数スペクトルに対し抑圧制御を行う。（以降、抑圧制御を行った周波数スペクトルを推定スペクトルと称する。）
変換部１０６は、制御部１０５で抑圧制御を行った周波数スペクトル（推定スペクトル）を短時間離散フーリエ逆変換し、逆変換して得られた音声信号を出力する。（以降、推定スペクトルを短時間離散フーリエ逆変換した音声信号を推定音声信号と称する。）
出力部１０７は、変換部１０６で変換された音声信号の出力を行う。

記憶部１０８は、各機能部で算出した情報や処理に関する情報を記憶する。記憶部１０８は、具体的には、入力装置から入力された音声、入力部１０１で変換した音声信号、周波数解析部１０２で解析した周波数スペクトル、雑音推定部１０３で推定した雑音スペクトル、算出部１０４で算出したスペクトル、対象周波数、対象周波数の総数、占有周波数の総数、占有率、抑圧量、制御部１０５で抑圧制御して生成した推定スペクトル、変換部１０６で変換した推定音声信号等、各機能部で処理を行う際に必要な情報を記憶する。

なお、音声処理装置１００は、入力された音声信号に対応する全てのフレームに対して抑圧制御を行って音声信号を出力したかどうかの判定を行っても良い。具体的には、音声処理装置１００は、全てのフレームに対して抑圧制御が終了していないと判定した場合には、残りのフレームに対し上述した一連の処理を行う。また、音声処置装置１００は、入力部１０１の入力を監視し、音声の入力が所定時間以上行われない場合に抑圧制御が終了したと判定し、入力部１０１を除いて各部の動作を停止しても良い。

続いて、第１の実施形態に係る音声処理装置１００の処理フローについて説明する。

図２は第１の実施形態に係る音声処理装置１００の処理フローを示す図である。例えば、Ｎ個の入力装置（２≦Ｎ）から音声信号を受信した場合に、第ｎの入力装置から受信した音声信号ｘｎ（ｔ）（１≦ｎ≦Ｎ）に対する抑圧制御を行う際の処理について説明する。

第１の実施形態に係る音声処理装置１００は、入力部１０１で入力装置から音声信号ｘｎ（ｔ）を受信した後（ステップＳ２０１）、周波数解析部１０２で、音声信号ｘｎ（ｔ）を周波数解析して、周波数スペクトルＸｎ（ｌ，ｆ）を算出する（ステップＳ２０２）。ｌはフレーム番号、ｆは周波数を示す。周波数解析の方法は、例えば、周波数解析部１０２で説明した方法を用いる。

音声処理装置１００の雑音推定部１０３は、音声信号を周波数解析部１０２で算出した周波数スペクトルから雑音スペクトルＮｎ（ｌ，ｆ）の推定を行う（ステップＳ２０３）。雑音推定スペクトルの算出方法は、例えば、雑音推定部１０３で挙げたスペクトルサブトラクション法である。算出部１０４の対象周波数算出部１０４ａは、周波数解析部１０２で周波数解析した周波数スペクトルＸｎ（ｌ，ｆ）と雑音推定部１０３で推定した雑音スペクトルＮｎ（ｌ，ｆ）に基づき対象周波数の算出を行う。対象周波数の算出方法として、例えば、有音判定閾値（ＳＮＴＨ：Ｓｉｇｎａｌ−ＮｏｉｓｅＴｈｒｅｓｈｏｌｄ））を設定し、周波数スペクトルＸｎ（ｌ，ｆ）の各周波数ｆにおいて、（数１）に該当する周波数である場合には、対象周波数であると判定する。
（数１）
Ｘｎ（ｌ，ｆ）−Ｎｎ（ｌ，ｆ）＞ＳＮＴＨ
音声処置端末１００の対象周波数算出部１０４ａは、（数１）に示すように、周波数スペクトルと雑音スペクトルの振幅の差がＳＮＴＨよりも大きい場合に、対象周波数であると判定する。有音判定閾値は、予めユーザからの設定を受け付けておいても良く、周波数スペクトルと雑音スペクトルの差に基づき算出しても良い。算出の方法としては、例えば、フレームにおける周波数スペクトルと雑音スペクトルの差分の平均値をＳＮＴＨと設定する。

音声処理装置１００の対象周波数算出部１０４ａは、対象周波数ｆｌｍの総数を対象周波数の総数Ｍとして算出する（ステップＳ２０４）。ｆｌｍは、音声分析の対象であると判定したｌフレームにおけるｍ番目（１≦ｍ≦Ｍ）の周波数ｆを示す。そして、音声処理装置１００の占有周波数算出部１０４ｂは、対象周波数算出部１０４ａで算出した対象周波数のそれぞれに対し、複数の周波数スペクトルＸｍ（ｌ，ｆ）毎のｌフレームにおける占有周波数の総数ｂｎ（ｌ）を算出する（ステップＳ２０５）。音声処理装置１００の占有周波数算出部１０４ｂが、周波数スペクトルＸｎ（ｌ，ｆ）の占有周波数の総数ｂｎ（ｌ）を算出する際の式を（数２）に示す。
（数２）

音声処理装置１００の占有率算出部１０４ｃは、対象周波数算出部１０４ａで算出した対象周波数の総数Ｍと、占有周波数算出部１０４ｂで算出した占有周波数の総数ｂｎ（ｌ）に基づき、周波数スペクトルＸｎ（ｌ，ｆ）毎のｌフレームにおける占有率ｓｈｎ（ｌ）を算出する（ステップＳ２０６）。占有率ｓｈｎ（ｌ）を算出する際の式を（数３）に示す。
（数３）
ｓｈｎ（ｌ）＝ｂｎ（ｌ）／Ｍ
音声処理装置１００の抑圧量算出部１０４ｄは、占有率算出部１０４ｃで占有率ｓｈｎ（ｌ）の算出を行った後、抑圧量Ｇｎ（ｌ，ｆ）を算出する（ステップＳ２０７）。抑圧量Ｇｎ（ｌ，ｆ）を算出する際の式を（数４）に、抑圧量算出関数のグラフを図３に示す。
（数４）

音声処理装置１００の制御部１０５は、抑圧量算出部１０４ｄで算出した抑圧量Ｇｎ（ｌ，ｆ）に基づき、周波数スペクトルＸｎ（ｌ，ｆ）の抑圧を行い、推定スペクトルＳｎ（ｌ，ｆ）を算出する（ステップＳ２０８）。推定スペクトルＳｎ（ｌ，ｆ）を算出する際の式を（数５）に示す。
（数５）
Ｓｎ（ｌ，ｆ）＝Ｇｎ（ｌ，ｆ）×Ｘｎ（ｌ，ｆ）
音声処理装置１００の変換部１０６は、抑圧を行った推定スペクトルＳｎ（ｌ，ｆ）に対し、短時間離散フーリエ逆変換を行い、推定音声信号ｓｎ（ｔ）を算出し（ステップＳ２０９）、出力部１０７から出力する（ステップＳ２１０）。

以上のように、各周波数スペクトルの占有率に応じて抑圧を行うことで、非目的音が一時的に大きくなった場合にも、精度良く音声を分析することができる。

次に、第２の実施形態に係る音声処理装置１００について説明する。

第２の実施形態に係る音声処理装置１００は、周波数スペクトルをフレーム間で平滑化した平滑化スペクトルを利用して占有率の算出を行う。音声処理装置１００は、平滑化処理を行うことにより、フレーム間で周波数スペクトルに急な変化（例えば、急な雑音の発生等）が生じた場合でも、変化の影響を緩和して音声処理を行うことができる。第２の実施形態に係る音声処理装置１００は、例えば、パソコン等に備えられ、パソコンに接続した複数のＮ個のマイクを入力装置として備える。

図４は第２の実施形態に係る音声処理装置１００の構成例を示す図である。

第２の実施形態に係る音声処理装置１００は、入力部４０１、周波数解析部４０２、雑音推定部４０３、平滑化部４０４、算出部４０５、制御部４０６、変換部４０７、出力部４０８、記憶部４０９を有する。算出部４０５は、対象周波数算出部４０５ａ、占有周波数算出部４０５ｂ、占有率算出部４０５ｃ、抑圧量算出部４０５ｄを有する。平滑化部４０４、算出部４０５、制御部４０６以外は第１の実施形態に係る音声処理装置１００の構成における各機能部と同様の処理を行う。

平滑化部４０４は、周波数解析部４０２で生成した周波数スペクトルと、その周波数スペクトルと異なるフレームにおける周波数スペクトルとを用いて平滑化を行い、平滑化スペクトルを生成する。

対象周波数算出部４０５ａは、対象周波数を算出する。対象周波数算出部４０５ａは、０Ｈｚ〜入力された音声の周波数スペクトルのサンプリング周波数の１／２を対象周波数であるとする。そして対象周波数算出部４０５ａは、前述の方法により特定した対象周波数の数を計数して、その総数を対象周波数の総数とする。

占有周波数算出部４０５ｂは、対象周波数算出部４０５ａで算出した各対象周波数において、複数の平滑化スペクトルのうち最も大きい信号レベルを有する平滑化スペクトルを特定する。そして占有周波数算出部４０５ｂは、複数の平滑化スペクトルそれぞれにおいて、最も大きい信号レベルを示す平滑化スペクトルとして特定された回数を計数してその総数を各平滑化スペクトルにおける占有周波数の総数とする。

占有率算出部４０５ｃは、対象周波数算出部４０５ａで算出した対象周波数の総数と、占有周波数算出部４０５ｂで算出した占有周波数の総数とに基づき、複数の平滑化スペクトルそれぞれの占有率を算出する。

抑圧量算出部４０５ｄは、雑音推定部４０３で推定した雑音スペクトルと、平滑化部４０４で算出した平滑化スペクトルと、占有率算出部４０５ｃで算出した占有率とに基づき、抑圧量を算出する。抑圧量算出部４０５ｄは、平滑化スペクトルの占有率が大きくなるほど、抑圧量をより小さくし、占有率が小さくなるほど、抑圧量をより大きくする。

制御部４０６は、周波数解析部４０２で生成した周波数スペクトルに抑圧量算出部４０５ｄで算出した抑圧量を乗じ、複数の周波数スペクトルに対し抑圧制御を行う。

次に、第２の実施形態に係る音声処理装置１００の処理フローについて説明する。

図５は第２の実施形態に係る音声処理装置１００の処理フローを示す図である。第２の実施形態においても、第１の実施形態同様、Ｎ個の入力装置（２≦Ｎ）から音声信号を受け付けた場合の第ｎの入力装置から入力を受け付けた音声信号ｘｎ（ｔ）（１≦ｎ≦Ｎ）に対する抑圧制御を行う際の処理について説明する。

第２の実施形態に係る音声処理装置１００は、入力部４０１で音声信号ｘｎ（ｔ）の入力を受け付けた後（ステップＳ５０１）、周波数解析部４０２で、入力を受け付けた音声信号ｘｎ（ｔ）を周波数解析し、周波数スペクトルＸｎ（ｌ，ｆ）を算出する（ステップＳ５０２）。ｌはフレーム番号、ｆは周波数を示す。

音声処理装置１００の雑音推定部４０３は、周波数解析部４０２で算出した周波数スペクトルＸｎ（ｌ，ｆ）から雑音スペクトルＮｎ（ｌ，ｆ）の推定を行う（ステップＳ５０３）。雑音スペクトルを算出する際の処理は第１の実施形態における雑音推定部１０３の処理と同様である。

音声処理装置１００の平滑化部４０４は、周波数解析部４０２で算出した周波数スペクトルＸｎ（ｌ，ｆ）に対し平滑化を行い、平滑化スペクトルＸ’ｎ（ｌ，ｆ）の算出を行う（ステップＳ５０４）。平滑化スペクトルＸ’ｎ（ｌ，ｆ）を算出する際の式を（数６）に示す。
（数６）
Ｘ’ｎ（ｌ，ｆ）＝（１−ａ）×Ｘ’ｎ（ｌ−１，ｆ）＋ａ×Ｘｎ（ｌ，ｆ）
ただし、第１のフレームにおいては、一つ前のフレームが存在しないため、周波数スペクトルＸ１（ｌ，ｆ）を平滑化スペクトルＸ’１（ｌ，ｆ）とする。

音声処理装置１００の対象周波数算出部４０５ａは、第１の実施形態同様、音声分析の対象周波数ｆｌｍと対象周波数の総数Ｍを算出した後（ステップＳ５０５）、占有周波数算出部４０５ｂで各入力音声信号の平滑化スペクトルにおける占有周波数ｂ’ｎ（ｌ）を算出する（ステップＳ５０６）。音声分析の対象周波数ｆｌｍと対象周波数の総数Ｍの算出方法は、対象周波数算出部４０５ａの説明で示した方法である。占有周波数ｂ’ｎ（ｌ）を算出する際の式を（数７）に示す。
（数７）

音声処理装置１００の占有率算出部４０５ｃは、対象周波数算出部４０５ａで算出した音声分析の対象とする対象周波数の総数Ｍと、占有周波数算出部４０５ｂで算出した各入力音声信号の平滑化スペクトルにおける占有周波数ｂ’ｎ（ｌ）に基づき、占有率ｓｈ’ｎ（ｌ）を算出する（ステップＳ５０７）。占有率ｓｈ’ｎ（ｌ）を算出する際の式を（数８）に示す。
（数８）
ｓｈ’ｎ（ｌ）＝ｂ’ｎ（ｌ）／Ｍ
音声処理装置１００の抑圧量算出部４０５ｄは、雑音推定部４０３で算出した雑音スペクトルＮｎ（ｌ，ｆ）と、平滑化部４０４で算出した平滑化スペクトルＸ’ｎ（ｌ，ｆ）と、占有率算出部４０５ｃで算出した占有率ｓｈ’ｎ（ｌ）と、第１の状態判定閾値ＴＨ１と、第２の状態判定閾値ＴＨ２（ＴＨ２＜ＴＨ１）とに基づき、周波数スペクトルに対する抑圧量Ｇ’ｎ（ｌ，ｆ）の算出を行う（ステップＳ５０８）。抑圧量Ｇ’ｎ（ｌ，ｆ）を算出する際の式を（数９）に示す。
（数９）

（数９）における第１の状態判定閾値及び／又は第２の状態判定閾値はユーザからの設定を受け付けておいても良く、音声処理装置１００が周波数スペクトルに基づいて設定しても良い。例えば、ユーザからＴＨ１＝０．７、ＴＨ２＝０．３と設定を受け付けた場合について説明する。音声処理装置１００の抑圧量算出部４０５ｄは、周波数スペクトルの占有率が第１の状態判定閾値０．７以上であれば、音声信号の抑圧量Ｇ’ｍ（ｌ，ｆ）＝１とする。また、音声処置装置１００の抑圧量算出部４０５ｄは、周波数スペクトルの占有率が第１の状態判定閾値０．７と第２の状態判定閾値０．３の間に存在し、他の入力装置から受信した入力音声信号に対応する平滑化スペクトルより大きい場合には、抑圧量Ｇ’ｎ（ｌ，ｆ）＝１とする。

一方、周波数スペクトルの占有率が第１の状態判定閾値０．７と第２の状態判定閾値０．３の間に存在し、他の入力装置から受信した入力音声信号に対応する平滑化スペクトルより小さい場合には、抑圧量Ｇ’ｎ（ｌ，ｆ）＝Ｎｎ（ｌ，ｆ）／Ｘ’ｎ（ｌ，ｆ）とする。音声処理装置１００の抑圧量算出部４０５ｄが、抑圧量をＮｎ（ｌ，ｆ）／Ｘ’ｎ（ｌ，ｆ）とするのは、非目的音を雑音スペクトルのレベルまで抑圧し、より自然な周波数スペクトルとして算出するためである。また、音声処理装置１００の抑圧量算出部４０５ｄは、周波数スペクトルの占有率が第２の状態判定閾値０．３より小さい場合に、抑圧量Ｇ’ｎ（ｌ，ｆ）＝Ｎｎ（ｌ，ｆ）／Ｘ’ｎ（ｌ，ｆ）とする。

音声処理装置１００の制御部４０６は、抑圧量算出部４０５ｄで算出した抑圧量Ｇ’ｎ（ｌ，ｆ）に基づき、周波数スペクトルＸｎ（ｌ，ｆ）に対する音声信号の抑圧を行い、推定スペクトルＳ’ｎ（ｌ，ｆ）を算出する（ステップＳ５０９）。推定スペクトルＳ’ｎ（ｌ，ｆ）を算出する際の式を（数１０）に示す。
（数１０）
Ｓ’ｎ（ｌ，ｆ）＝Ｇ’ｎ（ｌ，ｆ）×Ｘｎ（ｌ，ｆ）
音声処理装置１００は、制御部４０６で音声信号の抑圧を行い、推定スペクトルＳ’ｎ（ｌ，ｆ）を算出し、変換部４０７で推定スペクトルＳ’ｎ（ｌ，ｆ）を音声信号ｓ’ｎ（ｔ）に逆変換し（ステップＳ５１０）、逆変換後の信号を出力部４０８から出力する（ステップＳ５１１）。

以上のように、各周波数スペクトルを平滑化して抑圧を行うことで、急な雑音が入った場合にも、その影響を抑制し、精度良く音声を分析することができる。

次に、第３の実施形態に係る音声処理装置１００について説明する。

第３の実施形態に係る音声処理装置１００は、過去のフレームにおける占有率を用いて算出する長期占有率に基づき抑圧制御を行う。長期占有率に基づき抑圧量を算出することにより、フレーム間における占有率に急激な変化があった場合でも、変化の影響を緩和し、音声処理を行うことができる。第３の実施形態に係る音声処理装置１００は、例えば、クラウド等に備えられ、クラウドと通信可能な収録機器で収録した入力音声を、インターネット網を介して受信し処理する。

図６は第３の実施形態に係る音声処理装置１００の構成例を示す図である。

第３の実施形態に係る音声処理装置１００は、入力部６０１、周波数解析部６０２、算出部６０３、制御部６０４、変換部６０５、出力部６０６、記憶部６０７を有する。算出部６０３は、対象周波数算出部６０３ａ、占有周波数算出部６０３ｂ、占有率算出部６０３ｃ、長期占有率算出部６０３ｄ、抑圧量算出部６０３ｅ、状態判定閾値算出部６０３ｆを有する。入力部６０１、周波数解析部６０２、制御部６０４、変換部６０５、出力部６０６、記憶部６０７は第１の実施形態に係る音声処理装置１００の各機能部と同様の処理を行う。算出部６０３の対象周波数算出部６０３ａは、第２の実施形態に係る音声処理装置１００の対象周波数算出部４０５ａと同様の処理を行う。占有周波数算出部６０３ｂ、占有率算出部６０３ｃは、第１の実施形態に係る音声処理装置１００における占有周波数算出部１０４ｂ、占有率算出部１０４ｃと同様の処理を行う。

長期占有率算出部６０３ｄは、占有率算出部６０３ｃで算出した占有率と、異なるフレームにおけるそれぞれの周波数スペクトルの占有率と、重み係数とに基づき、各周波数スペクトルの長期占有率を算出する。重み係数とは、長期占有率を算出する際に、長期占有率における各フレームの占有率の影響の大きさを調整するものである。

抑圧量算出部６０３ｅは、周波数解析部６０２で生成した周波数スペクトル、長期占有率算出部６０３ｄで算出した各周波数スペクトルにおける長期占有率、予め設定を受け付けた第３の状態判定閾値、第４の状態判定閾値から抑圧量を算出する。

状態判定閾値算出部６０３ｆは、抑圧制御を行う周波数スペクトルのフレームが、装置稼働時の所定以内のフレームである場合に、抑圧量算出部６０３ｅで利用する第３の状態判定閾値、第４の状態判定閾値の調整を行う。

続いて第３の実施形態に係る音声処理装置１００の処理フローについて説明する。

図７は第３の実施形態に係る音声処理装置１００の処理フローを示す図である。第３の実施形態においても、第１の実施形態同様、Ｎ個の入力装置（２≦Ｎ）から音声信号を受け付けた場合の第ｎの入力装置から入力を受け付けた音声信号ｘｎ（ｔ）（１≦ｎ≦Ｎ）に対する抑圧制御を行う際の処理について説明する。

第３の実施形態に係る音声処理装置１００は、入力部６０１で入力装置から音声信号ｘｎ（ｔ）を受信した後（ステップＳ７０１）、周波数解析部６０２で、受信した音声信号ｘｎ（ｔ）を周波数解析し、周波数スペクトルＸｎ（ｌ，ｆ）を算出する（ステップＳ７０２）。

音声処理装置１００は、対象周波数算出部６０３ａで対象周波数の総数Ｍの算出を行った後（ステップＳ７０４）、占有周波数算出部６０３ｂで占有周波数の総数ｂｎ（ｌ）の算出を行う（ステップＳ７０５）。対象周波数の総数Ｍ及び占有周波数の総数ｂｎ（ｌ）を算出する際の処理は、第２の実施形態におけるステップＳ５０５、Ｓ５０６と同様である。音声処理装置１００は、占有率算出部６０３ｃで、第１の実施形態と同様に占有率を算出し（ステップＳ７０６）、算出した占有率に基づき、長期占有率算出部６０３ｄで、長期占有率ｌｓｈｎ（ｌ）を算出する（ステップＳ７０７）。長期占有率ｌｓｈｎ（ｌ）を算出する際の式を（数１１）に示す。
（数１１）
ｌｓｈｎ（ｌ）＝（１−β）×ｌｓｈｎ（ｌ−１）＋β×ｓｈｎ（ｌ）
ただし、第１のフレームにおいては、一つ前のフレームが存在しないため、占有率ｌｓｈｎ（１）を長期占有率ｌｓｈｎ（ｌ）とする。βは重み係数を表す。βの値は例えばユーザが予め設定しておき（例えばβ＝０．６）、下記に示す条件に該当する場合に値の調整を行うようにしても良い。

音声処理装置１００の長期占有率算出部６０３ｄは、算出を行う対象としている現在のフレームと過去の所定の期間のフレームにおける占有率ｓｈｎ（ｌ）の最大値Ａと最小値Ｂの値の差が、第１の変化の閾値ＶＴＨ１より大きく、かつ、一つ前のフレームの占有率ｓｈｎ（ｌ−１，ｆ）と推定スペクトルの算出を行う対象としているフレームの占有率ｓｈｎ（ｌ，ｆ）の差が第２の変化の閾値ＶＴＨ２より大きい場合、βを大きくする（例えば０．１を追加する）処理を行う。この処理を行うことで、各フレームや一つ前のフレームの占有率に大きな差がある場合には、算出を行う対象としている現在のフレームの影響を大きくすることで、より現在のフレームの占有率を反映した長期占有率ｌｓｈｎ（ｌ）を算出することができる。

音声処理装置１００の抑圧量算出部６０３ｅは、第３の状態判定閾値ＴＨ３、第４の状態判定閾値ＴＨ４（ＴＨ３＞ＴＨ４）、周波数解析部６０２で算出した周波数スペクトルＸｎ（ｌ，ｆ）、長期占有率算出部６０３ｄで算出した長期占有率ｌｓｈｎ（ｌ）に基づき、抑圧量算出部６０３ｅで抑圧量Ｇ’ ’ｎ（ｌ，ｆ）の算出を行う（ステップＳ７０８）。第３の状態判定閾値ＴＨ３、第４の状態判定閾値ＴＨ４はユーザが予め設定する。抑圧量Ｇ’ ’ｎ（ｌ，ｆ）を算出する際の式を（数１２）に示す。抑圧量Ｇ’ ’ｎ（ｌ，ｆ）を算出する際の式を（数１２）に示す。
（数１２）

音声処理装置１００の状態判定閾値算出部６０３ｆは、算出の対象としているフレームが所定のフレーム以内（例えば、装置を稼働してから２ｌフレーム以内）であるかどうかを判定する（ステップＳ７０９）。音声処理装置１００は、算出の対象としているフレームが装置を稼働して所定のフレーム以内（ステップＳ７０９：Ｙｅｓ）である場合には、状態判定閾値算出部６０３ｆで長期占有率ｌｓｈｎ（ｌ）と第１の補正用閾値ＣＴＨ１、第２の補正用閾値ＣＴＨ２（ＣＴＨ１＜ＣＴＨ２）の関係に基づき、状態判定閾値ＴＨ３、ＴＨ４の調整を行う（ステップＳ７１０）。例えば、長期占有率ｌｓｈｎ（ｌ）が第１の補正用閾値ＣＴＨ１より小さく、第２の補正用閾値ＣＴＨ２より大きい場合には、複数の入力装置に入力される非目的音の大きさに差があり、占有率に影響する可能性があるため、調整を行う必要がある。装置の稼働時における期間（目的音の入力が行われていない期間）における状態判定閾値を調整することで、周波数スペクトルの分析における非目的音の占有率の影響を抑制できる。状態判定閾値を調整する際の式を（数１３）に示す。
（数１３）
ＴＨ３＝ＴＨ３−（０．５−Ｃ）
ＴＨ４＝ＴＨ４−（０．５−Ｃ）
Ｃは所定フレームにおける長期占有率ｌｓｈｎ（ｌ）の平均値を示す。音声処理装置１００の状態判定閾値算出部６０３ｆは、長期占有率の値が小さい（他の入力装置に入力される雑音の影響で占有率が小さくなる）場合には、入力装置に入力される音声信号の占有率が少なくても音声が目的音であるかどうかを正確に判定する必要があるため、状態判定閾値を小さくする。一方、長期占有率の値が大きい（該当する入力装置に他の入力装置に比べ大きい雑音が入力される影響で占有率が大きくなる）場合には、入力装置に入力される音声信号の占有率が非目的音のみの場合の占有率より大きい場合に目的音であると判定する必要があるため、入力された音声が目的音かどうかを判定する閾値を大きくする。音声処理装置１００は、算出の対象としているフレームが装置を稼働して所定のフレーム以内でない場合には（ステップＳ７０９：Ｎｏ）、抑圧量算出部６０３ｅで算出した抑圧量Ｇ’ ’ｎ（ｌ，ｆ）と周波数スペクトルＸｎ（ｌ，ｆ）に基づき制御部６０４で音声信号の抑圧を行い推定スペクトルＳ’ ’ｎ（ｌ，ｆ）を算出する（ステップＳ７１１）。推定スペクトルＳ’ ’ｎ（ｌ，ｆ）を算出する際の式を（数１４）に示す。
（数１４）
Ｓ’ ’ｎ（ｌ，ｆ）＝Ｇ’ ’ｎ（ｌ，ｆ）×Ｘｎ（ｌ，ｆ）
音声処理装置１００の変換部６０５は、制御部６０４で音声信号の抑圧を行った後、推定スペクトルＳ’ ’ｎ（ｌ，ｆ）を逆変換し（ステップＳ７１２）、推定音声信号ｓ’ ’ｎ（ｔ）を算出し、出力部６０６から出力する（ステップＳ７１３）。以上のように、占有率を調整することにより、話者が変わった際にも精度良く音声の分析を行うことができる。

次に第４の実施形態に係る音声処理装置１００について説明する。

第４の実施形態に係る音声処理装置１００は、各入力端末から入力された音声信号の大小関係を比較して算出した占有時間に基づいて占有率を算出する。上述の処理を行うことにより、抑圧を行う際の時間（フレームの大きさ）を調整することができ、各時間における音声信号の抑圧制御を行うことができる。

図８は、第４の実施形態に係る音声処理装置１００の構成例を示す図である。
図８に示すように、第４の実施形態に係る音声処理装置１００は入力部８０１、周波数解析部８０２、算出部８０３、制御部８０４、変換部８０５、出力部８０６、記憶部８０７を有する。算出部８０３は占有時間算出部８０３ａ、占有率算出部８０３ｂ、長期占有率算出部８０３ｃ、抑圧量算出部８０３ｄを有する。入力部８０１、周波数解析部８０２、制御部８０４、変換部８０５、出力部８０６、記憶部８０７は第１の実施形態に係る音声処理装置１００の各機能部と同様の処理を行う。

占有時間算出部８０３ａは、予め設定を受け付けた所定時間に含まれる単位時間（例えば５ｍｓｅｃ）毎の音声信号の大きさを比較し、音声信号が他の入力装置から入力された音声信号よりも大きい領域を示す占有時間を算出する。占有時間が長い程、目的音である可能性が高いことを示す。

占有率算出部８０３ｂは、占有時間算出部８０３ａで算出した占有時間と、所定時間とに基づいて各音声信号に対する占有率を算出する。

長期占有率算出部８０３ｃは、占有率算出部８０３ｂで算出した占有率と過去の複数の所定時間における占有率とに含まれる最頻値を長期占有率として算出する。ただし、長期占有率は、最頻値に限定されず、例えば、複数の所定時間における占有率の平均値や中央値を長期占有率としても良い。

抑圧量算出部８０３ｄは、長期占有率算出部８０３ｃで算出した長期占有率の値に基づいて各周波数スペクトルに対する抑圧量を算出する。

図９は、第４の実施形態に係る音声処理装置１００の処理フローを示す図である。第４の実施形態においても、第１の実施形態同様、Ｎ個の入力装置（２≦Ｎ）から音声信号を受け付けた場合の第ｎの入力装置から入力を受け付けた音声信号ｘｎ（ｔ）（１≦ｎ≦Ｎ）に対する処理について説明する。

第４の実施形態に係る音声処理装置１００は、入力部８０１で音声信号ｘｎ（ｔ）の入力を受け付けた後（ステップＳ９０１）、周波数解析部８０２で、入力を受け付けた音声信号ｘｎ（ｔ）を周波数解析し、周波数スペクトルＸｎ（ｌ，ｆ）を算出する。（ステップＳ９０２）。

音声処理装置１００は、占有時間算出部８０３ａで入力を受け付けた各音声信号ｘｎ（ｔ）のｌフレームにおける占有時間ｂ’ ’ ’ｎ（ｌ）を算出する（ステップＳ９０３）。ｌフレームにおける占有時間を算出する際の式を（数１５）に示す。ｌフレームの時間の長さをＴｌ（例えば１０２４ｍｓ）とし、所定時間毎（例えば１ｍｓ毎）に音声信号の大きさの比較を行う。Ｔｌにおいてｉ番目に比較する音声信号をｘｎ（ｉ）とする。
（数１５）

音声処理装置１００は、過去の所定時間Ｔと占有時間算出部８０３ａで算出した占有時間ｂ’ ’ ’ｎ（ｌ）に基づき第ｎ音声の占有率ｓｈ’ ’ ’ｎ（ｌ）を算出する（ステップＳ９０４）。占有率ｓｈ’ ’ ’ｎ（ｌ）を算出する際の式を（数１６）に示す。
（数１６）
ｓｈ’ ’ ’ｎ（ｌ）＝ｂ’ ’ ’ｎ（ｌ）／Ｔｌ
長期占有率算出部８０３ｃは過去の所定時間Ｔ２（Ｔ２≧Ｔ１）内の占有率ｓｈ’ ’ ’ｎ（ｌ）の最頻値を長期占有率ｌｓｈ’ ’ ’ｎ（ｌ）として算出する（ステップＳ９０５）。但し、長期占有率ｌｓｈ’ ’ ’ｎ（ｌ）の算出方法は最頻値に限定されず、例えば、中央値や平均値を長期占有率として算出しても良い。

音声処理装置１００は、長期占有率ｌｓｈ’ ’ ’ｎ（ｌ）を算出した後、抑圧量算出部８０３ｄで抑圧量を算出する。抑圧量算出部８０３ｄは、第５の状態判定閾値ＴＨ５、第６の状態判定閾値ＴＨ６（ＴＨ５＞ＴＨ６）、占有率ｓｈ’ ’ ’ｎ（ｌ）、周波数スペクトルＸ’ｎ（ｌ，ｆ）から抑圧量Ｇ’ ’ ’ｎ（ｌ，ｆ）を算出する（ステップＳ９０６）。抑圧量Ｇ’ ’ ’ｎ（ｌ，ｆ）を算出する際の式を（数１７）に示す。
（数１７）

音声処理装置１００の制御部８０４は、抑圧量算出部８０３ｄで算出した抑圧量Ｇ’ ’ ’ｎ（ｌ，ｆ）に基づき、周波数スペクトルの抑圧を行い推定スペクトルＳ’ ’ ’ｎ（ｌ，ｆ）を算出する（ステップＳ９０７）。推定スペクトルＳ’ ’ ’ｎ（ｌ，ｆ）を算出する際の式を（数１８）に示す。
（数１８）
Ｓ’ ’ ’ｎ（ｌ，ｆ）＝Ｇ’ ’ ’ｎ（ｌ，ｆ）×Ｘｎ（ｌ，ｆ）
音声処理装置１００の変換部８０５は、制御部８０４で算出した推定スペクトルＳ’ ’ ’ｎ（ｌ，ｆ）を逆変換し入力スペクトルに対応する推定音声信号ｓ’ ’ ’ｎ（ｌ，ｆ）を算出し（ステップＳ９０８）、出力部８０６から出力する（ステップＳ９０９）。

以上のように、長期占有率に基づいて抑圧を行うことで、周辺環境が変化し、占有率が変わった際にも精度良く音声の分析を行うことができる。

次に第１から第４の実施の形態に係る音声処理装置１００のハードウェア構成例について説明する。図１０は音声処理装置１００のハードウェア構成例を示す図である。
図１０に示すように、音声処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１００１、メモリ（主記憶装置）１００２、補助記憶装置１００３、Ｉ／Ｏ装置１００４、ネットワークインタフェース１００５がバス１００６を介して接続されている。

ＣＰＵ１００１は、音声処理装置１００の全体の動作を制御する演算処理装置であり、第１の実施形態から第４の実施形態における周波数解析部や雑音推定部、算出部等の各機能の処理を制御する。

メモリ１００２は、音声処理装置１００の動作を制御するＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等のプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部であり、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等である。

補助記憶装置１００３は、例えば、ハードディスク、フラッシュメモリなどの記憶装置であり、ＣＰＵ１００１により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。

Ｉ／Ｏ装置１００４は、入力装置からの音声信号の入力、マウス、キーボードなどの入力デバイスを用いた音声処理装置１００に対する指示やユーザが設定する値の入力等を受け付ける。また、抑圧を行った周波数スペクトル等の出力を外部の音声出力部に出力したり、記憶部に記憶したデータに基づいて生成した表示画像をディスプレイなどに出力する。

ネットワークインタフェース１００５は、有線または無線により外部との間で行われる各種データのやりとりの管理を行うインタフェース装置である。

バス１００６は、上記各装置を互いに接続し、データのやり取りを行う通信経路である。

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、上記第１から第４の実施形態は上記に限定されず、論理的に可能な限りの組合せが可能である。

１０１、４０１、６０１、８０１入力部
１０２、４０２、６０２、８０２周波数解析部
１０３、４０３雑音推定部
１０４、４０５、６０３、８０３算出部
１０４ａ、４０５ａ、６０３ａ対象周波数算出部
１０４ｂ、４０５ｂ、６０３ｂ占有周波数算出部
１０４ｃ、４０５ｃ、６０３ｃ、８０３ｂ占有率算出部
１０４ｄ、４０５ｄ、６０３ｅ、８０３ｄ抑圧量算出部
１０５、４０６、６０４、８０４制御部
１０６、４０７、６０５、８０５変換部
１０７、４０８、６０６、８０６出力部
１０８、４０９、６０７、８０７記憶部
４０４平滑化部
６０３ｄ、８０３ｃ長期占有率算出部
６０３ｆ状態判定閾値算出部
８０３ａ占有時間算出部
１００１ＣＰＵ
１００２メモリ（主記憶装置）
１００３補助記憶装置
１００４Ｉ／Ｏ装置
１００５ネットワークインタフェース
１００６バス

Claims

複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成し、
前記複数の周波数スペクトルに含まれるそれぞれの雑音スペクトルを特定し、
前記複数の周波数スペクトルと前記それぞれの雑音スペクトルにおける周波数成分毎の振幅とに基づき、前記複数の周波数スペクトルの中から第一の周波数成分を抽出し、
抽出した前記第一の周波数成分に対応する周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる１または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
前記特定の周波数スペクトルの振幅が前記１または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成し、
前記複数の周波数スペクトルのうち、所定の期間における特定の周波数スペクトルと、前記所定の期間における特定の周波数スペクトルと連続した所定の期間における前記特定の周波数スペクトルとを、時間方向に平滑化した周波数スペクトルを特定し、
前記複数の周波数スペクトルのうち、前記平滑化した周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記平滑化した周波数スペクトルとは異なる１または複数の他の平滑化した周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
前記平滑化した周波数スペクトルの振幅が前記１または複数の他の平滑化した周波数スペクトルの振幅より大きい周波数成分を抽出し、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成し、
前記複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる１または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
前記特定の周波数スペクトルの振幅が前記１または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合を算出し、
算出した前記周波数成分に対して占める割合に基づき、前記所定の期間における前記割合と、前記所定の期間における割合と連続した所定の期間における割合とを時間方向に平滑化した割合を特定し、
特定した前記平滑化した割合に基づき、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成し、
前記複数の周波数スペクトルに含まれるそれぞれの雑音スペクトルを特定し、
前記複数の周波数スペクトルと前記それぞれの雑音スペクトルにおける周波数成分毎の振幅とに基づき、前記複数の周波数スペクトルの中から第一の周波数成分を抽出し、
抽出した前記第一の周波数成分に対応する周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる１または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
前記特定の周波数スペクトルの振幅が前記１または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する
処理をコンピュータが実行することを特徴とする音声処理方法。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成し、
前記複数の周波数スペクトルのうち、所定の期間における特定の周波数スペクトルと、前記所定の期間における特定の周波数スペクトルと連続した所定の期間における前記特定の周波数スペクトルとを、時間方向に平滑化した周波数スペクトルを特定し、
前記複数の周波数スペクトルのうち、前記平滑化した周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記平滑化した周波数スペクトルとは異なる１または複数の他の平滑化した周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
前記平滑化した周波数スペクトルの振幅が前記１または複数の他の平滑化した周波数スペクトルの振幅より大きい周波数成分を抽出し、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する
処理をコンピュータが実行することを特徴とする音声処理方法。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成し、
前記複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる１または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
前記特定の周波数スペクトルの振幅が前記１または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合を算出し、
算出した前記周波数成分に対して占める割合に基づき、前記所定の期間における前記割合と、前記所定の期間における割合と連続した所定の期間における割合とを時間方向に平滑化した割合を特定し、
特定した前記平滑化した割合に基づき、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する
処理をコンピュータが実行することを特徴とする音声処理方法。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成する周波数変換部と、
前記複数の周波数スペクトルに含まれるそれぞれの雑音スペクトルを特定する雑音推定部と、
前記複数の周波数スペクトルと前記それぞれの雑音スペクトルにおける周波数成分毎の振幅とに基づき、前記複数の周波数スペクトルの中から第一の周波数成分を抽出し、抽出した前記第一の周波数成分に対応する周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる１または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、前記特定の周波数スペクトルの振幅が前記１または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出する算出部と、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する制御部と、
を有することを特徴とする音声処理装置。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成する周波数変換部と、
前記複数の周波数スペクトルのうち、所定の期間における特定の周波数スペクトルと、前記所定の期間における特定の周波数スペクトルと連続した所定の期間における前記特定の周波数スペクトルとを、時間方向に平滑化した周波数スペクトルを特定する平滑化部と、
前記複数の周波数スペクトルのうち、前記平滑化した周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記平滑化した周波数スペクトルとは異なる１または複数の他の平滑化した周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、前記平滑化した周波数スペクトルの振幅が前記１または複数の他の平滑化した周波数スペクトルの振幅より大きい周波数成分を抽出する算出部と、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する制御部と、
を有することを特徴とする音声処理装置。
複数の入力装置のそれぞれから入力される音声信号を変換して複数の周波数スペクトルを生成する周波数変換部と、
前記複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる１または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、前記特定の周波数スペクトルの振幅が前記１または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出する算出部と、
抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合を算出し、算出した前記周波数成分に対して占める割合に基づき、前記所定の期間における前記割合と、前記所定の期間における割合と連続した所定の期間における割合とを時間方向に平滑化した割合を特定し、特定した前記平滑化した割合に基づき、前記複数の入力装置のそれぞれから入力される音声信号に対応する出力を制御する制御部と、
を有することを特徴とする音声処理装置。