JP6794887B2

JP6794887B2 - 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法

Info

Publication number: JP6794887B2
Application number: JP2017054257A
Authority: JP
Inventors: 松尾　直司; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2020-12-02
Anticipated expiration: 2037-03-21
Also published as: JP2018155996A; US20190222927A1; US10951978B2; WO2018173526A1

Description

本発明は、例えば、複数のマイクロホンを用いて集音された音声を含む音声信号を処理する音声処理用コンピュータプログラム、音声処理装置及び音声処理方法に関する。

近年、複数のマイクロホンにより音声を集音することで得られた音声信号を処理する音声処理装置が開発されている。このような音声処理装置において、音声信号に含まれる特定方向からの音声を聞き取り易くするために、その音声信号においてその特定方向以外からの音声を抑圧する技術が研究されている（例えば、特許文献１及び２を参照）。

特開２００７−３１８５２８号公報特開２０１１−１３９３７８号公報

場合によっては、特定方向に位置する音源からの音声だけでなく、他の方向に位置する他の音源からの音声についても、抑圧しないことが好ましいことがある。しかし、例えば、特許文献１に記載された技術では、特定方向以外の方向から到来する音声は抑圧されてしまう。一方、例えば、特許文献２に記載された技術では、特定方向に位置する音源からの音声だけでなく、想定される他の方向に位置する他の音源からの音声も抑圧しないようにすると、抑圧対象とならない方向の範囲が広過ぎて、雑音の抑圧が不十分となる。その結果として、特定方向に位置する音源からの音声の聞き取り易さが十分に向上しない可能性がある。

一つの側面では、本発明は、優先する方向に位置する音源からの音声だけでなく、他の方向に位置する他の音源からの音声も抑圧せずに出力できる音声処理用コンピュータプログラムを提供することを目的とする。

一つの実施形態によれば、音声処理用コンピュータプログラムが提供される。この音声処理用コンピュータプログラムは、第１の音声入力部により生成された第１の音声信号、及び、第１の音声入力部と異なる位置に配置された第２の音声入力部により生成された第２の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数スペクトル及び第２の周波数スペクトルに変換し、フレームごとに、第１の周波数スペクトル及び第２の周波数スペクトルに基づいて、受音することが優先される第１の方向及び第１の方向と異なる第２の方向のうちの第２の方向に位置する音源のみが音声を発したる確からしさを算出し、フレームごとに、第１の周波数スペクトル及び第２の周波数スペクトルに基づいて算出される第１の方向から到来する音声を含む第１の指向音声信号を出力するとともに、確からしさに応じて、第１の周波数スペクトル及び第２の周波数スペクトルに基づいて算出される第２の方向から到来する音声を含む第２の指向音声信号を出力するか否かを制御する、ことをコンピュータに実行させるための命令を含む。

一つの側面では、優先する方向に位置する音源からの音声だけでなく、他の方向に位置する他の音源からの音声も抑圧せずに出力できる。

一つの実施形態による音声処理装置が実装された音声入力装置の概略構成図である。音声処理装置の概略構成図である。音声の到来方向と位相スペクトル差の関係の一例を示す図である。第２の方向に位置する音源のみが音声を発した確からしさと第２の指向音声スペクトルに乗じるゲインとの関係の一例を示す図である。受音についての指向特性を表す模式図である。音声処理の動作フローチャートである。変形例による、受音についての指向特性を表す模式図である。第２の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間と第１及び第２のゲインの関係の一例を示す図である。変形例による指向特性制御部の指向特性制御の動作フローチャートである。実施形態またはその変形例による音声処理装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声処理装置として動作するコンピュータの構成図である。

以下、図を参照しつつ、音声処理装置について説明する。この音声処理装置は、複数の音声入力部により得られた音声信号において、フレームごとに、優先される音源が位置する第１の方向と、他の音源が位置することが想定される第２の方向のうち、第２の方向に位置する音源のみが音声を発した確からしさを算出する。そしてこの音声処理装置は、その確からしさが高いフレームについて、第１の方向から到来する音声を含む第１の指向音声信号だけでなく、第２の方向から到来する音声を含む第２の指向音声信号も出力する。すなわち、この音声処理装置は、その確からしさが高いときに、受音する方向を一時的に第２の方向を含むように拡張する。

図１は、一つの実施形態による音声処理装置が実装された音声入力装置の概略構成図である。音声入力装置１は、二つのマイクロホン１１−１、１１−２と、二つのアナログ／デジタル変換器１２−１、１２−２と、音声処理装置１３と、通信インターフェース部１４とを有する。音声入力装置１は、例えば、車両（図示せず）に搭載され、ドライバあるいは他の同乗者が発した音声を集音し、その音声を含む音声信号をナビゲーションシステム（図示せず）あるいはハンズフリーホン（図示せず）等へ出力する。そして音声処理装置１３は、ドライバが位置する方向以外からの音声を抑圧するような受音の指向特性を設定する。さらに、音声処理装置１３は、ドライバが位置する方向（第１の方向）と同乗者が位置する方向（第２の方向）のうち、同乗者のみが音声を発した確からしさが高い場合には、第２の方向から到来する音声も抑圧しないように指向特性を変化させる。

マイクロホン１１−１、１１−２は、それぞれ、音声入力部の一例である。マイクロホン１１−１及びマイクロホン１１−２は、例えば、集音対象とする音源であるドライバと、他の音源である、助手席にいる同乗者（以下、単に同乗者と呼ぶ）との間において、例えば、インストルメントパネル、あるいは、車室内の天井付近に配置される。本実施形態では、マイクロホン１１−１の方がマイクロホン１１−２よりも同乗者に近く、かつ、マイクロホン１１−２の方がマイクロホン１１−１よりもドライバの近くに位置するように、マイクロホン１１−１及びマイクロホン１１−２は配置される。そしてマイクロホン１１−１が周囲の音声を集音することにより生成したアナログの入力音声信号はアナログ／デジタル変換器１２−１に入力される。同様に、マイクロホン１１−２が周囲の音声を集音することにより生成したアナログの入力音声信号はアナログ／デジタル変換器１２−２に入力される。

アナログ／デジタル変換器１２−１は、マイクロホン１１−１から受け取ったアナログの入力音声信号を所定のサンプリング周波数でサンプリングすることによりデジタル化された入力音声信号を生成する。同様に、アナログ／デジタル変換器１２−２は、マイクロホン１１−２から受け取ったアナログの入力音声信号を所定のサンプリング周波数でサンプリングすることによりデジタル化された入力音声信号を生成する。

なお、以下では、説明の便宜上、マイクロホン１１−１が集音することで生成され、アナログ／デジタル変換器１２−１によりデジタル化された入力音声信号を第１の入力音声信号と呼ぶ。また、マイクロホン１１−２が集音することで生成され、アナログ／デジタル変換器１２−２によりデジタル化された入力音声信号を第２の入力音声信号と呼ぶ。
アナログ／デジタル変換器１２−１は、第１の入力音声信号を音声処理装置１３へ出力する。同様に、アナログ／デジタル変換器１２−２は、第２の入力音声信号を音声処理装置１３へ出力する。

音声処理装置１３は、例えば、一つまたは複数のプロセッサと、メモリとを有する。そして音声処理装置１３は、受信した第１の入力音声信号と第２の入力音声信号とから、制御される指向特性に応じて受音する方向以外の方向から到来した雑音を抑圧した指向音声信号を生成する。そして音声処理装置１３は、通信インターフェース部１４を介して、その指向音声信号をナビゲーションシステム（図示せず）あるいはハンズフリーホン（図示せず）といった他の機器へ出力する。

通信インターフェース部１４は、所定の通信規格に従って音声入力装置１を他の機器と接続するための通信インターフェース回路などを含む。例えば、通信インターフェース回路は、例えば、Bluetooth(登録商標)といった、音声信号の通信に利用可能な近距離無線通信規格に従って動作する回路、あるいは、universal serial bus(USB)といったシリアルバス規格に従って動作する回路とすることができる。そして通信インターフェース部１４は、音声処理装置１３から受け取った出力音声信号を他の機器へ出力する。

図２は、一つの実施形態による音声処理装置１３の概略構成図である。音声処理装置１３は、時間周波数変換部２１と、指向音声生成部２２と、特徴抽出部２３と、音源方向判定部２４と、指向特性制御部２５と、周波数時間変換部２６とを有する。音声処理装置１３が有するこれらの各部は、例えば、音声処理装置１３が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、音声処理装置１３が有するこれらの各部は、音声処理装置１３が有するプロセッサとは別個に、それらの各部の機能を実現する一つまたは複数の集積回路として音声処理装置１３に実装されてもよい。

時間周波数変換部２１は、第１の入力音声信号及び第２の入力音声信号のそれぞれについて、フレーム単位で時間領域から周波数領域へ変換することにより、複数の周波数のそれぞれについての振幅成分と位相成分とを含む周波数スペクトルを算出する。なお、時間周波数変換部２１は、第１の入力音声信号と第２の入力音声信号のそれぞれに対して同じ処理を行えばよいので、以下では、第１の入力音声信号についての処理について説明する。

本実施形態では、時間周波数変換部２１は、第１の入力音声信号を、所定のフレーム長（例えば、数10msec）を持つフレームごとに分割する。その際、時間周波数変換部２１は、例えば、連続する二つのフレームがフレーム長の1/2だけずれるように各フレームを設定する。

時間周波数変換部２１は、各フレームに対して窓処理を実行する。すなわち、時間周波数変換部２１は、各フレームに所定の窓関数を乗じる。例えば、時間周波数変換部２１は、窓関数としてハニング窓を用いることができる。

時間周波数変換部２１は、窓処理が施されたフレームを受け取る度に、そのフレームを時間領域から周波数領域へ変換することにより、複数の周波数のそれぞれについての振幅成分と位相成分とを含む周波数スペクトルを算出する。時間周波数変換部２１は、例えば、フレームに対して、高速フーリエ変換(Fast Fourier Transform, FFT)といった時間周波数変換を実行することにより周波数スペクトルを算出すればよい。なお、以下では、便宜上、第１の入力音声信号について得られた周波数スペクトルを第１の周波数スペクトルと呼び、第２の入力音声信号について得られた周波数スペクトルを第２の周波数スペクトルと呼ぶ。

時間周波数変換部２１は、フレームごとに、第１の周波数スペクトル及び第２の周波数スペクトルを指向音声生成部２２へ出力する。

指向音声生成部２２は、フレームごとに、マイクロホン１１−１及び１１−２から見て、受音することが優先される第１の方向（本実施形態では、ドライバが位置する方向）から到来する音声の周波数スペクトルを表す第１の指向音声スペクトルを生成する。また指向音声生成部２２は、フレームごとに、マイクロホン１１−１及び１１−２から見て、他の音源が位置すると想定される第２の方向（本実施形態では、同乗者が位置する方向）から到来する音声の周波数スペクトルを表す第２の指向音声スペクトルを生成する。

先ず、指向音声生成部２２は、例えば、フレームごとに、周波数ごとの第１の周波数スペクトルと第２の周波数スペクトル間の位相差を求める。この位相差は、そのフレームにおいて音声が到来した方向に応じて変化するので、この位相差は、音声が到来した方向を特定するために利用できる。例えば、位相差算出部１２は、次式に従って周波数ごとの位相差を表す位相スペクトル差Δθ(f)を求める。

ただし、IN1(f)は、第１の周波数スペクトルを表し、IN2(f)は、第２の周波数スペクトルを表す。そしてfは周波数を表す。またFsは、アナログ／デジタル変換器１２−１及び１２−２におけるサンプリング周波数を表す。

図３は、音声の到来方向と位相スペクトル差Δθ(f)の関係の一例を示す図である。図３において、横軸は周波数を表し、縦軸は位相スペクトル差を表す。そして位相スペクトル差の範囲３０１は、第１の方向（本実施形態では、ドライバが位置する方向）から到来する音声が第１の入力音声信号及び第２の入力音声信号に含まれる場合の周波数ごとの位相差の取り得る範囲を表す。一方、位相スペクトル差の範囲３０２は、第２の方向（本実施形態では、同乗者が位置する方向）から到来する音声が第１の入力音声信号及び第２の入力音声信号に含まれる場合の周波数ごとの位相差の取り得る範囲を表す。

ドライバに対して、マイクロホン１１−２の方がマイクロホン１１−１よりも近い。そのため、ドライバが発した音声がマイクロホン１１−１に到達するタイミングがマイクロホン１１−２に到達するタイミングよりも遅くなる。その結果として、第１の周波数スペクトルに表されるドライバが発した音声の位相は、第２の周波数スペクトルに表されるドライバが発した音声の位相よりも遅れる。そのため、位相スペクトル差の範囲３０１は、負側に位置する。そしてその遅れによる位相差の範囲は、周波数が高いほど広くなる。逆に、同乗者に対して、マイクロホン１１−１の方がマイクロホン１１−２よりも近い。そのため、同乗者が発した音声がマイクロホン１１−２に到達するタイミングがマイクロホン１１−１に到達するタイミングよりも遅くなる。その結果として、第１の周波数スペクトルに表される同乗者が発した音声の位相は、第２の周波数スペクトルに表される同乗者が発した音声の位相よりも進む。そのため、位相スペクトル差の範囲３０２は、正側に位置する。そして位相差の範囲は、周波数が高いほど広くなる。

そこで、指向音声生成部２２は、各フレームについて、位相スペクトル差Δθ(f)を参照して、周波数ごとに位相差が位相スペクトル差の範囲３０１に含まれるか、位相スペクトル差の範囲３０２に含まれるかを判定する。そして指向音声生成部２２は、各フレームについて、第１及び第２の周波数スペクトルのうち、位相差が位相スペクトル差の範囲３０１に含まれる周波数の成分は、第１の方向から到来した音声に含まれる成分であると判定する。そして指向音声生成部２２は、各フレームについて、第１の周波数スペクトルから、位相差が位相スペクトル差の範囲３０１に含まれる周波数の成分を抽出して第１の指向音声スペクトルとする。すなわち、指向音声生成部２２は、位相差が位相スペクトル差の範囲３０１に含まれる周波数の成分に対して1となるゲインを乗じる。一方、指向音声生成部２２は、位相差が位相スペクトル差の範囲３０１から外れる周波数の成分に対して0となるゲインを乗じる。これにより、指向音声生成部２２は、第１の指向音声スペクトルを生成する。なお、指向音声生成部２２は、位相スペクトル差の範囲３０１から外れる周波数の成分に対して、位相スペクトル差の範囲３０１から遠くなるほど小さくなるゲインを乗じてから、第１の指向音声スペクトルに含めてもよい。また、指向音声生成部２２は、各フレームについて、第２の周波数スペクトルから、位相差が位相スペクトル差の範囲３０１に含まれる周波数の成分を抽出して第１の指向音声スペクトルとしてもよい。

同様に、指向音声生成部２２は、各フレームについて、第１及び第２の周波数スペクトルのうち、位相差が位相スペクトル差の範囲３０２に含まれる周波数の成分は、第２の方向から到来した音声に含まれる成分であると判定する。そして指向音声生成部２２は、各フレームについて、第１の周波数スペクトルから、位相差が位相スペクトル差の範囲３０２に含まれる周波数の成分を抽出して第２の指向音声スペクトルとする。なお、指向音声生成部２２は、位相スペクトル差の範囲３０２から外れる周波数の成分に対して、位相スペクトル差の範囲３０２から遠くなるほど小さくなるゲインを乗じてから、第２の指向音声スペクトルに含めてもよい。また、指向音声生成部２２は、各フレームについて、第２の周波数スペクトルから、位相差が位相スペクトル差の範囲３０２に含まれる周波数の成分を抽出して第２の指向音声スペクトルとしてもよい。

指向音声生成部２２は、フレームごとに、第１の指向音声スペクトル及び第２の指向音声スペクトルのそれぞれを特徴抽出部２３及び指向特性制御部２５へ出力する。

特徴抽出部２３は、フレームごとに、第１及び第２の指向音声スペクトルに基づいて、そのフレームについて音源からの音声らしさを表す特徴量を算出する。

第１の方向に位置する音源（この例では、ドライバ）が発した音声が含まれるフレームについて、第１の方向からの音声が大きくなるので、第１の指向音声スペクトルのパワーはある程度大きくなると想定される。同様に、第２の方向に位置する音源（この例では、同乗者）が発した音声が含まれるフレームについて、第２の方向からの音声が大きくなるので、第２の指向音声スペクトルのパワーはある程度大きくなると想定される。また、ドライバの音声のパワー及び同乗者の音声のパワーは経時変化すると想定される。そこで、本実施形態では、特徴抽出部２３は、フレームごとに、第１及び第２の指向音声スペクトルのそれぞれについて、特徴量として、パワーと、パワーについての非定常性度合い（以下、単に非定常性度と呼ぶ）とを算出する。

例えば、特徴抽出部２３は、次式に従って、フレームごとに、第１の指向音声スペクトルのパワーPX及び第２の指向音声スペクトルのパワーPYを算出する。

ここで、X(f)は、着目するフレームについての第１の指向音声スペクトルであり、Y(f)は、着目するフレームについての第２の指向音声スペクトルである。

また、特徴抽出部２３は、次式に従って、フレームごとに、第１の指向音声スペクトルの非定常性度RX及び第２の指向音声スペクトルの非定常性度RYを算出する。

ここで、PX'は、着目するフレームの一つ前のフレームについての第１の指向音声スペクトルのパワーを表し、PY'は、着目するフレームの一つ前のフレームについての第２の指向音声スペクトルのパワーを表す。
特徴抽出部２３は、フレームごとに、算出した特徴量を音源方向判定部２４へわたす。

音源方向判定部２４は、フレームごとに、第１の指向音声スペクトルの特徴量と第２の指向音声スペクトルの特徴量とに基づいて、そのフレームにおいて、第１の方向と第２の方向のうち、第２の方向に位置する音源のみが音声を発した確からしさを判定する。以下では、第１の方向と第２の方向のうち、第２の方向に位置する音源のみが音声を発した確からしさを、単に第２の方向に位置する音源のみが音声を発した確からしさと呼ぶ。

上記のように、第１の方向に位置する音源が発した音声が含まれるフレームについて、第１の指向音声スペクトルのパワー及び非定常性度はある程度大きくなると想定される。一方、第２の方向に位置する音源が発した音声が含まれるフレームについて、第２の指向音声スペクトルのパワー及び非定常性度はある程度大きくなると想定される。したがって、音源方向判定部２４は、フレームごとに、第２の方向に位置する音源のみが音声を発した確からしさPを、次式に従って算出する。

したがって、確からしさPの値が大きいほど、第１の方向及び第２の方向のうち、第２の方向に位置する音源のみが音声を発している可能性が高い。音源方向判定部２４は、フレームごとに、第２の方向に位置する音源のみが音声を発した確からしさPを、指向特性制御部２５へ通知する。

指向特性制御部２５は、周波数時間変換部２６とともに、指向音声出力部の一例を形成する。そして指向特性制御部２５は、フレームごとに、第２の方向に位置する音源のみが音声を発した確からしさに応じて、受音する指向特性を制御する。本実施形態では、指向特性制御部２５は、第１の指向音声スペクトルを常に出力し、第２の指向音声スペクトルには抑圧の程度を表すゲインを乗じて出力する。そして指向特性制御部２５は、そのゲインを、確からしさPに応じて制御する。

本実施形態では、指向特性制御部２５は、フレームごとに、算出した確からしさPを少なくとも一つの尤度判定閾値と比較する。例えば、指向特性制御部２５は、着目するフレームについて、確からしさPが第１の尤度判定閾値Th1よりも高い場合、そのフレームにおいて第２の方向に位置する音源のみが音声を発した確からしさが高いと判定する。一方、指向特性制御部２５は、着目するフレームについて、確からしさPが第２の尤度判定閾値Th2（ただし、Th2<Th1）よりも低い場合、そのフレームにおいて第２の方向に位置する音源のみが音声を発した確からしさは低いと判定する。また、着目するフレームについて、確からしさPが第２の尤度判定閾値Th2以上、かづ、第１の尤度判定閾値Th1以下であれば、音源方向判定部２４は、そのフレームにおいて第２の方向に位置する音源のみが音声を発した確からしさは中程度であると判定する。

着目するフレームについて、第２の方向に位置する音源のみが音声を発した確からしさが低い場合、指向特性制御部２５は、第１の指向音声スペクトル及び第２の指向音声スペクトルのうち、第１の指向音声スペクトルのみを出力する。すなわち、指向特性制御部２５は、第２の指向音声スペクトルに乗じるゲインを0に設定することで、受音する指向特性を第１の方向に制限する。一方、着目するフレームについて、第２の方向に位置する音源のみが音声を発した確からしさが高い場合、指向特性制御部２５は、第１の指向音声スペクトル及び第２の指向音声スペクトルの両方を出力する。すなわち、指向特性制御部２５は、第２の指向音声スペクトルに乗じるゲインを1に設定することで、受音する指向特性を、第１の方向だけでなく、第２の方向にも拡張する。

また、着目するフレームについて、第２の方向に位置する音源のみが音声を発した確からしさの程度が中程度である場合、指向特性制御部２５は、第２の指向音声スペクトルに乗じるゲインを、確からしさPの値が高くなるほど1に近くなるように決定する。

図４は、第２の方向に位置する音源のみが音声を発した確からしさPと第２の指向音声スペクトルに乗じるゲインGとの関係の一例を示す図である。図４において、横軸は確からしさPを表し、縦軸は、ゲインGを表す。そしてグラフ４００は、確からしさPとゲインの関係を表す。

グラフ４００に示されるように、確からしさPが第２の尤度判定閾値Th2以下である場合、ゲインGは0に設定される。また、確からしさPが第１の尤度判定閾値Th1以上である場合、ゲインGは1に設定される。そして確からしさPが第２の尤度判定閾値Th2よりも大きく、かつ、第１の尤度判定閾値Th1未満である場合、確からしさPが高くなるにつれてゲインGも単調かつ線形に高くなる。

なお、変形例によれば、一つの尤度判定閾値Thが用いられてもよい。この場合には、着目するフレームについて、確からしさPが尤度判定閾値Thよりも高い場合、指向特性制御部２５は、そのフレームにおいて第２の方向に位置する音源のみが音声を発した確からしさが高いと判定する。一方、確からしさPが尤度判定閾値Th以下である場合、指向特性制御部２５は、そのフレームにおいて第２の方向に位置する音源のみが音声を発した確からしさが低いと判定する。

なお、尤度判定閾値Th1、Th2、Thは、例えば、実験などにより予め設定され、音声処理装置１３が有するメモリに予め保存されればよい。

図５は、受音についての指向特性を表す模式図である。第２の方向に位置する音源のみが音声を発した確からしさの程度が低い場合、受音する感度が高い範囲５０１は、マイクロホン１１−１とマイクロホン１１−２の並び方向について、ドライバ５１１が位置するマイクロホン１１−２側に設定される。一方、第２の方向に位置する音源のみが音声を発した確からしさの程度が高い場合、受音する感度が高い範囲５０２は、マイクロホン１１−１とマイクロホン１１−２の並び方向について、マイクロホン１１−２側とともに、マイクロホン１１−１側にも設定される。これにより、ドライバ５１１が位置する方向だけでなく、同乗者５１２が位置する方向も受音する感度が高い範囲に含まれる。

周波数時間変換部２６は、フレームごとに、指向特性制御部２５から出力された第１の指向音声スペクトルを、周波数時間変換して時間領域の信号に変換することにより、フレームごとの第１の指向音声信号を得る。また、周波数時間変換部２６は、フレームごとに、指向特性制御部２５から出力された第２の指向音声スペクトルを、周波数時間変換して時間領域の信号に変換することにより、フレームごとの第２の指向音声信号を得る。なお、この周波数時間変換は、時間周波数変換部２１により行われる時間周波数変換の逆変換である。

周波数時間変換部２６は、時間順（すなわち、再生順）に連続するフレームごとの第１の指向音声信号を、フレーム長の1/2ずつずらして加算することにより、第１の指向音声信号を算出する。同様に、周波数時間変換部２６は、時間順に連続するフレームごとの第２の指向音声信号を、フレーム長の1/2ずつずらして加算することにより、第２の指向音声信号を算出する。そして周波数時間変換部２６は、第１の指向音声信号及び第２の指向音声信号を、通信インターフェース部１４を介して他の機器へ出力する。

図６は、音声処理装置１３により実行される音声処理の動作フローチャートである。音声処理装置１３は、フレームごとに、下記のフローチャートに従って音声処理を実行する。

時間周波数変換部２１は、フレーム単位に分割された第１の入力音声信号及び第２の入力音声信号にハニング窓関数を乗じる（ステップＳ１０１）。そして、時間周波数変換部２１は、第１の入力音声信号及び第２の入力音声信号を時間周波数変換して第１の周波数スペクトル及び第２の周波数スペクトルを算出する（ステップＳ１０２）。

指向音声生成部２２は、第１及び第２の周波数スペクトルに基づいて、第１の指向音声スペクトル及び第２の指向音声スペクトルを生成する（ステップＳ１０３）。特徴抽出部２３は、音源からの音声らしさを表す特徴量として、第１の指向音声スペクトルのパワー及び非定常性度と、第２の指向音声スペクトルのパワー及び非定常性度を算出する（ステップＳ１０４）。

音源方向判定部２４は、第１の指向音声スペクトル及び第２の指向音声スペクトルのそれぞれのパワー及び非定常性度に基づいて、第１及び第２の方向のうち、第２の方向に位置する音源のみから音声が到来する確からしさPを算出する（ステップＳ１０５）。

指向特性制御部２５は、確からしさPが第１の尤度判定閾値Th1よりも大きいか否か判定する（ステップＳ１０６）。確からしさPが第１の尤度判定閾値Th1より大きい場合（ステップＳ１０６−Ｙｅｓ）、指向特性制御部２５は、第１及び第２の指向音声スペクトルの両方を出力する（ステップＳ１０７）。一方、確からしさPが第１の尤度判定閾値Th1以下である場合（ステップＳ１０６−Ｎｏ）、指向特性制御部２５は、確からしさPが第２の尤度判定閾値Th2よりも小さいか否か判定する（ステップＳ１０８）。確からしさPが第２の尤度判定閾値Th2よりも小さい場合（ステップＳ１０８−Ｙｅｓ）、指向特性制御部２５は、第１及び第２の指向音声スペクトルのうちの第１の指向音声スペクトルのみを出力する（ステップＳ１０９）。すなわち、指向特性制御部２５は、第１の指向音声スペクトルとともに、振幅が全周波数帯域にわたって0となる第２の指向音声スペクトルを出力する。一方、確からしさPが第２の尤度判定閾値Th2以上である場合（ステップＳ１０８−Ｎｏ）、指向特性制御部２５は、第１の指向音声スペクトルとともに、確からしさPに応じて抑圧した第２の指向音声スペクトルを出力する（ステップＳ１１０）。

周波数時間変換部２６は、指向特性制御部２５から出力された第１の指向音声スペクトルを周波数時間変換して第１の指向音声信号を算出する。また周波数時間変換部２６は、第２の指向音声スペクトルが出力された場合には、第２の指向音声スペクトルについても周波数時間変換して第２の指向音声信号を算出する（ステップＳ１１１）。そして周波数時間変換部２６は、前フレームまでの第１の指向音声信号に対して半フレーム長ずらして現フレームの第１の指向音声信号を合成する。同様に、周波数時間変換部２６は、前フレームまでの第２の指向音声信号に対して半フレーム長ずらして現フレームの第２の指向音声信号を合成する（ステップＳ１１２）。そして音声処理装置１３は、音声処理を終了する。

以上に説明してきたように、この音声処理装置は、受音することが優先される音源が位置する第１の方向と、他の音源が位置することが想定される第２の方向のうちの第２の方向に位置する音源のみが音声を発した確からしさをフレームごとに算出する。そしてこの音声処理装置は、その確からしさが高いと、第１の方向から到来する音声を含む第１の指向音声信号だけでなく、第２の方向から到来する音声を含む第２の指向音声信号も出力する。すなわち、この音声処理装置は、その確からしさが高いと、受音の指向特性を、第１の方向だけでなく、第２の方向も含むように制御する。これにより、この音声処理装置は、例えば、複数の話者のうちの特定の話者が発した音声を優先的に受音しつつ、他の話者が音声を発したときには、他の話者が発した音声も受音することを可能とする。

なお、変形例によれば、特徴抽出部２３は、フレームごとに、音源からの音声らしさを表す特徴量として、第１の指向音声スペクトルのパワーと、第２の指向音声スペクトルのパワーを算出し、非定常性度については算出しなくてもよい。この場合には、特徴抽出部２３は、確からしさPを、次式に従って算出すればよい。

また他の変形例によれば、指向音声生成部２２は、第１の周波数スペクトルと第２の周波数スペクトル間の同期減算により、フレームごとに第１の指向音声スペクトル及び第２の指向音声スペクトルを算出してもよい。この場合、指向音声生成部２２は、次式に従って第１の指向音声スペクトルX(f)及び第２の指向音声スペクトルY(f)を算出する。

ここで、Nは、1フレームに含まれるサンプリング点の総数、すなわち、フレーム長を表す。またnは、マイクロホン１１−１とマイクロホン１１−２間の、音源から音声が到達するサンプリング時間差を表す。なお、nが0<n≦1、すなわち、サンプリング間隔以下となるように、マイクロホン１１−１とマイクロホン１１−２間の間隔dは、(音速/Fs)以下となるように設定される。

図７は、この変形例による、受音についての指向特性を表す模式図である。第２の方向に位置する音源のみが音声を発した確からしさの程度が低い場合、受音する感度が高い範囲７０１は、マイクロホン１１−１とマイクロホン１１−２の並び方向について、ドライバ７１１が位置するマイクロホン１１−２側に設定される。一方、第２の方向に位置する音源のみが音声を発した確からしさの程度が高い場合、受音する感度が高い範囲７０２は、マイクロホン１１−２側とともに、同乗者７１２が位置するマイクロホン１１−１側にも設定される。またこの例では、第１の指向音声信号について受音する感度が高い範囲と、第２の指向音声信号について受音する感度が高い範囲の一部が重なる。

さらに他の変形例によれば、指向特性制御部２５は、フレームごとに、第１の指向音声スペクトルに抑圧の程度を表す第１のゲインを乗じて得られるスペクトルを出力してもよい。同様に、指向特性制御部２５は、フレームごとに、第２の指向音声スペクトルに抑圧の程度を表す第２のゲインを乗じて得られるスペクトルを出力してもよい。そして指向特性制御部２５は、第２の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間に応じて、第１のゲイン及び第２のゲインを調節してもよい。

図８は、第２の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間と第１及び第２のゲインの関係の一例を示す図である。図８において、横軸は時間を表し、縦軸はゲインを表す。そしてグラフ８０１は、第２の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間と第１のゲインの関係を表す。またグラフ８０２は、第２の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間と第２のゲインの関係を表す。

この例では、時刻t1までは、第２の方向に位置する音源のみが音声を発した確からしさPが第１の尤度判定閾値Th1以下であり、時刻t1において確からしさPが第１の尤度判定閾値Th1より大きくなったとする。すなわち、時刻t1において、第２の方向に位置する音源のみが音声を発した確からしさの程度が高いに変化したとする。また、時刻t1以降、時刻t3までは、第２の方向に位置する音源のみが音声を発した確からしさPは第２の尤度判定閾値Th2以上であり、時刻t3において確からしさPが第２の尤度判定閾値Th2より小さくなったとする。すなわち、時刻t3において、第２の方向に位置する音源のみが音声を発した確からしさの程度が低いに変化したとする。

この場合、時刻t1までは、第１のゲインG1は1に設定され、一方、第２のゲインG2は0に設定される。すなわち、第２の方向に位置する音源のみが音声を発した確からしさの程度が高いに変化するまでは、指向特性制御部２５は、第１の指向音声スペクトルをそのまま出力し、かつ、第２の指向音声スペクトルを出力しない。

一方、時刻t1になり、第２の方向に位置する音源のみが音声を発した確からしさの程度が高いに変化すると、その後の時刻t2までの一定期間（例えば、数10msec）、指向特性制御部２５は、第１のゲインG1を線形に単調減少させる。そして時刻t2以降、指向特性制御部２５は、第１のゲインG1を、0<G1<1となる所定の値（この例では、0.7）に設定する。一方、指向特性制御部２５は、時刻t1以降、第２のゲインG2を1に設定する。すなわち、指向特性制御部２５は、第１の指向音声スペクトルを減衰させて出力し、かつ、第２の指向音声スペクトルをそのまま出力する。これにより、第２の方向に位置する音源から音声が到来している間は、第２の指向音声信号に含まれる、第２の方向からの音声についての、第１の方向から受音した雑音に対する信号対雑音比が向上する。

また、時刻t3になり、第２の方向に位置する音源のみが音声を発した確からしさの程度が低いに変化すると、指向特性制御部２５は、その後の時刻t4までの一定期間（例えば、100msec〜200msec）は第１のゲインG1を所定値に維持する。そして指向特性制御部２５は、時刻t4以降、第１のゲインG1を1に戻す。また、指向特性制御部２５は、時刻t4まで、第２のゲインG2を1に維持し、時刻t4以降、第２のゲインG2を線形に単調減少させる。そして指向特性制御部２５は、時刻t4よりも後の時刻t5以降、第２のゲインG2を0にする。これにより、第２の方向に位置する音源のみが音声を発した確からしさの程度が低いに変化しても、その後の一定期間の間、第２の指向音声スペクトルは出力される。そのため、例えば、第２の指向音声信号に含まれる、第２の方向からの音声の後端部分、例えば、第２の方向に位置する同乗者が発した会話音声の語尾部分が途切れることが防止される。したがって、例えば、第２の指向音声信号を受信した他の機器が、第２の指向音声信号から同乗者の音声を認識する場合、語尾部分が途切れることによる認識精度の低下が防止される。なお、時刻t3〜時刻t5までの期間は、時刻t3〜時刻t4までの期間以上であり、かつ、例えば、100msec〜300msecに設定される。

図９は、この変形例による指向特性制御部２５の指向特性制御の動作フローチャートである。なお、この指向特性制御の処理は、図６に示される音声処理の動作フローチャートにおけるステップＳ１０６〜Ｓ１１０までの処理の代わりに実行される。また図９では、現フレームにおける、第２の方向に位置する音源のみが音声を発した確からしさをP(t)と表記し、直前のフレームにおける、第２の方向に位置する音源のみが音声を発した確からしさをP(t-1)と表記する。

図６に示されたステップＳ１０５において、現フレームの確からしさP(t)が算出されると、指向特性制御部２５は、確からしさP(t)が第１の尤度判定閾値Th1よりも大きいか否か判定する（ステップＳ２０１）。確からしさP(t)が第１の尤度判定閾値Th1よりも大きい場合（ステップＳ２０１−Ｙｅｓ）、指向特性制御部２５は、直前のフレームの確からしさP(t-1)が第１の尤度判定閾値Th1以下か否か判定する（ステップＳ２０２）。確からしさP(t-1)が第１の尤度判定閾値Th1以下であれば（ステップＳ２０２−Ｙｅｓ）、現フレームにおいて、第２の方向に位置する音源のみが音声を発した確からしさが高いに変化している。そこで、指向特性制御部２５は、第２の方向に位置する音源のみが音声を発した確からしさが高いに変化してからの経過時間を表すフレーム数cnt1を1に設定する。また、指向特性制御部２５は、第２の方向に位置する音源のみが音声を発した確からしさが低いに変化してからの経過時間を表すフレーム数cnt2を0に設定する（ステップＳ２０３）。なお、初期状態では、第１のゲインG1が1、第２のゲインG2が0となるように、フレーム数cnt1は0に設定され、かつ、フレーム数cnt2は、時刻t3〜時刻t5の期間に相当するフレーム数よりも大きい値に設定される。

一方、確からしさP(t-1)が第１の尤度判定閾値Th1よりも高ければ（ステップＳ２０２−Ｎｏ）、直前のフレームの時点でも、第２の方向に位置する音源のみが音声を発した確からしさが高く、その確からしさが高い状態が現フレームまで継続している。そのため、指向特性制御部２５は、フレーム数cnt1を1インクリメントする（ステップＳ２０４）。そしてステップＳ２０３またはＳ２０４の後、指向特性制御部２５は、第１のゲインG1を、例えば、図８に示されるように、フレーム数cnt1に応じて設定し、第２のゲインG2を1に設定する（ステップＳ２０５）。

また、ステップＳ２０１において、確からしさP(t)が第１の尤度判定閾値Th1以下である場合（ステップＳ２０１−Ｎｏ）、指向特性制御部２５は、P(t)が第２の尤度判定閾値Th2よりも小さいか否か判定する（ステップＳ２０６）。P(t)が第２の尤度判定閾値Th2よりも小さい場合（ステップＳ２０６−Ｙｅｓ）、指向特性制御部２５は、直前のフレームの確からしさP(t-1)が第２の尤度判定閾値Th2以上か否か判定する（ステップＳ２０７）。確からしさP(t-1)が第２の尤度判定閾値Th2以上であれば（ステップＳ２０７−Ｙｅｓ）、現フレームにおいて、第２の方向に位置する音源のみが音声を発した確からしさが低いに変化している。そこで、指向特性制御部２５は、フレーム数cnt1を0に設定し、かつ、フレーム数cnt2を1に設定する（ステップＳ２０８）。

一方、確からしさP(t-1)が第２の尤度判定閾値Th2よりも低ければ（ステップＳ２０７−Ｎｏ）、直前のフレームの時点でも、第２の方向に位置する音源のみが音声を発した確からしさが低く、その確からしさが低い状態が現フレームまで継続している。そのため、指向特性制御部２５は、フレーム数cnt2を1インクリメントする（ステップＳ２０９）。そしてステップＳ２０８またはＳ２０９の後、指向特性制御部２５は、第１のゲインG1及び第２のゲインG2を、例えば、図８に示されるように、フレーム数cnt2に応じて設定する（ステップＳ２１０）。

また、ステップＳ２０６にて、P(t)が第２の尤度判定閾値Th2以上である場合（ステップＳ２０６−Ｎｏ）、現フレームでは、確からしさが中程度の状態であることが継続している。そこで、指向特性制御部２５は、フレーム数cnt1が0よりも大きいか否か判定する（ステップＳ２１１）。フレーム数cnt1が0よりも大きければ（ステップＳ２１１−Ｙｅｓ）、確からしさが高い状態が継続しているとみなす。そこで指向特性制御部２５は、フレーム数cnt1を1インクリメントする（ステップＳ２０４）。一方、フレーム数cnt1が0であれば（ステップＳ２１１−Ｎｏ）、フレーム数cnt2が0よりも大きいはずなので、確からしさが低い状態が継続しているとみなす。そこで指向特性制御部２５は、フレーム数cnt2を1インクリメントする（ステップＳ２０９）。

ステップＳ２０５またはステップＳ２１０の後、指向特性制御部２５は、第１のゲインG1を第１の指向音声スペクトルに乗じてからその第１の指向音声スペクトルを出力する。また、指向特性制御部２５は、第２のゲインG2を第２の指向音声スペクトルに乗じてからその第２の指向音声スペクトルを出力する（ステップＳ２１２）。そして音声処理装置１３は、図６のステップＳ１１１以降の処理を実行する。

この変形例によれば、音声処理装置は、第２の方向に位置する音源のみが音声を発している場合のその音声についての信号対雑音比を向上できるとともに、第２の方向に位置する音源から発した音声の語尾が途切れることを防止できる。
なお、この変形例においても、二つの第１の尤度判定閾値Th1と第２の尤度判定閾値Th2の代わりに、一つの尤度判定閾値Thが用いられてもよい。この場合には、指向特性制御部２５は、図９に示された動作フローチャートにおいて、Th1=Th2=Thとして、指向特性制御を行えばよい。

上記の実施形態または変形例において、指向特性制御部２５は、フレームごとに、ゲインが乗じられた後の第１の指向音声スペクトルと第２の指向音声スペクトルを合成して一つのスペクトルとしてから出力してもよい。そして周波数時間変換部２６は、その一つのスペクトルを周波数時間変換してフレームごとに合成することで、一つの指向音声信号を算出し、その指向音声信号を出力してもよい。あるいは、周波数時間変換部２６は、第１の指向音声信号と第２の指向音声信号を合成して一つの指向音声信号を算出し、その指向音声信号を出力してもよい。

上記の実施形態または変形例による音声処理装置は、上記のような音声入力装置以外の装置、例えば、電話会議システムなどに実装されてもよい。

上記の実施形態または変形例による音声処理装置が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

図１０は、上記の実施形態またはその変形例による音声処理装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声処理装置として動作するコンピュータの構成図である。
コンピュータ１００は、ユーザインターフェース部１０１と、オーディオインターフェース部１０２と、通信インターフェース部１０３と、記憶部１０４と、記憶媒体アクセス装置１０５と、プロセッサ１０６とを有する。プロセッサ１０６は、ユーザインターフェース部１０１、オーディオインターフェース部１０２、通信インターフェース部１０３、記憶部１０４及び記憶媒体アクセス装置１０５と、例えば、バスを介して接続される。

ユーザインターフェース部１０１は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部１０１は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部１０１は、例えば、ユーザの操作に応じて、音声処理を開始させる操作信号をプロセッサ１０６へ出力する。

オーディオインターフェース部１０２は、コンピュータ１００を、マイクロホン（図示せず）と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部１０２は、２以上のマイクロホンのそれぞれから受け取った入力音声信号をプロセッサ１０６へ渡す。

通信インターフェース部１０３は、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして通信インターフェース部１０３は、例えば、プロセッサ１０６から受け取った、第１の指向音声信号及び第２の指向音声信号のそれぞれを通信ネットワークを介して他の機器へ出力する。あるいは、通信インターフェース部１０３は、第１の指向音声信号及び第２の指向音声信号に対して音声認識処理を適用することで得られた音声認識結果を、通信ネットワークを介して他の機器へ出力してもよい。あるいはまた、通信インターフェース部１０３は、音声認識結果に応じて実行されたアプリケーションにより生成された信号を、通信ネットワークを介して他の機器へ出力してもよい。

記憶部１０４は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部１０４は、プロセッサ１０６上で実行される、音声処理を実行するためのコンピュータプログラム、及び音声処理で利用される様々なデータまたは音声処理の途中で生成される各種の信号などを記憶する。

記憶媒体アクセス装置１０５は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体１０７にアクセスする装置である。記憶媒体アクセス装置１０５は、例えば、記憶媒体１０７に記憶された、プロセッサ１０６上で実行される音声処理用のコンピュータプログラムを読み込み、プロセッサ１０６に渡す。

プロセッサ１０６は、上記の実施形態または変形例による音声処理用コンピュータプログラムを実行することにより、各入力音声信号から第１の指向音声信号及び第２の指向音声信号を生成する。そしてプロセッサ１０６は、第１の指向音声信号及び第２の指向音声信号を通信インターフェース部１０３へ出力する。

さらに、プロセッサ１０６は、第１の指向音声信号に対して音声認識処理を実行することで、第１の方向に位置する話者が発した音声を認識してもよい。同様に、プロセッサ１０６は、第２の指向音声信号に対して音声認識処理を実行することで、第２の方向に位置する他の話者が発した音声を認識してもよい。そしてプロセッサ１０６は、それぞれの音声認識結果に応じて所定のアプリケーションを実行してもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
第１の音声入力部により生成された第１の音声信号、及び、前記第１の音声入力部と異なる位置に配置された第２の音声入力部により生成された第２の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数スペクトル及び第２の周波数スペクトルに変換し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、受音することが優先される第１の方向及び前記第１の方向と異なる第２の方向のうちの前記第２の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第１の方向から到来する音声を含む第１の指向音声信号を出力するとともに、前記確からしさに応じて、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第２の方向から到来する音声を含む第２の指向音声信号を出力するか否かを制御する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
（付記２）
前記第２の指向音声信号の出力を制御することは、前記確からしさが第１の閾値よりも高くなるフレームについて前記第２の指向音声信号を出力する、付記１に記載の音声処理用コンピュータプログラム。
（付記３）
前記第２の指向音声信号の出力を制御することは、第１のフレームにおける前記確からしさが前記第１の閾値よりも低い第２の閾値未満となり、かつ、前記第１のフレームの直前のフレームにおける前記確からしさが前記第２の閾値以上である場合、前記第１のフレームから第１の期間経過後のフレームから前記第２の指向音声信号の出力を停止する、付記２に記載の音声処理用コンピュータプログラム。
（付記４）
前記第２の指向音声信号の出力を制御することは、第２のフレームにおける前記確からしさが前記第１の閾値よりも高く、かつ、前記第２のフレームの直前のフレームにおける前記確からしさが前記第１の閾値以下である場合、前記第２のフレームから第２の期間にわたって前記第１の指向音声信号を抑圧して出力する、付記３に記載の音声処理用コンピュータプログラム。
（付記５）
前記第２の指向音声信号の出力を制御することは、前記第２のフレーム以降の第３のフレームにおける前記確からしさが前記第２の閾値未満となる場合、前記第３のフレームから第３の期間経過した時点を前記第２の期間の終端とする、付記４に記載の音声処理用コンピュータプログラム。
（付記６）
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、前記第１の指向音声信号のパワー及び前記第２の指向音声信号のパワーを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第１の指向音声信号のパワーに対する前記第２の指向音声信号のパワーのパワー比に基づいて前記確からしさを算出する、付記１〜５の何れかに記載の音声処理用コンピュータプログラム。
（付記７）
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、前記第１の指向音声の非定常性度合い及び前記第２の指向音声の非定常性度合いを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第１の指向音声の非定常性度合いに対する前記第２の指向音声の非定常性度合いの非定常度比と前記パワー比の和に基づいて前記確からしさを算出する、付記６に記載の音声処理用コンピュータプログラム。
（付記８）
集音した音声を表す第１の音声信号を生成する第１の音声入力部と、
前記第１の音声入力部と異なる位置に配置され、集音した音声を表す第２の音声信号を生成する第２の音声入力部と、
前記第１の音声信号及び第２の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数スペクトル及び第２の周波数スペクトルに変換する時間周波数変換部と、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、受音することが優先される第１の方向及び前記第１の方向と異なる第２の方向のうちの前記第２の方向に位置する音源のみが音声を発した確からしさを算出する音源方向判定部と、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第１の方向から到来する音声を含む第１の指向音声信号を出力するとともに、前記確からしさに応じて、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第２の方向から到来する音声を含む第２の指向音声信号を出力するか否かを制御する指向音声出力部と、
を有する音声処理装置。
（付記９）
第１の音声入力部により生成された第１の音声信号、及び、前記第１の音声入力部と異なる位置に配置された第２の音声入力部により生成された第２の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数スペクトル及び第２の周波数スペクトルに変換し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、受音することが優先される第１の方向及び前記第１の方向と異なる第２の方向のうちの前記第２の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第１の方向から到来する音声を含む第１の指向音声信号を出力するとともに、前記確からしさに応じて、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第２の方向から到来する音声を含む第２の指向音声信号を出力するか否かを制御する、
ことを含む音声処理方法。

１音声入力装置
１１−１、１１−２マイクロホン
１２−１、１２−２アナログ／デジタル変換器
１３音声処理装置
１４通信インターフェース部
２１時間周波数変換部
２２指向音声生成部
２３特徴抽出部
２４音源方向判定部
２５指向特性制御部
２６周波数時間変換部
１００コンピュータ
１０１ユーザインターフェース部
１０２オーディオインターフェース部
１０３通信インターフェース部
１０４記憶部
１０５記憶媒体アクセス装置
１０６プロセッサ
１０７記憶媒体

Claims

第１の音声入力部により生成された第１の音声信号、及び、前記第１の音声入力部と異なる位置に配置された第２の音声入力部により生成された第２の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数スペクトル及び第２の周波数スペクトルに変換し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、受音することが優先される第１の方向及び前記第１の方向と異なる第２の方向のうちの前記第２の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第１の方向から到来する音声を含む第１の指向音声信号を出力するとともに、前記確からしさに応じて、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第２の方向から到来する音声を含む第２の指向音声信号を出力するか否かを制御する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
前記第２の指向音声信号の出力を制御することは、前記確からしさが第１の閾値よりも高くなるフレームについて前記第２の指向音声信号を出力する、請求項１に記載の音声処理用コンピュータプログラム。
前記第２の指向音声信号の出力を制御することは、第１のフレームにおける前記確からしさが前記第１の閾値よりも低い第２の閾値未満となり、かつ、前記第１のフレームの直前のフレームにおける前記確からしさが前記第２の閾値以上である場合、前記第１のフレームから第１の期間経過後のフレームから前記第２の指向音声信号の出力を停止する、請求項２に記載の音声処理用コンピュータプログラム。
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、前記第１の指向音声信号のパワー及び前記第２の指向音声信号のパワーを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第１の指向音声信号のパワーに対する前記第２の指向音声信号のパワーのパワー比に基づいて前記確からしさを算出する、請求項１〜３の何れか一項に記載の音声処理用コンピュータプログラム。
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、前記第１の指向音声の非定常性度合い及び前記第２の指向音声の非定常性度合いを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第１の指向音声の非定常性度合いに対する前記第２の指向音声の非定常性度合いの非定常度比と前記パワー比の和に基づいて前記確からしさを算出する、請求項４に記載の音声処理用コンピュータプログラム。
集音した音声を表す第１の音声信号を生成する第１の音声入力部と、
前記第１の音声入力部と異なる位置に配置され、集音した音声を表す第２の音声信号を生成する第２の音声入力部と、
前記第１の音声信号及び第２の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数スペクトル及び第２の周波数スペクトルに変換する時間周波数変換部と、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、受音することが優先される第１の方向及び前記第１の方向と異なる第２の方向のうちの前記第２の方向に位置する音源のみが音声を発した確からしさを算出する音源方向判定部と、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第１の方向から到来する音声を含む第１の指向音声信号を出力するとともに、前記確からしさに応じて、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第２の方向から到来する音声を含む第２の指向音声信号を出力するか否かを制御する指向特性制御部と、
を有する音声処理装置。
第１の音声入力部により生成された第１の音声信号、及び、前記第１の音声入力部と異なる位置に配置された第２の音声入力部により生成された第２の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数スペクトル及び第２の周波数スペクトルに変換し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて、受音することが優先される第１の方向及び前記第１の方向と異なる第２の方向のうちの前記第２の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第１の方向から到来する音声を含む第１の指向音声信号を出力するとともに、前記確からしさに応じて、前記第１の周波数スペクトル及び前記第２の周波数スペクトルに基づいて算出される前記第２の方向から到来する音声を含む第２の指向音声信号を出力するか否かを制御する、
ことを含む音声処理方法。