JP2017067948A

JP2017067948A - 音声処理装置および音声処理方法

Info

Publication number: JP2017067948A
Application number: JP2015191879A
Authority: JP
Inventors: 武志水本; Takeshi Mizumoto; 圭佑中村; Keisuke Nakamura; 一博中臺; Kazuhiro Nakadai
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-04-06
Anticipated expiration: 2035-09-29
Also published as: US20170092287A1; US10063966B2; JP6606784B2

Abstract

【課題】音声信号のみから伝達関数を求めて音声信号の処理を行うことができる音声処理装置および音声処理方法を提供する。【解決手段】音声処理装置１は、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部１７、を備える。【選択図】図２

Description

本発明は、音声処理装置および音声処理方法に関する。

近年、複数の話者の音声を話者毎に分離する音源分離、話者の位置を定位する音源定位をする技術が、車両、ロボット、議事録作成装置等の分野において提案されている。マイクロホンアレイを用いて音源定位や音源分離をする場合には、観測される音源とマイクロホンアレイとの間の伝達関数を幾何的に計算したり、特定の信号を計測したりして事前情報として求めておく必要がある。ここで、利用者が目的に応じてマイクロホンアレイを自作する場合など、事前に求めるべき伝達関数情報を得ることが難しい場合がある。このため、音源分離や音源定位を行う装置の使用にあたっては、改善が望まれている。

伝達関数を推定する技術として、例えば特許文献１には、オンライン状態でマイクロホンから所定の信号し、それをマイクロホンで受信して動的に伝達関数を推定することが開示されている。

特開２０１０−１８１４４８号公報

しかしながら、特許文献１に記載の技術では、伝達関数を推定するに当たって、スピーカ等から既知の音声信号を出力する必要があり、話者が発話した実際の音声信号のみから伝達関数を求めることができなかった。すなわち、特許文献１に記載の技術では、音源の位置、音源の数、マイクロホンの位置、各マイクロホンと音源との位置関係が未知である音響信号から伝達関数を求めることができなかった。

本発明は、上記の問題点に鑑みてなされたものであって、音声信号のみから伝達関数を求めて音声信号の処理を行うことができる音声処理装置および音声処理方法を提供することを目的としている。

（１）上記目的を達成するため、本発明の一態様に係る音声処理装置は、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部、を備える。

（２）また、本発明の一態様に係る音声処理装置は、前記複数のチャネルを有する前記音響信号から複数の発話区間を検出する発話区間検出部と、前記発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部と、前記発話信号を用いて特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された前記特徴量をクラスタに分類することで音源数を推定するクラスタリング部と、を更に備え、前記代表伝達関数推定部は、前記伝達関数推定部によって推定された前記伝達関数と、前記クラスタリング部によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定するようにしてもよい。

（３）また、本発明の一態様に係る音声処理装置において、前記伝達関数推定部は、前記発話信号に含まれる複数のチャネルのうちの１つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記伝達関数を推定するようにしてもよい。

（４）また、本発明の一態様に係る音声処理装置において、前記特徴量算出部は、前記発話信号に含まれる複数のチャネルのうちの１つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記特徴量を算出するようにしてもよい。

（５）また、本発明の一態様に係る音声処理装置において、前記特徴量は、前記代表チャネルの前記発話信号と、前記残りのチャネルの前記発話信号との位相差に基づく値であるようにしてもよい。

（６）また、本発明の一態様に係る音声処理装置において、前記クラスタリング部は、
統合されたクラスタの数が収束する前記クラスタ間の距離に基づいて、前記クラスタの数を決定するようにしてもよい。

（７）また、本発明の一態様に係る音声処理装置において、前記代表伝達関数推定部は、前記クラスタリング部によって求められた前記クラスタそれぞれの中心を算出し、各クラスタに含まれる前記特徴量について、算出した前記クラスタそれぞれの中心と前記特徴量との距離を算出し、算出した距離の総和と算出した距離それぞれを用いて重み付け値を算出し、前記クラスタに含まれる前記特徴量に対応する伝達関数と、算出した重み付け値を用いて、前記クラスタの中心における伝達関数を音源までの伝達関数として推定するようにしてもよい。

（８）上記目的を達成するため、本発明の一態様に係る音声処理方法は、音響信号取得部に、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を取得させる音響信号取得手順と、発話区間検出部に、前記複数のチャネルを有する前記音響信号から複数の発話区間を検出させる発話区間検出手順と、伝達関数推定部に、前記発話区間検出手順によって検出された発話区間の発話信号を用いて伝達関数を推定させる伝達関数推定手順と、特徴量算出部に、前記発話信号を用いて特徴量を算出させる特徴量算出手順と、クラスタリング部に、前記特徴量算出手順によって算出された前記特徴量をクラスタに分類することで音源数を推定させるクラスタリング手順と、代表伝達関数推定部に、前記伝達関数推定手順によって推定された前記伝達関数と、前記クラスタリング手順によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定させるクラスタリング手順と、を含む。

上述した（１）、（２）または（８）の構成によれば、配置が未知のマイクロホンアレイを用いて集音された音源数も未知の音響信号から、音源に対する伝達関数を推定することができる。このように推定された伝達関数を音源分離、音源定位に用いることができる。この結果、（１）、（２）または（８）の構成によれば、事前に音響信号を発して伝達関数を推定する必要がないので、装置を駆動させるのに事前の準備を省略することができる。

上述した（３）の構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の伝達関数を推定することができ、この推定された伝達関数を用いて音源に対する伝達関数を推定することができる。
上述した（４）または（５）の構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の特徴量を算出することができ、この算出された特徴量を用いて音源に対する伝達関数を推定することができる。また、（５）の構成によれば、マイクロホン間の位相差を用いることによって事前に伝達関数を完全に求めていない状態でも、伝達関数を推定することができる。

上述した（６）の構成によれば、クラスタの数、すなわち音源数を精度良く推定することができる。
上述した（７）の構成によれば、空間クラスタリングをすることによって、想定される話者の位置において幅を持たせた伝達関数を推定することができる。

本発明の概要を示す図である。本実施形態に係る音声処理装置の概略構成を示すブロック図である。本実施形態に係る取得された音響信号の例を示す図である。本実施形態に係る発話区間の例を示す図である。本実施形態に係る時間領域から周波数領域への変換について説明する図である。本実施形態に係る空間特徴量の例と、空間クラスタリングの例を示す図である。本実施形態に係る話者数の推定方法を示す図である。図６の第２のクラスタにおけるクラスタ中心と各空間特徴量との距離の例を示す図である。本実施形態に係る代表伝達関数ＤＢに格納される情報の例を示す図である。本実施形態に係る音声処理装置の処理のフローチャートである。

［発明の概要］
まず、本発明の概要を説明する。
図１は、本発明の概要を示す図である。図１に示すように、本発明では、少なくとも２つ以上のマイクロホン２０１によって構成されるマイクロホンアレイ２を用いて、Ｍチェネル（Ｍは２以上の整数、マイクロホン２０１の数と一致）の音響信号録音部３が、音響信号を録音する。録音時、マイクロホン２０１の位置関係は未知であり、話者ＳＰの位置も未知であり、話者の人数も未知であり、各マイクロホン２０１と話者ＳＰとの位置関係も未知である。このような条件で録音されたＭチャネルの音響信号を、音声処理装置１が取得する。音声処理装置１は、取得したＭチャネルの音響信号から、発話区間を検出する。そして、音声処理装置１は、発話区間に含まれる音響信号の特徴量に基づいて、同じ方向から来ていると推定される音響信号に分類する。音声処理装置１は、分類した方向の音響信号毎に伝達関数を推定し、推定した伝達関数を用いて、音源分離処理、音源定位処理を行う。音声処理装置１は、定位された音源の信号を用いて、伝達関数の推定を、伝達関数が収束するまで繰り返す。この処理によって、本発明によれば、音源の位置、音源の数、マイクロホン２０１の位置、各マイクロホン２０１と音源（話者ＳＰ）との位置関係が未知である音響信号から、方向毎の音声信号を抽出することができる。また、マイクロホンアレイ２の位置とマイクロホン２０１の位置は、例えば会議における１セッションの間、固定されているものとする。なお、１セッションとは、例えば１つの会議全体に含まれる会話である。また、本発明において、複数のチャネルの音響信号が得られればよいので、マイクロホンアレイ２におけるマイクロホン２０１の数は２つ以上であればよい。

以下、図面を参照しながら本発明の実施形態について説明する。
まず、音声処理装置１の構成について説明する。
図２は、本実施形態に係る音声処理装置１の概略構成を示すブロック図である。図２に示すように、音声処理装置１は、音響信号取得部１１、発話推定部１２、変換部１３、伝達関数推定部１４、特徴量算出部１５、クラスタリング部１６、代表伝達関数推定部１７、伝達関数ＤＢ１８、音源定位部１９、発話認識部２０、および出力部２１を備えている。

音響信号取得部１１は、Ｍチャネルの音響信号を取得し、取得したＭチャネルの音響信号を発話推定部１２に出力する。なお、本実施形態において、収音される音響信号は、例えば会議室で行われる会議を録音したものである。このため、話者の移動は殆どないものとする。

発話推定部１２は、発話区間推定部１２１を備える。
発話推定部１２は、音響信号取得部１１が出力したＭチャネルの音響信号の中から、例えば１セッションの音響信号を抽出する。発話区間推定部１２１は、抽出された１セッションの音響信号から発話区間を検出し、検出した発話区間毎の音声信号を変換部１３に出力する。なお、１セッションは、例えば１つの会議等で交わされた会話である。発話区間推定部１２１は、Ｍチャネルの音響信号の中から、例えば所定の閾値以上の信号が含まれているＮ個（Ｎは０以上の整数）の区間を発話区間として検出する。または、発話区間推定部１２１は、ゼロクロス法、ＧＭＭ法等を用いて発話区間を検出してもよい。ゼロクロス法とは、一定のレベルを越える振幅について零交差数が一定数を越えたとき時刻を音声始端とし、値が一定以下になったときに音声の終端としてそこで入力を区切って１発話分であると検出する手法である。また、ＧＭＭ（ガウス混合分布モデル；Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）法とは、音声と非音声のＧＭＭを定義し、入力短時間フレームごとに特徴量を算出し、算出した特徴量から各ＧＭＭの尤度計算を行い、音声ＧＭＭと非音声ＧＭＭの尤度比から、音声区間の開始・終了を判別する手法である。

変換部１３は、発話推定部１２が出力した発話区間毎の音声信号を、短時間フーリエ変換を行って周波数領域の信号に変換し、変換した発話区間毎の音声信号を伝達関数推定部１４と特徴量算出部１５と音源定位部１９に出力する。

伝達関数推定部１４は、変換部１３が出力した発話区間毎の音声信号の１つを選択し、選択した音響信号を基準として発話区間毎のＮ個の伝達関数を推定する。なお、伝達関数の推定方法については、後述する。伝達関数推定部１４は、推定した発話区間毎のＮ個の伝達関数を代表伝達関数推定部１７に出力する。

特徴量算出部１５は、変換部１３が出力した発話区間毎のＭチャネルの音響信号の中から１つを代表チャネルとして選択する。特徴量算出部１５は、選択したチャネルを基準と他のチャネルとのサンプル差を空間特徴量として算出し、算出した空間音響特徴量をクラスタリング部１６に出力する。なお、空間特徴量の算出方法については、後述する。

クラスタリング部１６は、特徴量算出部１５が出力した特徴量をＭ−１次元の空間に展開し、特徴量を分類することで音源数（話者数）を推定する。クラスタリング部１６は、分類した結果を代表伝達関数推定部１７に出力する。すなわち、本実施形態では、特徴量算出部１５とクラスタリング部１６が、１つのチャネルを基準として、音源の位置を推定している。なお、クラスタリングの処理については、後述する。

代表伝達関数推定部１７は、クラスタリング部１６によって推定されたクラスタ毎の中心を求め、クラスタ毎に中心と各特徴量との距離を算出する。代表伝達関数推定部１７は、伝達関数推定部１４が出力した発話区間毎のＮ個の伝達関数を用いて、クラスタの中心からの距離も考慮して重み付けを行って、伝達関数を統合してクラスタを代表する伝達関数を決定する。すなわち、代表伝達関数推定部１７は、特徴量算出部１５とクラスタリング部１６によって推定された音源の位置の伝達関数を推定している。代表伝達関数推定部１７は、決定した代表伝達関数を、伝達関数ＤＢ１８に記憶させ、さらに音源定位部１９に出力する。なお、代表伝達関数の推定、決定方法については、後述する。
伝達関数ＤＢ１８には、方向毎に推定された伝達関数が格納されている。

音源定位部１９は、代表伝達関数推定部１７が出力した代表伝達関数を用いて、変換部１３が出力したＭチャネルの音響信号に対して音源定位処理を行う。なお、音源定位部１９は、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多重信号分類）法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部１９は、算出した空間スペクトルに基づいて音源毎の音源方向を推定する。ただし、本実施形態において、推定される方位は、マイクロホン２０１の位置、マイクロホン２０１の配置、および音源の位置が未知であるため、例えばクラスタリング処理によって、音源がＰ個（Ｐは０以上の整数）と判別された場合、音源毎の方位は第１の方向、・・・、第Ｐの方向である。なお、音源方向の推定方法については、後述する。音源定位部１９は、音源定位した定位結果を、発話推定部１２と発話認識部２０に出力する。

発話認識部２０は、音源定位部１９が出力した定位結果に対して、特徴量を算出する。発話認識部２０は、算出した特徴量と自部に記憶されている音声認識モデルを用いて音声認識処理を行う。発話認識部２０は、算出した特徴量について音声認識モデルを用いて算出した尤度が最も高い語句を認識結果として定める。発話認識部２０は、音源毎の発話内容として認識結果を示すテキストデータを出力部２１に出力する。
出力部２１は、発話認識部２０が出力した認識結果を、外部装置（不図示）に出力する。なお、出力部２１は、例えば画像表示部、スピーカ等であってもよい。

＜取得される音響信号、発話区間＞
次に、取得される音響信号と発話区間について説明する。
図３は、本実施形態に係る取得された音響信号の例を示す図である。図４は、本実施形態に係る発話区間の例を示す図である。図３および図４において、横軸は時刻、縦軸はマイクロホン数である。
図３に示す例では、音響信号取得部１１が、Ｍ個のマイクロホン２０１を用いて収音したＭチャネルの音響信号を示している。
図４に示す例では、発話推定部１２が、Ｍチャネルの音響信号から、Ｎ個（１、・・・、ｎ、・・・Ｎ、Ｎは１以上の整数、ｎは１〜Ｎの間の整数）の発話区間を検出し、検出した順に発話ＩＤ（識別子）を付与した例である。

＜周波数領域への変換＞
次に、変換部１３によって行われる時間領域から周波数領域への変換について説明する。
図５は、本実施形態に係る時間領域から周波数領域への変換について説明する図である。
図５に示すように、変換部１３は、発話区間毎に、短時間フーリエ変換を行うことで、時間領域から周波数領域へ変換を行う。例えば、ｎ番目の発話かつｍ（ｍは、１〜Ｍの間の整数）チャネル目の短時間フーリエ変換後の信号Ｘ_［ｎ］ｍ（ω，ｆ）とすると、ｎ番目の１〜Ｍチャネルの短時間フーリエ変換後の信号Ｘ_［ｎ］（ω，ｆ）は、次式（１）のように表される。なお、ωは周波数であり、ｆはフレーム（インデックス）である。

式（１）において、［・］^Ｔは、転置行列を表す。また、ｆは、１以上Ｆｎ以下の値である。

＜伝達関数の推定＞
次に、代表伝達関数推定部１７が行う伝達関数の推定方法について説明する。
ここで、ｍ番目のマイクロホン２０１の周波数領域の信号をＸ_ｍ（ω，ｆ）とし、周波数領域における音響信号（Sound source signal）をＳ（ω，ｆ）とし、方向ψの伝達関数をＡ_ｍ（ω，ψ）とすると、次式（２）の関係が成り立つ。

式（２）より、伝達関数Ａ_ｍ（ω，ψ）は、次式（３）のように表される。

なお、式（２）、（３）において、Ｓ（ω）、方向ψは未知であるため、これらの情報を用いて、伝達関数を算出することができない。
このため、本実施形態では、代表伝達関数推定部１７は、Ｎ個の発話区間の中から１つの発話区間を逐次選択し、選択した発話区間においてＭチャネルの周波数領域の信号Ｘ_ｍ（ω，ｆ）のうち１つを代表チャネルとして選択する。以下、１チャネル目を代表チャネルとして選択する例を説明するが、選択するチャネルは、２〜Ｍのうちのいずれか１つのチャネルであればよい。
これにより、伝達関数Ａ_ｍ（ω，ψ）は、次式（４）のように表される。

ここで、複数のマイクロホン２０１が取得した信号は、マイクロホン２０１の配置と音源との距離関係に応じて、時間差が生じる。これにより他のチャネルの信号が、基準チャネルの信号より前の時刻に存在する場合、伝達関数は、負の時刻にピークを有することになる。このため、本実施形態では、全てのチャネルの信号が、基準チャネルに対して正の時刻になるように、基準チャネルＸ_１（ω，ｆ）をＸ^〜 _１（ω，ｆ）を用いて、所定のサンプル数Ｔ_０サンプル分だけシフトして、時刻ｔにおける信号をＸ_１［ｔ］（ｔ＋Ｔ_０）とする。なお、Ｘ^〜 _１（ω，ｆ）は、伝達関数Ａ_ｍ（ω，ψ）を正の時間にシフトする値である。
このＸ^〜 _１（ω，ｆ）とＸ_ｍ（ω，ｆ）、Ｆフレームを使用して、その回帰モデルは、次式（５）であると定義する。

式（５）において、左辺をＸ_{［１：Ｆ］}とし、右辺の第１項をΩ_{［１：Ｆ］}とし、右辺の第２項を数Ａ^Ｔ（ω，ψ）とする。なお、Ω_{［１：Ｆ］}は、独立変数である。
式（５）より、Ａ^Ｔ（ω，ψ）は、次式（６）のように表される。

式（６）には、マイクロホン２０１の位置が含まれていないが、室内の音響特性（ｒｏｏｍ−ａｃｏｕｓｔｉｃｓ）が含まれている。
なお、この手法において、十分なフレーム数を確保することで、よりロバストなものとなる。
発話区間がＮ個である場合、発話区間毎に伝達関数が推定される。発話区間ｎにおける伝達関数Ａ［ｎ］（ω）は、次式（７）のように表される。

上述したように、本実施形態では、従来のようにスピーカから発した既知の音源の信号を用いるのではなく、取得された実際の音響信号を用いて伝達関数を推定している。

＜空間特徴量の算出＞
次に、特徴量算出部１５が行う音響特徴量の算出方法について説明する。
特徴量算出部１５は、代表伝達関数推定部１７と同じ１つのチャネルを選択する。本実施形態では、１チャネル目を選択するとして以下の説明を行う。
特徴量算出部１５は、変換部１３が出力した周波数領域の信号に対して、発話区間毎に選択された１チャネルと他のチャネルとのサンプル差τを算出する。ここで、ｎ番目の発話区間におけるサンプル差τ_［ｎ］は、次式（８）のようにＭ−１次元のベクトルで表される。

また、１チャネルとｍチャネルとのｎ番目の発話区間のサンプル差τ_［ｎ］ｍは、次式（９）のように表される。本実施形態では、このサンプル差を空間特徴量という。

式（９）において、ａｒｇｍａｘは、関数値が最大となるような定義域の値を選択する関数である。また、［・］^＊は、［・］の複素共役である。なお、このように、基準チャネルを設けて、空間特徴量を算出する手法を、本実施形態ではマルチチャネルＧＣＣ−ＰＨＡＴ（ＧｅｎｅｒａｌｉｚｅｄＣｒｏｓｓ−ＣｏｒｒｅｌａｔｉｏｎｍｅｔｈｏｄｓｗｉｔｈＰｈａｓｅＴｒａｎｓｆｏｒｍ）法という。なお、ＧＣＣ−ＰＨＡＴ法とは、周波数領域の計算によって２つの音声波形の相互相関関数を求める方法である。この空間特徴量は、方向の情報である。

＜空間クラスタリング＞
次に、クラスタリング部１６が行う空間クラスタリング方法について説明する。
図６は、本実施形態に係る空間特徴量の例と、空間クラスタリングの例を示す図である。また、空間特徴量のＭ−１次元空間であり、図６に示した例では、Ｍが４の例である。また、図６に示す例は、発話区間がＮ＝１６、すなわち空間特徴量が１６個（τ_［１］〜τ_［１６］）である場合に、１６個の空間特徴量に対して周知の手法を用いてクラスタリング処理を行った結果である。なお、クラスタリング部１６は、例えば凝縮型クラスタリングの手法を用いて、クラスタに分類する。なお、話者数が既知の場合、クラスタリング部１６は、例えばｋ−ｍｅａｎｓ法等を用いてクラスタリング処理を行うようにしてもよい。
図６に示す例では、空間特徴量τ_［１］、τ_［３］、τ_［６］、τ_［８］、τ_{［１２］、}τ_［１５］が第１のクラスタＣ_１に分類され、空間特徴量τ_［２］、τ_［７］、τ_［９］、τ_［１１］、τ_［１３］が第２のクラスタＣ_２に分類され、空間特徴量τ_［４］、τ_［５］、τ_［１０］、τ_［１４］、τ_［１６］が第１のクラスタＣ_３に分類される。クラスタリング部１６によって分類されているのは、位置を表す情報である空間特徴量（サンプル差）であるので、これらを分類した結果は、サンプル差に応じた音源の位置に対応する。

次に、クラスタリング部１６が行うクラスタ数、すなわち話者数の推定方法について説明する。
ここで、クラスタ間の距離を、クラスタ中心間の距離であると定義する。クラスタｉとクラスタｊ（ｉ，ｊは互いに異なる１以上の整数）との距離は、次式（１０）のように表される。

図７は、本実施形態に係る話者数の推定方法を示す図である。図７において、縦軸は統合されたクラスタ数、横軸はクラスタ間の距離Δ_ｉｊである。本実施形態では、サンプル差である距離Δ_ｉｊを増加させていったときに、クラスタ間の距離Δ_ｉｊに何個のクラスタが含まれるかを確認することで、クラスタ数を推定する。
図７に示す例では、クラスタ間の距離Δ_ｉｊが０のときクラスタ数も０である。クラスタ間の距離Δ_ｉｊが０の場合、図６に示した例では空間特徴量が１６個、それぞれの空間特徴量の距離が無いので、統合されたクラスタ数が０となる。その後、クラスタ間の距離Δ_ｉｊの増加に伴ってクラスタ数が増加し、その後、クラスタ間の距離Δ_ｉｊの増加に伴ってクラスタ数がピークになる。その後、クラスタ間の距離Δ_ｉｊの増加に伴ってピーク後に統合されたクラスタ数が減少していく。統合されたクラスタ数は０に収束していくが、Δ_ｉｊにおいて０から離れた位置に統合されたクラスタ数のピークがあることが分かっている。この理由は、同じ話者の信号は、同じようなサンプル差であるため、凝縮型クラスタリングを行うと、統合されやすい。図７におけるピークは、話者の空間特徴量が凝縮された距離を示している。一方、異なる話者の発話は、空間的に離れているため、距離が増加していき、第１の話者と他の話者のクラスタと結合される距離Δｃにおいてピークｐ_１が発生する。さらに距離が増加すると、例えば話者が３人の場合、全ての空間特徴量が１つのクラスタに結合してピークｐ_２が発生する。
本実施形態では、クラスタリング部１６が、第１の話者と他の話者のクラスタと結合する前、すなわち距離Δｃにおいてピークｐ_１がある前の領域ｚ_１におけるクラスタ数Ｃを話者数Ｃとして決定する。図６に示した例は、Ｃ＝３の例である。

＜代表伝達関数の算出＞
次に、代表伝達関数推定部１７が行う代表伝達関数の算出方法について説明する。
図８は、図６の第２のクラスタＣ_２におけるクラスタの中心（以下、クラスタ中心ともいう）τ_ｃと各空間特徴量との距離ｄの例を示す図である。
伝達関数推定部１４によって推定された伝達関数のうち、クラスタに含まれる伝達関数は、そのクラスタとみなせる方向から来た音源に対する伝達関数である。代表伝達関数推定部１７は、これらの伝達関数を用いて、クラスタに対する伝達関数を代表伝達関数として決定する。

まず、代表伝達関数推定部１７は、クラスタ数を決定後、各クラスタの中心τ_ｃを、次式（１１）を用いて求める。

次に、代表伝達関数推定部１７は、各空間特徴量とクラスタ中心との距離ｄ_［ｎ］を、次式（１２）を用いて発話区間毎に算出する。

ここで、クラスタ中心の例と、クラスタ中心と各空間特徴量との距離の例を説明する。
図８に示す例では、空間特徴量τ_［２］とクラスタ中心τ_ｃとの距離がｄ_［２］であり、空間特徴量τ_［７］とクラスタ中心τ_ｃとの距離がｄ_［７］であり、空間特徴量τ_［９］とクラスタ中心τ_ｃとの距離がｄ_［９］であり、空間特徴量τ_［１１］とクラスタ中心τ_ｃとの距離がｄ_［１１］であり、空間特徴量τ_［１３］とクラスタ中心τ_ｃとの距離がｄ_［１３］である。クラスタ中心τ_ｃに近い空間特徴量τほど、信頼できるサンプルであると言える。このため、本実施形態では、クラスタ中心の伝達関数を求めて、音源に対する伝達関数であるとする。

次に、代表伝達関数推定部１７は、次式（１３）を用いて、クラスタ毎に距離の総和Ｄ_Ｃを求める。

次に、代表伝達関数推定部１７は、伝達関数推定部１４によって推定された伝達関数Ａ_［ｎ］（ω）を用いて、さらに算出したクラスタ中心からの距離を考慮して重み付けを行って、以下のように伝達関数を統合して代表伝達関数を決定する。
本実施形態では、重み付け値を次式（１４）のように定義する。

次に、代表伝達関数推定部１７は、算出した重み付け値を用いて、周波数領域（Ｆ）と時間領域（Ｔ）のクラスタ毎の代表伝達関数Ａ_ｍＣを、次式（１５）、次式（１６）を用いて求める。なお、用いる伝達関数は、各クラスタに分類された空間特徴量に対応付けられている推定された伝達関数である。ここで空間特徴量は、発話区間毎であるため、１つのクラスタに例えば５つの空間特徴量が含まれる場合、伝達関数は、この５つの空間特徴量、すなわち発話区間それぞれに対応する５つの伝達関数である。
なお、本実施形態では、求めたクラスタ毎の中心を音源の位置であるとし、クラスタ中心の方向における伝達関数を、音源方向の伝達関数としている。

次に、代表伝達関数推定部１７は、求めた周波数領域と時間領域それぞれの伝達関数を位相と振幅とに、次式（１７）、式（１８）のように分解する。

式（１７）、式（１８）より、代表伝達関数Ａ_ｍＣ（ω）は、次式（１９）のように表される。

＜伝達関数ＤＢの構築＞
次に、代表伝達関数推定部１７が行う代表伝達関数の推定について説明する。
図９は、本実施形態に係る伝達関数ＤＢ１８に格納される情報の例を示す図である。図９に示した例では、第１の方向ａ１［ｄｅｇ］に第１の方向から来る音の伝達特性が伝達関数として格納され、第２の方向ａ２［ｄｅｇ］に第２の方向から来る音の伝達特性が伝達関数として格納され、第３の方向ａ３［ｄｅｇ］に第３の方向から来る音の伝達特性が伝達関数として格納されている。
しかしながら、前述したように、マイクロホン２０１の位置、マイクロホン２０１の配置、マイクロホン２０１と音源との位置関係が未知であるため、この方向は、音声処理装置１における座標系での方向である。このため、各クラスタと伝達関数との関連付けはできる。しかしながら、各クラスタが物理的に、どの方向から来た音を表しているのかを推定する必要がある。

代表伝達関数推定部１７は、クラスタリングされた各方向に対して、実際の方向とは無関係な角度を擬似的に付与する。擬似的な方向とは、例えば図６において、クラスタＣ_１の方向を第１の方向、クラスタＣ_２の方向を第２の方向、クラスタＣ_３の方向を第３の方向である。これにより、代表伝達関数推定部１７は、図９に示したように、１クラスタが１方向となる伝達関数のデータベースを構築し、構築した伝達関数のデータベースを伝達関数ＤＢ１８に格納する。

＜音源定位＞
次に、音源定位部１９が行う処理について説明する。
音源定位部１９は、変換部１３が出力した音声信号に対して、伝達関数ＤＢ１８に格納されている伝達関数を用いて、代表伝達関数推定部１７が出力した方向毎にＭＵＳＩＣ（ＭＵｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルを計算する。
次に、音源定位部１９は、代表伝達関数推定部１７が出力した方向毎に、スケールが０から１の間の値になるようにＭＵＳＩＣスペクトルに対して正規化を行う。
次に、音源定位部１９は、発話推定部１２での発話区間の検出と合うように音が存在するか否かを判別する閾値を決定する。この閾値を用いて、音源定位部１９は、ラフな音源定位を行う。
次に、音源定位部１９は、定位した結果から、単独音源について音声が存在している存在区間を切り出す。

発話推定部１２は、音源定位部１９によって音源定位され、閾値によって音が存在する区間が切り出された単独音源の音声信号を用いて、再び発話区間を推定する。これにより、１回目の発話区間検出より、発話区間の検出精度が向上する。音声処理装置１は、伝達関数が収束するまで、各部の処理を繰り返す。この繰り返し処理によって、徐々に音源定位結果に合致するような伝達関数を音声処理装置１が求めていくことができる。
なお、音声処理装置１は、伝達関数が収束するまでの処理をオフラインで行い、伝達関数が就職した後は、オンライン処理するようにしてもよい。また、作成された伝達関数を、音源分離装置（不図示）等に出力するようにしてもよく、音声処理装置１を音源分離装置が備えていてもよい。

＜音声処理装置１の処理手順＞
次に、音声処理装置１の処理手順について説明する。図１０は、本実施形態に係る音声処理装置１の処理のフローチャートである。なお、音声処理装置１は、以下の処理をオフラインで行う。

（ステップＳ１）発話推定部１２は、音響信号取得部１１が出力したＭチャネルの音響信号の中から、例えば１セッションの音響信号を抽出し、抽出した１セッションの音響信号から音が存在する存在区間を発話区間として検出する。
（ステップＳ２）音声処理装置１は、ステップＳ３〜ステップＳ１５の処理を、伝達関数が収束するまで繰り返して行う。

（ステップＳ３）伝達関数推定部１４および特徴量算出部１５は、変換部１３が出力した発話区間毎の音声信号の１つを選択し、選択した音響信号を基準として発話区間毎に、ステップＳ３〜ステップＳ５の処理を行う。ここでは、発話区間がＮ個あるとして説明する。
（ステップＳ４）伝達関数推定部１４は、ステップＳ３で選択した発話区間において、１つのチャネル（例えば１チャネル）の信号を基準として、伝達関数を推定する。

（ステップＳ５）特徴量算出部１５は、ステップＳ３で選択された発話区間において、１つのチャネル（例えば１チャネル）の信号を基準として、他のチャネルの信号とのサンプル差を空間特徴量として算出する。なお、このサンプル差は、チャンネル間の信号の位相差である。
（ステップＳ６）伝達関数推定部１４および特徴量算出部１５は、全ての発話区間に対してステップＳ３〜ステップＳ５の処理が終了した後、ステップＳ７の処理に進める。

（ステップＳ７）クラスタリング部１６は、特徴量算出部１５が出力した特徴量をＭ−１次元の空間に展開し、特徴量を凝縮型クラスタリングの手法を用いて分類することで音源数（話者数）を推定する。
（ステップＳ８）代表伝達関数推定部１７は、ステップＳ７によって推定されたクラスタの中から１つのクラスタを選択し、クラスタ毎にステップＳ９の処理を行う。

（ステップＳ９）代表伝達関数推定部１７は、クラスタリング部１６によって推定されたクラスタ毎の中心を求め、クラスタ毎に中心と各特徴量との距離を算出する。続けて、代表伝達関数推定部１７は、式（１１）〜式（１９）と、伝達関数推定部１４が出力した発話区間毎のＮ個の伝達関数を用いて、クラスタの中心からの距離も考慮して重み付けを行って、伝達関数を統合してクラスタを代表する伝達関数（代表伝達関数）を決定する。
（ステップＳ１０）代表伝達関数推定部１７は、全てのクラスタに対してステップＳ９の処理が終了した後、ステップＳ１１の処理に進める。

（ステップＳ１１）代表伝達関数推定部１７は、クラスタリングされた各方向に対して、実際の方向とは無関係な角度を擬似的に付与する。これにより、代表伝達関数推定部１７は、１クラスタが１方向となる伝達関数のデータベースを構築し、構築した伝達関数のデータベースを伝達関数ＤＢ１８に格納する。

（ステップＳ１２）音源定位部１９は、変換部１３が出力した音声信号に対して、伝達関数ＤＢ１８に格納されている伝達関数を用いて、代表伝達関数推定部１７が出力した方向毎にＭＵＳＩＣスペクトルを計算する。

（ステップＳ１３）音源定位部１９は、代表伝達関数推定部１７が出力した方向毎に、スケールが０から１の間の値になるようにＭＵＳＩＣスペクトルに対して正規化を行うことで、ＭＵＳＩＣスペクトルを修正する。
（ステップＳ１４）音源定位部１９は、発話推定部１２での発話区間の検出と合うように音が存在するか否かを判別する閾値を決定する。

（ステップＳ１５）音源定位部１９は、ステップＳ１４で決定した閾値を用いて、音源定位を行う。続けて、音源定位部１９は、定位した結果から、単独音源について音声が存在している存在区間を切り出す。
以後、発話推定部１２は、音源定位部１９によって音源定位され、閾値によって音が存在する区間が切り出された単独音源の音声信号を発話区間の信号として用いて、ステップＳ２〜ステップＳ１５の処理を、伝達関数が収束するまで繰り返す。
（ステップＳ１６）音声処理装置１は、伝達関数が収束した場合、処理を終了する。

なお、本実施形態では、１セッションが会議全体の例を説明したが、これに限られない。１セッションは、会議における１区切りがつくまでの会話、所定の時間の中に含まれる会話であってもよい。ここで、所定の時間とは、上述したクラスタリング処理や代表伝達関数の推定が行える発話を含む時間である。そして、音声処理装置１は、１セッションにおいて、伝達関数を求めて音源定位を行って、以後、推定した伝達関数を用いてオンライン処理を行うようにしてもよい。

なお、本実施形態では、音源定位部１９が、ＭＵＳＩＣ法を用いてＭＵＳＩＣスペクトルを算出する例を説明したが、これに限られない。音源定位部１９は、伝達関数を用いる他の手法を用いて音源定位を行うようにしてもよい。

以上のように、本実施形態の音声処理装置１は、配置が未知であるマイクロホンアレイ２を用いて収音された複数のチャネル（１〜Ｍ）を有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部１７、を備える。
また、本実施形態の音声処理装置１は、複数のチャネルを有する音響信号から複数の発話区間を検出する発話区間検出部（発話推定部１２、発話区間推定部１２１）と、発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部１４と、発話信号を用いて特徴量τを算出する特徴量算出部１５と、特徴量算出部によって算出された特徴量をクラスタに分類することで音源数を推定するクラスタリング部１６と、を更に備え、代表伝達関数推定部１７は、伝達関数推定部によって推定された伝達関数と、クラスタリング部によって推定された音源数に基づいて、クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数（代表伝達関数）それぞれとして推定する。

この構成によれば、配置が未知のマイクロホンアレイを用いて集音された音源数も未知の音響信号から、音源に対する伝達関数を推定することができる。このように推定された伝達関数を音源分離、音源定位に用いることができる。この結果、この構成によれば、事前に音響信号を発して伝達関数を推定する必要がないので、装置を駆動させるのに事前の準備を省略することができる。

以上のように、本実施形態の音声処理装置１において、伝達関数推定部１４は、発話信号に含まれる複数のチャネルのうちの１つを代表チャネル（例えば１チャネル）として選択し、選択した代表チャネルの発話信号と残りのチャネル（例えば２〜Ｍチャネル）の発話信号を用いて、伝達関数を推定する。

この構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の伝達関数を推定することができ、この推定された伝達関数を用いて音源に対する伝達関数を推定することができる。

以上のように、本実施形態の音声処理装置１において、特徴量算出部１５は、発話信号に含まれる複数のチャネルのうちの１つを代表チャネル（例えば１チャネル）として選択し、選択した代表チャネルの発話信号と残りのチャネル（例えば２〜Ｍチャネル）の発話信号を用いて、特徴量τを算出する。

この構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の特徴量を算出することができ、この算出された特徴量を用いて音源に対する伝達関数を推定することができる。

以上のように、本実施形態の音声処理装置１において、特徴量τは、代表チャネル（例えば１チャネル）の発話信号と、残りのチャネル（例えば２〜Ｍチャネル）の前記発話信号との位相差に基づく値である。

この構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の特徴量を算出することができ、この算出された特徴量を用いて音源に対する伝達関数を推定することができる。また、この構成によれば、マイクロホン２０１間の位相差を用いることによって事前に伝達関数を完全に求めていない状態でも、伝達関数を推定することができる。

以上のように、本実施形態の音声処理装置１において、クラスタリング部１６は、統合されたクラスタの数が収束するクラスタ間の距離Δに基づいて、クラスタの数を決定する。

この構成によれば、クラスタの数、すなわち音源数を精度良く推定することができる。

以上のように、本実施形態の音声処理装置１において、代表伝達関数推定部１７は、クラスタリング部１６によって求められたクラスタそれぞれの中心τ_ｃを算出し、各クラスタに含まれる特徴量τについて、算出したクラスタそれぞれの中心と特徴量との距離ｄ_［ｎ］を算出し、算出した距離の総和Ｄ_Ｃと算出した距離それぞれを用いて重み付け値を算出し、クラスタに含まれる特徴量に対応する伝達関数と、算出した重み付け値を用いて、クラスタの中心における伝達関数を音源までの伝達関数として推定する。

この構成によれば、空間クラスタリングをすることによって、想定される話者の位置において幅を持たせた伝達関数を推定することができる。

なお、本発明における音声処理装置１の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより伝達関数の推定、音源定位、音声認識等の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１…音声処理装置、１１…音響信号取得部、１２…発話推定部、１２１…発話区間推定部、１３…変換部、１４…伝達関数推定部、１５…特徴量算出部、１６…クラスタリング部、１７…代表伝達関数推定部、１８…伝達関数ＤＢ、１９…音源定位部、２０…発話認識部、２１…出力部、１９１…方位推定部

Claims

配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部、
を備える音声処理装置。
前記複数のチャネルを有する前記音響信号から複数の発話区間を検出する発話区間検出部と、
前記発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部と、
前記発話信号を用いて特徴量を算出する特徴量算出部と、
前記特徴量算出部によって算出された前記特徴量をクラスタに分類することで音源数を推定するクラスタリング部と、
を更に備え、
前記代表伝達関数推定部は、
前記伝達関数推定部によって推定された前記伝達関数と、前記クラスタリング部によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定する、請求項１に記載の音声処理装置。
前記伝達関数推定部は、
前記発話信号に含まれる複数のチャネルのうちの１つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記伝達関数を推定する、請求項２に記載の音声処理装置。
前記特徴量算出部は、
前記発話信号に含まれる複数のチャネルのうちの１つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記特徴量を算出する、請求項２または請求項３のいずれか１項に記載の音声処理装置。
前記特徴量は、
前記代表チャネルの前記発話信号と、前記残りのチャネルの前記発話信号との位相差に基づく値である、請求項４に記載の音声処理装置。
前記クラスタリング部は、
統合されたクラスタの数が収束する前記クラスタ間の距離に基づいて、前記クラスタの数を決定する、請求項２から請求項５のいずれか１項に記載の音声処理装置。
前記代表伝達関数推定部は、
前記クラスタリング部によって求められた前記クラスタそれぞれの中心を算出し、
各クラスタに含まれる前記特徴量について、算出した前記クラスタそれぞれの中心と前記特徴量との距離を算出し、算出した距離の総和と算出した距離それぞれを用いて重み付け値を算出し、前記クラスタに含まれる前記特徴量に対応する伝達関数と、算出した重み付け値を用いて、前記クラスタの中心における伝達関数を音源までの伝達関数として推定する、請求項２から請求項６のいずれか１項に記載の音声処理装置。
音響信号取得部に、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を取得させる音響信号取得手順と、
発話区間検出部に、前記複数のチャネルを有する前記音響信号から複数の発話区間を検出させる発話区間検出手順と、
伝達関数推定部に、前記発話区間検出手順によって検出された発話区間の発話信号を用いて伝達関数を推定させる伝達関数推定手順と、
特徴量算出部に、前記発話信号を用いて特徴量を算出させる特徴量算出手順と、
クラスタリング部に、前記特徴量算出手順によって算出された前記特徴量をクラスタに分類することで音源数を推定させるクラスタリング手順と、
代表伝達関数推定部に、前記伝達関数推定手順によって推定された前記伝達関数と、前記クラスタリング手順によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定させるクラスタリング手順と、
を含む音声処理方法。