JP6543848B2

JP6543848B2 - 音声処理装置、音声処理方法及びプログラム

Info

Publication number: JP6543848B2
Application number: JP2017065932A
Authority: JP
Inventors: 一博中臺; 智幸佐畑
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2019-07-17
Anticipated expiration: 2037-03-29
Also published as: US10748544B2; US20180286411A1; JP2018169473A

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。

従来から、収音した音声信号に基づいて発話している話者を同定する話者同定技術が提案している。話者同定技術は、会話や会議などのように複数の話者のうち、いずれの話者が発話しているかを特定する状況で利用されることがある。複数の話者が同時に発話している状況のもとで収音された１チャネルの音声信号には、各話者の音声の特徴が重畳しているので、話者同定に失敗することがある。

そのため、音源分離技術を用いて、話者毎に分離された成分を示す音源別信号を用いて話者同定を行うことが考えられる。例えば、特許文献１に記載の音源分離技術が利用可能である。特許文献１には、複数チャネルの入力信号に基づき音源方向を推定し、推定した音源方向に係る伝達関数に基づいて分離行列を算出する音源分離装置について記載されている。この音源分離装置は、算出した分離行列を、チャネル毎の入力信号を要素とする入力信号ベクトルに乗算して出力信号を要素とする出力信号ベクトルを算出する。算出された出力信号ベクトルの各要素が音源毎の音声を示す。

特開２０１２−０４２９５３号公報

しかしながら、音源分離技術は、出力が初期の入力や処理に用いられる各種のパラメータに依存する不良設定問題である。そのため、収音された音声信号から話者毎の発話による成分に完全に分離されるとは限らない。また、音源分離により得られる出力において発話音声の歪やＳＮ（Ｓｉｇｎａｌ−ｔｏ−Ｎｏｉｓｅ）比の低下が生じる。従って、複数の話者が同時に発話している区間では、依然として話者同定に失敗する可能性が残される。

本発明は上記の点に鑑みてなされたものであり、本発明の課題は、より正確に話者を同定することができる音声処理装置、音声処理方法及びプログラムを提供することである。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位部と、前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離部と、前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出部と、前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定部と、を備える音声処理装置である。

（２）本発明の他の態様は、（１）の音声処理装置であって、前記発話区間検出部は、前記音源定位部が方向を定めた音源の個数が１個である区間から前記単一発話区間を検出する。

（３）本発明の他の態様は、（１）又は（２）の音声処理装置であって、前記話者同定部は、前記音源定位部が定めた音源の方向が前記単一発話区間において特定した音源の方向から所定範囲内となる前記発話区間の話者を、前記単一発話区間の話者と同一と推定する。

（４）本発明の他の態様は、（１）から（３）のいずれかの音声処理装置であって、撮像された画像に基づいて話者の方向を定める画像処理部を備え、前記話者同定部は、前記音源定位部が定めた音源毎の方向から前記画像処理部が定めた話者の方向が所定範囲内にある音源を選択し、選択した音源の数が１個である区間から前記単一発話区間を検出する。

（５）本発明の他の態様は、（１）から（４）のいずれかの音声処理装置であって、前記音源別信号に音声認識処理を行う音声認識部を備え、前記音声認識部は、前記話者同定部が定めた話者毎に発話内容を示す発話情報を提供する。

（６）本発明の他の態様は、音声処理装置における音声処理方法であって、音声処理装置における音声処理方法であって、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位過程と、前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離過程と、前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出過程と、前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定過程と、を有する音声処理方法である。

（７）本発明の他の態様は、音声処理装置のコンピュータに、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位手順、前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離手順、前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出手順、前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定手順、を実行させるためのプログラムである。

上述した（１）、（６）又は（７）の構成によれば、他の話者による発話音声の成分が混在しない話者数が単一である発話区間における音源別信号に基づいて話者が同定される。また、話者数が単一である発話区間では、音源分離による発話音声の成分に対する歪が生じない。そのため、話者が正確に同定される。
上述した（２）の構成によれば、複数の話者が存在する状況であっても発話状態の変化に応じて発話中の話者が単一である区間が同定される。そのため、正確に話者を同定できる区間としてより多くの区間が話者同定に用いられる。
上述した（３）の構成によれば、短時間に話者の方向が著しく変化しないことを考慮して、話者同定を行うことができる。そのため、話者をより正確に同定することができる。
上述した（４）の構成によれば、正確に同定された話者毎に発話音声の発話内容を示す発話情報が提供される。そのため、発話内容を話者毎に編集する作業が省力化される。
上述した（５）の構成によれば、話者が実在する方向に存在する発話中の話者が単一である区間が話者同定に用いられる。そのため、話者以外の他の音源が話者同定に用いられることによる同定誤りを避けることができる。

第１の実施形態に係る音声処理装置の構成例を示すブロック図である。話者の方向と発話区間との関係の例を示す図である。第１の実施形態に係る話者同定処理の例を示す図である。第２の実施形態に係る音声処理装置の構成例を示すブロック図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理装置１の構成例を示すブロック図である。
音声処理装置１は、収音部１１、音源定位部１２１、音源分離部１２２、発話区間検出部１２５、話者同定データ記憶部１２６、話者同定部１２７及び音声認識部１３を含んで構成される。

収音部１１は、Ｎ（Ｎは２以上の整数）チャネルの音響信号を収音し、収音した音響信号を音源定位部１２１に出力する。収音部１１は、例えば、Ｎ個のマイクロフォンを備え、それらが互いに異なる位置に配置されてなるマイクロフォンアレイである。個々のマイクロフォンは、１チャネルの音響信号を収録する。収音部１１は、収音した音響信号を無線で送信してもよいし、有線で送信してもよい。収音部１１の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部１１は、音声処理装置１と一体化されていてもよいし、別体であってもよい。

音源定位部１２１は、収音部１１から入力されるＮチャネルの音響信号について、所定の長さ（例えば、５０ｍｓ）のフレーム毎に音源定位処理を行って最大Ｍ（Ｍは、１以上であってＮより小さい整数）個の音源のそれぞれの方向を推定する。音源定位処理は、例えば、ＭＵＳＩＣ法（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）である。ＭＵＳＩＣ法は、後述するように方向間の強度分布を示す空間スペクトルとしてＭＵＳＩＣスペクトルを算出し、算出したＭＵＳＩＣスペクトルが極大となる方向を音源方向として定める手法である。音源定位部１２１が検出する音源の数は、０個からＭ個までのいずれかとなる。音源定位部１２１は、その区間において推定した音源方向を示す音源定位情報とＮチャネルの音響信号とを音源分離部１２２に出力する。音源定位部１２１は、その区間における音源定位情報を発話区間検出部１２５と話者同定部１２７に出力する。

音源分離部１２２は、音源定位部１２１から入力された音源定位情報が示す音源方向毎の伝達関数を用いて、Ｎチャネルの音響信号について音源分離処理を行う。音源分離部１２２は、音源分離処理として、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。音源分離部１２２は、予め設定された方向毎の伝達関数のセットから音源定位情報が示す音源方向に係る伝達関数を特定し、特定した伝達関数に基づいて分離行列の初期値（以下、初期分離行列）を算出する。音源分離部１２２は、伝達関数と分離行列から算出される所定のコスト関数が減少するように分離行列を適応的に算出する。音源分離部１２２は、各チャネルの音響信号を要素とする入力信号ベクトルに、算出した分離行列を乗算して出力信号ベクトルを算出する。算出された出力信号ベクトルの要素が、各音源の音源別信号に相当する。音源分離部１２２は、音源毎の音源別信号を発話区間検出部１２５と話者同定部１２７に出力する。

発話区間検出部１２５は、音源定位部１２１から入力された音源定位情報と音源分離部１２２から入力部から入力された音源別信号に基づいて話者数が１名である発話区間を検出する。以下、話者数が１名である発話区間を単一話者発話区間と呼ぶ。ここで、発話区間検出部１２５は、各音源の音源別信号についてフレーム毎に発話区間検出を行う。発話区間検出は、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）と呼ばれる。発話区間検出部１２５は、検出した発話区間のうち、検出された音源として話者の数が１個である区間を単一話者発話区間として判定する。発話区間検出部１２５は、音源及びフレーム毎にその音源及び期間が発話区間であるか否かを示す発話区間情報と、フレーム毎にそのフレームが単一話者発話区間であるか否かを示す単一発話区間情報を生成する。発話区間検出部１２５は、生成した発話区間情報と単一発話区間情報を話者同定部１２７に出力する。

話者同定データ記憶部１２６には、話者同定に用いる話者同定データを記憶させておく。話者同定データは、例えば、予め登録した話者毎の発話音声の特徴を示す音響モデルを含んで構成される。音響モデルは、例えば、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；混合ガウス分布モデル）である。なお、以下の説明では、登録した話者を登録話者と呼ぶ。話者毎の音響モデルを話者モデルと呼ぶ。

話者同定部１２７には、音源分離部１２２から音源毎の音源別信号が入力され、発話区間検出部１２５から発話区間情報と単一発話区間情報が入力される。
話者同定部１２７は、発話区間情報を参照して音源毎の発話区間を特定し、さらに単一発話区間情報を参照して、特定した発話区間のうち単一発話区間を特定する。話者同定部１２７は、音源毎の音源別信号のうち、その音源について特定した単一発話区間内の音源別信号について話者同定を行う。話者同定部１２７は、話者同定を行う際、フレーム毎に音源別信号について音響特徴量を算出する。音響特徴量は、例えば、ＭＦＣＣ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ；メル周波数ケプストラム係数）である。話者同定部１２７は、話者同定データ記憶部１２６に記憶された話者同定データを参照して算出した音響特徴量について、登録話者毎に尤度を算出する。話者同定部１２７は、算出した尤度が最も高く、かつ、所定の尤度の閾値よりも高い登録話者を、その音源別信号に係る音源としての話者であると判定する。話者同定部１２７は、算出した最高の尤度が所定の閾値以下であるとき、その話者がいずれの登録話者とも異なる新たな話者として判定してもよい。話者同定部１２７は、新たな話者として判定した音源の音響特徴量を用いて音響モデルを生成し、生成した音響モデルを新たな話者を示す話者識別情報と対応付けて話者同定データに追加する。

なお、各１個の単一発話区間は、１個の発話区間の一部となり、その発話区間の全体を占めないことがある。そのままでは、その発話区間の残りの区間内の話者が特定されない。この残りの区間は、複数の音源が検出される区間に相当する。以下の説明では、この残りの区間を複数発話区間と呼ぶ。他方、話者の方向は短時間の間に大きく変動しない。そこで、話者同定部１２７は、音源定位部１２１から入力される音源定位情報を参照し、単一発話区間において、その音源である話者の方向を特定してもよい。話者同定部１２７は、複数発話区間における複数の話者のうち、その方向が単一発話区間において特定した方向から所定範囲内にある話者を単一発話区間における話者と同一の話者であると判定する。
また、話者同定部１２７は、ある話者の発話区間が単一発話区間と複数発話区間を含むとき、その単一発話区間について同定された話者を、その発話区間全体の話者として判定してもよい。
話者同定部１２７は、発話区間毎に音源別信号と、その音源別信号について同定された話者を示す話者情報とを対応付けて音声認識部１３に出力する。

音声認識部１３には、話者同定部１２７から発話区間毎に音源別信号と話者情報を対応付けて入力される。音声認識部１３は、話者同定部１２７から入力される発話区間毎の音源別信号について音声認識処理を行い、認識結果となる発話内容を示す発話データを生成する。ここで、音声認識部１３は、音源別信号についてフレーム毎に音響特徴量を算出し、算出した音響特徴量について予め設定された音響モデルを用いて可能性がある音素列毎に第１の尤度を算出し、第１の尤度の降順に所定の個数の音素列の候補を定める。音響モデルは、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）である。音声認識部１３は、音素列の候補毎に所定の言語モデルを用いて、定めた音素列の候補に対応する発話内容を示す文の候補に第２尤度を算出する。言語モデルは、例えば、ｎグラム（ｎ−ｇｒａｍ）である。音声認識部１３は、第１尤度と第２尤度とを合成して得られる総合尤度を文の候補毎に算出し、総合尤度が最も高い文の候補を発話内容として定める。

音声認識部１３は、発話区間毎に定めた発話内容を示す発話データを、その発話区間の話者情報が示す話者毎に時刻順に集約してもよい。音声認識部１３は、例えば、集約した発話データを音声処理装置１に備えられたデータ記憶部（図示せず）に記憶する。時刻順に記憶された話者毎の発話データは、議事録として形成される。音声認識部１３は、音声処理装置１に接続された表示部（図示せず）に話者毎の発話内容を示すテキストを表示させてもよいし、音声処理装置１とは別個の機器に無線又は有線で出力してもよい。

（音源定位と話者同定との関係）
次に、本実施形態における音源定位と話者同定との関係について説明する。
音源定位部１２１は、収音部１１が収音したＮチャネルの音響信号を用いて最大Ｍ個の音源のそれぞれについて、その方向を定める。言い換えれば、音源定位部１２１は、音源定位処理の過程で音響環境における音源を最大Ｍ個検出する。音源分離部１２２は、Ｎチャネルの音響信号について音源分離処理を行って、検出された各音源から到来した音源成分を示す音源別信号を取得する。話者が発話している状況下では、特定された音源の方向が各話者の方向となる。図２に示す例では、音源定位部１２１は、時刻ｔ_１１から時刻ｔ_１２までの区間、時刻ｔ_２１から時刻ｔ_２２までの区間、時刻ｔ_３１から時刻ｔ_３２までの区間のそれぞれにおいて検出された話者ｉｄ：１、２、３の方向がθ_１、θ_２、θ_３となる。時刻ｔ_１１から時刻ｔ_２１までの区間Ａ、時刻ｔ_１２から時刻ｔ_３１までの区間Ｃ、時刻ｔ_２２から時刻ｔ_３２までの区間Ｅにおいて検出される話者の数が１名となる。即ち、区間Ａ、区間Ｃ、区間Ｅがそれぞれ単一発話区間となる。これらの単一発話区間において、話者同定部１２７は、音響特徴量に基づく話者同定を行う。単一発話区間では、その話者の音源別信号に他の音源からの成分が混入することや、音源分離による音声成分の歪みが抑制されるので、話者同定部１２７は、その話者を正確に同定することができる。他方、時刻ｔ_２１から時刻ｔ_１２までの区間Ｂ、時刻ｔ_３１から時刻ｔ_２２までの区間Ｄのそれぞれにおいて検出される話者の数が２名となる。即ち、区間Ｂ、区間Ｄがそれぞれ複数発話区間となる。複数発話区間では、その話者の音源別信号に他の音源からの成分が混入するので、話者を誤判定する可能性が高くなる。話者同定部１２７は、複数発話区間において音響特徴量に基づく話者同定を行わないので、話者同定精度の低下を避けることができる。

（方向に基づく話者同定）
音響特徴量は、一般に発話内容を構成する音素によって依存する。そのため、ある１名の話者による音源別信号について、１名の登録話者の話者モデルを用いて算出される尤度が発話内容の変化に応じて変動する。１回の話者同定を行う単位区間を長くすることで尤度の変動を抑制することも考えられるが、例えば、各１個の単位区間が１個の発話区間よりも長くなると話者交代に追従できなくなる。

そこで、話者同定部１２７は、さらに音源定位部１２１が検出した話者の方向として、所定の範囲Δθ内に分布している方向が検出された発話区間の話者を同一の話者として推定してもよい。図２に示す例では、区間Ａと区間Ｂにおいて検出された話者の方向θ_１は区間Ｄと区間Ｅにおいて検出された話者の方向θ_２と互いに近似し、区間Ｃにおいて検出された方向θ_３から離れている。この場合には、話者同定部１２７は、方向θ_１に検出される話者と方向θ_３に検出される話者を同一の話者であると推定する。より具体的には、話者同定部１２７は、方向θ_１が検出される区間Ａにおける話者と方向θ_３が検出される区間Ｅにおける話者が同一であると推定し、方向θ_２が検出される区間Ｃにおける話者とは異なると推定する。
従って、話者の方向が短期間に著しく変化しないことを考慮して、話者同定精度を向上させることができる。同一の話者として推定する期間である推定期間の大きさは、例えば、音源定位により検出される方向の許容誤差範囲を人間が歩行などの日常動作により通過する時間と同等であればよい。

図２に示す例では、音源分離により方向θ_１に定位された話者ｉｄ：１の発話区間は、区間Ａと区間Ｂに跨る。この区間Ｂは、話者ｉｄ：２の発話区間と重複する複数発話区間である。そこで、話者同定部１２７は、区間Ｂにおいて方向θ_１に定位された音源である話者を、単一発話区間である区間Ａにおいて判定された話者ｉｄ：１であると特定することができる。
同様にして、話者同定部１２７は、区間Ｂ、Ｄにおいて方向θ_２に定位された音源である話者を、単一発話区間である区間Ｃにおいて判定された話者ｉｄ：２であると特定することができる。話者同定部１２７は、区間Ｅにおいて方向θ_３に定位された音源である話者を、単一発話区間である区間Ｃにおいて判定された話者ｉｄ：３であると特定することができる。従って、区間Ａ、Ｂにおいて方向θ_１に、区間Ｄ、Ｅにおいて方向θ_３に定位された音源は、いずれも同一であると判定される。

なお、話者同定部１２７は、話者同定データを参照して、同一の話者であると推定した発話区間に含まれる単一発話区間内の音響特徴量に基づいて尤度を算出してもよい。図２に示す例では、話者同定部１２７は、単一発話区間である区間Ａと区間Ｅにおいて算出された音響特徴量の時系列に基づいて尤度を算出する。そして、話者同定部１２７は、算出される尤度が最大となる登録話者を、その同一の話者として判定してもよい。これにより、話者同定部１２７は、同一と推定された話者を登録話者のいずれの話者であるかを、より高い精度で特定することができる。

（音源定位処理）
次に、音源定位処理の例として、ＭＵＳＩＣ法を用いた音源定位処理について説明する。
音源定位部１２１は、収音部１１から入力される各チャネルの音響信号について、フレーム単位で離散フーリエ変換を行い、周波数領域に変換された変換係数を算出する。音源定位部１２１は、チャネル毎の変換係数を要素とする入力ベクトルｘを周波数毎に生成する。音源定位部１２１は、入力ベクトルに基づいて、式（１）に示すスペクトル相関行列Ｒ_ｓｐを算出する。

式（１）において、＊は、複素共役転置演算子を示す。Ｅ（…）は、…の期待値を示す。
音源定位部１２１は、スペクトル相関行列Ｒ_ｓｐについて式（２）を満たす固有値λ_ｉと固有ベクトルｅ_ｉを算出する。

インデックスｉは、１以上Ｎ以下の整数である。また、インデックスｉの順序は、固有値λ_ｉの降順である。
音源定位部１２１は、自部に設定された伝達関数ベクトルｄ（θ）と、固有ベクトルｅ_ｉに基づいて（３）に示す空間スペクトルＰ（θ）を算出する。伝達関数ベクトルｄ（θ）は、音源方向θに設置された音源から各チャネルのマイクロフォンまでの伝達関数を要素とするベクトルである。

式（３）において、｜…｜は、…絶対値を示す。Ｍは、検出可能とする最大音源個数を示す、予め設定されたＮ未満の正の整数値である。Ｋは、音源定位部１２１が保持する固有ベクトルｅ_ｉの数である。Ｍは、Ｎ以下の正の整数値である。即ち、固有ベクトルｅ_ｉ（Ｎ＋１≦ｉ≦Ｋ）は、有意な音源以外の成分、例えば、雑音成分に係るベクトル値である。従って、空間スペクトルＰ（θ）は、音源から到来した成分の、有意な音源以外の成分に対する割合を示す。

音源定位部１２１は、各チャネルの音響信号に基づいて周波数帯域毎にＳ／Ｎ比（ｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ；信号雑音比）を算出し、算出したＳ／Ｎ比が予め設定した閾値よりも高い周波数帯域ｋを選択する。
音源定位部１２１は、選択した周波数帯域ｋにおける周波数毎に算出した固有値λ_ｉのうち最大となる最大固有値λ_ｍａｘ（ｋ）の平方根で空間スペクトルＰ_ｋ（θ）を周波数帯域ｋ間で重み付け加算して、式（４）に示す拡張空間スペクトルＰ_ｅｘｔ（θ）を算出する。

式（４）において、Ωは、周波数帯域のセットを示す。｜Ω｜は、そのセットにおける周波数帯域の個数を示す。従って、拡張空間スペクトルＰ_ｅｘｔ（θ）は、相対的に雑音成分が少なく、空間スペクトルＰ_ｋ（θ）の値が大きい周波数帯域の特性が反映される。この拡張空間スペクトルＰ_ｅｘｔ（θ）が、上述した空間スペクトルに相当する。

音源定位部１２１は、拡張空間スペクトルＰ_ｅｘｔ（θ）が、設定された音源検出パラメータとして与えられる閾値以上であって、方向間でピーク値（極大値）をとる方向θを選択する。選択された方向θが音源方向として推定される。言い換えれば、選択された方向θに所在する音源が検出される。音源定位部１２１は、拡張空間スペクトルＰ_ｅｘｔ（θ）のピーク値のうち、最大値から多くともＭ番目に大きいピーク値まで選択し、選択したピーク値に各々対応する音源方向θを選択する。音源定位部１２１は、選択した音源方向を示す音源定位情報を音源分離部１２２、発話区間検出部１２５及び話者同定部１２７に出力する。

なお、音源定位部１２１が音源毎の方向を推定する際、ＭＵＳＩＣ法に代え、他の手法、例えば、ＷＤＳ−ＢＦ（ｗｅｉｇｈｔｅｄｄｅｌａｙａｎｄｓｕｍｂｅａｍｆｏｒｍｉｎｇ；重み付き遅延和ビームフォーミング）法を用いてもよい。

（音源分離処理）
次に、音源分離処理の例として、ＧＨＤＳＳ法を用いた音源分離処理について説明する。
ＧＨＤＳＳ法は、コスト関数Ｊ（Ｗ）が減少するように分離行列Ｗを適応的に算出し、算出した分離行列Ｗを入力ベクトルｘに乗算して得られる出力ベクトルｙを音源毎の成分を示す音源別信号の変換係数として定める手法である。コスト関数Ｊ（Ｗ）は、式（５）に示すように分離尖鋭度（ＳｅｐａｒａｔｉｏｎＳｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（Ｗ）と幾何制約度（ＧｅｏｍｅｔｒｉｃＣｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（Ｗ）との重み付き和となる。

αは、分離尖鋭度Ｊ_ＳＳ（Ｗ）のコスト関数Ｊ（Ｗ）への寄与の度合いを示す重み係数を示す。
分離尖鋭度Ｊ_ＳＳ（Ｗ）は、式（６）に示す指標値である。

｜…｜^２は、フロベニウスノルムを示す。フロベニウスノルムは、行列の各要素値の二乗和である。ｄｉａｇ（…）は、行列…の対角要素の総和を示す。
即ち、分離尖鋭度Ｊ_ＳＳ（Ｗ）は、ある音源の成分に他の音源の成分が混入する度合いを示す指標値である。
幾何制約度Ｊ_ＧＣ（Ｗ）は、式（７）に示す指標値である。

式（７）において、Ｉは単位行列を示す。即ち、幾何制約度Ｊ_ＧＣ（Ｗ）は、出力となる音源別信号と音源から発されたもとの音源信号との誤差の度合いを表す指標値である。これにより音源間での分離精度と音源のスペクトルの推定精度の両者の向上が図られる。

音源分離部１２２は、予め設定された伝達関数のセットから、音源定位部１２１から入力された音源定位情報が示す各音源の音源方向に対応する伝達関数を抽出し、抽出した伝達関数を要素として、音源及びチャネル間で統合して伝達関数行列Ｄを生成する。ここで、各行、各列が、それぞれチャネル、音源（音源方向）に対応する。音源分離部１２２は、生成した伝達関数行列Ｄに基づいて、式（８）に示す初期分離行列Ｗ_ｉｎｉｔを算出する。

式（８）において、［…］^−１は、行列［…］の逆行列を示す。従って、Ｄ^＊Ｄが、その非対角要素がすべてゼロである対角行列である場合、初期分離行列Ｗ_ｉｎｉｔは、伝達関数行列Ｄの疑似逆行列である。
音源分離部１２２は、式（９）に示すようにステップサイズμ_ＳＳ、μ_ＧＣによる複素勾配Ｊ’_ＳＳ（Ｗ_ｔ）、Ｊ’_ＧＣ（Ｗ_ｔ）の重み付け和を現時刻ｔにおける分離行列Ｗ_ｔ＋１から差し引いて、次の時刻ｔ＋１における分離行列Ｗ_ｔ＋１を算出する。

式（９）における差し引かれる成分μ_ＳＳＪ’_ＳＳ（Ｗ_ｔ）＋μ_ＧＣＪ’_ＧＣ（Ｗ_ｔ）が更新量ΔＷに相当する。複素勾配Ｊ’_ＳＳ（Ｗ_ｔ）は、分離尖鋭度Ｊ_ＳＳを入力ベクトルｘで微分して導出される。複素勾配Ｊ’_ＧＣ（Ｗ_ｔ）は、幾何制約度Ｊ_ＧＣを入力ベクトルｘで微分して導出される。

そして、音源分離部１２２は、算出した分離行列Ｗ_ｔ＋１を入力ベクトルｘに乗算して出力ベクトルｙを算出する。ここで、音源分離部１２２は、収束したと判定するときに得られる分離行列Ｗ_ｔ＋１を、入力ベクトルｘに乗算して出力ベクトルｙを算出してもよい。音源分離部１２２は、例えば、更新量ΔＷのフロベニウスノルムが所定の閾値以下になったときに、分離行列Ｗ_ｔ＋１が収束したと判定する。もしくは、音源分離部１２２は、更新量ΔＷのフロベニウスノルムに対する分離行列Ｗ_ｔ＋１のフロベニウスノルムに対する比が所定の比の閾値以下になったとき、分離行列Ｗ_ｔ＋１が収束したと判定してもよい。
音源分離部１２２は、周波数毎に得られる出力ベクトルｙのチャネル毎の要素値である変換係数について逆離散フーリエ変換を行って、時間領域の音源別信号を生成する。音源分離部１２２は、音源毎の音源別信号を発話区間検出部１２５と話者同定部１２７に出力する。

（発話区間検出）
次に、発話区間検出の例について説明する。発話区間検出部１２５は、音源毎の音源別信号についてフレーム毎にパワーが所定のパワーの閾値を超える有音区間であるか否かを判定する。発話区間検出部１２５は、有音区間であると判定されたフレーム内のゼロクロス点の数を計数する。ゼロクロス点とは、サンプル毎の信号値がゼロを跨ぐ点を意味する。即ち、ゼロクロス点の数は、信号値が負値から正値に、又は正値から負値に変化する頻度である。発話区間検出部１２５は、ゼロクロス点の数が所定の範囲内（例えば、１秒当たり２００〜５００個）であるフレームを発話区間として判定し、それ以外のフレームを非発話区間として判定する。

（話者同定処理）
次に、本実施形態に係る話者同定処理について説明する。図３は、本実施形態に係る話者同定処理の例を示す図である。ここで、話者同定データとして、予めｉｄｍａｘ名分の登録話者ｊの話者モデルが記憶されていることを前提とする。
（ステップＳ１０２）音源定位部１２１は、収音部１１からのＮチャネルの音響信号について音源定位処理を行って最大Ｍ個の音源のそれぞれの方向を推定する。その後、ステップＳ１０４の処理に進む。
（ステップＳ１０４）発話区間検出部１２５は、音源定位部１２１が検出した音源毎の方向を示す音源定位情報に基づいて、話者数として音源数ｉｄｔｈを判定する。その後、ステップＳ１０６の処理に進む。
（ステップＳ１０６）発話区間検出部１２５は、判定した音源数ｉｄｔｈが１であるか否かを判定する。１と判定されるとき（ステップＳ１０６ＹＥＳ）、ステップＳ１０８の処理に進む。１ではないと判定されるとき（ステップＳ１０６ＮＯ）、その後、ステップＳ１０２の処理に戻る。

（ステップＳ１０８）話者同定部１２７は、単一発話区間において検出された音源として話者ｉｄの音源別信号について音響特徴量ｆ（ｉｄ）を算出する。その後、ステップＳ１１０に進む。
（ステップＳ１１０）話者同定部１２７は、各登録話者を示すインデックスｉの初期値として１を設定する。その後、ステップＳ１１２に進む。
（ステップＳ１１２）話者同定部１２７は、登録話者ｉの話者モデルを参照して、音響特徴量ｆ（ｉｄ）から尤度を算出する。その後、ステップＳ１１４に進む。
（ステップＳ１１４）話者同定部１２７は、尤度の算出対象の登録話者ｉとして次の未算出の登録話者ｉ＋１に変更する（ｉ←ｉ＋１）。その後、ステップＳ１１６に進む。
（ステップＳ１１６）発話区間検出部１２５は、ｉが登録話者数ｉｄｍａｘ未満であるか否かを判定する。即ち、全ての登録話者について尤度が算出されたか否かを判定する。ｉが登録話者数ｉｄｍａｘ未満であると判定されるとき（ステップＳ１１６ＹＥＳ）、ステップＳ１１２の処理に戻る。ｉが登録話者数ｉｄｍａｘに達したと判定されるとき（ステップＳ１１６ＮＯ）、ステップＳ１１８の処理に進む。

（ステップＳ１１８）話者同定部１２７は、算出した尤度が最も高く、かつその尤度が所定の尤度の閾値よりも高い登録話者ｉが存在するか否かを判定する。存在すると判定するとき（ステップＳ１１８ＹＥＳ）、ステップＳ１２０の処理に進む。存在しないと判定するとき（ステップＳ１１８ＮＯ）、ステップＳ１２４の処理に進む。

（ステップＳ１２０）話者同定部１２７は、その登録話者ｉを、その時点で発話している話者Ｓｐｋ（ｉｄ）として判定する。その後、ステップＳ１２２の処理に進む。
（ステップＳ１２２）話者同定部１２７は、算出した音響特徴量ｆ（ｉｄ）を用いて、登録話者ｉの話者モデルＭ［ｆ（ｉ）］を更新する。その後、図３の処理を終了する。

（ステップＳ１２４）話者同定部１２７は、その時点で発話している話者Ｓｐｋ（ｉｄ）を新たな話者ｉｄｍａｘ（ｉｄｍａｘ←ｉｄｍａｘ＋１）として判定する。その後、ステップＳ１２６の処理に進む。
（ステップＳ１２６）話者同定部１２７は、算出した音響特徴量ｆ（ｉｄ）を用いて、その話者ｉｄｍａｘの話者モデルＭ［ｆ（ｉｄｍａｘ）］を生成し、生成した話者モデルＭ［ｆ（ｉｄｍａｘ）］を話者同定データ記憶部１２６に記憶（登録）する。その後、図３の処理を終了する。

話者同定部１２７は、話者モデルとしてＧＭＭを生成又は更新する際、その話者について尤度が最大化されるように構成パラメータを算出する（学習）。ＧＭＭは、フレーム毎に算出された音響特徴量に対する出力確率を、複数（例えば、２５６個の正規分布）のガウス関数を重みづけ加算して算出するための統計モデルである。つまり、ＧＭＭは、混合重み係数、平均値及び共分散行列といった統計量を構成パラメータとして表される。混合重み係数は、基底毎の出力確率に対する寄与の度合いを示す。平均値と共分散行列は、個々の基底の原点とその原点の周りの音響特徴量の分布を示す。尤度は、その時点までの所定の期間内の出力確率の総和に相当する。

ＧＭＭを更新する際には、話者同定部１２７は、もとの更新前の話者ｉｄのＧＭＭＭ［ｆ（ｉｄ）］に対して、話者ｉｄの音響特徴量ｆ（ｉｄ）を用いて、最大尤度線形回帰法（ＭＬＬＲ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）による更新処理を行ってもよい。また、新たな話者ｉｄｍａｘのＧＭＭＭ［ｆ（ｉｄｍａｘ）］を生成する際も、話者同定部１２７は、尤度を最大とする話者ｉ＿ｍａｘのＧＭＭＭ［ｆ（ｉ＿ｍａｘ）］に対して、話者ｉｄの音響特徴量ｆ（ｉｄ）を用いてＭＬＬＲによる更新処理を行ってもよい。これにより、比較的少量の音響特徴量のサンプルを用いて高速にＧＭＭの更新又は生成を行うことができる。

以上に説明したように、本実施形態に係る音声処理装置１は、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位部１２１と、複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離部１２２を備える。また、音声処理装置１は、音源別信号から話者数が単一である発話区間を検出する発話区間検出部１２５と、検出された発話区間における音源別信号に基づいて話者を同定する話者同定部１２７を備える。
この構成によれば、他の話者による発話音声の成分が混在しない話者数が単一である発話区間における音源別信号に基づいて話者が同定される。また、話者数が単一である発話区間では、音源分離による発話音声の成分に対する歪が生じない。そのため、話者が正確に同定される。

また、発話区間検出部１２５は、音源定位部１２１が方向を定めた音源の個数が１個である区間から話者数が単一である話者を同定する発話区間を検出する。
この構成によれば、複数の話者が存在する状況であっても発話状態の変化に応じて発話中の話者が単一である区間が同定される。そのため、正確に話者を同定できる区間としてより多くの区間が話者同定に用いられる。

また、話者同定部１２７は、音源定位部１２１が定めた音源の方向が所定範囲内となる発話区間の話者を同一と推定する。
この構成によれば、短時間に話者の方向が著しく変化しないことを考慮して、話者同定を行うことができる。そのため、話者をより正確に同定することができる。

また、音声処理装置１は、音源別信号に音声認識処理を行う音声認識部１３を備え、音声認識部１３は、話者同定部１２７が定めた話者毎に発話内容を示す発話情報を提供する。
この構成によれば、正確に同定された話者毎に発話音声の発話内容を示す発話情報が提供される。そのため、発話内容を話者毎に編集する作業が省力化される。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。以下の説明では、主に第１の実施形態との差異点について説明する。第１の実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図４は、本実施形態に係る音声処理装置１の構成例を示すブロック図である。
音声処理装置１は、収音部１１、音源定位部１２１、音源分離部１２２、発話区間検出部１２５、話者同定データ記憶部１２６、話者同定部１２７、画像処理部１２８、音声認識部１３及び撮像部１４を含んで構成される。

撮像部１４は、周囲の所定の視野内に所在する物体の画像を所定の時間（例えば、１／３０ｓ）毎に撮像する。撮像部１４は、例えば、音声処理装置１をなす携帯端末装置に内蔵されたカメラである。撮像部１４は、撮像した周囲の物体の画像を示す画像信号を画像処理部１２８に出力する。

画像処理部１２８は、撮像部１４から入力される画像信号について画像認識処理を行って、人物が表されている部位を特定する。画像処理部１２８は、例えば、画像信号について画素値の空間変化量が所定の変化量よりも大きい輪郭を抽出し、輪郭を外縁とする個々の物体が表れている物体領域を特定する。画像処理部１２８は、特定した物体領域について所定の画像認識処理を用いて表されている物体が人物の顔面であるか否かを判定する。画像処理部１２８は、例えば、各物体領域をさらに区分した領域毎に画像特徴量として例えば、ＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＧｒａｄｉｅｎｔ）特徴量を算出する。画像処理部１２８は、物体領域内で算出したＨＯＧ特徴量について画像認識方式として、例えば、Ａｄａｂｏｏｓｔを用いて、その物体領域に表される物体が人物であるか否かを判定する。Ａｄａｂｏｏｓｔでは、事前学習により予め算出した人物の顔面のＨＯＧ特徴量と、物体領域内で算出した物体のＨＯＧ特徴量に基づいて、所定の識別値を算出する。識別値は、その物体が人物であることの確度を示す関数値であればよい。そして、画像処理部１２８は、算出した識別値に基づいて物体領域に表されている物体が人物であることの確度が、所定の確度の閾値以上であるとき、その物体が人物であると判定する。画像処理部１２８は、その確度が、確度の閾値未満であるとき、その物体が人物ではないと判定する。

画像処理部１２８は、人物が表されている物体領域の物体領域の代表点として、例えば、重心点を算出する。そして、画像処理部１２８は、代表点の画像内の座標に基づいて、画像を基準とする画像座標系による人物の方向を算出する。画像処理部１２８は、算出した画像座標系による人物の方向を、収音部１１のマイクロフォン配置を基準とする収音座標系による人物の方向に変換する。画像座標系では、画像の中心点が撮像部１４の光学軸の方向に相当し、画像の左右両端もしくは上下両端が、それぞれ水平方向の視野の両端、垂直方向の視野の両端に相当する。画像処理部１２８は、変換した人物の方向を示す人物方向情報を発話区間検出部１２５に出力する。

話者同定部１２７は、画像処理部１２８から入力された人物方向情報を参照し、人物の方向が、音源定位部１２１が検出した音源の方向から所定の範囲内にある音源の方向を話者の方向として選択し、音源定位部１２１が検出した音源の方向からその範囲外となる音源方向を棄却してもよい。話者同定部１２７は、そして、話者同定部１２７は、選択した方向に係る音源である話者の数が１名である単一発話区間を特定する。話者同定部１２７は、上述したように単一発話区間内の音源別信号について音響特徴量に基づく話者同定処理を行う。これにより、音源として話者が実在しない方向から到来する音源の成分に基づく話者同定処理が回避される。また、そのような音源は話者による発話音声以外の音源に相当するので、新たな話者として誤登録することを回避することができる。
なお、話者同定部１２７は、音源定位部１２１が検出した話者の方向に加え、人物方向情報が示す人物の方向が、所定の範囲内に分布している方向を同一の話者として推定してもよい。これにより、同一の話者との推定の確度が高くなる。

以上に説明したように、本実施形態に係る音声処理装置１は、撮像された画像に基づいて話者の方向を定める画像処理部１２８を備える。話者同定部１２７は、音源定位部１２１が定めた方向から画像処理部１２８が定めた話者の方向が所定範囲内にある音源を選択し、選択した音源の数が１個である区間から発話区間を検出する。
この構成により、話者が実在する方向に存在する発話中の話者が単一である区間が話者同定に用いられる。そのため、話者以外の他の音源が話者同定に用いられることによる同定誤りを避けることができる。

以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

例えば、上述した実施形態及び変形例における収音部１１及び撮像部１４が、音声処理装置１のその他の機能部と一体化されている場合を前提としたが、これには限られない。収音部１１及び撮像部１４の一方又は双方は、各種のデータを無線又は有線で入出力可能であれば、音声処理装置１のその他の機能部と必ずしも一体化されていなくてもよい。
また、音声処理装置１は、専用の装置であってもよいし、他の機能を主とする装置の一部として構成されてもよい。例えば、音声処理装置１は、多機能携帯電話機（いわゆるスマートフォンを含む）、タブレット端末装置、などの携帯端末装置その他の電子機器の一部として実現されてもよい。

上述した実施形態及び変形例における音声処理装置１の一部、例えば、音源定位部１２１、音源分離部１２２、発話区間検出部１２５、話者同定部１２７、画像処理部１２８及び音声認識部１３の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における音声処理装置１の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１…音声処理装置、１１…収音部、１３…音声認識部、１４…撮像部、１２１…音源定位部、１２２…音源分離部、１２５…発話区間検出部、１２６…話者同定データ記憶部、１２７…話者同定部、１２８…画像処理部

Claims

複数チャネルの音声信号に基づいて各音源の方向を定める音源定位部と、
前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離部と、
前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出部と、
前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定部と、
を備える音声処理装置。
前記発話区間検出部は、
前記音源定位部が方向を定めた音源の個数が１個である区間から前記単一発話区間を検出する
請求項１に記載の音声処理装置。
前記話者同定部は、
前記音源定位部が定めた音源の方向が前記単一発話区間において特定した音源の方向から所定範囲内となる前記発話区間の話者を、前記単一発話区間の話者と同一と推定する
請求項１又は請求項２に記載の音声処理装置。
撮像された画像に基づいて話者の方向を定める画像処理部を備え、
前記話者同定部は、
前記音源定位部が定めた音源毎の方向から前記画像処理部が定めた話者の方向が所定範囲内にある音源を選択し、選択した音源の数が１個である区間から前記単一発話区間を検出する
請求項１から請求項３のいずれか一項に記載の音声処理装置。
前記音源別信号に音声認識処理を行う音声認識部を備え、
前記音声認識部は、
前記話者同定部が定めた話者毎に発話内容を示す発話情報を提供する
請求項１から請求項４のいずれか一項に記載の音声処理装置。
音声処理装置における音声処理方法であって、
複数チャネルの音声信号に基づいて各音源の方向を定める音源定位過程と、
前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離過程と、
前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出過程と、
前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定過程と、
を有する音声処理方法。
音声処理装置のコンピュータに、
複数チャネルの音声信号に基づいて各音源の方向を定める音源定位手順、
前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離手順、
前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出手順、
前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定手順、
を実行させるためのプログラム。