JP6501259B2

JP6501259B2 - 音声処理装置及び音声処理方法

Info

Publication number: JP6501259B2
Application number: JP2015154215A
Authority: JP
Inventors: 圭佑中村; 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-08-04
Filing date: 2015-08-04
Publication date: 2019-04-17
Anticipated expiration: 2035-08-04
Also published as: US20170040030A1; JP2017032857A; US10622008B2

Description

本発明は、音声処理装置及び音声処理方法に関する。

従来から、複数の音源から発された混合音を、音源毎の音に分離する音源分離技術が提案されている。音源分離技術には、入力された音響信号のスペクトルパワーと所定の閾値をフレーム毎に比較することにより、当該フレームが音声または非音声の区間であるかを判定するものがある。例えば、特許文献１には、話者音源から出力された発話区間を検出し、発話区間を検出した場合、分離行列を最適化し、最適化した分離行列を用いて混合音から話者音源からの音と雑音源からの音を分離する音声信号処理装置について記載されている。

特開２００５−２２７５１２号公報

特許文献１に記載の音声信号処理装置は、話者音源からの音と雑音源からの音を分離する前の段階において、発話区間を検出する。分離された話者音源からの音について音声認識処理を行うと、分離された話者音源からの音に、非音声の区間が処理対象となる区間に含まれるために、音声認識精度が低下することがあった。

本発明は上記の点に鑑みてなされたものであり、音声認識精度を向上させる区間を選択することができる音声処理装置及び音声処理方法を提供する。

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、（１）複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第１区間を検出する第１区間検出部と、前記第１区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定部と、前記第１区間内の音声信号に係る音源の種類が音声である第１尤度と前記音源の種類が非音声である第２尤度とを算出する尤度算出部と、前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第２区間内の前記第１尤度と前記第２尤度に基づいて前記第２区間が音声区間であるか否かをフレーム毎に判定する第２区間検出部と、を備える音声処理装置である。

（２）本発明の他の態様は、（１）の音声処理装置であって、前記第１尤度と前記第２尤度からなる尤度ベクトルのベクトル空間は、前記音源の種類が音声である音声領域と、前記音源の種類が非音声である非音声領域とを含み、前記第２区間検出部は、前記第２区間から、フレーム毎の前記第１尤度と前記第２尤度からなる尤度ベクトルが前記音声領域に属する区間を音声区間として検出する。

（３）本発明の他の態様は、（２）の音声処理装置であって、前記第２区間検出部は、前記ベクトル空間における前記音声領域の識別境界に基づいて、前記音声区間を検出し、前記識別境界は、少なくとも音声区間内の音声信号に基づく尤度ベクトルの分布を用いて定められたことを特徴とする。

（４）本発明の他の態様は、（３）の音声処理装置であって、前記識別境界は、前記ベクトル空間において音源の種類が音声である音声区間内の音声信号に基づく尤度ベクトルの分布に基づいて音源の種類が音声であると推定される確率が所定の確率である部分であることを特徴とする。

（５）本発明の他の態様は、（３）の音声処理装置であって、前記識別境界は、前記音声区間内の音声信号に基づく前記尤度ベクトルからなる第１の群と、音源の種類が非音声である非音声区間内の音声信号に基づく前記尤度ベクトルからなる第２の群との間の乖離をより大きくし、前記第１の群内の前記尤度ベクトル間の乖離と、前記第２の群内の前記尤度ベクトルの乖離を、それぞれ小さくするように定められたことを特徴とする。

（６）本発明の他の態様は、（１）から（５）のいずれかの音声処理装置であって、前前記複数チャネルの音声信号に基づいて前記空間スペクトルを算出し、前記空間スペクトルに基づいて音源方向を定める音源定位部と、前記第１区間内の複数のチャネルの音声信号から、前記音源方向からの伝達関数に基づいて音源毎の音声信号を分離する音源分離部とを備える。

（７）本発明の他の態様は、（６）の音声処理装置であって、前記音源定位部は、多重信号分類法またはビームフォーミング法を用いて前記空間スペクトルを算出する。

（８）本発明の他の態様は、音声処理装置における音声処理方法であって、複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第１区間を検出する第１区間検出ステップと、前記第１区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定ステップと、前記第１区間内の音声信号に係る音源の種類が音声である第１尤度と前記音源の種類が非音声である第２尤度とを算出する尤度算出ステップと、前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第２区間内の前記第１尤度と前記第２尤度に基づいて前記第２区間が音声区間であるか否かをフレーム毎に判定する第２区間検出ステップと、を有する音声処理方法である。

上述した（１）、（８）の構成によれば、音源が存在する可能性が高い空間スペクトルが高い空間であって、パワーが高い区間内の音声信号から、音源の種類が音声である第１尤度と非音声である第２尤度から当該区間が音声区間であるか否かを正確に判定することができる。そのため、音声区間であると判定された区間内の音声信号を音声認識処理の対象とすることで、音声認識精度が向上する。

上述した（２）の構成によれば、単純な第１尤度と第２尤度の比較よりも精度よく音声区間と非音声区間を識別することができる。

上述した（３）の構成によれば、尤度ベクトルが音声領域に属すか否かを簡素な処理で判定することができるので、計算量やハードウェア規模が過大になることが回避される。

上述した（４）の構成によれば、その所定の確率よりも音源の種類が音源であると推定される確率が高い領域を音声領域として、尤度ベクトルに基づく音声区間の検出に用いることができる。

上述した（５）の構成によれば、識別境界は、第１の群内の尤度ベクトルと第２の群内の尤度ベクトルとが極力混在しないようにベクトル区間を音声領域と非音声領域とを区分することができる。そのため、尤度ベクトルに基づく音声区間の検出精度が向上する。

上述した（６）の構成によれば、第１区間の検出に用いられる空間スペクトルが音源定位に用いられ、音源定位により定めた音源方向に関する情報が音源分離に用いられる。そのため、複数チャネルの音声信号から音声区間の判定対象の音源別音声信号を取得するまでの過程で得られる空間スペクトルなどの情報が音声区間の判定に活用されるので、システム規模が過大になることが避けられる。

上述した（７）の構成によれば、多重信号分類法またはビームフォーミング法により算出されたスペクトルのパワーを第１区間の検出に用いることができるので、システム規模が過大になることが避けられる。

第１の実施形態に係る音声処理システムの構成を示すブロック図である。音源別音声信号の一例を示す図である。音声特徴量の一例を示す図である。判定対象区間の一例を示す例である。第１の実施形態に係る音声処理を示すフローチャートである。第１の実施形態に係る検証結果の一例を示す表である。第１の実施形態に係る検証結果の他の例を示す表である。第２の実施形態に係る音声処理システムの構成を示すブロック図である。識別境界の一例を示す図である。識別境界の他の例を示す図である。第２の実施形態に係る検証結果の一例を示す表である。第２の実施形態に係る検証結果の他の例を示す表である。第２の実施形態に係る検証結果のさらに他の例を示す表である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理システム１の構成を示すブロック図である。
音声処理システム１は、音声処理装置１０、入力部１１、及び出力部１２を含んで構成される。

音声処理装置１０は、入力部１１から入力されたＰ（Ｐは、２以上の整数）チャネルの音声信号について空間スペクトルのパワーを算出し、算出したパワーが所定のパワーよりも大きい第１区間を検出する。音声処理装置１０は、検出した第１区間内の音声信号に基づいて発話状態を判定し、第１区間が属する発話区間における平均パワーよりもパワーが大きい第２区間を検出する。音声処理装置１０は、検出した第２区間内の音声信号について、音源の種類が音声であるか否かを判定する。音声処理装置１０は、音声であると判定された音声区間内の音音声信号について音声認識処理を行って得られた発話内容を示す発話データを出力部１２に出力する。

入力部１１には、Ｐチャネルの音声信号が入力され、入力された音声信号を音声処理装置１０に出力する。入力部１１は、例えば、Ｐ個の電気音響変換素子（マイクロホン）をそれぞれ異なる位置に配列したマイクロホンアレイである。入力部１１は、収録した音声信号を無線で音声処理装置１０に送信してもよいし、有線で送信してもよい。入力部１１の位置は、固定されていてもよいし、ロボット、車両等の移動体に設置され移動可能であってもよい。入力部１１は、音声処理装置１０と一体化されていてもよいし、別体であってもよい。なお、入力部１１は、他の機器からの音声信号が入力されるデータ入力インタフェースであってもよい。

出力部１２は、音声処理装置１０から入力された発話データを出力する。出力部１２は、例えば、文字、図形、画像などを表示するディスプレイ装置である。ディスプレイ装置は、発話データが示す発話内容の情報を、テキスト、画像など視認可能な形態で表示できる。なお、出力部１２は、他の機器に発話データを出力するデータ出力インタフェースであってもよい。出力部１２は、入力部１１と一体に構成されたデータ入出力インタフェースであってもよい。

音声処理装置１０は、音源定位部１０１、第１区間検出部１０２、音源分離部１０３、特徴量抽出部１０４、尤度算出部１０５、記憶部１０６、発話状態判定部１０７、第２区間検出部１０８及び音声認識部１０９を含んで構成される。

音源定位部１０１は、入力部１１から入力されたＰチャネルの音声信号に基づいて各音源の方向を予め定めた長さのフレーム（例えば、５０ｍｓ）毎に定める（音源定位）。音源定位部１０１は、音源定位において、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多重信号分類）法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部１０１は、空間スペクトルに基づいて音源毎の音源方向を定める。音源定位については、後述する。音源定位部１０１は、定めた音源毎の音源方向を示す音源方向情報とＰチャネルの音声信号を第１区間検出部１０２に出力する。

第１区間検出部１０２には、音源定位部１０１から音源方向情報とＰチャネルの音声信号が入力される。第１区間検出部１０２は、音源方向情報が示す音源方向について、音源毎に空間スペクトルのパワーが、所定のパワーの閾値よりも高い区間を第１区間として検出する。第１区間検出部１０２は、入力された音源方向情報とＰチャネルの音声信号から、検出した第１区間内の音源方向情報とＰチャネルの音声信号をそれぞれ抽出する。第１区間検出部１０２は、抽出した音源方向情報とＰチャネル音声信号をそれぞれ音源分離部１０３に出力する。

音源分離部１０３には、第１区間検出部１０２から音源方向情報とＰチャネルの音声信号が入力される。音源分離部１０３は、Ｐチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音声信号である音源別音声信号に分離する。音源分離部１０３は、音源別音声信号に分離する際、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。以下、フレームｆにおける音源ｋの音源別音声信号Ｓ_ｋ（ｆ）と表す。音源分離部１０３は、分離した音源毎の音源別音声信号を特徴量抽出部１０４に出力する。

特徴量抽出部１０４は、音源分離部１０３から入力された音源毎の音源別音声信号について所定の長さのフレーム毎に音声特徴量を算出する。音声特徴量は、例えば、ＭＦＣＣ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔｓ、メル周波数ケプストラム係数）、ＭＦＬＳ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＬｏｇＳｐｅｃｔｒｕｍ、メル周波数対数スペクトル）、等である。特徴量抽出部１０４は、音源及びフレーム毎に算出した音声特徴量と音源別音声信号を尤度算出部１０５に出力する。

尤度算出部１０５は、特徴量抽出部１０４から入力された音源ｋ及びフレームｆ毎の音声特徴量Ｘ_ｋ（ｆ）について、当該音声特徴量に係る音声信号が示す音源の種別が音声である尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）（以下、第１尤度、と呼ぶ）と当該音声特徴量に係る音声信号が示す音源の種別が非音声である尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）（以下、第２尤度、と呼ぶ）を算出する。第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）、第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）の算出において、尤度算出部１０５は、予め記憶部１０６に記憶させておいた音響モデルを用いる。音響モデルは、例えば、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、混合ガウス分布モデル）である。尤度算出部１０５は、音源及びフレーム毎に算出した第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）と第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）を示す尤度情報と音源別音声信号を対応付けて記憶部１０６に記憶し、当該音源別音声信号を発話状態判定部１０７に出力する。

発話状態判定部１０７は、尤度算出部１０５から入力された音源別音声信号が示す音源の発話状態を判定する。この段階では、音源別音声信号が示す音源が人間の発話を示す音声であるか、それ以外の種別の音源である非音声であるかが決定されていない。そのため、以下の説明では、発話とは、必ずしも言語情報の伝達のために音声を発することに限らず、人間もしくは音声合成装置が音を発すること又は発された音を意味する。発話状態判定部１０７は、音源及びフレーム毎の音源別音声信号に基づいて、各音源における発話の有無を判定する。発話状態判定部１０７は、例えば、パワーが、所定のパワーの閾値以上である場合、当該フレームの音源別音声信号の発話状態として発話中と判定し、パワーが所定のパワーの閾値未満である場合、当該フレームの音源別音声信号の発話状態として発話なしと判定する。なお、発話状態判定部１０７は、パワーが所定のパワーの閾値以上であるフレームについて、さらに零交差数が所定の零交差数の範囲（例えば、２００〜５００Ｈｚ）である場合、発話状態が発話中と判定し、零交差数が所定の零交差数の範囲外である場合、発話状態が発話なしと判定してもよい。

発話状態判定部１０７は、発話なしと判定されたフレームの直後のフレームにおいて発話中と判定された場合、その直後のフレームの発話状態として発話開始と判定する。そして、発話状態判定部１０７は、発話中と判定されたフレームの直後のフレームにおいて発話なしと判定された場合、その発話中と判定されたフレームの発話状態として発話終了と判定する。発話状態判定部１０７は、発話開始と判定されたフレームから次に発話終了と判定されたフレームまでの発話中と判定されたフレームからなる区間を１つの発話区間と判定する。発話状態判定部１０７は、フレーム毎の発話状態を示す発話状態情報を第２区間検出部１０８に出力する。

第２区間検出部１０８は、発話状態判定部１０７から入力された発話状態情報を参照して、記憶部１０６から読み出した音源及びフレーム毎の音源別音声信号から、その時点のフレームが属する発話区間内における平均パワーを音源毎に算出する。第２区間検出部１０８は、第２区間として、発話区間のうちパワーが算出した平均パワーよりも高いフレームについて、フレーム毎の第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）と第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）に基づいて音声区間であるか非音声区間であるかを判定する。第２区間検出部１０８は、非音声区間であると判定したフレームを棄却し、音声区間であると判定したフレームの音声特徴量を音声認識部１０９に出力する。ここで、音声区間とは、音源の種類が音声、つまり特定の音素を有する音である区間を意味し、非音声区間とは、音源の種類が音声以外の音、例えば、楽音、効果音、機械の動作音、等である区間を意味する。

音声認識部１０９は、第２区間検出部１０８から入力されたフレームの音声特徴量と予め記憶部１０６に記憶された音声認識モデルを用いて音声認識処理を行う。音声認識モデルは、音響モデルと言語モデルを含む。音響モデルは、音声特徴量から１つまたは複数の音素からなる音素列を定めるために用いられる。音響モデルは、例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、隠れマルコフモデル）である。言語モデルは、音素列から構成される語句を定めるために用いられる。言語モデルは、例えば、ｎ−グラム（ｎ−ｇｒａｍ）である。音声認識部１０９は、入力された音声特徴量について音声認識モデルを用いて算出した尤度が最も高い語句を認識結果として定める。音声認識部１０９は、音源毎の発話内容として認識結果を示すテキストデータを出力部１２に出力する。

（音源定位）
次に、音源定位の一手法であるＭＵＳＩＣ法について説明する。
ＭＵＳＩＣ法は、以下に説明する空間スペクトルのパワーＰ_ｅｘｔ（ψ）が極大であって、所定のレベルよりも高い音源方向ψを定める手法である。記憶部１０６には、予め所定の間隔（例えば、５°）で分布した音源方向ψ毎の伝達関数を記憶させておく。音源定位部１０１は、音源から各チャネルｐ（ｐは、１以上Ｐ以下の整数）に対応するマイクロホンまでの伝達関数Ｄ_［ｐ］（ω）を要素とする伝達関数ベクトル［Ｄ（ψ）］を音源方向ψ毎に生成する。

音源定位部１０１は、各チャネルｐの音響信号ｘ_ｐ（ｔ）（ｔは、時刻）を所定のサンプル数からなるフレーム毎に周波数領域に変換することによって変換係数ｘ_ｐ（ω）を算出する。音源定位部１０１は、算出した変換係数を要素として含む入力ベクトル［ｘ（ω）］から式（１）に示す入力相関行列［Ｒ_ｘｘ］を算出する。

式（１）において、Ｅ［…］は、…の期待値を示す。［…］^＊は、行列又はベクトルの共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。
音源定位部１０１は、入力相関行列［Ｒ_ｘｘ］の固有値δ_ｉ及び固有ベクトル［ｅ_ｉ］を算出する。入力相関行列［Ｒ_ｘｘ］、固有値δ_ｉ、及び固有ベクトル［ｅ_ｉ］は、式（２）に示す関係を有する。

式（２）において、ｉは、１以上Ｐ以下の整数である。インデックスｉの順序は、固有値δ_ｉの降順である。
音源定位部１０１は、伝達関数ベクトル［Ｄ（ψ）］と算出した固有ベクトル［ｅ_ｉ］に基づいて、式（３）に示す周波数別空間スペクトルのパワーＰ_ｓｐ（ψ）を算出する。

式（３）において、Ｋは、検出可能な音源の最大個数（例えば、２）である。Ｋは、Ｐよりも小さい予め定めた自然数である。
音源定位部１０１は、Ｓ／Ｎ比が予め定めた閾値（例えば、２０ｄＢ）よりも大きい周波数帯域における空間スペクトルＰ_ｓｐ（ψ）の総和を全帯域の空間スペクトルのパワーＰ_ｅｘｔ（ψ）として算出する。

なお、音源定位部１０１は、ＭＵＳＩＣ法に代えて、その他の手法を用いて音源位置を算出してもよい。例えば、重み付き遅延和ビームフォーミング（ＷＤＳ−ＢＦ：ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法が利用可能である。ＷＤＳ−ＢＦ法は、式（４）に示すように各チャネルｐの全帯域の音響信号ｘ_ｐ（ｔ）の遅延和の二乗値を空間スペクトルのパワーＰ_ｅｘｔ（ψ）として算出し、空間スペクトルのパワーＰ_ｅｘｔ（ψ）が極大となる音源方向ψを探索する手法である。

式（４）において［Ｄ（ψ）］の各要素が示す伝達関数は、音源から各チャネルｐ（ｐは、１以上Ｐ以下の整数）に対応するマイクロホンまでの位相の遅延による寄与を示し、減衰が無視されている。つまり、各チャネルの伝達関数の絶対値が１である。［ｘ（ｔ）］は、その時点における各チャネルｐの音響信号ｘ_ｐ（ｔ）の信号値を要素とするベクトルである。

（音源分離）
次に、音源分離の一手法であるＧＨＤＳＳ法について説明する。
ＧＨＤＳＳ法は、２つのコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）として、分離尖鋭度（ＳｅｐａｒａｔｉｏｎＳｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（［Ｖ（ω）］）と幾何制約度（ＧｅｏｍｅｔｒｉｃＣｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（［Ｖ（ω）］）が、それぞれ減少するように分離行列［Ｖ（ω）］を適応的に算出する方法である。分離行列［Ｖ（ω）］は、音源定位部１０１から入力されたＰチャネルの音声信号［ｘ（ω）］に乗じることによって、Ｋチャネルの音源毎の音声信号（推定値ベクトル）［ｕ’（ω）］を算出するために用いられる行列である。ここで、［…］^Ｔは、行列又はベクトルの転置を示す。

分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）は、それぞれ、式（５）、（６）のように表される。

式（５）、（６）において、｜｜…｜｜^２は、行列…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。φ（［ｕ’（ω）］）は、音声信号［ｕ’（ω）］の非線形関数、例えば、双曲線正接関数（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔｆｕｎｃｔｉｏｎ）である。ｄｉａｇ［…］は、行列…の対角成分の総和を示す。従って、分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）は、音声信号（推定値）のスペクトルのチャネル間非対角成分の大きさ、つまり、ある１つの音源が他の音源として誤って分離される度合いを表す指標値である。また、式（６）において、［Ｉ］は、単位行列を示す。従って、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）とは、音声信号（推定値）のスペクトルと音声信号（音源）のスペクトルとの誤差の度合いを表す指標値である。

図２は、音源分離部１０３で分離された音源別音声信号の一例を示す図である。図２は、発話開始フレームｆ_ｋ ^Ｂから発話終了フレームｆ_ｋ ^Ｅまでの発話区間における音源ｋの音源別音声信号Ｓ_ｋ（ｆ）の信号値の時間変化を示す。この波形は、音源ｋの方向への空間スペクトルのパワーが所定のパワーよりも高い第１区間内の波形であり、他の音源として他人の発話による成分が分離されていることを示す。

図３は、特徴量抽出部１０４で算出された音声特徴量の一例を示す図である。図３は、発話開始フレームｆ_ｋ ^Ｂから発話終了フレームｆ_ｋ ^Ｅまでの発話区間における音源別音声信号Ｓ_ｋ（ｆ）についてフレーム毎に算出したＭＦＣＣの時間変化を濃淡で示す。図３において、高次の信号値ほど上方に表され、暗い部分よりも明るい部分の方が、信号値が大きいことを示す。算出された音響特徴量は、尤度算出部１０５において音源別音声信号が示す音源の種類が音声もしくは非音声である尤度を算出するために用いられる。

（尤度算出）
次に、尤度算出の一手法としてＧＭＭを用いる処理について説明する。
ＧＭＭは、入力された音声特徴量に対する出力確率を複数の正規分布を基底として重みづけ加算することにより求めるための音響モデルの一種である。ＧＭＭのモデル変数として、混合重み係数（ｍｉｘｔｕｒｅｗｅｉｇｈｔ）Ｃ_ｉｍ、平均値（ｍｅａｎ）［μ_ｉｍ］、及び共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）［Σ_ｉｍ］を含む。ここで、ｍは個々の基底、ｉはその時点における発話状態を示す。モデル変数は、クラス毎に与えられる。尤度は、フレーム毎の出力確率を累算することにより算出される。累算とは、線形領域で順次乗算すること、対数領域で順次加算することの両者を含む。尤度の算出において、尤度算出部１０５は、累算した出力確率を、出力確率の累算に係るフレーム数で正規化してもよい。

本実施形態では、音源の種類が音声であるか非音声であるかが既知であるフレーム毎の音声特徴量について、ＧＭＭを用いて第１尤度と、第２尤度がそれぞれ増加するように（最大化）モデル変数を予め定めておく。

（音声区間、非音声区間の判定）
次に、音声区間であるか、非音声区間であるかを判定する手法について説明する。
第２区間検出部１０８は、例えば、式（７）を用いて音源ｋ毎にフレームｆ毎の音源別音声信号Ｓ_ｋ（ｆ）から発話状態情報が示す発話区間内における平均パワーＰ_ｋ’を算出する。

式（７）において、｜Ｓ_ｋ（ｆ）｜^２は、音源ｋのフレームｆにおける音源別音声信号のパワーである。
その後、第２区間検出部１０８は、パワーが平均パワーＰ_ｋ’以下のフレームを非音声区間であると判定する。第２区間検出部１０８は、パワーが平均パワーＰ_ｋ’よりも大きいフレームを、第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）と第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）を用いて音声区間であるか、非音声区間であるかを判定するための第２区間に属するフレームであると判定する。音声区間であるか非音声区間であるかの判定手法には、例えば、累積尤度法と、多数決法がある。

累積尤度法では、第２区間検出部１０８は、第２区間内のフレームｆ間においてフレーム毎の第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）を順次乗じて音声に係る累積尤度ｐ’（Ｘ_ｋ｜λ_１）（以下、第１累積尤度、と呼ぶ）を算出する。また、第２区間検出部１０８は、第２区間内のフレームｆ間においてフレーム毎の第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）を順次乗じて非音声に係る累積尤度ｐ’（Ｘ_ｋ｜λ_２）（以下、第２累積尤度、と呼ぶ）を算出する。第１累積尤度ｐ’（Ｘ_ｋ｜λ_１）、第２累積尤度ｐ’（Ｘ_ｋ｜λ_２）は、それぞれ式（８）、（９）で表される。

第２区間検出部１０８は、第１累積尤度ｐ’（Ｘ_ｋ｜λ_１）が第２累積尤度ｐ’（Ｘ_ｋ｜λ_２）よりも高いとき、第２区間が音声区間であると判定し、第１累積尤度ｐ’（Ｘ_ｋ｜λ_１）が第２累積尤度ｐ’（Ｘ_ｋ｜λ_２）以下であるとき、第２区間が非音声区間であると判定する。

多数決法では、第２区間検出部１０８は、第２区間内のフレームのうち、第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）が第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）よりも高いフレームの個数を計数する。第２区間検出部１０８は、計数した個数の比率が所定の比率（例えば、０．５）を超えるとき、第２区間が音声区間であると判定する。
具体的には、第２区間検出部１０８は、フレームｆ毎に識別値π（Ｘ_ｋ（ｆ））を式（１０）に従って定める。

第２区間検出部１０８は、式（１１）に示すように、定めた識別値π（Ｘ_ｋ（ｆ））を第２区間内で累積し、累積して得られた累積値を第２区間のフレーム数ｆ_ｋ ^Ｅ−ｆ_ｋ ^Ｂ＋１で除算して、比率π_ｋ’を算出する。

そして、第２区間検出部１０８は、比率π_ｋ’が０．５より大きいとき、第２区間が音声であると判定し、それ以外の場合、第２区間が非音声区間であると判定する。

図４は、第２区間検出部１０８により判定された第２区間の一例を示す例である。図４に示す２個の枠が、それぞれ図２に示す音源別音声信号について第２区間検出部１０８が判定した第２区間ａ１、ａ２を表す。発話区間内における平均パワー以下のフレームが棄却されるので、音源別音声信号として各種のノイズよりも音源の成分が主となる部分が判定対象となる。そのため、第２区間検出部１０８は、音源別音声信号の音源が音声であるか非音声であるかの判定を精度よく行うことができる。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図５は、本実施形態に係る音声処理を示すフローチャートである。
（ステップＳ１０１）音源定位部１０１は、入力部１１からのＰチャネルの音声信号に基づいて方向毎のパワーを示す空間スペクトルを算出する。音源定位部１０１は、算出した空間スペクトルに基づいて音源毎の音源方向を定める。その後、ステップＳ１０２に進む。
（ステップＳ１０２）第１区間検出部１０２は、フレーム毎の空間スペクトルのパワーが、所定のパワーの閾値よりも高い区間を第１区間に属するフレームとして検出する。その後、ステップＳ１０３に進む。但し、第１区間として検出されないフレームについては、次のフレームについてステップＳ１０３の処理を行う。

（ステップＳ１０３）音源分離部１０３は、第１区間内のＰチャネルの音声信号を音源毎の音源方向に基づいて音源毎の音源別音声信号に分離する。その後、ステップＳ１０４に進む。
（ステップＳ１０４）特徴量抽出部１０４は、音源毎の音源別音声信号についてフレーム毎に所定の種類の音声特徴量を算出する。その後、ステップＳ１０５に進む。
（ステップＳ１０５）尤度算出部１０５は、音源ｋ及びフレームｆ毎の音声特徴量Ｘ_ｋ（ｆ）について、音源の種別が音声である第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）、音源の種別が非音声である第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）を算出する。その後、ステップＳ１０６に進む。

（ステップＳ１０６）発話状態判定部１０７は、音源及びフレーム毎の音源別音声信号のパワーを算出し、当該フレームにおける発話状態が発話中である発話区間であるか、発話なしである非発話区間であるかを判定する。発話状態判定部１０７は、この判定に基づいて当該フレームが発話終了フレームであるか否かを判定する。発話終了フレームと判定する場合には（ステップＳ１０６ＹＥＳ）、ステップＳ１０７に進む。発話終了フレームと判定しない場合には（ステップＳ１０６ＮＯ）、ステップＳ１０２に進み、処理対象のフレームを次のフレームに変更する。

（ステップＳ１０７）第２区間検出部１０８は、発話区間のうちパワーが算出した平均パワーよりも高いフレームについて、フレーム毎の第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）と第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）に基づいて音声区間であるか非音声区間であるかを判定する。その後、ステップＳ１０８に進む。
（ステップＳ１０８）音声認識部１０９は、音声区間と判定された一連のフレームの音声特徴量について音声認識処理を行い、音源毎の発話内容として認識結果を示すテキストデータを出力部１２に出力する。その後、図５に示す処理を終了する。

なお、第２区間検出部１０８は、第１累積尤度ｐ’（Ｘ_ｋ｜λ_１）と第２累積尤度ｐ’ （Ｘ_ｋ｜λ_２）を用いて、次の判定を行ってもよい。
（ｉ）ｐ’（Ｘ_ｋ｜λ_１）がα・ｐ’（Ｘ_ｋ｜λ_２）よりも高い場合、第２区間が音声区間であると判定する。
（ｉｉ）ｐ’（Ｘ_ｋ｜λ_１）がα^−１・ｐ’（Ｘ_ｋ｜λ_２）よりも低い場合、第２区間が非音声区間であると判定する。
（ｉｉｉ）ｐ’（Ｘ_ｋ｜λ_１）がα^−１・ｐ’（Ｘ_ｋ｜λ_２）以上であって、α・ｐ’ （Ｘ_ｋ｜λ_２）以下である場合、音声区間と非音声区間のどちらにも属しないその他の区間であると判定する。ここで、αは、１よりも大きい所定の実数、例えば、１．５である。その他の区間内の音声信号は、音声と非音声との中間の特性を有するため音声とも非音声とも判定されないことがある。

また、第２区間検出部１０８は、比率π_ｋ’を用いて、次の判定を行ってもよい。
（ｉ）比率π_ｋ’が０．５＋βよりも高い場合、第２区間が音声区間であると判定する。
（ｉｉ）比率π_ｋ’が０．５−βよりも低い場合、第２区間が非音声区間であると判定する。
（ｉｉｉ）比率π_ｋ’が０．５−β以上であって、０．５＋β以下である場合、その他の区間であると判定する。ここで、αは、０よりも大きく０．５よりも小さい所定の実数、例えば、０．１である。

（評価実験）
次に、本実施形態に係る音声処理装置１０について行った評価実験について説明する。
評価実験は、次の条件で行われた。音声信号の標本化周波数：１６０００［Ｈｚ］、チャネル数Ｐ：８、１フレーム内のサンプル数（ＦＦＴ点数）：５１２、シフト長：１６０、室内の残響時間ＲＴ２０：１．０［ｓ］
収音部１１は、人型ロボットの頭部に設置されたマイクロホンアレイである。収音部１１が備える８個のマイクロホンは、当該ロボットの頭頂部を中心とする円上に等間隔で配置される。音源として、判定対象となる目的音源と雑音源の両者が用いられた。目的音源は、当該ロボットの正面から１．５ｍ離れた位置に設置されたのに対し、複数個の雑音源はロボットの正面以外の方向に設置された。各試行において目的音源と雑音源の両者に音を発生させた。各試行では、複数個の雑音源から雑音を発生させる雑音源がランダムに選択された。目的音源のコンテンツとして、８２４個の音声、９９０個の非音声（楽音、効果音など）、及び１１６１個のその他の音源が用いられた。各試行では、計２９７５個のコンテンツのいずれかがランダムに選択された。各試行において、音声処理装置１０に目的音源の種類が音声、非音声又はその他のいずれであるかを判定させた。検証結果の集計において、音声、非音声、その他と判定された回数を音源の種類別に計数した。なお、検証結果の比較のため、第２区間検出部１０８において第１区間に属するフレームのうち、音源別音声信号のパワーが平均パワー以下であるフレームを棄却する処理を省略して、音声処理装置１０に目的音源の種類を判定させた（二階層区間検出なし）。

（検証結果）
図６、７は、それぞれ検証結果の例を示す表である。図６に示す検証結果は、二階層区間検出なしについて、目的音源の種類毎に判定された回数を示す。図７は、本実施形態に係る音声処理について、目的音源の種類毎に判定された回数を示す。図６、７ともに各行は、既知の目的音源の種類を示し、各列は判定された音源の種類を示す。例えば、図６の第２行は、目的音源の種類が音声である場合、全８２７回のうち音源の種類が音声、非音声、その他と判定された回数が、それぞれ７９９、２０、８回であることを示す。図６に示す二階層区間検出なしの結果より、音声、非音声、その他の区間が正しく判定された正解率は８１．６８％となった。これに対して、図７に示す本実施形態の検証結果より、正解率は９１．３９％となった。図６、７に示す結果は、本実施形態のように第１区間の検出と、第１区間からパワーが平均パワーよりも高い区間を第２区間として判定対象区間を絞り込む二階層区間検出により、音声区間、非音声区間、その他の区間のいずれであるかを、より正確に判定できることを示す。正確に音声区間と判定された区間内の音声特徴量を用いて音声認識処理を行うことで、認識精度を向上させることができる。

以上、説明したように本実施形態に係る音声処理装置１０は、複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第１区間を検出する第１区間検出部１０２を備える。音声処理装置１０は、第１区間内の音声信号に基づいて発話状態を判定する発話状態判定部１０７と、第１区間内の音声信号に係る音源の種類が音声である第１尤度と音源の種類が非音声である第２尤度とを算出する尤度算出部１０５を備える。また、音声処理装置１０は、発話区間の平均パワーよりもパワーが大きい第２区間内の第１尤度と第２尤度に基づいて第２区間が音声区間であるか否かを判定する第２区間検出部１０８を備える。
この構成によれば、音源が存在する可能性が高い空間スペクトルが高い空間であって、パワーが高い区間内の音声信号から、音源の種類が音声である第１尤度と非音声である第２尤度から当該区間が音声区間であるか否かを正確に判定することができる。そのため、音声区間であると判定された区間内の音声信号を音声認識処理の対象とすることで、音声認識精度が向上する。

また、音声処理装置１０は、複数チャネルの音声信号に基づいて空間スペクトルを算出し、空間スペクトルに基づいて音源方向を定める音源定位部１０１と、第１区間内の複数のチャネルの音声信号から、音源方向からの伝達特性に基づいて音源毎の音声信号を分離する音源分離部１０３を備える。
この構成により、第１区間の検出に用いられる空間スペクトルが音源定位に用いられ、音源定位により定めた音源方向に関する情報が音源分離に用いられる。そのため、複数チャネルの音声信号から音声区間の判定対象の音源別音声信号を取得するまでの過程で得られる空間スペクトルなどの情報が音声区間の判定に活用されるので、システム規模が過大になることが避けられる。

また、音源定位部１０１は、多重信号分類法またはビームフォーミング法を用いて空間スペクトルを算出する。
この構成により、第１区間検出部１０２は、多重信号分類法またはビームフォーミング法により算出されたスペクトルのパワーを第１区間の検出に用いることができるので、システム規模が過大になることが避けられる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。以下の説明では、第１の実施形態と同一の構成について同一の符号を付して、その説明を援用する。
図８は、本実施形態に係る音声処理システム１Ａの構成を示すブロック図である。
音声処理システム１Ａは、音声処理システム１（図１）において音声処理装置１０（図１）に代えて音声処理装置１０Ａを備える。音声処理装置１０Ａは、音声処理装置１０において第２区間検出部１０８に代えて第２区間検出部１０８Ａを備える。

第２区間検出部１０８Ａは、第２区間検出部１０８と同様に、発話区間のうちパワーが平均パワーよりも高いフレームを第２区間に属するフレームとして特定する。第２区間検出部１０８Ａは、特定したフレームについて算出された第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）と、第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）とを要素として含む尤度ベクトルを形成する。第２区間検出部１０８Ａは、記憶部１０６に予め記憶させておいた領域データを参照し、形成した尤度ベクトルが音声領域に属するフレームを音声区間として判定し、当該尤度ベクトルが非音声領域に属するフレームを非音声区間として判定する。領域データは、尤度ベクトルのベクトル空間のうち音声に対応付けられた音声領域と、当該ベクトル空間のうち非音声に対応付けられた非音声領域を含むデータである。より具体的には、領域データは、音声領域と非音声領域の識別境界を示す。なお、第２区間検出部１０８Ａは、第２区間検出部１０８と同様に、発話区間のうちパワーが平均パワー以下であるフレームを非音声区間として判定する。

（領域データ）
音声処理装置１０Ａは、領域データ生成部（図示せず）をさらに備えてもよい。領域データ生成部は、事前学習により音声区間であるフレームの尤度ベクトルの分布と、非音声区間であるフレームの尤度ベクトルの分布に基づいて音声領域とその他領域の間の識別境界を予め定める。領域データ生成部は、定めた識別境界を示す領域データを記憶部１０６に記憶する。
以下の説明では、音声区間に属するフレームの尤度ベクトル、非音声区間に属するフレームの尤度ベクトルをそれぞれ音声クラスの尤度ベクトル、非音声クラスの尤度ベクトルと呼ぶ。図９に示す例では、音声クラスの尤度ベクトル、非音声クラスの尤度ベクトルが、それぞれ○印、△印で表され、識別境界は、直線で表されている。識別境界が直線である場合には、その特性は直線の傾きαと切片βで表される。

尤度ベクトルの分布から識別境界を求める手法として、例えば、ＬＲ（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ、ロジスティック回帰）、ＬＤＡ（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、線形判別分析）などが利用可能である。

ＬＲは、各クラスの事後確率ｐ（λ_ｎ｜φ（ｘ））が尤度ベクトルのロジスティックシグモイド関数σ（［ｗ］^Ｔ［φ（ｘ）］）であることを仮定してパラメータ［ｗ］を定めることにより識別境界を定める手法である。ここで、ｘ＝ｐ（Ｘ_ｋ（ｆ）｜λ_ｎ）（ｎは、１、２）である。また、ロジスティックシグモイド関数σ（ｙ）は、式（１２）で表される関数である。

ロジスティックシグモイド関数σ（ｙ）は、ｙの増加に伴い単調増加する関数である。ロジスティックシグモイド関数σ（ｙ）の最大値、最小値は、それぞれ１、０である。ｙ＝０であるとき、σ（ｙ）＝０．５である。［φ（ｘ）］は、定数１と各クラスの尤度である第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）、第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）を要素として含む特徴ベクトル［１，ｐ（Ｘ_ｋ（ｆ）｜λ_１），ｐ（Ｘ_ｋ（ｆ）｜λ_２）］を示す。パラメータ［ｗ］は、特徴ベクトル［φ（ｘ）］の各要素に乗じられる重み係数を要素とする重みベクトル［ｗ_０ｗ_１ｗ_２］を示す。従って、ｙは、各クラスの尤度に、当該クラスに係る重み係数を乗じて得られた乗算値とバイアス値ｗ_０との総和をとることによって算出される。

即ち、領域データ生成部は、ＬＲにおいて各クラスについてフレーム毎に得られた尤度ベクトルの分布について式（１２）に示すロジスティックシグモイド関数σ（ｙ）について回帰分析を行うことによりパラメータ［ｗ］を算出する。パラメータ［ｗ］の算出において、例えば、ニュートン・ラフソン法（Ｎｅｗｔｏｎ−ＲａｐｈｓｏｎＡｌｇｏｒｉｔｈｍ）が利用可能である。尤度ベクトルのベクトル空間が音声領域と非音声領域の２つの領域からなるとき、この２つの領域の識別境界は、例えば、σ（ｙ）＝０．５、即ち、［ｗ］^Ｔ［φ（ｘ）］＝０となる尤度ベクトルの集合で与えられる。識別境界となる直線の方程式は、例えば、式（１３）で表される。式（１３）に示す例では、傾きαは、−ｗ_１／ｗ_２、切片βは、−ｗ_０／ｗ_２と与えられる。

次に、ＬＤＡを用いた手法について説明する。領域データ生成部は、音源の種類として音声に係る尤度ベクトルからなる第１の群と、音源の種類として非音声に係る尤度ベクトルからなる第２の群との間の群間の乖離を算出する。また、領域データ生成部は、第１の群内の尤度ベクトル間における群内の乖離と、第２の群内の尤度ベクトル間における群内の乖離とを算出する。そして、領域データ生成部は、仮に定めた第１の群と第２の群とを区分する識別境界について、群間の乖離をより大きく（最大化）し、第１の群内の乖離と、第２の群内の乖離をそれぞれ、より小さく（最小化）するように識別境界を与えるパラメータ［ｗ］を順次更新する。群間の乖離の指標として、例えば、群間平方和が利用可能である。群間平方和は、複数の群のうち２つの群からなる各対のノルムの対間にわたる総和である。各対のノルム（距離の二乗値）は、一方の群内の尤度ベクトルの平均値から他方の群内の尤度ベクトルの平均値の差分ベクトルについての各成分の二乗値の総和（平方和）である。本実施形態では、群の数は２個であるので、群間平方和は、第１の群内の平均値から第２の群内の平均値の二乗値（距離の二乗値）である。群内の乖離の指標として、例えば、群内平方和が利用可能である。群内平方和は、群内の尤度ベクトルのそれぞれと群内の尤度ベクトルの平均値との差分ベクトルについてのノルムの群内の総和である。領域データ生成部は、算出されたパラメータ［ｗ］から傾きαは、切片βを定める。
そして、領域データ生成部は、音声領域と非音声領域の識別境界を与える領域として、パラメータ［ｗ］を示す領域データを生成する。なお、領域データ生成部は、領域データとしてバイアス値ｗ_０、傾きα及び切片βを示すデータを生成してもよい。

なお、第２区間検出部１０８Ａは、第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）が、第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）よりも大きいフレームを発話区間と判定し、それ以外の場合に非発話区間と判定することも考えられる（図１０参照）。しかしながら、音声区間において、必ずしも第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）が第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）よりも大きいとは限らない。非音声区間において、第１尤度ｐ（Ｘ_ｋ（ｆ）｜λ_１）が第２尤度ｐ（Ｘ_ｋ（ｆ）｜λ_２）以下になるとは限らない。その一因として、音声特徴量に基づいて算出される尤度の分布が、音声と非音声との間で完全に独立でも排他的でもないことが挙げられる。

これに対し、本実施形態では、第２区間検出部１０８Ａは、学習により予め生成された領域データを参照して、尤度ベクトルが音声領域と非音声領域のいずれに属するかを判定することにより、対象フレームが音声区間であるか非音声区間であるかを判定する。そのため、単純な尤度の比較よりも精度よく音声区間と非音声区間を識別することができる。
なお、領域データ生成部は、必ずしも音声処理装置１０Ａに備えられていなくてもよく、音声処理装置１０Ａの外部に設置されてもよい。

（評価実験）
次に、本実施形態に係る音声処理装置１０Ａについて行った評価実験について説明する。実験の条件は、第１の実施形態で述べた評価実験と同様である。但し、本実施形態では、目的音源のコンテンツとして、８２４個の音声、９９０個の非音声が用いられた。また、各試行において音声処理装置１０Ａに目的音源の種類が音声又は非音声のいずれであるかを判定させた。また、比較のために、音源の判定においてＬＲを用いて生成した領域データを用いた場合（ＬＲ）、ＬＤＡを用いて生成した領域データを用いた場合（ＬＤＡ）、第１の実施形態に示す多数決法を用いた場合（多数決）のそれぞれについて実験結果を集計した。

（検証結果）
図１１、１２、１３は、検証結果の例を示す表である。図１１、１２、１３は、ＬＲ、ＬＤＡ、多数決のそれぞれについて判定された目的音源の種類毎の回数を示す。図１１、１２、１３ともに各行は、既知の目的音源の種類を示し、各列は判定された音源の種類を示す。図１１の第２行は、目的音源の種類が音声である場合、全８２４回のうち音源の種類が音声、非音声と判定された回数が、それぞれ７８９、３５回であることを示す。図１１の第３行は、目的音源の種類が非音声である場合、全１１６１回のうち音源の種類が音声、非音声と判定された回数が、それぞれ２３、１１３８回であることを示す。図１３に示す多数決の結果と比較すると、ＬＲでは、正しく音声、非音声と判定された回数がそれぞれ２、１回多い。

図１２の第２行は、目的音源の種類が音声である場合、全８２４回のうち音源の種類が音声、非音声と判定された回数が、それぞれ８１０、１４回であることを示す。図１１の第３行は、目的音源の種類が非音声である場合、全１１６１回のうち音源の種類が音声、非音声と判定された回数が、それぞれ２０３、９５８回であることを示す。図１３に示す多数決の結果と比較すると、ＬＤＡでは、正しく音声と判定された回数が１回多いが、正しく非音声と判定された回数が１７９回減る。その一因として、領域データの生成により音声領域と非音声領域の識別境界を定める際、音声領域と非音声領域とが互いに排他的であることを仮定したことが考えられる。以下の変形例で説明するように、その他の領域も用いることで、音声領域と非音声領域とが互いに排他的であるものとして扱われなくなるので識別精度の低下を抑えることができる。

（変形例）
次に、本実施形態の変形例について説明する。領域データ生成部は、音声領域とその他領域、その他領域と非音声領域、それぞれの識別境界を示す領域データを生成してもよい。領域データ生成部は、音声領域とその他領域の識別境界として、ＬＲを用いた手法において、σ（ｙ）が０．５より大きく１よりも小さい所定の実数（例えば、０．６）を与えるパラメータ［ｗ］を定めてもよい。領域データ生成部は、当該識別境界として、ＬＤＡを用いた手法において、仮に定めた識別境界により区分された音声領域に含まれる音声に係る尤度ベクトルと、その他領域に含まれるその他の音源に係る尤度ベクトルとの群間平方和を算出する。領域データ生成部は、当該音声領域に含まれる音声に係る尤度ベクトル、その他領域に含まれるその他の音源に係る尤度ベクトルそれぞれの群内平方和を算出する。そして、領域データ生成部は、与えられた尤度ベクトルについて群間平方和をより大きくし、かつ、群内平方和をより小さくするパラメータ［ｗ］を探索する処理を行う。

領域データ生成部は、その他領域と非音声領域の識別境界として、ＬＲを用いた手法において、σ（ｙ）が０．５より小さく０よりも大きい所定の実数（例えば、０．４）を与えるパラメータ［ｗ］を定めてもよい。領域データ生成部は、当該識別境界として、ＬＤＡを用いた手法において、その他領域に含まれるその他の音源に係る尤度ベクトルと、非音声領域に含まれる非音声に係る尤度ベクトルとの群間平方和を算出する。領域データ生成部は、当該その他領域に含まれるその他の音源に係る尤度ベクトル、非音声領域に含まれる非音声に係る尤度ベクトルそれぞれの群内平方和を算出する。そして、領域データ生成部は、与えられた尤度ベクトルについて群間平方和をより大きくし、かつ、群内平方和をより小さくするパラメータ［ｗ］を探索する処理を行う。探索においてパラメータ［ｗ］の変化の度合いが、所定の変化の度合いの閾値よりも小さくなったとき、領域データ生成部は、パラメータ［ｗ］が収束したと判定して探索を終了する。その後、領域データ生成部は、生成した領域データを記憶部１０６に記憶する。

本変形例では、第２区間検出部１０８Ａは、フレーム毎に形成した尤度ベクトルが記憶部１０６に記憶した領域データが示す音声領域、その他領域、非音声領域のいずれの領域に属するかを判定する。音声領域に属すると判定するとき、第２区間検出部１０８Ａは、当該フレームが音声区間に属すると判定する。その他領域に属すると判定するとき、第２区間検出部１０８Ａは、当該フレームがその他の区間に属すると判定する。非音声領域に属すると判定するとき、第２区間検出部１０８Ａは、当該フレームが非音声区間に属すると判定する。
なお、本実施形態もしくは上述の変形例において、ＬＤＡを用いた手法を用いて識別境界を求める際に算出される、複数の尤度ベクトル間の乖離の度合いの指標は、上述したものに限らない。領域データ算出部は、例えば、平方和に代えて絶対差分和（ＳＡＤ：ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅｓ）を用いてもよいし、距離に代えてマハラノビス汎距離を用いてもよい。

以上、説明したように本実施形態に係る音声処理装置１０Ａで用いられる尤度ベクトルは、音源の種類が音声である第１尤度と音源の種類が非音声である第２尤度からなる。尤度ベクトルのベクトル空間は、前記音源の種類が音声である音声領域と、前記音源の種類が非音声である非音声領域とを含む。また、第２区間検出部１０８Ａは、第１区間検出部１０２が検出した第１区間から、フレーム毎の第１尤度と第２尤度からなる尤度ベクトルが前記音声領域に属する区間を音声区間として検出する。
この構成により、単純な第１尤度と第２尤度の比較よりも精度よく音声区間と非音声区間を識別することができる。

また、第２区間検出部１０８Ａは、尤度ベクトルのベクトル空間における音声領域の識別境界に基づいて音声区間を検出し、識別境界として少なくとも音声区間内の音声信号に基づく尤度ベクトルの分布を用いて定められたものが用いられる。
この構成により、第２区間検出部１０８Ａは、尤度ベクトルが音声領域に属すか否かを簡素な処理で判定することができるので、計算量やハードウェア規模が過大になることが回避される。

また、識別境界は、ベクトル空間において音源の種類が音声である音声区間内の音声信号に基づく尤度ベクトルの分布に基づいて音源の種類が音源であると推定される確率が所定の確率である部分である。
このことにより、第２区間検出部１０８Ａは、その所定の確率よりも音源の種類が音源であると推定される確率が高い領域を音声領域として、尤度ベクトルに基づく音声区間の検出に用いることができる。

また、識別境界は、音声区間内の音声信号に基づく尤度ベクトルからなる第１の群と、音源の種類が非音声である非音声区間内の音声信号に基づく尤度ベクトルからなる第２の群との間の乖離をより大きくし、第１の群内の尤度ベクトル間の乖離と、第２の群内の尤度ベクトルの乖離を、それぞれ小さくするように定められたものである。
このことにより、識別境界は、第１の群内の尤度ベクトルと第２の群内の尤度ベクトルとが極力混在しないようにベクトル区間を音声領域と非音声領域とを区分することができる。そのため、第２区間検出部１０８Ａによる尤度ベクトルに基づく音声区間の検出精度が向上する。

以上、図面を参照して本発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音声処理装置１０、１０Ａは、さらに出力制御部（図示せず）を備えてもよい。出力制御部は、第２区間検出部１０８、１０８Ａが、発話区間からその他の区間を検出するとき、再度の発話を促すための情報を示す出力データを出力部１２に出力する。出力データは、当該情報を視認可能に表す画像データでもよいし、当該情報を示す音声データであってもよい。当該情報は、例えば、「もう少しはっきりと話して下さい」などのメッセージを含む。そのため、ユーザによる発話が音声であるか否か明確に判定できないときに、再度の発話が促される。そのため、音声認識処理の対象となる音声データを確実に取得することができる。

なお、上述した実施形態における音声処理装置１０、１０Ａの一部、例えば、音源定位部１０１、第１区間検出部１０２、音源分離部１０３、特徴量抽出部１０４、尤度算出部１０５、発話状態判定部１０７、第２区間検出部１０８、１０８Ａ及び音声認識部１０９をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１０、１０Ａに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における音声処理装置１０、１０Ａの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１０、１０Ａの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、１Ａ…音声処理システム、１０、１０Ａ…音声処理装置、１０１…音源定位部、１０２…第１区間検出部、１０３…音源分離部、１０４…特徴量抽出部、１０５…尤度算出部、１０６…記憶部、１０７…発話状態判定部、１０８、１０８Ａ…第２区間検出部、１０９…音声認識部、１１…入力部、１２…出力部

Claims

複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第１区間を検出する第１区間検出部と、
前記第１区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定部と、
前記第１区間内の音声信号に係る音源の種類が音声である第１尤度と前記音源の種類が非音声である第２尤度とを算出する尤度算出部と、
前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第２区間内の前記第１尤度と前記第２尤度に基づいて前記第２区間が音声区間であるか否かをフレーム毎に判定する第２区間検出部と、
を備える音声処理装置。
前記第１尤度と前記第２尤度からなる尤度ベクトルのベクトル空間は、前記音源の種類が音声である音声領域と、前記音源の種類が非音声である非音声領域とを含み、
前記第２区間検出部は、
前記第２区間から、フレーム毎の前記第１尤度と前記第２尤度からなる尤度ベクトルが前記音声領域に属する区間を音声区間として検出する
請求項１に記載の音声処理装置。
前記第２区間検出部は、
前記ベクトル空間における前記音声領域の識別境界に基づいて、前記音声区間を検出し、
前記識別境界は、少なくとも音声区間内の音声信号に基づく尤度ベクトルの分布を用いて定められた請求項２に記載の音声処理装置。
前記識別境界は、前記ベクトル空間において音源の種類が音声である音声区間内の音声信号に基づく尤度ベクトルの分布に基づいて音源の種類が音声であると推定される確率が所定の確率である部分である請求項３に記載の音声処理装置。
前記識別境界は、前記音声区間内の音声信号に基づく前記尤度ベクトルからなる第１の群と、音源の種類が非音声である非音声区間内の音声信号に基づく前記尤度ベクトルからなる第２の群との間の乖離をより大きくし、前記第１の群内の前記尤度ベクトル間の乖離と、前記第２の群内の前記尤度ベクトル間の乖離を、それぞれ小さくするように定められた請求項３に記載の音声処理装置。
前記複数チャネルの音声信号に基づいて前記空間スペクトルを算出し、前記空間スペクトルに基づいて音源方向を定める音源定位部と、
前記第１区間内の複数のチャネルの音声信号から、前記音源方向からの伝達特性に基づいて音源毎の音声信号を分離する音源分離部と
を備える請求項１から請求項５のいずれか一項に記載の音声処理装置。
前記音源定位部は、多重信号分類法またはビームフォーミング法を用いて前記空間スペクトルを算出する請求項６に記載の音声処理装置。
音声処理装置における音声処理方法であって、
複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第１区間を検出する第１区間検出ステップと、
前記第１区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定ステップと、
前記第１区間内の音声信号に係る音源の種類が音声である第１尤度と前記音源の種類が非音声である第２尤度とを算出する尤度算出ステップと、
前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第２区間内の前記第１尤度と前記第２尤度に基づいて前記第２区間が音声区間であるか否かをフレーム毎に判定する第２区間検出ステップと、
を有する音声処理方法。