JP2011081324A

JP2011081324A - ピッチ・クラスター・マップを用いた音声認識方法

Info

Publication number: JP2011081324A
Application number: JP2009235730A
Authority: JP
Inventors: Satoshi Kagami; 聡加賀美; Yoko Sasaki; 洋子佐々木; Hiroshi Mizoguchi; 博溝口; Tadashi Enomoto; 格士榎本
Original assignee: Kansai Electric Power Co Inc; National Institute of Advanced Industrial Science and Technology AIST
Current assignee: Kansai Electric Power Co Inc; National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2009-10-09
Filing date: 2009-10-09
Publication date: 2011-04-21

Abstract

【課題】複数話者が同時に発声している場合にも、新しい手法を用いてシーケンシャル・グルーピング処理を行うことで、複数話者の識別と照合を適切に行う。
【解決手段】1つの既知音声信号を所定時間間隔の中で信号の最大振幅で正規化した後、サンプルＮ点の短時間フーリエ変換でM*Nに要素化し、短時間フーリエ変換データのM*N要素をｋ-means法でK個のクラスターにグループ分けし、クラスター化されたグループを１つのピッチ・クラスター・マップ（PCM）としてPCMデータベースに収納し、以上の操作を繰り返してPCMデータベースを構築しておき、照合のための入力音声信号のスペクトルと、前記PCMデータベース中のPCMのスペクトルとを用いて類似性距離の計算を行い、その類似性距離の計算結果に基づいて、複数話者のスペクトルを、各個人に対するコードブック内のピッチ・クラスター・スペクトルとして分離可能とした。
【選択図】図５

Description

本発明は、複数話者の識別と照合を可能とする、新規な音声認識方法に関するものである。

ロボットの音応用分野としては、周囲の複数音が何であり、誰が話をしているのか、何を言っているのか、をロボットが認識することが重要である。とりわけ、家庭や事務室や工場での音声識別と照合を考えた場合、その様な環境下では、ロボットの周囲には多くの既知音、ノイズ、人の声が存在する。ロボット・システムは正しい音を選択して応答することが必要である。未来の移動ロボットが、音分離、音認識、話者認識、会話認識の機能を持つことが強く期待されている。

一方、話者認識では、話者識別と照合に関して多くの研究がなされてきており、話者モデルとしては、Gaussian Mixture Model (GMM) による特徴量パラメータ方式が多く用いられている。この方式の話者モデルは、25個のケプストラム特徴ベクトル：12MFCC, 12ΔMFCC と1Δpower を用いて訓練される。そのモデルを用いて、95% を超える高い話者認識率が普通の発声速度で得られてきた。

また、Vector Quantization (VQ) 方式の話者認識もリアルタイム処理の観点から使用されてきた。一方、複数会話や音楽の分離についてはハーモニック構造に基づいた研究がかなり進展して来た。しかし、残響のある現実の室内では、シーケンシャル・グルーピングの課題はまだ多く残っている。

近年、Computational Auditory Scene Analysis (CASA) の分野では、モノラル音声の分離やシーケンシャル統合化において複数ピッチ追跡アルゴリズムを用いて幾つかの進展がなされてきたが、シーケンシャル・グルーピングの課題は未だ多く残っている。また、音楽音響信号の解析においては、歌手が Goto のPreFEst 方式と音楽の調音構造を用いて識別され、同じ方式が話者識別にも適用されている。

従来使われているケプストラム特徴量は1話者の音声特徴を良く表現しているが、複数話者が同時に発声している場合には、ケプストラム特徴量の対数周波数特性により2混合音を分離することが原理的に困難である。

従来手法による話者認識性能の一例を図１０に示す（The 2008 National Institute of Standards and Technology Speaker recognition Evaluation Results より抜粋：非特許文献１）。この図からも明らかなように、複数話者の分離・認識には依然課題が存在している。

http://www.nist.gov/speech/tests/sre/2008/official_results/index.html

本発明は、以上のような従来技術の問題点を解消し、複数話者が同時に発声している場合にも、新しい手法を用いてシーケンシャル・グルーピング処理を行うことで、複数話者の識別と照合を適切に行うことができる新規な音声認識方法を提供することを課題とする。

上記課題を解決するため、本発明は、1つの既知音声信号を所定時間間隔の中で信号の最大振幅で正規化した後、正規化した信号にサンプルＮ点の短時間フーリエ変換でM*N に要素化し、短時間フーリエ変換データの M*N 要素をｋ-means 法で K 個のクラスターにグループ分けし、クラスター化されたグループを１つのピッチ・クラスター・マップ（PCM）として PCM データベースに収納し、以上の操作を繰り返して PCM データベースを構築しておき、照合のための入力音声信号のスペクトルと、前記 PCM データベース中の PCM のスペクトルとを用いて類似性距離の計算を行い、その類似性距離の計算結果に基づいて、複数話者のスペクトルを、各個人に対するコードブック内のピッチ・クラスター・スペクトルとして分離可能としたことを特徴とするピッチ・クラスター・マップを用いた音声認識方法を提供する。

本発明によれば、上記手段を採用したので、複数話者が同時に発声している場合にも、新しい手法を用いてシーケンシャル・グルーピング処理を行うことで、複数話者の識別と照合を適切に行うことができる新規な音声認識方法を提供することが可能となる。

女性の声の入力波形とスペクトログラムの一例を示した図である。図１の例に対してK=25 ，N=1024 を用いてｋ-means 法でクラスター化した結果のPCMの一例を示す図である。クラスター番号の累積ヒストグラム例を示す図である。図３で最大累積ヒストグラムを持つクラスター番号１２の中心周波数スペクトルを示す図である。図３で最小累積ヒストグラムを持つクラスター番号８の中心周波数スペクトルを示す図である。図３で無音相当の中心スペクトルを示す図である。入力信号を短時間フーリエ変換して音声認識に用いる信号を形成する処理フローを示す図である。音声認識と照合の処理フローを示す図である。単音節音声の波形のサンプル、各単音節スペクトログラム、検出した発生区間のステータス表示を示す図である。単音節「あ」の拡大図であり、単音節波形、発音検出区間ステータス、PCMクラスターを各々示している。話者認識率を示す図であり、上側が女性、下側が男性のデータである。従来手法による話者認識性能を示す図である。

以下、本発明のピッチ・クラスター・マップ（以下、PCMとも称する）を用いた音声認識方法について詳述する。

既知の人の声や既知の音が、PCMデータベース（PCM-DB）を作成する為に参照音(20秒間以上)として使用される。１つの既知音声信号が、ある時間間隔の中で信号の最大振幅で正規化され、その正規化された信号はサンプルＮ点の短時間フーリエ変換 (STFTs)に要素化される。

S(f, tn) は正規化音声の STFTs の絶対値であり、ここで、 f ∈(6,7,.…,N)*(Fs/N) は離散周波数であり、Fs はサンプリング周波数、また、 tn=(1,…,M) はタイムフレーム・インデックスである。その振幅 S(f, tn) が変換されて FS(f,tn) になる。その変換方式は、S(f,tn) が閾値p-thld より大きい場合はFS(f,tn) =1 、それ以外の場合は FS(f,tn)=0 となる。FSデータのこれらの M*N 要素が k-means 法によってＫ個のクラスターにグループ分けされる：
FS(f, tn) → ｛CN(tn), CF(f, cn), CD(f, cn)｝
ここで、cn=(1,…,K) はクラスターの番号であり、Ｋは一定値であり、例えば 25である。CN(tn) はあるタイムスロットtn のデータが属するクラスター番号(1,…,K) である。このCN(tn) は既知音素の時間列インデックスとして利用することが可能である。CF(f, cn) は各クラスター cnの中心クラスター周波数である。CD(f,cn) は基準音のクラスター中心からの周波数距離である。

CF(f, cn) が以下の処理説明では主に使用され、入力音声の周波数距離を計算する基準になる。

周波数の時間軌跡におけるフォルマントの様に、同じようなピッチパターンを持つ音声データは、同じクラスター番号へ分類されることになるから、本明細書ではこのクラスター化されたグループを一つのピッチ・クラスター・マップ‘pitch-cluster-map (PCM)’と称している。

図１は女性の声の入力波形とスペクトログラムの一例を示したものである。サンプリング周波数は Fs=16000Hz である。

図２は、図１の例に対してK=25, N=1024 を用いてk-mean法でクラスター化した結果のPCMの一例を示している。図２において、 y軸の FFT-n = 512 は 8000Hz に対応し、x軸はクラスター番号、また、 z軸は各クラスターの中心クラスター周波数値（ CF 値）である。図３は、各クラスターのタイムスロット累積ヒストグラムであり、図３で最大累積数、最小累積数を持つクラスター番号12と8のクラスター中心スペクトルを、図4aと図4b に示している。図4cは累積数が多く特異な（無音の）中心スペクトルを持つクラスター番号を示す。

基準音声のＭ個の特性データ：{CN,CF,CD}が、１既知音声用のデータベースPCM-DBの中に収納される。

次にPCM-DBを用いる音声識別と照合について述べる。

入力信号(10秒間以上)は、ノイズの大きな環境下の場合には最初にスペクトル・サブトラクション (minimum statistics)を用いて、ノイズ軽減フィルター処理を行う。

次に、ノイズ低減後の入力信号に対して、ヒルベルト包絡線アルゴリズムを1msec周期で実行し、閾値E_thldを越えるものを音声帯域とする音声帯域検出処理を実行し、音声帯ステータス・フラグ S-On/S-Off を設定する。

次に、S-On ステータス・フラグが設定されている時間区間に対して、1msec毎にタイムスロットの中の信号の最大振幅で入力信号が正規化され、N-点 STFTs が実行される。次に、STFTsの振幅の絶対値である I(f,tn) がIF(f,tn) に変換される：I(f,tn) が閾値p-thld より大きい場合IF(f,tn) =1、それ以外の場合 IF(f,tn)=0 。

この変換された入力信号 IF(f,tn) が以下の識別処理で使用される。以上の処理のフローを図５に示す。

以下の類似性距離の計算、タイムスロット投票、音声識別の規則、音声照合の規則の処理は、S-On ステータス・フラグが設定されている時にのみ実行される。
＜類似性距離の計算＞
類似性距離SDK(tn,cn) の計算は、入力信号N-点STFTs: IF(f,tn) とデータベースPCM-DBの特徴量 CF_k(f,cn) との間のスペクトル距離の２乗和平方根として実行される：
SDK(tn,cn)=Σ_fsqrDistance( IF(f,tn), CF_k(f,cn) ) (1)
ここで、sqrDistance(x(f,i),y(f,j)) は、同一周波数ビンf での x(f, i) と y(f, j) との間の２乗和平方根の計算を表現したものである。

この類似性距離を用いて、以下の類似性決定がタイムスロット毎になされる：
1. クラスター番号中で最小距離のものを抽出：
Dmin(tn,cnl) = min _cn(SDK(tn, cn) ) (2)
2. DB中で最小距離のDB番号を抽出
G_SD(tn) = arg-min _k [ arg-min _cn(SDK(tn, cn) ) ] (3)
G_SD(tn) はタイムスロットで最小スペクトル類似距離になる基準データベース番号である。
＜タイムスロット投票＞
上記の条件が整った時には、タイム・シーケンシャル投票箱V(J) に +1が加算される。V(j) は j-番目の基準音声用の投票箱である。数秒の処理の後、V(j) が処理期間中にあるS-On 状態のタイムスロット数合計である数TSNで割り算を行う。

DBインデクス数j (j=1,…,RN) の投票率VR(j)を次式で定義する：
VR(j) = 100* V(j)/TSN . (4)
＜音声識別の規則＞
話者識別の意思決定規則は、VRの最大値を与えるインデックスによって次のように得られる：
TN1 = arg-max ( VR(1:RN) ) (5)
この最大の投票率が投票閾値 I_thldよりも大きい時には、そのインデックス番号が話者識別の第１候補 TN1 になる。他のインデックスでVR(j) >I_thldとして評価される場合には、第２候補インデックス TN2 、第３候補インデックス TN3等として、候補リストに残される。ここで、投票閾値I_thld は実験的に決められている。
＜音声照合の規則＞
各PCM-DBの照合用の閾値: Vt(c),(c= 1,…,RN) は次のようにして決められる：各DBに対して正しいDB番号cに属する複数の音声(３個以上)に対して上記(1)〜(4)の処理を行い、得られた投票率の最小の投票率をそのＤＢに対する閾値 Vt(c)として選択する。

話者照合は、(5)の結果の候補リストの中のインデックスTN1に対する投票率 VR(TN1) が照合閾値Vt(TN1) よりも大きい場合： Vt(TN1) ≦VR(TN1) には、 TN1 が話者認識番号であると宣言する。

以上の処理のフローを図６に示す。
＜PCM-DBの更新＞
なお、正しいDB番号に属する音声に対する上記(1)〜(4)の処理が、正しいDB番号にならない場合には、前記した各クラスター cn の中心クラスター周波数を求める処理を行って、PCM-DBの各クラスターの中心周波数スペクトルを更新することができる。

PCM-DBの更新後は、次の話者認識の実験で述べるミス確率Pmiss、誤警報確率Pfaの関連性を考慮して Vt(c) を決める必要がある。

次に、話者認識の実験について述べる。
＜Pitch-Cluster Maps 10 DB（PCM-10DB）による話者認識＞
電子情報技術産業協会日本語共通音声データのAセット（単音節）データベース(SS-DBと略)：男性77人(M01〜M77)、女性75人(F01〜F75)の単音節音声の中から、男性(M31〜M40)、女性(F31〜F40)の各10名の基準人音声として選択し、男性PCM-M10DB、女性PCM-F10DBを、前記した処理により作成する。ノイズ低減処理は行っていない。

SS-DBは、男女とも各人おなじ内容の単音節を４回発声する音声ファイル(4個)から構成されている。

PCM-M10DBの作成にはM31〜M40の第1音声ファイルが使用され、PCM-F10DBの作成にはF31〜F40の第1音声ファイルが使用され、クラスター数K=25で “k-means” クラスタリング方式を用いて、PCMs-10DBを作成する。N=1024, サンプル更新周期は1msec, E-thld=0.05, p_thld=3 を使用している。

図７の上部図は単音節音声の波形のサンプルであり、全て同じ単音節を発生しており、第１は「は」、第２は「ひょ」、第３は「あ」、第４は「みゅ」、第５は「が」、を発音している。

図７の中部図は各単音節スペクトログラムを表示したもので、図７の下部図は検出した発声区間をステータス表示したものである。

識別閾値は実験的にI_thld=25% に選び、照合の閾値Vt(n) は、前記の音声照合の規制で述べたアルゴリズムに従って、表１の様に設定した。

この閾値設定に対して、PCM-DBに登録されている真の男女各10名の40単音節音声に対する誤り率(Pmiss: Miss_Probability)は、男性：2.5%、女性：5% である。

図８は単音節「あ」の拡大図例であり、上部図が単音節波形を、中部図が発音検出区間ステータスを、下部図がPCMクラスター番号構造を、各々示している。

更に、PCM-DBに登録されていない人 (Imposter) の単音節音声として、男20人(M58〜M77)の各4音声の合計80音声ファイル、女20人(F56〜F75)) の各4音声の合計80音声ファイル、について各々PCM-M10DB, PCM-F10DBに対して識別・照合処理を実施した。

表２（表２Ａ、表２Ｂ）は、誤警報（別の人の音声と誤って認識した）を起こした男女ファイルに関して、各４音声(w1〜w4)についてＤＢ番号(上欄)と最大投票率(下欄)とを示している。太字の数字の箇所が、照合で誤って指名宣言した音声ファイルを表している。

結果の誤警報率(Pfa: False Alerm Probability)は、男性：10%(8/80), 女性：17.5%(14/80) , である。

ここで、照合閾値の変化の効果について述べる。

表１の照合閾値を変化させることによりミス確率 Pmiss と誤警報率 Pfa が変化する。

男性音声については表２Ａから見られるように DB3 が最も影響が大きい。表１の照合閾値 Vt(3) = 76 を 81 に変化させ, Vt(6)=60 を 65 に変化させると、男性認識率は、 Pmiss = 15%(6/40), Pfa = 1.25% (1/80) になる。

女性音声については表２Ｂから見られるようにDB4 が最も影響が大きい。表１の照合閾値Vt(4) = 42を60に、Vt(1) = 50, Vt(2) = 50, Vt(10) = 30に変化させると、女性認識率は、Pmiss = 17.5%(7/40), Pfa=1.25%(1/80) になる。図９は、NIST-DETグラフ上に、男女別に話者認識のPmiss-Pfaグラフを描いたものである。ほぼ適切な話者認識精度を達成していることがわかる。

Claims

１つの既知音声信号を所定時間間隔の中で信号の最大振幅で正規化した後、正規化した信号にサンプルN 点の短時間フーリエ変換で M*N に要素化し、
短時間フーリエ変換データの M*N 要素をｋ-means 法でＫ個のクラスターにグループ分けし、
クラスター化されたグループを１つのピッチ・クラスター・マップ（PCM）として PCM データベースに収納し、以上の操作を繰り返して PCM データベースを構築しておき、
照合のための入力音声信号のスペクトルと、前記 PCM データベース中の PCM のスペクトルとを用いて類似性距離の計算を行い、
その類似性距離の計算結果に基づいて、複数話者のスペクトルを、各個人に対するコードブック内のピッチ・クラスター・スペクトルとして分離可能としたことを特徴とするピッチ・クラスター・マップを用いた音声認識方法。