JP2005321530A

JP2005321530A - 発話識別装置および発話識別方法

Info

Publication number: JP2005321530A
Application number: JP2004138619A
Authority: JP
Inventors: Hideharu Fujiyama; 英春藤山; Masafumi Nagai; 雅文永易
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-05-07
Filing date: 2004-05-07
Publication date: 2005-11-17

Abstract

【課題】事前に声紋などの特徴データを作成すること無しに、簡易な方法で、話者ごとに音声データを分離して・ファイル化することなどを可能とする発話識別装置および発話識別方法を提供する。
【解決手段】音声データ群の特徴を抽出して特徴抽出音声データ（ＶＰ₁ 〜ＶＰ_n ）を生成し、特徴抽出音声データと音声データ（ＷＡ₁ 〜ＷＡ_n ）とを比較し、一致またはほぼ一致しているとき第１照合度を更新し、第１照合度が所定の値以上のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データ（＋ＶＰ₁ 〜＋ＶＰ_n ）を生成する。強化された特徴抽出音声データ（＋ＶＰ₁ 〜＋ＶＰ_n ）にラベルに対して音声データをクラスタリングして同じ特性を示す音声データごとに分類する。
【選択図】図４

Description

本発明は、発話者を特定するため、発話を識別する装置と方法に関する。

たとえば、会議の議事録を作成する場合など、発話者ごとの音声データを分類・整理して記録することが要望されている。そのような用途には、連続的な音声データから発話者を特定し、特定した話者の音声データごと分類する技術が必要となる。
人間の発話を分析して話者を特定するには、通常、話者認証技術、たとえば、事前に話者の特徴データ（声紋データなど）を作成し、作成した特徴データを記憶装置内にデータベース化しておいている。

会議の議事録を作成するとか、発話者の発話内容を確認したというセキュリティの高さを必要とされない場合など比較的簡易な装置に話者を特定して各話者ごと音声データを分類するような場合、換言すれば、セキュリティ用途以外に話者認証技術を応用しようとすると特徴データなどを事前に準備する必要があり、手間と時間がかかり、発話識別装置の価格が高くなるという問題に遭遇している。
したがって、話者認証技術など複雑な手段を用いずに、手軽に利用可能な発話識別装置音声データ発話識別方法が要望されている。

本発明の目的は、あらかじめ音声ファイルとして保存されている音声データを処理するものであるが、事前に声紋などの特徴データを作成すること無しに、簡易な方法で、話者ごとに音声データを分離して・ファイル化することなどを可能とする発話識別装置および発話識別方法を提供することにある。

本発明の第１の観点によれば、複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割手段と、上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出手段と、上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較し、一致またはほぼ一致しているとき第１照合度を更新し、該第１照合度が所定の値以上のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化手段と、上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較し、一致またはほぼ一致しているとき第２照合度を更新し、該第２照合度が一定値以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析手段とを具備する、発話識別装置が提供される。

本発明の第２の観点によれば、複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割ステップと、上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出ステップと、上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較して第１照合度を求め、所定の値以上の照合度のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化ステップと、上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較照合し、一致またはほぼ一致しているとき第２照合度を更新し、第２照合度か一定以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析ステップとを具備する、発話識別方法が提供される。

本発明の発話識別装置および発話識別方法によれば、発話者ごとにその発話者の音声データを分類できる。
特に、本発明の発話識別装置および音声データ発話識別方法によれば、所定期間の生の音声データの特徴を抽出して発話者を識別するのではなく、特徴抽出音声データ列に対して信頼性を高めるための強化処理を行っているので、信頼性高く発話識別が可能になる。

本発明の発話識別装置および発話識別方法においては無効データを排除した有効な音声データ列について識別処理を行うので、ノイズによる誤識別を回避でき、または、無声音の処理を行わずにすむ。

本発明の発話識別装置および発話識別方法における特徴抽出処理は、所定期間、たとえば、発話者の平均的な１話に相当する数秒程度の音声データについて行う。したがって、特徴抽出処理が短時間で行うことができるし、特徴抽出手段内のメモリ容量が少なくて済むなど、特徴抽出手段の構成が簡単になる。

本発明の発話識別装置および発話識別方法においては、声紋を登録するなど、音声識別のために事前に特別なデータを求め、それを用いるという複雑な処理を行わない。よって、簡単かつ容易に実用化できる。

本発明の発話識別装置および発話識別方法の実施の形態を述べる。
図１は本発明の発話識別装置１０の概要を示す図である。
発話識別装置１０には、複数（ｎ）の発話者のディジタル音声データが時系列的に入力され、発話識別装置１０は、所定の周期で入力された発話者のディジタル音声データを音声分析処理して、発話者の音声を識別し（分類し）、識別した発話者ごと区別して、たとえば、図２に例示したように、３人（Ａ〜Ｃ）の話者の発話を区別して、音声データを出力する。

図２は、発話識別装置１０によって、Ａさん、Ｂさん、Ｃさんの音声が識別されて、Ａさん、Ｂさん、Ｃさんごとに音声データが分類され、分類された音声データの波形が出力装置、たとえば、図３を参照して後述する表示装置１６に二次元状かつ時系列的に表示した例を示している。
横軸に時間を示している。よって、たとえば、会議の議事録として記録されている入力音声データを発話識別装置１０において識別した結果について表示装置１６に表示させ、表示装置１６においてスライダＳによって時間を指定すると、スライダＳで指定された時間から音声データが再生されて、会議の議事の整理、あるいは、発話者の発話内容の確認をすることが容易になる。

発話識別装置１０において識別するのは、連続的に入力された音声データの話者の相違から話者を識別し、識別した話者に対応した音声データを分類していくのであって、たとえば、事前に識別対象の話者の声紋を登録しておいて、声紋が一致する登録されている話者が誰であるかという話者の特定はしない。要するに、発話識別装置１０は同じ音声データを発話した話者ごと、音声データを分類していくだけである。
すなわち、発話識別装置１０は、第１の話者または話者Ａ、第２の話者または話者Ｂ、第３の話者または話者Ｃのように、話者を「識別」するだけであり、たとえば、声紋を照合として、話者Ａは「織田信長」、話者Ｂは「豊臣秀吉」、話者Ｃは「徳川家康」などという個人名まで「特定」しない。本発明においては話者ごとの音声データを識別できればよいからである。
換言すれば、発話識別装置１０は話者の識別までに止め、声紋などを用いて話者名まで特定しないので、複数の話者の音声データの分類に対して、簡便に、かつ、広く活用できる（汎用性を示す）。

以下、図１および図２を参照して述べた処理の詳細を述べる。
図３は図１の発話識別装置１０の構成を示す図である。
図１および図２を参照して処理の概要を述べた発話識別装置１０は、演算処理装置１１と、半導体メモリ１２と、大規模容量記憶装置１３と、音声データ入力装置１４と、音声データ出力装置１５とバス１９とを有している。
発話識別装置１０に、表示装置１６および音声出力装置１７を付加することができる。
演算処理装置１１、半導体メモリ１２、大規模容量記憶装置１３、音声データ入力装置１４、処理音声データ出力装置１５、表示装置１６および音声出力装置１７はバス１９を介して接続されている。

発話識別装置１０は、たとえば、コンピュータを用いて構成される。
演算処理装置１１は、たとえば、コンピュータの中央演算処理ユニット（ＣＰＵ）であり、大規模容量記憶装置１３に格納されている分析処理プログラムなど各種の発話識別プログラムに従って、音声データ入力装置１４から入力された複数の発話者のディジタル音声データを、一旦、ファイル形式で大規模容量記憶装置１３に格納した音声ファイルを参照して後述する識別処理を行い、識別した結果を、発話者ごとに分離して、処理音声データ出力装置１５に出力する。
大規模容量記憶装置１３は、たとえば、ハードディスク装置であり、演算処理装置１１において発話識別処理のために動作する分析処理プログラムなどの各種プログラム、発話識別処理に使用する音声データを音声ファイルとして格納する。
半導体メモリ１２は高速動作のメモリ、たとえば、高速度ランダムアクセスメモリ（ＲＡＭ）である。半導体メモリ１２には、演算処理装置１１で動作するプログラムが大規模容量記憶装置１３から転送されたり、音声データ入力装置１４から入力された識別対象の音声データが一時的に保存されたり、大規模容量記憶装置１３に格納されている音声ファイルのうち該当する音声ファイルが転送されたり、演算処理装置１１で処理した結果が一時的に保存されたり、演算処理装置１１の処理結果を処理音声データ出力装置１４に出力するときに一時的に転送される。
処理音声データ出力装置１５は、ランダムアクセス可能な記録媒体、たとえば、ハードディスク装置、あるいは、会議議事録記録装置であり、演算処理装置１１から識別されて出力された音声データを、発話者ごとに区別（分離）して記録する。
表示装置１６は、たとえば、液晶表示器であり、図２に例示した発話識別装置１０の処理結果、および、発話識別装置１０の動作状態を表示する、たとえば、後述するエラー情報の表示などに使用される。
音声出力装置１７は、識別した音声データを音声として再生するための装置であり、たとえば、コーデックとスピーカとを有する。

図４は発話識別装置１０の処理流れを示すフローチャートである。
図４の各ステップの処理内容の説明の前に、前提条件を記す。
前提条件
（１）大規模容量記憶装置１３に格納されており、演算処理装置１１で動作する、分析処理プログラムは、一つもしくは複数の音声データから特徴データを生成できる処理内容（処理機能）を持つ。
（２）上記分析処理プログラムは演算処理装置１１がステップ３において生成する「特徴音声データ」と「生の音声データ」、もしくは、「特徴音声データ」と「他の特徴抽出音声データ」とを比較して、分析処理プログラム内部で定義されている「測度」を用いて「照合度」を算出できる。
ここで、照合度とは比較した特徴抽出音声データと生の音声データ（または有効な音声データ）、もしくは、特徴抽出音声データと他の特徴抽出音声データの発話者が同一と認められるかを決定するための値で、本発明の実施の形態では照合度の値が高いほど同一の発話者である可能性が高いとする。
また「生の音声データ」とは、音声データ入力装置１４から読み込んで大規模容量記憶装置１３に格納されていて、まだ下記の信号処理されていない音声データをいう。有効な音声データとは、生の音声データからノイズ、無声音など、本発明に識別に使用しないデータを削除したものをいう。
特徴抽出音声データとはステップ３において生の音声データまたは有効な音声データについて特徴抽出を行った音声データをいう。
（３）特徴抽出音声データの生成に用いた生の音声データ（または有効な音声データ）のデータ量が多い程、算出される照合度の信頼性が高い。
以下、図４の各ステップの処理内容について述べる。

ステップ１：音声データの事前格納
発話識別装置１０において、演算処理装置１１は大規模容量記憶装置１３に格納された音声データ入力処理プログラムに従って、音声データ入力装置１４からディジタル音声データを連続的に入力し、大規模容量記憶装置１３に音声データファイルとして事前に格納しておく。
すなわち、本実施の形態においては、予め音声データ入力装置１４からディジタル音声データを大規模容量記憶装置１３に音声データファイルとして保存しておく。なお、実時間で連続的に入力される音声データを大規模容量記憶装置１３に一旦格納することなく、音声データ入力装置１４から連続的に入力される音声データについて下記の処理を行うこともできるが、以下、事前に大規模容量記憶装置１３に格納されたディジタル音声データについて識別処理を行う場合について例示する。

ステップ２：音声データの有効性チェック
演算処理装置１１は、大規模容量記憶装置１３に格納されている分析処理プログラムに従って、大規模容量記憶装置１３に格納されている音声データファイルのうち、処理の対象となるファイルを半導体メモリ１２に転送し、下記の処理を行う。
音声データファイルが存在すれば、演算処理装置１１は分析処理プログラムに従って、下記に述べるステップ３〜６の処理、すなわち、ステップ３の前処理、ステップ４の特徴抽出音声データの強化処理、ステップ５の強化した特徴抽出音声データによる音声データ分析処理、ステップ６の分析による識別音声データの保存処理を行う。
音声データファイルが存在しなければ、演算処理装置１１は分析処理プログラムに従って、ステップ８におけるエラー情報の出力処理を、たとえば、表示装置１６に行う。

ステップ３：前処理
図５および図６を参照して、ステップ３の前処理について述べる。
図５はステップ３の前処理詳細を示すフローチャートである。
図６は、例示的な生の音声データＲＡ₁ 〜ＲＡ_m の波形図であり、期間ｔ１〜ｔ２の後半のｔ２１までは周波数ｆ１〜ｆ２の音声データが存在し、期間ｔ２１〜ｔ３１までは周波数ｆ３〜ｆ４の音声データが存在し、期間ｔ３１〜ｔ５までは周波数ｆ５〜ｆ６の音声データが存在することを例示している。各黒線が音声データの振幅を示し、黒線の間隔が周波数を示している。

ステップ３１、音声データファイルの転送
演算処理装置１１は分析処理プログラムに従って、大規模容量記憶装置１３に格納されている音声データファイルのうち、処理の対象となる音声データファイルを半導体メモリ１２に転送する。

ステップ３２：音声データの分割
演算処理装置１１は分析処理プログラムに従って、半導体メモリ１２に転送された音声データファイルを、図６に図解したように、所定期間τごと、または、一定量の音声データごとに分割する。

所定期間τとしては、たとえば、３秒とする。所定期間τは、話者の平均的な１話の時間を想定している。
τ＝３秒の場合話者の音声データの平均周波数を２００〜５００Ｈｚと仮定すると、３秒間に６００〜１５００個の音声データが存在する。

所定時間τは、通常、話者が連続して話す期間と、後述するステップ３４における特徴抽出処理の負担軽減を考慮して規定している。
所定期間τが短かすぎると、音声データの不足で特徴抽出処理結果の精度が低くなるほか、一人の話者の識別が複数の期間に跨がることになる。他方、所定期間τが長すぎると、音声データは十分に存在するから特徴抽出処理結果の精度は高くなるが、処理時間が長くなり、所定期間τ内に複数の話者の音声データが混在することになり、話者の識別の困難さと識別した結果の音声データの分類が複雑になる。このように、所定期間τの決定は上述したことを勘案して決定する。
一定量の音声データについても、所定期間τの上記例示したデータ量になるような数、たとえば、６００〜１５００個程度のデータ量とする。

ステップ３３：有効音声データの選出
好ましくは、演算処理装置１１は分析処理プログラムに従って、図６に例示した生の音声データＲＡ₁ 〜ＲＡ_m から有効な音声データ列ＷＡ₁ 〜ＷＡ_n を選出する（選択する）。
その選択方法としては、たとえば、０レベルの音声データの上下に判断基準Ｌ１、−Ｌ２を規定し、判断基準Ｌ１、−Ｌ２内の範囲の振幅が生の音声データＲＡが所定期間継続しているとき無効音声データとして排除し、排除した残りの音声データを₁ 〜ＲＡ_m を選択する。あるいは、図６に破線で図解したように、生の音声データＲＡ₁ 〜ＲＡ_m の包絡線検波をとり、包絡線検波信号のレベルが所定期間、たとえば、所定期間τの１／５〜１／２０程度継続した場合、無効音声データとして排除し、排除した残りの音声データを₁ 〜ＲＡ_m を選択する。

無効音声データとしては、ノイズ、話者の音声データが存在しない場合などがある。図６の例示においては、期間ｔ２１〜ｔ３１の周波数ｆ３〜ｆ４のデータがノイズであり、無効音声データとして排除される。排除したデータについては以下、処理を行わない。

無効データを排除する意味は、もし，無効データがノイズの場合、ノイズ信号の不規則性によりステップ３４における特徴抽出処理結果に基づく話者を識別する処理において誤識別を招く可能性があるからである。他方、無効データが無音性を示しているときは、そのような無音性データについて、後の処理を行うことは無駄になるからである。
本実施の形態はこのように、無効データを排除して、発話識別の信頼性と、無駄な処理の回避による処理効率を高めている。

図６の例示においては、期間ｔ２１〜ｔ３の間のデータが無効データであり、期間ｔ２〜ｔ３の有効な音声データ列は、期間ｔ２１〜ｔ３の間の無効データを排除したものになる。同様に、期間ｔ３〜ｔ３１の間のデータが無効データであり、期間ｔ３〜ｔ４の有効な音声データ列は、期間ｔ３〜ｔ３１の間の無効データを排除したものになる。
以下の記述においては好適実施の形態として、有効な音声データ列ＷＡ₁ 〜ＷＡ_n を用いた場合について述べる。ただし、有効な音声データ列ＷＡ₁ 〜ＷＡ_n
に代えて生の音声データＲＡ₁ 〜ＲＡ_m を用いることもできる。

ステップ３４、有効な音声データ列の特徴抽出
演算処理装置１１は分析処理プログラムに従って、各期間τ内の有効な音声データ列ＷＡ₁ 〜ＷＡ_n について、特徴抽出処理を行う。
特徴抽出処理としては、たとえば、有効な音声データ列ＷＡ₁ 〜ＷＡ_n について高速フーリエ変換（ＦＦＴ）処理を施してパワースペクトルを演算する。あるいは、有効な音声データ列ＷＡ₁ 〜ＷＡ_n について相互相関処理を行う。
所定期間τ、たとえば、３秒の有効な音声データ列ＷＡ₁ 〜ＷＡ_n についてのＦＦＴ処理、相互相関処理は、コンピュータを用いた演算処理装置１１にとっては比較的容易な処理である。
このような特徴抽出処理によって、特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n が生成されて、半導体メモリ１２に保持される他、大規模容量記憶装置１３に格納される。

ステップ４：特徴抽出音声データの強化処理
演算処理装置１１は分析処理プログラムに従って、生成された特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n の強化処理を行う。
音声処理においては、通常、このように生成された特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n に基づいて識別処理を行う場合もある。しかしながら、本実施の形態においては特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n のみで話者の識別は行わず、下記の強化処理を行う。
強化処理を行う理由は、たとえば、所定期間τ＝３秒の生の音声データＲＡ₁
〜ＲＡ_m から無効データを排除した有効な音声データ列ＷＡ₁ 〜ＷＡ_n について求めた特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n のみを用いて話者識別を行うにはデータ量として十分でない場合があり、話者識別の信頼度を高めるために、下記の強化処理を行う。

図７は特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n の強化処理を示すフローチャートである。
特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n の強化処理の概要を述べる。
（１）ある特徴抽出音声データ列ＶＰ_i に対応する同一音声データの集合Ｓ_i
を生成し（ステップ４２）、
（２）特徴抽出音声データＶＰ_i と有効な音声データＷＡ_i との比較、または、ある特徴抽出音声データＶＰ_i と他の特徴抽出音声データＶＰ_j とを比較して、一致またほぼ一致しているとき、第１照合度として１を加算して第１照合度を更新し（ステップ４４）、
（３）第１照合度が一定値以上の場合、同一音声データの集合Ｓ_i に有効な音声データＷＡ_j 、若しくは、特徴抽出音声データＶＰ_i に対応する有効な音声データＷＡ_j を追加して、同一音声データの集合Ｓ_i を生成し、
（４）以上の処理を特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n について行う（ステップ４８）。
このように、特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n について照合度を求めて、照合度が所定以上の場合、同一話者の音声データとして識別する。
以下、図７の詳細処理を述べる。

ステップ４１、第１インデックスｉの初期値設定
演算処理装置１１は分析処理プログラムに従って、ステップ４２〜４９との間をループ処理を行うための第１インデックスｉを１に設定する。

ステップ４２、特徴抽出音声データ列に対応する同一音声データの集合の生成演算処理装置１１は分析処理プログラムに従って、上記今回生成されたある期間の有効な音声データ列ＷＡ₁ 〜ＷＡ_n についての特徴抽出音声データ列ＶＰ₁
〜ＶＰ_n のある特徴抽出音声データＶＰ_i に対し、以前に求めた特徴抽出音声データと同一の音声データの集合Ｓ_i を生成する。

ステップ４３、第２インデックスｊの初期値設定
演算処理装置１１は分析処理プログラムに従って、ステップ４４〜４７との間をループ処理を行うための第２インデックスｊを１に設定する。

ステップ４４、比較照合
演算処理装置１１は分析処理プログラムに従って、特徴抽出音声データＶＰ_i
と有効な音声データＷＡ_j 、もしくは、特徴抽出音声データＶＰ_i と対応する特徴抽出音声データＶＰ_j とを比較照合する。
これらの比較照合の結果、両者が一致またはほぼ一致しているとき、その特徴抽出音声データＶＰ_i の第１照合度に１を加えて第１照合度の値を更新する。このように、上記比較照合の結果、一致またはほぼ一致しているときは、その特徴抽出音声データＶＰ_i の第１照合度の値が大きくなっていく。

ステップ４５、照合度のチェック
演算処理装置１１は分析処理プログラムに従い、ステップ４４における比較の結果得られた第１照合度が一定の値以上であれば、比較したデータは同一の人間の発話と推定して、ステップ４６の処理に移行する。

ステップ４６、音声データの追加
演算処理装置１１は分析処理プログラムに従って、同一の人間の発話と推定された音声データ、すなわち、有効な音声データＷＡ_i （特徴抽出音声データの場合は対応する有効な音声データ) を特徴抽出音声データに対応する同一音声集合Ｓ_i に追加する。
この処理の結果得られた同一音声集合Ｓ_i 内の音声データ全てを利用して、同一音声集合Ｓ_i に対応する特徴抽出音声データを強化した特徴抽出データを生成する。このようにして、特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n に対して強化された特徴抽出音声データ＋ＶＰ₁ 〜＋ＶＰ_n が生成される。

ステップ４７、４７Ａ、反復処理
演算処理装置１１は分析処理プログラムに従って、インデックスｊがｎまで到達したか否かをチェックし、到達していない場合はインデックスｊに１を加算してステップ４４からの処理を反復する。インデックスｊがｎまで到達した場合は、ステップ４８の処理に移行する。

ステップ４８、演算処理装置１１は同一の音声データの集合Ｓ_i の全ての音声データ（有効な音声データ列ＷＡ₁ 〜ＷＡ_n ）を用いて強化された特徴抽出音声データ＋ＶＰ_i を生成する。

ステップ４９、４９Ａ、反復処理
演算処理装置１１は分析処理プログラムに従って、インデックスｊがｎまで到達したか否かをチェックし、到達していない場合はインデックスｉに１を加算してステップ４２からの処理を反復する。インデックスｉがｎまで到達した場合は、ステップ４の処理を終了する。
以上により強化された特徴抽出音声データ＋ＶＰ₁ 〜＋ＶＰ_n が得られる。

ステップ５、強化した特徴抽出音声データによる音声データ分析処理
図８はステップ５の詳細処理を示すフローチャートである。
ステップ５の処理内容の概要を述べる。ステップ５の処理は基本的にクラスタリング処理である。
（１）強化された特徴抽出音声データ＋ＶＰ₁ 〜＋ＶＰ_n を対応する同一の音声データの集合Ｓ₁ 〜Ｓ_n の要素数で降順（小さいほうから大きくなるほうへの順序）で分類し（ステップ５１）、
（２）強化された特徴抽出音声データ＋ＶＰ₁ 〜＋ＶＰ_n についてラベルＬＶＰ_i を付与し（ステップ５２）、
（３）有効な音声データ列ＷＡ₁ 〜ＷＡ_n または特徴抽出音声データ列ＶＰ₁
〜ＶＰ_n で比較データリストを生成し（ステップ５３）、
（４）ラベルＬＶＰ_i に対して音声データリストＬ_i を生成し（ステップ５５）、
（５）ラベルＬＶＰ_i に対応する強化された特徴抽出音声データ＋ＶＰ₁ 〜＋ＶＰ_n と比較データリスト内の各有効な音声データ列ＷＡ₁ 〜ＷＡ_n と特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n の各データとを比較して、一致またはほぼ一致しているときは第２照合度を更新し（ステップ５６）、
（６）第２照合度が一定値以上の比較データリスト内の有効な音声データ列ＷＡ₁ 〜ＷＡ_n または特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n に対応する有効な音声データ列ＷＡ₁ 〜ＷＡ_n を音声データリストＬ_i に移動して分離する（ステップ５７）。
このようにして、音声データリストＬ_i ごとに、有効な音声データ列ＷＡ₁ 〜ＷＡ_n が分類される。
以下、図８の処理の詳細を述べる。

ステップ５１、分類
演算処理装置１１は分析処理プログラムに従って、ステップ４の処理の結果生成された強化された特徴抽出音声データ＋ＶＰ₁ 〜＋ＶＰ_n を対応する同一音声集合の要素数の降順で分類（ソート）する。

ステップ５２、ラベル付与
演算処理装置１１は分析処理プログラムに従って、ステップ５１において分類された強化された特徴抽出音声データ＋ＶＰ₁ 〜＋ＶＰ_n に対し、分類順（ソート順）にラベルＬＶＰ₁ 〜ＬＶＰ_n を付与する。

ステップ５３、データリスト付与
演算処理装置１１は分析処理プログラムに従って、有効な音声データ列ＷＡ₁
〜ＷＡ_n もしくは対応する特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n で比較データリストを生成する。

ステップ５４〜５９、５９Ａ、反復処理
演算処理装置１１は分析処理プログラムに従ってインデックスｉについて１〜ｎまで下記の反復処理を行う。
（１）ラベルＬＶＰ₁ 〜ＬＶＰ_n のインデックス順に音声データリストＬ_i を生成し（ステップ５５）、
（２）音声データリストＬ_i 内の有効な音声データ列ＷＡ₁ 〜ＷＡ_n または特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n と、比較データリスト内の有効な音声データ列ＷＡ₁ 〜ＷＡ_n または特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n と比較する（ステップ５６）。両者の音声データとの比較の結果、一致またはほぼ一致したときは照合度を１つ加算する。
（３）得られた照合度が一定の値以上であれば、その音声データ（特徴抽出音声データの場合は対応する音声データ) を、比較データリストからそのラベルＬＶＰ_i のインデックスに対応する音声データリストＬ_i に移動して分離する（ステップ５７）。
分析処理プログラムは、上述した処理を比較データリスト内のデータが空になるまで行う。

なお一般に、特徴抽出データとその特徴抽出データを生成した音声データ（有効な音声データ列ＷＡ₁ 〜ＷＡ_n ）を分析処理プログラムを用いて比較すると第２照合度は同一の人間の発話とみなすに十分な値となるので、比較データリストが空にならないことはない。

ステップ６、分析による識別音声データの保存処理
演算処理装置１１は分析処理プログラムに従って、ステップ５の処理の結果得られた話者ごとの音声データリストＬ_i に対して、たとえば、ハードディスク装置として構成される、音声データ出力装置１５の出力領域内に保存領域を確保して、音声データリストＬ_i 内の音声データ（有効な音声データ列ＷＡ₁ 〜ＷＡ_n
）を保存していく。
このように、本実施の形態によれば、音声データ入力装置１４から入力される複数の話者の音声データが、各音声データリストＬ_i 内に話者ごと分類された形態で、処理音声データ出力装置１５に出力される。

なお、以上の説明においては音声データの識別処理を中心に述べたが、各音声データリストＬ_i 内の有効な音声データ列ＷＡ₁ 〜ＷＡ_n には時間データが付随している。よって、各音声データリストＬ_i 内の有効な音声データ列ＷＡ₁ 〜ＷＡ_n を時系列に並べることができる。

好ましくは、演算処理装置１１はまた、図２に例示的に図解したように、音声データ出力装置１５への出力結果を、表示装置１６に横軸を時間軸として、音声データを話者ごとに分類してグラフィカルに表示することができる。
ユーザが、表示装置１６のスライダＳによって時間を指定すると、演算処理装置１１は指定された位置の時間から音声データ（有効な音声データ列ＷＡ₁ 〜ＷＡ_n ）を音声として出力することもできる。その場合は、もちろん、図３に破線で図解したコーデックとスピーカなどからなる音声出力装置１７を付加する。

本実施の形態によれば、たとえば、会議における議事録を想定すると、単に話者ごとの音声ファイルを生成するだけでなく、誰が、いつ、どれくらい発話したのかを分析することが可能となるため、たとえば、図２に図解したＧＵＩを持ったアプリケーションを作成することで、会議全体の様子をグラフィカルに把握することができ、聞きたいところに速やかにアクセスできる。

本発明の実施の形態の発話識別装置１０は上述した例示に限らず、種々の変形態様をとることができる。
たとえば、上述した実施の形態は、音声データ入力装置１４から一旦大規模容量記憶装置１３に生の音声データＲＡ₁ 〜ＲＡ_m を格納したのち、オフライン的の処理を行う場合について述べたが、音声データ入力装置１４から生の音声データＲＡ₁ 〜ＲＡ_m を入力しながら実時間で上述した処理を行うこともできる。

ステップ３４の特徴抽出音声データ列ＶＰ₁ 〜ＶＰ_n の生成法としては、上述した例示に限らず、信号の特徴を抽出する他の方法を適用することができる。

所定期間τ＝３秒としたのは例示に過ぎず、状態に応じて、他の時間に設定することができる。

上述した実施の形態においては、生の音声データＲＡ₁ 〜ＲＡ_m からノイズまたは無声音を排除した有効な音声データ列ＷＡ₁ 〜ＷＡ_n について処理を行う場合について述べたが、生の音声データＲＡ₁ 〜ＲＡ_m について上述した処理を行うこともできる。
たとえば、ノイズは種々の周波数成分の集合は仮定できるから、ノイズについて特徴抽出を行うと、特定の成分は抽出されない。このような場合は、識別不可として、その後の信号処理から排除することができる。
無声音については、基本的に音が存在しないので、処理を行わない。

発話識別装置１０によれば、下記の効果を奏する。
（１）発話者ごとにその発話者の音声データを分類できる。
特に、発話識別装置１０によれば、所定期間の生の音声データの特徴を抽出して発話者を識別するのではなく、特徴抽出音声データ列に対して信頼性を高めるための強化処理を行っているので、信頼性高く発話識別が可能になる。
（２）発話識別装置１０は無効データを排除した有効な音声データ列について識別処理を行うので、ノイズによる誤識別を回避でき、または、無声音の処理を行わずにすむ。
（３）発話識別装置１０は、所定期間、たとえば、発話者の平均的な１話に相当する数秒程度の音声データについて行う。したがって、特徴抽出処理が短時間で行うことができるし、特徴抽出手段内のメモリ容量が少なくて済むなど、特徴抽出手段の構成が簡単になる。
（４）発話識別装置１０は声紋を登録するなど、音声識別のために事前に特別なデータを求め、それを用いるという複雑な処理を行う必要がない。よって、発話識別装置１０は簡単かつ容易に実用化できる。

図１は本発明の発話識別装置の概念図である。図２は図１に図解した発話識別装置による処理結果の例を図解した図であり、Ａさん、Ｂさん、Ｃさんの音声が識別されて、さらに、Ａさん、Ｂさん、Ｃさんごとに音声データが分類され、分類された音声データの波形が出力装置に表示した例を示している。図３は図１に図解した発話識別装置の構成図である。図４は図３に図解した発話識別装置の処理の概要を図解したフローチャートである。図５は図４に図解したステップ３の前処理詳細を示すフローチャートである。図６は、例示的な音声データの波形図であり、期間ｔ１〜ｔ２の後半のｔ２１までは周波数ｆ１〜ｆ２の音声データが存在し、期間ｔ２１〜ｔ３１までは周波数ｆ３〜ｆ４の音声データが存在し、期間ｔ３１〜ｔ５までは周波数ｆ５〜ｆ６の音声データが存在することを例示しており、各黒線が音声データの振幅を示し、黒線の間隔が周波数を示している。図７は図４に図解したステップ４における特徴抽出音声データ列の強化処理を示すフローチャートである。図８は図４に図解したステップ５における強化した特徴抽出音声データによる音声データ分析処理を示すフローチャートである。

符号の説明

１０…発話識別装置
１１…演算処理装置
１２…半導体メモリ
１３…大規模容量記憶装置
１４…音声データ入力装置
１５…処理音声データ出力装置
１６…表示装置
１７…音声出力装置
１９…バス
ＲＡ₁ 〜ＲＡ_m …生の音声データ
ＷＡ₁ 〜ＷＡ_n …有効な音声データ列
ＶＰ₁ 〜ＶＰ_n …特徴抽出音声データ列
＋ＶＰ₁ 〜＋ＶＰ_n …強化された特徴抽出音声データ
Ｌ_i …音声データリスト

Claims

複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割手段と、
上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出手段と、
上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較し、一致またはほぼ一致しているとき第１照合度を更新し、該第１照合度が所定の値以上のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化手段と、
上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較し、一致またはほぼ一致しているとき第２照合度を更新し、該第２照合度が一定値以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析手段と
を具備する、発話識別装置。
上記音声データ分割手段で分割した音声データについて、所定レベル以下の音声データが連続する場合、無効な音声データとして上記分割音声データ群から排除した有効な音声データのみを上記特徴音声データ抽出手段に入力する、無効音声データ排除手段をさらに具備し、
前記音声データリスト内には上記有効な音声データが分類されている、
請求項１に記載の発話識別装置。
上記音声データリスト内に分類された音声データを上記音声データリストごと出力する識別結果出力手段をさらに具備する、
請求項１または２に記載の発話識別装置。
上記音声データリスト内に分類された音声データを二次元上にグラフィカルに表示する識別結果表示手段をさらに具備する、
請求項１〜３のいずれかに記載の発話識別装置。
上記特徴抽出手段は、上記分割音声データ群内の音声データのパワースペクトルを算出して特徴音声データとする、
請求項１または２に記載の発話識別装置。
上記特徴抽出手段は、上記分割音声データ群内の音声データ相互の相関を求めて特徴音声データとする、
請求項１または２に記載の発話識別装置。
上記特徴音声データ強化手段は、
上記各特徴抽出音声データに対応する同一音声データの集合を生成し、
上記各特徴抽出音声データと上記有効な音声データとの比較、または、上記各特徴抽出音声データと他の特徴抽出音声データとを比較して、照合度を求め、一定値以上の照合度の場合、同一音声データの集合に上記有効な音声データ若しくは上記特徴抽出音声データに対応する上記有効な音声データを追加して、同一音声データの集合を生成する、
請求項２〜６のいずれかに記載の発話識別装置。
上記特徴抽出音声データ強化手段は、
上記強化された特徴抽出音声データを対応する同一の音声データの集合の要素数で降順で分類し、
上記強化された特徴抽出音声データについてラベルを付与し、
上記有効な音声データまたは上記特徴抽出音声データで比較データリストを生成し、
上記生成したラベルに対して音声データリストを生成し、
上記ラベルに対応する上記強化された特徴抽出音声データと上記比較データリスト内の上記各有効な音声データと上記特徴抽出音声データとを比較して第２照合度を算出し、
上記第２照合度が一定値以上の上記比較データリスト内の上記有効な音声データまたは上記特徴抽出音声データに対応する上記有効な音声データを上記音声データリストに移動させて分類する、
請求項２〜７のいずれかに記載の発話識別装置。
複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割ステップと、
上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出ステップと、
上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較して第１照合度を求め、所定の値以上の照合度のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化ステップと、
上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較照合し、一致またはほぼ一致しているとき第２照合度を更新し、第２照合度か一定以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析ステップと
を具備する、発話識別方法。
上記音声データ分割ステップにおいてで分割した音声データについて、所定レベル以下の音声データが連続する場合、無効な音声データとして上記分割音声データ群から排除した有効な音声データのみを上記特徴音声データ抽出手段に入力する、無効音声データ排除ステップをさらに具備し、
前記音声データリスト内には上記有効な音声データが分類されている、
請求項９に記載の発話識別方法。
上記音声データリスト内に分類された音声データを上記音声データリストごと出力する識別結果出力ステップをさらに具備する、
請求項９または１０に記載の発話識別方法。
上記音声データリスト内に分類された音声データを二次元上にグラフィカルに表示する識別結果表示ステップをさらに具備する、
請求項９〜１１のいずれかに記載の発話識別方法。