JP3081108B2

JP3081108B2 - 話者分類処理装置及び方法

Info

Publication number: JP3081108B2
Application number: JP06189709A
Authority: JP
Inventors: 秀登小島; 秀一荒井
Original assignee: 株式会社トレンディ
Priority date: 1994-08-11
Filing date: 1994-08-11
Publication date: 2000-08-28
Anticipated expiration: 2015-08-28
Also published as: JPH0854891A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音響信号を分類する技
術、及び分類された音響信号に対して検索・提示等の種
々の処理を行う技術に関する。

【０００２】

【従来の技術】従来、辞書登録された複数の話者の発声
の標準パターンと入力音声のパターン（入力パターン）
とを比較することにより、入力音声を発声した話者を識
別又は照合する技術が知られている。

【０００３】ここで、話者の識別とは、入力音声が、予
め登録されている複数の話者のうちの誰の声であるかを
判定することをいい、一般に、入力パターンとの類似度
が最も大きな標準パターンに対応する話者が識別結果と
なる。

【０００４】また、話者の照合とは、入力音声と共にそ
の入力音声を発声した話者が誰であるかを示す話者識別
情報を入力し、入力音声が本当に話者識別情報に対応す
る話者の音声であるか否かを判定することをいい、入力
パターンと話者識別情報に対応する話者の標準パターン
との類似度が閾値以上であるか否かによって照合が行わ
れる。

【０００５】このような話者識別／照合の従来技術にお
いては、予め識別又は照合されるべき複数の話者の発声
の標準パターンが辞書として登録される。一方、話者識
別／照合技術には、発声内容を予め定めておく発声内容
依存型のものと、発声内容は任意でよい発声内容独立型
のものとがある。

【０００６】発声内容依存型の話者識別／照合技術で
は、標準パターンと入力パターンとのマッチングにおい
て同じ音韻同士を対応付けることが比較的容易であり、
認識性能の比較的高いものを実現できることから、多く
の話者識別／照合システムが実用化されている。

【０００７】これに対して、発声内容独立型の話者識別
／照合技術では、標準パターンと入力パターンとのマッ
チングにおいて同じ音韻同士を対応付けることが困難で
話者の個人性を示す情報が音韻性情報に埋もれてしまう
傾向にあり、認識性能に限界があることから、実用化さ
れているシステムはほとんどないのが現状である。発声
内容独立型の話者識別／照合技術の有力なものとして、
ベクトル量子化による歪を用いる技術がある。この技術
では、予め登録話者毎に、任意の発声の短時間スペクト
ルがクラスタリングされ、その結果得られる各クラスタ
の重心の集合がその登録話者に対応するコードブックと
して辞書登録される。入力音声が入力されると、その短
時間スペクトルが各登録話者のコードブックによってベ
クトル量子化され、その入力音声全体にわたる平均量子
化歪が計算される。入力音声に対するこのベクトル量子
化処理が、全ての登録話者のコードブックに対して実行
される。そして、話者識別においては、平均量子化歪が
最も小さい登録話者が識別結果とされる。また、話者照
合においては、話者識別情報に対応する話者のコードブ
ックについての平均量子化歪が閾値と比較されることに
よって照合が行われる。

【０００８】

【発明が解決しようとする課題】しかし、上述の従来技
術は何れも、話者の発声の標準パターンを辞書として登
録しておく必要がある。このような辞書登録作業は、多
大な時間を要すると共に話者が限定されてしまうため、
実用上不便をきたす可能性があるという問題点を有して
いる。

【０００９】また、辞書作成からの時間経過により話者
の発声のパターンが変動するため、システムの性能低下
を防止するためには、時間経過に応じて辞書を作成し直
す等の対策が必要になるという問題点も有している。

【００１０】更に近年では、社会のマルチメディアに対
する関心が高まっており、例えば話者に応じて会話内容
を分類し自由に検索又は提示するような、柔軟性及び利
便性の高いシステムに対する要請が高まっている。しか
し、上述したような、単に話者を識別又は照合するのみ
の従来技術では、マルチメディアに対する要請等に十分
に応えることはできず、特に、話者の種類及び発声内容
に対する制限は、柔軟性の高いシステムを構築する上
で、致命的な問題点である。

【００１１】本発明は、辞書を必要とせずに入力音声を
話者毎に分類し、分類された入力音声に対して検索・提
示等の種々の処理を行うことを可能とすると共に、一般
的な音響信号に対しても所定の基準について分類及び種
々の処理を可能とすることを目的とする。

【００１２】

【課題を解決するための手段】図１は、本発明の基本的
な原理ブロック図である。音響特徴量抽出手段１０２
は、音響信号１０１の音響的特徴を示す音響特徴量１０
３を抽出する。

【００１３】選別手段１０４は、音響特徴量抽出手段１
０２によって抽出された音響特徴量１０３を、その音響
特徴量１０３に対応する音響信号１０１の発生条件毎に
選別する。音響信号１０１の発生条件毎とは、例えば本
発明が話者分類処理装置として実現される場合には母音
毎という意味であり、そのほかに例えば、機械システム
が一定のサイクルで稼働しそれに同期して音響を発生す
る場合に、サイクル内の所定タイミング毎という意味で
あり、また例えば、機械システムが一定の稼働条件にあ
るときに一定の音響を発生する場合に、各稼働条件毎
（例えば回転系にあっては回転数毎）という意味であ
る。

【００１４】分類手段１０５は、選別手段１０４によっ
て選別された音響特徴量１０３を、音響信号１０１の発
生条件毎の分類を基準に、音響特徴量１０３間の類似の
度合いを評価して分類し、その分類結果と音響信号１０
１との対応関係を少なくとも含む分類情報１０６を作成
する。

【００１５】上述の発明の基本的な構成において、音響
信号１０１の発生条件が例えば外部から与えられるよう
な場合には、音響信号１０１そのものが選別されるよう
に構成されてもよい。

【００１６】上述の発明の基本的な構成に加えて、上述
の分類情報１０６を用いてデータ処理を行うデータ処理
手段を有するように構成することもできる。また、本発
明は、音響分類処理装置を話者分類処理装置として実現
することもできる。

【００１７】更に、本発明は、上記装置構成と同じ機能
を奏する方法として構成することもできる。

【００１８】

【作用】本発明は、音響特徴量１０３又は音響信号１０
１が音響信号１０１の発生条件毎に選別された上で、音
響特徴量１０３が音響信号１０１の発生条件毎の分類を
基準に分類される。

【００１９】このような構成により、音響信号１０１の
発生条件に独立な状態で、特定の辞書等を用いることな
く、音響特徴量１０３ひいては音響信号１０１を自動的
に分類することができる。

【００２０】

【実施例】以下、図面を参照しながら本発明の実施例に
つき詳細に説明する。＜第１の実施例＞第１の実施例は、本発明を話者分類処
理システムとして実施した場合のものである。話者分類装置の説明図２は、第１の実施例における話者分類装置の構成図で
ある。この装置は、主に、発声区間抽出部２０３、フレ
ーム分割部２０５、線形予測係数／ＰＡＲＣＯＲ係数計
算部２０７、ＬＰＣケプストラム計算部２１０、母音抽
出部２１２、及び発声クラスタリング部２１５などから
構成される。

【００２１】まず、会話データ２０１は、特には図示し
ないマイクロフォンから特には図示しないＡ／Ｄ変換器
を介して入力されるディジタル音声データである。サン
プリング周波数は例えば１１ｋＨｚ、量子化ビット数は
例えば１６ビットである。

【００２２】会話データ２０１は、会話ファイル２０２
として、特には図示しない記憶媒体（ＩＣメモリカード
又はディスク記憶装置など）に記憶される。発声区間抽
出部２０３は、会話ファイル２０２から、無音区間・無
声音区間・語頭区間・語尾区間等のスペクトル的に不安
定な区間以外の安定区間（以後、発声区間と呼ぶ）を抽
出し、図３(a) に示されるように、発声区間数Ｎと、会
話ファイル２０２上での各発声区間の開始サンプル位置
Ｓ及び終了サンプル位置Ｅが格納された発声区間指示フ
ァイル２０４を作成して、特には図示しない記憶媒体に
記憶する。このように、発声区間のみが抽出されその区
間に対して後述する母音抽出部２１２で母音抽出処理が
実行されることにより、話者を分類するための前処理で
ある母音抽出の精度を格段に向上させることができる。
この動作アルゴリズムは、以下に示されるステップ１〜
ステップ７の処理として実現される。ステップ１：会話ファイル２０２の音声波形サンプルが
読み込まれ、サンプルカウンタｉの値と発声区間カウン
タｎの値が共に０に初期設定される。ステップ２：Ｓ＝ｉとされた後、サンプルカウンタｉの
値が順次インクリメントされながら、サンプル値ｐ
（ｉ）の符号が変化するサンプル位置の直前のサンプル
位置Ｅ＝ｉが検出される。この結果、サンプル値の符号
が同じ区間［ｐ（Ｓ），ｐ（Ｅ）］が決定される。値Ｅ
が会話ファイル２０２のサンプル数を越えない範囲で、
以下のステップ３〜ステップ６の処理が繰り返される。ステップ３：区間［ｐ（Ｓ），ｐ（Ｅ）］の中で、信号
レベルの絶対値の最大値が閾値２．５ｄＢ（デシベル）
以上ならば、この区間は発声区間とされ、以下のステッ
プ４又はステップ５の処理が実行される。ステップ４：発声区間が検出され（ｎ＞０）ており、か
つ直前の発声区間Snと現在評価中の発声区間［ｐ
（Ｓ），ｐ（Ｅ）］との間に、

【００２３】

【数１】

【００２４】が成り立てば、この２つの発声の間に無声
区間があってもこれをはつ音の発声に含まれる無声区間
であると判断し、［ｐ（Ｓ），ｐ（Ｅ）］は直前の発声
区間Snと統合される。即ち、Ｅ_Sn＝Ｅとされ、次の発声
区間を検索するためにｉ＝Ｅ＋１とされて、ステップ２
のループが進められる。図５にこの様子を示す。ステップ５：ステップ４が成り立たない場合には、現在
評価中の発声区間［ｐ（Ｓ），ｐ（Ｅ）］は独立した発
声区間とされる。即ち、発声区間カウンタｎの値がｎ＝
ｎ＋１としてインクリメントされ、次の発声区間を検索
するためにｉ＝Ｅ＋１とされて、ステップ２のループが
進められる。ステップ６：区間［ｐ（Ｓ），ｐ（Ｅ）］の中で、信号
レベルの絶対値の最大値が閾値２．５ｄＢ（デシベル）
未満ならば、この区間は発声区間ではないとされ、無視
される。この場合には、次の発声区間を検索するために
ｉ＝Ｅ＋１とされて、ステップ２のループが進められ
る。ステップ７：ステップ２のループの繰返しの結果検出さ
れた発声区間の数、各発声区間の開始サンプル位置Ｓ_Sn
及び終了サンプル位置Ｅ_Sn（１≦ｎ≦Ｎ）が、発声区間
指示ファイル２０４（図３(a) ）に書き込まれる。図２に戻って、フレーム分割部２０５は、発声区間指示
ファイル２０４によって示される会話ファイル２０２内
の各発声区間を、所定長を有する複数個のフレームに分
割して、各発声区間に対応する発声ｎフレーム分割ファ
イル２０６（１≦ｎ≦Ｎ）を作成し、特には図示しない
記憶媒体に記憶する。発声ｎフレーム分割ファイル２０
６には、図３(b) に示されるように、発声区間を示す発
声区間番号ｎと、その発声区間内のフレーム数Ｍn 、及
びその発声区間内の各フレームｍ（１≦ｍ≦Ｍn ）の開
始サンプル位置ｓが格納される。フレーム長は例えば２
５６サンプルで、隣接するフレームとの間で例えば１９
２サンプルずつのサンプルデータがオーバーラップされ
る。

【００２５】線形予測係数／ＰＡＲＣＯＲ係数計算部２
０７は、発声ｎフレーム分割ファイル２０６によって示
される１つの発声区間内の各フレーム位置に対応する会
話ファイル２０２内の音声波形サンプルから線形予測係
数組及びＰＡＲＣＯＲ係数組を計算し、発声ｎ線形予測
係数ファイル２０８及び発声ｎＰＡＲＣＯＲ係数ファイ
ル２０９（１≦ｎ≦Ｎ）を作成して、特には図示しない
記憶媒体に記憶する。発声ｎ線形予測係数ファイル２０
８及び発声ｎＰＡＲＣＯＲ係数ファイル２０９には、図
３(c) 及び(d) に示されるように、各々、発声区間を示
す発声区間番号ｎと、その発声区間内の各フレームに対
応する線形予測係数組｛α₁，α₂，・・・，α_p｝又
はＰＡＲＣＯＲ係数組｛ｋ₁，ｋ₂，・・・，ｋ_p｝が
格納される。ここで、サフィックスｐは、次数である。
線形予測係数及びＰＡＲＣＯＲ係数の計算アルゴリズム
は、以下に示されるステップ１〜ステップ８として実現
される。ステップ１：発声区間カウンタｎの値が１からＮまでイ
ンクリメントされながら、以下のステップ２〜ステップ
８の処理が繰り返される。なお、発声区間数Ｎは、発声
区間指示ファイル２０４の先頭に格納されている。ステップ２：フレームカウンタｍの値が１からＭn まで
インクリメントされながら、現在処理中のｎ番目の発声
区間に対応する発声ｎフレーム分割ファイル２０６によ
って指示されるフレーム１〜フレームＭn （図３(b) 参
照）の各フレームにつき、以下のステップ３〜ステップ
８の処理が繰り返される。なお、フレーム数Ｍn は、発
声ｎフレーム分割ファイル２０６の第２番目の格納位置
に格納されている。ステップ３：会話ファイル２０２から、現在処理中のｎ
番目の発声区間に対応する発声ｎフレーム分割ファイル
２０６に格納されている現在処理中のｍ番目のフレーム
の開始サンプル位置ｓ（図３(b) 参照）からフレーム長
分（例えば２５６サンプル分）の音声波形サンプルが読
み込まれる。このサンプル列をｘ（ｉ）（１≦ｉ≦フレ
ーム長−１）とする。ステップ４：音声波形サンプルｘ（ｉ）（１≦ｉ≦フレ
ーム長−１）に、次式に基づいて窓関数が乗算され、そ
の結果がｘ_W（ｉ）（１≦ｉ≦フレーム長−１）とされ
る。窓関数を乗算することにより、後述する線形予測係
数及びＰＡＲＣＯＲ係数の計算におけるフレーム端の打
ち切り誤差の影響を軽減することができる。

【００２６】

【数２】

【００２７】ステップ５：音声波形サンプルｘ_W（ｉ）
（１≦ｉ≦フレーム長−１）につき直前のサンプルとの
差分

【００２８】

【数３】

【００２９】が計算される。ステップ６：ｙ（ｉ）（１≦ｉ≦フレーム長−１）につ
いて、自己相関関数Ｖが計算される。ステップ７：自己相関関数Ｖから、Durbinの再帰的解放
を用いて、線形予測係数組α_j及びＰＡＲＣＯＲ係数組
ｋ_j（１≦ｊ≦ｐ、ｐは次数）が計算される。ステップ８：ステップ７で計算された、現在処理中のｎ
番目の発声区間内の現在処理中のｍ番目のフレームに対
応する線形予測係数組α_j及びＰＡＲＣＯＲ係数組ｋ_j
（１≦ｊ≦ｐ）が、発声ｎ線形予測係数ファイル２０８
（図３(c) ）及び発声ｎＰＡＲＣＯＲ係数ファイル２０
９（図３(d) ）に格納される。次に、図２で、ＬＰＣケプストラム計算部２１０は、発
声ｎ線形予測係数ファイル２０８内の各フレーム毎の線
形予測係数組からＬＰＣケプストラム係数組を計算し、
発声ｎＬＰＣケプストラムファイル２１１（１≦ｎ≦
Ｎ）を作成して、特には図示しない記憶媒体に記憶す
る。発声ｎＬＰＣケプストラムファイル２１１には、図
３(e) に示されるように、発声区間を示す発声区間番号
ｎと、その発声区間内の各フレームに対応するＬＰＣケ
プストラム係数組｛ｃ₁，ｃ₂，・・・，ｃ_p｝が格納
される。ＬＰＣケプストラム係数の計算アルゴリズム
は、以下に示されるステップ１〜ステップ５として実現
される。ステップ１：発声区間カウンタｎの値が１からＮまでイ
ンクリメントされながら、以下のステップ２〜ステップ
５の処理が繰り返される。なお、発声区間数Ｎは、発声
区間指示ファイル２０４の先頭に格納されている。ステップ２：フレームカウンタｍの値が１からＭn まで
インクリメントされながら、以下のステップ３〜ステッ
プ５の処理が繰り返される。なお、フレーム数Ｍn は、
発声ｎフレーム分割ファイル２０６の第２番目の格納位
置に格納されている。ステップ３：現在処理中のｎ番目の発声区間に対応する
発声ｎ線形予測係数ファイル２０８から現在処理中のｍ
番目のフレームに対応する線形予測係数組α_j（１≦ｊ
≦ｐ）が読み込まれる。ステップ４：次式に従って線形予測係数組α_jからＬＰ
Ｃケプストラム係数組ｃj （１≦ｊ≦ｐ）が計算され
る。

【００３０】

【数４】

【００３１】ステップ５：ステップ４で計算された、現
在処理中のｎ番目の発声区間内の現在処理中のｍ番目の
フレームに対応するＬＰＣケプストラム係数組ｃj （１
≦ｊ≦ｐ）が、発声ｎＬＰＣケプストラムファイル２１
１（図３(e) ）に格納される。続いて、図２において、母音抽出部２１２は、発声ｎＰ
ＡＲＣＯＲ係数ファイル２０９内の各フレーム毎のＰＡ
ＲＣＯＲ係数組と、特には図示しない記憶媒体に記憶さ
れている５母音ＰＡＲＣＯＲ係数辞書２１３内の各母音
に対応する辞書ＰＡＲＣＯＲ係数組とでマッチングをと
ることにより、発声ｎフレーム分割ファイル２０６内の
各フレームに５母音又は無効の何れかのラベルを付与
し、発声ｎ母音ラベルファイル２１４（１≦ｎ≦Ｎ）を
作成して、特には図示しない記憶媒体に記憶する。発声
ｎ母音ラベルファイル２１４には、図３(f) に示される
ように、発声区間を示す発声区間番号ｎと、その発声区
間内の各フレームに対応する母音ラベルが格納される。
この動作アルゴリズムは、以下に示されるステップ１〜
ステップ９の処理として実現される。ステップ１：５母音ＰＡＲＣＯＲ係数辞書２１３から、
/a/,/i/,/u/,/e/,/o/の５母音の辞書ＰＡＲＣＯＲ係数
組が読み込まれる。なお、この辞書ＰＡＲＣＯＲ係数組
は、１つの母音につき複数組ある。ここで、母音ｖ（ｖ
＝/a/,/i/,/u/,/e/,/o/ ）のｚ組目の辞書ＰＡＲＣＯＲ
係数組をｋｖ_j ^z（１≦ｊ≦ｐ、１≦ｚ≦Ｚv ）とす
る。ステップ２：発声区間カウンタｎの値が１からＮまでイ
ンクリメントされながら、以下のステップ３〜ステップ
９の処理が繰り返される。なお、発声区間数Ｎは、発声
区間指示ファイル２０４の先頭に格納されている。ステップ３：フレームカウンタｍの値が１からＭn まで
インクリメントされながら、以下のステップ４〜ステッ
プ９の処理が繰り返される。なお、フレーム数Ｍn は、
発声ｎフレーム分割ファイル２０６の第２番目の格納位
置に格納されている。ステップ４：現在処理中のｎ番目の発声区間に対応する
発声ｎＰＡＲＣＯＲ係数ファイル２０９から現在処理中
のｍ番目のフレームに対応するＰＡＲＣＯＲ係数組ｋ_j
（１≦ｊ≦ｐ）が読み込まれる。ステップ５：各母音ｖ（ｖ＝/a/,/i/,/u/,/e/,/o/ ）に
ついて、以下のステップ６とステップ７の処理が繰り返
される。ステップ６：ステップ４で読み込まれた現在処理中のｎ
番目の発声区間内の現在処理中のｍ番目のフレームに対
するＰＡＲＣＯＲ係数組ｋ_jと、ステップ１で読み込ま
れた母音ｖに対応する辞書ＰＡＲＣＯＲ係数組ｋｖ_j ^z
との距離ｄv が、次式によって計算される。

【００３２】

【数５】

【００３３】即ち、母音ｖに属する各辞書ＰＡＲＣＯＲ
係数組とのユークリッド距離の最小値として、ｄv が計
算される。Ｗ_j（１≦ｊ≦ｐ）は、次数毎の重みであ
る。また、 min_z｛｝は、母音ｖに属する辞書ＰＡＲＣ
ＯＲ係数組ｚを変えて得られる各値のうちの最小値を選
択する演算を示す。ステップ７：距離ｄv の値が母音ｖに設定された閾値よ
り大きい場合には、ｄv ＝Ｄ（定数値）と置き換える。
この処理によって、母音ｖ毎の距離のばらつきが正規化
される。ステップ８：距離ｄv の値が最小となる母音ｖについ
て、その距離ｄv の値が定数値Ｄ未満であるならば、現
在処理中のｎ番目の発声区間に対応する発声ｎ母音ラベ
ルファイル２１４中の現在処理中のｍ番目のフレームに
対応する位置に、その母音ｖに対応するラベルが格納さ
れる。ステップ９：一方、距離ｄv の値が最小となる母音ｖに
ついて、その距離ｄv の値が定数値Ｄに等しいならば、
現在処理中のｎ番目の発声区間に対応する発声ｎ母音ラ
ベルファイル２１４中の現在処理中のｍ番目のフレーム
に対応する位置に、“無効”を示すラベルが格納され
る。最後に、図２において、発声クラスタリング部２１５
は、会話ファイル２０２に属するＮ個の発声ｎ母音ラベ
ルファイル２１４（１≦ｎ≦Ｎ）のそれぞれの間で母音
ラベル別にクラスタリングを実行することにより、処理
対象会話ファイル２０２に属するＮ区間の発声区間のそ
れぞれを話者毎に分類する。

【００３４】この結果、会話ファイル別話者分類データ
ベース２１６が作成される。このデータベースには、会
話ファイル２０２、話者別発声箇所情報ファイル２１
７、話者別・母音別ＰＡＲＣＯＲ係数統計情報ファイル
２１８、及び話者別・母音別ＬＰＣケプストラム統計情
報ファイル２１９が含まれる。

【００３５】会話ファイル２０２は、処理対象とされた
会話ファイルである。話者別発声箇所情報ファイル２１
７は、分類されて適当なタグ（以後、これを話者識別タ
グと呼ぶ）が付与された各話者が、会話ファイル２０２
内のＮ個の発声区間のうちのどの１つ以上の発声区間で
発声しているかを示す。より具体的には、話者別発声箇
所情報ファイル２１７には、図４(a) に示されるよう
に、会話番号ｘと、話者識別タグと、各タグ毎に１つ以
上の発声区間のそれぞれに対応する１組以上の開始サン
プル位置Ｓと終了サンプル位置Ｅの組が格納される。

【００３６】話者別・母音別ＰＡＲＣＯＲ係数統計情報
ファイル２１８には、図４(b) に示されるように、話者
識別タグ毎及び５母音毎に、各話者及び各母音を代表す
るＰＡＲＣＯＲ係数組が格納される。

【００３７】話者別・母音別ＬＰＣケプストラム統計情
報ファイル２１９には、図４(c) に示されるように、話
者識別タグ毎及び５母音毎に、各話者及び各母音を代表
するＬＰＣケプストラム係数組が格納される。

【００３８】クラスタリングのアルゴリズムは、以下に
示す通りである。｛手順１：同一話者判定メンバシップ関数Ｆv(d)の決
定｝クラスタリングにおいては、比較される２つの発声
区間中に現れる同じ母音同士が同一話者によるものか異
話者によるものかを判定する必要がある。この判定を行
うためにメンバシップ関数Ｆv(d)が使用される。ここ
で、ｖ＝/a/,/i/,/u/,/e/,/o/ であり、ｄは同じ母音を
示す２つの比較対象のＬＰＣケプストラム係数組間の重
み付きユークリッド距離（数５式参照）である。

【００３９】上述のメンバシップ関数Ｆv(d)を決定する
ために、予備処理として、同一話者内と異話者間で、５
母音のそれぞれについて、各々２組のＬＰＣケプストラ
ム係数組間の重み付きユークリッド距離（以下、単に距
離という）を全ての組合せについて計算し、これを出現
確率で表すと、各母音とも概略図６に示される分布を有
する。

【００４０】この距離分布に基づいて各母音ｖ＝/a/,/i
/,/u/,/e/,/o/ について、図７に示される概形を有する
同一話者判定メンバシップ関数Ｆv(d)を決定する。ここ
で、図７に示される距離ｄの区間［ｄ1 ，ｄ3］（図６
も参照）におけるＦv(d)は、図６に示される同一話者間
の距離ｄの出現確率をＱs(d)、異話者間の距離ｄの出現
確率をＱa(d)とすると、次式で表すことができる。

【００４１】

【数６】

【００４２】｛手順２：母音別の類似度の評価マトリク
スの計算｝手順１で決定した同一話者判定メンバシップ
関数Ｆv(d)を用いて、母音別に、図２の発声区間抽出部
２０３で抽出された発声区間間の話者の類似度を示す評
価マトリクスに対応するデータが、以下のステップ１〜
ステップ７の処理により計算される。ステップ１：発声区間カウンタｎの値が１からＮまでイ
ンクリメントされながら、以下のステップ２とステップ
３の処理が繰り返される。なお、発声区間数Ｎは、発声
区間指示ファイル２０４の先頭に格納されている。ステップ２：母音ラベルｖ（ｖ＝/a/,/i/,/u/,/e/,/o/
）のそれぞれについて、以下のステップ３の処理が繰
り返される。ステップ３：現在処理中のｎ番目の発声区間Snに対応す
る発声ｎ母音ラベルファイル２１４（図３(f) ）から母
音ラベルｖが付加されているフレーム番号が判定され、
次に、現在処理中のｎ番目の発声区間Snに対応する発声
ｎＬＰＣケプストラムファイル２１１（図３(e) ）から
上述の判定された全てのフレームに対応するＬＰＣケプ
ストラム係数組が読み込まれる。続いて、これらのＬＰ
Ｃケプストラム係数組の次数毎の平均値が計算され、そ
の結果得られる平均ＬＰＣケプストラム係数組が、発声
区間Snにおいて母音ｖを代表するＬＰＣケプストラム係
数組とされる。＊ステップ１〜ステップ３の処理が繰り返されることに
より、図８に示されるように、各発声区間Sn（１≦ｎ≦
Ｎ）に対応する母音別の平均ＬＰＣケプストラム係数組
ａ_Sn（母音/a/ に対応）、ｉ_Sn（母音/i/ に対応）、ｕ
_Sn（母音/u/ に対応）、ｅ_Sn（母音/e/ に対応）、及び
ｏ_Sn（母音/o/ に対応）が計算される。なお、各発声区
間Snにおいて５母音全ての平均ＬＰＣケプストラム係数
組が揃わなくてもよく、発声区間中に存在しなかった母
音については図８において×で示されている。また、図
８では、各平均ＬＰＣケプストラム係数組ａ_Sn、ｉ_Sn、
ｕ_Sn、ｅ_Sn、ｏ_Snには、ベクトル記号“→”が付加され
ている。ステップ４：上述したステップ１〜ステップ３の繰り返
しに続いて、全ての２つの発声区間の組合せSi，Sj（ｉ
≠ｊ、１≦ｉ，ｊ≦Ｎ）について、以下のステップ５〜
ステップ７の処理が繰り返される。ステップ５：２つの発声区間Si，Sjにおいて計算されて
いる共通の母音ｖの各々について、以下のステップ６と
ステップ７の処理が繰り返される。ステップ６：２つの発声区間Si，Sjにおける共通の母音
ｖに関する２つの平均ＬＰＣケプストラム係数組間で、
距離ｄ（ｖ_Si，ｖ_Sj）が計算される。ステップ７：ステップ６で計算された距離ｄ（ｖ_Si，ｖ
_Sj）を用いて、次式により、２つの発声区間Si，Sjにお
ける共通の母音ｖに関する類似度Pv_SiSj（ｖ＝/a/,/i/,
/u/,/e/,/o/ 、ｉ≠ｊ、１≦ｉ，ｊ≦Ｎ）が計算され
る。

【００４３】

【数７】

【００４４】ステップ４〜ステップ７の処理が繰り返さ
れる結果、５母音のそれぞれについて、任意の２つの発
声区間間の類似度を要素とする評価マトリクスに対応す
るデータが得られることになる。｛手順３：リラグゼーション｝手順２で計算された母音
別の類似度の評価マトリクスから、リラグゼーションに
より、最終的な発声区間間の類似の度合いを示す図１０
に示されるような評価マトリクスに対応するデータが、
以下のステップ１〜ステップ７の処理によって作成され
る。ステップ１：まず、２つの発声区間Si，Sjにおける平均
類似度Ｐ_SiSjが、次式で示されるように、２つの発声区
間Si，Sjにおける共通の母音ｖに関する類似度Pv_SiSjの
平均値として計算される。

【００４５】

【数８】

【００４６】ステップ２：リラグゼーションの繰り返し
のための繰返しカウンタｑの値が１に初期設定される。ステップ３：２つの発声区間の組合せSi，Sj（ｉ≠ｊ、
１≦ｉ，ｊ≦Ｎ）の全てについて、以下のステップ４の
処理が繰り返される。ステップ４：ｑ＝１における２つの発声区間Si，Sj間の
類似度を示す評価マトリクス（図１０）の要素値がM(1)
_SiSjとされ、この要素値が、次式に示されるように、２
つの発声区間Si，Sjにおける平均類似度Ｐ_SiSjの値に初
期設定される。

【００４７】

【数９】

【００４８】ステップ５：繰返しカウンタｑの値が２か
ら終了回数までインクリメントされながら、以下のステ
ップ６とステップ７の処理が繰り返される。ステップ６：２つの発声区間の組合せSi，Sj（ｉ≠ｊ、
１≦ｉ，ｊ≦Ｎ）の全てについて、以下のステップ７の
処理が繰り返される。ステップ７：第ｑ回目のステップ５の繰返しでの２つの
発声区間Si，Sj間の類似の度合いを示す評価マトリクス
（図１０）の要素値がM(q)_SiSj、第ｑ−１回目のステッ
プ５の繰返しでの要素値がM(q-1)_SiSjとされ、次式によ
りM(q)_SiSjが更新される。

【００４９】

【数１０】

【００５０】ここで、得点point_SiSjは、以下のステッ
プ７−１〜ステップ７−１９により計算される。ステップ７−１：動的閾値０が、第ｑ−１回目のステッ
プ５の繰返しで計算された全ての要素値M(q-1)_SiSj（ｉ
≠ｊ、１≦ｉ，ｊ≦Ｎ）の平均値として計算される。ま
た、話者の類似度に関する同一話者境界閾値が閾値１、
異話者境界閾値が閾値２とされる。ここで、閾値１及び
閾値２はそれぞれ所定値であり、０＜閾値２＜閾値１＜
１である。ステップ７−２：第ｑ−１回目のステップ５の繰返しに
おいて計算された現在選択されている２つの発声区間S
i，Sjの間の要素値M(q-1)_SiSjが、M(q-1)_SiSj＞閾値０
を満たす場合、即ち２つの発声区間SiとSjが同一話者ら
しい場合は、以下のステップ７−３〜ステップ７−１０
が実行される。ステップ７−３（ルール１）：現在選択されている２つ
の発声区間のうちの１つの発声区間Siに関して平均類似
度Ｐ_SiSk＞閾値１を満たす全ての発声区間ｋ（≠ｊ）
が、現在選択されている２つの発声区間のうちの他の１
つの発声区間Sjに対しても平均類似度Ｐ_SkSj＞閾値１を
満たす場合、即ち、発声区間Siと同一話者らしい発声区
間Skの全てが発声区間Sjとも同一話者らしい場合には、
以下のステップ７−４〜ステップ７−６が実行される。ステップ７−４：現在選択されている２つの発声区間の
うちの１つの発声区間Siに関して平均類似度Ｐ_SiSk＜閾
値２を満たす全ての発声区間ｋ（≠ｊ）が、現在選択さ
れている２つの発声区間のうちの他の１つの発声区間Sj
に対しても平均類似度Ｐ_SkSj＜閾値２を満たす場合、即
ち、発声区間Siと異話者らしい発声区間Skの全てが発声
区間Sjとも異話者らしい場合には、次式に示されるよう
に、第ｑ−１回目のステップ５の繰返しにおいて計算さ
れた得点point_SiSjに最高得点＋４Δ（Δは適当な値）
が与えられ、今回（第ｑ回目）の数１０式の計算に使用
される。

【００５１】

【数１１】

【００５２】ステップ７−５：ステップ７−４が成立し
ない場合において、現在選択されている２つの発声区間
のうちの１つの発声区間Siに関して平均類似度Ｐ_SiSk＜
閾値２を満たす発声区間ｋ（≠ｊ）のうちの半数以上
が、現在選択されている２つの発声区間のうちの他の１
つの発声区間Sjに対しても平均類似度Ｐ_SkSj＜閾値２を
満たす場合、即ち、発声区間Siと異話者らしい発声区間
Skのうちの半数以上が発声区間Sjとも異話者らしい場合
は、次式に示されるように、得点 point_SiSjに最高得点
の半分の得点＋２Δが与えられ、今回（第ｑ回目）の数
１０式の計算に使用される。

【００５３】

【数１２】

【００５４】ステップ７−６：ステップ７−４及びステ
ップ７−５が共に成立しない場合、即ち、発声区間Siと
異話者らしい発声区間Skのうち発声区間Sjとも異話者ら
しいと判定されたものが半数に満たず、発声区間SiとSj
が同一話者とはいいきれない場合には、次式に示される
ように、得点 point_SiSjは０にされて、今回（第ｑ回
目）の数１０式の計算において使用される。

【００５５】

【数１３】

【００５６】ステップ７−７（ルール２）：前述したス
テップ７−３のルール１は成立しないが、現在選択され
ている２つの発声区間のうちの１つの発声区間Siに関し
て平均類似度Ｐ_SiSk＞閾値１を満たす発声区間ｋ（≠
ｊ）のうち、その半数以上が、現在選択されている２つ
の発声区間のうちの他の１つの発声区間Sjに対しても平
均類似度Ｐ_SkSj＞閾値１を満たし、かつ、その全てが発
声区間Sjに対して平均類似度Ｐ_SkSj＞閾値２を満たす場
合、即ち発声区間Siと同一話者らしい発声区間Skのう
ち、その半数以上が発声区間Sjとも同一話者らしく、か
つ、異話者ではないらしいものが全てである場合には、
以下のステップ７−８〜ステップ７−１０が実行され
る。ステップ７−８：ステップ７−４の場合と同様に、現在
選択されている２つの発声区間のうちの１つの発声区間
Siに関して平均類似度Ｐ_SiSk＜閾値２を満たす全ての発
声区間ｋ（≠ｊ）が、現在選択されている２つの発声区
間のうちの他の１つの発声区間Sjに対しても平均類似度
Ｐ_SkSj＜閾値２を満たす場合、即ち、発声区間Siと異話
者らしい発声区間Skの全てが発声区間Sjとも異話者らし
い場合には、次式に示されるように、第ｑ−１回目のス
テップ５の繰返しにおいて計算された得点 point_SiSjに
最高得点の半分の得点＋２Δが与えられ、今回（第ｑ回
目）の数１０式の計算に使用される。

【００５７】

【数１４】

【００５８】ステップ７−９：ステップ７−８が成立し
ない場合において、ステップ７−５の場合と同様に、現
在選択されている２つの発声区間のうちの１つの発声区
間Siに関して平均類似度Ｐ_SiSk＜閾値２を満たす発声区
間ｋ（≠ｊ）のうちの半数以上が、現在選択されている
２つの発声区間のうちの他の１つの発声区間Sjに対して
も平均類似度Ｐ_SkSj＜閾値２を満たす場合、即ち、発声
区間Siと異話者らしい発声区間Skのうちの半数以上が発
声区間Sjとも異話者らしい場合は、次式に示されるよう
に、得点 point_SiSjに最高得点の１／４の得点＋Δが与
えられ、今回（第ｑ回目）の数１０式の計算に使用され
る。

【００５９】

【数１５】

【００６０】ステップ７−１０：ステップ７−８及びス
テップ７−９が共に成立しない場合、即ち、ステップ７
−６の場合と同様に、発声区間Siと異話者らしい発声区
間Skのうち発声区間Sjとも異話者らしいと判定されたも
のが半数に満たず、発声区間SiとSjが同一話者とはいい
きれない場合には、次式に示されるように、得点 point
_SiSjは０にされて、今回（第ｑ回目）の数１０式の計算
において使用される。

【００６１】

【数１６】

【００６２】ステップ７−１１：第ｑ−１回目のステッ
プ５の繰返しで計算された現在選択されている２つの発
声区間Si，Sjの間の要素値M(q-1)_SiSjが、M(q-1)_SiSj＜
閾値０を満たす場合、即ち２つの発声区間SiとSjが異話
者らしい場合は、以下のステップ７−１２〜ステップ７
−１９が実行される。ステップ７−１２（ルール３）：現在選択されている２
つの発声区間のうちの１つの発声区間Siに関して平均類
似度Ｐ_SiSk＜閾値２を満たす全ての発声区間ｋ（≠ｊ）
が、現在選択されている２つの発声区間のうちの他の１
つの発声区間Sjに対しても平均類似度Ｐ_SkSj＜閾値２を
満たす場合、即ち、発声区間Siと異話者らしい発声区間
Skの全てが発声区間Sjとも異話者らしい場合には、以下
のステップ７−１３〜ステップ７−１５が実行される。ステップ７−１３：現在選択されている２つの発声区間
のうちの１つの発声区間Siに関して平均類似度Ｐ_SiSk＞
閾値１を満たす全ての発声区間ｋ（≠ｊ）が、現在選択
されている２つの発声区間のうちの他の１つの発声区間
Sjに対しても平均類似度Ｐ_SkSj＞閾値１を満たす場合、
即ち、発声区間Siと同一話者らしい発声区間Skの全てが
発声区間Sjとも同一話者らしい場合には、次式に示され
るように、第ｑ−１回目のステップ５の繰返しにおいて
計算された得点 point_SiSjに最低の減点−４Δが与えら
れ、今回（第ｑ回目）の数１０式の計算に使用される。

【００６３】

【数１７】

【００６４】ステップ７−１４：ステップ７−１３が成
立しない場合において、現在選択されている２つの発声
区間のうちの１つの発声区間Siに関して平均類似度Ｐ
_SiSk＞閾値１を満たす発声区間ｋ（≠ｊ）のうちの半数
以上が、現在選択されている２つの発声区間のうちの他
の１つの発声区間Sjに対しても平均類似度Ｐ_SkSj＞閾値
１を満たす場合、即ち、発声区間Siと同一話者らしい発
声区間Skのうちの半数以上が発声区間Sjとも同一話者ら
しい場合は、次式に示されるように、得点 point_SiSjに
最低の減点の半分の減点−２Δが与えられ、今回（第ｑ
回目）の数１０式の計算に使用される。

【００６５】

【数１８】

【００６６】ステップ７−１５：ステップ７−１３及び
ステップ７−１４が共に成立しない場合、即ち、発声区
間Siと同一話者らしい発声区間Skのうち発声区間Sjとも
同一話者らしいと判定されたものが半数に満たず、発声
区間SiとSjが異話者とはいいきれない場合には、次式に
示されるように、減点はされずに得点 point_SiSjは０に
されて、今回（第ｑ回目）の数１０式の計算において使
用される。

【００６７】

【数１９】

【００６８】ステップ７−１６（ルール４）：前述した
ステップ７−１２のルール３は成立しないが、現在選択
されている２つの発声区間のうちの１つの発声区間Siに
関し平均類似度Ｐ_SiSk＜閾値２を満たす発声区間ｋ（≠
ｊ）のうち、その半数以上が、現在選択されている２つ
の発声区間のうちの他の１つの発声区間Sjに対しても平
均類似度Ｐ_SkSj＜閾値２を満たし、かつ、その全てが発
声区間Sjに対して平均類似度Ｐ_SkSj＜閾値１を満たす場
合、即ち発声区間Siと異話者らしい発声区間Skのうち、
その半数以上が発声区間Sjとも異話者らしく、かつ、同
一話者ではないらしいものが全てである場合には、以下
のステップ７−１７〜ステップ７−１９が実行される。ステップ７−１７：ステップ７−１３の場合と同様に、
現在選択されている２つの発声区間のうちの１つの発声
区間Siに関して平均類似度Ｐ_SiSk＞閾値１を満たす全て
の発声区間ｋ（≠ｊ）が、現在選択されている２つの発
声区間のうちの他の１つの発声区間Sjに対しても平均類
似度Ｐ_SkSj＞閾値１を満たす場合、即ち、発声区間Siと
同一話者らしい発声区間Skの全てが発声区間Sjとも同一
話者らしい場合には、次式に示されるように、第ｑ−１
回目のステップ５の繰返しにおいて計算された得点 poi
nt_SiSjに最低の減点の半分の減点−２Δが与えられ、今
回（第ｑ回目）の数１０式の計算に使用される。

【００６９】

【数２０】

【００７０】ステップ７−１８：ステップ７−１７が成
立しない場合において、ステップ７−１４の場合と同様
に、現在選択されている２つの発声区間のうちの１つの
発声区間Siに関して平均類似度Ｐ_SiSk＞閾値１を満たす
発声区間ｋ（≠ｊ）のうちの半数以上が、現在選択され
ている２つの発声区間のうちの他の１つの発声区間Sjに
対しても平均類似度Ｐ_SkSj＞閾値１を満たす場合、即
ち、発声区間Siと同一話者らしい発声区間Skのうちの半
数以上が発声区間Sjとも同一話者らしい場合は、次式に
示されるように、得点 point_SiSjに最低の減点の１／４
の減点−Δが与えられ、今回（第ｑ回目）の数１０式の
計算に使用される。

【００７１】

【数２１】

【００７２】ステップ７−１９：ステップ７−１７及び
ステップ７−１８が共に成立しない場合、即ち、ステッ
プ７−１５の場合と同様に、発声区間Siと同一話者らし
い発声区間Skのうち発声区間Sjとも同一話者らしいと判
定されたものが半数に満たず、発声区間SiとSjが異話者
とはいいきれない場合においては、次式に示されるよう
に、減点はされずに得点 point_SiSjは０にされて、今回
（第ｑ回目）の数１０式の計算において使用される。

【００７３】

【数２２】

【００７４】上述のステップ５〜ステップ７が、図２の
発声クラスタリング部２１５で繰り返し実行されること
によりリラグゼーションが行われ、繰返しカウンタｑの
値が終了回数に達した時点で、最終的な発声区間間の類
似の度合いを示す図１０に示されるような評価マトリク
スの各要素値に対応するデータM(q)_SiSj（ｉ≠ｊ、１≦
ｉ，ｊ≦Ｎ）が計算される。このデータには、手順２で
計算された母音別の類似度の評価マトリクスの内容が適
切に反映されている。｛手順４：クラスタリング｝手順３で計算されたデータ
M(q)_SiSj（ｉ≠ｊ、１≦ｉ，ｊ≦Ｎ）において、所定の
閾値以上の値を有する２つ以上の発声区間の組合せに同
じ話者識別タグが付与される。所定の閾値としては、例
えば、最終的に得られたデータ値M(q-1)_SiSj（ｉ≠ｊ、
１≦ｉ，ｊ≦Ｎ）の平均値として計算される動的閾値０
を使用することができる。

【００７５】このようにして、各話者識別タグ毎に、そ
れに属する発声区間が決定された後に、発声区間指示フ
ァイル２０４（図２及び図３(a) 参照）から各発声区間
の開始サンプル位置Ｓと終了サンプル位置Ｅの組が読み
込まれる。そして、会話番号ｘと、話者識別タグと、各
タグ毎に１つ以上の発声区間のそれぞれに対応する１組
以上の開始サンプル位置Ｓと終了サンプル位置Ｅの組が
格納された話者別発声箇所情報ファイル２１７（図４
(a) ）が作成され、会話ファイル別話者分類データベー
ス２１６として登録される。以上説明したように、本発
明によって実施される話者分類装置では、ユーザから順
次入力される各会話内の発声を話者別に次々と自動的に
分類でき、その場合に特別な辞書を必要とせず話者の特
徴の長期変動にも左右されないことが大きな特徴であ
る。

【００７６】特に、話者の種類に制限を付ける必要はな
く、その時々に会話を行っている話者が自動的に分類さ
れ、適当な話者識別タグが付与される。更に、上述の実
施例では、発声区間内のフレーム毎に母音ラベルが付与
され、発声区間間では母音別にクラスタリングが実行さ
れることにより、発声内容即ち音韻に独立な状態で話者
の分類を行うことができる。

【００７７】加えて、母音抽出が行われる発声区間とし
ては、会話ファイル２０２上の、無音区間・無声音区間
・語頭区間・語尾区間等のスペクトル的に不安定な区間
以外の安定区間のみが使用されるため、母音抽出エラー
を大幅に減少させることができる。このように、本実施
例では、話者分類のためには全ての音声区間が必要な訳
ではなく安定な区間のみがあればよいという事実を効果
的に利用している。話者分類結果提示装置の説明図１１は、第１の実施例において、図２の話者分類装置
によって作成された会話ファイル別話者分類データベー
ス２１６を利用する話者分類結果提示装置の構成図であ
る。

【００７８】話者毎代表部分再生部１１０２は、図２の
話者分類装置によって作成された会話ファイル別話者分
類データベース２１６において、図４(a) に示される話
者別発声箇所情報ファイル２１７に登録されている話者
識別タグ毎に、その話者識別タグに対応する代表的な
（例えば先頭の又は最も長い）発声区間の開始サンプル
位置Ｓと終了サンプル位置Ｅを読み出し、その区間の音
声波形サンプルを会話ファイル別話者分類データベース
２１６に登録されている会話ファイル２０２から読み込
んで再生し、ユーザに聴取させる。

【００７９】ユーザは、現在聴取している音声を発声し
ている話者名を判断し、話者名入力部１１０３を使っ
て、その話者名のテキストデータを入力する。このテキ
ストデータは、話者毎代表部分再生部１１０２が現在再
生している話者識別タグとペアで、会話ファイル別話者
分類データベース２１６に話者別名前ファイル１１０１
として登録される。

【００８０】以上のように、このような簡単な構成の話
者分類結果提示装置を使用することにより、ユーザは直
感的かつ簡単な操作で、会話ファイル別話者分類データ
ベース２１６に登録されている会話ファイル２０２に話
者名を登録できる。話者分類結果検索装置の説明図１２は、第１の実施例において、図２の話者分類装置
によって作成された会話ファイル別話者分類データベー
ス２１６に対して様々な検索機能を有する話者分類結果
検索装置の構成図である。

【００８１】話者数による会話データ検索部１２０１
は、ユーザに話者数を入力させることにより、話者別発
声箇所情報ファイル２１７において話者識別タグの数を
順次検索することにより、入力された話者数に対応する
数の話者識別タグが登録されている話者別発声箇所情報
ファイル２１７から会話番号ｘ（図４(a) 参照）を取得
し、その会話番号ｘに対応する会話ファイル２０２の名
前、その会話ファイル２０２の音声の出力、音声波形の
表示等を行う。この場合、例えばユーザは、会話の録音
時（話者分類時）に、会話ファイル２０２に任意の録音
情報（簡単な内容や日時等）を付加できるように構成さ
れてもよい。

【００８２】より具体的な応用例として、例えば、電話
やネットワーク上での多対多の通信時に、そのセッショ
ンに現在何人の人が参加しているかを、その時点からさ
かのぼって１０分程度の会話ファイル２０２を調べるこ
とによって提示するようなことも、上述の技術を適用す
れば、容易に実現することができる。

【００８３】特定話者名による会話データ検索部１２０
２は、ユーザに特定の話者名のテキストデータを入力さ
せることにより、話者別名前ファイル１１０１からその
話者名に対応する話者識別タグを抽出し、その話者識別
タグが登録されている話者別発声箇所情報ファイル２１
７を検索する。そして、話者識別タグが登録されている
話者別発声箇所情報ファイル２１７から会話番号ｘ（図
４(a) 参照）を取得して、その会話番号ｘに対応する会
話ファイル２０２の名前、その会話ファイル２０２の音
声の出力、音声波形の表示等を行う。

【００８４】特定話者の発声箇所検索部１２０３は、ユ
ーザに会話ファイル名と特定の話者名のテキストデータ
を入力させることにより、話者別名前ファイル１１０１
からその話者名に対応する話者識別タグを抽出し、入力
された会話ファイル名を有する会話ファイル２０２に対
応する話者別発声箇所情報ファイル２１７上で、上記話
者識別タグに対応して登録されている各発声区間（図４
(a) 参照）の開始サンプル位置Ｓと終了サンプル位置Ｅ
を順次読み出し、各区間の音声波形サンプルを入力され
た会話ファイル名を有する会話ファイル２０２から順次
読み込んで再生し、ユーザに聴取させる。該当箇所の音
声波形の表示や発声箇所の提示が可能なように構成され
てもよい。また、前述の話者分類結果提示装置によって
話者別名前ファイル１１０１が会話ファイル別話者分類
データベース２１６に登録されていない場合には、特定
話者名による会話データ検索部１２０２は、ユーザに会
話ファイル名を入力させた後、入力された会話ファイル
名を有する会話ファイル２０２に対応する話者別発声箇
所情報ファイル２１７に格納されている話者識別タグ
を、液晶ディスプレイなどに一覧表示し、ユーザに特定
の話者識別タグを選択させる。そして、ユーザによって
選択された話者識別タグに対応する発声区間の音声が上
述の場合と同様にして発声又は提示等される。

【００８５】より具体的な応用例として、例えば、留守
番電話に入っている声を何カ月か学習することにより、
特定の人の用件だけを聞いたり、タグを学習結果にふる
ことによって誰から留守中に電話があったかを知ること
なども、上述の技術を適用すれば、容易に実現すること
ができる。或いは、厳密なシナリオが存在しない、映画
やドラマの吹き替え時に、特定の役者のみの音声を提示
するようなことも、容易に実現できる。

【００８６】話者発声の試聴による会話データ検索部１
２０４は、会話ファイル別話者分類データベース２１６
において、図４(a) に示される話者別発声箇所情報ファ
イル２１７に登録されている話者識別タグ毎に、その話
者識別タグに対応する各発声区間の開始サンプル位置Ｓ
と終了サンプル位置Ｅを順次読み出し、各区間の音声波
形サンプルを会話ファイル２０２から順次読み込んで再
生し、ユーザに試聴させる。

【００８７】ユーザの発声音声による会話データ検索部
１２０５は、ユーザに発声（例えば「私の会話を抽出せ
よ。」等）を行わせて、その結果得られる会話データに
対して、図２の話者分類装置における場合と同様にし
て、各発声区間の抽出、フレーム分割、線形予測係数組
・ＰＡＲＣＯＲ係数組・ＬＰＣケプストラム係数組の計
算、及び発声区間内の各フレーム毎の母音ラベルの付与
等の処理を行う。その後に、検索部１２０５は、会話フ
ァイル別・話者別・母音別に、例えば計算されたＬＰＣ
ケプストラム係数組と各会話ファイル２０２に対応する
話者別・母音別ＬＰＣケプストラム統計情報ファイル２
１９に格納されているＬＰＣケプストラム係数組とのユ
ークリッド距離を計算し、例えば５母音のユークリッド
距離の平均が最小である話者に対応する話者識別タグを
抽出する。その話者識別タグが属する会話ファイル２０
２も同時に抽出される。そして、検索部１２０５は、抽
出した会話ファイル名の提示を行うほか、抽出した会話
ファイル２０２及び話者識別タグに対応する発声区間の
音声を、特定話者の発声箇所検索部１２０３の動作の場
合と同様にして、発声又は提示等する。

【００８８】上述したように、本実施例による話者分類
結果検索装置によって、図２に示される話者分類装置に
よって作成される会話ファイル別話者分類データベース
２１６に対して、強力かつ柔軟性の高い検索・提示等を
行うことができ、マルチメディアに対する要請等に十分
に応えるシステムを構築することができる。そして、こ
こに示した検索・提示処理は、従来の単純な話者識別・
照合システムにおいては到底実現できないものである。

【００８９】また、前述したように、本発明によって実
施される話者分類装置は、特別な辞書を必要としないも
のであるが、特定の辞書を用いるシステムと組み合わせ
ることも可能である。例えば、音声認識システムにおい
て、前述した話者分類装置を組み合わせることにより、
複数話者に適応した音声辞書を各々作成するようなこと
が可能となる。

【００９０】更に、本発明によって実施される話者分類
装置による話者分類結果を用いた独創的な処理として、
次のような処理が考えられる。即ち、話者分類結果を基
本的な音圧（パワー）や基本周波数（ピッチ）の情報と
組み合わせると、話者は分類できているので、各話者毎
に音圧や基本周波数の時間的変化を調べることができ
る。これにより、ある話者の会話中で、どの発声がその
他の発声より強調されているか等が分かる。このよう
に、基本的音響特徴量を組み合わせて用いると、話者分
類ができて初めて利用価値が生ずる特徴を抽出できるよ
うになる。例えば、各発声毎の平均スペクトル変化率を
用いれば、ある話者の、どの発声が、他の発声と比較し
て速口であったかなども分かる。このような情報は、感
情情報に結び付く情報であるため、一種の感情検知シス
テムのようなものも実現することも可能となる。＜第２の実施例＞第２の実施例は、本発明を回転系の異
常検知システムとして実施した場合のものである。

【００９１】図１３は、第２の実施例における回転音分
類装置の構成図である。まず、モータやエンジンなどの
回転系１３０１が発生する音響は、マイク１３０２で聴
取された後、Ａ／Ｄ変換器１３０３でディジタル化さ
れ、一定時間毎に切り替わる２つのバッファ１３０４又
は１３０５に交互に記録される。

【００９２】バッファ１３０４又は１３０５のうち記録
動作が行われていないバッファから読み出された音響デ
ータ１３０６は、フレーム分割部１３０７において、所
定長を有する複数個のフレームに分割される。この結
果、音響フレーム分割ファイル１３０８が作成され、特
には図示しない記憶媒体に記憶される。音響フレーム分
割ファイル１３０８のデータフォーマットは、例えば図
３(b) に似たものにすることができ、フレーム数及び各
フレームの開始サンプル位置等が格納される。

【００９３】スペクトル分析部１３０９は、音響フレー
ム分割ファイル１３０８によって示される各フレーム位
置に対応する音響データ１３０６に対して、例えばバン
ドパスフィルタリング処理によって複数の周波数帯域の
各周波数成分値を抽出し、その情報を音響スペクトル分
析ファイル１３１０として、特には図示しない記憶媒体
に記憶する。

【００９４】以上の動作が、様々な状況のもとで回転系
１３０１を音源とし、バッファ１３０４又は１３０５を
介して次々に入力するする音響データ１３０６に対して
実行される。

【００９５】回転数抽出部１３１１は、適当な時間分
（例えば回転系１３０１の一稼働時間分）の音響スペク
トル分析ファイル１３１０を順次入力し、例えば各フレ
ーム毎に最大値をとる周波数成分から回転系１３０１の
回転数を検出する。

【００９６】回転数別選別部１３１２は、適当な時間分
（例えば回転系１３０１の一稼働時間分）の音響スペク
トル分析ファイル１３１０を順次入力し、各フレーム毎
に、回転数抽出部１３１１で抽出された回転数を示すラ
ベルを付与することにより、回転数ラベルファイル１３
１３を作成して、特には図示しない記憶媒体に記憶す
る。

【００９７】音響クラスタリング部１３１４は、回転数
ラベルファイル１３１３に格納されている回転数ラベル
別に、各回転数ラベルが付与されているフレームに対応
する音響スペクトル分析ファイル１３１０内の各音響ス
ペクトル分析結果をクラスタリングすることにより、回
転音分類データベース１３１５を作成する。この回転音
分類データベース１３１５には、音響ファイル１３１
６、クラスタ別発音箇所情報ファイル１３１７、及びク
ラスタ別・回転数別スペクトル分析統計情報ファイル１
３１８等が登録される。クラスタリングの方法は、母音
を回転数に置き換えて考えることで、図２の話者分類装
置の場合と同様の方法が適用できる。

【００９８】音響ファイル１３１６は、前記適当な時間
分の音響データ１３０６を統合してファイル化したもの
である。クラスタ別発音箇所情報ファイル１３１７は、
音響クラスタリング部１３１４によって生成された各ク
ラスタが、音響ファイル１３１６上のどの発音区間に対
応するかを示す。

【００９９】クラスタ別・回転数別スペクトル分析統計
情報ファイル１３１８には、クラスタ毎及び回転数毎
に、各クラスタ及び各回転数を代表する音響スペクトル
分析結果（バンドパスフィルタリング群の各周波数成分
出力値等）が格納される。

【０１００】以上に示される回転音分類装置によって作
成される回転音分類データベース１３１５を活用するこ
とにより、例えば回転数とは独立な回転音の分類及び解
析を行うことができ、異常音の検出を容易に行うことが
可能となる。＜第３の実施例＞第３の実施例は、第２の実施例と同様
に、本発明を回転系の異常検知システムとして実施した
場合のものである。

【０１０１】図１４は、第３の実施例における回転音分
類装置の構成図である。図１４において、図１３の場合
と同じ番号が付与された部分は図１３の場合と同じ機能
を有する。図１４の構成が図１３の構成と異なる点は、
回転数の抽出が、回転数抽出部１３１１によって音響ス
ペクトル分析ファイル１３１０から行われるのではな
く、回転系に近接されたロータリーエンコーダ１４０１
から、Ａ／Ｄ変換器１４０２、バッファ１４０３及び１
４０４を介して抽出される回転数データ１４０５を使っ
て行われる点である。

【０１０２】回転数データ１４０５の位相は、音響デー
タ１３０６の位相と同期しており、回転数データ１４０
５は、フレーム分割部１３０７と同様のフレーム分割部
１４０６によってフレーム毎に分割され、回転数フレー
ム分割ファイル１４０７として保持される。このファイ
ルに格納された各タイミング毎の回転数が、回転数別選
別部１３１２によって読み出される。＜他の実施例＞以上、本発明の３つの実施例について具
体的に説明してきたが、本発明は上述の構成に限定され
るものではない。

【０１０３】一般的には、本発明は、図１に示したよう
に、例えば本発明が話者分類処理システムとして実現さ
れる場合には母音毎に、また例えば、本発明が機械音の
異常検知システムとして実現され機械システムが一定の
サイクルで稼働しそれに同期して音響を発生する場合に
はサイクル内の所定タイミング毎に、更に例えば、本発
明が機械音の異常検知システムとして実現され機械シス
テムが一定の稼働条件にあるときに一定の音響を発生す
る場合には各稼働条件毎に、といった音響信号の発生条
件毎に、音響特徴量又は音響信号が選別され、その後に
音響信号の発生条件毎の分類が行われるような構成であ
れば、非常に広い技術分野への適用が可能である。

【０１０４】

【発明の効果】本発明によれば、音響信号の発生条件に
独立な状態のもとで、特定の辞書等を用いることなく、
音響特徴量ひいては音響信号を自動的に分類することが
可能となる。

【０１０５】そして、この分類により得られた分類情報
を用いて、分類結果の検索・提示又は分類結果を用いた
他のデータ処理といった、種々のデータ処理を行うこと
が可能となる。

【０１０６】本発明のより具体的な効果として、本発明
が話者分類処理装置として実現される場合には、ユーザ
から順次入力される各会話内の発声を話者別に次々と自
動的に分類でき、その場合に特別な辞書を必要とせず話
者の特徴の長期変動にも左右されず、更に話者の種類に
も制限がないという大きな特徴を有する。

【０１０７】この場合に、発声区間内のフレーム毎に母
音ラベルが付与され、発声区間間では母音別にクラスタ
リング等の分類が実行されることにより、発声内容即ち
音韻に独立な状態で話者の分類を行うことが可能とな
る。

【０１０８】また、母音抽出が行われる発声区間として
は、会話ファイル上のスペクトル的に安定な区間のみが
使用されるため、母音抽出エラーを大幅に減少させるこ
とが可能となる。

【０１０９】一方、本発明による話者分類処理装置によ
り、分類結果のデータベースに対して、強力かつ柔軟性
の高い検索・提示等を行うことができ、マルチメディア
に対する要請等に十分に応えるシステムを構築すること
が可能となる。そして、本出願で開示した検索・提示処
理は、従来の単純な話者識別・照合システムにおいては
到底実現できないものである。

【０１１０】また、本発明による話者分類処理装置は、
特別な辞書を必要としないものであるが、特定の辞書を
用いるシステムと組み合わせることも可能である。例え
ば、音声認識システムに適用されることにより、複数話
者に適応した音声辞書を各々作成するようなことが可能
となる。

【０１１１】加えて、本発明による話者分類結果を用い
た独創的な処理として、次のような処理が考えられる。
即ち、話者分類結果を基本的な音圧（パワー）や基本周
波数（ピッチ）の情報と組み合わせると、話者は分類で
きているので、各話者毎に音圧や基本周波数の時間的変
化を調べることが可能となる。これにより、ある話者の
会話中で、どの発声がその他の発声より強調されている
か等が分かる。このように、基本的音響特徴量を組み合
わせて用いると、話者分類ができて初めて利用価値が生
ずる特徴を抽出することが可能となる。例えば、各発声
毎の平均スペクトル変化率を用いれば、ある話者の、ど
の発声が、他の発声と比較して速口であったかなども分
かる。このような情報は、感情情報に結び付く情報であ
るため、一種の感情検知システムのようなものも実現す
ることが可能となる。

【図面の簡単な説明】

【図１】本発明の基本的な原理ブロック図である。

【図２】第１の実施例における話者分類装置の構成図で
ある。

【図３】第１の実施例における各ファイルのデータフォ
ーマットを示した図である。

【図４】第１の実施例における会話ファイル別話者分類
データベースのデータフォーマットを示した図である。

【図５】発声区間抽出部の説明図である。

【図６】同一母音間の距離分布の例を示した図である。

【図７】同一話者判定メンバシップ関数の例を示した図
である。

【図８】発声区間と母音別平均ＬＰＣケプストラム係数
組の関係を示した図である。

【図９】発声区間間の母音別類似度の評価マトリクスの
例を示した図である。

【図１０】発生区間間の類似度の評価マトリクスの例を
示した図である。

【図１１】第１の実施例における話者分類結果提示装置
の構成図である。

【図１２】第１の実施例における話者分類結果検索装置
の構成図である。

【図１３】第２の実施例における回転音分類装置の構成
図である。

【図１４】第３の実施例における回転音分類装置の構成
図である。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平１−178998（ＪＰ，Ａ) 特開平３−280099（ＪＰ，Ａ) 中里ら「母音情報を用いた話者照合方式」信学技報（ＯＦＳ94 30−36），Ｖｏｌ．94，Ｎｏ．373，ｐｐ13−18 （1994) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 - 21/06 G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声信号の音声的特徴を示す音声特徴量
を抽出する音声特徴量抽出手段と、該音声特徴量抽出手段によって抽出された音声特徴量に
基づいて、前記音声信号中における母音発声フレーム及
び該フレームにおいて発声された母音の種類を抽出する
母音抽出手段と、該母音抽出手段によって抽出された母音発声フレームに
おいて前記音声特徴量抽出手段によって抽出されている
音声特徴量を、母音毎の分類を基準に、該音声特徴量の
類似の度合いを評価して１人以上の話者に分類し、該話
者の分類結果と前記音声信号との対応関係を少なくとも
含む分類情報を作成する分類手段と、を有することを特徴とする話者分類処理装置。
【請求項２】音声信号の音声的特徴を示す音声特徴量
を抽出し、該抽出された音声特徴量に基づいて、前記音声信号中に
おける母音発声フレーム及び該フレームにおいて発声さ
れた母音の種類を抽出し、該抽出された母音発声フレームにおける前記音声特徴量
を、母音毎の分類を基準に、該音声特徴量の類似の度合
いを評価して１人以上の話者に分類し、該話者の分類結
果と前記音声信号との対応関係を少なくとも含む分類情
報を作成する、ことを特徴とする話者分類処理方法。
【請求項３】音声信号からスペクトル的に安定な区間
を発声区間として抽出する発声区間抽出手段と、該発声区間抽出手段によって抽出された発声区間毎に、
該各発声区間を所定時間長を有するフレームに分割する
フレーム分割手段と、前記発声区間抽出手段によって抽出された発声区間毎及
び前記フレーム分割手段によって分割されたフレーム毎
に、前記音声信号の音声的特徴を示す音声特徴量を抽出
する音声特徴量抽出手段と、該音声特徴量抽出手段によって抽出された音声特徴量に
基づいて、前記各発声区間中における母音発声フレーム
及び該フレームにおいて発声された母音の種類を抽出す
る母音抽出手段と、該母音抽出手段によって抽出された前記各発声区間中の
母音発声フレームにおいて前記音声特徴量抽出手段によ
り抽出されている音声特徴量を、母音毎の分類を基準
に、該音声特徴量の類似の度合いを評価して前記各発声
区間間で分類することにより、前記各発声区間を１人以
上の話者に対応させて分類し、該話者の分類結果と前記
音声信号との対応関係を少なくとも含む分類情報を作成
する分類手段と、を有することを特徴とする話者分類処理装置。
【請求項４】音声信号からスペクトル的に安定な区間
を発声区間として抽出し、該抽出された発声区間毎に、該各発声区間を所定時間長
を有するフレームに分割し、前記発声区間毎及び前記フレーム毎に、前記音声信号の
音声的特徴を示す音声特徴量を抽出し、該抽出された音声特徴量に基づいて、前記各発声区間中
における母音発声フレーム及び該フレームにおいて発声
された母音の種類を抽出し、該抽出された前記各発声区間中の母音発声フレームにお
ける前記音声特徴量を、母音毎の分類を基準に、該音声
特徴量の類似の度合いを評価して前記各発声区間間で分
類することにより、前記各発声区間を１人以上の話者に
対応させて分類し、該話者の分類結果と前記音声信号と
の対応関係を少なくとも含む分類情報を作成する、ことを特徴とする話者分類処理方法。
【請求項５】請求項１若しくは３に記載の話者分類処
理装置又は請求項２若しくは４に記載の話者分類処理方
法によって作成された分類情報を用いてデータ処理を行
うデータ処理手段を有する、ことを特徴とする話者分類処理装置。
【請求項６】請求項１若しくは３に記載の話者分類処
理装置又は請求項２若しくは４に記載の話者分類処理方
法によって作成された分類情報を用いてデータ処理を行
う、ことを特徴とする話者分類処理方法。
【請求項７】前記データ処理は、入力された話者数の
話者によって発生されている音声信号を前記分類情報に
基づいて検索する処理である、ことを特徴とする請求項５又は６に記載の話者分類処理
装置又は話者分類処理方法。
【請求項８】前記データ処理は、所定の話者による発
声が含まれる音声信号を前記分類情報に基づいて検索す
る処理である、ことを特徴とする請求項５乃至７に記載の話者分類処理
装置又は話者分類処理方法。
【請求項９】前記データ処理は、所定の話者の発声箇
所を所定の音声信号中から前記分類情報に基づいて検索
する処理である、ことを特徴とする請求項５乃至８に記載の話者分類処理
装置又は話者分類処理方法。
【請求項１０】前記データ処理は、入力された音声の
話者と同じ話者による発声が含まれる音声信号又は該音
声信号中の発声箇所を前記分類情報に基づいて検索する
処理である、ことを特徴とする請求項５乃至９に記載の話者分類処理
装置又は話者分類処理方法。