JP3081108B2 - 話者分類処理装置及び方法 - Google Patents

話者分類処理装置及び方法

Info

Publication number
JP3081108B2
JP3081108B2 JP06189709A JP18970994A JP3081108B2 JP 3081108 B2 JP3081108 B2 JP 3081108B2 JP 06189709 A JP06189709 A JP 06189709A JP 18970994 A JP18970994 A JP 18970994A JP 3081108 B2 JP3081108 B2 JP 3081108B2
Authority
JP
Japan
Prior art keywords
utterance
speaker
vowel
classification
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06189709A
Other languages
English (en)
Other versions
JPH0854891A (ja
Inventor
秀登 小島
秀一 荒井
Original Assignee
株式会社トレンディ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社トレンディ filed Critical 株式会社トレンディ
Priority to JP06189709A priority Critical patent/JP3081108B2/ja
Publication of JPH0854891A publication Critical patent/JPH0854891A/ja
Application granted granted Critical
Publication of JP3081108B2 publication Critical patent/JP3081108B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音響信号を分類する技
術、及び分類された音響信号に対して検索・提示等の種
々の処理を行う技術に関する。
【0002】
【従来の技術】従来、辞書登録された複数の話者の発声
の標準パターンと入力音声のパターン(入力パターン)
とを比較することにより、入力音声を発声した話者を識
別又は照合する技術が知られている。
【0003】ここで、話者の識別とは、入力音声が、予
め登録されている複数の話者のうちの誰の声であるかを
判定することをいい、一般に、入力パターンとの類似度
が最も大きな標準パターンに対応する話者が識別結果と
なる。
【0004】また、話者の照合とは、入力音声と共にそ
の入力音声を発声した話者が誰であるかを示す話者識別
情報を入力し、入力音声が本当に話者識別情報に対応す
る話者の音声であるか否かを判定することをいい、入力
パターンと話者識別情報に対応する話者の標準パターン
との類似度が閾値以上であるか否かによって照合が行わ
れる。
【0005】このような話者識別/照合の従来技術にお
いては、予め識別又は照合されるべき複数の話者の発声
の標準パターンが辞書として登録される。一方、話者識
別/照合技術には、発声内容を予め定めておく発声内容
依存型のものと、発声内容は任意でよい発声内容独立型
のものとがある。
【0006】発声内容依存型の話者識別/照合技術で
は、標準パターンと入力パターンとのマッチングにおい
て同じ音韻同士を対応付けることが比較的容易であり、
認識性能の比較的高いものを実現できることから、多く
の話者識別/照合システムが実用化されている。
【0007】これに対して、発声内容独立型の話者識別
/照合技術では、標準パターンと入力パターンとのマッ
チングにおいて同じ音韻同士を対応付けることが困難で
話者の個人性を示す情報が音韻性情報に埋もれてしまう
傾向にあり、認識性能に限界があることから、実用化さ
れているシステムはほとんどないのが現状である。発声
内容独立型の話者識別/照合技術の有力なものとして、
ベクトル量子化による歪を用いる技術がある。この技術
では、予め登録話者毎に、任意の発声の短時間スペクト
ルがクラスタリングされ、その結果得られる各クラスタ
の重心の集合がその登録話者に対応するコードブックと
して辞書登録される。入力音声が入力されると、その短
時間スペクトルが各登録話者のコードブックによってベ
クトル量子化され、その入力音声全体にわたる平均量子
化歪が計算される。入力音声に対するこのベクトル量子
化処理が、全ての登録話者のコードブックに対して実行
される。そして、話者識別においては、平均量子化歪が
最も小さい登録話者が識別結果とされる。また、話者照
合においては、話者識別情報に対応する話者のコードブ
ックについての平均量子化歪が閾値と比較されることに
よって照合が行われる。
【0008】
【発明が解決しようとする課題】しかし、上述の従来技
術は何れも、話者の発声の標準パターンを辞書として登
録しておく必要がある。このような辞書登録作業は、多
大な時間を要すると共に話者が限定されてしまうため、
実用上不便をきたす可能性があるという問題点を有して
いる。
【0009】また、辞書作成からの時間経過により話者
の発声のパターンが変動するため、システムの性能低下
を防止するためには、時間経過に応じて辞書を作成し直
す等の対策が必要になるという問題点も有している。
【0010】更に近年では、社会のマルチメディアに対
する関心が高まっており、例えば話者に応じて会話内容
を分類し自由に検索又は提示するような、柔軟性及び利
便性の高いシステムに対する要請が高まっている。しか
し、上述したような、単に話者を識別又は照合するのみ
の従来技術では、マルチメディアに対する要請等に十分
に応えることはできず、特に、話者の種類及び発声内容
に対する制限は、柔軟性の高いシステムを構築する上
で、致命的な問題点である。
【0011】本発明は、辞書を必要とせずに入力音声を
話者毎に分類し、分類された入力音声に対して検索・提
示等の種々の処理を行うことを可能とすると共に、一般
的な音響信号に対しても所定の基準について分類及び種
々の処理を可能とすることを目的とする。
【0012】
【課題を解決するための手段】図1は、本発明の基本的
な原理ブロック図である。音響特徴量抽出手段102
は、音響信号101の音響的特徴を示す音響特徴量10
3を抽出する。
【0013】選別手段104は、音響特徴量抽出手段1
02によって抽出された音響特徴量103を、その音響
特徴量103に対応する音響信号101の発生条件毎に
選別する。音響信号101の発生条件毎とは、例えば本
発明が話者分類処理装置として実現される場合には母音
毎という意味であり、そのほかに例えば、機械システム
が一定のサイクルで稼働しそれに同期して音響を発生す
る場合に、サイクル内の所定タイミング毎という意味で
あり、また例えば、機械システムが一定の稼働条件にあ
るときに一定の音響を発生する場合に、各稼働条件毎
(例えば回転系にあっては回転数毎)という意味であ
る。
【0014】分類手段105は、選別手段104によっ
て選別された音響特徴量103を、音響信号101の発
生条件毎の分類を基準に、音響特徴量103間の類似の
度合いを評価して分類し、その分類結果と音響信号10
1との対応関係を少なくとも含む分類情報106を作成
する。
【0015】上述の発明の基本的な構成において、音響
信号101の発生条件が例えば外部から与えられるよう
な場合には、音響信号101そのものが選別されるよう
に構成されてもよい。
【0016】上述の発明の基本的な構成に加えて、上述
の分類情報106を用いてデータ処理を行うデータ処理
手段を有するように構成することもできる。また、本発
明は、音響分類処理装置を話者分類処理装置として実現
することもできる。
【0017】更に、本発明は、上記装置構成と同じ機能
を奏する方法として構成することもできる。
【0018】
【作用】本発明は、音響特徴量103又は音響信号10
1が音響信号101の発生条件毎に選別された上で、音
響特徴量103が音響信号101の発生条件毎の分類を
基準に分類される。
【0019】このような構成により、音響信号101の
発生条件に独立な状態で、特定の辞書等を用いることな
く、音響特徴量103ひいては音響信号101を自動的
に分類することができる。
【0020】
【実施例】以下、図面を参照しながら本発明の実施例に
つき詳細に説明する。 <第1の実施例>第1の実施例は、本発明を話者分類処
理システムとして実施した場合のものである。話者分類装置の説明 図2は、第1の実施例における話者分類装置の構成図で
ある。この装置は、主に、発声区間抽出部203、フレ
ーム分割部205、線形予測係数/PARCOR係数計
算部207、LPCケプストラム計算部210、母音抽
出部212、及び発声クラスタリング部215などから
構成される。
【0021】まず、会話データ201は、特には図示し
ないマイクロフォンから特には図示しないA/D変換器
を介して入力されるディジタル音声データである。サン
プリング周波数は例えば11kHz、量子化ビット数は
例えば16ビットである。
【0022】会話データ201は、会話ファイル202
として、特には図示しない記憶媒体(ICメモリカード
又はディスク記憶装置など)に記憶される。発声区間抽
出部203は、会話ファイル202から、無音区間・無
声音区間・語頭区間・語尾区間等のスペクトル的に不安
定な区間以外の安定区間(以後、発声区間と呼ぶ)を抽
出し、図3(a) に示されるように、発声区間数Nと、会
話ファイル202上での各発声区間の開始サンプル位置
S及び終了サンプル位置Eが格納された発声区間指示フ
ァイル204を作成して、特には図示しない記憶媒体に
記憶する。このように、発声区間のみが抽出されその区
間に対して後述する母音抽出部212で母音抽出処理が
実行されることにより、話者を分類するための前処理で
ある母音抽出の精度を格段に向上させることができる。
この動作アルゴリズムは、以下に示されるステップ1〜
ステップ7の処理として実現される。 ステップ1:会話ファイル202の音声波形サンプルが
読み込まれ、サンプルカウンタiの値と発声区間カウン
タnの値が共に0に初期設定される。 ステップ2:S=iとされた後、サンプルカウンタiの
値が順次インクリメントされながら、サンプル値p
(i)の符号が変化するサンプル位置の直前のサンプル
位置E=iが検出される。この結果、サンプル値の符号
が同じ区間[p(S),p(E)]が決定される。値E
が会話ファイル202のサンプル数を越えない範囲で、
以下のステップ3〜ステップ6の処理が繰り返される。 ステップ3:区間[p(S),p(E)]の中で、信号
レベルの絶対値の最大値が閾値2.5dB(デシベル)
以上ならば、この区間は発声区間とされ、以下のステッ
プ4又はステップ5の処理が実行される。 ステップ4:発声区間が検出され(n>0)ており、か
つ直前の発声区間Snと現在評価中の発声区間[p
(S),p(E)]との間に、
【0023】
【数1】
【0024】が成り立てば、この2つの発声の間に無声
区間があってもこれをはつ音の発声に含まれる無声区間
であると判断し、[p(S),p(E)]は直前の発声
区間Snと統合される。即ち、ESn=Eとされ、次の発声
区間を検索するためにi=E+1とされて、ステップ2
のループが進められる。図5にこの様子を示す。 ステップ5:ステップ4が成り立たない場合には、現在
評価中の発声区間[p(S),p(E)]は独立した発
声区間とされる。即ち、発声区間カウンタnの値がn=
n+1としてインクリメントされ、次の発声区間を検索
するためにi=E+1とされて、ステップ2のループが
進められる。 ステップ6:区間[p(S),p(E)]の中で、信号
レベルの絶対値の最大値が閾値2.5dB(デシベル)
未満ならば、この区間は発声区間ではないとされ、無視
される。この場合には、次の発声区間を検索するために
i=E+1とされて、ステップ2のループが進められ
る。 ステップ7:ステップ2のループの繰返しの結果検出さ
れた発声区間の数、各発声区間の開始サンプル位置SSn
及び終了サンプル位置ESn(1≦n≦N)が、発声区間
指示ファイル204(図3(a) )に書き込まれる。 図2に戻って、フレーム分割部205は、発声区間指示
ファイル204によって示される会話ファイル202内
の各発声区間を、所定長を有する複数個のフレームに分
割して、各発声区間に対応する発声nフレーム分割ファ
イル206(1≦n≦N)を作成し、特には図示しない
記憶媒体に記憶する。発声nフレーム分割ファイル20
6には、図3(b) に示されるように、発声区間を示す発
声区間番号nと、その発声区間内のフレーム数Mn 、及
びその発声区間内の各フレームm(1≦m≦Mn )の開
始サンプル位置sが格納される。フレーム長は例えば2
56サンプルで、隣接するフレームとの間で例えば19
2サンプルずつのサンプルデータがオーバーラップされ
る。
【0025】線形予測係数/PARCOR係数計算部2
07は、発声nフレーム分割ファイル206によって示
される1つの発声区間内の各フレーム位置に対応する会
話ファイル202内の音声波形サンプルから線形予測係
数組及びPARCOR係数組を計算し、発声n線形予測
係数ファイル208及び発声nPARCOR係数ファイ
ル209(1≦n≦N)を作成して、特には図示しない
記憶媒体に記憶する。発声n線形予測係数ファイル20
8及び発声nPARCOR係数ファイル209には、図
3(c) 及び(d) に示されるように、各々、発声区間を示
す発声区間番号nと、その発声区間内の各フレームに対
応する線形予測係数組{α1 ,α2 ,・・・,αp }又
はPARCOR係数組{k1 ,k2 ,・・・,kp }が
格納される。ここで、サフィックスpは、次数である。
線形予測係数及びPARCOR係数の計算アルゴリズム
は、以下に示されるステップ1〜ステップ8として実現
される。 ステップ1:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ2〜ステップ
8の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ2:フレームカウンタmの値が1からMn まで
インクリメントされながら、現在処理中のn番目の発声
区間に対応する発声nフレーム分割ファイル206によ
って指示されるフレーム1〜フレームMn (図3(b) 参
照)の各フレームにつき、以下のステップ3〜ステップ
8の処理が繰り返される。なお、フレーム数Mn は、発
声nフレーム分割ファイル206の第2番目の格納位置
に格納されている。 ステップ3:会話ファイル202から、現在処理中のn
番目の発声区間に対応する発声nフレーム分割ファイル
206に格納されている現在処理中のm番目のフレーム
の開始サンプル位置s(図3(b) 参照)からフレーム長
分(例えば256サンプル分)の音声波形サンプルが読
み込まれる。このサンプル列をx(i)(1≦i≦フレ
ーム長−1)とする。 ステップ4:音声波形サンプルx(i)(1≦i≦フレ
ーム長−1)に、次式に基づいて窓関数が乗算され、そ
の結果がxW (i)(1≦i≦フレーム長−1)とされ
る。窓関数を乗算することにより、後述する線形予測係
数及びPARCOR係数の計算におけるフレーム端の打
ち切り誤差の影響を軽減することができる。
【0026】
【数2】
【0027】ステップ5:音声波形サンプルxW (i)
(1≦i≦フレーム長−1)につき直前のサンプルとの
差分
【0028】
【数3】
【0029】が計算される。 ステップ6:y(i)(1≦i≦フレーム長−1)につ
いて、自己相関関数Vが計算される。 ステップ7:自己相関関数Vから、Durbinの再帰的解放
を用いて、線形予測係数組αj 及びPARCOR係数組
j (1≦j≦p、pは次数)が計算される。 ステップ8:ステップ7で計算された、現在処理中のn
番目の発声区間内の現在処理中のm番目のフレームに対
応する線形予測係数組αj 及びPARCOR係数組kj
(1≦j≦p)が、発声n線形予測係数ファイル208
(図3(c) )及び発声nPARCOR係数ファイル20
9(図3(d) )に格納される。 次に、図2で、LPCケプストラム計算部210は、発
声n線形予測係数ファイル208内の各フレーム毎の線
形予測係数組からLPCケプストラム係数組を計算し、
発声nLPCケプストラムファイル211(1≦n≦
N)を作成して、特には図示しない記憶媒体に記憶す
る。発声nLPCケプストラムファイル211には、図
3(e) に示されるように、発声区間を示す発声区間番号
nと、その発声区間内の各フレームに対応するLPCケ
プストラム係数組{c1 ,c2 ,・・・,cp }が格納
される。LPCケプストラム係数の計算アルゴリズム
は、以下に示されるステップ1〜ステップ5として実現
される。 ステップ1:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ2〜ステップ
5の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ2:フレームカウンタmの値が1からMn まで
インクリメントされながら、以下のステップ3〜ステッ
プ5の処理が繰り返される。なお、フレーム数Mn は、
発声nフレーム分割ファイル206の第2番目の格納位
置に格納されている。 ステップ3:現在処理中のn番目の発声区間に対応する
発声n線形予測係数ファイル208から現在処理中のm
番目のフレームに対応する線形予測係数組αj (1≦j
≦p)が読み込まれる。 ステップ4:次式に従って線形予測係数組αj からLP
Cケプストラム係数組cj (1≦j≦p)が計算され
る。
【0030】
【数4】
【0031】ステップ5:ステップ4で計算された、現
在処理中のn番目の発声区間内の現在処理中のm番目の
フレームに対応するLPCケプストラム係数組cj (1
≦j≦p)が、発声nLPCケプストラムファイル21
1(図3(e) )に格納される。 続いて、図2において、母音抽出部212は、発声nP
ARCOR係数ファイル209内の各フレーム毎のPA
RCOR係数組と、特には図示しない記憶媒体に記憶さ
れている5母音PARCOR係数辞書213内の各母音
に対応する辞書PARCOR係数組とでマッチングをと
ることにより、発声nフレーム分割ファイル206内の
各フレームに5母音又は無効の何れかのラベルを付与
し、発声n母音ラベルファイル214(1≦n≦N)を
作成して、特には図示しない記憶媒体に記憶する。発声
n母音ラベルファイル214には、図3(f) に示される
ように、発声区間を示す発声区間番号nと、その発声区
間内の各フレームに対応する母音ラベルが格納される。
この動作アルゴリズムは、以下に示されるステップ1〜
ステップ9の処理として実現される。 ステップ1:5母音PARCOR係数辞書213から、
/a/,/i/,/u/,/e/,/o/の5母音の辞書PARCOR係数
組が読み込まれる。なお、この辞書PARCOR係数組
は、1つの母音につき複数組ある。ここで、母音v(v
=/a/,/i/,/u/,/e/,/o/ )のz組目の辞書PARCOR
係数組をkvj z (1≦j≦p、1≦z≦Zv )とす
る。 ステップ2:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ3〜ステップ
9の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ3:フレームカウンタmの値が1からMn まで
インクリメントされながら、以下のステップ4〜ステッ
プ9の処理が繰り返される。なお、フレーム数Mn は、
発声nフレーム分割ファイル206の第2番目の格納位
置に格納されている。 ステップ4:現在処理中のn番目の発声区間に対応する
発声nPARCOR係数ファイル209から現在処理中
のm番目のフレームに対応するPARCOR係数組kj
(1≦j≦p)が読み込まれる。 ステップ5:各母音v(v=/a/,/i/,/u/,/e/,/o/ )に
ついて、以下のステップ6とステップ7の処理が繰り返
される。 ステップ6:ステップ4で読み込まれた現在処理中のn
番目の発声区間内の現在処理中のm番目のフレームに対
するPARCOR係数組kjと、ステップ1で読み込ま
れた母音vに対応する辞書PARCOR係数組kvj z
との距離dv が、次式によって計算される。
【0032】
【数5】
【0033】即ち、母音vに属する各辞書PARCOR
係数組とのユークリッド距離の最小値として、dv が計
算される。Wj (1≦j≦p)は、次数毎の重みであ
る。また、 minz {}は、母音vに属する辞書PARC
OR係数組zを変えて得られる各値のうちの最小値を選
択する演算を示す。 ステップ7:距離dv の値が母音vに設定された閾値よ
り大きい場合には、dv =D(定数値)と置き換える。
この処理によって、母音v毎の距離のばらつきが正規化
される。 ステップ8:距離dv の値が最小となる母音vについ
て、その距離dv の値が定数値D未満であるならば、現
在処理中のn番目の発声区間に対応する発声n母音ラベ
ルファイル214中の現在処理中のm番目のフレームに
対応する位置に、その母音vに対応するラベルが格納さ
れる。 ステップ9:一方、距離dv の値が最小となる母音vに
ついて、その距離dv の値が定数値Dに等しいならば、
現在処理中のn番目の発声区間に対応する発声n母音ラ
ベルファイル214中の現在処理中のm番目のフレーム
に対応する位置に、“無効”を示すラベルが格納され
る。 最後に、図2において、発声クラスタリング部215
は、会話ファイル202に属するN個の発声n母音ラベ
ルファイル214(1≦n≦N)のそれぞれの間で母音
ラベル別にクラスタリングを実行することにより、処理
対象会話ファイル202に属するN区間の発声区間のそ
れぞれを話者毎に分類する。
【0034】この結果、会話ファイル別話者分類データ
ベース216が作成される。このデータベースには、会
話ファイル202、話者別発声箇所情報ファイル21
7、話者別・母音別PARCOR係数統計情報ファイル
218、及び話者別・母音別LPCケプストラム統計情
報ファイル219が含まれる。
【0035】会話ファイル202は、処理対象とされた
会話ファイルである。話者別発声箇所情報ファイル21
7は、分類されて適当なタグ(以後、これを話者識別タ
グと呼ぶ)が付与された各話者が、会話ファイル202
内のN個の発声区間のうちのどの1つ以上の発声区間で
発声しているかを示す。より具体的には、話者別発声箇
所情報ファイル217には、図4(a) に示されるよう
に、会話番号xと、話者識別タグと、各タグ毎に1つ以
上の発声区間のそれぞれに対応する1組以上の開始サン
プル位置Sと終了サンプル位置Eの組が格納される。
【0036】話者別・母音別PARCOR係数統計情報
ファイル218には、図4(b) に示されるように、話者
識別タグ毎及び5母音毎に、各話者及び各母音を代表す
るPARCOR係数組が格納される。
【0037】話者別・母音別LPCケプストラム統計情
報ファイル219には、図4(c) に示されるように、話
者識別タグ毎及び5母音毎に、各話者及び各母音を代表
するLPCケプストラム係数組が格納される。
【0038】クラスタリングのアルゴリズムは、以下に
示す通りである。 {手順1:同一話者判定メンバシップ関数Fv(d)の決
定}クラスタリングにおいては、比較される2つの発声
区間中に現れる同じ母音同士が同一話者によるものか異
話者によるものかを判定する必要がある。この判定を行
うためにメンバシップ関数Fv(d)が使用される。ここ
で、v=/a/,/i/,/u/,/e/,/o/ であり、dは同じ母音を
示す2つの比較対象のLPCケプストラム係数組間の重
み付きユークリッド距離(数5式参照)である。
【0039】上述のメンバシップ関数Fv(d)を決定する
ために、予備処理として、同一話者内と異話者間で、5
母音のそれぞれについて、各々2組のLPCケプストラ
ム係数組間の重み付きユークリッド距離(以下、単に距
離という)を全ての組合せについて計算し、これを出現
確率で表すと、各母音とも概略図6に示される分布を有
する。
【0040】この距離分布に基づいて各母音v=/a/,/i
/,/u/,/e/,/o/ について、図7に示される概形を有する
同一話者判定メンバシップ関数Fv(d)を決定する。ここ
で、図7に示される距離dの区間[d1 ,d3](図6
も参照)におけるFv(d)は、図6に示される同一話者間
の距離dの出現確率をQs(d)、異話者間の距離dの出現
確率をQa(d)とすると、次式で表すことができる。
【0041】
【数6】
【0042】{手順2:母音別の類似度の評価マトリク
スの計算}手順1で決定した同一話者判定メンバシップ
関数Fv(d)を用いて、母音別に、図2の発声区間抽出部
203で抽出された発声区間間の話者の類似度を示す評
価マトリクスに対応するデータが、以下のステップ1〜
ステップ7の処理により計算される。 ステップ1:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ2とステップ
3の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ2:母音ラベルv(v=/a/,/i/,/u/,/e/,/o/
)のそれぞれについて、以下のステップ3の処理が繰
り返される。 ステップ3:現在処理中のn番目の発声区間Snに対応す
る発声n母音ラベルファイル214(図3(f) )から母
音ラベルvが付加されているフレーム番号が判定され、
次に、現在処理中のn番目の発声区間Snに対応する発声
nLPCケプストラムファイル211(図3(e) )から
上述の判定された全てのフレームに対応するLPCケプ
ストラム係数組が読み込まれる。続いて、これらのLP
Cケプストラム係数組の次数毎の平均値が計算され、そ
の結果得られる平均LPCケプストラム係数組が、発声
区間Snにおいて母音vを代表するLPCケプストラム係
数組とされる。 *ステップ1〜ステップ3の処理が繰り返されることに
より、図8に示されるように、各発声区間Sn(1≦n≦
N)に対応する母音別の平均LPCケプストラム係数組
Sn(母音/a/ に対応)、iSn(母音/i/ に対応)、u
Sn(母音/u/ に対応)、eSn(母音/e/ に対応)、及び
Sn(母音/o/ に対応)が計算される。なお、各発声区
間Snにおいて5母音全ての平均LPCケプストラム係数
組が揃わなくてもよく、発声区間中に存在しなかった母
音については図8において×で示されている。また、図
8では、各平均LPCケプストラム係数組aSn、iSn
Sn、eSn、oSnには、ベクトル記号“→”が付加され
ている。 ステップ4:上述したステップ1〜ステップ3の繰り返
しに続いて、全ての2つの発声区間の組合せSi,Sj(i
≠j、1≦i,j≦N)について、以下のステップ5〜
ステップ7の処理が繰り返される。 ステップ5:2つの発声区間Si,Sjにおいて計算されて
いる共通の母音vの各々について、以下のステップ6と
ステップ7の処理が繰り返される。 ステップ6:2つの発声区間Si,Sjにおける共通の母音
vに関する2つの平均LPCケプストラム係数組間で、
距離d(vSi,vSj)が計算される。 ステップ7:ステップ6で計算された距離d(vSi,v
Sj)を用いて、次式により、2つの発声区間Si,Sjにお
ける共通の母音vに関する類似度PvSiSj(v=/a/,/i/,
/u/,/e/,/o/ 、i≠j、1≦i,j≦N)が計算され
る。
【0043】
【数7】
【0044】ステップ4〜ステップ7の処理が繰り返さ
れる結果、5母音のそれぞれについて、任意の2つの発
声区間間の類似度を要素とする評価マトリクスに対応す
るデータが得られることになる。 {手順3:リラグゼーション}手順2で計算された母音
別の類似度の評価マトリクスから、リラグゼーションに
より、最終的な発声区間間の類似の度合いを示す図10
に示されるような評価マトリクスに対応するデータが、
以下のステップ1〜ステップ7の処理によって作成され
る。 ステップ1:まず、2つの発声区間Si,Sjにおける平均
類似度PSiSjが、次式で示されるように、2つの発声区
間Si,Sjにおける共通の母音vに関する類似度PvSiSj
平均値として計算される。
【0045】
【数8】
【0046】ステップ2:リラグゼーションの繰り返し
のための繰返しカウンタqの値が1に初期設定される。 ステップ3:2つの発声区間の組合せSi,Sj(i≠j、
1≦i,j≦N)の全てについて、以下のステップ4の
処理が繰り返される。 ステップ4:q=1における2つの発声区間Si,Sj間の
類似度を示す評価マトリクス(図10)の要素値がM(1)
SiSjとされ、この要素値が、次式に示されるように、2
つの発声区間Si,Sjにおける平均類似度PSiSjの値に初
期設定される。
【0047】
【数9】
【0048】ステップ5:繰返しカウンタqの値が2か
ら終了回数までインクリメントされながら、以下のステ
ップ6とステップ7の処理が繰り返される。 ステップ6:2つの発声区間の組合せSi,Sj(i≠j、
1≦i,j≦N)の全てについて、以下のステップ7の
処理が繰り返される。 ステップ7:第q回目のステップ5の繰返しでの2つの
発声区間Si,Sj間の類似の度合いを示す評価マトリクス
(図10)の要素値がM(q)SiSj、第q−1回目のステッ
プ5の繰返しでの要素値がM(q-1)SiSjとされ、次式によ
りM(q)SiSjが更新される。
【0049】
【数10】
【0050】ここで、得点pointSiSjは、以下のステッ
プ7−1〜ステップ7−19により計算される。 ステップ7−1:動的閾値0が、第q−1回目のステッ
プ5の繰返しで計算された全ての要素値M(q-1)SiSj(i
≠j、1≦i,j≦N)の平均値として計算される。ま
た、話者の類似度に関する同一話者境界閾値が閾値1、
異話者境界閾値が閾値2とされる。ここで、閾値1及び
閾値2はそれぞれ所定値であり、0<閾値2<閾値1<
1である。 ステップ7−2:第q−1回目のステップ5の繰返しに
おいて計算された現在選択されている2つの発声区間S
i,Sjの間の要素値M(q-1)SiSjが、M(q-1)SiSj>閾値0
を満たす場合、即ち2つの発声区間SiとSjが同一話者ら
しい場合は、以下のステップ7−3〜ステップ7−10
が実行される。 ステップ7−3(ルール1):現在選択されている2つ
の発声区間のうちの1つの発声区間Siに関して平均類似
度PSiSk>閾値1を満たす全ての発声区間k(≠j)
が、現在選択されている2つの発声区間のうちの他の1
つの発声区間Sjに対しても平均類似度PSkSj>閾値1を
満たす場合、即ち、発声区間Siと同一話者らしい発声区
間Skの全てが発声区間Sjとも同一話者らしい場合には、
以下のステップ7−4〜ステップ7−6が実行される。 ステップ7−4:現在選択されている2つの発声区間の
うちの1つの発声区間Siに関して平均類似度PSiSk<閾
値2を満たす全ての発声区間k(≠j)が、現在選択さ
れている2つの発声区間のうちの他の1つの発声区間Sj
に対しても平均類似度PSkSj<閾値2を満たす場合、即
ち、発声区間Siと異話者らしい発声区間Skの全てが発声
区間Sjとも異話者らしい場合には、次式に示されるよう
に、第q−1回目のステップ5の繰返しにおいて計算さ
れた得点pointSiSjに最高得点+4Δ(Δは適当な値)
が与えられ、今回(第q回目)の数10式の計算に使用
される。
【0051】
【数11】
【0052】ステップ7−5:ステップ7−4が成立し
ない場合において、現在選択されている2つの発声区間
のうちの1つの発声区間Siに関して平均類似度PSiSk
閾値2を満たす発声区間k(≠j)のうちの半数以上
が、現在選択されている2つの発声区間のうちの他の1
つの発声区間Sjに対しても平均類似度PSkSj<閾値2を
満たす場合、即ち、発声区間Siと異話者らしい発声区間
Skのうちの半数以上が発声区間Sjとも異話者らしい場合
は、次式に示されるように、得点 pointSiSjに最高得点
の半分の得点+2Δが与えられ、今回(第q回目)の数
10式の計算に使用される。
【0053】
【数12】
【0054】ステップ7−6:ステップ7−4及びステ
ップ7−5が共に成立しない場合、即ち、発声区間Siと
異話者らしい発声区間Skのうち発声区間Sjとも異話者ら
しいと判定されたものが半数に満たず、発声区間SiとSj
が同一話者とはいいきれない場合には、次式に示される
ように、得点 pointSiSjは0にされて、今回(第q回
目)の数10式の計算において使用される。
【0055】
【数13】
【0056】ステップ7−7(ルール2):前述したス
テップ7−3のルール1は成立しないが、現在選択され
ている2つの発声区間のうちの1つの発声区間Siに関し
て平均類似度PSiSk>閾値1を満たす発声区間k(≠
j)のうち、その半数以上が、現在選択されている2つ
の発声区間のうちの他の1つの発声区間Sjに対しても平
均類似度PSkSj>閾値1を満たし、かつ、その全てが発
声区間Sjに対して平均類似度PSkSj>閾値2を満たす場
合、即ち発声区間Siと同一話者らしい発声区間Skのう
ち、その半数以上が発声区間Sjとも同一話者らしく、か
つ、異話者ではないらしいものが全てである場合には、
以下のステップ7−8〜ステップ7−10が実行され
る。 ステップ7−8:ステップ7−4の場合と同様に、現在
選択されている2つの発声区間のうちの1つの発声区間
Siに関して平均類似度PSiSk<閾値2を満たす全ての発
声区間k(≠j)が、現在選択されている2つの発声区
間のうちの他の1つの発声区間Sjに対しても平均類似度
SkSj<閾値2を満たす場合、即ち、発声区間Siと異話
者らしい発声区間Skの全てが発声区間Sjとも異話者らし
い場合には、次式に示されるように、第q−1回目のス
テップ5の繰返しにおいて計算された得点 pointSiSj
最高得点の半分の得点+2Δが与えられ、今回(第q回
目)の数10式の計算に使用される。
【0057】
【数14】
【0058】ステップ7−9:ステップ7−8が成立し
ない場合において、ステップ7−5の場合と同様に、現
在選択されている2つの発声区間のうちの1つの発声区
間Siに関して平均類似度PSiSk<閾値2を満たす発声区
間k(≠j)のうちの半数以上が、現在選択されている
2つの発声区間のうちの他の1つの発声区間Sjに対して
も平均類似度PSkSj<閾値2を満たす場合、即ち、発声
区間Siと異話者らしい発声区間Skのうちの半数以上が発
声区間Sjとも異話者らしい場合は、次式に示されるよう
に、得点 pointSiSjに最高得点の1/4の得点+Δが与
えられ、今回(第q回目)の数10式の計算に使用され
る。
【0059】
【数15】
【0060】ステップ7−10:ステップ7−8及びス
テップ7−9が共に成立しない場合、即ち、ステップ7
−6の場合と同様に、発声区間Siと異話者らしい発声区
間Skのうち発声区間Sjとも異話者らしいと判定されたも
のが半数に満たず、発声区間SiとSjが同一話者とはいい
きれない場合には、次式に示されるように、得点 point
SiSjは0にされて、今回(第q回目)の数10式の計算
において使用される。
【0061】
【数16】
【0062】ステップ7−11:第q−1回目のステッ
プ5の繰返しで計算された現在選択されている2つの発
声区間Si,Sjの間の要素値M(q-1)SiSjが、M(q-1)SiSj
閾値0を満たす場合、即ち2つの発声区間SiとSjが異話
者らしい場合は、以下のステップ7−12〜ステップ7
−19が実行される。 ステップ7−12(ルール3):現在選択されている2
つの発声区間のうちの1つの発声区間Siに関して平均類
似度PSiSk<閾値2を満たす全ての発声区間k(≠j)
が、現在選択されている2つの発声区間のうちの他の1
つの発声区間Sjに対しても平均類似度PSkSj<閾値2を
満たす場合、即ち、発声区間Siと異話者らしい発声区間
Skの全てが発声区間Sjとも異話者らしい場合には、以下
のステップ7−13〜ステップ7−15が実行される。 ステップ7−13:現在選択されている2つの発声区間
のうちの1つの発声区間Siに関して平均類似度PSiSk
閾値1を満たす全ての発声区間k(≠j)が、現在選択
されている2つの発声区間のうちの他の1つの発声区間
Sjに対しても平均類似度PSkSj>閾値1を満たす場合、
即ち、発声区間Siと同一話者らしい発声区間Skの全てが
発声区間Sjとも同一話者らしい場合には、次式に示され
るように、第q−1回目のステップ5の繰返しにおいて
計算された得点 pointSiSjに最低の減点−4Δが与えら
れ、今回(第q回目)の数10式の計算に使用される。
【0063】
【数17】
【0064】ステップ7−14:ステップ7−13が成
立しない場合において、現在選択されている2つの発声
区間のうちの1つの発声区間Siに関して平均類似度P
SiSk>閾値1を満たす発声区間k(≠j)のうちの半数
以上が、現在選択されている2つの発声区間のうちの他
の1つの発声区間Sjに対しても平均類似度PSkSj>閾値
1を満たす場合、即ち、発声区間Siと同一話者らしい発
声区間Skのうちの半数以上が発声区間Sjとも同一話者ら
しい場合は、次式に示されるように、得点 pointSiSj
最低の減点の半分の減点−2Δが与えられ、今回(第q
回目)の数10式の計算に使用される。
【0065】
【数18】
【0066】ステップ7−15:ステップ7−13及び
ステップ7−14が共に成立しない場合、即ち、発声区
間Siと同一話者らしい発声区間Skのうち発声区間Sjとも
同一話者らしいと判定されたものが半数に満たず、発声
区間SiとSjが異話者とはいいきれない場合には、次式に
示されるように、減点はされずに得点 pointSiSjは0に
されて、今回(第q回目)の数10式の計算において使
用される。
【0067】
【数19】
【0068】ステップ7−16(ルール4):前述した
ステップ7−12のルール3は成立しないが、現在選択
されている2つの発声区間のうちの1つの発声区間Siに
関し平均類似度PSiSk<閾値2を満たす発声区間k(≠
j)のうち、その半数以上が、現在選択されている2つ
の発声区間のうちの他の1つの発声区間Sjに対しても平
均類似度PSkSj<閾値2を満たし、かつ、その全てが発
声区間Sjに対して平均類似度PSkSj<閾値1を満たす場
合、即ち発声区間Siと異話者らしい発声区間Skのうち、
その半数以上が発声区間Sjとも異話者らしく、かつ、同
一話者ではないらしいものが全てである場合には、以下
のステップ7−17〜ステップ7−19が実行される。 ステップ7−17:ステップ7−13の場合と同様に、
現在選択されている2つの発声区間のうちの1つの発声
区間Siに関して平均類似度PSiSk>閾値1を満たす全て
の発声区間k(≠j)が、現在選択されている2つの発
声区間のうちの他の1つの発声区間Sjに対しても平均類
似度PSkSj>閾値1を満たす場合、即ち、発声区間Siと
同一話者らしい発声区間Skの全てが発声区間Sjとも同一
話者らしい場合には、次式に示されるように、第q−1
回目のステップ5の繰返しにおいて計算された得点 poi
ntSiSjに最低の減点の半分の減点−2Δが与えられ、今
回(第q回目)の数10式の計算に使用される。
【0069】
【数20】
【0070】ステップ7−18:ステップ7−17が成
立しない場合において、ステップ7−14の場合と同様
に、現在選択されている2つの発声区間のうちの1つの
発声区間Siに関して平均類似度PSiSk>閾値1を満たす
発声区間k(≠j)のうちの半数以上が、現在選択され
ている2つの発声区間のうちの他の1つの発声区間Sjに
対しても平均類似度PSkSj>閾値1を満たす場合、即
ち、発声区間Siと同一話者らしい発声区間Skのうちの半
数以上が発声区間Sjとも同一話者らしい場合は、次式に
示されるように、得点 pointSiSjに最低の減点の1/4
の減点−Δが与えられ、今回(第q回目)の数10式の
計算に使用される。
【0071】
【数21】
【0072】ステップ7−19:ステップ7−17及び
ステップ7−18が共に成立しない場合、即ち、ステッ
プ7−15の場合と同様に、発声区間Siと同一話者らし
い発声区間Skのうち発声区間Sjとも同一話者らしいと判
定されたものが半数に満たず、発声区間SiとSjが異話者
とはいいきれない場合においては、次式に示されるよう
に、減点はされずに得点 pointSiSjは0にされて、今回
(第q回目)の数10式の計算において使用される。
【0073】
【数22】
【0074】上述のステップ5〜ステップ7が、図2の
発声クラスタリング部215で繰り返し実行されること
によりリラグゼーションが行われ、繰返しカウンタqの
値が終了回数に達した時点で、最終的な発声区間間の類
似の度合いを示す図10に示されるような評価マトリク
スの各要素値に対応するデータM(q)SiSj(i≠j、1≦
i,j≦N)が計算される。このデータには、手順2で
計算された母音別の類似度の評価マトリクスの内容が適
切に反映されている。 {手順4:クラスタリング}手順3で計算されたデータ
M(q)SiSj(i≠j、1≦i,j≦N)において、所定の
閾値以上の値を有する2つ以上の発声区間の組合せに同
じ話者識別タグが付与される。所定の閾値としては、例
えば、最終的に得られたデータ値M(q-1)SiSj(i≠j、
1≦i,j≦N)の平均値として計算される動的閾値0
を使用することができる。
【0075】このようにして、各話者識別タグ毎に、そ
れに属する発声区間が決定された後に、発声区間指示フ
ァイル204(図2及び図3(a) 参照)から各発声区間
の開始サンプル位置Sと終了サンプル位置Eの組が読み
込まれる。そして、会話番号xと、話者識別タグと、各
タグ毎に1つ以上の発声区間のそれぞれに対応する1組
以上の開始サンプル位置Sと終了サンプル位置Eの組が
格納された話者別発声箇所情報ファイル217(図4
(a) )が作成され、会話ファイル別話者分類データベー
ス216として登録される。以上説明したように、本発
明によって実施される話者分類装置では、ユーザから順
次入力される各会話内の発声を話者別に次々と自動的に
分類でき、その場合に特別な辞書を必要とせず話者の特
徴の長期変動にも左右されないことが大きな特徴であ
る。
【0076】特に、話者の種類に制限を付ける必要はな
く、その時々に会話を行っている話者が自動的に分類さ
れ、適当な話者識別タグが付与される。更に、上述の実
施例では、発声区間内のフレーム毎に母音ラベルが付与
され、発声区間間では母音別にクラスタリングが実行さ
れることにより、発声内容即ち音韻に独立な状態で話者
の分類を行うことができる。
【0077】加えて、母音抽出が行われる発声区間とし
ては、会話ファイル202上の、無音区間・無声音区間
・語頭区間・語尾区間等のスペクトル的に不安定な区間
以外の安定区間のみが使用されるため、母音抽出エラー
を大幅に減少させることができる。このように、本実施
例では、話者分類のためには全ての音声区間が必要な訳
ではなく安定な区間のみがあればよいという事実を効果
的に利用している。話者分類結果提示装置の説明 図11は、第1の実施例において、図2の話者分類装置
によって作成された会話ファイル別話者分類データベー
ス216を利用する話者分類結果提示装置の構成図であ
る。
【0078】話者毎代表部分再生部1102は、図2の
話者分類装置によって作成された会話ファイル別話者分
類データベース216において、図4(a) に示される話
者別発声箇所情報ファイル217に登録されている話者
識別タグ毎に、その話者識別タグに対応する代表的な
(例えば先頭の又は最も長い)発声区間の開始サンプル
位置Sと終了サンプル位置Eを読み出し、その区間の音
声波形サンプルを会話ファイル別話者分類データベース
216に登録されている会話ファイル202から読み込
んで再生し、ユーザに聴取させる。
【0079】ユーザは、現在聴取している音声を発声し
ている話者名を判断し、話者名入力部1103を使っ
て、その話者名のテキストデータを入力する。このテキ
ストデータは、話者毎代表部分再生部1102が現在再
生している話者識別タグとペアで、会話ファイル別話者
分類データベース216に話者別名前ファイル1101
として登録される。
【0080】以上のように、このような簡単な構成の話
者分類結果提示装置を使用することにより、ユーザは直
感的かつ簡単な操作で、会話ファイル別話者分類データ
ベース216に登録されている会話ファイル202に話
者名を登録できる。話者分類結果検索装置の説明 図12は、第1の実施例において、図2の話者分類装置
によって作成された会話ファイル別話者分類データベー
ス216に対して様々な検索機能を有する話者分類結果
検索装置の構成図である。
【0081】話者数による会話データ検索部1201
は、ユーザに話者数を入力させることにより、話者別発
声箇所情報ファイル217において話者識別タグの数を
順次検索することにより、入力された話者数に対応する
数の話者識別タグが登録されている話者別発声箇所情報
ファイル217から会話番号x(図4(a) 参照)を取得
し、その会話番号xに対応する会話ファイル202の名
前、その会話ファイル202の音声の出力、音声波形の
表示等を行う。この場合、例えばユーザは、会話の録音
時(話者分類時)に、会話ファイル202に任意の録音
情報(簡単な内容や日時等)を付加できるように構成さ
れてもよい。
【0082】より具体的な応用例として、例えば、電話
やネットワーク上での多対多の通信時に、そのセッショ
ンに現在何人の人が参加しているかを、その時点からさ
かのぼって10分程度の会話ファイル202を調べるこ
とによって提示するようなことも、上述の技術を適用す
れば、容易に実現することができる。
【0083】特定話者名による会話データ検索部120
2は、ユーザに特定の話者名のテキストデータを入力さ
せることにより、話者別名前ファイル1101からその
話者名に対応する話者識別タグを抽出し、その話者識別
タグが登録されている話者別発声箇所情報ファイル21
7を検索する。そして、話者識別タグが登録されている
話者別発声箇所情報ファイル217から会話番号x(図
4(a) 参照)を取得して、その会話番号xに対応する会
話ファイル202の名前、その会話ファイル202の音
声の出力、音声波形の表示等を行う。
【0084】特定話者の発声箇所検索部1203は、ユ
ーザに会話ファイル名と特定の話者名のテキストデータ
を入力させることにより、話者別名前ファイル1101
からその話者名に対応する話者識別タグを抽出し、入力
された会話ファイル名を有する会話ファイル202に対
応する話者別発声箇所情報ファイル217上で、上記話
者識別タグに対応して登録されている各発声区間(図4
(a) 参照)の開始サンプル位置Sと終了サンプル位置E
を順次読み出し、各区間の音声波形サンプルを入力され
た会話ファイル名を有する会話ファイル202から順次
読み込んで再生し、ユーザに聴取させる。該当箇所の音
声波形の表示や発声箇所の提示が可能なように構成され
てもよい。また、前述の話者分類結果提示装置によって
話者別名前ファイル1101が会話ファイル別話者分類
データベース216に登録されていない場合には、特定
話者名による会話データ検索部1202は、ユーザに会
話ファイル名を入力させた後、入力された会話ファイル
名を有する会話ファイル202に対応する話者別発声箇
所情報ファイル217に格納されている話者識別タグ
を、液晶ディスプレイなどに一覧表示し、ユーザに特定
の話者識別タグを選択させる。そして、ユーザによって
選択された話者識別タグに対応する発声区間の音声が上
述の場合と同様にして発声又は提示等される。
【0085】より具体的な応用例として、例えば、留守
番電話に入っている声を何カ月か学習することにより、
特定の人の用件だけを聞いたり、タグを学習結果にふる
ことによって誰から留守中に電話があったかを知ること
なども、上述の技術を適用すれば、容易に実現すること
ができる。或いは、厳密なシナリオが存在しない、映画
やドラマの吹き替え時に、特定の役者のみの音声を提示
するようなことも、容易に実現できる。
【0086】話者発声の試聴による会話データ検索部1
204は、会話ファイル別話者分類データベース216
において、図4(a) に示される話者別発声箇所情報ファ
イル217に登録されている話者識別タグ毎に、その話
者識別タグに対応する各発声区間の開始サンプル位置S
と終了サンプル位置Eを順次読み出し、各区間の音声波
形サンプルを会話ファイル202から順次読み込んで再
生し、ユーザに試聴させる。
【0087】ユーザの発声音声による会話データ検索部
1205は、ユーザに発声(例えば「私の会話を抽出せ
よ。」等)を行わせて、その結果得られる会話データに
対して、図2の話者分類装置における場合と同様にし
て、各発声区間の抽出、フレーム分割、線形予測係数組
・PARCOR係数組・LPCケプストラム係数組の計
算、及び発声区間内の各フレーム毎の母音ラベルの付与
等の処理を行う。その後に、検索部1205は、会話フ
ァイル別・話者別・母音別に、例えば計算されたLPC
ケプストラム係数組と各会話ファイル202に対応する
話者別・母音別LPCケプストラム統計情報ファイル2
19に格納されているLPCケプストラム係数組とのユ
ークリッド距離を計算し、例えば5母音のユークリッド
距離の平均が最小である話者に対応する話者識別タグを
抽出する。その話者識別タグが属する会話ファイル20
2も同時に抽出される。そして、検索部1205は、抽
出した会話ファイル名の提示を行うほか、抽出した会話
ファイル202及び話者識別タグに対応する発声区間の
音声を、特定話者の発声箇所検索部1203の動作の場
合と同様にして、発声又は提示等する。
【0088】上述したように、本実施例による話者分類
結果検索装置によって、図2に示される話者分類装置に
よって作成される会話ファイル別話者分類データベース
216に対して、強力かつ柔軟性の高い検索・提示等を
行うことができ、マルチメディアに対する要請等に十分
に応えるシステムを構築することができる。そして、こ
こに示した検索・提示処理は、従来の単純な話者識別・
照合システムにおいては到底実現できないものである。
【0089】また、前述したように、本発明によって実
施される話者分類装置は、特別な辞書を必要としないも
のであるが、特定の辞書を用いるシステムと組み合わせ
ることも可能である。例えば、音声認識システムにおい
て、前述した話者分類装置を組み合わせることにより、
複数話者に適応した音声辞書を各々作成するようなこと
が可能となる。
【0090】更に、本発明によって実施される話者分類
装置による話者分類結果を用いた独創的な処理として、
次のような処理が考えられる。即ち、話者分類結果を基
本的な音圧(パワー)や基本周波数(ピッチ)の情報と
組み合わせると、話者は分類できているので、各話者毎
に音圧や基本周波数の時間的変化を調べることができ
る。これにより、ある話者の会話中で、どの発声がその
他の発声より強調されているか等が分かる。このよう
に、基本的音響特徴量を組み合わせて用いると、話者分
類ができて初めて利用価値が生ずる特徴を抽出できるよ
うになる。例えば、各発声毎の平均スペクトル変化率を
用いれば、ある話者の、どの発声が、他の発声と比較し
て速口であったかなども分かる。このような情報は、感
情情報に結び付く情報であるため、一種の感情検知シス
テムのようなものも実現することも可能となる。 <第2の実施例>第2の実施例は、本発明を回転系の異
常検知システムとして実施した場合のものである。
【0091】図13は、第2の実施例における回転音分
類装置の構成図である。まず、モータやエンジンなどの
回転系1301が発生する音響は、マイク1302で聴
取された後、A/D変換器1303でディジタル化さ
れ、一定時間毎に切り替わる2つのバッファ1304又
は1305に交互に記録される。
【0092】バッファ1304又は1305のうち記録
動作が行われていないバッファから読み出された音響デ
ータ1306は、フレーム分割部1307において、所
定長を有する複数個のフレームに分割される。この結
果、音響フレーム分割ファイル1308が作成され、特
には図示しない記憶媒体に記憶される。音響フレーム分
割ファイル1308のデータフォーマットは、例えば図
3(b) に似たものにすることができ、フレーム数及び各
フレームの開始サンプル位置等が格納される。
【0093】スペクトル分析部1309は、音響フレー
ム分割ファイル1308によって示される各フレーム位
置に対応する音響データ1306に対して、例えばバン
ドパスフィルタリング処理によって複数の周波数帯域の
各周波数成分値を抽出し、その情報を音響スペクトル分
析ファイル1310として、特には図示しない記憶媒体
に記憶する。
【0094】以上の動作が、様々な状況のもとで回転系
1301を音源とし、バッファ1304又は1305を
介して次々に入力するする音響データ1306に対して
実行される。
【0095】回転数抽出部1311は、適当な時間分
(例えば回転系1301の一稼働時間分)の音響スペク
トル分析ファイル1310を順次入力し、例えば各フレ
ーム毎に最大値をとる周波数成分から回転系1301の
回転数を検出する。
【0096】回転数別選別部1312は、適当な時間分
(例えば回転系1301の一稼働時間分)の音響スペク
トル分析ファイル1310を順次入力し、各フレーム毎
に、回転数抽出部1311で抽出された回転数を示すラ
ベルを付与することにより、回転数ラベルファイル13
13を作成して、特には図示しない記憶媒体に記憶す
る。
【0097】音響クラスタリング部1314は、回転数
ラベルファイル1313に格納されている回転数ラベル
別に、各回転数ラベルが付与されているフレームに対応
する音響スペクトル分析ファイル1310内の各音響ス
ペクトル分析結果をクラスタリングすることにより、回
転音分類データベース1315を作成する。この回転音
分類データベース1315には、音響ファイル131
6、クラスタ別発音箇所情報ファイル1317、及びク
ラスタ別・回転数別スペクトル分析統計情報ファイル1
318等が登録される。クラスタリングの方法は、母音
を回転数に置き換えて考えることで、図2の話者分類装
置の場合と同様の方法が適用できる。
【0098】音響ファイル1316は、前記適当な時間
分の音響データ1306を統合してファイル化したもの
である。クラスタ別発音箇所情報ファイル1317は、
音響クラスタリング部1314によって生成された各ク
ラスタが、音響ファイル1316上のどの発音区間に対
応するかを示す。
【0099】クラスタ別・回転数別スペクトル分析統計
情報ファイル1318には、クラスタ毎及び回転数毎
に、各クラスタ及び各回転数を代表する音響スペクトル
分析結果(バンドパスフィルタリング群の各周波数成分
出力値等)が格納される。
【0100】以上に示される回転音分類装置によって作
成される回転音分類データベース1315を活用するこ
とにより、例えば回転数とは独立な回転音の分類及び解
析を行うことができ、異常音の検出を容易に行うことが
可能となる。 <第3の実施例>第3の実施例は、第2の実施例と同様
に、本発明を回転系の異常検知システムとして実施した
場合のものである。
【0101】図14は、第3の実施例における回転音分
類装置の構成図である。図14において、図13の場合
と同じ番号が付与された部分は図13の場合と同じ機能
を有する。図14の構成が図13の構成と異なる点は、
回転数の抽出が、回転数抽出部1311によって音響ス
ペクトル分析ファイル1310から行われるのではな
く、回転系に近接されたロータリーエンコーダ1401
から、A/D変換器1402、バッファ1403及び1
404を介して抽出される回転数データ1405を使っ
て行われる点である。
【0102】回転数データ1405の位相は、音響デー
タ1306の位相と同期しており、回転数データ140
5は、フレーム分割部1307と同様のフレーム分割部
1406によってフレーム毎に分割され、回転数フレー
ム分割ファイル1407として保持される。このファイ
ルに格納された各タイミング毎の回転数が、回転数別選
別部1312によって読み出される。 <他の実施例>以上、本発明の3つの実施例について具
体的に説明してきたが、本発明は上述の構成に限定され
るものではない。
【0103】一般的には、本発明は、図1に示したよう
に、例えば本発明が話者分類処理システムとして実現さ
れる場合には母音毎に、また例えば、本発明が機械音の
異常検知システムとして実現され機械システムが一定の
サイクルで稼働しそれに同期して音響を発生する場合に
はサイクル内の所定タイミング毎に、更に例えば、本発
明が機械音の異常検知システムとして実現され機械シス
テムが一定の稼働条件にあるときに一定の音響を発生す
る場合には各稼働条件毎に、といった音響信号の発生条
件毎に、音響特徴量又は音響信号が選別され、その後に
音響信号の発生条件毎の分類が行われるような構成であ
れば、非常に広い技術分野への適用が可能である。
【0104】
【発明の効果】本発明によれば、音響信号の発生条件に
独立な状態のもとで、特定の辞書等を用いることなく、
音響特徴量ひいては音響信号を自動的に分類することが
可能となる。
【0105】そして、この分類により得られた分類情報
を用いて、分類結果の検索・提示又は分類結果を用いた
他のデータ処理といった、種々のデータ処理を行うこと
が可能となる。
【0106】本発明のより具体的な効果として、本発明
が話者分類処理装置として実現される場合には、ユーザ
から順次入力される各会話内の発声を話者別に次々と自
動的に分類でき、その場合に特別な辞書を必要とせず話
者の特徴の長期変動にも左右されず、更に話者の種類に
も制限がないという大きな特徴を有する。
【0107】この場合に、発声区間内のフレーム毎に母
音ラベルが付与され、発声区間間では母音別にクラスタ
リング等の分類が実行されることにより、発声内容即ち
音韻に独立な状態で話者の分類を行うことが可能とな
る。
【0108】また、母音抽出が行われる発声区間として
は、会話ファイル上のスペクトル的に安定な区間のみが
使用されるため、母音抽出エラーを大幅に減少させるこ
とが可能となる。
【0109】一方、本発明による話者分類処理装置によ
り、分類結果のデータベースに対して、強力かつ柔軟性
の高い検索・提示等を行うことができ、マルチメディア
に対する要請等に十分に応えるシステムを構築すること
が可能となる。そして、本出願で開示した検索・提示処
理は、従来の単純な話者識別・照合システムにおいては
到底実現できないものである。
【0110】また、本発明による話者分類処理装置は、
特別な辞書を必要としないものであるが、特定の辞書を
用いるシステムと組み合わせることも可能である。例え
ば、音声認識システムに適用されることにより、複数話
者に適応した音声辞書を各々作成するようなことが可能
となる。
【0111】加えて、本発明による話者分類結果を用い
た独創的な処理として、次のような処理が考えられる。
即ち、話者分類結果を基本的な音圧(パワー)や基本周
波数(ピッチ)の情報と組み合わせると、話者は分類で
きているので、各話者毎に音圧や基本周波数の時間的変
化を調べることが可能となる。これにより、ある話者の
会話中で、どの発声がその他の発声より強調されている
か等が分かる。このように、基本的音響特徴量を組み合
わせて用いると、話者分類ができて初めて利用価値が生
ずる特徴を抽出することが可能となる。例えば、各発声
毎の平均スペクトル変化率を用いれば、ある話者の、ど
の発声が、他の発声と比較して速口であったかなども分
かる。このような情報は、感情情報に結び付く情報であ
るため、一種の感情検知システムのようなものも実現す
ることが可能となる。
【図面の簡単な説明】
【図1】本発明の基本的な原理ブロック図である。
【図2】第1の実施例における話者分類装置の構成図で
ある。
【図3】第1の実施例における各ファイルのデータフォ
ーマットを示した図である。
【図4】第1の実施例における会話ファイル別話者分類
データベースのデータフォーマットを示した図である。
【図5】発声区間抽出部の説明図である。
【図6】同一母音間の距離分布の例を示した図である。
【図7】同一話者判定メンバシップ関数の例を示した図
である。
【図8】発声区間と母音別平均LPCケプストラム係数
組の関係を示した図である。
【図9】発声区間間の母音別類似度の評価マトリクスの
例を示した図である。
【図10】発生区間間の類似度の評価マトリクスの例を
示した図である。
【図11】第1の実施例における話者分類結果提示装置
の構成図である。
【図12】第1の実施例における話者分類結果検索装置
の構成図である。
【図13】第2の実施例における回転音分類装置の構成
図である。
【図14】第3の実施例における回転音分類装置の構成
図である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−178998(JP,A) 特開 平3−280099(JP,A) 中里ら「母音情報を用いた話者照合方 式」信学技報(OFS94 30−36),V ol.94,No.373,pp13−18 (1994) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 21/06 G06F 17/30 JICSTファイル(JOIS)

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声信号の音声的特徴を示す音声特徴量
    を抽出する音声特徴量抽出手段と、 該音声特徴量抽出手段によって抽出された音声特徴量に
    基づいて、前記音声信号中における母音発声フレーム及
    び該フレームにおいて発声された母音の種類を抽出する
    母音抽出手段と、 該母音抽出手段によって抽出された母音発声フレームに
    おいて前記音声特徴量抽出手段によって抽出されている
    音声特徴量を、母音毎の分類を基準に、該音声特徴量の
    類似の度合いを評価して1人以上の話者に分類し、該話
    者の分類結果と前記音声信号との対応関係を少なくとも
    含む分類情報を作成する分類手段と、 を有することを特徴とする話者分類処理装置。
  2. 【請求項2】 音声信号の音声的特徴を示す音声特徴量
    を抽出し、 該抽出された音声特徴量に基づいて、前記音声信号中に
    おける母音発声フレーム及び該フレームにおいて発声さ
    れた母音の種類を抽出し、 該抽出された母音発声フレームにおける前記音声特徴量
    を、母音毎の分類を基準に、該音声特徴量の類似の度合
    いを評価して1人以上の話者に分類し、該話者の分類結
    果と前記音声信号との対応関係を少なくとも含む分類情
    報を作成する、 ことを特徴とする話者分類処理方法。
  3. 【請求項3】 音声信号からスペクトル的に安定な区間
    を発声区間として抽出する発声区間抽出手段と、 該発声区間抽出手段によって抽出された発声区間毎に、
    該各発声区間を所定時間長を有するフレームに分割する
    フレーム分割手段と、 前記発声区間抽出手段によって抽出された発声区間毎及
    び前記フレーム分割手段によって分割されたフレーム毎
    に、前記音声信号の音声的特徴を示す音声特徴量を抽出
    する音声特徴量抽出手段と、 該音声特徴量抽出手段によって抽出された音声特徴量に
    基づいて、前記各発声区間中における母音発声フレーム
    及び該フレームにおいて発声された母音の種類を抽出す
    る母音抽出手段と、 該母音抽出手段によって抽出された前記各発声区間中の
    母音発声フレームにおいて前記音声特徴量抽出手段によ
    り抽出されている音声特徴量を、母音毎の分類を基準
    に、該音声特徴量の類似の度合いを評価して前記各発声
    区間間で分類することにより、前記各発声区間を1人以
    上の話者に対応させて分類し、該話者の分類結果と前記
    音声信号との対応関係を少なくとも含む分類情報を作成
    する分類手段と、 を有することを特徴とする話者分類処理装置。
  4. 【請求項4】 音声信号からスペクトル的に安定な区間
    を発声区間として抽出し、 該抽出された発声区間毎に、該各発声区間を所定時間長
    を有するフレームに分割し、 前記発声区間毎及び前記フレーム毎に、前記音声信号の
    音声的特徴を示す音声特徴量を抽出し、 該抽出された音声特徴量に基づいて、前記各発声区間中
    における母音発声フレーム及び該フレームにおいて発声
    された母音の種類を抽出し、 該抽出された前記各発声区間中の母音発声フレームにお
    ける前記音声特徴量を、母音毎の分類を基準に、該音声
    特徴量の類似の度合いを評価して前記各発声区間間で分
    類することにより、前記各発声区間を1人以上の話者に
    対応させて分類し、該話者の分類結果と前記音声信号と
    の対応関係を少なくとも含む分類情報を作成する、 ことを特徴とする話者分類処理方法。
  5. 【請求項5】 請求項若しくはに記載の話者分類処
    理装置又は請求項若しくはに記載の話者分類処理方
    法によって作成された分類情報を用いてデータ処理を行
    うデータ処理手段を有する、 ことを特徴とする話者分類処理装置。
  6. 【請求項6】 請求項若しくはに記載の話者分類処
    理装置又は請求項若しくはに記載の話者分類処理方
    法によって作成された分類情報を用いてデータ処理を行
    う、 ことを特徴とする話者分類処理方法。
  7. 【請求項7】 前記データ処理は、入力された話者数の
    話者によって発生されている音声信号を前記分類情報に
    基づいて検索する処理である、 ことを特徴とする請求項又はに記載の話者分類処理
    装置又は話者分類処理方法。
  8. 【請求項8】 前記データ処理は、所定の話者による発
    声が含まれる音声信号を前記分類情報に基づいて検索す
    る処理である、 ことを特徴とする請求項乃至に記載の話者分類処理
    装置又は話者分類処理方法。
  9. 【請求項9】 前記データ処理は、所定の話者の発声箇
    所を所定の音声信号中から前記分類情報に基づいて検索
    する処理である、 ことを特徴とする請求項乃至に記載の話者分類処理
    装置又は話者分類処理方法。
  10. 【請求項10】 前記データ処理は、入力された音声の
    話者と同じ話者による発声が含まれる音声信号又は該音
    声信号中の発声箇所を前記分類情報に基づいて検索する
    処理である、 ことを特徴とする請求項乃至に記載の話者分類処理
    装置又は話者分類処理方法。
JP06189709A 1994-08-11 1994-08-11 話者分類処理装置及び方法 Expired - Fee Related JP3081108B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06189709A JP3081108B2 (ja) 1994-08-11 1994-08-11 話者分類処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06189709A JP3081108B2 (ja) 1994-08-11 1994-08-11 話者分類処理装置及び方法

Publications (2)

Publication Number Publication Date
JPH0854891A JPH0854891A (ja) 1996-02-27
JP3081108B2 true JP3081108B2 (ja) 2000-08-28

Family

ID=16245884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06189709A Expired - Fee Related JP3081108B2 (ja) 1994-08-11 1994-08-11 話者分類処理装置及び方法

Country Status (1)

Country Link
JP (1) JP3081108B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680660B2 (en) 2004-02-26 2010-03-16 Sega Corporation Voice analysis device, voice analysis method and voice analysis program

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
JP4728972B2 (ja) 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
JP5060224B2 (ja) 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
JP5105097B2 (ja) * 2009-01-23 2012-12-19 日本電気株式会社 音声分類装置、音声分類方法及びプログラム
JP5136621B2 (ja) * 2010-10-15 2013-02-06 ソニー株式会社 情報検索装置及び方法
KR101251373B1 (ko) * 2011-10-27 2013-04-05 한국과학기술연구원 음원 분류 장치 및 그 방법
JP6171544B2 (ja) * 2013-05-08 2017-08-02 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
JP6350148B2 (ja) 2014-09-09 2018-07-04 富士通株式会社 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01178998A (ja) * 1987-12-29 1989-07-17 Nec Corp 音声ファイル方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中里ら「母音情報を用いた話者照合方式」信学技報(OFS94 30−36),Vol.94,No.373,pp13−18(1994)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680660B2 (en) 2004-02-26 2010-03-16 Sega Corporation Voice analysis device, voice analysis method and voice analysis program

Also Published As

Publication number Publication date
JPH0854891A (ja) 1996-02-27

Similar Documents

Publication Publication Date Title
EP3719798B1 (en) Voiceprint recognition method and device based on memorability bottleneck feature
Nakamura et al. Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance
US11361753B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US20070213987A1 (en) Codebook-less speech conversion method and system
US11600261B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
Kumar et al. Continuous hindi speech recognition using monophone based acoustic modeling
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP3081108B2 (ja) 話者分類処理装置及び方法
Jarifi et al. A fusion approach for automatic speech segmentation of large corpora with application to speech synthesis
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
JP4283133B2 (ja) 音声認識装置
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Furui Robust methods in automatic speech recognition and understanding.
Valaki et al. A hybrid HMM/ANN approach for automatic Gujarati speech recognition
Vlasenko et al. Determining the smallest emotional unit for level of arousal classification
Wiggers et al. Medium vocabulary continuous audio-visual speech recognition
Gref Robust Speech Recognition via Adaptation for German Oral History Interviews
Dutta et al. A comparative study on feature dependency of the Manipuri language based phonetic engine
Shinde et al. Isolated Word Recognition System based on LPC and DTW Technique
Diliberto et al. Speaker diarization with overlapped speech

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000516

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090623

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees