JPH0352085A - 自己組織化ネットワークを用いた話者照合方式 - Google Patents

自己組織化ネットワークを用いた話者照合方式

Info

Publication number
JPH0352085A
JPH0352085A JP1188480A JP18848089A JPH0352085A JP H0352085 A JPH0352085 A JP H0352085A JP 1188480 A JP1188480 A JP 1188480A JP 18848089 A JP18848089 A JP 18848089A JP H0352085 A JPH0352085 A JP H0352085A
Authority
JP
Japan
Prior art keywords
network
state
speaker
voice
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1188480A
Other languages
English (en)
Inventor
Shogo Nakamura
中村 尚五
Yoshihiko Horio
喜彦 堀尾
Masahide Yoneyama
米山 正秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1188480A priority Critical patent/JPH0352085A/ja
Publication of JPH0352085A publication Critical patent/JPH0352085A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 薮棗立夏 本発明は、音声により話者の同定を行う話者照合方式,
例えば、バンキングサービス,個人情報へのアクセス,
機密保管場所への入室管理等の音声キー(Key)−玩
具等の応答装置の検出回路等に応用可能なものである. 従来庄曜 自己組織化ネットワークを用いた話者照合に関して、従
来、例えば、中村,その他198g 電子情報通信学会
全国大会A−1−15 [自己組織化ネットワークを用
いた話者照合];中村、その他l989電子情報通信学
会全国大会[自己組織化ネットワークを用いた話者照合
2];中村、その他l988  東京電機大学工学部研
究報告 P19〜[自己組織化ネットワークを用いた話
者照合]等の報告がある。これらの内容は,詳Jil(
スペクトルの分解能、実験等)を除き根本的に同じで、
要約すれば、まず、音声スペクトルを粗く量子化し,ま
f (0,1,−1)のベクトル時系列として扱い、次
に,スペクトル時系列を類似するフレーム毎に数フレー
ムづつまとめて1つの状態とし、スペクトル時系列をい
くつかの時系列状態に分割する.この状態の遷移の様子
を学習によってg合せ、状態のネットワークを形成する
.これを自己組織化ネットワークと呼ぶ.話者照合にお
いては,このネットワークを話者ごとに作成し,未知話
者の音声と登録話者のネットワークとの対応づけを行な
い、このWi似度が所定の閾値以下である時に本人であ
るL照合する。
また、本出願人は、先に、音声スペクトルを粗く量子化
し,まず(0,l,−1)のベクトル時系列として扱い
,次に,これを用いてスペクトル時系列を類似するフレ
ームをいくつかまこめて1つの状態とし,スペクトル時
系列をいくつかの状態に分割し,この状態の遷移の様子
を学習によって組合せ,状態のネットワークを形成する
(これを自己組織化ネットワークと呼ぶ)音声認識装置
について提案した。この音声認識においては,このネッ
トワークを単語ごとに作威し、未知音声と登録音声のネ
ットワークとの対応づけを行ないこの類似度が最も大き
い単語を該当単語として出力するようにしている. 上述のように,音声より個人を識別するためには,スペ
クトル包絡、平均ピッチ周波数ヒいった音響バラメー゛
夕を用いてDPマッチングを行なったり、母音定常部な
どの音響パラメータの平均値、標準偏差等統計量を導入
した方式などがとられていた。音響中のホルマントとそ
の遷移状態は、個人性を表しているといわれているが、
これをうまく記述し,ホルマント及びその遷移状態を認
識に用いられるような形にした方式はなかった。
瓦一一枚 本発明は,上述のごとき実情に鑑みてなされたもので,
特に、ホルマントの時間遷移情報を状態の遷移という形
でとらえ,これを記述して話者照合を行なうことを目的
とするものである。
豊一一處 本発明は,上記目的を達或するために,入力音声を数m
 8elC毎のフレームに分割し、そのフレームごとに
スペクトルに変換する手段と,音声区間のスペクトルを
所定閾値によって1,O,−1の3値に粗く量子化する
手段と,この1,O,−1のスペクトルパターンを時系
列のベクトル列として扱い、辞書作成時には,時間軸上
で類似した数フレームをまとめて同一の状態とする手段
と、この状態を用いて登録時に発声された複数の入力音
声との整合が取れるようにネットワークを作成する手段
と,照合時には、未知話者の音声スペクトル0,1,−
1時系列パターンを本人のネットワークに入力して,入
力音声の各フレームの0.1,−1スペクトルパターン
と本人の各状態との要素間での内積を計算して、ネット
ワークと入力音声との対応を調べ,内積値,ネットワー
クの遷移結果等を基に未知音声が本人の音声であるか否
かを判定することを特徴としたものであり,更には,辞
書登録時に本人の音声の他に詐称者の音声を用いて,本
人の特徴(詐称者が通らない状態,通りずらい状態)を
強調する話者照合用のネッ1へワークを構成することを
特徴とするものである,上述のように,本発明は、ホル
マントの時間遷移情報を状態の遷移という形でとらえ,
これを記述して話者照合を行うものであり、このため、
先に音声認識用に開発された自己組織化ネットワークを
話者照合に応用するものである。これによってホルマン
トの時間変化を用いた話者照合が実現でき個人性情報の
時間変化(遷移)を取入れた高精度かつ辞書容量、ハー
ド規模の小さなシステムを作或することができる。
本発明では、まず、入力音声を数m sec毎のフレー
ムに分割し、そのフレームごとにスペクトルに変換する
、入力音声から音声区間のみを検出したのち、音声区間
のスペクトルを所定閾値によって1.0,−1の3値に
粗く量子化する。これによってスペクトルのホルマント
位置を記述する。
次に,この0,1,−1のスペクトルパターンを時系列
のベクトル列として扱い、辞書作成時には,時間軸上で
類似した数フレームをまとめて同一の状態とする。この
状態を用いて登録時に発声された複数の入力音声との整
合が取れるようにネットワークを作成する(自己組織化
ネッ1・ワーク)。
照合時には、未知話者の音声スペクトル0,1,−1時
系列パターンを本人のネットワークに入力して、入力音
声の各フレームの0,l.,−1スペクトルパターンと
本人の各状態との要素間での内積を計算して、ネットワ
ークと入力音声との対応を調べ、内積値、ネットワーク
の遷移結果等を基に未知音声が本人の音声であるか否か
を判定する.なお、辞書登録時に本人の音声の他に詐称
者の音声を用いて、本人の特徴(詐称者が通らない状態
、通りずらい状MA)を強調する話者照合用のネットワ
ークを構或することもできる. 更に本発明の内容を要約すれば、音声スペクトルを粗く
量子化し、まず(0,1,−1)のベクトル時系列を作
成する.次に、これのスペクトル時系列を類似するフレ
ームをいくつかまとめて1つの状態として扱い,スペク
トル時系列をいくつかの状態に分割する。この状態の遷
移の様子を学習によって組合せ,状態のネットワークを
形成する.これを自己組織化ネットワークと呼ぶ.この
ネットワークを話者ごとに作成し、未知話者の音声と登
録話者のネクトワークとの対応づけを行ない、この類似
度が所定の閾値以下である時に本人であると照合する.
以下,本発明の実施例に基づいて説明する. 第1図は、本発明の一実施例を説明するための話者照合
システムのブロック図で、図中,1はマイクロフォン、
2は特徴抽出部,3はネットワーク部,4は決定部.5
は学習アルゴリズム部で,第2図に,上記特徴抽出部の
詳細図、第3図(a)〜(c)にそれぞれ第2図のA−
C部における出力信号を示す. まず、マイク1から入力された音声信号は,特徴量抽出
部2にて,数msごとにフレームに分割されてスペクト
ルの時系列に変換される.この手段としては,スペクト
ルに関しては,Mえば入力音声をローバスフィルタ(L
PF)によってサンプリング周波数の172以上の成分
をカットした後A/D変換器によって離散的な信号列に
量子化し、さらにこれを短時間の波形毎に切り出してハ
ミングウインドウ等を剰じて窓掛けを行い,スペクトル
に変換しても良いし、またはバンドバスフィルター群を
用いてスペクトルに変換しても良いし、またはバンドパ
スフィルター群を用いてスペクトルに変換し時系列情報
を得ても良い.ここでは、8チャンネルのバンドパスフ
ィルターを用いた例にて説明する,いま、時刻iにおけ
るフレームのスペクトルfijは, f xj=(f 117 f x2, −− − + 
f i8)  (j=LL−,8)この音声スペクトル
は、音声信号のパワースペクトルの時系列そのものであ
る.そこで音声のローカルピークを強調したホルマント
の抽出を容易にするために,このスペクトルの時系列パ
ターンを第21!Iに示す特yIl抽出部内部の空間フ
ィルターによって処理する.この空間フィルターは,時
間軸方向にはローバスフィルター、周波数軸方向にはハ
イバスフィルターの特性をもつ。空間フィルターによっ
て処理されたスペクトル包絡よりネットワークを構成す
るが,さらにホルマントの位置を明確にし,またネット
ワーク化の際モデル化しやすいようにこのローカルピー
クパターンを3値に粗く量子化する.量子化の際の閾値
としてはローカルパターンの正負それぞれの側の最大値
の例えば15%とし、これはlフレームごとに行なう.
このように粗く量子化を行なうと音声の変化の乏しい部
分では,同じパターンのフレームが数フレームから十数
フレーム連続することになる.そこで、同じ部分を圧縮
して全体の情報量の削減を行なう。ここで圧縮したフレ
ーム数は1つの情報として残しておく。最終的にこの圧
縮した3値化ローカルピークパターンを用いてネットワ
ークを構成する.ネットワークの作成は,以下の手順で
行なう. 圧縮したローカルピークパターンの各フレームはそれぞ
れ1,O,−1の3値を持つ8次元のベクトルとみなす
ことができる。そこでこの1フレームの3Mのパターン
を状態遷移図における1つの状態とみなしてネットワー
クを構成する。この様子を第4図に示す.ネットワーク
の1つ工つの状態はそれぞれ1,O,−1の3値のパタ
ーンにより構威される.このことは、この状態1つ1つ
が音声の短時間スペクトルのパターンを記憶しているこ
とになるのは明らかである.また、各状態は,その状態
が何フレーム続いたかという情報も記憶している.この
ことを同じ話者の他の発声について行なうと,同じ言葉
であればほぼ同じ様なネットワーク(もちろん1回の発
声で作威したネットワ゛−クはそのパスの数は1通りし
かない)ができるが、音声には当然僅かに変動がある。
そこでその変動を吸収し、ネットワークに柔軟性を持た
せるためにネットワークの学習を行なう。ネットワーク
の学習は、元のネットワークに新たなパスを付加えてい
くことによって行なわれる.第5図にこのようすを示す
。この時、元のネットワークと新たに付加えるネットワ
ークとの間で、一紋している状態を見つけるためにこの
2つのネットワーク間でDPマッチングを行なう.元の
ネットワークが複雑な場合は,可能な全てのバスにっい
てDPマッチングを行ないその距離が最も小さいパスに
新しいバスを付加えていく.これによって複雑なネット
ワークに新しいネットワークを付加える時に最も付け加
えるネットワークに似ているバスを、元のネットワーク
から探すことができる. 照合には前述のネットワークとローカルピークパターン
(空間フィルターを通過した後のスペクトル包絡パター
ン)を用いる.ローカルピークパターンはネットワーク
に入力される.ここで、ネットワークの各状態は、1,
0,−1の8次元のベクトルとみなせ、ローカルピーク
パターンの1フレームも8次元のベクトルとみなせるの
で,この両者の内積を取ることができる.この内積値を
現在の入力のローカルピークのフレームと状態との類似
度として用い、その大小を状態遷移の判断条件として用
いる。第6図に具体例を示す.いま,ネットワークのA
の状態からスタートする,このとき、入力のローカルピ
ークパターンの現在の入力フレームが第6図に示したも
のであったとすると、Aは8次元のベクトル、入力のフ
レームも8次元のベクトルだから内積を取ることができ
る.その値は、 工え =  SA−P(t)        (1)I
A : 状fiAと入力フレームとの内積値SA : 
状履を示すベクトル P(t):  入力の1フレーム 但し.通常の内積の場合は oxo=o となり、一致しているにも関わらず得点とならない.そ
こでこの場合には特別に QXO=10 とする. 内積をとるのはAだけでなく、Aより遷移可能な2つの
状態B,B’ともそれぞれ内積を取る.この時それぞれ
の内積値が第6図の様に■珍>工1>zえ となった場合にAよりBに状態を遷移させる.また、 I B> r A> I n・ となった場合もAよりBに状態を遷移させ,I F> 
I A> I !1 の場合はAよりB′に状態を遷移させる.もし,I A
> I n> I ,  または I a> I 1>
 I nであったらAに留る,ただし、Aに留っていら
れるFRI1lIは制限されており、それはデータ圧m
時の圧縮されたフレーム数によって決る.この制限時間
を越えてもまだAより遷移できなければAの発火は終了
し、AよりB.B’に遷移することはできなくなる.こ
のようにして、入力に対して状態を遷移させていきネッ
トワークの最後まで遷移が達した場合を本人として受理
し、途中でとぎれてしまったl)M後まで遷移できなか
った場合は他人として棄却する.また、判断.1!準と
なる他のパラメータとして!w似度をもちいる.これは
、まず(1)式を一般化し、 n ただし、 I(t):  時刻tの内積出力値 Wi : 状態ベクトル Xit  :  時刻tの入力フレームベクトルn  
: ベクトル要素数 とする.ここで,状態と入力フレームの内積和,全入力
フレームに関する内積和を計算してこれを各々 N t=O  i=0 ただし、 N : 総入力フレーム数 とする. ここで、類似度Si層を次のようにして定義する.Si
n  =  Is’um/ Imax     − (
5)このSi膳は1に近いほど本人で有ることを示す.
また、上記2つのパラメータを組合せて、新たなる評価
基準Pを P = WO・Re + 11 ・Sin     −
 (6)として導入し,Pが所定の閾値θより大きけれ
ば本人と断定し,それ以下の時は詐称者としても良い.
(6)式でReは、遷移が最後までいったかどうかを示
す定数でOか1の値を取る.また、vO,If)1は各
パラメータへの重みである.第7図に別の状態ベクトル
の作り方を示す.この例では,辞書作成時に本人の音声
の他に詐称者の音声を用いて,本人の特徴(詐称者が通
らない状態,通りすらい状態)を強調する話者照合用の
ネットワークを構成するものである.例えば、第7図(
a)のように話者SPIのネットワークができ上がって
いるものとする.このネットワークに(b)の様に遷移
する話者SP2の音声を入力すると、(a)のネットワ
ークにおいてB′を通って最後まで遷移してしまう.こ
のときは,B′を通っても最後まで状態が遷移してしま
うためにSP2を本人であると認識してしまう。そこで
、この不都合を無くすために,B′を通った時の内積値
の計算を以下で示すように変更し、内積値が小さくなる
ように操作する. ここで、Weightとしては、例えば−1,−0.5
.0.2,0.5などといった発火を抑制する形で与え
ればよい.これにより、遷移を抑制したり,類似度を小
さくしたりできこれによって詐称者受理率を小さくでき
る.なお、ここでは本人の他に詐称者の音声も参照して
状態のWeightを求めたが、本人が発声する複数の
音声サンプルを用いて,これによクて形成されるネット
ワーク中ほとんど通らない状態に関しても同様の処置を
しても良い.羞一一果 以上の説明から明らかなように,本発明によると、ホル
マントの時間遷移情報を状態の遷移という形でとらえ,
これをうまく記述して話者照合を行なうものであり、こ
れによって、ホルマントの時間変化を用いた話者照合が
実現でき,41人性情報の時間変化(遷移)を取入れた
高精度かつ辞書容量,ハード規模の小さなシステムを作
或することができる.本発明によると,人間の学習過程
の状況を反映するように記述できるため学習に依るネッ
トワークの増殖、切断が行なえ汎用性のあるシステム構
築ができる. 更には、辞書登録時に本人の音声の他に詐称者の音声を
用いて,本人の特徴(詐称者が通らない状態、通りずら
い状態)を強調する話者照合用のネットワークを構成す
ることができ詐称者受理率を減らすことができる等の利
点がある。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するための話者照合
システムのブロック図、第2図は、第1,図に示した特
徴抽出部の詳細図、第3図(a)〜(c)は、それぞれ
第2図のA−C部の信号波形図、第4図は、ネットワー
ク化の一例を説明するための図、第5図は、ネットワー
クの学習の一例を示す図、第6図は、状態遷移の具体例
を示す図、第7図は,状態ベクトルの作り方を示す図で
ある.1・・・マイクロフォン,2・・・特徴抽出部、
3・・・電気回路網、4・・・決定部、5・・・学習ア
ルゴリズム部.第 4 図 第 5 図 第 A−P(t) − 101 B′・P(t) = 123 8 −P(t) − 128 ,”, A −8 ((71 SPI 〈b+ SP2

Claims (1)

    【特許請求の範囲】
  1. 1、入力音声を数msec毎のフレームに分割し、その
    フレームごとにスペクトルに変換する手段と、音声区間
    のスペクトルを所定閾値によって1、0、−1の3値に
    粗く量子化する手段と、この1、0、−1のスペクトル
    パターンを時系列のベクトル列として扱い、辞書作成時
    には、時間軸上で類似した数フレームをまとめて同一の
    状態とする手段と、この状態を用いて登録時に発声され
    た複数の入力音声との整合が取れるようにネットワーク
    を作成する手段と、照合時には、未知話者の音声スペク
    トル0、1、−1時系列パターンを本人のネットワーク
    に入力して、入力音声の各フレームの0、1、−1スペ
    クトルパターンと本人の各状態との要素間での内積を計
    算して、ネットワークと入力音声との対応を調べ、内積
    値、ネットワークの遷移結果等を基に未知音声が本人の
    音声であるか否かを判定することを特徴とする自己組織
    化ネットワークを用いた話者照合方式。
JP1188480A 1989-07-20 1989-07-20 自己組織化ネットワークを用いた話者照合方式 Pending JPH0352085A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1188480A JPH0352085A (ja) 1989-07-20 1989-07-20 自己組織化ネットワークを用いた話者照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1188480A JPH0352085A (ja) 1989-07-20 1989-07-20 自己組織化ネットワークを用いた話者照合方式

Publications (1)

Publication Number Publication Date
JPH0352085A true JPH0352085A (ja) 1991-03-06

Family

ID=16224470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1188480A Pending JPH0352085A (ja) 1989-07-20 1989-07-20 自己組織化ネットワークを用いた話者照合方式

Country Status (1)

Country Link
JP (1) JPH0352085A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497448A (en) * 1992-04-30 1996-03-05 Matsushita Electric Industrial Co., Ltd. Learning type waveform recognizer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497448A (en) * 1992-04-30 1996-03-05 Matsushita Electric Industrial Co., Ltd. Learning type waveform recognizer

Similar Documents

Publication Publication Date Title
Tiwari MFCC and its applications in speaker recognition
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
WO2019154107A1 (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
Paul et al. Bangla speech recognition system using LPC and ANN
JPH02238495A (ja) 時系列信号認識装置
JPS58130393A (ja) 音声認識装置
CA2492204A1 (en) Similar speaking recognition method and system using linear and nonlinear feature extraction
Soleymani et al. Prosodic-enhanced siamese convolutional neural networks for cross-device text-independent speaker verification
Renjith et al. Speech based emotion recognition in Tamil and Telugu using LPCC and hurst parameters—A comparitive study using KNN and ANN classifiers
KR100779242B1 (ko) 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
Yadav et al. Speaker identification system using wavelet transform and VQ modeling technique
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Goyal et al. Issues and challenges of voice recognition in pervasive environment
JPH0352085A (ja) 自己組織化ネットワークを用いた話者照合方式
JP2001350494A (ja) 照合装置及び照合方法
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
JP2001265387A (ja) 話者照合装置及び方法
CN115862636B (zh) 一种基于语音识别技术的互联网人机验证方法
Al-Hassani et al. Design a text-prompt speaker recognition system using LPC-derived features
Devi et al. Automatic speaker recognition from speech signal using principal component analysis and artificial neural network
Nehra et al. Speaker identification system using CNN approach
Niesen et al. Speaker verification by means of ANNs.
JPH0352086A (ja) 自己組織化ネットワークを用いた話者照合方式
JP3058569B2 (ja) 話者照合方法及び装置