JPH0566798A - 話者認識方式 - Google Patents

話者認識方式

Info

Publication number
JPH0566798A
JPH0566798A JP3228943A JP22894391A JPH0566798A JP H0566798 A JPH0566798 A JP H0566798A JP 3228943 A JP3228943 A JP 3228943A JP 22894391 A JP22894391 A JP 22894391A JP H0566798 A JPH0566798 A JP H0566798A
Authority
JP
Japan
Prior art keywords
neural network
registrant
learning
speaker
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3228943A
Other languages
English (en)
Inventor
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP3228943A priority Critical patent/JPH0566798A/ja
Publication of JPH0566798A publication Critical patent/JPH0566798A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、ニューラルネットワークへの負担
を軽減させて登録者のパターンの閉空間を形成しやすく
し、認識率の向上を図ることを目的とする。 【構成】 音声の周波数特性の時間的変化をニューラル
ネットワーク5への入力とし、登録者毎に出力ユニット
の数が一個であるニューラルネットワーク5を用いて、
話者の認識を行なうことする話者認識方式。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はニューラルネットワーク
を用いた話者認識方式に関するものである。
【0002】
【従来の技術】話者認識とは、入力音声からその話者を
認識することであり、話者照合と話者同定の2つの形態
がある。
【0003】話者同定とは、入力音声が登録者のうち誰
の声であるかを判定することであり、話者照合とは、入
力音声が登録者の声であるとみなされるか否かを判定す
ることである。
【0004】そして、ニューラルネットワークによる話
者認識方式としては、例えば、特開平2−135500
号公報に記載されているものが知られている。
【0005】この話者認識方式は、例えば図8に示して
いるような階層的ニューラルネットワークが用いられて
いる。この階層的ニューラルネットワークは、入力ユニ
ット,中間ユニット,出力ユニットから構成されてい
る。この階層的ニューラルネットワークは、話者照合の
ニューラルネットワークであって、出力ユニットの数
は、登録者と非登録者とに対応する2つのユニットで構
成されている。
【0006】そして、この話者認識方式で話者照合を行
なう場合は、前処理を行なった入力音声の入力に対して
ニューラルネットワークの出力ユニットのうち出力値の
大きいユニットが登録者か非登録者かのどちらに対応し
ているかで判定するものである。
【0007】また、日本音響学会講演論文集2−6−4
ニューラルネットワークによる話者認識(1) 平成
元年3月発行〈文献1〉でも次のような話者認識方式が
発表されている。この話者認識方式は、例えば図9に示
しているように、ニューラルネットワークの出力ユニッ
トが各登録者に対応した数の(登録者と同数の)ユニッ
トで構成されている。そして、この話者認識方式で話者
照合を行なう場合は、前処理を行なった入力音声の入力
に対して各出力ユニットの出力値とあらかじめ設定され
ているしきい値Θとの比較を行ない、1ユニットのみ出
力値がしきい値Θを越え、それ以外の出力ユニットの出
力値が(1−Θ)以下であれば、登録者と判定するもの
である。
【0008】
【発明が解決しようとする課題】しかしながら、従来の
話者認識方式にあっては、話者の認識がうまく行なわれ
ない場合が生じる。以下、認識がうまく行なわれた場合
と行なわれなかった場合との特徴空間をみてみる。
【0009】まず、話者の照合がうまく行なえた場合の
特徴空間の一例を図10に示す。図中(〇)は登録者の
学習パターンで、(×)は非登録者の学習パターンであ
る。そして、話者の照合がうまく行なえた場合の特徴空
間では、登録者の学習パターン(〇)を取り囲むように
境界線が形成され、すなわち、閉空間が形成されてお
り、登録者の学習パターン(×)との分離ができてい
る。そのため、非登録者の評価パターン(△)を入力し
た場合に正しく非登録者と判定される。
【0010】次に、話者の照合がうまく行なわれなかっ
た場合の特徴空間の一例を図11に示す。話者の照合が
うまく行なわれなかった場合の特徴空間では、登録者の
学習パターン(〇)は非登録者の学習パターン(×)と
うまく分離できておらず、登録者の学習パターン(〇)
の閉空間が形成できていない。そのため、非登録者の評
価パターン(△)を入力した場合には誤って登録者と判
定される。
【0011】この誤った判定を行なう原因の1つであ
る、登録者の学習パターン(〇)の閉空間が形成できな
い現象は、従来技術で記述した(図8および図9に示し
ているような)複数の登録者を1つのニューラルネット
ワークの対象とする場合に比較的多く発生すると思われ
る。これは、複数の登録者を対象とすることでニューラ
ルネットワーク内での処理が複雑化し、ニューラルネッ
トワーク内の負担が多くなっているため、登録者のパタ
ーンを囲む閉空間の形成が困難となっている。
【0012】本発明は、ニューラルネットワークへの負
担を軽減させて登録者のパターンの閉空間を形成しやす
くし、認識率の向上を図ることを目的とする。
【0013】
【課題を解決するための手段】上記目的を達成するた
め、本発明の話者認識方式にあっては、各ニューラルネ
ットワークの対象となる登録者を1名に限定することに
より、ニューラルネットワークへの負担を軽減させるこ
ととする。
【0014】すなわち、本発明の話者認識方式にあって
は、階層的なニューラルネットワークを用いて入力音声
から話者を認識する話者認識方式であって、登録者毎に
出力ユニットの数が一個であるニューラルネットワーク
を用いて、話者の認識を行なうこととする。尚、前記ニ
ューラルネットワークへの入力としては、例えば、音声
の周波数特性の時間変化を用いることができる。
【0015】
【作用】本発明の話者認識方式では、各ネットワークの
対象となる登録者を一名に限定したために、ニューラル
ネットワークへの負担が軽減する。その結果、閉空間を
形成しやすくなり、パターンの分離をうまく行なうこと
ができる。
【0016】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。まず、本発明実施例の説明に先立ち、ニューラル
ネットワークの構成と学習アルゴリズムについて説明す
る。
【0017】図5はニューラルネットワークを示す模式
図,図6は階層的なニューラルネットワークを示す模式
図,図7はユニットの構造を示す模式図である。
【0018】(a)ニューラルネットワークの構成 ニューラルネットワークは、その構成から、図5(イ)
に示す階層的ネットワークと図5(ロ)に示す相互結合
ネットワークとの2種に大別できる。本発明は、学習ア
ルゴリズムが確立されている階層的ネットワークを用い
ている。
【0019】(b)ネットワークの構造 階層的ネットワークは、図6に示しているように、入力
層,中間層,出力層からなる階層構造をとる。結合は、
入力層→中間層→出力層という前向きの結合だけで、各
層内での結合はない。
【0020】(c) ユニットの構造 ユニットは、図7に示しているように、脳のニューロン
のモデル化である。すなわち、他のユニットから入力を
受けてその総和をとり、一定の規則(変換関数)で変換
し、結果を出力する。他のユニットとの結合には、それ
ぞれ結合の強さを表わす可変の重みを付ける。
【0021】(c) 学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には、図7に示
した各ユニットの変換関数および重みを変化させて学習
を行なう。
【0022】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING,the
MITPress,1986.〈文献2〉に記載されているバックプロ
パゲーションを用いることができる。
【0023】以下、本発明実施例の話者認識方式に基づ
いて作動を行なう話者認識装置を図面に基づいて説明す
る。図1は話者認識装置の構成図で、この話者認識装置
は、登録者数設定部1と、音声入力部2と、前処理部1
2と、複数のニューラルネットワーク5と、モード切替
部6と、話者判定部7と、誤差計算部8と、目標値設定
部9と、学習状況判定部10と、ニューラルネットワー
ク修正部11と、から構成されている。
【0024】前記前処理部12は、前記音声入力部2に
入力される音声を、N個のブロックに時間的に等分割
し、複数(n個)チャンネルを有するバンドパスフィル
タ31,32…,3nに通して各ブロック毎、すなわち
一定時間毎の周波数特性を得るものである。また、この
前処理部12には、平均化回路41,42,… 4nが
設けられており、バンドパスフィルタ31,32…,3
nの出力は、各ブロック毎に平均化回路41,42,…
4nで平均化される。
【0025】前記ニューラルネットワーク5は、図2に
示しているように、入力ユニットと、中間ユニットと、
出力ユニットとから構成されている。この入力ユニット
の数は、前記前処理部12のN個のブロックとnチャン
ネルに対応するN×n個であり、出力ユニットの数は1
個である。
【0026】また、このニューラルネットワーク5は、
学習方法により話者同定と話者照合のどちらの形態も実
現できるものである(図1および図2においては、話者
照合ニューラルネットワークのみ図示している)。
【0027】前記モード切替部6は、前記ニューラルネ
ットワーク5の出力先を話者判定部7か、誤差計算部8
かに切換えるものである。
【0028】前記話者判定部7は、前記各ニューラルネ
ットワーク5の出力値から話者の判定を行なうもので、
以下の判定方法が設定されている。
【0029】話者同定においては、形成されている複数
のニューラルネットワーク5のうち出力ユニットから最
大の出力値を出力したニューラルネットワーク5に対応
する登録者を話者と判定する。
【0030】話者照合においては、形成されている複数
のニューラルネットワーク5の出力値に対し、しきい値
Θ(0.5<Θ<1.0)が設定されており、1ユニッ
トの出力値がΘ以上、その他のユニットからの出力値が
(1−Θ)以下の場合に登録者と判断し、それ以外の場
合は非登録者と判定する。
【0031】前記目標値設定部9は、前記ニューラルネ
ットワーク5の出力値、すなわち、出力ユニットの出力
値の目標値を設定するものである。実施例の各ニューラ
ルネットワーク5の目標値を表1に示す。
【0032】
【表1】
【0033】前記誤差計算部8は、前記目標値設定部9
で設定されている目標値と実際にニューラルネットワー
ク5から出力される出力値との誤差の平均値Gを計算す
るものである。
【0034】前記学習状況判定部10は、前記誤差計算
部8によって計算された誤差値Gがあらかじめ設定され
ている設定値M(例えば1×10-4)以下の場合は、学
習が収束したと判断し、学習を終了させ、設定値以上で
あれば、まだ学習が収束していないと判断し、前記ニュ
ーラルネットワーク修正部11によって学習を行なわせ
る。
【0035】前記ニューラルネットワーク修正部11
は、出力ユニットの出力値を目標値に近づけるように修
正を行なう。この修正は学習アルゴリズム(バックプロ
ゲーション)にしたがってニューラルネットワーク5の
結合の重みを修正するものである。
【0036】図3は話者認識装置の作動の流れを示すフ
ローチャートで、以下各ステップについて説明する。
【0037】ステップ100では、登録者の数を設定す
る。これにより用いられるニューラルネットワーク5の
数が決定する。
【0038】ステップ101では、学習モードであるか
評価モードであるか判断し、学習モードであればステッ
プ102へ進み、評価モードであればステップ109へ
進む。
【0039】ステップ102では、各ニューラルネット
ワーク5の出力値の目標値を設定する。ステップ103
では、学習試料の音声を入力する。
【0040】ステップ104では入力した音声の前処理
を行なう。
【0041】ステップ105では、ステップ104で得
られた入力音声のパターンを各ニューラルネットワーク
5に入力する。
【0042】ステップ106では、ステップ105で入
力したパターンによる出力値と設定した目標値との間の
誤差の平均値Gを算出する。
【0043】ステップ107では、ステップ106で算
出した誤差の平均値Gがある設定値M以下であればステ
ップ101へ進み、設定値M以上であればステップ10
8へ進む。
【0044】ステップ108では、学習アルゴリズム
(バックプロパゲーション)に従い、ニューラルネット
ワーク5の結合の重みの修正を行ない、ステップ105
へ進む。
【0045】ステップ109では、評価試料の音声を入
力する。
【0046】ステップ110では、ステップ109で入
力された音声の前処理を行なう。
【0047】ステップ111では、ステップ110で得
られた入力音声のパターンをニューラルネットワーク5
の入力ユニットに入力する。
【0048】ステップ112では、入力パターンに対し
て得られた出力パターンにより、設定された判定方法に
より話者の判定を行ない、ステップ101へ進む。
【0049】次に、本実施例の話者認識方式について説
明する。前記話者認識方式は、学習作業を行なった後、
評価を行なう。尚、ここでは、登録者を5名、学習試料
の単語を「タダイマ」とし、学習試料数を登録者5名で
100パターンと非登録者25名で100パターンとし
た場合を説明する。
【0050】(1)学習時 まず、モード切替部6にてモードを学習モードに設定す
る。そして、音声入力部2より学習試料の音声を入力す
る。入力された音声は、次の前処理が行なわれる。
【0051】まず、入力音声の「タダイマ」は時間的に
N個のブロックに等分割する。そして、ブロックに分割
された音声を複数(n個)チャンネルを有するバンドパ
スフィルタ31,32…,3nに通してブロック毎に平
均化回路 41,42,…4nで平均化し、一定時間毎
の周波数特性を得る。
【0052】次に、上記の前処理の結果をニューラルネ
ットワーク5の入力ユニットに入力する。ニューラルネ
ットワーク5の出力ユニットから出力値は、誤差演算部
8に入力され、目標値設定部9に設定されている目標値
との間の誤差値を計算し、全出力値を平均した誤差の平
均値Gを計算する。誤差の平均値Gは学習状況判定部1
0に入力され、誤差の平均値Gが設定値M(1×1
-4)以下の場合は、学習が打ち切られ、それ以上であ
ればニューラルネットワーク修正部11で学習アルゴリ
ズムに従い、各ニューラルネットワーク5の変換関数お
よびニューラルネットワーク5の結合の重みを変化させ
て出力値を目標値へ近づける。
【0053】(2)評価時 まず、モード切替部6にてモードを評価モードに設定す
る。音声入力部2より評価試料を入力する。入力音声に
は上記のような前処理が行なわれた後、各ニューラルネ
ットワーク5の入力ユニットに入力する。
【0054】そして、各ニューラルネットワーク5の出
力ユニットから出力される出力値は話者判定部7に入力
され、話者判定部7に設定されている判定方法に応じて
判定する。
【0055】ここで、判定方法の一例として、話者照合
を行なった場合を示す。入力音声に対してニューラルネ
ットワーク5の出力が図4に示しているような結果が得
られた場合、登録者2の1ユニットの出力値のみΘ以上
となり、その他の登録者のユニットの出力値が(1−
Θ)以下であるので、入力音声は登録者の音声と判断す
る。
【0056】ここで、実施例の話者認識方式にあって
は、各ニューラルネットワーク5の対象となる登録者を
1名に限定しているため、従来の話者認識方式と比べ、
ニューラルネットワーク5への負担を軽減することがで
き、登録者パターンの閉空間が形成しやすくなってパタ
ーンの分離をうまく行なうことができ、認識率の向上を
図ることができる。
【0057】(3) 結果 実施例の話者認識装置を用いて話者認識の評価を行なっ
た結果、従来の話者認識方式に対して、同定誤り率にお
いて5%の改善がみられ、また、照合誤り率において1
2%の改善がみられた。
【0058】尚、評価試料数は登録者175パターンお
よび非登録者130パターンとした。
【0059】
【発明の効果】以上説明してきたように、登録者毎に出
力ユニットの数が一個であるニューラルネットワークを
用いて、各ニューラルネットワークの対象となる登録者
を1名に限定したために、ニューラルネットワークへの
負担を軽減することができ、登録者パターンの閉空間が
形成しやすくなってパターンの分離をうまく行なうこと
ができ、認識率の向上を図ることができるという効果が
得られる。
【図面の簡単な説明】
【図1】実施例の話者認識方式で作動する話者認識装置
を示す構成図である。
【図2】実施例のニューラルネットワークを示す模式図
である。
【図3】実施例の話者認識装置の作動の流れを示すフロ
ーチャートである。
【図4】実施例の話者認識方式による話者照合における
出力ユニットの結果を示す各ユニットと出力値との関係
図である。
【図5】ニューラルネットワークを示す模式図である。
【図6】階層的なニューラルネットワークを示す模式図
である。
【図7】ユニットの構造を示す模式図である。
【図8】従来技術のニューラルネットワークを示す模式
図である。
【図9】従来技術のニューラルネットワークを示す模式
図である。
【図10】従来技術の話者認識方式におけるパターンの
分離を示す特徴空間図である。
【図11】従来技術の話者認識方式におけるパターンの
分離を示す特徴空間図である。
【符号の説明】
1 登録者数設定部 2 音声入力部 5 ニューラルネットワーク 6 モード切替部 7 話者判定部 8 誤差計算部 9 目標値設定部 10 学習状況判定部 11 ニューラルネットワーク修正部 12 前処理部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 階層的なニューラルネットワークを用い
    て入力音声から話者を認識する話者認識方式であって、
    登録者毎に出力ユニットの数が一個であるニューラルネ
    ットワークを用いて、話者の認識を行なうことを特徴と
    する話者認識方式。
  2. 【請求項2】 前記ニューラルネットワークへの入力と
    して音声の周波数特性の時間変化を用いることを特徴と
    する請求項1の話者認識方式。
JP3228943A 1991-09-09 1991-09-09 話者認識方式 Pending JPH0566798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3228943A JPH0566798A (ja) 1991-09-09 1991-09-09 話者認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3228943A JPH0566798A (ja) 1991-09-09 1991-09-09 話者認識方式

Publications (1)

Publication Number Publication Date
JPH0566798A true JPH0566798A (ja) 1993-03-19

Family

ID=16884286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3228943A Pending JPH0566798A (ja) 1991-09-09 1991-09-09 話者認識方式

Country Status (1)

Country Link
JP (1) JPH0566798A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509254A (ja) * 2013-01-10 2016-03-24 センソリー・インコーポレイテッド 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509254A (ja) * 2013-01-10 2016-03-24 センソリー・インコーポレイテッド 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定

Similar Documents

Publication Publication Date Title
US5461697A (en) Speaker recognition system using neural network
EP1704668B1 (en) System and method for providing claimant authentication
JPH02238495A (ja) 時系列信号認識装置
JPH0819008A (ja) トーン検出確認方法
JPH0566798A (ja) 話者認識方式
EP0369485B1 (en) Speaker recognition system
JPH05257496A (ja) 単語認識方式
JPH03157698A (ja) 話者認識システム
JP2559506B2 (ja) 話者照合システム
JP2518940B2 (ja) 話者照合システム
JPH05119798A (ja) 単語認識方式
JP3606982B2 (ja) パターン認識装置
JP2518939B2 (ja) 話者照合システム
JPH05257495A (ja) 単語認識方式
JPH04152397A (ja) 音声認識装置
JPH0566797A (ja) 単語認識方式
JPH05313697A (ja) 話者認識方式
JPH05313689A (ja) 話者認識方式
JPH03276199A (ja) 話者認識方法
JPH02273798A (ja) 話者認識方式
JP3505931B2 (ja) 音声認識装置
JPH01222299A (ja) 音声認識装置
JPH02135500A (ja) 話者認識方式
JPH04121796A (ja) 単語認識方式
JPH03276200A (ja) 話者認識方法