JPH05143094A - 話者認識システム - Google Patents

話者認識システム

Info

Publication number
JPH05143094A
JPH05143094A JP3310735A JP31073591A JPH05143094A JP H05143094 A JPH05143094 A JP H05143094A JP 3310735 A JP3310735 A JP 3310735A JP 31073591 A JP31073591 A JP 31073591A JP H05143094 A JPH05143094 A JP H05143094A
Authority
JP
Japan
Prior art keywords
noise
learning
learning pattern
pattern
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3310735A
Other languages
English (en)
Inventor
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP3310735A priority Critical patent/JPH05143094A/ja
Publication of JPH05143094A publication Critical patent/JPH05143094A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 ニューラルネットワークによる話者認識シス
テムにおいて、学習パターンに雑音を重畳し、疑似的に
パターン数を増やすことにより、認識率の向上を図るこ
と。 【構成】 ニューラルネットワーク17を用いて入力音
声からその話者を認識する話者認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定するようにしたものであ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はニューラルネットワーク
による話者認識システムに関する。
【0002】
【従来の技術】一般に、ニューラルネットワークの学習
パターンとして、雑音を重畳したパターンを用いると、
変動が加わったパターンに対する能力が向上することが
報告されている(沢井、音響講論、2-P-12、平成 2年9
月「時間・周波数変動に強い時間遅れ神経回路網(TD
NN)」)。
【0003】また、本出願人が出願したニューラルネッ
トワークによる話者認識システム(特願昭63-291837 )
において、登録者、非登録者の学習パターンは実際に発
声された音声試料から抽出したものであった。
【0004】
【発明が解決しようとする課題】然しながら、上記従来
のニューラルネットワークによる話者認識システムで
は、音声試料から抽出したパターンしか学習していない
ため、変動が加わったパターンが入力された場合、誤認
識する場合があった。この傾向は特に、学習用に数多く
の音声試料が用意できなかった場合、顕著であった。
【0005】本発明は、ニューラルネットワークによる
話者認識システムにおいて、学習パターンに雑音を重畳
し、疑似的にパターン数を増やすことにより、認識率の
向上を図ることを目的とする。
【0006】
【課題を解決するための手段】請求項1に記載の本発明
は、ニューラルネットワークを用いて入力音声からその
話者を認識する話者認識システムにおいて、計算によっ
て学習パターンに雑音を重畳し、疑似的に学習パターン
を増やすに際し、加える雑音の大きさの上限を、実際の
音声試料から抽出した学習パターンにおける隣接データ
との差を基準に設定するようにしたものである。
【0007】請求項2に記載の本発明は、ニューラルネ
ットワークを用いて入力音声からその話者を認識する話
者認識システムにおいて、計算によって学習パターンに
雑音を重畳し、疑似的に学習パターンを増やすに際し、
加える雑音の大きさの上限を、実際の音声試料から抽出
した学習パターンにおける隣接データとの差を基準に設
定し、更に、加える雑音の大きさと符号に、元のパター
ンの概形を崩さないような制限を加えるようにしたもの
である。
【0008】請求項3に記載の本発明は、請求項1又は
2に記載の本発明において更に、前記ニューラルネット
ワークへの入力として、音声の周波数特性の時間的変化
を用いるようにしたものである。
【0009】
【作用】本発明にあっては、学習パターンに雑音を重畳
し、疑似的にパターン数を増やすことにより、認識率の
向上を図る。その際、加える雑音は一様乱数などにより
作成するが、例えば、以下のような制限を加える。
【0010】(1) 雑音の大きさの上限は、音声試料から
抽出したパターンにおける隣接データとの差を基準に設
定する。その一例を図2(A)、(B)に示す(大黒丸
は雑音を重畳するデータ、小黒丸は隣接する2つのデー
タを示す)。
【0011】(2) 上記(1) に加えて更に雑音の大きさ及
び符号は、元の音声試料から抽出したパターンの概形を
崩さないように設定する。加える制限の一例を図3
(A)〜(C)に示す。
【0012】[制限 1]雑音を重畳するデータが、隣接
する2つのデータより小さい場合 雑音重畳後のデータは、図3(A)に示す如く、隣接す
る2つのデータの内、小さな方のデータより小さいこ
と。 [制限 2]雑音を重畳するデータが、隣接す2つのデー
タより大きい場合 雑音重畳後のデータは、図3(B)に示す如く、隣接す
る2つのデータの内、大きな方のデータより大きいこ
と。 [制限 3]雑音を重畳するデータが、隣接する2つのデ
ータに挟まれる場合 雑音重畳後のデータは、図3(C)に示す如く、隣接す
る2つのデータの間にあること。
【0013】然るに、本発明によれば、下記〜の作
用がある。 請求項1においては、雑音の大きさの上限を、隣接デ
ータとの差を基準に設定するため、隣接データとの差が
大きい(変動の大きい)部分では加える雑音を大きく、
逆に、隣接データとの差が小さい(変動の小さい)部分
では加える雑音を小さく設定できる。
【0014】請求項2においては、更に、雑音の大き
さ及び符号は、元の音声試料から抽出したパターンの概
形を崩さないように設定するため、元のパターンとかけ
離れた形状を持つパターンを作成することを防ぐ。
【0015】上記、の方式で重畳することによ
り、疑似的に学習パターン数が増え、変動が加わったパ
ターンに対しても、正しく認識できるようになる。ま
た、より少ない音声試料で高い認識率が得られる。
【0016】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
【0017】(1)ニューラルネットワークは、その構造
から、図4(A)に示す階層的ネットワークと図4
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
【0018】(2)ネットワークの構造 階層的ネットワークは、図5に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
【0019】(3)ユニットの構造 ユニットは図6に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
【0020】(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には図6に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
【0021】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
【0022】
【実施例】図1は本発明が適用された話者認識システム
の一例を示すブロック図、図2は加える雑音の大きさの
制限例を示す模式図、図3は加える雑音の大きさの他の
制限例を示す模式図、図4はニューラルネットワークを
示す模式図、図5は階層的なニューラルネットワークを
示す模式図、図6はユニットの構造を示す模式図、図7
は入力音声を示す模式図、図8はバンドパスフィルタの
出力を示す模式図である。
【0023】(A) 学習パターンの作成 音声入力部11により採取した音声試料を前処理部1
2により前処理することにて、学習パターンを得る。こ
の学習パターンを学習パターン記憶部13に記憶する。
【0024】尚、前処理部12は、バンドパスフィルタ
と平均化回路にて構成される。これにより、前処理部1
2は、入力音声を図7に示す如く、4つのブロックに時
間的に等分割する。そして、前処理部12は、各ブロッ
クの音声波形を複数チャンネルのバンドパスフィルタに
通し、各ブロック毎、即ち各一定時間毎に図8(A)〜
(D)のそれぞれに示す如くの周波数特性を得る。この
とき、バンドパスフィルタの出力は、各ブロック毎に平
均化回路で平均化され、学習パターンとされる。
【0025】雑音生成部14により一様乱数等により
雑音を作成し、この雑音の大きさ、符号に雑音制限部1
5により前述した図2(A)、(B)、図3(A)〜
(C)の如くの制限を加え、この制限を加えられた雑音
を雑音重畳部16において上述の学習パターンに重畳
し、疑似学習パターンを得る。この疑似学習パターンを
学習パターン記憶部13に記憶し、学習パターン数を増
やす。
【0026】即ち、上記、により、登録者 5名(40
パターン)、非登録者10名(40パターン)の音声試料か
ら抽出したパターンに雑音を重畳し、登録者、非登録者
各々160 の雑音重畳パターンを作成する。
【0027】(B) 学習 学習パターン記憶部13に記憶した上記(A) の全ての学
習パターン(登録者200 パターン、非登録者200 パター
ン)を用いて、ニューラルネットワーク17を学習す
る。即ち、前述した学習アルゴリズムのバックプロパゲ
ーションにより、入力に対する出力のエラーが一定レベ
ルに収束するまで、多数回学習させ、一定認識率を保証
し得るニューラルネットワーク17を構築する。
【0028】(C) 認識 音声入力部11及び前処理部12を用い、登録者及び非
登録者の評価パターンを、学習後のニューラルネットワ
ーク17に入力として与え、判定部18により判定した
結果、雑音を重畳しないときに比べて、誤り率において
16%の改善がみられた。
【0029】即ち、本実施例によれば、疑似的に学習パ
ターン数を増やすことにより、変動が加わったパターン
に対しても、正しく認識できるようになる。また、より
少ない音声試料で高い認識率が得られる。
【0030】
【発明の効果】本発明によれば、ニューラルネットワー
クによる話者認識システムにおいて、学習パターンに雑
音を重畳し、疑似的にパターン数を増やすことにより、
認識率の向上を図ることができる。
【図面の簡単な説明】
【図1】図1は本発明が適用された話者認識システムの
一例を示すブロック図である。
【図2】図2は加える雑音の大きさの制限例を示す模式
図である。
【図3】図3は加える雑音の大きさの他の制限例を示す
模式図である。
【図4】図4はニューラルネットワークを示す模式図で
ある。
【図5】図5は階層的なニューラルネットワークを示す
模式図である。
【図6】図6はユニットの構造を示す模式図である。
【図7】図7は入力音声を示す模式図である。
【図8】図8はバンドパスフィルタの出力を示す模式図
である。
【符号の説明】
11 音声入力部 12 前処理部 13 学習パターン記憶部 14 雑音生成部 15 雑音制限部 16 雑音重畳部 17 ニューラルネットワーク 18 判定部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ニューラルネットワークを用いて入力音
    声からその話者を認識する話者認識システムにおいて、
    計算によって学習パターンに雑音を重畳し、疑似的に学
    習パターンを増やすに際し、加える雑音の大きさの上限
    を、実際の音声試料から抽出した学習パターンにおける
    隣接データとの差を基準に設定することを特徴とする話
    者認識システム。
  2. 【請求項2】 ニューラルネットワークを用いて入力音
    声からその話者を認識する話者認識システムにおいて、
    計算によって学習パターンに雑音を重畳し、疑似的に学
    習パターンを増やすに際し、加える雑音の大きさの上限
    を、実際の音声試料から抽出した学習パターンにおける
    隣接データとの差を基準に設定し、更に、加える雑音の
    大きさと符号に、元のパターンの概形を崩さないような
    制限を加えることを特徴とする話者認識システム。
  3. 【請求項3】 前記ニューラルネットワークへの入力と
    して、音声の周波数特性の時間的変化を用いる請求項1
    又は2記載の話者認識システム。
JP3310735A 1991-11-26 1991-11-26 話者認識システム Pending JPH05143094A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3310735A JPH05143094A (ja) 1991-11-26 1991-11-26 話者認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3310735A JPH05143094A (ja) 1991-11-26 1991-11-26 話者認識システム

Publications (1)

Publication Number Publication Date
JPH05143094A true JPH05143094A (ja) 1993-06-11

Family

ID=18008858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3310735A Pending JPH05143094A (ja) 1991-11-26 1991-11-26 話者認識システム

Country Status (1)

Country Link
JP (1) JPH05143094A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959873B2 (en) 2016-03-11 2018-05-01 Panasonic Intellectual Property Corporation Of America Method for generating unspecified speaker voice dictionary that is used in generating personal voice dictionary for identifying speaker to be identified
JP2022042460A (ja) * 2020-09-02 2022-03-14 ネイバー コーポレーション 増強された一貫性正規化を利用した音声認識モデル学習方法およびシステム
WO2023135788A1 (ja) * 2022-01-17 2023-07-20 日本電信電話株式会社 音声処理学習方法、音声処理学習装置、およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959873B2 (en) 2016-03-11 2018-05-01 Panasonic Intellectual Property Corporation Of America Method for generating unspecified speaker voice dictionary that is used in generating personal voice dictionary for identifying speaker to be identified
JP2022042460A (ja) * 2020-09-02 2022-03-14 ネイバー コーポレーション 増強された一貫性正規化を利用した音声認識モデル学習方法およびシステム
WO2023135788A1 (ja) * 2022-01-17 2023-07-20 日本電信電話株式会社 音声処理学習方法、音声処理学習装置、およびプログラム

Similar Documents

Publication Publication Date Title
WO2006000103A1 (en) Spiking neural network and use thereof
JPH06161496A (ja) 家電製品のリモコン命令語を認識するための音声認識システム
AU655235B2 (en) Signal processing arrangements
JPH05143094A (ja) 話者認識システム
JPH05181500A (ja) 単語認識システム
JPH0462599A (ja) 雑音除去装置
JP2510301B2 (ja) 話者認識システム
JP2736361B2 (ja) ニューラルネット構成方法
JPH05204399A (ja) 不特定話者音素認識方法
JP2518939B2 (ja) 話者照合システム
JPH03230200A (ja) 音声認識方法
JPH02273798A (ja) 話者認識方式
JPH02273799A (ja) 話者認識方式
JP2559506B2 (ja) 話者照合システム
JP2518940B2 (ja) 話者照合システム
Nava Implementation of neuro-fuzzy systems through interval mathematics
Timms et al. Speaker verification utilising artificial neural networks and biometric functions derived from time encoded speech (TES) data
JPH0494000A (ja) 音声認識装置
JPH02195399A (ja) 男女声の識別方式
CN115132221A (zh) 一种人声分离的方法、电子设备和可读存储介质
JPH02289899A (ja) 音声検出方式
JPH02304497A (ja) 単語認識方式
JPH03276199A (ja) 話者認識方法
JPH02135500A (ja) 話者認識方式
JPH04295900A (ja) 話者認識システム