JPH04163600A - 話者認識方法 - Google Patents

話者認識方法

Info

Publication number
JPH04163600A
JPH04163600A JP2292731A JP29273190A JPH04163600A JP H04163600 A JPH04163600 A JP H04163600A JP 2292731 A JP2292731 A JP 2292731A JP 29273190 A JP29273190 A JP 29273190A JP H04163600 A JPH04163600 A JP H04163600A
Authority
JP
Japan
Prior art keywords
block
speaker
input
average
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2292731A
Other languages
English (en)
Inventor
Kazuhiko Okashita
和彦 岡下
Shingo Nishimura
新吾 西村
Masashi Miyagawa
宮川 正志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP2292731A priority Critical patent/JPH04163600A/ja
Publication of JPH04163600A publication Critical patent/JPH04163600A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその話者を同定又は照合するに好適な話者
認識方法に関する。
[従来の技術] 話者認識とは、入力音声からその話者を認識することて
あり、話者同定と話者照合の2つの形態がある。
話者同定とは入力音声が登録話者のうちのだれの声であ
るかを判定することであり、話者照合とは入力音声が登
録話者の声であるとみなせるか否かを判定することであ
る。
本出願人は、容易に★時間処理できる話者認識方法とし
て、特願平1−96’131号により、ニューラルネッ
トワークを用いて入力音声からその話者を認識するもの
を提案している。この話者認識方法にあっては、ニュー
ラルネットワークへの入力とじて、入力音声の周波数特
性を算出し、各帯域のそれぞれにおいて時間的に等分割
した音声区間のそれぞれを1つのブロックとして、各ブ
ロックの中で周波数特性の平均を算出し、それらの平均
を話者のパワー全体で正規化したものを用いることとし
ている。
[発明か解決しようとする課題] 然しながら、上述の従来技術による場合には、ニューラ
ルネットワークを構築するために標準入カバターン(学
習人カバターン)を作製する時と、構築されたニューラ
ルネットワークを使用して話者認識するために評価入カ
バターンを作製する時との間て、定常雑音の混入や回線
等の入力系の相違等によってそれらの作製条件が異なる
と、認識率の低下か見られることとなる。
この認識率の低下は、以下に解析する如く、話者のパワ
ー全体て正規化するために、スペクトル歪を消去できな
いことによる。即ち、iをブロック番号、kを帯域番号
、Akをに帯域の周波数伝送特性、S mikを学習段
階でのに帯域iブロックの音声信号、S tikを評価
段階で電話回線を通した後における如く、定常的な周波
数伝送特性Akの影響によりスペクトルか歪んだ、k帯
域iブロックの音声信号とする時、 5tik =A k−3mi である。そして、評価段階での各音声信号S tikを
話者のパワー全体で正規化したものは、S tik  
    A k S mikであって、右辺の周波数伝
送特性Akを消去てきない、即ち、スペクトル歪を消去
できないのである。
本発明は、容易に実時間処理でき、かつ高い認識率を確
保てきる話者認識方法を提供することを目的とする。
[課題を解決するための手段] 本発明は、ニューラルネットワークを用いて入力音声か
らその話者を認識する話者認識方法てあって、入力音声
の周波数特性を算出し、各帯域のそれぞれにおいて時間
的に等分割した音声区間のそれぞれを1つのブロックと
して、各ブロックの中で周波数特性の平均を算出し、そ
れらの平均を対応する帯域毎に正規化したものを、ニュ
ーラルネットワークへの入力として用いるようにしたも
のである。
[作用] 本発明によれば、下記■〜■の作用効果かある。
■ニューラルネットワークへ入力する特徴パラメータと
して「周波数特性」を用いたから、入力を得るための前
処理が、LPG相関やLPCケプストラムの如くの複雑
な特徴量抽出に比して単純て並列的に周波数分析でき、
その前処理に要する時間か短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純かつ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理か可能である。従って、演算処理か迅速である。
■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内で正規化するもの
であるため、スペクトル歪を消去てきることによる。即
ち、前述の如く、1をブロック番号、kを帯域番号、A
kをに帯域の周波数伝送特性、S■ikを学習段階ての
に帯域1ブロツクの音声信号、S tikを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Akの影響によりスペクトルか歪んだ、k帯域iブ
ロックの音声信号とする時、 S tik = A k−8aik         
−(1)である。そして、評価段階ての各音声信号S 
tikを帯域毎に正規化したものは、 であって、周波数伝送特性Akを消去てきる、即ち、ス
ペクトル歪を消去できるのである。
[実施例] 第1図は本発明か適用された話者認識システムの一例を
示す模式図である。
認識システム1は、32チヤンネルのバンドパスフィル
タ11、平均化回路12、正規化回路13、ニューラル
ネットワーク20、判定回路30の結合にて構成される
(第1図参照)。
ここて、学習単語は「タタイマ」、入力単語は「タダイ
マ」とし、入力単語と学習単語との時期差は3か月とし
た。
また、話者は(a)、(b)とした。
(a)話者同定 登録話者9名とした。
(b)話者照合 登録話者9名、詐称者27名を学習用話者とし、詐称者
10名を未学習用話者とした。
以下、認識システム1の学習動作と評価動作について詳
述する。
(学習) 1、入力作成 ■各話者の音声波形「タダイマ」を32チヤンネルのバ
ントパスフィルタ11に通し、入力音声の周波数特性を
算出する。
■バントパスフィルタ11の各帯域のそれぞれにおいて
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■て求めた周波数特性の平均を算出す
る。この学習段階における音声信号のに帯域iブロワつ
ての周波数特性の平均を、S iikとする。
■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和Σ5I
Ilikで除算し、対応する帯域毎に、 ΣS mik として正規化する。
■上記■で求めた値をニューラルネットワーク20への
入力とする。入力個数は32チャンネル×8ブロック=
256個となる。
2、学習 ■256個の入力層と、同定の時9個、照合の時2個の
出力層をもつニューラルネットワーク2oをそれぞれ用
いる。
■発声話者と出力層とを対応させ、入力話者に対応した
出力層か「1」、その他の出力層か「0」という値を目
標値にして、バックプロパゲーションにより十分学習す
る。
(評価) 1、入力作成 ■上記単語の未知話者音声波形を32チヤンネルのバン
ドパスフィルタ11に通し、入力音声の周波数特性を算
出する。
■バントパスフィルタ11の各帯域のそれぞれにおいて
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この評価段階における音声信号のに帯域iブロワつ
ての周波数特性の平均を、S tikとする。
■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和ΣS 
tikて除算し、対応する帯域毎に、   tik Σ S  tik として正規化する。
2、学習 ■上記■て求めた値をニューラルネットワーク20へ入
力する。
■ニューラルネットワーク20の出力層の値より判定回
路30にて話者を同定又は照合する。
以下、本発明の実験結果について説明する。
実験は電話音声について認識した。
(実験1:話者同定) 音声入力として、登録話者9名の学習直後の「タタイマ
」を学習し、3か月後の「タダイマ」を評価した結果、
同定率98.0%てあった。
■従来法でマイク音声を学習させ電話音声て同定した時
、同定率38.0%てあった。
■本発明方法でマイク音声を学習させ電話音声で同定し
た時、同定率94.0%であった。
(実験2:話者照合) 音声入力として、登録話者9名と詐称者27名(学習用
話者)の学習直後の「タタイマ」を学習し、登録話者9
名と詐称者27名(学習用話者)と詐称者10名(未学
習用話者)の3か列後の「タダイマ」を評価した結果、
照合率99.0%であった。
■従来法でマイク音声を学習させ電話音声て同定した時
、照合率36.0%てあった。
■本発明方法てマイク音声を学習させ電話音声で同定し
た時、照合率99.0%てあった。
以下、上記実施例の作用について説明する。
■ニューラルネットワーク20へ入力する特徴パラメー
タとして「周波数特性」を用いたから、入力を得るため
の前処理か、LPG相関やLPCケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析で
き、その前処理に要する時間が短くて足りる。
■ニューラルネットワーク20は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。
■ニューラルネットワーク20は、原理的に、それを構
成している各ユニットか独立に動作しており、並列的な
演算処理か可能である。従って、演算処理か迅速である
■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理てきる。
■定常的なスペクトル歪に強く、高い認識率を維持てき
る。これは、[作用]の■にて前述の如く、評価段階で
正規化された(4)式の如くの値か、(2)式にて解析
された如くに周波数伝送特性Akを消去されて、学習段
階で正規化された(3)式の如くの値と同等となり、雑
音の影響や回線等の入力系の相違に起因するスペクトル
歪を消去できるからである。
[発明の効果] 以上のように本発明によれば、容易に実時間処理てき、
かつ高い認識率を確保できる話者認識方法を得ることが
てきる。
【図面の簡単な説明】
第1図は本発明が適用された話者認識システムの一例を
示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 12・・・平均化回路、 13・・・正規化回路、 2o・・・ニューラルネットワーク、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨

Claims (1)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力音声からそ
    の話者を認識する話者認識方法であって、入力音声の周
    波数特性を算出し、各帯域のそれぞれにおいて時間的に
    等分割した音声区間のそれぞれを1つのブロックとして
    、各ブロックの中で周波数特性の平均を算出し、それら
    の平均を対応する帯域毎に正規化したものを、ニューラ
    ルネットワークへの入力として用いる話者認識方法。
JP2292731A 1990-10-29 1990-10-29 話者認識方法 Pending JPH04163600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2292731A JPH04163600A (ja) 1990-10-29 1990-10-29 話者認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2292731A JPH04163600A (ja) 1990-10-29 1990-10-29 話者認識方法

Publications (1)

Publication Number Publication Date
JPH04163600A true JPH04163600A (ja) 1992-06-09

Family

ID=17785596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2292731A Pending JPH04163600A (ja) 1990-10-29 1990-10-29 話者認識方法

Country Status (1)

Country Link
JP (1) JPH04163600A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877809A (zh) * 2018-06-29 2018-11-23 北京中科智加科技有限公司 一种说话人语音识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877809A (zh) * 2018-06-29 2018-11-23 北京中科智加科技有限公司 一种说话人语音识别方法及装置

Similar Documents

Publication Publication Date Title
KR0139949B1 (ko) 미지인 사람의 신원을 확인하기 위한 음성 검증 회로
US8078463B2 (en) Method and apparatus for speaker spotting
JPH02238495A (ja) 時系列信号認識装置
CN110364168B (zh) 一种基于环境感知的声纹识别方法及系统
Jadhav et al. Audio splicing detection using convolutional neural network
Stefanus et al. GMM based automatic speaker verification system development for forensics in Bahasa Indonesia
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
Singh et al. Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection.
JPH04163600A (ja) 話者認識方法
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
Sukor et al. Speaker identification system using MFCC procedure and noise reduction method
Close et al. Non intrusive intelligibility predictor for hearing impaired individuals using self supervised speech representations
JPH04163599A (ja) 話者認識方法
US5425127A (en) Speech recognition method
Higgins et al. Text-independent speaker verification by discriminator counting
Gupta et al. A predictive approach for speaker verification by machine learning and MFCC
Neelima et al. Spoofing det ection and count ermeasure is aut omat ic speaker verificat ion syst em using dynamic feat ures
JPH04121799A (ja) 音声認識方法
Camacho et al. A semi-supervised speaker identification method for audio forensics using cochleagrams
Kurian et al. PNCC for forensic automatic speaker recognition
Varshney et al. Snmf based speech denoising with wavelet decomposed signal selection
Muruganantham et al. Biometric of speaker authentication using CNN
JPH03230200A (ja) 音声認識方法
JPH02135500A (ja) 話者認識方式
JPH03230255A (ja) 音声認識方法