JPH0415699A - 話者認識システム - Google Patents

話者認識システム

Info

Publication number
JPH0415699A
JPH0415699A JP2120866A JP12086690A JPH0415699A JP H0415699 A JPH0415699 A JP H0415699A JP 2120866 A JP2120866 A JP 2120866A JP 12086690 A JP12086690 A JP 12086690A JP H0415699 A JPH0415699 A JP H0415699A
Authority
JP
Japan
Prior art keywords
speaker
neural network
input
registered
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2120866A
Other languages
English (en)
Inventor
Hidekazu Tsuda
津田 英一
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP2120866A priority Critical patent/JPH0415699A/ja
Publication of JPH0415699A publication Critical patent/JPH0415699A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は話者認識システムに関する。
[従来の技術] 従来、セキュリティシステム等で、登録者本人であるか
否かを照合する時、IDカードや暗唱番号を入力する方
法か採用されている。然しなから、これらの照合方法で
は、IDカートの盗難、暗唱番号の漏洩により、必ずし
も登録者本人でなくても照合可能てあった。
そこて従来、特開昭59−180665号公報に記載の
如く、暗唱番号を音声認識することにて、登録者本人で
あることを照合する方法か提案されている。
[発明か解決しようとする課題] 然しなから、従来技術では、音声認識のみによって話者
照合を行なっており、発声した入力話者の特定を行なっ
ていないため、この場合でも、必ずしも登録話者本人で
なくても照合可能となるという不都合かある。
本発明は、登録話者本人であることを確実に認識できる
話者認識システムを提供することを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、複数の各登録話者毎にキー
ワードを設定し、話者を認識する話者認識システムにお
いて、話者照合により入力話者か登録話者か否かを判定
するための話者照合ニューラルネットワークと、話者同
定により入力話者か登録話者中の誰であるかを判定する
ための話者同定ニューラルネットワークと、入力音声単
語か上記話者同定ニューラルネットワークにて同定した
話者のキーワードと合致するか否かを判定する単語認識
ニューラルネットワークとを有して構成され、話者照合
ニューラルネットワークの出力により入力話者が登録話
者か否かを判定し、話者同定ニューラルネットワークの
出力により入力話者が登録話者中の誰であるかを判定し
、単語認識ニューラルネットワークの出力により入力音
声単語が同定した話者のキーワードと合致するか否かを
判定することにより、話者の認識を行なうようにしたも
のである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用するようにしたものである。
[作用] 請求項1に記載の本発明によれば、下記■の作用効果が
ある。
■話者照合ニューラルネットワークの出力により入力話
者が登録話者であるか否かを判定できる。又、話者同定
ニューラルネットワークの出力により入力話者か登録話
者中の誰であるかを判定し、かつ単語認識ニューラルネ
ットワークの出力により同定した話者が本人のキーワー
ドを言っているか否かを判定できる。
即ち、話者照合、話者同定、単語認識の3重のチエツク
を設けることにより、入力話者が登録話者本人であるこ
とを確実に認識できる。
請求項2に記載の本発明によれば、下記■の作用かある
■ニューラルネットワークへの入力として、請求項1に
記載の■〜■の各要票のうちの1つ以上を用いるから、
入力を得るための前処理か単純となり、この前処理に要
する時間が短くて足りるため、話者認識システムを複雑
な処理装置によることなく容易に実時間処理できる。
[実施例コ 第1図は本発明の一実施例を示すブロック図、第2図は
本発明の一実施例を示す流れ図である。
話者認識システム10は、音声入力部11、前処理部1
2、話者照合ニューラルネットワーク21、話者同定ニ
ューラルネットワーク22、単語認識ニューラルネット
ワーク23、話者照合判定部31、最終判定部32にて
構成される。
以下、話者認識システム10の各部の構成について説明
する。
(1)前処理部 前処理部12は、入力音声に簡単な前処理を施し、各ニ
ューラルネットワーク21〜23への入力データを作成
する。
前処理部12の具体的構成を例示すれば以下の如くであ
る。
即ち、前処理部12としては、ローパスフィルタ、バン
トパスフィルタ、平均化回路の結合からなるものを用い
ることができる。
■入力音声の音声信号の高域の雑音成分を、ローパスフ
ィルタにてカットする。そして、この入力音声を4つの
ブロックに時間的に等分割する。
■音声波形を、複数(n個)チャンネルのバントパスフ
ィルタに通し、各ブロック即ち各一定時間毎の周波数特
性を得る。
この時、バンドパスフィルタの出力信号は、平均化回路
にて、各ブロック毎、即ち各一定時間で平均化される。
以上の前処理により、「音声の一定時間内における平均
的な周波数特性の時間的変化」か得られる。
(2)話者照合ニューラルネットワーク話者照合ニュー
ラルネットワーク21は、話者照合により入力話者か登
録話者か否かを判定する。
話者照合ニューラルネットワーク21の具体的構成を例
示すれば、以下の如くである。
■構造 話者照合ニューラルネットワーク21は例えば3層バー
セブトロン型であり、入カニニット数は前処理部12の
4ブロツク、nチャンネルに対応する4n個、出カニニ
ット数は登録話者群とその他の群のそれぞれに対応する
2個である。
■学習 目標値は、■登録話者群については対応する出カニニッ
トの出力値を1、その他の群に対応する出カニニットの
出力値を0、■その他の群については上記■と逆とする
(a)登録話者の音声に前処理部12による前処理を施
し、話者照合ニューラルネットワーク21に入力する。
目標値に近づくように話者照合ニューラルネットワーク
21の重みと変換関数を修正する。
(b)非登録話者の音声に前処理部12による前処理を
施し、話者照合ニューラルネットワーク21に入力する
。目標値に近づくように話者照合ニューラルネットワー
ク21の重みと変換関数を修正する。
(a)、(b)を目標値と出カニニットの出力値の誤差
か、十分に小さな値(例えば、I X 10−’)にな
るまて繰り返す。
(3)話者同定ニューラルネットワーク話者同定ニュー
ラルネットワーク22は、話者同定により入力話者が登
録話者中の誰であるかを判定する。
話者同定ニューラルネットワーク22の具体的構成を例
示すれば、以下の如くである。
■構造 話者同定ニューラルネットワーク22は例えば3層バー
セブトロン型であり、入カニニット数は前処理部12の
4ブロツク、nチャンネルに対応する4n個、出カニニ
ット数は登録話者と同数個である。
■学習 目標値は、登録話者について対応する出カニニットの出
力値を 1、その他の出力値を0とする。
(a)登録話者の音声に前処理部12による前処理を施
し、話者同定ニューラルネットワーク22に入力する。
目標値に近づくように話者同定ニューラルネットワーク
22の重みと変換関数を修正する。
(a)を目標値と出カニニットの出力値の誤差が、十分
に小さな値(例えば、I X 1(1−’)になるまで
繰り返す。
(4)単語認識ニューラルネットワーク単語認識ニュー
ラルネットワーク23は、入力音声単語が上記話者同定
ニューラルネットワーク22にて同定した話者のキーワ
ードと合致するか否かを判定する。
単語認識ニューラルネットワーク23の具体的構成を例
示すれば、以下の如くである。
■構造 単語認識ニューラルネットワーク23は例えば3層バー
セブトロン型であり、入カニニット数は前処理部12の
4ブロツク、nチャンネルに対応する40個、出カニニ
ット数はキーワード数と同数個である。
■学習 目標値は、キーワードについて対応する出カニニットの
出力値を 1、その他の出力値を 0とする。
(a)キーワードの音声に前処理部12による前処理を
施し、単語認識ニューラルネットワーク23に入力する
。目標値に近づくように単語認識ニューラルネットワー
ク23の重みと変換関数を修正する。
(a)を目標値と出カニニットの出力値の誤差か、十分
に小さな値(例えば、I X 10−’)になるまて繰
り返す。
(5)話者照合判定部 話者照合判定部31は、話者照合ニューラルネットワー
ク21の出力を得て、該ニューラルネットワーク21の
登録話者群の出カニニットの値か予め定めたしきい値よ
り大きい場合、入力話者か登録話者であるものと判定す
る。
話者照合判定部31は、入力話者か登録話者であるもの
と判定した時、話者同定ニューラルネットワーク22と
単語認識ニューラルネットワーク23を駆動せしめる。
(6)最終判定部 最終判定部32は、話者同定ニューラルネットワーク2
2の出力を得て、該ニューラルネットワーク22のいず
れかの登録話者の出カニニットの値か予め定めたしきい
値より大きい場合、入力話者が登録話者のうちでその出
カニニットに対応する誰であるかを判定する。
又、最終判定部32は、単語認識ニューラルネットワー
ク23の出力を得て、該ニューラルネットワーク23の
いずれかのキーワードの出力ユニッートの値が予め定め
たしきい値より大きい場合、入力音声単語かその出カニ
ニットに対応するキーワードであるものと判定する。
結果どして、最終判定部32は、話者同定ニューラルネ
ットワーク22か同定した話者か、本人のキーワードを
言っているかを否かを判定することになる。これにより
話者認識を完了する。
以下、上記話者認識システム10の具体的実施結果につ
いて説明する。
(1)登録話者として5名を用い、各登録話者のキーワ
ードとして当該登録話者の姓を用いた。
(2)登録話者5名、非登録話者25名の音声試料(キ
ーワード)に前処理を施し、64次元の特徴ベクトル(
4ブロツク×16チヤンネル)を得た。これを学習デー
タとし、各ニューラルネットワーク21〜23を構築し
た。
(3)上記ニューラルネットワーク21〜23を用い、
下記■〜■により話者認識を行なった(第2図参照)。
■話者照合ニューラルネットワーク21の出力により話
者照合を行なう。
■上記■により入力話者を登録話者として照合した時、
話者同定ニューラルネットワーク22の出力により登録
話者の特定を行なう。
■上記■の登録話者について、入力音声単語か予め登録
したキーワードと合致するか否かを単語認識ニューラル
ネットワーク23の出力により判定する。これにより、
本人であるか否かを判定する。
(4)上記(3)の結果、照合率94.5%か得られた
尚、上記実施例ては1話者照合ニューラルネットワーク
21の判定結果か登録話者を判定したことを条件に、話
者同定ニューラルネットワーク22と単語認識ニューラ
ルネットワーク23を駆動することとした。然しながら
、本発明の実施にあっては、ニューラルネットワーク2
1〜23の全ニューラルネットワークを略同時に並列駆
動し、全ニューラルネットワークの出力を判定部にて略
同時判定し、請求項1に記載の判定動作を行なわせるこ
ともできる。
又、前述の前処理部12により、入力音声を前処理して
作成されるニューラルネットワークへの入力としては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用できる。
そして、上記■の要素は「音声の一定時間内における平
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は[音声の一定時間内における平
均的なPARCOR係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることかてきる
尚、上記■の線形予測係数は、以下の如く定義される。
即ち、音声波形のサンプル値(χ。)の間には、一般に
高い近接相関かあることか知られている。
そこで次のような線形予測が可能であると仮定する。
八 線形予測値  χ、=−Σα1χ、−1  ・・・(1
)線形予測誤差 ε、=χ、−χ、  ・・・(2)こ
こで、χ、:時刻tにおける音声波形のサンプル値、(
αム)(i=1.・・・、p): (p次の)線形予測
係数 さて、本発明の実施においては、線形予測誤差εtの2
乗平均値が最小となるように線形予測係数(α、)を求
める。
具体的には (ε )2を求め、その時間平均を(c 
tl”と表わシテ、δ(tt)” /a a 、 =0
. i=1.2.・・・、pとおくことによって、次の
式から(a、)か求められる。
Σ a III−Jl  =0.j=1 .2 、−、
p   −(3)又、上記■のPAR(:OR係数は以
下の如く定義される。
即ち、[knl (n =1 、 ”・、p )を(p
次の)PARCOR係数(偏自己相関係数)とする時、
PARCOR係数k nilは、線形予測による前向き
残差ε (f)と後向き残差ε、−(。。)(6)間の
正規化相関係数として、次の式によって定義される。
・・・(4) ここで・εt1ゝ2χt−Σ α五χt−1、(α五)
 :前向き予測係数、 tt−(。。0.=え、−1゜+11   ”T−β4
.χ11、(βj):後向き予測係数 又、上記■の音声のピッチ周波数とは、声帯波の繰り返
し周期(ピッチ周期)の逆数である。
尚、ニューラルネットワークへの入力として、個人差か
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人/小人、男性/女性間の話者の認
識率を向上することかてきる。
又、上記■の高域強調とは、音声波形のスペクトルの平
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものであり、話者の認識
には無関係である。
ところが、このスペクトルの平均的な傾きが補償されて
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークか学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間かかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通で、認
識には無関係てありながら、学習に影響を及ぼすスペク
トルの平均的な傾きを補償できるため、学習速度が速く
なるのである。
上記話者認識システム10によれば、下記■、■の作用
効果がある。
■話者照合ニューラルネットワーク21の出力により入
力話者か登録話者であるか否かを判定てきる。又、話者
同定ニューラルネットワーク22の出力により入力話者
か登録話者中の誰であるかを判定し、かつ単語認識ニュ
ーラルネットワーク23の出力により同定した話者が本
人のキーワードを言っているか否かを判定てきる。
即ち、話者照合、話者同定、単語認識の3重のチエツク
を設けることにより、入力話者か登録話者本人であるこ
とを確実に認識できる。
■ニューラルネットワーク21〜23への入力として、
「音声の一定時間内における平均的な周波数特性の時間
的変化」等、前述■〜■の各要素のうちの1つ以上を用
いるから、入力を得るための前処理が単純となり、この
前処理に要する時間か短くて足りるため、話者認識シス
テム10を複雑な処理装置によることなく容易に実時間
処理できる。
[発明の効果] 以上のように本発明によれば、登録話者本人であること
を確実に認識できる話者認識システムを得ることができ
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
本発明の一実施例を示す流れ図である。 10・・・話者認識システム、 11・・・音声入力部、 12・・・前処理部、 21・・・話者照合ニューラルネットワーク、22・・
・話者同定ニューラルネットワーク、23・・・単語認
識ニューラルネットワーク、31・・・話者照合判定部
、 32・・・最終判定部。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨

Claims (2)

    【特許請求の範囲】
  1. (1)複数の各登録話者毎にキーワードを設定し、話者
    を認識する話者認識システムにおいて、話者照合により
    入力話者が登録話者か否かを判定するための話者照合ニ
    ューラルネットワークと、話者同定により入力話者が登
    録話者中の誰であるかを判定するための話者同定ニュー
    ラルネットワークと、入力音声単語が上記話者同定ニュ
    ーラルネットワークにて同定した話者のキーワードと合
    致するか否かを判定する単語認識ニューラルネットワー
    クとを有して構成され、話者照合ニューラルネットワー
    クの出力により入力話者が登録話者か否かを判定し、話
    者同定ニューラルネットワークの出力により入力話者が
    登録話者中の誰であるかを判定し、単語認識ニューラル
    ネットワークの出力により入力音声単語が同定した話者
    のキーワードと合致するか否かを判定することにより、
    話者の認識を行なうことを特徴とする話者認識システム
  2. (2)前記ニューラルネットワークへの入力として、 [1]音声の周波数特性の時間的変化、 [2]音声の平均的な線形予測係数、 [3]音声の平均的なPARCOR係数、 [4]音声の平均的な周波数特性、及びピッチ周波数、 [5]高域強調を施された音声波形の平均的な周波数特
    性、並びに [6]音声の平均的な周波数特性 のうちの1つ以上を使用する請求項1に記載の話者認識
    システム。
JP2120866A 1990-05-09 1990-05-09 話者認識システム Pending JPH0415699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2120866A JPH0415699A (ja) 1990-05-09 1990-05-09 話者認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2120866A JPH0415699A (ja) 1990-05-09 1990-05-09 話者認識システム

Publications (1)

Publication Number Publication Date
JPH0415699A true JPH0415699A (ja) 1992-01-21

Family

ID=14796894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2120866A Pending JPH0415699A (ja) 1990-05-09 1990-05-09 話者認識システム

Country Status (1)

Country Link
JP (1) JPH0415699A (ja)

Similar Documents

Publication Publication Date Title
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
JPH02238495A (ja) 時系列信号認識装置
AU684214B2 (en) System for recognizing spoken sounds from continuous speech and method of using same
Do et al. Speech source separation using variational autoencoder and bandpass filter
Al-Kaltakchi et al. Comparison of I-vector and GMM-UBM approaches to speaker identification with TIMIT and NIST 2008 databases in challenging environments
Rathor et al. Text indpendent speaker recognition using wavelet cepstral coefficient and butter worth filter
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
JPH0415699A (ja) 話者認識システム
JP2510301B2 (ja) 話者認識システム
CN115862636B (zh) 一种基于语音识别技术的互联网人机验证方法
JPH0415695A (ja) 単語認識システム
JPH03175498A (ja) 話者照合システム
JPH03157697A (ja) 単語認識システム
JPH0415694A (ja) 単語認識システム
JPH03175500A (ja) 話者照合システム
Timms et al. Speaker verification utilising artificial neural networks and biometric functions derived from time encoded speech (TES) data
JP2518939B2 (ja) 話者照合システム
CN114267361A (zh) 一种高识别度的说话人识别系统
JPH03276199A (ja) 話者認識方法
JPH03230200A (ja) 音声認識方法
Yan et al. A NEW COST FUNCTION FOR DNN-BASED SPEECH ENHANCEMENT COMBINING NMF AND CASA
JPH0415700A (ja) 話者認識システム
JPH04121794A (ja) 音声認識方法
JPH0415697A (ja) 話者照合システム