JPH05313689A - 話者認識方式 - Google Patents

話者認識方式

Info

Publication number
JPH05313689A
JPH05313689A JP4117379A JP11737992A JPH05313689A JP H05313689 A JPH05313689 A JP H05313689A JP 4117379 A JP4117379 A JP 4117379A JP 11737992 A JP11737992 A JP 11737992A JP H05313689 A JPH05313689 A JP H05313689A
Authority
JP
Japan
Prior art keywords
speaker
network
series
recognition method
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4117379A
Other languages
English (en)
Inventor
Shingo Nishimura
新吾 西村
Masayuki Unno
雅幸 海野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP4117379A priority Critical patent/JPH05313689A/ja
Publication of JPH05313689A publication Critical patent/JPH05313689A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【目的】 発声内容を限定しない話者認識(特に話者照
合)において、比較的短い発声で高い認識率を得るこ
と。 【構成】 ニューラルネットワークを用いた話者認識方
式であって、短時間スペクトルの概形を表わすベクトル
の系列を入力し、ネットワーク出力の系列を、個々の出
力による認識結果の和、積、多数決等により総合し、そ
の結果を話者判定用しきい値と比較し、1つの認識結果
を得るようにしたものである。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はニューラルネットワーク
を用いた話者認識方式(特に話者照合)に関する。
【0002】
【従来の技術】通常、話者認識を行なう場合、予め学習
した発声内容についてのみ話者の認識を行なうものが多
く、発声内容を限定しない話者認識では、種々の音韻に
共通の話者情報を利用するため、ある程度長い発声が必
要であり、また、高い認識率も得にくい。更に学習時の
データ数が非常に多いため、学習に長時間を要してい
た。
【0003】そこで本出願人は、既に発声内容を限定し
ない話者認識方式を提案している(特願平2-75633 「話
者認識方式」、特願平2-75634 「話者認識方式」、特願
平3-282843「話者認識方式」)。
【0004】
【発明が解決しようとする課題】然しながら、本出願人
が既に提案している話者認識方式は、主として、話者が
ある限られた人の中の誰であるかを特定する(話者同定
と呼ぶ)技術に関するものであった。
【0005】本発明は、発声内容を限定しない話者認識
(特に話者照合)において、比較的短い発声で高い認識
率を得ることを目的とする。
【0006】また、本発明は、発声内容を限定しない話
者認識(特に話者照合)において、比較的短い発声で高
い認識率を得るとともに、学習を軽減することを目的と
する。
【0007】
【課題を解決するための手段】請求項1に記載の話者認
識方式を説明する。先ず、学習用の音声から得た短時間
スペクトルの概形を用いて、ニューラルネットワークを
学習する。学習用の音声は、ある程度の長さの文章のす
べて、又は、文章中から選択した代表的な音素を用い
る。認識時は、任意の発声から上記と同じ短時間スペク
トルの概形を求め、その系列をネットワークに入力し、
ネットワーク出力の系列を得る。得られたネットワーク
の出力ベクトルは、それぞれが短時間の入力に対する話
者を示唆しており、これを系列全体で、和、積、多数決
等の総合的な判断を下すことによって、1つの認識結果
を得る。
【0008】請求項2に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声/無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しており、これを系列全体で、
和、積、多数決等の総合的な判断を下すことによって、
1つの認識結果を得る。
【0009】請求項3に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。学習
用の音声は、ある程度の長さの文章のすべて、又は、文
章中から選択した代表的な音素を用いる。認識時は、任
意の発声から上記と同じ短時間スペクトルの概形を求
め、その系列をネットワークに入力し、ネットワーク出
力の系列を得る。得られたネットワークの出力ベクトル
は、それぞれが短時間の入力に対する話者を示唆してい
るが、出力ベクトル選択用しきい値を設けて、この中で
信頼性の高い出力ベクトルのみを選択し、これらすべて
について、和、積、多数決等の総合的な判断を下すこと
によって、1つの認識結果を得る。
【0010】請求項4に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声/無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しているが、出力ベクトル選択
用しきい値を設けて、この中で信頼性の高い出力ベクト
ルのみを選択し、これらすべてについて、和、積、多数
決等の総合的な判断を下すことによって、1つの認識結
果を得る。
【0011】請求項5に記載の話者認識方式を説明す
る。これは話者に関する判定を行なう際に用いる話者判
定用しきい値を大小1つずつ設定するもので、2つのし
きい値θ1 、θ2 を用いることにより、ある話者に対応
した出力のみが活性化した(出力値が大きい)ときに、
話者は登録者であると判定するものである(図1参
照)。
【0012】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
【0013】(1)ニューラルネットワークは、その構造
から、図2(A)に示す階層的ネットワークと図2
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
【0014】(2)ネットワークの構造 階層的ネットワークは、図3に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
【0015】(3)ユニットの構造 ユニットは図4に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
【0016】(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には図4に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
【0017】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
【0018】
【作用】請求項1に記載の認識方式においては 学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。
【0019】出力ベクトルの系列を総合的に判断する
ことにより、出力ベクトルの1つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。
【0020】請求項2に記載の話者認識方式においては 学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。
【0021】出力ベクトルの系列を総合的に判断する
ことにより、出力ベクトルの1つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。
【0022】有声/無声判定により有声部のみを用い
るので、学習データ数が削減でき、ニューラルネットワ
ークの学習時間が短縮できる。
【0023】有声部のみを用いることにより対象音素
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。
【0024】更に、請求項3に記載の話者認識方式にお
いては 出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。
【0025】更に、請求項4に記載の話者認識方式にお
いては 出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。
【0026】更に、請求項5に記載の話者認識方式にお
いては 話者判定用しきい値を大小1つずつ設定することによ
り、より高精度に登録者・非登録者の判定が可能とな
り、認識率が向上する。
【0027】
【実施例】
(第1実施例) 登録者 5名・非登録者25名について、学習用の短文
( 5秒程度)を、サンプリング周波数10kHz 、フレーム
長25.6msec、フレーム周期12.8msecでフーリエ分析し、
100 〜5000Hzの帯域で68ch(1/12 Oct. )のパワーベク
トルの系列を得る。
【0028】これらのベクトルをニューラルネットワ
ークの入力とし(入力層68ユニット、入力パターンは1
回の発声につきフレームの数だけ得られる)、登録者の
場合のみ対応する出力ユニットが活性化するように十分
学習する。
【0029】任意の発声に対して、と同様にパワー
ベクトルの系列を得る。 これを、で学習したネットワークに入力し、出力ベ
クトルの系列 {x1 ,x2 ,…,xn } xt =(xt 1,…,xt 5) n:フレーム数 を得る。
【0030】上記のベクトル系列に対し以下の3手
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。
【0031】(1) Σtt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0032】(2) Πtt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0033】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の最大値が、予め設定した話者判定用しきい値を
越えていれば登録者、そうでなければ非登録者
【0034】また、上記の3手法のかわりに以下の手法
を用いても良い(請求項5に相当)。
【0035】(1) Σtt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0036】(2) Πtt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0037】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の数の最大値が、予め設定した第1の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第2
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者
【0038】任意発声の一例として、学習用短文「明日
は東京に出ますのですみませんが留守にします。」に対
して、「ただいま」「こんにちは」「おはようございま
す」の3単語を用いて話者認識実験を行なったところ、
学習に用いた登録者 5名及び学習に用いていない非登録
者26名を完全に認識できた。
【0039】(第2実施例) 登録者 5名・非登録者25名について、学習用の文章
を、サンプリング周波数10kHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析し、100 〜5000Hz
の帯域で68ch(1/12 Oct. )のパワーベクトルの系列を
得る。
【0040】これらのベクトルについて、それぞれ周
波数特性の傾き等により有声区間か無声区間かを判定す
る。
【0041】の有声区間に対応するベクトルをニュ
ーラルネットワークの入力とし(入力層68ユニット)、
登録者の場合のみ対応する出力ユニットが活性化するよ
うに十分学習する。
【0042】任意の発声に対して、と同様に有声
区間のパワーベクトルの系列を得る。
【0043】これを、で学習したネットワークに入
力し、出力ベクトルの系列 {x1 ,x2 ,…,xn } Xt =(Xt 1,…,Xt 5) n:フレーム数 を得る。
【0044】上記のベクトル系列に対し以下の3手
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。
【0045】(1) Σtt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0046】(2) Πtt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0047】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の数の最大値が、予め設定した話者判定用しきい
値を越えていれば登録者、そうでなければ非登録者
【0048】また、上記の3手法のかわりに以下の手法
を用いても良い(請求項5に相当)。
【0049】(1) Σtt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0050】(2) Πtt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0051】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の数の最大値が、予め設定した第1の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第2
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者
【0052】
【発明の効果】以上のように本発明によれば、発声内容
を限定しない話者認識(特に話者照合)において、比較
的短い発声で高い認識率を得ることができる。
【0053】また、本発明によれば、発声内容を限定し
ない話者認識(特に話者照合)において、比較的短い発
声で高い認識率を得るとともに、学習を軽減することが
できる。
【図面の簡単な説明】
【図1】図1は話者判定用しきい値とネットワークの出
力値とを示す模式図である。
【図2】図2はニューラルネットワークを示す模式図で
ある。
【図3】図3は階層的なニューラルネットワークを示す
模式図である。
【図4】図4はユニットの構造を示す模式図である。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 ニューラルネットワークを用いた話者認
    識方式であって、短時間スペクトルの概形を表すベクト
    ルの系列を入力し、ネットワーク出力の系列を、個々の
    出力による認識結果の和、積、多数決等により総合し、
    その結果を話者判定用しきい値と比較し、1つの認識結
    果を得ることを特徴とする話者認識方式。
  2. 【請求項2】 請求項1に記載の話者認識方式であっ
    て、入力音声を分析区間毎に有声/無声判定し、有声区
    間のみをネットワーク入力の対象区間にすることを特徴
    とする話者認識方式。
  3. 【請求項3】 ニューラルネットワークを用いた話者認
    識方式であって、短時間スペクトルの概形を表すベクト
    ルの系列を入力し、ネットワーク出力の系列から出力ベ
    クトル選択用しきい値を用いて選択した出力ベクトルに
    ついて、個々の出力による認識結果の和、積、多数決等
    により総合し、その結果を話者判定用しきい値と比較
    し、1つの認識結果を得ることを特徴とする話者認識方
    式。
  4. 【請求項4】 請求項3に記載の話者認識方式であっ
    て、入力音声を分析区間毎に有声/無声判定し、有声区
    間のみをネットワーク入力の対象区間にすることを特徴
    とする話者認識方式。
  5. 【請求項5】 請求項1〜4のいずれかに記載の話者認
    識方式であって、話者判定用しきい値を大小1つずつ設
    定することを特徴とする話者認識方式。
JP4117379A 1992-05-11 1992-05-11 話者認識方式 Pending JPH05313689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4117379A JPH05313689A (ja) 1992-05-11 1992-05-11 話者認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4117379A JPH05313689A (ja) 1992-05-11 1992-05-11 話者認識方式

Publications (1)

Publication Number Publication Date
JPH05313689A true JPH05313689A (ja) 1993-11-26

Family

ID=14710196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4117379A Pending JPH05313689A (ja) 1992-05-11 1992-05-11 話者認識方式

Country Status (1)

Country Link
JP (1) JPH05313689A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0707012A1 (en) 1994-10-12 1996-04-17 Shin-Etsu Chemical Co., Ltd. Polymer scale deposition preventive agent
JP2016509254A (ja) * 2013-01-10 2016-03-24 センソリー・インコーポレイテッド 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0707012A1 (en) 1994-10-12 1996-04-17 Shin-Etsu Chemical Co., Ltd. Polymer scale deposition preventive agent
JP2016509254A (ja) * 2013-01-10 2016-03-24 センソリー・インコーポレイテッド 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定

Similar Documents

Publication Publication Date Title
US5950157A (en) Method for establishing handset-dependent normalizing models for speaker recognition
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
JP3078279B2 (ja) ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置
Melin et al. Voice Recognition with Neural Networks, Type-2 Fuzzy Logic and Genetic Algorithms.
US5461697A (en) Speaker recognition system using neural network
Mak et al. Speaker identification using multilayer perceptrons and radial basis function networks
WO1995005656A1 (en) A speaker verification system
KR100779242B1 (ko) 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
Delacrétaz et al. Text-prompted speaker verification experiments with phoneme specific MLPs
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
JPH0540497A (ja) 話者適応音声認識装置
JP3876703B2 (ja) 音声認識のための話者学習装置及び方法
KR20040038419A (ko) 음성을 이용한 감정인식 시스템 및 감정인식 방법
Brucal et al. Female voice recognition using artificial neural networks and MATLAB voicebox toolbox
Okato et al. Insertion of interjectory response based on prosodic information
JPH05313689A (ja) 話者認識方式
JPH0667698A (ja) 音声認識装置
JP2564200B2 (ja) 話者認識方法
Jayanna et al. Limited data speaker identification
Artières et al. Connectionist and conventional models for free-text talker identification tasks
JPH05313697A (ja) 話者認識方式
Sharma et al. Text-independent speaker identification using backpropagation mlp network classifier for a closed set of speakers
JPH05119799A (ja) 話者認識方式
Wang et al. Speaker verification and identification using gamma neural networks
Rajeswari et al. Improved emotional speech recognition algorithms