JPH07210197A - 話者識別方法 - Google Patents

話者識別方法

Info

Publication number
JPH07210197A
JPH07210197A JP6002567A JP256794A JPH07210197A JP H07210197 A JPH07210197 A JP H07210197A JP 6002567 A JP6002567 A JP 6002567A JP 256794 A JP256794 A JP 256794A JP H07210197 A JPH07210197 A JP H07210197A
Authority
JP
Japan
Prior art keywords
speaker
speaker identification
frame
neural network
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6002567A
Other languages
English (en)
Inventor
Yoshimune Konishi
吉宗 小西
Moritoshi Kamoda
盛利 鴨田
Toshifumi Kato
利文 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
NipponDenso Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NipponDenso Co Ltd filed Critical NipponDenso Co Ltd
Priority to JP6002567A priority Critical patent/JPH07210197A/ja
Publication of JPH07210197A publication Critical patent/JPH07210197A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 発声内容を限定しない入力音声から話者識別
する方法において、より高精度の話者識別が行う。 【構成】 図3は音声を入力して話者を識別するまでの
処理過程を示す。音響分析部20でディジタル化された
音声信号は、特徴パラメータ抽出部30で特徴パラメー
タ時系列33で表される音声信号に変換される。Pnf-m
+1よりPnfまでの所定フレーム数m分の特徴パラメータ
群33aが、1フレームずつシフトしながらニューラル
ネットワーク40に入力し、その出力としてフレーム毎
の話者識別情報ONf´の時系列53を得る。このフレー
ム毎の話者識別情報53は、フレーム毎の短時間スペク
トル形状の個人性に関する特徴のみならず所定フレーム
間のスペクトル形状の時間的変化の仕方における個人性
の特徴の両方に基づいて得られることとなり、この話者
識別情報の時系列53に基づいてより高精度な話者識別
(55)が行える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ニューラルネットワー
クを用いて、発声内容を限定しない入力音声から話者を
識別あるいは類別する方法に関する。
【0002】
【従来の技術】従来より、ニューラルネットワークを用
いて、発声内容を限定しない入力音声から話者を識別す
る方法として、例えば特開平4−121800号公報記
載のものが知られている。これは図7に示すように、入
力音声を所定フレーム周期で分析し、周波数方向に68
次元のスペクトルパワー値(ベクトル)を求め、この単
一フレーム毎のパワーベクトルを予め学習済みのニュー
ラルネットワークに入力することにより、その出力とし
てそのフレームの話者識別情報(ベクトル)を得て、こ
の時系列すなわち話者識別情報時系列をもとに話者を識
別しようとするものである。
【0003】
【発明が解決しようとする課題】しかしながらこのよう
な従来の方法では、まず第1にニューラルネットワーク
の入力は単一フレームのパワーベクトルのみであること
から、この出力で得られるフレーム毎の話者識別情報は
短時間スペクトルの形状に関する個人性しか反映されて
おらず、スペクトル形状の時間的変化の仕方に関する個
人性は反映されていないことから、より高精度な話者判
定が行えないという問題がある。例えば、スペクトル形
状の時間的変化の仕方には違いがあるが、短時間スペク
トルの形状はよく似ている複数人が居る場合には、識別
が困難となってしまうといったことである。
【0004】第2に、一般に入力音声中の無音区間には
話者を識別可能とする音響的特徴は存在せず、この間の
ニューラルネットワークからの話者識別情報は何ら意味
の無いもので、話者判定の時にはこの間の話者識別情報
を除外しなければならないのであるが、その際に入力音
声を無音区間と有音区間とに区分する手段が別途必要で
あるという問題がある。
【0005】第3に、話者識別用ニューラルネットワー
クの入力パラメータとして1フレーム68次元もの多数
のスペクトルパワー値を用いていることから、ニューラ
ルネットワークの入力ニューロンも同数必要となり、ニ
ューラルネットワークの演算量が大きくなるという問題
がある。
【0006】そこで本発明は、上記3つの問題点に鑑み
てなされたものであり、まず発声内容を限定しない入力
音声から話者識別する方法において、より高精度の話者
識別が行える話者識別方法、及び高精度の話者識別に加
えてそれを実現する装置における処理・構成の簡略な話
者識別方法を提供することを目的とするものである。
【0007】
【課題を解決するための手段】かかる目的を達成するた
めになされた請求項1に記載の話者識別方法は、図1に
例示する通り、ニューラルネットワークを用いた話者識
別方法であって、入力音声を所定のフレーム周期毎に分
析してフレーム毎の特徴パラメータを求めて特徴パラメ
ータ時系列を生成し、該特徴パラメータ時系列における
連続する複数フレーム分をフレーム単位でずらしながら
取った特徴パラメータ群を、上記ニューラルネットワー
クに入力し、そのニューラルネットワークからの出力と
して、フレーム毎の話者識別情報の時系列を得て、該話
者識別情報時系列に基づいて話者の識別を行うことを特
徴とする。
【0008】また、請求項2に記載の話者識別方法は、
上記ニューラルネットワークが、予め識別する話者毎の
音素バランス単語音声を用いて学習されていると共に、
入力音声中の無音部では上記話者識別情報の出力を禁止
するように学習されていることを特徴とする。
【0009】また、請求項3に記載の話者識別方法は、
上記特徴パラメータとして、ケプストラム係数を用いる
ことを特徴とする。
【0010】
【作用】上記構成を有する本発明の話者識別方法によれ
ば、入力音声を所定のフレーム周期毎に分析してフレー
ム毎の特徴パラメータを求めて特徴パラメータ時系列を
生成し、その特徴パラメータ時系列における連続する複
数フレーム分をフレーム単位でずらしながら取った特徴
パラメータ群をニューラルネットワークに入力し、その
ニューラルネットワークからの出力として、フレーム毎
の話者識別情報の時系列を得て、その話者識別情報時系
列に基づいて話者の識別を行う。
【0011】すなわちフレーム毎の特徴パラメータを基
に話者を識別するのではなく、ニューラルネットワーク
の入力として、複数フレーム分の特徴パラメータ群を入
力するようにしたことで、その出力として得られるフレ
ーム毎の話者識別情報は、フレーム毎の短時間スペクト
ル形状の個人性に関する特徴のみならず所定フレーム間
のスペクトル形状の時間的変化の仕方における個人性の
特徴の両方に基づいて得られることとなり、この話者識
別情報の時系列からより高精度な話者識別が行えるので
ある。例えば、スペクトル形状の時間的変化の仕方には
違いがあるが、短時間スペクトルの形状はよく似ている
複数人が居る場合を考えると、従来は短時間スペクトル
の形状に関する個人性しか反映されていないフレーム毎
の話者識別情報に基づいているため、それらの識別が困
難であるが、本発明では、それらを確実に識別できる。
【0012】また、請求項2に記載の話者識別方法で
は、ニューラルネットワークは、予め識別する話者毎の
音素バランス単語音声により学習されていると同時に、
無音区間では話者識別情報を出力しないよう学習されて
いることから、識別時には未知話者の入力音声に対して
有音区間についてのみ話者識別情報を出力することにな
り、入力音声中の無音/有音区間判別のための手段を別
途設ける必要が無いという利点を有する。
【0013】また、請求項3に記載の話者識別方法で
は、入力音声を分析して得られる特徴パラメータとして
スペクトルパワーの値そのものを使用するのではなく、
一般に音声認識の分野で用いられることが多く、十数次
元程度でパワースペクトルの形状を示唆するケプストラ
ム係数を用いている。そのため、1フレーム当りのパラ
メータ数は数十次元程度に低減されることからニューラ
ルネットワークの入力ニューロン数も同じく低減され、
よってニューラルネットワークの演算・処理量も大幅に
低減される。このパラメータ次元数の低減は、本発明に
おける複数フレーム分の特徴パラメータ群をニューラル
ネットワークの入力とするような場合には特に、有益な
効果をもたらす。
【0014】
【実施例】以下本発明の実施例について図面に基づき詳
細に説明する。図2は本発明の一実施例における話者識
別方法を実現する構成を示すブロック図である。
【0015】音響分析部20は、マイクなどを通じて入
力される音声をA/D変換し、所定のフレーム周期でス
ペクトル分析(本実施例ではLPC分析)するものであ
る。特徴パラメータ抽出部30は、この分析結果をもと
にフレーム毎のスペクトル上の特徴パラメータ(本実施
例ではLPCケプストラム係数)を求めて特徴パラメー
タ時系列を生成するものである。
【0016】また、ニューラルネットワーク40は、特
徴パラメータ時系列をフレーム単位でずらしながら複数
フレーム取った特徴パラメータ群を入力し、その出力と
してフレーム毎の話者識別情報の時系列を出力するもの
である。話者識別部50は、話者識別情報時系列を基に
話者の識別結果を得るものである。最終的な認識結果は
ディスプレイなどに出力される。なお、これらの処理は
すべて、A/D変換機能を備えた計算機上のソフトウエ
ア処理により実現可能である。
【0017】次に入力音声に基づいて話者を識別する処
理を図3ないし図6に基づきさらに詳しく説明する。図
3は音声を入力して話者を識別するまでの処理過程を示
している。まず最初に、話者識別される者が、例えば日
本語の音声信号(以下入力音声10と記す)を音響分析
部20に入力する。そして音響分析部20でA/D変換
されてディジタル化された音声信号はフレーム毎にスペ
クトル分析され、次に特徴パラメータ抽出部30で認識
に必要な特徴パラメータ時系列33で表されるフレーム
毎の特徴パラメータ(ベクトル)に変換される。音響分
析部20及び特徴パラメータ抽出部30としてはさまざ
まなものがありどのような構成を採用してもよいが、本
実施例ではLPC(線形予測)分析を行い、LPCケプ
ストラム係数を算出するものとした。以下この算出手順
について説明する。
【0018】まず最初に1フレーム10msec周期毎
に20msecの区間幅で16次のLPC(線形予測)
分析を行い、線形予測係数α1,α2,・・・,α16と残
差パワーEを求める。そして、これよりパワー項C0 を
含むケプストラム係数Cn(0≦n≦16)を以下に示
す数式により算出する。
【0019】
【数1】
【0020】続いて、この17個のケプストラム係数C
nを−1から+1の範囲内に正規化して特徴パラメータ
Pnを求め、この特徴パラメータPnをフレームf毎に
求めた特徴パラメータPnf時系列を得る。こうして求め
た特徴パラメータPnf時系列を求めたフレームfの所定
フレーム数(m)分のPnf-m+1よりPnfまでの特徴パラ
メータ群33aが、1フレームずつシフトしながらニュ
ーラルネットワーク40に入力され、その出力としてフ
レームf´毎の話者識別情報ONf´(Nは識別する話者
の番号でN≧2)の時系列53を得る。
【0021】ここで、ニューラルネットワーク40は、
図4に示すような多層パーセプトロン型ニューラルネッ
トワークで入力層41、中間1層42,中間2層43,
出力層44の4層構造で、中間各層のニューロンは前後
層のニューロンと全結合した構造を有している。入力層
41は所定フレーム数(m)分の特徴パラメータ数(m
×17)に等しいニューロン数より成り、出力層44は
識別する話者数Nに等しいニューロン数より成る。そし
て、このニューラルネットは、話者毎の多数音素バラン
ス単語音声を用いてあらかじめ学習しておいたものであ
るが、次にその学習の仕方について説明する。
【0022】まず音素バランス単語とは、母音(aiu
eo)、子音(mnbdg等)の二十数種類の音素個々
について、その前後の音素が相異する組合せをすべて備
えた必要最小限の単語セットのことで、一般に音声認
識、とりわけ音素を認識単位とした大語彙音声認識の技
術分野で学習用音声データとして使用されることが多い
ものである。
【0023】すなわちニューラルネットワーク40の学
習は、まずこの音素バランス単語内の各音素部及び無音
部のmフレーム分を分析して得られた特徴パラメータ群
33aを識別する話者毎に準備しておき、例えば話者番
号N=1の話者の音素部特徴パラメータ群を図4に示す
ニューラルネットワーク40に入力した時は、出力O 1
が「1」でその他の出力O2 〜ON が「0」となるよう
に、またN=2の話者の音素部特徴パラメータ群33a
を入力した時は、出力O2 が「1」でその他の出力O
1 ,O3 〜ON が「0」となるように、という具合いに
学習を行うと同時に、無音部特徴パラメータ群33aを
入力したときは、全ての出力O1 〜ON が「0」となる
ように学習を行う。
【0024】このように、音素バランス単語内の音素に
ついて話者の個人性を学習させておくことによって、識
別時にはいかなる入力音声すなわち発声内容を限定しな
い入力音声から話者を識別可能とするものである。すな
わち、図3に示すニューラルネットワーク40は、前述
のように学習されたニューラルネットワークを用いてい
る。そして、図5に示すように、fフレームから(f−
m+1)フレームまでのmフレーム分の特徴パラメータ
群33aが入力された時、mフレーム間のほぼ中心f´
フレームに話者識別情報ONf´を出力するが、本実施例
ではm=10としてf′=f−4フレーム目に出力する
ようにしている。そして、この話者識別情報ONf´に基
づいて話者識別(図3中の55)を行う。
【0025】ここで、図6は6話者についてこれまで詳
述したニューラルネットワーク40を用いて、音素バラ
ンス単語には無い「番号(ばんごう)」という単語の入
力音声10を、話者番号3の話者が発声した場合の音声
波形10aと話者識別情報時系列53の実際の例を示し
ている。この図6から判るように、無音区間では話者識
別情報53としての出力O1 〜O6 はそれぞれ「0」に
近い値を出力し、有音区間についてのみ出力O1 〜O6
のいずれかが「1」に近い値を出力している。この場
合、話者番号3の話者の発声であることから、有音区間
のほとんど全フレームに渡って出力O3 が「1」に近い
値を出力している。
【0026】従って、このような話者識別情報時系列5
3に基づき最終的な話者識別を行うに当り、図3に示す
話者識別の処理においては、話者識別情報としての各出
力値が所定のしきい値、例えば0.5以上となったフレ
ームの総数を各出力O1 〜O 6 毎に求め、このフレーム
総数が最大となる出力O1 〜O6 に対応した話者を識別
結果として出力するものである。
【0027】例えば、図6に示した話者識別情報時系列
53の場合は、上述したように有音区間のほとんど全フ
レームに渡って出力O3 が0.5以上となるため、本発
声者は話者番号3の話者であることが正確かつ容易に識
別できることがわかる。なお、上記実施例は本発明の一
実施例を示すものであり、本発明はこれに限定されるも
のではない。例えば、ニューラルネットワーク40とし
て4層構造のものを用いたが、3層以上の構造のもので
あればそれを用いてもよい。
【0028】以上説明した通り本実施例の話者識別方法
によれば、フレーム毎の特徴パラメータを基に話者を識
別するのではなく、ニューラルネットワーク40の入力
として、複数フレーム分の特徴パラメータ群33aを入
力するようにしたことで、その出力として得られるフレ
ーム毎の話者識別情報53は、フレーム毎の短時間スペ
クトル形状の個人性に関する特徴のみならず所定フレー
ム間のスペクトル形状の時間的変化の仕方における個人
性の特徴の両方に基づいて得られることとなり、この話
者識別情報の時系列53からより高精度な話者識別が行
える。例えば、スペクトル形状の時間的変化の仕方には
違いがあるが、短時間スペクトルの形状はよく似ている
複数人が居る場合を考えると、従来は短時間スペクトル
の形状に関する個人性しか反映されていないフレーム毎
の話者識別情報に基づいているため、それらの識別が困
難であるが、本実施例では、それらを確実に識別でき
る。
【0029】また、本実施例のニューラルネットワーク
40は、予め識別する話者毎の音素バランス単語音声に
より学習されていると同時に、無音区間では話者識別情
報を出力しないよう学習されていることから、識別時に
は未知話者の入力音声に対して有音区間についてのみ話
者識別情報を出力することになり、入力音声中の無音/
有音区間判別のための手段を別途設ける必要が無い。従
って構成の簡略化に寄与することとなる。
【0030】また、入力音声を分析して得られる特徴パ
ラメータとしてスペクトルパワーの値そのものを使用す
るのではなく、一般に音声認識の分野で用いられること
が多く、十数次元程度でパワースペクトルの形状を示唆
するケプストラム係数を用いている。そのため、1フレ
ーム当りのパラメータ数は数十次元程度に低減され、ニ
ューラルネットワーク40の入力ニューロン数も同じく
低減される。従ってニューラルネットワーク40の演算
・処理量も大幅に低減される。このパラメータ次元数の
低減は、本発明のような複数フレーム分の特徴パラメー
タ群33aをニューラルネットワーク40の入力とする
ような場合には特に、有益な効果をもたらす。
【0031】
【発明の効果】以上説明した通り本発明の話者識別方法
によれば、フレーム毎の特徴パラメータを基に話者を識
別するのではなく、ニューラルネットワークの入力とし
て、複数フレーム分の特徴パラメータ群を入力するよう
にしたことで、その出力として得られるフレーム毎の話
者識別情報は、フレーム毎の短時間スペクトル形状の個
人性に関する特徴のみならず所定フレーム間のスペクト
ル形状の時間的変化の仕方における個人性の特徴の両方
に基づいて得られることとなり、この話者識別情報の時
系列からより高精度な話者識別が行える。
【0032】また、請求項2に示すように、ニューラル
ネットワークが、予め識別する話者毎の音素バランス単
語音声により学習されていると同時に無音区間では話者
識別情報を出力しないよう学習されていれば、入力音声
中の無音/有音区間判別のための手段を別途設ける必要
が無く、構成が簡略化する。
【0033】また、請求項3に示すように、特徴パラメ
ータとして、ケプストラム係数を用いれば、ニューラル
ネットワークの入力ニューロン数が低減され、よってニ
ューラルネットワークの演算・処理量も大幅に低減され
る。
【図面の簡単な説明】
【図1】 本発明の構成例示図である。
【図2】 実施例の構成ブロック図である。
【図3】 実施例の処理過程を示す説明図である。
【図4】 実施例のニューラルネットワークを示す説
明図である。
【図5】 実施例の特徴パラメータ群と話者識別情報
との関係を示す説明図である。
【図6】 「番号(ばんごう)」という単語の入力音
声を、話者番号3の話者が発声した場合の音声波形と話
者識別情報時系列の実際の例を示す説明図である。
【図7】 従来技術における処理過程を示す説明図で
ある。
【符号の説明】
10…入力音声、 10a…音声波形、 20…
音響分析部、30…特徴パラメータ抽出部、 33…
特徴パラメータ時系列、33a…特徴パラメータ群、
40…ニューラルネットワーク、41…入力層、
42…中間1層、 43…中間2層、 44…出力層、
50…話者識別部、 53…話者識別情報時系列
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 9/16 301 A

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ニューラルネットワークを用いた話者識
    別方法であって、 入力音声を所定のフレーム周期毎に分析してフレーム毎
    の特徴パラメータを求めて特徴パラメータ時系列を生成
    し、 該特徴パラメータ時系列における連続する複数フレーム
    分をフレーム単位でずらしながら取った特徴パラメータ
    群を、上記ニューラルネットワークに入力し、そのニュ
    ーラルネットワークからの出力として、フレーム毎の話
    者識別情報の時系列を得て、 該話者識別情報時系列に基づいて話者の識別を行うこと
    を特徴とする話者識別方法。
  2. 【請求項2】 上記ニューラルネットワークが、予め識
    別する話者毎の音素バランス単語音声を用いて学習され
    ていると共に、入力音声中の無音部では上記話者識別情
    報の出力を禁止するように学習されていることを特徴と
    する請求項1に記載の話者識別方法。
  3. 【請求項3】 上記特徴パラメータとして、ケプストラ
    ム係数を用いることを特徴とする請求項1または2に記
    載の話者識別方法。
JP6002567A 1994-01-14 1994-01-14 話者識別方法 Pending JPH07210197A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6002567A JPH07210197A (ja) 1994-01-14 1994-01-14 話者識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6002567A JPH07210197A (ja) 1994-01-14 1994-01-14 話者識別方法

Publications (1)

Publication Number Publication Date
JPH07210197A true JPH07210197A (ja) 1995-08-11

Family

ID=11532953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6002567A Pending JPH07210197A (ja) 1994-01-14 1994-01-14 話者識別方法

Country Status (1)

Country Link
JP (1) JPH07210197A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018517927A (ja) * 2015-09-04 2018-07-05 グーグル エルエルシー 話者検証のためのニューラルネットワーク
CN109564759A (zh) * 2016-08-03 2019-04-02 思睿逻辑国际半导体有限公司 说话人识别
CN110135426A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
WO2023070874A1 (zh) * 2021-10-28 2023-05-04 中国科学院深圳先进技术研究院 一种声纹识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018517927A (ja) * 2015-09-04 2018-07-05 グーグル エルエルシー 話者検証のためのニューラルネットワーク
CN109564759A (zh) * 2016-08-03 2019-04-02 思睿逻辑国际半导体有限公司 说话人识别
CN109564759B (zh) * 2016-08-03 2023-06-09 思睿逻辑国际半导体有限公司 说话人识别
CN110135426A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN110135426B (zh) * 2018-02-09 2021-04-30 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
WO2023070874A1 (zh) * 2021-10-28 2023-05-04 中国科学院深圳先进技术研究院 一种声纹识别方法

Similar Documents

Publication Publication Date Title
Tirumala et al. Speaker identification features extraction methods: A systematic review
Murthy et al. Robust text-independent speaker identification over telephone channels
EP0619911B1 (en) Children's speech training aid
JPH02195400A (ja) 音声認識装置
JPH075892A (ja) 音声認識方法
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
CN109979436A (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
Sigmund Voice recognition by computer
EP0685835A1 (en) Speech recognition based on HMMs
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
Wildermoth Text-independent speaker recognition using source based features
Pandey et al. Multilingual speaker recognition using ANFIS
KR20040038419A (ko) 음성을 이용한 감정인식 시스템 및 감정인식 방법
JPH07210197A (ja) 話者識別方法
Jayanna et al. Limited data speaker identification
Artières et al. Connectionist and conventional models for free-text talker identification tasks
JPH1097274A (ja) 話者認識方法及び装置
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Kuah et al. A neural network-based text independent voice recognition system
Kadhum et al. Survey of Features Extraction and Classification Techniques for Speaker Identification
Wilpon et al. Connected digit recognition based on improved acoustic resolution
EP0190489B1 (en) Speaker-independent speech recognition method and system
JP2655903B2 (ja) 音声認識装置
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법