JPH07210197A

JPH07210197A - 話者識別方法

Info

Publication number: JPH07210197A
Application number: JP6002567A
Authority: JP
Inventors: Yoshimune Konishi; 吉宗小西; Moritoshi Kamoda; 盛利鴨田; Toshifumi Kato; 利文加藤
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1994-01-14
Filing date: 1994-01-14
Publication date: 1995-08-11

Abstract

(57)【要約】【目的】発声内容を限定しない入力音声から話者識別
する方法において、より高精度の話者識別が行う。【構成】図３は音声を入力して話者を識別するまでの
処理過程を示す。音響分析部２０でディジタル化された
音声信号は、特徴パラメータ抽出部３０で特徴パラメー
タ時系列３３で表される音声信号に変換される。Ｐnf-m
+1よりＰnfまでの所定フレーム数ｍ分の特徴パラメータ
群３３ａが、１フレームずつシフトしながらニューラル
ネットワーク４０に入力し、その出力としてフレーム毎
の話者識別情報ＯNf´の時系列５３を得る。このフレー
ム毎の話者識別情報５３は、フレーム毎の短時間スペク
トル形状の個人性に関する特徴のみならず所定フレーム
間のスペクトル形状の時間的変化の仕方における個人性
の特徴の両方に基づいて得られることとなり、この話者
識別情報の時系列５３に基づいてより高精度な話者識別
（５５）が行える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ニューラルネットワー
クを用いて、発声内容を限定しない入力音声から話者を
識別あるいは類別する方法に関する。

【０００２】

【従来の技術】従来より、ニューラルネットワークを用
いて、発声内容を限定しない入力音声から話者を識別す
る方法として、例えば特開平４−１２１８００号公報記
載のものが知られている。これは図７に示すように、入
力音声を所定フレーム周期で分析し、周波数方向に６８
次元のスペクトルパワー値（ベクトル）を求め、この単
一フレーム毎のパワーベクトルを予め学習済みのニュー
ラルネットワークに入力することにより、その出力とし
てそのフレームの話者識別情報（ベクトル）を得て、こ
の時系列すなわち話者識別情報時系列をもとに話者を識
別しようとするものである。

【０００３】

【発明が解決しようとする課題】しかしながらこのよう
な従来の方法では、まず第１にニューラルネットワーク
の入力は単一フレームのパワーベクトルのみであること
から、この出力で得られるフレーム毎の話者識別情報は
短時間スペクトルの形状に関する個人性しか反映されて
おらず、スペクトル形状の時間的変化の仕方に関する個
人性は反映されていないことから、より高精度な話者判
定が行えないという問題がある。例えば、スペクトル形
状の時間的変化の仕方には違いがあるが、短時間スペク
トルの形状はよく似ている複数人が居る場合には、識別
が困難となってしまうといったことである。

【０００４】第２に、一般に入力音声中の無音区間には
話者を識別可能とする音響的特徴は存在せず、この間の
ニューラルネットワークからの話者識別情報は何ら意味
の無いもので、話者判定の時にはこの間の話者識別情報
を除外しなければならないのであるが、その際に入力音
声を無音区間と有音区間とに区分する手段が別途必要で
あるという問題がある。

【０００５】第３に、話者識別用ニューラルネットワー
クの入力パラメータとして１フレーム６８次元もの多数
のスペクトルパワー値を用いていることから、ニューラ
ルネットワークの入力ニューロンも同数必要となり、ニ
ューラルネットワークの演算量が大きくなるという問題
がある。

【０００６】そこで本発明は、上記３つの問題点に鑑み
てなされたものであり、まず発声内容を限定しない入力
音声から話者識別する方法において、より高精度の話者
識別が行える話者識別方法、及び高精度の話者識別に加
えてそれを実現する装置における処理・構成の簡略な話
者識別方法を提供することを目的とするものである。

【０００７】

【課題を解決するための手段】かかる目的を達成するた
めになされた請求項１に記載の話者識別方法は、図１に
例示する通り、ニューラルネットワークを用いた話者識
別方法であって、入力音声を所定のフレーム周期毎に分
析してフレーム毎の特徴パラメータを求めて特徴パラメ
ータ時系列を生成し、該特徴パラメータ時系列における
連続する複数フレーム分をフレーム単位でずらしながら
取った特徴パラメータ群を、上記ニューラルネットワー
クに入力し、そのニューラルネットワークからの出力と
して、フレーム毎の話者識別情報の時系列を得て、該話
者識別情報時系列に基づいて話者の識別を行うことを特
徴とする。

【０００８】また、請求項２に記載の話者識別方法は、
上記ニューラルネットワークが、予め識別する話者毎の
音素バランス単語音声を用いて学習されていると共に、
入力音声中の無音部では上記話者識別情報の出力を禁止
するように学習されていることを特徴とする。

【０００９】また、請求項３に記載の話者識別方法は、
上記特徴パラメータとして、ケプストラム係数を用いる
ことを特徴とする。

【００１０】

【作用】上記構成を有する本発明の話者識別方法によれ
ば、入力音声を所定のフレーム周期毎に分析してフレー
ム毎の特徴パラメータを求めて特徴パラメータ時系列を
生成し、その特徴パラメータ時系列における連続する複
数フレーム分をフレーム単位でずらしながら取った特徴
パラメータ群をニューラルネットワークに入力し、その
ニューラルネットワークからの出力として、フレーム毎
の話者識別情報の時系列を得て、その話者識別情報時系
列に基づいて話者の識別を行う。

【００１１】すなわちフレーム毎の特徴パラメータを基
に話者を識別するのではなく、ニューラルネットワーク
の入力として、複数フレーム分の特徴パラメータ群を入
力するようにしたことで、その出力として得られるフレ
ーム毎の話者識別情報は、フレーム毎の短時間スペクト
ル形状の個人性に関する特徴のみならず所定フレーム間
のスペクトル形状の時間的変化の仕方における個人性の
特徴の両方に基づいて得られることとなり、この話者識
別情報の時系列からより高精度な話者識別が行えるので
ある。例えば、スペクトル形状の時間的変化の仕方には
違いがあるが、短時間スペクトルの形状はよく似ている
複数人が居る場合を考えると、従来は短時間スペクトル
の形状に関する個人性しか反映されていないフレーム毎
の話者識別情報に基づいているため、それらの識別が困
難であるが、本発明では、それらを確実に識別できる。

【００１２】また、請求項２に記載の話者識別方法で
は、ニューラルネットワークは、予め識別する話者毎の
音素バランス単語音声により学習されていると同時に、
無音区間では話者識別情報を出力しないよう学習されて
いることから、識別時には未知話者の入力音声に対して
有音区間についてのみ話者識別情報を出力することにな
り、入力音声中の無音／有音区間判別のための手段を別
途設ける必要が無いという利点を有する。

【００１３】また、請求項３に記載の話者識別方法で
は、入力音声を分析して得られる特徴パラメータとして
スペクトルパワーの値そのものを使用するのではなく、
一般に音声認識の分野で用いられることが多く、十数次
元程度でパワースペクトルの形状を示唆するケプストラ
ム係数を用いている。そのため、１フレーム当りのパラ
メータ数は数十次元程度に低減されることからニューラ
ルネットワークの入力ニューロン数も同じく低減され、
よってニューラルネットワークの演算・処理量も大幅に
低減される。このパラメータ次元数の低減は、本発明に
おける複数フレーム分の特徴パラメータ群をニューラル
ネットワークの入力とするような場合には特に、有益な
効果をもたらす。

【００１４】

【実施例】以下本発明の実施例について図面に基づき詳
細に説明する。図２は本発明の一実施例における話者識
別方法を実現する構成を示すブロック図である。

【００１５】音響分析部２０は、マイクなどを通じて入
力される音声をＡ／Ｄ変換し、所定のフレーム周期でス
ペクトル分析（本実施例ではＬＰＣ分析）するものであ
る。特徴パラメータ抽出部３０は、この分析結果をもと
にフレーム毎のスペクトル上の特徴パラメータ（本実施
例ではＬＰＣケプストラム係数）を求めて特徴パラメー
タ時系列を生成するものである。

【００１６】また、ニューラルネットワーク４０は、特
徴パラメータ時系列をフレーム単位でずらしながら複数
フレーム取った特徴パラメータ群を入力し、その出力と
してフレーム毎の話者識別情報の時系列を出力するもの
である。話者識別部５０は、話者識別情報時系列を基に
話者の識別結果を得るものである。最終的な認識結果は
ディスプレイなどに出力される。なお、これらの処理は
すべて、Ａ／Ｄ変換機能を備えた計算機上のソフトウエ
ア処理により実現可能である。

【００１７】次に入力音声に基づいて話者を識別する処
理を図３ないし図６に基づきさらに詳しく説明する。図
３は音声を入力して話者を識別するまでの処理過程を示
している。まず最初に、話者識別される者が、例えば日
本語の音声信号（以下入力音声１０と記す）を音響分析
部２０に入力する。そして音響分析部２０でＡ／Ｄ変換
されてディジタル化された音声信号はフレーム毎にスペ
クトル分析され、次に特徴パラメータ抽出部３０で認識
に必要な特徴パラメータ時系列３３で表されるフレーム
毎の特徴パラメータ（ベクトル）に変換される。音響分
析部２０及び特徴パラメータ抽出部３０としてはさまざ
まなものがありどのような構成を採用してもよいが、本
実施例ではＬＰＣ（線形予測）分析を行い、ＬＰＣケプ
ストラム係数を算出するものとした。以下この算出手順
について説明する。

【００１８】まず最初に１フレーム１０ｍｓｅｃ周期毎
に２０ｍｓｅｃの区間幅で１６次のＬＰＣ（線形予測）
分析を行い、線形予測係数α1，α2，・・・，α16と残
差パワーＥを求める。そして、これよりパワー項Ｃ0 を
含むケプストラム係数Ｃｎ（０≦ｎ≦１６）を以下に示
す数式により算出する。

【００１９】

【数１】

【００２０】続いて、この１７個のケプストラム係数Ｃ
ｎを−１から＋１の範囲内に正規化して特徴パラメータ
Ｐｎを求め、この特徴パラメータＰｎをフレームｆ毎に
求めた特徴パラメータＰnf時系列を得る。こうして求め
た特徴パラメータＰnf時系列を求めたフレームｆの所定
フレーム数（ｍ）分のＰnf-m+1よりＰnfまでの特徴パラ
メータ群３３ａが、１フレームずつシフトしながらニュ
ーラルネットワーク４０に入力され、その出力としてフ
レームｆ´毎の話者識別情報ＯNf´（Ｎは識別する話者
の番号でＮ≧２）の時系列５３を得る。

【００２１】ここで、ニューラルネットワーク４０は、
図４に示すような多層パーセプトロン型ニューラルネッ
トワークで入力層４１、中間１層４２，中間２層４３，
出力層４４の４層構造で、中間各層のニューロンは前後
層のニューロンと全結合した構造を有している。入力層
４１は所定フレーム数（ｍ）分の特徴パラメータ数（ｍ
×１７）に等しいニューロン数より成り、出力層４４は
識別する話者数Ｎに等しいニューロン数より成る。そし
て、このニューラルネットは、話者毎の多数音素バラン
ス単語音声を用いてあらかじめ学習しておいたものであ
るが、次にその学習の仕方について説明する。

【００２２】まず音素バランス単語とは、母音（ａｉｕ
ｅｏ）、子音（ｍｎｂｄｇ等）の二十数種類の音素個々
について、その前後の音素が相異する組合せをすべて備
えた必要最小限の単語セットのことで、一般に音声認
識、とりわけ音素を認識単位とした大語彙音声認識の技
術分野で学習用音声データとして使用されることが多い
ものである。

【００２３】すなわちニューラルネットワーク４０の学
習は、まずこの音素バランス単語内の各音素部及び無音
部のｍフレーム分を分析して得られた特徴パラメータ群
３３ａを識別する話者毎に準備しておき、例えば話者番
号Ｎ＝１の話者の音素部特徴パラメータ群を図４に示す
ニューラルネットワーク４０に入力した時は、出力Ｏ ₁
が「１」でその他の出力Ｏ₂ 〜Ｏ_N が「０」となるよう
に、またＮ＝２の話者の音素部特徴パラメータ群３３ａ
を入力した時は、出力Ｏ₂ が「１」でその他の出力Ｏ
₁ ，Ｏ₃ 〜Ｏ_N が「０」となるように、という具合いに
学習を行うと同時に、無音部特徴パラメータ群３３ａを
入力したときは、全ての出力Ｏ₁ 〜Ｏ_N が「０」となる
ように学習を行う。

【００２４】このように、音素バランス単語内の音素に
ついて話者の個人性を学習させておくことによって、識
別時にはいかなる入力音声すなわち発声内容を限定しな
い入力音声から話者を識別可能とするものである。すな
わち、図３に示すニューラルネットワーク４０は、前述
のように学習されたニューラルネットワークを用いてい
る。そして、図５に示すように、ｆフレームから（ｆ−
ｍ＋１）フレームまでのｍフレーム分の特徴パラメータ
群３３ａが入力された時、ｍフレーム間のほぼ中心ｆ´
フレームに話者識別情報ＯNf´を出力するが、本実施例
ではｍ＝１０としてｆ′＝ｆ−４フレーム目に出力する
ようにしている。そして、この話者識別情報ＯNf´に基
づいて話者識別（図３中の５５）を行う。

【００２５】ここで、図６は６話者についてこれまで詳
述したニューラルネットワーク４０を用いて、音素バラ
ンス単語には無い「番号（ばんごう）」という単語の入
力音声１０を、話者番号３の話者が発声した場合の音声
波形１０ａと話者識別情報時系列５３の実際の例を示し
ている。この図６から判るように、無音区間では話者識
別情報５３としての出力Ｏ₁ 〜Ｏ₆ はそれぞれ「０」に
近い値を出力し、有音区間についてのみ出力Ｏ₁ 〜Ｏ₆
のいずれかが「１」に近い値を出力している。この場
合、話者番号３の話者の発声であることから、有音区間
のほとんど全フレームに渡って出力Ｏ₃ が「１」に近い
値を出力している。

【００２６】従って、このような話者識別情報時系列５
３に基づき最終的な話者識別を行うに当り、図３に示す
話者識別の処理においては、話者識別情報としての各出
力値が所定のしきい値、例えば０．５以上となったフレ
ームの総数を各出力Ｏ₁ 〜Ｏ ₆ 毎に求め、このフレーム
総数が最大となる出力Ｏ₁ 〜Ｏ₆ に対応した話者を識別
結果として出力するものである。

【００２７】例えば、図６に示した話者識別情報時系列
５３の場合は、上述したように有音区間のほとんど全フ
レームに渡って出力Ｏ₃ が０．５以上となるため、本発
声者は話者番号３の話者であることが正確かつ容易に識
別できることがわかる。なお、上記実施例は本発明の一
実施例を示すものであり、本発明はこれに限定されるも
のではない。例えば、ニューラルネットワーク４０とし
て４層構造のものを用いたが、３層以上の構造のもので
あればそれを用いてもよい。

【００２８】以上説明した通り本実施例の話者識別方法
によれば、フレーム毎の特徴パラメータを基に話者を識
別するのではなく、ニューラルネットワーク４０の入力
として、複数フレーム分の特徴パラメータ群３３ａを入
力するようにしたことで、その出力として得られるフレ
ーム毎の話者識別情報５３は、フレーム毎の短時間スペ
クトル形状の個人性に関する特徴のみならず所定フレー
ム間のスペクトル形状の時間的変化の仕方における個人
性の特徴の両方に基づいて得られることとなり、この話
者識別情報の時系列５３からより高精度な話者識別が行
える。例えば、スペクトル形状の時間的変化の仕方には
違いがあるが、短時間スペクトルの形状はよく似ている
複数人が居る場合を考えると、従来は短時間スペクトル
の形状に関する個人性しか反映されていないフレーム毎
の話者識別情報に基づいているため、それらの識別が困
難であるが、本実施例では、それらを確実に識別でき
る。

【００２９】また、本実施例のニューラルネットワーク
４０は、予め識別する話者毎の音素バランス単語音声に
より学習されていると同時に、無音区間では話者識別情
報を出力しないよう学習されていることから、識別時に
は未知話者の入力音声に対して有音区間についてのみ話
者識別情報を出力することになり、入力音声中の無音／
有音区間判別のための手段を別途設ける必要が無い。従
って構成の簡略化に寄与することとなる。

【００３０】また、入力音声を分析して得られる特徴パ
ラメータとしてスペクトルパワーの値そのものを使用す
るのではなく、一般に音声認識の分野で用いられること
が多く、十数次元程度でパワースペクトルの形状を示唆
するケプストラム係数を用いている。そのため、１フレ
ーム当りのパラメータ数は数十次元程度に低減され、ニ
ューラルネットワーク４０の入力ニューロン数も同じく
低減される。従ってニューラルネットワーク４０の演算
・処理量も大幅に低減される。このパラメータ次元数の
低減は、本発明のような複数フレーム分の特徴パラメー
タ群３３ａをニューラルネットワーク４０の入力とする
ような場合には特に、有益な効果をもたらす。

【００３１】

【発明の効果】以上説明した通り本発明の話者識別方法
によれば、フレーム毎の特徴パラメータを基に話者を識
別するのではなく、ニューラルネットワークの入力とし
て、複数フレーム分の特徴パラメータ群を入力するよう
にしたことで、その出力として得られるフレーム毎の話
者識別情報は、フレーム毎の短時間スペクトル形状の個
人性に関する特徴のみならず所定フレーム間のスペクト
ル形状の時間的変化の仕方における個人性の特徴の両方
に基づいて得られることとなり、この話者識別情報の時
系列からより高精度な話者識別が行える。

【００３２】また、請求項２に示すように、ニューラル
ネットワークが、予め識別する話者毎の音素バランス単
語音声により学習されていると同時に無音区間では話者
識別情報を出力しないよう学習されていれば、入力音声
中の無音／有音区間判別のための手段を別途設ける必要
が無く、構成が簡略化する。

【００３３】また、請求項３に示すように、特徴パラメ
ータとして、ケプストラム係数を用いれば、ニューラル
ネットワークの入力ニューロン数が低減され、よってニ
ューラルネットワークの演算・処理量も大幅に低減され
る。

【図面の簡単な説明】

【図１】本発明の構成例示図である。

【図２】実施例の構成ブロック図である。

【図３】実施例の処理過程を示す説明図である。

【図４】実施例のニューラルネットワークを示す説
明図である。

【図５】実施例の特徴パラメータ群と話者識別情報
との関係を示す説明図である。

【図６】「番号（ばんごう）」という単語の入力音
声を、話者番号３の話者が発声した場合の音声波形と話
者識別情報時系列の実際の例を示す説明図である。

【図７】従来技術における処理過程を示す説明図で
ある。

【符号の説明】

１０…入力音声、１０ａ…音声波形、２０…
音響分析部、３０…特徴パラメータ抽出部、３３…
特徴パラメータ時系列、３３ａ…特徴パラメータ群、
４０…ニューラルネットワーク、４１…入力層、
４２…中間１層、４３…中間２層、４４…出力層、
５０…話者識別部、５３…話者識別情報時系列

フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 9/16 ３０１Ａ

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いた話者識
別方法であって、入力音声を所定のフレーム周期毎に分析してフレーム毎
の特徴パラメータを求めて特徴パラメータ時系列を生成
し、該特徴パラメータ時系列における連続する複数フレーム
分をフレーム単位でずらしながら取った特徴パラメータ
群を、上記ニューラルネットワークに入力し、そのニュ
ーラルネットワークからの出力として、フレーム毎の話
者識別情報の時系列を得て、該話者識別情報時系列に基づいて話者の識別を行うこと
を特徴とする話者識別方法。
【請求項２】上記ニューラルネットワークが、予め識
別する話者毎の音素バランス単語音声を用いて学習され
ていると共に、入力音声中の無音部では上記話者識別情
報の出力を禁止するように学習されていることを特徴と
する請求項１に記載の話者識別方法。
【請求項３】上記特徴パラメータとして、ケプストラ
ム係数を用いることを特徴とする請求項１または２に記
載の話者識別方法。