JP6280068B2 - パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム - Google Patents

パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム Download PDF

Info

Publication number
JP6280068B2
JP6280068B2 JP2015045675A JP2015045675A JP6280068B2 JP 6280068 B2 JP6280068 B2 JP 6280068B2 JP 2015045675 A JP2015045675 A JP 2015045675A JP 2015045675 A JP2015045675 A JP 2015045675A JP 6280068 B2 JP6280068 B2 JP 6280068B2
Authority
JP
Japan
Prior art keywords
speaker
speech
unauthorized
voice
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015045675A
Other languages
English (en)
Other versions
JP2016166927A (ja
Inventor
隆伸 大庭
隆伸 大庭
太一 浅見
太一 浅見
阪内 澄宇
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015045675A priority Critical patent/JP6280068B2/ja
Publication of JP2016166927A publication Critical patent/JP2016166927A/ja
Application granted granted Critical
Publication of JP6280068B2 publication Critical patent/JP6280068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声による話者認識技術に関し、特に、不正な音声の入力を検出する技術に関する。
音声による話者認識(以下、単に話者認識と呼ぶ。)は照合と識別に大別される。話者の照合は本人確認に利用される。ユーザはまず話者認識システムに自分のユーザ名を申告する。次に話者認識システムに音声を入力する。話者認識システムは入力音声が本当に申告のあったユーザであるかを判定する。一方、話者の識別は入力音声が誰の声であるかを判定する。事前に登録された人物の中から入力音声に最も類似した声を持つ人物を結果として返す。照合と識別の両方を兼ね備える場合もある。つまり、非登録話者であるかどうかを判定し(照合)、さらに登録話者であれば具体的に誰かを判定する(識別)。これらを総じて話者認識と呼ぶ。
話者認識にはテキスト依存型とテキスト非依存型がある。テキスト依存型とは認識を行う際に所定のテキストをユーザが読み上げる形式である。一方、テキスト非依存型ではユーザは任意の言葉を発してよい。
話者認識では音声の事前登録が必要である。登録は1発話以上行う。利便性のため、登録発話は短い方がよく、登録回数が少ない場合でも適切に認識が行えることが望ましい。
話者認識では、入力された音声信号全体から1つの話者特徴ベクトルを算出する技術が利用されている。具体的な方法は、例えば、非特許文献1に開示されている。入力された音声信号(通常は1センテンスを発声した「発話」と呼ばれる区間の音声信号が入力される。)を数十ミリ秒の音響分析フレームに分割し、各音響分析フレームから抽出した音響特徴量ベクトルを時間順に並べた音響特徴量ベクトル系列を作成する。そして、音響特徴量ベクトル系列から式(1)により話者特徴ベクトルwを算出する。なお、式(1)は非特許文献1の式(13)において一部記号を変更したものである。
Figure 0006280068
ここで、Iは単位行列、T'は行列Tの転置を表す。T, Σは事前に学習しておいた話者特徴抽出モデルのパラメータである。Nu, Fuは入力された音響特徴量ベクトル系列を用いて所定の混合正規分布に対して計算した0次統計量および1次統計量である。
話者特徴抽出モデルのパラメータT, Σの具体的な学習方法(算出過程)も非特許文献1に開示されている。詳細は割愛するが、非特許文献1の学習方法は、学習時に話者ラベルを必要としない点が1つの特徴として挙げられる。学習には多くの人の音声信号のみが必要で、個々の音声信号の話者を示すラベルは必要ない。これは、音声に含まれる情報のうち、話者性が支配的である点を利用している。学習は、個々の音声信号に共通に含まれる特徴を抽出・強調するように行われ、その結果、話者性を表す特徴が抽出・強調されるような話者特徴抽出モデルのパラメータT, Σが得られる。したがって、音声以外の情報も学習データ中に大量に加えておくことで、それらの特徴を抽出・強調するような話者特徴抽出モデルのパラメータを得ることが期待できる。
個々の入力音声から話者特徴ベクトルが算出できるようになれば、話者認識は既存の外れ値検知やクラス分類等の技術を用いることで実現される。話者の照合は、登録話者かそれ以外かの二値を判定すればよいため、例えば外れ値検知や二値のクラス分類アルゴリズムを用いることができる。話者の識別は、多値のクラス分類問題に他ならないため、多値のクラス分類を実現するためのアルゴリズムを適用すればよい。これらは任意の公知技術を適用すればよい。これらについては、例えば、非特許文献2および非特許文献3に詳しく記述されている。
最も単純な話者認識の方法は、話者特徴ベクトルの最近傍検索を行う方法である。話者の識別であれば、既に登録されている話者特徴ベクトルのそれぞれに対して、入力音声に対する話者特徴ベクトルとの間のコサイン類似度を算出し、最近傍に位置する話者特徴ベクトルのユーザ名を返す。話者の照合であれば、最近傍の話者特徴ベクトルとの類似度が閾値以上であれば照合したと判定する。話者の登録は、入力音声に対する話者特徴ベクトルとユーザ名とを関連付けて話者認識システムに登録するだけである。
小川哲司、塩田さやか、"i-vectorを用いた話者認識"、日本音響学会誌、vol. 70(6)、pp. 332-339、2014年6月 藤巻遼平、"異常検出サポートベクトルマシン"、FIT2008、F-022、pp. 363-364 江口真透、"統計的識別の方法について. ―ロジスティック判別からアダブーストまで―"、[online]、統計数理研究所、[平成27年2月18日検索]、インターネット<URL: http://www.ism.ac.jp/~eguchi/pdf/applstat5_25manu.pdf>
話者認識は音声の適切な入力を前提とした技術である。そのため話者認識システムに対し、音声の適切な入力を判定する機能を具備することは有用である。特に登録時は重要である。登録音声が不適切であれば、正しく認識できないからである。
話者認識技術で前提としている音声は人間が言葉を発している音声であるが、これを厳密に定義することや、ユーザにその点を明確に示し、理解してもらうことは難しい。例えば、子音だけで構成される音声は言葉を発していると言えるかもしないが、子音のみから話者性を適切に抽出することは困難であり、現状の技術水準の話者認識システムとしては不正な入力とみなしたい。例えば、「スススー(母音『ウ』は発音されず子音『s』だけの発声)」といったものがこれに当たる。更には、喉を鳴らす音、舌を振動させる音や鳴らす音、息の吹きかけ音や吸込み音、口笛、リップ音、咳などの音が支配的な入力も想定される。これらは既存の音声区間検出技術で除去することは難しい。
テキスト依存型の話者認識であれば、音声認識などの技術を利用し、テキストと実際の発話内容を比較するといった方法で入力音声の適切さを判断できる。しかし、テキスト非依存型ではその方法は自明ではない。
この発明の目的は、このような点に鑑みて、話者認識に適さない不正な音声もしくは音の入力を検出することができる話者認識技術を提供することである。
上記の課題を解決するために、この発明の第一の態様のパラメータ学習装置は、話者認識に適する音声を収録した正常音声を記憶する正常音声記憶部と、話者認識に適さない音声を収録した不正音声を記憶する不正音声記憶部と、正常音声および不正音声を用いて話者特徴抽出モデルのパラメータを推定するパラメータ推定部と、話者特徴抽出モデルのパラメータを用いて不正音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、不正音声の話者特徴ベクトルを不正音声情報に登録する不正音声登録部と、を含む。
第二の態様の話者認識装置は、パラメータ学習装置により生成された話者特徴抽出モデルのパラメータを記憶するパラメータ記憶部と、パラメータ学習装置により生成された不正音声情報を記憶する不正音声情報記憶部と、複数のユーザの発話から抽出した話者特徴ベクトルが登録されたユーザ情報を記憶するユーザ情報記憶部と、話者特徴抽出モデルのパラメータを用いて入力音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、入力音声の話者特徴ベクトルを不正音声情報と比較して入力音声が話者認識に適さない不正音声であるか否かを判定する不正音声判定部と、入力音声が不正音声でないと判定された場合に、入力音声の話者特徴ベクトルをユーザ情報へ登録する話者登録部と、入力音声が不正音声でないと判定された場合に、入力音声の話者特徴ベクトルをユーザ情報の話者特徴ベクトルと比較して入力音声に対する話者認識の結果を出力する話者認識部と、を含む。
この発明の話者認識技術によれば、テキスト非依存型の話者認識において、話者認識に適さない不正な音声もしくは音の入力を検出することができる。これにより、話者登録や話者認識において正常な音声のみが対象となるため話者認識の精度が向上する。
図1は、従来の話者認識システムの機能構成を例示する図である。 図2は、従来のパラメータ学習装置の機能構成を例示する図である。 図3は、従来の話者認識装置の機能構成を例示する図である。 図4は、従来のパラメータ学習方法の処理フローを例示する図である。 図5は、従来の話者認識方法の処理フローを例示する図である。 図6は、実施形態の話者認識システムの機能構成を例示する図である。 図7は、実施形態のパラメータ学習装置の機能構成を例示する図である。 図8は、実施形態の不正音声登録装置の機能構成を例示する図である。 図9は、実施形態の話者認識装置の機能構成を例示する図である。 図10は、実施形態のパラメータ学習方法の処理フローを例示する図である。 図11は、実施形態の不正音声登録方法の処理フローを例示する図である。 図12は、実施形態の話者認識方法の処理フローを例示する図である。
以下、この発明の実施の形態について詳細に説明する。最初に、この発明のポイントを説明する。続いて、従来の話者認識技術の基本的な流れを説明し、その後、実施形態の話者認識技術を説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[発明のポイント]
この発明の話者認識技術は、以下の三点を特徴とする。
(A)話者特徴抽出モデルのパラメータの学習時に不正な音声を学習データとして与え、その特徴を学習する。
(B)予め不正な音声をシステムに登録しておく。
(C)音声の入力時に不正な音声との照合もしくは識別を行う。
特徴(A)についてより詳細に説明する。話者特徴抽出モデルのパラメータの学習において、通常の適正な音声データに加え、不正な音声データを与える。不正な音声データは話者性をあまり含まない(抽出できない)信号であるから、本来であれば話者特徴抽出モデルのパラメータの学習には用いるべきではない。
前述の通り、学習は個々の音声信号に共通に含まれる特徴を抽出・強調するように行われるに過ぎないため、不正な音声を含む音声データを用いて学習を行うと、結果的に話者性と同時に不正な音声の特徴を抽出・強調するような話者特徴抽出モデルのパラメータが得られることになる。したがって、このパラメータを用いて得られた話者特徴ベクトルは、話者の特徴を表すベクトルであると同時に、不正な音声の特徴を表すベクトルにもなっている。
通常の方法で(すなわち、適正な音声データだけを使って)学習を行ったパラメータを用いた場合でも、不正な音声の入力に対する話者特徴ベクトルは、適正な音声の入力に対する話者特徴ベクトルとは異なる特有の分布を持つ可能性もあるが、原理的には何も保証はない。特徴(A)は、不正な音声の入力に対する話者特徴ベクトルが適正な音声の入力に対する話者特徴ベクトルとは異なる特有の分布を持つことを原理的に保証するための処理である。
特徴(B)および特徴(C)は、不正な音声のカテゴリを1つの話者と見なして話者認識を行うことを指している。話者認識システム内には、不正音声という架空のユーザ(以下、架空ユーザと呼ぶ。)が存在し、不正音声が登録されている(特徴(B))。実際に現実のユーザ(以下、実ユーザと呼ぶ。)が音声を入力した際に、架空ユーザとの照合もしくは識別を行い、架空ユーザと判定されれば不正な音声入力であると判定する(特徴(C))。
実ユーザが音声を登録する際には、入力音声と架空ユーザとを照合し、架空ユーザと判定されれば、不正な音声入力であると判定する。また、実ユーザが話者識別を行う際には、登録されているあらゆる実ユーザよりも架空ユーザである可能性が高いと判定されれば、不正な音声入力であると判定する。
[従来技術]
従来の話者認識システムは、図1に示すように、話者認識に適した正常音声から話者特徴抽出モデルのパラメータを学習するパラメータ学習装置1と、入力音声に対して話者特徴抽出モデルのパラメータを用いて話者認識を行い、その認識結果を出力する話者認識装置2とを含む。パラメータ学習装置1は、図2に示すように、UBM記憶部10、正常音声記憶部12、パラメータ推定部14、およびパラメータ記憶部16を含む。話者認識装置2は、図3に示すように、UBM記憶部10、パラメータ記憶部16、ユーザ情報記憶部20、音声信号入力部22、話者特徴ベクトル抽出部24、話者認識部26、および話者登録部28を含む。
パラメータ学習装置1および話者認識装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。パラメータ学習装置1および話者認識装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。パラメータ学習装置1および話者認識装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、パラメータ学習装置1および話者認識装置2の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
パラメータ学習装置1および話者認識装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。パラメータ学習装置1および話者認識装置2が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
図4を参照して、従来のパラメータ学習方法の処理手続きを説明する。
パラメータ学習装置1のUBM記憶部10には、ユニバーサルバックグラウンドモデル(UBM: Universal Background Model)が記憶されている。ユニバーサルバックグラウンドモデルは話者特徴抽出モデルのパラメータ学習に必要なモデルである。ユニバーサルバックグラウンドモデルは音声のモデルを表すガウス混合モデル(GMM: Gaussian Mixture Model)であり、既存の手法で予め求めておく。
パラメータ学習装置1の正常音声記憶部12には、話者認識に適した音声データ(以下、正常音声と呼ぶ。)のデータベースが記憶されている。音声データは発話単位に分割されているのが一般的である。ここでは、各音声データ(発話)の話者を示すラベルは必要ない。
ステップS10において、パラメータ学習装置1は、UBM記憶部10からユニバーサルバックグラウンドモデルを読み込む。読み込んだユニバーサルバックグラウンドモデルはパラメータ推定部14へ入力される。
ステップS12において、パラメータ学習装置1は、正常音声記憶部12から正常音声を読み込む。読み込んだ正常音声はパラメータ推定部14へ入力される。
ステップS14において、パラメータ推定部14は、ユニバーサルバックグラウンドモデルおよび正常音声を用いて、話者特徴抽出モデルのパラメータT, Σを求める。具体的なパラメータの求め方は非特許文献1に記述されたとおりである。学習した話者特徴抽出モデルのパラメータT, Σはパラメータ記憶部16へ記憶される。
図5を参照して、従来の話者認識方法の処理手続きを説明する。
話者認識装置2のUBM記憶部10には、ユニバーサルバックグラウンドモデルが記憶されている。このユニバーサルバックグラウンドモデルは、パラメータ学習装置1のUBM記憶部10に記憶されているものと同じものである。
話者認識装置2のパラメータ記憶部16には、パラメータ学習装置1により生成された話者特徴抽出モデルのパラメータT, Σが記憶されている。
話者認識装置2のユーザ情報記憶部20には、ユーザ名などの各ユーザに紐づくユーザ情報のデータベースが記憶されている。ユーザ情報は話者認識を行うために必要な情報であり、具体的な項目は話者認識のアルゴリズムに依存する。例えば、クラス分類アルゴリズムを利用する話者認識システムであれば、クラス分類のモデルに関する情報などが含まれる。単に、登録時の各話者の音声ファイルや話者特徴ベクトルの場合もある。
ステップS10において、話者認識装置2は、UBM記憶部10からユニバーサルバックグラウンドモデルを読み込む。読み込んだユニバーサルバックグラウンドモデルは話者特徴ベクトル抽出部24へ入力される。
ステップS16において、話者認識装置2は、パラメータ記憶部16から話者特徴抽出モデルのパラメータT, Σを読み込む。読み込んだ話者特徴抽出モデルのパラメータT, Σは話者特徴ベクトル抽出部24へ入力される。
ステップS22において、音声信号入力部22は、マイクロホンなどの収音手段によりユーザの発話を取得して入力音声データを生成する。話者登録を行う場合には、同時にユーザを一意に特定するユーザ名を取得して、入力音声データと関連付けておく。取得した入力音声データは話者特徴ベクトル抽出部24へ入力される。
ステップS24において、話者特徴抽出部24は、ユニバーサルバックグラウンドモデルおよび話者特徴抽出モデルのパラメータT, Σを用いて、入力音声データから話者特徴ベクトルを抽出する。話者特徴ベクトルの抽出方法は上述の従来技術と同様であり、詳細は非特許文献1に記述されている。抽出した入力音声の話者特徴ベクトルは話者認識部26および/または話者登録部28へ入力される。
ステップS25において、話者認識装置2は、所望の処理が話者認識であればステップS26へ処理を進め、所望の処理が話者登録であればステップS28へ処理を進める。
ステップS26において、話者認識部26は、入力音声データから抽出した話者特徴ベクトルを、ユーザ情報記憶部20に記憶されているユーザ情報と比較して話者認識を行い、その認識結果を出力する。話者認識の具体的な方法は、利用している話者認識のアルゴリズムに依存するため、詳細な説明は省略する。
ステップS28において、話者登録部28は、入力音声データから抽出した話者特徴ベクトルと、入力音声データと同時に取得したユーザ名とを関連付けて、ユーザ情報記憶部20に記憶されているユーザ情報へ登録する。登録するユーザ情報の具体的な項目は話者認識のアルゴリズムに依存するため、詳細な説明は省略する。
[実施形態]
実施形態の話者認識システムは、図6に示すように、パラメータ学習装置1と話者認識装置2とに加えて、話者特徴抽出モデルのパラメータを用いて話者認識に適さない不正音声から不正音声情報を生成する不正音声登録装置3を含む。実施形態のパラメータ学習装置1は、正常音声に加えて不正音声を用いて話者特徴抽出モデルのパラメータを学習する。実施形態の話者認識装置2は、不正音声情報を用いて入力音声が不正音声であるかどうかを判定し、入力音声が不正音声でなければ、話者特徴抽出モデルのパラメータを用いて入力音声に対して話者認識を行う。
以下では、話者認識システムがパラメータ学習装置1、話者認識装置2、および不正音声登録装置3から構成される場合を例に説明するが、各処理部が過不足なく備わるように構成されていれば装置構成は任意でよい。例えば、パラメータ学習装置1が不正音声登録装置3の各処理部を備えるようにし、パラメータ学習装置1と話者認識装置2とからなる話者認識システムとして構成してもよいし、各装置の各処理部を過不足なく含む1台の話者認識装置として構成してもよい。
実施形態のパラメータ学習装置1は、図7に示すように、UBM記憶部10、正常音声記憶部12、パラメータ推定部14、およびパラメータ記憶部16を従来と同様に含み、不正音声記憶部13をさらに含む。実施形態の不正音声登録装置3は、図8に示すように、UBM記憶部10、不正音声記憶部13、パラメータ記憶部16、話者特徴ベクトル抽出部24、不正音声登録部30、および不正音声情報記憶部32を含む。実施形態の話者認識装置2は、図9に示すように、UBM記憶部10、パラメータ記憶部16、ユーザ情報記憶部20、音声信号入力部22、話者特徴ベクトル抽出部24、話者認識部26、および話者登録部28を従来と同様に含み、不正音声情報記憶部32および不正音声判定部34をさらに含む。
不正音声登録装置3は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。不正音声登録装置3は、例えば、中央演算処理装置の制御のもとで各処理を実行する。不正音声登録装置3に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、不正音声登録装置3の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
不正音声登録装置3が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。不正音声登録装置3が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
図10を参照して、実施形態のパラメータ学習方法の処理手続きを説明する。以下では、上述の従来技術との相違点を中心に説明する。
パラメータ学習装置1の不正音声記憶部13には、話者認識に適さない音声データ(以下、不正音声と呼ぶ。)のデータベースが記憶されている。不正音声は、例えば、子音だけの音声や喉を鳴らす音、舌を振動させる音や鳴らす音、息の吹きかけ音や吸込み音、口笛、リップ音、咳などであり、話者性を適切に抽出することが困難なために話者認識に適さない音声である。
ステップS13において、パラメータ学習装置1は、不正音声記憶部13から不正音声を読み込む。読み込んだ不正音声はパラメータ推定部14へ入力される。
ステップS14において、パラメータ推定部14は、ユニバーサルバックグラウンドモデル、正常音声および不正音声を用いて、話者特徴抽出モデルのパラメータT, Σを求める。正常音声および不正音声は区別することなく、読み込んだすべての音声データを学習データとして話者特徴抽出モデルのパラメータT, Σを求める。具体的なパラメータの求め方は非特許文献1に記載の従来技術と同様に行えばよい。学習した話者特徴抽出モデルのパラメータT, Σはパラメータ記憶部16へ記憶される。
図11を参照して、実施形態の不正音声登録方法の処理手続きを説明する。
不正音声登録装置3のUBM記憶部10には、ユニバーサルバックグラウンドモデルが記憶されている。このユニバーサルバックグラウンドモデルは、パラメータ学習装置1のUBM記憶部10に記憶されているものと同じものである。
不正音声登録装置3のパラメータ記憶部16には、実施形態のパラメータ学習装置1により生成された話者特徴抽出モデルのパラメータT, Σが記憶されている。
不正音声登録装置3の不正音声記憶部13には、話者認識に適さない不正音声が記憶されている。この不正音声は、パラメータ学習装置1の不正音声記憶部13に記憶された不正音声と同一であってもよいし、その一部であってもよい。また、まったく異なる不正音声であってもよい。
ステップS10において、不正音声登録装置3は、UBM記憶部10からユニバーサルバックグラウンドモデルを読み込む。読み込んだユニバーサルバックグラウンドモデルは話者特徴ベクトル抽出部24へ入力される。
ステップS13において、不正音声登録装置3は、不正音声記憶部13から不正音声を読み込む。読み込んだ不正音声は話者特徴ベクトル推定部24へ入力される。
ステップS16において、不正音声登録装置3は、パラメータ記憶部16から話者特徴抽出モデルのパラメータT, Σを読み込む。読み込んだ話者特徴抽出モデルのパラメータT, Σは話者特徴ベクトル抽出部24へ入力される。
ステップS24において、話者特徴抽出部24は、ユニバーサルバックグラウンドモデルおよび話者特徴抽出モデルのパラメータT, Σを用いて、不正音声から話者特徴ベクトルを抽出する。話者特徴ベクトルの抽出方法は上述の従来技術と同様であり、詳細は非特許文献1に記述されている。抽出した不正音声の話者特徴ベクトルは不正音声登録部30へ入力される。
ステップS30において、不正音声登録部30は、不正音声から抽出した話者特徴ベクトルを不正音声情報記憶部32へ登録する。不正音声情報は不正音声の判定に必要な情報を格納したデータベースであり、具体的な情報は不正音声を判定するアルゴリズムに依存する。例えば、外れ値検知のアルゴリズムを利用するのであれば、外れ値検知アルゴリズムに関する情報である。単に、抽出した不正音声データに対する話者特徴ベクトルの場合もある。
図12を参照して、実施形態の話者認識方法の処理手続きを説明する。以下では、上述の従来技術との相違点を中心に説明する。
不正音声登録装置3の不正音声情報記憶部32には、不正音声登録装置3により生成された不正音声情報が記憶されている。
ステップS34において、不正音声判定部34は、不正音声情報記憶部32から不正音声情報を読み込み、話者特徴ベクトル抽出部24が生成した入力音声の話者特徴ベクトルを不正音声情報と比較して入力音声が不正音声であるか否かを判定する。判定の方法は、話者認識のアルゴリズムに依存する。例えば、外れ値検知アルゴリズムにより判定を行う場合、入力音声の話者特徴ベクトルが外れ値であると判定されれば、正常な音声の入力と判定されたことを意味するから、当該話者特徴ベクトルを話者認識部26および/または話者登録部28に入力する。外れ値でないと判定されれば、不正な音声の入力と判定されたことを意味するから、不正な入力であったことをユーザに通知し、処理を終了する。
話者認識部26および話者登録部28は、従来と同様に、入力された話者特徴ベクトルに対して話者認識もしくは話者登録を行う。
上述のように構成することにより、実施形態の話者識別技術によれば、例えば、子音だけの音声や喉を鳴らす音、舌を振動させる音や鳴らす音、息の吹きかけ音や吸込み音、口笛、リップ音、咳など、話者性の抽出が困難であり話者認識に適さない不正な音声もしくは音の入力を検出することができる。これにより、話者登録や話者認識において正常な音声のみが対象となるため話者認識の精度が向上する。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 パラメータ学習装置
2 話者認識装置
3 不正音声登録装置
10 UBM記憶部
12 正常音声記憶部
13 不正音声記憶部
14 パラメータ推定部
16 パラメータ記憶部
20 ユーザ情報記憶部
22 音声信号入力部
24 話者特徴ベクトル抽出部
26 話者認識部
28 話者登録部
30 不正音声登録部
32 不正音声情報記憶部
34 不正音声判定部

Claims (5)

  1. 話者認識に適する音声を収録した正常音声を記憶する正常音声記憶部と、
    話者認識に適さない音声を収録した不正音声を記憶する不正音声記憶部と、
    上記正常音声および上記不正音声を用いて話者特徴抽出モデルのパラメータを推定するパラメータ推定部と、
    上記話者特徴抽出モデルのパラメータを用いて上記不正音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、
    上記不正音声の話者特徴ベクトルを不正音声情報に登録する不正音声登録部と、
    を含むパラメータ学習装置。
  2. 請求項1に記載のパラメータ学習装置により生成された話者特徴抽出モデルのパラメータを記憶するパラメータ記憶部と、
    請求項1に記載のパラメータ学習装置により生成された不正音声情報を記憶する不正音声情報記憶部と、
    複数のユーザの発話から抽出した話者特徴ベクトルが登録されたユーザ情報を記憶するユーザ情報記憶部と、
    上記話者特徴抽出モデルのパラメータを用いて入力音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、
    上記入力音声の話者特徴ベクトルを上記不正音声情報と比較して上記入力音声が話者認識に適さない不正音声であるか否かを判定する不正音声判定部と、
    上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報へ登録する話者登録部と、
    上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報の話者特徴ベクトルと比較して上記入力音声に対する話者認識の結果を出力する話者認識部と、
    を含む話者認識装置。
  3. 正常音声記憶部に、話者認識に適する音声を収録した正常音声が記憶されており、
    不正音声記憶部に、話者認識に適さない音声を収録した不正音声が記憶されており、
    パラメータ推定部が、上記正常音声および上記不正音声を用いて話者特徴抽出モデルのパラメータを推定するパラメータ推定ステップと、
    話者特徴ベクトル抽出部が、上記話者特徴抽出モデルのパラメータを用いて上記不正音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出ステップと、
    不正音声登録部が、上記不正音声の話者特徴ベクトルを不正音声情報に登録する不正音声登録ステップと、
    を含むパラメータ学習方法。
  4. パラメータ記憶部に、請求項3に記載のパラメータ学習方法により生成された話者特徴抽出モデルのパラメータが記憶されており、
    不正音声情報記憶部に、請求項3に記載のパラメータ学習方法により生成された不正音声情報が記憶されており、
    ユーザ情報記憶部に、複数のユーザの発話から抽出した話者特徴ベクトルが登録されたユーザ情報が記憶されており、
    話者特徴ベクトル抽出部が、上記話者特徴抽出モデルのパラメータを用いて入力音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出ステップと、
    不正音声判定部が、上記入力音声の話者特徴ベクトルを上記不正音声情報と比較して上記入力音声が話者認識に適さない不正音声であるか否かを判定する不正音声判定ステップと、
    話者登録部が、上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報へ登録する話者登録ステップと、
    話者認識部が、上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報の話者特徴ベクトルと比較して上記入力音声に対する話者認識の結果を出力する話者認識ステップと、
    を含む話者認識方法。
  5. 請求項1に記載のパラメータ学習装置もしくは請求項2に記載の話者認識装置としてコンピュータを機能させるためのプログラム。
JP2015045675A 2015-03-09 2015-03-09 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム Active JP6280068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015045675A JP6280068B2 (ja) 2015-03-09 2015-03-09 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015045675A JP6280068B2 (ja) 2015-03-09 2015-03-09 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016166927A JP2016166927A (ja) 2016-09-15
JP6280068B2 true JP6280068B2 (ja) 2018-02-14

Family

ID=56898559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015045675A Active JP6280068B2 (ja) 2015-03-09 2015-03-09 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6280068B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6430318B2 (ja) * 2015-04-06 2018-11-28 日本電信電話株式会社 不正音声入力判定装置、方法及びプログラム
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
CN107610708B (zh) * 2017-06-09 2018-06-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107527620B (zh) * 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
WO2023189173A1 (ja) * 2022-03-29 2023-10-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005321530A (ja) * 2004-05-07 2005-11-17 Sony Corp 発話識別装置および発話識別方法
JP4714523B2 (ja) * 2005-07-27 2011-06-29 富士通東芝モバイルコミュニケーションズ株式会社 話者照合装置
JP4765971B2 (ja) * 2007-03-23 2011-09-07 ヤマハ株式会社 混合モデル生成装置、音処理装置およびプログラム
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method

Also Published As

Publication number Publication date
JP2016166927A (ja) 2016-09-15

Similar Documents

Publication Publication Date Title
Chen et al. Robust deep feature for spoofing detection—The SJTU system for ASVspoof 2015 challenge
WO2017198014A1 (zh) 一种身份认证方法和装置
US20210327431A1 (en) &#39;liveness&#39; detection system
WO2017215558A1 (zh) 一种声纹识别方法和装置
US11869513B2 (en) Authenticating a user
JP6280068B2 (ja) パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
WO2017113658A1 (zh) 基于人工智能的声纹认证方法以及装置
Evans et al. Speaker recognition anti-spoofing
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
JPWO2014112375A1 (ja) 話者識別装置、話者識別方法、および話者識別用プログラム
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP4730812B2 (ja) 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
US20140163986A1 (en) Voice-based captcha method and apparatus
JP2008146054A (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
JP6430318B2 (ja) 不正音声入力判定装置、方法及びプログラム
US11929077B2 (en) Multi-stage speaker enrollment in voice authentication and identification
Bredin et al. The biosecure talking-face reference system
JP3251460B2 (ja) 話者照合方法および装置
JPWO2006027844A1 (ja) 話者照合装置
Kumar et al. Mel Spectrogram Based Automatic Speaker Verification Using GMM-UBM
JP2004295586A (ja) 音声認証装置、音声認証方法及び音声認証プログラム
WO2009110613A1 (ja) 個人照合装置及び話者登録装置と方法並びにプログラム
Hassan et al. Robust Speaker Identification System Based on Variational Bayesian Inference Gaussian Mixture Model and Feature Normalization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180118

R150 Certificate of patent or registration of utility model

Ref document number: 6280068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150