JP2020060757A

JP2020060757A - 話者認識装置、話者認識方法、及び、プログラム

Info

Publication number: JP2020060757A
Application number: JP2019107341A
Authority: JP
Inventors: 光佑板倉; Kosuke Itakura
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-10-05
Filing date: 2019-06-07
Publication date: 2020-04-16
Anticipated expiration: 2039-06-07
Also published as: JP7326033B2

Abstract

【課題】雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置等を提供する。【解決手段】取得された発話の音声について２以上の音響特徴量を算出する特徴量算出部１２と、認識対象の話者についての１以上の話者性特徴量と、特徴量算出部１２により算出された２以上の音響特徴量の各々との類似度を計算する類似度計算部１３と、類似度計算部１３により計算された２以上の類似度を合成する合成部１４と、合成部１４により得られた合成値に基づき、当該発話の話者が認識対象の話者であるか否かを判定する判定部１５と、を備え、２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、２以上の類似度のうちの少なくとも２つの類似度の性質、のうちの少なくとも一方は、異なる。【選択図】図１

Description

本開示は、話者認識装置、話者認識方法、及び、プログラムに関する。

話者認識技術は、登録対象の話者の発話の音声を予め収集し、収集した音声から算出した特徴量と、新たに取得する未知の話者の発話の音声との類似度に基づいて、未知の話者が登録された話者であるかを判定する技術である。

例えば非特許文献１には、話者認識のための高精度な特徴量として、ｉ−Ｖｅｃｔｏｒと呼ばれる話者固有の特徴量とその算出方法について開示されている。登録話者の発話した音声及び未知の話者の発話の音声から、このような特徴量を算出することで、高精度に、未知の話者が登録話者であるかを判定することができる。

Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4 (2011): 788-798. David, Snyder, et al. "X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION." Center for Language and Speech Processing & Human Language Technology Center of Excellence The Johns Hopkins University, Baltimore, MD 21218, USA.

しかしながら、上記特許文献１で開示される算出方法により算出した特徴量を話者認識に用いても、取得した未知の話者の発話の音声に、雑音などが混入している場合には、未知の話者の発話が登録話者の発話でないときでも登録話者による発話と認識されることがある。つまり、新たに取得する未知の話者の発話の音声に雑音などが混入する場合には、話者認識の精度が低下してしまうという課題がある。

本開示は、上述の事情を鑑みてなされたもので、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置、話者認識方法、及び、プログラムを提供することを目的とする。

本開示の一態様に係る話者認識装置は、取得された発話の音声について２以上の音響特徴量を算出する特徴量算出部と、認識対象の話者についての１以上の話者性特徴量と、前記特徴量算出部により算出された前記２以上の音響特徴量の各々との類似度を計算する類似度計算部と、前記類似度計算部により計算された２以上の類似度を合成する合成部と、前記合成部により得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定部と、を備え、前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、前記２以上の類似度のうちの少なくとも２つの類似度の性質、のうちの少なくとも一方は、異なる。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示の話者認識装置等によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる。

実施の形態に係る話者認識システムの構成の一例を示すブロック図である。図１に示す音声取得部の具体的構成の一例を示すブロック図である。実施の形態に係る話者認識装置の具体的構成の一例を示すブロック図である。図３に示す話者認識装置の第１の類似度計算部が計算した第１の類似度の一例を示す図である。図３に示す話者認識装置の第２の類似度計算部が計算した第２の類似度の一例を示す図である。実施の形態に係る話者認識装置の動作の概要を示すフローチャートである。比較例に係る話者認識システムの構成を示すブロック図である。実施の形態の変形例１に係る話者認識装置の具体的構成の一例を示すブロック図である。図７に示す第１モデル及び第２モデルが異なるデータで学習されることを説明するための図である。実施の形態の変形例２に係る話者認識装置の具体的構成の一例を示すブロック図である。実施の形態の実施例に係る話者認識装置の具体的構成の一例を示すブロック図である。図１０に示す類似度計算部が計算した類似度の一例を示す図である。図１０に示す類似度計算部が計算した類似度の一例を示す図である。図１０に示す類似度計算部が計算した類似度の一例を示す図である。図１０に示す合成部が計算した合成値の一例を示す図である。

本態様によれば、少なくとも２つの性質の異なる音響特徴量から計算された登録話者との２以上の類似度、もしくは、性質の異なる２以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、合成した類似度を用いることで、より正確に登録話者と一致するか否かを判定することができる。よって、本態様によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる。

また、例えば、前記２以上の類似度のうちの少なくとも２つの類似度は、性質が異なる第１の類似度と第２の類似度であり、前記第１の類似度は、前記話者の話し方を含む前記話者の特徴量について学習された学習済み計算用モデルであって前記１以上の話者性特徴量のうちの第１の話者性特徴量としての学習済み計算用モデルを用いて、前記特徴量算出部により算出された第１の音響特徴量から、確率的線形判別分析（Probabilistic Linear Discriminant Analysis：PLDA）により計算され、前記第２の類似度は、前記１以上の話者性特徴量のうちの第２の話者性特徴量と、前記特徴量算出部により算出された第２の音響特徴量とのコサイン距離として計算されるとしてもよい。

また、例えば、前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量は、性質が異なる第１の音響特徴量と第２の音響特徴量であり、前記第１の音響特徴量は、前記特徴量算出部により、前記発話の音声物理量をｉ−Ｖｅｃｔｏｒを用いて線形変換されることで算出され、前記第２の音響特徴量は、前記特徴量算出部により、前記音声物理量をＤＮＮ（Deep Neural Network）を用いて非線形変換されることで算出されるとしてもよい。

また、例えば、前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量は、性質が異なる第１の音響特徴量と第２の音響特徴量であり、前記第１の音響特徴量は、前記特徴量算出部により、ＤＮＮの第１モデルを用いて非線形変換されることで算出され、前記第２の音響特徴量は、前記特徴量算出部により、ＤＮＮの第２モデルであって前記第１モデルと性質が異なる第２モデルを用いて非線形変換されることで算出され、前記第１モデルは、閾値以上の雑音環境下における前記認識対象の話者の音声を含む第１学習データを用いて学習されたモデルであり、前記第２モデルは、前記閾値未満の雑音環境下における前記認識対象の話者の音声を含む第２学習データを用いて学習されたモデルであるとしてもよい。

また、例えば、前記第１の音響特徴量と前記第２の音響特徴量とは、同一であるとしてもよい。

また、例えば、前記合成部は、前記類似度計算部により計算された類似度それぞれを示すスコアを足し合わせることにより、前記２以上の類似度を合成するとしてもよい。

また、例えば、前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が０かつ分散が１となるように正規化して足し合わせることにより、前記２以上の類似度を合成するとしてもよい。

また、例えば、前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が０かつ分散が１となるように正規化して加重和を計算することで、前記２以上の類似度を合成するとしてもよい。

ここで、例えば、前記合成部は、前記加重和を、取得された前記発話の時間的な長さが長いほど大きな係数をかけて計算するとしてもよい。

本開示の一態様に係る話者認識方法は、コンピュータが行う話者認識方法であって、取得された発話の音声について２以上の音響特徴量を算出する特徴量算出ステップと、認識対象の話者についての１以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記２以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算された２以上の類似度を合成する合成ステップと、前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとを含み、前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、前記２以上の類似度のうちの少なくとも２つの類似度の性質、のうちの少なくとも一方は、異なる。

また、本開示の一態様に係るプログラムは、取得された発話の音声について２以上の音響特徴量を算出する特徴量算出ステップと、認識対象の話者についての１以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記２以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算された２以上の類似度を合成する合成ステップと、前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとをコンピュータに実行させ、前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、前記２以上の類似度のうちの少なくとも２つの類似度の性質、のうちの少なくとも一方は、異なる。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
以下では、図面を参照しながら、実施の形態における話者認識方法等の説明を行う。

［話者認識システム１］
図１は、実施の形態に係る話者認識システム１の構成の一例を示すブロック図である。

本実施の形態に係る話者認識システム１は、例えばＡさんなどの発話者を照合するために用いられ、例えば入退管理システムまたはセキュリティシステムなどに用いられる。

話者認識システム１は、図１に示すように、音声取得部１０と、話者認識装置１１と、記憶部１６とを備える。

［音声取得部１０］
図２は、図１に示す音声取得部の具体的構成の一例を示すブロック図である。

音声取得部１０は、図２に示すように、音声入力部１０１と、音声物理量計算部１０２とを備える。

音声入力部１０１は、例えばマイクロフォンからなり、話者の発話の音声が入力される。音声入力部１０１は、入力された音声を音声信号に変換して音声物理量計算部１０２に出力する。

音声物理量計算部１０２は、発話の音声信号から、発話の音声物理量を計算する。本実施の形態では、音声物理量計算部１０２は、発話の音声信号から、音声の特徴量であるＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）を計算する。ＭＦＣＣは、発話者の声道特性を表す特徴量である。なお、音声物理量計算部１０２は、発話の音声物理量として、ＭＦＣＣを計算する場合に限らず、発話の音声信号にメルフィルタバンクをかけたものを計算してもよいし、発話の音声信号のスペクトログラムを計算してもよい。また、音声物理量計算部１０２は、ＤＮＮ（Deep Neural Network）を用いて、発話の音声信号から、発話の音声物理量として、音声の特徴量を計算してもよい。

［話者認識装置１１］
図３は、本実施の形態に係る話者認識装置の具体的構成の一例を示すブロック図である。

話者認識装置１１は、例えば、プロセッサ（マイクロプロセッサ）、メモリ、通信インタフェース等を備えるコンピュータで実現される。話者認識装置１１は、サーバに含まれて動作するとしてもよいし、話者認識装置１１の一部構成がクラウドサーバに含まれ動作するとしてもよい。話者認識装置１１は、発話者が、識別対象の登録話者と一致するか否かを認識する処理を行う。

話者認識装置１１は、図１に示すように特徴量算出部１２と、類似度計算部１３と、合成部１４と、判定部１５を備える。なお、話者認識装置１１は、記憶部１６をさらに備えるとしてもよいが、必須の構成でない。

［特徴量算出部１２］
特徴量算出部１２は、取得された発話の音声について２以上の音響特徴量を算出する。より具体的には、特徴量算出部１２は、発話の音声物理量を、２以上の話者性特徴量に変換することで、当該２以上の音響特徴量を算出する。２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質は、異なるとしてもよい。

本実施の形態では、特徴量算出部１２は、図３に示すように、第１の特徴量算出部１２１と、第２の特徴量算出部１２２とを備え、音声取得部１０から入力された発話の音声物理量を、２つの話者性特徴量に変換することで、性質が異なる２つの音響特徴量を算出する。以下、２つの音響特徴量は、第１の音響特徴量と第２の音響特徴量であるとして説明する。

＜第１の特徴量算出部１２１＞
第１の特徴量算出部１２１は、音声取得部１０から入力された発話の音声物理量を、ｉ−Ｖｅｃｔｏｒを用いて話者性特徴量に線形変換することで、第１の音響特徴量を算出する。

ここで、ｉ−Ｖｅｃｔｏｒを用いる手法とは、混合ガウスモデル分布を用いて、発話の統計的な特徴量をもとに、話者固有の特徴量である話者性特徴量を発話の音響特徴量として抽出する統計的手法である。ｉ−Ｖｅｃｔｏｒを用いる手法では、発話が長いほど正確な統計量が得やすいため、発話が長いほど性能が向上しやすい話者性特徴量を得ることができるという特長がある。算出方法の詳細は、非特許文献１に開示されているため詳述を省略する。

＜第２の特徴量算出部１２２＞
第２の特徴量算出部１２２は、音声取得部１０から入力された発話の音声物理量を、ＤＮＮ（Deep Neural Network）を用いて話者性特徴量に非線形変換することで、第１の音響特徴量と性質が異なる第２の音響特徴量を算出する。

ここで、ＤＮＮを用いる手法とは、発話の音声物理量を、学習済みである特徴抽出部と識別部からなるＤＮＮに入力することで、可変長の発話を固定次元埋め込みにマッピングした発話の音響特徴量すなわち話者性特徴量を出力する手法である。可変長の発話を固定次元埋め込みにマッピングして話者性特徴量を算出する方法はｘ−Ｖｅｃｔｏｒと呼ばれる。つまり、第１の特徴量算出部１２１は、ＤＮＮを用いて、発話の音声物理量からｘ−Ｖｅｃｔｏｒと呼ばれる話者固有の特徴である第１の音響特徴量を算出する。ｘ−Ｖｅｃｔｏｒを用いる手法では、用意するモデル次第で発話が短くても性能が劣化しにくい話者性特徴量を得ることができるという特長がある。なお、ｘ−Ｖｅｃｔｏｒの算出方法等の詳細は、非特許文献２に開示されているため詳述を省略する。

［類似度計算部１３］
類似度計算部１３は、認識対象の話者についての１以上の話者性特徴量と、特徴量算出部１２により算出された２以上の音響特徴量の各々との類似度を計算する。

本実施の形態では、類似度計算部１３は、図３に示すように、第１の類似度計算部１３１と、第２の類似度計算部１３２とを備える。

＜第１の類似度計算部１３１＞
第１の類似度計算部１３１は、第１の特徴量算出部１２１により算出された第１の音響特徴量と、記憶部１６に記憶されている認識対象の話者の話者性特徴量１６１との類似度を計算する。ここで、話者性特徴量１６１は、予め記憶された話者性特徴量である。より具体的には、話者性特徴量１６１は、予め収集された認識対象の話者の音声物理量が、ｉ−Ｖｅｃｔｏｒを用いて線形変換された話者性特徴量である。図３に示す例では、話者性特徴量１６１は、認識対象の話者であるＡさんの話者性特徴量である。

本実施の形態では、第１の類似度計算部１３１は、ベクトル空間モデルにおいて内積を使って余弦を計算することで、第１の音響特徴量と話者性特徴量１６１とのベクトル間角度を示すコサイン距離（コサイン類似度とも称される）を、第１の類似度として計算する。この場合、ベクトル間角度の数値が大きくなるほど類似度が低いことを示す。なお、第１の類似度計算部１３１は、第１の類似度として、第１の音響特徴量を示すベクトルと話者性特徴量１６１を示すベクトルとの内積を用いて−１から１までの値をとるコサイン距離を計算してもよい。この場合、コサイン距離を示す数値が大きくなるほど類似度が高いことを示す。

＜第２の類似度計算部１３２＞
第２の類似度計算部１３２は、第２の特徴量算出部１２２により算出された第２の音響特徴量と、記憶部１６に記憶されている認識対象の話者の話者性特徴量１６２との類似度を計算する。ここで、話者性特徴量１６２は、予め記憶された話者性特徴量である。より具体的には、話者性特徴量１６２は、予め収集していた認識対象の話者の音声物理量が、ＤＮＮを用いて非線形変換された話者性特徴量である。図３に示す例では、話者性特徴量１６２は、認識対象の話者であるＡさんの話者性特徴量である。

本実施の形態では、第２の類似度計算部１３２は、ベクトル空間モデルにおいて内積を使って余弦を計算することで、第２の音響特徴量と話者性特徴量１６２とのベクトル間角度を示すコサイン距離を、第２の類似度として計算する。なお、第２の類似度計算部１３２は、第２の類似度として、第２の音響特徴量を示すベクトルと話者性特徴量１６２を示すベクトルとの内積を用いて−１から１までの値をとるコサイン距離を計算してもよい。

このように、本実施の形態では、第１の類似度計算部１３１により計算された第１の類似度と、第２の類似度計算部１３２により計算された第２の類似度とは、同一の手法により計算されてもよい。

［合成部１４］
合成部１４は、類似度計算部１３により計算された２以上の類似度を合成する。ここで、合成部１４は、類似度計算部１３により計算された類似度それぞれを示すスコアを足し合わせることにより、２以上の類似度を合成してもよい。また、合成部１４は、類似度計算部１３により計算された類似度それぞれの平均が０かつ分散が１となるように正規化して足し合わせることにより、２以上の類似度を合成してもよい。

なお、合成部１４は、類似度計算部１３により計算された類似度それぞれの平均が０かつ分散が１となるように正規化して加重和を計算することで、２以上の類似度を合成してもよい。この場合、合成部１４は、加重和を、取得された発話の時間的な長さが長いほど大きな係数をかけて計算すればよい。

本実施の形態では、合成部１４は、第１の類似度計算部１３１により計算された第１の類似度と、第２の類似度計算部１３２により計算された第２の類似度とを加算すなわち足し合わせることにより合成する。例えば、合成部１４は、第１の類似度を示すスコアであるベクトル間角度と、第２の類似度を示すスコアであるベクトル間角度とを加算することで、合成値を計算してもよい。

なお、第１の類似度が、第１の音響特徴量として、発話が長いほど性能が向上しやすい話者性特徴量から計算され、第２の類似度が、第２の音響特徴量として、発話が短くても性能が劣化しにくい話者性特徴量から計算されるとする。この場合には、合成部１４は、第１の類似度を示すスコアであるベクトル間角度と、第２の類似度を示すスコアであるベクトル間角度との平均が０かつ分散が１となるように正規化して、加重和を計算することで、第１の類似度と第２の類似度と合成した合成値を計算してもよい。加重和は、発話の時間的な長さが長いほど大きな係数がかけられればよい。

［判定部１５］
判定部１５は、合成部１４により得られた合成値に基づき、発話者が認識対象の話者であるか否かを判定する。

本実施の形態では、判定部１５は、合成部１４により得た合成値すなわち第１の類似度を示すスコアと第２の類似度を示すスコアとの加算値を用いて、発話者が認識対象の話者であるか否かを判定する。図３に示す例では、判定部１５は、合成部１４により得た加算値を合成値として用いて、発話者がＡさんであるか否かを判定する。

ここで、発話者が認識対象の話者ではない場合、かつ、音声取得部１０が取得した発話に雑音などの発話以外の成分が混入した場合に、合成値を用いて発話者が認識対象の話者ではないと判定する方法の一例について、図４Ａ及び図４Ｂを用いて説明する。

図４Ａは、図３に示す話者認識装置１１の第１の類似度計算部１３１が計算した第１の類似度の一例を示す図である。図４Ａには、音声取得部１０が取得した発話に雑音などの発話以外の成分が混入していた場合に、第１の特徴量算出部１２１により算出される第１の特徴量を示すベクトルである雑音入り発話の第１の特徴量ベクトルが示されている。また、図４Ａには、参考のため、記憶部１６に記憶されている認識対象の話者であるＡさんの話者性特徴量を示すベクトルである登録特徴量ベクトルが示されている。また、図４Ａには、参考のため、音声取得部１０が取得した発話のみすなわち発話に雑音などの発話以外の成分が混入していない場合に第１の特徴量算出部１２１により算出される第１の特徴量を示すベクトルである発話のみの第１の特徴量ベクトルが示されている。

図４Ｂは、図３に示す話者認識装置１１の第２の類似度計算部１３２が計算した第２の類似度の一例を示す図である。図４Ａと同様に、図４Ｂには、音声取得部１０が取得した発話に雑音などの発話以外の成分が混入していた場合に、第２の特徴量算出部１２２により算出される第２の特徴量を示すベクトルである雑音入り発話の第２の特徴量ベクトルが示されている。また、図４Ｂには、参考のため、記憶部１６に記憶されている認識対象の話者であるＡさんの話者性特徴量を示すベクトルである登録特徴量ベクトルが示されている。また、図４Ｂには、参考のため、音声取得部１０が取得した発話のみすなわち発話に雑音などの発話以外の成分が混入していない場合に第２の特徴量算出部１２２により算出される第２の特徴量を示すベクトルである発話のみの第２の特徴量ベクトルが示されている。

図４Ａに示すように、雑音入り発話の第１の特徴量とＡの話者性特徴量の類似度は、雑音入り発話の第１の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θ_１で表され、例えば３０度である。一方、図４Ｂに示すように、雑音入り発話の第２の特徴量とＡの話者性特徴量の類似度は、雑音入り発話の第２の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θ_２で表され、例えば９０度である。

この場合、合成部１４により算出される類似度の合成値は、３０度と９０度とを加算した１２０度となる。このため、判定部１５は、合成部１４により得られる合成値である角度が大きいため、発話者はＡとは異なるすなわち認識対象の話者ではないと判定することができる。

なお、発話者が認識対象の話者である場合、雑音入り発話の第１の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度も、雑音入り発話の第２の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度も小さくなりやすい。そして、合成部１４により得られる合成値である角度も小さくなりやすいため、判定部１５は、合成部１４により得られる合成値から、発話者はＡと同一であるすなわち認識対象の話者であると判定しやすくなる。

一方、発話者が認識対象の話者と異なる場合、音入り発話の第１の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度、及び、雑音入り発話の第２の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度のうちの一方が小さい値となったとしても、他方が小さい値となる可能性は低い。したがって、合成部１４により得られる合成値は小さくなりにくいため、判定部１５は、合成部１４により得られる合成値から、発話者は認識対象の話者と異なると判定しやすくなる。

［記憶部１６］
記憶部１６は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録された認識対象の話者固有の特徴量である話者性特徴量を記憶する。本実施の形態では、記憶部１６は、図３に示すように、Ａの話者性特徴量１６１とＡの話者性特徴量１６２とを記憶している。話者性特徴量１６１は、上述したように、予め収集していた認識対象の話者の音声物理量を、ｉ−Ｖｅｃｔｏｒを用いて線形変換された話者性特徴量である。話者性特徴量１６２は、予め収集していた認識対象の話者の音声物理量を、ＤＮＮを用いて非線形変換された話者性特徴量である。

［話者認識装置１１の動作］
次に、以上のように構成された話者認識装置１１の動作について説明する。

図５は、実施の形態に係る話者認識装置１１の動作の概要を示すフローチャートである。

まず、話者認識装置１１は、音声取得部１０により取得された発話の音声について２以上の音響特徴量を算出する（Ｓ１０）。次に、話者認識装置１１は、認識対象の話者についての１以上の話者性特徴量と、ステップＳ１０において算出した２以上の音響特徴量の各々との類似度を計算する（Ｓ１１）。次に、話者認識装置１１は、ステップＳ１１において計算した２以上の類似度を合成する（Ｓ１２）。次に、話者認識装置１１は、ステップＳ１１において２以上の類似度を合成することにより得られた合成値に基づき、音声取得部１０により取得された発話の話者が認識対象の話者であるか否かを判定する（Ｓ１３）。

［効果等］
以上のように、本実施の形態によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置１１を実現することができる。

ここで、比較例を用いて、本実施の形態に係る話者認識装置１１の効果について説明する。

図６は、比較例に係る話者認識装置９１の構成を示すブロック図である。図１及び図２
と同様の要素には同一の符号を付しており、詳細な説明は省略する。

比較例に係る話者認識装置９１は、特徴量算出部９２と、類似度計算部９３と、判定部９４と、記憶部９６とを備える。

特徴量算出部９２は、音声物理量計算部１０２から取得した発話の音声物理量を、ｉ−Ｖｅｃｔｏｒを用いて話者性特徴量に線形変換することで、取得した発話の特徴量（第１の特徴量）を算出する。なお、特徴量算出部９２は、第１の特徴量算出部１２１と同様の要素に該当する。

類似度計算部９３は、特徴量算出部９２により算出された特徴量（第１の特徴量）と、記憶部９６に記憶されている認識対象の話者であるＡさんの話者性特徴量との類似度を計算する。図６に示す例では、類似度計算部９３は、特徴量算出部９２により算出された特徴量と、記憶部９６に記憶されているＡさんの話者性特徴量とのベクトル間角度を示すコサイン距離を、類似度として計算する。なお、類似度計算部９３は、第１の類似度計算部１３１と同様の要素に該当する。

判定部９４は、類似度計算部９３により計算された類似度に基づき、発話者が認識対象の話者であるか否かを判定する。

ここで、発話者がＡさんすなわち認識対象の話者ではなく、かつ、取得した発話に雑音などの発話以外の成分が混入している。この場合には、雑音入り発話の第１の特徴量とＡの話者性特徴量の類似度は、図４Ａに示されるにように、雑音入り発話の第１の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θ_１で表され、例えば３０度となる。このため、判定部９４は、雑音入り発話の第１の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θ_１が小さいことから、発話者が認識対象の話者であるＡさんであると判定を誤ってしまう。

つまり、図４Ａに示すように、取得した発話に雑音などの発話以外の成分が混入しない場合には、発話のみの特徴量ベクトルとＡの登録特徴量ベクトルとのベクトル間角度は大きいため、判定部９４は、発話者は認識対象の話者であるＡさんと異なっていることを正しく判定できる。しかし、取得した発話に、雑音などの発話以外の成分が混入している場合、特徴量算出部９２は正確な話者性特徴量を計算できないため、判定部９４は、不正確な話者性特徴量である雑音入り発話の第１の特徴量（雑音入り発話の第１の特徴量ベクトル）に基づき、判定を誤ってしまう。

一方、本実施の形態に係る話者認識装置１１では、上述したように、少なくとも２つの性質の異なる音響特徴量から計算された登録話者との２以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、合成した類似度を用いることで、より正確に登録話者と一致するか否かを判定することができる。

このようにして、本実施の形態に係る話者認識装置１１は、雑音が混入する環境下であっても話者認識の精度を向上することができる。

（変形例１）
上記の実施の形態では、発話の音声物理量を、話者性特徴量に線形変換及び非線形変換し、少なくとも２つの性質の異なる音響特徴量を得ることで、当該音響特徴量から計算された登録話者との２以上の類似度を合成する場合について説明したが、これに限らない。異なる学習データを用いて学習された少なくとも２つのモデルを用いて発話の音声物理量から話者性特徴量を算出することで、少なくとも２つの性質の異なる音響特徴量を得ても、同様のことが言える。以下、この場合を変形例１として説明する。なお、以下では、上記の実施の形態と異なる点を中心に説明する。

［話者認識装置１１Ａ］
図７は、本実施の形態の変形例１に係る話者認識装置１１Ａの具体的構成の一例を示すブロック図である。図３と同様の要素には同一の符号を付しており、詳細な説明は省略する。

話者認識装置１１Ａは、図７に示すように、特徴量算出部１２Ａと、類似度計算部１３Ａと、合成部１４と、判定部１５を備える。なお、話者認識装置１１Ａは、記憶部１６をさらに備えるとしてもよいが、必須の構成でない。図７に示す話者認識装置１１Ａは、上記の実施の形態に係る話者認識装置１１に対して、特徴量算出部１２Ａと、類似度計算部１３Ａとの構成が異なる。

［特徴量算出部１２Ａ］
特徴量算出部１２Ａは、発話の音声物理量を、異なるデータを用いて学習された少なくとも２つのモデルを用いて、２以上の話者性特徴量に変換することで、当該２以上の音響特徴量を算出する。２以上の音響特徴量のうち、異なるデータを用いて学習された少なくとも２つのＤＮＮのモデルを用いて算出された少なくとも２つの音響特徴量の性質は、異なる。

本変形例では、特徴量算出部１２Ａは、図７に示すように、第１の特徴量算出部１２１Ａと、第２の特徴量算出部１２２Ａとを備える。特徴量算出部１２Ａは、ＤＮＮの第１モデル１２１１とＤＮＮの第２モデル１２２１とを用いて、音声取得部１０から入力された発話の音声物理量を、２つの話者性特徴量に変換することで、２つの音響特徴量を算出する。以下、２つの音響特徴量は、第１の音響特徴量と第２の音響特徴量とであるとして説明する。

＜第１の特徴量算出部１２１Ａ＞
第１の特徴量算出部１２１Ａは、音声取得部１０から入力された発話の音声物理量を、ＤＮＮの第１モデル１２１１を用いて話者性特徴量に非線形変換することで、第１の音響特徴量を算出する。より具体的には、第１の特徴量算出部１２１Ａは、ＤＮＮの第１モデル１２１１を用いて、発話の音声物理量からｘ−Ｖｅｃｔｏｒと呼ばれる話者固有の特徴である第１の音響特徴量を算出する。

＜第２の特徴量算出部１２２Ａ＞
第２の特徴量算出部１２２Ａは、音声取得部１０から入力された発話の音声物理量を、ＤＮＮの第２モデル１２２１であって第１モデル１２１１と性質が異なる第２モデル１２２１用いて話者性特徴量に非線形変換することで、第１の音響特徴量を算出する。より具体的には、第２の特徴量算出部１２２Ａは、ＤＮＮの第２モデル１２２１を用いて、発話の音声物理量からｘ−Ｖｅｃｔｏｒと呼ばれる話者固有の特徴である第２の音響特徴量を算出する。

ここで、第１モデル１２１１と第２モデル１２２１は、上述したように、異なるデータを用いて学習されたＤＮＮのモデルである。これについて図８を用いて説明する。

図８は、図７に示す第１モデル１２１１及び第２モデル１２２１が異なるデータで学習されることを説明するための図である。

ＤＮＮモデル１２００は、特徴抽出部と識別部とからなるＤＮＮのモデルであり、パラメータなどが学習されていないモデルである。ＤＮＮモデル１２００は、コンピュータなどの学習部１７により、閾値以上の雑音環境下における認識対象の話者の音声を含む第１学習データ１７１を用いて学習されることで、第１モデル１２１１となる。つまり、第１モデル１２１１は、閾値以上の雑音環境下における認識対象の話者の音声を含む第１学習データを用いて学習されたモデルである。これにより、第１モデル１２１１は雑音が多い環境下でも発話の音声を精度よく識別可能なＤＮＮのモデルとなる。

また、ＤＮＮモデル１２００は、学習部１７により、閾値未満の雑音環境下における認識対象の話者の音声を含む第２学習データ１７２を用いて学習されることで、第２モデル１２２１となる。つまり、第２モデル１２２１は、閾値未満の雑音環境下における認識対象の話者の音声を含む第２学習データを用いて学習されたモデルである。これにより、第２モデル１２２１は雑音が少ない環境下では発話の音声を精度よく識別可能なＤＮＮのモデルとなる。

このように、本変形例では、第１モデル１２１１と第２モデル１２２１は、異なる学習データを用いて学習された性質の異なるＤＮＮのモデルである。このため、算出される第１の音響特徴量及び第２の音響特徴量も性質が異なることになる。

［類似度計算部１３Ａ］
類似度計算部１３Ａは、認識対象の話者についての１以上の話者性特徴量と、特徴量算出部１２により算出された２以上の音響特徴量の各々との類似度を計算する。本変形例でも、２以上の類似度が同じ計算手法により計算される場合について説明するが、２以上の類似度のうちの少なくとも２つの類似度が異なる計算手法により計算されてもよい。

本変形例では、類似度計算部１３Ａは、図７に示すように、第１の類似度計算部１３１Ａと、第２の類似度計算部１３２Ａとを備える。

＜第１の類似度計算部１３１Ａ＞
第１の類似度計算部１３１Ａは、第１の特徴量算出部１２１Ａにより算出された第１の音響特徴量と、記憶部１６に記憶されている認識対象の話者の話者性特徴量１６２との類似度を計算する。図７に示す例でも、話者性特徴量１６２は、認識対象の話者であるＡさんの話者性特徴量である。本変形例では、第１の類似度計算部１３１Ａは、第１の音響特徴量と話者性特徴量１６２とのベクトル間角度を示すコサイン距離を、第１の類似度として計算する。

＜第２の類似度計算部１３２Ａ＞
第２の類似度計算部１３２Ａは、第２の特徴量算出部１２２Ａにより算出された第２の音響特徴量と、記憶部１６に記憶されている認識対象の話者の話者性特徴量１６２との類似度を計算する。本変形例では、第２の類似度計算部１３２Ａは、第２の音響特徴量と話者性特徴量１６２とのベクトル間角度を示すコサイン距離を、第２の類似度として計算する。

［効果等］
以上のように、本変形例によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置１１Ａを実現することができる。より具体的には、本変形例に係る話者認識装置１１Ａは、上述したように、異なる学習データを用いて学習された少なくとも２つのモデルを用いて発話の音声物理量から話者性特徴量を算出することで、少なくとも２つの性質の異なる音響特徴量を得ることができる。そして、本変形例に係る話者認識装置１１Ａは少なくとも２つの性質の異なる音響特徴量から計算された登録話者との２以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、類似度を合成することで得た合成値を用いることで、より正確に登録話者と一致するか否かを判定することができる。

このようにして、本変形例に係る話者認識装置１１Ａは、雑音が混入する環境下であっても話者認識の精度を向上することができる。

なお、本変形例では、異なる学習データを用いて学習された２つのＤＮＮのモデルを用いて、発話の音声物理量からｘ−Ｖｅｃｔｏｒと呼ばれる話者固有の特徴（話者性特徴量）を算出すると説明したが、これに限らない。異なる学習データを用いて学習された２つの統計的モデルを用いて、発話の音声物理量からｉ−Ｖｅｃｔｏｒと呼ばれる話者固有の特徴（話者性特徴量）を算出してもよく、同様のことが言える。

（変形例２）
上記の実施の形態及び変形例１では、少なくとも２つの性質の異なる音響特徴量から計算された登録話者との２以上の類似度を合成する場合について説明したが、これに限らない。性質が同じである（性質が異ならない）少なくとも２つの音響特徴量から、登録話者との性質の異なる２以上の類似度を合成する場合も同様に、雑音が混入する環境下であっても話者認識の精度を向上することができる。以下、この場合を変形例２として説明する。なお、以下では、上記の実施の形態及び変形例２と異なる点を中心に説明する。

［話者認識装置１１Ｂ］
図９は、本実施の形態の変形例２に係る話者認識装置１１Ｂの具体的構成の一例を示すブロック図である。図３と同様の要素には同一の符号を付しており、詳細な説明は省略する。

話者認識装置１１Ｂは、図９に示すように、特徴量算出部１２Ｂと、類似度計算部１３Ｂと、合成部１４と、判定部１５を備える。なお、話者認識装置１１Ｂは、記憶部１６をさらに備えるとしてもよいが、必須の構成でない。図９に示す話者認識装置１１Ｂは、上記の実施の形態に係る話者認識装置１１に対して、特徴量算出部１２Ｂと、類似度計算部１３Ｂとの構成が異なる。また、本変形例に係る記憶部１６は、さらに類似度計算部１３Ｂで用いられる学習済み計算用モデル１６３を記憶している。

［特徴量算出部１２Ｂ］
特徴量算出部１２Ｂは、発話の音声物理量を、２以上の話者性特徴量に変換することで、当該２以上の音響特徴量を算出する。

本変形例では、特徴量算出部１２Ｂは、図９に示すように、２つの第１の特徴量算出部１２１を備え、音声取得部１０から入力された発話の音声物理量から、２つの話者性特徴量に変換することで、２つの音響特徴量を算出する。２つの音響特徴量は、第１の音響特徴量と第２の音響特徴量と称してもよいが、第１の音響特徴量と第２の音響特徴量とは同一であるため、以下では、２つの第１の音響特徴量として説明する。

［類似度計算部１３Ｂ］
類似度計算部１３Ｂは、認識対象の話者についての１以上の話者性特徴量と、特徴量算出部１２により算出された２以上の音響特徴量の各々との類似度を計算する。以下では、２以上の類似度の性質のうちの少なくとも２つの類似度の性質が異なる場合について説明する。

本変形例では、類似度計算部１３Ｂは、図９に示すように、第１の類似度計算部１３１Ｂと、第２の類似度計算部１３２Ｂとを備える。

＜第１の類似度計算部１３１Ｂ＞
第１の類似度計算部１３１Ｂは、記憶部１６に記憶されている学習済み計算用モデル１６３を用いて、第１の特徴量算出部１２１により算出された第１の音響特徴量と、認識対象の話者であるＡさんの話者性特徴量との類似度である第１の類似度を計算する。より具体的には、第１の類似度計算部１３１Ｂは、記憶部１６に記憶されている学習済み計算用モデルを用いて、第１の特徴量算出部１２１により算出された第１の音響特徴量から、確率的線形判別分析（Probabilistic Linear Discriminant Analysis：PLDA）により、第１の類似度を計算する。

ここで、学習済み計算用モデルは、認識対象の話者の話し方を含む話者の特徴量について学習された計算用モデルであって１以上の話者性特徴量のうちの一の話者性特徴量としての計算用モデルである。学習済み計算用モデルは、同じ話者の発話でも、その話し方及び周りの環境等の収音条件でどのように特徴量が変化し得るかという分布を事前に学習しておくことで得られるモデルである。これにより、学習済み計算用モデルは、音声取得部１０で話者の発話の音声が入力されるときの収音条件が、事前の学習時のものと近いほど高性能となるモデルとなる。

＜第２の類似度計算部１３２Ｂ＞
第２の類似度計算部１３２Ｂは、第１の特徴量算出部１２１により算出された第１の音響特徴量と、記憶部１６に記憶されている認識対象の話者の話者性特徴量１６１との類似度を計算する。本変形例では、第２の類似度計算部１３２Ｂは、第１の音響特徴量と話者性特徴量１６１とのベクトル間角度を示すコサイン距離を、第２の類似度として計算する。

なお、第２の類似度計算部１３２Ｂによる類似度計算には、学習済み話者モデルが不要である。このため、第２の類似度は、第１の類似度と比較して、音声取得部１０で話者の発話の音声が入力されるときの収音条件に依存しにくいものとなる。このように、第１の音響特徴量と第２の音響特徴量とは、性質が異なる。

［効果等］
以上のように、本変形例によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置１１Ｂを実現することができる。より具体的には、本変形例に係る話者認識装置１１Ｂは、上述したように、登録話者との２以上の類似度であって性質の異なる２以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、性質が異なる類似度を合成することで得た合成値を用いることで、より正確に登録話者と一致するか否かを判定することができる。

このようにして、本変形例に係る話者認識装置１１Ｂは、雑音が混入する環境下であっても話者認識の精度を向上することができる。

（実施例）
上記の実施の形態等では、２以上の音響特徴量と２以上の類似度の一例として、２つの音響特徴量から２つの類似度を計算して合成することについて説明したが、これに限らない。本実施例では、２以上の音響特徴量と２以上の類似度の一例として３つの音響特徴量から３つの類似度を計算して合成する場合について説明する。なお、以下では、上記の実施の形態等と異なる点を中心に説明する。

［話者認識装置１１Ｃ］
図１０は、本実施の形態の実施例に係る話者認識装置１１Ｃの具体的構成の一例を示すブロック図である。図３、図７及び図９と同様の要素には同一の符号を付しており、詳細な説明は省略する。

話者認識装置１１Ｃは、図１０に示すように、特徴量算出部１２Ｃと、類似度計算部１３Ｃと、合成部１４と、判定部１５を備える。なお、話者認識装置１１Ｃは、記憶部１６をさらに備えるとしてもよいが、必須の構成でない。図１０に示す話者認識装置１１Ｃは、上記の実施の形態等に係る話者認識装置１１等に対して、特徴量算出部１２Ｃと、類似度計算部１３Ｃとの構成が異なる。また、本変形例に係る記憶部１６は、さらに類似度計算部１３Ｃで用いられる学習済み計算用モデル１６３を記憶している。

［特徴量算出部１２Ｃ］
特徴量算出部１２Ｃは、発話の音声物理量を、３以上の話者性特徴量に変換することで、当該３以上の音響特徴量を算出する。

本実施例では、特徴量算出部１２Ｃは、図１０に示すように、２つの第１の特徴量算出部１２１と、１つの第２の特徴量算出部１２２とを備え、音声取得部１０から入力された発話の音声物理量から、３つの話者性特徴量に変換することで、３つの音響特徴量を算出する。３つの音響特徴量は、第１の音響特徴量〜第３の音響特徴量と称してもよいが、上記の実施の形態に倣い、２つの第１の音響特徴量（ｉ−Ｖｅｃｔｏｒ）と、１つの第２の音響特徴量（ｘ−Ｖｅｃｔｏｒ）と称して以下説明する。なお、２つの第１の音響特徴量（ｉ−Ｖｅｃｔｏｒ）と、１つの第２の音響特徴量（ｘ−Ｖｅｃｔｏｒ）とは、計算手法が異なることから、性質が異なる。

［類似度計算部１３Ｃ］
類似度計算部１３Ｃは、認識対象の話者についての複数の話者性特徴量と、特徴量算出部１２Ｃにより算出された３つの音響特徴量の各々との類似度を計算する。

本実施例では、類似度計算部１３Ｃは、図１０に示すように、第１の類似度計算部１３１と、第１の類似度計算部１３１Ｂと、第２の類似度計算部１３２とを備える。類似度計算部１３Ｃは、特徴量算出部１２Ｃにより算出された３つの音響特徴量から、記憶部１６に記憶される認識対象の話者の話者性特徴量に対する３つの類似度を算出する。３つの類似度は、第１の類似度〜第３の類似度と称してもよいが、上記の実施の形態に倣い、第１の類似度（コサイン距離）と、第２の類似度（ｘ−Ｖｅｃｔｏｒ）と、第１の類似度（ＰＬＤＡ）と称して以下説明する。なお、第１の類似度（コサイン距離）及び第２の類似度（コサイン距離）と、第１の類似度（ＰＬＤＡ）とは、計算手法が異なることから、性質が異なる。

［合成部１４］
合成部１４は、類似度計算部１３により計算された２以上の類似度を合成する。本実施例では、合成部１４は、第１の類似度（コサイン距離）と、第２の類似度（コサイン距離）と、第１の類似度（ＰＬＤＡ）とのそれぞれの平均が０かつ分散が１となるように正規化して加重和を計算することで、３つの類似度を合成する。

ここで、図１１Ａ〜図１１Ｃは、図１０に示す類似度計算部１３Ｃが計算した類似度の一例を示す図である。図１１Ａには、図１０に示す第２の類似度計算部１３２が計算した、−１から１までの値をとる第２の類似度（コサイン距離）の一例が示されている。図１１Ｂには、図１０に示す第１の類似度計算部１３１が計算した、−１から１までの値をとる第１の類似度（コサイン距離）の一例が示されている。図１１Ｃには、図１０に示す第１の類似度計算部１３１Ｂが計算した第１の類似度（ＰＬＤＡ）の一例が示されている。なお、図１１Ａ〜図１１Ｃにおけるテスト発話は、音声取得部１０により取得された、独立した１３個の発話の音声ファイルが示されている。また、図１１Ａ〜図１１Ｃに示される本人ｏｒ他人は、テスト発話を行った発話者が、認識対象の話者であったか否かを示している。

図１２は、図１０に示す合成部１４が計算した合成値の一例を示す図である。図１２には、図１１Ａに示される第１の類似度（コサイン距離）と、図１１Ｂに示される第２の類似度（コサイン距離）と、図１１Ｃに示される第１の類似度（ＰＬＤＡ）とのそれぞれの平均が０かつ分散が１となるように正規化して加重和を計算することで得た合成値が示されている。

図１２から、例えば１．７などの閾値を設定することで、合成値を用いてテスト発話者が認識対象の話者であるか否かを判定することができるのがわかる。

つまり、３つの音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、３つの類似度のうちの少なくとも２つの類似度の性質が異なっていても、３つの類似度それぞれの平均が０かつ分散が１となるように正規化して加重和を計算して合成値を得ればよい。これにより、その合成値を用いて、テスト発話を行った発話者が、認識対象の話者であったか否かに用いることができる。このように、性質が異なる２つの類似度等から、テスト発話を行った発話者が、認識対象の話者であったか否かに用いることができる合成値を得ることができる。

以上、実施の形態及び変形例等に係る話者認識装置について説明したが、本開示は、この実施の形態に限定されるものではない。

例えば、上記実施の形態及び変形例等に係る話者認識装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

また、本開示は、話者認識装置により実行される話者認識方法として実現されてもよい。

また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

以上、一つまたは複数の態様に係る話者認識装置について、実施の形態及び変形例等に基づいて説明したが、本開示は、この実施の形態及び変形例等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例等に施したものや、異なる実施の形態及び変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本開示は、話者認識装置、話者認識方法、及び、プログラムに利用でき、例えば、入退管理システム、セキュリティシステム、ＡＩスピーカ、コールセンターなど、発話の音声から話者認識を行う機能を必要とする話者認識装置、話者認識方法、及び、プログラムに利用できる。

１話者認識システム
１０音声取得部
１１、１１Ａ、１１Ｂ、１１Ｃ、９１話者認識装置
１２、１２Ａ、１２Ｂ、１２Ｃ、９２特徴量算出部
１３、１３Ａ、１３Ｂ、１３Ｃ、９３類似度計算部
１４合成部
１５、９４判定部
１６、９６記憶部
１７学習部
１０１音声入力部
１０２音声物理量計算部
１２１、１２１Ａ第１の特徴量算出部
１２２、１２２Ａ第２の特徴量算出部
１３１、１３１Ａ、１３１Ｂ第１の類似度計算部
１３２、１３２Ａ、１３２Ｂ第２の類似度計算部
１６１、１６２話者性特徴量
１６３学習済み計算用モデル
１７１第１学習データ
１７２第２学習データ
１２００ＤＮＮモデル
１２１１第１モデル
１２２１第２モデル

Claims

取得された発話の音声について２以上の音響特徴量を算出する特徴量算出部と、
認識対象の話者についての１以上の話者性特徴量と、前記特徴量算出部により算出された前記２以上の音響特徴量の各々との類似度を計算する類似度計算部と、
前記類似度計算部により計算された２以上の類似度を合成する合成部と、
前記合成部により得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定部と、を備え、
前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、前記２以上の類似度のうちの少なくとも２つの類似度の性質、のうちの少なくとも一方は、異なる、
話者認識装置。
前記２以上の類似度のうちの少なくとも２つの類似度は、性質が異なる第１の類似度と第２の類似度であり、
前記第１の類似度は、前記話者の話し方を含む前記話者の特徴量について学習された学習済み計算用モデルであって前記１以上の話者性特徴量のうちの第１の話者性特徴量としての学習済み計算用モデルを用いて、前記特徴量算出部により算出された第１の音響特徴量から、確率的線形判別分析（Probabilistic Linear Discriminant Analysis：PLDA）により計算され、
前記第２の類似度は、前記１以上の話者性特徴量のうちの第２の話者性特徴量と、前記特徴量算出部により算出された第２の音響特徴量とのコサイン距離として計算される、
請求項１に記載の話者認識装置。
前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量は、性質が異なる第１の音響特徴量と第２の音響特徴量であり、
前記第１の音響特徴量は、前記特徴量算出部により、前記発話の音声物理量をｉ−Ｖｅｃｔｏｒを用いて線形変換されることで算出され、
前記第２の音響特徴量は、前記特徴量算出部により、前記音声物理量をＤＮＮ（Deep Neural Network）を用いて非線形変換されることで算出される、
請求項１または２に記載の話者認識装置。
前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量は、性質が異なる第１の音響特徴量と第２の音響特徴量であり、
前記第１の音響特徴量は、前記特徴量算出部により、ＤＮＮの第１モデルを用いて非線形変換されることで算出され、
前記第２の音響特徴量は、前記特徴量算出部により、ＤＮＮの第２モデルであって前記第１モデルと性質が異なる第２モデルを用いて非線形変換されることで算出され、
前記第１モデルは、閾値以上の雑音環境下における前記認識対象の話者の音声を含む第１学習データを用いて学習されたモデルであり、
前記第２モデルは、前記閾値未満の雑音環境下における前記認識対象の話者の音声を含む第２学習データを用いて学習されたモデルである、
請求項１または２に記載の話者認識装置。
前記第１の音響特徴量と前記第２の音響特徴量とは、同一である、
請求項２に記載の話者認識装置。
前記合成部は、前記類似度計算部により計算された類似度それぞれを示すスコアを足し合わせることにより、前記２以上の類似度を合成する、
請求項１〜５のいずれか１項に記載の話者認識装置。
前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が０かつ分散が１となるように正規化して足し合わせることにより、前記２以上の類似度を合成する、
請求項１〜５のいずれか１項に記載の話者認識装置。
前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が０かつ分散が１となるように正規化して加重和を計算することで、前記２以上の類似度を合成する、
請求項１〜５のいずれか１項に記載の話者認識装置。
前記合成部は、前記加重和を、取得された前記発話の時間的な長さが長いほど大きな係数をかけて計算する、
請求項８に記載の話者認識装置。
コンピュータが行う話者認識方法であって、
取得された発話の音声について２以上の音響特徴量を算出する特徴量算出ステップと、
認識対象の話者についての１以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記２以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算された２以上の類似度を合成する合成ステップと、
前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとを含み、
前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、前記２以上の類似度のうちの少なくとも２つの類似度の性質、のうちの少なくとも一方は、異なる、
話者認識方法。
取得された発話の音声について２以上の音響特徴量を算出する特徴量算出ステップと、
認識対象の話者についての１以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記２以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算された２以上の類似度を合成する合成ステップと、
前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとをコンピュータに実行させ、
前記２以上の音響特徴量のうちの少なくとも２つの音響特徴量の性質、及び、前記２以上の類似度のうちの少なくとも２つの類似度の性質、のうちの少なくとも一方は、異なる、
プログラム。