JP7353839B2

JP7353839B2 - 話者識別装置、話者識別方法、及び、プログラム

Info

Publication number: JP7353839B2
Application number: JP2019133958A
Authority: JP
Inventors: 光佑板倉; 耕水野; 美沙貴土井
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-11-19
Filing date: 2019-07-19
Publication date: 2023-10-02
Anticipated expiration: 2039-07-19
Also published as: JP2020086430A

Description

本開示は、話者識別装置、話者識別方法、及び、プログラムに関し、特に、ＤＮＮ（Deep Neural Network）を用いた話者識別装置、話者識別方法、及び、プログラムに関する。

話者識別技術は、登録対象の話者の発話の音声を予め収集し、収集した音声から算出した特徴量と、新たに取得する未知の話者の発話の音声から算出した特徴量との類似度に基づいて、未知の話者の発話が登録されたどの話者の発話であるかを推定する技術である。

近年、深層学習を用いた話者識別技術の研究が盛んに行われている。例えば、画像処理及び音声認識などの様々な分野においてＤＮＮを用いた技術が急速に発展していることを受け、ＤＮＮを用いた話者識別方法も数多く報告されている。

ＤＮＮを用いた最も簡単な話者識別方法は、入力としてMel-Frequency Cepstrum Coefficients（ＭＦＣＣ）等の音響特徴量を用いて、ＤＮＮの最終層の出力を話者識別の結果とする方法である。

しかし、この方法では、発話内容及び収録環境に関して過学習を起こしやすいということが知られている。

そこで、過学習を防ぐため、ＤＮＮの最終層の出力を使わない方法が提案されている（例えば、非特許文献１参照）。非特許文献１では、ＤＮＮの中間層の出力を抽出し、抽出した出力を話者識別用の特徴量として、コサイン距離識別器またはＰＬＤＡ等の識別器により過学習を防いで話者識別を行う方法が提案されている。

また、本来、音響特徴量は、話者性だけでなく発話内容にも大きく依存することから、最終出力が話者識別の結果となっているＤＮＮを用いない方法も提案されている（例えば、非特許文献２参照）。非特許文献２では、最終出力が音声認識の結果となっているＤＮＮを用いて話者識別用の特徴量を抽出する方法が提案されている。

これらの方法により、ＤＮＮを用いて話者識別用の特徴量を抽出することで、発話内容の違いを考慮した特徴量を抽出することができるので、発話内容の違いに頑健な話者識別方法を実現できる。

E. Variani et al. "Deep neural networks for small footprint text-dependent speaker verification." In: Proc. ICASSP. 2014,pp. 4052‐4056. F. Richardson et al. "Deep Neural Network Approaches to Speaker and Language Recognition". In: IEEE SPL 22.10 (2015), pp. 1671‐1675.

しかしながら、上記の非特許文献１及び非特許文献２で開示されるＤＮＮを用いた話者識別方法では、５～１０秒程度の短時間の発話に対しては精度の向上が見られるものの、１分以上の長時間の発話に対しては精度の向上が不十分であるとの課題がある。

本開示は、上述の事情を鑑みてなされたもので、ＤＮＮを用いた話者識別の精度を向上することができる話者識別装置、話者識別方法、及び、プログラムを提供することを目的とする。

本開示の一態様に係る話者識別装置は、取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算部と、前記音響特徴量から、前記発話データの統計量を算出する統計量算出部と、ＤＮＮ（Deep Neural Network）を用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出部と、前記話者特徴量と、予め保持している１以上の登録話者の話者特徴量との類似度を算出する類似度算出部と、前記類似度に基づいて、前記発話データの話者を識別する話者識別部と、を備える。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示の話者識別装置等によれば、ＤＮＮを用いた話者識別の精度を向上することができる。

実施の形態に係る話者識別システムの構成の一例を示すブロック図である。実施の形態に係る統計量算出部の具体的構成の一例を示すブロック図である。実施の形態に係る統計量算出部が統計量を算出する手順を概念的に示す図である。実施の形態に係る話者特徴量抽出部に用いられるＤＮＮの構成の一例を示すブロック図である。実施の形態に係る話者特徴量抽出部に用いられるＤＮＮの構成の別の一例を示すブロック図である。実施の形態に係る類似度算出部が算出した類似度の一例を示す図である。実施の形態に係る話者識別装置の動作の概要を示すフローチャートである。各発話の音響特徴量として計算されたＭＦＣＣを、時間方向の平均と分散とを用いて算出された統計量の一例を示す図である。各発話の音響特徴量として計算されたＭＦＣＣを、混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化することで算出された統計量の一例を示す図である。実施例に係る学習に用いられた学習用データセットの一例を示す図である。実施例に係る評価実験に用いられた評価用データセットの一例を示す図である。実施例に係る評価用データセットを用いて識別性能を評価した実験結果を示す図である。図１１に示す評価用データセットを用いて識別性能を評価した実験結果を示す図である。特定の発話と複数の登録話者それぞれとの類似度を示す図である。

（本発明の一態様を得るに至った経緯）
従来、ｉ－ｖｅｃｔｏｒと呼ばれる話者固有の特徴量を用いた話者識別技術が広く研究されてきた。

ここで、ｉ－ｖｅｃｔｏｒは、混合ガウスモデルを用いて、発話の統計的な特徴量をもとに、算出される。なお、混合ガウスモデルは、複数個のガウス分布の線形重ね合わせで表現され、複数のガウス分布（正規分布）によってクラスタリングを行う手法として知られている。より具体的には、まず、不特定多数話者の音声の平均のモデルすなわち一般的な音声らしいモデルを表すモデルであるUniversal Background Model（ＵＢＭ）を不特定多数話者の音声データを用いて事前に学習する。次いで、ＵＢＭを、識別対象の話者に適応させて、当該話者のモデルであるGaussian Mixture Model（ＧＭＭ）を推定する。そして、ＧＭＭの平均ベクトルをガウス分布の混合数分だけ結合して得られるＧＭＭスーパーベクトルを話者固有の特徴量すなわちｉ－ｖｅｃｔｏｒとして算出する。例えば、識別対象の話者の一発話のデータを用いて、ＵＢＭを適応させて得たＧＭＭの平均ベクトルを結合することで、当該一発話のデータのＧＭＭスーパーベクトルすなわちｉ－ｖｅｃｔｏｒとして算出することができる。また、ｉ－ｖｅｃｔｏｒを用いた話者識別方法では、発話が長いほど正確な統計量が得やすいため、長時間の発話においては話者識別の精度が高いという特長がある。

一方、上述したように、近年、深層学習を用いた話者識別技術の研究が盛んに行われており、例えば、画像処理及び音声認識などの様々な分野においてＤＮＮを用いた技術が急速に発展していることから、ＤＮＮを用いた話者識別方法も数多く報告されている。

例えば非特許文献１では、上述したように、ＤＮＮの中間層の出力を抽出し、抽出した出力を話者識別用の特徴量として、コサイン距離識別器またはＰＬＤＡ等の識別器により話者識別を行う方法が提案されている。また、例えば非特許文献２では、上述したように、最終出力が音声認識の結果となっているＤＮＮを用いて話者識別用の特徴量を抽出する方法が提案されている。これらの方法により、ＤＮＮを用いて話者識別用の特徴量を抽出することで、発話内容の違いを考慮した特徴量を抽出することができるので、発話内容の違いに頑健な話者識別方法を実現できる。

また、上記の非特許文献１及び非特許文献２で開示されるＤＮＮを用いた話者識別方法では、ｉ－ｖｅｃｔｏｒを用いた話者識別方法を上回る性能を達成している。

しかしながら、発話長ごとの識別性能すなわち精度を評価すると、次の通りである。上記の非特許文献１及び非特許文献２で開示されるＤＮＮを用いた話者識別方法では、５～１０秒程度の短時間の発話については、ｉ－ｖｅｃｔｏｒを用いた話者識別方法を上回る識別性能が達成されている。一方で、１分以上の長時間の発話については、ｉ－ｖｅｃｔｏｒを用いた話者識別方法よりも識別性能が下回っているとの結果も報告されている。

本発明者らは、鋭意検討の結果、ＤＮＮを用いた話者識別方法では、１分以上の長時間の発話において精度の向上が不十分であった原因を以下のように見出した。すなわち、ＤＮＮによる話者識別方法では、短時間の音響特徴量による話者識別を独立に繰り返し、それらの平均等を取ることにより発話全体の話者識別を行っている。通常、長時間の発話ほど発話全体の中に豊富な情報を含んでいる。しかし、ＤＮＮによる話者識別方法では、短時間ごとの平均という単純な処理を行っていることから、長時間の発話に含まれる豊富な情報が損なわれてしまい、長時間の発話に対する話者識別の精度が十分に向上しないと考えられる。

つまり、本発明者らは、ＤＮＮによる話者識別方法では、各時間（短時間）の音響特徴量を独立に入力として用いているため、発話全体の特徴を考慮できないことが、長時間の発話に対する話者識別の精度が十分に向上しない原因の一つであることを見出した。

なお、ＤＮＮへ入力する発話データの入力次元を大きくすると、発話全体の特徴量も用いることができるようになるが、教師データとして次元数を増加した発話データを用いたＤＮＮの学習が極めて困難になってしまい、現実的でない。

そこで、本発明者らは、鋭意検討の結果、発話データから算出した音響特徴量を、話者特徴量の抽出を行わせるＤＮＮの入力として直接用いるのではなく、ＤＮＮの前段に音響特徴量に対する統計処理を新たに導入することを見出した。

（本開示の概要）
本開示の一形態の概要は、以下の通りである。

本態様によれば、発話全体の情報を含む音響特徴量に相当する発話データの統計量を用いて、ＤＮＮにより話者特徴量の抽出を行うことで、長時間の発話においても話者識別の精度を向上することができる。よって、ＤＮＮを用いた話者識別の精度を向上することができる。

また、例えば、前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量であるとしてもよい。

これにより、ＤＮＮに、発話全体の特徴を考慮した話者特徴量の抽出を行わせることができる統計量を算出できるので、長時間の発話においても話者識別の精度を向上することができる。

また、例えば、前記統計量算出部は、前記音響特徴量のクラス分けを行い、前記統計量として前記クラス毎の平均を算出することで、前記統計量を抽出するとしてもよい。

また、例えば、前記統計量算出部は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるＵＢＭ（Universal Background Model）から、前記発話の音声についての前記音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、前記発話データの話者モデルであるＧＭＭ（Gaussian Mixture Model）を推定し、前記ＧＭＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、前記ＵＢＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、前記統計量として算出するとしてもよい。

これにより、一般的な話者の発話の音響特徴量と識別対象の話者の発話の音響特徴量との違いに基づき、発話全体の特徴を考慮した話者特徴量の抽出を行わせることができる統計量を算出できるので、長時間の発話においても話者識別の精度を向上することができる。

また、例えば、前記ＤＮＮは、入力層と複数の中間層と出力層とを備え、前記話者特徴量抽出部は、前記ＤＮＮの複数の中間層のうちのいずれかの層から話者特徴量を抽出するとしてもよい。

本態様によれば、ＤＮＮの学習時に用いた発話データの話者に依存しないで、ＤＮＮに話者特徴量の抽出を行わせることができる。これにより、ＤＮＮを用いた話者識別の精度を向上することができる。

また、例えば、前記ＤＮＮは、ボトルネックＤＮＮであり、前記複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少ないとしてもよい。

本態様によれば、話者識別に必要な情報を残しつつも、ＤＮＮに抽出させる話者特徴量の次元を減らすことができる。

本開示の一態様に係る話者識別方法は、コンピュータが行う話者識別方法であって、取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、ＤＮＮを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、前記話者特徴量と、予め保持している１以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、を含む。

また、本開示の一態様に係るプログラムは、取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、ＤＮＮを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、前記話者特徴量と、予め保持している１以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、をコンピュータに実行させる。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
以下では、図面を参照しながら、本実施の形態に係るＤＮＮを用いた話者識別方法等の説明を行う。

［話者識別システム１］
図１は、本実施の形態に係る話者識別システム１の構成の一例を示すブロック図である。

本実施の形態に係る話者識別システム１は、発話者が、登録されている話者のうちのどの話者であるかを識別するために用いられる。

話者識別システム１は、図１に示すように、音声取得部１０と、話者識別装置１１と、記憶部１７とを備える。

［音声取得部１０］
音声取得部１０は、例えばマイクロフォンからなり、話者の発話の音声を取得する。音声取得部１０は、取得した音声を音声信号に変換して、音響特徴量計算部１２に出力する。

［話者識別装置１１］
話者識別装置１１は、例えば、プロセッサ（マイクロプロセッサ）、メモリ、通信インタフェース等を備えるコンピュータで実現される。話者識別装置１１は、サーバに含まれて動作するとしてもよいし、話者識別装置１１の一部構成がクラウドサーバに含まれ動作するとしてもよい。話者識別装置１１は、識別対象の発話を行った話者が、どの登録話者であるかを識別する処理を行う。

話者識別装置１１は、図１に示すように音響特徴量計算部１２と、統計量算出部１３と、話者特徴量抽出部１４と、類似度算出部１５と、話者識別部１６とを備える。なお、話者識別装置１１は、記憶部１７をさらに備えるとしてもよいが、必須の構成でない。

［音響特徴量計算部１２］
音響特徴量計算部１２は、取得された発話の音声を示す発話データから、発話の音声についての音響特徴量を計算する。本実施の形態では、音響特徴量計算部１２は、音声取得部１０により出力された発話の音声信号から、発話の音声の特徴量であるＭＦＣＣを、音響特徴量として計算する。ＭＦＣＣは、発話者の声道特性を表す特徴量であり、音声認識でも一般的に使用される。より具体的には、ＭＦＣＣは、音声の周波数スペクトルを人間の聴覚特性に基づいて分析した音響特徴量である。なお、音響特徴量計算部１２は、発話の音響特徴量として、ＭＦＣＣを計算する場合に限らず、発話の音声信号にメルフィルタバンクをかけたものを音響特徴量として計算してもよいし、発話の音声信号のスペクトログラムを音響特徴量として計算してもよい。また、音響特徴量計算部１２は、ＤＮＮなど深層学習させたニューラルネットワークを用いて、発話の音声信号から、音声の特徴量を示す音響特徴量を計算してもよい。

［統計量算出部１３］
統計量算出部１３は、話者特徴量抽出部１４の前段に設けられ、音響特徴量計算部１２で計算された音響特徴量に対して統計処理を行い、統計処理を行うことで得た、話者特徴量に関する統計量を、話者特徴量抽出部１４に出力する。より具体的には、統計量算出部１３は、音響特徴量計算部１２で計算された音響特徴量から、発話データの統計量を算出する。

ここで、統計量は、平均及び分散を統計処理として用いて算出されてもよい。すなわち、統計量は、各発話の音響特徴量として計算されたＭＦＣＣを、時間方向の平均と分散とを用いて算出されてもよい。これにより、話者ごとの各発話の統計量を算出することができる。

また、統計量は、発話全体の情報を含む音響特徴量に相当する発話データの統計量であってもよい。より具体的には、統計量は、音響特徴量から発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる発話全体を通した統計量であってもよい。このような発話全体の特徴を含む発話全体を通した統計量は、混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化することで算出される。

本実施の形態では、統計量は、発話全体を通した発話データの統計量であるとして、以下説明する。

図２は、本実施の形態に係る統計量算出部１３の具体的構成の一例を示すブロック図である。図３は、本実施の形態に係る統計量算出部１３が統計量を算出する手順を概念的に示す図である。

本実施の形態では、統計量算出部１３は、図２に示すように、データ取得部１３１と、ＵＢＭ作成部１３２と、ＧＭＭ推定部１３３と、スーパーベクトル算出部１３４とを備える。統計量算出部１３は、音響特徴量計算部１２で計算された音響特徴量のクラス分けを行い、発話データの統計量としてクラス毎の平均を算出する。

＜データ取得部１３１＞
データ取得部１３１は、不特定多数話者の発話の音声についての音響特徴量を取得する。本実施の形態では、例えば図３の（ａ）に示すように、データ取得部１３１は、事前に用意された不特定多数話者の全ての発話の音声についてのＭＦＣＣを、音響特徴量としてデータ収集する。データ取得部１３１は、音声取得部１０により出力された不特定多数話者の全ての発話の音声信号から、ＭＦＣＣを音響特徴量として計算することで取得してもよい。この場合、データ取得部１３１は、不特定多数話者の全ての発話の音声に対して時間フレームごとにＭＦＣＣを計算することで、不特定多数話者の発話の音声についての音響特徴量を取得する。

＜ＵＢＭ作成部１３２＞
ＵＢＭ作成部１３２は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるＵＢＭを作成する。

なお、ここでのＵＢＭは、ｉ‐ｖｅｃｔｏｒの抽出に用いられるＵＢＭと同様の手法により作成されるモデルである。

より具体的には、まず、ＵＢＭ作成部１３２は、データ取得部１３１により取得された全ての発話の音声に対する全時間フレームのＭＦＣＣの時間微分（△ＭＦＣＣ）と、その時間微分（△ＭＦＣＣ）の時間微分（△△ＭＦＣＣ）を計算する。次に、ＵＢＭ作成部１３２は、これらのＭＦＣＣ、△ＭＦＣＣ、△△ＭＦＣＣの値が、（式１）のように共通の混合ガウスモデル（ＧＭＭ）から生成されるとして、その混合ガウスモデル（ＧＭＭ）を推定する。

ただし、（式１）において、Ｘ_ｎｔは、発話ｎ、時刻ｔにおけるＭＦＣＣ、△ＭＦＣＣ及び△△ＭＦＣＣの値を連結したベクトルである。発話ｎ、時刻ｔにおけるＭＦＣＣのみだと、発話の前後がわからなくなるが、ＭＦＣＣの２回微分した値まで用いることで、発話ｎ、時刻ｔにおけるＭＦＣＣの前後を含めることができるからである。また、π_ｉ、ｍ_ｉ、Σ_ｉはそれぞれ、ＧＭＭのｉ番目のガウス分布の混合比、平均、共分散行列である。なお、ｍ_ｉ、Σ_ｉはひとつのガウス分布の山の形を表している。また、不特定多数話者の全発話に対して推定される混合ガウスモデル（ＧＭＭ）は、不特定多数話者の音声の平均のモデルすなわち一般的な音声らしいモデルを表す初期モデルとなることから、ＵＢＭと呼ばれる。

このため、ＵＢＭ作成部１３２は、例えば図３の（ｂ）に示すように、不特定多数話者の全発話に対して推定した混合ガウスモデル（ＧＭＭ）を、ＵＢＭとして作成する。なお、ＵＢＭにおいて、混合されているガウス分布のそれぞれは、不特定多数話者の音声の音響特徴量をクラス分けされたものに対応する。

＜ＧＭＭ推定部１３３＞
ＧＭＭ推定部１３３は、ＵＢＭ作成部１３２により作成された初期モデルであるＵＢＭから、対象発話の音声についての音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、対象発話の発話データの話者モデルであるＧＭＭを推定する。

より具体的には、ＧＭＭ推定部１３３は、例えば図３の（ｃ）に示すように、ＵＢＭ作成部１３２により作成されたＵＢＭを、識別対象の話者の発話すなわち対象発話ｎに対して適応させることで、（式２）のような、対象発話ｎにおけるＧＭＭを推定する。対象発話ｎにおけるＧＭＭは、最大事後確率（ＭＡＰ：Maximum A posteriori Probability）による推定を用いて、ＵＢＭを適応させることで得られる。

ただし、（式２）において、Ｘ_ｎｔは、発話ｎ、時刻ｔにおけるＭＦＣＣ、△ＭＦＣＣ及び△△ＭＦＣＣの値を連結したベクトルである。また、π_ｎｉ、ｍ_ｎｉ、Σ_ｎｉはそれぞれ、ＵＢＭのｉ番目のガウス分布を基点としてＭＡＰ推定により構成されたＧＭＭのｉ番目のガウス分布の混合比、平均、共分散行列である。なお、ｍ_ｎｉ、Σ_ｎｉはひとつのガウス分布の山の形を表している。

このようにして、ＧＭＭ推定部１３３は、ＵＢＭ作成部１３２により作成されたＵＢＭを基点として、最大事後確率による学習（推定）により、対象発話の音声のモデルを構成する発話ｎにおけるＧＭＭを得ることができる。なお、対象発話ｎにおけるＧＭＭにおいて、混合されているガウス分布のそれぞれは、対象発話ｎの音声についての音響特徴量をクラス分けされたものに対応する。

＜スーパーベクトル算出部１３４＞
スーパーベクトル算出部１３４は、対象発話におけるＧＭＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、ＵＢＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、統計量として算出する。

より具体的には、まず、スーパーベクトル算出部１３４は、対象発話ｎにおけるＧＭＭを構成する各ガウス分布の平均ベクトルを混合数分のすべて連結したスーパーベクトルと、ＵＢＭを構成する各ガウス分布の平均ベクトルを混合数分のすべて連結したスーパーベクトルとを算出する。ここで、ＵＢＭ及びＧＭＭを構成する各ガウス分布の平均ベクトルをすべて連結した高次元ベクトルは、スーパーベクトルと称される。

次に、スーパーベクトル算出部１３４は、（式３）のように、ＵＢＭのスーパーベクトルと、発話ｎにおけるＧＭＭのスーパーベクトルとの差分ａ_ｎを算出し、算出した差分ａ_ｎを統計量とする。（式３）において、Ｉは、ガウス分布の混合数を示す。

このように、統計量算出部１３は、ｉ‐ｖｅｃｔｏｒの抽出に用いられるＵＢＭを利用することで、一般的な話者の音響特徴量と識別対象の話者の対象発話の音響特徴量との違いに基づいて、ＭＦＣＣ等の音響特徴量から発話全体を通じた統計量を算出する。

［話者特徴量抽出部１４］
図４は、本実施の形態に係る話者特徴量抽出部１４に用いられるＤＮＮの構成の一例を示すブロック図である。図５は、本実施の形態に係る話者特徴量抽出部１４に用いられるＤＮＮの構成の別の一例を示すブロック図である。

話者特徴量抽出部１４は、ＤＮＮを用いて、統計量算出部１３により算出された統計量から、発話データの話者についての話者特徴量を抽出する。

ここで、ＤＮＮは、例えば学習済みである特徴抽出部と識別部とで構成されていてもよい。この場合、話者特徴量抽出部１４は、統計量をこのＤＮＮに入力することで、ＤＮＮに、識別対象の話者の発話を含む統計量を固定次元埋め込みにマッピングした特徴量である話者特徴量を出力させてもよい。ＤＮＮとして用意するモデル次第で発話が短くても性能が劣化しにくい話者特徴量を得ることができる。

また、ＤＮＮは、例えば図４等に示すように、入力層と複数の中間層と出力層とを備えるニューラルネットワークで構成されていてもよい。そして、話者特徴量抽出部１４は、統計量をこのＤＮＮに入力し、ＤＮＮの複数の中間層のうちのいずれかの層から話者特徴量を抽出してもよい。

これにより、最終出力が話者識別結果となるように学習されているＤＮＮを用いても、学習話者すなわち学習時に用いた話者データの話者に依存しないようにすることができる。

また、ＤＮＮは、入力層と複数の中間層と出力層とを備え、複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少ないボトルネックＤＮＮで構成されていてもよい。より具体的には、ボトルネックＤＮＮは、例えば図５に示すように、複数の中間層（隠れ層）の内、一つだけノードの数が少ない隠れ層を持つＤＮＮである。以下、複数の中間層の内のノード数の少ない中間層をボトルネック層と称する。

さらに、話者特徴量抽出部１４は、統計量をこのボトルネックＤＮＮに入力し、ボトルネック層から話者特徴量を抽出してもよい。話者特徴量抽出部１４は、ボトルネック層の出力を話者特徴量として抽出することで、話者識別に必要な情報を保持しつつも、より少ない次元で表現された話者特徴量を統計量から抽出することができる。

なお、ボトルネック層は、より後ろの中間層に位置するほど適切な特徴量を抽出できること、最終の中間層の一つ手前の中間層にボトルネック層を置くことで最も良い性能が出ることが知られている。そこで、本実施の形態では、最終の中間層の一つ手前の中間層をボトルネック層としている。

ところで、ボトルネックＤＮＮを用いた話者識別については様々な研究がされている。例えばボトルネックＤＮＮの学習タスクとして話者識別を設定することで、直接話者識別に必要な情報を抽出する手法がある。また、ボトルネックＤＮＮの学習タスクとして音声認識または言語識別など話者識別とは異なるタスクを設定することで、発話者の特徴量を音素と関連付けて抽出する手法もある。

本実施の形態では、前段の統計量算出部１３により算出された統計量は、統計量が算出される際の統計処理により音素に関する情報が低減されている。このため、ボトルネックＤＮＮの学習タスクとしては、音声認識ではなく話者識別が設定される。

また、ボトルネックＤＮＮでは、入力層のノードの数は統計量算出部１３で算出される統計量の次元数に一致し、出力層のノードの数は、学習時に用いた学習用データに含まれる話者の数に一致する。したがって、学習時には、ボトルネックＤＮＮは、ある話者の発話の音声を示す発話データの統計量が入力され、出力層におけるその発話データに対応する話者のノードに１、それ以外の話者のノードに０を出力させるよう学習する。

なお、ボトルネックＤＮＮでは、上述したように、ボトルネック層の出力が話者特徴量として用いられるため、ボトルネック層以降の最終中間層と出力層とは学習時にのみ使用し、話者特徴量の抽出時には使用しない。

このようにして、話者特徴量抽出部１４は、話者識別を学習タスクとしたＤＮＮに統計量を入力し、そのＤＮＮの中間層の出力を抽出することで、ＤＮＮを用いて統計量を話者識別に適した話者特徴量へ変換することができる。

［類似度算出部１５］
類似度算出部１５は、話者特徴量抽出部１４により抽出された話者特徴量と、予め保持している１以上の登録話者の話者特徴量との類似度を算出する。

本実施の形態では、話者特徴量抽出部１４により抽出された話者特徴量と、記憶部１７に記憶されている登録話者情報１７１に含まれる１以上の登録話者の話者特徴量それぞれとの類似度を算出する。ここで、１以上の登録話者の話者特徴量は、予め記憶された登録話者情報１７１に含まれる。

類似度算出部１５は、例えばベクトル空間モデルにおいて内積を使って余弦を算出することで、類似度を算出してもよい。より具体的には、話者特徴量抽出部１４により抽出された話者特徴量と、予め保持している１以上の登録話者の話者特徴量それぞれとのベクトル間角度を示すコサイン距離（コサイン類似度も称される）を、類似度として算出してもよい。

図６は、本実施の形態に係る類似度算出部１５が算出した類似度の一例を示す図である。より具体的には、図６には、類似度算出部１５が算出した類似度として、話者特徴量抽出部１４により抽出された話者特徴量を示すベクトルＳ_１と、ある登録話者の話者特徴量を示すベクトルＳ_２とのコサイン距離の一例が示されている。ベクトル間角度θの数値が大きくなるほど類似度が低いことを意味する。

なお、類似度算出部１５は、類似度として、話者特徴量抽出部１４により抽出された話者特徴量を示すベクトルと、予め保持している１以上の登録話者の話者特徴量それぞれを示すベクトルとの内積を用いて－１から１までの値をとるコサイン距離を算出してもよい。この場合、コサイン距離を示す数値が大きくなるほど類似度が高いことを意味する。

本実施の形態では、類似度算出部１５は、話者特徴量抽出部１４により抽出された話者特徴量と、予め保持している１以上の登録話者の話者特徴量それぞれとにWithin-Class Covariance Normalization（ＷＣＣＮ）を適用してから、類似度を算出する。ここで、ＷＣＣＮは、変換行列を用いることにより、クラス内のデータの分散を正規化する手法である。話者特徴量抽出部１４により抽出された話者特徴量には、マイクロフォンのチャンネル情報など音声取得部１０が話者の発話の音声を取得したときの収音環境に依存する情報も含まれているからである。このため、類似度算出部１５は、ＷＣＣＮを適用して、話者特徴量抽出部１４により抽出された話者特徴量と、予め保持している１以上の登録話者の話者特徴量それぞれとの変換を行った後に、類似度としてコサイン距離を算出する。

また、記憶部１７に、学習済みの類似度算出モデルが記憶されている場合、類似度算出部１５は、学習済みの類似度算出モデルを用いて、話者特徴量抽出部１４により抽出された話者特徴量と、予め保持している１以上の登録話者の話者特徴量それぞれとの類似度を算出してもよい。より具体的には、類似度算出部１５は、記憶部１７に記憶されている学習済みの類似度算出モデルを用いて、話者特徴量抽出部１４により抽出された話者特徴量から、確率的線形判別分析（Probabilistic Linear Discriminant Analysis：ＰＬＤＡ）により、類似度を算出してもよい。

ここで、学習済みの類似度算出モデルは、話し方を含む１以上の登録話者それぞれの話者特徴量について学習された類似度算出用のモデルである。学習済みの類似度算出モデルは、同じ話者の発話でも、その話し方及び周りの環境等の収音条件でどのように特徴量が変化し得るかという分布を事前に学習しておくことで得られる。これにより、学習済みの類似度算出モデルは、音声取得部１０で話者の発話の音声が入力されるときの収音条件が、類似度算出モデルの学習時のものと近いほど高性能となるモデルとなる。

［話者識別部１６］
話者識別部１６は、類似度算出部１５により算出された類似度に基づいて、発話データの話者を識別する。

本実施の形態では、話者識別部１６は、類似度算出部１５により算出された類似度、すなわち、登録されている話者特徴量それぞれと識別対象の発話の話者特徴量と類似度を比較し、最も近いとされる登録話者を識別結果として出力する。

［記憶部１７］
記憶部１７は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、１以上の登録話者それぞれの固有の特徴量である話者特徴量を記憶する。本実施の形態では、記憶部１７は、図１に示すように、登録話者情報１７１を記憶している。登録話者情報１７１は、上述したように、１以上の登録話者の話者特徴量を含む。１以上の登録話者の話者特徴量は、予め収集していた１以上の登録話者の発話の音声の音響特徴量から算出した発話全体を通した統計量が、話者特徴量抽出部１４で使用されるＤＮＮを用いて非線形変換された話者特徴量である。

［話者識別装置１１の動作］
次に、以上のように構成された話者識別装置１１の動作について説明する。

図７は、本実施の形態に係る話者識別装置１１の動作の概要を示すフローチャートである。

まず、話者識別装置１１は、音声取得部１０により取得された発話の音声を示す発話データから、発話の音声についての音響特徴量を計算する（Ｓ１０）。次に、話者識別装置１１は、ステップＳ１０において計算した音響特徴量から、発話データの統計量を算出する（Ｓ１１）。次に、話者識別装置１１は、ＤＮＮを用いて、ステップＳ１１において算出した統計量から、識別対象の発話データの話者についての話者特徴量を抽出する（Ｓ１２）。次に、話者識別装置１１は、ステップＳ１２において抽出された話者特徴量と、予め保持している１以上の登録話者の話者特徴量それぞれとの類似度を算出する（Ｓ１３）。次に、話者識別装置１１は、ステップＳ１３において算出された類似度に基づいて、識別対象の発話データの話者を識別する（Ｓ１４）。ステップＳ１４では、話者識別装置１１は、識別対象の発話データの話者が、１以上の登録話者のうちのどの登録話者に該当するかを識別する。

［効果等］
以上のように、本実施の形態では、識別対象の話者の対象発話の音声についての音響特徴量を、直接ＤＮＮの入力として用いない。より具体的には、当該対象発話の音声についての音響特徴量から発話全体の特徴を算出するための統計処理を新たに導入し、統計処理により算出した発話全体を通した統計量を、ＤＮＮの入力として用いて話者特徴量を抽出する。

これにより、発話全体の情報を含む音響特徴量に相当する発話データの統計量を用いて、ＤＮＮにより話者特徴量の抽出を行うことができるので、長時間の発話においても話者識別の精度を向上することができる。よって、ＤＮＮを用いた話者識別の精度を向上することができる話者識別装置１１を実現することができる。

また、本実施の形態では、話者識別の対象となる発話である対象発話の発話データの音声についての音響特徴量のクラス分けを行い、統計量としてクラス毎の平均を算出してもよい。より具体的には、不特定多数話者の発話の音声の平均を表す初期モデルであるＵＢＭから、対象発話の発話データの話者モデルであるＧＭＭを推定し、推定したＧＭＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、ＵＢＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、統計量として算出してもよい。

これにより、一般的な話者の発話の音響特徴量と識別対象の話者の発話の音響特徴量との違いに基づき、発話全体の特徴を考慮した話者特徴量の抽出を行わせることができる統計量を算出でき、長時間の発話においても話者識別の精度を向上することができる。

なお、統計量は、混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化し、一般的な話者の音響特徴量と識別対象の話者の発話の音響特徴量との違いに基づいて算出される場合に限らない。統計量は、統計処理として平均と分散とを用いて算出されてもよい。以下、平均と分散とを用いて算出された統計量と、混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化することで算出された統計量との有用性について図を用いて説明する。

図８は、各発話の音響特徴量として計算されたＭＦＣＣを、時間方向の平均と分散とを用いて算出された統計量の一例を示す図である。図８に示される各点は、Ｆ１～Ｆ３で示される３人の女性と、Ｍ１～Ｍ３で示される３人の男性とが話す各発話に対するＭＦＣＣの時間方向の平均及び分散を、Principal Component Analysis（ＰＣＡ）で２次元に圧縮した値である。

図９は、各発話の音響特徴量として計算されたＭＦＣＣを、上述したように混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化することで算出された統計量の一例を示す図である。図９に示される各点は、Ｆ１～Ｆ３で示される３人の女性と、Ｍ１～Ｍ３で示される３人の男性とが話す各発話に対するＭＦＣＣを、混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化することで算出された統計量を、ＰＣＡで２次元に圧縮した値である。

図８及び図９では、多次元の統計量を２次元に変換したことから統計量が単純化されたものが示されているため、これらの傾向のみに着目して説明する。平均及び分散を用いた統計量では、図８に示すように、各発話の統計量の分布が話者ごとに大きく重なっているのがわかる。一方、混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化することで算出された統計量では、図９に示すように、一部の話者の分布が大きく重なっているものの、各発話の統計量の分布が話者ごとにおおよそ分かれているのがわかる。

なお、統計量をＰＣＡで２次元に圧縮することは、統計量を線形変換したことに相当する。このため、ＰＣＡのような線形変換を用いるのではなく、ＤＮＮのような非線形変換を用いると、統計量からより高次な話者特徴量を抽出することができるので、より正確に話者を識別することができる。

これも併せて鑑みると、平均及び分散を用いた統計量を、ＤＮＮの入力として用いて話者特徴量を抽出する場合、統計量を入力で使わない場合より話者識別の精度を向上できたとしても軽微であることが推察される。一方、混合ガウスモデル（ＧＭＭ）を用いて発話をモデル化することで算出された統計量を、ＤＮＮの入力として用いて話者特徴量を抽出する場合、統計量を入力で使わない場合及び平均及び分散を用いた統計量を使う場合よりも、話者識別の精度を向上できることが推察される。

また、本実施の形態では、ＤＮＮは、入力層と複数の中間層と出力層とを備えるニューラルネットワークであり、ＤＮＮの複数の中間層のうちのいずれかの層から話者特徴量が抽出される。

これにより、ＤＮＮの学習時に用いた発話データの話者に依存しないで、ＤＮＮに話者特徴量の抽出を行わせることができるので、ＤＮＮを用いた話者識別の精度を向上することができる。

ここで、ＤＮＮは、ボトルネックＤＮＮであり、複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少なくてもよい。これにより、話者識別に必要な情報を残しつつも、ＤＮＮに抽出させる話者特徴量の次元を減らすことができるので、処理量を軽減できる。

このようにして、本実施の形態に係る話者識別装置１１は、ＤＮＮを用いた話者識別の精度を向上することができる。

（実施例）
話者識別装置１１の話者識別性能の評価を、コサイン距離による識別器を用いて行ったので、その評価実験とその結果を実施例として説明する。なお、比較例として、非特許文献１に示される話者特徴量の評価を、コサイン距離による識別器を用いて行った。なお、非特許文献１に示される話者特徴量、すなわち、短時間のフレーム単位で区切った発話の音声の音響特徴量を入力としてボトルネックＤＮＮを用いて抽出された話者特徴量を、以下ではｄ－ｖｅｃｔｏｒと称する。また、話者識別装置１１により抽出された話者特徴量を、以下ではｓ－ｖｅｃｔｏｒと称する。換言すると、ｓ－ｖｅｃｔｏｒは、上述したように、発話の音声の音響特徴量を、混合ガウスモデルを利用して統計処理することで得た統計量を入力としてボトルネックＤＮＮを用いて抽出された話者特徴量である。

＜評価条件＞
図１０は、本実施例に係る学習に用いられた学習用データセットの一例を示す図である。図１１は、本実施例に係る評価実験に用いられた評価用データセットの一例を示す図である。

本実施例では、ＵＢＭ及びボトルネックＤＮＮの学習を、ＡＴＲ音声データベースのＡＰＰ－ＢＬＡに含まれるデータを用いて、図１０に示した条件で行った。なお、図１０において、学習話者数は、学習時のボトルネックＤＮＮの出力数すなわち出力層のノード数となる。また、ＡＴＲ音声データベースのＡＰＰ－ＢＬＡに含まれる発話データは、短時間のフレーム単位で区切った発話の音声データからなり、当該音声データは音響特徴量に計算されて用いられる。

また、本実施例では、図１１に示したＮＴＴ－ＡＴ日本語音声データベースに含まれる発話を用いて評価実験を行った。評価実験は、各登録話者それぞれに対して評価用データを３セットずつ用いて行った。評価実験では、実環境での使用を想定して、識別対象の発話の音声に対して、雑音を付与しないクリーンな音声と、工場内で収録された雑音を１２ｄＢ、６ｄＢで付与した音声とを用いてそれぞれ評価した。なお、学習用データ及び評価用データに含まれる発話の音声データはすべて、サンプリング周波数が１６ｋＨｚ、量子化ビット数が１６ｂｉｔである。

ｓ－ｖｅｃｔｏｒでは、２０次元のＭＦＣＣを用いて音響特徴量が計算され、ＵＢＭ及びＧＭＭにおけるガウス分布の混合数は１２８とした。ＵＢＭ及びＧＭＭにおけるガウス分布の混合数の数が膨大であると、ボトルネックＤＮＮの規模も膨大となり、学習が困難となるためである。

また、ｓ－ｖｅｃｔｏｒに用いたボトルネックＤＮＮの構成は、次の通りとした。すなわち、入力を１２８×２０×３＝７６８０次元、出力を３２８５次元、中間層（隠れ層）を５層とし、中間層の４層目をボトルネック層とし、ボトルネック層の出力を抽出し、話者特徴量とした。ノード数については、ボトルネック層を２０４８、それ以外の層を４０９６とした。各層における活性化関数にはRectified Linear Unit（ＲｅＬＵ）を用いた。

一方、ｄ－ｖｅｃｔｏｒでは、学習話者数が、本評価実験と非特許文献１に記載される実験条件とで異なることから、ｄ－ｖｅｃｔｏｒに用いたボトルネックＤＮＮと、ｓ－ｖｅｃｔｏｒに用いたボトルネックＤＮＮとは規模が異なる。

そこで、本評価実験に合わせるために、ｄ－ｖｅｃｔｏｒに用いたボトルネックＤＮＮの構成を、ｓ－ｖｅｃｔｏｒに用いたボトルネックＤＮＮと同程度の規模となるように、次の通りとした。すなわち、４０次元のＭＦＣＣを４０フレーム分連結して１６００次元のベクトルとしたものをボトルネックＤＮＮの入力として用いた。また、ボトルネックＤＮＮの出力を３２８５次元、中間層（隠れ層）を５層とし、中間層の４層目をボトルネック層とし、ボトルネック層の出力を抽出し、話者特徴量とした。ノード数については、ボトルネック層を２０４８、それ以外の層を４０９６とした。各層における活性化関数にはRectified Linear Unit（ＲｅＬＵ）を用いた。

＜実験結果＞
図１２は、本実施例に係る評価用データセットを用いて識別性能を評価した実験結果を示す図である。図１２では、クリーンな音声、雑音環境下のいずれにおいても、ｓ－ｖｅｃｔｏｒは、ｄ－ｖｅｃｔｏｒよりも高い識別率（％）を示しており、高い識別性能を有するのがわかる。つまり、ボトルネックＤＮＮを用いた話者識別において、本実施の形態に係る統計量を用いることの有効性が確認できた。

以上のように、本開示に係る話者識別装置および話者識別方法では、時間ごとの音響特徴量を直接ＤＮＮの入力とするのではなく、発話全体の音響特徴量を含む統計量を抽出する手法を導入し、発話全体の特徴も用いて話者識別を行うことができる。また、実施例で説明したように、評価実験の結果、比較例における時間ごとの音響特徴量を直接ＤＮＮの入力として用いる手法と比べて、より高い話者識別精度を達成できることを確認できた。

このように、本開示に係る話者識別装置および話者識別方法によれば、発話全体の特徴も用いて話者識別を行うことができるので、長時間の発話においても話者識別の精度を向上することができる。よって、ＤＮＮを用いた話者識別の精度を向上することができる。

（変形例）
上記の実施の形態では、ＤＮＮにより抽出した話者特徴量（ｓ－ｖｅｃｔｏｒ）を用いて、算出した類似度から、話者を識別するとして説明したが、これに限らない。ＤＮＮにより抽出した話者特徴量を用いて算出した類似度に加え、他の方法により算出した話者特徴量を用いて算出した類似度を利用して話者を識別するとしてもよい。

なお、非特許文献１では、ＤＮＮにより抽出した話者特徴量による類似度と、ｉ－ｖｅｃｔｏｒによる類似度との単純な和を取ることで、ＤＮＮにより抽出した話者特徴量による類似度のみを用いて話者識別を行うよりも高い識別性能を達成していることが開示されている。

そこで、本変形例では、ｓ－ｖｅｃｔｏｒとｉ‐ｖｅｃｔｏｒとの両方を用いて類似度を算出する場合について説明する。より具体的には、本変形例では、ｓ－ｖｅｃｔｏｒとｉ‐ｖｅｃｔｏｒとのコサイン距離を算出し、算出したそれぞれのコサイン距離の加重和を算出して類似度として用いる。これは、ｓ‐ｖｅｃｔｏｒとｉ‐ｖｅｃｔｏｒの次元が大きく異なるために行った処理である。コサイン距離の大きさは次元数の大きさにも影響を受けるものの、加重和を用いることでそれぞれの特徴量の次元の違いを考慮した類似度の算出が可能となるからである。

＜評価実験とその結果＞
本変形例に係るｓ‐ｖｅｃｔｏｒによる類似度とｉ‐ｖｅｃｔｏｒによる類似度とを合成した合成類似度を用いた場合の話者識別性能の評価を行ったので、その評価実験とその結果を以下に説明する。

図１３は、図１１に示す評価用データセットを用いて識別性能を評価した実験結果を示す図である。図１３に示されるｄ－ｖｅｃｔｏｒ及びｓ－ｖｅｃｔｏｒは、上記の実施例で説明したものと同じ話者特徴量であり、同様の評価条件で評価実験を行ったため、詳細な説明は省略する。

本変形例では、ｉ‐ｖｅｃｔｏｒに用いるＵＢＭの学習を、ｓ‐ｖｅｃｔｏｒと同様に、ＡＴＲ音声データベースのＡＰＰ－ＢＬＡに含まれるデータを用いて、図１０に示した条件で行っている。また、図１１に示したＮＴＴ－ＡＴ日本語音声データベースに含まれる発話を用いて評価実験を行っている。

また、ｉ－ｖｅｃｔｏｒでも、２０次元のＭＦＣＣを用いて音響特徴量を計算したが、ＵＢＭ及びＧＭＭにおけるガウス分布の混合数は２０４８とした。ｉ－ｖｅｃｔｏｒでは混合数が多い方ほど性能が良いとされるためである。

図１３に示すように、クリーンな音声、雑音環境下のいずれにおいても、本変形例における合成類似度を用いた場合、ｓ－ｖｅｃｔｏｒよりも高い識別率（％）を示しており、より高い識別性能を有するのがわかる。

ｉ－ｖｅｃｔｏｒは統計量の線形変換で得られるのに対し、ｓ－ｖｅｃｔｏｒは統計量の非線形変換により得られる。このため、本変形例のおける合成類似度を用いる場合、ｉ－ｖｅｃｔｏｒの線形変換のみでは抽出できなかった特徴量を、ｓ－ｖｅｃｔｏｒによる非線形変換で補うことができるなど、識別性能を補い合うことにより識別性能の向上につながったものと推察される。

図１４は、特定の発話と複数の登録話者それぞれとの類似度を示す図である。横軸は登録話者のＩＤ番号、縦軸は類似度を示す。図１４では、特定の発話すなわちある話者のテスト発話と登録話者それぞれとのｉ－ｖｅｃｔｏｒによる類似度と、ある話者のテスト発話と登録話者それぞれとのｓ－ｖｅｃｔｏｒによる類似度とが示されている。また、図１４では、正解話者の類似度が１になるように、類似度が正規化されている。

図１４に示すように、テスト発話に対して、ｓ－ｖｅｃｔｏｒとｉ－ｖｅｃｔｏｒとのどちらにおいても正解話者よりも類似度が高くなっている話者が存在する。これは、単独の手法すなわちｓ－ｖｅｃｔｏｒによる類似度またはｉ－ｖｅｃｔｏｒによる類似度により話者識別を行うと誤識別が発生してしまう可能性を示唆する。

一方、ｓ－ｖｅｃｔｏｒによる類似度とｉ－ｖｅｃｔｏｒによる類似度との両方ともにおいて正解話者となる１より大きい類似度となる登録話者のＩＤは存在しない。このため、合成類似度を用いて話者識別を行うと、これらの誤認識を回避できることがわかる。

つまり、本変形例によれば、合成類似度を用いることで、より正確に登録話者と一致するか否かを判定することができるので、ＤＮＮを用いた話者識別の精度をより向上することができる。

（他の実施態様の可能性）
以上、実施の形態及び変形例等に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。

例えば、上記実施の形態及び変形例等に係る話者識別装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

また、本開示は、話者識別装置により実行される話者識別方法として実現されてもよい。

また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

以上、一つまたは複数の態様に係る話者識別装置について、実施の形態及び変形例等に基づいて説明したが、本開示は、この実施の形態及び変形例等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例等に施したものや、異なる実施の形態及び変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本開示は、話者識別装置、話者識別方法、及び、プログラムに利用でき、例えば、自動的に議事録を作成できる自動議事録作成システムなど、発話の音声から自動的に話者識別を行う話者識別装置、話者識別方法、及び、プログラムに利用できる。

１話者識別システム
１０音声取得部
１１話者識別装置
１２音響特徴量計算部
１３統計量算出部
１４話者特徴量抽出部
１５類似度算出部
１６話者識別部
１７記憶部
１３１データ取得部
１３２ＵＢＭ作成部
１３３ＧＭＭ推定部
１３４スーパーベクトル算出部

Claims

取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算部と、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出部と、
ＤＮＮ（Deep Neural Network）を用いて、前記統計量から、前記発話データの話者に
ついての話者特徴量を抽出する話者特徴量抽出部と、
前記話者特徴量と、予め保持している１以上の登録話者の話者特徴量との類似度を算出する類似度算出部と、
前記類似度に基づいて、前記発話データの話者を識別する話者識別部と、を備え、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
話者識別装置。
前記統計量算出部は、
前記音響特徴量のクラス分けを行い、前記統計量として前記クラス毎の平均を算出することで、前記統計量を抽出する、
請求項１に記載の話者識別装置。
前記統計量算出部は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるＵＢＭ（Universal Background Model）から、前記発話の音声についての前記音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、前記発話データの話者モデルであるＧＭＭ（Gaussian Mixture Model）を推定し、前記ＧＭＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、前記ＵＢＭの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、前記統計量として算出する、
請求項１または２に記載の話者識別装置。
前記ＤＮＮは、入力層と複数の中間層と出力層とを備え、
前記話者特徴量抽出部は、前記ＤＮＮの複数の中間層のうちのいずれかの層から話者特徴量を抽出する、
請求項１～３のいずれか１項に記載の話者識別装置。
前記ＤＮＮは、ボトルネックＤＮＮであり、
前記複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少ない、
請求項４に記載の話者識別装置。
コンピュータが行う話者識別方法であって、
取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、
ＤＮＮを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、
前記話者特徴量と、予め保持している１以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、を含み、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
話者識別方法。
取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、
ＤＮＮを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、
前記話者特徴量と、予め保持している１以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、をコンピュータに実行させる、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
プログラム。