JP2020060757A - 話者認識装置、話者認識方法、及び、プログラム - Google Patents

話者認識装置、話者認識方法、及び、プログラム Download PDF

Info

Publication number
JP2020060757A
JP2020060757A JP2019107341A JP2019107341A JP2020060757A JP 2020060757 A JP2020060757 A JP 2020060757A JP 2019107341 A JP2019107341 A JP 2019107341A JP 2019107341 A JP2019107341 A JP 2019107341A JP 2020060757 A JP2020060757 A JP 2020060757A
Authority
JP
Japan
Prior art keywords
speaker
similarity
feature amount
calculated
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019107341A
Other languages
English (en)
Other versions
JP7326033B2 (ja
Inventor
光佑 板倉
Kosuke Itakura
光佑 板倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to US16/576,170 priority Critical patent/US11222641B2/en
Priority to CN201910930409.6A priority patent/CN111009248B/zh
Publication of JP2020060757A publication Critical patent/JP2020060757A/ja
Application granted granted Critical
Publication of JP7326033B2 publication Critical patent/JP7326033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置等を提供する。【解決手段】取得された発話の音声について2以上の音響特徴量を算出する特徴量算出部12と、認識対象の話者についての1以上の話者性特徴量と、特徴量算出部12により算出された2以上の音響特徴量の各々との類似度を計算する類似度計算部13と、類似度計算部13により計算された2以上の類似度を合成する合成部14と、合成部14により得られた合成値に基づき、当該発話の話者が認識対象の話者であるか否かを判定する判定部15と、を備え、2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる。【選択図】図1

Description

本開示は、話者認識装置、話者認識方法、及び、プログラムに関する。
話者認識技術は、登録対象の話者の発話の音声を予め収集し、収集した音声から算出した特徴量と、新たに取得する未知の話者の発話の音声との類似度に基づいて、未知の話者が登録された話者であるかを判定する技術である。
例えば非特許文献1には、話者認識のための高精度な特徴量として、i−Vectorと呼ばれる話者固有の特徴量とその算出方法について開示されている。登録話者の発話した音声及び未知の話者の発話の音声から、このような特徴量を算出することで、高精度に、未知の話者が登録話者であるかを判定することができる。
Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4 (2011): 788-798. David, Snyder, et al. "X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION." Center for Language and Speech Processing & Human Language Technology Center of Excellence The Johns Hopkins University, Baltimore, MD 21218, USA.
しかしながら、上記特許文献1で開示される算出方法により算出した特徴量を話者認識に用いても、取得した未知の話者の発話の音声に、雑音などが混入している場合には、未知の話者の発話が登録話者の発話でないときでも登録話者による発話と認識されることがある。つまり、新たに取得する未知の話者の発話の音声に雑音などが混入する場合には、話者認識の精度が低下してしまうという課題がある。
本開示は、上述の事情を鑑みてなされたもので、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置、話者認識方法、及び、プログラムを提供することを目的とする。
本開示の一態様に係る話者認識装置は、取得された発話の音声について2以上の音響特徴量を算出する特徴量算出部と、認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出部により算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算部と、前記類似度計算部により計算された2以上の類似度を合成する合成部と、前記合成部により得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定部と、を備え、前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示の話者認識装置等によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる。
実施の形態に係る話者認識システムの構成の一例を示すブロック図である。 図1に示す音声取得部の具体的構成の一例を示すブロック図である。 実施の形態に係る話者認識装置の具体的構成の一例を示すブロック図である。 図3に示す話者認識装置の第1の類似度計算部が計算した第1の類似度の一例を示す図である。 図3に示す話者認識装置の第2の類似度計算部が計算した第2の類似度の一例を示す図である。 実施の形態に係る話者認識装置の動作の概要を示すフローチャートである。 比較例に係る話者認識システムの構成を示すブロック図である。 実施の形態の変形例1に係る話者認識装置の具体的構成の一例を示すブロック図である。 図7に示す第1モデル及び第2モデルが異なるデータで学習されることを説明するための図である。 実施の形態の変形例2に係る話者認識装置の具体的構成の一例を示すブロック図である。 実施の形態の実施例に係る話者認識装置の具体的構成の一例を示すブロック図である。 図10に示す類似度計算部が計算した類似度の一例を示す図である。 図10に示す類似度計算部が計算した類似度の一例を示す図である。 図10に示す類似度計算部が計算した類似度の一例を示す図である。 図10に示す合成部が計算した合成値の一例を示す図である。
本開示の一態様に係る話者認識装置は、取得された発話の音声について2以上の音響特徴量を算出する特徴量算出部と、認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出部により算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算部と、前記類似度計算部により計算された2以上の類似度を合成する合成部と、前記合成部により得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定部と、を備え、前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる。
本態様によれば、少なくとも2つの性質の異なる音響特徴量から計算された登録話者との2以上の類似度、もしくは、性質の異なる2以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、合成した類似度を用いることで、より正確に登録話者と一致するか否かを判定することができる。よって、本態様によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる。
また、例えば、前記2以上の類似度のうちの少なくとも2つの類似度は、性質が異なる第1の類似度と第2の類似度であり、前記第1の類似度は、前記話者の話し方を含む前記話者の特徴量について学習された学習済み計算用モデルであって前記1以上の話者性特徴量のうちの第1の話者性特徴量としての学習済み計算用モデルを用いて、前記特徴量算出部により算出された第1の音響特徴量から、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)により計算され、前記第2の類似度は、前記1以上の話者性特徴量のうちの第2の話者性特徴量と、前記特徴量算出部により算出された第2の音響特徴量とのコサイン距離として計算されるとしてもよい。
また、例えば、前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量は、性質が異なる第1の音響特徴量と第2の音響特徴量であり、前記第1の音響特徴量は、前記特徴量算出部により、前記発話の音声物理量をi−Vectorを用いて線形変換されることで算出され、前記第2の音響特徴量は、前記特徴量算出部により、前記音声物理量をDNN(Deep Neural Network)を用いて非線形変換されることで算出されるとしてもよい。
また、例えば、前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量は、性質が異なる第1の音響特徴量と第2の音響特徴量であり、前記第1の音響特徴量は、前記特徴量算出部により、DNNの第1モデルを用いて非線形変換されることで算出され、前記第2の音響特徴量は、前記特徴量算出部により、DNNの第2モデルであって前記第1モデルと性質が異なる第2モデルを用いて非線形変換されることで算出され、前記第1モデルは、閾値以上の雑音環境下における前記認識対象の話者の音声を含む第1学習データを用いて学習されたモデルであり、前記第2モデルは、前記閾値未満の雑音環境下における前記認識対象の話者の音声を含む第2学習データを用いて学習されたモデルであるとしてもよい。
また、例えば、前記第1の音響特徴量と前記第2の音響特徴量とは、同一であるとしてもよい。
また、例えば、前記合成部は、前記類似度計算部により計算された類似度それぞれを示すスコアを足し合わせることにより、前記2以上の類似度を合成するとしてもよい。
また、例えば、前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して足し合わせることにより、前記2以上の類似度を合成するとしてもよい。
また、例えば、前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して加重和を計算することで、前記2以上の類似度を合成するとしてもよい。
ここで、例えば、前記合成部は、前記加重和を、取得された前記発話の時間的な長さが長いほど大きな係数をかけて計算するとしてもよい。
本開示の一態様に係る話者認識方法は、コンピュータが行う話者認識方法であって、取得された発話の音声について2以上の音響特徴量を算出する特徴量算出ステップと、認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算された2以上の類似度を合成する合成ステップと、前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとを含み、前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる。
また、本開示の一態様に係るプログラムは、取得された発話の音声について2以上の音響特徴量を算出する特徴量算出ステップと、認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算された2以上の類似度を合成する合成ステップと、前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとをコンピュータに実行させ、前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
以下では、図面を参照しながら、実施の形態における話者認識方法等の説明を行う。
[話者認識システム1]
図1は、実施の形態に係る話者認識システム1の構成の一例を示すブロック図である。
本実施の形態に係る話者認識システム1は、例えばAさんなどの発話者を照合するために用いられ、例えば入退管理システムまたはセキュリティシステムなどに用いられる。
話者認識システム1は、図1に示すように、音声取得部10と、話者認識装置11と、記憶部16とを備える。
[音声取得部10]
図2は、図1に示す音声取得部の具体的構成の一例を示すブロック図である。
音声取得部10は、図2に示すように、音声入力部101と、音声物理量計算部102とを備える。
音声入力部101は、例えばマイクロフォンからなり、話者の発話の音声が入力される。音声入力部101は、入力された音声を音声信号に変換して音声物理量計算部102に出力する。
音声物理量計算部102は、発話の音声信号から、発話の音声物理量を計算する。本実施の形態では、音声物理量計算部102は、発話の音声信号から、音声の特徴量であるMFCC(Mel-Frequency Cepstrum Coefficients)を計算する。MFCCは、発話者の声道特性を表す特徴量である。なお、音声物理量計算部102は、発話の音声物理量として、MFCCを計算する場合に限らず、発話の音声信号にメルフィルタバンクをかけたものを計算してもよいし、発話の音声信号のスペクトログラムを計算してもよい。また、音声物理量計算部102は、DNN(Deep Neural Network)を用いて、発話の音声信号から、発話の音声物理量として、音声の特徴量を計算してもよい。
[話者認識装置11]
図3は、本実施の形態に係る話者認識装置の具体的構成の一例を示すブロック図である。
話者認識装置11は、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現される。話者認識装置11は、サーバに含まれて動作するとしてもよいし、話者認識装置11の一部構成がクラウドサーバに含まれ動作するとしてもよい。話者認識装置11は、発話者が、識別対象の登録話者と一致するか否かを認識する処理を行う。
話者認識装置11は、図1に示すように特徴量算出部12と、類似度計算部13と、合成部14と、判定部15を備える。なお、話者認識装置11は、記憶部16をさらに備えるとしてもよいが、必須の構成でない。
[特徴量算出部12]
特徴量算出部12は、取得された発話の音声について2以上の音響特徴量を算出する。より具体的には、特徴量算出部12は、発話の音声物理量を、2以上の話者性特徴量に変換することで、当該2以上の音響特徴量を算出する。2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質は、異なるとしてもよい。
本実施の形態では、特徴量算出部12は、図3に示すように、第1の特徴量算出部121と、第2の特徴量算出部122とを備え、音声取得部10から入力された発話の音声物理量を、2つの話者性特徴量に変換することで、性質が異なる2つの音響特徴量を算出する。以下、2つの音響特徴量は、第1の音響特徴量と第2の音響特徴量であるとして説明する。
<第1の特徴量算出部121>
第1の特徴量算出部121は、音声取得部10から入力された発話の音声物理量を、i−Vectorを用いて話者性特徴量に線形変換することで、第1の音響特徴量を算出する。
ここで、i−Vectorを用いる手法とは、混合ガウスモデル分布を用いて、発話の統計的な特徴量をもとに、話者固有の特徴量である話者性特徴量を発話の音響特徴量として抽出する統計的手法である。i−Vectorを用いる手法では、発話が長いほど正確な統計量が得やすいため、発話が長いほど性能が向上しやすい話者性特徴量を得ることができるという特長がある。算出方法の詳細は、非特許文献1に開示されているため詳述を省略する。
<第2の特徴量算出部122>
第2の特徴量算出部122は、音声取得部10から入力された発話の音声物理量を、DNN(Deep Neural Network)を用いて話者性特徴量に非線形変換することで、第1の音響特徴量と性質が異なる第2の音響特徴量を算出する。
ここで、DNNを用いる手法とは、発話の音声物理量を、学習済みである特徴抽出部と識別部からなるDNNに入力することで、可変長の発話を固定次元埋め込みにマッピングした発話の音響特徴量すなわち話者性特徴量を出力する手法である。可変長の発話を固定次元埋め込みにマッピングして話者性特徴量を算出する方法はx−Vectorと呼ばれる。つまり、第1の特徴量算出部121は、DNNを用いて、発話の音声物理量からx−Vectorと呼ばれる話者固有の特徴である第1の音響特徴量を算出する。x−Vectorを用いる手法では、用意するモデル次第で発話が短くても性能が劣化しにくい話者性特徴量を得ることができるという特長がある。なお、x−Vectorの算出方法等の詳細は、非特許文献2に開示されているため詳述を省略する。
[類似度計算部13]
類似度計算部13は、認識対象の話者についての1以上の話者性特徴量と、特徴量算出部12により算出された2以上の音響特徴量の各々との類似度を計算する。
本実施の形態では、類似度計算部13は、図3に示すように、第1の類似度計算部131と、第2の類似度計算部132とを備える。
<第1の類似度計算部131>
第1の類似度計算部131は、第1の特徴量算出部121により算出された第1の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量161との類似度を計算する。ここで、話者性特徴量161は、予め記憶された話者性特徴量である。より具体的には、話者性特徴量161は、予め収集された認識対象の話者の音声物理量が、i−Vectorを用いて線形変換された話者性特徴量である。図3に示す例では、話者性特徴量161は、認識対象の話者であるAさんの話者性特徴量である。
本実施の形態では、第1の類似度計算部131は、ベクトル空間モデルにおいて内積を使って余弦を計算することで、第1の音響特徴量と話者性特徴量161とのベクトル間角度を示すコサイン距離(コサイン類似度とも称される)を、第1の類似度として計算する。この場合、ベクトル間角度の数値が大きくなるほど類似度が低いことを示す。なお、第1の類似度計算部131は、第1の類似度として、第1の音響特徴量を示すベクトルと話者性特徴量161を示すベクトルとの内積を用いて−1から1までの値をとるコサイン距離を計算してもよい。この場合、コサイン距離を示す数値が大きくなるほど類似度が高いことを示す。
<第2の類似度計算部132>
第2の類似度計算部132は、第2の特徴量算出部122により算出された第2の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量162との類似度を計算する。ここで、話者性特徴量162は、予め記憶された話者性特徴量である。より具体的には、話者性特徴量162は、予め収集していた認識対象の話者の音声物理量が、DNNを用いて非線形変換された話者性特徴量である。図3に示す例では、話者性特徴量162は、認識対象の話者であるAさんの話者性特徴量である。
本実施の形態では、第2の類似度計算部132は、ベクトル空間モデルにおいて内積を使って余弦を計算することで、第2の音響特徴量と話者性特徴量162とのベクトル間角度を示すコサイン距離を、第2の類似度として計算する。なお、第2の類似度計算部132は、第2の類似度として、第2の音響特徴量を示すベクトルと話者性特徴量162を示すベクトルとの内積を用いて−1から1までの値をとるコサイン距離を計算してもよい。
このように、本実施の形態では、第1の類似度計算部131により計算された第1の類似度と、第2の類似度計算部132により計算された第2の類似度とは、同一の手法により計算されてもよい。
[合成部14]
合成部14は、類似度計算部13により計算された2以上の類似度を合成する。ここで、合成部14は、類似度計算部13により計算された類似度それぞれを示すスコアを足し合わせることにより、2以上の類似度を合成してもよい。また、合成部14は、類似度計算部13により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して足し合わせることにより、2以上の類似度を合成してもよい。
なお、合成部14は、類似度計算部13により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して加重和を計算することで、2以上の類似度を合成してもよい。この場合、合成部14は、加重和を、取得された発話の時間的な長さが長いほど大きな係数をかけて計算すればよい。
本実施の形態では、合成部14は、第1の類似度計算部131により計算された第1の類似度と、第2の類似度計算部132により計算された第2の類似度とを加算すなわち足し合わせることにより合成する。例えば、合成部14は、第1の類似度を示すスコアであるベクトル間角度と、第2の類似度を示すスコアであるベクトル間角度とを加算することで、合成値を計算してもよい。
なお、第1の類似度が、第1の音響特徴量として、発話が長いほど性能が向上しやすい話者性特徴量から計算され、第2の類似度が、第2の音響特徴量として、発話が短くても性能が劣化しにくい話者性特徴量から計算されるとする。この場合には、合成部14は、第1の類似度を示すスコアであるベクトル間角度と、第2の類似度を示すスコアであるベクトル間角度との平均が0かつ分散が1となるように正規化して、加重和を計算することで、第1の類似度と第2の類似度と合成した合成値を計算してもよい。加重和は、発話の時間的な長さが長いほど大きな係数がかけられればよい。
[判定部15]
判定部15は、合成部14により得られた合成値に基づき、発話者が認識対象の話者であるか否かを判定する。
本実施の形態では、判定部15は、合成部14により得た合成値すなわち第1の類似度を示すスコアと第2の類似度を示すスコアとの加算値を用いて、発話者が認識対象の話者であるか否かを判定する。図3に示す例では、判定部15は、合成部14により得た加算値を合成値として用いて、発話者がAさんであるか否かを判定する。
ここで、発話者が認識対象の話者ではない場合、かつ、音声取得部10が取得した発話に雑音などの発話以外の成分が混入した場合に、合成値を用いて発話者が認識対象の話者ではないと判定する方法の一例について、図4A及び図4Bを用いて説明する。
図4Aは、図3に示す話者認識装置11の第1の類似度計算部131が計算した第1の類似度の一例を示す図である。図4Aには、音声取得部10が取得した発話に雑音などの発話以外の成分が混入していた場合に、第1の特徴量算出部121により算出される第1の特徴量を示すベクトルである雑音入り発話の第1の特徴量ベクトルが示されている。また、図4Aには、参考のため、記憶部16に記憶されている認識対象の話者であるAさんの話者性特徴量を示すベクトルである登録特徴量ベクトルが示されている。また、図4Aには、参考のため、音声取得部10が取得した発話のみすなわち発話に雑音などの発話以外の成分が混入していない場合に第1の特徴量算出部121により算出される第1の特徴量を示すベクトルである発話のみの第1の特徴量ベクトルが示されている。
図4Bは、図3に示す話者認識装置11の第2の類似度計算部132が計算した第2の類似度の一例を示す図である。図4Aと同様に、図4Bには、音声取得部10が取得した発話に雑音などの発話以外の成分が混入していた場合に、第2の特徴量算出部122により算出される第2の特徴量を示すベクトルである雑音入り発話の第2の特徴量ベクトルが示されている。また、図4Bには、参考のため、記憶部16に記憶されている認識対象の話者であるAさんの話者性特徴量を示すベクトルである登録特徴量ベクトルが示されている。また、図4Bには、参考のため、音声取得部10が取得した発話のみすなわち発話に雑音などの発話以外の成分が混入していない場合に第2の特徴量算出部122により算出される第2の特徴量を示すベクトルである発話のみの第2の特徴量ベクトルが示されている。
図4Aに示すように、雑音入り発話の第1の特徴量とAの話者性特徴量の類似度は、雑音入り発話の第1の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θで表され、例えば30度である。一方、図4Bに示すように、雑音入り発話の第2の特徴量とAの話者性特徴量の類似度は、雑音入り発話の第2の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θで表され、例えば90度である。
この場合、合成部14により算出される類似度の合成値は、30度と90度とを加算した120度となる。このため、判定部15は、合成部14により得られる合成値である角度が大きいため、発話者はAとは異なるすなわち認識対象の話者ではないと判定することができる。
なお、発話者が認識対象の話者である場合、雑音入り発話の第1の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度も、雑音入り発話の第2の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度も小さくなりやすい。そして、合成部14により得られる合成値である角度も小さくなりやすいため、判定部15は、合成部14により得られる合成値から、発話者はAと同一であるすなわち認識対象の話者であると判定しやすくなる。
一方、発話者が認識対象の話者と異なる場合、音入り発話の第1の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度、及び、雑音入り発話の第2の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度のうちの一方が小さい値となったとしても、他方が小さい値となる可能性は低い。したがって、合成部14により得られる合成値は小さくなりにくいため、判定部15は、合成部14により得られる合成値から、発話者は認識対象の話者と異なると判定しやすくなる。
[記憶部16]
記憶部16は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録された認識対象の話者固有の特徴量である話者性特徴量を記憶する。本実施の形態では、記憶部16は、図3に示すように、Aの話者性特徴量161とAの話者性特徴量162とを記憶している。話者性特徴量161は、上述したように、予め収集していた認識対象の話者の音声物理量を、i−Vectorを用いて線形変換された話者性特徴量である。話者性特徴量162は、予め収集していた認識対象の話者の音声物理量を、DNNを用いて非線形変換された話者性特徴量である。
[話者認識装置11の動作]
次に、以上のように構成された話者認識装置11の動作について説明する。
図5は、実施の形態に係る話者認識装置11の動作の概要を示すフローチャートである。
まず、話者認識装置11は、音声取得部10により取得された発話の音声について2以上の音響特徴量を算出する(S10)。次に、話者認識装置11は、認識対象の話者についての1以上の話者性特徴量と、ステップS10において算出した2以上の音響特徴量の各々との類似度を計算する(S11)。次に、話者認識装置11は、ステップS11において計算した2以上の類似度を合成する(S12)。次に、話者認識装置11は、ステップS11において2以上の類似度を合成することにより得られた合成値に基づき、音声取得部10により取得された発話の話者が認識対象の話者であるか否かを判定する(S13)。
[効果等]
以上のように、本実施の形態によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置11を実現することができる。
ここで、比較例を用いて、本実施の形態に係る話者認識装置11の効果について説明する。
図6は、比較例に係る話者認識装置91の構成を示すブロック図である。図1及び図2
と同様の要素には同一の符号を付しており、詳細な説明は省略する。
比較例に係る話者認識装置91は、特徴量算出部92と、類似度計算部93と、判定部94と、記憶部96とを備える。
特徴量算出部92は、音声物理量計算部102から取得した発話の音声物理量を、i−Vectorを用いて話者性特徴量に線形変換することで、取得した発話の特徴量(第1の特徴量)を算出する。なお、特徴量算出部92は、第1の特徴量算出部121と同様の要素に該当する。
類似度計算部93は、特徴量算出部92により算出された特徴量(第1の特徴量)と、記憶部96に記憶されている認識対象の話者であるAさんの話者性特徴量との類似度を計算する。図6に示す例では、類似度計算部93は、特徴量算出部92により算出された特徴量と、記憶部96に記憶されているAさんの話者性特徴量とのベクトル間角度を示すコサイン距離を、類似度として計算する。なお、類似度計算部93は、第1の類似度計算部131と同様の要素に該当する。
判定部94は、類似度計算部93により計算された類似度に基づき、発話者が認識対象の話者であるか否かを判定する。
ここで、発話者がAさんすなわち認識対象の話者ではなく、かつ、取得した発話に雑音などの発話以外の成分が混入している。この場合には、雑音入り発話の第1の特徴量とAの話者性特徴量の類似度は、図4Aに示されるにように、雑音入り発話の第1の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θで表され、例えば30度となる。このため、判定部94は、雑音入り発話の第1の特徴量ベクトルと登録特徴量ベクトルとのベクトル間角度θが小さいことから、発話者が認識対象の話者であるAさんであると判定を誤ってしまう。
つまり、図4Aに示すように、取得した発話に雑音などの発話以外の成分が混入しない場合には、発話のみの特徴量ベクトルとAの登録特徴量ベクトルとのベクトル間角度は大きいため、判定部94は、発話者は認識対象の話者であるAさんと異なっていることを正しく判定できる。しかし、取得した発話に、雑音などの発話以外の成分が混入している場合、特徴量算出部92は正確な話者性特徴量を計算できないため、判定部94は、不正確な話者性特徴量である雑音入り発話の第1の特徴量(雑音入り発話の第1の特徴量ベクトル)に基づき、判定を誤ってしまう。
一方、本実施の形態に係る話者認識装置11では、上述したように、少なくとも2つの性質の異なる音響特徴量から計算された登録話者との2以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、合成した類似度を用いることで、より正確に登録話者と一致するか否かを判定することができる。
このようにして、本実施の形態に係る話者認識装置11は、雑音が混入する環境下であっても話者認識の精度を向上することができる。
(変形例1)
上記の実施の形態では、発話の音声物理量を、話者性特徴量に線形変換及び非線形変換し、少なくとも2つの性質の異なる音響特徴量を得ることで、当該音響特徴量から計算された登録話者との2以上の類似度を合成する場合について説明したが、これに限らない。異なる学習データを用いて学習された少なくとも2つのモデルを用いて発話の音声物理量から話者性特徴量を算出することで、少なくとも2つの性質の異なる音響特徴量を得ても、同様のことが言える。以下、この場合を変形例1として説明する。なお、以下では、上記の実施の形態と異なる点を中心に説明する。
[話者認識装置11A]
図7は、本実施の形態の変形例1に係る話者認識装置11Aの具体的構成の一例を示すブロック図である。図3と同様の要素には同一の符号を付しており、詳細な説明は省略する。
話者認識装置11Aは、図7に示すように、特徴量算出部12Aと、類似度計算部13Aと、合成部14と、判定部15を備える。なお、話者認識装置11Aは、記憶部16をさらに備えるとしてもよいが、必須の構成でない。図7に示す話者認識装置11Aは、上記の実施の形態に係る話者認識装置11に対して、特徴量算出部12Aと、類似度計算部13Aとの構成が異なる。
[特徴量算出部12A]
特徴量算出部12Aは、発話の音声物理量を、異なるデータを用いて学習された少なくとも2つのモデルを用いて、2以上の話者性特徴量に変換することで、当該2以上の音響特徴量を算出する。2以上の音響特徴量のうち、異なるデータを用いて学習された少なくとも2つのDNNのモデルを用いて算出された少なくとも2つの音響特徴量の性質は、異なる。
本変形例では、特徴量算出部12Aは、図7に示すように、第1の特徴量算出部121Aと、第2の特徴量算出部122Aとを備える。特徴量算出部12Aは、DNNの第1モデル1211とDNNの第2モデル1221とを用いて、音声取得部10から入力された発話の音声物理量を、2つの話者性特徴量に変換することで、2つの音響特徴量を算出する。以下、2つの音響特徴量は、第1の音響特徴量と第2の音響特徴量とであるとして説明する。
<第1の特徴量算出部121A>
第1の特徴量算出部121Aは、音声取得部10から入力された発話の音声物理量を、DNNの第1モデル1211を用いて話者性特徴量に非線形変換することで、第1の音響特徴量を算出する。より具体的には、第1の特徴量算出部121Aは、DNNの第1モデル1211を用いて、発話の音声物理量からx−Vectorと呼ばれる話者固有の特徴である第1の音響特徴量を算出する。
<第2の特徴量算出部122A>
第2の特徴量算出部122Aは、音声取得部10から入力された発話の音声物理量を、DNNの第2モデル1221であって第1モデル1211と性質が異なる第2モデル1221用いて話者性特徴量に非線形変換することで、第1の音響特徴量を算出する。より具体的には、第2の特徴量算出部122Aは、DNNの第2モデル1221を用いて、発話の音声物理量からx−Vectorと呼ばれる話者固有の特徴である第2の音響特徴量を算出する。
ここで、第1モデル1211と第2モデル1221は、上述したように、異なるデータを用いて学習されたDNNのモデルである。これについて図8を用いて説明する。
図8は、図7に示す第1モデル1211及び第2モデル1221が異なるデータで学習されることを説明するための図である。
DNNモデル1200は、特徴抽出部と識別部とからなるDNNのモデルであり、パラメータなどが学習されていないモデルである。DNNモデル1200は、コンピュータなどの学習部17により、閾値以上の雑音環境下における認識対象の話者の音声を含む第1学習データ171を用いて学習されることで、第1モデル1211となる。つまり、第1モデル1211は、閾値以上の雑音環境下における認識対象の話者の音声を含む第1学習データを用いて学習されたモデルである。これにより、第1モデル1211は雑音が多い環境下でも発話の音声を精度よく識別可能なDNNのモデルとなる。
また、DNNモデル1200は、学習部17により、閾値未満の雑音環境下における認識対象の話者の音声を含む第2学習データ172を用いて学習されることで、第2モデル1221となる。つまり、第2モデル1221は、閾値未満の雑音環境下における認識対象の話者の音声を含む第2学習データを用いて学習されたモデルである。これにより、第2モデル1221は雑音が少ない環境下では発話の音声を精度よく識別可能なDNNのモデルとなる。
このように、本変形例では、第1モデル1211と第2モデル1221は、異なる学習データを用いて学習された性質の異なるDNNのモデルである。このため、算出される第1の音響特徴量及び第2の音響特徴量も性質が異なることになる。
[類似度計算部13A]
類似度計算部13Aは、認識対象の話者についての1以上の話者性特徴量と、特徴量算出部12により算出された2以上の音響特徴量の各々との類似度を計算する。本変形例でも、2以上の類似度が同じ計算手法により計算される場合について説明するが、2以上の類似度のうちの少なくとも2つの類似度が異なる計算手法により計算されてもよい。
本変形例では、類似度計算部13Aは、図7に示すように、第1の類似度計算部131Aと、第2の類似度計算部132Aとを備える。
<第1の類似度計算部131A>
第1の類似度計算部131Aは、第1の特徴量算出部121Aにより算出された第1の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量162との類似度を計算する。図7に示す例でも、話者性特徴量162は、認識対象の話者であるAさんの話者性特徴量である。本変形例では、第1の類似度計算部131Aは、第1の音響特徴量と話者性特徴量162とのベクトル間角度を示すコサイン距離を、第1の類似度として計算する。
<第2の類似度計算部132A>
第2の類似度計算部132Aは、第2の特徴量算出部122Aにより算出された第2の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量162との類似度を計算する。本変形例では、第2の類似度計算部132Aは、第2の音響特徴量と話者性特徴量162とのベクトル間角度を示すコサイン距離を、第2の類似度として計算する。
[効果等]
以上のように、本変形例によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置11Aを実現することができる。より具体的には、本変形例に係る話者認識装置11Aは、上述したように、異なる学習データを用いて学習された少なくとも2つのモデルを用いて発話の音声物理量から話者性特徴量を算出することで、少なくとも2つの性質の異なる音響特徴量を得ることができる。そして、本変形例に係る話者認識装置11Aは少なくとも2つの性質の異なる音響特徴量から計算された登録話者との2以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、類似度を合成することで得た合成値を用いることで、より正確に登録話者と一致するか否かを判定することができる。
このようにして、本変形例に係る話者認識装置11Aは、雑音が混入する環境下であっても話者認識の精度を向上することができる。
なお、本変形例では、異なる学習データを用いて学習された2つのDNNのモデルを用いて、発話の音声物理量からx−Vectorと呼ばれる話者固有の特徴(話者性特徴量)を算出すると説明したが、これに限らない。異なる学習データを用いて学習された2つの統計的モデルを用いて、発話の音声物理量からi−Vectorと呼ばれる話者固有の特徴(話者性特徴量)を算出してもよく、同様のことが言える。
(変形例2)
上記の実施の形態及び変形例1では、少なくとも2つの性質の異なる音響特徴量から計算された登録話者との2以上の類似度を合成する場合について説明したが、これに限らない。性質が同じである(性質が異ならない)少なくとも2つの音響特徴量から、登録話者との性質の異なる2以上の類似度を合成する場合も同様に、雑音が混入する環境下であっても話者認識の精度を向上することができる。以下、この場合を変形例2として説明する。なお、以下では、上記の実施の形態及び変形例2と異なる点を中心に説明する。
[話者認識装置11B]
図9は、本実施の形態の変形例2に係る話者認識装置11Bの具体的構成の一例を示すブロック図である。図3と同様の要素には同一の符号を付しており、詳細な説明は省略する。
話者認識装置11Bは、図9に示すように、特徴量算出部12Bと、類似度計算部13Bと、合成部14と、判定部15を備える。なお、話者認識装置11Bは、記憶部16をさらに備えるとしてもよいが、必須の構成でない。図9に示す話者認識装置11Bは、上記の実施の形態に係る話者認識装置11に対して、特徴量算出部12Bと、類似度計算部13Bとの構成が異なる。また、本変形例に係る記憶部16は、さらに類似度計算部13Bで用いられる学習済み計算用モデル163を記憶している。
[特徴量算出部12B]
特徴量算出部12Bは、発話の音声物理量を、2以上の話者性特徴量に変換することで、当該2以上の音響特徴量を算出する。
本変形例では、特徴量算出部12Bは、図9に示すように、2つの第1の特徴量算出部121を備え、音声取得部10から入力された発話の音声物理量から、2つの話者性特徴量に変換することで、2つの音響特徴量を算出する。2つの音響特徴量は、第1の音響特徴量と第2の音響特徴量と称してもよいが、第1の音響特徴量と第2の音響特徴量とは同一であるため、以下では、2つの第1の音響特徴量として説明する。
[類似度計算部13B]
類似度計算部13Bは、認識対象の話者についての1以上の話者性特徴量と、特徴量算出部12により算出された2以上の音響特徴量の各々との類似度を計算する。以下では、2以上の類似度の性質のうちの少なくとも2つの類似度の性質が異なる場合について説明する。
本変形例では、類似度計算部13Bは、図9に示すように、第1の類似度計算部131Bと、第2の類似度計算部132Bとを備える。
<第1の類似度計算部131B>
第1の類似度計算部131Bは、記憶部16に記憶されている学習済み計算用モデル163を用いて、第1の特徴量算出部121により算出された第1の音響特徴量と、認識対象の話者であるAさんの話者性特徴量との類似度である第1の類似度を計算する。より具体的には、第1の類似度計算部131Bは、記憶部16に記憶されている学習済み計算用モデルを用いて、第1の特徴量算出部121により算出された第1の音響特徴量から、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)により、第1の類似度を計算する。
ここで、学習済み計算用モデルは、認識対象の話者の話し方を含む話者の特徴量について学習された計算用モデルであって1以上の話者性特徴量のうちの一の話者性特徴量としての計算用モデルである。学習済み計算用モデルは、同じ話者の発話でも、その話し方及び周りの環境等の収音条件でどのように特徴量が変化し得るかという分布を事前に学習しておくことで得られるモデルである。これにより、学習済み計算用モデルは、音声取得部10で話者の発話の音声が入力されるときの収音条件が、事前の学習時のものと近いほど高性能となるモデルとなる。
<第2の類似度計算部132B>
第2の類似度計算部132Bは、第1の特徴量算出部121により算出された第1の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量161との類似度を計算する。本変形例では、第2の類似度計算部132Bは、第1の音響特徴量と話者性特徴量161とのベクトル間角度を示すコサイン距離を、第2の類似度として計算する。
なお、第2の類似度計算部132Bによる類似度計算には、学習済み話者モデルが不要である。このため、第2の類似度は、第1の類似度と比較して、音声取得部10で話者の発話の音声が入力されるときの収音条件に依存しにくいものとなる。このように、第1の音響特徴量と第2の音響特徴量とは、性質が異なる。
[効果等]
以上のように、本変形例によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置11Bを実現することができる。より具体的には、本変形例に係る話者認識装置11Bは、上述したように、登録話者との2以上の類似度であって性質の異なる2以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、性質が異なる類似度を合成することで得た合成値を用いることで、より正確に登録話者と一致するか否かを判定することができる。
このようにして、本変形例に係る話者認識装置11Bは、雑音が混入する環境下であっても話者認識の精度を向上することができる。
(実施例)
上記の実施の形態等では、2以上の音響特徴量と2以上の類似度の一例として、2つの音響特徴量から2つの類似度を計算して合成することについて説明したが、これに限らない。本実施例では、2以上の音響特徴量と2以上の類似度の一例として3つの音響特徴量から3つの類似度を計算して合成する場合について説明する。なお、以下では、上記の実施の形態等と異なる点を中心に説明する。
[話者認識装置11C]
図10は、本実施の形態の実施例に係る話者認識装置11Cの具体的構成の一例を示すブロック図である。図3、図7及び図9と同様の要素には同一の符号を付しており、詳細な説明は省略する。
話者認識装置11Cは、図10に示すように、特徴量算出部12Cと、類似度計算部13Cと、合成部14と、判定部15を備える。なお、話者認識装置11Cは、記憶部16をさらに備えるとしてもよいが、必須の構成でない。図10に示す話者認識装置11Cは、上記の実施の形態等に係る話者認識装置11等に対して、特徴量算出部12Cと、類似度計算部13Cとの構成が異なる。また、本変形例に係る記憶部16は、さらに類似度計算部13Cで用いられる学習済み計算用モデル163を記憶している。
[特徴量算出部12C]
特徴量算出部12Cは、発話の音声物理量を、3以上の話者性特徴量に変換することで、当該3以上の音響特徴量を算出する。
本実施例では、特徴量算出部12Cは、図10に示すように、2つの第1の特徴量算出部121と、1つの第2の特徴量算出部122とを備え、音声取得部10から入力された発話の音声物理量から、3つの話者性特徴量に変換することで、3つの音響特徴量を算出する。3つの音響特徴量は、第1の音響特徴量〜第3の音響特徴量と称してもよいが、上記の実施の形態に倣い、2つの第1の音響特徴量(i−Vector)と、1つの第2の音響特徴量(x−Vector)と称して以下説明する。なお、2つの第1の音響特徴量(i−Vector)と、1つの第2の音響特徴量(x−Vector)とは、計算手法が異なることから、性質が異なる。
[類似度計算部13C]
類似度計算部13Cは、認識対象の話者についての複数の話者性特徴量と、特徴量算出部12Cにより算出された3つの音響特徴量の各々との類似度を計算する。
本実施例では、類似度計算部13Cは、図10に示すように、第1の類似度計算部131と、第1の類似度計算部131Bと、第2の類似度計算部132とを備える。類似度計算部13Cは、特徴量算出部12Cにより算出された3つの音響特徴量から、記憶部16に記憶される認識対象の話者の話者性特徴量に対する3つの類似度を算出する。3つの類似度は、第1の類似度〜第3の類似度と称してもよいが、上記の実施の形態に倣い、第1の類似度(コサイン距離)と、第2の類似度(x−Vector)と、第1の類似度(PLDA)と称して以下説明する。なお、第1の類似度(コサイン距離)及び第2の類似度(コサイン距離)と、第1の類似度(PLDA)とは、計算手法が異なることから、性質が異なる。
[合成部14]
合成部14は、類似度計算部13により計算された2以上の類似度を合成する。本実施例では、合成部14は、第1の類似度(コサイン距離)と、第2の類似度(コサイン距離)と、第1の類似度(PLDA)とのそれぞれの平均が0かつ分散が1となるように正規化して加重和を計算することで、3つの類似度を合成する。
ここで、図11A〜図11Cは、図10に示す類似度計算部13Cが計算した類似度の一例を示す図である。図11Aには、図10に示す第2の類似度計算部132が計算した、−1から1までの値をとる第2の類似度(コサイン距離)の一例が示されている。図11Bには、図10に示す第1の類似度計算部131が計算した、−1から1までの値をとる第1の類似度(コサイン距離)の一例が示されている。図11Cには、図10に示す第1の類似度計算部131Bが計算した第1の類似度(PLDA)の一例が示されている。なお、図11A〜図11Cにおけるテスト発話は、音声取得部10により取得された、独立した13個の発話の音声ファイルが示されている。また、図11A〜図11Cに示される本人or他人は、テスト発話を行った発話者が、認識対象の話者であったか否かを示している。
図12は、図10に示す合成部14が計算した合成値の一例を示す図である。図12には、図11Aに示される第1の類似度(コサイン距離)と、図11Bに示される第2の類似度(コサイン距離)と、図11Cに示される第1の類似度(PLDA)とのそれぞれの平均が0かつ分散が1となるように正規化して加重和を計算することで得た合成値が示されている。
図12から、例えば1.7などの閾値を設定することで、合成値を用いてテスト発話者が認識対象の話者であるか否かを判定することができるのがわかる。
つまり、3つの音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、3つの類似度のうちの少なくとも2つの類似度の性質が異なっていても、3つの類似度それぞれの平均が0かつ分散が1となるように正規化して加重和を計算して合成値を得ればよい。これにより、その合成値を用いて、テスト発話を行った発話者が、認識対象の話者であったか否かに用いることができる。このように、性質が異なる2つの類似度等から、テスト発話を行った発話者が、認識対象の話者であったか否かに用いることができる合成値を得ることができる。
以上、実施の形態及び変形例等に係る話者認識装置について説明したが、本開示は、この実施の形態に限定されるものではない。
例えば、上記実施の形態及び変形例等に係る話者認識装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、またはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
また、本開示は、話者認識装置により実行される話者認識方法として実現されてもよい。
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
以上、一つまたは複数の態様に係る話者認識装置について、実施の形態及び変形例等に基づいて説明したが、本開示は、この実施の形態及び変形例等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例等に施したものや、異なる実施の形態及び変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本開示は、話者認識装置、話者認識方法、及び、プログラムに利用でき、例えば、入退管理システム、セキュリティシステム、AIスピーカ、コールセンターなど、発話の音声から話者認識を行う機能を必要とする話者認識装置、話者認識方法、及び、プログラムに利用できる。
1 話者認識システム
10 音声取得部
11、11A、11B、11C、91 話者認識装置
12、12A、12B、12C、92 特徴量算出部
13、13A、13B、13C、93 類似度計算部
14 合成部
15、94 判定部
16、96 記憶部
17 学習部
101 音声入力部
102 音声物理量計算部
121、121A 第1の特徴量算出部
122、122A 第2の特徴量算出部
131、131A、131B 第1の類似度計算部
132、132A、132B 第2の類似度計算部
161、162 話者性特徴量
163 学習済み計算用モデル
171 第1学習データ
172 第2学習データ
1200 DNNモデル
1211 第1モデル
1221 第2モデル

Claims (11)

  1. 取得された発話の音声について2以上の音響特徴量を算出する特徴量算出部と、
    認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出部により算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された2以上の類似度を合成する合成部と、
    前記合成部により得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定部と、を備え、
    前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる、
    話者認識装置。
  2. 前記2以上の類似度のうちの少なくとも2つの類似度は、性質が異なる第1の類似度と第2の類似度であり、
    前記第1の類似度は、前記話者の話し方を含む前記話者の特徴量について学習された学習済み計算用モデルであって前記1以上の話者性特徴量のうちの第1の話者性特徴量としての学習済み計算用モデルを用いて、前記特徴量算出部により算出された第1の音響特徴量から、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)により計算され、
    前記第2の類似度は、前記1以上の話者性特徴量のうちの第2の話者性特徴量と、前記特徴量算出部により算出された第2の音響特徴量とのコサイン距離として計算される、
    請求項1に記載の話者認識装置。
  3. 前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量は、性質が異なる第1の音響特徴量と第2の音響特徴量であり、
    前記第1の音響特徴量は、前記特徴量算出部により、前記発話の音声物理量をi−Vectorを用いて線形変換されることで算出され、
    前記第2の音響特徴量は、前記特徴量算出部により、前記音声物理量をDNN(Deep Neural Network)を用いて非線形変換されることで算出される、
    請求項1または2に記載の話者認識装置。
  4. 前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量は、性質が異なる第1の音響特徴量と第2の音響特徴量であり、
    前記第1の音響特徴量は、前記特徴量算出部により、DNNの第1モデルを用いて非線形変換されることで算出され、
    前記第2の音響特徴量は、前記特徴量算出部により、DNNの第2モデルであって前記第1モデルと性質が異なる第2モデルを用いて非線形変換されることで算出され、
    前記第1モデルは、閾値以上の雑音環境下における前記認識対象の話者の音声を含む第1学習データを用いて学習されたモデルであり、
    前記第2モデルは、前記閾値未満の雑音環境下における前記認識対象の話者の音声を含む第2学習データを用いて学習されたモデルである、
    請求項1または2に記載の話者認識装置。
  5. 前記第1の音響特徴量と前記第2の音響特徴量とは、同一である、
    請求項2に記載の話者認識装置。
  6. 前記合成部は、前記類似度計算部により計算された類似度それぞれを示すスコアを足し合わせることにより、前記2以上の類似度を合成する、
    請求項1〜5のいずれか1項に記載の話者認識装置。
  7. 前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して足し合わせることにより、前記2以上の類似度を合成する、
    請求項1〜5のいずれか1項に記載の話者認識装置。
  8. 前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して加重和を計算することで、前記2以上の類似度を合成する、
    請求項1〜5のいずれか1項に記載の話者認識装置。
  9. 前記合成部は、前記加重和を、取得された前記発話の時間的な長さが長いほど大きな係数をかけて計算する、
    請求項8に記載の話者認識装置。
  10. コンピュータが行う話者認識方法であって、
    取得された発話の音声について2以上の音響特徴量を算出する特徴量算出ステップと、
    認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、
    前記類似度計算ステップにおいて計算された2以上の類似度を合成する合成ステップと、
    前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとを含み、
    前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる、
    話者認識方法。
  11. 取得された発話の音声について2以上の音響特徴量を算出する特徴量算出ステップと、
    認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、
    前記類似度計算ステップにおいて計算された2以上の類似度を合成する合成ステップと、
    前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとをコンピュータに実行させ、
    前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる、
    プログラム。
JP2019107341A 2018-10-05 2019-06-07 話者認識装置、話者認識方法、及び、プログラム Active JP7326033B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/576,170 US11222641B2 (en) 2018-10-05 2019-09-19 Speaker recognition device, speaker recognition method, and recording medium
CN201910930409.6A CN111009248B (zh) 2018-10-05 2019-09-29 说话者识别装置、说话者识别方法及记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862741712P 2018-10-05 2018-10-05
US62/741,712 2018-10-05

Publications (2)

Publication Number Publication Date
JP2020060757A true JP2020060757A (ja) 2020-04-16
JP7326033B2 JP7326033B2 (ja) 2023-08-15

Family

ID=70220828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019107341A Active JP7326033B2 (ja) 2018-10-05 2019-06-07 話者認識装置、話者認識方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP7326033B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021187146A1 (ja) 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム
WO2022149384A1 (ja) * 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム
WO2023182015A1 (ja) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 音声認証装置および音声認証方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029495A (ja) * 1998-05-07 2000-01-28 Cselt Spa (Cent Stud E Lab Telecomun) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
JP2005221727A (ja) * 2004-02-05 2005-08-18 Nec Corp 音声認識システム、音声認識方法および音声認識用プログラム
US20140081640A1 (en) * 2008-10-24 2014-03-20 Nuance Communications, Inc. Speaker verification methods and apparatus
JP2017530387A (ja) * 2015-03-20 2017-10-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 人工知能に基づく声紋ログイン方法と装置
JP2018508799A (ja) * 2015-12-30 2018-03-29 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 声紋認証処理方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029495A (ja) * 1998-05-07 2000-01-28 Cselt Spa (Cent Stud E Lab Telecomun) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
JP2005221727A (ja) * 2004-02-05 2005-08-18 Nec Corp 音声認識システム、音声認識方法および音声認識用プログラム
US20140081640A1 (en) * 2008-10-24 2014-03-20 Nuance Communications, Inc. Speaker verification methods and apparatus
JP2017530387A (ja) * 2015-03-20 2017-10-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 人工知能に基づく声紋ログイン方法と装置
JP2018508799A (ja) * 2015-12-30 2018-03-29 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 声紋認証処理方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021187146A1 (ja) 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム
WO2022149384A1 (ja) * 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム
WO2023182015A1 (ja) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 音声認証装置および音声認証方法

Also Published As

Publication number Publication date
JP7326033B2 (ja) 2023-08-15

Similar Documents

Publication Publication Date Title
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6596376B2 (ja) 話者識別方法及び話者識別装置
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
Tiwari MFCC and its applications in speaker recognition
KR20200012963A (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
US11222641B2 (en) Speaker recognition device, speaker recognition method, and recording medium
WO2017218465A1 (en) Neural network-based voiceprint information extraction method and apparatus
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US11315550B2 (en) Speaker recognition device, speaker recognition method, and recording medium
JP2020027193A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP7326033B2 (ja) 話者認識装置、話者認識方法、及び、プログラム
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
Barai et al. Closed-set speaker identification using VQ and GMM based models
Sahu et al. A study on automatic speech recognition toolkits
US20210056955A1 (en) Training method, speaker identification method, and recording medium
CN112420021A (zh) 学习方法、说话者识别方法以及记录介质
CN111009248B (zh) 说话者识别装置、说话者识别方法及记录介质
KR20110071742A (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
Jagtap et al. Speaker verification using Gaussian mixture model
Nair et al. A reliable speaker verification system based on LPCC and DTW
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230802

R150 Certificate of patent or registration of utility model

Ref document number: 7326033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150