JP7353839B2 - 話者識別装置、話者識別方法、及び、プログラム - Google Patents
話者識別装置、話者識別方法、及び、プログラム Download PDFInfo
- Publication number
- JP7353839B2 JP7353839B2 JP2019133958A JP2019133958A JP7353839B2 JP 7353839 B2 JP7353839 B2 JP 7353839B2 JP 2019133958 A JP2019133958 A JP 2019133958A JP 2019133958 A JP2019133958 A JP 2019133958A JP 7353839 B2 JP7353839 B2 JP 7353839B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- utterance
- statistics
- dnn
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
従来、i-vectorと呼ばれる話者固有の特徴量を用いた話者識別技術が広く研究されてきた。
本開示の一形態の概要は、以下の通りである。
以下では、図面を参照しながら、本実施の形態に係るDNNを用いた話者識別方法等の説明を行う。
図1は、本実施の形態に係る話者識別システム1の構成の一例を示すブロック図である。
音声取得部10は、例えばマイクロフォンからなり、話者の発話の音声を取得する。音声取得部10は、取得した音声を音声信号に変換して、音響特徴量計算部12に出力する。
話者識別装置11は、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現される。話者識別装置11は、サーバに含まれて動作するとしてもよいし、話者識別装置11の一部構成がクラウドサーバに含まれ動作するとしてもよい。話者識別装置11は、識別対象の発話を行った話者が、どの登録話者であるかを識別する処理を行う。
音響特徴量計算部12は、取得された発話の音声を示す発話データから、発話の音声についての音響特徴量を計算する。本実施の形態では、音響特徴量計算部12は、音声取得部10により出力された発話の音声信号から、発話の音声の特徴量であるMFCCを、音響特徴量として計算する。MFCCは、発話者の声道特性を表す特徴量であり、音声認識でも一般的に使用される。より具体的には、MFCCは、音声の周波数スペクトルを人間の聴覚特性に基づいて分析した音響特徴量である。なお、音響特徴量計算部12は、発話の音響特徴量として、MFCCを計算する場合に限らず、発話の音声信号にメルフィルタバンクをかけたものを音響特徴量として計算してもよいし、発話の音声信号のスペクトログラムを音響特徴量として計算してもよい。また、音響特徴量計算部12は、DNNなど深層学習させたニューラルネットワークを用いて、発話の音声信号から、音声の特徴量を示す音響特徴量を計算してもよい。
統計量算出部13は、話者特徴量抽出部14の前段に設けられ、音響特徴量計算部12で計算された音響特徴量に対して統計処理を行い、統計処理を行うことで得た、話者特徴量に関する統計量を、話者特徴量抽出部14に出力する。より具体的には、統計量算出部13は、音響特徴量計算部12で計算された音響特徴量から、発話データの統計量を算出する。
データ取得部131は、不特定多数話者の発話の音声についての音響特徴量を取得する。本実施の形態では、例えば図3の(a)に示すように、データ取得部131は、事前に用意された不特定多数話者の全ての発話の音声についてのMFCCを、音響特徴量としてデータ収集する。データ取得部131は、音声取得部10により出力された不特定多数話者の全ての発話の音声信号から、MFCCを音響特徴量として計算することで取得してもよい。この場合、データ取得部131は、不特定多数話者の全ての発話の音声に対して時間フレームごとにMFCCを計算することで、不特定多数話者の発話の音声についての音響特徴量を取得する。
UBM作成部132は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるUBMを作成する。
GMM推定部133は、UBM作成部132により作成された初期モデルであるUBMから、対象発話の音声についての音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、対象発話の発話データの話者モデルであるGMMを推定する。
スーパーベクトル算出部134は、対象発話におけるGMMの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、UBMの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、統計量として算出する。
図4は、本実施の形態に係る話者特徴量抽出部14に用いられるDNNの構成の一例を示すブロック図である。図5は、本実施の形態に係る話者特徴量抽出部14に用いられるDNNの構成の別の一例を示すブロック図である。
類似度算出部15は、話者特徴量抽出部14により抽出された話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する。
話者識別部16は、類似度算出部15により算出された類似度に基づいて、発話データの話者を識別する。
記憶部17は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、1以上の登録話者それぞれの固有の特徴量である話者特徴量を記憶する。本実施の形態では、記憶部17は、図1に示すように、登録話者情報171を記憶している。登録話者情報171は、上述したように、1以上の登録話者の話者特徴量を含む。1以上の登録話者の話者特徴量は、予め収集していた1以上の登録話者の発話の音声の音響特徴量から算出した発話全体を通した統計量が、話者特徴量抽出部14で使用されるDNNを用いて非線形変換された話者特徴量である。
次に、以上のように構成された話者識別装置11の動作について説明する。
以上のように、本実施の形態では、識別対象の話者の対象発話の音声についての音響特徴量を、直接DNNの入力として用いない。より具体的には、当該対象発話の音声についての音響特徴量から発話全体の特徴を算出するための統計処理を新たに導入し、統計処理により算出した発話全体を通した統計量を、DNNの入力として用いて話者特徴量を抽出する。
話者識別装置11の話者識別性能の評価を、コサイン距離による識別器を用いて行ったので、その評価実験とその結果を実施例として説明する。なお、比較例として、非特許文献1に示される話者特徴量の評価を、コサイン距離による識別器を用いて行った。なお、非特許文献1に示される話者特徴量、すなわち、短時間のフレーム単位で区切った発話の音声の音響特徴量を入力としてボトルネックDNNを用いて抽出された話者特徴量を、以下ではd-vectorと称する。また、話者識別装置11により抽出された話者特徴量を、以下ではs-vectorと称する。換言すると、s-vectorは、上述したように、発話の音声の音響特徴量を、混合ガウスモデルを利用して統計処理することで得た統計量を入力としてボトルネックDNNを用いて抽出された話者特徴量である。
図10は、本実施例に係る学習に用いられた学習用データセットの一例を示す図である。図11は、本実施例に係る評価実験に用いられた評価用データセットの一例を示す図である。
図12は、本実施例に係る評価用データセットを用いて識別性能を評価した実験結果を示す図である。図12では、クリーンな音声、雑音環境下のいずれにおいても、s-vectorは、d-vectorよりも高い識別率(%)を示しており、高い識別性能を有するのがわかる。つまり、ボトルネックDNNを用いた話者識別において、本実施の形態に係る統計量を用いることの有効性が確認できた。
上記の実施の形態では、DNNにより抽出した話者特徴量(s-vector)を用いて、算出した類似度から、話者を識別するとして説明したが、これに限らない。DNNにより抽出した話者特徴量を用いて算出した類似度に加え、他の方法により算出した話者特徴量を用いて算出した類似度を利用して話者を識別するとしてもよい。
本変形例に係るs‐vectorによる類似度とi‐vectorによる類似度とを合成した合成類似度を用いた場合の話者識別性能の評価を行ったので、その評価実験とその結果を以下に説明する。
以上、実施の形態及び変形例等に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。
10 音声取得部
11 話者識別装置
12 音響特徴量計算部
13 統計量算出部
14 話者特徴量抽出部
15 類似度算出部
16 話者識別部
17 記憶部
131 データ取得部
132 UBM作成部
133 GMM推定部
134 スーパーベクトル算出部
Claims (7)
- 取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算部と、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出部と、
DNN(Deep Neural Network)を用いて、前記統計量から、前記発話データの話者に
ついての話者特徴量を抽出する話者特徴量抽出部と、
前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出部と、
前記類似度に基づいて、前記発話データの話者を識別する話者識別部と、を備え、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
話者識別装置。 - 前記統計量算出部は、
前記音響特徴量のクラス分けを行い、前記統計量として前記クラス毎の平均を算出することで、前記統計量を抽出する、
請求項1に記載の話者識別装置。 - 前記統計量算出部は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるUBM(Universal Background Model)から、前記発話の音声についての前記音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、前記発話データの話者モデルであるGMM(Gaussian Mixture Model)を推定し、前記GMMの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、前記UBMの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、前記統計量として算出する、
請求項1または2に記載の話者識別装置。 - 前記DNNは、入力層と複数の中間層と出力層とを備え、
前記話者特徴量抽出部は、前記DNNの複数の中間層のうちのいずれかの層から話者特徴量を抽出する、
請求項1~3のいずれか1項に記載の話者識別装置。 - 前記DNNは、ボトルネックDNNであり、
前記複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少ない、
請求項4に記載の話者識別装置。 - コンピュータが行う話者識別方法であって、
取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、
DNNを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、
前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、を含み、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
話者識別方法。 - 取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、
DNNを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、
前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、をコンピュータに実行させる、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/682,661 US11315550B2 (en) | 2018-11-19 | 2019-11-13 | Speaker recognition device, speaker recognition method, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862769291P | 2018-11-19 | 2018-11-19 | |
US62/769,291 | 2018-11-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020086430A JP2020086430A (ja) | 2020-06-04 |
JP7353839B2 true JP7353839B2 (ja) | 2023-10-02 |
Family
ID=70907980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019133958A Active JP7353839B2 (ja) | 2018-11-19 | 2019-07-19 | 話者識別装置、話者識別方法、及び、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7353839B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097188A (ja) | 2015-11-25 | 2017-06-01 | 日本電信電話株式会社 | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム |
-
2019
- 2019-07-19 JP JP2019133958A patent/JP7353839B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097188A (ja) | 2015-11-25 | 2017-06-01 | 日本電信電話株式会社 | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム |
Non-Patent Citations (1)
Title |
---|
Maofan Yin, et al.,Discriminatively trained joint speaker and environment representations for adaptation of deep neural network acoustic models,2016 International Conference on Acoustics, Speech and Signal Processing,IEEE,2016年03月20日,pp. 5065-5069,http://ieeexplore.ieee.org/document/7472642 |
Also Published As
Publication number | Publication date |
---|---|
JP2020086430A (ja) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kabir et al. | A survey of speaker recognition: Fundamental theories, recognition methods and opportunities | |
Li et al. | Cn-celeb: multi-genre speaker recognition | |
US11315550B2 (en) | Speaker recognition device, speaker recognition method, and recording medium | |
US10366693B2 (en) | Acoustic signature building for a speaker from multiple sessions | |
Maurya et al. | Speaker recognition for Hindi speech signal using MFCC-GMM approach | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
Nayana et al. | Comparison of text independent speaker identification systems using GMM and i-vector methods | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Tolba | A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach | |
Ganchev | Speaker recognition | |
Kumari et al. | Comparison of LPCC and MFCC features and GMM and GMM-UBM modeling for limited data speaker verification | |
JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
JP7353839B2 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Wondimu et al. | Signal based Ethiopian languages identification using Gaussian mixture model | |
JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Mousa | MareText independent speaker identification based on K-mean algorithm | |
Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
Sharma et al. | Speaker's Age Group Classification and Recognition using Spectral Features and Gaussian Mixture Models | |
Yogapriya et al. | Speech Based Access for Agricultural Commodity Prices in Tamil | |
US20240153494A1 (en) | Techniques for generating training data for acoustic models using domain adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7353839 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |