JP2020060757A - 話者認識装置、話者認識方法、及び、プログラム - Google Patents
話者認識装置、話者認識方法、及び、プログラム Download PDFInfo
- Publication number
- JP2020060757A JP2020060757A JP2019107341A JP2019107341A JP2020060757A JP 2020060757 A JP2020060757 A JP 2020060757A JP 2019107341 A JP2019107341 A JP 2019107341A JP 2019107341 A JP2019107341 A JP 2019107341A JP 2020060757 A JP2020060757 A JP 2020060757A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- similarity
- feature amount
- calculated
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000004364 calculation method Methods 0.000 claims description 199
- 239000013598 vector Substances 0.000 claims description 79
- 230000002194 synthesizing effect Effects 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 35
- 230000004048 modification Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
以下では、図面を参照しながら、実施の形態における話者認識方法等の説明を行う。
図1は、実施の形態に係る話者認識システム1の構成の一例を示すブロック図である。
図2は、図1に示す音声取得部の具体的構成の一例を示すブロック図である。
図3は、本実施の形態に係る話者認識装置の具体的構成の一例を示すブロック図である。
特徴量算出部12は、取得された発話の音声について2以上の音響特徴量を算出する。より具体的には、特徴量算出部12は、発話の音声物理量を、2以上の話者性特徴量に変換することで、当該2以上の音響特徴量を算出する。2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質は、異なるとしてもよい。
第1の特徴量算出部121は、音声取得部10から入力された発話の音声物理量を、i−Vectorを用いて話者性特徴量に線形変換することで、第1の音響特徴量を算出する。
第2の特徴量算出部122は、音声取得部10から入力された発話の音声物理量を、DNN(Deep Neural Network)を用いて話者性特徴量に非線形変換することで、第1の音響特徴量と性質が異なる第2の音響特徴量を算出する。
類似度計算部13は、認識対象の話者についての1以上の話者性特徴量と、特徴量算出部12により算出された2以上の音響特徴量の各々との類似度を計算する。
第1の類似度計算部131は、第1の特徴量算出部121により算出された第1の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量161との類似度を計算する。ここで、話者性特徴量161は、予め記憶された話者性特徴量である。より具体的には、話者性特徴量161は、予め収集された認識対象の話者の音声物理量が、i−Vectorを用いて線形変換された話者性特徴量である。図3に示す例では、話者性特徴量161は、認識対象の話者であるAさんの話者性特徴量である。
第2の類似度計算部132は、第2の特徴量算出部122により算出された第2の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量162との類似度を計算する。ここで、話者性特徴量162は、予め記憶された話者性特徴量である。より具体的には、話者性特徴量162は、予め収集していた認識対象の話者の音声物理量が、DNNを用いて非線形変換された話者性特徴量である。図3に示す例では、話者性特徴量162は、認識対象の話者であるAさんの話者性特徴量である。
合成部14は、類似度計算部13により計算された2以上の類似度を合成する。ここで、合成部14は、類似度計算部13により計算された類似度それぞれを示すスコアを足し合わせることにより、2以上の類似度を合成してもよい。また、合成部14は、類似度計算部13により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して足し合わせることにより、2以上の類似度を合成してもよい。
判定部15は、合成部14により得られた合成値に基づき、発話者が認識対象の話者であるか否かを判定する。
記憶部16は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録された認識対象の話者固有の特徴量である話者性特徴量を記憶する。本実施の形態では、記憶部16は、図3に示すように、Aの話者性特徴量161とAの話者性特徴量162とを記憶している。話者性特徴量161は、上述したように、予め収集していた認識対象の話者の音声物理量を、i−Vectorを用いて線形変換された話者性特徴量である。話者性特徴量162は、予め収集していた認識対象の話者の音声物理量を、DNNを用いて非線形変換された話者性特徴量である。
次に、以上のように構成された話者認識装置11の動作について説明する。
以上のように、本実施の形態によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置11を実現することができる。
と同様の要素には同一の符号を付しており、詳細な説明は省略する。
上記の実施の形態では、発話の音声物理量を、話者性特徴量に線形変換及び非線形変換し、少なくとも2つの性質の異なる音響特徴量を得ることで、当該音響特徴量から計算された登録話者との2以上の類似度を合成する場合について説明したが、これに限らない。異なる学習データを用いて学習された少なくとも2つのモデルを用いて発話の音声物理量から話者性特徴量を算出することで、少なくとも2つの性質の異なる音響特徴量を得ても、同様のことが言える。以下、この場合を変形例1として説明する。なお、以下では、上記の実施の形態と異なる点を中心に説明する。
図7は、本実施の形態の変形例1に係る話者認識装置11Aの具体的構成の一例を示すブロック図である。図3と同様の要素には同一の符号を付しており、詳細な説明は省略する。
特徴量算出部12Aは、発話の音声物理量を、異なるデータを用いて学習された少なくとも2つのモデルを用いて、2以上の話者性特徴量に変換することで、当該2以上の音響特徴量を算出する。2以上の音響特徴量のうち、異なるデータを用いて学習された少なくとも2つのDNNのモデルを用いて算出された少なくとも2つの音響特徴量の性質は、異なる。
第1の特徴量算出部121Aは、音声取得部10から入力された発話の音声物理量を、DNNの第1モデル1211を用いて話者性特徴量に非線形変換することで、第1の音響特徴量を算出する。より具体的には、第1の特徴量算出部121Aは、DNNの第1モデル1211を用いて、発話の音声物理量からx−Vectorと呼ばれる話者固有の特徴である第1の音響特徴量を算出する。
第2の特徴量算出部122Aは、音声取得部10から入力された発話の音声物理量を、DNNの第2モデル1221であって第1モデル1211と性質が異なる第2モデル1221用いて話者性特徴量に非線形変換することで、第1の音響特徴量を算出する。より具体的には、第2の特徴量算出部122Aは、DNNの第2モデル1221を用いて、発話の音声物理量からx−Vectorと呼ばれる話者固有の特徴である第2の音響特徴量を算出する。
類似度計算部13Aは、認識対象の話者についての1以上の話者性特徴量と、特徴量算出部12により算出された2以上の音響特徴量の各々との類似度を計算する。本変形例でも、2以上の類似度が同じ計算手法により計算される場合について説明するが、2以上の類似度のうちの少なくとも2つの類似度が異なる計算手法により計算されてもよい。
第1の類似度計算部131Aは、第1の特徴量算出部121Aにより算出された第1の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量162との類似度を計算する。図7に示す例でも、話者性特徴量162は、認識対象の話者であるAさんの話者性特徴量である。本変形例では、第1の類似度計算部131Aは、第1の音響特徴量と話者性特徴量162とのベクトル間角度を示すコサイン距離を、第1の類似度として計算する。
第2の類似度計算部132Aは、第2の特徴量算出部122Aにより算出された第2の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量162との類似度を計算する。本変形例では、第2の類似度計算部132Aは、第2の音響特徴量と話者性特徴量162とのベクトル間角度を示すコサイン距離を、第2の類似度として計算する。
以上のように、本変形例によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置11Aを実現することができる。より具体的には、本変形例に係る話者認識装置11Aは、上述したように、異なる学習データを用いて学習された少なくとも2つのモデルを用いて発話の音声物理量から話者性特徴量を算出することで、少なくとも2つの性質の異なる音響特徴量を得ることができる。そして、本変形例に係る話者認識装置11Aは少なくとも2つの性質の異なる音響特徴量から計算された登録話者との2以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、類似度を合成することで得た合成値を用いることで、より正確に登録話者と一致するか否かを判定することができる。
上記の実施の形態及び変形例1では、少なくとも2つの性質の異なる音響特徴量から計算された登録話者との2以上の類似度を合成する場合について説明したが、これに限らない。性質が同じである(性質が異ならない)少なくとも2つの音響特徴量から、登録話者との性質の異なる2以上の類似度を合成する場合も同様に、雑音が混入する環境下であっても話者認識の精度を向上することができる。以下、この場合を変形例2として説明する。なお、以下では、上記の実施の形態及び変形例2と異なる点を中心に説明する。
図9は、本実施の形態の変形例2に係る話者認識装置11Bの具体的構成の一例を示すブロック図である。図3と同様の要素には同一の符号を付しており、詳細な説明は省略する。
特徴量算出部12Bは、発話の音声物理量を、2以上の話者性特徴量に変換することで、当該2以上の音響特徴量を算出する。
類似度計算部13Bは、認識対象の話者についての1以上の話者性特徴量と、特徴量算出部12により算出された2以上の音響特徴量の各々との類似度を計算する。以下では、2以上の類似度の性質のうちの少なくとも2つの類似度の性質が異なる場合について説明する。
第1の類似度計算部131Bは、記憶部16に記憶されている学習済み計算用モデル163を用いて、第1の特徴量算出部121により算出された第1の音響特徴量と、認識対象の話者であるAさんの話者性特徴量との類似度である第1の類似度を計算する。より具体的には、第1の類似度計算部131Bは、記憶部16に記憶されている学習済み計算用モデルを用いて、第1の特徴量算出部121により算出された第1の音響特徴量から、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)により、第1の類似度を計算する。
第2の類似度計算部132Bは、第1の特徴量算出部121により算出された第1の音響特徴量と、記憶部16に記憶されている認識対象の話者の話者性特徴量161との類似度を計算する。本変形例では、第2の類似度計算部132Bは、第1の音響特徴量と話者性特徴量161とのベクトル間角度を示すコサイン距離を、第2の類似度として計算する。
以上のように、本変形例によれば、雑音が混入する環境下であっても話者認識の精度を向上することができる話者認識装置11Bを実現することができる。より具体的には、本変形例に係る話者認識装置11Bは、上述したように、登録話者との2以上の類似度であって性質の異なる2以上の類似度を合成して、登録話者と一致するか否かを判定する。これにより、雑音が混入することにより正確な音響特徴量を計算できない場合でも、性質が異なる類似度を合成することで得た合成値を用いることで、より正確に登録話者と一致するか否かを判定することができる。
上記の実施の形態等では、2以上の音響特徴量と2以上の類似度の一例として、2つの音響特徴量から2つの類似度を計算して合成することについて説明したが、これに限らない。本実施例では、2以上の音響特徴量と2以上の類似度の一例として3つの音響特徴量から3つの類似度を計算して合成する場合について説明する。なお、以下では、上記の実施の形態等と異なる点を中心に説明する。
図10は、本実施の形態の実施例に係る話者認識装置11Cの具体的構成の一例を示すブロック図である。図3、図7及び図9と同様の要素には同一の符号を付しており、詳細な説明は省略する。
特徴量算出部12Cは、発話の音声物理量を、3以上の話者性特徴量に変換することで、当該3以上の音響特徴量を算出する。
類似度計算部13Cは、認識対象の話者についての複数の話者性特徴量と、特徴量算出部12Cにより算出された3つの音響特徴量の各々との類似度を計算する。
合成部14は、類似度計算部13により計算された2以上の類似度を合成する。本実施例では、合成部14は、第1の類似度(コサイン距離)と、第2の類似度(コサイン距離)と、第1の類似度(PLDA)とのそれぞれの平均が0かつ分散が1となるように正規化して加重和を計算することで、3つの類似度を合成する。
10 音声取得部
11、11A、11B、11C、91 話者認識装置
12、12A、12B、12C、92 特徴量算出部
13、13A、13B、13C、93 類似度計算部
14 合成部
15、94 判定部
16、96 記憶部
17 学習部
101 音声入力部
102 音声物理量計算部
121、121A 第1の特徴量算出部
122、122A 第2の特徴量算出部
131、131A、131B 第1の類似度計算部
132、132A、132B 第2の類似度計算部
161、162 話者性特徴量
163 学習済み計算用モデル
171 第1学習データ
172 第2学習データ
1200 DNNモデル
1211 第1モデル
1221 第2モデル
Claims (11)
- 取得された発話の音声について2以上の音響特徴量を算出する特徴量算出部と、
認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出部により算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算部と、
前記類似度計算部により計算された2以上の類似度を合成する合成部と、
前記合成部により得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定部と、を備え、
前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる、
話者認識装置。 - 前記2以上の類似度のうちの少なくとも2つの類似度は、性質が異なる第1の類似度と第2の類似度であり、
前記第1の類似度は、前記話者の話し方を含む前記話者の特徴量について学習された学習済み計算用モデルであって前記1以上の話者性特徴量のうちの第1の話者性特徴量としての学習済み計算用モデルを用いて、前記特徴量算出部により算出された第1の音響特徴量から、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)により計算され、
前記第2の類似度は、前記1以上の話者性特徴量のうちの第2の話者性特徴量と、前記特徴量算出部により算出された第2の音響特徴量とのコサイン距離として計算される、
請求項1に記載の話者認識装置。 - 前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量は、性質が異なる第1の音響特徴量と第2の音響特徴量であり、
前記第1の音響特徴量は、前記特徴量算出部により、前記発話の音声物理量をi−Vectorを用いて線形変換されることで算出され、
前記第2の音響特徴量は、前記特徴量算出部により、前記音声物理量をDNN(Deep Neural Network)を用いて非線形変換されることで算出される、
請求項1または2に記載の話者認識装置。 - 前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量は、性質が異なる第1の音響特徴量と第2の音響特徴量であり、
前記第1の音響特徴量は、前記特徴量算出部により、DNNの第1モデルを用いて非線形変換されることで算出され、
前記第2の音響特徴量は、前記特徴量算出部により、DNNの第2モデルであって前記第1モデルと性質が異なる第2モデルを用いて非線形変換されることで算出され、
前記第1モデルは、閾値以上の雑音環境下における前記認識対象の話者の音声を含む第1学習データを用いて学習されたモデルであり、
前記第2モデルは、前記閾値未満の雑音環境下における前記認識対象の話者の音声を含む第2学習データを用いて学習されたモデルである、
請求項1または2に記載の話者認識装置。 - 前記第1の音響特徴量と前記第2の音響特徴量とは、同一である、
請求項2に記載の話者認識装置。 - 前記合成部は、前記類似度計算部により計算された類似度それぞれを示すスコアを足し合わせることにより、前記2以上の類似度を合成する、
請求項1〜5のいずれか1項に記載の話者認識装置。 - 前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して足し合わせることにより、前記2以上の類似度を合成する、
請求項1〜5のいずれか1項に記載の話者認識装置。 - 前記合成部は、前記類似度計算部により計算された類似度それぞれの平均が0かつ分散が1となるように正規化して加重和を計算することで、前記2以上の類似度を合成する、
請求項1〜5のいずれか1項に記載の話者認識装置。 - 前記合成部は、前記加重和を、取得された前記発話の時間的な長さが長いほど大きな係数をかけて計算する、
請求項8に記載の話者認識装置。 - コンピュータが行う話者認識方法であって、
取得された発話の音声について2以上の音響特徴量を算出する特徴量算出ステップと、
認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算された2以上の類似度を合成する合成ステップと、
前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとを含み、
前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる、
話者認識方法。 - 取得された発話の音声について2以上の音響特徴量を算出する特徴量算出ステップと、
認識対象の話者についての1以上の話者性特徴量と、前記特徴量算出ステップにおいて算出された前記2以上の音響特徴量の各々との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算された2以上の類似度を合成する合成ステップと、
前記合成ステップにおいて得られた合成値に基づき、前記発話の話者が前記認識対象の話者であるか否かを判定する判定ステップとをコンピュータに実行させ、
前記2以上の音響特徴量のうちの少なくとも2つの音響特徴量の性質、及び、前記2以上の類似度のうちの少なくとも2つの類似度の性質、のうちの少なくとも一方は、異なる、
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/576,170 US11222641B2 (en) | 2018-10-05 | 2019-09-19 | Speaker recognition device, speaker recognition method, and recording medium |
CN201910930409.6A CN111009248B (zh) | 2018-10-05 | 2019-09-29 | 说话者识别装置、说话者识别方法及记录介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862741712P | 2018-10-05 | 2018-10-05 | |
US62/741,712 | 2018-10-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060757A true JP2020060757A (ja) | 2020-04-16 |
JP7326033B2 JP7326033B2 (ja) | 2023-08-15 |
Family
ID=70220828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019107341A Active JP7326033B2 (ja) | 2018-10-05 | 2019-06-07 | 話者認識装置、話者認識方法、及び、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7326033B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021187146A1 (ja) | 2020-03-16 | 2021-09-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム |
WO2022149384A1 (ja) * | 2021-01-05 | 2022-07-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 識別装置、識別方法、および、プログラム |
WO2023182015A1 (ja) * | 2022-03-22 | 2023-09-28 | パナソニックIpマネジメント株式会社 | 音声認証装置および音声認証方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029495A (ja) * | 1998-05-07 | 2000-01-28 | Cselt Spa (Cent Stud E Lab Telecomun) | ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置 |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
US20140081640A1 (en) * | 2008-10-24 | 2014-03-20 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
JP2017530387A (ja) * | 2015-03-20 | 2017-10-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 人工知能に基づく声紋ログイン方法と装置 |
JP2018508799A (ja) * | 2015-12-30 | 2018-03-29 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 声紋認証処理方法及び装置 |
-
2019
- 2019-06-07 JP JP2019107341A patent/JP7326033B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029495A (ja) * | 1998-05-07 | 2000-01-28 | Cselt Spa (Cent Stud E Lab Telecomun) | ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置 |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
US20140081640A1 (en) * | 2008-10-24 | 2014-03-20 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
JP2017530387A (ja) * | 2015-03-20 | 2017-10-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 人工知能に基づく声紋ログイン方法と装置 |
JP2018508799A (ja) * | 2015-12-30 | 2018-03-29 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 声紋認証処理方法及び装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021187146A1 (ja) | 2020-03-16 | 2021-09-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム |
WO2022149384A1 (ja) * | 2021-01-05 | 2022-07-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 識別装置、識別方法、および、プログラム |
WO2023182015A1 (ja) * | 2022-03-22 | 2023-09-28 | パナソニックIpマネジメント株式会社 | 音声認証装置および音声認証方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7326033B2 (ja) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
JP6596376B2 (ja) | 話者識別方法及び話者識別装置 | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
Tiwari | MFCC and its applications in speaker recognition | |
KR20200012963A (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
US11222641B2 (en) | Speaker recognition device, speaker recognition method, and recording medium | |
WO2017218465A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US11315550B2 (en) | Speaker recognition device, speaker recognition method, and recording medium | |
JP2020027193A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP7326033B2 (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
Barai et al. | Closed-set speaker identification using VQ and GMM based models | |
Sahu et al. | A study on automatic speech recognition toolkits | |
US20210056955A1 (en) | Training method, speaker identification method, and recording medium | |
CN112420021A (zh) | 学习方法、说话者识别方法以及记录介质 | |
CN111009248B (zh) | 说话者识别装置、说话者识别方法及记录介质 | |
KR20110071742A (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
Jagtap et al. | Speaker verification using Gaussian mixture model | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
WO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7326033 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |