JP7388239B2 - 照合装置、照合方法、および、照合プログラム - Google Patents
照合装置、照合方法、および、照合プログラム Download PDFInfo
- Publication number
- JP7388239B2 JP7388239B2 JP2020028867A JP2020028867A JP7388239B2 JP 7388239 B2 JP7388239 B2 JP 7388239B2 JP 2020028867 A JP2020028867 A JP 2020028867A JP 2020028867 A JP2020028867 A JP 2020028867A JP 7388239 B2 JP7388239 B2 JP 7388239B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- neural network
- speaker
- frame
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims description 63
- 238000000034 method Methods 0.000 title claims description 30
- 230000005236 sound signal Effects 0.000 claims description 123
- 238000013528 artificial neural network Methods 0.000 claims description 66
- 239000013598 vector Substances 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
図1を用いて本実施形態の照合装置の構成例を説明する。照合装置10は、入力部11と、出力部12と、記憶部13と、制御部14とを備える。
次に、図3および図4を用いて、照合装置10の処理手順を説明する。まず、照合装置10は、教師データを用いて話者認識モデルの学習を行う(S1)。つまり、照合装置10の学習部145は、教師データを用いて、話者認識部141の第2のNN143の出力と、教師データにおける正解データとの損失が小さくなり、かつ、話者認識部141の第3のNN144の出力と教師データにおける正解データとの損失が大きくなるように、話者認識部141の各NNのパラメータを更新する。その後、照合装置10は、学習後の話者認識モデルを用いた話者の照合を行う(S2)。例えば、照合装置10の照合部146は、学習後の話者認識部141における第2のNN143の中間層から出力される特徴量を用いて、話者の照合を行う。
なお、照合部146は、学習後の話者認識部141の第2のNN143の中間層から出力された音声信号の特徴量を用いて話者照合を行うこととしたがこれに限定されない。例えば、図1の破線矢印に示すように学習後の話者認識部141の第1のNN142から出力された音声信号の特徴量を用いて話者照合を行ってもよい。
照合装置10が学習対象とする話者認識部141のNNの構成は、非特許文献1に記載のNNと同様に、音声信号を中間特徴量に変換するNN(第1NN)に、話者認識のNN(第2NN)と音素認識を行うNN(第3NN)とを連結したものである。しかし、照合装置10が学習対象とする話者認識部141と非特許文献1とでは、以下の点において相違する。
次に、照合装置10により学習された第1のNN142および第2のNN143を用いた話者照合の実験結果を説明する。本実験における実験条件は、図6に示すとおり、教師データの発話者数は、2620人、発話数は2.8M、発話のトータル時間は960hであり、実験データの発話者数は、40人、発話数は2.6k、発話のトータル時間は5.3hである。それぞれのデータの特徴量は13次元のMFCCであり、音素は39音素である。また、評価方法は、各発話の音素セグメントの話者ベクトルを算出し、得られた話者ベクトル同士の類似度をProbabilistic Linear Discriminant Analysis(PLDA)で算出した。また、話者照合の精度はEqual Error Rate(EER)で評価した。
(2)セグメント単位で処理を行うNNに敵対的学習を実施(SEG-AT)
(3)フレーム単位で処理を行うNN(FRM)
(4)フレーム単位で処理を行うNNにマルチタスク学習を実施(FRM-MT)
図9を用いて、上記のプログラム(照合プログラム)を実行するコンピュータの一例を説明する。図9に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
11 入力部
12 出力部
13 記憶部
14 制御部
141 話者認識部
142 第1のNN
143 第2のNN
144 第3のNN
145 学習部
146 照合部
1451 更新部
1452 更新制御部
Claims (5)
- 音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークとを備えた第1のモデルと、前記第1のモデルに第1の音声信号と第2の音声信号とを入力する入力部と、
前記第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合部と
を備え、
前記第1のモデルは、前記第1のニューラルネットワークと、前記第2のニューラルネットワークと、前記第1のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える第2のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第2のモデルの学習を行う際、前記第2のニューラルネットワークによる前記フレームごとの話者の認識結果と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータが更新されたものであることを特徴とする照合装置。 - 前記照合部は、
前記入力された第1の音声信号および前記第2の音声信号が複数のフレームから構成される音声信号である場合、前記第1の音声信号および前記第2の音声信号それぞれについてフレームごとの特徴量の平均ベクトルを算出し、前記算出した平均ベクトルを、当該音声信号の特徴量として用いる
ことを特徴とする請求項1に記載の照合装置。 - 音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える話者認識モデルについて、音声信号と、前記音声信号の示す音声の話者および当該音声信号の示す音素の正解データとを対応付けた教師データに基づき前記話者認識モデルの学習を行う際、前記第2のニューラルネットワークによる前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータを更新することにより、前記話者認識モデルの学習を行う学習部と、
前記学習後の前記第1のニューラルネットワークと前記第2のニューラルネットワークとを有する第1のモデルに、第1の音声信号と第2の音声信号とを入力する入力部と、
前記学習後の第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合部と
を備えることを特徴とする照合装置。 - 照合装置により実行される照合方法であって、
音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークとを備えた第1のモデルに、第1の音声信号と第2の音声信号とを入力する入力ステップと、
前記第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合ステップと
を含み、
前記第1のモデルは、前記第1のニューラルネットワークと、前記第2のニューラルネットワークと、前記第1のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える第2のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第2のモデルの学習を行う際、前記第2のニューラルネットワークによる前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータが更新されたものである
ことを特徴とする照合方法。 - 音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークとを備えた第1のモデルに、第1の音声信号と第2の音声信号とを入力する入力ステップと、
前記第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合ステップと
をコンピュータに実行させ、
前記第1のモデルは、前記第1のニューラルネットワークと、前記第2のニューラルネットワークと、前記第1のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える第2のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第2のモデルの学習を行う際、前記第2のニューラルネットワークによる前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータが更新されたものである
ことを特徴とする照合プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020028867A JP7388239B2 (ja) | 2020-02-21 | 2020-02-21 | 照合装置、照合方法、および、照合プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020028867A JP7388239B2 (ja) | 2020-02-21 | 2020-02-21 | 照合装置、照合方法、および、照合プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135313A JP2021135313A (ja) | 2021-09-13 |
JP7388239B2 true JP7388239B2 (ja) | 2023-11-29 |
Family
ID=77661060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020028867A Active JP7388239B2 (ja) | 2020-02-21 | 2020-02-21 | 照合装置、照合方法、および、照合プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7388239B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10347241B1 (en) | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
JP2019159824A (ja) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
JP2019530888A (ja) | 2016-07-15 | 2019-10-24 | グーグル エルエルシー | 話者照合 |
JP2019219574A (ja) | 2018-06-21 | 2019-12-26 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
-
2020
- 2020-02-21 JP JP2020028867A patent/JP7388239B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019530888A (ja) | 2016-07-15 | 2019-10-24 | グーグル エルエルシー | 話者照合 |
JP2019159824A (ja) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
US10347241B1 (en) | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
JP2019219574A (ja) | 2018-06-21 | 2019-12-26 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
Non-Patent Citations (3)
Title |
---|
Shuai WANG et al.,On the Usage of Phonetic Information for Text-Independent Speaker Embedding Extraction,Interspeech 2019,オーストリア,International Speech Communication Association,2019年09月19日,pp. 1148-1152,doi: 10.21437/Interspeech.2019-3036 |
Zhong MENG et al.,Adversarial Speaker Verification,ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing, [online],IEEE,2019年04月17日,第6216-6220ページ,[2023年3月16日検索], <URL: https://ieeexplore.ieee.org/document/8682488> |
上西 遼大, 外2名,x-vectorに基づく話者照合における非線形帯域拡張法の評価,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2019年03月,第118巻、第497号,第347-352ページ,EA2018-158, SIP2018-164, SP2018-120 |
Also Published As
Publication number | Publication date |
---|---|
JP2021135313A (ja) | 2021-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10008209B1 (en) | Computer-implemented systems and methods for speaker recognition using a neural network | |
EP2048656B1 (en) | Speaker recognition | |
EP2216775B1 (en) | Speaker recognition | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
EP2189976A1 (en) | Method for adapting a codebook for speech recognition | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JP6336219B1 (ja) | 音声認識装置および音声認識方法 | |
US20200066280A1 (en) | Method and apparatus with speaker authentication and/or training | |
CN112542170A (zh) | 对话系统、对话处理方法和电子装置 | |
CN112074903A (zh) | 用于口语中的声调识别的系统和方法 | |
US11972751B2 (en) | Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
US11250860B2 (en) | Speaker recognition based on signal segments weighted by quality | |
US20090094022A1 (en) | Apparatus for creating speaker model, and computer program product | |
Soldi et al. | Short-Duration Speaker Modelling with Phone Adaptive Training. | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
KR102429656B1 (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
JP7388239B2 (ja) | 照合装置、照合方法、および、照合プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220525 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20220525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7388239 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |