JP7388239B2

JP7388239B2 - 照合装置、照合方法、および、照合プログラム

Info

Publication number: JP7388239B2
Application number: JP2020028867A
Authority: JP
Inventors: 直弘俵; 厚徳小川; 具治岩田; マークデルクロア; 哲司小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2023-11-29
Anticipated expiration: 2040-02-21
Also published as: JP2021135313A

Description

本発明は、照合装置、照合方法、および、照合プログラムに関する。

発話内容が異なる２つの音声発話が、同じ話者による音声か異なる話者による音声かを識別する話者照合のタスクは、音声認識を活用した自動議事録作成システムや、音声による認証等への応用が期待される。

話者照合では、まず、入力音声および予め登録された照合用音声それぞれの特徴量（話者ベクトル）を抽出し、抽出した特徴量の類似度に基づいて、２つの音声発話が同じ話者による音声か、異なる話者による音声かを判定する。

上記の話者照合と同様に、話者ベクトルを利用するタスクとして、話者認識が知られている。話者認識は、学習用に与えられた複数話者の音声から話者ベクトルを抽出し、その話者ベクトルを分類するモデルを学習させておき、学習後のモデルを用いて、入力された音声信号がどの話者によるものかを認識する。

近年、ニューラルネットワーク（以下、適宜ＮＮと略す）を用いた話者認識技術として、セグメント単位（発話単位）の話者認識の手法（非特許文献１参照）が知られている。上記の手法は、音声信号を話者ベクトルに変換するＮＮに、話者認識のＮＮと音素認識を行うＮＮとを連結し、話者認識ＮＮの出力と音素認識ＮＮの出力との両方が教師データに近づくように各ＮＮのパラメータを同時に学習させる手法である。この手法によれば、話者認識性能が従来よりも高くなることが開示されている。

Liu et al., "Speaker Embedding Extraction with Phonetic Information"，arXivpreprint arXiv:1804.04862, 2018.

ここで、例えば、スマートスピーカを経由した音声による機器操作等においては、非常に短時間の発話から発話者の照合を行うことが要求される場合がある。非特許文献１等に記載の手法は、発話単位で話者ベクトルを抽出し、話者認識を行うことを前提とした手法であるので、充分に長い時間の発話については話者認識の性能が高まる一方で、短時間の発話については話者認識の性能が低下するという問題があった。そこで、本発明は、前記した問題を解決し、短時間の発話について話者照合の精度を向上させることを課題とする。

前記した課題を解決するため、本発明は、音声信号をフレームごとの特徴量に変換する第１のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第２のニューラルネットワークとを備えた第１のモデルと、前記第１のモデルに第１の音声信号と第２の音声信号とを入力する入力部と、前記第１のモデルにおける、前記第２のニューラルネットワークの中間層または前記第１のニューラルネットワークから出力される、前記第１の音声信号および前記第２の音声信号それぞれの特徴量に基づき、前記第１の音声信号の話者が、前記第２の音声信号の話者と同じか否かを示す照合結果を出力する照合部とを備え、前記第１のモデルは、前記第１のニューラルネットワークと、前記第２のニューラルネットワークと、前記第１のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第３のニューラルネットワークとを備える第２のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第２のモデルの学習を行う際、前記第２のニューラルネットワークによる出力結果は前記正解データに近づき、前記第３のニューラルネットワークによる出力結果は前記正解データに近づかないように学習させたものであることを特徴とする。

本発明によれば、短時間の発話について話者照合の精度を向上させることができる。

図１は、照合装置の構成例を示す図である。図２は、図１の照合部による話者照合を説明するための図である。図３は、照合装置の処理手順の例を示すフローチャートである。図４は、図３のＳ２の処理を詳細に説明するフローチャートである。図５は、照合装置の構成例を示す図である。図６は、実験条件を示す図である。図７は、実験結果を示す図である。図８は、実験結果を示す図である。図９は、照合プログラムを実行するコンピュータの例を示す図である。

以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、以下に説明する実施形態に限定されない。

［構成］
図１を用いて本実施形態の照合装置の構成例を説明する。照合装置１０は、入力部１１と、出力部１２と、記憶部１３と、制御部１４とを備える。

入力部１１は、制御部１４が各種処理を行う際に用いるデータの入力を受け付ける。例えば、入力部１１は、話者認識モデル（話者認識部１４１）の学習に用いる教師データの入力を受け付ける。出力部１２は、制御部１４が行った処理の結果を出力する。例えば、出力部１２は、照合部１４６による音声の話者の照合結果等を出力する。

記憶部１３は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、照合装置１０を動作させるプログラムや、当該プログラムの実行中に使用されるデータなどが記憶される。例えば、記憶部１３は、話者認識部１４１の学習に用いる教師データを記憶する。また、記憶部１３は、話者認識部１４１に設定されるパラメータの値等を記憶する。

教師データは、複数の話者の音声信号について、当該音声信号の示す音素および当該音声信号の話者（正解データ）を対応付けたデータである。この教師データは、学習部１４５が話者認識部１４１の各ＮＮの学習を行う際に用いられる。

制御部１４は、照合装置１０全体の制御を司る。制御部１４は、例えば、話者認識部１４１の学習等を行う。

制御部１４は、話者認識部１４１と、学習部１４５と、照合部１４６とを備える。

話者認識部１４１は、話者認識モデルに基づき、入力された音声データの話者の認識を行う。話者認識部１４１は、第１のＮＮ１４２と、第２のＮＮ１４３と、第３のＮＮ１４４とを備える。

第１のＮＮ１４２は、入力された音声信号を、当該音声信号を構成するフレームごとの中間特徴量に変換する。なお、フレームの長さは、例えば、10msである。

第２のＮＮ１４３は、第１のＮＮ１４２から出力されたフレーム単位の中間特徴量に基づき、各フレームの話者の認識を行い、各フレームの話者の認識結果を出力する。例えば、第２のＮＮ１４３は、第１のＮＮ１４２から出力されたフレーム単位の中間特徴量に基づき、各フレームの話者がどの話者であるかを推定し、推定した話者のIDを出力する。

第３のＮＮ１４４は、第１のＮＮ１４２から出力されたフレーム単位の中間特徴量に基づき、各フレームの音素の認識を行い、各フレームの音素の認識の結果を出力する。

学習部１４５は、教師データを用いて話者認識部１４１を構成する第１のＮＮ１４２、第２のＮＮ１４３および第３のＮＮ１４４の学習を行う。学習部１４５は、更新部１４５１と更新制御部１４５２とを備える。

更新部１４５１は、教師データを用いて話者認識部１４１を構成する第１のＮＮ１４２、第２のＮＮ１４３および第３のＮＮ１４４それぞれのパラメータを更新する。例えば、更新部１４５１は、第２のＮＮ１４３の出力と教師データにおける正解データとの損失（距離）が小さくなり、かつ、第３のＮＮ１４４の出力と教師データにおける正解データとの損失（距離）が大きくなるように、各ＮＮのパラメータを更新する。更新された各ＮＮのパラメータの値は、例えば、記憶部１３に記憶される。

例えば、更新部１４５１は、第２のＮＮ１４３の出力と正解データとの損失（L_s）と、第３のＮＮ１４４の出力と正解データとの損失（L_p）とを用いて、以下の式（１）に基づき更新対象のパラメータθ_fを更新する。

式（１）において、μとλは予め設定する学習重みであり、いずれも正の定数である。更新部１４５１が、上記の式（１）に基づき、パラメータを更新すると、結果として、パラメータは、L_sに対して減少し、L_pに対して増加する値で更新されることになる。

更新制御部１４５２は、所定の条件を満たすまで、教師データを用いた第１のＮＮ１４２、第２のＮＮ１４３および第３のＮＮ１４４による演算と、当該演算の結果に基づく更新部１４５１による各ＮＮのパラメータの更新処理とを繰り返し実行させる。なお、上記の所定の条件は、例えば、各ＮＮのパラメータの更新回数が所定の繰り返し回数に達したこと、各ＮＮのパラメータの更新量が所定の閾値未満となったこと等である。所定の条件は、各ＮＮの学習が充分に行われた状態になったことを示す条件であれば、上記の条件に限定されない。

照合部１４６は、入力された音声信号の話者の照合を行う。例えば、照合部１４６は、学習部１４５による学習後の話者認識部１４１の第２のＮＮ１４３の中間層から出力される特徴量を用いて、入力された音声信号の話者の照合を行う。

上記の話者の照合処理を、図２を用いて説明する。なお、図２に示す第１のＮＮ１４２および第２のＮＮ１４３は、学習部１４５による学習後の話者認識部１４１における第１のＮＮ１４２および第２のＮＮ１４３である。まず、第１のＮＮ１４２は、入力部１１（図１参照）経由で入力された音声信号（第１の音声信号）についてフレーム単位で中間特徴量に変換する。また、第１のＮＮ１４２は、入力部１１経由で入力された照合用の音声信号（第２の音声信号）についてフレーム単位で中間特徴量に変換する。

第２のＮＮ１４３は、第１のＮＮ１４２から出力された、入力された音声信号の中間特徴量に基づき、入力された音声信号の話者の識別処理を行う。また、第２のＮＮ１４３は、第１のＮＮ１４２から出力された、照合用の音声信号の中間特徴量に基づき、照合用の音声信号の話者の識別処理を行う。

ここで、照合部１４６は、上記の第２のＮＮ１４３の中間層が出力する、入力された音声信号の特徴量と照合用の音声信号の特徴量とを取得する。このとき、入力された音声信号が複数のフレームからなる場合、照合部１４６は、上記の入力された音声信号の特徴量の平均ベクトルと照合用の音声信号の特徴量の平均ベクトルを算出し、それをそれぞれの音声信号の特徴量とする。そして、照合部１４６は、入力された音声信号の特徴量と、照合用の音声信号の特徴量との類似度に基づいて、入力された音声信号の話者と照合用音声信号の話者とが同じであるか否かを示す照合結果を出力する。例えば、上記の類似度が所定の閾値以上であれば、照合部１４６は、入力された音声信号の話者が、照合用の音声信号の話者と同じであると判定する。一方、類似度が所定の閾値未満であれば、照合部１４６は、入力された音声信号の話者が、照合用の音声信号の話者とは異なると判定する。そして、照合部１４６は、上記の判定結果を照合結果として出力する。

［処理手順］
次に、図３および図４を用いて、照合装置１０の処理手順を説明する。まず、照合装置１０は、教師データを用いて話者認識モデルの学習を行う（Ｓ１）。つまり、照合装置１０の学習部１４５は、教師データを用いて、話者認識部１４１の第２のＮＮ１４３の出力と、教師データにおける正解データとの損失が小さくなり、かつ、話者認識部１４１の第３のＮＮ１４４の出力と教師データにおける正解データとの損失が大きくなるように、話者認識部１４１の各ＮＮのパラメータを更新する。その後、照合装置１０は、学習後の話者認識モデルを用いた話者の照合を行う（Ｓ２）。例えば、照合装置１０の照合部１４６は、学習後の話者認識部１４１における第２のＮＮ１４３の中間層から出力される特徴量を用いて、話者の照合を行う。

図４を用いて、図３のＳ２における話者の照合処理を詳細に説明する。例えば、学習後の話者認識部１４１は、入力部１１経由で入力された音声信号と照合用の音声信号の入力を受け付ける（図４のＳ２１）。その後、学習後の話者認識部１４１の第１のＮＮ１４２は、入力された音声信号の中間特徴量を出力し、また、照合用の音声信号の中間特徴量を出力する。次に、学習後の話者認識部１４１の第２のＮＮ１４３は、第１のＮＮ１４２から出力された、入力された音声信号の中間特徴量に基づき、入力された音声信号の話者の認識処理を行う。また、第２のＮＮ１４３は、第１のＮＮ１４２から出力された照合用の音声信号の中間特徴量に基づき、照合用の音声信号の話者の認識処理を行う。ここで、照合部１４６は、第２のＮＮ１４３が上記の話者の認識処理を行う際、第２のＮＮ１４３の中間層から出力される、入力された音声信号の特徴量および照合用の音声信号の特徴量を取得する（Ｓ２２）。

Ｓ２２の後、照合部１４６は、Ｓ２２で取得した、入力された音声信号の特徴量と照合用の音声信号との類似度を計算する（Ｓ２３）。そして、計算した類似度が所定の閾値以上であれば（Ｓ２４でＹｅｓ）、照合部１４６は、入力された音声信号の話者は照合用の音声信号の話者と同じと判定し、その判定の結果を出力する（Ｓ２５）。一方、計算した類似度が所定の閾値未満であれば（Ｓ２４でＮｏ）、照合部１４６は、入力された音声信号の話者は照合用の音声信号の話者とは異なると判定し、その判定の結果を出力する（Ｓ２６）。

このようにすることで、照合装置１０は、学習後の話者認識部１４１の第２のＮＮ１４３の中間層から出力される特徴量を用いて、話者照合を行うことができる。

［その他の実施形態］
なお、照合部１４６は、学習後の話者認識部１４１の第２のＮＮ１４３の中間層から出力された音声信号の特徴量を用いて話者照合を行うこととしたがこれに限定されない。例えば、図１の破線矢印に示すように学習後の話者認識部１４１の第１のＮＮ１４２から出力された音声信号の特徴量を用いて話者照合を行ってもよい。

また、照合装置１０で学習された話者認識部１４１の第１のＮＮ１４２および第２のＮＮ１４３は、当該照合装置１０により用いられてもよいし、他の装置により用いられてもよい。

例えば、照合装置１０で学習された第１のＮＮ１４２および第２のＮＮ１４３が、他の照合装置において用いられる場合、例えば、図５に示す構成となる。

図５に示す照合装置１００は、入力部１１と、出力部１２と、制御部１４ａとを備える。制御部１４ａは、照合装置１０により学習された第１のＮＮ１４２および第２のＮＮ１４３と、照合部１４６とを備える。

照合装置１００の入力部１１において入力された音声信号と、照合用の音声信号とを受け付けると、学習後の第１のＮＮ１４２がそれぞれの音声信号の特徴量を出力し、第２のＮＮ１４３は第１のＮＮ１４２から出力された音声信号の特徴量に基づき、それぞれの音声信号の話者の認識処理を行う。ここで照合部１４６は、第２のＮＮ１４３が音声信号の話者の認識処理を行う際、当該第２のＮＮ１４３の中間層から出力される音声信号の特徴量を用いて、入力された音声信号の話者が、照合用の音声信号の話者と同じか否かの照合を行う。そして、照合部１４６は照合の結果を出力部１２へ出力する。

上記のように学習後の第１のＮＮ１４２および第２のＮＮ１４３を照合装置１００が用いる場合、照合装置１０は照合部１４６を含まない構成としてもよい。

［効果］
照合装置１０が学習対象とする話者認識部１４１のＮＮの構成は、非特許文献１に記載のＮＮと同様に、音声信号を中間特徴量に変換するＮＮ（第１ＮＮ）に、話者認識のＮＮ（第２ＮＮ）と音素認識を行うＮＮ（第３ＮＮ）とを連結したものである。しかし、照合装置１０が学習対象とする話者認識部１４１と非特許文献１とでは、以下の点において相違する。

第１に、照合装置１０による学習対象の第１のＮＮ１４２は、セグメント単位の音声信号をフレーム単位で中間特徴量に変換するのに対し、非特許文献１に記載の技術においては、セグメント単位で、つまり、第１のＮＮ１４２よりも長い単位の音声信号を入力として中間特徴量に変換する点が異なる。

第２に、非特許文献１では、話者認識のＮＮの出力と音素認識を行うＮＮの出力とが、いずれも正解データに近づくように学習する。これに対して、照合装置１０は、第２のＮＮ１４３については正解データとの損失（距離）が小さくなるが、第３のＮＮ１４４と正解データとの損失（距離）が大きくなるように、つまり、音素認識のタスクについては不正解となる方向に、パラメータを学習させる点が異なる。

非特許文献１に記載の技術は、話者認識モデルについて話者認識と音素認識の両方が正解データに近づくようにパラメータを学習させる。この結果、学習後の話者認識モデルの第１ＮＮから出力される中間特徴量（話者ベクトル）は、話者認識に適した特徴を含み、かつ、音素認識にも適した特徴を含むようなものが抽出されるようになる。

一方、照合装置１０が目的とする話者照合のタスクは、入力される２つの音声信号が同じ話者によるものか否かを判定するタスクであり、これら２つの音声信号の内容が異なることが前提となる。ここで、音声信号の内容が異なるということは、各音声に含まれる「音素が何であるか」という情報は、話者照合においては不要な情報と言える。

ところが、非特許文献１に記載の技術は、音素に係る情報が特徴として含まれるように第１ＮＮを学習させてしまう。結果として、非特許文献１に記載の技術は、特に短い発話においては音素の特徴が強く表出され、話者の照合に必要な特徴が充分に得られないため、学習後のモデルの話者認識や話者照合の性能は低下すると考えられる。

そこで、照合装置１０では、学習部１４５において、音素の特徴が含まれにくくなるように、話者認識部１４１の各ＮＮのパラメータを学習させる。これにより、学習後の話者認識部１４１の第１のＮＮ１４２および第２のＮＮ１４３は短い時間区間の発話から、話者の音素に依存しない特性を効率的に抽出することができるようになる。その結果、照合装置１０は、話者照合タスクの精度向上に資する中間特徴量の抽出が可能となることが期待できる。

［実験結果］
次に、照合装置１０により学習された第１のＮＮ１４２および第２のＮＮ１４３を用いた話者照合の実験結果を説明する。本実験における実験条件は、図６に示すとおり、教師データの発話者数は、2620人、発話数は2.8M、発話のトータル時間は960hであり、実験データの発話者数は、40人、発話数は2.6k、発話のトータル時間は5.3hである。それぞれのデータの特徴量は13次元のMFCCであり、音素は39音素である。また、評価方法は、各発話の音素セグメントの話者ベクトルを算出し、得られた話者ベクトル同士の類似度をProbabilistic Linear Discriminant Analysis（PLDA）で算出した。また、話者照合の精度はEqual Error Rate（EER）で評価した。

図７および図８に実験結果を示す。なお、以下における「マルチタスク学習」とは、話者認識モデルにおける、話者認識を行うＮＮおよび音素認識を行うＮＮそれぞれの出力データが教師データの示す正解データに近づくように学習を行うことである。また、「敵対的学習」とは、話者認識モデルにおける、話者認識を行うＮＮの出力データは教師データの示す正解データに近づくように学習するが、音素認識を行うＮＮの出力データは教師データの示す正解データに近づかないように学習することである。

本実験では比較例として、図７の（１）～（４）に示す話者認識モデルのＮＮを用いて話者照合を行った。なお、話者認識モデルはいずれも、音声信号から中間特徴量を出力するＮＮ、当該中間特徴量に基づき話者認識を行うＮＮおよび当該音素認識を行うＮＮを備えるものとする。また、（５）フレーム単位で処理を行うＮＮに敵対的学習を実施（FRM-AT）は、本実施形態の照合装置１０による学習を実施したモデルに相当する。

（１）セグメント（発話）単位で処理を行うＮＮにマルチタスク学習を実施（SEG-MT）
（２）セグメント単位で処理を行うＮＮに敵対的学習を実施（SEG-AT）
（３）フレーム単位で処理を行うＮＮ（FRM）
（４）フレーム単位で処理を行うＮＮにマルチタスク学習を実施（FRM-MT）

図７に示すように、セグメント単位で処理を行うＮＮを備えるモデルよりも、フレーム単位で処理を行うＮＮを備えるモデルの方が、フレーム単位での話者照合の精度が高くなることが確認できた。また、フレーム単位で処理を行うＮＮに対し、マルチタスク学習を行うよりも、敵対的学習を行った方が、フレーム単位の話者照合が高くなることが確認できた。

また、照合対象の音声信号の発話長と、上記の（１）～（５）に示すモデルによる話者照合の精度との関係を、図８に示す。図８に示すように、発話長が1400ms以下の発話について、（５）フレーム単位のＮＮに敵対的学習を実施したモデル（FRM-AT）の方が、（１）～（４）に示すモデルによりも話者照合の精度が高いことが確認できた。

［プログラム］
図９を用いて、上記のプログラム（照合プログラム）を実行するコンピュータの一例を説明する。図９に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図９に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した記憶部１３は、例えばハードディスクドライブ１０９０やメモリ１０１０に装備される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記の照合プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０照合装置
１１入力部
１２出力部
１３記憶部
１４制御部
１４１話者認識部
１４２第１のＮＮ
１４３第２のＮＮ
１４４第３のＮＮ
１４５学習部
１４６照合部
１４５１更新部
１４５２更新制御部

Claims

音声信号をフレームごとの特徴量に変換する第１のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第２のニューラルネットワークとを備えた第１のモデルと、前記第１のモデルに第１の音声信号と第２の音声信号とを入力する入力部と、
前記第１のモデルにおける、前記第２のニューラルネットワークの中間層または前記第１のニューラルネットワークから出力される、前記第１の音声信号および前記第２の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第１の音声信号の話者が、前記第２の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第１の音声信号の話者は、前記第２の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合部と
を備え、
前記第１のモデルは、前記第１のニューラルネットワークと、前記第２のニューラルネットワークと、前記第１のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第３のニューラルネットワークとを備える第２のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第２のモデルの学習を行う際、前記第２のニューラルネットワークによる前記フレームごとの話者の認識結果と前記正解データとの距離が小さくなり、かつ、前記第３のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータが更新されたものであることを特徴とする照合装置。
前記照合部は、
前記入力された第１の音声信号および前記第２の音声信号が複数のフレームから構成される音声信号である場合、前記第１の音声信号および前記第２の音声信号それぞれについてフレームごとの特徴量の平均ベクトルを算出し、前記算出した平均ベクトルを、当該音声信号の特徴量として用いる
ことを特徴とする請求項１に記載の照合装置。
音声信号をフレームごとの特徴量に変換する第１のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第２のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第３のニューラルネットワークとを備える話者認識モデルについて、音声信号と、前記音声信号の示す音声の話者および当該音声信号の示す音素の正解データとを対応付けた教師データに基づき前記話者認識モデルの学習を行う際、前記第２のニューラルネットワークによる前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第３のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータを更新することにより、前記話者認識モデルの学習を行う学習部と、
前記学習後の前記第１のニューラルネットワークと前記第２のニューラルネットワークとを有する第１のモデルに、第１の音声信号と第２の音声信号とを入力する入力部と、
前記学習後の第１のモデルにおける、前記第２のニューラルネットワークの中間層または前記第１のニューラルネットワークから出力される、前記第１の音声信号および前記第２の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第１の音声信号の話者が、前記第２の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第１の音声信号の話者は、前記第２の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合部と
を備えることを特徴とする照合装置。
照合装置により実行される照合方法であって、
音声信号をフレームごとの特徴量に変換する第１のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第２のニューラルネットワークとを備えた第１のモデルに、第１の音声信号と第２の音声信号とを入力する入力ステップと、
前記第１のモデルにおける、前記第２のニューラルネットワークの中間層または前記第１のニューラルネットワークから出力される、前記第１の音声信号および前記第２の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第１の音声信号の話者が、前記第２の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第１の音声信号の話者は、前記第２の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合ステップと
を含み、
前記第１のモデルは、前記第１のニューラルネットワークと、前記第２のニューラルネットワークと、前記第１のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第３のニューラルネットワークとを備える第２のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第２のモデルの学習を行う際、前記第２のニューラルネットワークによる前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第３のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータが更新されたものである
ことを特徴とする照合方法。
音声信号をフレームごとの特徴量に変換する第１のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第２のニューラルネットワークとを備えた第１のモデルに、第１の音声信号と第２の音声信号とを入力する入力ステップと、
前記第１のモデルにおける、前記第２のニューラルネットワークの中間層または前記第１のニューラルネットワークから出力される、前記第１の音声信号および前記第２の音声信号それぞれの特徴量の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第１の音声信号の話者が、前記第２の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第１の音声信号の話者は、前記第２の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合ステップと
をコンピュータに実行させ、
前記第１のモデルは、前記第１のニューラルネットワークと、前記第２のニューラルネットワークと、前記第１のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第３のニューラルネットワークとを備える第２のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第２のモデルの学習を行う際、前記第２のニューラルネットワークによる前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第３のニューラルネットワークによる前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータが更新されたものである
ことを特徴とする照合プログラム。