JP6906067B2

JP6906067B2 - 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体

Info

Publication number: JP6906067B2
Application number: JP2019570559A
Authority: JP
Inventors: 元哲蔡; 健宗王; ▲寧▼ 程; 京肖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-08
Filing date: 2018-07-06
Publication date: 2021-07-21
Anticipated expiration: 2038-07-06
Also published as: CN108806696A; WO2019214047A1; US11322155B2; SG11202002083WA; US20200294509A1; JP2020524308A; CN108806696B

Description

本出願は、２０１８年５月０８日に中国特許庁に出願された、「声紋モデルを構築する方法、装置、コンピュータデバイス及び記憶媒体」と題された申請番号第２０１８１０４３３７９２Ｘ号に基づく優先権を主張し、その全ての内容は参照により本出願に組み込まれる。

本願は、コンピュータの技術分野に関し、特に、声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体に関する。

声紋は、電気音響装置により表示される口頭情報を搬送する音波スペクトルである。現代の科学研究によると、声紋の特徴は、特定性を有するだけでなく、相対的安定性も有する。成年になった後、人々の声は長期に渡って比較的安定である。声紋認識アルゴリズムは、音声スペクトルから抽出した種々の音声特徴を学習し、認識モデルを構築することで、話者を確認する。現在の声紋認識方法は、長い音声テキスト（話者の音声長さが１分以上）に対して効果が高いが、短い音声テキスト（話者の音声長さが１分未満、例えば２０秒程度）に対して、認識エラー率が比較的高い。
したがって、短い音声テキストの認識エラー率を低減できる声紋モデルをどのように構築するかは早急に解決すべき問題である。

本願の主な目的は、短い音声テキストの認識エラー率を低減する声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体を提供することである。

上記目的を達成するために、本願は、声紋モデルの構築方法を提供する。この方法は、
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するステップと、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめるステップと、
前記クラスタ構造の平均値と標準偏差を計算するステップと、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するステップと、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するステップであって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、ステップとを含む。

本願は、さらに声紋モデルを構築する装置を提供する。この装置は、
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出手段と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめるために用いられるクラスタ構造手段と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出手段と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル手段と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含む。

本願は、さらにコンピュータデバイスを提供する。このコンピュータデバイスは、コンピュータ読み取り可能な命令即ちコンピュータプログラムを記憶するメモリと、前記コンピュータ読み取り可能な命令を実行する際に上記の方法のステップを実現するプロセッサとを含む。

本願は、さらにコンピュータ読み取り可能な不揮発性の記憶媒体を提供する。このコンピュータ読み取り可能な不揮発性の記憶媒体にはコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、プロセッサによって実行されると上記の方法のステップを実現する。

本願の声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体は、ニューラルネットワークの深層トレーニングに基づいて、抽出した音声音響特徴からクラスタ構造を取得し、クラスタ構造を座標マッピング及び活性化関数算出することで、声紋モデルを取得し、声紋モデルの音声認識エラー率を低減することができる。

本願の実施形態による声紋モデルを構築する方法のフローチャートである。本願の実施形態による声紋モデルを構築する方法のステップＳ２のフローチャートである。本願の実施形態による声紋モデルを構築する方法のステップＳ２２のフローチャートである。本願の実施形態による声紋モデルを構築する方法のステップＳ５のフローチャートである。本願の実施形態による声紋モデルを構築する方法のステップＳ１のフローチャートである。本願の実施形態による声紋モデルを構築する方法のステップＳ１１のフローチャートである。本願の実施形態による声紋モデルを構築する方法のフローチャートである。本願の実施形態による声紋モデルを構築する方法のステップＳ１のフローチャートである。本願の実施形態による声紋モデルを構築する装置の構造概略図である。本願の実施形態による声紋モデルを構築する装置のクラスタ構造部の構造概略図である。本願の実施形態による声紋モデルを構築する装置のモデル部の構造概略図である。本願の実施形態による声紋モデルを構築する装置の抽出部の構造概略図である。本願の実施形態による声紋モデルを構築する装置の構造概略図である。本願の実施形態による声紋モデルを構築する装置の抽出部の構造概略図である。本願の実施形態によるコンピュータデバイスの構造を示すブロック図である。

図１を参照すると、本発明の実施形態は、声紋モデルを構築する方法を提供し、以下のステップを含む。
Ｓ１：入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する；
Ｓ２：複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめる；
Ｓ３：前記クラスタ構造の平均値と標準偏差を計算する；
Ｓ４：前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する；
Ｓ５：前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得し、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる。

上記ステップＳ１の説明のように、声紋は、電気音響装置により表示される口頭情報を搬送する音波スペクトルである。人間の言語の発生は、人体の言語中枢と発声器官との間の複雑な生理学的及び物理的プロセスである。人々が話すときに使用する発声器官（舌、歯、咽頭、肺、及び鼻腔）は、大きさや形状などで人によって著しく変わるため、いずれか２人の声紋は異なる。音声信号は、特定の情報アナログ信号が搭載されたもので、人が発した声信号から変換されたものである。人々の声紋はそれぞれであるため、同じ人が同じ言語を話して、その音声を変換して得られた音声信号も異なる。したがって、音声信号に含まれる音声音響特徴も異なる。音声音響特徴は、人が発した音声に含まれる声紋情報である。フレーム化とは、連続する音声信号を複数のセグメントに分けるものである。人々の通常の話速では、音素の継続時間が約５０〜２００ミリ秒であるため、フレーム長さは一般に５０ミリ秒未満とされる。微視的にみれば、十分に多い振動周期を含む必要がある。音声の周波数について、男声で１００ヘルツ程度、女声で２００ヘルツ程度であり、周期に換算すると、１０ミリ秒と５ミリ秒である。一般に１フレームには複数の周期が含まれるため、一般に少なくとも２０ミリ秒とされる。音声信号は、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。前記音声音響特徴は、前記音声セグメントの、メル周波数ケプストラム係数（ＭＦＣＣ）、知覚線形予測（ＰＬＰ）係数、フィルタバンク特徴（ＦｉｌｔｅｒＢａｎｋＦｅａｔｕｒｅ）などを有することができる。外見上、前記音声音響特徴は、前記音声セグメントの、元の、又は生の発話データであることもできる。対象ユーザの音声信号における音声音響特徴を抽出するのは、声紋モデルを構築する必要がある人が発声した音声信号を抽出し、非対象ユーザが発声した音声信号であれば抽出しない。音声音響特徴は、連続する音声信号から抽出した人の発話が含まれる音声信号であるので、連続する音声信号でもある。音声信号をフレーム化して、複数セグメントの音声信号を取得し、それぞれ各音声信号の音声音響特徴を抽出すると、複数の音声音響特徴を取得する。

上記ステップＳ２で説明したように、音声音響特徴は、フレーム化の音声信号から抽出され、音声信号であり、音声音響特徴を集計し計算しやすくするために、該音声信号をニューラルネットワークトレーニングモデルに入力して、音声音響特徴を集計して算出しやすくなる。クラスタ構造は１つ又は複数の音声音響特徴に対する集計と計算の結果であり、複数の音声音響特徴をまとめたときの共通特徴を表すことができる。

上記ステップＳ３で説明したように、複数の音声音響特徴をニューラルネットワークに基づいた深層学習モデルに入力した後、少なくとも１つのクラスタ構造ｘ１、ｘ２、ｘ１、…、ｘｎを出力し、クラスタ構造がｐ次元ベクトルであると想定すれば、ｘｎ＝（ｘｉ１，ｘｉ２，…，ｘｉｐ）^Ｔ（ｉ＝１，２，…，ｎ）。これらのクラスタ構造の平均値と標準偏差を計算する。クラスタ構造の平均値と標準偏差を取得する。ここで、複数のクラスタ構造の平均値を計算する方法は以下のとおりである。まず、式：

により、各成分の平均値を算出し、次に、式：ｘ０＝（ｘ１，ｘ２，…，ｘｊ）^Ｔに従って、ｐ次元の平均ベクトルを算出し、ｐ次元の平均ベクトルを組み合わせてクラスタ構造の平均値とする：Ｅ（ｘ）。複数のクラスタ構造の平均値を計算する式は以下のとおりである。Ｄ（ｘ）＝Ｅ｛［ｘ−Ｅ（ｘ）］［ｘ−Ｅ（ｘ）］^Ｔ｝。

上述のステップＳ４で説明したように、上述したＥ（ｘ）とＤ（ｘ）に対して、ａ級マッピングとｂ級マッピングを行う。ここで、ａ級マッピングは、クラスタ構造の平均値と標準偏差を座標変換し、ｂ級マッピングはクラスタ構造の平均値と標準偏差を活性化関数で算出して非線形結果、すなわち声紋モデルを構築する特徴ベクトルパラメータを取得する。

上記ステップＳ５で説明したように、システムは、特徴ベクトルパラメータ及び対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、対象ユーザの声紋モデルを取得し、該声紋モデルが音声信号を受信すると、音声信号を生成した人が対象ユーザの発話音声であるか否かを判定する。ベーシックモデルとは、ニューラルネットワークモデル、例えばＢＰニューラルネットワークモデルである。ＢＰニューラルネットワークは、微分可能な非線形関数に対して重み値トレーニングを行う多層ネットワークである。その最大の特徴は、システム的な数学モデルを構築することなく、サンプルデータのみを用いて、システムに対して、ｍ個の入力ニューロンのモードベクトルｐからなるｐｍ空間からｙｎ空間ｎ（＝出力ノード数）までの高非線形マッピングを実現できることである。上述したａ級マッピングとｂ級マッピングについて、２つのマッピングの処理は順序を問わずに行うことができる。ｂ級マッピングの活性化関数は、Ｓｉｇｍｏｉｄを採用することができ、Ｓｉｇｍｏｉｄ関数は生物学において一般的なＳ字型関数であり、Ｓ型成長曲線とも呼ばれ、主にニューラルネットワークの閾値関数として用いられ、物理的な意味としては、生物学上のニューロンに最も類似し、その非線形活性化関数の形式がσ（ｘ）＝１／（１＋ｅ^−ｘ）であり、該式において、ｘは入力した音声音響特徴で、ｅは自然定数で、数学科での法則の１つであり、約２．７１８２８である。

図２を参照すると、本実施形態では、前記深層学習モデルは複数のモデル層を含み、複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめる前記ステップは、以下を含む。
Ｓ２１：複数の前記音声音響特徴を深層学習モデルに入力する；
Ｓ２２：複数の前記音声音響特徴のうちのいずれかの時間ノードｔを選択し、該時間ノードｔからのｔｎ時間毎の音声音響特徴でｎ番目のモデル層を構築し、ｎは正の整数である；
Ｓ２３：前記多層のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも１つのクラスタ構造を取得する；
上記ステップＳ２１で説明したように、複数の音声音響特徴は、いずれも連続する音声信号から抽出されるため、複数の音声音響特徴も連続している。複数の前記音声音響特徴を深層学習モデルに入力する時、時間順で入力する。

上記ステップＳ２２で説明したように、複数の音声音響特徴は、いずれも連続する音声信号で、組み合わせても連続する音声信号であり、複数の音声音響特徴の中から任意の時間ノードｔを選択し、ｔ時刻からのｔｎ期間内の音声音響特徴をまとめ、その１つのモデル層にクラスタ構造を形成する。深層学習モデルが複数のモデル層を有しているため、各モデル層に選択された時間ノードｔとｔ時刻からの時間帯ｔｎと異なり、各モデル層から生成するクラスタ構造の数は全く同じではない。例えば、該複数の音声音響特徴が合計１０秒、すなわち１００００ｍｓで、選択された時間ノードが２０００ｍｓ目で、ｔ１（１ｍｓ）おきの時間内に第１モデル層を構築すると、計１００００フレームを有する。そして、第２のモデル層を構築し、ｔ２を２ｍｓとし、２ｍｓおきの時間内に第２のモデル層を構築すると、第２のモデル層で計５００フレームを有する。

上記ステップＳ２３で説明したように、深層学習モデルによる学習を行うと、複数のモデル層が得られ、モデル層毎に複数のクラスタ構造があり、システムは、１つのモデル層をターゲットモデル層として選択し、ターゲットモデル層上のクラスタ構造をその後に声紋モデルを生成するパラメータとして選択する。

図３を参照すると、具体的な実施形態では、５層のモデル層が構築され、上記ステップＳ２２は、以下のステップを含む。
Ｓ２２１：複数の前記音声音響特徴のうちのいずれかの時間ノードｔを選択し、該時間ノードｔからのｔ１時間毎の音声音響特徴で第１のモデル層を構築する；
Ｓ２２２：第１のモデル層において、当該時間ノードｔからのｔ２時間毎の音声音響特徴で第２のモデル層を構築する；
Ｓ２２３：第２のモデル層において、当該時間ノードｔからのｔ３時間毎の音声音響特徴で第３のモデル層を構築する；
Ｓ２２４：第３のモデル層において、当該時間ノードｔからのｔ４時間毎の音声音響特徴で第４のモデル層を構築する；
Ｓ２２５：第４のモデル層において、当該時間ノードｔからのｔ５時間毎の音声音響特徴で第５のモデル層を構築し、ここで、ｔ１＜ｔ２＜ｔ３＜ｔ４＜ｔ５。

上記Ｓ２２１のステップで説明したように、いずれかの時間ノードｔを選択し、例えば、該音声音響特徴が１０秒、すなわち１００００ｍｓで、選択された時間ノードが２０００ｍｓ目であり、第１モデル層を構築し、ｔ１（１ｍｓ）おきの時間内に第１モデル層を構築すると、第１モデル層は計１００００フレームを有する。

ステップＳ２２２では、第１のモデル層に加えて、選択された時間ノードも２０００ｍｓ目であり、ｔ２（２ｍｓ）おきの時間内に第２のモデル層を構築すると、第２のモデル層は計５０００フレームを有する。ステップＳ２２３では、第２のモデル層に加えて、選択された時間ノードも２０００ｍｓ目であり、ｔ３（３ｍｓ）おきの時間内に第３のモデル層を構築すると、第３のモデル層は計３３３４フレームを有する。ステップＳ２２４では、第３のモデル層に加えて、選択された時間ノードも２０００ｍｓ目であり、ｔ４（４ｍｓ）おきの時間内に第４のモデル層を構築すると、第４のモデル層は計２５００フレームを有する。ステップＳ２２５では、第４のモデル層に加えて、選択された時間ノードも２０００ｍｓ目であり、ｔ５（８ｍｓ）おきの時間内に第２のモデル層を構築すると、第２のモデル層は計１２５０フレームを有する。最終的に、この５番目のモデル層上の１２５０フレームをクラスタ構造としてまとめ、５層の深層学習モデルを経て、最終的に１２５０個のクラスタ構造を取得する。

図４を参照すると、さらに、本実施形態では、前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、前記対象ユーザに対応する声紋モデルを取得する前記ステップは、以下を含む。
Ｓ５１：前記声紋モデルの特徴ベクトルパラメータを次元削減する；
Ｓ５２：前記次元削減後の特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、声紋モデルを取得する。

上記のステップにおいて、システムは、確率に基づいた線形判別分析（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＬＤＡ）を用いて次元削減を行う。その後に対象ユーザの声紋モデルを設計する。同時に、出力層はＳｏｆｔｍａｘ関数で結果を計算し、すべてのノードは［−０．０５〜０．０５］区間内の均一ランダムな重み初期化を用い、オフセット初期値が０となり、最終的な声紋モデルを取得する。ｓｏｆｔｍａｘ関数の入力は１つのベクトルであり、その出力も１つのベクトルであり、ベクトルの各要素は０と１の間にある確率値である。オフセットトレーニングモデルの場合、トレーニング毎に得られたトレーニングセットの予測ラベルと元の実ラベルとの乖離度合について、この乖離度合が小さすぎると、オーバーフィッティングの発生を招き、トレーニングセットのノイズも学習してしまう可能性がある。したがって、オフセットは、学習アルゴリズム自体のフィッティング能力をプロットしたものであり、フィッティング能力が悪いとオフセットが大きく、アンダーフィッティングとなる；逆にフィッティング能力が良くなりすぎると、オフセットが小さく、オーバーフィッティングが発生しやすくなる。トレーニング時にこのオフセットが理論上で徐々に小さくすべきであり、モデルは、有用なものを学習していることを示す。

図５を参照すると、本実施形態において、フレーム化後の音声信号の音声音響特徴を抽出する前記ステップは以下を含む：
Ｓ１１：フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得する；
Ｓ１２：前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力する；
Ｓ１３：前記共鳴ピーク特徴を離散コサイン変換して、音声音響特徴を取得する。

上記ステップＳ１１では、フレーム化後の音声信号を高速フーリエ変換計算して、時間領域の音声信号を周波数領域のパワースペクトルに変換する。高速フーリエ変換（ＦＦＴ）は、離散フーリエ変換の高速アルゴリズムであり、離散フーリエ変換の奇、偶、虚、実等の特性に基づいて、離散フーリエ変換のアルゴリズムを工夫したものである。

上記ステップＳ１２では、共振ピークは、音声チャンネルの共振特性を反映した重要な特徴であり、発音情報の最も直接的なソースを表しており、人々も音声感知において共振ピークの情報を利用している。そのため、共振ピークは、音声信号処理において非常に重要な特徴パラメータであり、音声認識の主要な特徴や音声符号化伝送の基本的な情報として広く利用されている。共振ピーク情報が周波数包絡中に含まれるため、共振ピークパラメータ抽出の鍵は自然音声スペクトル包絡を推定することであり、一般にスペクトル包絡における最大値が共振ピークであると考えられる。その後、パワースペクトルをメル尺度の三角フィルタに入力して各フィルタ群が出力する対数エネルギーを計算し、フィルタ群が出力する特徴がＦｉｌｔｅｒＢａｎｋ（ＦＢＡＮＫ）特徴とも呼ばれる。メル尺度のフィルタ群を用いてフィルタリングする目的は、周波数領域信号に冗長が多く、フィルタ群が周波数領域の幅を合理化し、周波数帯域毎に１つの値で表すことである。フィルタリングの具体的なステップは、高速フーリエ変換後に得られたスペクトルをそれぞれ各フィルタと周波数乗算累算を行い、得られた値が該フレームデータの該フィルタに対応する周波数帯域におけるエネルギー値である。

上記ステップＳ１３では、共振ピーク特徴を対数エネルギー計算した後、離散コサイン変換してＭＦＣＣ係数（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔ）、すなわちＭＦＣＣ音響特徴を得ることができる。人の耳の音声に対する知覚は線形ではなく、ｌｏｇという非線形関係を用いてよりよく説明できる。ｌｏｇを取ってから逆スペクトル分析を行うことができる。そこで、エネルギー値を対数計算し、対数エネルギーを得る。離散コサイン変換の結果は虚部がなく、より計算しやすく、そのため、対数エネルギーを離散コサイン変換し、最終的にＭＦＣＣ係数（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔ）、すなわちＭＦＣＣ音響特徴を得る。

さらに、声紋モデルを取得する上記ステップの後には、以下を含む。
Ｓ６：検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した認証結果を取得する。
上記ステップＳ６で説明したように、声紋モデルが構築された後、当該声紋モデルは、音声信号を受信するポートを１つ有する。この声紋モデルは、音声信号を受信すると、該音声信号を計算し、対象ユーザの音声信号であれば、標的正確の信号を出力する；対象ユーザの音声信号でなければ、標的エラーの信号を出力する。

図６を参照すると、さらに、フレーム化後の音声信号を高速フーリエ変換計算した前記ステップは以下を含む。
Ｓ１１１：フレーム化後の音声信号をプリエンファシス処理する；
Ｓ１１２：プリエンファシス処理された音声信号をウィンドウイングする；
Ｓ１１３：音声端点の検出により、発話音声が含まれる有効部分の音声信号を抽出する；
Ｓ１１４：前記有効部分の音声信号に高速フーリエ変換計算を行う。

上記ステップＳ１１１では、音声信号にプリエンファシス処理を行い、音声信号に異音やノイズが若干含まれているため、音声信号を直接声紋モデリング処理すると、含まれている雑音やノイズにより影響され、確立されるモデルが不正確で、認識エラー率を高める。有効音声の直接抽出とは、音声端点検出の方法を用いて実現され、すなわち、その音声において、どの時点から人が発話を開始し、どの時点で発話を終了したかを認識するものである。音声端点検出の主な原理は次のようである。人発話音声が含まれる音声ファイルの音声スペクトルは、人発話音声が含まれない音声ファイルの音声スペクトルよりも高いため、有効音声を抽出する前に、まず音声信号をプリエンファシスし、すなわち音声信号を増幅して、人発話部分が含まれる周波数スペクトルをより高くし、両者の差をよりはっきりし、音声端点の検出をより良く行う。

上記ステップＳ１１２では、音声信号処理は、一般に音声中の各周波数成分の分布を明確にするという目的を実現すべきである。当該目的を実現する数学的ツールはフーリエ変換である。フーリエ変換は、入力信号が安定的であることを要求する。音声は巨視的には安定的ではない。微視的にみると、音声信号は安定的なものと見做すことができ、切り出してフーリエ変換してもよい。ウィンドウイングの目的は１フレームの信号の振幅を両端で０に徐変させることである。０への徐変はフーリエ変換にはメリットがあり、変換結果（すなわちスペクトル）の分解能を向上させることができる。

上記ステップＳ１１３では、音声信号に異音やノイズが若干含まれているため、音声信号を直接声紋モデリング処理すると、含まれている雑音やノイズにより影響され、確立されるモデルが不正確で、認識エラー率の向上に直接つながる。有効音声の直接抽出とは、音声端点検出の方法を用いて実現され、すなわち、その音声において、どの時点から人が発話を開始し、どの時点で発話を終了したかを認識するものである。端点検出により、音声とノイズとを区別し、有効な音声部分を抽出する。人々は話した時に間を置くことがある。有効部分の音声を抽出し、すなわち人が発話したときに間を置くときの雑音部分を取り除き、人発話部分の有効音声のみを抽出する。

上述のステップＳ１１４では、高速フーリエ変換（ＦＦＴ）は、離散フーリエ変換の高速アルゴリズムであり、離散フーリエ変換の奇、偶、虚、実等の特性に基づいて、離散フーリエ変換のアルゴリズムを工夫したものである。このようにして音声における話者の音声音響特徴を算出することができる。

図７を参照すると、さらに、声紋モデルを取得する前記ステップの後に、以下を含む。
Ｓ７：ユーザが前記声紋モデルにマークした属性情報を受信し、前記属性情報は前記対象ユーザの性別、年齢、民族を含む。

上記Ｓ７ステップでは、声紋モデルを構築した後、システムは、ユーザが声紋モデルに付与するマーカを受信し、当該声紋モデルに対応する対象ユーザの個人情報をマーカし、性別、年齢、民族、身長、体重等を含む。声紋情報が発話の器官に関連し、発話調音器官は声帯、顎、舌、歯、唇等を含む；発音共鳴器は咽頭、口腔、鼻腔を含む。発話の器官が近い人は、発した音が一定の共通性又は比較的近いことから、属性情報が同じ人の声紋情報が比較的近いことになる。複数の人の声紋情報を収集しまとめて、声紋情報と人との関係を見つける。

図８を参照すると、さらに、本実施形態において、フレーム化後の音声信号の音声音響特徴を抽出する前記ステップは以下を含む。
Ｓ１４：入力されたフレーム化後の音声信号の音声内容を認識する；
Ｓ１５：前記音声内容の発音部位を判定する；
Ｓ１６：前記発音部位に基づいて前記音声信号を分割する；
Ｓ１７：それぞれ分割された音声信号に対して音声音響特徴を抽出する。

上記ステップＳ１４では、入力されたフレーム化後の音声信号の音声内容を認識し、すなわち音声認識の手段により、音声信号を認識し、話者の具体的な発話テキスト情報を認識する。
前記ステップＳ１５では、前記音声内容の発音部位を判断し、前記Ｓ１４で認識した音声内容に基づいて、その音声内容のピンイン又は音声記号を読み出し、ピンイン又は音声記号の内容から発音部位を判定する。一般的に用いられる主な発音部位には、喉頭、舌、鼻、歯等がある。例えば、中国語の共通語では、対応する発音部位を異なる声母から特定できる。具体的な声母と発音部位の対応テーブルは以下のとおりである。

上記ステップＳ１６では、音声内容の発音部位を判断した上で、音声信号の発音部位を遡って検索し、音声信号に対応する発音部位に応じて、音声信号を複数セグメントに分割し、各音声信号がそれぞれ１つの発音部位に対応する。例えば、時間長が１０秒の音声信号では、０〜２秒目の音声内容には、いずれもｂ又はｐ又はｍの声母が含まれ、３〜５秒目の音声内容には、いずれもｊ又はｑ又はｘの声母が含まれ、６〜１０秒目の音声内容には、いずれもｄ又はｔ又はｎ又はｌの声母が含まれるため、該音声信号を３セグメントの音声信号に分割する。１セグメント目が０〜２秒目の音声内容で、２セグメント目が３〜５秒目の音声内容で、３セグメント目が６〜１０秒目の音声内容である。
上記ステップＳ１７では、これら３つの音声内容のそれぞれについて音響特徴を抽出し、そして、それぞれその後の深層学習モデルに入力して算出する。

要約すると、本願の声紋モデルを構築する方法は、ニューラルネットワークの深層トレーニングに基づいて、抽出した音声音響特徴からクラスタ構造を取得し、クラスタ構造を座標マッピング及び活性化関数算出することで、声紋モデルを取得して、声紋モデルの音声認識エラー率を低減することができる。

図９を参照すると、本願はさらに声紋モデルを構築する装置を提供する。この装置は、
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出部１と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめるクラスタ構造部２と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出部３と、
前記平均値と標準偏差を座標変換及び活性化関数算出し、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル部４と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル部５であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル部５とを含む。

本実施形態において、抽出部１における声紋は、電気音響装置により表示される口頭情報を搬送する音波スペクトルである。人間の言語の発生は、人体の言語中枢と発声器官との間の複雑な生理学的及び物理的プロセスである。人々が話すときに使用する発声器官（舌、歯、咽頭、肺、及び鼻腔）は、大きさや形状は人によって著しく変わるため、いずれか２人の声紋は異なる。音声信号は、特定の情報アナログ信号を搭載したもので、人が発した声信号から変換されたものである。人々の声紋はそれぞれであるため、同じ人が同じ言語を話して、その音声を変換して得られた音声信号も異なる。したがって、音声信号に含まれる音声音響特徴も異なる。音声音響特徴は、人が発した音声に含まれる声紋情報である。フレーム化とは、連続する音声信号を複数のセグメントに分けるものである。人々の通常の話速では、音素の継続時間が約５０〜２００ミリ秒であるため、フレーム長さは一般に５０ミリ秒未満とされる。微視的にみれば、十分に多い振動周期を含む必要がある。音声の周波数について、男声で１００ヘルツ程度、女声で２００ヘルツ程度であり、周期に換算すると、１０ミリ秒と５ミリ秒である。一般に１フレームには複数の周期が含まれるため、一般に少なくとも２０ミリ秒とされる。音声信号は、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。前記音声音響特徴は、前記音声セグメントの、メル周波数ケプストラム係数（ＭＦＣＣ）、知覚線形予測（ＰＬＰ）係数、フィルタバンク特徴（ＦｉｌｔｅｒＢａｎｋＦｅａｔｕｒｅ）などを有することができる。外見上、前記音声音響特徴は、前記音声セグメントの、元の、又は生の発話データであることもできる。抽出部１が対象ユーザの音声信号における音声音響特徴を抽出するのは、声紋モデルを構築する必要がある人が発声した音声信号を抽出し、非対象ユーザが発声した音声信号であれば抽出しない。音声音響特徴は、連続する音声信号から抽出した人の発話部分が含まれる音声信号であるので、連続する音声信号でもある。抽出部１は音声信号をフレーム化した後、複数の音声信号を得て、それぞれ各音声信号の音声音響特徴を抽出すると、複数の音声音響特徴が取得される。

音声音響特徴は、フレーム化の音声信号から抽出され、音声信号であり、クラスタ構造部２は、音声音響特徴を集計し計算しやすくするために、該音声信号をニューラルネットワークトレーニングモデルに入力して、音声音響特徴を統計して算出する。クラスタ構造部２は、該音声音響特徴の集合であり、複数の音声音響特徴をまとめたときの共通特徴を表すことができる。

算出部３は、複数の音声音響特徴をニューラルネットワークに基づいた深層学習モデルに入力した後、少なくとも１つのクラスタ構造ｘ１、ｘ２、ｘ１、…、ｘｎを出力し、クラスタ構造がｐ次元ベクトルであると想定すれば、ｘｎ＝（ｘｉ１，ｘｉ２，…，ｘｉｐ）^Ｔ（ｉ＝１，２，…，ｎ）。これらのクラスタ構造の平均値と標準偏差を計算する。クラスタ構造の平均値と標準偏差を取得する。ここで、複数のクラスタ構造の平均値を計算する方法は以下のとおりである。まず、算出部３は式：

に従って、各成分の平均値を算出し、次に算出部３はｘ０＝（ｘ１，ｘ２，…，ｘｊ）^Ｔに従って、ｐ次元の平均ベクトルを算出し、算出部３はｐ次元の平均ベクトルを組み合わせてクラスタ構造の平均値とする：Ｅ（ｘ）。複数のクラスタ構造の平均値を計算する式は以下のとおりである。Ｄ（ｘ）＝Ｅ｛［ｘ−Ｅ（ｘ）］［ｘ−Ｅ（ｘ）］^Ｔ｝。

特徴ベクトル部４は、上述したＥ（ｘ）とＤ（ｘ）に対して、ａ級マッピングとｂ級マッピングを行う。ここで、ａ級マッピングは、クラスタ構造の平均値と標準偏差を座標変換し、ｂ級マッピングはクラスタ構造の平均値と標準偏差を活性化関数で算出して非線形結果、すなわち声紋モデルを構築する特徴ベクトルパラメータを取得する。

そして、モデル部５は、特徴ベクトルパラメータ及び対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、対象ユーザの声紋モデルを取得し、該声紋モデルが音声信号を受信すると、音声信号を生成した人が対象ユーザの発話音声であるか否かを判定する。ベーシックモデルとは、ニューラルネットワークモデル、例えばＢＰニューラルネットワークモデルである。ＢＰニューラルネットワークは、微分可能な非線形関数に対して重み値トレーニングを行う多層ネットワークである。その最大の特徴は、システム的な数学モデルを構築することなく、サンプルデータのみを用いて、システムに対して、ｍ個の入力ニューロンのモードベクトルｐからなるｐｍ空間からｙｎ空間ｎ（＝出力ノード数）までの高非線形マッピングを実現できることである。上述したａ級マッピングとｂ級マッピングについて、２つのマッピングの処理は順序を問わずに行うことができる。ｂ級マッピングの活性化関数は、Ｓｉｇｍｏｉｄを採用することができ、Ｓｉｇｍｏｉｄ関数は生物学において一般的なＳ字型関数であり、Ｓ型成長曲線とも呼ばれ、主にニューラルネットワークの閾値関数として用いられ、物理的な意味としては、生物学上のニューロンに最も類似し、その非線形活性化関数の形式はσ（ｘ）＝１／（１＋ｅ^−ｘ）であり、該式において、ｘは入力した音声音響特徴で、ｅは自然定数で、数学科での法則の１つであり、約２．７１８２８である。

図１０を参照すると、本実施形態では、前記深層学習モデルは、複数のモデル層を含み、前記クラスタ構造部２は、
複数の前記音声音響特徴を深層学習モデルに入力するために用いられる入力ユニット２１と、
複数の前記音声音響特徴のうちのいずれかの時間ノードｔを選択し、該時間ノードｔからのｔｎ時間毎の音声音響特徴でｎ番目のモデル層を構築するために用いられる構築ユニットであって、ｎが正整数である、構築ユニット２２と、
前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも１つのクラスタ構造を取得するために用いられる選択ユニット２３とを含む。

本実施形態において、複数の音声音響特徴は、いずれも連続する音声信号から抽出されるため、複数の音声音響特徴も連続している。入力ユニット２１は複数の前記音声音響特徴を深層学習モデルに入力する時、時間順で入力する。
複数の音声音響特徴は、いずれも連続する音声信号で、組み合わせても連続する音声信号であり、構築ユニット２２は、複数の音声音響特徴の中からいずれかの時間ノードｔを選択し、ｔ時刻からのｔｎ期間内の音声音響特徴をまとめ、その１つのモデル層にクラスタ構造を形成する。深層学習モデルが複数のモデル層を有しているため、各モデル層に選択された時間ノードｔとｔ時刻からの時間帯ｔｎと異なり、各モデル層から生成するクラスタ構造の数は全く同じではない。例えば、該複数の音声音響特徴が合計１０秒、すなわち１００００ｍｓで、選択された時間ノードが２０００ｍｓ目で、構築ユニット２２は第１モデル層を構築し、ｔ１（１ｍｓ）おきの時間内に第１モデル層を構築すると、計１００００フレームを有する。そして、構築ユニット２２は第２のモデル層を構築し、２を２ｍｓとし、２ｍｓおきの時間内に第２のモデル層を構築すると、第２のモデル層で計５００フレームを有する。

深層学習モデルによる学習を行うと、複数のモデル層が得られ、モデル層毎に複数のクラスタ構造があり、選択ユニット２３は、そのうち１つのモデル層上のクラスタ構造をその後に声紋モデルを生成するパラメータとして選択する。

図１１を参照すると、さらに、前記モデル部４は、
前記声紋モデルの特徴ベクトルパラメータを次元削減するために用いられる次元削減ユニット５１と、
前記次元削減後の特徴ベクトルパラメータを予め設定されたベーシックモデルに入力して、声紋モデルを取得するために用いられるモデルユニット５２とを含む。

本実施形態において、次元削減ユニット５１は、確率に基づいた線形判別分析（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＬＤＡ）を用いて次元削減を行う。その後、モデルユニット５２は、対象ユーザの声紋のモデル設計を行う。同時に、出力層はＳｏｆｔｍａｘ関数で結果を計算し、すべてのノードは［−０．０５〜０．０５］区間内の均一ランダムな重み初期化を用い、オフセット初期値が０となり、最終的な声紋モデルを取得する。ｓｏｆｔｍａｘ関数の入力は１つのベクトルであり、その出力も１つのベクトルであり、ベクトルの各要素は０と１の間にある確率値である。オフセットトレーニングモデルの場合、トレーニング毎に得られたトレーニングセットの予測ラベルと元の実ラベルとの乖離度合について、この乖離度合が小さすぎると、オーバーフィッティングの発生を招き、トレーニングセットのノイズも学習してしまう可能性がある。したがって、オフセットは、学習アルゴリズム自体のフィッティング能力をプロットしたものであり、フィッティング能力が悪いとオフセットが大きく、アンダーフィッティングとなる；逆にフィッティング能力が良くなりすぎると、オフセットが小さく、オーバーフィッティングが発生しやすくなる。トレーニング時にこのオフセットは理論上徐々に小さくすべきであり、モデルは、有用なものを学習していることを示す。

図１２を参照すると、さらに、前記抽出部１は、
フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得するために用いられる算出ユニット１１と、
前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力するために用いられるメル入力ユニット１２と、
前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するために用いられる変換ユニット１３とを含む。

本実施形態において、算出ユニット１１は、フレーム化後の音声信号を高速フーリエ変換計算して、時間領域の音声信号を周波数領域のパワースペクトルに変換する。高速フーリエ変換（ＦＦＴ）は、離散フーリエ変換の高速アルゴリズムであり、離散フーリエ変換の奇、偶、虚、実等の特性に基づいて、離散フーリエ変換のアルゴリズムを工夫したものである。共振ピークは、音声チャンネルの共振特性を反映した重要な特徴であり、発音情報の最も直接的なソースを表しており、人々も音声感知において共振ピークの情報を利用している。そのため、共振ピークは、音声信号処理において非常に重要な特徴パラメータであり、音声認識の主要な特徴や音声符号化伝送の基本的な情報として広く利用されている。共振ピーク情報が周波数包絡中に含まれるため、共振ピークパラメータ抽出の鍵は自然音声スペクトル包絡を推定することであり、一般にスペクトル包絡における最大値が共振ピークであると考えられる。その後、メル入力ユニット１２は、パワースペクトルをメル尺度の三角フィルタ群に入力して各フィルタ群が出力する対数エネルギーを計算し、フィルタ群が出力する特徴がＦｉｌｔｅｒＢａｎｋ（ＦＢＡＮＫ）特徴とも呼ばれる。メル尺度のフィルタ群を用いてフィルタリングする目的は、周波数領域信号に冗長が多く、フィルタ群が周波数領域の幅を合理化し、周波数帯域毎に１つの値で表すことである。フィルタリングの具体的なステップは、高速フーリエ変換後に得られたスペクトルにそれぞれ各フィルタと周波数乗算累算を行い、得られた値が該フレームデータの該フィルタに対応する周波数帯域におけるエネルギー値である。共振ピーク特徴を対数エネルギー計算した後、変換ユニット１３により離散コサイン変換してＭＦＣＣ係数（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔ）、すなわちＭＦＣＣ音響特徴を得ることができる。人の耳の音声に対する知覚は線形ではなく、ｌｏｇという非線形関係を用いてよりよく説明できる。ｌｏｇを取ってから逆スペクトル分析を行うことができる。そこで、エネルギー値を対数計算し、対数エネルギーを得る。離散コサイン変換の結果は、虚部がなく、より計算しやすく、そのため、対数エネルギーを離散コサイン変換し、最終的にＭＦＣＣ係数（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔ）、すなわちＭＦＣＣ音響特徴を得る。

さらに、声紋モデルを構築する上記装置は、
検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元認証結果を取得するために用いられる検証部６を含む。
本実施形態では、声紋モデルを構築した後、該声紋モデルは、音声信号を受信するポートを１つ有している。検証部６は、音声信号を受信すると、その音声信号を計算し、対象ユーザの音声信号であれば、検証部６は標的正確の信号を出力する；対象ユーザの音声信号でなければ、検証部６は標的エラーの信号を出力する。

図１３を参照すると、さらに、声紋モデルを構築する前記装置は、
ユーザが前記声紋モデルにマークした属性情報を受信するために用いられる属性手段であって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、属性部７を含む。

本実施形態において、声紋モデルを構築した後、属性部７は、ユーザが声紋モデルに付与するマーカを受信し、当該声紋モデルに対応する対象ユーザの個人情報をマーカし、性別、年齢、民族、身長、体重等を含む。声紋情報が発話の器官に関連するため、発話調音器官は声帯、顎、舌、歯、唇等を含む；発音共鳴器は咽頭、口腔、鼻腔を含む。発話の器官が近い人は、発した音が一定の共通性又は比較的近いことから、属性情報が同じ人の声紋情報が比較的近いことになる。複数の人の声紋情報を収集しまとめて、声紋情報と人との関係を見つける。

図１４を参照すると、さらに、前記抽出部１は、
入力されたフレーム化後の音声信号の音声内容を認識するために用いられる認識ユニット１４と、
前記音声内容の発音部位を判定するために用いられる判断ユニット１５と、
前記発音部位に基づいて前記音声信号を分割するために用いられる分割ユニット１６と、
それぞれ分割された音声信号に対して音声音響特徴を抽出するために用いられる抽出ユニット１７とを含む。

本実施形態において、認識ユニット１４は、入力された音声信号の音声内容を認識し、すなわち音声認識の手段により、音声信号を認識し、話者の具体的な発話テキスト情報を認識する。
判断ユニット１５は、前記音声内容の発音部位を判断し、上記認識ユニット１４で認識した音声内容に基づいて、その音声内容のピンイン又は音声記号を読み出し、ピンイン又は音声記号の内容から発音部位を判定する。一般的に用いられる主な発音部位には、喉頭、舌、鼻、歯等がある。例えば、中国語の共通語では、対応する発音部位を異なる声母から特定できる。具体的な声母と発音部位の対応テーブルは以下のとおりである。

判断ユニット１５が音声内容の発音部位を判断した上で、分割ユニット１６が音声信号の発音部位を遡って検索し、そして分割ユニット１６は、音声信号に対応する発音部位に応じて、音声信号を複数セグメントに分割し、各音声信号がそれぞれ１つの発音部位に対応する。例えば、時間長が１０秒の音声信号では、０〜２秒目の音声内容には、いずれもｂ又はｐ又はｍの声母が含まれ、３〜５秒目の音声内容には、いずれもｊ又はｑ又はｘの声母が含まれ、６〜１０秒目の音声内容には、いずれもｄ又はｔ又はｎ又はｌの声母が含まれるため、分割ユニット１６は、該音声信号を３セグメントの音声信号に分割する。１セグメント目が０〜２秒目の音声内容で、２セグメント目が３〜５秒目の音声内容で、３セグメント目が６〜１０秒目の音声内容である。そして、抽出ユニット１７は、これら３つの音声内容のそれぞれについて音響特徴を抽出して、それぞれその後の深層学習モデルに入力して算出する。

要約すると、本願の声紋モデルを構築する装置は、ニューラルネットワークの深層トレーニングに基づいて、抽出した音声音響特徴からクラスタ構造を取得し、クラスタ構造を座標マッピング及び活性化関数算出することで、声紋モデルを取得し、声紋モデルの音声認識エラー率を低減することができる。

図１５を参照すると、本願の実施形態では、さらにコンピュータデバイスを提供し、該コンピュータデバイスは、サーバであってもよく、その内部構造が図１５に示すようである。該コンピュータデバイスは、システムバスにより接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。ここで、該コンピュータデバイスのプロセッサは、計算及び制御能力を提供するために用いられる。該コンピュータデバイスのメモリは、不揮発性の記憶媒体と、内部メモリとを含む。この不揮発性記憶媒体は、オペレーティングシステム、コンピュータ可読命令、及びデータベースを記憶する。該メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行に環境を提供する。該コンピュータデバイスのデータベースは、声紋モデル等のデータを記憶するために用いられる。該コンピュータデバイスのネットワークインタフェースは、外部の端末とネットワーク接続により通信するために用いられる。このコンピュータ可読命令が実行される際に、上述した各方法の実施形態のようなフローを実行する。図１５に示すような構造は、本願の特許請求の範囲に関係する部分的構造のブロック図のみであり、本願の特許請求の範囲が適用されるコンピュータデバイスを限定するものではないことが当業者に明らかである。

本願の実施形態は、さらにコンピュータ読み取り可能な不揮発性の記憶媒体を提供し、前記記憶媒体にコンピュータ読み取り可能な命令が記憶され、該コンピュータ可読命令が実行される時、上記各方法の実施形態のフローを実行する。以上で述べたのは、本願の好ましい実施形態に過ぎず、本願の特許請求の範囲を限定するものではない。本願明細書及び図面の内容を用いて作成された等価構造又は等価的なフロー変換、又は他の関連する技術分野に直接又は間接的に適用されるものは、いずれも本発明の特許請求の範囲に含まれる。

１抽出部
１１算出ユニット
１２メル入力ユニット
１３変換ユニット
１４認識ユニット
１５判断ユニット
１６分割ユニット
１７抽出ユニット
２クラスタ構造部
２１入力ユニット
２２構築ユニット
２３選択ユニット
３算出部
４特徴ベクトル部
５モデル部
５１次元削減ユニット
５２モデルユニット
６検証部
７属性部

Claims

入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するステップと、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめるステップと、
前記クラスタ構造の平均値と標準偏差を計算するステップと、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するステップと、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するステップであって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、ステップとを含み、
前記フレーム化後の音声信号の音声音響特徴を抽出するステップが、
前記フレーム化後の音声信号の音声内容を認識するステップと、
前記音声内容の発音部位を判定するステップと、
前記発音部位に基づいて前記音声信号を分割するステップと、
分割後の前記各信号に対して音声音響特徴を抽出するステップとを含んでいることを特徴とする声紋モデルを構築する方法。
前記深層学習モデルは、複数のモデル層を含み、複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめる前記ステップは、
複数の前記音声音響特徴を深層学習モデルに入力するステップと、
複数の前記音声音響特徴のうちのいずれかの時間ノードｔを選択し、該時間ノードｔからのｔｎ時間毎の音声音響特徴でｎ番目のモデル層を構築するステップであって、ｎが正の整数である、ステップと、
前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層上に生成された少なくとも１つのクラスタ構造を取得するステップとを含む、ことを特徴とする請求項１に記載の声紋モデルを構築する方法。
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する前記ステップは、
前記声紋モデルの特徴ベクトルパラメータを次元削減するステップと、
前記次元削減後の特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、声紋モデルを取得するステップとを含む、ことを特徴とする請求項１に記載の声紋モデルを構築する方法。
フレーム化後の音声信号の音声音響特徴を抽出する前記ステップは、
フレーム化後の音声信号を高速フーリエ変換計算して、パワースペクトルを取得するステップと、
前記パワースペクトルをメル尺度の三角フィルタ群に入力して、共振ピーク特徴を出力するステップと、
前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するステップとを含む、ことを特徴とする請求項１に記載の声紋モデルを構築する方法。
声紋モデルを取得する前記ステップの後に、検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元確認結果を取得するステップを含む、ことを特徴とする請求項１に記載の声紋モデルを構築する方法。
声紋モデルを取得する前記ステップの後に、ユーザが前記声紋モデルにマークした属性情報を受信するステップであって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、ステップを含む、ことを特徴とする請求項１に記載の声紋モデルを構築する方法。
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出手段と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめるために用いられるクラスタ構造手段と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出手段と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル手段と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含み、
前記抽出手段が、
前記フレーム化後の音声信号の音声内容を認識する手段と、
前記音声内容の発音部位を判定する手段と、
前記発音部位に基づいて前記音声信号を分割する手段と、
分割後の前記各信号に対して音声音響特徴を抽出する手段とを含んでいることを特徴とする声紋モデルを構築する装置。
前記深層学習モデルは、複数のモデル層を含み、前記クラスタ構造手段は、
複数の前記音声音響特徴を深層学習モデルに入力するために用いられる入力ユニットと、
複数の前記音声音響特徴のうちのいずれかの時間ノードｔを選択し、該時間ノードｔからのｔｎ時間毎の音声音響特徴でｎ番目のモデル層を構築するために用いられる構築ユニットであって、ｎが正の整数である、構築ユニットと、
前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも１つのクラスタ構造を取得するために用いられる選択ユニットとを含む、ことを特徴とする請求項７に記載の声紋モデルを構築する装置。
前記モデル手段は、
前記声紋モデルの特徴ベクトルパラメータを次元削減するために用いられる次元削減ユニットと、
前記次元削減後の特徴ベクトルパラメータを予め設定されたベーシックモデルに入力して、声紋モデルを取得するために用いられるモデルユニットとを含む、ことを特徴とする請求項７に記載の声紋モデルを構築する装置。
前記抽出手段は、
フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得するために用いられる算出ユニットと、
前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力するために用いられる入力ユニットと、
前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するために用いられる変換ユニットとを含む、ことを特徴とする請求項７に記載の声紋モデルを構築する装置。
声紋モデルを構築する前記装置は、検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元認証結果を取得するために用いられる検証手段をさらに含む、ことを特徴とする請求項７に記載の声紋モデルを構築する装置。
声紋モデルを構築する前記装置は、ユーザが前記声紋モデルにマークした属性情報を受信するために用いられる属性手段であって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、属性手段をさらに含む、ことを特徴とする請求項７に記載の声紋モデルを構築する装置。
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するための抽出手段と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめるためのクラスタ構造手段と、
前記クラスタ構造の平均値と標準偏差を計算するための算出手段と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するための特徴ベクトル手段と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するためのモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含み、
前記抽出手段が、
前記フレーム化後の音声信号の音声内容を認識する手段と、
前記音声内容の発音部位を判定する手段と、
前記発音部位に基づいて前記音声信号を分割する手段と、
分割後の前記各信号に対して音声音響特徴を抽出する手段とを含んでいることを特徴とするコンピュータデバイス。
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する機能と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめる機能と、
前記クラスタ構造の平均値と標準偏差を計算する機能と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する機能と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する機能であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、機能と、をコンピュータによって実行させ、
前記フレーム化後の音声信号の音声音響特徴を抽出する機能が、
前記フレーム化後の音声信号の音声内容を認識する機能と、
前記音声内容の発音部位を判定する機能と、
前記発音部位に基づいて前記音声信号を分割する機能と、
分割後の前記各信号に対して音声音響特徴を抽出する機能とを含んでいるプログラム。
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する機能と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも１つのクラスタ構造としてまとめる機能と、
前記クラスタ構造の平均値と標準偏差を計算する機能と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する機能と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する機能であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、機能と、をコンピュータによって実行させ、
前記フレーム化後の音声信号の音声音響特徴を抽出する機能が、
前記フレーム化後の音声信号の音声内容を認識する機能と、
前記音声内容の発音部位を判定する機能と、
前記発音部位に基づいて前記音声信号を分割する機能と、
分割後の前記各信号に対して音声音響特徴を抽出する機能とを含んでいるプログラムを格納する読み取り可能な記憶媒体。