JP5853029B2 - 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム - Google Patents

話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム Download PDF

Info

Publication number
JP5853029B2
JP5853029B2 JP2013542330A JP2013542330A JP5853029B2 JP 5853029 B2 JP5853029 B2 JP 5853029B2 JP 2013542330 A JP2013542330 A JP 2013542330A JP 2013542330 A JP2013542330 A JP 2013542330A JP 5853029 B2 JP5853029 B2 JP 5853029B2
Authority
JP
Japan
Prior art keywords
passphrase
speaker
frames
gaussian
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013542330A
Other languages
English (en)
Other versions
JP2014502375A (ja
Inventor
ロン マー
ロン マー
ハイフォン シェン
ハイフォン シェン
ビンチー チャン
ビンチー チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JP2014502375A publication Critical patent/JP2014502375A/ja
Application granted granted Critical
Publication of JP5853029B2 publication Critical patent/JP5853029B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Description

本開示は、音声(オーディオ)処理技術に関し、詳細には、話者認識および話者照合の技術に関する。
話者認識技術は、マン・マシン・インタラクティブ(Human-Machine Interactive)において有用である。(1)ある種の設備(家庭電化製品、自動車、PC端末など)へのオンサイト・アクセス制御、または(2)電話回線、携帯電話回線、またはコンピュータのデータ回線を通じてのデータベース、ウェブサイト、さらには銀行取引への安全なリモート・アクセスなど、多くのアプリケーションおよび製品を、話者認識技術に対応させるか、または話者認識技術を備えて機能強化することが可能である。
現実のシステムでは話者認識技術を使用するのに先立ち、目標話者に対する登録またはレジストレーション・プロセスが必要である。話者登録プロセスにおいて、目標話者からサンプル音声を収集し、これを使用して特定の話者の統計的テンプレートを生成する。生成された統計的テンプレートの品質は、話者認識システムの性能に対して大きな影響力を有する。
図1は、話者照合システムに対するパスフレーズ・モデリングのための従来のデバイスの図を示している。ユーザが登録プロセスにおいて自分のパスフレーズを登録したい場合、話者照合システムのフロント・エンド101によって目標ユーザからのパスフレーズの発話が要求される。ユーザの発話は毎回必ずしもまったく同じであるとは限らないので、モデリング・ユニット103でロバストな統計的テンプレート・モデルを得るために3〜5回パスフレーズを繰り返す必要がある。作成されたテンプレート・モデルは、後で確認するためにデータベース105内に格納される。
従来の方法の2つの主な欠点は、(1)利用可能な登録データが少ないか、または大きな話者内変動が存在する場合に、登録の効果が保証されないこと、および(2)ユーザが単純な登録手順を好むので、より多くの繰り返しが必要な場合にユーザ・エクスペリエンスがそれほどよくないことである。
本開示の一態様において、話者照合のためのパスフレーズ・モデリング・デバイスが実現され、前記パスフレーズ・モデリング・デバイスが備えるデータベースは、話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、前記パスフレーズ・モデリング・デバイスが備えるフロント・エンドは、目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、前記複数のフレームの各々から音響特性および/または内容を表す特徴パラメータを抽出し、前記パスフレーズ・モデリング・デバイスが備えるテンプレート生成ユニットは、前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、前記算出した尤度スコアの上位N(Nは自然数)個のガウス成分を、前記複数のフレーム毎に抽出し、同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する。
本開示の別の態様において、話者照合のためのパスフレーズ・モデリング方法が提供され、これは、話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、前記複数のフレームの各々から音響特性および/または内容を表す特徴パラメータを抽出し、前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、前記算出した尤度スコアの上位N(Nは自然数)個のガウス成分を、前記複数のフレーム毎に抽出し、同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する。
本開示のさらなる態様において、音声を用いて話者を照合する話者照合システムが実現され、これはテスト話者のテスト音声を受信するフロント・エンドと、前記テスト音声と、上述のパスフレーズ・モデリング方法によってパスフレーズ・テンプレートを生成し、前記パスフレーズ・テンプレートから選択されたデータとを比較して、前記テスト音声の尤度スコアを算出する動的照合ユニットとを備え、前記尤度スコアが所定の閾値以上である場合に、目標話者は申告話者として受理される。
本開示のデバイス、方法、およびシステムでは、一般話者モデルに含まれる豊富な変異を考慮することによって、登録データが不十分である場合に、また目標話者からの利用できるパスフレーズが1つだけであるとしても、ロバストなパスフレーズ・モデリングが確実なものとなる。
前記は、概要であり、したがって、当然のことながら、簡素化、一般化、および詳細の省略を含み、そのため、概要は単に例示しているだけであり、いかなる形でも制限する意図はないことを、当業者なら理解するであろう。本明細書に記載のデバイスおよび/またはプロセスおよび/または他の主題の他の態様、特徴、および利点は、本明細書で述べられている教示において明らかにされるであろう。この「発明の概要」は、以下の「発明を実施するための形態」でさらに説明される簡素化された形式の概念の選択を導入するために設けられている。この「発明の概要」は、特許請求されている主題の鍵となる特徴または本質的特徴を明示することを意図しておらず、また特許請求されている主題の範囲を決定する補助として使用されることも意図していない。
本開示の前記の特徴および他の特徴は、添付の図面を参照することで、以下の説明および付属の請求項からより完全に明らかになるであろう。これらの図面は本開示による複数の実施形態のみを示し、したがって本開示の範囲を制限するものであると考えるべきでないことを理解してもらいそのうえで、添付の図面を用いてさらに具体的に、詳細に本開示を説明する。
話者照合に対するパスフレーズ・モデリングのための従来のデバイスの図である。 本開示の一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図である。 登録音声の各フレームに対する一般話者モデルから選択された上位N個のガウス成分(分布)の略図である。 登録音声を複数のセグメントに分割することを示す図である。 1つの、または複数のGMM(ガウス混合モデル)にマージされる登録音声の1つのセグメント内のガウス成分の図である。 マージされたGMMからなるHMMネットの図である。 話者照合に対するパスフレーズ・モデリングの方法の流れ図である。 本開示の一実施形態による話者照合システムの図である。 本開示の別の実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図である。
以下の詳細な説明では、詳細な説明の一部をなす、添付の図面が参照される。図面中の類似の記号は、典型的には、文脈上別のものを示していない限り類似のコンポーネントを明示する。詳細な説明、図面、および請求項で説明されている例示的な実施形態は、制限することを意図されていない。他の実施形態も利用することができ、また本明細書に提示されている主題の精神または範囲から逸脱することなく、他の変更を加えることができる。本明細書で一般的に説明され、また図に例示されているような本開示の態様は、さまざまな異なる構成による配置、置換、組み合わせ、設計が可能であり、すべて明示的に考察され、本開示の一部をなすことは容易に理解されるであろう。
本開示は、とりわけ、話者照合に対するパスフレーズ・モデリングに関するデバイス、方法、およびシステムに関するものである。
図2は、本開示の一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図を示す。
図2に示されているように、本開示の一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイス200は、フロント・エンド201と、テンプレート生成ユニット203と、適応ユニット207と、パスフレーズ・データベース205と、話者モデル・データベース213とを備える。上記構造では、テンプレート生成ユニット203は、フロント・エンド201、適応ユニット207、パスフレーズ・データベース205、および話者モデル・データベース213にそれぞれ、接続される。本開示の一実施形態によれば、デバイス200は、外部ユニットまたはデバイスとしてフロント・エンド201、適応ユニット207、パスフレーズ・データベース205、および話者モデル・データベース213などの他のユニットに接続されるテンプレート生成ユニット203のみを備えることができる。
一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイス200は、目標話者から登録音声を受け取るフロント・エンド201と、登録音声に基づいて一般話者モデルによりパスフレーズ・テンプレートを生成するテンプレート生成ユニット203とを備える。
これ以降、本開示の一実施形態によるデバイス200の上記それぞれのユニットのオペレーションについて説明する。
具体的には、デバイス200は、本質的にM(例えば、M=1024)個のガウス成分を持つ混合モデルである、一般話者モデル(HMM(隠れマルコフ・モデル)またはGMM−UBM(普遍背景モデル))の学習を行う必要がある。このようなガウス成分は、話者照合時に予測される話者の母集団を代表する多数の話者からの音声データのコレクションから抽出される。一般話者モデルは、例えば、以下のように表される、話者間および話者内差異によって引き起こされる豊富な変異を含むと予想される。
Figure 0005853029
ここで、w、μ、およびΣは、それぞれUBMのj番目の混合成分の重み、平均、および共分散である。
つまり、一般話者モデルは、話者照合時に予測される多数の話者から収集された音声データを表す複数のガウス成分からなる。学習済み一般話者モデルは、予め、話者モデル・データベース213内に格納されている。
図3は、登録音声の各フレームに対する一般話者モデルから選択された上位N個のガウス成分の略図を示す。
本開示の一実施形態によれば、フロント・エンド201は、目標話者から登録音声を受け取り、その登録音声を複数のフレームに分割し、複数のフレームのそれぞれから音響特性および/または内容を表す特徴パラメータを抽出する。
具体的には、フロント・エンド201では、目標話者からの登録音声は、それぞれのフレームに分割され、各フレームは、例えば、10msであり、各フレームはLPCC(線形予測ケプストラム係数)またはMFCC(メル尺度周波数ケプストラム係数)などの特徴パラメータとともに抽出される。本開示の一実施形態によるパラメータ抽出の詳細なプロセスは、限定しないが、以下のように説明される。例えば、フロント・エンド201で、MFCCパラメータをフレーム毎に抽出する。登録音声の各フレームに関して、0.97などの係数で、プリエンファシス処理を実行し、音声データのサンプリング周波数を16kHzとして与え、ハミング窓を20msとし、512点FFTによって10ms毎にパワー・スペクトルを計算する。DCT(離散コサイン変換)変換を使用して、24個のメル尺度三角フィルタ・バンクの対数エネルギーを12個のケプストラム次数に変換する。さらに、各フレームの対数エネルギーも計算され、ケプストラムと組み合わせて13次元ベクトルを形成する。次いで、元の静的特徴ベクトルの一次導関数と二次導関数を計算する。ケプストラム平均除去(CMS)および分散正規化を含む特徴正規化を使用して、異なる状態で記録された信号の間の不整合を低減する。これにより、目標話者の登録音声の各フレームのMFCCパラメータなどの特徴パラメータを取得する。本開示によるパラメータ抽出は、上記プロセスに限定されず、特徴パラメータは、他の知られているプロセスを使って取得することができる。
本開示の一実施形態によれば、テンプレート生成ユニット203は、各フレームの特徴パラメータで一般話者モデルのガウス成分の各尤度スコアを計算し、各フレームについて最高の尤度スコアを有するN個のガウス成分を選択する。ここで、Nは、自然数である。
具体的には、テンプレート生成ユニット203は、フロント・エンド201から各フレームの特徴パラメータを受け取り、特徴パラメータに基づいて話者モデル・データベース213から受け取った一般話者モデルのガウス成分の尤度スコアを計算し、登録音声の各フレームに対する上位Nガウス成分リストを抽出する。ここで、Nは自然数であり、ある種の距離測定によって判断されうる。
テンプレート生成ユニット203において、各フレームのMFCCパラメータが一般話者モデルのガウス成分のそれぞれに適用される場合、各フレームの上位Nガウス成分リストは、以下の式で求めることが可能である。
Figure 0005853029
Figure 0005853029
ここで、パラメータXは、時刻tにおいて抽出されるMFCCパラメータなどの特徴パラメータであり、パラ−メータw、μ、およびΣは、それぞれ一般話者モデルのj番目の混合成分の重み、平均、および共分散であり、φ(X,θ)は、成分jの尤度スコアであり、φ(X,θ)は、各フレーム(t)の一般話者モデルの全尤度スコアである。
各フレームのガウス成分の尤度スコアは、ソートすることが可能であり、各フレームの最高の尤度スコアを有する上位N個のガウス成分を選択することが可能である。時刻tにおける上位N個のガウス成分のリストは、
t,s(1≦s≦N、0≦t≦T)
と表すことが可能である。
ここで、Nは、定義済みの値であるか、または最高の事後確率を有するガウス成分を含むようにガウス成分の事後確率(以下の式(4)のpt,s)に従って設定されうる。ここで、フレームのガウス成分の尤度スコアが高ければ高いほど、ガウス成分は登録音声のフレームの音響特性および/または内容に近くなる。
図3に示されているように、参照番号bt1、bt2、bt3、bt4、...は、それぞれ登録音声の各フレームを表し、参照番号1、2、3、4、5は、各フレームの抽出された5個のガウス成分を表す。ここで、Nは5である。参照番号bt1、bt2、bt3、bt4、...および参照番号1、2、3、4、5の接合点に配置されるすべてのドットは、一般話者モデルから選択された上位N個のガウス成分のリストを形成する。
図4は、登録音声を複数のセグメントに分割することを示す図である。本開示の一実施形態によれば、テンプレート生成ユニット203は、登録音声を、サイズが等しい、またはサイズが等しくない複数のセグメントに切り分け、各セグメントは複数のフレームを含む。
具体的には、テンプレート生成ユニット203では、登録音声を時間軸にそっていくつかのセグメントに切り分け、セグメントのそれぞれはいくつかの(複数の)フレームを含む。図4に示されているように、2つのオプションがありうる。オプション1は、登録音声を均等にK個のセグメントに切り分けるもので、各セグメントの持続時間(期間)は、固定された閾値を超えるべき、つまり、図4(a)に示されているように、L≧Lminである。オプション2については、これらのセグメントの個数および境界は、図4(b)に示されているように、動的上位Nガウス成分リストによって決定される。
動的セグメント分割で使用される詳細なアルゴリズムを以下のように述べるが、それだけに限定しない。
(1)以下の式(4)により時刻tにおいて上位Nリスト内の各ガウス成分の事後確率を計算する。
Figure 0005853029
(2)時刻t−1およびtにおいて2つの隣接するフレームの間の等しい成分インデックスを持つガウス成分の対を見つける。次いで、上位N個のガウス成分の事後確率に基づいて隣接する2つのフレームの間の類似度を計算する。
Figure 0005853029
代替えとして、類似度距離は、式(6)のようにガウス成分の対の階数の積に基づいて計算することが可能である。
Figure 0005853029
(3)定義済みの閾値を持つ隣接するフレームの間の距離を比較することによって登録音声をいくつかのセグメントに切り分ける。
ここで、式(5)および(6)において、jt,iは、時刻tに選択され、ソートされた上位N個のガウス成分のリスト内のi番目のガウス成分である。これらのセグメントの境界は、b,1≦k≦Kと表すことが可能である。その結果、登録音声は、上記の類似度定義式(5)または(6)に従ってK個のセグメントに分割することが可能である。
本開示の一実施形態によれば、テンプレート生成ユニット203は、各セグメント内のすべてのフレームの抽出されたガウス成分をソートし、マージして、隠れマルコフ・モデル・ネットをパスフレーズ・テンプレートとして取得する。上記ソートおよびマージを行うことは、テンプレート生成ユニット203が異なる成分インデックスを持つ各セグメント内のすべてのフレームのガウス成分をソートし、その事後確率を累算し、事後確率の距離測定内で最も近いガウス成分を見つけて、マージすることを意味する。
具体的には、テンプレート生成ユニット203では、セグメント毎に、上位Nガウス成分リスト内に存在するガウス成分は、1つのGMMにマージされるか、またはK個のクラスにクラスタ化され、K個のGMMにマージされうる。ガウス成分の一部は、成分出現頻度、上位Nにおける成分階数、各成分の事後確率の総和などの、いくつかの規則に従ってマージおよびクラスタ化を行う前に取り除くことが可能である。
図5は、1つの、または複数のGMMにマージされる登録音声の1つのセグメント内のガウス成分を示す図である。
対応するセグメントの上位Nガウス成分リスト内のガウス成分をマージするプロセスについて以下で説明する。図5に示されているように、bt−1からbまでの期間は、登録音声の1つのセグメントを表し、これはbt1、bt2、bt3、bt4、...によって表される複数のフレームを含む。図5に示されているようなセグメントにおいて、異なる成分インデックスを持つガウス成分を選択し、以下の式によって対応する事後確率を累算する。
Figure 0005853029
ここで、Iは、ガウス成分のインデックスである。(7)の目標は、各セグメント内の上位Nガウス成分リスト内に出現するIの事後確率にわたって総和することである。累算された事後確率が定義済みの閾値より低いノード502などのいくつかのガウス成分は、取り除かれる。
選択されたガウス成分は、K−means法または凝集型クラスタリングなどの、モデル・ベースのクラスタリング法を使用することによってK個のGMMに反復的にクラスタ化される。本開示の一実施形態によれば、マージのプロセスは、以下のように実行されうる。
(a)上記ステップから選択された各ガウス成分で各ガウス・クラスタを初期化し、クラスタ番号をCに設定し、
(b)式(8)のようにマハラノビス距離などのいくつかの距離測定の意味で最も近い成分を見つける。
Figure 0005853029
あるいは、バッタチャリャ距離およびKLダイバージェンスも使用することが可能である。
(c)2つの最も近いガウシアン[w,θ(μ,Σ)]、[w,θ(μ,Σ)]を以下の式(9)でマージする。
Figure 0005853029
P1およびP2は、1.0と単純に設定することもできる。式(8)および(9)において、w、μ、およびΣは、それぞれ一般話者モデルのj番目の混合成分の重み、平均、および共分散である。
(d)C=C−1、もしC≦Kであれば、停止し、そうでない場合は、(b)に移る。
図5に示されているように、参照番号504で表されるガウス成分は、1つのGMMにマージされ、参照番号505で表されるガウス成分は、1つのGMMにマージされ、参照番号506で表されるガウス成分は、1つのGMMにマージされる。例えば、3つのGMMは、最終的に、bt−1からbのセグメントで得られる。参照番号502で表されるガウス成分は、それらが定義済みの閾値より相対的に低い累算された事後確率を有するので取り除かれる。
上記プロセスは、登録音声のすべてのセグメントについて繰り返され、HMMネットを構築するためにテンプレート生成ユニット203内ですべての上位Nガウス成分リスト内に存在するガウス成分が使用される。HMMネットの各ノードは、一般話者モデルから抽出されたガウス成分によって生成されるクラスタ化されたGMMである。
図6は、マージされたGMMからなるHMMネットの図である。
マージ・プロセスの後、マージされたGMM同士を連接し、HMMネットを形成する。図6に示されているように、HMMネットの状態は、上記ガウス・マージ・プロセスによって得られるGMMからなる。同じセグメント(bt−1からbなどの期間)から得られたGMMは、HMMネット内で並列状態にあり、連続するセグメント間のGMMは完全にリンクしている。各状態の対の間の初期遷移確率は、1/Lとして割り当てることが可能であり、ただし、Lは、HMMネット内の現在状態のファンアウト弧(fan-out arcs)の総数である。
これにより、HMMネットは、一実施形態により話者照合のため作成され、目標話者のパスフレーズ・テンプレートとしてパスフレーズ・データベース205に格納される。GMMのそれぞれは、目標話者の登録音声の音響特性および/または内容を十分に表すことができる。
本開示の別の実施形態によれば、HMMネットは、MAPおよびMLLRなどの適応方法によって登録音声に従って適応され、適応されたHMMネットワークは、パスフレーズ・テンプレートとしてデータベース205に格納される。
適応ユニット207において、バウム・ウェルチ・アルゴリズムを使用して、話者の登録音声によりHMMネット上でMLLR(最尤線形回帰)/MAP(最大事後確率)ベースの適応を実行し、話者依存パスフレーズ・パターンを作成することができ、適応されたHMMネットは、適応のないHMMネットの代わりに目標話者のパスフレーズのテンプレートとしてパスフレーズ・データベース205に格納される。適応技術はありふれた手段なので、その詳細についてはこれ以降説明しない。
図7は、本開示の一実施形態による話者照合に対するパスフレーズ・モデリングの方法の流れ図を示す。
図7に示されているように、本開示の一実施形態による話者照合のためのパスフレーズ・モデリング方法は以下のステップを含む。ステップS701で、登録音声を目標話者から受け取る。ステップS702で、登録音声に基づいて一般話者モデルによりパスフレーズ・テンプレートを生成する。
本開示の一実施形態によれば、上記ステップS701は、フロント・エンド201によって実行され、上記ステップS702は、テンプレート生成ユニット203によって実行されうる。
本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、その登録音声を複数のフレームに分割するステップと、複数のフレームのそれぞれから音響特性および/または内容を表す特徴パラメータを抽出するステップとをさらに含む。上記ステップは、フロント・エンド201によって実行されうる。本開示では、一般話者モデルは、話者照合時に予測される多数の話者から収集された音声データを表す複数のガウス成分からなる。
本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、各フレームの特徴パラメータでガウス成分の各尤度スコアを計算するステップと、各フレームについて最高の尤度スコアを有するN個のガウス成分を選択するステップとをさらに含み、ただし、Nは自然数である。上記ステップは、テンプレート生成ユニット203によって実行されうる。
本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、登録音声を、各セグメントが複数のフレームを含む、サイズが等しい、または等しくない複数のセグメントに切り分けるステップをさらに含む。上記ステップは、フロント・エンド201またはテンプレート生成ユニット203によって実行されうる。
本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、各セグメント内のすべてのフレームのガウス成分をソートするステップと、ソートされたガウス成分をマージして、隠れマルコフ・モデル・ネットをパスフレーズ・テンプレートとして取得するステップとをさらに含む。上記ステップは、テンプレート生成ユニット203によって実行されうる。
本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、異なる成分インデックスを持つ各セグメント内のすべてのフレームのガウス成分をソートするステップと、ソートされたガウス成分の事後確率を累算するステップと、事後確率の距離測定において最も近いガウス成分をマージするステップとをさらに含む。上記ステップは、テンプレート生成ユニット203によって実行されうる。
本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、MAPおよびMLLRなどの適応方法によって登録音声に従ってパスフレーズ・テンプレートを適応するステップをさらに含む。上記ステップは、適応ユニット207によって実行されうる。
この方法の上記のステップの実行は、上記の順序に限定されず、これらのステップは、逐次実行および/または並列実行することができる。図示されているステップのすべてが実行される必要があるとは限らない可能性もある。
図8は、本開示の一実施形態による話者照合システムの図である。
話者照合システム全体は2つのフェーズからなり、一方は登録フェーズであり、他方はテスト・フェーズである。登録フェーズの構造は、図2を参照しつつ説明されているものと同じであり、したがってその詳細は、これ以降省く。テスト・フェーズは、フロント・エンド801および動的照合ユニット804を含む。フロント・エンド801は、目標話者からテスト音声を受け取り、そのテスト音声を特徴パラメータに変換し、それらの特徴パラメータを動的照合ユニット804に送る。フロント・エンド801およびフロント・エンド201は、1つのユニットだけで実現されうるが、これは上記の構成に限定されない。動的照合ユニット804は、フロント・エンド801から特徴パラメータを受け取り、パスフレーズ・データベース205に格納されているHMMネットから選択されたデータ(GMM)上に特徴パラメータを適用することによって目標話者のテスト音声の尤度スコアを計算する。次いで、動的照合ユニット804は、計算された尤度スコアを定義済み閾値と比較する。計算された尤度スコアが定義済み閾値以上である場合に、テスト音声を提供した目標話者は、申告話者として受理される。計算された尤度スコアが定義済み閾値未満である場合に、テスト音声は拒絶され、目標話者は、申告話者としてみなされない。
これにより、本開示の一実施形態による話者照合システムは、目標話者から登録音声および/またはテスト音声を受け取るフロント・エンド201および/または801と、登録音声に基づいて一般話者モデルによりパスフレーズ・テンプレートを生成するテンプレート生成ユニット203と、目標話者からのテスト音声をパスフレーズ・テンプレートから選択されたデータと比較する動的照合ユニット804とを備え、比較の結果が閾値以上である場合に、目標話者は申告話者として受理される。
本開示の別の実施形態によれば、話者照合システムにおいて、フロント・エンド801は、目標話者から話者識別をさらに受け取り、動的照合ユニット804は、話者識別に基づいてパスフレーズ・データベース205から比較のためのパスフレーズ・テンプレートを選択する。
具体的には、動的照合ユニット804が、テスト音声をパスフレーズ・データベース205から選択されたデータと比較する前に、フロント・エンド801は、話者から話者識別情報を受け取ることができる。その一方で、定義済みの話者識別情報は、予め、パスフレーズ・データベース205内に格納しておくことができる。フロント・エンド801は、パスフレーズ・データベース205から対応する話者識別情報をロードし、それをフロント・エンド801から受け取った話者識別情報と比較する。パスフレーズ・テンプレート・データベース205からロードされた話者識別情報がフロント・エンド801から受け取った話者識別情報と一致する場合、動的照合ユニット804は、話者識別情報に基づいてパスフレーズ・データベース205からテスト音声の照合オペレーションのためのデータを選択し、上述のように照合オペレーションを実行する。パスフレーズ・データベース205からロードされた話者識別情報がフロント・エンド801から受け取った話者識別情報と一致しない場合、動的照合ユニット804は、テスト音声の照合オペレーションを実行しない。
つまり、テスト・フェーズにおいて、申告識別を有するテスト音声は、申告識別を有する話者からのテスト音声とパスフレーズ・テンプレート(つまり、HMMネット)との間で動的照合ユニット804によって照合される。申告識別が照合されるかどうかの判断は、照合スコアおよび定義済みの閾値に従って行うことが可能である。テスト・フェーズは、本開示の主眼点ではなく、当技術分野で一般に使用される手段であるため、その詳細な説明は省く。
本開示の一実施形態によれば、システムのフロント・エンド201は、その登録音声を複数のフレームに分割し、複数のフレームのそれぞれから音響特性および/または内容を表す特徴パラメータを抽出する。
本開示の一実施形態によれば、一般話者モデルは、話者照合時に予測される多数の話者から収集された音声データを表す複数のガウス成分からなる。
本開示の一実施形態によれば、システムのテンプレート生成ユニット203は、各フレームの特徴パラメータでガウス成分の各尤度スコアを計算し、各フレームについて最高の尤度スコアを有するN個のガウス成分を選択するが、ただし、Nは自然数である。
本開示の一実施形態によれば、システムのフロント・エンド201またはテンプレート・ユニット203は、登録音声を、サイズが等しい、または等しくない複数のセグメントに切り分け、各セグメントは複数のフレームを含む。
本開示の一実施形態によれば、システムのテンプレート生成ユニット203は、各セグメント内のすべてのフレームのガウス成分をソートし、ソートされたガウス成分をマージして、隠れマルコフ・モデル・ネットをパスフレーズ・テンプレートとして取得する。
本開示の一実施形態によれば、システムのテンプレート生成ユニット203は、異なる成分インデックスを持つ各セグメント内のすべてのフレームのガウス成分をソートし、ソートされたガウス成分の事後確率を累算し、事後確率の距離測定において最も近いガウス成分をマージする。
本開示の一実施形態によれば、MAPおよびMLLRなどの適応方法によって登録音声に従ってパスフレーズ・テンプレートが適応する。
図9は、本開示の別の実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図である。
図9に示されているように、本開示の別の実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイス900は、フロント・エンド201と、テンプレート生成ユニット903と、適応ユニット907と、パスフレーズ・データベース905と、話者モデル・データベース913と、適応話者モデル・データベース914とを備える。本開示の一実施形態によれば、デバイス900は、外部ユニットまたはデバイスとしてフロント・エンド201、適応ユニット907、パスフレーズ・データベース905、および適応話者モデル・データベース914などの他のユニットに接続されるテンプレート生成ユニット903のみを備えることができる。
図9に示されているように、MAP適応は、MAPおよびMLLRなどの適応方法による登録音声に従って目標話者モデル内に一般話者モデルを適応させるために適応ユニット907において最初に使用することができ、適応目標話者モデルは、適応話者モデル・データベース914内に格納される。HMMネット、つまり、パスフレーズ・テンプレートは、テンプレート生成ユニット203によって適応目標話者モデルに基づいて作成することが可能である。
具体的には、デバイス900は、話者照合時に予測される話者の母集団を代表する多数の話者からの音声データのコレクションにより一般話者モデル(HMMまたはGMM−UBM)の学習を行う必要がある。一般話者モデルは、話者間および話者内差異によって引き起こされる豊富な変異を含むと予想される。学習済み一般話者モデルは、話者モデル・データベース913内に格納されている。
フロント・エンド201は、目標話者から登録音声を受け取り、その登録音声を特徴パラメータに変換する。適応ユニット907は、特徴パラメータを受け取り、適応のため話者モデル・データベース913に格納されている一般話者モデルのガウス成分のそれぞれに特徴パラメータを適用し、適応一般話者モデルは、適応話者モデル・データベース914内に格納される。
テンプレート生成ユニット903は、フロント・エンド201から特徴パラメータを受け取り、特徴パラメータに基づいて適応話者モデル・データベース914から受け取った適応一般話者モデルのガウス成分の尤度スコアを計算し、登録音声の各フレームに対する上位Nガウス成分リストを抽出する。テンプレート生成ユニット903は、HMMネットを構築するために上位Nガウス成分リスト内に存在するガウス成分を使用する。
構築されたHMMネットは、目標話者のパスフレーズ・テンプレートとしてパスフレーズ・データベース905に格納される。
別の実施形態によれば、本開示のパスフレーズ・モデリング方法は、MAPおよびMLLRなどの適応方法によって登録音声に従って一般話者モデルを適応するステップと、適応一般話者モデルによりパスフレーズ・テンプレートを生成するステップとをさらに含む。上記ステップは、それぞれ、適応ユニット907とテンプレート生成ユニット903とによって実行されうる。
本開示の効果を確認するために、いくつかの予備的評価を行う。第1の実験は、従来のテキスト依存話者照合システムで登録発話の数の効果を評価することである。ここで、10人の日本の若い成人の発話(男性5人と女性5人)のデータ集合が使用され、各話者は、デジタル文字列、住所、人名、および電子メール・アドレスなどを含む、15のパターンのうちのすべての発話について10回反復する。この実験では、各話者からのいくつかの発話を登録フェーズで使用し、パスフレーズ・テンプレートを構築した。同じ話者からの残された発話および他の話者からのすべての発話をテスト・フェーズで使用する。表1に示されているように、登録フェーズで使用される発話の数をチューニングすることによって、登録発話の数の効果を観察することが可能であった。
Figure 0005853029
表1には、登録発話の数が増えるにつれ、システム性能も改善されることが示されている。登録時に1回の発話のみが利用可能である場合、性能は相対的に約60%低下する。
第2の実験は、本開示の効果を評価することである。一般話者モデルは、400人を超える日本語の母語話者による大規模な学習コーパスを使用して1024個のガウス成分のUBMにより構築される。各話者は、約10分間の連続的発話を行う。このときに、登録フェーズでは目標話者からの発話を1つだけ使用し、テスト・フェーズでは、上記実験の同じ発話を使用する。適応ユニット207およびブロック207で抽出されたガウス成分の数の効果を評価する。この実験結果、つまり、本開示の効果(適応&上位Nガウス抽出)を以下の表2にまとめた。
Figure 0005853029
実験結果から、本開示により、登録に発話を1つしか使用しない話者照合システムであっても、3回反復する従来の話者照合システムと似た結果をもたらすことが可能であったことがわかる。そして、適応ユニットは、さらなる改善をもたらすことが可能であった。
前記の詳細な説明は、ブロック図、流れ図、および/または実施例を使用することで、デバイスおよび/またはプロセスのさまざまな実施形態について述べている。このようなブロック図、流れ図、および/または実施例が、1つまたは複数の機能および/または演算を含んでいる限り、そのようなブロック図、流れ図、または実施例内の各機能および/またはオペレーションは、各種のハードウェア、ソフトウェア、ファームウェア、またはこれらの実質的に任意の組み合わせによって、個別におよび/またはまとめて実装することができることを、当業者なら理解するであろう。一実施形態では、本明細書に記載の主題のいくつかの部分は、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、デジタル・シグナル・プロセッサ(DSP)、または他の集積回路形態を介して実装されうる。しかし、本明細書で開示されている実施形態のいくつかの態様は、全部または一部、1つまたは複数のコンピュータ上で実行される1つまたは複数のコンピュータ・プログラムとして(例えば、1つまたは複数のコンピュータ・システム上で実行される1つまたは複数のプログラムとして)、1つまたは複数のプロセッサ上で実行される1つまたは複数のプログラムとして(例えば、1つまたは複数のマイクロプロセッサ上で実行される1つまたは複数のプログラムとして)、ファームウェアとして、またはこれらの実質的に任意の組み合わせとして、集積回路内に等価な構成で実装されうること、またソフトウェアおよび/またはファームウェア用に回路を設計し、および/またはコードを書くことは、本開示に照らして十分に当業者の技能の範囲内にあることを、当業者なら理解するであろう。さらに、本明細書に記載の主題のメカニズムは、さまざまな形態のプログラム製品として配給することができること、また本明細書に記載の主題の例示的な一実施形態は、配給を実際に実行するために使用される特定の種類の信号伝送媒体に関係なく適用されることを、当業者なら理解するであろう。信号伝送媒体の例としては、限定はしないが、フロッピー(登録商標)・ディスク、ハードディスク・ドライブ、コンパクト・ディスク(CD)、デジタル・ビデオ・ディスク(DVD)、デジタル・テープ、コンピュータ・メモリなど記録可能型の媒体、およびデジタルおよび/またはアナログ通信媒体など送信型の媒体(例えば、光ファイバ・ケーブル、導波管、有線通信リンク、ワイヤレス通信リンクなど)が挙げられる。
本明細書に記載の主題は、ときには、異なる他のコンポーネント内に収納されるか、または接続される異なるコンポーネントを例示する。このような示されているアーキテクチャは単に例示的であること、また実際に、同じ機能を達成する他の多くのアーキテクチャを実装できることは理解されるべきである。概念的な意味において、同じ機能を達成するためにコンポーネントをどのように配置しても、所望の機能が達成されるように実際に「関連付けられる」。したがって、特定の機能を達成するように組み合わされた本明細書の任意の2つのコンポーネントは、アーキテクチャまたは中間コンポーネントに関係なく所望の機能が達成されるように互いに「関連付けられている」ものとみなせる。同様に、そのように関連付けられている任意の2つのコンポーネントは、さらに、所望の機能を達成するように互いに「動作可能なように接続される」か、または「動作可能なように結合される」とみなせ、またそのように関連付けることができる任意の2つのコンポーネントは、さらに、所望の機能を達成するように互いに「動作可能なように結合可能である」とみなせる。動作可能なように結合可能であることの特定の例としては、限定はしないが、物理的に嵌合可能である、および/または物理的に相互にやり取りするコンポーネント、および/または無線で相互にやり取りすることが可能である、および/または無線で相互にやり取りするコンポーネント、および/または論理的に相互にやり取りする、および/または論理的に相互にやり取り可能なコンポーネントが挙げられる。
本明細書における実質的に複数形および/または単数形の語の使用に関して、当業者なら、背景状況および/または用途に応じて適切に、複数形を単数形に、および/または単数形を複数形に変えることができる。さまざまな単数形/複数形の置き換えは、本明細書ではわかりやすくするために明示的に述べる場合がある。
一般に、本明細書で使用されている、また特に付属の請求項(例えば、付属の請求項の本文)で使用されている言い回しは、「制約のない」言い回し(例えば、「含むこと」という言い回しは、「限定はしないが、含むこと」と解釈すべきであり、「有する」という言い回しは、「少なくとも有する」と解釈すべきであり、「含む」という言い回しは、「限定はしないが、含む」と解釈すべきである、など)として一般的に意図されていることを、当業者なら理解するであろう。さらに、導入される請求項列挙の特定の数が意図されている場合、そのような意図は、請求項内で明示的に記載され、そのような列挙がない場合は、そのような意図は存在しないことを、当業者なら理解するであろう。例えば、理解の助けとして、以下の付属の請求項に、導入句「少なくとも1つの」および「1つまたは複数の」を入れて請求項列挙を導入することができる。しかし、このような語句を使用したとしても、不定冠詞「a」または「an」による請求項列挙の導入によって、たとえその請求項が導入句「1つまたは複数の」または「少なくとも1つの」、および「a」または「an」などの不定冠詞を含むとしても、そのような導入される請求項列挙を含む特定の請求項がそのような列挙を1つしか含まない開示に制限されることを意味すると解釈すべきではなく(例えば、「a」および/または「an」は、典型的には、「少なくとも1つの」または「1つまたは複数の」を意味すると解釈されるべきである)、請求項列挙を導入するために使用される定冠詞の使用についても同じことが成り立つ。さらに、特定の数の導入される請求項列挙が明示的に記載されるとしても、そのような列挙は、典型的には、少なくとも記載されている数を意味するものと解釈すべきであることを、当業者なら理解するであろう(例えば、ほかに修飾語を付けない「2つの列挙」という飾りのない列挙は、典型的には、少なくとも2つの列挙、または2つ以上の列挙を意味する)。「A、B、またはCなどのうちの少なくとも1つ」に類似の慣例的言い回しが使用される場合、一般的に、このような構文は、当業者がこの慣例的言い回しを理解するという意味で意図されたものである(例えば、「A、B、またはCのうちの少なくとも1つを有するシステム」は、限定はしないが、Aだけ、Bだけ、Cだけ、AおよびBを一緒に、AおよびCを一緒に、BおよびCを一緒に、および/またはA、B、およびCを一緒に、などを有するシステムを含む)。さらに、説明中であろうと、請求項中であろうと、図面中であろうと2つ以上の代替語を示す実質的に任意の離接語および/または語句は、複数の語のうちの1つ、複数の語のいずれか、または両方の語を含む可能性を考えるものと理解されるべきであることを、当業者なら理解するであろう。例えば、語句「AまたはB」は、「A」または「B」または「AおよびB」の可能性を含むと理解されるであろう。
本明細書ではさまざまな態様および実施形態が開示されているが、他の態様および実施形態も当業者には明らかであろう。本明細書で開示されているさまざまな態様および実施形態は、例示することを目的としており、制限することを意図しておらず、真の範囲および精神は以下の請求項によって示される。

Claims (14)

  1. 話者照合のためのパスフレーズ・モデリング・デバイスであって、
    前記パスフレーズ・モデリング・デバイスが備えるデータベースは、
    話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、
    前記パスフレーズ・モデリング・デバイスが備えるフロント・エンドは、
    目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、
    前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、
    前記複数のフレームの各々から音響特性および/または内容を表す特徴パラメータを抽出し、
    前記パスフレーズ・モデリング・デバイスが備えるテンプレート生成ユニットは、
    前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、
    前記算出した尤度スコアの上位N(Nは自然数)個のガウス成分を、前記複数のフレーム毎に抽出し、
    同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、
    前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、
    前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する、
    パスフレーズ・モデリング・デバイス。
  2. 前記受信した登録音声は、サイズが等しい前記複数のセグメントに分割され、
    前記複数のセグメントの各々は、複数のフレームを含む、
    請求項1に記載のパスフレーズ・モデリング・デバイス。
  3. 前記受信した登録音声は、サイズの等しくない前記複数のセグメントに分割され、
    前記複数のセグメントの各々は、複数のフレームを含む、
    請求項1に記載のパスフレーズ・モデリング・デバイス。
  4. 同一セグメントから得られた前記一以上のガウス混合モデルは、前記隠れマルコフ・モデル・ネットにおいて、並列状態である、
    請求項に記載のパスフレーズ・モデリング・デバイス。
  5. 連続するセグメントから得られた前記一以上のガウス混合モデル同士は、前記隠れマルコフ・モデル・ネットにおいてリンクしている、
    請求項に記載のパスフレーズ・モデリング・デバイス。
  6. 前記生成されたパスフレーズ・テンプレートは、MAPまたはMLLRの適応方法によって前記登録音声に従って適応される、
    請求項に記載のパスフレーズ・モデリング・デバイス。
  7. 話者照合のためのパスフレーズ・モデリング方法であって、
    話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、
    目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、
    前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、
    前記複数のフレームの各々から音響特性および/または内容を表す特徴パラメータを抽出し、
    前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、
    前記算出した尤度スコアの上位N(Nは自然数)個のガウス成分を、前記複数のフレーム毎に抽出し、
    同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、
    前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、
    前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する、
    パスフレーズ・モデリング方法。
  8. 前記受信した登録音声は、サイズが等しい前記複数のセグメントに分割され、
    前記複数のセグメントの各々は、複数のフレームを含む、
    請求項7に記載のパスフレーズ・モデリング方法。
  9. 前記受信した登録音声は、サイズの等しくない前記複数のセグメントに分割され、
    前記複数のセグメントの各々は、複数のフレームを含む、
    請求項7に記載のパスフレーズ・モデリング方法。
  10. 同一セグメントから得られた前記一以上のガウス混合モデルは、前記隠れマルコフ・モデル・ネットにおいて、並列状態である、
    請求項7に記載のパスフレーズ・モデリング方法。
  11. 連続するセグメントから得られた前記一以上のガウス混合モデル同士は、前記隠れマルコフ・モデル・ネットにおいてリンクしている、
    請求項に記載のパスフレーズ・モデリング方法。
  12. 前記生成されたパスフレーズ・テンプレートは、MAPまたはMLLRの適応方法によって前記登録音声に従って適応される、
    請求項に記載のパスフレーズ・モデリング方法。
  13. 音声を用いて話者を照合する話者照合システムであって、
    テスト話者のテスト音声を受信する、フロント・エンドと、
    前記テスト音声と、請求項7に記載のパスフレーズ・モデリング方法によってパスフレーズ・テンプレートを生成し、前記パスフレーズ・テンプレートから選択されたデータとを比較して、前記テスト音声の尤度スコアを算出する動的照合ユニットとを備え、
    前記尤度スコアが所定の閾値以上である場合、前記テスト話者は申告話者として受理される、
    話者照合システム。
  14. 前記フロント・エンドは、さらに、前記テスト話者の話者識別情報を受信し、
    前記動的照合ユニットは、前記受信した話者識別情報に基づいて、前記パスフレーズ・テンプレートから比較のための前記データを選択する、
    請求項13に記載の話者照合システム
JP2013542330A 2010-12-10 2010-12-10 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム Active JP5853029B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/079654 WO2012075641A1 (en) 2010-12-10 2010-12-10 Device and method for pass-phrase modeling for speaker verification, and verification system

Publications (2)

Publication Number Publication Date
JP2014502375A JP2014502375A (ja) 2014-01-30
JP5853029B2 true JP5853029B2 (ja) 2016-02-09

Family

ID=46206544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013542330A Active JP5853029B2 (ja) 2010-12-10 2010-12-10 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム

Country Status (4)

Country Link
US (1) US9257121B2 (ja)
JP (1) JP5853029B2 (ja)
CN (1) CN103221996B (ja)
WO (1) WO2012075641A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9147400B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for generating speaker-specific spoken passwords
US9147401B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for speaker-calibrated speaker detection
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
CN104217149B (zh) 2013-05-31 2017-05-24 国际商业机器公司 基于语音的生物认证方法及设备
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US9767787B2 (en) 2014-01-01 2017-09-19 International Business Machines Corporation Artificial utterances for speaker verification
US10157272B2 (en) 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
US8812320B1 (en) 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
EP3433856B1 (en) * 2016-03-23 2019-07-17 Telefonaktiebolaget LM Ericsson (PUBL) Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model
CN105933323B (zh) * 2016-06-01 2019-05-31 百度在线网络技术(北京)有限公司 声纹注册、认证方法及装置
CN106128464B (zh) * 2016-06-12 2019-05-31 百度在线网络技术(北京)有限公司 Ubm分字模型的建立方法、声纹特征生成方法及装置
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11295748B2 (en) * 2017-12-26 2022-04-05 Robert Bosch Gmbh Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
KR102595184B1 (ko) * 2018-05-25 2023-10-30 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110931022B (zh) * 2019-11-19 2023-09-15 天津大学 基于高低频动静特征的声纹识别方法
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11508380B2 (en) * 2020-05-26 2022-11-22 Apple Inc. Personalized voices for text messaging
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185181A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声モデルの生成方法並びにその音声モデルを用いた話者認識方法及び話者認識装置
JP2001255887A (ja) * 2000-03-09 2001-09-21 Rikogaku Shinkokai 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
US20040186724A1 (en) * 2003-03-19 2004-09-23 Philippe Morin Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience
JP4717872B2 (ja) * 2006-12-06 2011-07-06 韓國電子通信研究院 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
EP2182512A1 (en) * 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
CN101814159B (zh) * 2009-02-24 2013-07-24 南京工程学院 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法

Also Published As

Publication number Publication date
WO2012075641A1 (en) 2012-06-14
CN103221996A (zh) 2013-07-24
CN103221996B (zh) 2015-09-30
US20130238334A1 (en) 2013-09-12
US9257121B2 (en) 2016-02-09
JP2014502375A (ja) 2014-01-30

Similar Documents

Publication Publication Date Title
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
Desai et al. Feature extraction and classification techniques for speech recognition: A review
Chavan et al. An overview of speech recognition using HMM
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US10490182B1 (en) Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks
KR20140082157A (ko) 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
CN102024455A (zh) 说话人识别系统及其方法
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
US11495234B2 (en) Data mining apparatus, method and system for speech recognition using the same
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Verma et al. Indian language identification using k-means clustering and support vector machine (SVM)
JP2008146054A (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
Kumar et al. Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review
CN114023336A (zh) 模型训练方法、装置、设备以及存储介质
Ons et al. A self learning vocal interface for speech-impaired users
Soni et al. Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Indumathi et al. Speaker identification using bagging techniques
Vasudev et al. Query-by-example spoken term detection using bessel features
Djellali et al. Random vector quantisation modelling in automatic speaker verification
Shahsavari et al. Speech activity detection using deep neural networks
Gubka et al. Universal approach for sequential audio pattern search
Farhood et al. Investigation on model selection criteria for speaker identification
Daqrouq et al. An investigation of wavelet average framing LPC for noisy speaker identification environment
Doungpaisan et al. Language and Text-Independent Speaker Recognition System Using Energy Spectrum and MFCCs

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151207

R150 Certificate of patent or registration of utility model

Ref document number: 5853029

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150