JP4652232B2 - 話者の圧縮表現用の音声信号の分析のための方法およびシステム - Google Patents

話者の圧縮表現用の音声信号の分析のための方法およびシステム Download PDF

Info

Publication number
JP4652232B2
JP4652232B2 JP2005507539A JP2005507539A JP4652232B2 JP 4652232 B2 JP4652232 B2 JP 4652232B2 JP 2005507539 A JP2005507539 A JP 2005507539A JP 2005507539 A JP2005507539 A JP 2005507539A JP 4652232 B2 JP4652232 B2 JP 4652232B2
Authority
JP
Japan
Prior art keywords
speaker
speech
similarity
speakers
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005507539A
Other languages
English (en)
Other versions
JP2007514959A (ja
Inventor
ヤシーヌ・マミ
デルフィーヌ・シャルル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2007514959A publication Critical patent/JP2007514959A/ja
Application granted granted Critical
Publication of JP4652232B2 publication Critical patent/JP4652232B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音声信号を分析するための方法および装置に関する。
音声信号の分析には、特に、話者の表現を行えることが必要である。話者のガウス分布の混合(a mixture of Gaussians)(「ガウス混合モデル」(Gaussian Mixture Model)またはGMM)による表現は、話者の音響的または音声的な本人性(identity)の効率的な表現である。この技法によれば、話者の表現が、所定の次元の音響レファレンス空間内で、所定の個数のガウス分布の重み付け総和によって行われる。
このタイプの表現が正確であるのは、大量のデータが利用可能であるとき、および、モデルのパラメータの格納に関して、またはこうした数多くのパラメータ上での計算の実行に関して、物理的な制約がないときである。
ところが実際には、ITシステムの内部で話者の表現を行うには、話者の発話する時間が短いこと、ならびに、こうした表現に必要なメモリの大きさおよびこうしたパラメータに関する計算の回数が大きすぎることが明らかとなった。
したがって、話者の表現を、その話者の表現に必要なパラメータの個数を思い切って減らしながらも、正しい性能は維持するような手法で試みることは重要である。性能とは、ある話者に属するまたは属さないと認識される音声系列の、音声系列の総数に対する誤り率という意味である。
この点に関する解決案の提案が、特に、D. E. Sturim、D. A. Reynolds、E. SingerおよびJ. P. Campbellによる「SPEAKER INDEXING IN LARGE AUDIO DATABASES USING ANCHOR MODELS」という文書の中で行われている。具体的には、著者らは、話者の表現は、音響レファレンス空間内で絶対的にではなく、アンカーモデル(anchor model)と呼ばれるレファレンス話者の表現からなる所定の組に関して相対的に行うことを提案しており、これに対してはGMM-UBMモデルが使用可能である(UBMは「Universal Background Model」(普遍背景モデル)を表す)。話者とレファレンス話者の間の近さの評価は、ユークリッド距離によって行われる。これにより、計算の負荷は著しく減少するが、性能はなお限られており不十分である。
D. E. Sturim、D. A. Reynolds、E. SingerおよびJ. P. Campbellによる「SPEAKER INDEXING IN LARGE AUDIO DATABASES USING ANCHOR MODELS」という文書
以上のことに鑑み、本発明の一目的は、音声信号の、話者をレファレンス話者の所定の組に関して表現することによる分析を、パラメータの個数を減らして実時間の適用のために計算の負荷を減少させ、容認できる性能で、GMM-UBMモデルによる表現を用いた分析による比較によって行うことである。
その場合、たとえば、話者がインデキシングキーである大規模データベースのオーディオ文書のインデキシングを行うことが可能になる。
したがって、本発明の一態様によれば、話者(λ)の音声信号の分析の方法であって、話者(λ)の所定のモデルでの音声表現と、E人のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似度を表す確率密度を使用し、確率密度を、これから音声信号についての情報を導出するように分析する方法が提案される。
これにより、使用されるパラメータの数を思い切って減らすことが可能になり、この方法を実装する装置の実時間の動作が、計算時間を減少させる一方、必要な記憶装置の大きさを減少させながら行えることができるようになる。
好ましい一実施形態では、D次元の、M個のガウス分布からなる混合分布を用いる絶対モデル(GMM)を所定のモデルとし、これに対する話者(λ)の表現は、前記絶対モデル(GMM)におけるガウス混合分布の重み付け係数(αi、i=1からMまで)、D次元の平均ベクトル(μi、i=1からMまで)、およびD×D型の共分散行列(Σi、i=1からMまで)を含むパラメータの組によって行われる。
有利な一実施形態では、話者(λ)の前記音声信号の表現と、レファレンス話者の音声表現からなる所定の組との間の類似度の確率密度の表現が、E人のレファレンス話者からなる所定の組への類似度の空間内で推定されるE次元の平均ベクトル(μλ)およびE×E型の共分散行列(Σλ)のガウス分布(ψ(μλλ))によって行われる。
好ましい一実施形態では、話者(λ)のE人のレファレンス話者に関する類似度(ψ(μλλ))の定義は、話者(λ)に対して音声信号のNλ個のセグメントがあってその表現はE人のレファレンス話者からなる所定の組に関する類似度の前記空間のNλ個のベクトルによって行われ、話者(λ)のE人のレファレンス話者に関する前記類似度のE次元の平均ベクトル(μλ)と共分散行列(Σλ)との関数として行われる。
有利な一実施形態では、事前情報が、E人のレファレンス話者に関する類似度
Figure 0004652232
の確率密度へとさらに導入される。
好ましい一実施形態では、話者(λ)の共分散行列が、前記話者とは独立
Figure 0004652232
である。
本発明の別の態様によれば、E人のレファレンス話者からなる所定の組の音声信号および所定のモデルでのそれに関連する音声表現が格納されるデータベース、ならびにオーディオアーカイブのデータベースを含む話者(λ)の音声信号の分析のためのシステムであって、音声信号の分析を、話者の音声表現と、E人のレファレンス話者の音声表現からなる所定の組との間の類似度のベクトル表現を用いて行う手段を含むことを特徴とするシステムが提案される。
有利な一実施形態では、データベースには、前記分析のための手段によって行われた音声信号分析も格納される。
本発明は、オーディオ文書のインデキシングに適用することができるが、話者の音響的識別や話者の本人性の確認などの他の適用例も想定されている。
本発明の他の目的、特徴および利点は、以下の説明を読むと明らかとなろう。この説明は、非限定的な例として与えてあり、1枚しかない添付の図面への参照とともに提供している。
この図面は、オーディオデータベースのインデキシングに関する本発明の一態様によるシステムの適用例を表している。また、もちろん、本発明は、話者の音響的識別、または話者の本人性の確認に、すなわち、一般的には、その話者に関する音響信号中の情報の認識にも適用される。このシステムは、話者の音声データを受け取る手段、たとえばマイクロフォン1を含み、これは、有線または無線の接続2により、話者λが発声し、1組の音声信号を含む要求を録音する手段3へとリンクされている。録音手段3は、接続4によってストレージ手段5へ、また接続6によって、その要求の音響的処理の手段7へとリンクされている。これら処理の音響的手段により、話者λの音声信号からD次元の音響空間内の表現への変換が、話者λを表現するGMMモデルによって行われる。
この表現は、式
Figure 0004652232
によるM個のガウス分布の重み付け総和によって定義され、ここで、
Dは、絶対GMMモデルの音響空間の次元であり、
xは、D次元の音響ベクトル、すなわち、絶対GMMモデル内での話者λのある音声信号系列のケプストラル(cepstral)係数からなるベクトルであり、
Mは、絶対GMMモデルのガウス分布の個数を表し、一般に2の冪乗であって16と1024の間にあり、
bi(x)は、i=1からDまでとして、D次元の平均ベクトルμiおよびD×D型の共分散行列Σiをパラメータとするガウス分布を表し、
αiは、i=1からDまでとして、絶対GMMモデル中のガウス混合分布の重み付け係数を表す。
要求の音響的処理の手段7は、接続8によって分析の手段9へとリンクされる。これら分析の手段9では、ある話者の表現を、選ばれたGMMモデル中の前記話者の音声表現と、選ばれたGMMモデル中のE人のレファレンス話者の音声表現との間の類似度(resemblances)を表す確率密度ベクトルによって行うことができる。分析の手段9では、さらに、話者の確認および/または識別のための検査を行うことができる。
こうした検査を行うために、分析手段では、確率密度のベクトル、すなわち、話者とレファレンス話者の間の類似度の定式化を引き受ける。
これは、話者λの信号の単一のセグメントxの関連性のある表現を、次の式、
Figure 0004652232
で表すことを含み、ここで、
wλは、E人のレファレンス話者からなる所定の組への類似度からなる空間のベクトルであり、この表現空間内でセグメントxを表し、
Figure 0004652232
は、確率密度または普遍モデル(universal model)によって正規化された確率であり、レファレンス話者
Figure 0004652232
の条件の下での、話者λの音声信号のセグメントの音響表現xλの類似度を表し、
Txは、発話セグメントxのフレームのまたは音響ベクトルの個数であり、
Figure 0004652232
は、レファレンス話者
Figure 0004652232
の条件の下での、話者λの音声信号のセグメントの音響表現xλの類似度を表す確率であり、
Figure 0004652232
は、UBM世界モデル(UBM world model)内での話者λの音声信号のセグメントの音響表現xλの類似度を表す確率であり、
Mは、相対GMMモデルのガウス分布の個数であり、一般に2の冪乗であって16と1024の間にあり、
Dは、絶対GMMモデルの音響空間の次元であり、
xλは、D次元の音響ベクトル、すなわち、絶対GMMモデル内での話者λのある音声信号系列のケプストラム係数からなるベクトルであり、
bk(x)は、k=1からDまでとして、D次元の平均ベクトルμkおよびD×D次元の共分散行列Σkをパラメータとするガウス密度を表し、
αkは、k=1からDまでとして、絶対GMMモデルでのガウス混合分布の重み付けを行う係数を表す。
話者λの発話xj(j=1、...、Nλ)のセグメントの表現Wjに基づいて、話者λの表現は、次の関係で定義されるパラメータμλおよびΣλのガウス分布ψによって行われ、
Figure 0004652232
ここで、
Figure 0004652232
は、話者λのE人のレファレンス話者に関する類似度ψ(μλλ)のE次元の平均ベクトルμλの成分を表し、
Figure 0004652232
は、話者λのE人のレファレンス話者に関する類似度ψ(μλλ)のE×E型の共分散行列Σλの成分を表す。
分析手段9は、接続10によってトレーニング手段11へとリンクされ、これは、選ばれたGMMモデルでのE人のレファレンス話者の音声表現を、D次元のベクトルの形で計算することを可能にしている。トレーニング手段11は、接続12によってデータベース13へとリンクされ、これは、話者からなる所定の組の音声信号、および、レファレンスGMMモデルでのその関連する音声表現を含む。また、このデータベースには、前記E人のレファレンス話者以外の初期話者の音声信号の分析の結果を格納することができる。データベース13は、接続14によって分析の手段9へ、また接続15によって音響処理手段7へとリンクされる。
このシステムは、さらに、データベース16を含み、これは、接続17によって音響処理手段7へ、また接続18によって分析手段9へとリンクされる。データベース16は、音声項目(vocal items)の形のオーディオアーカイブ、および、選ばれたGMMモデルでの関連する音声表現を含む。また、データベース16には、分析手段9によって計算したオーディオ項目の関連する表現を格納することができる。トレーニング手段11は、さらに、接続19によって音響処理手段7へとリンクされる。
次に、このシステムの動作のしかたの例を説明することにするが、これは、使用されるパラメータの数がGMMモデルに関してかなり減っているため、また多くのステップをオフラインで行ってもよいため、実時間で動作することができる。
トレーニングモジュール11では、E人のレファレンス話者のレファレンスGMMモデルでの表現の決定を、データベース13に格納されているこれらE人のレファレンス話者の音声信号と、音響処理手段7の音声信号とによって行うことになる。この決定は、上で触れた関係(1)から(3)に従って行われる。このE人のレファレンス話者からなる組は、新しい音響表現空間に相当することになる。E人のレファレンス話者のGMMモデルでのこうした表現は、記憶装置(memory)、たとえば、データベース13に格納される。これはすべて、オフラインで行ってもよい。
音声データは、話者λからの受け取りが、たとえば、マイクロフォン1を介して行われると、接続2を介して録音手段3へと送られるが、ここでは、こうしたデータのストレージ手段5への格納を接続4の助けで行うことができる。録音手段3は、この録音を、音響処理の手段7へ、接続6を介して送る。音響処理の手段7では、話者の所定のGMMモデルでの音声表現の計算を、上の関係(1)から(3)に関して前に述べたように行う。
さらに、音響処理の手段7では、たとえば、オフラインで、S人のテスト話者からなる組およびT人の話者からなる組の所定のGMMモデルでの音声表現が計算されている。これらの組は別個のものである。これらの表現が、データベース13に格納される。分析の手段9では、たとえば、オフラインで、S人の話者とT人の話者とのE人のレファレンス話者に関する音声表現を計算する。この表現は、前に述べたように、これらE人のレファレンス話者に関するベクトル表現である。また、分析の手段9では、たとえば、オフラインで、S人の話者とT人の話者とのE人のレファレンス話者に関する音声表現、および、オーディオベースの話者の項目の音声表現を行う。この表現は、これらE人のレファレンス話者に関するベクトル表現である。
処理手段7は、話者λの所定のGMMモデルでの音声表現を、分析の手段9へと送るが、ここでは、話者λの音声表現を計算する。この表現は、E人のレファレンス話者への類似度の確率密度による表現である。その計算は、事前情報(a priori information)をT人の話者の音声表現によって導入することによって行われる。具体的には、この事前情報の使用により、信頼できる推定を維持することが、話者λの利用可能な発話セグメントの数が少ないときでも可能になる。事前情報は、次の式によって導入される。
Figure 0004652232
ここで、
μλ:話者λのE人のレファレンス話者に関する類似度ψ(μλλ)のE次元の平均ベクトル、
Nλ:E人のレファレンス話者からなる所定の組への類似度の空間のNλ個のベクトルによって表される、話者λの音声信号のセグメントの個数、
W:T人の話者spk_i(i=1からTまで)からなる組の初期データすべての行列であり、その列は、E人のレファレンス話者からなる所定の組に関する類似度の空間のベクトルによって表される音声信号セグメントを表すE次元のベクトルであって、各話者spk_iが、そのE次元の平均ベクトルμ0と、そのE×E型の共分散行列Σ0とによって表されるNi個の音声セグメントをもつもの、
Figure 0004652232
:話者λのE人のレファレンス話者に関する類似度
Figure 0004652232
のE次元の平均ベクトルであって、事前情報を導入したもの、および、
Figure 0004652232
:話者λのE人のレファレンス話者に関する類似度
Figure 0004652232
のE×E型の共分散行列であって、事前情報を導入したものである。
しかも、話者ごとに単一の共分散行列をとり、それにより、前記行列の対角化をオフラインで行えるようにすることが可能であり、すると、確率密度の計算は、対角共分散行列で行われることになる。この場合、この単一の共分散行列は、関係
Figure 0004652232
に従って定義され、ここで、
Wは、T人の話者spk_i(i=1からTまで)からなる組の初期データすべての行列であり、その列は、E人のレファレンス話者からなる所定の組に関する類似度の空間のベクトルによって表される音声信号セグメントを表すE次元のベクトルであって、各話者spk_iが、そのE次元の平均ベクトルμ0と、そのE×E型の共分散行列Σ0とによって表されるNi個の音声セグメントをもつものである。
次に、分析手段9では、要求とベースの項目との音声表現の比較を、話者の識別および/または確認の検査によって行うことになる。話者識別検査は、テストセグメントwxのベクトルと、オーディオベースの項目の表現からなる組との間の尤度の尺度を評価するものである。識別される話者は、S人の話者からなる組のうちで最尤スコア、すなわち、
Figure 0004652232
を与える話者に対応する。
話者確認検査は、テストセグメントwxのベクトルと、オーディオベースの項目の表現からなる組との間の尤度のスコアを、事前情報の表現によるその尤度のスコアで正規化したものを計算するものである。セグメントの認証は、そのスコアが与えられた所定の閾値を越えるときに行われ、前記スコアは、次の関係によって与えられる。
Figure 0004652232
話者λがベースの項目の中で認識されるたびに、この項目の情報によるインデキシングが行われ、それにより、話者λがこのオーディオ項目の中で話していることを確かめることが可能になる。
本発明は、話者の認識または識別などの他の用途にも適用することができる。
このコンパクトな話者の表現により、計算コストを思い切って減らすことが可能になるが、これは、話者の表現に必要なパラメータの数の思い切った減少を考えると、より少ない基本演算(elementary operations)が数多くあるためである。
たとえば、ある話者の4秒、すなわち250フレームの発話の要求の場合、ガウス分布が16個の27次元のGMMモデルでは、基本演算の数は540分の1に減り、これにより、計算時間がかなり減らされる。さらに、この話者の表現の格納に使用される記憶装置の大きさが、かなり減らされる。
したがって、本発明により、話者の音声信号の分析を、計算のための時間と、この話者の音声表現を格納するための記憶装置の大きさを思い切って減らしながら行うことが可能になる。
オーディオ文書のインデキシングに関する方法の使用の適用例を示す図である。
符号の説明
1 マイクロフォン
2 有線または無線の接続
3 録音手段
4 接続
5 ストレージ手段
6 接続
7 音響処理手段
8 接続
9 分析手段
10 接続
11 トレーニング手段
12 接続
13 データベース
14 接続
15 接続
16 データベース
17 接続
18 接続
19 接続

Claims (9)

  1. 話者(λ)の音声信号の分析の方法であって、前記話者(λ)の所定のモデルでの音声表現と、E人のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似度を表す確率密度を使用し、
    D次元の、M個のガウス分布の混合を用いる絶対モデル(GMM)を所定のモデルとし、これに対する前記話者(λ)の表現は、前記絶対モデル(GMM)における前記ガウス分布の混合の重み付け係数(α i 、i=1からMまで)、D次元の平均ベクトル(μ i 、i=1からMまで)、およびD×D型の共分散行列(Σ i 、i=1からMまで)を含むパラメータの組によって行われ、
    前記話者(λ)の前記音声信号の前記表現と、前記レファレンス話者の音声表現からなる前記所定の組との間の前記類似度の前記確率密度が、E人のレファレンス話者からなる前記所定の組への類似度の空間内で推定されるE次元の平均ベクトル(μ λ )およびE×E型の共分散行列(Σ λ )のガウス分布(ψ(μ λ λ ))によって表現され、
    前記確率密度を、これから前記音声信号についての情報を導出するように分析することを特徴とする方法。
  2. 前記話者(λ)の前記E人のレファレンス話者に関する前記類似度(ψ(μλλ))は、前記話者(λ)に対して、E人のレファレンス話者からなる前記所定の組に関する類似度の前記空間のNλ個のベクトルによって表現される音声信号のNλ個のセグメントが存在し、前記話者(λ)の前記E人のレファレンス話者に関する前記類似度のE次元の平均ベクトル(μλ)と共分散行列(Σλ)との関数として定義されることを特徴とする、請求項1に記載の方法。
  3. 事前情報が、前記E人のレファレンス話者に関する前記類似度
    Figure 0004652232
    の前記確率密度へとさらに導入されることを特徴とする、請求項2に記載の方法。
  4. 前記話者(λ)の前記共分散行列が、前記話者とは独立
    Figure 0004652232
    であることを特徴とする請求項3に記載の方法。
  5. 話者からなる所定の組の音声信号およびこれに関連するガウス分布の混合を用いる所定のモデルでの音声表現が格納されるデータベースを有する、話者(λ)の音声信号の分析のためのシステムであって、
    D次元の、M個のガウス分布の混合を用いる絶対モデル(GMM)を所定のモデルとし、これに対する前記話者(λ)の表現は、前記絶対モデル(GMM)における前記ガウス分布の混合の重み付け係数(α i 、i=1からMまで)、D次元の平均ベクトル(μ i 、i=1からMまで)、およびD×D型の共分散行列(Σ i 、i=1からMまで)を含むパラメータの組によって行われ、
    前記話者(λ)の前記音声信号の前記表現と、前記レファレンス話者の音声表現からなる前記所定の組との間の前記類似度の前記確率密度が、E人のレファレンス話者からなる前記所定の組への類似度の空間内で推定されるE次元の平均ベクトル(μ λ )およびE×E型の共分散行列(Σ λ )のガウス分布(ψ(μ λ λ ))によって表現され、
    前記音声信号の分析を、前記話者(λ)の音声表現と、E人のレファレンス話者の音声表現からなる所定の組との間の類似度を表す確率密度を用いて行う手段を含むことを特徴とするシステム。
  6. 前記データベースには、前記分析のための手段によって行われた音声信号分析がさらに格納されることを特徴とする、請求項5に記載のシステム。
  7. オーディオ文書のインデキシングのための、請求項1から4のいずれか一項に記載の方法の使用。
  8. 話者の識別のための、請求項1から4のいずれか一項に記載の方法の使用。
  9. 話者の確認のための、請求項1から4のいずれか一項に記載の方法の使用。
JP2005507539A 2003-07-01 2003-07-01 話者の圧縮表現用の音声信号の分析のための方法およびシステム Expired - Fee Related JP4652232B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FR2003/002037 WO2005015547A1 (fr) 2003-07-01 2003-07-01 Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs

Publications (2)

Publication Number Publication Date
JP2007514959A JP2007514959A (ja) 2007-06-07
JP4652232B2 true JP4652232B2 (ja) 2011-03-16

Family

ID=34130575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005507539A Expired - Fee Related JP4652232B2 (ja) 2003-07-01 2003-07-01 話者の圧縮表現用の音声信号の分析のための方法およびシステム

Country Status (7)

Country Link
US (1) US7539617B2 (ja)
EP (1) EP1639579A1 (ja)
JP (1) JP4652232B2 (ja)
KR (1) KR101011713B1 (ja)
CN (1) CN1802695A (ja)
AU (1) AU2003267504A1 (ja)
WO (1) WO2005015547A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1881443B1 (en) * 2003-10-03 2009-04-08 Asahi Kasei Kogyo Kabushiki Kaisha Data processing unit, method and control program
ATE491202T1 (de) * 2006-05-16 2010-12-15 Loquendo Spa Kompensation der variabilität zwischen sitzungen zur automatischen extraktion von informationen aus sprache
JP4717872B2 (ja) * 2006-12-06 2011-07-06 韓國電子通信研究院 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
AU2007335251B2 (en) 2006-12-19 2014-05-15 Validvoice, Llc Confidence levels for speaker recognition
CN102237084A (zh) * 2010-04-22 2011-11-09 松下电器产业株式会社 声音空间基准模型的在线自适应调节方法及装置和设备
US8635067B2 (en) * 2010-12-09 2014-01-21 International Business Machines Corporation Model restructuring for client and server based automatic speech recognition
US9595260B2 (en) * 2010-12-10 2017-03-14 Panasonic Intellectual Property Corporation Of America Modeling device and method for speaker recognition, and speaker recognition system
JP6556575B2 (ja) 2015-09-15 2019-08-07 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
CA3172758A1 (en) * 2016-07-11 2018-01-18 FTR Labs Pty Ltd Method and system for automatically diarising a sound recording

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110792A (ja) * 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2002140087A (ja) * 2000-06-02 2002-05-17 Canon Inc 音声処理システム
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5790758A (en) * 1995-07-07 1998-08-04 The United States Of America As Represented By The Secretary Of The Navy Neural network architecture for gaussian components of a mixture density function
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
US6212498B1 (en) * 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6009390A (en) * 1997-09-11 1999-12-28 Lucent Technologies Inc. Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
US6754628B1 (en) * 2000-06-13 2004-06-22 International Business Machines Corporation Speaker recognition using cohort-specific feature transforms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110792A (ja) * 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2002140087A (ja) * 2000-06-02 2002-05-17 Canon Inc 音声処理システム
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法

Also Published As

Publication number Publication date
US20060253284A1 (en) 2006-11-09
CN1802695A (zh) 2006-07-12
EP1639579A1 (fr) 2006-03-29
AU2003267504A1 (en) 2005-02-25
KR101011713B1 (ko) 2011-01-28
JP2007514959A (ja) 2007-06-07
WO2005015547A1 (fr) 2005-02-17
US7539617B2 (en) 2009-05-26
KR20060041208A (ko) 2006-05-11

Similar Documents

Publication Publication Date Title
Chauhan et al. Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database
US6772119B2 (en) Computationally efficient method and apparatus for speaker recognition
US11315550B2 (en) Speaker recognition device, speaker recognition method, and recording medium
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
US6751590B1 (en) Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
Poddar et al. Performance comparison of speaker recognition systems in presence of duration variability
US6230129B1 (en) Segment-based similarity method for low complexity speech recognizer
US6389392B1 (en) Method and apparatus for speaker recognition via comparing an unknown input to reference data
US20040122672A1 (en) Gaussian model-based dynamic time warping system and method for speech processing
JP4652232B2 (ja) 話者の圧縮表現用の音声信号の分析のための方法およびシステム
Rahman et al. Employing phonetic information in DNN speaker embeddings to improve speaker recognition performance
Ozaydin Design of a text independent speaker recognition system
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
Yu et al. Language Recognition Based on Unsupervised Pretrained Models.
Jakubec et al. On deep speaker embeddings for speaker verification
JP2531227B2 (ja) 音声認識装置
Singh et al. Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Somervuo et al. Feature transformations and combinations for improving ASR performance.
Efat et al. Identifying optimised speaker identification model using hybrid GRU-CNN feature extraction technique
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
Yerramreddy et al. Speaker Identification Using MFCC Feature Extraction: A Comparative Study Using GMM, CNN, RNN, KNN and Random Forest Classifier
CN112420057B (zh) 基于距离编码的声纹识别方法、装置、设备及存储介质
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091208

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101215

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131224

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees