JP2000081894A - 音声評価方法 - Google Patents
音声評価方法Info
- Publication number
- JP2000081894A JP2000081894A JP11248458A JP24845899A JP2000081894A JP 2000081894 A JP2000081894 A JP 2000081894A JP 11248458 A JP11248458 A JP 11248458A JP 24845899 A JP24845899 A JP 24845899A JP 2000081894 A JP2000081894 A JP 2000081894A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- eigenspace
- speech
- learning
- evaluation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012795 verification Methods 0.000 claims description 27
- 238000007476 Maximum Likelihood Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 230000003449 preventive effect Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 14
- 230000007704 transition Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 9
- 230000009467 reduction Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000012880 independent component analysis Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 102000005717 Myeloma Proteins Human genes 0.000 description 2
- 108010045503 Myeloma Proteins Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 210000003928 nasal cavity Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000963438 Gaussia <copepod> Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Collating Specific Patterns (AREA)
Abstract
(57)【要約】
【課題】 話者識別および話者照合方法を提供する。
【解決手段】 登録話者の音声に基づいて(話者照合の
場合にはさらに詐称者の音声にも基づいて)音声モデル
を作成し学習する。音声モデルからのパラメータを連接
してスーパーベクトルを定義する。スーパーベクトルに
対して線形変換を施して次元数を削減し、低次元空間
(固有空間と呼ぶ)を生成する。学習用話者は点または
分布として固有空間内に表される。その後、試験用話者
からの未知音声に対して同様の線形変換を施して固有空
間内に位置づける。固有空間内の試験用話者の学習用話
者に対する類似度によって試験用話者を認識する。
場合にはさらに詐称者の音声にも基づいて)音声モデル
を作成し学習する。音声モデルからのパラメータを連接
してスーパーベクトルを定義する。スーパーベクトルに
対して線形変換を施して次元数を削減し、低次元空間
(固有空間と呼ぶ)を生成する。学習用話者は点または
分布として固有空間内に表される。その後、試験用話者
からの未知音声に対して同様の線形変換を施して固有空
間内に位置づける。固有空間内の試験用話者の学習用話
者に対する類似度によって試験用話者を認識する。
Description
【0001】
【発明の属する技術分野】この発明は音声処理技術に関
し、さらに詳しくは、話者照合あるいは話者識別を実行
するシステムおよび方法に関する。
し、さらに詳しくは、話者照合あるいは話者識別を実行
するシステムおよび方法に関する。
【0002】
【従来の技術および解決しようとする課題】本人である
ことを認識することは、ほとんどすべての取引における
中心問題である。多くの人が電話を通じて自己の預金口
座にアクセスしたり自己のクレジットカードを使用した
りというような秘密の金融取引を行っている。現在実施
されている本人であることの認識は決して簡単ではな
い。政党間では、社会保障番号、母親の旧姓などの秘密
情報の交換が行われているであろう。このような情報は
盗まれる可能性があり、その場合には誤った認識がされ
ることになる。
ことを認識することは、ほとんどすべての取引における
中心問題である。多くの人が電話を通じて自己の預金口
座にアクセスしたり自己のクレジットカードを使用した
りというような秘密の金融取引を行っている。現在実施
されている本人であることの認識は決して簡単ではな
い。政党間では、社会保障番号、母親の旧姓などの秘密
情報の交換が行われているであろう。このような情報は
盗まれる可能性があり、その場合には誤った認識がされ
ることになる。
【0003】この発明の1つの局面においては、話者照
合を実行するシステムおよび方法を提供することにより
上述の問題に焦点をあてる。話者照合では、与えられた
音声が特定の話者(ここでは、登録話者という)に属す
るか詐称者(登録話者以外のだれか)に属するかを決定
することが必要とされる。
合を実行するシステムおよび方法を提供することにより
上述の問題に焦点をあてる。話者照合では、与えられた
音声が特定の話者(ここでは、登録話者という)に属す
るか詐称者(登録話者以外のだれか)に属するかを決定
することが必要とされる。
【0004】話者識別における問題点は話者照合におけ
る問題点と多少関係している。話者識別では、与えられ
た音声を既得の音声集合の中の1つにマッチングさせる
必要がある。話者照合と同様、話者識別にも多くの興味
深い応用例がある。例えば、話者識別システムは、音声
サンプルを利用することができる話者群に関して話者に
よる音声メールを区分することに使用されるかもしれな
い。このような能力によれば、音声メールシステムにメ
ッセージを残した通話者の身元をコンピュータ画面に表
示させるコンピュータテレフォニーシステムが可能とな
る。
る問題点と多少関係している。話者識別では、与えられ
た音声を既得の音声集合の中の1つにマッチングさせる
必要がある。話者照合と同様、話者識別にも多くの興味
深い応用例がある。例えば、話者識別システムは、音声
サンプルを利用することができる話者群に関して話者に
よる音声メールを区分することに使用されるかもしれな
い。このような能力によれば、音声メールシステムにメ
ッセージを残した通話者の身元をコンピュータ画面に表
示させるコンピュータテレフォニーシステムが可能とな
る。
【0005】話者照合および話者識別の応用例はほとん
ど無数に存在するが、話者照合および話者識別の実行の
解明はこれまでわかりにくいものであった。人間の音声
を認識すること、特にその話者を他の話者から識別する
ことは複雑な問題である。人は、たった一つの単語でさ
え全く同じように二度話すことはめったにない。これ
は、人間の発声法が原因となっている。
ど無数に存在するが、話者照合および話者識別の実行の
解明はこれまでわかりにくいものであった。人間の音声
を認識すること、特にその話者を他の話者から識別する
ことは複雑な問題である。人は、たった一つの単語でさ
え全く同じように二度話すことはめったにない。これ
は、人間の発声法が原因となっている。
【0006】人間の音声は以下のようにして生成され
る。肺から押し出された空気が声帯を通り抜け、声門に
より調音され音声波が生成される。音声波は口腔および
鼻腔で共鳴し、その後、舌、顎、歯、唇により言語音が
作られる。これらの音声生成機構の相互作用に対して、
様々な要素が影響を及ぼす。例えば、かぜにより声帯の
音質が大きく変化するのと同様に鼻腔の共鳴も大きく変
化する。
る。肺から押し出された空気が声帯を通り抜け、声門に
より調音され音声波が生成される。音声波は口腔および
鼻腔で共鳴し、その後、舌、顎、歯、唇により言語音が
作られる。これらの音声生成機構の相互作用に対して、
様々な要素が影響を及ぼす。例えば、かぜにより声帯の
音質が大きく変化するのと同様に鼻腔の共鳴も大きく変
化する。
【0007】人間の音声生成における複雑さおよび変わ
りやすさのため、話者照合および話者識別は、新たな音
声を既得の音声サンプルと比較することにより容易に実
行できるというわけではない。詐称者を除外するために
類似度のしきい値を高く設定すると、本物の話者が鼻風
邪を引いている場合にはその本物の話者を棄却してしま
うことがある。一方、類似度のしきい値を低く設定する
と、システムは誤った照合を起こしやすくなる。
りやすさのため、話者照合および話者識別は、新たな音
声を既得の音声サンプルと比較することにより容易に実
行できるというわけではない。詐称者を除外するために
類似度のしきい値を高く設定すると、本物の話者が鼻風
邪を引いている場合にはその本物の話者を棄却してしま
うことがある。一方、類似度のしきい値を低く設定する
と、システムは誤った照合を起こしやすくなる。
【0008】
【課題を解決するための手段】請求項1に従った音声評
価方法は、登録話者に関する音声評価方法であって、少
なくとも一人の登録話者を含む複数の学習用話者の音声
に基づいて、音声モデル集合を学習するステップと、音
声モデル集合の次元数を削減して基本ベクトル集合を生
成し、この基本ベクトル集合により定義され、かつ、複
数の学習用話者を表すための固有空間を構築するステッ
プと、登録話者を固有空間内に第1の位置として表すス
テップと、新たな話者による入力データに基づいて新た
な音声モデルを学習し、この新たな音声モデルの次元数
を削減して新たな話者を固有空間内に第2の位置として
表すことによって、新たな話者による入力データを処理
するステップと、第1の位置と第2の位置との類似度を
評価し、その評価を新たな話者が登録話者か否かの指標
として用いるステップとを備える。
価方法は、登録話者に関する音声評価方法であって、少
なくとも一人の登録話者を含む複数の学習用話者の音声
に基づいて、音声モデル集合を学習するステップと、音
声モデル集合の次元数を削減して基本ベクトル集合を生
成し、この基本ベクトル集合により定義され、かつ、複
数の学習用話者を表すための固有空間を構築するステッ
プと、登録話者を固有空間内に第1の位置として表すス
テップと、新たな話者による入力データに基づいて新た
な音声モデルを学習し、この新たな音声モデルの次元数
を削減して新たな話者を固有空間内に第2の位置として
表すことによって、新たな話者による入力データを処理
するステップと、第1の位置と第2の位置との類似度を
評価し、その評価を新たな話者が登録話者か否かの指標
として用いるステップとを備える。
【0009】請求項2に従った音声評価方法では、話者
識別を行う場合には、複数の学習用話者は、複数の異な
る登録話者を含む。上記音声評価方法はさらに、複数の
登録話者の各々を固有空間内に学習用話者の位置として
表すステップと、第2の位置と学習用話者の位置との類
似度を評価し、この評価の少なくとも一部に基づいて新
たな話者を複数の登録話者の中から選択した一人として
識別するステップとを備える。
識別を行う場合には、複数の学習用話者は、複数の異な
る登録話者を含む。上記音声評価方法はさらに、複数の
登録話者の各々を固有空間内に学習用話者の位置として
表すステップと、第2の位置と学習用話者の位置との類
似度を評価し、この評価の少なくとも一部に基づいて新
たな話者を複数の登録話者の中から選択した一人として
識別するステップとを備える。
【0010】請求項3に従った音声評価方法では、話者
照合を行う場合には、複数の学習用話者は、固有空間内
に第3の位置として表される少なくとも一人の詐称者を
含む。
照合を行う場合には、複数の学習用話者は、固有空間内
に第3の位置として表される少なくとも一人の詐称者を
含む。
【0011】請求項4に従った音声評価方法は、第2の
位置と第3の位置との類似度を評価し、その評価を新た
な話者が登録話者か否かのさらなる指標として使うステ
ップを備える。
位置と第3の位置との類似度を評価し、その評価を新た
な話者が登録話者か否かのさらなる指標として使うステ
ップを備える。
【0012】請求項5に従った音声評価方法では、類似
度を評価するステップは、第1の位置と第2の位置との
間の距離を定めることによって行われる。
度を評価するステップは、第1の位置と第2の位置との
間の距離を定めることによって行われる。
【0013】請求項6に従った音声評価方法では、学習
用話者は、固有空間内に位置として表される。
用話者は、固有空間内に位置として表される。
【0014】請求項7に従った音声評価方法では、学習
用話者は、固有空間内に点として表される。
用話者は、固有空間内に点として表される。
【0015】請求項8に従った音声評価方法では、学習
用話者は、固有空間内に分布として表される。
用話者は、固有空間内に分布として表される。
【0016】請求項9に従った音声評価方法では、新た
な話者による入力データを処理するステップは、入力デ
ータを用いて確率関数を生成しその確率関数を最大化す
ることによって固有空間にある最尤ベクトルを決定する
ステップを含む。
な話者による入力データを処理するステップは、入力デ
ータを用いて確率関数を生成しその確率関数を最大化す
ることによって固有空間にある最尤ベクトルを決定する
ステップを含む。
【0017】請求項10に従った音声評価方法では、複
数の学習用話者は、複数の登録話者と少なくとも一人の
詐称者とを含む。
数の学習用話者は、複数の登録話者と少なくとも一人の
詐称者とを含む。
【0018】請求項11に従った音声評価方法は、第1
の位置と第2の位置との類似度を周期的に評価し、新し
い話者が登録話者か否かの指標としてその評価を用いる
ことによって新たな話者の同一性が変化したか否かを決
定するステップを含む。
の位置と第2の位置との類似度を周期的に評価し、新し
い話者が登録話者か否かの指標としてその評価を用いる
ことによって新たな話者の同一性が変化したか否かを決
定するステップを含む。
【0019】この発明は、話者照合および話者識別のた
めのモデルに基づいた分析方法を使用する。モデルは、
既知の登録話者の音声に基づいて作成されて学習する
(話者照合の場合には、一人またはそれ以上の詐称者の
音声にも基づく)。これらの話者モデルには、例えば、
隠れマルコフモデル(以下、HMMともいう。)におけ
るパラメータのように、一般的に多数のパラメータが使
用される。これらのパラメータを直接使用するのではな
く、連接させてスーパーベクトルを作成する。これらの
スーパーベクトルは、話者一人あたり一個作成され、学
習データの話者の母集団全体を表す。
めのモデルに基づいた分析方法を使用する。モデルは、
既知の登録話者の音声に基づいて作成されて学習する
(話者照合の場合には、一人またはそれ以上の詐称者の
音声にも基づく)。これらの話者モデルには、例えば、
隠れマルコフモデル(以下、HMMともいう。)におけ
るパラメータのように、一般的に多数のパラメータが使
用される。これらのパラメータを直接使用するのではな
く、連接させてスーパーベクトルを作成する。これらの
スーパーベクトルは、話者一人あたり一個作成され、学
習データの話者の母集団全体を表す。
【0020】スーパーベクトルに対して線形変換を行な
って次元数を削減し、低次元空間(ここでは、固有空間
と呼ぶ)を生成する。この固有空間の基底ベクトルを固
有音声または固有ベクトルと呼ぶ。必要があれば、固有
ベクトルの成分のいくつかを捨てることにより固有空間
の次元数をさらに削減することができる。
って次元数を削減し、低次元空間(ここでは、固有空間
と呼ぶ)を生成する。この固有空間の基底ベクトルを固
有音声または固有ベクトルと呼ぶ。必要があれば、固有
ベクトルの成分のいくつかを捨てることにより固有空間
の次元数をさらに削減することができる。
【0021】次いで、学習用データを含む話者の各々を
固有空間内の点あるいは固有空間内の確率分布として固
有空間内に表す。前者(点として表すこと)は、各話者
からの音声を相対的に不変のものとして取り扱う点で、
やや不正確である。後者(確率分布として表すこと)
は、発話ごとの各話者の音声の変化を反映する。
固有空間内の点あるいは固有空間内の確率分布として固
有空間内に表す。前者(点として表すこと)は、各話者
からの音声を相対的に不変のものとして取り扱う点で、
やや不正確である。後者(確率分布として表すこと)
は、発話ごとの各話者の音声の変化を反映する。
【0022】各話者の学習用データが固有空間内に表さ
れると、システムを用いて話者照合または話者識別を行
うことができる。
れると、システムを用いて話者照合または話者識別を行
うことができる。
【0023】新たな音声データが得られるとこれを用い
てスーパーベクトルを作成し、次いで次元数削減を行い
固有空間に表す。新たな音声データの既得のデータに対
する類似度を評価することで話者照合あるいは話者識別
を実行する。話者からの新たな音声について、その固有
空間内の対応する点あるいは対応する分布が登録話者の
学習用データに対するしきい値類似度内であるか否かを
照合する。システムは、本人であっても、その音声が固
有空間内にある詐称者の音声の方に近い場合には棄却す
ることがある。
てスーパーベクトルを作成し、次いで次元数削減を行い
固有空間に表す。新たな音声データの既得のデータに対
する類似度を評価することで話者照合あるいは話者識別
を実行する。話者からの新たな音声について、その固有
空間内の対応する点あるいは対応する分布が登録話者の
学習用データに対するしきい値類似度内であるか否かを
照合する。システムは、本人であっても、その音声が固
有空間内にある詐称者の音声の方に近い場合には棄却す
ることがある。
【0024】話者識別は類似の方法で行う。新たな音声
データを固有空間内に位置付け、学習用話者のうち固有
ベクトルの分布点が最も近い学習用話者と結びつける。
データを固有空間内に位置付け、学習用話者のうち固有
ベクトルの分布点が最も近い学習用話者と結びつける。
【0025】固有空間内において新たな音声データと学
習用データとの類似度を評価することには多くの利点が
ある。
習用データとの類似度を評価することには多くの利点が
ある。
【0026】第一に、固有空間は、単に選択された数個
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。
【0027】また、固有空間内に含まれる次元数は、元
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。
【0028】また、システムにおいては、元の学習用デ
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。
【0029】
【発明の実施の形態】以下、この発明の実施の形態につ
いて図面を参照しつつ説明する。
いて図面を参照しつつ説明する。
【0030】この発明において用いられる固有音声手法
は、多くの異なった音声モデルに対して機能する。ここ
では好ましい実施の形態として、今日の音声認識手法に
おいて最も一般的な隠れマルコフモデル認識系に関して
説明する。しかし、この発明は、例えば音素類似性認識
系のような他のタイプのモデルに基づく認識系を使用し
て実行することもできる。
は、多くの異なった音声モデルに対して機能する。ここ
では好ましい実施の形態として、今日の音声認識手法に
おいて最も一般的な隠れマルコフモデル認識系に関して
説明する。しかし、この発明は、例えば音素類似性認識
系のような他のタイプのモデルに基づく認識系を使用し
て実行することもできる。
【0031】この発明による話者識別および話者照合を
よりよく理解するためには、話者認識システムについて
基本的な事項を理解しておくことが有用と思われる。し
たがって、以下、隠れマルコフモデル手法について説明
する。隠れマルコフモデルは、今日のほとんどの話者認
識系において話者を表すために使用されているものであ
る。
よりよく理解するためには、話者認識システムについて
基本的な事項を理解しておくことが有用と思われる。し
たがって、以下、隠れマルコフモデル手法について説明
する。隠れマルコフモデルは、今日のほとんどの話者認
識系において話者を表すために使用されているものであ
る。
【0032】隠れマルコフモデルは状態図を伴うモデル
化手法である。モデルに含まれている全ての知識源
(句、単語、サブワード、音素など)を利用することに
より、いかなる音声単位であってもモデル化することが
可能である。隠れマルコフモデルは、観測可能な出力の
系列を離散間隔で生成する未知の処理を表現し、出力は
(予め決められた音声単位の集合に対応する)いくつか
の有限個のアルファベット要素である。これらのモデル
は、観測可能な出力を生成した状態の系列が未知である
ので、「隠れ」と呼ばれる。
化手法である。モデルに含まれている全ての知識源
(句、単語、サブワード、音素など)を利用することに
より、いかなる音声単位であってもモデル化することが
可能である。隠れマルコフモデルは、観測可能な出力の
系列を離散間隔で生成する未知の処理を表現し、出力は
(予め決められた音声単位の集合に対応する)いくつか
の有限個のアルファベット要素である。これらのモデル
は、観測可能な出力を生成した状態の系列が未知である
ので、「隠れ」と呼ばれる。
【0033】図1に示すように、隠れマルコフモデル1
0は、状態(S1,S2,...,S5)のセットと、
図1に矢印で示す各対の状態間の遷移を規定するベクト
ルと、確率データの集まりとによって表される。具体的
には、隠れマルコフモデルは、遷移ベクトルに関連する
遷移確率のセット12と、各状態で観測された出力に関
連する出力確率のセット14とを含んでいる。このモデ
ルは、ある状態から別の状態まで一定の離散間隔で計測
される。クロックタイムには、モデルは現在の状態から
遷移ベクトルが存在するどの状態へも変化してよい。図
1に示すように、所定の状態からそれ自体に戻るという
遷移も可能である。
0は、状態(S1,S2,...,S5)のセットと、
図1に矢印で示す各対の状態間の遷移を規定するベクト
ルと、確率データの集まりとによって表される。具体的
には、隠れマルコフモデルは、遷移ベクトルに関連する
遷移確率のセット12と、各状態で観測された出力に関
連する出力確率のセット14とを含んでいる。このモデ
ルは、ある状態から別の状態まで一定の離散間隔で計測
される。クロックタイムには、モデルは現在の状態から
遷移ベクトルが存在するどの状態へも変化してよい。図
1に示すように、所定の状態からそれ自体に戻るという
遷移も可能である。
【0034】遷移確率は、モデルが計測された際にある
状態から別の状態への遷移が発生する尤度を表現してい
る。すなわち、図1に示すように、各遷移は0と1の間
の確率値を伴っている。どの状態からでもその状態を離
れる全ての確率の合計は1である。例として、遷移確率
表12に遷移確率値のセットを掲載する。実際の実施形
態では、どの状態からでもその状態を離れる全ての確率
の合計が1に等しいという制約のもとで、これらの値が
学習データにより生成される。
状態から別の状態への遷移が発生する尤度を表現してい
る。すなわち、図1に示すように、各遷移は0と1の間
の確率値を伴っている。どの状態からでもその状態を離
れる全ての確率の合計は1である。例として、遷移確率
表12に遷移確率値のセットを掲載する。実際の実施形
態では、どの状態からでもその状態を離れる全ての確率
の合計が1に等しいという制約のもとで、これらの値が
学習データにより生成される。
【0035】遷移が行われるときはいつも、モデルがア
ルファベットの一要素を発信すなわち出力していると判
断することができる。図1に示す実施形態では、音素を
基準とする音声単位が想定されている。したがって、出
力確率表14で特定されるシンボルは標準英語に見られ
る音素の一部に相当する。各遷移の際にアルファベット
のどの要素が出力されるかは学習中に覚えた出力確率値
すなわち関数によって決まる。このようにして発信され
た出力(学習データに基づく)は、観測値の系列を表
し、アルファベットの各要素は出力確率を有している。
ルファベットの一要素を発信すなわち出力していると判
断することができる。図1に示す実施形態では、音素を
基準とする音声単位が想定されている。したがって、出
力確率表14で特定されるシンボルは標準英語に見られ
る音素の一部に相当する。各遷移の際にアルファベット
のどの要素が出力されるかは学習中に覚えた出力確率値
すなわち関数によって決まる。このようにして発信され
た出力(学習データに基づく)は、観測値の系列を表
し、アルファベットの各要素は出力確率を有している。
【0036】音声をモデル化する際に共通して行われる
ことは、離散アルファベットシンボルの系列とは対照的
に、出力を連続するベクトルの系列として扱うことであ
る。したがって、出力確率は1個の数値の場合とは対照
的に、連続する確率密度関数で表現される必要がある。
このように、HMMは1個以上のガウス分布を備えた確
率密度関数に基づく場合が多い。複数のガウス関数が使
用される場合、図に16で示すように、それらは一般に
複素確率分布を画定するよう加法的に混合される。
ことは、離散アルファベットシンボルの系列とは対照的
に、出力を連続するベクトルの系列として扱うことであ
る。したがって、出力確率は1個の数値の場合とは対照
的に、連続する確率密度関数で表現される必要がある。
このように、HMMは1個以上のガウス分布を備えた確
率密度関数に基づく場合が多い。複数のガウス関数が使
用される場合、図に16で示すように、それらは一般に
複素確率分布を画定するよう加法的に混合される。
【0037】単一ガウス関数として表現されるにせよ混
合ガウス関数として表現されるにせよ、確率分布は複数
のパラメータで記述される。遷移確率値12と同様に、
これら出力確率パラメータも浮動小数点数を含んでいて
もよい。パラメータ18は、学習用話者からの観測デー
タに基づいて確率密度関数(pdf)を表現するために
一般的に使用されるパラメータを特定するものである。
図1のガウス関数16の等式で示すように、モデル化さ
れるべき観測ベクトルOの確率密度関数はガウス密度N
により多重化された各混合成分の混合係数の反復合計で
あり、この場合、ガウス密度はケプストラム係数あるい
はフィルターバンク係数の音声パラメータから算出され
た平均ベクトルuj及び共分散行列Ujを含んでいる。
合ガウス関数として表現されるにせよ、確率分布は複数
のパラメータで記述される。遷移確率値12と同様に、
これら出力確率パラメータも浮動小数点数を含んでいて
もよい。パラメータ18は、学習用話者からの観測デー
タに基づいて確率密度関数(pdf)を表現するために
一般的に使用されるパラメータを特定するものである。
図1のガウス関数16の等式で示すように、モデル化さ
れるべき観測ベクトルOの確率密度関数はガウス密度N
により多重化された各混合成分の混合係数の反復合計で
あり、この場合、ガウス密度はケプストラム係数あるい
はフィルターバンク係数の音声パラメータから算出され
た平均ベクトルuj及び共分散行列Ujを含んでいる。
【0038】隠れマルコフモデル認識系の実行の詳細
は、応用例ごとに大幅に異なることがある。図1に示す
隠れマルコフモデルの一例は隠れマルコフモデルを作成
する方法を単に例示したにすぎず、本発明の範囲を限定
するものではない。この点について、隠れマルコフモデ
ル化の概念に関する多くの変形例が存在する。以下の説
明からより完全に理解できるように、本発明の固有音声
適応化技術は各種隠れマルコフモデル変形例だけでなく
パラメータを基準とする他の音声モデル化システムにも
効果的であるように容易に適応させることができる。
は、応用例ごとに大幅に異なることがある。図1に示す
隠れマルコフモデルの一例は隠れマルコフモデルを作成
する方法を単に例示したにすぎず、本発明の範囲を限定
するものではない。この点について、隠れマルコフモデ
ル化の概念に関する多くの変形例が存在する。以下の説
明からより完全に理解できるように、本発明の固有音声
適応化技術は各種隠れマルコフモデル変形例だけでなく
パラメータを基準とする他の音声モデル化システムにも
効果的であるように容易に適応させることができる。
【0039】図2および図3はそれぞれ、この発明の実
施の形態による話者識別、話者照合を実行するための固
有空間の構築を説明するためのフローチャートである。
この発明の実施の形態による話者識別、話者照合を実行
するために、まず固有空間を作成する。作成する固有空
間は、応用例により定まる特有の固有空間である。図2
に示すように、話者識別の場合には、登録話者集合20
を使用して学習用データ22を提供し、この学習用デー
タ22に基づいて固有空間を作成する。対して、話者照
合の場合には、図3に示すように、照合の対象となる一
または複数の登録話者21a、さらに1または複数の仮
想の詐称者21bも使用して学習用データ22を提供す
る。このように学習用データ22の源が異なるという違
いがあるが、話者識別と話者照合において固有空間を作
成する手順は本質的に同じである。したがって、図2お
よび図3において同一または相当部分には同じ参照符号
を付している。
施の形態による話者識別、話者照合を実行するための固
有空間の構築を説明するためのフローチャートである。
この発明の実施の形態による話者識別、話者照合を実行
するために、まず固有空間を作成する。作成する固有空
間は、応用例により定まる特有の固有空間である。図2
に示すように、話者識別の場合には、登録話者集合20
を使用して学習用データ22を提供し、この学習用デー
タ22に基づいて固有空間を作成する。対して、話者照
合の場合には、図3に示すように、照合の対象となる一
または複数の登録話者21a、さらに1または複数の仮
想の詐称者21bも使用して学習用データ22を提供す
る。このように学習用データ22の源が異なるという違
いがあるが、話者識別と話者照合において固有空間を作
成する手順は本質的に同じである。したがって、図2お
よび図3において同一または相当部分には同じ参照符号
を付している。
【0040】ステップ24において、学習用データ22
に表された話者の各々について学習用話者モデルを発展
させ教え込む。その結果、各話者モデルの集合26が生
成される。ここでは、隠れマルコフモデルについて示し
たが、これに限定されるものではなく、連接に適したパ
ラメータを有する音声モデルであればどのようなモデル
でもよい。好ましくは、モデルにより画定された全ての
音声単位が少なくとも一度は各話者の実際の音声によっ
て教え込まれるよう十分な学習用データを使ってモデル
26を学習させる。図2および図3には明確に示してい
ないが、モデルを洗練するのに適した話者適応手順24
を付加的に含めることができる。このような付加的な手
順の例としては、最大事後推定法(Maximum A
Postttteriori estimatio
n:MAP)や、最大線形回帰法(MLLR)などの変
換に基づく手法が挙げられる。
に表された話者の各々について学習用話者モデルを発展
させ教え込む。その結果、各話者モデルの集合26が生
成される。ここでは、隠れマルコフモデルについて示し
たが、これに限定されるものではなく、連接に適したパ
ラメータを有する音声モデルであればどのようなモデル
でもよい。好ましくは、モデルにより画定された全ての
音声単位が少なくとも一度は各話者の実際の音声によっ
て教え込まれるよう十分な学習用データを使ってモデル
26を学習させる。図2および図3には明確に示してい
ないが、モデルを洗練するのに適した話者適応手順24
を付加的に含めることができる。このような付加的な手
順の例としては、最大事後推定法(Maximum A
Postttteriori estimatio
n:MAP)や、最大線形回帰法(MLLR)などの変
換に基づく手法が挙げられる。
【0041】話者モデル26を作成する目的は、学習用
データ集合を正確に表し、各学習用話者を配置し新たな
話者の発声を検査する固有空間の境界をこの集合を使用
して画定することにある。
データ集合を正確に表し、各学習用話者を配置し新たな
話者の発声を検査する固有空間の境界をこの集合を使用
して画定することにある。
【0042】モデル26を作成した後、ステップ28に
おいて、各話者についてのモデルを使用してスーパーベ
クトル30を作成する。スーパーベクトル30は、各話
者についてのモデルのパラメータを連接させて構成する
ことができる。隠れマルコフモデルを使用する場合、各
話者についてのスーパーベクトルは、パラメータ(一般
に浮動小数点数)の配列リストとなる。これらのパラメ
ータは、その話者についての隠れマルコフモデルのパラ
メータの少なくとも一部に対応する。与えられた話者に
ついてのスーパーベクトルには、各音声単位に対応する
パラメータが含まれる。パラメータは都合のよい順序に
編成することができる。その順序は重要ではないが、一
旦ある順序が採用されると学習用話者全員についてその
順序に従わせる必要がある。
おいて、各話者についてのモデルを使用してスーパーベ
クトル30を作成する。スーパーベクトル30は、各話
者についてのモデルのパラメータを連接させて構成する
ことができる。隠れマルコフモデルを使用する場合、各
話者についてのスーパーベクトルは、パラメータ(一般
に浮動小数点数)の配列リストとなる。これらのパラメ
ータは、その話者についての隠れマルコフモデルのパラ
メータの少なくとも一部に対応する。与えられた話者に
ついてのスーパーベクトルには、各音声単位に対応する
パラメータが含まれる。パラメータは都合のよい順序に
編成することができる。その順序は重要ではないが、一
旦ある順序が採用されると学習用話者全員についてその
順序に従わせる必要がある。
【0043】スーパーベクトルを作成するために使用す
るモデルパラメータの選択は、利用できるコンピュータ
システムの処理能力に依存する。隠れマルコフモデルを
使用した場合、ガウス平均値(the Gaussia
n means)からスーパーベクトルを作成すること
により良い結果が得られた。もし、さらに大きな処理能
力を利用できるならば、スーパーベクトルに他のパラメ
ータ(例えば、図1に示す遷移確率12、パラメータ1
8中の共分散行列Ujなど)を含めることができる。も
し、隠れマルコフモデルにより離散的な出力(確率密度
と対照的な)が生成されるならば、これらの出力値を使
用してスーパーベクトルを作成することができる。
るモデルパラメータの選択は、利用できるコンピュータ
システムの処理能力に依存する。隠れマルコフモデルを
使用した場合、ガウス平均値(the Gaussia
n means)からスーパーベクトルを作成すること
により良い結果が得られた。もし、さらに大きな処理能
力を利用できるならば、スーパーベクトルに他のパラメ
ータ(例えば、図1に示す遷移確率12、パラメータ1
8中の共分散行列Ujなど)を含めることができる。も
し、隠れマルコフモデルにより離散的な出力(確率密度
と対照的な)が生成されるならば、これらの出力値を使
用してスーパーベクトルを作成することができる。
【0044】スーパーベクトルを作成した後、ステップ
32において、次元数削減演算を行う。次元数削減は、
元の高次元のスーパーベクトルを基底ベクトルに変える
どのような線形変換を通じても達成できる。不完全では
あるが例を挙げると、主成分分析(Principal
Component Analysis:PCA)、
独立成分分析(Independent Compon
ent Analysis:ICA)、線形識別分析
(Linear Discriminate Anal
ysis:LDA)、因子分析(Factor Ana
lysis:FA)、特異値分析(Singular
Value Decomposition:SVD)な
どが挙げられる。
32において、次元数削減演算を行う。次元数削減は、
元の高次元のスーパーベクトルを基底ベクトルに変える
どのような線形変換を通じても達成できる。不完全では
あるが例を挙げると、主成分分析(Principal
Component Analysis:PCA)、
独立成分分析(Independent Compon
ent Analysis:ICA)、線形識別分析
(Linear Discriminate Anal
ysis:LDA)、因子分析(Factor Ana
lysis:FA)、特異値分析(Singular
Value Decomposition:SVD)な
どが挙げられる。
【0045】特に、本発明を実行する際に有用な次元数
削減手法を以下に示す。音声認識に関する話者独立型モ
デルから得られたT個の学習用スーパーベクトルにより
構成される一つの集合を考える。これらのスーパーベク
トルの各々は次元数Vを有すると仮定する。従って、全
てのスーパーベクトルをX=[x1,x2,・・・,x
V]^T(V*1ベクトル)のように表すことができ
る。次元数Eの新たなベクトルを生成するために、スー
パーベクトルに適用可能な線型変換Mを考える。ここ
で、E≦Tである。Tは、学習用スーパーベクトルの数
である。変換されたベクトルの各々は、W=[w1,w
2,・・・,wE]^Tのように表すことができる。線型
変換Mのパラメータの値は、T個の学習用スーパーベク
トルによる集合から何らかの方法で計算される。
削減手法を以下に示す。音声認識に関する話者独立型モ
デルから得られたT個の学習用スーパーベクトルにより
構成される一つの集合を考える。これらのスーパーベク
トルの各々は次元数Vを有すると仮定する。従って、全
てのスーパーベクトルをX=[x1,x2,・・・,x
V]^T(V*1ベクトル)のように表すことができ
る。次元数Eの新たなベクトルを生成するために、スー
パーベクトルに適用可能な線型変換Mを考える。ここ
で、E≦Tである。Tは、学習用スーパーベクトルの数
である。変換されたベクトルの各々は、W=[w1,w
2,・・・,wE]^Tのように表すことができる。線型
変換Mのパラメータの値は、T個の学習用スーパーベク
トルによる集合から何らかの方法で計算される。
【0046】このようにして、線型変換W=M*Xが得
られる。MはE*Vの次元数を有し、WはE*1の次元
数を有する。ここで、E≦Tである。T個のスーパーベ
クトルによる集合のうち特別のものについては、Mは定
数になる。 Wは次元数E(E≦Tである。)を有する
ため、T個のスーパーベクトルによる1つの集合から線
形変換Mを計算するためにいくつかの次元数削減手法を
使用することができる。例として、主成分分析(Pri
ncipal Component Analysi
s)、独立成分分析(Independent Com
ponent Analysis)、線形識別分析(L
inear Discriminant Analysi
s)、因子分析(Factor Analysis)、
特異値分析(Singular Value Decom
position)がある。
られる。MはE*Vの次元数を有し、WはE*1の次元
数を有する。ここで、E≦Tである。T個のスーパーベ
クトルによる集合のうち特別のものについては、Mは定
数になる。 Wは次元数E(E≦Tである。)を有する
ため、T個のスーパーベクトルによる1つの集合から線
形変換Mを計算するためにいくつかの次元数削減手法を
使用することができる。例として、主成分分析(Pri
ncipal Component Analysi
s)、独立成分分析(Independent Com
ponent Analysis)、線形識別分析(L
inear Discriminant Analysi
s)、因子分析(Factor Analysis)、
特異値分析(Singular Value Decom
position)がある。
【0047】この発明は、例に挙げた方法に限らず、入
力ベクトルが話者依存型モデルにより得られた学習用ス
ーパーベクトルであるという特別のケースにおいて不変
線型変換Mを見つけるためのどのような方法を使用して
も行うことができる。ここでMは前記手法を行うために
使用される。
力ベクトルが話者依存型モデルにより得られた学習用ス
ーパーベクトルであるという特別のケースにおいて不変
線型変換Mを見つけるためのどのような方法を使用して
も行うことができる。ここでMは前記手法を行うために
使用される。
【0048】ステップ32において生成された基底ベク
トルは、固有ベクトルにより張られる固有空間を定め
る。次元数削減により、学習用話者一人当たり一つの固
有ベクトルが作成される。したがって、T人の学習用話
者が存在するときは、次元数削減ステップ32によりT
個の固有ベクトルが生成される。これらの固有ベクトル
により、この説明において固有音声空間あるいは固有空
間と呼ぶ空間が定められる。
トルは、固有ベクトルにより張られる固有空間を定め
る。次元数削減により、学習用話者一人当たり一つの固
有ベクトルが作成される。したがって、T人の学習用話
者が存在するときは、次元数削減ステップ32によりT
個の固有ベクトルが生成される。これらの固有ベクトル
により、この説明において固有音声空間あるいは固有空
間と呼ぶ空間が定められる。
【0049】固有空間を構成する固有ベクトルの各々
は、図2および図3の34に示すように、それぞれ異な
った次元を表し、それに沿って異なる話者を区別するこ
とができる。元の学習用集合の中の各スーパーベクトル
は、これら固有ベクトルの線形結合として表すことがで
きる。固有ベクトルは、データをモデル化する際の重要
性に応じて配列される。第一の固有ベクトルは第二の固
有ベクトルよりも重要であり、第二の固有ベクトルは第
三の固有ベクトルよりも重要である、という具合であ
る。実験によれば、第一の固有ベクトルは男女を表す次
元に対応する。
は、図2および図3の34に示すように、それぞれ異な
った次元を表し、それに沿って異なる話者を区別するこ
とができる。元の学習用集合の中の各スーパーベクトル
は、これら固有ベクトルの線形結合として表すことがで
きる。固有ベクトルは、データをモデル化する際の重要
性に応じて配列される。第一の固有ベクトルは第二の固
有ベクトルよりも重要であり、第二の固有ベクトルは第
三の固有ベクトルよりも重要である、という具合であ
る。実験によれば、第一の固有ベクトルは男女を表す次
元に対応する。
【0050】ステップ32においては最大T個の固有ベ
クトルを作成するが、実際にはこれらの固有ベクトルの
いくつかを捨てて最初のN個の固有ベクトルだけを保持
することもできる。ステップ36においては、T個の固
有ベクトルのうちN個を選択的に抽出してパラメータ数
を削減した固有空間38を作成する。より高位に配列さ
れた固有ベクトル(前述の第一の固有ベクトルに対する
第二、第三の固有ベクトル)は、一般に話者間の識別の
ための重要な情報を比較的含んでいないため捨てること
ができる。固有音声空間を縮小して学習用話者の総数よ
りも小さくすることにより、限られた記憶容量と処理装
置による実用的なシステムを構築する際に有用な固有の
データ圧縮が行える。
クトルを作成するが、実際にはこれらの固有ベクトルの
いくつかを捨てて最初のN個の固有ベクトルだけを保持
することもできる。ステップ36においては、T個の固
有ベクトルのうちN個を選択的に抽出してパラメータ数
を削減した固有空間38を作成する。より高位に配列さ
れた固有ベクトル(前述の第一の固有ベクトルに対する
第二、第三の固有ベクトル)は、一般に話者間の識別の
ための重要な情報を比較的含んでいないため捨てること
ができる。固有音声空間を縮小して学習用話者の総数よ
りも小さくすることにより、限られた記憶容量と処理装
置による実用的なシステムを構築する際に有用な固有の
データ圧縮が行える。
【0051】学習用データから固有ベクトルを作成した
後、学習用データにおける各話者を固有空間内に表す。
話者識別を行う場合には、図2に示すステップ40aに
おいて、各登録話者を固有空間内に表す。これを42a
に図式的に示す。話者照合を行う場合には、図3に示す
ステップ40bにおいて、登録話者および仮想の詐称者
を固有空間内に表す。これを42bに図式的に示す。話
者は、図2の42aに示すように固有空間内に点とし
て、あるいは図3の42bに示すように固有空間内に確
率分布として表す。
後、学習用データにおける各話者を固有空間内に表す。
話者識別を行う場合には、図2に示すステップ40aに
おいて、各登録話者を固有空間内に表す。これを42a
に図式的に示す。話者照合を行う場合には、図3に示す
ステップ40bにおいて、登録話者および仮想の詐称者
を固有空間内に表す。これを42bに図式的に示す。話
者は、図2の42aに示すように固有空間内に点とし
て、あるいは図3の42bに示すように固有空間内に確
率分布として表す。
【0052】<話者識別あるいは話者照合システムの使
用>図4は、この発明の実施の形態による話者識別シス
テムおよび話者照合システムの使用を説明するためのフ
ローチャートである。図4を参照して、ステップ44に
おいて、話者識別あるいは話者照合を求めるユーザは新
たな音声データを提供する。ステップ46において、新
たなデータを使用して話者依存型モデル48を学習させ
る。ステップ50において、モデル48を使用してスー
パーベクトル52を作成する。なお、新たな音声データ
は各音声単位の例を必ずしも含んでいない。例えば、新
たな発話が非常に短いためにすべての音声単位の例を含
んでいないかもしれない。本システムは、この問題を解
決する。
用>図4は、この発明の実施の形態による話者識別シス
テムおよび話者照合システムの使用を説明するためのフ
ローチャートである。図4を参照して、ステップ44に
おいて、話者識別あるいは話者照合を求めるユーザは新
たな音声データを提供する。ステップ46において、新
たなデータを使用して話者依存型モデル48を学習させ
る。ステップ50において、モデル48を使用してスー
パーベクトル52を作成する。なお、新たな音声データ
は各音声単位の例を必ずしも含んでいない。例えば、新
たな発話が非常に短いためにすべての音声単位の例を含
んでいないかもしれない。本システムは、この問題を解
決する。
【0053】ステップ54において、スーパーベクトル
52に対して次元数削減を行う。その結果ステップ56
において、固有空間内に新たなデータが図4中の58に
示すように位置付けられる。図4中58では、学習用デ
ータに基づいて固有空間内に既存データを示す部分はド
ットで表し、新たな音声データはスターマークで表して
いる。
52に対して次元数削減を行う。その結果ステップ56
において、固有空間内に新たなデータが図4中の58に
示すように位置付けられる。図4中58では、学習用デ
ータに基づいて固有空間内に既存データを示す部分はド
ットで表し、新たな音声データはスターマークで表して
いる。
【0054】固有空間内に新たなデータを位置付けた
後、学習用話者に対応して既存データを示す点または分
布との類似度の評価が行われる。図4には、話者識別お
よび話者照合の典型的な実施例を示している。
後、学習用話者に対応して既存データを示す点または分
布との類似度の評価が行われる。図4には、話者識別お
よび話者照合の典型的な実施例を示している。
【0055】話者識別の場合には、ステップ62におい
て、新たな音声データは固有空間内の最も近い学習用話
者に割り当てられる。この様子を図4中の64に示す。
て、新たな音声データは固有空間内の最も近い学習用話
者に割り当てられる。この様子を図4中の64に示す。
【0056】システムはこのようにして、新しい音声と
固有空間内におけるデータ点またはデータ分布が最も近
い既存の学習用話者とが同一であると認識する。
固有空間内におけるデータ点またはデータ分布が最も近
い既存の学習用話者とが同一であると認識する。
【0057】話者照合の場合には、ステップ66におい
て、システムは新しいデータを示す点を調べて、それが
固有空間内の登録話者に対してあらかじめ定められたし
きい値類似度の範囲内にあるかどうかを決定する。ステ
ップ68において、新たな話者データが登録話者よりも
詐称者に近いときは、予防手段としてシステムはそのデ
ータを棄却する。この様子を図4中の69に示す。ここ
には登録話者に対する類似度および詐称者に対する類似
度が描かれている。
て、システムは新しいデータを示す点を調べて、それが
固有空間内の登録話者に対してあらかじめ定められたし
きい値類似度の範囲内にあるかどうかを決定する。ステ
ップ68において、新たな話者データが登録話者よりも
詐称者に近いときは、予防手段としてシステムはそのデ
ータを棄却する。この様子を図4中の69に示す。ここ
には登録話者に対する類似度および詐称者に対する類似
度が描かれている。
【0058】<最尤固有空間分析手法(Maximum
Likelihood Eigenspace De
composition Technique:MLE
D)>新たな話者を固有空間内に位置付ける一つの簡単
な手法は、単純射影演算を用いることである。射影演算
により、固有空間外の点にできるだけ近い固有空間内の
点が新たな話者による入力音声に対応する。これらの点
が実際にはHMMの集合を再構成することができるスー
パーベクトルであることは重要ではない。
Likelihood Eigenspace De
composition Technique:MLE
D)>新たな話者を固有空間内に位置付ける一つの簡単
な手法は、単純射影演算を用いることである。射影演算
により、固有空間外の点にできるだけ近い固有空間内の
点が新たな話者による入力音声に対応する。これらの点
が実際にはHMMの集合を再構成することができるスー
パーベクトルであることは重要ではない。
【0059】射影演算は比較的未熟な手法であるので、
固有空間内の地点が新たな話者に関して最適であるとい
うことは保証されない。さらに、射影演算においては、
新たな話者についての完全なHMM集合を表すための完
全なデータ集合が新たな話者についてのスーパーベクト
ルに含まれていることが必要とされる。この要求によ
り、実用上の制限をかなり受ける。射影を使用して新た
な話者を固有空間内に位置付ける場合、新たな話者は、
全ての音声単位がデータ内に表されるように十分な入力
音声を提供しなければならない。例えば、隠れマルコフ
モデルにより英語のすべての音素を表そうとすると、単
純射影手法を使用する前に学習用話者は全ての音素の例
を提供しなければならない。応用する際にこのような制
限が存在することは実用的でない。
固有空間内の地点が新たな話者に関して最適であるとい
うことは保証されない。さらに、射影演算においては、
新たな話者についての完全なHMM集合を表すための完
全なデータ集合が新たな話者についてのスーパーベクト
ルに含まれていることが必要とされる。この要求によ
り、実用上の制限をかなり受ける。射影を使用して新た
な話者を固有空間内に位置付ける場合、新たな話者は、
全ての音声単位がデータ内に表されるように十分な入力
音声を提供しなければならない。例えば、隠れマルコフ
モデルにより英語のすべての音素を表そうとすると、単
純射影手法を使用する前に学習用話者は全ての音素の例
を提供しなければならない。応用する際にこのような制
限が存在することは実用的でない。
【0060】この実施の形態における最尤手法は、上述
の単純射影の欠点の両方に焦点をあてたものである。最
尤手法では、新たな話者によって供給される音声の最大
生成確率を有する隠れマルコフモデルに対応したスーパ
ーベクトルを表す点を固有空間内に見つける。
の単純射影の欠点の両方に焦点をあてたものである。最
尤手法では、新たな話者によって供給される音声の最大
生成確率を有する隠れマルコフモデルに対応したスーパ
ーベクトルを表す点を固有空間内に見つける。
【0061】単純射影演算ではスーパーベクトルの全て
の要素を同等の重要性を有するものとして取り扱うのに
対して、最尤手法では、実際の適用データから生じる確
率に基づいてより起こりそうなデータにはより大きな重
みをつけるようにする。単純射影演算と違って、たとえ
新たな話者により十分な学習用データ集合が提供されな
い場合であっても最尤手法は機能する。すなわち、音声
単位のいくつかのデータが欠けている場合である。実際
には、最尤手法ではスーパーベクトルが作成された状況
を考慮に入れる。すなわち、他のモデルよりも新たな話
者が提供した入力音声を生成しやすいという確率を有す
る隠れマルコフモデルからスーパーベクトルを作成す
る。実用上は、入力音声が実際にどのくらい利用できる
かの程度にかかわらず、最尤手法は、固有空間内におい
て新たな話者の入力音声に最も一致するスーパーベクト
ルを選択する。ここで説明の便宜上、新たな話者はアラ
バマ出身の若い女性であると仮定する。最尤手法では、
この話者から発せられた数音節に基づいて、アラバマ出
身女性のアクセントに一致する全ての音素を表す部分が
固有空間内において選択される。
の要素を同等の重要性を有するものとして取り扱うのに
対して、最尤手法では、実際の適用データから生じる確
率に基づいてより起こりそうなデータにはより大きな重
みをつけるようにする。単純射影演算と違って、たとえ
新たな話者により十分な学習用データ集合が提供されな
い場合であっても最尤手法は機能する。すなわち、音声
単位のいくつかのデータが欠けている場合である。実際
には、最尤手法ではスーパーベクトルが作成された状況
を考慮に入れる。すなわち、他のモデルよりも新たな話
者が提供した入力音声を生成しやすいという確率を有す
る隠れマルコフモデルからスーパーベクトルを作成す
る。実用上は、入力音声が実際にどのくらい利用できる
かの程度にかかわらず、最尤手法は、固有空間内におい
て新たな話者の入力音声に最も一致するスーパーベクト
ルを選択する。ここで説明の便宜上、新たな話者はアラ
バマ出身の若い女性であると仮定する。最尤手法では、
この話者から発せられた数音節に基づいて、アラバマ出
身女性のアクセントに一致する全ての音素を表す部分が
固有空間内において選択される。
【0062】図5は、最尤手法がどのように行われるか
を説明するための図である。図5を参照して、新たな話
者からの入力音声を使用してスーパーベクトル70を作
成する。上述のように、スーパーベクトルは、ケプスト
ラム係数または同様のものに対応した音声パラメータの
連接リストを含む。これらのパラメータは、新たな話者
に対応した隠れマルコフモデルから抽出されたガウス平
均を表す浮動小数点数である。他の隠れマルコフモデル
平均を使用することもできる。これらの隠れマルコフモ
デル平均は、図5中の72のドットで表される。データ
が全て揃っている場合、スーパーベクトル70は、隠れ
マルコフモデル平均の各々についての浮動小数点数を含
み、これらは隠れマルコフモデルによって表された音声
単位の各々に対応している。ここで、音素”ah”につ
いてのパラメータは存在するが音素”iy”についての
パラメータが欠けている場合を仮定する。
を説明するための図である。図5を参照して、新たな話
者からの入力音声を使用してスーパーベクトル70を作
成する。上述のように、スーパーベクトルは、ケプスト
ラム係数または同様のものに対応した音声パラメータの
連接リストを含む。これらのパラメータは、新たな話者
に対応した隠れマルコフモデルから抽出されたガウス平
均を表す浮動小数点数である。他の隠れマルコフモデル
平均を使用することもできる。これらの隠れマルコフモ
デル平均は、図5中の72のドットで表される。データ
が全て揃っている場合、スーパーベクトル70は、隠れ
マルコフモデル平均の各々についての浮動小数点数を含
み、これらは隠れマルコフモデルによって表された音声
単位の各々に対応している。ここで、音素”ah”につ
いてのパラメータは存在するが音素”iy”についての
パラメータが欠けている場合を仮定する。
【0063】固有空間38は、固有ベクトル74,7
6,78の集合によって表される。固有ベクトルの各々
を、図5中にW1,W2,・・・,Wnとして示された
対応する固有値と掛け合わせることにより、新たな話者
からの観測データに対応したスーパーベクトル70を固
有空間内に表すことができる。最初これらの固有値は未
知である。最尤手法はこれら未知の固有値の値を見つけ
る。さらにいうと、これらの値は、固有空間内で新たな
話者を最もよく表す最適解を探すことにより選ばれる。
固有値を固有空間38内の対応する固有ベクトルと掛け
合わせた後、それらの結果を足しあわせて適応モデルを
表すスーパーベクトル80を作成する。入力話者のスー
パーベクトル70はいくつかのパラメータ値(例え
ば、”iy”パラメータ)を欠いているのに対して、適
応モデルを表すスーパーベクトル80では全ての値が揃
っている。これはこの発明により得られる一つの利益で
ある。さらに、スーパーベクトル80内の値は最適解、
すなわち固有空間内に新たな話者を表す最大尤度を表
す。
6,78の集合によって表される。固有ベクトルの各々
を、図5中にW1,W2,・・・,Wnとして示された
対応する固有値と掛け合わせることにより、新たな話者
からの観測データに対応したスーパーベクトル70を固
有空間内に表すことができる。最初これらの固有値は未
知である。最尤手法はこれら未知の固有値の値を見つけ
る。さらにいうと、これらの値は、固有空間内で新たな
話者を最もよく表す最適解を探すことにより選ばれる。
固有値を固有空間38内の対応する固有ベクトルと掛け
合わせた後、それらの結果を足しあわせて適応モデルを
表すスーパーベクトル80を作成する。入力話者のスー
パーベクトル70はいくつかのパラメータ値(例え
ば、”iy”パラメータ)を欠いているのに対して、適
応モデルを表すスーパーベクトル80では全ての値が揃
っている。これはこの発明により得られる一つの利益で
ある。さらに、スーパーベクトル80内の値は最適解、
すなわち固有空間内に新たな話者を表す最大尤度を表
す。
【0064】各固有値W1,W2,・・・,Wnは、最
尤ベクトルを含んでいるとみなすことができる。図5中
の82に最尤ベクトルの概略を示す。図5に示すよう
に、最尤ベクトル82は最尤ベクトル82は固有値W
1,W2,・・・,Wnの集合を含む。
尤ベクトルを含んでいるとみなすことができる。図5中
の82に最尤ベクトルの概略を示す。図5に示すよう
に、最尤ベクトル82は最尤ベクトル82は固有値W
1,W2,・・・,Wnの集合を含む。
【0065】図6は、最尤手法を使用した適応化の手順
を説明するためのフローチャートである。図6を参照し
て、まずステップ100において、観測データを含む新
たな話者からの音声を使用して隠れマルコフモデル集合
102を作成する。ステップ104において、隠れマル
コフモデル集合102を使用してスーパーベクトル10
6を作成する。スーパーベクトル106は、隠れマルコ
フモデル102から抽出された隠れマルコフモデルパラ
メータの連接リストを含む。
を説明するためのフローチャートである。図6を参照し
て、まずステップ100において、観測データを含む新
たな話者からの音声を使用して隠れマルコフモデル集合
102を作成する。ステップ104において、隠れマル
コフモデル集合102を使用してスーパーベクトル10
6を作成する。スーパーベクトル106は、隠れマルコ
フモデル102から抽出された隠れマルコフモデルパラ
メータの連接リストを含む。
【0066】ステップ108において、スーパーベクト
ル106を使用して確率関数Qを作成する。この実施の
形態では、確率関数は、あらかじめ定義された隠れマル
コフモデル102に関して観測されたデータの生成確率
を表す。
ル106を使用して確率関数Qを作成する。この実施の
形態では、確率関数は、あらかじめ定義された隠れマル
コフモデル102に関して観測されたデータの生成確率
を表す。
【0067】確率関数Qが確率項Pだけでなくその対数
項logPも含んでいるならば、確率関数Qの後の扱い
が容易になる。
項logPも含んでいるならば、確率関数Qの後の扱い
が容易になる。
【0068】ステップ110において、固有値W1,W
2,・・・,Wnの各々について個々に確率関数Qの導
関数を求めることにより確率関数Qの最大化を行う。例
えば、固有空間の次元数が100の場合、このシステム
では、確率関数Qの100個の導関数を求めてそれぞれ
を0と置いてそれぞれのWを求める。これは計算量が多
いように見えるが、何千もの計算を行うことが一般的に
要求される従来のMAP法あるいはMLLR法に比べて
はるかに計算量が少ない。
2,・・・,Wnの各々について個々に確率関数Qの導
関数を求めることにより確率関数Qの最大化を行う。例
えば、固有空間の次元数が100の場合、このシステム
では、確率関数Qの100個の導関数を求めてそれぞれ
を0と置いてそれぞれのWを求める。これは計算量が多
いように見えるが、何千もの計算を行うことが一般的に
要求される従来のMAP法あるいはMLLR法に比べて
はるかに計算量が少ない。
【0069】このようにして得られたWの集合は、最尤
点に対応した固有空間内の点の認定に必要とされる固有
値を表す。したがって、Wの集合は固有空間内の最尤ベ
クトルを含む。固有ベクトルの各々(図5に示す固有ベ
クトル74,76,78)は、直交ベクトル集合または
直交座標集合を定義し、この集合に対して固有値が掛け
合わされて固有空間内に制限された点が定義される。ス
テップ112において、この最尤ベクトルを使用して固
有空間内の最適点(図4中の66に示す)に対応したス
ーパーベクトル114が作成される。ステップ116に
おいて、スーパーベクトル114を使用して新たな話者
についての適応モデル118を作成する。
点に対応した固有空間内の点の認定に必要とされる固有
値を表す。したがって、Wの集合は固有空間内の最尤ベ
クトルを含む。固有ベクトルの各々(図5に示す固有ベ
クトル74,76,78)は、直交ベクトル集合または
直交座標集合を定義し、この集合に対して固有値が掛け
合わされて固有空間内に制限された点が定義される。ス
テップ112において、この最尤ベクトルを使用して固
有空間内の最適点(図4中の66に示す)に対応したス
ーパーベクトル114が作成される。ステップ116に
おいて、スーパーベクトル114を使用して新たな話者
についての適応モデル118を作成する。
【0070】この実施の形態における最尤法において、
モデルλに関する観測値O(O=o 1,・・・,oT)の
尤度を最大にすることが望まれる。これは、数1に示す
補助関数Qの最大化を反復することにより行うことがで
きる。数1において、λは反復処理時の現行モデルを表
し、^λは推定モデルを表す。
モデルλに関する観測値O(O=o 1,・・・,oT)の
尤度を最大にすることが望まれる。これは、数1に示す
補助関数Qの最大化を反復することにより行うことがで
きる。数1において、λは反復処理時の現行モデルを表
し、^λは推定モデルを表す。
【0071】
【数1】 予備の近似計算として、平均値のみについて最大化を実
行してもよい。隠れマルコフモデル集合により確率Pが
与えられた場合には、以下の数2を得る。
行してもよい。隠れマルコフモデル集合により確率Pが
与えられた場合には、以下の数2を得る。
【0072】
【数2】 ここで、
【0073】
【数3】 であり、さらに、
【0074】
【数4】 である。
【0075】新たな話者の隠れマルコフモデルについて
のガウス平均が固有空間内に配置されていると仮定す
る。数5に示す平均スーパーベクトル/μj(j=1,
・・・,E)によってこの空間を広げる。
のガウス平均が固有空間内に配置されていると仮定す
る。数5に示す平均スーパーベクトル/μj(j=1,
・・・,E)によってこの空間を広げる。
【0076】
【数5】 ここで、/μm (s)(j)は、固有ベクトル(固有モデ
ル)jの状態sにおける混合ガウシアンmについての平
均ベクトルを表す。
ル)jの状態sにおける混合ガウシアンmについての平
均ベクトルを表す。
【0077】したがって、以下の数6に示される^μを
必要とする。
必要とする。
【0078】
【数6】 /μjは直交しており、wjは話者モデルの固有値であ
る。どんな新たな話者であっても、観測された話者のデ
ータベースの線形結合によりモデル化することができる
と仮定する。
る。どんな新たな話者であっても、観測された話者のデ
ータベースの線形結合によりモデル化することができる
と仮定する。
【0079】
【数7】 Qを最大化するため、以下の処理を行う。
【0080】
【数8】 なお、固有ベクトルは直交するため、(∂wi/∂wj)
=0,i≠jである。
=0,i≠jである。
【0081】したがって、数9を得る。
【0082】
【数9】 上記導関数を計算することにより、数10を得る。
【0083】
【数10】 これにより、数11に示される一群の線形方程式を得
る。
る。
【0084】
【数11】 <固有空間内における類似度評価>話者を固有空間内に
点として表す場合は、単純な幾何学的距離の計算を用い
て、新たな話者に対してどの学習用話者が一番近いかを
認定することができる。話者を固有空間内に分布として
表す場合は、新たな話者データを観測値Oとして取り扱
い、各分布候補(学習用話者を表す)を検査することに
よって類似度を評価してその候補が観測データを生成し
た確率を決定する。最も高い確率を有する候補が最も近
い類似度を有するものと評価する。高い安全性を必要と
する応用例においては、最も高い確率を有する候補が、
あらかじめ定められたしきい値よりも低い確率値を有す
る場合には、照合を棄却することが望まれる。費用関数
を用いて高度の確実性を欠く候補を除外することができ
る。
点として表す場合は、単純な幾何学的距離の計算を用い
て、新たな話者に対してどの学習用話者が一番近いかを
認定することができる。話者を固有空間内に分布として
表す場合は、新たな話者データを観測値Oとして取り扱
い、各分布候補(学習用話者を表す)を検査することに
よって類似度を評価してその候補が観測データを生成し
た確率を決定する。最も高い確率を有する候補が最も近
い類似度を有するものと評価する。高い安全性を必要と
する応用例においては、最も高い確率を有する候補が、
あらかじめ定められたしきい値よりも低い確率値を有す
る場合には、照合を棄却することが望まれる。費用関数
を用いて高度の確実性を欠く候補を除外することができ
る。
【0085】上述のように、新たな話者の学習用話者に
対する類似度の評価は、完全に固有空間内において行わ
れる。さらに高度の正確さを得るために、これに代えて
ベイズ推定法を用いることができる。
対する類似度の評価は、完全に固有空間内において行わ
れる。さらに高度の正確さを得るために、これに代えて
ベイズ推定法を用いることができる。
【0086】ベイズ推定法を用いた類似度評価を高める
ために、固有空間内の学習用話者のガウス密度に対し
て、次元数削減を通じて捨てられた話者データを表す直
交補空間内の推定限界密度を掛け合わせる。話者モデル
であるスーパーベクトルに基づいて次元数削減を実行す
れば高次元空間から低次元空間にデータを大幅に圧縮で
きることがこれによりわかるであろう。次元数削減によ
って最も重要な基底ベクトルは保持されるが、より上位
の情報のいくつかは捨てられる。ベイズ推定法は、この
捨てられた情報に対応した限界ガウス密度を推定する。
元の固有空間は、スーパーベクトルの次元数削減処理を
通じての線形変換により作成される。ここではN個の全
成分からM個の成分が抽出される。抽出されるM個の成
分が少ないほど、最大限の固有値に対応した変換基底の
より低次元の下位空間を表すことができる。このように
して、重要でない成分i(i=M+1,・・・,N)は
捨てられるのに対し、成分i(i=1,・・・,M)に
よって固有空間が定義される。これら二つの成分集合
は、相互に排他的で補完的な二つの下位空間を定義す
る。主要な下位空間は重要な固有空間を表し、その直交
成分は次元数削減を通じて捨てられたデータを表す。
ために、固有空間内の学習用話者のガウス密度に対し
て、次元数削減を通じて捨てられた話者データを表す直
交補空間内の推定限界密度を掛け合わせる。話者モデル
であるスーパーベクトルに基づいて次元数削減を実行す
れば高次元空間から低次元空間にデータを大幅に圧縮で
きることがこれによりわかるであろう。次元数削減によ
って最も重要な基底ベクトルは保持されるが、より上位
の情報のいくつかは捨てられる。ベイズ推定法は、この
捨てられた情報に対応した限界ガウス密度を推定する。
元の固有空間は、スーパーベクトルの次元数削減処理を
通じての線形変換により作成される。ここではN個の全
成分からM個の成分が抽出される。抽出されるM個の成
分が少ないほど、最大限の固有値に対応した変換基底の
より低次元の下位空間を表すことができる。このように
して、重要でない成分i(i=M+1,・・・,N)は
捨てられるのに対し、成分i(i=1,・・・,M)に
よって固有空間が定義される。これら二つの成分集合
は、相互に排他的で補完的な二つの下位空間を定義す
る。主要な下位空間は重要な固有空間を表し、その直交
成分は次元数削減を通じて捨てられたデータを表す。
【0087】これら二つの各直交空間内のガウス密度の
積として、数12に示す式により尤度推定値を計算する
ことができる。
積として、数12に示す式により尤度推定値を計算する
ことができる。
【0088】
【数12】 数12において、第1項は固有空間E内の単ガウス密度
であり、第2項は固有空間に対して直交する空間内の単
ガウス分布である。固有空間への射影と残差だけを使用
して二つの項を完全に学習用データベクトル集合から推
定できることがわかる。
であり、第2項は固有空間に対して直交する空間内の単
ガウス分布である。固有空間への射影と残差だけを使用
して二つの項を完全に学習用データベクトル集合から推
定できることがわかる。
【0089】
【発明の効果】この発明に従った音声評価方法は、固有
空間内において新たな音声データと学習用データとの類
似度を評価するため以下の利点がある。
空間内において新たな音声データと学習用データとの類
似度を評価するため以下の利点がある。
【0090】第一に、固有空間は、単に選択された数個
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。
【0091】また、固有空間内に含まれる次元数は、元
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。
【0092】また、システムにおいては、元の学習用デ
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。
【図1】隠れマルコフモデルの典型例を説明するための
図である。
図である。
【図2】この発明の実施の形態による話者識別システム
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。
【図3】この発明の実施の形態による話者照合システム
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。
【図4】この発明の実施の形態による話者識別システム
および話者照合システムの使用を説明するためのフロー
チャートである。
および話者照合システムの使用を説明するためのフロー
チャートである。
【図5】最尤法がどのように行われるかを説明するため
の図である。
の図である。
【図6】最尤法を使用した適応化の手順を説明するため
のフローチャートである。
のフローチャートである。
26 各話者モデルの集合 30,52,70,106,114 スーパーベクトル 42a 登録話者 42b 登録話者および仮想の詐称者 48 話者依存型モデル 74,76,78 固有ベクトル 80 適応モデルを表すスーパーベクトル 82 最尤ベクトル 102 隠れマルコフモデル集合 118 新たな話者についての適応モデル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジュンクア ジーン−クランデ アメリカ合衆国 カリフォルニア州 93111 サンタ バーバラ,サンタ アナ アヴェニュー 146
Claims (11)
- 【請求項1】 登録話者に関する音声評価方法であっ
て、 少なくとも一人の登録話者を含む複数の学習用話者の音
声に基づいて、音声モデル集合を学習するステップと、 前記音声モデル集合の次元数を削減して基本ベクトル集
合を生成し、この基本ベクトル集合により定義され、か
つ、前記複数の学習用話者を表すための固有空間を構築
するステップと、 前記登録話者を前記固有空間内に第1の位置として表す
ステップと、 新たな話者による入力データに基づいて新たな音声モデ
ルを学習し、この新たな音声モデルの次元数を削減して
前記新たな話者を前記固有空間内に第2の位置として表
すことによって、前記新たな話者による入力データを処
理するステップと、 前記第1の位置と前記第2の位置との類似度を評価し、
その評価を前記新たな話者が前記登録話者か否かの指標
として用いるステップとを備える、音声評価方法。 - 【請求項2】 請求項1に記載の音声評価方法におい
て、 話者識別を行う場合には、 前記複数の学習用話者は、複数の異なる登録話者を含
み、 前記音声評価方法はさらに、 前記複数の登録話者の各々を前記固有空間内に学習用話
者の位置として表すステップと、 前記第2の位置と前記学習用話者の位置との類似度を評
価し、この評価の少なくとも一部に基づいて前記新たな
話者を前記複数の登録話者の中から選択した一人として
識別するステップとを備える、音声評価方法。 - 【請求項3】 請求項1に記載の音声評価方法におい
て、 話者照合を行う場合には、 前記複数の学習用話者は、固有空間内に第3の位置とし
て表される少なくとも一人の詐称者を含む、音声評価方
法。 - 【請求項4】 請求項3に記載の音声評価方法におい
て、 前記音声評価方法はさらに、 前記第2の位置と前記第3の位置との類似度を評価し、
その評価を前記新たな話者が前記登録話者か否かのさら
なる指標として使うステップを備える、音声評価方法。 - 【請求項5】 請求項1に記載の音声評価方法におい
て、 前記類似度を評価するステップは、前記第1の位置と前
記第2の位置との間の距離を定めることによって行われ
る、音声評価方法。 - 【請求項6】 請求項1に記載の音声評価方法におい
て、 前記学習用話者は、前記固有空間内に位置として表され
る、音声評価方法。 - 【請求項7】 請求項1に記載の音声評価方法におい
て、 前記学習用話者は、前記固有空間内に点として表され
る、音声評価方法。 - 【請求項8】 請求項1に記載の音声評価方法におい
て、 前記学習用話者は、前記固有空間内に分布として表され
る、音声評価方法。 - 【請求項9】 請求項1に記載の音声評価方法におい
て、 前記新たな話者による入力データを処理するステップ
は、 前記入力データを用いて確率関数を生成しその確率関数
を最大化することによって前記固有空間にある最尤ベク
トルを決定するステップを含む、音声評価方法。 - 【請求項10】 請求項1に記載の音声評価方法におい
て、 前記複数の学習用話者は、複数の登録話者と少なくとも
一人の詐称者とを含む、音声評価方法。 - 【請求項11】 請求項1に記載の音声評価方法におい
て、 前記音声評価方法はさらに、 前記第1の位置と前記第2の位置との類似度を周期的に
評価し、新しい話者が登録話者か否かの指標としてその
評価を用いることによって前記新たな話者の同一性が変
化したか否かを決定するステップを含む、音声評価方
法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/148,911 US6141644A (en) | 1998-09-04 | 1998-09-04 | Speaker verification and speaker identification based on eigenvoices |
US09/148911 | 1998-09-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000081894A true JP2000081894A (ja) | 2000-03-21 |
Family
ID=22527990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11248458A Pending JP2000081894A (ja) | 1998-09-04 | 1999-09-02 | 音声評価方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US6141644A (ja) |
EP (1) | EP0984431B1 (ja) |
JP (1) | JP2000081894A (ja) |
CN (1) | CN1188828C (ja) |
DE (1) | DE69914839T2 (ja) |
ES (1) | ES2214815T3 (ja) |
TW (1) | TW448416B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005049859A (ja) * | 2003-07-28 | 2005-02-24 | Sony Corp | オーディオデータを自動的に認識する方法及び装置 |
WO2009110613A1 (ja) * | 2008-03-07 | 2009-09-11 | 日本電気株式会社 | 個人照合装置及び話者登録装置と方法並びにプログラム |
Families Citing this family (233)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US8095581B2 (en) * | 1999-02-05 | 2012-01-10 | Gregory A Stobbs | Computer-implemented patent portfolio analysis method and apparatus |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
US6556969B1 (en) * | 1999-09-30 | 2003-04-29 | Conexant Systems, Inc. | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
AU2000246376A1 (en) * | 2000-03-31 | 2001-10-08 | Centre for Signal Processing of The Nanyang Technological university School of Electrical and Electronic Engineering | Speaker verification from a projection matrix |
US6609094B1 (en) * | 2000-05-22 | 2003-08-19 | International Business Machines Corporation | Maximum entropy and maximum likelihood criteria for feature selection from multivariate data |
EP1178467B1 (en) * | 2000-07-05 | 2005-03-09 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and identification |
US7216077B1 (en) * | 2000-09-26 | 2007-05-08 | International Business Machines Corporation | Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation |
DE10047723A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern |
US7496510B2 (en) * | 2000-11-30 | 2009-02-24 | International Business Machines Corporation | Method and apparatus for the automatic separating and indexing of multi-speaker conversations |
US6895376B2 (en) * | 2001-05-04 | 2005-05-17 | Matsushita Electric Industrial Co., Ltd. | Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification |
US7437289B2 (en) * | 2001-08-16 | 2008-10-14 | International Business Machines Corporation | Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data |
US20030113002A1 (en) * | 2001-12-18 | 2003-06-19 | Koninklijke Philips Electronics N.V. | Identification of people using video and audio eigen features |
US6952674B2 (en) * | 2002-01-07 | 2005-10-04 | Intel Corporation | Selecting an acoustic model in a speech recognition system |
US7620547B2 (en) * | 2002-07-25 | 2009-11-17 | Sony Deutschland Gmbh | Spoken man-machine interface with speaker identification |
US7181393B2 (en) * | 2002-11-29 | 2007-02-20 | Microsoft Corporation | Method of real-time speaker change point detection, speaker tracking and speaker model construction |
US7272565B2 (en) * | 2002-12-17 | 2007-09-18 | Technology Patents Llc. | System and method for monitoring individuals |
US7634063B2 (en) * | 2003-01-02 | 2009-12-15 | Technology Patents, Llc | System and method for monitoring individuals |
WO2004064040A1 (en) * | 2003-01-15 | 2004-07-29 | Siemens Corporate Research Inc. | A method for processing speech |
US7299177B2 (en) * | 2003-05-30 | 2007-11-20 | American Express Travel Related Services Company, Inc. | Speaker recognition in a multi-speaker environment and comparison of several voice prints to many |
AU2003267504A1 (en) * | 2003-07-01 | 2005-02-25 | France Telecom | Method and system for analysis of vocal signals for a compressed representation of speakers |
US7328154B2 (en) * | 2003-08-13 | 2008-02-05 | Matsushita Electrical Industrial Co., Ltd. | Bubble splitting for compact acoustic modeling |
US7643989B2 (en) * | 2003-08-29 | 2010-01-05 | Microsoft Corporation | Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint |
US7224786B2 (en) * | 2003-09-11 | 2007-05-29 | Capital One Financial Corporation | System and method for detecting unauthorized access using a voice signature |
US7212613B2 (en) * | 2003-09-18 | 2007-05-01 | International Business Machines Corporation | System and method for telephonic voice authentication |
WO2005055200A1 (en) * | 2003-12-05 | 2005-06-16 | Queensland University Of Technology | Model adaptation system and method for speaker recognition |
KR20050063986A (ko) * | 2003-12-23 | 2005-06-29 | 한국전자통신연구원 | 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 |
US7636855B2 (en) * | 2004-01-30 | 2009-12-22 | Panasonic Corporation | Multiple choice challenge-response user authorization system and method |
US20050192973A1 (en) * | 2004-02-12 | 2005-09-01 | Smith Micro Software, Inc. | Visual database management system and method |
US20070033041A1 (en) * | 2004-07-12 | 2007-02-08 | Norton Jeffrey W | Method of identifying a person based upon voice analysis |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US8078465B2 (en) * | 2007-01-23 | 2011-12-13 | Lena Foundation | System and method for detection and analysis of speech |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US7565292B2 (en) * | 2004-09-17 | 2009-07-21 | Micriosoft Corporation | Quantitative model for formant dynamics and contextually assimilated reduction in fluent speech |
EP1794746A2 (en) * | 2004-09-23 | 2007-06-13 | Koninklijke Philips Electronics N.V. | Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
US7574359B2 (en) * | 2004-10-01 | 2009-08-11 | Microsoft Corporation | Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models |
US7565284B2 (en) * | 2004-11-05 | 2009-07-21 | Microsoft Corporation | Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
US7519531B2 (en) * | 2005-03-30 | 2009-04-14 | Microsoft Corporation | Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation |
US20060229879A1 (en) * | 2005-04-06 | 2006-10-12 | Top Digital Co., Ltd. | Voiceprint identification system for e-commerce |
US20060287863A1 (en) * | 2005-06-16 | 2006-12-21 | International Business Machines Corporation | Speaker identification and voice verification for voice applications |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8825482B2 (en) * | 2005-09-15 | 2014-09-02 | Sony Computer Entertainment Inc. | Audio, video, simulation, and user interface paradigms |
US7788101B2 (en) * | 2005-10-31 | 2010-08-31 | Hitachi, Ltd. | Adaptation method for inter-person biometrics variability |
JP4556028B2 (ja) * | 2005-11-04 | 2010-10-06 | 株式会社国際電気通信基礎技術研究所 | 発話主体同定装置及びコンピュータプログラム |
US20070201443A1 (en) * | 2006-02-09 | 2007-08-30 | Debanjan Saha | VoIP caller authentication by voice signature continuity |
US7539616B2 (en) * | 2006-02-20 | 2009-05-26 | Microsoft Corporation | Speaker authentication using adapted background models |
US20090106025A1 (en) * | 2006-03-24 | 2009-04-23 | Pioneer Corporation | Speaker model registering apparatus and method, and computer program |
DE602006010511D1 (de) * | 2006-04-03 | 2009-12-31 | Voice Trust Ag | Sprecherauthentifizierung in digitalen Kommunikationsnetzen |
US7769583B2 (en) * | 2006-05-13 | 2010-08-03 | International Business Machines Corporation | Quantizing feature vectors in decision-making applications |
WO2007131530A1 (en) * | 2006-05-16 | 2007-11-22 | Loquendo S.P.A. | Intersession variability compensation for automatic extraction of information from voice |
EP1860647B1 (en) * | 2006-05-24 | 2009-12-23 | Voice.Trust Ag | Robust speaker recognition |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
CN101154380B (zh) * | 2006-09-29 | 2011-01-26 | 株式会社东芝 | 说话人认证的注册及验证的方法和装置 |
US8024193B2 (en) * | 2006-10-10 | 2011-09-20 | Apple Inc. | Methods and apparatus related to pruning for concatenative text-to-speech synthesis |
EP2126901B1 (en) * | 2007-01-23 | 2015-07-01 | Infoture, Inc. | System for analysis of speech |
US20080195395A1 (en) * | 2007-02-08 | 2008-08-14 | Jonghae Kim | System and method for telephonic voice and speech authentication |
US8099288B2 (en) * | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR20080090034A (ko) * | 2007-04-03 | 2008-10-08 | 삼성전자주식회사 | 음성 화자 인식 방법 및 시스템 |
US20090006085A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Automated call classification and prioritization |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US20090030676A1 (en) * | 2007-07-26 | 2009-01-29 | Creative Technology Ltd | Method of deriving a compressed acoustic model for speech recognition |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8817964B2 (en) * | 2008-02-11 | 2014-08-26 | International Business Machines Corporation | Telephonic voice authentication and display |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
JP5326892B2 (ja) * | 2008-12-26 | 2013-10-30 | 富士通株式会社 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9685159B2 (en) * | 2009-11-12 | 2017-06-20 | Agnitio Sl | Speaker recognition from telephone calls |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8719191B2 (en) * | 2010-03-01 | 2014-05-06 | International Business Machines Corporation | Training and verification using a correlated boosted entity model |
CN102194455A (zh) * | 2010-03-17 | 2011-09-21 | 博石金(北京)信息技术有限公司 | 一种与说话内容无关的声纹鉴别认证方法 |
US8442823B2 (en) * | 2010-10-19 | 2013-05-14 | Motorola Solutions, Inc. | Methods for creating and searching a database of speakers |
US9318114B2 (en) | 2010-11-24 | 2016-04-19 | At&T Intellectual Property I, L.P. | System and method for generating challenge utterances for speaker verification |
WO2012068705A1 (en) * | 2010-11-25 | 2012-05-31 | Telefonaktiebolaget L M Ericsson (Publ) | Analysis system and method for audio data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
CN103186527B (zh) * | 2011-12-27 | 2017-04-26 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
JP6031761B2 (ja) * | 2011-12-28 | 2016-11-24 | 富士ゼロックス株式会社 | 音声解析装置および音声解析システム |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9390445B2 (en) | 2012-03-05 | 2016-07-12 | Visa International Service Association | Authentication using biometric technology through a consumer device |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
ES2605779T3 (es) * | 2012-09-28 | 2017-03-16 | Agnitio S.L. | Reconocimiento de orador |
US20140136204A1 (en) * | 2012-11-13 | 2014-05-15 | GM Global Technology Operations LLC | Methods and systems for speech systems |
US8694315B1 (en) * | 2013-02-05 | 2014-04-08 | Visa International Service Association | System and method for authentication using speaker verification techniques and fraud model |
US9406298B2 (en) * | 2013-02-07 | 2016-08-02 | Nuance Communications, Inc. | Method and apparatus for efficient i-vector extraction |
US20140222423A1 (en) * | 2013-02-07 | 2014-08-07 | Nuance Communications, Inc. | Method and Apparatus for Efficient I-Vector Extraction |
KR102103057B1 (ko) | 2013-02-07 | 2020-04-21 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9865266B2 (en) * | 2013-02-25 | 2018-01-09 | Nuance Communications, Inc. | Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system |
US9336775B2 (en) | 2013-03-05 | 2016-05-10 | Microsoft Technology Licensing, Llc | Posterior-based feature with partial distance elimination for speech recognition |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9258425B2 (en) | 2013-05-22 | 2016-02-09 | Nuance Communications, Inc. | Method and system for speaker verification |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US8812320B1 (en) | 2014-04-01 | 2014-08-19 | Google Inc. | Segment-based speaker verification using dynamically generated phrases |
US9542948B2 (en) | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
BR102014023647B1 (pt) * | 2014-09-24 | 2022-12-06 | Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes | Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10709388B2 (en) | 2015-05-08 | 2020-07-14 | Staton Techiya, Llc | Biometric, physiological or environmental monitoring using a closed chamber |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10056076B2 (en) * | 2015-09-06 | 2018-08-21 | International Business Machines Corporation | Covariance matrix estimation with structural-based priors for speech processing |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US20170092278A1 (en) * | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
CA3036561C (en) | 2016-09-19 | 2021-06-29 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10553218B2 (en) * | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
EP3637414B1 (en) | 2016-11-07 | 2024-01-03 | Google LLC | Recorded media hotword trigger suppression |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
US10720165B2 (en) * | 2017-01-23 | 2020-07-21 | Qualcomm Incorporated | Keyword voice authentication |
KR102321396B1 (ko) | 2017-04-20 | 2021-11-03 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
KR102364853B1 (ko) | 2017-07-18 | 2022-02-18 | 삼성전자주식회사 | 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템 |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
EP3553773B1 (en) | 2018-04-12 | 2020-06-03 | Spotify AB | Training and testing utterance-based frameworks |
EP3786945B1 (en) | 2018-04-12 | 2023-07-19 | Spotify AB | Voice-based authentication |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US11355103B2 (en) | 2019-01-28 | 2022-06-07 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
WO2020198354A1 (en) | 2019-03-25 | 2020-10-01 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US10841424B1 (en) | 2020-05-14 | 2020-11-17 | Bank Of America Corporation | Call monitoring and feedback reporting using machine learning |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4032711A (en) * | 1975-12-31 | 1977-06-28 | Bell Telephone Laboratories, Incorporated | Speaker recognition arrangement |
US5548647A (en) * | 1987-04-03 | 1996-08-20 | Texas Instruments Incorporated | Fixed text speaker verification method and apparatus |
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
US5345535A (en) * | 1990-04-04 | 1994-09-06 | Doddington George R | Speech analysis method and apparatus |
US5339385A (en) * | 1992-07-22 | 1994-08-16 | Itt Corporation | Speaker verifier using nearest-neighbor distance measure |
FR2696036B1 (fr) * | 1992-09-24 | 1994-10-14 | France Telecom | Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé. |
DE69326431T2 (de) * | 1992-12-28 | 2000-02-03 | Toshiba Kawasaki Kk | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
AUPM983094A0 (en) * | 1994-12-02 | 1995-01-05 | Australian National University, The | Method for forming a cohort for use in identification of an individual |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US6205424B1 (en) * | 1996-07-31 | 2001-03-20 | Compaq Computer Corporation | Two-staged cohort selection for speaker verification system |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
US6182037B1 (en) * | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US5953700A (en) * | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
US6233555B1 (en) * | 1997-11-25 | 2001-05-15 | At&T Corporation | Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models |
WO1999045530A1 (en) * | 1998-03-03 | 1999-09-10 | Lernout & Hauspie Speech Products N.V. | Multi-resolution system and method for speaker verification |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
-
1998
- 1998-09-04 US US09/148,911 patent/US6141644A/en not_active Expired - Lifetime
-
1999
- 1999-08-23 DE DE69914839T patent/DE69914839T2/de not_active Expired - Fee Related
- 1999-08-23 ES ES99306671T patent/ES2214815T3/es not_active Expired - Lifetime
- 1999-08-23 EP EP99306671A patent/EP0984431B1/en not_active Expired - Lifetime
- 1999-09-02 JP JP11248458A patent/JP2000081894A/ja active Pending
- 1999-09-03 CN CNB991183894A patent/CN1188828C/zh not_active Expired - Fee Related
- 1999-10-12 TW TW088115204A patent/TW448416B/zh not_active IP Right Cessation
-
2000
- 2000-07-05 US US09/610,495 patent/US6697778B1/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005049859A (ja) * | 2003-07-28 | 2005-02-24 | Sony Corp | オーディオデータを自動的に認識する方法及び装置 |
WO2009110613A1 (ja) * | 2008-03-07 | 2009-09-11 | 日本電気株式会社 | 個人照合装置及び話者登録装置と方法並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
US6697778B1 (en) | 2004-02-24 |
EP0984431B1 (en) | 2004-02-18 |
EP0984431A2 (en) | 2000-03-08 |
US6141644A (en) | 2000-10-31 |
ES2214815T3 (es) | 2004-09-16 |
DE69914839D1 (de) | 2004-03-25 |
DE69914839T2 (de) | 2005-01-05 |
CN1188828C (zh) | 2005-02-09 |
CN1247363A (zh) | 2000-03-15 |
EP0984431A3 (en) | 2000-11-29 |
TW448416B (en) | 2001-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000081894A (ja) | 音声評価方法 | |
Hansen et al. | Speaker recognition by machines and humans: A tutorial review | |
Kabir et al. | A survey of speaker recognition: Fundamental theories, recognition methods and opportunities | |
JP3683177B2 (ja) | 音声認識のための文脈依存モデルの作成方法 | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN100363938C (zh) | 基于得分差加权融合的多模态身份识别方法 | |
Wan | Speaker verification using support vector machines | |
US11900957B2 (en) | Voice conversion learning device, voice conversion device, method, and program | |
CN110570879A (zh) | 基于情绪识别的智能会话方法、装置及计算机设备 | |
Maghsoodi et al. | Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors | |
EP1178467B1 (en) | Speaker verification and identification | |
Kuhn et al. | Eigenfaces and eigenvoices: Dimensionality reduction for specialized pattern recognition | |
Sadıç et al. | Common vector approach and its combination with GMM for text-independent speaker recognition | |
Zhang et al. | Multimodal emotion recognition integrating affective speech with facial expression | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
Elnaggar et al. | A new unsupervised short-utterance based speaker identification approach with parametric t-SNE dimensionality reduction | |
Ming et al. | A Bayesian approach for building triphone models for continuous speech recognition | |
Nankaku et al. | Acoustic modeling with contextual additive structure for HMM-based speech recognition | |
Ahmad et al. | Client-wise cohort set selection by combining speaker-and phoneme-specific I-vectors for speaker verification | |
Singh | Bayesian distance metric learning and its application in automatic speaker recognition systems | |
Zahorian et al. | Nonlinear dimensionality reduction methods for use with automatic speech recognition | |
Ramteke et al. | Gender identification using spectral features and glottal closure instants (gcis) | |
Al-Tekreeti et al. | Speaker voice recognition using a hybrid PSO/fuzzy logic system | |
CN109872725B (zh) | 多视角向量处理方法和设备 | |
JPH1055195A (ja) | 音声認識による話者特徴判別方法 |