JP2000081894A - 音声評価方法 - Google Patents

音声評価方法

Info

Publication number
JP2000081894A
JP2000081894A JP11248458A JP24845899A JP2000081894A JP 2000081894 A JP2000081894 A JP 2000081894A JP 11248458 A JP11248458 A JP 11248458A JP 24845899 A JP24845899 A JP 24845899A JP 2000081894 A JP2000081894 A JP 2000081894A
Authority
JP
Japan
Prior art keywords
speaker
eigenspace
speech
learning
evaluation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11248458A
Other languages
English (en)
Inventor
Roland Kuhn
ローランド クーン
Patrick Nguyen
パトリック ニュイエン
Jean-Crande Junkua
ジーン−クランデ ジュンクア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2000081894A publication Critical patent/JP2000081894A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Collating Specific Patterns (AREA)

Abstract

(57)【要約】 【課題】 話者識別および話者照合方法を提供する。 【解決手段】 登録話者の音声に基づいて(話者照合の
場合にはさらに詐称者の音声にも基づいて)音声モデル
を作成し学習する。音声モデルからのパラメータを連接
してスーパーベクトルを定義する。スーパーベクトルに
対して線形変換を施して次元数を削減し、低次元空間
(固有空間と呼ぶ)を生成する。学習用話者は点または
分布として固有空間内に表される。その後、試験用話者
からの未知音声に対して同様の線形変換を施して固有空
間内に位置づける。固有空間内の試験用話者の学習用話
者に対する類似度によって試験用話者を認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声処理技術に関
し、さらに詳しくは、話者照合あるいは話者識別を実行
するシステムおよび方法に関する。
【0002】
【従来の技術および解決しようとする課題】本人である
ことを認識することは、ほとんどすべての取引における
中心問題である。多くの人が電話を通じて自己の預金口
座にアクセスしたり自己のクレジットカードを使用した
りというような秘密の金融取引を行っている。現在実施
されている本人であることの認識は決して簡単ではな
い。政党間では、社会保障番号、母親の旧姓などの秘密
情報の交換が行われているであろう。このような情報は
盗まれる可能性があり、その場合には誤った認識がされ
ることになる。
【0003】この発明の1つの局面においては、話者照
合を実行するシステムおよび方法を提供することにより
上述の問題に焦点をあてる。話者照合では、与えられた
音声が特定の話者(ここでは、登録話者という)に属す
るか詐称者(登録話者以外のだれか)に属するかを決定
することが必要とされる。
【0004】話者識別における問題点は話者照合におけ
る問題点と多少関係している。話者識別では、与えられ
た音声を既得の音声集合の中の1つにマッチングさせる
必要がある。話者照合と同様、話者識別にも多くの興味
深い応用例がある。例えば、話者識別システムは、音声
サンプルを利用することができる話者群に関して話者に
よる音声メールを区分することに使用されるかもしれな
い。このような能力によれば、音声メールシステムにメ
ッセージを残した通話者の身元をコンピュータ画面に表
示させるコンピュータテレフォニーシステムが可能とな
る。
【0005】話者照合および話者識別の応用例はほとん
ど無数に存在するが、話者照合および話者識別の実行の
解明はこれまでわかりにくいものであった。人間の音声
を認識すること、特にその話者を他の話者から識別する
ことは複雑な問題である。人は、たった一つの単語でさ
え全く同じように二度話すことはめったにない。これ
は、人間の発声法が原因となっている。
【0006】人間の音声は以下のようにして生成され
る。肺から押し出された空気が声帯を通り抜け、声門に
より調音され音声波が生成される。音声波は口腔および
鼻腔で共鳴し、その後、舌、顎、歯、唇により言語音が
作られる。これらの音声生成機構の相互作用に対して、
様々な要素が影響を及ぼす。例えば、かぜにより声帯の
音質が大きく変化するのと同様に鼻腔の共鳴も大きく変
化する。
【0007】人間の音声生成における複雑さおよび変わ
りやすさのため、話者照合および話者識別は、新たな音
声を既得の音声サンプルと比較することにより容易に実
行できるというわけではない。詐称者を除外するために
類似度のしきい値を高く設定すると、本物の話者が鼻風
邪を引いている場合にはその本物の話者を棄却してしま
うことがある。一方、類似度のしきい値を低く設定する
と、システムは誤った照合を起こしやすくなる。
【0008】
【課題を解決するための手段】請求項1に従った音声評
価方法は、登録話者に関する音声評価方法であって、少
なくとも一人の登録話者を含む複数の学習用話者の音声
に基づいて、音声モデル集合を学習するステップと、音
声モデル集合の次元数を削減して基本ベクトル集合を生
成し、この基本ベクトル集合により定義され、かつ、複
数の学習用話者を表すための固有空間を構築するステッ
プと、登録話者を固有空間内に第1の位置として表すス
テップと、新たな話者による入力データに基づいて新た
な音声モデルを学習し、この新たな音声モデルの次元数
を削減して新たな話者を固有空間内に第2の位置として
表すことによって、新たな話者による入力データを処理
するステップと、第1の位置と第2の位置との類似度を
評価し、その評価を新たな話者が登録話者か否かの指標
として用いるステップとを備える。
【0009】請求項2に従った音声評価方法では、話者
識別を行う場合には、複数の学習用話者は、複数の異な
る登録話者を含む。上記音声評価方法はさらに、複数の
登録話者の各々を固有空間内に学習用話者の位置として
表すステップと、第2の位置と学習用話者の位置との類
似度を評価し、この評価の少なくとも一部に基づいて新
たな話者を複数の登録話者の中から選択した一人として
識別するステップとを備える。
【0010】請求項3に従った音声評価方法では、話者
照合を行う場合には、複数の学習用話者は、固有空間内
に第3の位置として表される少なくとも一人の詐称者を
含む。
【0011】請求項4に従った音声評価方法は、第2の
位置と第3の位置との類似度を評価し、その評価を新た
な話者が登録話者か否かのさらなる指標として使うステ
ップを備える。
【0012】請求項5に従った音声評価方法では、類似
度を評価するステップは、第1の位置と第2の位置との
間の距離を定めることによって行われる。
【0013】請求項6に従った音声評価方法では、学習
用話者は、固有空間内に位置として表される。
【0014】請求項7に従った音声評価方法では、学習
用話者は、固有空間内に点として表される。
【0015】請求項8に従った音声評価方法では、学習
用話者は、固有空間内に分布として表される。
【0016】請求項9に従った音声評価方法では、新た
な話者による入力データを処理するステップは、入力デ
ータを用いて確率関数を生成しその確率関数を最大化す
ることによって固有空間にある最尤ベクトルを決定する
ステップを含む。
【0017】請求項10に従った音声評価方法では、複
数の学習用話者は、複数の登録話者と少なくとも一人の
詐称者とを含む。
【0018】請求項11に従った音声評価方法は、第1
の位置と第2の位置との類似度を周期的に評価し、新し
い話者が登録話者か否かの指標としてその評価を用いる
ことによって新たな話者の同一性が変化したか否かを決
定するステップを含む。
【0019】この発明は、話者照合および話者識別のた
めのモデルに基づいた分析方法を使用する。モデルは、
既知の登録話者の音声に基づいて作成されて学習する
(話者照合の場合には、一人またはそれ以上の詐称者の
音声にも基づく)。これらの話者モデルには、例えば、
隠れマルコフモデル(以下、HMMともいう。)におけ
るパラメータのように、一般的に多数のパラメータが使
用される。これらのパラメータを直接使用するのではな
く、連接させてスーパーベクトルを作成する。これらの
スーパーベクトルは、話者一人あたり一個作成され、学
習データの話者の母集団全体を表す。
【0020】スーパーベクトルに対して線形変換を行な
って次元数を削減し、低次元空間(ここでは、固有空間
と呼ぶ)を生成する。この固有空間の基底ベクトルを固
有音声または固有ベクトルと呼ぶ。必要があれば、固有
ベクトルの成分のいくつかを捨てることにより固有空間
の次元数をさらに削減することができる。
【0021】次いで、学習用データを含む話者の各々を
固有空間内の点あるいは固有空間内の確率分布として固
有空間内に表す。前者(点として表すこと)は、各話者
からの音声を相対的に不変のものとして取り扱う点で、
やや不正確である。後者(確率分布として表すこと)
は、発話ごとの各話者の音声の変化を反映する。
【0022】各話者の学習用データが固有空間内に表さ
れると、システムを用いて話者照合または話者識別を行
うことができる。
【0023】新たな音声データが得られるとこれを用い
てスーパーベクトルを作成し、次いで次元数削減を行い
固有空間に表す。新たな音声データの既得のデータに対
する類似度を評価することで話者照合あるいは話者識別
を実行する。話者からの新たな音声について、その固有
空間内の対応する点あるいは対応する分布が登録話者の
学習用データに対するしきい値類似度内であるか否かを
照合する。システムは、本人であっても、その音声が固
有空間内にある詐称者の音声の方に近い場合には棄却す
ることがある。
【0024】話者識別は類似の方法で行う。新たな音声
データを固有空間内に位置付け、学習用話者のうち固有
ベクトルの分布点が最も近い学習用話者と結びつける。
【0025】固有空間内において新たな音声データと学
習用データとの類似度を評価することには多くの利点が
ある。
【0026】第一に、固有空間は、単に選択された数個
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。
【0027】また、固有空間内に含まれる次元数は、元
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。
【0028】また、システムにおいては、元の学習用デ
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。
【0029】
【発明の実施の形態】以下、この発明の実施の形態につ
いて図面を参照しつつ説明する。
【0030】この発明において用いられる固有音声手法
は、多くの異なった音声モデルに対して機能する。ここ
では好ましい実施の形態として、今日の音声認識手法に
おいて最も一般的な隠れマルコフモデル認識系に関して
説明する。しかし、この発明は、例えば音素類似性認識
系のような他のタイプのモデルに基づく認識系を使用し
て実行することもできる。
【0031】この発明による話者識別および話者照合を
よりよく理解するためには、話者認識システムについて
基本的な事項を理解しておくことが有用と思われる。し
たがって、以下、隠れマルコフモデル手法について説明
する。隠れマルコフモデルは、今日のほとんどの話者認
識系において話者を表すために使用されているものであ
る。
【0032】隠れマルコフモデルは状態図を伴うモデル
化手法である。モデルに含まれている全ての知識源
(句、単語、サブワード、音素など)を利用することに
より、いかなる音声単位であってもモデル化することが
可能である。隠れマルコフモデルは、観測可能な出力の
系列を離散間隔で生成する未知の処理を表現し、出力は
(予め決められた音声単位の集合に対応する)いくつか
の有限個のアルファベット要素である。これらのモデル
は、観測可能な出力を生成した状態の系列が未知である
ので、「隠れ」と呼ばれる。
【0033】図1に示すように、隠れマルコフモデル1
0は、状態(S1,S2,...,S5)のセットと、
図1に矢印で示す各対の状態間の遷移を規定するベクト
ルと、確率データの集まりとによって表される。具体的
には、隠れマルコフモデルは、遷移ベクトルに関連する
遷移確率のセット12と、各状態で観測された出力に関
連する出力確率のセット14とを含んでいる。このモデ
ルは、ある状態から別の状態まで一定の離散間隔で計測
される。クロックタイムには、モデルは現在の状態から
遷移ベクトルが存在するどの状態へも変化してよい。図
1に示すように、所定の状態からそれ自体に戻るという
遷移も可能である。
【0034】遷移確率は、モデルが計測された際にある
状態から別の状態への遷移が発生する尤度を表現してい
る。すなわち、図1に示すように、各遷移は0と1の間
の確率値を伴っている。どの状態からでもその状態を離
れる全ての確率の合計は1である。例として、遷移確率
表12に遷移確率値のセットを掲載する。実際の実施形
態では、どの状態からでもその状態を離れる全ての確率
の合計が1に等しいという制約のもとで、これらの値が
学習データにより生成される。
【0035】遷移が行われるときはいつも、モデルがア
ルファベットの一要素を発信すなわち出力していると判
断することができる。図1に示す実施形態では、音素を
基準とする音声単位が想定されている。したがって、出
力確率表14で特定されるシンボルは標準英語に見られ
る音素の一部に相当する。各遷移の際にアルファベット
のどの要素が出力されるかは学習中に覚えた出力確率値
すなわち関数によって決まる。このようにして発信され
た出力(学習データに基づく)は、観測値の系列を表
し、アルファベットの各要素は出力確率を有している。
【0036】音声をモデル化する際に共通して行われる
ことは、離散アルファベットシンボルの系列とは対照的
に、出力を連続するベクトルの系列として扱うことであ
る。したがって、出力確率は1個の数値の場合とは対照
的に、連続する確率密度関数で表現される必要がある。
このように、HMMは1個以上のガウス分布を備えた確
率密度関数に基づく場合が多い。複数のガウス関数が使
用される場合、図に16で示すように、それらは一般に
複素確率分布を画定するよう加法的に混合される。
【0037】単一ガウス関数として表現されるにせよ混
合ガウス関数として表現されるにせよ、確率分布は複数
のパラメータで記述される。遷移確率値12と同様に、
これら出力確率パラメータも浮動小数点数を含んでいて
もよい。パラメータ18は、学習用話者からの観測デー
タに基づいて確率密度関数(pdf)を表現するために
一般的に使用されるパラメータを特定するものである。
図1のガウス関数16の等式で示すように、モデル化さ
れるべき観測ベクトルOの確率密度関数はガウス密度N
により多重化された各混合成分の混合係数の反復合計で
あり、この場合、ガウス密度はケプストラム係数あるい
はフィルターバンク係数の音声パラメータから算出され
た平均ベクトルuj及び共分散行列Ujを含んでいる。
【0038】隠れマルコフモデル認識系の実行の詳細
は、応用例ごとに大幅に異なることがある。図1に示す
隠れマルコフモデルの一例は隠れマルコフモデルを作成
する方法を単に例示したにすぎず、本発明の範囲を限定
するものではない。この点について、隠れマルコフモデ
ル化の概念に関する多くの変形例が存在する。以下の説
明からより完全に理解できるように、本発明の固有音声
適応化技術は各種隠れマルコフモデル変形例だけでなく
パラメータを基準とする他の音声モデル化システムにも
効果的であるように容易に適応させることができる。
【0039】図2および図3はそれぞれ、この発明の実
施の形態による話者識別、話者照合を実行するための固
有空間の構築を説明するためのフローチャートである。
この発明の実施の形態による話者識別、話者照合を実行
するために、まず固有空間を作成する。作成する固有空
間は、応用例により定まる特有の固有空間である。図2
に示すように、話者識別の場合には、登録話者集合20
を使用して学習用データ22を提供し、この学習用デー
タ22に基づいて固有空間を作成する。対して、話者照
合の場合には、図3に示すように、照合の対象となる一
または複数の登録話者21a、さらに1または複数の仮
想の詐称者21bも使用して学習用データ22を提供す
る。このように学習用データ22の源が異なるという違
いがあるが、話者識別と話者照合において固有空間を作
成する手順は本質的に同じである。したがって、図2お
よび図3において同一または相当部分には同じ参照符号
を付している。
【0040】ステップ24において、学習用データ22
に表された話者の各々について学習用話者モデルを発展
させ教え込む。その結果、各話者モデルの集合26が生
成される。ここでは、隠れマルコフモデルについて示し
たが、これに限定されるものではなく、連接に適したパ
ラメータを有する音声モデルであればどのようなモデル
でもよい。好ましくは、モデルにより画定された全ての
音声単位が少なくとも一度は各話者の実際の音声によっ
て教え込まれるよう十分な学習用データを使ってモデル
26を学習させる。図2および図3には明確に示してい
ないが、モデルを洗練するのに適した話者適応手順24
を付加的に含めることができる。このような付加的な手
順の例としては、最大事後推定法(Maximum A
Postttteriori estimatio
n:MAP)や、最大線形回帰法(MLLR)などの変
換に基づく手法が挙げられる。
【0041】話者モデル26を作成する目的は、学習用
データ集合を正確に表し、各学習用話者を配置し新たな
話者の発声を検査する固有空間の境界をこの集合を使用
して画定することにある。
【0042】モデル26を作成した後、ステップ28に
おいて、各話者についてのモデルを使用してスーパーベ
クトル30を作成する。スーパーベクトル30は、各話
者についてのモデルのパラメータを連接させて構成する
ことができる。隠れマルコフモデルを使用する場合、各
話者についてのスーパーベクトルは、パラメータ(一般
に浮動小数点数)の配列リストとなる。これらのパラメ
ータは、その話者についての隠れマルコフモデルのパラ
メータの少なくとも一部に対応する。与えられた話者に
ついてのスーパーベクトルには、各音声単位に対応する
パラメータが含まれる。パラメータは都合のよい順序に
編成することができる。その順序は重要ではないが、一
旦ある順序が採用されると学習用話者全員についてその
順序に従わせる必要がある。
【0043】スーパーベクトルを作成するために使用す
るモデルパラメータの選択は、利用できるコンピュータ
システムの処理能力に依存する。隠れマルコフモデルを
使用した場合、ガウス平均値(the Gaussia
n means)からスーパーベクトルを作成すること
により良い結果が得られた。もし、さらに大きな処理能
力を利用できるならば、スーパーベクトルに他のパラメ
ータ(例えば、図1に示す遷移確率12、パラメータ1
8中の共分散行列Ujなど)を含めることができる。も
し、隠れマルコフモデルにより離散的な出力(確率密度
と対照的な)が生成されるならば、これらの出力値を使
用してスーパーベクトルを作成することができる。
【0044】スーパーベクトルを作成した後、ステップ
32において、次元数削減演算を行う。次元数削減は、
元の高次元のスーパーベクトルを基底ベクトルに変える
どのような線形変換を通じても達成できる。不完全では
あるが例を挙げると、主成分分析(Principal
Component Analysis:PCA)、
独立成分分析(Independent Compon
ent Analysis:ICA)、線形識別分析
(Linear Discriminate Anal
ysis:LDA)、因子分析(Factor Ana
lysis:FA)、特異値分析(Singular
Value Decomposition:SVD)な
どが挙げられる。
【0045】特に、本発明を実行する際に有用な次元数
削減手法を以下に示す。音声認識に関する話者独立型モ
デルから得られたT個の学習用スーパーベクトルにより
構成される一つの集合を考える。これらのスーパーベク
トルの各々は次元数Vを有すると仮定する。従って、全
てのスーパーベクトルをX=[x1,x2,・・・,x
V]^T(V*1ベクトル)のように表すことができ
る。次元数Eの新たなベクトルを生成するために、スー
パーベクトルに適用可能な線型変換Mを考える。ここ
で、E≦Tである。Tは、学習用スーパーベクトルの数
である。変換されたベクトルの各々は、W=[w1,w
2,・・・,wE]^Tのように表すことができる。線型
変換Mのパラメータの値は、T個の学習用スーパーベク
トルによる集合から何らかの方法で計算される。
【0046】このようにして、線型変換W=M*Xが得
られる。MはE*Vの次元数を有し、WはE*1の次元
数を有する。ここで、E≦Tである。T個のスーパーベ
クトルによる集合のうち特別のものについては、Mは定
数になる。 Wは次元数E(E≦Tである。)を有する
ため、T個のスーパーベクトルによる1つの集合から線
形変換Mを計算するためにいくつかの次元数削減手法を
使用することができる。例として、主成分分析(Pri
ncipal Component Analysi
s)、独立成分分析(Independent Com
ponent Analysis)、線形識別分析(L
inear Discriminant Analysi
s)、因子分析(Factor Analysis)、
特異値分析(Singular Value Decom
position)がある。
【0047】この発明は、例に挙げた方法に限らず、入
力ベクトルが話者依存型モデルにより得られた学習用ス
ーパーベクトルであるという特別のケースにおいて不変
線型変換Mを見つけるためのどのような方法を使用して
も行うことができる。ここでMは前記手法を行うために
使用される。
【0048】ステップ32において生成された基底ベク
トルは、固有ベクトルにより張られる固有空間を定め
る。次元数削減により、学習用話者一人当たり一つの固
有ベクトルが作成される。したがって、T人の学習用話
者が存在するときは、次元数削減ステップ32によりT
個の固有ベクトルが生成される。これらの固有ベクトル
により、この説明において固有音声空間あるいは固有空
間と呼ぶ空間が定められる。
【0049】固有空間を構成する固有ベクトルの各々
は、図2および図3の34に示すように、それぞれ異な
った次元を表し、それに沿って異なる話者を区別するこ
とができる。元の学習用集合の中の各スーパーベクトル
は、これら固有ベクトルの線形結合として表すことがで
きる。固有ベクトルは、データをモデル化する際の重要
性に応じて配列される。第一の固有ベクトルは第二の固
有ベクトルよりも重要であり、第二の固有ベクトルは第
三の固有ベクトルよりも重要である、という具合であ
る。実験によれば、第一の固有ベクトルは男女を表す次
元に対応する。
【0050】ステップ32においては最大T個の固有ベ
クトルを作成するが、実際にはこれらの固有ベクトルの
いくつかを捨てて最初のN個の固有ベクトルだけを保持
することもできる。ステップ36においては、T個の固
有ベクトルのうちN個を選択的に抽出してパラメータ数
を削減した固有空間38を作成する。より高位に配列さ
れた固有ベクトル(前述の第一の固有ベクトルに対する
第二、第三の固有ベクトル)は、一般に話者間の識別の
ための重要な情報を比較的含んでいないため捨てること
ができる。固有音声空間を縮小して学習用話者の総数よ
りも小さくすることにより、限られた記憶容量と処理装
置による実用的なシステムを構築する際に有用な固有の
データ圧縮が行える。
【0051】学習用データから固有ベクトルを作成した
後、学習用データにおける各話者を固有空間内に表す。
話者識別を行う場合には、図2に示すステップ40aに
おいて、各登録話者を固有空間内に表す。これを42a
に図式的に示す。話者照合を行う場合には、図3に示す
ステップ40bにおいて、登録話者および仮想の詐称者
を固有空間内に表す。これを42bに図式的に示す。話
者は、図2の42aに示すように固有空間内に点とし
て、あるいは図3の42bに示すように固有空間内に確
率分布として表す。
【0052】<話者識別あるいは話者照合システムの使
用>図4は、この発明の実施の形態による話者識別シス
テムおよび話者照合システムの使用を説明するためのフ
ローチャートである。図4を参照して、ステップ44に
おいて、話者識別あるいは話者照合を求めるユーザは新
たな音声データを提供する。ステップ46において、新
たなデータを使用して話者依存型モデル48を学習させ
る。ステップ50において、モデル48を使用してスー
パーベクトル52を作成する。なお、新たな音声データ
は各音声単位の例を必ずしも含んでいない。例えば、新
たな発話が非常に短いためにすべての音声単位の例を含
んでいないかもしれない。本システムは、この問題を解
決する。
【0053】ステップ54において、スーパーベクトル
52に対して次元数削減を行う。その結果ステップ56
において、固有空間内に新たなデータが図4中の58に
示すように位置付けられる。図4中58では、学習用デ
ータに基づいて固有空間内に既存データを示す部分はド
ットで表し、新たな音声データはスターマークで表して
いる。
【0054】固有空間内に新たなデータを位置付けた
後、学習用話者に対応して既存データを示す点または分
布との類似度の評価が行われる。図4には、話者識別お
よび話者照合の典型的な実施例を示している。
【0055】話者識別の場合には、ステップ62におい
て、新たな音声データは固有空間内の最も近い学習用話
者に割り当てられる。この様子を図4中の64に示す。
【0056】システムはこのようにして、新しい音声と
固有空間内におけるデータ点またはデータ分布が最も近
い既存の学習用話者とが同一であると認識する。
【0057】話者照合の場合には、ステップ66におい
て、システムは新しいデータを示す点を調べて、それが
固有空間内の登録話者に対してあらかじめ定められたし
きい値類似度の範囲内にあるかどうかを決定する。ステ
ップ68において、新たな話者データが登録話者よりも
詐称者に近いときは、予防手段としてシステムはそのデ
ータを棄却する。この様子を図4中の69に示す。ここ
には登録話者に対する類似度および詐称者に対する類似
度が描かれている。
【0058】<最尤固有空間分析手法(Maximum
Likelihood Eigenspace De
composition Technique:MLE
D)>新たな話者を固有空間内に位置付ける一つの簡単
な手法は、単純射影演算を用いることである。射影演算
により、固有空間外の点にできるだけ近い固有空間内の
点が新たな話者による入力音声に対応する。これらの点
が実際にはHMMの集合を再構成することができるスー
パーベクトルであることは重要ではない。
【0059】射影演算は比較的未熟な手法であるので、
固有空間内の地点が新たな話者に関して最適であるとい
うことは保証されない。さらに、射影演算においては、
新たな話者についての完全なHMM集合を表すための完
全なデータ集合が新たな話者についてのスーパーベクト
ルに含まれていることが必要とされる。この要求によ
り、実用上の制限をかなり受ける。射影を使用して新た
な話者を固有空間内に位置付ける場合、新たな話者は、
全ての音声単位がデータ内に表されるように十分な入力
音声を提供しなければならない。例えば、隠れマルコフ
モデルにより英語のすべての音素を表そうとすると、単
純射影手法を使用する前に学習用話者は全ての音素の例
を提供しなければならない。応用する際にこのような制
限が存在することは実用的でない。
【0060】この実施の形態における最尤手法は、上述
の単純射影の欠点の両方に焦点をあてたものである。最
尤手法では、新たな話者によって供給される音声の最大
生成確率を有する隠れマルコフモデルに対応したスーパ
ーベクトルを表す点を固有空間内に見つける。
【0061】単純射影演算ではスーパーベクトルの全て
の要素を同等の重要性を有するものとして取り扱うのに
対して、最尤手法では、実際の適用データから生じる確
率に基づいてより起こりそうなデータにはより大きな重
みをつけるようにする。単純射影演算と違って、たとえ
新たな話者により十分な学習用データ集合が提供されな
い場合であっても最尤手法は機能する。すなわち、音声
単位のいくつかのデータが欠けている場合である。実際
には、最尤手法ではスーパーベクトルが作成された状況
を考慮に入れる。すなわち、他のモデルよりも新たな話
者が提供した入力音声を生成しやすいという確率を有す
る隠れマルコフモデルからスーパーベクトルを作成す
る。実用上は、入力音声が実際にどのくらい利用できる
かの程度にかかわらず、最尤手法は、固有空間内におい
て新たな話者の入力音声に最も一致するスーパーベクト
ルを選択する。ここで説明の便宜上、新たな話者はアラ
バマ出身の若い女性であると仮定する。最尤手法では、
この話者から発せられた数音節に基づいて、アラバマ出
身女性のアクセントに一致する全ての音素を表す部分が
固有空間内において選択される。
【0062】図5は、最尤手法がどのように行われるか
を説明するための図である。図5を参照して、新たな話
者からの入力音声を使用してスーパーベクトル70を作
成する。上述のように、スーパーベクトルは、ケプスト
ラム係数または同様のものに対応した音声パラメータの
連接リストを含む。これらのパラメータは、新たな話者
に対応した隠れマルコフモデルから抽出されたガウス平
均を表す浮動小数点数である。他の隠れマルコフモデル
平均を使用することもできる。これらの隠れマルコフモ
デル平均は、図5中の72のドットで表される。データ
が全て揃っている場合、スーパーベクトル70は、隠れ
マルコフモデル平均の各々についての浮動小数点数を含
み、これらは隠れマルコフモデルによって表された音声
単位の各々に対応している。ここで、音素”ah”につ
いてのパラメータは存在するが音素”iy”についての
パラメータが欠けている場合を仮定する。
【0063】固有空間38は、固有ベクトル74,7
6,78の集合によって表される。固有ベクトルの各々
を、図5中にW1,W2,・・・,Wnとして示された
対応する固有値と掛け合わせることにより、新たな話者
からの観測データに対応したスーパーベクトル70を固
有空間内に表すことができる。最初これらの固有値は未
知である。最尤手法はこれら未知の固有値の値を見つけ
る。さらにいうと、これらの値は、固有空間内で新たな
話者を最もよく表す最適解を探すことにより選ばれる。
固有値を固有空間38内の対応する固有ベクトルと掛け
合わせた後、それらの結果を足しあわせて適応モデルを
表すスーパーベクトル80を作成する。入力話者のスー
パーベクトル70はいくつかのパラメータ値(例え
ば、”iy”パラメータ)を欠いているのに対して、適
応モデルを表すスーパーベクトル80では全ての値が揃
っている。これはこの発明により得られる一つの利益で
ある。さらに、スーパーベクトル80内の値は最適解、
すなわち固有空間内に新たな話者を表す最大尤度を表
す。
【0064】各固有値W1,W2,・・・,Wnは、最
尤ベクトルを含んでいるとみなすことができる。図5中
の82に最尤ベクトルの概略を示す。図5に示すよう
に、最尤ベクトル82は最尤ベクトル82は固有値W
1,W2,・・・,Wnの集合を含む。
【0065】図6は、最尤手法を使用した適応化の手順
を説明するためのフローチャートである。図6を参照し
て、まずステップ100において、観測データを含む新
たな話者からの音声を使用して隠れマルコフモデル集合
102を作成する。ステップ104において、隠れマル
コフモデル集合102を使用してスーパーベクトル10
6を作成する。スーパーベクトル106は、隠れマルコ
フモデル102から抽出された隠れマルコフモデルパラ
メータの連接リストを含む。
【0066】ステップ108において、スーパーベクト
ル106を使用して確率関数Qを作成する。この実施の
形態では、確率関数は、あらかじめ定義された隠れマル
コフモデル102に関して観測されたデータの生成確率
を表す。
【0067】確率関数Qが確率項Pだけでなくその対数
項logPも含んでいるならば、確率関数Qの後の扱い
が容易になる。
【0068】ステップ110において、固有値W1,W
2,・・・,Wnの各々について個々に確率関数Qの導
関数を求めることにより確率関数Qの最大化を行う。例
えば、固有空間の次元数が100の場合、このシステム
では、確率関数Qの100個の導関数を求めてそれぞれ
を0と置いてそれぞれのWを求める。これは計算量が多
いように見えるが、何千もの計算を行うことが一般的に
要求される従来のMAP法あるいはMLLR法に比べて
はるかに計算量が少ない。
【0069】このようにして得られたWの集合は、最尤
点に対応した固有空間内の点の認定に必要とされる固有
値を表す。したがって、Wの集合は固有空間内の最尤ベ
クトルを含む。固有ベクトルの各々(図5に示す固有ベ
クトル74,76,78)は、直交ベクトル集合または
直交座標集合を定義し、この集合に対して固有値が掛け
合わされて固有空間内に制限された点が定義される。ス
テップ112において、この最尤ベクトルを使用して固
有空間内の最適点(図4中の66に示す)に対応したス
ーパーベクトル114が作成される。ステップ116に
おいて、スーパーベクトル114を使用して新たな話者
についての適応モデル118を作成する。
【0070】この実施の形態における最尤法において、
モデルλに関する観測値O(O=o 1,・・・,oT)の
尤度を最大にすることが望まれる。これは、数1に示す
補助関数Qの最大化を反復することにより行うことがで
きる。数1において、λは反復処理時の現行モデルを表
し、^λは推定モデルを表す。
【0071】
【数1】 予備の近似計算として、平均値のみについて最大化を実
行してもよい。隠れマルコフモデル集合により確率Pが
与えられた場合には、以下の数2を得る。
【0072】
【数2】 ここで、
【0073】
【数3】 であり、さらに、
【0074】
【数4】 である。
【0075】新たな話者の隠れマルコフモデルについて
のガウス平均が固有空間内に配置されていると仮定す
る。数5に示す平均スーパーベクトル/μj(j=1,
・・・,E)によってこの空間を広げる。
【0076】
【数5】 ここで、/μm (s)(j)は、固有ベクトル(固有モデ
ル)jの状態sにおける混合ガウシアンmについての平
均ベクトルを表す。
【0077】したがって、以下の数6に示される^μを
必要とする。
【0078】
【数6】 /μjは直交しており、wjは話者モデルの固有値であ
る。どんな新たな話者であっても、観測された話者のデ
ータベースの線形結合によりモデル化することができる
と仮定する。
【0079】
【数7】 Qを最大化するため、以下の処理を行う。
【0080】
【数8】 なお、固有ベクトルは直交するため、(∂wi/∂wj
=0,i≠jである。
【0081】したがって、数9を得る。
【0082】
【数9】 上記導関数を計算することにより、数10を得る。
【0083】
【数10】 これにより、数11に示される一群の線形方程式を得
る。
【0084】
【数11】 <固有空間内における類似度評価>話者を固有空間内に
点として表す場合は、単純な幾何学的距離の計算を用い
て、新たな話者に対してどの学習用話者が一番近いかを
認定することができる。話者を固有空間内に分布として
表す場合は、新たな話者データを観測値Oとして取り扱
い、各分布候補(学習用話者を表す)を検査することに
よって類似度を評価してその候補が観測データを生成し
た確率を決定する。最も高い確率を有する候補が最も近
い類似度を有するものと評価する。高い安全性を必要と
する応用例においては、最も高い確率を有する候補が、
あらかじめ定められたしきい値よりも低い確率値を有す
る場合には、照合を棄却することが望まれる。費用関数
を用いて高度の確実性を欠く候補を除外することができ
る。
【0085】上述のように、新たな話者の学習用話者に
対する類似度の評価は、完全に固有空間内において行わ
れる。さらに高度の正確さを得るために、これに代えて
ベイズ推定法を用いることができる。
【0086】ベイズ推定法を用いた類似度評価を高める
ために、固有空間内の学習用話者のガウス密度に対し
て、次元数削減を通じて捨てられた話者データを表す直
交補空間内の推定限界密度を掛け合わせる。話者モデル
であるスーパーベクトルに基づいて次元数削減を実行す
れば高次元空間から低次元空間にデータを大幅に圧縮で
きることがこれによりわかるであろう。次元数削減によ
って最も重要な基底ベクトルは保持されるが、より上位
の情報のいくつかは捨てられる。ベイズ推定法は、この
捨てられた情報に対応した限界ガウス密度を推定する。
元の固有空間は、スーパーベクトルの次元数削減処理を
通じての線形変換により作成される。ここではN個の全
成分からM個の成分が抽出される。抽出されるM個の成
分が少ないほど、最大限の固有値に対応した変換基底の
より低次元の下位空間を表すことができる。このように
して、重要でない成分i(i=M+1,・・・,N)は
捨てられるのに対し、成分i(i=1,・・・,M)に
よって固有空間が定義される。これら二つの成分集合
は、相互に排他的で補完的な二つの下位空間を定義す
る。主要な下位空間は重要な固有空間を表し、その直交
成分は次元数削減を通じて捨てられたデータを表す。
【0087】これら二つの各直交空間内のガウス密度の
積として、数12に示す式により尤度推定値を計算する
ことができる。
【0088】
【数12】 数12において、第1項は固有空間E内の単ガウス密度
であり、第2項は固有空間に対して直交する空間内の単
ガウス分布である。固有空間への射影と残差だけを使用
して二つの項を完全に学習用データベクトル集合から推
定できることがわかる。
【0089】
【発明の効果】この発明に従った音声評価方法は、固有
空間内において新たな音声データと学習用データとの類
似度を評価するため以下の利点がある。
【0090】第一に、固有空間は、単に選択された数個
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。
【0091】また、固有空間内に含まれる次元数は、元
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。
【0092】また、システムにおいては、元の学習用デ
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。
【図面の簡単な説明】
【図1】隠れマルコフモデルの典型例を説明するための
図である。
【図2】この発明の実施の形態による話者識別システム
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。
【図3】この発明の実施の形態による話者照合システム
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。
【図4】この発明の実施の形態による話者識別システム
および話者照合システムの使用を説明するためのフロー
チャートである。
【図5】最尤法がどのように行われるかを説明するため
の図である。
【図6】最尤法を使用した適応化の手順を説明するため
のフローチャートである。
【符号の説明】
26 各話者モデルの集合 30,52,70,106,114 スーパーベクトル 42a 登録話者 42b 登録話者および仮想の詐称者 48 話者依存型モデル 74,76,78 固有ベクトル 80 適応モデルを表すスーパーベクトル 82 最尤ベクトル 102 隠れマルコフモデル集合 118 新たな話者についての適応モデル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジュンクア ジーン−クランデ アメリカ合衆国 カリフォルニア州 93111 サンタ バーバラ,サンタ アナ アヴェニュー 146

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 登録話者に関する音声評価方法であっ
    て、 少なくとも一人の登録話者を含む複数の学習用話者の音
    声に基づいて、音声モデル集合を学習するステップと、 前記音声モデル集合の次元数を削減して基本ベクトル集
    合を生成し、この基本ベクトル集合により定義され、か
    つ、前記複数の学習用話者を表すための固有空間を構築
    するステップと、 前記登録話者を前記固有空間内に第1の位置として表す
    ステップと、 新たな話者による入力データに基づいて新たな音声モデ
    ルを学習し、この新たな音声モデルの次元数を削減して
    前記新たな話者を前記固有空間内に第2の位置として表
    すことによって、前記新たな話者による入力データを処
    理するステップと、 前記第1の位置と前記第2の位置との類似度を評価し、
    その評価を前記新たな話者が前記登録話者か否かの指標
    として用いるステップとを備える、音声評価方法。
  2. 【請求項2】 請求項1に記載の音声評価方法におい
    て、 話者識別を行う場合には、 前記複数の学習用話者は、複数の異なる登録話者を含
    み、 前記音声評価方法はさらに、 前記複数の登録話者の各々を前記固有空間内に学習用話
    者の位置として表すステップと、 前記第2の位置と前記学習用話者の位置との類似度を評
    価し、この評価の少なくとも一部に基づいて前記新たな
    話者を前記複数の登録話者の中から選択した一人として
    識別するステップとを備える、音声評価方法。
  3. 【請求項3】 請求項1に記載の音声評価方法におい
    て、 話者照合を行う場合には、 前記複数の学習用話者は、固有空間内に第3の位置とし
    て表される少なくとも一人の詐称者を含む、音声評価方
    法。
  4. 【請求項4】 請求項3に記載の音声評価方法におい
    て、 前記音声評価方法はさらに、 前記第2の位置と前記第3の位置との類似度を評価し、
    その評価を前記新たな話者が前記登録話者か否かのさら
    なる指標として使うステップを備える、音声評価方法。
  5. 【請求項5】 請求項1に記載の音声評価方法におい
    て、 前記類似度を評価するステップは、前記第1の位置と前
    記第2の位置との間の距離を定めることによって行われ
    る、音声評価方法。
  6. 【請求項6】 請求項1に記載の音声評価方法におい
    て、 前記学習用話者は、前記固有空間内に位置として表され
    る、音声評価方法。
  7. 【請求項7】 請求項1に記載の音声評価方法におい
    て、 前記学習用話者は、前記固有空間内に点として表され
    る、音声評価方法。
  8. 【請求項8】 請求項1に記載の音声評価方法におい
    て、 前記学習用話者は、前記固有空間内に分布として表され
    る、音声評価方法。
  9. 【請求項9】 請求項1に記載の音声評価方法におい
    て、 前記新たな話者による入力データを処理するステップ
    は、 前記入力データを用いて確率関数を生成しその確率関数
    を最大化することによって前記固有空間にある最尤ベク
    トルを決定するステップを含む、音声評価方法。
  10. 【請求項10】 請求項1に記載の音声評価方法におい
    て、 前記複数の学習用話者は、複数の登録話者と少なくとも
    一人の詐称者とを含む、音声評価方法。
  11. 【請求項11】 請求項1に記載の音声評価方法におい
    て、 前記音声評価方法はさらに、 前記第1の位置と前記第2の位置との類似度を周期的に
    評価し、新しい話者が登録話者か否かの指標としてその
    評価を用いることによって前記新たな話者の同一性が変
    化したか否かを決定するステップを含む、音声評価方
    法。
JP11248458A 1998-09-04 1999-09-02 音声評価方法 Pending JP2000081894A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/148,911 US6141644A (en) 1998-09-04 1998-09-04 Speaker verification and speaker identification based on eigenvoices
US09/148911 1998-09-04

Publications (1)

Publication Number Publication Date
JP2000081894A true JP2000081894A (ja) 2000-03-21

Family

ID=22527990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11248458A Pending JP2000081894A (ja) 1998-09-04 1999-09-02 音声評価方法

Country Status (7)

Country Link
US (2) US6141644A (ja)
EP (1) EP0984431B1 (ja)
JP (1) JP2000081894A (ja)
CN (1) CN1188828C (ja)
DE (1) DE69914839T2 (ja)
ES (1) ES2214815T3 (ja)
TW (1) TW448416B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049859A (ja) * 2003-07-28 2005-02-24 Sony Corp オーディオデータを自動的に認識する方法及び装置
WO2009110613A1 (ja) * 2008-03-07 2009-09-11 日本電気株式会社 個人照合装置及び話者登録装置と方法並びにプログラム

Families Citing this family (233)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2000246376A1 (en) * 2000-03-31 2001-10-08 Centre for Signal Processing of The Nanyang Technological university School of Electrical and Electronic Engineering Speaker verification from a projection matrix
US6609094B1 (en) * 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
EP1178467B1 (en) * 2000-07-05 2005-03-09 Matsushita Electric Industrial Co., Ltd. Speaker verification and identification
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
US7620547B2 (en) * 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7634063B2 (en) * 2003-01-02 2009-12-15 Technology Patents, Llc System and method for monitoring individuals
WO2004064040A1 (en) * 2003-01-15 2004-07-29 Siemens Corporate Research Inc. A method for processing speech
US7299177B2 (en) * 2003-05-30 2007-11-20 American Express Travel Related Services Company, Inc. Speaker recognition in a multi-speaker environment and comparison of several voice prints to many
AU2003267504A1 (en) * 2003-07-01 2005-02-25 France Telecom Method and system for analysis of vocal signals for a compressed representation of speakers
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
US7224786B2 (en) * 2003-09-11 2007-05-29 Capital One Financial Corporation System and method for detecting unauthorized access using a voice signature
US7212613B2 (en) * 2003-09-18 2007-05-01 International Business Machines Corporation System and method for telephonic voice authentication
WO2005055200A1 (en) * 2003-12-05 2005-06-16 Queensland University Of Technology Model adaptation system and method for speaker recognition
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
US7636855B2 (en) * 2004-01-30 2009-12-22 Panasonic Corporation Multiple choice challenge-response user authorization system and method
US20050192973A1 (en) * 2004-02-12 2005-09-01 Smith Micro Software, Inc. Visual database management system and method
US20070033041A1 (en) * 2004-07-12 2007-02-08 Norton Jeffrey W Method of identifying a person based upon voice analysis
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US7565292B2 (en) * 2004-09-17 2009-07-21 Micriosoft Corporation Quantitative model for formant dynamics and contextually assimilated reduction in fluent speech
EP1794746A2 (en) * 2004-09-23 2007-06-13 Koninklijke Philips Electronics N.V. Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
US7565284B2 (en) * 2004-11-05 2009-07-21 Microsoft Corporation Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US7519531B2 (en) * 2005-03-30 2009-04-14 Microsoft Corporation Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation
US20060229879A1 (en) * 2005-04-06 2006-10-12 Top Digital Co., Ltd. Voiceprint identification system for e-commerce
US20060287863A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Speaker identification and voice verification for voice applications
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7788101B2 (en) * 2005-10-31 2010-08-31 Hitachi, Ltd. Adaptation method for inter-person biometrics variability
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム
US20070201443A1 (en) * 2006-02-09 2007-08-30 Debanjan Saha VoIP caller authentication by voice signature continuity
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US20090106025A1 (en) * 2006-03-24 2009-04-23 Pioneer Corporation Speaker model registering apparatus and method, and computer program
DE602006010511D1 (de) * 2006-04-03 2009-12-31 Voice Trust Ag Sprecherauthentifizierung in digitalen Kommunikationsnetzen
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
WO2007131530A1 (en) * 2006-05-16 2007-11-22 Loquendo S.P.A. Intersession variability compensation for automatic extraction of information from voice
EP1860647B1 (en) * 2006-05-24 2009-12-23 Voice.Trust Ag Robust speaker recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
EP2126901B1 (en) * 2007-01-23 2015-07-01 Infoture, Inc. System for analysis of speech
US20080195395A1 (en) * 2007-02-08 2008-08-14 Jonghae Kim System and method for telephonic voice and speech authentication
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US20090030676A1 (en) * 2007-07-26 2009-01-29 Creative Technology Ltd Method of deriving a compressed acoustic model for speech recognition
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8817964B2 (en) * 2008-02-11 2014-08-26 International Business Machines Corporation Telephonic voice authentication and display
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9685159B2 (en) * 2009-11-12 2017-06-20 Agnitio Sl Speaker recognition from telephone calls
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8719191B2 (en) * 2010-03-01 2014-05-06 International Business Machines Corporation Training and verification using a correlated boosted entity model
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
US8442823B2 (en) * 2010-10-19 2013-05-14 Motorola Solutions, Inc. Methods for creating and searching a database of speakers
US9318114B2 (en) 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
WO2012068705A1 (en) * 2010-11-25 2012-05-31 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN103186527B (zh) * 2011-12-27 2017-04-26 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
JP6031761B2 (ja) * 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US20140222423A1 (en) * 2013-02-07 2014-08-07 Nuance Communications, Inc. Method and Apparatus for Efficient I-Vector Extraction
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9336775B2 (en) 2013-03-05 2016-05-10 Microsoft Technology Licensing, Llc Posterior-based feature with partial distance elimination for speech recognition
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9258425B2 (en) 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US8812320B1 (en) 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
BR102014023647B1 (pt) * 2014-09-24 2022-12-06 Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10709388B2 (en) 2015-05-08 2020-07-14 Staton Techiya, Llc Biometric, physiological or environmental monitoring using a closed chamber
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10056076B2 (en) * 2015-09-06 2018-08-21 International Business Machines Corporation Covariance matrix estimation with structural-based priors for speech processing
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US20170092278A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105845141A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CA3036561C (en) 2016-09-19 2021-06-29 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
EP3637414B1 (en) 2016-11-07 2024-01-03 Google LLC Recorded media hotword trigger suppression
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
KR102321396B1 (ko) 2017-04-20 2021-11-03 구글 엘엘씨 장치에 대한 다중 사용자 인증
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
KR102364853B1 (ko) 2017-07-18 2022-02-18 삼성전자주식회사 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
EP3553773B1 (en) 2018-04-12 2020-06-03 Spotify AB Training and testing utterance-based frameworks
EP3786945B1 (en) 2018-04-12 2023-07-19 Spotify AB Voice-based authentication
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032711A (en) * 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
FR2696036B1 (fr) * 1992-09-24 1994-10-14 France Telecom Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé.
DE69326431T2 (de) * 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
AUPM983094A0 (en) * 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6205424B1 (en) * 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
WO1999045530A1 (en) * 1998-03-03 1999-09-10 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049859A (ja) * 2003-07-28 2005-02-24 Sony Corp オーディオデータを自動的に認識する方法及び装置
WO2009110613A1 (ja) * 2008-03-07 2009-09-11 日本電気株式会社 個人照合装置及び話者登録装置と方法並びにプログラム

Also Published As

Publication number Publication date
US6697778B1 (en) 2004-02-24
EP0984431B1 (en) 2004-02-18
EP0984431A2 (en) 2000-03-08
US6141644A (en) 2000-10-31
ES2214815T3 (es) 2004-09-16
DE69914839D1 (de) 2004-03-25
DE69914839T2 (de) 2005-01-05
CN1188828C (zh) 2005-02-09
CN1247363A (zh) 2000-03-15
EP0984431A3 (en) 2000-11-29
TW448416B (en) 2001-08-01

Similar Documents

Publication Publication Date Title
JP2000081894A (ja) 音声評価方法
Hansen et al. Speaker recognition by machines and humans: A tutorial review
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
JP3683177B2 (ja) 音声認識のための文脈依存モデルの作成方法
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
CN100363938C (zh) 基于得分差加权融合的多模态身份识别方法
Wan Speaker verification using support vector machines
US11900957B2 (en) Voice conversion learning device, voice conversion device, method, and program
CN110570879A (zh) 基于情绪识别的智能会话方法、装置及计算机设备
Maghsoodi et al. Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors
EP1178467B1 (en) Speaker verification and identification
Kuhn et al. Eigenfaces and eigenvoices: Dimensionality reduction for specialized pattern recognition
Sadıç et al. Common vector approach and its combination with GMM for text-independent speaker recognition
Zhang et al. Multimodal emotion recognition integrating affective speech with facial expression
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Elnaggar et al. A new unsupervised short-utterance based speaker identification approach with parametric t-SNE dimensionality reduction
Ming et al. A Bayesian approach for building triphone models for continuous speech recognition
Nankaku et al. Acoustic modeling with contextual additive structure for HMM-based speech recognition
Ahmad et al. Client-wise cohort set selection by combining speaker-and phoneme-specific I-vectors for speaker verification
Singh Bayesian distance metric learning and its application in automatic speaker recognition systems
Zahorian et al. Nonlinear dimensionality reduction methods for use with automatic speech recognition
Ramteke et al. Gender identification using spectral features and glottal closure instants (gcis)
Al-Tekreeti et al. Speaker voice recognition using a hybrid PSO/fuzzy logic system
CN109872725B (zh) 多视角向量处理方法和设备
JPH1055195A (ja) 音声認識による話者特徴判別方法