JP4369132B2 - 話者音声のバックグランド学習 - Google Patents

話者音声のバックグランド学習 Download PDF

Info

Publication number
JP4369132B2
JP4369132B2 JP2002588127A JP2002588127A JP4369132B2 JP 4369132 B2 JP4369132 B2 JP 4369132B2 JP 2002588127 A JP2002588127 A JP 2002588127A JP 2002588127 A JP2002588127 A JP 2002588127A JP 4369132 B2 JP4369132 B2 JP 4369132B2
Authority
JP
Japan
Prior art keywords
speaker
model
accuracy
utterance
utterances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002588127A
Other languages
English (en)
Other versions
JP2004528595A (ja
Inventor
チャオ−シー フアング
ヤ−チェルング チュ
ウェイ−ホ ツァイ
ジュ−ミン チュング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2004528595A publication Critical patent/JP2004528595A/ja
Application granted granted Critical
Publication of JP4369132B2 publication Critical patent/JP4369132B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
  • Amplifiers (AREA)

Description

本発明は、テスト発話(test utterance)を入力し、該テスト発話に対する複数の話者モデルのうちの最も確かそうなモデルを決定し、この最も確かそうな音声モデルに対応する話者を該テスト発話の話者として識別することによる話者の自動識別法に関する。
話者の識別は、益々重要になってきている。伝統的な話者識別は、例えば、話者の素性を声の特徴に基づいて検証するといった保安目的で使用されている。家電装置用に益々多くの音声制御の応用が開発されるにつれて、話者識別は家電装置との対話を更に単純化する場合に重要な役割を果たすことができる。
従来の話者識別(話者ID)処理においては、特定の話者のモデルが、顧客のエンロール(登録)データを用いて訓練される。通常、音素(phonemes)又は複音(diphones)のような準単語単位をモデル化するために、隠れマルコフモデル(HMM)が使用される。良好な性能を達成するためには、話者の音声を特徴付けるため、信頼性のあるシステムは大量のエンロールデータを必要とする。特に、話者の声の特徴は場面(セッション)から場面へと大きく変化するので、多数の異なる場面からのデータが望ましい。各話者は、自身のモデルを訓練する。そのようであるので、話者は実際の訓練を行う前にシステムに対しエンロールしておかなければならない。
モデルが一旦訓練されたら、識別又は検証されるべき話者の発話が、全話者モデルと比較される。話者の素性は、当該発話に対して最も高い尤度(確度)を持つモデルを見付け、該モデルに対応する話者の素性を取り込むことにより決定される。
システムを訓練するのに多くの時間を費やすことはユーザにとり面倒であるので、話者に対する要求事項及び訓練データの量を最小化したいという要求がある。少ないエンロールデータしか利用可能でない場合に、話者モデル化の一層良好なパラメータ推定を発生させることを目的とする種々の方法自体は提案されている。しかしながら、これらのシステムは、ユーザがシステムをエンロール及び訓練することを要する。家電システムにとり、このことは、依然としてユーザに対する高すぎる障壁であり、斯かるシステムの受け入れを妨げる。また、このことは、エンロールメントに馴染みのない通常のユーザにとっては、システムを操作するのを困難にする。
本発明の目的は、話者がシステムを明示的に訓練することによりエンロールする必要性無しに、話者を自動的に識別することが可能な方法及びシステムを提供することにある。
上記本発明の目的を達成するために、複数の話者モデルが:
− バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話話した話者についての事前知識無しで入力し、
− 前記訓練発話を所定の評価規準に基づいてブラインドでクラスタ化し、
− 前記クラスタの各々に関して、各々が一人の話者を表すような前記モデルのうちの対応する話者モデルを訓練する、
ことにより、バックグラウンドで発生される。
本発明による方法においては、話者固有のモデルを、エンロールデータに依存することなく、代わりにオフラインで収集される話者の音声を用いて訓練することができる。これを達成するために、当該システムは、人の介在無しで、実行しながら別個の話者音声を収集し、分類し及び学習する能力を備えるように設計されている。上記学習はバックグラウンドでの又は隠れた手順であるので、バックグラウンド学習と呼ばれる。本説明においては、該バックグラウンド学習はバッチ学習に焦点を合わす。バッチ学習は、識別されるべき全ての話者の充分な音声データがバックグラウンドで収集された時に実行される。該バックグラウンド学習は、有利には、音声制御システムにおいて使用される。殆どの現状の話者とは独立した音声制御システムは、ユーザにより、最初に当該システムを訓練する必要性なしに使用することができる。ユーザが当該音声制御システムを使用している間に、ユーザにより発せられるコマンドは記録され、本発明によりバックグラウンド学習のために使用される。特定の他の応用例の場合は、ユーザが本発明によるバックグラウンド学習を備える新たなシステムを得た場合、該システムは、例えばマイクロフォンを介して入力される全ての音声を記録することにより、ユーザからの発話を自動的に収集し始める。この目的のために、該システムは音声と他の音とを区別するソフトウェアを備えてもよい。該システムは、如何なるユーザの介入も無しに又はユーザにより起動された後に上記記録を開始することができる。何れの場合においても、該システムは、最初は、誰が実際に発話を行っているかについての情報を有していない。また、本発明に関しては、ユーザがパスワード等の所定のフレーズを話す必要もない。収集された発話の各々は単一の話者からの音声断片を含むと仮定される。言い換えると、各発話の属性は、専ら唯一人の話者から発生したものと判断することができる。
所定の評価規準に従って当該システムが充分なデータを一旦収集すると、上記バッチ学習は、所定の評価規準により規定される話者の特徴に従った音声データのクラスタ化を行う。これには、オプションとして、自己タグ付けされたデータを用いた話者固有のモデルの訓練が後続する。このバッチ学習技術は、システムが管理(監督)されていない形で開始される必要がある場合に使用される。他の例として、本発明によるバックグラウンド学習技術は、“増加的学習”の形態で使用することもできる。これは、現在のシステムに新たなユーザを追加するステップ、又は以前の話者モデルを適応化するために新たな音声データを収集するステップを含む。該システムは、新たな収集データが既に識別された話者のものであるかを決定するための事前検証を実行する。もしそうなら、該データはオプションとして以前の話者モデルを適応化するために使用される。それ以外の場合、該データはブラインドでクラスタ化され、これにより新たな話者モデルが発生される。
このようにして、面倒な精度/エンロールの取り引きは回避され、かくして、ユーザの労力は低減される。
米国特許第5,862,519号が話者識別/検証システム用に音声をブランドでクラスタ化する方法を記載していることに注意すべきである。このシステムにおいては、ブラインドでのクラスタ化は、典型的にはパスワードのような発話を準単語単位に自動的に区分化するために使用されている。該既知のシステムにおいて、ブランド区分化は、未知のパスワードのフレーズを、均質性特性に基づいて準単語単位に区分化するために使用され、ここで、区分化の境界は未知である。上記パスワードのフレーズは、クライアントの話者から到来する。このことは、話者は当該システムにより分かっており、実際に該システムを訓練している。本発明によるシステムにおいては、ブラインドクラスタ化は同一の話者からの発話を一緒にグループ化するために使用され、その場合に、これら発話は幾人かの話者からの発話の集まりの一部である。発話の集合は、幾つかの話者に関係したクラスタにブラインドで分割される。該クラスタ化の間において、話者に関しての事前の知識は存在しない。
従属請求項2の構成によれば、バックグラウンドで入力された各発話に関してモデルが作成される。また、これら発話の各々は、斯様なモデルの全てと比較される。この結果、各発話に対して、確度(尤度)のベクトルが得られる。区別は、斯かる確度を、これら確度に基づく順位付けにより置換することにより増加される。順位付けベクトル間の距離は、異なる話者の発話間を区別するための一般的評価規準を形成する。何故なら、順位付けベクトル間の距離は、これら順位付けベクトルが異なる話者の発話に関係する場合よりも、これら順位付けベクトルが同一の話者の発話に関係する場合に一層小さくなることが分かったからである。このような評価規準に基づいて、発話はクラスタ化される。これらクラスタの各々に対して、モデルが作成される。このモデルは、一人の話者に対して固有であると仮定される。上記順位付けが、高い確度が高い順位値をとなり、同一の話者の発話が順位付けベクトル間の最小の距離として現れるようなものであることが分かるであろう。確度ベクトルの要素の適切な順位付けは、結果として、良好な区別能力となる。
従属請求項3の構成によれば、クラスタ当たりの発話の期待数に基づいて順位付けする場合に閾が使用される。これは、クラスタ化処理を補助する。
従属請求項5の構成によれば、ユーザは彼/彼女の声を用いてエンロールすることができる。自動的に、最も確かそうなモデルが決定され、このモデルに関してユーザの素性が記憶され、エンロールを高速及び容易にする。
従属請求項6の構成によれば、エンロールの間において、当該モデルが既に充分に訓練されたかが判定される。もしそうでないなら、幾つかの更なる発話が入力され、部分的に完成されモデルが該新たな発話に対して適応化される。このようにして、エンロールは、最初から始めなければならない場合と較べて速くなる。
従属請求項7の構成によれば、話者を充分な信頼度で識別することができるという点でモデルが充分に訓練されている場合は、ブラインドでのクラスタ化は停止される。
従属請求項8の構成によれば、モデルが一旦充分に訓練されたら、当該話者は自動的に自身の素性を特定するようになるので、該話者はその時点以降自動的に識別することができる。このようにして、該話者はエンロールに関して如何なる率先もする必要がない。
従属請求項9の構成によれば、話者の識別の結果、家電装置との対話用の個人プロファイルが自動的に取り込まれる。これにより、家電装置の個人化された使用が、非常にユーザ友好的な態様で可能となる。
本発明の上記及び他の態様を、図面を参照して説明する。
図1は、本発明による話者識別システムのブロック図を示している。該システムは、時間的に順次に動作する3つの主要なブロック、即ちバックグラウンド学習部110、話者登録部120及び話者識別部130を含んでいる。上記バックグラウンド学習部は、音声データ収集部112を含み、該収集部には話者の特徴に基づく音声発話のブラインド(盲)クラスタ化部114が後続する。上記ブラインド発話クラスタ化部は、話者の素性又は話者の母集団サイズに関しての事前情報がない場合に、未知の話者言葉をグループ化することを目的とする。この構成要素の詳細は、後述する。クラスタが一旦発生されると、話者モデル化部116は、これらクラスタの各々における発話が、可能性のある話者に関係した対応するモデルを訓練するために使用されることを保証する。好ましくは、上記モデルは伝統的なガウス混合モデル化(GMM)技術を用いて訓練されるものとし、斯かる技術においてはM個のクラスタの組がGMM’s{λ1 c2 c,…,λM c}により表される。当業者であれば、音声処理の分野で一般的に知られている他のモデルも使用することができると理解するであろう。斯様なモデルは一般的に知られているので、特定のモデルの詳細は説明しない。本発明を実施するハードウェア自体は、例えば、適切なソフトウェアがロードされたマイクロプロセッサ又はDSP等の通常のもので、オプションとしてA/D変換器及び音声を入力するマイクロフォンを使用することができる。上記ソフトウェアは、例えばROM内に記憶する等により組み込むことができ、又はハードディスク若しくはCD−ROM等のバックグラウンド記憶部から又はインターネット等のネットワークを介してロードすることができる。
バックグラウンド学習は監督されていない方法で完了されるので、最初は、どのモデルがどの話者に関連するかについての情報は提供されない。本当の話者を実際に識別する後続の話者識別を実行するために、ブロック122に示すように、モデルの各々に対応する話者の素性でタグ付けすることが望ましい。これは、話者が正式な登録をする場合に実行することができる。このフェーズにおいては、当該システムは、話者の各々に、例えば単一の任意の発話y等の幾つかのエンロール用データを提供するよう尋ねる。当該システムはこのエンロール用発話に基づいて当該話者に最も適したモデルを割り当てる。言い換えると、話者は、彼の/彼女の声により話者モデルの1つを“採用”する。これを達成するために、好ましくは最尤判断規則が使用され、結果として最もありそうな話者モデルを選択する。当該システムは、話者Siに対して、
Figure 0004369132
を満たすモデルを有利に判定する。
特定のアプリケーションに対しては、話者の正確な素性を知る必要はないことが分かる。話者間の区別ができれば充分であろう。そのようであるので、ブロック120はオプションである。エンロールが行われなかった場合、話者は、単に、対応する各話者モデルに関連する番号により識別することができる。
ブロック130に示す識別の間において、当該システムはブロック132において未知の発話(例えばz)を入力として取り込み、
Figure 0004369132
を満たすような仮定された話者の素性を出力として生成するが、上記式においてQはユーザの数である。これは、最もありそうな話者モデルに関連する話者の素性が取り込まれることを意味する。
発話クラスタ化の暗示
{x1,x2,…,xN}がP人の周囲の話者{S1,S2,…,SP}からのN個の音声発話の群を示すものとし、ここでN>Pであり、Pは事前には未知であり得るとする。発話のクラスタ化の目的は、1つのクラスタ内の全ての発話が好ましくは唯一人の話者からのものとなるような、発話のM個のクラスタの群への分割を生成することにある。理想的には、特定の話者からの全ての発話を単一のクラスタ内へグループ化することができるようにM=Pとなることである。この目的のために、発話の各々により伝達される話者の特徴の関連する態様を識別し、これにより、同一の話者の発話の間では小さな差を及び異なる話者の発話の間では大きな差を伴うような何らかの尺度を生成することが前提条件である。テキストとは独立した話者識別におけるガウス混合分類の成功に従って、本発明者は、発話から形成されるガウス混合モデル(GMM)が、話されるメッセージというよりはむしろ話者の素性に対応する音響空間を特徴付けるために使用することができるということを理解した。これを進めるために、音声発話は、先ず、デジタル波形表現から特徴ベクトルのストリームに変換され、これらの発話の各々はガウス混合密度によりモデル化される。このようなモデル化は良く知られており、ここでは詳細には説明しない。{λ1 U2 U,…,λN U}がN個の発話から形成されたGMMのパラメータ群を示すものとする。次に、各発話xiの確度が、各モデルλj Uに対して、Lij=logp(xij U),
1<=i,j<=Nとして計算される。実験は、確度が、発話及びテストモデルが同一の話者に関連する場合は一般的に大きくなり、それ以外では小さくなることを示した。即ち、
Figure 0004369132
ここで、S(xi)はxiの話者属性である。しかしながら、この評価規準は常に有効であるとは限らない。音声発話の分割する場合のもっと信頼性のある暗示を得るためには、以下に定義するような順位付けメカニズムを使用することが好ましい。
=[Li1i2…LiNをN次元ベクトルとする。x及びxが同一の話者のものである場合、LとLとは何らかの意味でより一層“類似”しており、それ以外では“比類似”であることが分かった。これを示すために、図2にはモデル確度のグレイスケール表現が図示されており、該図においては3人の話者の9つの発話(話者当たり3つの発話)が解析されている。9つの発話が垂直方向に示され、9つのモデルが水平方向に示されている。黒の領域は一層高い確度を表し、白い領域は一層小さな確度を表している。同一の話者からの発話が、異なる話者からの発話のものより一層類似した“確度パターン”を有していることが分かる。そのようであるので、確度ベクトル間の“非類似”の尺度を、クラスタ化の間に評価規準として使用することができる。理想的には、もし確率的モデルλが話者の声の最も重要な特有の特徴を捕捉することができるなら、x及びxが同一の話者に関連している場合にLijの値は大きくなり、それ以外では小さくなる。しかしながら、実際には、全ての話者(x)=話者(x)及び話者(x)≠話者(x)に対して、Lij>Likを保証するのは困難である。図2に示す例のように、x及びxは同一の話者により生成される一方、xは他の話者から発せられており、残念ながら、この場合はL18>L12である。従って、2つの発話が同一の話者のものであるかを単一のモデルの尤度に基づいて決定することには信頼性がない。この問題を軽減するために、2つの発話の間の類似性を、単一モデルの尤度の代わりに、対以外の発話を考慮することにより測定される。基本的原理は、確度パターンの視覚的調査で構築される。
図2に示されるように、一般的な特色は、2つのベクトルL及びLが、発話x及びxが同一の話し言語のものである場合に、或る意味で大いに“類似”しており、それ以外では“非類似”であるということである。しかしながら、問題は斯様な視覚的特色をどの様に特徴付けるかである。確度のダイナミックレンジは非常に大きいという事実により、発話対の距離を2つのLベクトルからとられるユークリッド距離を用いて直接測定することは適切でない。例えば、発話y及びyが同一の話者により発生され、yは他の話者により発生されたと仮定する。結果としてのLベクトルは、多分、このようになる(対数確度を使用する):
L1= [ L11L12L13]T = [ -1000 -1111 -3222]T
L2= [ L21L22L23]T = [ -5111 -4000 -8222]T
L3= [ L31L32L33]T = [ -900 -800 -300]T
もっとも、L12>L13及びL21>L23,‖L−L‖>‖L−L‖である。以下に詳述する音声発話をクラスタ化する好ましい方法は、これらの問題を克服する。
発話クラスタ化手順
先ず、各発話xに関して、当該発話のモデル確度Lij(1≦j≦N)が、より大きな順位値がより高い優先度に対して割り当てられるような規則に従って順位付けされる。確度Lijの順位付けは、確度ベクトルLにおける他のエレメントの確度に対するものである。斯様であるので、訓練発話に対する確度ベクトルLは、結果として対応する順位付けベクトルFとなる。好ましい実施例においては、中間の順位付けベクトルRが計算され、ここで、ベクトルエレメントRijは整数1ないしNから確度ベクトルLにおける他のエレメントの確度に対して確度Lijに応じて選択される。好ましい実施例においては、
Figure 0004369132
となる。各順位値は通常は1回のみ使用され、1ないしNから割り当てられる。この中間順位付けベクトルに基づいて、各発話xに対する実際の順位付けベクトルFi = [Fi1, Fi2...,FiN ]TはFij = 1/Rijと定義される。
区別を増加させることにより更なる改善が達成され、
Figure 0004369132
ここで、ηはクラスタ当たりの発話の予測数を表す。このように進行して、異なる話者の発話から区別するための一般的評価規準、
D(Fi, Fj)< D(Fi, Fk), if S(xi) = S(xj), 及びS(xi) ≠ S(xk) (5)
を導出することができ、ここで、D(Fi, Fj)はF及びFに対する適切な距離尺度である。
上述した例を参照すると、対応する順位付けベクトルは、
F1= [ 1 1/2 1/3]T
F2= [ 1/2 1 1/3]T
F3= [ 1/3 1/2 1]T
となる。この例において、η=3である。この結果、|| F1- F2|| = 0.5, || F1 - F3 || = 0.89, 及び || F2- F3|| = 0.72となる。明らかに、y及びyは最も近い対である。
閾処理の使用は、1つの発話と、同一の真の話者素性を伴う該発話の仲間との間の関係を明確化するには大きなモデル確度のみが有効であるという事実を明らかにする。これを示すために、図2に示される例が使用される。この例に対する中間順位付けマトリクスRijは、
Figure 0004369132
である。順位付けマトリクスFij (h=3)を作成すると、
Figure 0004369132
となる。対毎の距離|| Fi - Fj ||を計算すると、
Figure 0004369132
となる。|| Fi - Fj || < || Fi - Fk ||, if 話者(xi) = 話者 (xj), 及び話者 (xi) ≠話者 (xk)なる特性が、再び明らかに示されている。ηに対する実際の値は、収集されたデータに依存して、経験的に決定することができる。
順位付けベクトル間の距離の評価規準に基づいて、話者による発話のブラインドクラスタ化を、従来のベクトルクラスタ化の問題として編成することができる。当業者であれば、如何なる好適なクラスタ化アルゴリズムも使用することができる。例えば、これを解決するために、充分に開発されたk平均クラスタ化アルゴリズムを使用することができる。しかしながら、この応用では多分発生するであろう零分割の問題を防止するために、以下のように修正されたk平均アルゴリズムを使用することが好ましい。
ステップ1:初期化。クラスタ数を2に設定する。例えばFなるベクトルをクラスタCの代表として任意に選択する。次いで、Fから最も遠い(ユークリッド距離等の、選択された距離尺度に関して)ベクトルをクラスタCの代表として選択する。
ステップ2:最も近い隣接者の検索。各ベクトルFに関して、クラスタの各々における代表のうちのFに最も近い1つを見付け、次いで、Fを該最も近い代表に関連した対応するクラスタに割り当てる。
ステップ3:分割。全クラスタに関して、現在属しているクラスタの代表から最も遠いベクトルを見付ける。この場合、該ベクトルは新しいクラスタの代表となる。k=k+1に設定する。
ステップ4:k=Mとなるまで、ステップ2及びステップ3を反復する。
図3は、本発明によるブラインド発話クラスタ化のブロック図を示している。ブロック310、312、…、318において、発話xの各々に対して、対応するモデルλi Uが作成される。ブロック320において、発話xの各々に対して、上記モデルの各々に対する上記発話の確度が計算される。この結果、上記発話の各々に対して、確度ベクトルLi = [Li1 Li2 ...,LiN ]Tが得られる。ブロック332ないし338において、発話xの各々に対して、確度ベクトルLのエレメントの相対確度に基づいて、対応する順位付けベクトルFi=[Fi1,Fi2...,FiN ]Tが計算される。ブロック340において、上記発話xは、これら発話の上記順位付けベクトル間の距離の評価規準に基づいてクラスタ化される。
実験結果
音声データベース
本発明によるシステムをテストするために使用されたデータベースは、100名の話者(男性50名、女性50名)により発生された5000の発話からなるものであった。各話者は50の発話を行い、3つのセッションで記録された。これらの発話は、2秒から5秒の持続時間の範囲であった。100名の全話者が顧客として務めた、即ちP=Q=100であった。該データベースは更に3つの部分集合に分割され、各々をDB−1、DB−2及びDB−3として示した。第1の部分集合DB−1は話者当たり20の発話からなり(大凡、80秒の全持続時間に相当する)、オフライン収集データとして作用した。第2部分集合DB−2は、DB−1における音声断片に含まれなかった別個の10の発話からなるものであった。DB−2内の発話の各々は、顧客のエンロールデータとして使用された。第3部分集合DB−3は残りの20の発話からなり、話者ID実験用のテスト集合として作用した。全ての発話は比較的静かな環境において記録され、16ビットの精度で22.05kHzでサンプリングされた。次いで、21のMFCC(零次係数は使用されない)を含む音声特徴が、10msのフレームずれを伴う20msのハミング窓フレーム毎に抽出された。
クラスタ評価
当該話者識別(ID)システムの有効性は、オフライン収集された発話が如何に良好にクラスタ化されるかに重大に依存するので、話者ID実験を実施する前に、当該発話クラスタ化方法の効率を評価する必要がある。分割の品質は、クラスタの純度により測定された。該純度とは、1つのクラスタ内の全発話が同一の話者からのものである程度を記述するような品質である。クラスタMに関しては、純度は、
Figure 0004369132
と定義され、ここで、nはクラスタmにおける発話の数であり、nmkはクラスタmにおける話者Sによりなされた発話の数である。この測定値の計算は、各発話の真の属性の知識を必要とする。当該クラスタ化方法の全体の効率は平均純度、
Figure 0004369132
に関して評価される。ブラインド発話クラスタ化を調べるために、DB−1に対してコンピュータシミュレーションが実施された。2から8まで変化される発話当たりのガウス混合の数が実行され、パラメータηは全実験を通して(N/M)に設定された。図4は平均純度対使用されたクラスタの数を示している。クラスタの数が話者の人数に等しい場合(M=P=100)、0.86なる純度が得られる。クラスタの数が増加するにつれて、純度も上昇する。異なる話者からの発話は、700のクラスタが使用された場合に、完全に分離することができた。また、当該結果は、クラスタ化が使用される発話当たりの混合の数には鈍感であったことを示している。以下においては、4つの混合/発話により得られたクラスタ化の結果が、話者ID実験を行うために使用された。
話者ID実験
先ず、従来の管理された方法で動作する基本システムが性能比較のために評価された。ここでは、システム性能を異なる量の訓練データに関して調査するために、2組の実験が実施された。第1組の実験では、特定の話者用のモデルが、DB−1における20発話/話者を真の話者属性と共に使用して訓練された。その後、当該システムをテストするためにDB−3における20発話/話者が使用された。次いで、話者IDの精度が、全てのテスト発話に対して正しく識別された発話の百分率として計算された。また、話者ID精度は、2から32まで変化される話者モデル当たりの異なる数のガウス混合密度に関しても測定された。第2組の実験においては、各話者モデルはDB−2から選択された1つの発話を用いて訓練された。
この実験設定は、話者モデルを訓練する場合に疎らなデータを使用するものと見なすことができる。加えて、統計的に意味のある結果を得るために、DB−2からの各個別の発話は1回のみ選択され、同様の実験が10回の試行のために実行された。最後に、平均話者ID精度が計算された。下記の表は、話者ID精度を上記2組の実験に関する結果を用いて示す。管理されたGMMの訓練に基づく従来の話者IDシステムは、大量のエンロールデータが使用された場合に非常に良好に動作するが、僅かなエンロールデータしか使用されなかった場合には性能が劇的に低下することが分かる。また、表のデータは、我々の提案した管理されていない学習に基づく話者IDの上限及び下限の性能も示している。
Figure 0004369132
次に、本発明による話者IDシステムの有効性をテストするために実験が実施された。異なる話者を表すために要する充分なクラスタ数を決定することが、当該話者ID課題にバックグラウンド学習を適用する場合の第1ステップである。先に言及した通り、一層大きなクラスタ数が使用される程、一層高い純度が達成することができる。しかしながら、大きな量のクラスタは、話者モデルを訓練する場合に疎らなデータを使用するという危険性を冒す。この理由のため、クラスタ数及び使用される話者モデル当たりの混合数に対する話者ID性能の影響を調査するために以下の実験が実施された。加えて、統計的に意味のある結果を得るために、DB−2から選択された話者当たり別個のエンロール発話を伴う10回の試行が実施され、平均話者ID精度が次いで計算された。図5は、該話者IDの結果を要約している。95.6%なる最も良い話者ID精度は、150のクラスタを話者モデル当たり4つの混合と共に用いて達成された。クラスタ数が増加すると、話者ID精度は徐々に減少する。該結果は、充分なクラスタ数が、話者の人数(もし、事前に分かるなら)より僅かに大きくなるように選択することができることを暗示している。異なる話者からの発話が同じクラスタにグループ化されるよりも、同じ話者からの発話が2以上のクラスタを占める方が好ましい。前記表の結果と比較すると、疎らなエンロールデータを使用した話者IDの性能を、話者の音声のバックグラウンド学習により大きく改善することができることは明らかである。また、上記結果は、提案された管理されていない該学習方法が、話者IDに関して、従来の管理されたものに匹敵することも示している。
上記バックグラウンド学習方法は、話者識別の使用を簡素化し、かくして、話者識別をより多く家電システムで使用する道を開くものである。従来の話者識別とは異なり、本発明によるバックグラウンド学習方法は、話者固有のモデルを構築するためのユーザによる明示的なエンロール及びシステムの訓練に頼らず、代わりにオフラインで収集された音声信号を監督(管理)されない態様でクラスタ化及びパラメータ的にモデル化することにより話者の音声を学習しようと試みるものである。このことは、ユーザからの大量の音声データをエンロールする必要性を除去する。上述したように、システムを使用するための準備を行うために、下記のステップが必要となる:
オフラインの音声発話に関するブラインドクラスタ化が、上述したアルゴリズムに従って実行される。
図1のブロック122に関して前述したように、話者のタグ付けが実行される。以下の例では、ユーザに対して個人的な方法が用いられる。かくして、ユーザの名前等の、当該ユーザの個人的情報が必要となる。特定の応用の場合は、異なるユーザを区別するだけで充分であり、個人情報を追加することを不要にする。
話者認識に関する従来のエンロールとは別に、本発明によるシステムは収集された話者データの量に応じて2つの新たなエンロール方法を可能にする。第1のものは、システムにより発生される自動的エンロール手順である。これは“旧友挨拶エンロール”と呼ぶことができるかもしれない。その筋書きは下記の通りである:
当該システムが一定期間活性状態であった間に(例えば、話者から独立した音声制御を使用する又はバックグラウンドで話者データを単に収集する)、当該システムはユーザの発話を自動的に収集し、上述したバックグラウンド学習方法を用いて話者モデルを収集している。
或る時点において、話者の一人が確信尺度を超えた(即ち、前記モデルの1つと比較された発話(例えば、当該システムを制御するために使用される音声コマンド)が所定の閾を超えた)場合、該システムは自動的エンロールを果たす。これは旧友挨拶の形をとることができ、該システムは事前記録されたメッセージ又は音声合成を用いて“こんにちは、私の友よ。あなたから再び馴染みの声を聞きました。あなたの名前を言ってくれますか?”のように言うことができる。
エンロールの後、当該システムは話者を彼/彼女の声により識別することができる。
当該システムは、個人情報を当該話者に関して識別された音声モデルに関連させて如何なる適切な形態においても記憶することができる。例えば、話者は彼/彼女の名前を話すことにより個人情報を提供することができる。当該システムは、この名前を、音声を表す形で記憶することができる。次に同一の話者が当該システムに話しかけた場合、該システムは、もし所望なら音声合成を使用して、記録された音声を再生し該記録された名前が当該システムにとって通常の形で発音されるようにすることができる。また、本システムは上記名前を、音声認識技術を用いて認識し、認識された表現をテキスト的形態のようにして記憶することもできる。該システムはユーザに名前をタイプ入力するよう頼み、このテキスト的表現を記憶することもできる。
第2の形態のエンロールは、最初に話者識別が必要な時点において充分な訓練データが利用可能でない場合に実行される。当該システムは、ユーザに対して、より多くの発話を行うよう要求する。必要とされる入力発話の数は、既に収集されたデータに依存する。充分なレベルの確実性が一旦達成されたら、何らかの好適なモデル適応化アルゴリズムを用いて話者モデルの適応化が実行される。この形態のエンロールは、“適応化による易しいエンロール”と見ることができる。ユーザは、話者モデルを構築するための幾つかの適応化データを話すだけでよい。従来の方法と比較して、この形態のエンロールは少ない時間しか掛からない。
個人化された対話型音声制御システム
伝統的な音声制御システムにおいては、個人化された対話型の機能は音声制御機能とは良好には統合されていない。通常、ユーザは音声により装置を制御することができるが、当該個人は同時に他の事を行うために忙しい場合がある。例えば、テレビジョンは音声コマンド“オン”を使用して動作させることができる。従来の音声制御システムには、装置をオンさせる際に、テレビジョン装置を個人のデフォルト番組又は他の個人的設定に自動的に同調させる機能は存在しない。効果的なユーザインターフェースのためには、話者が自動的に識別されることが望ましい。本発明による話者識別技術は、この目的のために効果的に使用することができ、かくして、音声制御システムようの新たな機能を可能にする。例えば、父親デービッドがTVをオンした場合、チャンネルは、彼のプロファイルによれば好みのチャンネルであるような“スポーツ”にデフォルト設定される。2歳の子供トムがTVを声によりオンした場合、ディズニーチャンネルが自動的に選択される。このような機能は、装置を一層ユーザ指向にさせる。特に、非常に小さな子供に対しては、装置を補助無しで制御するのを可能にさせる。好ましくは、親が子供のプロファイルに影響を与えることができるようにする。話者識別技術を組み込むことにより、音声制御システムは異なるユーザに対して異なる態様で応答することができる。組み合わされた音声/話者認識システムのブロック図が図6に示されている。音声入力610は、音声コマンドを認識するように最適化し得る音声認識器620と、話者認識器630とに送られる。これら認識器は、好ましくは、並列に動作するものとするが、順次動作も許容することができる。これら認識器は、出力640として、認識された内容(例えば、音声コマンド)と当該話者の素性とを発生する。本発明によれば、音声コマンドを認識すると共に話者を識別するために、同一の発話が使用される。次いで、認識されたコマンドは話者とは独立した態様で実行される。
話者識別は、人が装置を操作する(例えば、携帯電話を使用する)のを、又は成人向けチャンネルを見る等の操作をするのを許可されているか検証するために有利に使用することもできる。個人化された対話型音声制御システムにおいては、個人プロファイル及び内容は、音声制御された装置の番組記録を解析することにより自動的に構築することができる。該プロファイルは、音声制御装置に対する当該ユーザの癖を表す。該システムは、斯かるプロファイルを、ユーザの番組/設定をデフォルト設定し、又はユーザの癖を知っている友人のように親切な提案を提供するために使用することができる。
上述した話者識別のアプリケーションは、本発明による識別システムのバックグラウンド訓練と組み合わせて使用することができ、当該システムを一層ユーザ友好的にすることができる。上記識別システムが異なる方法で訓練されるならば、同一のアプリケーションを使用することもできると理解される。
図1は、本発明による話者識別システムのブロック図である。 図2は、確度ベクトルの区別能力を示す。 図3は、ブラインドクラスタ化のブロック図を示す。 図4は、発話のクラスタ化効率を示す。 図5は、当該システムの話者識別性能を示す。 図6は、音声制御システムにおける話者識別の使用を示す。

Claims (11)

  1. 話者を自動的に識別する方法であって、該方法が、
    前記話者からテスト発話を入力するステップと、
    前記テスト発話に対して複数の話者モデルのうちの最も確実らしい話者モデルを決定するステップと、
    前記最も確実らしい話者モデルに関連する話者を前記テスト発話の話者として識別するステップと、
    により話者を識別するような方法において、該方法が、
    バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話を話した話者についての事前知識無しで入力するステップと、
    前記訓練発話を所定の評価規準に基づいてブラインドでクラスタ化するステップと、
    前記クラスタの各々に関して、各々が一人の話者を表すような前記モデルのうちの対応する話者モデルを訓練するステップと、
    によりバックグラウンドにおいて前記複数の話者モデルを発生するステップを含んでいることを特徴とする方法。
  2. 請求項1に記載の方法において、前記訓練発話x(i<N)を前記所定の評価規準に基づいてブラインドでクラスタ化するステップが、
    前記訓練発話xの各々を対応するモデルλによりモデル化するステップと、
    前記訓練発話xの各々に関して対応する確度ベクトルLを計算するステップであって、各ベクトル要素Lij(1≦j≦N)が前記訓練発話Xの前記モデルλのうちの対応するモデルに対する確度を表すようなステップと、
    前記訓練発話xの各々に関して対応する順位付けベクトルFを決定するステップであって、該順位付けベクトルFの各要素Fijには、前記確度ベクトルLの他の要素と比較された対応する確度Lijの順位付けを表す順位値が、より大きな確度値Lijがより大きな順位値Fijにより反映されるように割り当てられるようなステップと、
    前記訓練発話xを、FとFとの間の距離尺度の極小が訓練発話x及びxが同一の話者から発することを示すという評価規準に基づいてクラスタ化するステップと、
    を含んでいることを特徴とする方法。
  3. 請求項2に記載の方法において、前記順位付けは、前記確度ベクトルLの要素Lijのη個の最小側の確度値が、前記順位付けブロックFの対応する要素Fijの別個の値により表され、前記確度ベクトルLの残りのN−η個の要素Lijが前記順位付けベクトルFの対応する要素Fijの同一の所定の順位値により表され、ここで、ηはクラスタ当たりの訓練発話の期待数を表し、前記所定の順位値が前記η個の別個の順位値のいずれよりも小さいことを特徴とする方法。
  4. 請求項1に記載の方法において、該方法が、
    話者からエンロール発話を入力するステップと、
    該エンロール発話に対して、複数の話者モデルのうちの最も確かそうなモデルを決定するステップと、
    前記話者の識別情報を入力するステップと、
    該識別情報を、前記最も確かそうな話者モデルに関連させて記憶するステップと、
    を有していることを特徴とする方法。
  5. 請求項4に記載の方法において、該方法が、
    前記最も確かそうな話者モデルの確度が所定の閾より高いかを検証するステップと、
    該確度が前記所定の閾より低い場合に、前記話者からの更なる発話を要求するステップであって、前記確度が前記所定の閾より高くなるまで反復的に、
    前記更なる発話を入力し、
    前記最も確かそうな話者モデルを前記更なる発話で適応化し、
    該適応化された話者モデルの確度を決定する、
    ようなステップと、
    を含んでいることを特徴とする方法。
  6. 請求項1に記載の方法において、前記訓練発話を入力するステップ、前記発話をブラインドでクラスタ化するステップ及び前記話者モデルを訓練するステップが、所定レベルの確度が達成されるまで反復して実行されることを特徴とする方法。
  7. 請求項6に記載の方法において、前記所定のレベルの確度の達成に応答して、前記話者は該話者を識別する情報を提供するように自動的に要求され、次いで、前記識別する情報を入力し、該識別する情報を前記最も確かそうな話者モデルと関連させて記憶することを特徴とする方法。
  8. 請求項1に記載の方法において、該方法が、前記話者を識別したことに応答して、家電装置と対話するために個人のプロファイルを自動的に取り込むステップを含んでいることを特徴とする方法。
  9. 請求項1に記載の方法において、該方法が、前記話者を識別するために使用される前記テスト発話を音声コマンドとして認識するステップと、該認識された音声コマンドを話者に応じた態様で実行するステップとを含んでいることを特徴とする方法。
  10. プロセッサが請求項1に記載の方法を実行するようにさせるコンピュータプログラム。
  11. 話者を自動的に識別するシステムであって、該システムが、
    話者を識別する話者識別器であって、該識別器が、
    前記話者からテスト発話を入力し、
    該テスト発話に関して複数の話者モデルのうちの最も確かそうな話者モデルを決定し、
    該最も確かそうな話者モデルに関連する話者を前記テスト発話の話者として識別する、
    ことにより話者を識別する話者識別器と、
    前記複数の話者モデルを発生する話者モデル発生器と、
    を有するようなシステムにおいて、前記話者モデル発生器は、
    バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話を行う話者についての事前の知識無しに入力し、
    これら訓練発話を、所定の評価規準に基づいてブラインドでクラスタ化し、
    これらクラスタの各々に関して、各々が話者を表すような話者モデルのうちの対応する話者モデルを訓練する、
    ことにより前記複数の話者モデルをバックグラウンドで発生することを特徴とするシステム。
JP2002588127A 2001-05-10 2002-04-25 話者音声のバックグランド学習 Expired - Fee Related JP4369132B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01201720 2001-05-10
PCT/IB2002/001495 WO2002090915A1 (en) 2001-05-10 2002-04-25 Background learning of speaker voices

Publications (2)

Publication Number Publication Date
JP2004528595A JP2004528595A (ja) 2004-09-16
JP4369132B2 true JP4369132B2 (ja) 2009-11-18

Family

ID=8180281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002588127A Expired - Fee Related JP4369132B2 (ja) 2001-05-10 2002-04-25 話者音声のバックグランド学習

Country Status (7)

Country Link
US (1) US7171360B2 (ja)
EP (1) EP1395803B1 (ja)
JP (1) JP4369132B2 (ja)
CN (1) CN1236423C (ja)
AT (1) ATE335195T1 (ja)
DE (1) DE60213595T2 (ja)
WO (1) WO2002090915A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104490570A (zh) * 2014-12-31 2015-04-08 桂林电子科技大学 一种面向盲人的嵌入式声纹识别与发现系统

Families Citing this family (177)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20030233231A1 (en) * 2002-06-13 2003-12-18 International Business Machines Corporation Apparatus and method for managing privacy using voice recognition and caller identification
US20040024585A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Linguistic segmentation of speech
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040138894A1 (en) * 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
US8005677B2 (en) 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US20050273333A1 (en) * 2004-06-02 2005-12-08 Philippe Morin Speaker verification for security systems with mixed mode machine-human authentication
US7720012B1 (en) * 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US20080208578A1 (en) * 2004-09-23 2008-08-28 Koninklijke Philips Electronics, N.V. Robust Speaker-Dependent Speech Recognition System
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
JP2007057714A (ja) * 2005-08-23 2007-03-08 Nec Corp 話者識別器更新データを生成する装置、方法、プログラムおよび話者識別器を更新する装置、方法、プログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070129943A1 (en) * 2005-12-06 2007-06-07 Microsoft Corporation Speech recognition using adaptation and prior knowledge
WO2007111169A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US20080147692A1 (en) * 2006-12-14 2008-06-19 General Motors Corporation Method for manipulating the contents of an xml-based message
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
EP2048656B1 (en) * 2007-10-10 2010-02-10 Harman/Becker Automotive Systems GmbH Speaker recognition
DE602007004504D1 (de) * 2007-10-29 2010-03-11 Harman Becker Automotive Sys Partielle Sprachrekonstruktion
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
CN101256769B (zh) * 2008-03-21 2011-06-15 深圳市汉音科技有限公司 语音识别装置及其方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8340974B2 (en) * 2008-12-30 2012-12-25 Motorola Mobility Llc Device, system and method for providing targeted advertisements and content based on user speech data
EP2216775B1 (en) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
US8209174B2 (en) * 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9305553B2 (en) * 2010-04-28 2016-04-05 William S. Meisel Speech recognition accuracy improvement through speaker categories
US8606579B2 (en) 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9159324B2 (en) * 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US20130006633A1 (en) * 2011-07-01 2013-01-03 Qualcomm Incorporated Learning speech models for mobile device users
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9251792B2 (en) 2012-06-15 2016-02-02 Sri International Multi-sample conversational voice verification
US8510238B1 (en) 2012-06-22 2013-08-13 Google, Inc. Method to predict session duration on mobile devices using native machine learning
US8886576B1 (en) 2012-06-22 2014-11-11 Google Inc. Automatic label suggestions for albums based on machine learning
US8429103B1 (en) 2012-06-22 2013-04-23 Google Inc. Native machine learning service for user adaptation on a mobile platform
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10438591B1 (en) 2012-10-30 2019-10-08 Google Llc Hotword-based speaker recognition
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9293140B2 (en) * 2013-03-15 2016-03-22 Broadcom Corporation Speaker-identification-assisted speech processing systems and methods
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
CN103219008B (zh) * 2013-05-16 2016-04-20 清华大学 基于基状态矢量加权的短语音说话人识别方法
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10304458B1 (en) 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9384738B2 (en) 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106570443A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种快速识别方法及家庭智能机器人
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JP6671020B2 (ja) * 2016-06-23 2020-03-25 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP6910002B2 (ja) * 2016-06-23 2021-07-28 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
KR102598057B1 (ko) * 2018-09-10 2023-11-06 삼성전자주식회사 음소기반 화자모델 적응 방법 및 장치
CN109378003B (zh) * 2018-11-02 2021-10-01 科大讯飞股份有限公司 一种声纹模型训练的方法和系统
KR102655628B1 (ko) 2018-11-22 2024-04-09 삼성전자주식회사 발화의 음성 데이터를 처리하는 방법 및 장치
CN113129901A (zh) * 2020-01-10 2021-07-16 华为技术有限公司 一种语音处理方法、介质及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US5862519A (en) * 1996-04-02 1999-01-19 T-Netix, Inc. Blind clustering of data with application to speech processing systems
EP0954854A4 (en) * 1996-11-22 2000-07-19 T Netix Inc PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION
CN1291324A (zh) * 1997-01-31 2001-04-11 T-内提克斯公司 检测录制声音的系统和方法
EP1023718B1 (en) * 1997-10-15 2003-04-16 BRITISH TELECOMMUNICATIONS public limited company Pattern recognition using multiple reference models
CN1302427A (zh) * 1997-11-03 2001-07-04 T-内提克斯公司 用于说话者认证的模型自适应系统和方法
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
JP2965537B2 (ja) * 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6324512B1 (en) * 1999-08-26 2001-11-27 Matsushita Electric Industrial Co., Ltd. System and method for allowing family members to access TV contents and program media recorder over telephone or internet
US6415257B1 (en) * 1999-08-26 2002-07-02 Matsushita Electric Industrial Co., Ltd. System for identifying and adapting a TV-user profile by means of speech technology
US6618702B1 (en) * 2002-06-14 2003-09-09 Mary Antoinette Kohler Method of and device for phone-based speaker recognition
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104490570A (zh) * 2014-12-31 2015-04-08 桂林电子科技大学 一种面向盲人的嵌入式声纹识别与发现系统

Also Published As

Publication number Publication date
EP1395803B1 (en) 2006-08-02
WO2002090915A1 (en) 2002-11-14
EP1395803A1 (en) 2004-03-10
CN1236423C (zh) 2006-01-11
DE60213595T2 (de) 2007-08-09
JP2004528595A (ja) 2004-09-16
ATE335195T1 (de) 2006-08-15
US7171360B2 (en) 2007-01-30
CN1462366A (zh) 2003-12-17
US20030088414A1 (en) 2003-05-08
DE60213595D1 (de) 2006-09-14

Similar Documents

Publication Publication Date Title
JP4369132B2 (ja) 話者音声のバックグランド学習
US11580960B2 (en) Generating input alternatives
US10878815B2 (en) Processing spoken commands to control distributed audio outputs
US9318103B2 (en) System and method for recognizing a user voice command in noisy environment
US9898250B1 (en) Controlling distributed audio outputs to enable voice output
US20180211670A1 (en) Acoustic signature building for a speaker from multiple sessions
US11854573B2 (en) Alternate response generation
JP5149107B2 (ja) 音響処理装置およびプログラム
JP2024510798A (ja) ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証
CN117321678A (zh) 用于说话者标识的注意力评分功能
EP1256934B1 (en) Method for adapting speaker-identification data using application speech
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
US7454337B1 (en) Method of modeling single data class from multi-class data
Segărceanu et al. SPEECH RECOGNITION SYSTEM
SUCIU et al. SPEECH RECOGNITION SYSTEM.

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040607

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090728

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090827

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130904

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees