JP3664739B2 - 話者の音声確認用の自動式時間的無相関変換装置 - Google Patents

話者の音声確認用の自動式時間的無相関変換装置 Download PDF

Info

Publication number
JP3664739B2
JP3664739B2 JP04361392A JP4361392A JP3664739B2 JP 3664739 B2 JP3664739 B2 JP 3664739B2 JP 04361392 A JP04361392 A JP 04361392A JP 4361392 A JP4361392 A JP 4361392A JP 3664739 B2 JP3664739 B2 JP 3664739B2
Authority
JP
Japan
Prior art keywords
word
vector
speech
speaker
word level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04361392A
Other languages
English (en)
Other versions
JPH06175683A (ja
Inventor
ピー.ネットスク ロリン
アール.ドディントン ジョージ
Original Assignee
テキサス インスツルメンツ インコーポレイテツド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テキサス インスツルメンツ インコーポレイテツド filed Critical テキサス インスツルメンツ インコーポレイテツド
Publication of JPH06175683A publication Critical patent/JPH06175683A/ja
Application granted granted Critical
Publication of JP3664739B2 publication Critical patent/JP3664739B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、一般的には音声処理に関し、特に時間的無相関形(temporal decorrelation)の、強力な話者の確認装置および方法に関する。
【0002】
【従来の技術】
話者の音声確認の現在の装置および方法は、実際の検査での使用の前に、音声登録を必要とする。この登録中においては、確認されるべきそれぞれの話者に特有の音声モデルが作られる。これは通常、あるきまった話者から生じることがわかっているいくつかの発音から音声データを収集し、次にそのデータを処理してその話者に特有のモデルを形成することによって行なわれる。これら特有のモデルは、これらのモデルの話者を識別する情報と共に記憶される。
【0003】
実際の確認での使用においては、諸話者は、まず彼等のアイデンティティを請求する。装置は話者が発音することを要求し、その発音は次に、請求されたアイデンティティと共に記憶されているその話者の音声モデルと比較される。もし発音と音声モデルとが密接に一致すれば、その話者は請求されたアイデンティティと同一者であることが宣言される。
【0004】
音声処理の現在の方法においては、フレームと呼ばれる、その中で音響信号が認めうるほどに変化しないものと仮定される、短い時間内に、発音から音声パラメータのベクトルが測定される。これらのパラメータベクトルは、直交化のための1次変換、または何らかの他の変換を受けることによって、音声特徴ベクトルとしても知られている、統計的に相関のない音声パラメータベクトルとされることが多い。これによって得られたパラメータまたは特徴ベクトルは、個人の音声のモデルを作るために使用されうる。
【0005】
現在、ある話者確認装置は、あるきまった人物の音声の全フレームからの音声ベクトルをいっしょにグループ化し、それらのベクトルを用いて全発音にわたっての平均の統計的性質を決定している。時々、これらの装置は、送受器および通話路が異なることによる音声ベクトルのひずみの平均の統計的性質の評価を行なう。この平均の統計的性質は、後に、話者確認のために使用される。
【0006】
他の話者確認装置は、アラインメント(alignment)と呼ばれる過程において同じ音声音に対応する音声ベクトルをグループ化する。動的時間歪曲(Dynamic Time Warping(DTW))または隠れマルコフモデリング(Hidden Markov Modeling(HMM))は、アラインメントの周知の方法の1つである。装置は、それぞれのグループに別個に対応する音声ベクトルの統計的性質を評価する。音声ベクトルの諸グループの統計的性質の収集物が得られると、それは確認されるべき話者のための基準モデルを形成する。確認装置はしばしば、統計的性質のその収集物を、個々のワード、音節、または音を代表する多重モデルに分別する。
【0007】
これらの現在技術の装置が全て、音声ベクトルレベルにおける話者のデータの統計的性質を利用していることに注意するのは重要である。従って、これらの装置は、音声ベクトルのそれぞれのグループに関連する統計的性質の独立性を暗黙のうちに仮定している。
【0008】
話者確認の多くの応用が直面する問題の1つは、音声信号の避けられないひずみまたは変化である。ひずんだ音声信号は、ひずんだ音声ベクトルを生じる。現在の確認装置によって行なわれているように、ベクトルが個々に考察されるものとすれば、音声ベクトルのひずみのために、音声が仮定された真の話者から来たものであるか、または詐欺師から来たものであるかを決定するのは困難である。これにより、話者確認の性能は劣化する。
【0009】
たとえば、電話での声の確認によってリソースへのアクセスを制御しようとする電気通信上の応用においては、異なる電話の送受器および通話路の使用により、人の音声はしばしばひずみを受け、変化せしめられる。銀行の自動金銭出納器のような他の応用においては、異なるマイクロホンの使用によって音声信号の変化が起こる。現在の話者確認装置においては、一時に1つのみの電話送受器またはマイクロホンしか使用されないので、音声信号の変化はその特定の送受器またはマイクロホンが使用される場合に限って固定されたものとなるのに注意することは重要である。
従って、これらの問題のいずれか、または全てを克服する改良が現在所望されている。
【0010】
【発明が解決しようとする課題】
関連技術に係る以上の諸問題にかんがみ、本発明は、異なる電話送受器、電話通話路、またはマイクロホンの使用による音声信号のひずみまたは変化を補償する、強力な話者の確認装置および方法を提供することを目的とする。
【0011】
本発明のもう1つの目的は、話者確認の性能を改善する装置および方法を提供することである。
【0012】
本発明のもう1つの目的は、話者に特有な音声情報のために必要な記憶容量を減少せしめる装置および方法を提供することである。
【0013】
【課題を解決するための手段】
これらの、およびその他の諸目的は、本発明の実施例に従い、話者のアイデンティティを確認するために全ワードにおいて測定された音声特徴間の十分に最適な相関を利用した、話者の声を確認する時間的無相関形装置および方法を提供することによって達成される。本発明は、発音内の個々のワードの諸音を代表する音声ベクトルの諸グループ間の相関を利用する。これらの相関は全ワードにわたるものであるから、全発音中に一定を保つひずみとは比較的に無関係な全ワードにわたる統計的特徴を見出すことが可能である。本発明において実施される、これらの統計的特徴を用いた無相関形処理は、発音中一貫して行なわれ、改善された話者確認の性能を実現する。
【0014】
このような話者音声確認の自動化された時間的無相関形装置および方法は、特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器と、前記特有アイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、未知話者から受けたワードレベル音声特徴ベクトルと該ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器と、該相似度点数に基づき前記未知話者のアイデンティティが請求されたものと同じであるか否かを決定する話者確認判断回路と、を含む。ワードレベルベクトル採点器はさらに、連結回路と、ワード特有の直交化1次変換器と、を含む。
【0015】
本発明の時間的無相関形装置および方法はまた、特定の話者の音声を表わすために記憶されなくてはならないパラメータの数を減少させ、それによって話者特有の音声情報のために必要な記憶容量を減少せしめる。この装置および方法は、話された発音からワードレベル音声特徴ベクトルを確立する段階と、該ワードレベル音声特徴ベクトルを採点する段階と、事前選択された全ワード音声特徴ベクトルを捨てる段階と、残余の全ワード音声特徴ベクトルを記憶する段階と、を含む。この記憶段階はさらに、話された発音内の全ワードにわたって統計的に相関のない全ワード特徴ベクトルを作り出すためのワード特有直交化1次変換を行なう段階を含む。
【0016】
本発明のこれらの、およびその他の諸特徴および諸利点は、本技術分野に習熟した者にとっては、添付図面と共に与えられる実施例についての以下の詳細な説明から明らかになるはずである。
異なる諸図内の同じ番号および記号は、特に断わりのない限り同じ部品を指示している。
【0017】
【実施例】
本発明の実施例は、一般的な話者確認装置を示す図1をまず考察することによって最もよく理解される。前述のように、話者音声の確認は、実際の確認を行なう前に音声の登録を要する。既知の話者の登録を行なうためには、既知の話者は、登録装置5において、マイクロホン、電話送受器、通話路、などにより音声コレクタ10に対して発音を行なう。音声コレクタ10は、それらの発音から音声パラメータベクトルを収集して、それらのベクトルをモデリングユニット15へ供給する。モデリングユニット15は、これらの音声パラメータベクトルに基づき、その既知話者に特有なモデルを形成する。これらの話者特有のモデルは、そのモデルの話者を識別する情報と共に記憶装置20内に記憶される。
【0018】
ある場合には、同じワードまたはフレーズの何回かの繰返しが収集され、音声の同じ部分に対応するパラメータベクトルがアラインメント(ベクトルのグループ形成)を受ける。得られたベクトルの諸グループは、次にモデリングユニット15によって平均され、その話者特有の基準音声パラメータベクトルの良好な推定またはモデルを与える。得られたパラメータベクトルの集合は、確認されるべき話者のための基準モデルを形成する。これらのパラメータベクトルは、しばしば分割されて、個々のワード、音節、または音などの音声の諸部分を代表するいくつかの別個のモデルを形成する。
【0019】
実際の話者確認においては、話者は最初に、該話者が請求するアイデンティティを確認装置25の入力部分30へ入力する。これは、電話のキーパッドを経ての(数字入力による)識別キー操作、記録情報を有するクレジットカードの使用、識別用フレーズの音声認識、または他の任意の適切な手段、などのさまざまな手段によって行なわれる。確認装置25は、この請求されたアイデンティティを用いて、記憶装置20から対応する音声モデルを検索する。確認装置25がいったん請求されたアイデンティティに対する音声モデルを検索すれば、確認装置25は、話者がある発音をなすことを要求するか、またはアイデンティティの請求のために行なわれた発音を使用することができる。
【0020】
固定テキスト形確認装置においては、確認装置25は、それぞれの話者の確認発音のテキストの知識を有する。話者から発音が収集された後、それは登録と同様にして入力音声ベクトルのシーケンスに変換される。これらの入力音声ベクトルは、次にDTW,HMM,または他のアルゴリズムを用いての、請求されたアイデンティティを有する話者に対応する基準モデルベクトルとのアラインメントの結果、それぞれの入力音声ベクトルと基準モデル(パラメータ)ベクトルとの間の対応関係を生じる。この形式のアラインメントの例が図2に示されており、そこでは入力音声ベクトルv1−v8と基準モデル(パラメータ)ベクトルr1−r4とのアラインメントが行なわれている。基準パラメータベクトルr1およびr2は第1ワードに対応し、またr3およびr4は第2ワードに対応している。
【0021】
アラインメントの後、確認装置25は、話された発音の入力音声信号を、検索された音声モデルと、音声モデル比較器35において比較する。この比較は、それぞれの入力音声ベクトルと、そのマップされた基準ベクトルとの間で行なわれ、それによって両ベクトル間の相似度の量が決定される。比較器35は、図3に示されているように、入力音声信号と記憶装置20から検索されたモデルとの近似度に基づいて全確認発音に対して計算された、相似度点数を確定する。この近似度は、入力音声ベクトルとマップされた基準ベクトルとの間の相似度測定値310の和である。ベクトルの相似度は、統計的最大確度計算またはベクトル量子化を含むいくつかの方法によって決定されうる。もし発音点数によって、基準ベクトルと入力ベクトルとが成功判断基準に適合するように全発音にわたって十分な相似度を有することが示されれば、(すなわち、話された発音と音声モデルとが密接に一致すれば)、確認装置25は話者が真に請求されたアイデンティティと同一者であると判断する。ある装置においては、もし請求されたアイデンティティが確認された場合は、入力音声ベクトルはマップされた基準ベクトルと平均されて更新された音声基準モデルの集合を発生し、これによって記憶装置20内に保持されていたモデルが置換される。
【0022】
本発明の実施例においては、登録および確認は共に、入力音声パラメータベクトルと基準モデルパラメータベクトルとのHMMアライメントを用いる。しかし、それぞれのワードを作り上げている諸ベクトルは後に連結されて、発音内の全ワードを代表する単一ベクトルを形成する。これらの全ワードベクトルは、(時間的無相関1次変換TDTを用いて)ワード特有の直交化1次変換を受けて、全ワードにおいて統計的に相関のない全ワードベクトルを作り出す。得られた全ワードベクトルは、入力音声発音と記憶されている音声パラメータとの間の相似度の測度を決定するために用いられる。
【0023】
さらに詳述すると、図4aには、登録中に話者の入力音声から既知話者の音声特徴ベクトルを決定する実施例のブロック図が示されている。ブロック100から開始して、登録されるべき話者は既知の確認発音を行なう。この音声信号は線形予測係数(LPC)計算を受けて、線形予測係数の諸ベクトルを発生する。実施例においては、これらのベクトルは、10係数とエネルギーおよび音の高さを定める2要素とから成る。フレームパラメータベクトル計算器110は、非線形プロセスにおいてLPCベクトルを用い、エネルギー、スペクトル、差エネルギー、および差スペクトル音声パラメータを決定する。これらの広域音声パラメータは、広域特徴ベクトル変換器120により既知話者に対する音声特徴ベクトルに変換される。広域特徴ベクトル変換は、登録前に計算される所定の1次変換である。それは、多数の話者を代表するデータベースからベクトル統計量を決定することによって構成される。それらのベクトル統計量は、話者間の最適の識別を行なう無相関特徴を決定する1次変換を設計するための固有ベクトル解析に用いられる。
【0024】
上述の音声特徴ベクトルの形成は、音声特徴を作るための1つの方法に過ぎない。他にも、セプストラル(cepstral)係数の計算、または、パーコールまたはログ領域比係数のようなLPC係数から直接導かれる特徴ベクトルの使用、などの特徴計算方法も存在する。本発明は、どのようにも特定の音声ベクトル計算方法に限定されるべきではない。
【0025】
図4bには、音声特徴ベクトルから話者特有のワードレベル音声モデルを作ることにより、既知話者を登録する実施例のブロック図が示されている。特徴ベクトルアラインメントプロセッサ140は、広域特徴ベクトル変換器120から音声特徴ベクトルを受け、これらの特徴ベクトルを、確認発音のそれぞれのワードの音響的観察を表わす、以前に決定された話者にはよらない基準ワードモデル特徴ベクトル130とアラインメントさせる。基準ワードモデル特徴ベクトル130は、既知話者の登録入力音声内のそれぞれのワードの統計的表示であり、多数の話者を用いて以前に収集された音声データベースから作られる。実施例においては、アラインメントプロセッサ140は、Viterbiの探索HMMアルゴリズムを用いて音声モデルと基準モデルとのアラインメントを行ない、それによって入力音声特徴ベクトルと基準音声特徴ベクトル130との間のマッピングを行なう。前述のように、動的時間歪曲(DTW)のような他の周知のアルゴリズムも、アラインメントを行なうのに使用されうる。実施例においては、マッピングは、それぞれの基準ベクトル130に対して少なくとも1つの入力音声特徴ベクトルのマッピングが存在し、それぞれの入力音声ベクトルはただ1つのみの基準ベクトル130にマッピングされるように行なわれる。
【0026】
実施例においては、特徴平均回路150は、同じ基準ベクトル130に対してマップされる入力音声特徴ベクトルを平均することにより、それぞれのワードに対する登録話者の音声の特徴を表わす平均基準モデルベクトルを発生する。これにより、話者にはよらない基準ワードモデルベクトルに対応する、既知話者からのベクトルの集合が作られる。これによって、基準ベクトルと同数の平均入力音声ベクトルが得られることに注意すべきである。それぞれの基準ベクトルと最もよく一致するそれぞれの個々の入力ベクトルを選択することを含む、平均する以外の入力音声特徴ベクトルの他の組合せ手段も行なわれうる。
【0027】
この平均プロセスを、いくつかの登録発音を用いて繰返せば、それぞれのワードに対する平均基準モデルベクトルが、登録話者の音声の特徴をより良く表わすようにすることができる。それぞれのワードに対応する平均基準モデルベクトルは通常、後の確認処理のために装置内に記憶される。もし記憶容量をさらに減少させたい場合には、平均基準モデルベクトルの記憶の必要はない。
【0028】
ワードレベルベクトル変換器160は、それぞれのワードに対応する、特徴平均回路150から受けた平均入力音声ベクトルの全てをまず連結して、それぞれのワードに対する単一のワードレベル平均入力音声ベクトルを発生する。ワードレベルベクトル変換器160は、時間的無相関1次変換TDTとしても知られるワードレベル1次変換を用いてワードレベルベクトルを変換する。ワードレベル1次変換は、登録以前に、多数の話者を代表するデータベースからのワードレベルベクトル統計量を用いて計算され、また話者間の最適識別を行なうための無相関ワードレベル音声特徴を発生するように設計される。登録の最後の段階として、ワードレベル音声特徴記憶装置170は、ワードレベルベクトル変換器160から受けた、既知話者を識別するデータと、既知話者に対する全てのワードレベル音声特徴ベクトルとを記憶する。
【0029】
図5は、本発明の話者確認プロセッサの実施例のブロック図である。確認処理において、未知話者は、彼のアイデンティティが装置にすでに登録されている話者のそれであることの確認請求をする。確認装置の仕事は、これが真実であるか否かを決定することである。これを行なうために、確認装置は、話者を促して確認発音をさせる。その確認発音は収集され、確認プロセッサは、音声特徴ベクトル計算器210において音声特徴ベクトルを計算する。この計算は、図4aに関連して前述した所と同じ処理を含む。ワードレベル音声特徴計算器220は、音声特徴ベクトル計算器210からの音声特徴出力を、請求話者のワードリストと共に用いて、未知話者に対するワードレベル音声特徴ベクトルを形成する。
【0030】
ワードレベル音声特徴計算器220によって行なわれる処理は、ワードレベル音声特徴ベクトルが直接ワードレベル音声特徴記憶装置に記憶されないことを除外すれば、図4bに関連して前述された処理と同じである。その代りに、未知話者からのワードレベル音声特徴ベクトルは、ワードレベルベクトル採点器230へ入力される。このようにして、ワードレベル音声特徴計算器220は、HMMアラインメントを用いて、入力音声ベクトルを、請求されたアイデンティティを有する話者のための、それぞれのワードに対応する話者特有の基準モデルベクトルにマップする。図6に例が示されており、そこでは入力音声ベクトルv1ないしv8が、ワード1に対する基準ベクトルr1およびr2と、ワード2に対する基準ベクトルr3およびr4とにマップされている(段階350)。
【0031】
ワードレベルベクトル採点器230は、ワードレベル音声特徴ベクトル計算器220から来た未知話者のワードレベル音声特徴ベクトルと、ワードレベル音声特徴記憶装置170に以前に記憶されたそれらとの間の相似度点数を計算する。実施例においては、相似度点数は、未知話者のワードレベル音声特徴ベクトルと、請求されたアイデンティティのために記憶されているそれらとの間のユークリッド距離の、全てのワードについての和である。他にも、Mahalanobis距離などの、使用できる多くの相似度点数の測定がある。
【0032】
本発明の相似度測定は、従来技術とはかなり異なっている。それぞれの入力音声ベクトルとマップされた基準モデルベクトルとの間の相似度比較を行なうのではなく、それぞれの基準モデルベクトルに対してマップされた入力音声ベクトルが平均されて(図6、段階360)、それぞれの基準モデルベクトルに対応する平均入力音声ベクトルを発生する(a1−a4)。それぞれのワードを作り上げる平均入力音声ベクトルは、連結されてそれぞれのワードに対する単一の全ワード入力音声ベクトルを形成する。図6の例においては、a1およびa2は連結されてワード1に対する全ワードベクトルを形成し、a3およびa4は連結されてワード2に対する全ワードベクトルを形成する。
【0033】
図7には、全ワード入力音声ベクトル390,395および全ワード基準特徴ベクトル410,415の形成プロセスが示されている。それぞれの全ワード入力音声ベクトル370,375は、それぞれのワードに対し独特に決定された時間的無相関形変換(TDT)380と呼ばれる所定の1次変換によって変換され、それぞれ無相関形全ワード入力音声特徴ベクトル390,395を発生する。同様にして、それぞれのワードに対する全ワード基準音声ベクトル400,405(図6におけるr1−r4)は連結されて、それぞれのワードに対する単一の全ワード基準ベクトルを発生する。全ワード基準音声ベクトル400,405は、同じTDT380によって変換されて、それぞれ全ワード基準特徴ベクトル410,415を形成する。
【0034】
図8に示されているように、全ワード入力音声特徴ベクトル390,395および全ワード基準特徴ベクトル410,415は次に比較されて(段階420)、個々の全ワード特徴ベクトル相似度点数430が決定される。発音点数は、相似度点数430の和である。相似度を示すために統計的最大確度計算の使用が選択されているが、ベクトル量子化などの他の周知の方法も使用されうる。TDT380によって与えられる無相関により、全ワード特徴ベクトル410、415の多くの特徴が捨てられうる。本発明の実施例においては、ベクトル毎の全ワード特徴の20%のみが利用された。
【0035】
図5に帰ると、ワードレベルベクトル採点器230から得られた相似度点数は、話者確認判断回路240へ入力され、この回路はその点数を所定スレッショルドと比較する。もし点数がスレッショルドより低ければ、装置はその未知話者が請求を行なった者であると判断する。一方、もし点数がスレッショルドより高ければ、装置はその未知話者にもう2回までの試行を許可した後、その未知話者のアイデンティティが請求されたアイデンティティと同一でないと判断する。
【0036】
実施例においては、もし話者確認判断回路240が未知話者のアイデンティティが請求されたアイデンティティと同一であることを決定すれば、特徴更新平均回路250は、ワードレベル音声特徴計算器220からの入力音声と、ワードレベル音声特徴記憶装置170からのそれらとの、ワードレベル音声特徴の加重平均を行なう。得られた平均ワードレベル音声特徴は、請求された話者のアイデンティティのためのワードレベル音声特徴記憶装置170内に保持されているそれらを置換する。これにより、請求した話者に対するワードレベル音声特徴の改善されたモデルが与えられる。
【0037】
本発明の実施例は、話者が発音するはずの用語範囲内のそれぞれのワードに対する、ワードに特有な時間的無相関形1次変換(TDT)を作り出す。それぞれのTDTのために決定されなくてはならないパラメータは多数存在するので、用語範囲内の諸ワードをそれぞれの話者が数回繰返す、多くの異なる話者の発音から成る音声データベースを用いると有益である。
【0038】
TDTを作るためには、用語範囲内のそれぞれのワードに対する全ワードベクトルの共分散マトリックスが、それぞれの話者に対しデータベース内で計算される。これらの全ワードベクトルは、図2に示されている確認プロセスと同様のプロセスによって形成される。HMMアラインメントを用い、それぞれの話者からの発音パラメータベクトルと、用語範囲内のそれぞれのワードを代表する所定の基準モデルベクトルとのアラインメントが行なわれる。そのアラインメントの後、それぞれの基準ベクトルにマップされた発音ベクトルは平均されて、各基準ベクトルに対して1つずつの平均発音ベクトルを形成する。それぞれのワードに対する平均発音ベクトルは、連結されて全ワードベクトルを形成する。用語範囲内のそれぞれのワードに対応する全ワードベクトルは、それぞれの話者およびそれぞれのワードに対する共分散マトリックスの計算に用いられる。全ての話者に対する、同じワードに対応した共分散マトリックスは、次にプールされる。これによって、全ての話者に対する1つの共分散マトリックスが、用語範囲内のそれぞれのワードに対して得られる。それぞれの共分散マトリックスは、それぞれのワードに対する固有ベクトルマトリックスを発生するための、固有ベクトルの直交化の計算において用いられる。さらに、(話者にかかわりなく)それぞれのワードに対する全ての全ワードベクトルは、広域ワードレベルベクトルの共分散を表わす、それぞれのワードに対する共分散マトリックスを決定するのに用いられる。用語範囲内のそれぞれのワードに対しこのようにして形成された2つの共分散マトリックスは、話者間の最適の識別を行なう相関のないワードレベル特徴を定める1次変換を決定するための、固有ベクトル識別計算に用いられる。固有ベクトルマトリックスは無相関形全ワード変換を表わし、TDTとして知られている。
【0039】
前述のように、本発明を用いると、話者特有のデータのための記憶容量は減少せしめられる。そうなる理由は、相似度計算を行なうのに必要な全ワード基準特徴のみが記憶されるからである。該特徴の約20%のみが相似度計算に用いられるので、全ての基準ベクトルを記憶するのに比較すれば約80%だけ記憶容量を減少させることができる。
【0040】
本発明は、ワードレベルベクトルの採点を行なって記憶されている話者による基準モデルとの相似度を決定することを含む時間的無相関方式を用いている。前述のようなアラインメントを行なって、次に話者によるモデルとの相似度に基くワードレベル点数を決定すれば、この基本概念を音声認識技術へ簡単に拡張できる。この点数は、認識をワードレベルで行なうために用いられうる。
【0041】
以上においては、本発明の特定の実施例を図示し、かつ説明してきたが、本技術分野に習熟した者ならば、さまざまな改変および別の実施例がありうることがわかるはずである。従って、本発明は、特許請求の範囲によってのみ限定されるものである。
【0042】
以上の説明に関して更に以下の項を開示する。
(1) 話者の音声確認用の自動式時間的無相関形装置であって、
特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、
該コレクタから受けた該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器と、
前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、
前記ワードレベル音声特徴計算器から受けた前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器と、
該ワードレベルベクトル採点器から受けた前記相似度点数に基づき前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する話者確認判断回路と、
を含む話者の音声確認用の自動式時間的無相関形装置。
【0043】
(2) 前記ワードレベル音声特徴計算器が、HMMアラインメントを用いて前記入力音声ベクトルを、前記請求されたアイデンティティを有する前記話者におけるそれぞれのワードに対応する話者特有の基準モデルベクトルにマップする、第1項記載の装置。
【0044】
(3) 前記ワードレベルベクトル採点器がさらに、単一ワードを作り上げる前記ベクトルを連結して前記音声入力内の全ワードを代表する単一ベクトルを形成する連結回路を含む、第1項記載の装置。
【0045】
(4) 前記ワードレベルベクトル採点器がさらに、前記音声入力内の全ワードにおいて統計的に無相関な全ワードベクトルを作るためのワード特有の直交化1次変換器を含む、第3項記載の装置。
【0046】
(5) 前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、第1項記載の装置。
【0047】
(6) 話者の音声確認用の自動式時間的無相関形方法であって、
特有のアイデンティティを請求する未知話者からの確認発音を収集する段階と、
該確認発音からワードレベル音声特徴ベクトルを確立する段階と、
以前に記憶された、前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを検索する段階と、
前記確立段階において発生せしめられた前記ワードレベル音声特徴ベクトルを、前記以前に記憶されたワードレベル音声特徴ベクトルによって採点する段階と、
前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する段階と、
を含む話者の音声確認用の自動式時間的無相関形方法。
【0048】
(7) 前記ワードレベル音声特徴ベクトル確立段階がさらに、HMMアラインメントを用いて前記入力音声ベクトルを、前記請求されたアイデンティティを有する前記話者におけるそれぞれのワードに対応する話者特有の基準モデルベクトルにマップする段階を含む、第6項記載の方法。
【0049】
(8) 前記採点段階がさらに、単一ワードを作り上げる前記ベクトルを連結して前記発音内の全ワードを代表する単一ベクトルを形成する段階を含む、第6項記載の方法。
【0050】
(9) 前記採点段階がさらに、前記発音内の全ワードにおいて統計的に無相関な全ワードベクトルを作るためのワード特有の直交化1次変換を行なう段階を含む、第8項記載の方法。
【0051】
(10) 前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、第6項記載の方法。
【0052】
(11) 話者特有の音声情報用として必要な記憶容量を減少せしめる時間的無相関形方法であって、
話された発音からワードレベル音声特徴ベクトルを確立する段階と、
該ワードレベル音声特徴ベクトルを採点する段階と、
事前選択された全ワード音声特徴ベクトルを捨てる段階と、
残余の全ワード音声特徴ベクトルを記憶する段階と、
を含む、話者特有の音声情報用として必要な記憶容量を減少せしめる時間的無相関形方法。
【0053】
(12) 前記採点段階がさらに、前記発音内の全ワードにおいて統計的に無相関な全ワード特徴ベクトルを作るためのワード特有の直交化1次変換を行なう段階を含む、第11項記載の方法。
【0054】
(13) 話者の音声確認用の自動式時間的無相関形装置および方法が示され、該装置は、特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタ210と、該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器220と、前記特有アイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置170と、未知話者から受けたワードレベル音声特徴ベクトルと該ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器230と、該相似度点数に基づき前記未知話者のアイデンティティが請求されたそれと同じであるか否かを決定する話者確認判断回路240と、を含む。ワードレベルベクトル採点器はさらに、連結回路と、ワード特有の直交化1次変換器(図4bの160、図7の380)とを含む。
他の装置および方法もまた開示されている。
【図面の簡単な説明】
【図1】一般的な話者確認装置の例のブロック図。
【図2】本発明によらないアラインメント処理を示すブロック図。
【図3】本発明によらない発音採点を示すブロック図。
【図4】本発明の実施例の登録プロセッサによって行なわれる諸段階のブロック図。
【図5】本発明の実施例の話者確認プロセッサのブロック図。
【図6】本発明の実施例によるアラインメント処理のブロック図。
【図7】本発明の実施例による全ワード変換を示すブロック図。
【図8】本発明の実施例による発音採点を示すブロック図。
【符号の説明】
160 ワードレベルベクトル変換器
170 ワードレベル音声特徴記憶装置
210 コレクタ
220 ワードレベル音声特徴計算器
230 ワードレベルベクトル採点器
240 話者確認判断回路

Claims (5)

  1. 話者の音声確認のための自動式時間的無相関変換装置であって、
    特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、
    前記コレクタで受けた音声入力を表わす複数の音声特徴ベクトルを生成するように動作できる音声特徴ベクトル計算器と、
    前記複数の音声特徴ベクトルの複数の基準ワードモデルへのマッピングを生成するように動作でき、前記複数の基準ワードモデルは話されたワードのモデルに対応するモデルを表す、音声特徴ベクトルアライメントプロセッサと、
    前記マッピングと前記音声特徴ベクトルを使うよう動作でき、前記音声入力内の各話されたワード毎に単一のワードレベルベクトルを生成するワードレベルベクトル生成器と、
    時間的無相関変換を使うよう動作でき、前記ワードレベルベクトル生成器で生成された前記ワードレベルベクトルからワードレベル音声特徴ベクトルを発生して、統計的に無相関でかつ話者を分離するために最適化された全ワード特徴ベクトルを生成するワードレベル音声特徴計算器と、
    前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、
    前記ワードレベル音声特徴計算器から受けた前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベル特徴ベクトル採点器と、
    該ワードレベル特徴ベクトル採点器から受けた前記相似度点数に基づき前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する話者確認判断回路と、
    を含む話者の音声確認のための自動式時間的無相関変換装置。
  2. 前記音声特徴ベクトルアライメントプロセッサが、HMM音声認識アラインメントを用いて前記入力音声ベクトルを話者によらない基準HMMモデルへマッピングし、各HMM基準モデルは前記請求されたアイデンティティを有する前記話者によって話されたそれぞれのワードに対応する特許請求の範囲第1項記載の装置。
  3. 前記ワードレベルベクトル生成器がさらに、基準モデルにマッピングされる前記入力特徴ベクトルを平均化して、前記マッピングにおいて指定された各基準モデルに対応する平均化入力特徴ベクトルを生成する平均化回路を含む特許請求の範囲第1項記載の装置。
  4. 前記ワードレベルベクトル生成器がさらに、単一ワードを作り上げる各基準モデルにマッピングされる前記複数の平均化入力特徴ベクトルを連結して前記音声入力内の全ワードを代表する単一ワードレベルベクトルを形成する連結回路を含む、特許請求の範囲第3項記載の装置。
  5. 前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、特許請求の範囲第1項記載の装置。
JP04361392A 1991-02-28 1992-02-28 話者の音声確認用の自動式時間的無相関変換装置 Expired - Fee Related JP3664739B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/662,086 US5167004A (en) 1991-02-28 1991-02-28 Temporal decorrelation method for robust speaker verification
US662086 1991-02-28

Publications (2)

Publication Number Publication Date
JPH06175683A JPH06175683A (ja) 1994-06-24
JP3664739B2 true JP3664739B2 (ja) 2005-06-29

Family

ID=24656333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04361392A Expired - Fee Related JP3664739B2 (ja) 1991-02-28 1992-02-28 話者の音声確認用の自動式時間的無相関変換装置

Country Status (4)

Country Link
US (1) US5167004A (ja)
EP (1) EP0501631B1 (ja)
JP (1) JP3664739B2 (ja)
DE (1) DE69226796T2 (ja)

Families Citing this family (139)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
US5677989A (en) * 1993-04-30 1997-10-14 Lucent Technologies Inc. Speaker verification system and process
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5774858A (en) * 1995-10-23 1998-06-30 Taubkin; Vladimir L. Speech analysis method of protecting a vehicle from unauthorized accessing and controlling
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US5995927A (en) * 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
US6182037B1 (en) 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5924070A (en) * 1997-06-06 1999-07-13 International Business Machines Corporation Corporate voice dialing with shared directories
CA2304747C (en) * 1997-10-15 2007-08-14 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
JP3507686B2 (ja) * 1998-01-16 2004-03-15 日本電気株式会社 音声認識機能を有する通信装置及び通信方法
EP1159737B9 (en) * 1999-03-11 2004-11-03 BRITISH TELECOMMUNICATIONS public limited company Speaker recognition
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6697779B1 (en) * 2000-09-29 2004-02-24 Apple Computer, Inc. Combined dual spectral and temporal alignment method for user authentication by voice
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
US6778957B2 (en) * 2001-08-21 2004-08-17 International Business Machines Corporation Method and apparatus for handset detection
US6999928B2 (en) * 2001-08-21 2006-02-14 International Business Machines Corporation Method and apparatus for speaker identification using cepstral covariance matrices and distance metrics
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
JP4714523B2 (ja) * 2005-07-27 2011-06-29 富士通東芝モバイルコミュニケーションズ株式会社 話者照合装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CA2676380C (en) 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN111242146B (zh) * 2018-11-09 2023-08-25 蔚来(安徽)控股有限公司 基于卷积神经网络的poi信息分类

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS5944639B2 (ja) * 1975-12-02 1984-10-31 フジゼロツクス カブシキガイシヤ 音声による異同認識方式における標準パタ−ン更新方法
US4032711A (en) * 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS6057475A (ja) * 1983-09-07 1985-04-03 Toshiba Corp パタ−ン認識方式
US4827518A (en) * 1987-08-06 1989-05-02 Bell Communications Research, Inc. Speaker verification system using integrated circuit cards
US4949379A (en) * 1989-05-05 1990-08-14 Steve Cordell Process for encrypted information transmission
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network

Also Published As

Publication number Publication date
EP0501631A2 (en) 1992-09-02
EP0501631B1 (en) 1998-09-02
JPH06175683A (ja) 1994-06-24
US5167004A (en) 1992-11-24
EP0501631A3 (en) 1993-05-26
DE69226796T2 (de) 1999-04-15
DE69226796D1 (de) 1998-10-08

Similar Documents

Publication Publication Date Title
JP3664739B2 (ja) 話者の音声確認用の自動式時間的無相関変換装置
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
JP3630216B2 (ja) 話者認証用確率的マッチング方法
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
EP1159737B1 (en) Speaker recognition
US5710864A (en) Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
AU636335B2 (en) Voice verification circuit for validating the identity of telephone calling card customers
CN101154380B (zh) 说话人认证的注册及验证的方法和装置
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
JP3189598B2 (ja) 信号合成方法および信号合成装置
EP0685835B1 (en) Speech recognition based on HMMs
US7509257B2 (en) Method and apparatus for adapting reference templates
US7003465B2 (en) Method for speech recognition, apparatus for the same, and voice controller
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
JP2009116278A (ja) 話者認証の登録及び評価のための方法及び装置
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP3075250B2 (ja) 話者認識方法及び装置
JPH07160287A (ja) 標準パターン作成装置
MXPA98007769A (en) Processing of
Gordon et al. Speech recognition strategy for stress-induced speech
JPH06266397A (ja) 特徴パターン作成方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041111

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050330

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees