JP3664739B2 - 話者の音声確認用の自動式時間的無相関変換装置 - Google Patents
話者の音声確認用の自動式時間的無相関変換装置 Download PDFInfo
- Publication number
- JP3664739B2 JP3664739B2 JP04361392A JP4361392A JP3664739B2 JP 3664739 B2 JP3664739 B2 JP 3664739B2 JP 04361392 A JP04361392 A JP 04361392A JP 4361392 A JP4361392 A JP 4361392A JP 3664739 B2 JP3664739 B2 JP 3664739B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- speech
- speaker
- word level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000002123 temporal effect Effects 0.000 title claims description 14
- 238000012795 verification Methods 0.000 title description 26
- 239000013598 vector Substances 0.000 claims description 225
- 238000012790 confirmation Methods 0.000 claims description 32
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 11
- 230000009466 transformation Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【産業上の利用分野】
本発明は、一般的には音声処理に関し、特に時間的無相関形(temporal decorrelation)の、強力な話者の確認装置および方法に関する。
【0002】
【従来の技術】
話者の音声確認の現在の装置および方法は、実際の検査での使用の前に、音声登録を必要とする。この登録中においては、確認されるべきそれぞれの話者に特有の音声モデルが作られる。これは通常、あるきまった話者から生じることがわかっているいくつかの発音から音声データを収集し、次にそのデータを処理してその話者に特有のモデルを形成することによって行なわれる。これら特有のモデルは、これらのモデルの話者を識別する情報と共に記憶される。
【0003】
実際の確認での使用においては、諸話者は、まず彼等のアイデンティティを請求する。装置は話者が発音することを要求し、その発音は次に、請求されたアイデンティティと共に記憶されているその話者の音声モデルと比較される。もし発音と音声モデルとが密接に一致すれば、その話者は請求されたアイデンティティと同一者であることが宣言される。
【0004】
音声処理の現在の方法においては、フレームと呼ばれる、その中で音響信号が認めうるほどに変化しないものと仮定される、短い時間内に、発音から音声パラメータのベクトルが測定される。これらのパラメータベクトルは、直交化のための1次変換、または何らかの他の変換を受けることによって、音声特徴ベクトルとしても知られている、統計的に相関のない音声パラメータベクトルとされることが多い。これによって得られたパラメータまたは特徴ベクトルは、個人の音声のモデルを作るために使用されうる。
【0005】
現在、ある話者確認装置は、あるきまった人物の音声の全フレームからの音声ベクトルをいっしょにグループ化し、それらのベクトルを用いて全発音にわたっての平均の統計的性質を決定している。時々、これらの装置は、送受器および通話路が異なることによる音声ベクトルのひずみの平均の統計的性質の評価を行なう。この平均の統計的性質は、後に、話者確認のために使用される。
【0006】
他の話者確認装置は、アラインメント(alignment)と呼ばれる過程において同じ音声音に対応する音声ベクトルをグループ化する。動的時間歪曲(Dynamic Time Warping(DTW))または隠れマルコフモデリング(Hidden Markov Modeling(HMM))は、アラインメントの周知の方法の1つである。装置は、それぞれのグループに別個に対応する音声ベクトルの統計的性質を評価する。音声ベクトルの諸グループの統計的性質の収集物が得られると、それは確認されるべき話者のための基準モデルを形成する。確認装置はしばしば、統計的性質のその収集物を、個々のワード、音節、または音を代表する多重モデルに分別する。
【0007】
これらの現在技術の装置が全て、音声ベクトルレベルにおける話者のデータの統計的性質を利用していることに注意するのは重要である。従って、これらの装置は、音声ベクトルのそれぞれのグループに関連する統計的性質の独立性を暗黙のうちに仮定している。
【0008】
話者確認の多くの応用が直面する問題の1つは、音声信号の避けられないひずみまたは変化である。ひずんだ音声信号は、ひずんだ音声ベクトルを生じる。現在の確認装置によって行なわれているように、ベクトルが個々に考察されるものとすれば、音声ベクトルのひずみのために、音声が仮定された真の話者から来たものであるか、または詐欺師から来たものであるかを決定するのは困難である。これにより、話者確認の性能は劣化する。
【0009】
たとえば、電話での声の確認によってリソースへのアクセスを制御しようとする電気通信上の応用においては、異なる電話の送受器および通話路の使用により、人の音声はしばしばひずみを受け、変化せしめられる。銀行の自動金銭出納器のような他の応用においては、異なるマイクロホンの使用によって音声信号の変化が起こる。現在の話者確認装置においては、一時に1つのみの電話送受器またはマイクロホンしか使用されないので、音声信号の変化はその特定の送受器またはマイクロホンが使用される場合に限って固定されたものとなるのに注意することは重要である。
従って、これらの問題のいずれか、または全てを克服する改良が現在所望されている。
【0010】
【発明が解決しようとする課題】
関連技術に係る以上の諸問題にかんがみ、本発明は、異なる電話送受器、電話通話路、またはマイクロホンの使用による音声信号のひずみまたは変化を補償する、強力な話者の確認装置および方法を提供することを目的とする。
【0011】
本発明のもう1つの目的は、話者確認の性能を改善する装置および方法を提供することである。
【0012】
本発明のもう1つの目的は、話者に特有な音声情報のために必要な記憶容量を減少せしめる装置および方法を提供することである。
【0013】
【課題を解決するための手段】
これらの、およびその他の諸目的は、本発明の実施例に従い、話者のアイデンティティを確認するために全ワードにおいて測定された音声特徴間の十分に最適な相関を利用した、話者の声を確認する時間的無相関形装置および方法を提供することによって達成される。本発明は、発音内の個々のワードの諸音を代表する音声ベクトルの諸グループ間の相関を利用する。これらの相関は全ワードにわたるものであるから、全発音中に一定を保つひずみとは比較的に無関係な全ワードにわたる統計的特徴を見出すことが可能である。本発明において実施される、これらの統計的特徴を用いた無相関形処理は、発音中一貫して行なわれ、改善された話者確認の性能を実現する。
【0014】
このような話者音声確認の自動化された時間的無相関形装置および方法は、特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器と、前記特有アイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、未知話者から受けたワードレベル音声特徴ベクトルと該ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器と、該相似度点数に基づき前記未知話者のアイデンティティが請求されたものと同じであるか否かを決定する話者確認判断回路と、を含む。ワードレベルベクトル採点器はさらに、連結回路と、ワード特有の直交化1次変換器と、を含む。
【0015】
本発明の時間的無相関形装置および方法はまた、特定の話者の音声を表わすために記憶されなくてはならないパラメータの数を減少させ、それによって話者特有の音声情報のために必要な記憶容量を減少せしめる。この装置および方法は、話された発音からワードレベル音声特徴ベクトルを確立する段階と、該ワードレベル音声特徴ベクトルを採点する段階と、事前選択された全ワード音声特徴ベクトルを捨てる段階と、残余の全ワード音声特徴ベクトルを記憶する段階と、を含む。この記憶段階はさらに、話された発音内の全ワードにわたって統計的に相関のない全ワード特徴ベクトルを作り出すためのワード特有直交化1次変換を行なう段階を含む。
【0016】
本発明のこれらの、およびその他の諸特徴および諸利点は、本技術分野に習熟した者にとっては、添付図面と共に与えられる実施例についての以下の詳細な説明から明らかになるはずである。
異なる諸図内の同じ番号および記号は、特に断わりのない限り同じ部品を指示している。
【0017】
【実施例】
本発明の実施例は、一般的な話者確認装置を示す図1をまず考察することによって最もよく理解される。前述のように、話者音声の確認は、実際の確認を行なう前に音声の登録を要する。既知の話者の登録を行なうためには、既知の話者は、登録装置5において、マイクロホン、電話送受器、通話路、などにより音声コレクタ10に対して発音を行なう。音声コレクタ10は、それらの発音から音声パラメータベクトルを収集して、それらのベクトルをモデリングユニット15へ供給する。モデリングユニット15は、これらの音声パラメータベクトルに基づき、その既知話者に特有なモデルを形成する。これらの話者特有のモデルは、そのモデルの話者を識別する情報と共に記憶装置20内に記憶される。
【0018】
ある場合には、同じワードまたはフレーズの何回かの繰返しが収集され、音声の同じ部分に対応するパラメータベクトルがアラインメント(ベクトルのグループ形成)を受ける。得られたベクトルの諸グループは、次にモデリングユニット15によって平均され、その話者特有の基準音声パラメータベクトルの良好な推定またはモデルを与える。得られたパラメータベクトルの集合は、確認されるべき話者のための基準モデルを形成する。これらのパラメータベクトルは、しばしば分割されて、個々のワード、音節、または音などの音声の諸部分を代表するいくつかの別個のモデルを形成する。
【0019】
実際の話者確認においては、話者は最初に、該話者が請求するアイデンティティを確認装置25の入力部分30へ入力する。これは、電話のキーパッドを経ての(数字入力による)識別キー操作、記録情報を有するクレジットカードの使用、識別用フレーズの音声認識、または他の任意の適切な手段、などのさまざまな手段によって行なわれる。確認装置25は、この請求されたアイデンティティを用いて、記憶装置20から対応する音声モデルを検索する。確認装置25がいったん請求されたアイデンティティに対する音声モデルを検索すれば、確認装置25は、話者がある発音をなすことを要求するか、またはアイデンティティの請求のために行なわれた発音を使用することができる。
【0020】
固定テキスト形確認装置においては、確認装置25は、それぞれの話者の確認発音のテキストの知識を有する。話者から発音が収集された後、それは登録と同様にして入力音声ベクトルのシーケンスに変換される。これらの入力音声ベクトルは、次にDTW,HMM,または他のアルゴリズムを用いての、請求されたアイデンティティを有する話者に対応する基準モデルベクトルとのアラインメントの結果、それぞれの入力音声ベクトルと基準モデル(パラメータ)ベクトルとの間の対応関係を生じる。この形式のアラインメントの例が図2に示されており、そこでは入力音声ベクトルv1−v8と基準モデル(パラメータ)ベクトルr1−r4とのアラインメントが行なわれている。基準パラメータベクトルr1およびr2は第1ワードに対応し、またr3およびr4は第2ワードに対応している。
【0021】
アラインメントの後、確認装置25は、話された発音の入力音声信号を、検索された音声モデルと、音声モデル比較器35において比較する。この比較は、それぞれの入力音声ベクトルと、そのマップされた基準ベクトルとの間で行なわれ、それによって両ベクトル間の相似度の量が決定される。比較器35は、図3に示されているように、入力音声信号と記憶装置20から検索されたモデルとの近似度に基づいて全確認発音に対して計算された、相似度点数を確定する。この近似度は、入力音声ベクトルとマップされた基準ベクトルとの間の相似度測定値310の和である。ベクトルの相似度は、統計的最大確度計算またはベクトル量子化を含むいくつかの方法によって決定されうる。もし発音点数によって、基準ベクトルと入力ベクトルとが成功判断基準に適合するように全発音にわたって十分な相似度を有することが示されれば、(すなわち、話された発音と音声モデルとが密接に一致すれば)、確認装置25は話者が真に請求されたアイデンティティと同一者であると判断する。ある装置においては、もし請求されたアイデンティティが確認された場合は、入力音声ベクトルはマップされた基準ベクトルと平均されて更新された音声基準モデルの集合を発生し、これによって記憶装置20内に保持されていたモデルが置換される。
【0022】
本発明の実施例においては、登録および確認は共に、入力音声パラメータベクトルと基準モデルパラメータベクトルとのHMMアライメントを用いる。しかし、それぞれのワードを作り上げている諸ベクトルは後に連結されて、発音内の全ワードを代表する単一ベクトルを形成する。これらの全ワードベクトルは、(時間的無相関1次変換TDTを用いて)ワード特有の直交化1次変換を受けて、全ワードにおいて統計的に相関のない全ワードベクトルを作り出す。得られた全ワードベクトルは、入力音声発音と記憶されている音声パラメータとの間の相似度の測度を決定するために用いられる。
【0023】
さらに詳述すると、図4aには、登録中に話者の入力音声から既知話者の音声特徴ベクトルを決定する実施例のブロック図が示されている。ブロック100から開始して、登録されるべき話者は既知の確認発音を行なう。この音声信号は線形予測係数(LPC)計算を受けて、線形予測係数の諸ベクトルを発生する。実施例においては、これらのベクトルは、10係数とエネルギーおよび音の高さを定める2要素とから成る。フレームパラメータベクトル計算器110は、非線形プロセスにおいてLPCベクトルを用い、エネルギー、スペクトル、差エネルギー、および差スペクトル音声パラメータを決定する。これらの広域音声パラメータは、広域特徴ベクトル変換器120により既知話者に対する音声特徴ベクトルに変換される。広域特徴ベクトル変換は、登録前に計算される所定の1次変換である。それは、多数の話者を代表するデータベースからベクトル統計量を決定することによって構成される。それらのベクトル統計量は、話者間の最適の識別を行なう無相関特徴を決定する1次変換を設計するための固有ベクトル解析に用いられる。
【0024】
上述の音声特徴ベクトルの形成は、音声特徴を作るための1つの方法に過ぎない。他にも、セプストラル(cepstral)係数の計算、または、パーコールまたはログ領域比係数のようなLPC係数から直接導かれる特徴ベクトルの使用、などの特徴計算方法も存在する。本発明は、どのようにも特定の音声ベクトル計算方法に限定されるべきではない。
【0025】
図4bには、音声特徴ベクトルから話者特有のワードレベル音声モデルを作ることにより、既知話者を登録する実施例のブロック図が示されている。特徴ベクトルアラインメントプロセッサ140は、広域特徴ベクトル変換器120から音声特徴ベクトルを受け、これらの特徴ベクトルを、確認発音のそれぞれのワードの音響的観察を表わす、以前に決定された話者にはよらない基準ワードモデル特徴ベクトル130とアラインメントさせる。基準ワードモデル特徴ベクトル130は、既知話者の登録入力音声内のそれぞれのワードの統計的表示であり、多数の話者を用いて以前に収集された音声データベースから作られる。実施例においては、アラインメントプロセッサ140は、Viterbiの探索HMMアルゴリズムを用いて音声モデルと基準モデルとのアラインメントを行ない、それによって入力音声特徴ベクトルと基準音声特徴ベクトル130との間のマッピングを行なう。前述のように、動的時間歪曲(DTW)のような他の周知のアルゴリズムも、アラインメントを行なうのに使用されうる。実施例においては、マッピングは、それぞれの基準ベクトル130に対して少なくとも1つの入力音声特徴ベクトルのマッピングが存在し、それぞれの入力音声ベクトルはただ1つのみの基準ベクトル130にマッピングされるように行なわれる。
【0026】
実施例においては、特徴平均回路150は、同じ基準ベクトル130に対してマップされる入力音声特徴ベクトルを平均することにより、それぞれのワードに対する登録話者の音声の特徴を表わす平均基準モデルベクトルを発生する。これにより、話者にはよらない基準ワードモデルベクトルに対応する、既知話者からのベクトルの集合が作られる。これによって、基準ベクトルと同数の平均入力音声ベクトルが得られることに注意すべきである。それぞれの基準ベクトルと最もよく一致するそれぞれの個々の入力ベクトルを選択することを含む、平均する以外の入力音声特徴ベクトルの他の組合せ手段も行なわれうる。
【0027】
この平均プロセスを、いくつかの登録発音を用いて繰返せば、それぞれのワードに対する平均基準モデルベクトルが、登録話者の音声の特徴をより良く表わすようにすることができる。それぞれのワードに対応する平均基準モデルベクトルは通常、後の確認処理のために装置内に記憶される。もし記憶容量をさらに減少させたい場合には、平均基準モデルベクトルの記憶の必要はない。
【0028】
ワードレベルベクトル変換器160は、それぞれのワードに対応する、特徴平均回路150から受けた平均入力音声ベクトルの全てをまず連結して、それぞれのワードに対する単一のワードレベル平均入力音声ベクトルを発生する。ワードレベルベクトル変換器160は、時間的無相関1次変換TDTとしても知られるワードレベル1次変換を用いてワードレベルベクトルを変換する。ワードレベル1次変換は、登録以前に、多数の話者を代表するデータベースからのワードレベルベクトル統計量を用いて計算され、また話者間の最適識別を行なうための無相関ワードレベル音声特徴を発生するように設計される。登録の最後の段階として、ワードレベル音声特徴記憶装置170は、ワードレベルベクトル変換器160から受けた、既知話者を識別するデータと、既知話者に対する全てのワードレベル音声特徴ベクトルとを記憶する。
【0029】
図5は、本発明の話者確認プロセッサの実施例のブロック図である。確認処理において、未知話者は、彼のアイデンティティが装置にすでに登録されている話者のそれであることの確認請求をする。確認装置の仕事は、これが真実であるか否かを決定することである。これを行なうために、確認装置は、話者を促して確認発音をさせる。その確認発音は収集され、確認プロセッサは、音声特徴ベクトル計算器210において音声特徴ベクトルを計算する。この計算は、図4aに関連して前述した所と同じ処理を含む。ワードレベル音声特徴計算器220は、音声特徴ベクトル計算器210からの音声特徴出力を、請求話者のワードリストと共に用いて、未知話者に対するワードレベル音声特徴ベクトルを形成する。
【0030】
ワードレベル音声特徴計算器220によって行なわれる処理は、ワードレベル音声特徴ベクトルが直接ワードレベル音声特徴記憶装置に記憶されないことを除外すれば、図4bに関連して前述された処理と同じである。その代りに、未知話者からのワードレベル音声特徴ベクトルは、ワードレベルベクトル採点器230へ入力される。このようにして、ワードレベル音声特徴計算器220は、HMMアラインメントを用いて、入力音声ベクトルを、請求されたアイデンティティを有する話者のための、それぞれのワードに対応する話者特有の基準モデルベクトルにマップする。図6に例が示されており、そこでは入力音声ベクトルv1ないしv8が、ワード1に対する基準ベクトルr1およびr2と、ワード2に対する基準ベクトルr3およびr4とにマップされている(段階350)。
【0031】
ワードレベルベクトル採点器230は、ワードレベル音声特徴ベクトル計算器220から来た未知話者のワードレベル音声特徴ベクトルと、ワードレベル音声特徴記憶装置170に以前に記憶されたそれらとの間の相似度点数を計算する。実施例においては、相似度点数は、未知話者のワードレベル音声特徴ベクトルと、請求されたアイデンティティのために記憶されているそれらとの間のユークリッド距離の、全てのワードについての和である。他にも、Mahalanobis距離などの、使用できる多くの相似度点数の測定がある。
【0032】
本発明の相似度測定は、従来技術とはかなり異なっている。それぞれの入力音声ベクトルとマップされた基準モデルベクトルとの間の相似度比較を行なうのではなく、それぞれの基準モデルベクトルに対してマップされた入力音声ベクトルが平均されて(図6、段階360)、それぞれの基準モデルベクトルに対応する平均入力音声ベクトルを発生する(a1−a4)。それぞれのワードを作り上げる平均入力音声ベクトルは、連結されてそれぞれのワードに対する単一の全ワード入力音声ベクトルを形成する。図6の例においては、a1およびa2は連結されてワード1に対する全ワードベクトルを形成し、a3およびa4は連結されてワード2に対する全ワードベクトルを形成する。
【0033】
図7には、全ワード入力音声ベクトル390,395および全ワード基準特徴ベクトル410,415の形成プロセスが示されている。それぞれの全ワード入力音声ベクトル370,375は、それぞれのワードに対し独特に決定された時間的無相関形変換(TDT)380と呼ばれる所定の1次変換によって変換され、それぞれ無相関形全ワード入力音声特徴ベクトル390,395を発生する。同様にして、それぞれのワードに対する全ワード基準音声ベクトル400,405(図6におけるr1−r4)は連結されて、それぞれのワードに対する単一の全ワード基準ベクトルを発生する。全ワード基準音声ベクトル400,405は、同じTDT380によって変換されて、それぞれ全ワード基準特徴ベクトル410,415を形成する。
【0034】
図8に示されているように、全ワード入力音声特徴ベクトル390,395および全ワード基準特徴ベクトル410,415は次に比較されて(段階420)、個々の全ワード特徴ベクトル相似度点数430が決定される。発音点数は、相似度点数430の和である。相似度を示すために統計的最大確度計算の使用が選択されているが、ベクトル量子化などの他の周知の方法も使用されうる。TDT380によって与えられる無相関により、全ワード特徴ベクトル410、415の多くの特徴が捨てられうる。本発明の実施例においては、ベクトル毎の全ワード特徴の約20%のみが利用された。
【0035】
図5に帰ると、ワードレベルベクトル採点器230から得られた相似度点数は、話者確認判断回路240へ入力され、この回路はその点数を所定スレッショルドと比較する。もし点数がスレッショルドより低ければ、装置はその未知話者が請求を行なった者であると判断する。一方、もし点数がスレッショルドより高ければ、装置はその未知話者にもう2回までの試行を許可した後、その未知話者のアイデンティティが請求されたアイデンティティと同一でないと判断する。
【0036】
実施例においては、もし話者確認判断回路240が未知話者のアイデンティティが請求されたアイデンティティと同一であることを決定すれば、特徴更新平均回路250は、ワードレベル音声特徴計算器220からの入力音声と、ワードレベル音声特徴記憶装置170からのそれらとの、ワードレベル音声特徴の加重平均を行なう。得られた平均ワードレベル音声特徴は、請求された話者のアイデンティティのためのワードレベル音声特徴記憶装置170内に保持されているそれらを置換する。これにより、請求した話者に対するワードレベル音声特徴の改善されたモデルが与えられる。
【0037】
本発明の実施例は、話者が発音するはずの用語範囲内のそれぞれのワードに対する、ワードに特有な時間的無相関形1次変換(TDT)を作り出す。それぞれのTDTのために決定されなくてはならないパラメータは多数存在するので、用語範囲内の諸ワードをそれぞれの話者が数回繰返す、多くの異なる話者の発音から成る音声データベースを用いると有益である。
【0038】
TDTを作るためには、用語範囲内のそれぞれのワードに対する全ワードベクトルの共分散マトリックスが、それぞれの話者に対しデータベース内で計算される。これらの全ワードベクトルは、図2に示されている確認プロセスと同様のプロセスによって形成される。HMMアラインメントを用い、それぞれの話者からの発音パラメータベクトルと、用語範囲内のそれぞれのワードを代表する所定の基準モデルベクトルとのアラインメントが行なわれる。そのアラインメントの後、それぞれの基準ベクトルにマップされた発音ベクトルは平均されて、各基準ベクトルに対して1つずつの平均発音ベクトルを形成する。それぞれのワードに対する平均発音ベクトルは、連結されて全ワードベクトルを形成する。用語範囲内のそれぞれのワードに対応する全ワードベクトルは、それぞれの話者およびそれぞれのワードに対する共分散マトリックスの計算に用いられる。全ての話者に対する、同じワードに対応した共分散マトリックスは、次にプールされる。これによって、全ての話者に対する1つの共分散マトリックスが、用語範囲内のそれぞれのワードに対して得られる。それぞれの共分散マトリックスは、それぞれのワードに対する固有ベクトルマトリックスを発生するための、固有ベクトルの直交化の計算において用いられる。さらに、(話者にかかわりなく)それぞれのワードに対する全ての全ワードベクトルは、広域ワードレベルベクトルの共分散を表わす、それぞれのワードに対する共分散マトリックスを決定するのに用いられる。用語範囲内のそれぞれのワードに対しこのようにして形成された2つの共分散マトリックスは、話者間の最適の識別を行なう相関のないワードレベル特徴を定める1次変換を決定するための、固有ベクトル識別計算に用いられる。固有ベクトルマトリックスは無相関形全ワード変換を表わし、TDTとして知られている。
【0039】
前述のように、本発明を用いると、話者特有のデータのための記憶容量は減少せしめられる。そうなる理由は、相似度計算を行なうのに必要な全ワード基準特徴のみが記憶されるからである。該特徴の約20%のみが相似度計算に用いられるので、全ての基準ベクトルを記憶するのに比較すれば約80%だけ記憶容量を減少させることができる。
【0040】
本発明は、ワードレベルベクトルの採点を行なって記憶されている話者による基準モデルとの相似度を決定することを含む時間的無相関方式を用いている。前述のようなアラインメントを行なって、次に話者によるモデルとの相似度に基くワードレベル点数を決定すれば、この基本概念を音声認識技術へ簡単に拡張できる。この点数は、認識をワードレベルで行なうために用いられうる。
【0041】
以上においては、本発明の特定の実施例を図示し、かつ説明してきたが、本技術分野に習熟した者ならば、さまざまな改変および別の実施例がありうることがわかるはずである。従って、本発明は、特許請求の範囲によってのみ限定されるものである。
【0042】
以上の説明に関して更に以下の項を開示する。
(1) 話者の音声確認用の自動式時間的無相関形装置であって、
特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、
該コレクタから受けた該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器と、
前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、
前記ワードレベル音声特徴計算器から受けた前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器と、
該ワードレベルベクトル採点器から受けた前記相似度点数に基づき前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する話者確認判断回路と、
を含む話者の音声確認用の自動式時間的無相関形装置。
【0043】
(2) 前記ワードレベル音声特徴計算器が、HMMアラインメントを用いて前記入力音声ベクトルを、前記請求されたアイデンティティを有する前記話者におけるそれぞれのワードに対応する話者特有の基準モデルベクトルにマップする、第1項記載の装置。
【0044】
(3) 前記ワードレベルベクトル採点器がさらに、単一ワードを作り上げる前記ベクトルを連結して前記音声入力内の全ワードを代表する単一ベクトルを形成する連結回路を含む、第1項記載の装置。
【0045】
(4) 前記ワードレベルベクトル採点器がさらに、前記音声入力内の全ワードにおいて統計的に無相関な全ワードベクトルを作るためのワード特有の直交化1次変換器を含む、第3項記載の装置。
【0046】
(5) 前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、第1項記載の装置。
【0047】
(6) 話者の音声確認用の自動式時間的無相関形方法であって、
特有のアイデンティティを請求する未知話者からの確認発音を収集する段階と、
該確認発音からワードレベル音声特徴ベクトルを確立する段階と、
以前に記憶された、前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを検索する段階と、
前記確立段階において発生せしめられた前記ワードレベル音声特徴ベクトルを、前記以前に記憶されたワードレベル音声特徴ベクトルによって採点する段階と、
前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する段階と、
を含む話者の音声確認用の自動式時間的無相関形方法。
【0048】
(7) 前記ワードレベル音声特徴ベクトル確立段階がさらに、HMMアラインメントを用いて前記入力音声ベクトルを、前記請求されたアイデンティティを有する前記話者におけるそれぞれのワードに対応する話者特有の基準モデルベクトルにマップする段階を含む、第6項記載の方法。
【0049】
(8) 前記採点段階がさらに、単一ワードを作り上げる前記ベクトルを連結して前記発音内の全ワードを代表する単一ベクトルを形成する段階を含む、第6項記載の方法。
【0050】
(9) 前記採点段階がさらに、前記発音内の全ワードにおいて統計的に無相関な全ワードベクトルを作るためのワード特有の直交化1次変換を行なう段階を含む、第8項記載の方法。
【0051】
(10) 前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、第6項記載の方法。
【0052】
(11) 話者特有の音声情報用として必要な記憶容量を減少せしめる時間的無相関形方法であって、
話された発音からワードレベル音声特徴ベクトルを確立する段階と、
該ワードレベル音声特徴ベクトルを採点する段階と、
事前選択された全ワード音声特徴ベクトルを捨てる段階と、
残余の全ワード音声特徴ベクトルを記憶する段階と、
を含む、話者特有の音声情報用として必要な記憶容量を減少せしめる時間的無相関形方法。
【0053】
(12) 前記採点段階がさらに、前記発音内の全ワードにおいて統計的に無相関な全ワード特徴ベクトルを作るためのワード特有の直交化1次変換を行なう段階を含む、第11項記載の方法。
【0054】
(13) 話者の音声確認用の自動式時間的無相関形装置および方法が示され、該装置は、特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタ210と、該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器220と、前記特有アイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置170と、未知話者から受けたワードレベル音声特徴ベクトルと該ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器230と、該相似度点数に基づき前記未知話者のアイデンティティが請求されたそれと同じであるか否かを決定する話者確認判断回路240と、を含む。ワードレベルベクトル採点器はさらに、連結回路と、ワード特有の直交化1次変換器(図4bの160、図7の380)とを含む。
他の装置および方法もまた開示されている。
【図面の簡単な説明】
【図1】一般的な話者確認装置の例のブロック図。
【図2】本発明によらないアラインメント処理を示すブロック図。
【図3】本発明によらない発音採点を示すブロック図。
【図4】本発明の実施例の登録プロセッサによって行なわれる諸段階のブロック図。
【図5】本発明の実施例の話者確認プロセッサのブロック図。
【図6】本発明の実施例によるアラインメント処理のブロック図。
【図7】本発明の実施例による全ワード変換を示すブロック図。
【図8】本発明の実施例による発音採点を示すブロック図。
【符号の説明】
160 ワードレベルベクトル変換器
170 ワードレベル音声特徴記憶装置
210 コレクタ
220 ワードレベル音声特徴計算器
230 ワードレベルベクトル採点器
240 話者確認判断回路
Claims (5)
- 話者の音声確認のための自動式時間的無相関変換装置であって、
特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、
前記コレクタで受けた音声入力を表わす複数の音声特徴ベクトルを生成するように動作できる音声特徴ベクトル計算器と、
前記複数の音声特徴ベクトルの複数の基準ワードモデルへのマッピングを生成するように動作でき、前記複数の基準ワードモデルは話されたワードのモデルに対応するモデルを表す、音声特徴ベクトルアライメントプロセッサと、
前記マッピングと前記音声特徴ベクトルを使うよう動作でき、前記音声入力内の各話されたワード毎に単一のワードレベルベクトルを生成するワードレベルベクトル生成器と、
時間的無相関変換を使うよう動作でき、前記ワードレベルベクトル生成器で生成された前記ワードレベルベクトルからワードレベル音声特徴ベクトルを発生して、統計的に無相関でかつ話者を分離するために最適化された全ワード特徴ベクトルを生成するワードレベル音声特徴計算器と、
前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、
前記ワードレベル音声特徴計算器から受けた前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベル特徴ベクトル採点器と、
該ワードレベル特徴ベクトル採点器から受けた前記相似度点数に基づき前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する話者確認判断回路と、
を含む話者の音声確認のための自動式時間的無相関変換装置。 - 前記音声特徴ベクトルアライメントプロセッサが、HMM音声認識アラインメントを用いて前記入力音声ベクトルを話者によらない基準HMMモデルへマッピングし、各HMM基準モデルは前記請求されたアイデンティティを有する前記話者によって話されたそれぞれのワードに対応する特許請求の範囲第1項記載の装置。
- 前記ワードレベルベクトル生成器がさらに、基準モデルにマッピングされる前記入力特徴ベクトルを平均化して、前記マッピングにおいて指定された各基準モデルに対応する平均化入力特徴ベクトルを生成する平均化回路を含む特許請求の範囲第1項記載の装置。
- 前記ワードレベルベクトル生成器がさらに、単一ワードを作り上げる各基準モデルにマッピングされる前記複数の平均化入力特徴ベクトルを連結して前記音声入力内の全ワードを代表する単一ワードレベルベクトルを形成する連結回路を含む、特許請求の範囲第3項記載の装置。
- 前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、特許請求の範囲第1項記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/662,086 US5167004A (en) | 1991-02-28 | 1991-02-28 | Temporal decorrelation method for robust speaker verification |
US662086 | 1991-02-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06175683A JPH06175683A (ja) | 1994-06-24 |
JP3664739B2 true JP3664739B2 (ja) | 2005-06-29 |
Family
ID=24656333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04361392A Expired - Fee Related JP3664739B2 (ja) | 1991-02-28 | 1992-02-28 | 話者の音声確認用の自動式時間的無相関変換装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5167004A (ja) |
EP (1) | EP0501631B1 (ja) |
JP (1) | JP3664739B2 (ja) |
DE (1) | DE69226796T2 (ja) |
Families Citing this family (139)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5339385A (en) * | 1992-07-22 | 1994-08-16 | Itt Corporation | Speaker verifier using nearest-neighbor distance measure |
US5677989A (en) * | 1993-04-30 | 1997-10-14 | Lucent Technologies Inc. | Speaker verification system and process |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US5937381A (en) * | 1996-04-10 | 1999-08-10 | Itt Defense, Inc. | System for voice verification of telephone transactions |
US5995927A (en) * | 1997-03-14 | 1999-11-30 | Lucent Technologies Inc. | Method for performing stochastic matching for use in speaker verification |
US6182037B1 (en) | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
CA2304747C (en) * | 1997-10-15 | 2007-08-14 | British Telecommunications Public Limited Company | Pattern recognition using multiple reference models |
JP3507686B2 (ja) * | 1998-01-16 | 2004-03-15 | 日本電気株式会社 | 音声認識機能を有する通信装置及び通信方法 |
EP1159737B9 (en) * | 1999-03-11 | 2004-11-03 | BRITISH TELECOMMUNICATIONS public limited company | Speaker recognition |
KR20010054622A (ko) * | 1999-12-07 | 2001-07-02 | 서평원 | 음성 인식 시스템의 음성 인식률 향상 방법 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6697779B1 (en) * | 2000-09-29 | 2004-02-24 | Apple Computer, Inc. | Combined dual spectral and temporal alignment method for user authentication by voice |
ATE335195T1 (de) * | 2001-05-10 | 2006-08-15 | Koninkl Philips Electronics Nv | Hintergrundlernen von sprecherstimmen |
US6778957B2 (en) * | 2001-08-21 | 2004-08-17 | International Business Machines Corporation | Method and apparatus for handset detection |
US6999928B2 (en) * | 2001-08-21 | 2006-02-14 | International Business Machines Corporation | Method and apparatus for speaker identification using cepstral covariance matrices and distance metrics |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
JP4714523B2 (ja) * | 2005-07-27 | 2011-06-29 | 富士通東芝モバイルコミュニケーションズ株式会社 | 話者照合装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
CN101051463B (zh) * | 2006-04-06 | 2012-07-11 | 株式会社东芝 | 说话人认证的验证方法及装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
CA2676380C (en) | 2007-01-23 | 2015-11-24 | Infoture, Inc. | System and method for detection and analysis of speech |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
CN111242146B (zh) * | 2018-11-09 | 2023-08-25 | 蔚来(安徽)控股有限公司 | 基于卷积神经网络的poi信息分类 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
JPS5944639B2 (ja) * | 1975-12-02 | 1984-10-31 | フジゼロツクス カブシキガイシヤ | 音声による異同認識方式における標準パタ−ン更新方法 |
US4032711A (en) * | 1975-12-31 | 1977-06-28 | Bell Telephone Laboratories, Incorporated | Speaker recognition arrangement |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
JPS6057475A (ja) * | 1983-09-07 | 1985-04-03 | Toshiba Corp | パタ−ン認識方式 |
US4827518A (en) * | 1987-08-06 | 1989-05-02 | Bell Communications Research, Inc. | Speaker verification system using integrated circuit cards |
US4949379A (en) * | 1989-05-05 | 1990-08-14 | Steve Cordell | Process for encrypted information transmission |
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
-
1991
- 1991-02-28 US US07/662,086 patent/US5167004A/en not_active Expired - Lifetime
-
1992
- 1992-02-12 DE DE69226796T patent/DE69226796T2/de not_active Expired - Fee Related
- 1992-02-12 EP EP92301156A patent/EP0501631B1/en not_active Expired - Lifetime
- 1992-02-28 JP JP04361392A patent/JP3664739B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0501631A2 (en) | 1992-09-02 |
EP0501631B1 (en) | 1998-09-02 |
JPH06175683A (ja) | 1994-06-24 |
US5167004A (en) | 1992-11-24 |
EP0501631A3 (en) | 1993-05-26 |
DE69226796T2 (de) | 1999-04-15 |
DE69226796D1 (de) | 1998-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3664739B2 (ja) | 話者の音声確認用の自動式時間的無相関変換装置 | |
US6278970B1 (en) | Speech transformation using log energy and orthogonal matrix | |
JP3630216B2 (ja) | 話者認証用確率的マッチング方法 | |
EP0686965B1 (en) | Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus | |
EP1159737B1 (en) | Speaker recognition | |
US5710864A (en) | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords | |
AU636335B2 (en) | Voice verification circuit for validating the identity of telephone calling card customers | |
CN101154380B (zh) | 说话人认证的注册及验证的方法和装置 | |
JPH1083194A (ja) | 話し手照合システムのための2段階群選択方法 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
EP0685835B1 (en) | Speech recognition based on HMMs | |
US7509257B2 (en) | Method and apparatus for adapting reference templates | |
US7003465B2 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
US5828998A (en) | Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
JP2009116278A (ja) | 話者認証の登録及び評価のための方法及び装置 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JP3075250B2 (ja) | 話者認識方法及び装置 | |
JPH07160287A (ja) | 標準パターン作成装置 | |
MXPA98007769A (en) | Processing of | |
Gordon et al. | Speech recognition strategy for stress-induced speech | |
JPH06266397A (ja) | 特徴パターン作成方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040526 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041111 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050330 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |