JPH06175683A - 話者の音声確認用の自動式時間的無相関形装置および方法 - Google Patents
話者の音声確認用の自動式時間的無相関形装置および方法Info
- Publication number
- JPH06175683A JPH06175683A JP4043613A JP4361392A JPH06175683A JP H06175683 A JPH06175683 A JP H06175683A JP 4043613 A JP4043613 A JP 4043613A JP 4361392 A JP4361392 A JP 4361392A JP H06175683 A JPH06175683 A JP H06175683A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speaker
- vector
- voice
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 215
- 238000012790 confirmation Methods 0.000 claims description 31
- 238000012795 verification Methods 0.000 claims description 20
- 230000002123 temporal effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000009466 transformation Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
置および方法を提供する。 【構成】 本装置は、特有のアイデンティティを請求す
る未知話者からの音声入力を受けるコレクタ(210)
と、該音声入力からワードレベル音声特徴ベクトルを発
生するワードレベル音声特徴計算器(220)と、前記
特有アイデンティティを有する話者に属することが知ら
れたワードレベル音声特徴ベクトルを記憶するワードレ
ベル音声特徴記憶装置(170)と、未知話者から受け
たワードレベル音声特徴ベクトルと該記憶装置から受け
たそれらとの間の相似度点数を計算するワードレベルベ
クトル採点器(230)と、該相似度点数に基づき前記
未知話者のアイデンティティが請求されたそれと同じで
あるか否かを決定する話者確認判断回路(240)と、
を含む。ワードレベルベクトル採点器はさらに、連結回
路と、ワード特有の直交化1次変換器(図4bの(16
0)、図7の(380))とを含む。
Description
関し、特に時間的無相関形(temporal dec
orrelation)の、強力な話者の確認装置およ
び方法に関する。
は、実際の検査での使用の前に、音声登録を必要とす
る。この登録中においては、確認されるべきそれぞれの
話者に特有の音声モデルが作られる。これは通常、ある
きまった話者から生じることがわかっているいくつかの
発音から音声データを収集し、次にそのデータを処理し
てその話者に特有のモデルを形成することによって行な
われる。これら特有のモデルは、これらのモデルの話者
を識別する情報と共に記憶される。
は、まず彼等のアイデンティティを請求する。装置は話
者が発音することを要求し、その発音は次に、請求され
たアイデンティティと共に記憶されているその話者の音
声モデルと比較される。もし発音と音声モデルとが密接
に一致すれば、その話者は請求されたアイデンティティ
と同一者であることが宣言される。
ムと呼ばれる、その中で音響信号が認めうるほどに変化
しないものと仮定される、短い時間内に、発音から音声
パラメータのベクトルが測定される。これらのパラメー
タベクトルは、直交化のための1次変換、または何らか
の他の変換を受けることによって、音声特徴ベクトルと
しても知られている、統計的に相関のない音声パラメー
タベクトルとされることが多い。これによって得られた
パラメータまたは特徴ベクトルは、個人の音声のモデル
を作るために使用されうる。
人物の音声の全フレームからの音声ベクトルをいっしょ
にグループ化し、それらのベクトルを用いて全発音にわ
たっての平均の統計的性質を決定している。時々、これ
らの装置は、送受器および通話路が異なることによる音
声ベクトルのひずみの平均の統計的性質の評価を行な
う。この平均の統計的性質は、後に、話者確認のために
使用される。
lignment)と呼ばれる過程において同じ音声音
に対応する音声ベクトルをグループ化する。動的時間歪
曲(Dynamic Time Warping(DT
W))または隠れマルコフモデリング(Hidden
Markov Modeling(HMM))は、アラ
インメントの周知の方法の1つである。装置は、それぞ
れのグループに別個に対応する音声ベクトルの統計的性
質を評価する。音声ベクトルの諸グループの統計的性質
の収集物が得られると、それは確認されるべき話者のた
めの基準モデルを形成する。確認装置はしばしば、統計
的性質のその収集物を、個々のワード、音節、または音
を代表する多重モデルに分別する。
トルレベルにおける話者のデータの統計的性質を利用し
ていることに注意するのは重要である。従って、これら
の装置は、音声ベクトルのそれぞれのグループに関連す
る統計的性質の独立性を暗黙のうちに仮定している。
つは、音声信号の避けられないひずみまたは変化であ
る。ひずんだ音声信号は、ひずんだ音声ベクトルを生じ
る。現在の確認装置によって行なわれているように、ベ
クトルが個々に考察されるものとすれば、音声ベクトル
のひずみのために、音声が仮定された真の話者から来た
ものであるか、または詐欺師から来たものであるかを決
定するのは困難である。これにより、話者確認の性能は
劣化する。
ースへのアクセスを制御しようとする電気通信上の応用
においては、異なる電話の送受器および通話路の使用に
より、人の音声はしばしばひずみを受け、変化せしめら
れる。銀行の自動金銭出納器のような他の応用において
は、異なるマイクロホンの使用によって音声信号の変化
が起こる。現在の話者確認装置においては、一時に1つ
のみの電話送受器またはマイクロホンしか使用されない
ので、音声信号の変化はその特定の送受器またはマイク
ロホンが使用される場合に限って固定されたものとなる
のに注意することは重要である。従って、これらの問題
のいずれか、または全てを克服する改良が現在所望され
ている。
諸問題にかんがみ、本発明は、異なる電話送受器、電話
通話路、またはマイクロホンの使用による音声信号のひ
ずみまたは変化を補償する、強力な話者の確認装置およ
び方法を提供することを目的とする。
能を改善する装置および方法を提供することである。
音声情報のために必要な記憶容量を減少せしめる装置お
よび方法を提供することである。
の諸目的は、本発明の実施例に従い、話者のアイデンテ
ィティを確認するために全ワードにおいて測定された音
声特徴間の十分に最適な相関を利用した、話者の声を確
認する時間的無相関形装置および方法を提供することに
よって達成される。本発明は、発音内の個々のワードの
諸音を代表する音声ベクトルの諸グループ間の相関を利
用する。これらの相関は全ワードにわたるものであるか
ら、全発音中に一定を保つひずみとは比較的に無関係な
全ワードにわたる統計的特徴を見出すことが可能であ
る。本発明において実施される、これらの統計的特徴を
用いた無相関形処理は、発音中一貫して行なわれ、改善
された話者確認の性能を実現する。
間的無相関形装置および方法は、特有のアイデンティテ
ィを請求する未知話者からの音声入力を受けるコレクタ
と、該音声入力からワードレベル音声特徴ベクトルを発
生するワードレベル音声特徴計算器と、前記特有アイデ
ンティティを有する話者に属することが知られたワード
レベル音声特徴ベクトルを記憶するワードレベル音声特
徴記憶装置と、未知話者から受けたワードレベル音声特
徴ベクトルと該ワードレベル音声特徴記憶装置から受け
たそれらとの間の相似度点数を計算するワードレベルベ
クトル採点器と、該相似度点数に基づき前記未知話者の
アイデンティティが請求されたものと同じであるか否か
を決定する話者確認判断回路と、を含む。ワードレベル
ベクトル採点器はさらに、連結回路と、ワード特有の直
交化1次変換器と、を含む。
また、特定の話者の音声を表わすために記憶されなくて
はならないパラメータの数を減少させ、それによって話
者特有の音声情報のために必要な記憶容量を減少せしめ
る。この装置および方法は、話された発音からワードレ
ベル音声特徴ベクトルを確立する段階と、該ワードレベ
ル音声特徴ベクトルを採点する段階と、事前選択された
全ワード音声特徴ベクトルを捨てる段階と、残余の全ワ
ード音声特徴ベクトルを記憶する段階と、を含む。この
記憶段階はさらに、話された発音内の全ワードにわたっ
て統計的に相関のない全ワード特徴ベクトルを作り出す
ためのワード特有直交化1次変換を行なう段階を含む。
および諸利点は、本技術分野に習熟した者にとっては、
添付図面と共に与えられる実施例についての以下の詳細
な説明から明らかになるはずである。異なる諸図内の同
じ番号および記号は、特に断わりのない限り同じ部品を
指示している。
示す図1をまず考察することによって最もよく理解され
る。前述のように、話者音声の確認は、実際の確認を行
なう前に音声の登録を要する。既知の話者の登録を行な
うためには、既知の話者は、登録装置5において、マイ
クロホン、電話送受器、通話路、などにより音声コレク
タ10に対して発音を行なう。音声コレクタ10は、そ
れらの発音から音声パラメータベクトルを収集して、そ
れらのベクトルをモデリングユニット15へ供給する。
モデリングユニット15は、これらの音声パラメータベ
クトルに基づき、その既知話者に特有なモデルを形成す
る。これらの話者特有のモデルは、そのモデルの話者を
識別する情報と共に記憶装置20内に記憶される。
の何回かの繰返しが収集され、音声の同じ部分に対応す
るパラメータベクトルがアラインメント(ベクトルのグ
ループ形成)を受ける。得られたベクトルの諸グループ
は、次にモデリングユニット15によって平均され、そ
の話者特有の基準音声パラメータベクトルの良好な推定
またはモデルを与える。得られたパラメータベクトルの
集合は、確認されるべき話者のための基準モデルを形成
する。これらのパラメータベクトルは、しばしば分割さ
れて、個々のワード、音節、または音などの音声の諸部
分を代表するいくつかの別個のモデルを形成する。
に、該話者が請求するアイデンティティを確認装置25
の入力部分30へ入力する。これは、電話のキーパッド
を経ての(数字入力による)識別キー操作、記録情報を
有するクレジットカードの使用、識別用フレーズの音声
認識、または他の任意の適切な手段、などのさまざまな
手段によって行なわれる。確認装置25は、この請求さ
れたアイデンティティを用いて、記憶装置20から対応
する音声モデルを検索する。確認装置25がいったん請
求されたアイデンティティに対する音声モデルを検索す
れば、確認装置25は、話者がある発音をなすことを要
求するか、またはアイデンティティの請求のために行な
われた発音を使用することができる。
装置25は、それぞれの話者の確認発音のテキストの知
識を有する。話者から発音が収集された後、それは登録
と同様にして入力音声ベクトルのシーケンスに変換され
る。これらの入力音声ベクトルは、次にDTW,HM
M,または他のアルゴリズムを用いての、請求されたア
イデンティティを有する話者に対応する基準モデルベク
トルとのアラインメントの結果、それぞれの入力音声ベ
クトルと基準モデル(パラメータ)ベクトルとの間の対
応関係を生じる。この形式のアラインメントの例が図2
に示されており、そこでは入力音声ベクトルv1−v8
と基準モデル(パラメータ)ベクトルr1−r4とのア
ラインメントが行なわれている。基準パラメータベクト
ルr1およびr2は第1ワードに対応し、またr3およ
びr4は第2ワードに対応している。
された発音の入力音声信号を、検索された音声モデル
と、音声モデル比較器35において比較する。この比較
は、それぞれの入力音声ベクトルと、そのマップされた
基準ベクトルとの間で行なわれ、それによって両ベクト
ル間の相似度の量が決定される。比較器35は、図3に
示されているように、入力音声信号と記憶装置20から
検索されたモデルとの近似度に基づいて全確認発音に対
して計算された、相似度点数を確定する。この近似度
は、入力音声ベクトルとマップされた基準ベクトルとの
間の相似度測定値310の和である。ベクトルの相似度
は、統計的最大確度計算またはベクトル量子化を含むい
くつかの方法によって決定されうる。もし発音点数によ
って、基準ベクトルと入力ベクトルとが成功判断基準に
適合するように全発音にわたって十分な相似度を有する
ことが示されれば、(すなわち、話された発音と音声モ
デルとが密接に一致すれば)、確認装置25は話者が真
に請求されたアイデンティティと同一者であると判断す
る。ある装置においては、もし請求されたアイデンティ
ティが確認された場合は、入力音声ベクトルはマップさ
れた基準ベクトルと平均されて更新された音声基準モデ
ルの集合を発生し、これによって記憶装置20内に保持
されていたモデルが置換される。
認は共に、入力音声パラメータベクトルと基準モデルパ
ラメータベクトルとのHMMアラインメントを用いる。
しかし、それぞれのワードを作りあげている諸ベクトル
は後に連結されて、発音内の全ワードを代表する単一ベ
クトルを形成する。これらの全ワードベクトルは、ワー
ド特有の直交化1次変換を受けて、全ワードにおいて統
計的に相関のない全ワードベクトルを作り出す。得られ
た全ワードベクトルは、入力音声発音と記憶されている
音声パラメータとの間の相似度の測度を決定するために
用いられる。
話者の入力音声から既知話者の音声特徴ベクトルを決定
する実施例のブロック図が示されている。ブロック10
0から開始して、登録されるべき話者は既知の確認発音
を行なう。この音声信号は線形予測係数(LPC)計算
を受けて、線形予測係数の諸ベクトルを発生する。実施
例においては、これらのベクトルは、10係数とエネル
ギーおよび音の高さを定める2要素とから成る。フレー
ムパラメータベクトル計算器110は、非線形プロセス
においてLPCベクトルを用い、エネルギー、スペクト
ル、差エネルギー、および差スペクトル音声パラメータ
を決定する。これらの広域音声パラメータは、広域特徴
ベクトル変換器120により既知話者に対する音声特徴
ベクトルに変換される。広域特徴ベクトル変換は、登録
前に計算される所定の1次変換である。それは、多数の
話者を代表するデータベースからベクトル統計量を決定
することによって構成される。それらのベクトル統計量
は、話者間の最適の識別を行なう無相関特徴を決定する
1次変換を設計するための固有ベクトル解析に用いられ
る。
徴を作るための1つの方法に過ぎない。他にも、セプス
トラル(cepstral)係数の計算、または、パー
コールまたはログ領域比係数のようなLPC係数から直
接導かれる特徴ベクトルの使用、などの特徴計算方法も
存在する。本発明は、どのようにも特定の音声ベクトル
計算方法に限定されるべきではない。
有のワードレベル音声モデルを作ることにより、既知話
者を登録する実施例のブロック図が示されている。特徴
ベクトルアラインメントプロセッサ140は、広域特徴
ベクトル変換器120から音声特徴ベクトルを受け、こ
れらの特徴ベクトルを、確認発音のそれぞれのワードの
音響的観察を表わす、以前に決定された話者にはよらな
い基準ワードモデル特徴ベクトル130とアラインメン
トさせる。基準ワードモデル特徴ベクトル130は、既
知話者の登録入力音声内のそれぞれのワードの統計的表
示であり、多数の話者を用いて以前に収集された音声デ
ータベースから作られる。実施例においては、アライン
メントプロセッサ140は、Viterbiの探索HM
Mアルゴリズムを用いて音声モデルと基準モデルとのア
ラインメントを行ない、それによって入力音声特徴ベク
トルと基準音声特徴ベクトル130との間のマッピング
を行なう。前述のように、動的時間歪曲(DTW)のよ
うな他の周知のアルゴリズムも、アラインメントを行な
うのに使用されうる。実施例においては、マッピング
は、それぞれの基準ベクトル130に対して少なくとも
1つの入力音声特徴ベクトルのマッピングが存在し、そ
れぞれの入力音声ベクトルはただ1つのみの基準ベクト
ル130にマッピングされるように行なわれる。
は、同じ基準ベクトル130に対してマップされる入力
音声特徴ベクトルを平均することにより、それぞれのワ
ードに対する登録話者の音声の特徴を表わす平均基準モ
デルベクトルを発生する。これにより、話者にはよらな
い基準ワードモデルベクトルに対応する、既知話者から
のベクトルの集合が作られる。これによって、基準ベク
トルと同数の平均入力音声ベクトルが得られることに注
意すべきである。それぞれの基準ベクトルと最もよく一
致するそれぞれの個々の入力ベクトルを選択することを
含む、平均する以外の入力音声特徴ベクトルの他の組合
せ手段も行なわれうる。
を用いて繰返せば、それぞれのワードに対する平均基準
モデルベクトルが、登録話者の音声の特徴をより良く表
わすようにすることができる。それぞれのワードに対応
する平均基準モデルベクトルは通常、後の確認処理のた
めに装置内に記憶される。もし記憶容量をさらに減少さ
せたい場合には、平均基準モデルベクトルの記憶の必要
はない。
れぞれのワードに対応する、特徴平均回路150から受
けた平均入力音声ベクトルの全てをまず連結して、それ
ぞれのワードに対する単一のワードレベル平均入力音声
ベクトルを発生する。ワードレベルベクトル変換器16
0は、ワードレベル1次変換を用いてワードレベルベク
トルを変換する。ワードレベル1次変換は、登録以前
に、多数の話者を代表するデータベースからのワードレ
ベルベクトル統計量を用いて計算され、また話者間の最
適識別を行なうための無相関ワードレベル音声特徴を発
生するように設計される。登録の最後の段階として、ワ
ードレベル音声特徴記憶装置170は、ワードレベルベ
クトル変換器160から受けた、既知話者を識別するデ
ータと、既知話者に対する全てのワードレベル音声特徴
ベクトルとを記憶する。
施例のブロック図である。確認処理において、未知話者
は、彼のアイデンティティが装置にすでに登録されてい
る話者のそれであることの確認請求をする。確認装置の
仕事は、これが真実であるか否かを決定することであ
る。これを行なうために、確認装置は、話者を促して確
認発音をさせる。その確認発音は収集され、確認プロセ
ッサは、音声特徴ベクトル計算器210において音声特
徴ベクトルを計算する。この計算は、図4aに関連して
前述した所と同じ処理を含む。ワードレベル音声特徴計
算器220は、音声特徴ベクトル計算器210からの音
声特徴出力を、請求話者のワードリストと共に用いて、
未知話者に対するワードレベル音声特徴ベクトルを形成
する。
て行なわれる処理は、ワードレベル音声特徴ベクトルが
直接ワードレベル音声特徴記憶装置に記憶されないこと
を除外すれば、図4bに関連して前述された処理と同じ
である。その代りに、未知話者からのワードレベル音声
特徴ベクトルは、ワードレベルベクトル採点器230へ
入力される。このようにして、ワードレベル音声特徴計
算器220は、HMMアラインメントを用いて、入力音
声ベクトルを、請求されたアイデンティティを有する話
者のための、それぞれのワードに対応する話者特有の基
準モデルベクトルにマップする。図6に例が示されてお
り、そこでは入力音声ベクトルv1ないしv8が、ワー
ド1に対する基準ベクトルr1およびr2と、ワード2
に対する基準ベクトルr3およびr4とにマップされて
いる(段階350)。
ードレベル音声特徴ベクトル計算器220から来た未知
話者のワードレベル音声特徴ベクトルと、ワードレベル
音声特徴記憶装置170に以前に記憶されたそれらとの
間の相似度点数を計算する。実施例においては、相似度
点数は、未知話者のワードレベル音声特徴ベクトルと、
請求されたアイデンティティのために記憶されているそ
れらとの間のユークリッド距離の、全てのワードについ
ての和である。他にも、Mahalanobis距離な
どの、使用できる多くの相似度点数の測定がある。
り異なっている。それぞれの入力音声ベクトルとマップ
された基準モデルベクトルとの間の相似度比較を行なう
のではなく、それぞれの基準モデルベクトルに対してマ
ップされた入力音声ベクトルが平均されて(図6、段階
360)、それぞれの基準モデルベクトルに対応する平
均入力音声ベクトルを発生する(a1−a4)。それぞ
れのワードを作り上げる平均入力音声ベクトルは、連結
されてそれぞれのワードに対する単一の全ワード入力音
声ベクトルを形成する。図6の例においては、a1およ
びa2は連結されてワード1に対する全ワードベクトル
を形成し、a3およびa4は連結されてワード2に対す
る全ワードベクトルを形成する。
0,395および全ワード基準特徴ベクトル410,4
15の形成プロセスが示されている。それぞれの全ワー
ド入力音声ベクトル370,375は、それぞれのワー
ドに対し独特に決定された時間的無相関形変換(TD
T)380と呼ばれる所定の1次変換によって変換さ
れ、それぞれ無相関形全ワード入力音声特徴ベクトル3
90,395を発生する。同様にして、それぞれのワー
ドに対する全ワード基準音声ベクトル400,405
(図6におけるr1−r4)は連結されて、それぞれの
ワードに対する単一の全ワード基準ベクトルを発生す
る。全ワード基準音声ベクトル400,405は、同じ
TDT380によって変換されて、それぞれ全ワード基
準特徴ベクトル410,415を形成する。
音声特徴ベクトル390,395および全ワード基準特
徴ベクトル410,415は次に比較されて(段階42
0)、個々の全ワード特徴ベクトル相似度点数420が
決定される。発音点数は、相似度点数420の和であ
る。相似度を示すために統計的最大確度計算の使用が選
択されているが、ベクトル量子化などの他の周知の方法
も使用されうる。TDT380によって与えられる無相
関により、全ワード特徴ベクトル410,415の多く
の特徴が捨てられうる。本発明の実施例においては、ベ
クトル毎の全ワード特徴の役20%のみが利用された。
器230から得られた相似度点数は、話者確認判断回路
240へ入力され、この回路はその点数を所定スレッシ
ョルドと比較する。もし点数がスレッショルドより低け
れば、装置はその未知話者が請求を行なった者であると
判断する。一方、もし点数がスレッショルドより高けれ
ば、装置はその未知話者にもう2回までの試行を許可し
た後、その未知話者のアイデンティティが請求されたア
イデンティティと同一でないと判断する。
240が未知話者のアイデンティティが請求されたアイ
デンティティと同一であることを決定すれば、特徴更新
平均回路250は、ワードレベル音声特徴計算器230
からの入力音声と、ワードレベル音声特徴記憶装置17
0からのそれらとの、ワードレベル音声特徴の加重平均
を行なう。得られた平均ワードレベル音声特徴は、請求
された話者のアイデンティティのためのワードレベル音
声特徴記憶装置170内に保持されているそれらを置換
する。これにより、請求した話者に対するワードレベル
音声特徴の改善されたモデルが与えられる。
用語範囲内のそれぞれのワードに対する、ワードに特有
な時間的無相関形1次変換(TDT)を作り出す。それ
ぞれのTDTのために決定されなくてはならないパラメ
ータは多数存在するので、用語範囲内の諸ワードをそれ
ぞれの話者が数回繰返す、多くの異なる話者の発音から
成る音声データベースを用いると有益である。
ぞれのワードに対する全ワードベクトルの共分散マトリ
ックスが、それぞれの話者に対しデータベース内で計算
される。これらの全ワードベクトルは、図2に示されて
いる確認プロセスと同様のプロセスによって形成され
る。HMMアラインメントを用い、それぞれの話者から
の発音パラメータベクトルと、用語範囲内のそれぞれの
ワードを代表する所定の基準モデルベクトルとのアライ
ンメントが行なわれる。そのアラインメントの後、それ
ぞれの基準ベクトルにマップされた発音ベクトルは平均
されて、各基準ベクトルに対して1つずつの平均発音ベ
クトルを形成する。それぞれのワードに対する平均発音
ベクトルは、連結されて全ワードベクトルを形成する。
用語範囲内のそれぞれのワードに対応する全ワードベク
トルは、それぞれの話者およびそれぞれのワードに対す
る共分散マトリックスの計算に用いられる。全ての話者
に対する、同じワードに対応した共分散マトリックス
は、次にプールされる。これによって、全ての話者に対
する1つの共分散マトリックスが、用語範囲内のそれぞ
れのワードに対して得られる。それぞれの共分散マトリ
ックスは、それぞれのワードに対する固有ベクトルマト
リックスを発生するための、固有ベクトルの直交化の計
算において用いられる。さらに、(話者にかかわりな
く)それぞれのワードに対する全ての全ワードベクトル
は、広域ワードレベルベクトルの共分散を表わす、それ
ぞれのワードに対する共分散マトリックスを決定するの
に用いられる。用語範囲内のそれぞれのワードに対しこ
のようにして形成された2つの共分散マトリックスは、
話者間の最適の識別を行なう相関のないワードレベル特
徴を定める1次変換を決定するための、固有ベクトル識
別計算に用いられる。無相関形全ワード変換を表わす固
有ベクトルマトリックスは、TDTとして知られてい
る。
有のデータのための記憶容量は減少せしめられる。そう
なる理由は、相似度計算を行なうのに必要な全ワード基
準特徴のみが記憶されるからである。該特徴の約20%
のみが相似度計算に用いられるので、全ての基準ベクト
ルを記憶するのに比較すれば約80%だけ記憶容量を減
少させることができる。
行なって記憶されている話者による基準モデルとの相似
度を決定することを含む時間的無相関方式を用いてい
る。前述のようなアラインメントを行なって、次に話者
によるモデルとの相似度に基くワードレベル点数を決定
すれば、この基本概念を音声認識技術へ簡単に拡張でき
る。この点数は、認識をワードレベルで行なうために用
いられうる。
図示し、かつ説明してきたが、本技術分野に習熟した者
ならば、さまざまな改変および別の実施例がありうるこ
とがわかるはずである。従って、本発明は、特許請求の
範囲によってのみ限定されるものである。
る。 (1) 話者の音声確認用の自動式時間的無相関形装置
であって、特有のアイデンティティを請求する未知話者
からの音声入力を受けるコレクタと、該コレクタから受
けた該音声入力からワードレベル音声特徴ベクトルを発
生するワードレベル音声特徴計算器と、前記特有のアイ
デンティティを有する話者に属することが知られたワー
ドレベル音声特徴ベクトルを記憶するワードレベル音声
特徴記憶装置と、前記ワードレベル音声特徴計算器から
受けた前記ワードレベル音声特徴ベクトルと、前記ワー
ドレベル音声特徴記憶装置から受けたそれらとの間の相
似度点数を計算するワードレベルベクトル採点器と、該
ワードレベルベクトル採点器から受けた前記相似度点数
に基づき前記未知話者が前記特有アイデンティティを有
する前記話者であるか否かを決定する話者確認判断回路
と、を含む話者の音声確認用の自動式時間的無相関形装
置。
が、HMMアラインメントを用いて前記入力音声ベクト
ルを、前記請求されたアイデンティティを有する前記話
者におけるそれぞれのワードに対応する話者特有の基準
モデルベクトルにマップする、第1項記載の装置。
がさらに、単一ワードを作り上げる前記ベクトルを連結
して前記音声入力内の全ワードを代表する単一ベクトル
を形成する連結回路を含む、第1項記載の装置。
がさらに、前記音声入力内の全ワードにおいて統計的に
無相関な全ワードベクトルを作るためのワード特有の直
交化1次変換器を含む、第3項記載の装置。
ベル音声特徴計算器からの前記ワードレベル音声特徴ベ
クトルと、前記ワードレベル音声特徴記憶装置内に記憶
されたそれらとの間のユークリッド距離の、全てのワー
ドについての和である、第1項記載の装置。
無相関形方法であって、特有のアイデンティティを請求
する未知話者からの確認発音を収集する段階と、該確認
発音からワードレベル音声特徴ベクトルを確立する段階
と、以前に記憶された、前記特有のアイデンティティを
有する話者に属することが知られたワードレベル音声特
徴ベクトルを検索する段階と、前記確立段階において発
生せしめられた前記ワードレベル音声特徴ベクトルを、
前記以前に記憶されたワードレベル音声特徴ベクトルに
よって採点する段階と、前記未知話者が前記特有アイデ
ンティティを有する前記話者であるか否かを決定する段
階と、を含む話者の音声確認用の自動式時間的無相関形
方法。
ル確立段階がさらに、HMMアラインメントを用いて前
記入力音声ベクトルを、前記請求されたアイデンティテ
ィを有する前記話者におけるそれぞれのワードに対応す
る話者特有の基準モデルベクトルにマップする段階を含
む、第6項記載の方法。
ドを作り上げる前記ベクトルを連結して前記発音内の全
ワードを代表する単一ベクトルを形成する段階を含む、
第6項記載の方法。
内の全ワードにおいて統計的に無相関な全ワードベクト
ルを作るためのワード特有の直交化1次変換を行なう段
階を含む、第8項記載の方法。
レベル音声特徴計算器からの前記ワードレベル音声特徴
ベクトルと、前記ワードレベル音声特徴記憶装置内に記
憶されたそれらとの間のユークリッド距離の、全てのワ
ードについての和である、第6項記載の方法。
要な記憶容量を減少せしめる時間的無相関形方法であっ
て、話された発音からワードレベル音声特徴ベクトルを
確立する段階と、該ワードレベル音声特徴ベクトルを採
点する段階と、事前選択された全ワード音声特徴ベクト
ルを捨てる段階と、残余の全ワード音声特徴ベクトルを
記憶する段階と、を含む、話者特有の音声情報用として
必要な記憶容量を減少せしめる時間的無相関形方法。
音内の全ワードにおいて統計的に無相関な全ワード特徴
ベクトルを作るためのワード特有の直交化1次変換を行
なう段階を含む、第11項記載の方法。
的無相関形装置および方法が示され、該装置は、特有の
アイデンティティを請求する未知話者からの音声入力を
受けるコレクタ210と、該音声入力からワードレベル
音声特徴ベクトルを発生するワードレベル音声特徴計算
器220と、前記特有アイデンティティを有する話者に
属することが知られたワードレベル音声特徴ベクトルを
記憶するワードレベル音声特徴記憶装置170と、未知
話者から受けたワードレベル音声特徴ベクトルと該ワー
ドレベル音声特徴記憶装置から受けたそれらとの間の相
似度点数を計算するワードレベルベクトル採点器230
と、該相似度点数に基づき前記未知話者のアイデンティ
ティが請求されたそれと同じであるか否かを決定する話
者確認判断回路240と、を含む。ワードレベルベクト
ル採点器はさらに、連結回路と、ワード特有の直交化1
次変換器(図4bの160、図7の380)とを含む。
他の装置および方法もまた開示されている。
ロック図。
われる諸段階のブロック図。
ク図。
ロック図。
ック図。
図。
Claims (2)
- 【請求項1】 話者の音声確認用の自動式時間的無相関
形装置であって、 特有のアイデンティティを請求する未知話者からの音声
入力を受けるコレクタと、 該コレクタから受けた該音声入力からワードレベル音声
特徴ベクトルを発生するワードレベル音声特徴計算器
と、 前記特有のアイデンティティを有する話者に属すること
が知られたワードレベル音声特徴ベクトルを記憶するワ
ードレベル音声特徴記憶装置と、 前記ワードレベル音声特徴計算器から受けた前記ワード
レベル音声特徴ベクトルと、前記ワードレベル音声特徴
記憶装置から受けたそれらとの間の相似度点数を計算す
るワードレベルベクトル採点器と、 該ワードレベルベクトル採点器から受けた前記相似度点
数に基づき前記未知話者が前記特有アイデンティティを
有する前記話者であるか否かを決定する話者確認判断回
路と、を含む話者の音声確認用の自動式時間的無相関形
装置。 - 【請求項2】 話者の音声確認用の自動式時間的無相関
形方法であって、 特有のアイデンティティを請求する未知話者からの確認
発音を収集する段階と、 該確認発音からワードレベル音声特徴ベクトルを確立す
る段階と、 以前に記憶された、前記特有のアイデンティティを有す
る話者に属することが知られたワードレベル音声特徴ベ
クトルを検索する段階と、 前記確立段階において発生せしめられた前記ワードレベ
ル音声特徴ベクトルを、前記以前に記憶されたワードレ
ベル音声特徴ベクトルによって採点する段階と、 前記未知話者が前記特有のアイデンティティを有する前
記話者であるか否かを決定する段階と、を含む話者の音
声確認用の自動式時間的無相関形方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/662,086 US5167004A (en) | 1991-02-28 | 1991-02-28 | Temporal decorrelation method for robust speaker verification |
US662086 | 1991-02-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06175683A true JPH06175683A (ja) | 1994-06-24 |
JP3664739B2 JP3664739B2 (ja) | 2005-06-29 |
Family
ID=24656333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04361392A Expired - Fee Related JP3664739B2 (ja) | 1991-02-28 | 1992-02-28 | 話者の音声確認用の自動式時間的無相関変換装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5167004A (ja) |
EP (1) | EP0501631B1 (ja) |
JP (1) | JP3664739B2 (ja) |
DE (1) | DE69226796T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007033898A (ja) * | 2005-07-27 | 2007-02-08 | Toshiba Corp | 話者照合装置 |
Families Citing this family (138)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5339385A (en) * | 1992-07-22 | 1994-08-16 | Itt Corporation | Speaker verifier using nearest-neighbor distance measure |
US5677989A (en) * | 1993-04-30 | 1997-10-14 | Lucent Technologies Inc. | Speaker verification system and process |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US5937381A (en) * | 1996-04-10 | 1999-08-10 | Itt Defense, Inc. | System for voice verification of telephone transactions |
US5995927A (en) * | 1997-03-14 | 1999-11-30 | Lucent Technologies Inc. | Method for performing stochastic matching for use in speaker verification |
US6182037B1 (en) | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
CA2304747C (en) * | 1997-10-15 | 2007-08-14 | British Telecommunications Public Limited Company | Pattern recognition using multiple reference models |
JP3507686B2 (ja) * | 1998-01-16 | 2004-03-15 | 日本電気株式会社 | 音声認識機能を有する通信装置及び通信方法 |
EP1159737B9 (en) * | 1999-03-11 | 2004-11-03 | BRITISH TELECOMMUNICATIONS public limited company | Speaker recognition |
KR20010054622A (ko) * | 1999-12-07 | 2001-07-02 | 서평원 | 음성 인식 시스템의 음성 인식률 향상 방법 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6697779B1 (en) * | 2000-09-29 | 2004-02-24 | Apple Computer, Inc. | Combined dual spectral and temporal alignment method for user authentication by voice |
ATE335195T1 (de) * | 2001-05-10 | 2006-08-15 | Koninkl Philips Electronics Nv | Hintergrundlernen von sprecherstimmen |
US6778957B2 (en) * | 2001-08-21 | 2004-08-17 | International Business Machines Corporation | Method and apparatus for handset detection |
US6999928B2 (en) * | 2001-08-21 | 2006-02-14 | International Business Machines Corporation | Method and apparatus for speaker identification using cepstral covariance matrices and distance metrics |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
CN101051463B (zh) * | 2006-04-06 | 2012-07-11 | 株式会社东芝 | 说话人认证的验证方法及装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
CA2676380C (en) | 2007-01-23 | 2015-11-24 | Infoture, Inc. | System and method for detection and analysis of speech |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
CN111242146B (zh) * | 2018-11-09 | 2023-08-25 | 蔚来(安徽)控股有限公司 | 基于卷积神经网络的poi信息分类 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
JPS5944639B2 (ja) * | 1975-12-02 | 1984-10-31 | フジゼロツクス カブシキガイシヤ | 音声による異同認識方式における標準パタ−ン更新方法 |
US4032711A (en) * | 1975-12-31 | 1977-06-28 | Bell Telephone Laboratories, Incorporated | Speaker recognition arrangement |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
JPS6057475A (ja) * | 1983-09-07 | 1985-04-03 | Toshiba Corp | パタ−ン認識方式 |
US4827518A (en) * | 1987-08-06 | 1989-05-02 | Bell Communications Research, Inc. | Speaker verification system using integrated circuit cards |
US4949379A (en) * | 1989-05-05 | 1990-08-14 | Steve Cordell | Process for encrypted information transmission |
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
-
1991
- 1991-02-28 US US07/662,086 patent/US5167004A/en not_active Expired - Lifetime
-
1992
- 1992-02-12 DE DE69226796T patent/DE69226796T2/de not_active Expired - Fee Related
- 1992-02-12 EP EP92301156A patent/EP0501631B1/en not_active Expired - Lifetime
- 1992-02-28 JP JP04361392A patent/JP3664739B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007033898A (ja) * | 2005-07-27 | 2007-02-08 | Toshiba Corp | 話者照合装置 |
JP4714523B2 (ja) * | 2005-07-27 | 2011-06-29 | 富士通東芝モバイルコミュニケーションズ株式会社 | 話者照合装置 |
Also Published As
Publication number | Publication date |
---|---|
EP0501631A2 (en) | 1992-09-02 |
JP3664739B2 (ja) | 2005-06-29 |
EP0501631B1 (en) | 1998-09-02 |
US5167004A (en) | 1992-11-24 |
EP0501631A3 (en) | 1993-05-26 |
DE69226796T2 (de) | 1999-04-15 |
DE69226796D1 (de) | 1998-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3664739B2 (ja) | 話者の音声確認用の自動式時間的無相関変換装置 | |
JP4218982B2 (ja) | 音声処理 | |
JP3630216B2 (ja) | 話者認証用確率的マッチング方法 | |
US5710864A (en) | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords | |
US5278942A (en) | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data | |
EP1526504B1 (en) | Multiple models integration for multi-environment speech recognition | |
AU636335B2 (en) | Voice verification circuit for validating the identity of telephone calling card customers | |
US6038528A (en) | Robust speech processing with affine transform replicated data | |
JP3390632B2 (ja) | 話し手照合システムのための2段階群選択方法 | |
EP1159737B1 (en) | Speaker recognition | |
US20090171660A1 (en) | Method and apparatus for verification of speaker authentification and system for speaker authentication | |
NZ316124A (en) | Pattern recognition for speech recognising noise signals signatures | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
US6868381B1 (en) | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition | |
EP0685835B1 (en) | Speech recognition based on HMMs | |
US7509257B2 (en) | Method and apparatus for adapting reference templates | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
US7003465B2 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
JP2009116278A (ja) | 話者認証の登録及び評価のための方法及び装置 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JP3075250B2 (ja) | 話者認識方法及び装置 | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
Rose et al. | A user-configurable system for voice label recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040526 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041111 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050330 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |