JP4369132B2 - 話者音声のバックグランド学習 - Google Patents
話者音声のバックグランド学習 Download PDFInfo
- Publication number
- JP4369132B2 JP4369132B2 JP2002588127A JP2002588127A JP4369132B2 JP 4369132 B2 JP4369132 B2 JP 4369132B2 JP 2002588127 A JP2002588127 A JP 2002588127A JP 2002588127 A JP2002588127 A JP 2002588127A JP 4369132 B2 JP4369132 B2 JP 4369132B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- model
- accuracy
- utterance
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 41
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 13
- 230000001419 dependent effect Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
- Amplifiers (AREA)
Description
− バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話話した話者についての事前知識無しで入力し、
− 前記訓練発話を所定の評価規準に基づいてブラインドでクラスタ化し、
− 前記クラスタの各々に関して、各々が一人の話者を表すような前記モデルのうちの対応する話者モデルを訓練する、
ことにより、バックグラウンドで発生される。
{x1,x2,…,xN}がP人の周囲の話者{S1,S2,…,SP}からのN個の音声発話の群を示すものとし、ここでN>Pであり、Pは事前には未知であり得るとする。発話のクラスタ化の目的は、1つのクラスタ内の全ての発話が好ましくは唯一人の話者からのものとなるような、発話のM個のクラスタの群への分割を生成することにある。理想的には、特定の話者からの全ての発話を単一のクラスタ内へグループ化することができるようにM=Pとなることである。この目的のために、発話の各々により伝達される話者の特徴の関連する態様を識別し、これにより、同一の話者の発話の間では小さな差を及び異なる話者の発話の間では大きな差を伴うような何らかの尺度を生成することが前提条件である。テキストとは独立した話者識別におけるガウス混合分類の成功に従って、本発明者は、発話から形成されるガウス混合モデル(GMM)が、話されるメッセージというよりはむしろ話者の素性に対応する音響空間を特徴付けるために使用することができるということを理解した。これを進めるために、音声発話は、先ず、デジタル波形表現から特徴ベクトルのストリームに変換され、これらの発話の各々はガウス混合密度によりモデル化される。このようなモデル化は良く知られており、ここでは詳細には説明しない。{λ1 U,λ2 U,…,λN U}がN個の発話から形成されたGMMのパラメータ群を示すものとする。次に、各発話xiの確度が、各モデルλj Uに対して、Lij=logp(xi|λj U),
1<=i,j<=Nとして計算される。実験は、確度が、発話及びテストモデルが同一の話者に関連する場合は一般的に大きくなり、それ以外では小さくなることを示した。即ち、
L1= [ L11L12L13]T = [ -1000 -1111 -3222]T
L2= [ L21L22L23]T = [ -5111 -4000 -8222]T
L3= [ L31L32L33]T = [ -900 -800 -300]T
もっとも、L12>L13及びL21>L23,‖L1−L2‖>‖L1−L3‖である。以下に詳述する音声発話をクラスタ化する好ましい方法は、これらの問題を克服する。
発話クラスタ化手順
D(Fi, Fj)< D(Fi, Fk), if S(xi) = S(xj), 及びS(xi) ≠ S(xk) (5)
を導出することができ、ここで、D(Fi, Fj)はFi及びFjに対する適切な距離尺度である。
F1= [ 1 1/2 1/3]T
F2= [ 1/2 1 1/3]T
F3= [ 1/3 1/2 1]T
となる。この例において、η=3である。この結果、|| F1- F2|| = 0.5, || F1 - F3 || = 0.89, 及び || F2- F3|| = 0.72となる。明らかに、y1及びy2は最も近い対である。
ステップ1:初期化。クラスタ数を2に設定する。例えばFiなるベクトルをクラスタC1の代表として任意に選択する。次いで、Fiから最も遠い(ユークリッド距離等の、選択された距離尺度に関して)ベクトルをクラスタC2の代表として選択する。
ステップ2:最も近い隣接者の検索。各ベクトルFjに関して、クラスタの各々における代表のうちのFjに最も近い1つを見付け、次いで、Fjを該最も近い代表に関連した対応するクラスタに割り当てる。
ステップ3:分割。全クラスタに関して、現在属しているクラスタの代表から最も遠いベクトルを見付ける。この場合、該ベクトルは新しいクラスタの代表となる。k=k+1に設定する。
ステップ4:k=Mとなるまで、ステップ2及びステップ3を反復する。
音声データベース
本発明によるシステムをテストするために使用されたデータベースは、100名の話者(男性50名、女性50名)により発生された5000の発話からなるものであった。各話者は50の発話を行い、3つのセッションで記録された。これらの発話は、2秒から5秒の持続時間の範囲であった。100名の全話者が顧客として務めた、即ちP=Q=100であった。該データベースは更に3つの部分集合に分割され、各々をDB−1、DB−2及びDB−3として示した。第1の部分集合DB−1は話者当たり20の発話からなり(大凡、80秒の全持続時間に相当する)、オフライン収集データとして作用した。第2部分集合DB−2は、DB−1における音声断片に含まれなかった別個の10の発話からなるものであった。DB−2内の発話の各々は、顧客のエンロールデータとして使用された。第3部分集合DB−3は残りの20の発話からなり、話者ID実験用のテスト集合として作用した。全ての発話は比較的静かな環境において記録され、16ビットの精度で22.05kHzでサンプリングされた。次いで、21のMFCC(零次係数は使用されない)を含む音声特徴が、10msのフレームずれを伴う20msのハミング窓フレーム毎に抽出された。
当該話者識別(ID)システムの有効性は、オフライン収集された発話が如何に良好にクラスタ化されるかに重大に依存するので、話者ID実験を実施する前に、当該発話クラスタ化方法の効率を評価する必要がある。分割の品質は、クラスタの純度により測定された。該純度とは、1つのクラスタ内の全発話が同一の話者からのものである程度を記述するような品質である。クラスタMに関しては、純度は、
先ず、従来の管理された方法で動作する基本システムが性能比較のために評価された。ここでは、システム性能を異なる量の訓練データに関して調査するために、2組の実験が実施された。第1組の実験では、特定の話者用のモデルが、DB−1における20発話/話者を真の話者属性と共に使用して訓練された。その後、当該システムをテストするためにDB−3における20発話/話者が使用された。次いで、話者IDの精度が、全てのテスト発話に対して正しく識別された発話の百分率として計算された。また、話者ID精度は、2から32まで変化される話者モデル当たりの異なる数のガウス混合密度に関しても測定された。第2組の実験においては、各話者モデルはDB−2から選択された1つの発話を用いて訓練された。
オフラインの音声発話に関するブラインドクラスタ化が、上述したアルゴリズムに従って実行される。
当該システムが一定期間活性状態であった間に(例えば、話者から独立した音声制御を使用する又はバックグラウンドで話者データを単に収集する)、当該システムはユーザの発話を自動的に収集し、上述したバックグラウンド学習方法を用いて話者モデルを収集している。
伝統的な音声制御システムにおいては、個人化された対話型の機能は音声制御機能とは良好には統合されていない。通常、ユーザは音声により装置を制御することができるが、当該個人は同時に他の事を行うために忙しい場合がある。例えば、テレビジョンは音声コマンド“オン”を使用して動作させることができる。従来の音声制御システムには、装置をオンさせる際に、テレビジョン装置を個人のデフォルト番組又は他の個人的設定に自動的に同調させる機能は存在しない。効果的なユーザインターフェースのためには、話者が自動的に識別されることが望ましい。本発明による話者識別技術は、この目的のために効果的に使用することができ、かくして、音声制御システムようの新たな機能を可能にする。例えば、父親デービッドがTVをオンした場合、チャンネルは、彼のプロファイルによれば好みのチャンネルであるような“スポーツ”にデフォルト設定される。2歳の子供トムがTVを声によりオンした場合、ディズニーチャンネルが自動的に選択される。このような機能は、装置を一層ユーザ指向にさせる。特に、非常に小さな子供に対しては、装置を補助無しで制御するのを可能にさせる。好ましくは、親が子供のプロファイルに影響を与えることができるようにする。話者識別技術を組み込むことにより、音声制御システムは異なるユーザに対して異なる態様で応答することができる。組み合わされた音声/話者認識システムのブロック図が図6に示されている。音声入力610は、音声コマンドを認識するように最適化し得る音声認識器620と、話者認識器630とに送られる。これら認識器は、好ましくは、並列に動作するものとするが、順次動作も許容することができる。これら認識器は、出力640として、認識された内容(例えば、音声コマンド)と当該話者の素性とを発生する。本発明によれば、音声コマンドを認識すると共に話者を識別するために、同一の発話が使用される。次いで、認識されたコマンドは話者とは独立した態様で実行される。
Claims (11)
- 話者を自動的に識別する方法であって、該方法が、
前記話者からテスト発話を入力するステップと、
前記テスト発話に対して複数の話者モデルのうちの最も確実らしい話者モデルを決定するステップと、
前記最も確実らしい話者モデルに関連する話者を前記テスト発話の話者として識別するステップと、
により話者を識別するような方法において、該方法が、
バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話を話した話者についての事前知識無しで入力するステップと、
前記訓練発話を所定の評価規準に基づいてブラインドでクラスタ化するステップと、
前記クラスタの各々に関して、各々が一人の話者を表すような前記モデルのうちの対応する話者モデルを訓練するステップと、
によりバックグラウンドにおいて前記複数の話者モデルを発生するステップを含んでいることを特徴とする方法。 - 請求項1に記載の方法において、前記訓練発話xi(i<N)を前記所定の評価規準に基づいてブラインドでクラスタ化するステップが、
前記訓練発話xiの各々を対応するモデルλiによりモデル化するステップと、
前記訓練発話xiの各々に関して対応する確度ベクトルLiを計算するステップであって、各ベクトル要素Lij(1≦j≦N)が前記訓練発話Xiの前記モデルλjのうちの対応するモデルに対する確度を表すようなステップと、
前記訓練発話xiの各々に関して対応する順位付けベクトルFiを決定するステップであって、該順位付けベクトルFiの各要素Fijには、前記確度ベクトルLiの他の要素と比較された対応する確度Lijの順位付けを表す順位値が、より大きな確度値Lijがより大きな順位値Fijにより反映されるように割り当てられるようなステップと、
前記訓練発話xiを、FiとFjとの間の距離尺度の極小が訓練発話xi及びxjが同一の話者から発することを示すという評価規準に基づいてクラスタ化するステップと、
を含んでいることを特徴とする方法。 - 請求項2に記載の方法において、前記順位付けは、前記確度ベクトルLiの要素Lijのη個の最小側の確度値が、前記順位付けブロックFiの対応する要素Fijの別個の値により表され、前記確度ベクトルLiの残りのN−η個の要素Lijが前記順位付けベクトルFiの対応する要素Fijの同一の所定の順位値により表され、ここで、ηはクラスタ当たりの訓練発話の期待数を表し、前記所定の順位値が前記η個の別個の順位値のいずれよりも小さいことを特徴とする方法。
- 請求項1に記載の方法において、該方法が、
話者からエンロール発話を入力するステップと、
該エンロール発話に対して、複数の話者モデルのうちの最も確かそうなモデルを決定するステップと、
前記話者の識別情報を入力するステップと、
該識別情報を、前記最も確かそうな話者モデルに関連させて記憶するステップと、
を有していることを特徴とする方法。 - 請求項4に記載の方法において、該方法が、
前記最も確かそうな話者モデルの確度が所定の閾より高いかを検証するステップと、
該確度が前記所定の閾より低い場合に、前記話者からの更なる発話を要求するステップであって、前記確度が前記所定の閾より高くなるまで反復的に、
前記更なる発話を入力し、
前記最も確かそうな話者モデルを前記更なる発話で適応化し、
該適応化された話者モデルの確度を決定する、
ようなステップと、
を含んでいることを特徴とする方法。 - 請求項1に記載の方法において、前記訓練発話を入力するステップ、前記発話をブラインドでクラスタ化するステップ及び前記話者モデルを訓練するステップが、所定レベルの確度が達成されるまで反復して実行されることを特徴とする方法。
- 請求項6に記載の方法において、前記所定のレベルの確度の達成に応答して、前記話者は該話者を識別する情報を提供するように自動的に要求され、次いで、前記識別する情報を入力し、該識別する情報を前記最も確かそうな話者モデルと関連させて記憶することを特徴とする方法。
- 請求項1に記載の方法において、該方法が、前記話者を識別したことに応答して、家電装置と対話するために個人のプロファイルを自動的に取り込むステップを含んでいることを特徴とする方法。
- 請求項1に記載の方法において、該方法が、前記話者を識別するために使用される前記テスト発話を音声コマンドとして認識するステップと、該認識された音声コマンドを話者に応じた態様で実行するステップとを含んでいることを特徴とする方法。
- プロセッサが請求項1に記載の方法を実行するようにさせるコンピュータプログラム。
- 話者を自動的に識別するシステムであって、該システムが、
話者を識別する話者識別器であって、該識別器が、
前記話者からテスト発話を入力し、
該テスト発話に関して複数の話者モデルのうちの最も確かそうな話者モデルを決定し、
該最も確かそうな話者モデルに関連する話者を前記テスト発話の話者として識別する、
ことにより話者を識別する話者識別器と、
前記複数の話者モデルを発生する話者モデル発生器と、
を有するようなシステムにおいて、前記話者モデル発生器は、
バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話を行う話者についての事前の知識無しに入力し、
これら訓練発話を、所定の評価規準に基づいてブラインドでクラスタ化し、
これらクラスタの各々に関して、各々が話者を表すような話者モデルのうちの対応する話者モデルを訓練する、
ことにより前記複数の話者モデルをバックグラウンドで発生することを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01201720 | 2001-05-10 | ||
PCT/IB2002/001495 WO2002090915A1 (en) | 2001-05-10 | 2002-04-25 | Background learning of speaker voices |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004528595A JP2004528595A (ja) | 2004-09-16 |
JP4369132B2 true JP4369132B2 (ja) | 2009-11-18 |
Family
ID=8180281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002588127A Expired - Fee Related JP4369132B2 (ja) | 2001-05-10 | 2002-04-25 | 話者音声のバックグランド学習 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7171360B2 (ja) |
EP (1) | EP1395803B1 (ja) |
JP (1) | JP4369132B2 (ja) |
CN (1) | CN1236423C (ja) |
AT (1) | ATE335195T1 (ja) |
DE (1) | DE60213595T2 (ja) |
WO (1) | WO2002090915A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104490570A (zh) * | 2014-12-31 | 2015-04-08 | 桂林电子科技大学 | 一种面向盲人的嵌入式声纹识别与发现系统 |
Families Citing this family (177)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20030233231A1 (en) * | 2002-06-13 | 2003-12-18 | International Business Machines Corporation | Apparatus and method for managing privacy using voice recognition and caller identification |
US20040024585A1 (en) * | 2002-07-03 | 2004-02-05 | Amit Srivastava | Linguistic segmentation of speech |
US20040006628A1 (en) * | 2002-07-03 | 2004-01-08 | Scott Shepard | Systems and methods for providing real-time alerting |
US20040138894A1 (en) * | 2002-10-17 | 2004-07-15 | Daniel Kiecza | Speech transcription tool for efficient speech transcription |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
US8005677B2 (en) | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
US8229744B2 (en) * | 2003-08-26 | 2012-07-24 | Nuance Communications, Inc. | Class detection scheme and time mediated averaging of class dependent models |
KR100612840B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
US20050273333A1 (en) * | 2004-06-02 | 2005-12-08 | Philippe Morin | Speaker verification for security systems with mixed mode machine-human authentication |
US7720012B1 (en) * | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
US20080208578A1 (en) * | 2004-09-23 | 2008-08-28 | Koninklijke Philips Electronics, N.V. | Robust Speaker-Dependent Speech Recognition System |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
JP2007057714A (ja) * | 2005-08-23 | 2007-03-08 | Nec Corp | 話者識別器更新データを生成する装置、方法、プログラムおよび話者識別器を更新する装置、方法、プログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070129943A1 (en) * | 2005-12-06 | 2007-06-07 | Microsoft Corporation | Speech recognition using adaptation and prior knowledge |
WO2007111169A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR100826875B1 (ko) * | 2006-09-08 | 2008-05-06 | 한국전자통신연구원 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
US20080147692A1 (en) * | 2006-12-14 | 2008-06-19 | General Motors Corporation | Method for manipulating the contents of an xml-based message |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
EP2048656B1 (en) * | 2007-10-10 | 2010-02-10 | Harman/Becker Automotive Systems GmbH | Speaker recognition |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
CN101256769B (zh) * | 2008-03-21 | 2011-06-15 | 深圳市汉音科技有限公司 | 语音识别装置及其方法 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8340974B2 (en) * | 2008-12-30 | 2012-12-25 | Motorola Mobility Llc | Device, system and method for providing targeted advertisements and content based on user speech data |
EP2216775B1 (en) * | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
US8209174B2 (en) * | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9305553B2 (en) * | 2010-04-28 | 2016-04-05 | William S. Meisel | Speech recognition accuracy improvement through speaker categories |
US8606579B2 (en) | 2010-05-24 | 2013-12-10 | Microsoft Corporation | Voice print identification for identifying speakers |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9159324B2 (en) * | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US20130006633A1 (en) * | 2011-07-01 | 2013-01-03 | Qualcomm Incorporated | Learning speech models for mobile device users |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9251792B2 (en) | 2012-06-15 | 2016-02-02 | Sri International | Multi-sample conversational voice verification |
US8510238B1 (en) | 2012-06-22 | 2013-08-13 | Google, Inc. | Method to predict session duration on mobile devices using native machine learning |
US8886576B1 (en) | 2012-06-22 | 2014-11-11 | Google Inc. | Automatic label suggestions for albums based on machine learning |
US8429103B1 (en) | 2012-06-22 | 2013-04-23 | Google Inc. | Native machine learning service for user adaptation on a mobile platform |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10438591B1 (en) | 2012-10-30 | 2019-10-08 | Google Llc | Hotword-based speaker recognition |
US20140136204A1 (en) * | 2012-11-13 | 2014-05-15 | GM Global Technology Operations LLC | Methods and systems for speech systems |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9293140B2 (en) * | 2013-03-15 | 2016-03-22 | Broadcom Corporation | Speaker-identification-assisted speech processing systems and methods |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR102014665B1 (ko) | 2013-03-15 | 2019-08-26 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
CN103219008B (zh) * | 2013-05-16 | 2016-04-20 | 清华大学 | 基于基状态矢量加权的短语音说话人识别方法 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10304458B1 (en) | 2014-03-06 | 2019-05-28 | Board of Trustees of the University of Alabama and the University of Alabama in Huntsville | Systems and methods for transcribing videos using speaker identification |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106570443A (zh) * | 2015-10-09 | 2017-04-19 | 芋头科技(杭州)有限公司 | 一种快速识别方法及家庭智能机器人 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
JP6671020B2 (ja) * | 2016-06-23 | 2020-03-25 | パナソニックIpマネジメント株式会社 | 対話行為推定方法、対話行為推定装置及びプログラム |
JP6910002B2 (ja) * | 2016-06-23 | 2021-07-28 | パナソニックIpマネジメント株式会社 | 対話行為推定方法、対話行為推定装置及びプログラム |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) * | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN107978311B (zh) * | 2017-11-24 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
KR102598057B1 (ko) * | 2018-09-10 | 2023-11-06 | 삼성전자주식회사 | 음소기반 화자모델 적응 방법 및 장치 |
CN109378003B (zh) * | 2018-11-02 | 2021-10-01 | 科大讯飞股份有限公司 | 一种声纹模型训练的方法和系统 |
KR102655628B1 (ko) | 2018-11-22 | 2024-04-09 | 삼성전자주식회사 | 발화의 음성 데이터를 처리하는 방법 및 장치 |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US5862519A (en) * | 1996-04-02 | 1999-01-19 | T-Netix, Inc. | Blind clustering of data with application to speech processing systems |
EP0954854A4 (en) * | 1996-11-22 | 2000-07-19 | T Netix Inc | PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION |
CN1291324A (zh) * | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
EP1023718B1 (en) * | 1997-10-15 | 2003-04-16 | BRITISH TELECOMMUNICATIONS public limited company | Pattern recognition using multiple reference models |
CN1302427A (zh) * | 1997-11-03 | 2001-07-04 | T-内提克斯公司 | 用于说话者认证的模型自适应系统和方法 |
US6233555B1 (en) * | 1997-11-25 | 2001-05-15 | At&T Corporation | Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models |
JP2965537B2 (ja) * | 1997-12-10 | 1999-10-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者クラスタリング処理装置及び音声認識装置 |
US6073096A (en) * | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
US6324512B1 (en) * | 1999-08-26 | 2001-11-27 | Matsushita Electric Industrial Co., Ltd. | System and method for allowing family members to access TV contents and program media recorder over telephone or internet |
US6415257B1 (en) * | 1999-08-26 | 2002-07-02 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
US6618702B1 (en) * | 2002-06-14 | 2003-09-09 | Mary Antoinette Kohler | Method of and device for phone-based speaker recognition |
US7574359B2 (en) * | 2004-10-01 | 2009-08-11 | Microsoft Corporation | Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models |
-
2002
- 2002-04-25 WO PCT/IB2002/001495 patent/WO2002090915A1/en active IP Right Grant
- 2002-04-25 EP EP02769177A patent/EP1395803B1/en not_active Expired - Lifetime
- 2002-04-25 CN CNB028015983A patent/CN1236423C/zh not_active Expired - Lifetime
- 2002-04-25 AT AT02769177T patent/ATE335195T1/de not_active IP Right Cessation
- 2002-04-25 JP JP2002588127A patent/JP4369132B2/ja not_active Expired - Fee Related
- 2002-04-25 DE DE60213595T patent/DE60213595T2/de not_active Expired - Lifetime
- 2002-05-07 US US10/140,499 patent/US7171360B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104490570A (zh) * | 2014-12-31 | 2015-04-08 | 桂林电子科技大学 | 一种面向盲人的嵌入式声纹识别与发现系统 |
Also Published As
Publication number | Publication date |
---|---|
EP1395803B1 (en) | 2006-08-02 |
WO2002090915A1 (en) | 2002-11-14 |
EP1395803A1 (en) | 2004-03-10 |
CN1236423C (zh) | 2006-01-11 |
DE60213595T2 (de) | 2007-08-09 |
JP2004528595A (ja) | 2004-09-16 |
ATE335195T1 (de) | 2006-08-15 |
US7171360B2 (en) | 2007-01-30 |
CN1462366A (zh) | 2003-12-17 |
US20030088414A1 (en) | 2003-05-08 |
DE60213595D1 (de) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4369132B2 (ja) | 話者音声のバックグランド学習 | |
US11580960B2 (en) | Generating input alternatives | |
US10878815B2 (en) | Processing spoken commands to control distributed audio outputs | |
US9318103B2 (en) | System and method for recognizing a user voice command in noisy environment | |
US9898250B1 (en) | Controlling distributed audio outputs to enable voice output | |
US20180211670A1 (en) | Acoustic signature building for a speaker from multiple sessions | |
US11854573B2 (en) | Alternate response generation | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
JP2024510798A (ja) | ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証 | |
CN117321678A (zh) | 用于说话者标识的注意力评分功能 | |
EP1256934B1 (en) | Method for adapting speaker-identification data using application speech | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
Segărceanu et al. | SPEECH RECOGNITION SYSTEM | |
SUCIU et al. | SPEECH RECOGNITION SYSTEM. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040607 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090728 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090827 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120904 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130904 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |