JP2005227758A - 音声特性に基づく電話発信者の自動識別 - Google Patents
音声特性に基づく電話発信者の自動識別 Download PDFInfo
- Publication number
- JP2005227758A JP2005227758A JP2005005572A JP2005005572A JP2005227758A JP 2005227758 A JP2005227758 A JP 2005227758A JP 2005005572 A JP2005005572 A JP 2005005572A JP 2005005572 A JP2005005572 A JP 2005005572A JP 2005227758 A JP2005227758 A JP 2005227758A
- Authority
- JP
- Japan
- Prior art keywords
- caller
- acoustic
- model
- acoustic model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 84
- 238000012552 review Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims 3
- 230000001133 acceleration Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 42
- 239000013598 vector Substances 0.000 description 32
- 238000000605 extraction Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005055 memory storage Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- Sub-Exchange Stations And Push- Button Telephones (AREA)
Abstract
【解決手段】 音声入力が発信者から受け取られ、その音声入力の特性が、一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデルに適用され、複数のそれぞれの音響スコアを得る。発信者は、複数の音響スコアに基づいて、以前識別された発信者の1人として、または新しい発信者として識別される。発信者が新しい発信者として識別された場合、その新しい発信者について新しい音響モデルが生成され、この音響モデルは、その新しい発信者固有である。
【選択図】 図7
Description
22 メモリ
23 システムバス
27 ハードディスクドライブ
28 磁気ディスクドライブ
29 取外し式記憶装置
30 光ディスクドライブ
31 光ディスク
32 インターフェース
33 インターフェース
34 インターフェース
35 オペレーティングシステム
36 アプリケーションプログラム
37 プログラムモジュール
38 プログラムデータ
40 キーボード
42 ポインティングデバイス
43 マイクロフォン
45 スピーカ
46 シリアルポートインターフェース
47 モニタ
48 ビデオアダプタ
49 遠隔コンピュータ
50 メモリ
53 ネットワークアダプタ
54 モデム
102 レシーバ
105 語彙集
107 音声認識器
108 トレーナ
110 言語モデル
111 音響モデル
113 呼ルータ
114 入力促進信号応答
118 トレーニングテキスト
Claims (38)
- 発信者から着信者への呼における前記発信者を識別する方法であって、
(a)音声入力を前記発信者から受け取るステップと、
(b)一般音響モデルと、任意の以前識別された発信者の音響モデル群とを含む複数の音響モデルに、前記音声入力の特性を適用して複数のそれぞれの音響スコアを得るステップと、
(c)前記複数の音響スコアに基づいて、前記以前識別された発信者のうちの1人か、または新しい発信者と前記発信者を識別するステップと、
(d)前記ステップ(c)で前記発信者が新しい発信者と識別された場合、前記新しい発信者について、前記新しい発信者固有の新しい音響モデルを生成するステップと
を備えたことを特徴とする方法。 - 前記識別するステップ(c)は、
(c)(1)前記それぞれの音響モデルが前記一般音響モデルより良い音響スコアの場合、前記発信者を前記以前識別された発信者の1人と識別するステップと、
(c)(2)前記一般音響モデルが前記複数の以前識別された発信者の音響モデル群より良い音響スコアの場合、前記発信者を新しい発信者と識別するステップと
を含むことを特徴とする請求項1に記載の方法。 - 前記ステップ(a)は、前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップを含み、
前記複数の音響モデルの各々は、前記ステップ(a)で区切られた前記話声単位のモデルを含み、
前記ステップ(b)は、前記複数の音響モデルについて前記ステップ(a)で区切られた前記話声単位の一連のモデルに、前記音声入力の特性を適用するステップを含むことを特徴とする請求項1に記載の方法。 - 前記複数の音響モデルの各々は、話声単位のモデルを含み、
(e)前記ステップ(c)で前記発信者が前記以前識別された発信者の1人と識別された場合、前記音声入力の前記特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用の前記それぞれの音響モデルを更新するステップ
をさらに備えたことを特徴とする請求項1に記載の方法。 - 前記ステップ(e)は、単に一つの発話に基づいて、前記音声入力内に含まれる話声単位のモデルを修正するステップを含むことを特徴とする請求項4に記載の方法。
- (e)前記新しい音響モデルが前記ステップ(b)における前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップ
をさらに備えたことを特徴とする請求項1に記載の方法。 - 前記一般音響モデルは、複数の話声単位の発信者に依存しないモデルを含み、前記ステップ(d)は、
(d)(1)前記一般音響モデルの発信者に依存しないモデルから前記新しい音響モデルを生成するステップと、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位の発信者に依存しないモデルを修正するステップとを含むことを特徴とする請求項1に記載の方法。 - 前記ステップ(a)ないし(c)が、前記発信者が識別されつつあることに対して前記呼の間に前記発信者の注意を喚起することなしに実行されることを特徴とする請求項1に記載の方法。
- 前記ステップ(b)は、前記音声入力をサブセクションに分割するステップと、各サブセクションの前記特性を前記複数の音響モデルに適用し、各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得るステップを含み、
前記ステップ(c)は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別するステップと、サブセクションのすべてについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の1人と識別するステップとを含むことを特徴とする請求項1に記載の方法。 - (e)前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
(f)前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
(g)他の前記認識済み話声単位列の確率に対して最高の確率を有する認識済み話声単位列を選択するステップと、
(h)少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別するステップと
をさらに備えたことを特徴とする請求項1に記載の方法。 - (i)前記ステップ(h)で識別された前記発信者が、前記ステップ(c)で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ(c)で識別された前記発信者の音響モデル、および前記ステップ(h)で識別された前記発信者の発信者固有言語モデルのうち少なくとも1つを手動見直しするようにユーザ入力促進信号を生成するステップをさらに備えたことを特徴とする請求項10に記載の方法。
- (e)前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするため所定の種類の音響モデルにフラグを立てるステップをさらに備えたことを特徴とする請求項1に記載の方法。
- 前記ステップ(e)は、手動検査するために前記所定の種類の音響モデルにフラグを立てるステップを含むことを特徴とする請求項12に記載の方法。
- 発信者から着信者への呼における前記発信者を識別するシステムであって、
音声入力を前記発信者から受け取るためのレシーバと、
一般音響モデルと、任意の以前識別された発信者の音響モデル群とを有する複数の音響モデルを含む音響モデル貯蔵器と、
複数のそれぞれの音響スコアを得るため、前記複数の音響モデルに前記音声入力の特性を適用する手段と、
前記複数の音響スコアに基づいて、前記以前識別された発信者の1人か、または新しい発信者と前記発信者を識別する手段と、
前記一般音響モデルが前記複数の以前識別された発信者の前記音響モデル群より良い音響スコアの場合、前記新しい発信者について新しい音響モデルを生成する音響モデル生成手段と
を備えたことを特徴とするシステム。 - 前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切る音声認識器をさらに備え、
前記複数の音響モデルの各々は、前記音声認識器によって認識された前記話声単位のモデルを含み、
前記適用する手段は、前記複数の音響モデルについて、前記音声認識器によって区切られた前記話声単位の一連のモデルに前記音声入力の特性を適用する手段を含むことを特徴とする請求項14に記載のシステム。 - 前記複数の音響モデルの各々は、話声単位のモデルを含み、
前記発信者が前記以前識別された発信者の1人と識別された場合、前記音声入力の特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用のそれぞれの音響モデルを更新する音響モデル更新モジュール
をさらに備えたことを特徴とする請求項14に記載のシステム。 - 前記音響モデル更新モジュールは、前記発信者からの単なる一つの発話に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することが可能であることを特徴とする請求項16に記載のシステム。
- 前記音響モデル生成手段は、前記新しい音響モデルが前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを前記音響モデル貯蔵器に記憶することを特徴とする請求項14に記載のシステム。
- 前記一般音響モデルは、複数の話声単位の発信者に依存しないモデルを含み、
前記音響モデル生成器は、前記一般音響モデルの前記発信者に依存しないモデルから前記新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位の発信者に依存しないモデルを修正することを特徴とする請求項18に記載のシステム。 - 前記呼の間に前記発信者が識別されつつあることに対して前記発信者の注意を喚起することなしに、前記音声入力を受け取り、および前記発信者を識別するように構成されることを特徴とする請求項14に記載のシステム。
- 前記適用する手段は、前記音声入力をサブセクションに分割し、および各サブセクションの前記特性を前記複数の音響モデルに適用して各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得る手段を含み、
前記識別する手段は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別し、およびすべてのサブセクションについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の1人と識別する手段を含むことを特徴とする請求項14に記載のシステム。 - 前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを記憶する言語モデル貯蔵器と、
前記音声入力の特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成する手段と、
他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択する手段とをさらに備え、
前記識別する手段は、少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別することを特徴とする請求項14に記載のシステム。 - 前記識別する手段は、(1)前記音声入力、すなわち最高の確率を有する前記認識済み話声単位列、(2)最高の確率を有する前記認識済み話声単位列を生成する前記発信者固有言語モデル、および(3)最高の確率を有する前記発信者固有言語モデルが最良の音響スコアを有する前記音響モデルと異なる発信者に対応する場合の前記最良の音響スコアを有する前記音響モデル、のうち少なくとも1つを手動見直しするようにユーザ入力促進信号を生成する手段を含むことを特徴とする請求項22に記載のシステム。
- 前記複数の音響モデル間の距離尺度に基づいて、ともにマージするために所定の種類の音響モデルにフラグを立てる手段をさらに備えたことを特徴とする請求項14に記載のシステム。
- 前記フラグを立てる手段は、手動検査するために前記所定の種類の音響モデルにフラグを立てる手段を含むことを特徴とする請求項24に記載のシステム。
- コンピュータによって実行されると、
(a)呼の音声入力を発信者から受け取るステップと、
(b)一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデルに、前記音声入力の特性を適用して前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得るステップと、
(c)前記複数の音響スコアに基づいて、前記以前識別された発信者の1人か、または新しい発信者と前記発信者を識別するステップと、
(d)前記ステップ(c)で前記発信者が新しい発信者と識別された場合、前記新しい発信者について、前記新しい発信者固有の新しい音響モデルを生成するステップと
を備えた方法を実行するコンピュータ実行可能命令を有することを特徴とするコンピュータ読取可能な媒体。 - 前記ステップ(a)は、前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップを含み、
前記複数の音響モデルの各々は、前記ステップ(a)で区切られた前記話声単位のモデルを含み、
前記ステップ(b)は、前記複数の音響モデルについて前記ステップ(a)で区切られた前記話声単位の一連の前記モデルに、前記音声入力の前記特性を適用するステップを含むことを特徴とする請求項26に記載のコンピュータ読取可能な媒体。 - 前記複数の音響モデルの各々は、話声単位のモデルを含み、および前記方法は、
(e)前記ステップ(c)で前記発信者が前記以前識別された発信者の1人と識別された場合、前記音声入力の特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用のそれぞれの音響モデルを更新するステップ
をさらに備えたことを特徴とする請求項26に記載のコンピュータ読取可能な媒体。 - 前記方法は、
(e)前記新しい音響モデルが前記ステップ(b)における前記複数の音響モデルの1つになり、および前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップ
をさらに備えたことを特徴とする請求項26に記載のコンピュータ読取可能な媒体。 - 前記一般音響モデルは、複数の話声単位の発信者に依存しないモデルを含み、および前記ステップ(d)は、
(d)(1)前記一般音響モデルの前記発信者に依存しないモデルから前記新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位の発信者に依存しないモデルを修正するステップ
を含むことを特徴とする請求項29に記載のコンピュータ読取可能な媒体。 - 前記方法は、
(e)前記以前識別された発信者の各々について、発信者固有言語モデルを維持するステップと、
(f)少なくとも一部には前記音声入力から前記発信者固有言語モデルによって生成された認識済み話声単位列の確率に基づいて、前記発信者を識別するステップと
をさらに備えたことを特徴とする請求項26に記載のコンピュータ読取可能な媒体。 - 前記方法は、
(g)前記ステップ(f)で識別された前記発信者が前記ステップ(c)で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ(c)で識別された前記発信者の音響モデル、および前記ステップ(f)で識別された前記発信者の発信者固有言語モデルのうち少なくとも1つを手動で見直しするよう促すユーザ入力促進信号を生成するステップを
さらに備えたことを特徴とする請求項31に記載のコンピュータ読取可能な媒体。 - 前記方法は、
(e)前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするために所定の種類の音響モデルにフラグを付するステップ
をさらに備えたことを特徴とする請求項26に記載のコンピュータ読取可能な媒体。 - 前記ステップ(e)は、手動で検査するために前記所定の種類の音響モデルにフラグを付するステップを含むことを特徴とする請求項33に記載のコンピュータ読取可能な媒体。
- 発信者から着信者への呼における前記発信者を識別する方法であって、
(a)音声入力を前記発信者から受け取るステップと、
(b)発信者に依存しない一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップと、
(c)一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデル内で、前記認識済み話声単位の一連の話声単位モデルに前記音声入力の特性を適用するステップと、
(d)前記音声入力の前記特性が前記複数の音響モデルにどれだけ良好に合致するかに基づいて、複数の以前識別された発信者の1人、または新しい発信者と前記発信者を識別するステップと
を備えたことを特徴とする方法。 - (e)前記ステップ(d)で前記発信者が新しい発信者として識別された場合、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位の話声単位モデルを修正することにより、前記一般音響モデルから前記新しい発信者用の新しい音響モデルを生成するステップと、
(f)前記新しい音響モデルが前記ステップ(c)における前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップと
をさらに備えたことを特徴とする請求項35に記載の方法。 - (e)前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
(f)前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
(g)他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択するステップと、
(h)前記最高の確率を有する認識済み話声単位列に基づいて、前記発信者を識別するステップと、
(i)前記ステップ(h)で識別された前記発信者がステップ(d)で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ(d)で識別された前記発信者の音響モデル、および前記ステップ(h)で識別された前記発信者の発信者固有言語モデルのうち少なくとも1つを手動で見直しするよう促すユーザ入力促進信号を生成するステップと
をさらに備えたことを特徴とする請求項35に記載の方法。 - (e)前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするために所定の種類の音響モデルにフラグを付するステップをさらに備えたことを特徴とする請求項35に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/777,322 US7231019B2 (en) | 2004-02-12 | 2004-02-12 | Automatic identification of telephone callers based on voice characteristics |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005227758A true JP2005227758A (ja) | 2005-08-25 |
JP2005227758A5 JP2005227758A5 (ja) | 2008-02-14 |
JP4221379B2 JP4221379B2 (ja) | 2009-02-12 |
Family
ID=34701375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005005572A Expired - Fee Related JP4221379B2 (ja) | 2004-02-12 | 2005-01-12 | 音声特性に基づく電話発信者の自動識別 |
Country Status (11)
Country | Link |
---|---|
US (1) | US7231019B2 (ja) |
EP (1) | EP1564722B1 (ja) |
JP (1) | JP4221379B2 (ja) |
KR (1) | KR101120716B1 (ja) |
CN (1) | CN1655235B (ja) |
CY (1) | CY1113168T1 (ja) |
DK (1) | DK1564722T3 (ja) |
ES (1) | ES2391454T3 (ja) |
PL (1) | PL1564722T3 (ja) |
PT (1) | PT1564722E (ja) |
SI (1) | SI1564722T1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102254A (ja) * | 2008-10-27 | 2010-05-06 | Internatl Business Mach Corp <Ibm> | 話者テンプレートを更新する装置及び方法 |
JP2016006504A (ja) * | 2014-05-29 | 2016-01-14 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
JPWO2020003413A1 (ja) * | 2018-06-27 | 2021-07-08 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005109846A1 (en) | 2004-05-03 | 2005-11-17 | Somatic Technologies, Inc. | System and method for providing particularized audible alerts |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7643995B2 (en) * | 2005-02-09 | 2010-01-05 | Microsoft Corporation | Method of automatically ranking speech dialog states and transitions to aid in performance analysis in speech applications |
US8099279B2 (en) * | 2005-02-09 | 2012-01-17 | Microsoft Corporation | Interactive clustering method for identifying problems in speech applications |
US7574358B2 (en) | 2005-02-28 | 2009-08-11 | International Business Machines Corporation | Natural language system and method based on unisolated performance metric |
US7453992B2 (en) * | 2005-04-14 | 2008-11-18 | International Business Machines Corporation | System and method for management of call data using a vector based model and relational data structure |
WO2006119122A2 (en) * | 2005-05-02 | 2006-11-09 | Graham Shapiro | Statistical machine learning system and methods |
WO2007019307A2 (en) | 2005-08-03 | 2007-02-15 | Somatic Technologies, Inc. | Somatic, auditory and cochlear communication system and method |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
WO2007057879A1 (en) * | 2005-11-17 | 2007-05-24 | Shaul Simhi | Personalized voice activity detection |
KR100717385B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
US8625749B2 (en) * | 2006-03-23 | 2014-01-07 | Cisco Technology, Inc. | Content sensitive do-not-disturb (DND) option for a communication system |
US8396711B2 (en) * | 2006-05-01 | 2013-03-12 | Microsoft Corporation | Voice authentication system and method |
ES2286943B1 (es) * | 2006-05-19 | 2008-10-16 | Agnitio, S.L. | Procedimiento de identificacion de voz. |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
US7809170B2 (en) | 2006-08-10 | 2010-10-05 | Louisiana Tech University Foundation, Inc. | Method and apparatus for choosing and evaluating sample size for biometric training process |
US8086461B2 (en) * | 2007-06-13 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | System and method for tracking persons of interest via voiceprint |
US8229085B2 (en) * | 2007-07-31 | 2012-07-24 | At&T Intellectual Property I, L.P. | Automatic message management utilizing speech analytics |
US8219404B2 (en) * | 2007-08-09 | 2012-07-10 | Nice Systems, Ltd. | Method and apparatus for recognizing a speaker in lawful interception systems |
US8595004B2 (en) * | 2007-12-18 | 2013-11-26 | Nec Corporation | Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program |
US20090190735A1 (en) * | 2008-01-24 | 2009-07-30 | General Motors Corporation | Method and system for enhancing telematics services |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
WO2010042631A2 (en) | 2008-10-10 | 2010-04-15 | Fastow Richard M | Real-time data pattern analysis system and method of operation thereof |
US8818802B2 (en) * | 2008-10-10 | 2014-08-26 | Spansion Llc | Real-time data pattern analysis system and method of operation thereof |
US8391445B2 (en) * | 2008-11-10 | 2013-03-05 | International Business Machines Corporation | Caller identification using voice recognition |
US8645140B2 (en) * | 2009-02-25 | 2014-02-04 | Blackberry Limited | Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
US8442827B2 (en) | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
TWI403304B (zh) * | 2010-08-27 | 2013-08-01 | Ind Tech Res Inst | 隨身語能偵知方法及其裝置 |
CN102779509B (zh) * | 2011-05-11 | 2014-12-03 | 联想(北京)有限公司 | 语音处理设备和语音处理方法 |
CN102781075B (zh) * | 2011-05-12 | 2016-08-24 | 中兴通讯股份有限公司 | 一种降低移动终端通话功耗的方法及移动终端 |
US9785613B2 (en) * | 2011-12-19 | 2017-10-10 | Cypress Semiconductor Corporation | Acoustic processing unit interface for determining senone scores using a greater clock frequency than that corresponding to received audio |
US9147401B2 (en) * | 2011-12-21 | 2015-09-29 | Sri International | Method and apparatus for speaker-calibrated speaker detection |
US9147400B2 (en) * | 2011-12-21 | 2015-09-29 | Sri International | Method and apparatus for generating speaker-specific spoken passwords |
CN102522084B (zh) * | 2011-12-22 | 2013-09-18 | 广东威创视讯科技股份有限公司 | 一种将语音数据转换为文本文件的方法和系统 |
GB2514943A (en) * | 2012-01-24 | 2014-12-10 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9711167B2 (en) * | 2012-03-13 | 2017-07-18 | Nice Ltd. | System and method for real-time speaker segmentation of audio interactions |
US10452986B2 (en) * | 2012-03-30 | 2019-10-22 | Sony Corporation | Data processing apparatus, data processing method, and program |
JP5957269B2 (ja) | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
US20140088965A1 (en) * | 2012-09-27 | 2014-03-27 | Polaris Wireless, Inc. | Associating and locating mobile stations based on speech signatures |
CN103856626A (zh) * | 2012-11-29 | 2014-06-11 | 北京千橡网景科技发展有限公司 | 个性声音的定制方法和装置 |
US9294616B2 (en) | 2013-06-30 | 2016-03-22 | International Business Machines Corporation | Identifying a contact based on a voice communication session |
US20150046164A1 (en) * | 2013-08-07 | 2015-02-12 | Samsung Electronics Co., Ltd. | Method, apparatus, and recording medium for text-to-speech conversion |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
CH709795B1 (fr) * | 2014-06-18 | 2021-02-26 | Katia Sa | Procédé et système de filtrage d'appels téléphoniques entrants indésirables. |
EP3010017A1 (en) | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
CN104821934B (zh) * | 2015-03-20 | 2018-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声纹登录方法和装置 |
US9485354B1 (en) * | 2015-05-08 | 2016-11-01 | Marchex, Inc. | Identifying call features and associations to detect call traffic pumping and take corrective action |
US10529328B2 (en) * | 2015-06-22 | 2020-01-07 | Carnegie Mellon University | Processing speech signals in voice-based profiling |
CN105096941B (zh) * | 2015-09-02 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
WO2017038354A1 (ja) * | 2015-09-03 | 2017-03-09 | 日本電気株式会社 | 情報提供装置、情報提供方法、及び、プログラム |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
CN108962261A (zh) * | 2018-08-08 | 2018-12-07 | 联想(北京)有限公司 | 信息处理方法、信息处理装置和蓝牙耳机 |
RU2744063C1 (ru) | 2018-12-18 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система определения говорящего пользователя управляемого голосом устройства |
US12021864B2 (en) * | 2019-01-08 | 2024-06-25 | Fidelity Information Services, Llc. | Systems and methods for contactless authentication using voice recognition |
US11962718B2 (en) * | 2022-01-04 | 2024-04-16 | Centurylink Intellectual Property Llc | Automated robocall detection |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
US5710866A (en) | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5825977A (en) * | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
US5946654A (en) * | 1997-02-21 | 1999-08-31 | Dragon Systems, Inc. | Speaker identification using unsupervised speech models |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
EP0949827A1 (fr) * | 1998-04-07 | 1999-10-13 | Koninklijke Philips Electronics N.V. | Equipment téléphonique, système de communications radio et procédé d'identification de l'appelant |
US6141641A (en) | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US6292799B1 (en) * | 1998-06-05 | 2001-09-18 | Netnumber.Com, Inc. | Method and apparatus to automatically address a voice mail reply to a voice mail message |
US6684186B2 (en) * | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
US6978238B2 (en) * | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US20010029452A1 (en) * | 2000-02-01 | 2001-10-11 | I-Cheng Chen | Method and system for improving speech recognition accuracy |
US6629073B1 (en) | 2000-04-27 | 2003-09-30 | Microsoft Corporation | Speech recognition method and apparatus utilizing multi-unit models |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
US7440900B2 (en) | 2002-03-15 | 2008-10-21 | Microsoft Corporation | Voice message processing system and method |
US7162421B1 (en) * | 2002-05-06 | 2007-01-09 | Nuance Communications | Dynamic barge-in in a speech-responsive system |
-
2004
- 2004-02-12 US US10/777,322 patent/US7231019B2/en active Active
- 2004-12-28 PT PT04030909T patent/PT1564722E/pt unknown
- 2004-12-28 EP EP04030909A patent/EP1564722B1/en not_active Not-in-force
- 2004-12-28 DK DK04030909.8T patent/DK1564722T3/da active
- 2004-12-28 SI SI200431936T patent/SI1564722T1/sl unknown
- 2004-12-28 PL PL04030909T patent/PL1564722T3/pl unknown
- 2004-12-28 ES ES04030909T patent/ES2391454T3/es active Active
- 2004-12-31 CN CN2004100818774A patent/CN1655235B/zh not_active Expired - Fee Related
-
2005
- 2005-01-12 JP JP2005005572A patent/JP4221379B2/ja not_active Expired - Fee Related
- 2005-02-07 KR KR1020050011339A patent/KR101120716B1/ko not_active IP Right Cessation
-
2012
- 2012-10-03 CY CY20121100916T patent/CY1113168T1/el unknown
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102254A (ja) * | 2008-10-27 | 2010-05-06 | Internatl Business Mach Corp <Ibm> | 話者テンプレートを更新する装置及び方法 |
US8775178B2 (en) | 2008-10-27 | 2014-07-08 | International Business Machines Corporation | Updating a voice template |
US10621974B2 (en) | 2008-10-27 | 2020-04-14 | International Business Machines Corporation | Updating a voice template |
US11335330B2 (en) | 2008-10-27 | 2022-05-17 | International Business Machines Corporation | Updating a voice template |
JP2016006504A (ja) * | 2014-05-29 | 2016-01-14 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
JPWO2020003413A1 (ja) * | 2018-06-27 | 2021-07-08 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
JP6996627B2 (ja) | 2018-06-27 | 2022-01-17 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
US11437044B2 (en) | 2018-06-27 | 2022-09-06 | Nec Corporation | Information processing apparatus, control method, and program |
Also Published As
Publication number | Publication date |
---|---|
US7231019B2 (en) | 2007-06-12 |
PL1564722T3 (pl) | 2013-01-31 |
JP4221379B2 (ja) | 2009-02-12 |
CN1655235B (zh) | 2012-01-25 |
DK1564722T3 (da) | 2012-09-03 |
US20050180547A1 (en) | 2005-08-18 |
PT1564722E (pt) | 2012-09-25 |
CY1113168T1 (el) | 2016-04-13 |
KR20060041829A (ko) | 2006-05-12 |
EP1564722B1 (en) | 2012-08-08 |
KR101120716B1 (ko) | 2012-03-23 |
CN1655235A (zh) | 2005-08-17 |
EP1564722A1 (en) | 2005-08-17 |
SI1564722T1 (sl) | 2012-11-30 |
ES2391454T3 (es) | 2012-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
US11496582B2 (en) | Generation of automated message responses | |
US11580991B2 (en) | Speaker based anaphora resolution | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
US10522134B1 (en) | Speech based user recognition | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
Zissman et al. | Automatic language identification | |
Chen et al. | Advances in speech transcription at IBM under the DARPA EARS program | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6856956B2 (en) | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
Rabiner et al. | An overview of automatic speech recognition | |
Wester | Pronunciation modeling for ASR–knowledge-based and data-derived methods | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Flemotomos et al. | Role annotated speech recognition for conversational interactions | |
Žgank et al. | Slovenian spontaneous speech recognition and acoustic modeling of filled pauses and onomatopoeas | |
Ishaq | Voice activity detection and garbage modelling for a mobile automatic speech recognition application | |
Bouwman et al. | Using information on lexical stress for utterance verification | |
Žgank et al. | Modelling of Filled Pauses and Onomatopoeias for Spontaneous Speech Recognition | |
Manaileng | Grapheme-based continuous speech recognition for some of the under-resourced languages of Limpopo Province | |
Chi-Yan et al. | SUBWORD UNITS FOR A MANDARIN KEYWORD SPOTTING SYSTEM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071221 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20071221 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081017 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4221379 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |