JP2895493B2 - 話者識別装置および方法 - Google Patents

話者識別装置および方法

Info

Publication number
JP2895493B2
JP2895493B2 JP63500399A JP50039987A JP2895493B2 JP 2895493 B2 JP2895493 B2 JP 2895493B2 JP 63500399 A JP63500399 A JP 63500399A JP 50039987 A JP50039987 A JP 50039987A JP 2895493 B2 JP2895493 B2 JP 2895493B2
Authority
JP
Japan
Prior art keywords
speaker
memory
frequency spectrum
digital word
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63500399A
Other languages
English (en)
Other versions
JPH01502058A (ja
Inventor
グレベス,アラン・ジヨン
ミラー・ポウル・クリストフアー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH01502058A publication Critical patent/JPH01502058A/ja
Application granted granted Critical
Publication of JP2895493B2 publication Critical patent/JP2895493B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Inorganic Compounds Of Heavy Metals (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Vending Machines For Individual Products (AREA)
  • Silicon Polymers (AREA)
  • Golf Clubs (AREA)
  • Emergency Alarm Devices (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

【発明の詳細な説明】 本発明は、話者識別のため、すなわち装置への入力と
なる言語(スピーチ)の話者の一致を認識しあるいは照
合するための話者識別装置及び方法に関する。 本発明によれば、 言語入力の連続するサンプル期間の各点から周波数ス
ペクトラムをあらわすディジタルワードを抽出する手段
と、 各ディジタルワードについて、この装置が識別のため
にすでに訓練さらた対象である既知の話者の言語の中で
発生するそのワードに対応している周波数スペクトラム
に関する相対的な確率を示すコードワードを記憶するた
めの記憶装置(メモリ)、(ここで記憶装置のアドレス
入力に上記抽出手段のディジタルワード出力が接続され
ている)と、 識別されるべき話者の言語の入力の間に、上記記憶装
置から読み出されるコードワードに応答して、所定の基
準に従い、既知のどの話者のものが識別されたとみなさ
れるかを示すデータがもしあれば、それを出力する制御
手段と、 を具備する話者識別のための装置が提供される。 望ましい構成では、この装置は、訓練シーケンスの際
の動作中に、各サンプル期間について、 a)記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が所定の数を超えていな
い場合は、このアドレスを表現するディジタルワードを
生じさせた言語の話者を識別するコードワードを、その
ロケーションに記憶するようにし、 b)記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が上記所定の数を超えて
いる場合は、多数のユーザを示すために確保しておいた
コードワードを、そのロケーションに記憶するように、
されている。 上記所定の数はゼロとすることもできる。 したがって、与えられたロケーションに既知の話者の
コードが存在することは、該話者の言語内に対応する周
波数スペクトラムが生ずる確率が、他の話者の言語内に
生ずる確率に比して高いことを示している。他方、多ユ
ーザコードの存在は、発生の確率がどの一人の話者につ
いても他の話者よりも特別高くないことを示す。 実際には、初期訓練の前に、上記記憶装置は、他のい
かなる目的にも使用されないコードをそれに書き込むこ
とにより、クリアされる必要があるであろう。訓練が完
了した後で、あるロケーション「不使用」コードが存在
することは、既知のいずれのユーザの言語でもそこで生
ずる対応するスペクトラムの確率が低いことを示してい
る。 望ましい構成においては、制御手段は、各既知の話者
毎にそれぞれのカウンタ手段を備え、しかも記憶装置か
ら読み出される各コードワードに応答して動作するよう
にされ、コードワードが読出されたアドレスに対応して
いる周波数スペクトラムが関係する比較的高い確率をも
っているとそのコードワードが示しているような既知の
話者(もしそういうものがあれば)が対応しているカウ
ンタをインクリメント(歩進)する。また、前出の所定
の基準は、認識されるべきであると思われる話者は、そ
の者のカウンタが最高カウント値を有する話者となると
いうことである。 以下、本発明の話者識別のいくつかの実施例につい
て、次のような添付図面を参照して、例によって説明す
る。 第1図は、本発明にしたがった装置の一つの形態のブ
ロック図、 第2図は、第1図の装置のさらに詳細なブロック図で
あり、そして、 第3図は、第2図に示されるコーダ(符号化器)の異
なる複数の変形例を示す。 第1図において、ユーザからのスピーチ信号は、例え
ばマイクロフォンMを介して、入力スピーチの周波数ス
ペクトラムを解析するために、フィルタバンクFに入力
される。それぞれの周波数帯域を示すフィルタ出力は整
流され、平滑され、そしてサンプルされ(S)かつコー
ド化され(C)て、リードーライト(読み書き)メモリ
Sにへのアドレス入力を送出する。各サンプルについ
て、こうしてアクセスされるアドレスの内容は、一般に
次の3つのタイプのラベルの一つを有している。 a)「不使用」ラベル−例えばオール「0」 b)「多ユーザ」ラベル−例えばオーム「1」 c)「有効ユーザ」ラベル−例えばオール「0」または
オール「1」以外のいずれか。 話者識別に使用される前に、この発明の装置は、認可
された(使用権原のある各ユーザがマイクロフォンに語
りかける訓練シーケンスを経なければならない。目的
は、どのスペクトルの組合せがあるユーザに特有のもの
であり、またそうでないかを、記憶装置内に記憶させる
ことにある。そして、訓練モードにおいては、各サンプ
ルについて次のような動作(アクション)がとられる。 i)もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、該特定ユーザのコードが該メモリロケーションに
書き込まれる。 ii)もしも、「有効ユーザ」ラベルが見つかり、かつ現
在の(カレント)ユーザのコードと同じだったら、何の
アクションもとられない。 iii)もしも、「有効ユーザ」ラベルが見つかり、かつ
現在のユーザのコードと異なっていたら、多ユーザラベ
ルが該記憶ロケーションに書き込まれる。 iv)もしも、「多ユーザ」ラベルが見つかったら、何の
アクションもとられない。 各メモリロケーションは、特定のスペクトルの組合せ
に対応するすることがわかるであろう。多数のユーザ
(「正当なユーザ」)について訓練シーケンスが完了し
た後は、各メモリロケーションは、対応する組台せが、
一人の認可されたユーザに特有のものである(このケー
スでは、ラベルはユーザコードである)か、二人以上の
組の認可されたユーザに共通のものであるか、認可され
たユーザの誰にも用いられていないものであるかを示す
ラベルを記憶している。 ひとたび訓練すれば、上記装置は識別モードで使用で
きる。識別されることになるユーザは、マイクロフォン
Mに対して話しかける。もしも、彼の話声が、一人の正
当なユーザに特有であると分っているスペクトルの組合
せをかなりの数含んているならば、該未知のユーザがそ
の人である高い確率(可能性)がある。こうして記憶装
置内に見出されるラベルは次のように作用する。 v)もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、それは無視される。 vi)もしも、「他ユーザ」ラベルが見つかったら、やは
り無視される。 vii)もしも、「正当ユーザ」ラベルが見つかったら、
該ユーザのためにとっておいたカウンタがインクリメン
トされる。該話声の最後には、正当なユーザの各々につ
いてカウントが保持されることになる。そして、最高カ
ウントが、どの正当なユーザが話していたかを示してい
るはずである。いつも少なくとも1つの最高カウントが
存在することになるから、このことは一方の正当なユー
ザと他方の認可されていないユーザとを区別することに
はならない。もしも、認識装置の目的が、単に、スピー
チ認識装置または他の手段を使ってのユーザ入力につい
て主張された同一性を照合することにあるならば、これ
で充分であるが、しかし、ましくは、認識の基準は、最
高カウントは他のどのカウントよりも有意的に、(著し
く)大きくなければならないことである。加えて、ある
いはその代わりに、最高カウントがスレッシュホールド
値を超えることが要求されるであろう。 第1図において、訓練および識別モード機能はコント
ロールユニットCにより実行されるとする。正当なユー
ザラベルをユーザネーム(使用者の名前)に翻訳するた
めのネームコーデックNCもまた示されている。 第2図は本発明の実際的な実施例を示している。ここ
でも、マイクロフォンMが示されており、それには言語
増幅器Aが続いている。フィルタバングFは、250Hz〜5
000Hzの周波数帯域をカバーする16個のバンドパスフィ
ルタF1〜F16により構成される。例えば臨界帯域の原理
(クリティカル・バンド・セオリイ)に従って、より高
い周波数帯域は低い帯域よりもより広いことが望まし
い。整流および(後続のサンプラに適合させるための時
定数を有する)平滑は、整流器R1〜R16により模式的に
示されている。 16個のサンプルアンドホールド回路S1〜S16が示され
ており、サンプリングパルスφ1により駆動される。例
えば1000サンプル/秒まで高いレートを採用することに
よりより高い分解能が得られるけれども、毎秒50〜100
サンプルのオーダのサンプリングレートで満足すべき結
果を提供することが予測される。 コーダC1〜C16は、サンプルされた出力を受け、64Kバ
イトの容量の記憶装置Sのアドレス入力に加えるため、
これらを16ビットワードに変換する。該コーダは第3a図
に示されるように、サンプルを固定されたスレッシュホ
ールド電圧Vtと比較しかつ該サンプルが該スレッシュホ
ールドの上か下かに従って「1」または「0」を生成す
る単なる比較器CPでよい。しかしながら、望ましいの
は、差分コーディング(differential coding)を採用
することにより(マイクロフォンの位置および増幅器の
ゲインに依存する)入力信号レベルとは独立しているコ
ード化出力を作ることである。 こうして(第3b図)、サンプルは、サンプリングパル
スφ1に対して遅延されたパルスφ2をクロックとする
ラッチIで遅延された前のサンプルと、比較器CPによ
り、比較される。これに代えて、サンプルを、隣接帯域
(または実際は非隣接帯域)における信号レベルと比較
してもよく、もしも(例えば)サンプル値が下位の周波
数帯域における値を超えるならば「1」が、そうでなけ
れば「0」が出力される。最下位の周波数帯域(F16)
は最上位(F1)と比較することができる。もしも、望ま
れるならば、時間差分コーディングおよび帯域差分コー
ディングの両者が並列又は直列のいずれかで使われる。
32のアドレスラインが、現時点では、非現実的に大きな
メモリを意味するので、図示されるよりも小数の帯域を
持つけれども、例えば、第3c図の出力に第3b図の回路を
挿入して(またはその逆で)使用される。 固定スレッシュホールドコーディングまたは比較帯域
コーディングを用いる場合には、16個のサンプルアンド
ホール回路は必要でないことに留意すべきである。これ
は、RAMのクロックがサンプリング手段となるときは、
コード化されたディジタルワードがRAMのアドレスバス
に連続的に存在するからである。 訓練モードにおいて、話者に対するコードは、入力コ
ードラッチCLに入力される。記憶装置が、連続的なコー
ド化されたサンプルにより、アドレスされることによ
り、該記憶装置の(8ビット)データ出力におけるラベ
ル出力は、コンパレータCF1によって話者コードと比較
される。もしも、これら2つが同じならば、何の動作
(アクション)もとられない(上述のステップ(i
i))。もしも、それらが異なっていれば、アンドゲー
トAは、外部信号TRにより訓練の期間にのみエネーブル
とされ、メモリリードアクセス時間、およびコーダCお
よび比較器CF1における遅延時間を許容するためφ1か
ら充分に遅延された、ライト(書込み)パルスφ2を記
憶装置(メモリ)Sに通過させることを可能とする。も
しも、記憶装置からのラベル出力がゼロであれば、ラッ
チCLからのコードは、阻止されずにオアゲートO1〜O8を
通って通過して、記憶装置(メモリ)Sに書き込まれる
(上述のステップ(i))。もしも、ラベルがオールゼ
ロ以外であれば、このことは、オアゲートO9により認識
され、ライト動作に先立って、オアゲートO1〜O8を介し
て、記憶装置入力を強制的に全て1(16進コードでFF)
とし、それによってステップ(iii)(またはステップ
(iv)による要求にしたがって記憶装置に多ユーザラベ
ルを書き込む(または再書き込みする)。 識別モードに対しては、カウンタZ1〜Znが、それぞれ
各正当なユーザ毎に設けられている。8ビットの記憶装
置は、254までのユーザを許容するが、カウンタは一般
に、システムが訓練されると予測される正当なユーザの
最大数だけ設けられていればよい。各サンプルについ
て、デコーダDは、結果的な記憶装置の出力を受け、そ
れを、それぞれ各カウンタ毎のn個のエネーブルライン
にデコードする。ダミー出力「0」および「FF」は、上
述のステップ(v)および(vi)、すなわち何の動作
(アクション)もとられないステップを示す。「正当な
ユーザ」コードがあらわれたとき(ステップ(vii))
は、対応するカウンタが、エネーブルとされて、先に述
べたパルスφ2によりインクリメントされる。 上記カウント処理は、識別エネーブル化信号IEが存在
する限り継続する。これは、増幅器Aで信一号検出器に
応答して発生され、妥当な認識精度を達成するのに十分
なサンプルの処理ができるようにするのに十分な期間を
もっている。一般的には、8ビットカウンタ長(すなわ
ち255の最大カウト)について、1/2〜3秒の期間が適当
である。 一旦カウントが完了すると、n個の8ビットカウンタ
の出力は、比較器CF2において比較される。これは、最
大カウントをもつカウンタを識別し、かつ対応するユー
ザコードを出力ラッチOLに出力するようにするが、上述
したように、有効コードを出力する前に他の基準をチェ
ックするように使ってもよい。 上記装置の動作では、訓練モードの間に発声される言
葉は、音声の広い範囲を包含するようにすれば、認識さ
れるべき話者により発声される言葉が他の話者により発
声されたものと同じであることを必要とせず、また実際
に訓練の間に特定の話者により前もって発声された言葉
であることが必要でないことに気付くであろう。 上述の実施例は、一つの可能な実現手段に過ぎない。
したがって、種々の変形が可能である。実施例では多ユ
ーザコードが2以上の話者が訓練中に同じサンプルを生
成するときに使われる。すなわち、多ユーザコードがそ
れを越えて使われる限界は1である。この限界は3以上
の話者、あるいは4以上の話者といった具合の数の話者
が訓練中に同じサンプルを生成するときに多ユーザコー
ドが呼び出されるようにする。例えば、2以上の話者が
訓練中に同じ「サンプル」を生成するときに多ユーザコ
ードを呼び出すのではなく、この限界は上へもって行け
るのであるが、より大きなメモリという犠牲を伴うもの
で、記憶装置(メモリ)内に2(又はN)の「正当な使
用者」コードを与えられたメモリアドレスに対して記録
することができるようにし、多ユーザコードは3(又は
N+1)話者がそのサンプルを作ったときだけ代りとさ
れるようにする。1つのアドレスからの2個の正当なユ
ーザコードを識別モードの間に検索することは、対応す
る両カウンタのインクリメントを生じさせる。もしも、
このオプションが使用されるならば、例えば唯1つのコ
ードが生じたときにのみ、適切なカウンタを2回インク
リメントすることなどによる、重み付けもまた導入され
ることになる。 もしも「不使用」コードが識別モード中に検索される
と、何のアクションもとられないと仮定してきた。この
コードの出現は、話者ユーザが正当なユーザーである確
率が低いことを意味しているので、このコードの発声は
カウントされかつその結果を認識処理の重み付けに使用
することができ、例えば、認識が完了したと思われる前
に、最大カウントが一致することになるスレッシュホー
ルドを高めることとする。 コーディング、デコーディングおよび比較のような機
能は、第2図には専用のハードウェア装置により実現さ
れるように示されているが、これらの機能は、もし所望
するならば、適宜プログラムされたマイクロプロセッサ
または他のデータ処理装置により実現することもでき
る。同様に、ディジタルフィルタリングも採用し得る。
フロントページの続き (72)発明者 ミラー・ポウル・クリストフアー イギリス国 アイ・ピー12,1エッチ・ エイ,サフォーク,フリックストウェ, バス・ロード75 (56)参考文献 特開 昭59−111699(JP,A) 特開 昭58−219600(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 G10L 7/08 G10L 3/00 521 G10L 3/00 561

Claims (1)

  1. (57)【特許請求の範囲】 1.話者識別のための装置であって、言語入力の連続す
    るサンプル期間の各々から周波数スペクトラムを表すデ
    ィジタルワードを抽出する抽出手段(FSC)と、 前記抽出手段のディジタルワード出力が接続されるアド
    レス入力を有し、各ディジタルワードについて、該装置
    が識別のために訓練された1人以上の既知の話者のスピ
    ーチ中で生ずる該ディジタルワードに対応する周波数ス
    ペクトラムの相対的な確率を示すコードワードを記憶す
    るためのメモリ(RAM S)と、 識別されることになる話者による言語の入力の間に、所
    定の基準に従って、既知のどの話者のものが識別された
    とするかを示すデータを出力するため、前記メモリから
    読み出されるコードワードに応答する制御手段(C)
    と、 を具備する話者識別装置。 2.訓練シーケンスの間の動作では、各サンプル期間毎
    に、 a)前記メモリ内のアドレスされたロケーションにすで
    に記憶されたコードワードの数が所定の数を越えない場
    合は、前記アドレスを表すディジタルワードを生じさせ
    た言語の話者を識別するコードワードをそのロケーショ
    ンに記憶し、 b)前記メモリ内のアドレスされたローションに既に記
    憶されたコードワードの数が前記所定の数を越える場合
    は、多数のユーザを示すためにとっておいたコードワー
    ドをそのロケーションに記憶する、 ように構成された請求の範囲第1項の装置。 3.前記所定の数はゼロである請求の範囲第2項の装
    置。 4.前記制御手段は、各既知の話者毎のカウンタ手段を
    備え、前記メモリから読み出された各コードワードに対
    して応答し、該コードワードによって、該コードワード
    が読み出されたアドレスに対応する周波数スペクトラム
    に関して相対的に高い確率を持つとして示されている既
    知の話者がいるときはその者に対応するカウンタをイン
    クリメントするように、また前記所定の基準は、認識さ
    れるべきであると思われる話者については、その者のカ
    ウンタが最高カウント値を有する話者であるように構成
    された請求の範囲第1、2、または3項のいずれか1項
    の装置。 5.前記所定の基準は、前記最高カウントが、他のカウ
    ンタのカウントを設定マージンだけ越ていなければ、識
    別は起こっていないとみなすという要件を含む請求の範
    囲第4項の装置。 6.前記所定の基準は、前記最高カウントが、スレッシ
    ュホールド値を越えない限り、識別は起こっていないと
    みなすという要件を含む請求の範囲第4または5項の装
    置。 7.前記制御手段は、別のカウンタを含み、ある既知の
    話者の低い確率を示すコードワードの発生に応答して該
    別のカウンタをインクリメントし、そして該別のカウン
    タの内容に応答して前記スレッシュホールド値を調整す
    る請求の範囲第6項の装置。 8.前記抽出手段は、言語入力の周波数スペクトラムを
    複数の周波数帯域出力に分割するためのフィルタ手段
    と、前記出力の平均振幅を測定し、かつサンプリングす
    るための手段と、結果のサンプルからディジタルワード
    を得るためのコーディング手段とを具備する請求の範囲
    第1項〜第7項のいずれか1項に記載の装置。 9.前記コーディング手段は、各帯域毎に、各サンプル
    をスレッシュホールド値と比較し、それにより「1」ま
    たは「0」信号を生成するように構成される請求の範囲
    第8項の装置。 10.前記コーディング手段は、各帯域毎に、各サンプ
    ルを該帯域につて得られた前のサンプルと比較して、そ
    れにより「1」または「0」信号を生成する請求の範囲
    第8項の装置。 11.前記コーディング手段は、各帯域毎に、各サンプ
    ルを他の帯域について得られたサンプルと比較して、そ
    れにより「1」または「0」信号を生成する請求の範囲
    第8項の装置。 12.未知の入力言語信号の話者を先に識別した話者グ
    ループの一人として識別する話者識別方法において、 ランダムアクセスメモリ内に該先に識別した話者と独特
    な対応をもつ記憶されたコードワードを、この話者によ
    り先に与えられた入力言語の周波数スペクトラムと対応
    するアドレスロケーションに記憶するステップと、 前記未知の入力言語信号の周波数スペクトラムに対応す
    る一連のアドレスを前記メモリに与えるステップと、前
    記メモリから出力される結果の連続コードワードから前
    記未知の入力言語信号の話者を識別するステップと、 を含む話者識別方法。 13.言語入力を受け、話者の識別子を認識する話者識
    別方法において、 一連の入力言語サンプルの各々からその周波数スペクト
    ラを表すディジタルワードを抽出するステップと、 複数のコードワードをメモリに記憶し、各コードワード
    は該ディジタルワードについて、1又は複数の既知の話
    者の言語内で生ずる該ディジタルワードの周波数スペク
    トラムの相対的な確率を示すものとするステップと、 前記抽出ディジタルワードを前記メモリのアドレス回路
    に接続するステップと、 前記アドレス回路によってアクセスされた一連のコード
    ワードを得るステップと、 どの話者が識別されたかを示すために前記コードワード
    に関連する所定の基準に従って前記一連のコードワード
    を用いるステップと、 により構成される話者識別方法。
JP63500399A 1986-12-17 1987-12-09 話者識別装置および方法 Expired - Lifetime JP2895493B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB868630118A GB8630118D0 (en) 1986-12-17 1986-12-17 Speaker identification
GB8630118 1986-12-17

Publications (2)

Publication Number Publication Date
JPH01502058A JPH01502058A (ja) 1989-07-13
JP2895493B2 true JP2895493B2 (ja) 1999-05-24

Family

ID=10609148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63500399A Expired - Lifetime JP2895493B2 (ja) 1986-12-17 1987-12-09 話者識別装置および方法

Country Status (9)

Country Link
US (1) US4947436A (ja)
EP (1) EP0273615B1 (ja)
JP (1) JP2895493B2 (ja)
AT (1) ATE109919T1 (ja)
CA (1) CA1329275C (ja)
DE (1) DE3750365T2 (ja)
GB (1) GB8630118D0 (ja)
HK (1) HK156396A (ja)
WO (1) WO1988004772A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991002347A1 (en) * 1989-07-28 1991-02-21 Guerreri Stephen J A method and apparatus for language and speaker recognition
DE4001063A1 (de) * 1989-09-05 1991-03-07 Gerhard Morgenroth Brillengestell
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5437050A (en) * 1992-11-09 1995-07-25 Lamb; Robert G. Method and apparatus for recognizing broadcast information using multi-frequency magnitude detection
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US6853716B1 (en) * 2001-04-16 2005-02-08 Cisco Technology, Inc. System and method for identifying a participant during a conference call
CA2539442C (en) * 2003-09-17 2013-08-20 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
WO2006023770A2 (en) 2004-08-18 2006-03-02 Nielsen Media Research, Inc. Methods and apparatus for generating signatures
AU2006325808B2 (en) * 2005-12-12 2011-12-15 The Nielsen Company (Us), Llc Systems and methods to wirelessly meter audio/visual devices
US9015740B2 (en) 2005-12-12 2015-04-21 The Nielsen Company (Us), Llc Systems and methods to wirelessly meter audio/visual devices
CN101669308B (zh) 2007-02-20 2013-03-20 尼尔森(美国)有限公司 表征媒体的方法和装置
US8458737B2 (en) 2007-05-02 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for generating signatures
CN101918999B (zh) 2007-11-12 2013-11-13 尼尔森(美国)有限公司 执行音频水印嵌入以及水印检测和提取的方法和设备
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
CN102982810B (zh) 2008-03-05 2016-01-13 尼尔森(美国)有限公司 生成签名的方法和装置
US9124769B2 (en) * 2008-10-31 2015-09-01 The Nielsen Company (Us), Llc Methods and apparatus to verify presentation of media content

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3737580A (en) * 1971-01-18 1973-06-05 Stanford Research Inst Speaker authentication utilizing a plurality of words as a speech sample input
DE2150336B2 (de) * 1971-10-08 1979-02-08 Siemens Ag, 1000 Berlin Und 8000 Muenchen Analysator fuer ein spracherkennungsgeraet
DE2341458C2 (de) * 1973-08-14 1982-12-16 Yoshio Fuji Shizuoka Watanabe Reservereifenhalter für Kraftfahrzeuge
DE2431458C2 (de) * 1974-07-01 1986-05-28 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und Anordnung zur automatischen Sprechererkennung
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio
DE2920041C2 (de) * 1979-05-18 1986-09-04 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren zum Verifizieren von Signalen, und Anordnung zum Durchführen des Verfahrens
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
US4763278A (en) * 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
IT1160148B (it) * 1983-12-19 1987-03-04 Cselt Centro Studi Lab Telecom Dispositivo per la verifica del parlatore
US4783805A (en) * 1984-12-05 1988-11-08 Victor Company Of Japan, Ltd. System for converting a voice signal to a pitch signal
JPS61252594A (ja) * 1985-05-01 1986-11-10 株式会社リコー 音声パタ−ン照合方式
US4797927A (en) * 1985-10-30 1989-01-10 Grumman Aerospace Corporation Voice recognition process utilizing content addressable memory

Also Published As

Publication number Publication date
DE3750365D1 (de) 1994-09-15
HK156396A (en) 1996-08-23
US4947436A (en) 1990-08-07
WO1988004772A1 (en) 1988-06-30
EP0273615A1 (en) 1988-07-06
ATE109919T1 (de) 1994-08-15
DE3750365T2 (de) 1995-02-23
CA1329275C (en) 1994-05-03
JPH01502058A (ja) 1989-07-13
GB8630118D0 (en) 1987-01-28
EP0273615B1 (en) 1994-08-10

Similar Documents

Publication Publication Date Title
JP2895493B2 (ja) 話者識別装置および方法
US6876966B1 (en) Pattern recognition training method and apparatus using inserted noise followed by noise reduction
CA1246228A (en) Endpoint detector
US4181813A (en) System and method for speech recognition
CN108564956B (zh) 一种声纹识别方法和装置、服务器、存储介质
JPH0312319B2 (ja)
WO2020250016A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
Deshmukh et al. Automatic recognition of class variants of Marathi consonants
JP2658426B2 (ja) 音声認識方法
JPS59184398A (ja) 音声認識装置
RU2136059C1 (ru) Устройство для распознавания изолированных слов
JPH0119597B2 (ja)
JPS59184399A (ja) 音声認識装置
JPH0752355B2 (ja) 音声認識装置
Johnson et al. A phrase recognizer using syllable-based acoustic measurements
JPS59170900A (ja) 音声認識装置における辞書登録方式
JPH0221598B2 (ja)
JPS58107598A (ja) 音声認識装置
Baker et al. Density of voicing information in purely temporal consonant identification
JPS61278896A (ja) 話者照合装置
Bunn et al. Application note: spoken word recognition with a real-time spectrum analyser
Patil et al. Design of cubic spline wavelet for open set speaker classification in marathi
Aoki et al. Phonetic feature extraction based on mutual information
Houtgast On the correlation among neighboring energy pixels in the speech spectrogram
Schultz et al. Listener performance under variations in signal content