JPH05508242A - 話者認識方法 - Google Patents

話者認識方法

Info

Publication number
JPH05508242A
JPH05508242A JP92508561A JP50856192A JPH05508242A JP H05508242 A JPH05508242 A JP H05508242A JP 92508561 A JP92508561 A JP 92508561A JP 50856192 A JP50856192 A JP 50856192A JP H05508242 A JPH05508242 A JP H05508242A
Authority
JP
Japan
Prior art keywords
model
speaker
area
average
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP92508561A
Other languages
English (en)
Other versions
JP3184525B2 (ja
Inventor
ヴェンスケ マルコ
Original Assignee
ノキア テレコミュニカシオンス オサケ ユキチュア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テレコミュニカシオンス オサケ ユキチュア filed Critical ノキア テレコミュニカシオンス オサケ ユキチュア
Publication of JPH05508242A publication Critical patent/JPH05508242A/ja
Application granted granted Critical
Publication of JP3184525B2 publication Critical patent/JP3184525B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Analogue/Digital Conversion (AREA)
  • Complex Calculations (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】
話者認識方法 発明の分野 本発明は話者認識方法に関し、この方法では、話者の音声信号から得られたサン プルに基づいて計算されたモデルを、少なくとも1人の既知の話者の記憶されて いるモデルと比較することによって話者が認識される。 発明の背景 例えばコンピューター・システムや電話システムなどの種々のシステムにおいて ユーザーを認識し確認する1つの既知の方法は、音声信号を利用する。その様な 話者I!識システムは、全て、自動的に話者を認識し、異なる話者を互いに区別 するために音声パラメーターを発見しようと試みる。各話者の音声から得られた サンプルを使って、その声を特徴付ける成るパラメーターを含むモデルを作り、 ゛ そのモデルを話者!!!識システムのメモリーに記憶させる。特徴のない話 者を認識するためには、その人の音声信号のサンプルを取り、同じパラメーター から成るモデルをその音声サンプルから作って、該システムのメモリーに記憶さ れている基準モデル又はテンプレートと比較する。同定されるべき音声信号から 作られたモデルが、所定基準を適用したときに充分な精度で該メモリーに記憶さ れている既知の話者のテンプレートの1つと一致したならば、その特徴の無い話 者は、その一致したテンプレートがその音声信号から作られたところの話者と認 識される。 概して、これは全ての公知の話者認識システムにおける主な原理であるが、話者 の音声をモデル化するのに使われるパラメーター及び解決策は互いに大いに異な る。公知の話者g!識方法及びシステムの例が米国特許第4,720.863号 及び同第4.837,830号、英国特許出願第2,169.120号及び欧州 特許出願第0.369.485等に開示されている。 発明の開示 本発明の目的は新型の話者認識方法であり、この方法では、従来よりは高い精度 で且つ単純なアルゴリズムで任意の音声信号に基づいて話者を認識する。 これは、序論において記述した積項の方法によって達成され、その場合、本発明 によると、音声信号から得られたサンプルにより決定される、話者の声道の無損 失チューブ・モデルの種々の部分の断面積又はその他の断面寸法の平均を、比較 ステップにおいて、少なくとも一人の既知の話者の記憶されている声道モデルの 種々の部分の対応する平均と比較する。 本発明の基本思想は、話者に特有の声道に基づいて話者を認識することである。 この関係で用いられるとき、声道は、人がそれを使って声を生じさせるところの 、声帯、喉頭、咽頭、口腔及び口唇から成る通路を指す。話者の声道の輪郭は時 間とともに連続的に変化し、音声信号から得られる情報のみに基づいて声道の正 確な形状を判定することは困難であるが、それは、声道の異なる部分同士が複雑 に相互作用をすると共に、人によって声道の壁の物質の組成が異なることに起因 する。しかし、本発明の方法では、声道の正確な形状は不要である。本発明にお いては、無損失チューブ・モデルにより話者の声道がモデル化され、そのチュー ブの形状は各話者に特有である。また、話者の声道の輪郭と、従って無損失チュ ーブ・モデルの輪郭とは、話中に絶えず変化するけれども、声道と無損失チュー ブ・モデルとの極端な寸法と平均値とは各話者に特有の一定の値である。従って 、話者の声道の無損失チューブ・モデルの平均的形状に基づいて程よい精度で本 発明の方法により話者を認識することが出来る。本発明の1実施例では、無損失 チューブ・モデルの円筒状のいろいろな部分の平均断面積と、極端値即ち該円筒 状部分の断面積の最大値及び最小値、とに基づいて、認識が行われる。 本発明の他の実施例では、個々の音声についての無損失チューブ・モデルの平均 を定義することによって話者認識の精度が更に向上する。成る音声の際に、声道 の形状は殆ど変化せず、話者の声道をより良く表す。認識に数種類の音声が使わ れるときには、非常に高い精度が達成される。 無損失チューブ・モデルの円筒状部分の断面積は、在来の音声符号化アルゴリズ ム及びシステムで作られるいわゆる反射係数によって容易に決定され得る。勿論 、例えば半径又は直径などの、無損失チューブの他の成る断面寸法を基準パラメ ーターとして使うことも可能である。一方、該チューブの断面は必ずしも円形で なくてもよい。 図面の説明 添付図面を参照して図示の実施例により下記において本発明をより詳しく説明す る。 図1及び2は連続する円筒状部分から成る無損失チューブによる話者の声道のモ デル化を示す。 図3は、本発明による話者認識方法を示すフローチャートである。 図4は、話中の無損失チューブのモデルにおける変化を示す。 図5は、音声レベルでの話者の認識を示すブロック図である。 発明の詳細な説明 図1は、連続する円筒状部分Cl−C8から成っていて、大雑把に人の声道を表 す無損失チューブ・モデルの斜視図である。図2では、図1の無損失チューブ・ モデルが側から示されている。人の声道は、普通は、人がそれを使って声を生じ させるところの、声帯、咽喉、咽頭、及び口唇から成る通路を指す。図1及び2 において、円筒状部分C1は、声門、即ち声帯間の開口部、の後に位置する声道 セクションを表す:円筒状部分C8は、口唇の領域における声道の形状を表す: その間の円筒状部分C2−C7は、声門と口唇との間の別々の声道セクションの 形状を表す。声道の形状は、輿望的には、種々の音声が生じる話中に連続的に変 化する。同様に、異なる声道セクションを表す別々の円筒C1−C8の断面直径 及び面積は話中に変化する。発明者は、今、比較的に多数の瞬時声道形状から計 算された平均声道形状は、話者の認識のために使用し得る話者固有の定数である ことを見出している。同じことが、声道の無損失チューブ・モデルの円筒状部分 Cl−C8にも当てはまる、即ち、円筒状部分Cl−C8の断面積の瞬時値から 計算された円筒状部分C1−C8の長期平均断面積は割合に高い精度の定数であ る。更に、無損失チューブ・モデルの円筒の断面寸法の極端な値は、実際の声道 の極端な寸法によって決定され、従って話者固有の、比較的に精密な定数である 。 本発明による方法は、いわゆる反射係数、即ち、当該分野で周知の線型予測符号 化(Linear Predictive Coding (LPG))におけ る予備的結果として得られるPARCOR係数rk、を利用する。これらの係数 は、声道の形状及び構造と成る関係を持っている。反射係数rkと、声道の無損 失チューブ・モデルの円筒状部分Ckの面積Akとの関係は、方程式(1)によ って記述される。 −r (k)= (A(k+1)−A(k))/ (A(k+1)+A(k))  (11ここでに=1. 2. 3. ・・・である。 本発明に用いられる反射係数を生じさせるLPG分析は、多くの公知の音声符号 化方法に利用される。本発明による方法の1つの有利な用途は、移動無線システ ム、特に全欧州デジタル移動無線システムGSMにおける加入者の認識に見出さ れると予期されている。03M明細06.10は、そのシステムに使われる規則 的パルス励起−長期予測(RPE−LTP)音声符号化方法を非常に精密に定義 している。この音声符号化方法との関連における本発明の方法の使用は、本発明 に必要とされる反射係数が上記のRPE−LPG符号化方法で予備的結果として 得られるので、有利である。本発明の好ましい実施例では、反射係数の計算に到 るまでの全ての方法ステップと、前記ステップを具体化する装置とは、03M明 細06.10に準拠した音声符号化アルゴリズムに従うが、これを参考文献とし て本書に組み入れるものとする。下記においては、これらの方法ステップは、図 3のフローチャートを参照して本発明を理解するのに必要な限りにおいて、一般 的に説明されるに過ぎない。 図3において、入力信号INがサンプリング周波数8kH,でブロックIOにお いてサンプリングされ、8ビツト・サンプル・シーケンスS、が形成される。 入力信号INがアナログ音声信号であるときには、ブロック10は、音声をデジ タル化するために通信装置に用いられる在来のアナログ−デジタル変換回路によ って実現され得るものである。入力信号INが、例えばPCMなどのデジタル信 号であるときには、ブロックlOは、信号INと同期されたデジタル入力バッフ ァーであり得る。符号化時に発生する可能性のある干渉性の側音を除去するため に、ブロック11においてDC成分がサンプルから抽出される。ブロック11は 、デジタル・ローパス・フィルターにより実現され得るものである。その後、デ ジタル−次FIRフィルターによって高信号周波数に重みを付けることによって サンプル信号がブロック12で前強調(プレエンファシス)される。ブロック1 3において、サンプルは160個のサンプルのフレームに分けられ、各フレーム の持続時間は約20m5である。 ブロック14において、8次の自動相関関数での自動相関方法によって各フレー ムに対してLPG分析を行うことにより音声信号のスペクトルがモデル化される 。これにより、自動相関関数ACFのp+1の値がフレームから計算される。 ここで k=o、1. ・・・、8 である。 自動相関関数の代わりに、共分散関数などの他の適当な関数を使うことも可能で ある。音声符号化装置に用いられる短期間分析フィルターの8つの反射係数r。 は、GSM明細06.10で定義されているジュールの回帰法により、又は他の 適当な回帰法により、自動相関関数の得られた値から計算される。ジュールの回 帰法は、20m5毎に新しい反射係数を作る。本発明の好ましい実施例では、該 係数は16ビツトから成り、その数は8である。ジュールの回帰法を、長い期間 に適用することにより、所望ならば、反射係数の数を増やすことが出来る。 反射係数(PARCOR)は、成る方法で、米国特許第4.837.830号に 記載されている装置によっても決定され得る。これを参考文献として本書に組み 入れるものとする。 ブロック16において、話者の声道の無損失チューブ・モデルの各円筒状部分C kの断面積A、が、各フレームから計算された反射係数r、に基づいて計算され てメモリー装置に記憶される。ジュールの回帰法が20m5毎に反射係数の新し い組を作るので、各円筒状部分C5について毎秒50の面積値があることになる 。 ブロック17において、無損失チューブ・モデルの円部面積がブロック16でN フレームについて計算された後、メモリーに記憶されているN個の無損失チュー ブ・モデルの円筒状部分CKの面積についての平均値Aよ、、。が計算され、各 円筒状部分C1こついて前記N個のフレーム時に生じた最大断面積Ak、akが 決定される。ブロック18において、話者の声道の無損失チューブ・モデルの円 筒状部分の得られた平均面積Ah、avsと最大面積Ah、mahとは、少なく とも一人の既知の話者の所定無損失チューブ・モデルの平均面積及び最大面積と 比較される。 このパラメーターの比較によって、無損失チューブの計算された平均形状が、メ モリーに記憶されている所定モデルの1つと一致することが示されたならば、判 定ブロック19にブロック21が続き、ここで、分析された話者か、このモデル (肯定的認識)により表される人であることが確かめられる。若し、計算された パラメーターが、メモリーに記憶されている所定のモデルのいずれか1つの対応 するパラメーターと対応又は一致しなければ、判定ブロック19にブロック20 が続き、ここで、話者が未知であること(否定的認識)か示される。 例えば、移動無線システムでは、ブロック21は接続の確率又は特別のサービス の使用を許すことがあり、ブロック20は、これらの手順を防げる。ブロック2 1は、肯定的認識を示す信号の発生を含むことが出来る。 ブロック18において平均面積と最大面積とが計算された後、計算された面積デ ータは、例えば名前や電話番号などの他の所要の個人識別データと共に認識シス テムのメモリーに記憶されることを除いて図3のフローチャートに示されている 手順と実質的に類似している手順によって認識するために新しいモデルを計算し てメモリーに記憶させることが出来る。 本発明の他の実施例では、認識に使われる分析は音響のレベルで行われ、声道の 無損失チューブ・モデルの円筒状部分の断面積の平均値は、所定の音声の際に作 られる瞬時無損失チューブ・モデルの円筒状部分の面積から分析される音声信号 から計算される。1つの音響の持続時間は、どちらかと言えば長いので、音声信 号中に存在する単一の音響から数個の、数十個にも及ぶ引き続くモデルを計算す ることが出来る。これは図4に示されており、これは4つの連続する瞬時無損失 チューブ・モデル5t−34を示す。図4から明らかに分かるように、無損失チ ューブの個々の円筒の半径(及び断面積)は、時間の経過に従って変化する。 例えば、瞬時モデルSl、S2及びS3は、同じ音響の際に作られたと大雑把に 分類できるものであるので、その平均値が計算され得る。むしろ、モデルS4は 異なっていて、異なる音響と関連しているので、これは平均を取るときに考慮さ れない。 下記において、音響レベルによる認識について、図5のブロック図を参照して説 明する。認識は単一の音響によっても行われ得るけれども、例えば母音及び/又 は子音など、少な(とも2つの異なる音響を用いるのが好ましい。これらの音響 に対応する既知の話者の所定の無損失チューブ・モデルは、メモリーに記憶され るいわゆる組み合わせテーブル58を構成する。単純な組み合わせテーブルは、 例えば3つの音faJ、reJ及び「11について計算された無損失チューブ・ モデルの円筒の平均面積、即ち、3つの異なる平均無損失チューブ・モデルから 成る。この組み合わせテーブルは、上記の話者固有ファイル内のメモリーに記憶 される。反射係数によって認識されるべき未知の話者のサンプリングされた音声 から計算された(ブロック51)瞬時無損失チューブ・モデルが所定のモデルの 1つにほぼ対応すると(ブロック52)発見(量子化)されたならば、それは後 の平均を取る動作のためにメモリーに記憶される(ブロック53)。各音につい て充分な数Nの瞬時無損失チューブ・モデルが得られたとき、無損失チューブ・ モデルの円筒状部分の断面積の平均値AIIが各音について別々に計算される( ブロック55)。平均値AlHは、組み合わせテーブル58に格納されている対 応するモデルの円筒の断面積A++と比較される。組み合わせテーブル58の各 モデルは、相互相関関数などの、それ自身の基準関数56及び57を持っており 、これによって、音声から計算されたモデルと組み合わせテーブル58に格納さ れているモデルとの対応又は相関が評価される。全ての音又は充分な数の音につ いて計算されたモデルと、その格納されているモデルとの間に充分に正確な相関 があれば、未知の話者が認識される。 瞬時無損失チューブ・モデル59の各円筒状部分の断面寸法が、既知の話者の対 応する音声の所定の格納されている限界値内にあるならば、サンプリングされた 音声信号から作られた瞬時無損失チューブ・モデル59は、ブロック52におい て、成る音に対応するものと発見され得る。これらの音響特有及び円筒特有の限 界値は、メモリー内のいわゆる量子化テーブル54に格納される。図5において 、参照数字60及び61は、前記の音響及び円筒に特有の限界値がどの様にして 各音響についてマスク又はモデルを作るかを示しており、識別されるべき瞬時声 道モデル59はその許容領域60A及び61A(無陰影領域)内に属さなければ ならない。図5において、瞬時声道モデル59は音響マスク60の中に嵌められ ることか出来るが、それが音響マスク61の中に嵌められ得ないことは明らかで ある。よってブロック52は1種の音響フィルターとして作用し、これは声道モ デルをそれぞれの音響グループa、e、i等々に類別する。 この方法は、例えば、少なくとも、ソフトウェアを記憶するROM又はEEFR OMメモリーと、RAM型作業メモリーと、入力信号IN又は音声デジタイザー 10のためのインターフェースとを育する在来の信号処理システムにおけるソフ トウェアにより実現され得る。所定モデル及びその他の所定認識パラメーターも 、EEPROMなどの不揮発性メモリーに記憶されることか出来る。本方法は、 米国特許第4.837.830号に開示されている装置においてソフトウェアと して実現されることも出来る。 数字と、それに関する説明とは、本発明を説明することのみを目的とするもので ある。詳細に関しては、本発明は添付のクレームの範囲内で変化し得るものであ る。
【11F類名】 要約書 本発明は話者認識方法に関し、これは、音声信号から得られたサンプルに基づい て計算されたモデルを、少なくとも一人の既知の話者の記憶されているモデルと 比較することから成る。本発明による方法においては、音声信号から得られたサ ンプルにより計算される、話者の声道の無損失チューブ・モデルの種々の部分( CI −C8)の断面積又はその他の断面寸法の平均を、少なくとも一人の既知 の話者の記憶されている声道モデルの種々の部分の対応する平均と比較する。 国際調査報告 国際調査報告

Claims (7)

    【特許請求の範囲】
  1. 1.話者の音声信号から得られたサンプルに基づいて計算されたモデルを、少な くとも一人の既知の話者の記憶されているモデルと比較することによって話者を 認識する話者認識方法であって、音声信号から得られたサンプルにより決定され る、話者の声道の無損失チューブ・モデルの種々の部分の断面積又はその他の断 面寸法の平均を、前記比較ステップにおいて、少なくとも一人の既知の話者の記 憶されている声道モデルの種々の部分の対応する平均と比較することを特徴とす る方法。
  2. 2.a)音声信号から得られたサンプルを、M個のサンプルを包含するフレーム に分類し、 b)該フレームのサンプルから所定の自動相関関数又は対応する関数の値を計算 し、 c)該自動相関関数等の値から反射係数を回帰的に計算し、d)該反射係数によ り計算されたパラメーターを、少なくとも一人の既知の話者の対応する記憶され ているパラメーターと比較することから成り、ステツプd)は、 該フレームの反射係数に基づいて円筒状部分により声道の無損失チューブ・モデ ルの各円筒状部分の面積を計算し、 N個のフレームにおいて前記面積の計算を反復して、各円筒状部分について別々 に得られた面積の平均値を計算し、 その計算された平均面積を、少なくとも一人の既知の話者の記憶されているモデ ルの円筒状部分の平均面積と比較することから成ることを特徴とする請求の範囲 第1項に記載の方法。
  3. 3.各円筒状部分の面積の極端な値がN個のフレーム中に決定され、該円筒状部 分の平均面積及び最大面積が、少なくとも一人の既知の話者の記憶されている声 道モデルの円筒状部分の平均面積及び最大面積と比較されることを特徴とする請 求の範囲第1項または第2項に記載の方法。
  4. 4.声道の無損失チューブ・モデルの円筒状部分の平均断面寸法は、所定音響中 に作られた瞬時無損失チューブ・モデルの円筒状部分の断面寸法の平均値により 形成されることを特徴とする請求の範囲第1項、第2項または第3項に記載の方 法。
  5. 5.無損失チューブ・モデルの円筒状部分の断面寸法の平均値は少なくとも2つ の異なる音響について別々に計算され、各音響の無損失チューブ・モデルの円筒 状部分の平均値は、既知の話者のそれぞれの音響の記憶されている無損失チュー ブ・モデルの円筒状部分の断面寸法と比較され、 充分な数の音響の計算された無損失チューブ・モデルが、それぞれの記憶されて いる無損失チューブ・モデルと充分正確に相関するならば話者が認識されること を特徴とする請求の範囲第4項に記載の方法。
  6. 6.サンプリングされた音声信号から作られた瞬時無損失チューブ・モデルは、 瞬時無損失チューブ・モデルの各部分の断面寸法が、量子化テーブルに格納され ているそれぞれの音響の所定限界値内に属するならば、所定の音響に対応すると 発見されることを特徴とする請求の範囲第4項又は第5項に記載の方法。
  7. 7.前記音響は母音及び/又は子音であることを特徴とする請求の範囲第4項、 第5項または第6項に記載の方法。
JP50856192A 1991-04-30 1992-04-29 話者認識方法 Expired - Fee Related JP3184525B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI912088 1991-04-30
FI912088A FI91925C (fi) 1991-04-30 1991-04-30 Menetelmä puhujan tunnistamiseksi
PCT/FI1992/000128 WO1992020064A1 (en) 1991-04-30 1992-04-29 Speaker recognition method

Publications (2)

Publication Number Publication Date
JPH05508242A true JPH05508242A (ja) 1993-11-18
JP3184525B2 JP3184525B2 (ja) 2001-07-09

Family

ID=8532415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50856192A Expired - Fee Related JP3184525B2 (ja) 1991-04-30 1992-04-29 話者認識方法

Country Status (8)

Country Link
EP (1) EP0537316B1 (ja)
JP (1) JP3184525B2 (ja)
AT (1) ATE140552T1 (ja)
AU (1) AU653811B2 (ja)
DE (1) DE69212261T2 (ja)
FI (1) FI91925C (ja)
NO (1) NO306965B1 (ja)
WO (1) WO1992020064A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127891A (ja) * 2005-11-04 2007-05-24 Advanced Telecommunication Research Institute International 発話主体同定装置及びコンピュータプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI96246C (fi) * 1993-02-04 1996-05-27 Nokia Telecommunications Oy Menetelmä koodatun puheen lähettämiseksi ja vastaanottamiseksi
FI96247C (fi) * 1993-02-12 1996-05-27 Nokia Telecommunications Oy Menetelmä puheen muuntamiseksi

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1334868C (en) * 1987-04-14 1995-03-21 Norio Suda Sound synthesizing method and apparatus
FR2632725B1 (fr) * 1988-06-14 1990-09-28 Centre Nat Rech Scient Procede et dispositif d'analyse, synthese, codage de la parole
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127891A (ja) * 2005-11-04 2007-05-24 Advanced Telecommunication Research Institute International 発話主体同定装置及びコンピュータプログラム
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム

Also Published As

Publication number Publication date
FI912088A0 (fi) 1991-04-30
FI912088A (fi) 1992-10-31
FI91925B (fi) 1994-05-13
ATE140552T1 (de) 1996-08-15
NO924782D0 (no) 1992-12-10
AU653811B2 (en) 1994-10-13
DE69212261T2 (de) 1997-02-20
NO924782L (no) 1993-02-26
DE69212261D1 (de) 1996-08-22
AU1653092A (en) 1992-12-21
WO1992020064A1 (en) 1992-11-12
JP3184525B2 (ja) 2001-07-09
FI91925C (fi) 1994-08-25
EP0537316B1 (en) 1996-07-17
NO306965B1 (no) 2000-01-17
EP0537316A1 (en) 1993-04-21

Similar Documents

Publication Publication Date Title
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
CA2247006C (en) Speech processing
US4181813A (en) System and method for speech recognition
CN1168070C (zh) 分布式语音识别系统
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
CN108900725A (zh) 一种声纹识别方法、装置、终端设备及存储介质
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US5659658A (en) Method for converting speech using lossless tube models of vocals tracts
US5522013A (en) Method for speaker recognition using a lossless tube model of the speaker's
JPS5827200A (ja) 音声認識装置
KR102098956B1 (ko) 음성인식장치 및 음성인식방법
Singh et al. A critical review on automatic speaker recognition
JPH05508242A (ja) 話者認識方法
JPH1097274A (ja) 話者認識方法及び装置
US5715362A (en) Method of transmitting and receiving coded speech
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JPH04324499A (ja) 音声認識装置
Orphanidou et al. Voice morphing using the generative topographic mapping
JP3003136B2 (ja) 音声認識方法および音声応答システム
JPS62100799A (ja) 音声認識方法
Caeiros et al. Esophageal Speech Enhancement Using a Feature Extraction Method Based on Wavelet Transform
JPH03120434A (ja) 音声認識装置
Phythian Speaker identification for forensic applications
JP2007513376A (ja) 音声処理装置及び方法
JP2000242292A (ja) 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees