JP4061094B2 - 音声認識装置、その音声認識方法及びプログラム - Google Patents

音声認識装置、その音声認識方法及びプログラム Download PDF

Info

Publication number
JP4061094B2
JP4061094B2 JP2002072456A JP2002072456A JP4061094B2 JP 4061094 B2 JP4061094 B2 JP 4061094B2 JP 2002072456 A JP2002072456 A JP 2002072456A JP 2002072456 A JP2002072456 A JP 2002072456A JP 4061094 B2 JP4061094 B2 JP 4061094B2
Authority
JP
Japan
Prior art keywords
speech
model
noise
input speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002072456A
Other languages
English (en)
Other versions
JP2003280686A (ja
Inventor
哲也 滝口
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2002072456A priority Critical patent/JP4061094B2/ja
Priority to US10/389,859 priority patent/US7403896B2/en
Publication of JP2003280686A publication Critical patent/JP2003280686A/ja
Priority to US11/971,651 priority patent/US7660717B2/en
Application granted granted Critical
Publication of JP4061094B2 publication Critical patent/JP4061094B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識システムに関し、特に突発的に発生したり不規則に発生したりするような急激な変化を伴う雑音に対処して音声認識を行う方法に関する。
【0002】
【従来の技術】
コンピュータにて音声を認識する音声認識処理では、種々の雑音源が存在する環境下においても精度の高い認識を行うことが課題の1つとなっている。
従来、雑音環境下で音声認識を行う手法として、スペクトラル・サブトラクション(Spectral Subtraction)法、HMM(Hidden Markov Model:隠れマルコフモデル)合成法、CDCN(Codeword-Dependent Cepstral Normalization)法など、種々の手法が提案されている。
【0003】
これらの手法は、音声認識を目的としていることに鑑み、基本的に、1回の発話(発生)が終了した後に、当該発話中の音声信号の中から雑音に相当する部分を特定し、この特定された雑音部分を考慮して(もしくは除去して)音声認識を行っている。
例えば、HMM合成法では、種々の雑音HMMと音声HMMをそれぞれ合成して雑音の要素が加味された音韻隠れマルコフモデル(合成HMM)を生成し、認識対象の音声に対して最も尤度の高い合成HMMに基づいて音声認識を行うことにより雑音に対処しているが、従来のHMM合成法は、1回の発話ごとに尤度が最大である合成HMMを選択し、認識結果として採用している。すなわち、1つの発話に対して1つの雑音HMMが選択されることとなる。
【0004】
【発明が解決しようとする課題】
ところで、種々の雑音源が存在する環境下では、定常的に発生し続ける雑音や突発的に発生する雑音、不規則に発生する雑音など、雑音の発生の仕方も様々である。上述した従来の音声認識処理における雑音への対処技術は、1回の発話ごとに雑音の種類を認定して対処しているため、定常的に発生し続ける雑音や規則的に発生する雑音に対しては十分な効果を奏し、良好な音声認識を実現することができる。
しかし、突発的に発生する雑音や不規則に発生する雑音は、発話の最中に発生する場合があり、1回の発話ごとに雑音の種類を認定する従来の技術は、このような急激に変化する雑音に対処できず、音声認識の精度を低下させる原因となっていた。
【0005】
そこで、本発明は、突発的に発生する雑音や不規則に発生する雑音などのような急激な変化を伴う雑音に対しても十分に対処し、精度の高い音声認識を実現することを目的とする。
【0006】
【課題を解決するための手段】
上記の目的を達成する本発明は、所定の音声と、予め収録された音声データの音韻隠れマルコフモデルとのマッチングを取ることにより音声認識を行う、次のように構成された音声認識装置として実現される。この音声認識装置は、認識対象である入力音声の特徴量を抽出する特徴量抽出部と、予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データの隠れマルコフモデルとを合成し合成モデルを作成する合成モデル作成部と、特徴量抽出部にて抽出された入力音声の特徴量と合成モデル作成部にて作成された合成モデルとのマッチングを取ることにより入力音声を認識する音声認識部とを備える。
【0007】
ここで、この音声認識部は、入力音声における発話区間を区切る適当な区間ごとに、具体的には例えば音声フレームごとに、独立してマッチング対象となる合成モデルを選択し、この入力音声の特徴量と選択された合成モデルとのマッチングを取ることを特徴とする。
さらに、この音声認識装置において、音声認識部は、発話中の入力音声に含まれる雑音の変化に応じてマッチング対象となる合成モデルを動的に選択しながらマッチングを取ることを特徴とする。
【0008】
また、本発明による他の音声認識装置は、音声認識のためのモデルとなる音声データを格納した音声データベースと、所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、音声データベースから読み出した音声データに基づき作成される音声モデルと雑音データベースから読み出した雑音データに基づき作成される雑音モデルとを合成して合成モデルを作成する合成モデル作成部と、認識対象である入力音声の特徴量と合成モデルとに関して、この入力音声の音声フレームごとに独立してマッチングを取ることにより音声認識を行う音声認識部とを備えることを特徴とする。
【0009】
さらにまた、本発明の他の音声認識装置は、音声認識のためのモデルとなる音声データを格納した音声データベースと、所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、音声データベースから読み出した音声データに基づき作成される音声モデルと雑音データベースから読み出した雑音データに基づき作成される雑音モデルとを合成して合成モデルを作成する合成モデル作成部と、認識対象である入力音声の特徴量と合成モデルとに関して、発話中の入力音声に含まれる雑音の変化に応じてマッチング対象となる合成モデルを動的に選択しながらマッチングを取ることにより音声認識を行う音声認識部とを備えることを特徴とする。
【0010】
また、上記の目的を達成する他の本発明は、コンピュータを制御して、音声を認識する、次のような音声認識方法として実現される。この音声認識方法は、認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、所定の音声データと雑音データとに基づいて生成された雑音の要素が加味された音韻隠れマルコフモデルをメモリから読み出すステップと、入力音声の音声フレームごとに入力音声の特徴量と音韻隠れマルコフモデルとのマッチングを取り、マッチングの結果に基づいて入力音声を認識するステップとを含むことを特徴とする。ここで、より詳しくは、入力音声を認識するステップは、入力音声の音声フレームごとに、独立してマッチング対象となる音韻隠れマルコフモデルを選択し、入力音声の特徴量と音韻隠れマルコフモデルとのマッチングを取る。
【0011】
さらに本発明による他の音声認識方法は、認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、所定の音声データと雑音データとに基づいて生成された雑音の要素が加味された音韻隠れマルコフモデルをメモリから読み出すステップと、入力音声の特徴量と音韻隠れマルコフモデルとに関して、発話中の入力音声に含まれる雑音の変化に応じてマッチング対象となる音韻隠れマルコフモデルを動的に選択しながらマッチングを取ることにより入力音声を認識するステップとを含むことを特徴とする。
【0012】
また、本発明は、コンピュータを制御して上記の音声認識装置を実現し、あるいは上記の音声認識方法の各ステップに対応する処理をコンピュータに実行させるプログラムとして実現される。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。
【0013】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
図1は、本実施の形態による音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図1に示すコンピュータ装置は、演算手段であるCPU(Central Processing Unit:中央処理装置)101と、M/B(マザーボード)チップセット102及びCPUバスを介してCPU101に接続されたメインメモリ103と、同じくM/Bチップセット102及びAGP(Accelerated Graphics Port)を介してCPU101に接続されたビデオカード104と、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット102に接続されたハードディスク105及びネットワークインターフェイス106と、さらにこのPCIバスからブリッジ回路107及びISA(Industry Standard Architecture)バスなどの低速なバスを介してM/Bチップセット102に接続されたフロッピーディスクドライブ108及びキーボード/マウス109とを備える。また、処理対象である音声を入力し、音声データに変換してCPU101へ供給するためのサウンドカード(サウンドチップ)110及びマイクロフォン111を備える。
なお、図1は本実施の形態を実現するコンピュータ装置のハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード104を設ける代わりに、ビデオメモリのみを搭載し、CPU101にてイメージデータを処理する構成としても良いし、ATA(AT Attachment)などのインターフェイスを介してCD−ROM(Compact Disc Read Only Memory)やDVD−ROM(Digital Versatile Disc Read Only Memory)のドライブを設けても良い。
【0014】
図2は、図1に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
本実施の形態は、自動車の車室内のような発生する雑音の種類がある程度限定される環境において、HMM(隠れマルコフモデル)合成法を用いて、突発的に発生する雑音や不規則に発生する雑音に対処し、高精度な音声認識を行う音声認識システムを実現する。
図2に示すように、本実施の形態による音声認識システムは、音声入力部10と、特徴量抽出部20と、音声認識部30とを備えると共に、音声認識部30にて使用される合成HMMを生成する合成HMM作成部40を備えている。また、合成HMM作成部40にて合成HMMを生成するために用いられる音声データベース50及び雑音データベース60を備える。
【0015】
上記の構成において、特徴量抽出部20、音声認識部30及び合成HMM作成部40は、図1に示したメインメモリ103に展開されたプログラムにてCPU101を制御することにより実現される仮想的なソフトウェアブロックである。CPU101を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。本実施の形態では、図1に示したネットワークインターフェイス106やフロッピーディスクドライブ108、図示しないCD−ROMドライブなどを介して当該プログラムを入力し、ハードディスク105に格納する。そして、ハードディスク105に格納されたプログラムをメインメモリ103に読み込んで展開し、CPU101にて実行することにより、図2に示した各構成要素の機能を実現する。
また、音声入力部10は、マイクロフォン111及びサウンドカード110にて実現される。音声データベース50及び雑音データベース60は、例えばハードディスク105にて実現される。
【0016】
本実施の形態において、音声入力部10は、図1に示したマイクロフォン111及びサウンドカード110にて実現され、音声を入力すると共に、当該音声を電気的な音声信号に変換して特徴量抽出部20に渡す。
特徴量抽出部20は、音声入力部10から受け取った音声信号に対して特徴量の抽出を行う。抽出された特徴量は、メインメモリ103やCPU101のキャッシュメモリにおける所定の領域に格納される。音声認識のHMMにおいては、音響パラメータとしてケプストラム係数が広く用いられており、特徴量抽出部20は、特徴量の抽出処理としてケプストラム分析を行うことができる。
音声認識部30は、特徴量抽出部20にて抽出された入力音声信号の特徴量と所定の音声モデル(HMM)とのマッチングを行い、マッチングの結果(認識結果)として得られた文字(テキスト)を出力する。本実施の形態では、後述する合成HMM作成部40にて作成される合成HMMを用いることにより、音声認識部30による音声認識処理で使用される音響モデル(音韻モデル、単語モデルなど)を突発的な雑音や不規則な雑音の発生する環境に適応させてマッチングを行う。合成HMMを用いたマッチングについては後述する。
【0017】
合成HMM作成部40は、音声データベース50及び雑音データベース60にアクセスして合成HMMを生成する。
図3は、合成HMM作成部40の機能を説明する機能ブロック図である。
図3を参照すると、合成HMM作成部40は、音声データベース50にアクセスして音声のモデル(音声HMM)を作成する音声HMM作成部41と、雑音データベース60にアクセスして予め収録されている雑音のモデル(雑音HMM)を作成する雑音HMM作成部42と、作成された音声HMMと雑音HMMとを合成して雑音の要素が加味された音韻隠れマルコフモデル(合成HMM)を生成するHMM合成部43とを備える。
【0018】
音声データベース50には、雑音のない環境で収録された音声データが登録されており、音声HMM作成部41は、この音声データを用いて音声HMMを作成する。作成された音声HMMは、メインメモリ103やCPU101のキャッシュメモリの所定領域に保持される。
雑音データベース60には、本実施の形態における音声認識システムの使用環境で想定される雑音データが登録されており、雑音HMM作成部42は、この雑音データを用いて、雑音源ごとに独立に雑音HMMを作成する。作成された雑音HMMは、メインメモリ103やCPU101のキャッシュメモリの所定領域に保持される。
【0019】
ここで、雑音データベース60について、さらに説明する。
実環境下では様々な雑音要因が存在するため、それら全てについて雑音データを収録し、雑音HMMを作成しようとすると、データ量が膨大になる。しかしながら、音声認識システムが使用される環境によっては、頻繁に発生する雑音の種類がある程度限定される場合がある。例えば、カーナビゲーションシステムの入力手段として搭載される音声認識システムの場合、車室内で頻繁に発生する雑音としては、比較的定常な走行中雑音(エンジン音やロードノイズ)の他、非定常的な雑音としてマンホールなどを踏む音やウィンカー音、ワイパーの動作する音などが想定される。そこで、音声認識システムが使用される環境に応じて、頻繁に発生することが想定される雑音について雑音データベース60を作成しておくことで、データ量が過大とならない実用的な音声認識システムを実現できる。なお、ハードウェア(CPU101等)の処理能力等に応じて、処理できる雑音データの量も変化することから、雑音データベース60のサイズを柔軟に変更できるのは言うまでもない。
【0020】
HMM合成部43は、音声HMM作成部41にて作成された音声HMMと雑音HMM作成部42にて作成された雑音HMMとをメインメモリ103等から取得し、これらを合成して合成HMMを作成する。
図4は、HMM合成部43の動作を説明する図である。
図4において、所定の音声/p/を構成するHMMの3つの状態のうち、i番目の状態の出力確率分布をNi(p)で表し、各雑音モデルの出力確率分布をN(a)、N(b)、N(c)、…で表す。
【0021】
ここで、これらHMMにおける出力確率分布がケプストラム領域で作成されているものとする。この場合、HMM合成部43は、音声HMM及び雑音HMMのそれぞれに対し、コサイン変換を行い、さらに指数変換を行ってスペクトラル領域に変換した上で、分布の畳み込み(合成)を行う。
次に、合成された分布に対し、対数変換を行い、さらに逆コサイン変換を行ってケプストラム領域まで変換することにより、合成HMMを得る。分布の合成は、雑音源ごとに独立して用意された雑音HMMの出力確率分布に対して行われるため、合成HMMも雑音源ごとに独立に定義されることとなる。得られた合成HMMは、メインメモリ103やCPU101のキャッシュメモリにおける所定の領域に保持される。
以上の分布の変換については、例えば次の文献に詳細に記載されている。
文献:T. Takiguchi 他、"HMM-Separation-Based Speech Recognition for a Distant Moving Speaker," IEEE Transactions on speech and audio processing, Vol. 9, No. 2, pp. 127-140, 2001.
【0022】
音声認識部30は、特徴量抽出部20にて抽出された入力音声信号の特徴量と、上記のようにして合成HMM作成部40により作成された合成HMMとのマッチングを取ることにより、この入力音声信号を認識する。なお、音声認識処理を完了するためには、本実施の形態にて行われる音響的な解析の他に、言語的な解析が行われることが必要であるが、この言語的な解析については本実施の形態による技術の対象ではなく、公知の技術を用いることができる。
ここで、本実施の形態における音声認識部30は、入力音声信号の特徴量と合成HMMとのマッチング(尤度計算)を、当該入力音声信号における音声フレーム単位で独立に行う。音声フレームとは、音声データにおける時間軸の最小単位である。
【0023】
図5は、本実施の形態による音声認識部30の音声認識処理を説明するフローチャートである。
図5に示すように、音声認識部30は、メインメモリ103等から、特徴量抽出部20にて抽出された入力音声信号の特徴量と、上述した合成HMMとを取得し(ステップ501、502)、音声フレーム単位で、入力音声信号の特徴量との尤度が最大となる合成HMMを選択し(ステップ503)、その値をその時刻(音声フレーム)での尤度として採用する。採用された尤度は、メインメモリ103やCPU101のキャッシュメモリに一時的に保持される。
そして、発話終了まで、音声フレームごとに最も尤度が高くなる合成HMMを選択しながら、各時刻(音声フレーム)での最大尤度を加算していく(ステップ504)。すなわち、音声認識部30は、音声フレームについて最大尤度が得られたならば、メインメモリ103等に保持されている尤度を読み出して加算し、再びメインメモリ103等に保存する。これにより、ステップ503で選択された合成HMMの尤度が、直前の音声フレームまでの最大尤度の総和に随時加算されていく。この処理を発話終了まで繰り返すことにより、当該発話全体に対する尤度が算出される(ステップ505)。発話終了まで処理が尤度を加算する処理が行われたならば、算出された当該発話全体に対する尤度を用いて認識を行い、結果を出力する(ステップ505、506)。
【0024】
以上のようにして、1つの発話に対する認識処理において、雑音を加味した合成HMMとのマッチングを音声フレーム単位で独立に行うことにより、突発的な雑音の発生などにより1つの発話中に雑音の状態や種類が変化した場合でも、マッチングにおいて適用する雑音モデルを動的に変更して対応することが可能となる。所定の入力音声信号において、どの部分が発話であるかについては、既存の手法を用いて判断することができる。
【0025】
なお、上述した本実施の形態の動作においては、音声フレーム単位でマッチする(最大尤度の)合成HMMの探索を行ったが、一定の時間あるいは音声HMMの状態や音声HMMごとというように、発話区間を区切る適当な区間ごとに同一の雑音HMMを割り当てることにより、マッチングにおける合成HMMの探索時間を削減し処理コストを軽減することも可能である。この場合、非定常的な雑音に対する対応力は音声フレームごとにマッチングを行う場合に比べると低下するが、音声認識システムが使用される雑音環境(想定される雑音の種類等)に応じて適切な間隔を設定することにより、音声認識の精度を低下させることなく適用することができる。
【0026】
次に、本実施の形態を用いた具体的な評価実験について説明する。
本実施の形態による音声認識システムを、自動車の車室内での音声認識に用い、雑音を考慮しない音声モデルを用いた認識(Clean HMMs)、従来のHMM合成法による認識(手法1)、本実施の形態による認識(手法2)で、認識率を測定し比較した。また、突発性の雑音としてハザード(ウィンカー)音、ある程度の時間長を持つ非定常雑音としてワイパーの動作音、定常雑音としてアイドリング時のエンジン雑音の3種類の雑音に対して本手法の有効性を検証した。
【0027】
<評価1>
ここでは、評価音声データに、
・アイドリング時のエンジン雑音(以下、アイドリング雑音)
・ハザード(ウィンカー)音
の2種類の雑音が加算されている。ここで、ハザード音は、1周期が約0.4secである。
認識時に予め用意されている雑音HMMは、1.アイドリング雑音、2.走行雑音(一般道路を約40〜50Kmで走行した際のロードノイズ)、3.ハザード音、4.ワイパー動作音、5.ハザード音+アイドリング雑音、6.ワイパー音+走行雑音の6種類である。また、1つの雑音HMMは、1つの状態と1つの多次元正規分布とで表されているものとする。
次に、これらの雑音HMMと音声HMM(55個の音韻HMM)との合成を行う。音声HMMは、各音韻が状態ごとに4つの多次元正規分布を持ち、この状態ごとに雑音HMMとの合成を行う。
信号の分析条件は、サンプリング周波数12kHz、フレーム幅32msec、分析周期8msecである。音響特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)16次元を用いた。また、テスト話者は男性1人で、500単語認識を行った。
【0028】
図6は、以上の条件で行われた3種類の手法による音声認識の結果(認識率)を示す図表である。
図6を参照すると、定常的なアイドリング雑音しか対応できない手法1(従来のHMM合成法)に比べて、突発的なハザード音にも対応する手法2(本実施の形態)の方が、認識率が大きく改善されていることがわかる。
【0029】
<評価2>
ここでは、評価音声データに、
・走行雑音(一般道路走行中)
・ワイパー動作音
の2種類の雑音が加算されている。ここで、ワイパー動作音は、1周期が約1.1secである。その他の条件は、<評価1>の条件と同じである。
図7は、以上の条件で行われた3種類の手法による音声認識の結果(認識率)を示す図表である。
図7を参照すると、上記の条件では、1つの発話中にワイパー動作音が発生している区間と無い区間とがあるため、発話区間内で適用する雑音モデルを動的に切り替える手法2(本実施の形態)の方が、手法1(従来のHMM合成法)よりも高い認識精度を得ていることがわかる。
【0030】
【発明の効果】
以上説明したように、本発明によれば、突発的に発生する雑音や不規則に発生する雑音などのような急激な変化を伴う雑音に対しても十分に対処し、精度の高い音声認識を実現することができる。
【図面の簡単な説明】
【図1】 本実施の形態による音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図2】 図1に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
【図3】 本実施の形態における合成HMM作成部の機能を説明する図である。
【図4】 本実施の形態におけるHMM合成部の動作を説明する図である。
【図5】 本実施の形態による音声認識部の音声認識処理を説明するフローチャートである。
【図6】 本実施の形態と従来の技術による音声認識の結果(認識率)を比較する図表である。
【図7】 本実施の形態と従来の技術による音声認識の他の結果(認識率)を比較する図表である。
【符号の説明】
10…音声入力部、20…特徴量抽出部、30…音声認識部、40…合成HMM作成部、41…音声HMM作成部、42…雑音HMM作成部、43…HMM合成部、101…CPU、102…M/Bチップセット、103…メインメモリ、110…サウンドカード、111…マイクロフォン

Claims (13)

  1. 所定の音声と、予め収録された音声データの音韻隠れマルコフモデルとのマッチングを取ることにより音声認識を行う音声認識装置において、
    認識対象である入力音声の特徴量を抽出する特徴量抽出部と、
    前記音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成部と、
    前記特徴量抽出部にて抽出された前記入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとのマッチングを取ることにより前記入力音声を認識する音声認識部とを備え、
    前記音声認識部は、前記入力音声における発話区間を区切る適当な区間ごとに当該入力音声の特徴量と前記合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする音声認識装置。
  2. 前記音声認識部は、前記入力音声の音声フレームごとに、独立してマッチング対象となる前記合成モデルを選択し、当該入力音声の特徴量と当該合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする請求項1に記載の音声認識装置。
  3. 所定の音声と、予め収録された音声データの音韻隠れマルコフモデルとのマッチングを取ることにより音声認識を行う音声認識装置において、
    認識対象である入力音声の特徴量を抽出する特徴量抽出部と、
    前記音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成部と、
    前記特徴量抽出部にて抽出された前記入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとのマッチングを取ることにより前記入力音声を認識する音声認識部とを備え、
    前記音声認識部は、発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら当該入力音声の特徴量との尤度計算を行ってマッチングを取ることを特徴とする音声認識装置。
  4. 音声認識のためのモデルとなる音声データを格納した音声データベースと、
    所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、
    前記音声データベースから読み出した音声データに基づき作成される音声モデルと前記雑音データベースから読み出した雑音データに基づき雑音源ごとに独立に作成される雑音モデルとを合成して雑音源ごとに合成モデルを作成する合成モデル作成部と、
    認識対象である入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとに関して、前記入力音声の音声フレームごとに独立して尤度計算を行ってマッチングを取ることにより音声認識を行う音声認識部と
    を備えることを特徴とする音声認識装置。
  5. 音声認識のためのモデルとなる音声データを格納した音声データベースと、
    所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、
    前記音声データベースから読み出した音声データに基づき作成される音声モデルと前記雑音データベースから読み出した雑音データに基づき雑音源ごとに独立に作成される雑音モデルとを合成して雑音源ごとに合成モデルを作成する合成モデル作成部と、
    認識対象である入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとに関して、発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら当該入力音声の特徴量との尤度計算を行ってマッチングを取ることにより音声認識を行う音声認識部と
    を備えることを特徴とする音声認識装置。
  6. コンピュータを制御して、音声を認識する音声認識方法において、
    認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、
    所定の音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成して生成された雑音源ごとに独立の合成モデルをメモリから読み出すステップと、
    前記入力音声の音声フレームごとに、前記メモリに格納された前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取り、当該マッチングの結果に基づいて前記入力音声を認識するステップと
    を含むことを特徴とする音声認識方法。
  7. 前記入力音声を認識するステップは、前記入力音声の音声フレームごとに、独立してマッチング対象となる前記合成モデルを選択し、当該入力音声の特徴量と当該合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする請求項6に記載の音声認識方法。
  8. コンピュータを制御して、音声を認識する音声認識方法において、
    認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、
    所定の音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成して生成された雑音源ごとに独立の合成モデルをメモリから読み出すステップと、
    前記メモリに格納された前記入力音声の特徴量と雑音源ごとの前記音韻隠れマルコフモデルとに関して、発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら当該入力音声の特徴量との尤度計算を行ってマッチングを取ることにより前記入力音声を認識するステップと
    を含むことを特徴とする音声認識方法。
  9. コンピュータを制御して、音声認識処理を実行させるプログラムであって、
    認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
    予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
    前記入力音声における発話区間を区切る適当な区間ごとに、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
    前記コンピュータを機能させることを特徴とするプログラム。
  10. 前記プログラムによる前記音声認識手段は、前記入力音声の音声フレームごとに、独立してマッチング対象となる前記合成モデルを選択し、当該入力音声の特徴量と当該合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする請求項9に記載のプログラム。
  11. コンピュータを制御して、音声認識処理を実行させるプログラムにおいて、
    認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
    予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
    発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
    前記コンピュータを機能させることを特徴とするプログラム。
  12. コンピュータを制御して音声認識処理を実行させるプログラムを、当該コンピュータが読み取り可能に記録した記録媒体であって、
    前記プログラムは、
    認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
    予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
    前記入力音声における音声フレームごとに、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
    前記コンピュータを機能させることを特徴とする記録媒体。
  13. コンピュータを制御して音声認識処理を実行させるプログラムを、当該コンピュータが読み取り可能に記録した記録媒体であって、
    前記プログラムは、
    認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
    予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
    発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
    前記コンピュータを機能させることを特徴とする記録媒体。
JP2002072456A 2002-03-15 2002-03-15 音声認識装置、その音声認識方法及びプログラム Expired - Fee Related JP4061094B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002072456A JP4061094B2 (ja) 2002-03-15 2002-03-15 音声認識装置、その音声認識方法及びプログラム
US10/389,859 US7403896B2 (en) 2002-03-15 2003-03-14 Speech recognition system and program thereof
US11/971,651 US7660717B2 (en) 2002-03-15 2008-01-09 Speech recognition system and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002072456A JP4061094B2 (ja) 2002-03-15 2002-03-15 音声認識装置、その音声認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2003280686A JP2003280686A (ja) 2003-10-02
JP4061094B2 true JP4061094B2 (ja) 2008-03-12

Family

ID=29227686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002072456A Expired - Fee Related JP4061094B2 (ja) 2002-03-15 2002-03-15 音声認識装置、その音声認識方法及びプログラム

Country Status (2)

Country Link
US (2) US7403896B2 (ja)
JP (1) JP4061094B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205028B1 (en) 2007-07-31 2012-06-19 Marvell International Ltd. Adaptive bus profiler
US8234425B1 (en) 2007-06-27 2012-07-31 Marvell International Ltd. Arbiter module
US8683085B1 (en) 2008-05-06 2014-03-25 Marvell International Ltd. USB interface configurable for host or device mode
US8688877B1 (en) 2003-03-13 2014-04-01 Marvell World Trade Ltd. Multiport memory architecture
US8688922B1 (en) 2010-03-11 2014-04-01 Marvell International Ltd Hardware-supported memory management
US8843723B1 (en) 2010-07-07 2014-09-23 Marvell International Ltd. Multi-dimension memory timing tuner
US8874833B1 (en) 2009-03-23 2014-10-28 Marvell International Ltd. Sequential writes to flash memory
US9070454B1 (en) 2009-04-21 2015-06-30 Marvell International Ltd. Flash memory
US9070451B1 (en) 2008-04-11 2015-06-30 Marvell International Ltd. Modifying data stored in a multiple-write flash memory cell

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006106300A (ja) * 2004-10-05 2006-04-20 Mitsubishi Electric Corp 音声認識装置及びそのプログラム
JP2007025076A (ja) * 2005-07-13 2007-02-01 Xanavi Informatics Corp 車載用音声認識装置
JP4527654B2 (ja) * 2005-11-24 2010-08-18 Necアクセステクニカ株式会社 音声通信装置
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US8468019B2 (en) * 2008-01-31 2013-06-18 Qnx Software Systems Limited Adaptive noise modeling speech recognition system
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script

Family Cites Families (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3980869A (en) * 1974-11-25 1976-09-14 Litton Business Systems, Inc. Rotatable keyboard
US4286329A (en) * 1979-12-17 1981-08-25 International Business Machines Corporation Complex character generator
US4454592A (en) * 1980-11-20 1984-06-12 International Business Machines Corporation Prompt line display in a word processing system
US4689768A (en) * 1982-06-30 1987-08-25 International Business Machines Corporation Spelling verification system with immediate operator alerts to non-matches between inputted words and words stored in plural dictionary memories
US4439649A (en) * 1982-08-30 1984-03-27 Suncom, Incorporated Joy stick switch
US4573196A (en) * 1983-01-19 1986-02-25 Communications Intelligence Corporation Confusion grouping of strokes in pattern recognition method and system
US4891777A (en) * 1983-05-11 1990-01-02 The Laitram Corporation Single hand keyboard arrays providing alphanumeric capabilities from twelve keys
US4891786A (en) * 1983-02-22 1990-01-02 Goldwasser Eric P Stroke typing system
US4783758A (en) * 1985-02-05 1988-11-08 Houghton Mifflin Company Automated word substitution using numerical rankings of structural disparity between misspelled words & candidate substitution words
US4783761A (en) * 1985-12-26 1988-11-08 Smith Corona Corporation Spelling check dictionary with early error signal
US4782464A (en) * 1985-12-26 1988-11-01 Smith Corona Corporation Compact spelling-check dictionary
US4725694A (en) * 1986-05-13 1988-02-16 American Telephone And Telegraph Company, At&T Bell Laboratories Computer interface device
US6002799A (en) * 1986-07-25 1999-12-14 Ast Research, Inc. Handwritten keyboardless entry computer system
US5187480A (en) * 1988-09-05 1993-02-16 Allan Garnham Symbol definition apparatus
US5224179A (en) * 1988-12-20 1993-06-29 At&T Bell Laboratories Image skeletonization method
CA2006163A1 (en) * 1988-12-21 1990-06-21 Alfred B. Freeman Keyboard express typing system
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
JP3143461B2 (ja) * 1990-05-29 2001-03-07 キヤノン株式会社 文字認識方法及び文字認識装置
US5305205A (en) * 1990-10-23 1994-04-19 Weber Maria L Computer-assisted transcription apparatus
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5462711A (en) * 1990-12-17 1995-10-31 Ricottone; Jacqueline L. Disposable beaker sheath
JP3155577B2 (ja) * 1991-10-16 2001-04-09 キヤノン株式会社 文字認識方法及び装置
US5963671A (en) * 1991-11-27 1999-10-05 International Business Machines Corporation Enhancement of soft keyboard operations using trigram prediction
US5870492A (en) * 1992-06-04 1999-02-09 Wacom Co., Ltd. Hand-written character entry apparatus
US5880411A (en) * 1992-06-08 1999-03-09 Synaptics, Incorporated Object position detector with edge motion feature and gesture recognition
JP3155616B2 (ja) * 1992-06-25 2001-04-16 キヤノン株式会社 文字認識方法及び装置
JP3157304B2 (ja) * 1992-09-22 2001-04-16 富士通株式会社 仮想キーボード
JP3247746B2 (ja) 1993-01-18 2002-01-21 日本電信電話株式会社 耐雑音音韻モデルの作成方式
US5612690A (en) * 1993-06-03 1997-03-18 Levy; David Compact keypad system and method
US5973676A (en) * 1993-06-30 1999-10-26 Kabushiki Kaisha Toshiba Input apparatus suitable for portable electronic device
JP3546337B2 (ja) * 1993-12-21 2004-07-28 ゼロックス コーポレイション 計算システム用ユーザ・インタフェース装置及びグラフィック・キーボード使用方法
JP3453422B2 (ja) * 1994-02-10 2003-10-06 キヤノン株式会社 文字パターンのユーザ辞書への登録方法及び該ユーザ辞書を有する文字認識装置
US5812697A (en) * 1994-06-10 1998-09-22 Nippon Steel Corporation Method and apparatus for recognizing hand-written characters using a weighting dictionary
US5745719A (en) * 1995-01-19 1998-04-28 Falcon; Fernando D. Commands functions invoked from movement of a control input device
US5805911A (en) * 1995-02-01 1998-09-08 Microsoft Corporation Word prediction system
US5748512A (en) * 1995-02-28 1998-05-05 Microsoft Corporation Adjusting keyboard
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same
US6392640B1 (en) * 1995-04-18 2002-05-21 Cognitive Research & Design Corp. Entry of words with thumbwheel by disambiguation
US5798760A (en) * 1995-06-07 1998-08-25 Vayda; Mark Radial graphical menuing system with concentric region menuing
US6044165A (en) * 1995-06-15 2000-03-28 California Institute Of Technology Apparatus and method for tracking handwriting from visual input
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
WO1997005541A1 (en) * 1995-07-26 1997-02-13 King Martin T Reduced keyboard disambiguating system
NZ316124A (en) * 1995-08-24 2000-02-28 British Telecomm Pattern recognition for speech recognising noise signals signatures
US6041137A (en) * 1995-08-25 2000-03-21 Microsoft Corporation Radical definition and dictionary creation for a handwriting recognition system
US6278445B1 (en) * 1995-08-31 2001-08-21 Canon Kabushiki Kaisha Coordinate input device and method having first and second sampling devices which sample input data at staggered intervals
GB2313939B (en) * 1996-06-03 2000-09-13 Ibm Word processing
US5823793A (en) * 1996-06-12 1998-10-20 Litton Systems, Inc. Holder for an electrical or electronic component
US5796867A (en) * 1996-06-12 1998-08-18 Industrial Technology Research Institute Stroke-number-free and stroke-order-free on-line Chinese character recognition method
JPH10198394A (ja) 1997-01-10 1998-07-31 Matsushita Electric Ind Co Ltd 音声認識方法
JPH1011085A (ja) 1996-06-21 1998-01-16 Matsushita Electric Ind Co Ltd 音声認識方法
US5882517A (en) * 1996-09-10 1999-03-16 Cuno Incorporated Porous structures
US5917476A (en) * 1996-09-24 1999-06-29 Czerniecki; George V. Cursor feedback text input method
US6616703B1 (en) * 1996-10-16 2003-09-09 Sharp Kabushiki Kaisha Character input apparatus with character string extraction portion, and corresponding storage medium
US6275611B1 (en) * 1996-10-17 2001-08-14 Motorola, Inc. Handwriting recognition device, method and alphabet, with strokes grouped into stroke sub-structures
US5926566A (en) * 1996-11-15 1999-07-20 Synaptics, Inc. Incremental ideographic character input method
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
JPH10254486A (ja) * 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
JP4098880B2 (ja) * 1997-06-06 2008-06-11 松下電器産業株式会社 情報検索装置
US6144764A (en) * 1997-07-02 2000-11-07 Mitsui High-Tec, Inc. Method and apparatus for on-line handwritten input character recognition and recording medium for executing the method
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
US6104384A (en) * 1997-09-12 2000-08-15 Ericsson, Inc. Image based keyboard for a small computing device
US5896321A (en) * 1997-11-14 1999-04-20 Microsoft Corporation Text completion system for a miniature computer
US6037942A (en) * 1998-03-10 2000-03-14 Magellan Dis, Inc. Navigation system character input device
US6448987B1 (en) * 1998-04-03 2002-09-10 Intertainer, Inc. Graphic user interface for a digital content delivery system using circular menus
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
JP3191284B2 (ja) * 1998-06-23 2001-07-23 日本電気株式会社 文字入力装置
US6075469A (en) * 1998-08-11 2000-06-13 Pong; Gim Yee Three stroke Chinese character word processing techniques and apparatus
JP2000075890A (ja) 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP2000075889A (ja) 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd 音声認識システム及び音声認識方法
WO2000014622A1 (fr) * 1998-09-09 2000-03-16 Qi Hao Clavier et procede de saisie correspondant
US6801659B1 (en) * 1999-01-04 2004-10-05 Zi Technology Corporation Ltd. Text input system for ideographic and nonideographic languages
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US7293231B1 (en) * 1999-03-18 2007-11-06 British Columbia Ltd. Data entry for personal computing devices
US6549219B2 (en) * 1999-04-09 2003-04-15 International Business Machines Corporation Pie menu graphical user interface
US20030006956A1 (en) * 1999-05-24 2003-01-09 Charles Yimin Wu Data entry device recording input in two dimensions
US6970599B2 (en) * 2002-07-25 2005-11-29 America Online, Inc. Chinese character handwriting recognition system
US6172625B1 (en) * 1999-07-06 2001-01-09 Motorola, Inc. Disambiguation method and apparatus, and dictionary data compression techniques
WO2001088683A1 (en) * 2000-05-18 2001-11-22 Eleksen Ltd Data input device
JP4297602B2 (ja) * 2000-09-18 2009-07-15 パイオニア株式会社 音声認識システム
CN1121004C (zh) * 2000-12-21 2003-09-10 国际商业机器公司 用于小键盘的汉字输入方法
GB0103053D0 (en) * 2001-02-07 2001-03-21 Nokia Mobile Phones Ltd A communication terminal having a predictive text editor application
US6982658B2 (en) * 2001-03-22 2006-01-03 Motorola, Inc. Keypad layout for alphabetic symbol input
EP1246048A1 (en) * 2001-03-26 2002-10-02 SAP Aktiengesellschaft Method and computer system for executing functions for objects based on the movement of an input device
US6990534B2 (en) * 2001-07-20 2006-01-24 Flowfinity Wireless, Inc. Method for a proactive browser system for implementing background frame maintenance and asynchronous frame submissions
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
US20030048257A1 (en) * 2001-09-06 2003-03-13 Nokia Mobile Phones Ltd. Telephone set having a touch pad device
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7949513B2 (en) * 2002-01-22 2011-05-24 Zi Corporation Of Canada, Inc. Language module and method for use with text processing devices
US6864809B2 (en) * 2002-02-28 2005-03-08 Zi Technology Corporation Ltd Korean language predictive mechanism for text entry by a user
US6847311B2 (en) * 2002-03-28 2005-01-25 Motorola Inc. Method and apparatus for character entry in a wireless communication device
US7020849B1 (en) * 2002-05-31 2006-03-28 Openwave Systems Inc. Dynamic display for communication devices
US20040163032A1 (en) * 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry
US7088861B2 (en) * 2003-09-16 2006-08-08 America Online, Inc. System and method for chinese input using a joystick

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688877B1 (en) 2003-03-13 2014-04-01 Marvell World Trade Ltd. Multiport memory architecture
US9105319B2 (en) 2003-03-13 2015-08-11 Marvell World Trade Ltd. Multiport memory architecture
US8234425B1 (en) 2007-06-27 2012-07-31 Marvell International Ltd. Arbiter module
US8205028B1 (en) 2007-07-31 2012-06-19 Marvell International Ltd. Adaptive bus profiler
US9070451B1 (en) 2008-04-11 2015-06-30 Marvell International Ltd. Modifying data stored in a multiple-write flash memory cell
US8683085B1 (en) 2008-05-06 2014-03-25 Marvell International Ltd. USB interface configurable for host or device mode
US8924598B1 (en) 2008-05-06 2014-12-30 Marvell International Ltd. USB interface configurable for host or device mode
US8874833B1 (en) 2009-03-23 2014-10-28 Marvell International Ltd. Sequential writes to flash memory
US9070454B1 (en) 2009-04-21 2015-06-30 Marvell International Ltd. Flash memory
US8688922B1 (en) 2010-03-11 2014-04-01 Marvell International Ltd Hardware-supported memory management
US8843723B1 (en) 2010-07-07 2014-09-23 Marvell International Ltd. Multi-dimension memory timing tuner

Also Published As

Publication number Publication date
US7660717B2 (en) 2010-02-09
US7403896B2 (en) 2008-07-22
US20080183472A1 (en) 2008-07-31
US20030225581A1 (en) 2003-12-04
JP2003280686A (ja) 2003-10-02

Similar Documents

Publication Publication Date Title
US7660717B2 (en) Speech recognition system and program thereof
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP5505896B2 (ja) 発話区間検出システム、方法及びプログラム
JP4340686B2 (ja) 音声認識装置及び音声認識方法
US20050114137A1 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
JP2002140089A (ja) 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置
JP2002132289A (ja) 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置
Yapanel et al. A new perspective on feature extraction for robust in-vehicle speech recognition.
JP2006084875A (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JPH07168594A (ja) スピーチ認識方法および装置
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
Fujimoto et al. CENSREC-3: An evaluation framework for Japanese speech recognition in real car-driving environments
JP3999731B2 (ja) 信号ソースを分離するための方法及び装置
JP3250604B2 (ja) 音声認識方法および装置
JP4325044B2 (ja) 音声認識システム
JP4655184B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP2004029215A (ja) 音声認識装置の音声認識精度評価方法
JP2003255980A (ja) 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
WO2007000816A1 (ja) 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法
JP3926716B2 (ja) 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051104

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051219

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060203

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20071220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4061094

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111228

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121228

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131228

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees