JP4061094B2 - 音声認識装置、その音声認識方法及びプログラム - Google Patents
音声認識装置、その音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP4061094B2 JP4061094B2 JP2002072456A JP2002072456A JP4061094B2 JP 4061094 B2 JP4061094 B2 JP 4061094B2 JP 2002072456 A JP2002072456 A JP 2002072456A JP 2002072456 A JP2002072456 A JP 2002072456A JP 4061094 B2 JP4061094 B2 JP 4061094B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- model
- noise
- input speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000015572 biosynthetic process Effects 0.000 claims description 37
- 238000003786 synthesis reaction Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 230000002194 synthesizing effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 238000001308 synthesis method Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識システムに関し、特に突発的に発生したり不規則に発生したりするような急激な変化を伴う雑音に対処して音声認識を行う方法に関する。
【0002】
【従来の技術】
コンピュータにて音声を認識する音声認識処理では、種々の雑音源が存在する環境下においても精度の高い認識を行うことが課題の1つとなっている。
従来、雑音環境下で音声認識を行う手法として、スペクトラル・サブトラクション(Spectral Subtraction)法、HMM(Hidden Markov Model:隠れマルコフモデル)合成法、CDCN(Codeword-Dependent Cepstral Normalization)法など、種々の手法が提案されている。
【0003】
これらの手法は、音声認識を目的としていることに鑑み、基本的に、1回の発話(発生)が終了した後に、当該発話中の音声信号の中から雑音に相当する部分を特定し、この特定された雑音部分を考慮して(もしくは除去して)音声認識を行っている。
例えば、HMM合成法では、種々の雑音HMMと音声HMMをそれぞれ合成して雑音の要素が加味された音韻隠れマルコフモデル(合成HMM)を生成し、認識対象の音声に対して最も尤度の高い合成HMMに基づいて音声認識を行うことにより雑音に対処しているが、従来のHMM合成法は、1回の発話ごとに尤度が最大である合成HMMを選択し、認識結果として採用している。すなわち、1つの発話に対して1つの雑音HMMが選択されることとなる。
【0004】
【発明が解決しようとする課題】
ところで、種々の雑音源が存在する環境下では、定常的に発生し続ける雑音や突発的に発生する雑音、不規則に発生する雑音など、雑音の発生の仕方も様々である。上述した従来の音声認識処理における雑音への対処技術は、1回の発話ごとに雑音の種類を認定して対処しているため、定常的に発生し続ける雑音や規則的に発生する雑音に対しては十分な効果を奏し、良好な音声認識を実現することができる。
しかし、突発的に発生する雑音や不規則に発生する雑音は、発話の最中に発生する場合があり、1回の発話ごとに雑音の種類を認定する従来の技術は、このような急激に変化する雑音に対処できず、音声認識の精度を低下させる原因となっていた。
【0005】
そこで、本発明は、突発的に発生する雑音や不規則に発生する雑音などのような急激な変化を伴う雑音に対しても十分に対処し、精度の高い音声認識を実現することを目的とする。
【0006】
【課題を解決するための手段】
上記の目的を達成する本発明は、所定の音声と、予め収録された音声データの音韻隠れマルコフモデルとのマッチングを取ることにより音声認識を行う、次のように構成された音声認識装置として実現される。この音声認識装置は、認識対象である入力音声の特徴量を抽出する特徴量抽出部と、予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データの隠れマルコフモデルとを合成し合成モデルを作成する合成モデル作成部と、特徴量抽出部にて抽出された入力音声の特徴量と合成モデル作成部にて作成された合成モデルとのマッチングを取ることにより入力音声を認識する音声認識部とを備える。
【0007】
ここで、この音声認識部は、入力音声における発話区間を区切る適当な区間ごとに、具体的には例えば音声フレームごとに、独立してマッチング対象となる合成モデルを選択し、この入力音声の特徴量と選択された合成モデルとのマッチングを取ることを特徴とする。
さらに、この音声認識装置において、音声認識部は、発話中の入力音声に含まれる雑音の変化に応じてマッチング対象となる合成モデルを動的に選択しながらマッチングを取ることを特徴とする。
【0008】
また、本発明による他の音声認識装置は、音声認識のためのモデルとなる音声データを格納した音声データベースと、所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、音声データベースから読み出した音声データに基づき作成される音声モデルと雑音データベースから読み出した雑音データに基づき作成される雑音モデルとを合成して合成モデルを作成する合成モデル作成部と、認識対象である入力音声の特徴量と合成モデルとに関して、この入力音声の音声フレームごとに独立してマッチングを取ることにより音声認識を行う音声認識部とを備えることを特徴とする。
【0009】
さらにまた、本発明の他の音声認識装置は、音声認識のためのモデルとなる音声データを格納した音声データベースと、所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、音声データベースから読み出した音声データに基づき作成される音声モデルと雑音データベースから読み出した雑音データに基づき作成される雑音モデルとを合成して合成モデルを作成する合成モデル作成部と、認識対象である入力音声の特徴量と合成モデルとに関して、発話中の入力音声に含まれる雑音の変化に応じてマッチング対象となる合成モデルを動的に選択しながらマッチングを取ることにより音声認識を行う音声認識部とを備えることを特徴とする。
【0010】
また、上記の目的を達成する他の本発明は、コンピュータを制御して、音声を認識する、次のような音声認識方法として実現される。この音声認識方法は、認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、所定の音声データと雑音データとに基づいて生成された雑音の要素が加味された音韻隠れマルコフモデルをメモリから読み出すステップと、入力音声の音声フレームごとに入力音声の特徴量と音韻隠れマルコフモデルとのマッチングを取り、マッチングの結果に基づいて入力音声を認識するステップとを含むことを特徴とする。ここで、より詳しくは、入力音声を認識するステップは、入力音声の音声フレームごとに、独立してマッチング対象となる音韻隠れマルコフモデルを選択し、入力音声の特徴量と音韻隠れマルコフモデルとのマッチングを取る。
【0011】
さらに本発明による他の音声認識方法は、認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、所定の音声データと雑音データとに基づいて生成された雑音の要素が加味された音韻隠れマルコフモデルをメモリから読み出すステップと、入力音声の特徴量と音韻隠れマルコフモデルとに関して、発話中の入力音声に含まれる雑音の変化に応じてマッチング対象となる音韻隠れマルコフモデルを動的に選択しながらマッチングを取ることにより入力音声を認識するステップとを含むことを特徴とする。
【0012】
また、本発明は、コンピュータを制御して上記の音声認識装置を実現し、あるいは上記の音声認識方法の各ステップに対応する処理をコンピュータに実行させるプログラムとして実現される。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。
【0013】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
図1は、本実施の形態による音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図1に示すコンピュータ装置は、演算手段であるCPU(Central Processing Unit:中央処理装置)101と、M/B(マザーボード)チップセット102及びCPUバスを介してCPU101に接続されたメインメモリ103と、同じくM/Bチップセット102及びAGP(Accelerated Graphics Port)を介してCPU101に接続されたビデオカード104と、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット102に接続されたハードディスク105及びネットワークインターフェイス106と、さらにこのPCIバスからブリッジ回路107及びISA(Industry Standard Architecture)バスなどの低速なバスを介してM/Bチップセット102に接続されたフロッピーディスクドライブ108及びキーボード/マウス109とを備える。また、処理対象である音声を入力し、音声データに変換してCPU101へ供給するためのサウンドカード(サウンドチップ)110及びマイクロフォン111を備える。
なお、図1は本実施の形態を実現するコンピュータ装置のハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード104を設ける代わりに、ビデオメモリのみを搭載し、CPU101にてイメージデータを処理する構成としても良いし、ATA(AT Attachment)などのインターフェイスを介してCD−ROM(Compact Disc Read Only Memory)やDVD−ROM(Digital Versatile Disc Read Only Memory)のドライブを設けても良い。
【0014】
図2は、図1に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
本実施の形態は、自動車の車室内のような発生する雑音の種類がある程度限定される環境において、HMM(隠れマルコフモデル)合成法を用いて、突発的に発生する雑音や不規則に発生する雑音に対処し、高精度な音声認識を行う音声認識システムを実現する。
図2に示すように、本実施の形態による音声認識システムは、音声入力部10と、特徴量抽出部20と、音声認識部30とを備えると共に、音声認識部30にて使用される合成HMMを生成する合成HMM作成部40を備えている。また、合成HMM作成部40にて合成HMMを生成するために用いられる音声データベース50及び雑音データベース60を備える。
【0015】
上記の構成において、特徴量抽出部20、音声認識部30及び合成HMM作成部40は、図1に示したメインメモリ103に展開されたプログラムにてCPU101を制御することにより実現される仮想的なソフトウェアブロックである。CPU101を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。本実施の形態では、図1に示したネットワークインターフェイス106やフロッピーディスクドライブ108、図示しないCD−ROMドライブなどを介して当該プログラムを入力し、ハードディスク105に格納する。そして、ハードディスク105に格納されたプログラムをメインメモリ103に読み込んで展開し、CPU101にて実行することにより、図2に示した各構成要素の機能を実現する。
また、音声入力部10は、マイクロフォン111及びサウンドカード110にて実現される。音声データベース50及び雑音データベース60は、例えばハードディスク105にて実現される。
【0016】
本実施の形態において、音声入力部10は、図1に示したマイクロフォン111及びサウンドカード110にて実現され、音声を入力すると共に、当該音声を電気的な音声信号に変換して特徴量抽出部20に渡す。
特徴量抽出部20は、音声入力部10から受け取った音声信号に対して特徴量の抽出を行う。抽出された特徴量は、メインメモリ103やCPU101のキャッシュメモリにおける所定の領域に格納される。音声認識のHMMにおいては、音響パラメータとしてケプストラム係数が広く用いられており、特徴量抽出部20は、特徴量の抽出処理としてケプストラム分析を行うことができる。
音声認識部30は、特徴量抽出部20にて抽出された入力音声信号の特徴量と所定の音声モデル(HMM)とのマッチングを行い、マッチングの結果(認識結果)として得られた文字(テキスト)を出力する。本実施の形態では、後述する合成HMM作成部40にて作成される合成HMMを用いることにより、音声認識部30による音声認識処理で使用される音響モデル(音韻モデル、単語モデルなど)を突発的な雑音や不規則な雑音の発生する環境に適応させてマッチングを行う。合成HMMを用いたマッチングについては後述する。
【0017】
合成HMM作成部40は、音声データベース50及び雑音データベース60にアクセスして合成HMMを生成する。
図3は、合成HMM作成部40の機能を説明する機能ブロック図である。
図3を参照すると、合成HMM作成部40は、音声データベース50にアクセスして音声のモデル(音声HMM)を作成する音声HMM作成部41と、雑音データベース60にアクセスして予め収録されている雑音のモデル(雑音HMM)を作成する雑音HMM作成部42と、作成された音声HMMと雑音HMMとを合成して雑音の要素が加味された音韻隠れマルコフモデル(合成HMM)を生成するHMM合成部43とを備える。
【0018】
音声データベース50には、雑音のない環境で収録された音声データが登録されており、音声HMM作成部41は、この音声データを用いて音声HMMを作成する。作成された音声HMMは、メインメモリ103やCPU101のキャッシュメモリの所定領域に保持される。
雑音データベース60には、本実施の形態における音声認識システムの使用環境で想定される雑音データが登録されており、雑音HMM作成部42は、この雑音データを用いて、雑音源ごとに独立に雑音HMMを作成する。作成された雑音HMMは、メインメモリ103やCPU101のキャッシュメモリの所定領域に保持される。
【0019】
ここで、雑音データベース60について、さらに説明する。
実環境下では様々な雑音要因が存在するため、それら全てについて雑音データを収録し、雑音HMMを作成しようとすると、データ量が膨大になる。しかしながら、音声認識システムが使用される環境によっては、頻繁に発生する雑音の種類がある程度限定される場合がある。例えば、カーナビゲーションシステムの入力手段として搭載される音声認識システムの場合、車室内で頻繁に発生する雑音としては、比較的定常な走行中雑音(エンジン音やロードノイズ)の他、非定常的な雑音としてマンホールなどを踏む音やウィンカー音、ワイパーの動作する音などが想定される。そこで、音声認識システムが使用される環境に応じて、頻繁に発生することが想定される雑音について雑音データベース60を作成しておくことで、データ量が過大とならない実用的な音声認識システムを実現できる。なお、ハードウェア(CPU101等)の処理能力等に応じて、処理できる雑音データの量も変化することから、雑音データベース60のサイズを柔軟に変更できるのは言うまでもない。
【0020】
HMM合成部43は、音声HMM作成部41にて作成された音声HMMと雑音HMM作成部42にて作成された雑音HMMとをメインメモリ103等から取得し、これらを合成して合成HMMを作成する。
図4は、HMM合成部43の動作を説明する図である。
図4において、所定の音声/p/を構成するHMMの3つの状態のうち、i番目の状態の出力確率分布をNi(p)で表し、各雑音モデルの出力確率分布をN(a)、N(b)、N(c)、…で表す。
【0021】
ここで、これらHMMにおける出力確率分布がケプストラム領域で作成されているものとする。この場合、HMM合成部43は、音声HMM及び雑音HMMのそれぞれに対し、コサイン変換を行い、さらに指数変換を行ってスペクトラル領域に変換した上で、分布の畳み込み(合成)を行う。
次に、合成された分布に対し、対数変換を行い、さらに逆コサイン変換を行ってケプストラム領域まで変換することにより、合成HMMを得る。分布の合成は、雑音源ごとに独立して用意された雑音HMMの出力確率分布に対して行われるため、合成HMMも雑音源ごとに独立に定義されることとなる。得られた合成HMMは、メインメモリ103やCPU101のキャッシュメモリにおける所定の領域に保持される。
以上の分布の変換については、例えば次の文献に詳細に記載されている。
文献:T. Takiguchi 他、"HMM-Separation-Based Speech Recognition for a Distant Moving Speaker," IEEE Transactions on speech and audio processing, Vol. 9, No. 2, pp. 127-140, 2001.
【0022】
音声認識部30は、特徴量抽出部20にて抽出された入力音声信号の特徴量と、上記のようにして合成HMM作成部40により作成された合成HMMとのマッチングを取ることにより、この入力音声信号を認識する。なお、音声認識処理を完了するためには、本実施の形態にて行われる音響的な解析の他に、言語的な解析が行われることが必要であるが、この言語的な解析については本実施の形態による技術の対象ではなく、公知の技術を用いることができる。
ここで、本実施の形態における音声認識部30は、入力音声信号の特徴量と合成HMMとのマッチング(尤度計算)を、当該入力音声信号における音声フレーム単位で独立に行う。音声フレームとは、音声データにおける時間軸の最小単位である。
【0023】
図5は、本実施の形態による音声認識部30の音声認識処理を説明するフローチャートである。
図5に示すように、音声認識部30は、メインメモリ103等から、特徴量抽出部20にて抽出された入力音声信号の特徴量と、上述した合成HMMとを取得し(ステップ501、502)、音声フレーム単位で、入力音声信号の特徴量との尤度が最大となる合成HMMを選択し(ステップ503)、その値をその時刻(音声フレーム)での尤度として採用する。採用された尤度は、メインメモリ103やCPU101のキャッシュメモリに一時的に保持される。
そして、発話終了まで、音声フレームごとに最も尤度が高くなる合成HMMを選択しながら、各時刻(音声フレーム)での最大尤度を加算していく(ステップ504)。すなわち、音声認識部30は、音声フレームについて最大尤度が得られたならば、メインメモリ103等に保持されている尤度を読み出して加算し、再びメインメモリ103等に保存する。これにより、ステップ503で選択された合成HMMの尤度が、直前の音声フレームまでの最大尤度の総和に随時加算されていく。この処理を発話終了まで繰り返すことにより、当該発話全体に対する尤度が算出される(ステップ505)。発話終了まで処理が尤度を加算する処理が行われたならば、算出された当該発話全体に対する尤度を用いて認識を行い、結果を出力する(ステップ505、506)。
【0024】
以上のようにして、1つの発話に対する認識処理において、雑音を加味した合成HMMとのマッチングを音声フレーム単位で独立に行うことにより、突発的な雑音の発生などにより1つの発話中に雑音の状態や種類が変化した場合でも、マッチングにおいて適用する雑音モデルを動的に変更して対応することが可能となる。所定の入力音声信号において、どの部分が発話であるかについては、既存の手法を用いて判断することができる。
【0025】
なお、上述した本実施の形態の動作においては、音声フレーム単位でマッチする(最大尤度の)合成HMMの探索を行ったが、一定の時間あるいは音声HMMの状態や音声HMMごとというように、発話区間を区切る適当な区間ごとに同一の雑音HMMを割り当てることにより、マッチングにおける合成HMMの探索時間を削減し処理コストを軽減することも可能である。この場合、非定常的な雑音に対する対応力は音声フレームごとにマッチングを行う場合に比べると低下するが、音声認識システムが使用される雑音環境(想定される雑音の種類等)に応じて適切な間隔を設定することにより、音声認識の精度を低下させることなく適用することができる。
【0026】
次に、本実施の形態を用いた具体的な評価実験について説明する。
本実施の形態による音声認識システムを、自動車の車室内での音声認識に用い、雑音を考慮しない音声モデルを用いた認識(Clean HMMs)、従来のHMM合成法による認識(手法1)、本実施の形態による認識(手法2)で、認識率を測定し比較した。また、突発性の雑音としてハザード(ウィンカー)音、ある程度の時間長を持つ非定常雑音としてワイパーの動作音、定常雑音としてアイドリング時のエンジン雑音の3種類の雑音に対して本手法の有効性を検証した。
【0027】
<評価1>
ここでは、評価音声データに、
・アイドリング時のエンジン雑音(以下、アイドリング雑音)
・ハザード(ウィンカー)音
の2種類の雑音が加算されている。ここで、ハザード音は、1周期が約0.4secである。
認識時に予め用意されている雑音HMMは、1.アイドリング雑音、2.走行雑音(一般道路を約40〜50Kmで走行した際のロードノイズ)、3.ハザード音、4.ワイパー動作音、5.ハザード音+アイドリング雑音、6.ワイパー音+走行雑音の6種類である。また、1つの雑音HMMは、1つの状態と1つの多次元正規分布とで表されているものとする。
次に、これらの雑音HMMと音声HMM(55個の音韻HMM)との合成を行う。音声HMMは、各音韻が状態ごとに4つの多次元正規分布を持ち、この状態ごとに雑音HMMとの合成を行う。
信号の分析条件は、サンプリング周波数12kHz、フレーム幅32msec、分析周期8msecである。音響特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)16次元を用いた。また、テスト話者は男性1人で、500単語認識を行った。
【0028】
図6は、以上の条件で行われた3種類の手法による音声認識の結果(認識率)を示す図表である。
図6を参照すると、定常的なアイドリング雑音しか対応できない手法1(従来のHMM合成法)に比べて、突発的なハザード音にも対応する手法2(本実施の形態)の方が、認識率が大きく改善されていることがわかる。
【0029】
<評価2>
ここでは、評価音声データに、
・走行雑音(一般道路走行中)
・ワイパー動作音
の2種類の雑音が加算されている。ここで、ワイパー動作音は、1周期が約1.1secである。その他の条件は、<評価1>の条件と同じである。
図7は、以上の条件で行われた3種類の手法による音声認識の結果(認識率)を示す図表である。
図7を参照すると、上記の条件では、1つの発話中にワイパー動作音が発生している区間と無い区間とがあるため、発話区間内で適用する雑音モデルを動的に切り替える手法2(本実施の形態)の方が、手法1(従来のHMM合成法)よりも高い認識精度を得ていることがわかる。
【0030】
【発明の効果】
以上説明したように、本発明によれば、突発的に発生する雑音や不規則に発生する雑音などのような急激な変化を伴う雑音に対しても十分に対処し、精度の高い音声認識を実現することができる。
【図面の簡単な説明】
【図1】 本実施の形態による音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図2】 図1に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
【図3】 本実施の形態における合成HMM作成部の機能を説明する図である。
【図4】 本実施の形態におけるHMM合成部の動作を説明する図である。
【図5】 本実施の形態による音声認識部の音声認識処理を説明するフローチャートである。
【図6】 本実施の形態と従来の技術による音声認識の結果(認識率)を比較する図表である。
【図7】 本実施の形態と従来の技術による音声認識の他の結果(認識率)を比較する図表である。
【符号の説明】
10…音声入力部、20…特徴量抽出部、30…音声認識部、40…合成HMM作成部、41…音声HMM作成部、42…雑音HMM作成部、43…HMM合成部、101…CPU、102…M/Bチップセット、103…メインメモリ、110…サウンドカード、111…マイクロフォン
Claims (13)
- 所定の音声と、予め収録された音声データの音韻隠れマルコフモデルとのマッチングを取ることにより音声認識を行う音声認識装置において、
認識対象である入力音声の特徴量を抽出する特徴量抽出部と、
前記音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成部と、
前記特徴量抽出部にて抽出された前記入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとのマッチングを取ることにより前記入力音声を認識する音声認識部とを備え、
前記音声認識部は、前記入力音声における発話区間を区切る適当な区間ごとに当該入力音声の特徴量と前記合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする音声認識装置。 - 前記音声認識部は、前記入力音声の音声フレームごとに、独立してマッチング対象となる前記合成モデルを選択し、当該入力音声の特徴量と当該合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする請求項1に記載の音声認識装置。
- 所定の音声と、予め収録された音声データの音韻隠れマルコフモデルとのマッチングを取ることにより音声認識を行う音声認識装置において、
認識対象である入力音声の特徴量を抽出する特徴量抽出部と、
前記音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成部と、
前記特徴量抽出部にて抽出された前記入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとのマッチングを取ることにより前記入力音声を認識する音声認識部とを備え、
前記音声認識部は、発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら当該入力音声の特徴量との尤度計算を行ってマッチングを取ることを特徴とする音声認識装置。 - 音声認識のためのモデルとなる音声データを格納した音声データベースと、
所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、
前記音声データベースから読み出した音声データに基づき作成される音声モデルと前記雑音データベースから読み出した雑音データに基づき雑音源ごとに独立に作成される雑音モデルとを合成して雑音源ごとに合成モデルを作成する合成モデル作成部と、
認識対象である入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとに関して、前記入力音声の音声フレームごとに独立して尤度計算を行ってマッチングを取ることにより音声認識を行う音声認識部と
を備えることを特徴とする音声認識装置。 - 音声認識のためのモデルとなる音声データを格納した音声データベースと、
所定の雑音環境で発生が想定される雑音データを格納した雑音データベースと、
前記音声データベースから読み出した音声データに基づき作成される音声モデルと前記雑音データベースから読み出した雑音データに基づき雑音源ごとに独立に作成される雑音モデルとを合成して雑音源ごとに合成モデルを作成する合成モデル作成部と、
認識対象である入力音声の特徴量と前記合成モデル作成部にて作成された雑音源ごとの前記合成モデルとに関して、発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら当該入力音声の特徴量との尤度計算を行ってマッチングを取ることにより音声認識を行う音声認識部と
を備えることを特徴とする音声認識装置。 - コンピュータを制御して、音声を認識する音声認識方法において、
認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、
所定の音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成して生成された雑音源ごとに独立の合成モデルをメモリから読み出すステップと、
前記入力音声の音声フレームごとに、前記メモリに格納された前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取り、当該マッチングの結果に基づいて前記入力音声を認識するステップと
を含むことを特徴とする音声認識方法。 - 前記入力音声を認識するステップは、前記入力音声の音声フレームごとに、独立してマッチング対象となる前記合成モデルを選択し、当該入力音声の特徴量と当該合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする請求項6に記載の音声認識方法。
- コンピュータを制御して、音声を認識する音声認識方法において、
認識対象である入力音声の特徴量を抽出し、メモリに格納するステップと、
所定の音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成して生成された雑音源ごとに独立の合成モデルをメモリから読み出すステップと、
前記メモリに格納された前記入力音声の特徴量と雑音源ごとの前記音韻隠れマルコフモデルとに関して、発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら当該入力音声の特徴量との尤度計算を行ってマッチングを取ることにより前記入力音声を認識するステップと
を含むことを特徴とする音声認識方法。 - コンピュータを制御して、音声認識処理を実行させるプログラムであって、
認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
前記入力音声における発話区間を区切る適当な区間ごとに、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
前記コンピュータを機能させることを特徴とするプログラム。 - 前記プログラムによる前記音声認識手段は、前記入力音声の音声フレームごとに、独立してマッチング対象となる前記合成モデルを選択し、当該入力音声の特徴量と当該合成モデルとの尤度計算を行ってマッチングを取ることを特徴とする請求項9に記載のプログラム。
- コンピュータを制御して、音声認識処理を実行させるプログラムにおいて、
認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
前記コンピュータを機能させることを特徴とするプログラム。 - コンピュータを制御して音声認識処理を実行させるプログラムを、当該コンピュータが読み取り可能に記録した記録媒体であって、
前記プログラムは、
認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
前記入力音声における音声フレームごとに、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
前記コンピュータを機能させることを特徴とする記録媒体。 - コンピュータを制御して音声認識処理を実行させるプログラムを、当該コンピュータが読み取り可能に記録した記録媒体であって、
前記プログラムは、
認識対象である入力音声の特徴量を抽出する特徴量抽出手段と、
予め収録された音声データの音韻隠れマルコフモデルと予め収録された雑音データから生成される雑音源ごとに独立の隠れマルコフモデルとを合成し雑音源ごとに合成モデルを作成する合成モデル作成手段と、
発話中の前記入力音声に含まれる雑音の変化に応じてマッチング対象となる前記合成モデルを動的に選択しながら、前記入力音声の特徴量と雑音源ごとの前記合成モデルとの尤度計算を行ってマッチングを取ることにより前記入力音声を認識する音声認識手段として、
前記コンピュータを機能させることを特徴とする記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002072456A JP4061094B2 (ja) | 2002-03-15 | 2002-03-15 | 音声認識装置、その音声認識方法及びプログラム |
US10/389,859 US7403896B2 (en) | 2002-03-15 | 2003-03-14 | Speech recognition system and program thereof |
US11/971,651 US7660717B2 (en) | 2002-03-15 | 2008-01-09 | Speech recognition system and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002072456A JP4061094B2 (ja) | 2002-03-15 | 2002-03-15 | 音声認識装置、その音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003280686A JP2003280686A (ja) | 2003-10-02 |
JP4061094B2 true JP4061094B2 (ja) | 2008-03-12 |
Family
ID=29227686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002072456A Expired - Fee Related JP4061094B2 (ja) | 2002-03-15 | 2002-03-15 | 音声認識装置、その音声認識方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US7403896B2 (ja) |
JP (1) | JP4061094B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8205028B1 (en) | 2007-07-31 | 2012-06-19 | Marvell International Ltd. | Adaptive bus profiler |
US8234425B1 (en) | 2007-06-27 | 2012-07-31 | Marvell International Ltd. | Arbiter module |
US8683085B1 (en) | 2008-05-06 | 2014-03-25 | Marvell International Ltd. | USB interface configurable for host or device mode |
US8688877B1 (en) | 2003-03-13 | 2014-04-01 | Marvell World Trade Ltd. | Multiport memory architecture |
US8688922B1 (en) | 2010-03-11 | 2014-04-01 | Marvell International Ltd | Hardware-supported memory management |
US8843723B1 (en) | 2010-07-07 | 2014-09-23 | Marvell International Ltd. | Multi-dimension memory timing tuner |
US8874833B1 (en) | 2009-03-23 | 2014-10-28 | Marvell International Ltd. | Sequential writes to flash memory |
US9070454B1 (en) | 2009-04-21 | 2015-06-30 | Marvell International Ltd. | Flash memory |
US9070451B1 (en) | 2008-04-11 | 2015-06-30 | Marvell International Ltd. | Modifying data stored in a multiple-write flash memory cell |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106300A (ja) * | 2004-10-05 | 2006-04-20 | Mitsubishi Electric Corp | 音声認識装置及びそのプログラム |
JP2007025076A (ja) * | 2005-07-13 | 2007-02-01 | Xanavi Informatics Corp | 車載用音声認識装置 |
JP4527654B2 (ja) * | 2005-11-24 | 2010-08-18 | Necアクセステクニカ株式会社 | 音声通信装置 |
JP4245617B2 (ja) * | 2006-04-06 | 2009-03-25 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP4316583B2 (ja) * | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
US8468019B2 (en) * | 2008-01-31 | 2013-06-18 | Qnx Software Systems Limited | Adaptive noise modeling speech recognition system |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US9401140B1 (en) * | 2012-08-22 | 2016-07-26 | Amazon Technologies, Inc. | Unsupervised acoustic model training |
US11289077B2 (en) * | 2014-07-15 | 2022-03-29 | Avaya Inc. | Systems and methods for speech analytics and phrase spotting using phoneme sequences |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
Family Cites Families (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3980869A (en) * | 1974-11-25 | 1976-09-14 | Litton Business Systems, Inc. | Rotatable keyboard |
US4286329A (en) * | 1979-12-17 | 1981-08-25 | International Business Machines Corporation | Complex character generator |
US4454592A (en) * | 1980-11-20 | 1984-06-12 | International Business Machines Corporation | Prompt line display in a word processing system |
US4689768A (en) * | 1982-06-30 | 1987-08-25 | International Business Machines Corporation | Spelling verification system with immediate operator alerts to non-matches between inputted words and words stored in plural dictionary memories |
US4439649A (en) * | 1982-08-30 | 1984-03-27 | Suncom, Incorporated | Joy stick switch |
US4573196A (en) * | 1983-01-19 | 1986-02-25 | Communications Intelligence Corporation | Confusion grouping of strokes in pattern recognition method and system |
US4891777A (en) * | 1983-05-11 | 1990-01-02 | The Laitram Corporation | Single hand keyboard arrays providing alphanumeric capabilities from twelve keys |
US4891786A (en) * | 1983-02-22 | 1990-01-02 | Goldwasser Eric P | Stroke typing system |
US4783758A (en) * | 1985-02-05 | 1988-11-08 | Houghton Mifflin Company | Automated word substitution using numerical rankings of structural disparity between misspelled words & candidate substitution words |
US4783761A (en) * | 1985-12-26 | 1988-11-08 | Smith Corona Corporation | Spelling check dictionary with early error signal |
US4782464A (en) * | 1985-12-26 | 1988-11-01 | Smith Corona Corporation | Compact spelling-check dictionary |
US4725694A (en) * | 1986-05-13 | 1988-02-16 | American Telephone And Telegraph Company, At&T Bell Laboratories | Computer interface device |
US6002799A (en) * | 1986-07-25 | 1999-12-14 | Ast Research, Inc. | Handwritten keyboardless entry computer system |
US5187480A (en) * | 1988-09-05 | 1993-02-16 | Allan Garnham | Symbol definition apparatus |
US5224179A (en) * | 1988-12-20 | 1993-06-29 | At&T Bell Laboratories | Image skeletonization method |
CA2006163A1 (en) * | 1988-12-21 | 1990-06-21 | Alfred B. Freeman | Keyboard express typing system |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
CA2015410C (en) * | 1989-05-17 | 1996-04-02 | Chin H. Lee | Speech recognition employing key word modeling and non-key word modeling |
JP3143461B2 (ja) * | 1990-05-29 | 2001-03-07 | キヤノン株式会社 | 文字認識方法及び文字認識装置 |
US5305205A (en) * | 1990-10-23 | 1994-04-19 | Weber Maria L | Computer-assisted transcription apparatus |
US5317507A (en) * | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
US5462711A (en) * | 1990-12-17 | 1995-10-31 | Ricottone; Jacqueline L. | Disposable beaker sheath |
JP3155577B2 (ja) * | 1991-10-16 | 2001-04-09 | キヤノン株式会社 | 文字認識方法及び装置 |
US5963671A (en) * | 1991-11-27 | 1999-10-05 | International Business Machines Corporation | Enhancement of soft keyboard operations using trigram prediction |
US5870492A (en) * | 1992-06-04 | 1999-02-09 | Wacom Co., Ltd. | Hand-written character entry apparatus |
US5880411A (en) * | 1992-06-08 | 1999-03-09 | Synaptics, Incorporated | Object position detector with edge motion feature and gesture recognition |
JP3155616B2 (ja) * | 1992-06-25 | 2001-04-16 | キヤノン株式会社 | 文字認識方法及び装置 |
JP3157304B2 (ja) * | 1992-09-22 | 2001-04-16 | 富士通株式会社 | 仮想キーボード |
JP3247746B2 (ja) | 1993-01-18 | 2002-01-21 | 日本電信電話株式会社 | 耐雑音音韻モデルの作成方式 |
US5612690A (en) * | 1993-06-03 | 1997-03-18 | Levy; David | Compact keypad system and method |
US5973676A (en) * | 1993-06-30 | 1999-10-26 | Kabushiki Kaisha Toshiba | Input apparatus suitable for portable electronic device |
JP3546337B2 (ja) * | 1993-12-21 | 2004-07-28 | ゼロックス コーポレイション | 計算システム用ユーザ・インタフェース装置及びグラフィック・キーボード使用方法 |
JP3453422B2 (ja) * | 1994-02-10 | 2003-10-06 | キヤノン株式会社 | 文字パターンのユーザ辞書への登録方法及び該ユーザ辞書を有する文字認識装置 |
US5812697A (en) * | 1994-06-10 | 1998-09-22 | Nippon Steel Corporation | Method and apparatus for recognizing hand-written characters using a weighting dictionary |
US5745719A (en) * | 1995-01-19 | 1998-04-28 | Falcon; Fernando D. | Commands functions invoked from movement of a control input device |
US5805911A (en) * | 1995-02-01 | 1998-09-08 | Microsoft Corporation | Word prediction system |
US5748512A (en) * | 1995-02-28 | 1998-05-05 | Microsoft Corporation | Adjusting keyboard |
US5721808A (en) * | 1995-03-06 | 1998-02-24 | Nippon Telegraph And Telephone Corporation | Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same |
US6392640B1 (en) * | 1995-04-18 | 2002-05-21 | Cognitive Research & Design Corp. | Entry of words with thumbwheel by disambiguation |
US5798760A (en) * | 1995-06-07 | 1998-08-25 | Vayda; Mark | Radial graphical menuing system with concentric region menuing |
US6044165A (en) * | 1995-06-15 | 2000-03-28 | California Institute Of Technology | Apparatus and method for tracking handwriting from visual input |
US5818437A (en) * | 1995-07-26 | 1998-10-06 | Tegic Communications, Inc. | Reduced keyboard disambiguating computer |
WO1997005541A1 (en) * | 1995-07-26 | 1997-02-13 | King Martin T | Reduced keyboard disambiguating system |
NZ316124A (en) * | 1995-08-24 | 2000-02-28 | British Telecomm | Pattern recognition for speech recognising noise signals signatures |
US6041137A (en) * | 1995-08-25 | 2000-03-21 | Microsoft Corporation | Radical definition and dictionary creation for a handwriting recognition system |
US6278445B1 (en) * | 1995-08-31 | 2001-08-21 | Canon Kabushiki Kaisha | Coordinate input device and method having first and second sampling devices which sample input data at staggered intervals |
GB2313939B (en) * | 1996-06-03 | 2000-09-13 | Ibm | Word processing |
US5823793A (en) * | 1996-06-12 | 1998-10-20 | Litton Systems, Inc. | Holder for an electrical or electronic component |
US5796867A (en) * | 1996-06-12 | 1998-08-18 | Industrial Technology Research Institute | Stroke-number-free and stroke-order-free on-line Chinese character recognition method |
JPH10198394A (ja) | 1997-01-10 | 1998-07-31 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
JPH1011085A (ja) | 1996-06-21 | 1998-01-16 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
US5882517A (en) * | 1996-09-10 | 1999-03-16 | Cuno Incorporated | Porous structures |
US5917476A (en) * | 1996-09-24 | 1999-06-29 | Czerniecki; George V. | Cursor feedback text input method |
US6616703B1 (en) * | 1996-10-16 | 2003-09-09 | Sharp Kabushiki Kaisha | Character input apparatus with character string extraction portion, and corresponding storage medium |
US6275611B1 (en) * | 1996-10-17 | 2001-08-14 | Motorola, Inc. | Handwriting recognition device, method and alphabet, with strokes grouped into stroke sub-structures |
US5926566A (en) * | 1996-11-15 | 1999-07-20 | Synaptics, Inc. | Incremental ideographic character input method |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
US5953541A (en) * | 1997-01-24 | 1999-09-14 | Tegic Communications, Inc. | Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
FI114247B (fi) * | 1997-04-11 | 2004-09-15 | Nokia Corp | Menetelmä ja laite puheen tunnistamiseksi |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
JP4098880B2 (ja) * | 1997-06-06 | 2008-06-11 | 松下電器産業株式会社 | 情報検索装置 |
US6144764A (en) * | 1997-07-02 | 2000-11-07 | Mitsui High-Tec, Inc. | Method and apparatus for on-line handwritten input character recognition and recording medium for executing the method |
JPH11102414A (ja) * | 1997-07-25 | 1999-04-13 | Kuraritec Corp | ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体 |
US6104384A (en) * | 1997-09-12 | 2000-08-15 | Ericsson, Inc. | Image based keyboard for a small computing device |
US5896321A (en) * | 1997-11-14 | 1999-04-20 | Microsoft Corporation | Text completion system for a miniature computer |
US6037942A (en) * | 1998-03-10 | 2000-03-14 | Magellan Dis, Inc. | Navigation system character input device |
US6448987B1 (en) * | 1998-04-03 | 2002-09-10 | Intertainer, Inc. | Graphic user interface for a digital content delivery system using circular menus |
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
JP3191284B2 (ja) * | 1998-06-23 | 2001-07-23 | 日本電気株式会社 | 文字入力装置 |
US6075469A (en) * | 1998-08-11 | 2000-06-13 | Pong; Gim Yee | Three stroke Chinese character word processing techniques and apparatus |
JP2000075890A (ja) | 1998-09-01 | 2000-03-14 | Oki Electric Ind Co Ltd | ヒドン・マルコフ・モデルの学習方法及び音声認識システム |
JP2000075889A (ja) | 1998-09-01 | 2000-03-14 | Oki Electric Ind Co Ltd | 音声認識システム及び音声認識方法 |
WO2000014622A1 (fr) * | 1998-09-09 | 2000-03-16 | Qi Hao | Clavier et procede de saisie correspondant |
US6801659B1 (en) * | 1999-01-04 | 2004-10-05 | Zi Technology Corporation Ltd. | Text input system for ideographic and nonideographic languages |
US6418411B1 (en) * | 1999-03-12 | 2002-07-09 | Texas Instruments Incorporated | Method and system for adaptive speech recognition in a noisy environment |
US7293231B1 (en) * | 1999-03-18 | 2007-11-06 | British Columbia Ltd. | Data entry for personal computing devices |
US6549219B2 (en) * | 1999-04-09 | 2003-04-15 | International Business Machines Corporation | Pie menu graphical user interface |
US20030006956A1 (en) * | 1999-05-24 | 2003-01-09 | Charles Yimin Wu | Data entry device recording input in two dimensions |
US6970599B2 (en) * | 2002-07-25 | 2005-11-29 | America Online, Inc. | Chinese character handwriting recognition system |
US6172625B1 (en) * | 1999-07-06 | 2001-01-09 | Motorola, Inc. | Disambiguation method and apparatus, and dictionary data compression techniques |
WO2001088683A1 (en) * | 2000-05-18 | 2001-11-22 | Eleksen Ltd | Data input device |
JP4297602B2 (ja) * | 2000-09-18 | 2009-07-15 | パイオニア株式会社 | 音声認識システム |
CN1121004C (zh) * | 2000-12-21 | 2003-09-10 | 国际商业机器公司 | 用于小键盘的汉字输入方法 |
GB0103053D0 (en) * | 2001-02-07 | 2001-03-21 | Nokia Mobile Phones Ltd | A communication terminal having a predictive text editor application |
US6982658B2 (en) * | 2001-03-22 | 2006-01-03 | Motorola, Inc. | Keypad layout for alphabetic symbol input |
EP1246048A1 (en) * | 2001-03-26 | 2002-10-02 | SAP Aktiengesellschaft | Method and computer system for executing functions for objects based on the movement of an input device |
US6990534B2 (en) * | 2001-07-20 | 2006-01-24 | Flowfinity Wireless, Inc. | Method for a proactive browser system for implementing background frame maintenance and asynchronous frame submissions |
US7120580B2 (en) * | 2001-08-15 | 2006-10-10 | Sri International | Method and apparatus for recognizing speech in a noisy environment |
US20030048257A1 (en) * | 2001-09-06 | 2003-03-13 | Nokia Mobile Phones Ltd. | Telephone set having a touch pad device |
US6950796B2 (en) * | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
US7949513B2 (en) * | 2002-01-22 | 2011-05-24 | Zi Corporation Of Canada, Inc. | Language module and method for use with text processing devices |
US6864809B2 (en) * | 2002-02-28 | 2005-03-08 | Zi Technology Corporation Ltd | Korean language predictive mechanism for text entry by a user |
US6847311B2 (en) * | 2002-03-28 | 2005-01-25 | Motorola Inc. | Method and apparatus for character entry in a wireless communication device |
US7020849B1 (en) * | 2002-05-31 | 2006-03-28 | Openwave Systems Inc. | Dynamic display for communication devices |
US20040163032A1 (en) * | 2002-12-17 | 2004-08-19 | Jin Guo | Ambiguity resolution for predictive text entry |
US7088861B2 (en) * | 2003-09-16 | 2006-08-08 | America Online, Inc. | System and method for chinese input using a joystick |
-
2002
- 2002-03-15 JP JP2002072456A patent/JP4061094B2/ja not_active Expired - Fee Related
-
2003
- 2003-03-14 US US10/389,859 patent/US7403896B2/en active Active
-
2008
- 2008-01-09 US US11/971,651 patent/US7660717B2/en not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8688877B1 (en) | 2003-03-13 | 2014-04-01 | Marvell World Trade Ltd. | Multiport memory architecture |
US9105319B2 (en) | 2003-03-13 | 2015-08-11 | Marvell World Trade Ltd. | Multiport memory architecture |
US8234425B1 (en) | 2007-06-27 | 2012-07-31 | Marvell International Ltd. | Arbiter module |
US8205028B1 (en) | 2007-07-31 | 2012-06-19 | Marvell International Ltd. | Adaptive bus profiler |
US9070451B1 (en) | 2008-04-11 | 2015-06-30 | Marvell International Ltd. | Modifying data stored in a multiple-write flash memory cell |
US8683085B1 (en) | 2008-05-06 | 2014-03-25 | Marvell International Ltd. | USB interface configurable for host or device mode |
US8924598B1 (en) | 2008-05-06 | 2014-12-30 | Marvell International Ltd. | USB interface configurable for host or device mode |
US8874833B1 (en) | 2009-03-23 | 2014-10-28 | Marvell International Ltd. | Sequential writes to flash memory |
US9070454B1 (en) | 2009-04-21 | 2015-06-30 | Marvell International Ltd. | Flash memory |
US8688922B1 (en) | 2010-03-11 | 2014-04-01 | Marvell International Ltd | Hardware-supported memory management |
US8843723B1 (en) | 2010-07-07 | 2014-09-23 | Marvell International Ltd. | Multi-dimension memory timing tuner |
Also Published As
Publication number | Publication date |
---|---|
US7660717B2 (en) | 2010-02-09 |
US7403896B2 (en) | 2008-07-22 |
US20080183472A1 (en) | 2008-07-31 |
US20030225581A1 (en) | 2003-12-04 |
JP2003280686A (ja) | 2003-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7660717B2 (en) | Speech recognition system and program thereof | |
JP3836815B2 (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP5505896B2 (ja) | 発話区間検出システム、方法及びプログラム | |
JP4340686B2 (ja) | 音声認識装置及び音声認識方法 | |
US20050114137A1 (en) | Intonation generation method, speech synthesis apparatus using the method and voice server | |
JP2002140089A (ja) | 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置 | |
JP2002132289A (ja) | 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置 | |
Yapanel et al. | A new perspective on feature extraction for robust in-vehicle speech recognition. | |
JP2006084875A (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
JP4728791B2 (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
JPH07168594A (ja) | スピーチ認識方法および装置 | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JPH10149191A (ja) | モデル適応方法、装置およびその記憶媒体 | |
Fujimoto et al. | CENSREC-3: An evaluation framework for Japanese speech recognition in real car-driving environments | |
JP3999731B2 (ja) | 信号ソースを分離するための方法及び装置 | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
JP4325044B2 (ja) | 音声認識システム | |
JP4655184B2 (ja) | 音声認識装置および方法、記録媒体、並びにプログラム | |
JP2004029215A (ja) | 音声認識装置の音声認識精度評価方法 | |
JP2003255980A (ja) | 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 | |
WO2007000816A1 (ja) | 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 | |
JP3926716B2 (ja) | 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 | |
JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050317 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051104 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051219 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060203 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20071220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071221 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4061094 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111228 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121228 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121228 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131228 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |