JP4230142B2 - 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 - Google Patents
悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 Download PDFInfo
- Publication number
- JP4230142B2 JP4230142B2 JP2001388362A JP2001388362A JP4230142B2 JP 4230142 B2 JP4230142 B2 JP 4230142B2 JP 2001388362 A JP2001388362 A JP 2001388362A JP 2001388362 A JP2001388362 A JP 2001388362A JP 4230142 B2 JP4230142 B2 JP 4230142B2
- Authority
- JP
- Japan
- Prior art keywords
- key
- keys
- assigned
- phonemes
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005516 engineering process Methods 0.000 title description 9
- 230000002411 adverse Effects 0.000 title description 5
- 238000000034 method Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims 2
- 230000001413 cellular effect Effects 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 description 8
- 241001672694 Citrus reticulata Species 0.000 description 7
- 230000001055 chewing effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 235000015096 spirit Nutrition 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/02—Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
- G06F15/0208—Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators for combination with other devices having a different main function, e.g. watches, pens
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Calculators And Similar Devices (AREA)
Description
【発明の属する技術分野】
本発明は、音声信号処理に関し、更に特定的には、限られた記憶容量を有するハンドヘルド式の小型電子機器を用いた標準中国語、日本語、韓国語といった東洋の言語の自動音声認識(ASR)に関連する。
【0002】
【従来の技術】
数十年に亘り、自動音声認識(ASR)の技術が開発されてきた。1つの例として、パーソナルコンピュータにおいて用いられる大量語彙連続音声認識(LVCSR:Large-Vocabulary-Continuous-Speech Recognition)システムがある。図1を参照するに、LVCSRシステム1は、一般的に、スペクトル解析ブロック15及びピッチ解析16を含む音響的なフロントエンドを用い、特徴抽出のために文脈依存モデリング及び言語モデリングによる発音語彙集を用い、信号を認識する。LVCSRシステム1では、文脈依存モデリング及び言語モデリングの両方のために多数のパラメータを処理せねばならないため、計算及び記憶の負荷は非常に高い。携帯情報端末(PDA)、移動電話機、無線電話機、及び電子辞書等といった少ない記憶容量を有する小型機器で用いられる従来の音声認識技術では、一般的に音声入力パターンを認識するために音響的な特徴及び音声学的/語彙的なモデル並びにコードブック設計が用いられる。これらの技術は、標準中国語、日本語、韓国語等といった東洋の言語について特に有用である。LVCSRシステム1は、パーソナルコンピュータのユーザにとっては開発され成熟してきたが、それでもなお音響的な特徴や音声認識器のセンサが悪環境に存在するときに背景雑音によって汚されやすいという欠点がある。一方、LVCSRシステム1における認識誤り率の低下は、主にその言語を特に話す話者によって最も頻繁に使用される入力単語列の知識、いわゆる言語モデリングによるものである。このため、LVCSRシステム1では、入力単語列を処理するために大量のメモリ記憶及び計算努力が必要となる。従って、LVCSRシステム1は、特に悪環境では、記憶容量の少ない小型電子機器には適していない。
【0003】
【発明が解決しようとする課題】
従来のLVCSR技術が悪環境で用いられた場合について考察した場合に、本願発明の発明者は、パフォーマンスの低下なしに連続する音声について音声モデルをうまく用いることは困難であること、孤立音声の認識は連続音声の認識よりも容易であること、孤立音声における母音の認識は子音の認識よりも容易であること、及び例えば台湾や香港で教育を受けた殆どの標準中国語を話す人はチューイン(zhu-yin)発音に馴染みがあるため漢字をチューイン発音で分解することの方が容易であることを認識する。一般的に、1つの漢字に対して1乃至3のピンイン(pin-yin)発音が用いられる。概して、中国語、日本語、韓国語等の幾つかの東洋言語は、孤立音声では、S−休止−S−休止−S−休止−S−休止−...といった音節構造を有する。当業者によって周知であるように、音節構造はS=(C)+Vという性質を有し、但し、Cは子音、Vは母音を表し、Cは韓国語、日本語、及び中国語で任意である。
【0004】
漢字に関していえば、約20,000の一般的に使用される文字がある。これらの漢字は、約400の音節と、声調音節と称される約1400の異なる音節とを有する。これらの声調音節は、V+T又はC+V+Tという特定的な構造を有し、Vは母音、Cは子音、Tは声調を示す。音声認識の分野の当業者によって周知であるように、異なる子音の音響的な具現化(又はパワースペクトル)の間にはそのパワースペクトルについて高い曖昧さがあるといえる。従来のASR技術では、認識における誤り率は、主に子音の音響的な具現化の不安定性から生ずるものである。子音の音響的な具現化の安定性とモデル同時調音を高めるために提案されている1つのアプローチは、モデル単位を文脈依存の単音であるよう選択することである。文脈依存の単音をモデリングしない場合は、子音の具現化の不安定性の性質により単語誤り率の増加を生じさせる。認識単語誤り率を低下させるための他のアプローチは、日常言語で一般的に使用されている単語列についての知識を用いるいわゆる言語モデリングである。悪環境では文脈依存の子音の音響的な具現化はきれいな音声と比較してはるかに不安定となるため、言語モデリングを使用することは電話用の対話システムといったASR技術の主な要因である。しかしながら、文脈依存単音モデリングでは、モデルの複雑性が高く、多くの統計的パラメータ(一般的には100Kバイト)を学習させ(統計的方法による推定)、RAMといった揮発メモリに記憶させねばならないという不利な点がある。他の方法は、全体単語モデリングを使用することである。しかしながらこの方法もモデルの複雑性を300倍高める。更に、LVCSRシステム1(一般的には10,000の単語を有する)言語モデリング(N−gram、N=2,3)のメモリ使用は非常に高く計算的に費用がかかる。従って、ハンドヘルド式の電子装置ではその内在的な計算及びメモリの制約により実際的ではない。
【0005】
孤立音声中の母音の容易な認識に基づき、孤立音声中の母音を認識するための現在利用可能な音声認識技術は信頼性が高い。声調については、音声の音響的な特徴は異なる声調を弁別するための十分な情報を提供しうる。現在の音声認識技術では、特に音声の音響的な特徴が悪環境において雑音によって汚されている場合は、子音の弁別が弱点となる。
【0006】
【課題を解決するための手段】
本発明の第1の利点は、東洋言語の子音及び母音を含む複数の音素を、ハンドヘルド電子装置の複数のキーにより、複数のキーの夫々にまとめられた複数の音素の平方距離(即ち音響特徴空間中の非類似性の尺度)の和と複数のキーの間での複数の音素の平方距離の和との比率が最大化されるようグループへまとめる方法を提供することである。
【0007】
本発明の第2の利点は、複数のキーからなる数字キーパッドと音声入力装置とを有する電子装置へ東洋文字を入力する方法であって、上記のまとめる方法によって複数のキーの各キーに又は各キーの近傍に東洋言語の子音及び母音を含む少なくとも一つの音素が割り当てられ目に見える形で表わされ、東洋文字を表わす音声はユーザによって発話され、音声入力手段によって受信され、ユーザが東洋文字の夫々を孤立音声モードで口に出すときにユーザは東洋文字の夫々に対応する最初の音素を表わすキーを順次に押すこと、及び、順次にキー入力される音素に基づいて対応する東洋文字が選択される方法を提供することである。
【0008】
本発明の第3の利点は、ハイブリッドなキーパッド/音声認識を通じて東洋言語の発話をそれを表わす東洋文字を認識するために入力しうる電子装置であって、音声入力装置と上述の方法によってまとめられた複数のキーを有する数字キーパッドとを有する電子装置を提供することである。電子装置では、音声認識装置は、悪環境において東洋文字が効率的に電子装置へ入力されうるよう、キーパッドを通じてキー入力された音素の列及び発話に基づいて発話から東洋文字を認識する。
【0009】
本発明の第4の利点は、上述の電子装置において用いられる数字キーパッドを通じてキー入力によって支援されて東洋言語の音声を認識する方法を提供することである。
【0010】
本発明の第5の利点は、プロセッサに上述の認識方法を実行させるよう動作可能なコンピュータ製品を提供することである。
【0011】
【発明の実施の形態】
本発明は、例として与えられるものであり本発明を制限するものではない以下の詳細な説明及び添付の図面により更に完全に理解されよう。本発明は、以下の(1)及び(2)のような条件下での、ハンドヘルド式装置用の精度の高いハイブリッドなキーパッド/ASRアーキテクチャに関する。
(1)悪環境での従来の音声認識技術の欠陥。例えば、音声の音響的な特徴は、非定常的な音声及びチャネル効果により十分にロバストでない。それに加え、例えば全体語モデリング、文脈依存単音モデリング、及びtrigram言語モデリングといった従来の技術の計算及びメモリの負荷は非常に高い。
(2)孤立音声での韓国語、日本語、及び中国語の幾つかの東洋言語特徴の音節構造。即ち、(C)+V,休止,(C)+V,...であり、但し、Cは子音、Vは母音を表し、Cは韓国語、日本語、及び中国語において任意である。
【0012】
本発明について標準中国語を例にとって説明し図示する。しかしながら当業者は、本発明の原理及び精神は本願の請求の範囲を逸脱することなく日本語、韓国語、広東語といった他の東洋言語にも適用されうることを認識するであろう。
【0013】
図2は、本発明の望ましい実施例によるハンドヘルド式電子装置20についてのハイブリッドなキーパッド/音声認識アーキテクチャを示す図である。図2中、キーパッド装置22上の頻繁に使用される12の数字キー、0乃至9、*及び#は、本発明によれば特に中国語(基本的には37のBoPoMoFo音素からなる)のチューイン(ZHU-YIN:注音)表記を視覚的に表わすために割り当てられ、これについて以下詳述する。従来技術で周知であるように、キーパッド装置22は上述の12のキーが画面23上のアイコンの形で示されるハンドヘルド式電子装置20の画面23上のタッチパネルでありうる。動作上、電子装置20のユーザは、孤立音声(音声の間に休止がある)で発声し、これはマイクロホン21によって受信され、孤立音声の中の音節が口に出されたときに孤立音声の中の各音節の第1のピンイン音素(通常は子音)を表わすキーパッド装置22の1つのキーを略同時に押す。
【0014】
ここで図3を参照するに、受信された音声信号はA/D変換器を介してディジタル式にサンプリングされ、スペクトル解析ブロック25及びピッチ解析ブロック26へ送信される。当業者により周知であるように、内蔵式A/D変換器をマイクロホン21有するディジタルマイクロホンを形成するために、マイクロホン21はA/D変換器24に組み込まれうる。ブロック25では、サンプリングされた音声信号は等しい幅で時間的に重なり合う多数の解析ゲートへ分割される。次に、各解析ゲートは、音声解析において一般的に使用されるハミングウィンドウと称されるカーネルで乗算される。各解析ゲート中のサンプリングされた音声信号の高速フーリエ変換(FFT)は、解析ゲート中のサンプリングされた音声信号のスペクトルを発生するために計算され、次にパワースペクトルを生じさせスペクトル音響特徴を形成するために平方される。それに加え、発話される孤立した音声の声調特徴は、標準中国語、広東語、タイ語、台湾語等の東洋声調言語用のピッチを介してサンプリングされた音声信号から抽出される。ピッチ解析ブロック26は、日本語及び韓国語といった声調の少ない東洋言語には使用されない。
【0015】
最初の1つのキーが押されたというユーザによってなされたアクションは、キーパッド装置22からのイネーブル/データ信号30によって示されるように、音響マッチングブロック27、孤立音節マッチングブロック28、及び最善仮説マッチングブロック29によるサンプリングされた音声信号の処理の開始を示す。イネーブル/データ信号30によって示されるように、発話を構成する各音節の通常は子音である音素の情報は、音節の認識を更に速め、それにより電子装置20の計算上の負荷を減少させるために音響マッチングブロック27へ送信される。同様に、孤立音声マッチングブロック28は、各発話の中に複数の音節からなる各語の認識を、音響マッチングブロック27からの各音節及びキーパッド装置22を介した順次のキー入力された音素(子音)に基づいて速めうる。
【0016】
本発明の望ましい実施例によれば、悪環境でのASRには特に、孤立音声(音声の中に休止が存在する)モードが望ましい。即ち電子装置20のユーザによってなされる孤立音声の信頼性は本発明により高められる。また、本発明の望まし実施例によれば、発話された各多音節語について、孤立音節モードが望ましい。即ち、悪環境で各音節がより容易に認識されるよう多音節語の中の音節間に休止が存在する。本発明の望ましい実施例によれば、特に韓国語、日本語、及び中国語のように簡単な音節構造、即ち、S=(C)+Vを有する各発話された孤立音節について、これをマイクロホン11に向かって発話しているときにこの孤立音節からなる対応する子音(又は母音)をキーパッド装置22を介して手で入力することが望ましい。これは、上述のように、悪環境では子音を従来の音声認識技術によって識別することが比較的困難だからである。
【0017】
本発明によれば、ユーザによるキーパッド装置22への手での入力は、(i)発話された孤立音声がいつ音響マッチングブロック28によって処理されるか、(ii)孤立音節マッチングブロック28によって処理されるべき(韓国人、日本人、及び中国人にとって認識するのが比較的簡単な)対応する孤立発話音節の子音、及び、(iii)スクロールキー「<」及び「>」等のキーパッド装置22のブラウズ機能キーを通じた、最善仮説マッチングブロック29によって処理されるべき同音文字(即ち、同じ発音を有する異なる文字、例えば中国語では、
【0018】
【外2】
の候補リストからの所望の音節、を提供しうる。
【0019】
上述のことに基づいて、本発明によれば図4に示される電子装置20において用いられるキーパッド装置22を介したキー入力によって支援される東洋言語での音声を認識する方法が提供される。図4を参照するに、ステップ41において、ユーザによって発話された音声を表わす音声信号がマイクロホン21によって入力される。ステップ42において、スペクトル解析ブロック25及びピッチ解析ブロック26によって音声信号の特徴が抽出される。ステップ43において、ユーザが各音節を口に出したときに、キーパッド装置22を介して、発話された音声の各音節の最初の音素に対応する情報が受信される。ステップ44において、音声信号の音声特徴と、ステップ43において受信された順次のキー入力された音素に基づいて、音響マッチングブロック27により、発話された音声の各音節が認識される。ステップ45において、ステップ44において認識された各音節と、ステップ43において受信された順次のキー入力された音素とに基づいて、孤立音節マッチングブロック28により、発話された音声の中の複数の音節からなる各語が認識される。
【0020】
本発明によれば、上述の認識方法は、ソフトウエアの形式でコンピュータ読み取り可能な媒体に記録されうる。それに加え、コンピュータ製品は、電子装置20のプロセッサに上述の認識方法を実行させるよう動作可能である。
【0021】
標準中国語の37のチューイン(BoPoMoFo、注音)は、以下の、
【0022】
【外3】
である。
【0023】
本発明によれば、標準中国語の37のチューイン表記は、データ主導で、即ち、漢字の音響データベースに基づく「線形判別分析の逆(ILDA:Inverse of linear discriminant analysis)」で、キーパッド装置22の12個のキーに割り当てられる。望ましくは、本発明の方法によれば、これは(A)キーパッド22の各キーにまとめられた子音及び母音を含む幾つかの音素の音響特徴の平方距離を各キー内で合計した和(即ち、音響特徴空間中の非類似性の尺度)であって、各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、上記和は、全キーにわたって平均される、ような和と、(B)キーパッド装置22の上記複数のキーの各キーに割り当てられた音素の音響特徴の平方距離をを全キーにわたって合計した和であって、各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、との比率を最大化するまとめ方を見出すことによってなされうる。換言すれば、キーの押し下げの効率性を確実とするためにキーパッド装置22のキーに標準中国語の37のチューイン表記を割り当てるための本発明による基準は以下の通りである。
【0024】
・キーパッド装置22の各キー内における37のチューイン表記の音響特徴空間での非類似性尺度が最大化される(本発明によれば、例えばキー「1」に
【0025】
【外4】
のように1つのキーに通常は3乃至4の音素が割り当てられる)。この最大化は、図3に示されるASRシステムでは、押し下げられた各キーによって表わされる音素のグループから特定の音節/音素を認識することが比較的容易であることが確実とされる。
【0026】
・キーパッド装置22の複数のキーの間での37のチューイン表記の音響特徴空間での非類似性の尺度は最小化される(本発明によれば、
【0027】
【外5】
)。この最小化は、最も曖昧な複数の音(音素)がキーの押し下げによって認識されることを確実とする。
【0028】
図2に示されるキーパッド装置22の37のチューイン表記の特殊化された割り当てのうちの1つの例は、以下の、
【0029】
【外6】
である。
【0030】
本発明の動作の例として、本発明のハイブリッドなキーパッド/音声認識スキームに基づいてマイクロホン21及びキーパッド装置22の両方を介して電子装置20に多音節語、例えば
【0031】
【外7】
(あなたは誰ですか。)を入力しようとする場合、ユーザはまず孤立音節モードで孤立音声
【0032】
【外8】
を発音し、その各音節はマイクロホンによって順次に受信される。ユーザが休止の間の各音節を発音するとき、ユーザは音節の子音(可能であれば他の母音)を押し下げる。上述のように、現行の音声認識技術が悪環境下で用いられた場合、孤立音声では子音よりも母音を認識するほうが容易であり、従って発話された孤立音声の認識率を高めるためにユーザのキー押し下げにより子音が指定されることが望ましいことが観察されるためである。例えば、ユーザは、漢字
【0033】
【外9】
(あなた、チューインでは
【0034】
【外10】
)に対する子音
【0035】
【外11】
を表わすキー「#」を直感的に押しうる。同様に、ユーザは、漢字「是」(は、チューインでは
【0036】
【外12】
)に対する子音
【0037】
【外13】
を表わすキー「3」を押し、漢字「誰」(だれ、チューインでは
【0038】
【外14】
)に対する子音
【0039】
【外15】
を表わすキー「3」を再び押す。上述のように、上述の声調による孤立音声の声調特徴はピッチ解析ブロック26によって取り出され、次に音響マッチングブロック26、孤立音節マッチングブロック28、及び最善仮説マッチングブロック29によって順次に解析される。従って、標準中国語の4つの声調マーカ
【0040】
【外16】
に割り当てられる声調キーは、本発明による電子装置20には必要でない。
【0041】
それに加え、上述の場合、ユーザが休止の間に各音節を口に出し同時にその子音を表わすキーを押すとき、画面23上の候補リスト(図2には図示せず)に幾つかの同音文字(即ち同じ発音を有する異なる文字)が示される。すると、ユーザはキーパッド装置22上の「<」及び「>」といったスクロールキーや、「OK」キー(図示せず)を用いて、所望の漢字を選択する。このようにして、上述の3つの漢字を電子装置20に入力するために、ユーザは3つのキーを押すだけでよく、これに対して従来技術ではスクロールキー及び「OK」キーがあるにもかかわらず少なくとも6乃至8のキー(各文字について少なくとも2回のキー押し下げ)を押さねばならなかった。周知であるように、孤立音声の中の同音文字は、文脈依存の学習技術により自動的に選択されうる。従って、本発明によれば、悪環境における入力東洋言語に対する効率的なキー押し下げは、本発明によるキー割り当て及び音声認識方法の両方によって達成されうる。
【0042】
本発明の望ましい実施例では、発話された孤立音節構造中の対応する子音を表わすキーを押すことにより、音節同士の曖昧さは効果的にかなり減少され、認識の誤り率は追加的な計算負荷及びメモリ利用なしにかなり減少される。本発明はキーパッド及びマイクロホンの両方を通じて韓国語、日本語、及び中国語を入力することが可能な悪環境において使用されるハンドヘルド式の電子装置について、これらの言語は単純な音節構造、即ちS=(C)+V、但し、Sは特定の音節、C/Vは対応する子音/母音を表わす、に特に適している。
【0043】
本発明は標準中国語についての望ましい実施例に関して説明されたが、これは本発明を制限するものではない。日本語、韓国語(声調が少ない)、タイ語、ベトナム語(声調がある)といった東洋言語にも本発明が適用されうる。更に、キーパッド装置22の12個の数字キーに37のチューイン表記を割り当てる原理は、中国語に関する本発明の実施例を通じて英語といった他のラテン系の言語にも適用されうる。例えば、英語といったラテン系の言語の複数の音素の音響特徴空間を得るために、データ主導で、キーパッド装置22の各キーにまとめられた複数の音素の平方距離の和(即ち音響特徴空間中の非類似性の尺度)とキーパッド装置22の各キーの間での複数の音素の平方距離の和との比率を最大化するためである。このようにして、英語のアルファベットの26の文字は、キーパッドの幾つかの、例えば、10個又は12個の数字キーに割り当てられ、それによりキーパッドのスケールがかなり減少されうる。
【0044】
本発明は、ASRの技術の当業者によれば、本発明の請求項の範囲及び精神を逸脱することなく変更又は変形されうる。
【図面の簡単な説明】
【図1】 従来の大量語彙連続音声認識(LVCSR)システムを示す概略図である。
【図2】 本発明によるピンイン(pin-yin)文字用の複合キーパッド/音声認識技術を用いた電子機器を示す概略図である。
【図3】 図2に示す電子機器において用いられる複合キーパッド/音声認識システムを示す概略図である。
【図4】 図3で使用される数字キーパッドを用いたキー入力によって支援される東洋言語の音声を認識する方法を示すフローチャートである。
【符号の説明】
21 マイクロホン
22 キーパッド装置
24 A/D変換器
25 スペクトル解析
26 ピッチ解析
27 音響マッチング
28 孤立音節マッチング
29 最善仮説
30 イネーブル/データ信号
Claims (13)
- 子音+母音+声調又は母音+声調の音節構造を有する東洋言語の発話を入力する電子装置であって、
上記発話を表わす音声信号を受信する音声受信器と、
上記音声受信器に結合され、上記音声信号の音声特徴を抽出する前処理手段と、
各キーに子音及び母音を含む少なくとも一つの音素が割り当てられる複数のキーを含むキーパッド手段と、
上記音声信号の音声特徴及び上記キーパッド手段を通じて順次に得られる音素に基づいて上記発話の各音節を認識する音響マッチング手段と、
上記音響マッチング手段からの各音節及び上記キーパッド手段を通じてキー入力された音素に基づいて上記発話の中の複数の音節からなる各語を認識する孤立音節マッチング手段とを含んでおり、
各キーは、
(A)上記キーパッド手段の各キーにまとめられた音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
(B)各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう、少なくとも1つの音素に割り当てられている、電子装置。 - 発話の各音節が口に出されたときに、各音節の最初の音素(望ましくは子音)に対応するキーが押される、請求項1記載の電子装置。
- セルラー式電話機、ワイヤレス式電話機、電子辞書、携帯情報端末、及び電子腕時計からなる群から選択される一の電子装置である、請求項1記載の電子装置。
- 上記発話は、少なくとも1つの多音節語からなる孤立音声である、請求項1記載の電子装置。
- 上記発話の各音節の最初の音素は子音である、請求項2記載の電子装置。
- ディスプレイを有する電子装置であって、
子音+母音又は母音のいずれかの音節構造を有する東洋言語の発話を表わす音声信号を受信する音声受信手段と、
各キーに又は各キーの近傍に、子音及び母音を含む少なくとも一つの音素が割り当てられ目に見える形で表わされた複数のキーを有する数字キーパッドと、
上記数値キーパッドを介して順次に得られる音素及び上記音声受信手段によって受信される発話に基づいて上記発話から東洋文字を認識する音声認識手段と、
上記ディスプレイ上に上記発話からの東洋文字を表示する手段とを含んでおり、
上記少なくとも一つの音素は、
(A)上記キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
(B)各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう、上記複数のキーの夫々に割り当てられており、それにより上記数字キーパッド及び上記音声受信手段を通じて東洋言語が効率的に入力されうる、電子装置。 - 複数のキーを有する数字キーパッドを介したキー入力によって支援された、子音+母音又は母音の音節構造を有する東洋言語の音声を認識する方法であって、
(a)上記音声を表わす音声信号を入力する段階と、
(b)上記音声信号の音声特徴を抽出する段階と、
(c)上記数字キーパッドを通じて、上記音声の各音節が口に出されたときに上記音声中の各音節の最初の音素に対応するキーの情報を順次に受信する段階と、
(d)上記音声信号の音声特徴及び上記段階(c)から順次に受信される音素に基づいて上記音声の各音節を認識する段階と、
(e)上記段階(d)で認識された各音節及び上記段階(c)から順次に受信される音素に基づいて上記音声の中の複数の音節からなる各語を認識する段階とを含んでおり、
上記数字キーパッドの複数のキーには子音及び母音を含む少なくとも一つの音素が割り当てられており、前記少なくとも一つの音素は、
(A)各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
(B)各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう、上記複数のキーの夫々に割り当てられている、ことを特徴とする、方法。 - 上記段階(c)における上記最初の音素は子音である、請求項7記載の方法。
- 数字キーパッドの複数のキーの夫々に少なくとも一つの音素が割り当てられるように東洋言語の子音及び母音を含む複数の音素を電子装置の数字キーパッドにおいてまとめる方法であって、
(a)上記複数の音素の音響特徴を得る段階と、
(b)
(A)上記キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
(B)各複数のキーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響 特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率を最大化するまとめ方を線形判別分析の逆の仕方で見出す段階とを含んでいる、方法。 - 複数のキーを含む数字キーパッド及び音声入力手段を有する電子装置に東洋文字を入力する方法であって、
子音及び母音を含む少なくとも一つの音素は、複数のキーの各キーに又は各キーの近傍に割り当てられ目に見える形で表わされること、
上記東洋文字を表わす音声はユーザによって発話され、上記音声入力手段によって受信され、ユーザは上記東洋文字の夫々を孤立音声モードで口に出すときに上記東洋文字の夫々に対応する最初の音素を表わすキーを順次に押すこと、
順次にキー入力される音素に基づいて対応する東洋文字が選択されること、及び、
前記少なくとも一つの音素は、
(A)上記数字キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
(B)各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう上記複数のキーの夫々に割り当てられていることを特徴とする、方法。 - 複数のキーを有する数字キーパッドを介したキー入力によって支援された、子音+母音又は母音の音節構造を有する東洋言語の音声を認識するための複数の段階をプロセッサに実行させるよう動作可能なコンピュータプログラムであって、上記複数の段階は、
(a)上記音声を表わす音声信号を入力する段階と、
(b)上記音声信号の音声特徴を抽出する段階と、
(c)上記数字キーパッドを通じて、上記音声の各音節が口に出されたときに上記音声の中の各音節の最初の音素に対応するキーの情報を順次に受信する段階と、
(d)上記音声信号の音声特徴及び上記段階(c)から順次に受信される音素に基づいて上記音声の各音節を認識する段階と、
(e)上記段階(d)で認識された各音節及び上記段階(c)から順次に受信される音素に基づいて上記音声の中の複数の音節からなる各語を認識する段階とを含んでおり、
上記数字キーパッドの複数のキーの夫々に子音及び母音を含む少なくとも一つの音素が割り当てられており、前記少なくとも一つの音素は、
(A)上記数字キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離の和であって、
各距離は、各キーにまとめられた音素の音響特徴の平均からの距離であり、
上記和は、すべてのキーについて平均される、ような和と、
(B)上記複数のキーのそれぞれに割り当てられた音素の音響特徴の平方距離の和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の平均であり、
各距離は、上記複数のキーに割り当てられた音素の音響特徴の平均からの距離である、ような和、
との比率が最大化されるよう、上記複数のキーの夫々に割り当てられている、ことを特徴とする、コンピュータプログラム。 - 上記段階(c)における上記最初の音素は子音である、請求項12記載のコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00204815 | 2000-12-22 | ||
EP00204815.5 | 2000-12-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002268680A JP2002268680A (ja) | 2002-09-20 |
JP4230142B2 true JP4230142B2 (ja) | 2009-02-25 |
Family
ID=8172572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001388362A Expired - Fee Related JP4230142B2 (ja) | 2000-12-22 | 2001-12-20 | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP4230142B2 (ja) |
KR (1) | KR100868709B1 (ja) |
CN (1) | CN1224955C (ja) |
TW (1) | TW533404B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW533404B (en) * | 2000-12-22 | 2003-05-21 | Koninkl Philips Electronics Nv | Hybrid keypad/speech recognition technique for oriental characters in adverse environments |
CN100419751C (zh) * | 2004-03-11 | 2008-09-17 | 台达电子工业股份有限公司 | 使用语音输入查询方式及使用语音输入的行动电子装置 |
CN1952995B (zh) * | 2005-10-18 | 2010-09-22 | 说宝堂信息科技(上海)有限公司 | 智能互动型语言练习装置及其方法 |
CN101739868B (zh) * | 2008-11-19 | 2012-03-28 | 中国科学院自动化研究所 | 一种用于口语测试的文本朗读水平自动评估诊断方法 |
CN103488306A (zh) * | 2013-08-30 | 2014-01-01 | 浙江佑安高科消防系统有限公司 | 汉语数音拼音输入法 |
US9711141B2 (en) * | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
KR102356788B1 (ko) * | 2015-07-13 | 2022-02-08 | 에스케이텔레콤 주식회사 | 키패드를 이용한 키워드 검색 방법 및 장치 |
CN107193935A (zh) * | 2017-05-18 | 2017-09-22 | 上海思依暄机器人科技股份有限公司 | 一种拼音处理方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056796A (ja) * | 1998-08-07 | 2000-02-25 | Asahi Chem Ind Co Ltd | 音声入力装置および方法 |
JP2000066819A (ja) * | 1998-08-18 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 汎用中国語音声キーボード設定装置 |
JP2000305924A (ja) * | 1999-04-16 | 2000-11-02 | Matsushita Electric Ind Co Ltd | 数字キーによる漢字入力方法及びその装置 |
KR100355453B1 (ko) * | 1999-08-20 | 2002-10-11 | 한국전자통신연구원 | 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 |
TW533404B (en) * | 2000-12-22 | 2003-05-21 | Koninkl Philips Electronics Nv | Hybrid keypad/speech recognition technique for oriental characters in adverse environments |
-
2001
- 2001-11-16 TW TW090128512A patent/TW533404B/zh not_active IP Right Cessation
- 2001-12-19 CN CNB011456868A patent/CN1224955C/zh not_active Expired - Lifetime
- 2001-12-20 KR KR1020010081533A patent/KR100868709B1/ko not_active IP Right Cessation
- 2001-12-20 JP JP2001388362A patent/JP4230142B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100868709B1 (ko) | 2008-11-13 |
CN1224955C (zh) | 2005-10-26 |
CN1360301A (zh) | 2002-07-24 |
KR20020051842A (ko) | 2002-06-29 |
TW533404B (en) | 2003-05-21 |
JP2002268680A (ja) | 2002-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4468264B2 (ja) | 多言語による名称の音声認識のための方法とシステム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
JPH10501078A (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP2008209717A (ja) | 入力された音声を処理する装置、方法およびプログラム | |
WO2004036939A1 (fr) | Appareil de communication mobile numerique portable, procede de commande vocale et systeme | |
GB2557714A (en) | Determining phonetic relationships | |
JPH10503033A (ja) | 新ワードのモデル化に基づく音声認識方法及びその装置 | |
JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
CN111243599A (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
CA2613154A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
JP4230142B2 (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
CN107251137B (zh) | 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
JP3531342B2 (ja) | 音声処理装置および音声処理方法 | |
Sugamura et al. | Speech processing technologies and telecommunications applications at NTT | |
JP2001188556A (ja) | 音声認識方法及び装置 | |
JP3259734B2 (ja) | 音声認識装置 | |
KR100777569B1 (ko) | 멀티모달을 이용한 음성 인식 방법 및 그 장치 | |
JP4727330B2 (ja) | 音声認識装置及び音声認識プログラム | |
Wang | An interactive open-vocabulary chinese name input system using syllable spelling and character description recognition modules for error correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060919 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061218 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070903 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4230142 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131212 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |