JP4230142B2

JP4230142B2 - 悪環境下でのキーパッド／音声を用いたハイブリッドな東洋文字認識技術

Info

Publication number: JP4230142B2
Application number: JP2001388362A
Authority: JP
Inventors: ホアンチャン−ハン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-12-22
Filing date: 2001-12-20
Publication date: 2009-02-25
Anticipated expiration: 2021-12-20
Also published as: CN1360301A; KR100868709B1; JP2002268680A; KR20020051842A; TW533404B; CN1224955C

Description

【０００１】
【発明の属する技術分野】
本発明は、音声信号処理に関し、更に特定的には、限られた記憶容量を有するハンドヘルド式の小型電子機器を用いた標準中国語、日本語、韓国語といった東洋の言語の自動音声認識（ＡＳＲ）に関連する。
【０００２】
【従来の技術】
数十年に亘り、自動音声認識（ＡＳＲ）の技術が開発されてきた。１つの例として、パーソナルコンピュータにおいて用いられる大量語彙連続音声認識（ＬＶＣＳＲ：Large-Vocabulary-Continuous-Speech Recognition）システムがある。図１を参照するに、ＬＶＣＳＲシステム１は、一般的に、スペクトル解析ブロック１５及びピッチ解析１６を含む音響的なフロントエンドを用い、特徴抽出のために文脈依存モデリング及び言語モデリングによる発音語彙集を用い、信号を認識する。ＬＶＣＳＲシステム１では、文脈依存モデリング及び言語モデリングの両方のために多数のパラメータを処理せねばならないため、計算及び記憶の負荷は非常に高い。携帯情報端末（ＰＤＡ）、移動電話機、無線電話機、及び電子辞書等といった少ない記憶容量を有する小型機器で用いられる従来の音声認識技術では、一般的に音声入力パターンを認識するために音響的な特徴及び音声学的／語彙的なモデル並びにコードブック設計が用いられる。これらの技術は、標準中国語、日本語、韓国語等といった東洋の言語について特に有用である。ＬＶＣＳＲシステム１は、パーソナルコンピュータのユーザにとっては開発され成熟してきたが、それでもなお音響的な特徴や音声認識器のセンサが悪環境に存在するときに背景雑音によって汚されやすいという欠点がある。一方、ＬＶＣＳＲシステム１における認識誤り率の低下は、主にその言語を特に話す話者によって最も頻繁に使用される入力単語列の知識、いわゆる言語モデリングによるものである。このため、ＬＶＣＳＲシステム１では、入力単語列を処理するために大量のメモリ記憶及び計算努力が必要となる。従って、ＬＶＣＳＲシステム１は、特に悪環境では、記憶容量の少ない小型電子機器には適していない。
【０００３】
【発明が解決しようとする課題】
従来のＬＶＣＳＲ技術が悪環境で用いられた場合について考察した場合に、本願発明の発明者は、パフォーマンスの低下なしに連続する音声について音声モデルをうまく用いることは困難であること、孤立音声の認識は連続音声の認識よりも容易であること、孤立音声における母音の認識は子音の認識よりも容易であること、及び例えば台湾や香港で教育を受けた殆どの標準中国語を話す人はチューイン（zhu-yin）発音に馴染みがあるため漢字をチューイン発音で分解することの方が容易であることを認識する。一般的に、１つの漢字に対して１乃至３のピンイン（pin-yin）発音が用いられる。概して、中国語、日本語、韓国語等の幾つかの東洋言語は、孤立音声では、Ｓ−休止−Ｓ−休止−Ｓ−休止−Ｓ−休止−．．．といった音節構造を有する。当業者によって周知であるように、音節構造はＳ＝（Ｃ）＋Ｖという性質を有し、但し、Ｃは子音、Ｖは母音を表し、Ｃは韓国語、日本語、及び中国語で任意である。
【０００４】
漢字に関していえば、約２０，０００の一般的に使用される文字がある。これらの漢字は、約４００の音節と、声調音節と称される約１４００の異なる音節とを有する。これらの声調音節は、Ｖ＋Ｔ又はＣ＋Ｖ＋Ｔという特定的な構造を有し、Ｖは母音、Ｃは子音、Ｔは声調を示す。音声認識の分野の当業者によって周知であるように、異なる子音の音響的な具現化（又はパワースペクトル）の間にはそのパワースペクトルについて高い曖昧さがあるといえる。従来のＡＳＲ技術では、認識における誤り率は、主に子音の音響的な具現化の不安定性から生ずるものである。子音の音響的な具現化の安定性とモデル同時調音を高めるために提案されている１つのアプローチは、モデル単位を文脈依存の単音であるよう選択することである。文脈依存の単音をモデリングしない場合は、子音の具現化の不安定性の性質により単語誤り率の増加を生じさせる。認識単語誤り率を低下させるための他のアプローチは、日常言語で一般的に使用されている単語列についての知識を用いるいわゆる言語モデリングである。悪環境では文脈依存の子音の音響的な具現化はきれいな音声と比較してはるかに不安定となるため、言語モデリングを使用することは電話用の対話システムといったＡＳＲ技術の主な要因である。しかしながら、文脈依存単音モデリングでは、モデルの複雑性が高く、多くの統計的パラメータ（一般的には１００Ｋバイト）を学習させ（統計的方法による推定）、ＲＡＭといった揮発メモリに記憶させねばならないという不利な点がある。他の方法は、全体単語モデリングを使用することである。しかしながらこの方法もモデルの複雑性を３００倍高める。更に、ＬＶＣＳＲシステム１（一般的には１０，０００の単語を有する）言語モデリング（Ｎ−ｇｒａｍ、Ｎ＝２，３）のメモリ使用は非常に高く計算的に費用がかかる。従って、ハンドヘルド式の電子装置ではその内在的な計算及びメモリの制約により実際的ではない。
【０００５】
孤立音声中の母音の容易な認識に基づき、孤立音声中の母音を認識するための現在利用可能な音声認識技術は信頼性が高い。声調については、音声の音響的な特徴は異なる声調を弁別するための十分な情報を提供しうる。現在の音声認識技術では、特に音声の音響的な特徴が悪環境において雑音によって汚されている場合は、子音の弁別が弱点となる。
【０００６】
【課題を解決するための手段】
本発明の第１の利点は、東洋言語の子音及び母音を含む複数の音素を、ハンドヘルド電子装置の複数のキーにより、複数のキーの夫々にまとめられた複数の音素の平方距離（即ち音響特徴空間中の非類似性の尺度）の和と複数のキーの間での複数の音素の平方距離の和との比率が最大化されるようグループへまとめる方法を提供することである。
【０００７】
本発明の第２の利点は、複数のキーからなる数字キーパッドと音声入力装置とを有する電子装置へ東洋文字を入力する方法であって、上記のまとめる方法によって複数のキーの各キーに又は各キーの近傍に東洋言語の子音及び母音を含む少なくとも一つの音素が割り当てられ目に見える形で表わされ、東洋文字を表わす音声はユーザによって発話され、音声入力手段によって受信され、ユーザが東洋文字の夫々を孤立音声モードで口に出すときにユーザは東洋文字の夫々に対応する最初の音素を表わすキーを順次に押すこと、及び、順次にキー入力される音素に基づいて対応する東洋文字が選択される方法を提供することである。
【０００８】
本発明の第３の利点は、ハイブリッドなキーパッド／音声認識を通じて東洋言語の発話をそれを表わす東洋文字を認識するために入力しうる電子装置であって、音声入力装置と上述の方法によってまとめられた複数のキーを有する数字キーパッドとを有する電子装置を提供することである。電子装置では、音声認識装置は、悪環境において東洋文字が効率的に電子装置へ入力されうるよう、キーパッドを通じてキー入力された音素の列及び発話に基づいて発話から東洋文字を認識する。
【０００９】
本発明の第４の利点は、上述の電子装置において用いられる数字キーパッドを通じてキー入力によって支援されて東洋言語の音声を認識する方法を提供することである。
【００１０】
本発明の第５の利点は、プロセッサに上述の認識方法を実行させるよう動作可能なコンピュータ製品を提供することである。
【００１１】
【発明の実施の形態】
本発明は、例として与えられるものであり本発明を制限するものではない以下の詳細な説明及び添付の図面により更に完全に理解されよう。本発明は、以下の（１）及び（２）のような条件下での、ハンドヘルド式装置用の精度の高いハイブリッドなキーパッド／ＡＳＲアーキテクチャに関する。
（１）悪環境での従来の音声認識技術の欠陥。例えば、音声の音響的な特徴は、非定常的な音声及びチャネル効果により十分にロバストでない。それに加え、例えば全体語モデリング、文脈依存単音モデリング、及びｔｒｉｇｒａｍ言語モデリングといった従来の技術の計算及びメモリの負荷は非常に高い。
（２）孤立音声での韓国語、日本語、及び中国語の幾つかの東洋言語特徴の音節構造。即ち、（Ｃ）＋Ｖ，休止，（Ｃ）＋Ｖ，．．．であり、但し、Ｃは子音、Ｖは母音を表し、Ｃは韓国語、日本語、及び中国語において任意である。
【００１２】
本発明について標準中国語を例にとって説明し図示する。しかしながら当業者は、本発明の原理及び精神は本願の請求の範囲を逸脱することなく日本語、韓国語、広東語といった他の東洋言語にも適用されうることを認識するであろう。
【００１３】
図２は、本発明の望ましい実施例によるハンドヘルド式電子装置２０についてのハイブリッドなキーパッド／音声認識アーキテクチャを示す図である。図２中、キーパッド装置２２上の頻繁に使用される１２の数字キー、０乃至９、＊及び＃は、本発明によれば特に中国語（基本的には３７のＢｏＰｏＭｏＦｏ音素からなる）のチューイン（ZHU-YIN：注音）表記を視覚的に表わすために割り当てられ、これについて以下詳述する。従来技術で周知であるように、キーパッド装置２２は上述の１２のキーが画面２３上のアイコンの形で示されるハンドヘルド式電子装置２０の画面２３上のタッチパネルでありうる。動作上、電子装置２０のユーザは、孤立音声（音声の間に休止がある）で発声し、これはマイクロホン２１によって受信され、孤立音声の中の音節が口に出されたときに孤立音声の中の各音節の第１のピンイン音素（通常は子音）を表わすキーパッド装置２２の１つのキーを略同時に押す。
【００１４】
ここで図３を参照するに、受信された音声信号はＡ／Ｄ変換器を介してディジタル式にサンプリングされ、スペクトル解析ブロック２５及びピッチ解析ブロック２６へ送信される。当業者により周知であるように、内蔵式Ａ／Ｄ変換器をマイクロホン２１有するディジタルマイクロホンを形成するために、マイクロホン２１はＡ／Ｄ変換器２４に組み込まれうる。ブロック２５では、サンプリングされた音声信号は等しい幅で時間的に重なり合う多数の解析ゲートへ分割される。次に、各解析ゲートは、音声解析において一般的に使用されるハミングウィンドウと称されるカーネルで乗算される。各解析ゲート中のサンプリングされた音声信号の高速フーリエ変換（ＦＦＴ）は、解析ゲート中のサンプリングされた音声信号のスペクトルを発生するために計算され、次にパワースペクトルを生じさせスペクトル音響特徴を形成するために平方される。それに加え、発話される孤立した音声の声調特徴は、標準中国語、広東語、タイ語、台湾語等の東洋声調言語用のピッチを介してサンプリングされた音声信号から抽出される。ピッチ解析ブロック２６は、日本語及び韓国語といった声調の少ない東洋言語には使用されない。
【００１５】
最初の１つのキーが押されたというユーザによってなされたアクションは、キーパッド装置２２からのイネーブル／データ信号３０によって示されるように、音響マッチングブロック２７、孤立音節マッチングブロック２８、及び最善仮説マッチングブロック２９によるサンプリングされた音声信号の処理の開始を示す。イネーブル／データ信号３０によって示されるように、発話を構成する各音節の通常は子音である音素の情報は、音節の認識を更に速め、それにより電子装置２０の計算上の負荷を減少させるために音響マッチングブロック２７へ送信される。同様に、孤立音声マッチングブロック２８は、各発話の中に複数の音節からなる各語の認識を、音響マッチングブロック２７からの各音節及びキーパッド装置２２を介した順次のキー入力された音素（子音）に基づいて速めうる。
【００１６】
本発明の望ましい実施例によれば、悪環境でのＡＳＲには特に、孤立音声（音声の中に休止が存在する）モードが望ましい。即ち電子装置２０のユーザによってなされる孤立音声の信頼性は本発明により高められる。また、本発明の望まし実施例によれば、発話された各多音節語について、孤立音節モードが望ましい。即ち、悪環境で各音節がより容易に認識されるよう多音節語の中の音節間に休止が存在する。本発明の望ましい実施例によれば、特に韓国語、日本語、及び中国語のように簡単な音節構造、即ち、Ｓ＝（Ｃ）＋Ｖを有する各発話された孤立音節について、これをマイクロホン１１に向かって発話しているときにこの孤立音節からなる対応する子音（又は母音）をキーパッド装置２２を介して手で入力することが望ましい。これは、上述のように、悪環境では子音を従来の音声認識技術によって識別することが比較的困難だからである。
【００１７】
本発明によれば、ユーザによるキーパッド装置２２への手での入力は、（ｉ）発話された孤立音声がいつ音響マッチングブロック２８によって処理されるか、（ｉｉ）孤立音節マッチングブロック２８によって処理されるべき（韓国人、日本人、及び中国人にとって認識するのが比較的簡単な）対応する孤立発話音節の子音、及び、（ｉｉｉ）スクロールキー「＜」及び「＞」等のキーパッド装置２２のブラウズ機能キーを通じた、最善仮説マッチングブロック２９によって処理されるべき同音文字（即ち、同じ発音を有する異なる文字、例えば中国語では、
【００１８】
【外２】

の候補リストからの所望の音節、を提供しうる。
【００１９】
上述のことに基づいて、本発明によれば図４に示される電子装置２０において用いられるキーパッド装置２２を介したキー入力によって支援される東洋言語での音声を認識する方法が提供される。図４を参照するに、ステップ４１において、ユーザによって発話された音声を表わす音声信号がマイクロホン２１によって入力される。ステップ４２において、スペクトル解析ブロック２５及びピッチ解析ブロック２６によって音声信号の特徴が抽出される。ステップ４３において、ユーザが各音節を口に出したときに、キーパッド装置２２を介して、発話された音声の各音節の最初の音素に対応する情報が受信される。ステップ４４において、音声信号の音声特徴と、ステップ４３において受信された順次のキー入力された音素に基づいて、音響マッチングブロック２７により、発話された音声の各音節が認識される。ステップ４５において、ステップ４４において認識された各音節と、ステップ４３において受信された順次のキー入力された音素とに基づいて、孤立音節マッチングブロック２８により、発話された音声の中の複数の音節からなる各語が認識される。
【００２０】
本発明によれば、上述の認識方法は、ソフトウエアの形式でコンピュータ読み取り可能な媒体に記録されうる。それに加え、コンピュータ製品は、電子装置２０のプロセッサに上述の認識方法を実行させるよう動作可能である。
【００２１】
標準中国語の３７のチューイン（ＢｏＰｏＭｏＦｏ、注音）は、以下の、
【００２２】
【外３】

である。
【００２３】
本発明によれば、標準中国語の３７のチューイン表記は、データ主導で、即ち、漢字の音響データベースに基づく「線形判別分析の逆（ＩＬＤＡ：Inverse of linear discriminant analysis）」で、キーパッド装置２２の１２個のキーに割り当てられる。望ましくは、本発明の方法によれば、これは（Ａ）キーパッド２２の各キーにまとめられた子音及び母音を含む幾つかの音素の音響特徴の平方距離を各キー内で合計した和（即ち、音響特徴空間中の非類似性の尺度）であって、各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、上記和は、全キーにわたって平均される、ような和と、（Ｂ）キーパッド装置２２の上記複数のキーの各キーに割り当てられた音素の音響特徴の平方距離をを全キーにわたって合計した和であって、各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、との比率を最大化するまとめ方を見出すことによってなされうる。換言すれば、キーの押し下げの効率性を確実とするためにキーパッド装置２２のキーに標準中国語の３７のチューイン表記を割り当てるための本発明による基準は以下の通りである。
【００２４】
・キーパッド装置２２の各キー内における３７のチューイン表記の音響特徴空間での非類似性尺度が最大化される（本発明によれば、例えばキー「１」に
【００２５】
【外４】

のように１つのキーに通常は３乃至４の音素が割り当てられる）。この最大化は、図３に示されるＡＳＲシステムでは、押し下げられた各キーによって表わされる音素のグループから特定の音節／音素を認識することが比較的容易であることが確実とされる。
【００２６】
・キーパッド装置２２の複数のキーの間での３７のチューイン表記の音響特徴空間での非類似性の尺度は最小化される（本発明によれば、
【００２７】
【外５】

）。この最小化は、最も曖昧な複数の音（音素）がキーの押し下げによって認識されることを確実とする。
【００２８】
図２に示されるキーパッド装置２２の３７のチューイン表記の特殊化された割り当てのうちの１つの例は、以下の、
【００２９】
【外６】

である。
【００３０】
本発明の動作の例として、本発明のハイブリッドなキーパッド／音声認識スキームに基づいてマイクロホン２１及びキーパッド装置２２の両方を介して電子装置２０に多音節語、例えば
【００３１】
【外７】

（あなたは誰ですか。）を入力しようとする場合、ユーザはまず孤立音節モードで孤立音声
【００３２】
【外８】

を発音し、その各音節はマイクロホンによって順次に受信される。ユーザが休止の間の各音節を発音するとき、ユーザは音節の子音（可能であれば他の母音）を押し下げる。上述のように、現行の音声認識技術が悪環境下で用いられた場合、孤立音声では子音よりも母音を認識するほうが容易であり、従って発話された孤立音声の認識率を高めるためにユーザのキー押し下げにより子音が指定されることが望ましいことが観察されるためである。例えば、ユーザは、漢字
【００３３】
【外９】

（あなた、チューインでは
【００３４】
【外１０】

）に対する子音
【００３５】
【外１１】

を表わすキー「＃」を直感的に押しうる。同様に、ユーザは、漢字「是」（は、チューインでは
【００３６】
【外１２】

）に対する子音
【００３７】
【外１３】

を表わすキー「３」を押し、漢字「誰」（だれ、チューインでは
【００３８】
【外１４】

）に対する子音
【００３９】
【外１５】

を表わすキー「３」を再び押す。上述のように、上述の声調による孤立音声の声調特徴はピッチ解析ブロック２６によって取り出され、次に音響マッチングブロック２６、孤立音節マッチングブロック２８、及び最善仮説マッチングブロック２９によって順次に解析される。従って、標準中国語の４つの声調マーカ
【００４０】
【外１６】

に割り当てられる声調キーは、本発明による電子装置２０には必要でない。
【００４１】
それに加え、上述の場合、ユーザが休止の間に各音節を口に出し同時にその子音を表わすキーを押すとき、画面２３上の候補リスト（図２には図示せず）に幾つかの同音文字（即ち同じ発音を有する異なる文字）が示される。すると、ユーザはキーパッド装置２２上の「＜」及び「＞」といったスクロールキーや、「ＯＫ」キー（図示せず）を用いて、所望の漢字を選択する。このようにして、上述の３つの漢字を電子装置２０に入力するために、ユーザは３つのキーを押すだけでよく、これに対して従来技術ではスクロールキー及び「ＯＫ」キーがあるにもかかわらず少なくとも６乃至８のキー（各文字について少なくとも２回のキー押し下げ）を押さねばならなかった。周知であるように、孤立音声の中の同音文字は、文脈依存の学習技術により自動的に選択されうる。従って、本発明によれば、悪環境における入力東洋言語に対する効率的なキー押し下げは、本発明によるキー割り当て及び音声認識方法の両方によって達成されうる。
【００４２】
本発明の望ましい実施例では、発話された孤立音節構造中の対応する子音を表わすキーを押すことにより、音節同士の曖昧さは効果的にかなり減少され、認識の誤り率は追加的な計算負荷及びメモリ利用なしにかなり減少される。本発明はキーパッド及びマイクロホンの両方を通じて韓国語、日本語、及び中国語を入力することが可能な悪環境において使用されるハンドヘルド式の電子装置について、これらの言語は単純な音節構造、即ちＳ＝（Ｃ）＋Ｖ、但し、Ｓは特定の音節、Ｃ／Ｖは対応する子音／母音を表わす、に特に適している。
【００４３】
本発明は標準中国語についての望ましい実施例に関して説明されたが、これは本発明を制限するものではない。日本語、韓国語（声調が少ない）、タイ語、ベトナム語（声調がある）といった東洋言語にも本発明が適用されうる。更に、キーパッド装置２２の１２個の数字キーに３７のチューイン表記を割り当てる原理は、中国語に関する本発明の実施例を通じて英語といった他のラテン系の言語にも適用されうる。例えば、英語といったラテン系の言語の複数の音素の音響特徴空間を得るために、データ主導で、キーパッド装置２２の各キーにまとめられた複数の音素の平方距離の和（即ち音響特徴空間中の非類似性の尺度）とキーパッド装置２２の各キーの間での複数の音素の平方距離の和との比率を最大化するためである。このようにして、英語のアルファベットの２６の文字は、キーパッドの幾つかの、例えば、１０個又は１２個の数字キーに割り当てられ、それによりキーパッドのスケールがかなり減少されうる。
【００４４】
本発明は、ＡＳＲの技術の当業者によれば、本発明の請求項の範囲及び精神を逸脱することなく変更又は変形されうる。
【図面の簡単な説明】
【図１】従来の大量語彙連続音声認識（ＬＶＣＳＲ）システムを示す概略図である。
【図２】本発明によるピンイン（pin-yin）文字用の複合キーパッド／音声認識技術を用いた電子機器を示す概略図である。
【図３】図２に示す電子機器において用いられる複合キーパッド／音声認識システムを示す概略図である。
【図４】図３で使用される数字キーパッドを用いたキー入力によって支援される東洋言語の音声を認識する方法を示すフローチャートである。
【符号の説明】
２１マイクロホン
２２キーパッド装置
２４Ａ／Ｄ変換器
２５スペクトル解析
２６ピッチ解析
２７音響マッチング
２８孤立音節マッチング
２９最善仮説
３０イネーブル／データ信号

Claims

子音＋母音＋声調又は母音＋声調の音節構造を有する東洋言語の発話を入力する電子装置であって、
上記発話を表わす音声信号を受信する音声受信器と、
上記音声受信器に結合され、上記音声信号の音声特徴を抽出する前処理手段と、
各キーに子音及び母音を含む少なくとも一つの音素が割り当てられる複数のキーを含むキーパッド手段と、
上記音声信号の音声特徴及び上記キーパッド手段を通じて順次に得られる音素に基づいて上記発話の各音節を認識する音響マッチング手段と、
上記音響マッチング手段からの各音節及び上記キーパッド手段を通じてキー入力された音素に基づいて上記発話の中の複数の音節からなる各語を認識する孤立音節マッチング手段とを含んでおり、
各キーは、
（Ａ）上記キーパッド手段の各キーにまとめられた音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
（Ｂ）各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう、少なくとも１つの音素に割り当てられている、電子装置。
発話の各音節が口に出されたときに、各音節の最初の音素（望ましくは子音）に対応するキーが押される、請求項１記載の電子装置。
セルラー式電話機、ワイヤレス式電話機、電子辞書、携帯情報端末、及び電子腕時計からなる群から選択される一の電子装置である、請求項１記載の電子装置。
上記発話は、少なくとも１つの多音節語からなる孤立音声である、請求項１記載の電子装置。
上記発話の各音節の最初の音素は子音である、請求項２記載の電子装置。
ディスプレイを有する電子装置であって、
子音＋母音又は母音のいずれかの音節構造を有する東洋言語の発話を表わす音声信号を受信する音声受信手段と、
各キーに又は各キーの近傍に、子音及び母音を含む少なくとも一つの音素が割り当てられ目に見える形で表わされた複数のキーを有する数字キーパッドと、
上記数値キーパッドを介して順次に得られる音素及び上記音声受信手段によって受信される発話に基づいて上記発話から東洋文字を認識する音声認識手段と、
上記ディスプレイ上に上記発話からの東洋文字を表示する手段とを含んでおり、
上記少なくとも一つの音素は、
（Ａ）上記キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
（Ｂ）各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう、上記複数のキーの夫々に割り当てられており、それにより上記数字キーパッド及び上記音声受信手段を通じて東洋言語が効率的に入力されうる、電子装置。
複数のキーを有する数字キーパッドを介したキー入力によって支援された、子音＋母音又は母音の音節構造を有する東洋言語の音声を認識する方法であって、
（ａ）上記音声を表わす音声信号を入力する段階と、
（ｂ）上記音声信号の音声特徴を抽出する段階と、
（ｃ）上記数字キーパッドを通じて、上記音声の各音節が口に出されたときに上記音声中の各音節の最初の音素に対応するキーの情報を順次に受信する段階と、
（ｄ）上記音声信号の音声特徴及び上記段階（ｃ）から順次に受信される音素に基づいて上記音声の各音節を認識する段階と、
（ｅ）上記段階（ｄ）で認識された各音節及び上記段階（ｃ）から順次に受信される音素に基づいて上記音声の中の複数の音節からなる各語を認識する段階とを含んでおり、
上記数字キーパッドの複数のキーには子音及び母音を含む少なくとも一つの音素が割り当てられており、前記少なくとも一つの音素は、
（Ａ）各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
（Ｂ）各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう、上記複数のキーの夫々に割り当てられている、ことを特徴とする、方法。
上記段階（ｃ）における上記最初の音素は子音である、請求項７記載の方法。
数字キーパッドの複数のキーの夫々に少なくとも一つの音素が割り当てられるように東洋言語の子音及び母音を含む複数の音素を電子装置の数字キーパッドにおいてまとめる方法であって、
（ａ）上記複数の音素の音響特徴を得る段階と、
（ｂ）
（Ａ）上記キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
（Ｂ）各複数のキーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率を最大化するまとめ方を線形判別分析の逆の仕方で見出す段階とを含んでいる、方法。
上記東洋言語は中国語であり、上記電子装置の数字キーパッドは１２個のキーを有し、上記１２個のキーに対して中国語の複数の音素が、
【外１】

のようにまとめられる、請求項９記載の方法。
複数のキーを含む数字キーパッド及び音声入力手段を有する電子装置に東洋文字を入力する方法であって、
子音及び母音を含む少なくとも一つの音素は、複数のキーの各キーに又は各キーの近傍に割り当てられ目に見える形で表わされること、
上記東洋文字を表わす音声はユーザによって発話され、上記音声入力手段によって受信され、ユーザは上記東洋文字の夫々を孤立音声モードで口に出すときに上記東洋文字の夫々に対応する最初の音素を表わすキーを順次に押すこと、
順次にキー入力される音素に基づいて対応する東洋文字が選択されること、及び、
前記少なくとも一つの音素は、
（Ａ）上記数字キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離を各キー内で合計した和であって、
各距離は、各キーにまとめられた音素の音響特徴の、各キー内での平均からの距離であり、
上記和は、全キーにわたって平均される、ような和と、
（Ｂ）各キーに割り当てられた音素の音響特徴の平方距離を全キーにわたって合計した和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の各キー内での平均であり、
各距離は、上記各キーに割り当てられた音素の音響特徴の、全キーにわたる平均からの距離である、ような和、
との比率が最大化されるよう上記複数のキーの夫々に割り当てられていることを特徴とする、方法。
複数のキーを有する数字キーパッドを介したキー入力によって支援された、子音＋母音又は母音の音節構造を有する東洋言語の音声を認識するための複数の段階をプロセッサに実行させるよう動作可能なコンピュータプログラムであって、上記複数の段階は、
（ａ）上記音声を表わす音声信号を入力する段階と、
（ｂ）上記音声信号の音声特徴を抽出する段階と、
（ｃ）上記数字キーパッドを通じて、上記音声の各音節が口に出されたときに上記音声の中の各音節の最初の音素に対応するキーの情報を順次に受信する段階と、
（ｄ）上記音声信号の音声特徴及び上記段階（ｃ）から順次に受信される音素に基づいて上記音声の各音節を認識する段階と、
（ｅ）上記段階（ｄ）で認識された各音節及び上記段階（ｃ）から順次に受信される音素に基づいて上記音声の中の複数の音節からなる各語を認識する段階とを含んでおり、
上記数字キーパッドの複数のキーの夫々に子音及び母音を含む少なくとも一つの音素が割り当てられており、前記少なくとも一つの音素は、
（Ａ）上記数字キーパッドの各キーにまとめられた複数の音素の音響特徴の平方距離の和であって、
各距離は、各キーにまとめられた音素の音響特徴の平均からの距離であり、
上記和は、すべてのキーについて平均される、ような和と、
（Ｂ）上記複数のキーのそれぞれに割り当てられた音素の音響特徴の平方距離の和であって、
各キーに割り当てられた音素の上記音響特徴とは、そのキーに割り当てられた音響特徴の平均であり、
各距離は、上記複数のキーに割り当てられた音素の音響特徴の平均からの距離である、ような和、
との比率が最大化されるよう、上記複数のキーの夫々に割り当てられている、ことを特徴とする、コンピュータプログラム。
上記段階（ｃ）における上記最初の音素は子音である、請求項１２記載のコンピュータプログラム。