JP2002268680A

JP2002268680A - 悪環境下でのキーパッド／音声を用いたハイブリッドな東洋文字認識技術

Info

Publication number: JP2002268680A
Application number: JP2001388362A
Authority: JP
Inventors: Hoan Chan-Han; ホアンチャン−ハン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-12-22
Filing date: 2001-12-20
Publication date: 2002-09-20
Anticipated expiration: 2021-12-20
Also published as: CN1360301A; KR20020051842A; KR100868709B1; TW533404B; JP4230142B2; CN1224955C

Abstract

(57)【要約】【課題】幾つかのキーパッド及び／又は小さい容量の
メモリを有するＰＤＡ、移動電話機、電子辞書、及び電
子腕時計といった小型電子装置用の、中国語といった東
洋言語を非常に高い精度で入力する方法及び装置を提供
することを目的とする。【解決手段】上記目的は、各多音節の中国語を自動音
節認識によって母音及び子音が分離されうる孤立声調音
節で口に出し、同時に、悪環境において例えば子音であ
るピンイン発音（副次単語単位）の音響的な具現化から
生ずる曖昧さを更に解決するために、特別に設計された
キーパッドのうちの１つを押すこと、例えば音節の最初
の音素（子音又は母音）を含む打鍵により達成される。
それでもなお曖昧さがある場合は、音節の第２又は第３
のピンイン発音を押すことが必要である。キーパッドの
設計は、各キーパッドの音素の類似性の比率が最小化さ
れ、キーの間のピンイン発音の類似性の比率が最大化さ
れるようデータ主導方式である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号処理に関
し、更に特定的には、限られた記憶容量を有するハンド
ヘルド式の小型電子機器を用いた標準中国語、日本語、
韓国語といった東洋の言語の自動音声認識（ＡＳＲ）に
関連する。

【０００２】

【従来の技術】数十年に亘り、自動音声認識（ＡＳＲ）
の技術が開発されてきた。１つの例として、パーソナル
コンピュータにおいて用いられる大量語彙連続音声認識
（ＬＶＣＳＲ：Large-Vocabulary-Continuous-Speech R
ecognition）システムがある。図１を参照するに、ＬＶ
ＣＳＲシステム１は、一般的に、スペクトル解析ブロッ
ク１５及びピッチ解析１６を含む音響的なフロントエン
ドを用い、特徴抽出のために文脈依存モデリング及び言
語モデリングによる発音語彙集を用い、信号を認識す
る。ＬＶＣＳＲシステム１では、文脈依存モデリング及
び言語モデリングの両方のために多数のパラメータを処
理せねばならないため、計算及び記憶の負荷は非常に高
い。携帯情報端末（ＰＤＡ）、移動電話機、無線電話
機、及び電子辞書等といった少ない記憶容量を有する小
型機器で用いられる従来の音声認識技術では、一般的に
音声入力パターンを認識するために音響的な特徴及び音
声学的／語彙的なモデル並びにコードブック設計が用い
られる。これらの技術は、標準中国語、日本語、韓国語
等といった東洋の言語について特に有用である。ＬＶＣ
ＳＲシステム１は、パーソナルコンピュータのユーザに
とっては開発され成熟してきたが、それでもなお音響的
な特徴や音声認識器のセンサが悪環境に存在するときに
背景雑音によって汚されやすいという欠点がある。一
方、ＬＶＣＳＲシステム１における認識誤り率の低下
は、主にその言語を特に話す話者によって最も頻繁に使
用される入力単語列の知識、いわゆる言語モデリングに
よるものである。このため、ＬＶＣＳＲシステム１で
は、入力単語列を処理するために大量のメモリ記憶及び
計算努力が必要となる。従って、ＬＶＣＳＲシステム１
は、特に悪環境では、記憶容量の少ない小型電子機器に
は適していない。

【０００３】

【発明が解決しようとする課題】従来のＬＶＣＳＲ技術
が悪環境で用いられた場合について考察した場合に、本
願発明の発明者は、パフォーマンスの低下なしに連続す
る音声について音声モデルをうまく用いることは困難で
あること、孤立音声の認識は連続音声の認識よりも容易
であること、孤立音声における母音の認識は子音の認識
よりも容易であること、及び例えば台湾や香港で教育を
受けた殆どの標準中国語を話す人はチューイン（zhu-yi
n）発音に馴染みがあるため漢字をチューイン発音で分
解することの方が容易であることを認識する。一般的
に、１つの漢字に対して１乃至３のピンイン（pin-yi
n）発音が用いられる。概して、中国語、日本語、韓国
語等の幾つかの東洋言語は、孤立音声では、Ｓ−休止−
Ｓ−休止−Ｓ−休止−Ｓ−休止−．．．といった音節構
造を有する。当業者によって周知であるように、音節構
造はＳ＝（Ｃ）＋Ｖという性質を有し、但し、Ｃは子
音、Ｖは母音を表し、Ｃは韓国語、日本語、及び中国語
で任意である。

【０００４】漢字に関していえば、約２０，０００の一
般的に使用される文字がある。これらの漢字は、約４０
０の音節と、声調音節と称される約１４００の異なる音
節とを有する。これらの声調音節は、Ｖ＋Ｔ又はＣ＋Ｖ
＋Ｔという特定的な構造を有し、Ｖは母音、Ｃは子音、
Ｔは声調を示す。音声認識の分野の当業者によって周知
であるように、異なる子音の音響的な具現化（又はパワ
ースペクトル）の間にはそのパワースペクトルについて
高い曖昧さがあるといえる。従来のＡＳＲ技術では、認
識における誤り率は、主に子音の音響的な具現化の不安
定性から生ずるものである。子音の音響的な具現化の安
定性とモデル同時調音を高めるために提案されている１
つのアプローチは、モデル単位を文脈依存の単音である
よう選択することである。文脈依存の単音をモデリング
しない場合は、子音の具現化の不安定性の性質により単
語誤り率の増加を生じさせる。認識単語誤り率を低下さ
せるための他のアプローチは、日常言語で一般的に使用
されている単語列についての知識を用いるいわゆる言語
モデリングである。文脈依存の子音の音響的な具現化は
きれいな音声と比較してはるかに不安定となるため、言
語モデリングを使用することは、悪環境における電話用
の対話システムといったＡＳＲ技術の主な要因である。
しかしながら、文脈依存単音モデリングでは、モデルの
複雑性が高く、多くの統計的パラメータ（一般的には１
００Ｋバイト）を学習させ（統計的方法による推定）Ｒ
ＡＭといった揮発メモリに記憶させねばならないという
不利な点がある。他の方法は、全体単語モデリングを使
用することである。しかしながらこの方法もモデルの複
雑性を３００倍高める。更に、ＬＶＣＳＲシステム１
（一般的には１０，０００の単語を有する）言語モデリ
ング（Ｎ−ｇｒａｍ、Ｎ＝２，３）のメモリ使用は非常
に高く計算的に費用がかかる。従って、ハンドヘルド式
の電子装置ではその内在的な計算及びメモリの制約によ
り可能ではない。

【０００５】孤立音声中の母音の容易な認識に基づき、
孤立音声中の音声を認識するために現在利用可能な音声
認識技術は信頼性が高い。声調について、音声の音響的
な特徴は異なる声調を弁別するための十分な情報を提供
しうる。現在の音声認識技術では、特に音声の音響的な
特徴が悪環境において雑音によって汚されている場合
は、子音の弁別が弱点となる。

【０００６】

【課題を解決するための手段】本発明の第１の利点は、
東洋言語の子音及び母音を含む複数の音素を、ハンドヘ
ルド電子装置の複数のキーにより、複数のキーの夫々に
まとめられた複数の音素の平方距離（即ち音響特徴空間
中の非類似性の尺度）の和と複数のキーのうちの複数の
音素の平方距離の和との比率が最大化されるようグルー
プへまとめる方法を提供することである。

【０００７】本発明の第２の利点は、複数のキーからな
る数字キーパッドと音声入力装置とを有する電子装置へ
東洋文字を入力する方法であって、上記のまとめる方法
によって複数のキーの各キーに又は各キーの近傍に東洋
言語の子音及び母音を含む少なくとも一つの音素が割り
当てられ目に見える形で表わされ、東洋文字を表わす音
声はユーザによって発話され、音声入力手段によって受
信され、ユーザが東洋文字の夫々を孤立音声モードで口
に出すときにユーザは東洋文字の夫々に対応する最初の
音素を表わすキーを順次に押すこと、及び、順次にキー
入力される音素に基づいて対応する東洋文字が選択され
る方法を提供することである。

【０００８】本発明の第３の利点は、ハイブリッドなキ
ーパッド／音声認識を通じて東洋言語の発話をそれを表
わす東洋文字を認識するために入力しうる電子装置であ
って、音声入力装置と上述の方法によってまとめられた
複数のキーを有する数字キーパッドとを有する電子装置
を提供することである。電子装置では、音声認識装置
は、悪環境において東洋文字が効率的に電子装置へ入力
されうるよう、キーパッドを通じてキー入力された音素
の列及び発話に基づいて発話から東洋文字を認識する。

【０００９】本発明の第４の利点は、上述の電子装置に
おいて用いられる数字キーパッドを通じてキー入力によ
って支援されて東洋言語の音声を認識する方法を提供す
ることである。

【００１０】本発明の第５の利点は、プロセッサに上述
の認識方法を実行させるよう動作可能なコンピュータ製
品を提供することである。

【００１１】

【発明の実施の形態】本発明は、例として与えられるも
のであり本発明を制限するものではない以下の詳細な説
明及び添付の図面により更に完全に理解されよう。本発
明は、以下の（１）及び（２）のような条件下での、ハ
ンドヘルド式装置用の精度の高いハイブリッドなキーパ
ッド／ＡＳＲアーキテクチャに関する。（１）悪環境での従来の音声認識技術の欠陥。例えば、
音声の音響的な特徴は、非定常的な音声及びチャネル効
果により十分にロバストでない。それに加え、例えば全
体語モデリング、文脈依存単音モデリング、及びｔｒｉ
ｇｒａｍ言語モデリングといった従来の技術の計算及び
メモリの負荷は非常に高い。（２）孤立音声での韓国語、日本語、及び中国語の幾つ
かの東洋言語特徴の音節構造。即ち、（Ｃ）＋Ｖ，休
止，（Ｃ）＋Ｖ，．．．であり、但し、Ｃは子音、Ｖは
母音を表し、Ｃは韓国語、日本語、及び中国語において
任意である。

【００１２】本発明について標準中国語を例にとって説
明し図示する。しかしながら当業者は、本発明の原理及
び精神は本願の請求の範囲を逸脱することなく日本語、
韓国語、広東語といった他の東洋言語にも適用されうる
ことを認識するであろう。

【００１３】図２は、本発明の望ましい実施例によるハ
ンドヘルド式電子装置２０についてのハイブリッドなキ
ーパッド／音声認識アーキテクチャを示す図である。図
２中、キーパッド装置２２上の頻繁に使用される１２の
数字キー、０乃至９、＊及び＃は、本発明によれば特に
中国語（基本的には３７のＢｏＰｏＭｏＦｏ音素からな
る）のチューイン（ZHU-YIN：注音）表記を視覚的に表
わすために割り当てられ、これについて以下詳述する。
従来技術で周知であるように、キーパッド装置２２は上
述の１２のキーが画面２３上のアイコンの形で示される
ハンドヘルド式電子装置２０の画面２３上のタッチパネ
ルでありうる。動作上、電子装置２０のユーザは、孤立
音声（音声の間に休止がある）で発声し、これはマイク
ロホン２１によって受信され、孤立音声の中の音節が口
に出されたときに孤立音声の中の各音節の第１のピンイ
ン音素（通常は子音）を表わすキーパッド装置２２の１
つのキーを略同時に押す。

【００１４】ここで図３を参照するに、受信された音声
信号はＡ／Ｄ変換器を介してディジタル式にサンプリン
グされ、スペクトル解析ブロック２５及びピッチ解析ブ
ロック２６へ送信される。当業者により周知であるよう
に、内蔵式Ａ／Ｄ変換器をマイクロホン２１有するディ
ジタルマイクロホンを形成するために、マイクロホン２
１はＡ／Ｄ変換器２４に組み込まれうる。ブロック２５
では、サンプリングされた音声信号は等しい幅で時間的
に重なり合う多数の解析ゲートへ分割される。次に、各
解析ゲートは、音声解析において一般的に使用されるハ
ミングウィンドウと称されるカーネルで乗算される。各
解析ゲート中のサンプリングされた音声信号の高速フー
リエ変換（ＦＦＴ）は、解析ゲート中のサンプリングさ
れた音声信号のスペクトルを発生するために計算され、
次にパワースペクトルを生じさせスペクトル音響特徴を
形成するために平方される。それに加え、発話される孤
立した音声の声調特徴は、標準中国語、広東語、タイ
語、台湾語等の東洋声調言語用のピッチを介してサンプ
リングされた音声信号から抽出される。ピッチ解析ブロ
ック２６は、日本語及び韓国語といった声調の少ない東
洋言語には使用されない。

【００１５】最初の１つのキーが押されたというユーザ
によってなされたアクションは、キーパッド装置２２か
らのイネーブル／データ信号３０によって示されるよう
に、音響マッチングブロック２７、孤立音節マッチング
ブロック２８、及び最善仮説マッチングブロック２９に
よるサンプリングされた音声信号の処理の開始を示す。
イネーブル／データ信号３０によって示されるように、
発話を構成する各音節の通常は子音である音素の情報
は、音節の認識を更に速め、それにより電子装置２０の
計算上の負荷を減少させるために音響マッチングブロッ
ク２７へ送信される。同様に、孤立音声マッチングブロ
ック２８は、各発話の中に複数の音節からなる各語の認
識を、音響マッチングブロック２７からの各音節及びキ
ーパッド装置２２を介した順次のキー入力された音素
（子音）に基づいて速めうる。

【００１６】本発明の望ましい実施例によれば、悪環境
でのＡＳＲには特に、孤立音声（音声の中に休止が存在
する）モードが望ましい。即ち電子装置２０のユーザに
よってなされる孤立音声の信頼性は本発明により高めら
れる。また、本発明の望まし実施例によれば、発話され
た各多音節語について、孤立音節モードが望ましい。即
ち、悪環境で各音節がより容易に認識されるよう多音節
語の中の音節間に休止が存在する。本発明の望ましい実
施例によれば、特に韓国語、日本語、及び中国語のよう
に簡単な音節構造、即ち、Ｓ＝（Ｃ）＋Ｖを有する各発
話された孤立音節について、これをマイクロホン１１に
向かって発話しているときにこの孤立音節からなる対応
する子音（又は母音）をキーパッド装置２２を介して手
で入力することが望ましい。これは、上述のように、悪
環境では子音を従来の音声認識技術によって識別するこ
とが比較的困難だからである。

【００１７】本発明によれば、ユーザによるキーパッド
装置２２への手での入力は、（ｉ）発話された孤立音声
がいつ音響マッチングブロック２８によって処理される
か、（ｉｉ）孤立音節マッチングブロック２８によって
処理されるべき（韓国人、日本人、及び中国人にとって
認識するのが比較的簡単な）対応する孤立発話音節の子
音、及び、（ｉｉｉ）スクロールキー「＜」及び「＞」
等のキーパッド装置２２のブラウズ機能キーを通じた、
最善仮説マッチングブロック２９によって処理されるべ
き同音文字（即ち、同じ発音を有する異なる文字、例え
ば中国語では、

【００１８】

【外２】の候補リストからの所望の音節、を提供しうる。

【００１９】上述のことに基づいて、本発明によれば図
４に示される電子装置２０において用いられるキーパッ
ド装置２２を介したキー入力によって支援される東洋言
語での音声を認識する方法が提供される。図４を参照す
るに、ステップ４１において、ユーザによって発話され
た音声を表わす音声信号がマイクロホン２１によって入
力される。ステップ４２において、スペクトル解析ブロ
ック２５及びピッチ解析ブロック２６によって音声信号
の特徴が抽出される。ステップ４３において、ユーザが
各音節を口に出したときに、キーパッド装置２２を介し
て、発話された音声の各音節の最初の音素に対応する情
報が受信される。ステップ４４において、音声信号の音
声特徴と、ステップ４３において受信された順次のキー
入力された音素に基づいて、音響マッチングブロック２
７により、発話された音声の各音節が認識される。ステ
ップ４５において、ステップ４４において認識された各
音節と、ステップ４３において受信された順次のキー入
力された音素とに基づいて、孤立音節マッチングブロッ
ク２８により、発話された音声の中の複数の音節からな
る各語が認識される。

【００２０】本発明によれば、上述の認識方法は、ソフ
トウエアの形式でコンピュータ読み取り可能な媒体に記
録されうる。それに加え、コンピュータ製品は、電子装
置２０のプロセッサに上述の認識方法を実行させるよう
動作可能である。

【００２１】標準中国語の３７のチューイン（ＢｏＰｏ
ＭｏＦｏ、注音）は、以下の、

【００２２】

【外３】である。

【００２３】本発明によれば、標準中国語の３７のチュ
ーイン表記は、データ主導で、即ち、漢字の音響データ
ベースに基づく「線形弁別解析の逆（ＩＬＤＡ：Invers
e oflinear discriminant analysis）」で、キーパッド
装置２２の１２個のキーに割り当てられる。望ましく
は、本発明の方法によれば、これはキーパッド２２の各
キーにまとめられた子音及び母音を含む幾つかの音素の
平方距離の和（即ち、音響特徴空間中の非類似性の尺
度）のキーパッド装置２２のキーの間の音素の平方距離
の和に対する比率を最大化することによってなされう
る。換言すれば、キーの押し下げの効率性を確実とする
ためにキーパッド装置２２のキーに標準中国語の３７の
チューイン表記を割り当てるための本発明による基準は
以下の通りである。

【００２４】・キーパッド装置２２の各キーにおける３
７のチューイン表記の音響特徴空間の非類似性尺度が最
大化される（本発明によれば、例えばキー「１」に

【００２５】

【外４】のように１つのキーに通常は３乃至４の音素が割り当て
られる）。この最大化は、図３に示されるＡＳＲシステ
ムでは、押し下げられた各キーによって表わされる音素
のグループから特定の音節／音素を認識することが比較
的容易であることが確実とされる。

【００２６】・キーパッド装置２２のキーに対する３７
のチューイン表記の音響的な特徴空間における非類似性
の尺度（本発明によれば、

【００２７】

【外５】）は最小化される。この最小化は、最も曖昧な音（音
素）がキーの押し下げによって認識されることを確実と
する。

【００２８】図２に示されるキーパッド装置２２の３７
のチューイン表記の特殊化された割り当てのうちの１つ
の例は、以下の、

【００２９】

【外６】である。

【００３０】本発明の動作の例として、本発明のハイブ
リッドなキーパッド／音声認識スキームに基づいてマイ
クロホン２１及びキーパッド装置２２の両方を介して電
子装置２０に多音節語、例えば

【００３１】

【外７】（あなたは誰ですか。）を入力しようとする場合、ユー
ザはまず孤立音節モードで孤立音声

【００３２】

【外８】を発音し、その各音節はマイクロホンによって順次に受
信される。ユーザが休止の間の各音節を発音するとき、
ユーザは音節の子音（可能であれば他の母音）を押し下
げる。上述のように、現行の音声認識技術が悪環境下で
用いられた場合、孤立音声では子音よりも母音を認識す
るほうが容易であり、従って発話された孤立音声の認識
率を高めるためにユーザのキー押し下げにより子音が指
定されることが望ましいことが観察されるためである。
例えば、ユーザは、漢字

【００３３】

【外９】（あなた、チューインでは

【００３４】

【外１０】）に対する子音

【００３５】

【外１１】を表わすキー「＃」を直感的に押しうる。同様に、ユー
ザは、漢字「是」（は、チューインでは

【００３６】

【外１２】）に対する子音

【００３７】

【外１３】を表わすキー「３」を押し、漢字「誰」（だれ、チュー
インでは

【００３８】

【外１４】）に対する子音

【００３９】

【外１５】を表わすキー「３」を再び押す。上述のように、上述の
声調による孤立音声の声調特徴はピッチ解析ブロック２
６によって取り出され、次に音響マッチングブロック２
６、孤立音節マッチングブロック２８、及び最善仮説マ
ッチングブロック２９によって順次に解析される。従っ
て、標準中国語の４つの声調マーカ

【００４０】

【外１６】に割り当てられる声調キーは、本発明による電子装置２
０には必要でない。

【００４１】それに加え、上述の場合、ユーザが休止の
間に各音節を口に出し同時にその子音を表わすキーを押
すとき、画面２３上の候補リスト（図２には図示せず）
に幾つかの同音文字（即ち同じ発音を有する異なる文
字）が示される。すると、ユーザはキーパッド装置２２
上の「＜」及び「＞」といったスクロールキーや、「Ｏ
Ｋ」キー（図示せず）を用いて、所望の漢字を選択す
る。このようにして、上述の３つの漢字を電子装置２０
に入力するために、ユーザは３つのキーを押すだけ出よ
く、これに対して従来技術ではスクロールキー及び「Ｏ
Ｋ」キーがあるにもかかわらず少なくとも６乃至８のキ
ー（各文字について少なくとも２回のキー押し下げ）を
押さねばならなかった。周知であるように、孤立音声の
中の同音文字は、文脈依存の学習技術により自動的に選
択されうる。従って、本発明によれば、悪環境における
入力東洋言語に対する効率的なキー押し下げは、本発明
によるキー割り当て及び音声認識方法の両方によって達
成されうる。

【００４２】本発明の望ましい実施例では、発話された
孤立音節構造中の対応する子音を表わすキーを押すこと
により、音節同士の曖昧さは効果的にかなり減少され、
認識の誤り率は追加的な計算負荷及びメモリ利用なしに
かなり減少される。本発明はキーパッド及びマイクロホ
ンの両方を通じて韓国語、日本語、及び中国語を入力す
ることが可能な悪環境において使用されるハンドヘルド
式の電子装置について、これらの言語は単純な音節構
造、即ちＳ＝（Ｃ）＋Ｖ、但し、Ｓは特定の音節、Ｃ／
Ｖは対応する子音／母音を表わす、に特に適している。

【００４３】本発明は標準中国語についての望ましい実
施例に関して説明されたが、これは本発明を制限するも
のではない。日本語、韓国語（声調が少ない）、タイ
語、ベトナム語（声調がある）といった東洋言語にも本
発明が適用されうる。更に、キーパッド装置２２の１２
個の数字キーに３７のチューイン表記を割り当てる原理
は、中国語に関する本発明の実施例を通じて英語といっ
た他のラテン系の言語にも適用されうる。例えば、英語
といったラテン系の言語の複数の音素の音響特徴空間を
得るために、データ主導で、キーパッド装置２２の各キ
ーにまとめられた複数の音素の平方距離の和（即ち音響
特徴空間中の非類似性の尺度）とキーパッド装置２２の
各キーのうちの複数の音素の平方距離の和との比率を最
大化するためである。このようにして、英語のアルファ
ベットの２６の文字は、キーパッドの幾つかの、例え
ば、１０個又は１２個の数字キーに割り当てられ、それ
によりキーパッドのスケールがかなり減少されうる。

【００４４】本発明は、ＡＳＲの技術の当業者によれ
ば、本発明の請求項の範囲及び精神を逸脱することなく
変更又は変形されうる。

【図面の簡単な説明】

【図１】従来の大量語彙連続音声認識（ＬＶＣＳＲ）シ
ステムを示す概略図である。

【図２】本発明によるピンイン（pin-yin）文字用の複
合キーパッド／音声認識技術を用いた電子機器を示す概
略図である。

【図３】図２に示す電子機器において用いられる複合キ
ーパッド／音声認識システムを示す概略図である。

【図４】図３で使用される数字キーパッドを用いたキー
入力によって支援される東洋言語の音声を認識する方法
を示すフローチャートである。

【符号の説明】

２１マイクロホン２２キーパッド装置２４Ａ／Ｄ変換器２５スペクトル解析２６ピッチ解析２７音響マッチング２８孤立音節マッチング２９最善仮説３０イネーブル／データ信号

───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓＦターム(参考） 5B019 DA06 DA10 HA06 5D015 AA06 BB02 JJ01 JJ02 KK02 LL08

Claims

【特許請求の範囲】

【請求項１】子音＋母音＋声調又は母音＋声調の音節
構造を有する東洋言語の発話を入力する電子装置であっ
て、上記発話を表わす音声信号を受信する音声受信器と、上記音声受信器に結合され、上記音声信号の音声特徴を
抽出する前処理手段と、各キーに子音及び母音を含む少なくとも一つの音素が割
り当てられる複数のキーを含むキーパッド手段と、上記音声信号の音声特徴及び上記キーパッド手段を通じ
て順次に得られる音素に基づいて上記発話の各音節を認
識する音響マッチング手段と、上記音響マッチング手段からの各音節及び上記キーパッ
ド手段を通じてキー入力された音素に基づいて上記発話
の中の複数の音節からなる各語を認識する孤立音節マッ
チング手段とを含む電子装置。
【請求項２】各キーは、複数のキーの夫々にまとめら
れた音素の平方された距離の和及び複数のキーのうちの
音素の平方された距離の和が最大化されるよう、少なく
とも１つの音素に割り当てられる、請求項１記載の電子
装置。
【請求項３】発話の各音節が口に出されたときに、各
音節の最初の音素（望ましくは子音）に対応するキーが
押される、請求項１記載の電子装置。
【請求項４】セルラー式電話機、ワイヤレス式電話
機、電子辞書、携帯情報端末、及び電子腕時計からなる
群から選択される一の電子装置である、請求項１記載の
電子装置。
【請求項５】上記発話は、少なくとも１つの多音節語
からなる孤立音声である、請求項１記載の電子装置。
【請求項６】上記発話の各音節の最初の音素は子音で
ある、請求項３記載の電子装置。
【請求項７】ディスプレイを有する電子装置であっ
て、子音＋母音又は母音のいずれかの音節構造を有する東洋
言語の発話を表わす音声信号を受信する音声受信手段
と、各キーに又は各キーの近傍に子音及び母音を含む少なく
とも一つの音素が割り当てられ目に見える形で表わされ
た複数のキーを有する数字キーパッドと、上記数値キーパッドを介して順次に得られる音素及び上
記音声受信手段によって受信される発話に基づいて上記
発話から東洋文字を認識する音声認識手段と、上記ディスプレイ上に上記発話からの東洋文字を表示す
る手段とを含む電子装置。
【請求項８】上記少なくとも一つの音素は、複数のキ
ーの夫々にまとめられた複数の音素の平方された距離の
和と複数のキーのうちの複数の音素の平方された距離の
和との比率が最大化されるよう、上記複数のキーの夫々
に割り当てられ、それにより上記数字キーパッド及び上
記音声受信手段を通じて東洋言語が効率的に入力されう
る、請求項７記載の電子装置。
【請求項９】複数のキーを有する数字キーパッドを介
したキー入力によって支援された、子音＋母音又は母音
の音節構造を有する東洋言語の音声を認識する方法であ
って、（ａ）上記音声を表わす音声信号を入力する段階と、（ｂ）上記音声信号の音声特徴を抽出する段階と、（ｃ）上記数字キーパッドを通じて、上記音声の各音節
が口に出されたときに上記音声中の各音節の最初の音素
に対応するキーの情報を順次に受信する段階と、（ｄ）上記音声信号の音声特徴及び上記段階（ｃ）から
順次に受信される音素に基づいて上記音声の各音節を認
識する段階と、（ｅ）上記段階（ｄ）で認識された各音節及び上記段階
（ｃ）から順次に受信される音素に基づいて上記音声の
中の複数の音節からなる各語を認識する段階とを含む方
法。
【請求項１０】上記数字キーパッドの複数のキーの夫
々に子音及び母音を含む少なくとも一つの音素が割り当
てられ、上記段階（ｃ）における上記最初の音素は子音
である、請求項９記載の方法。
【請求項１１】東洋言語の子音及び母音を含む複数の
音素を電子装置の数字キーパッドにまとめる方法であっ
て、上記キーパッドの複数のキーの夫々に少なくとも一
つの音素が割り当てられ、（ａ）上記複数の音素の音響特徴を得る段階と、（ｂ）上記複数のキーの夫々にまとめられた複数の音素
の平方された距離の和と上記複数のキーのうちの複数の
音素の平方された距離の和との比率をデータ主導式に最
大化する段階とを含む方法。
【請求項１２】上記最大化段階は、（ｂ１）各キーにまとめられた複数の音素が音響的に弁
別されるよう各キーの中の音素の音響空間中で第１の非
類似性尺度を最大化する段階と、（ｂ２）最も曖昧な音素が同一のキーにまとめられない
ようキーのうちの音素の音響特徴空間中で第２の非類似
性尺度を最小化する段階とを含む、請求項１１記載の方
法。
【請求項１３】上記東洋言語は中国語であり、上記電
子装置の数字キーパッドは１２個のキーを有し、上記１
２個のキーに対して中国語の複数の音素が、【外１】のようにまとめられる、請求項１１記載の方法。
【請求項１４】複数のキーを含む数字キーパッド及び
音声入力手段を有する電子装置に東洋文字を入力する方
法であって、子音及び母音を含む少なくとも一つの音素は、複数のキ
ーの各キーに又は各キーの近傍に割り当てられ目に見え
る形で表わされること、上記東洋文字を表わす音声はユーザによって発話され、
上記音声入力手段によって受信され、ユーザは上記東洋
文字の夫々を孤立音声モードで口に出すとともに上記東
洋文字の夫々に対応する最初の音素を表わすキーを順次
に押すこと、及び、順次にキー入力される音素に基づいて対応する東洋文字
が選択されることを特徴とする方法。
【請求項１５】少なくとも一つの音素は、上記複数の
キーの夫々にまとめられた複数の音素の平方された距離
の和と上記複数のキーのうちの複数の音素の平方された
距離の和との比率が最大化されるよう上記複数のキーの
夫々に割り当てられることを特徴とする、請求項１４記
載の方法。
【請求項１６】複数のキーを有する数字キーパッドを
介したキー入力によって支援された、子音＋母音又は母
音の音節構造を有する東洋言語の音声を認識するための
複数の段階をプロセッサに実行させるよう動作可能なコ
ンピュータプログラム製品であって、上記複数の段階
は、（ａ）上記音声を表わす音声信号を入力する段階と、（ｂ）上記音声信号の音声特徴を抽出する段階と、（ｃ）上記数字キーパッドを通じて、上記音声の各音節
が口に出されたときに上記音声の中の各音節の最初の音
素に対応するキーの情報を順次に受信する段階と、（ｄ）上記音声信号の音声特徴及び上記段階（ｃ）から
順次に受信される音素に基づいて上記音声の各音節を認
識する段階と、（ｅ）上記段階（ｄ）で認識された各音節及び上記段階
（ｃ）から順次に受信される音素に基づいて上記音声の
中の複数の音節からなる各語を認識する段階とを含むコ
ンピュータプログラム製品。
【請求項１７】上記数字キーパッドの複数のキーの夫
々に子音及び母音を含む少なくとも一つの音素が割り当
てられ、上記段階（ｃ）における上記最初の音素は子音
である、請求項１６記載のコンピュータプログラム製
品。