JP2002268680A - 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 - Google Patents
悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術Info
- Publication number
- JP2002268680A JP2002268680A JP2001388362A JP2001388362A JP2002268680A JP 2002268680 A JP2002268680 A JP 2002268680A JP 2001388362 A JP2001388362 A JP 2001388362A JP 2001388362 A JP2001388362 A JP 2001388362A JP 2002268680 A JP2002268680 A JP 2002268680A
- Authority
- JP
- Japan
- Prior art keywords
- keys
- voice
- syllable
- phonemes
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002411 adverse Effects 0.000 title abstract description 5
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims 2
- 230000001413 cellular effect Effects 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 claims 1
- 241001672694 Citrus reticulata Species 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 7
- 239000011295 pitch Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 230000001055 chewing effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/02—Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
- G06F15/0208—Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators for combination with other devices having a different main function, e.g. watches, pens
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Document Processing Apparatus (AREA)
- Calculators And Similar Devices (AREA)
- Machine Translation (AREA)
Abstract
メモリを有するPDA、移動電話機、電子辞書、及び電
子腕時計といった小型電子装置用の、中国語といった東
洋言語を非常に高い精度で入力する方法及び装置を提供
することを目的とする。 【解決手段】 上記目的は、各多音節の中国語を自動音
節認識によって母音及び子音が分離されうる孤立声調音
節で口に出し、同時に、悪環境において例えば子音であ
るピンイン発音(副次単語単位)の音響的な具現化から
生ずる曖昧さを更に解決するために、特別に設計された
キーパッドのうちの1つを押すこと、例えば音節の最初
の音素(子音又は母音)を含む打鍵により達成される。
それでもなお曖昧さがある場合は、音節の第2又は第3
のピンイン発音を押すことが必要である。キーパッドの
設計は、各キーパッドの音素の類似性の比率が最小化さ
れ、キーの間のピンイン発音の類似性の比率が最大化さ
れるようデータ主導方式である。
Description
し、更に特定的には、限られた記憶容量を有するハンド
ヘルド式の小型電子機器を用いた標準中国語、日本語、
韓国語といった東洋の言語の自動音声認識(ASR)に
関連する。
の技術が開発されてきた。1つの例として、パーソナル
コンピュータにおいて用いられる大量語彙連続音声認識
(LVCSR:Large-Vocabulary-Continuous-Speech R
ecognition)システムがある。図1を参照するに、LV
CSRシステム1は、一般的に、スペクトル解析ブロッ
ク15及びピッチ解析16を含む音響的なフロントエン
ドを用い、特徴抽出のために文脈依存モデリング及び言
語モデリングによる発音語彙集を用い、信号を認識す
る。LVCSRシステム1では、文脈依存モデリング及
び言語モデリングの両方のために多数のパラメータを処
理せねばならないため、計算及び記憶の負荷は非常に高
い。携帯情報端末(PDA)、移動電話機、無線電話
機、及び電子辞書等といった少ない記憶容量を有する小
型機器で用いられる従来の音声認識技術では、一般的に
音声入力パターンを認識するために音響的な特徴及び音
声学的/語彙的なモデル並びにコードブック設計が用い
られる。これらの技術は、標準中国語、日本語、韓国語
等といった東洋の言語について特に有用である。LVC
SRシステム1は、パーソナルコンピュータのユーザに
とっては開発され成熟してきたが、それでもなお音響的
な特徴や音声認識器のセンサが悪環境に存在するときに
背景雑音によって汚されやすいという欠点がある。一
方、LVCSRシステム1における認識誤り率の低下
は、主にその言語を特に話す話者によって最も頻繁に使
用される入力単語列の知識、いわゆる言語モデリングに
よるものである。このため、LVCSRシステム1で
は、入力単語列を処理するために大量のメモリ記憶及び
計算努力が必要となる。従って、LVCSRシステム1
は、特に悪環境では、記憶容量の少ない小型電子機器に
は適していない。
が悪環境で用いられた場合について考察した場合に、本
願発明の発明者は、パフォーマンスの低下なしに連続す
る音声について音声モデルをうまく用いることは困難で
あること、孤立音声の認識は連続音声の認識よりも容易
であること、孤立音声における母音の認識は子音の認識
よりも容易であること、及び例えば台湾や香港で教育を
受けた殆どの標準中国語を話す人はチューイン(zhu-yi
n)発音に馴染みがあるため漢字をチューイン発音で分
解することの方が容易であることを認識する。一般的
に、1つの漢字に対して1乃至3のピンイン(pin-yi
n)発音が用いられる。概して、中国語、日本語、韓国
語等の幾つかの東洋言語は、孤立音声では、S−休止−
S−休止−S−休止−S−休止−...といった音節構
造を有する。当業者によって周知であるように、音節構
造はS=(C)+Vという性質を有し、但し、Cは子
音、Vは母音を表し、Cは韓国語、日本語、及び中国語
で任意である。
般的に使用される文字がある。これらの漢字は、約40
0の音節と、声調音節と称される約1400の異なる音
節とを有する。これらの声調音節は、V+T又はC+V
+Tという特定的な構造を有し、Vは母音、Cは子音、
Tは声調を示す。音声認識の分野の当業者によって周知
であるように、異なる子音の音響的な具現化(又はパワ
ースペクトル)の間にはそのパワースペクトルについて
高い曖昧さがあるといえる。従来のASR技術では、認
識における誤り率は、主に子音の音響的な具現化の不安
定性から生ずるものである。子音の音響的な具現化の安
定性とモデル同時調音を高めるために提案されている1
つのアプローチは、モデル単位を文脈依存の単音である
よう選択することである。文脈依存の単音をモデリング
しない場合は、子音の具現化の不安定性の性質により単
語誤り率の増加を生じさせる。認識単語誤り率を低下さ
せるための他のアプローチは、日常言語で一般的に使用
されている単語列についての知識を用いるいわゆる言語
モデリングである。文脈依存の子音の音響的な具現化は
きれいな音声と比較してはるかに不安定となるため、言
語モデリングを使用することは、悪環境における電話用
の対話システムといったASR技術の主な要因である。
しかしながら、文脈依存単音モデリングでは、モデルの
複雑性が高く、多くの統計的パラメータ(一般的には1
00Kバイト)を学習させ(統計的方法による推定)R
AMといった揮発メモリに記憶させねばならないという
不利な点がある。他の方法は、全体単語モデリングを使
用することである。しかしながらこの方法もモデルの複
雑性を300倍高める。更に、LVCSRシステム1
(一般的には10,000の単語を有する)言語モデリ
ング(N−gram、N=2,3)のメモリ使用は非常
に高く計算的に費用がかかる。従って、ハンドヘルド式
の電子装置ではその内在的な計算及びメモリの制約によ
り可能ではない。
孤立音声中の音声を認識するために現在利用可能な音声
認識技術は信頼性が高い。声調について、音声の音響的
な特徴は異なる声調を弁別するための十分な情報を提供
しうる。現在の音声認識技術では、特に音声の音響的な
特徴が悪環境において雑音によって汚されている場合
は、子音の弁別が弱点となる。
東洋言語の子音及び母音を含む複数の音素を、ハンドヘ
ルド電子装置の複数のキーにより、複数のキーの夫々に
まとめられた複数の音素の平方距離(即ち音響特徴空間
中の非類似性の尺度)の和と複数のキーのうちの複数の
音素の平方距離の和との比率が最大化されるようグルー
プへまとめる方法を提供することである。
る数字キーパッドと音声入力装置とを有する電子装置へ
東洋文字を入力する方法であって、上記のまとめる方法
によって複数のキーの各キーに又は各キーの近傍に東洋
言語の子音及び母音を含む少なくとも一つの音素が割り
当てられ目に見える形で表わされ、東洋文字を表わす音
声はユーザによって発話され、音声入力手段によって受
信され、ユーザが東洋文字の夫々を孤立音声モードで口
に出すときにユーザは東洋文字の夫々に対応する最初の
音素を表わすキーを順次に押すこと、及び、順次にキー
入力される音素に基づいて対応する東洋文字が選択され
る方法を提供することである。
ーパッド/音声認識を通じて東洋言語の発話をそれを表
わす東洋文字を認識するために入力しうる電子装置であ
って、音声入力装置と上述の方法によってまとめられた
複数のキーを有する数字キーパッドとを有する電子装置
を提供することである。電子装置では、音声認識装置
は、悪環境において東洋文字が効率的に電子装置へ入力
されうるよう、キーパッドを通じてキー入力された音素
の列及び発話に基づいて発話から東洋文字を認識する。
おいて用いられる数字キーパッドを通じてキー入力によ
って支援されて東洋言語の音声を認識する方法を提供す
ることである。
の認識方法を実行させるよう動作可能なコンピュータ製
品を提供することである。
のであり本発明を制限するものではない以下の詳細な説
明及び添付の図面により更に完全に理解されよう。本発
明は、以下の(1)及び(2)のような条件下での、ハ
ンドヘルド式装置用の精度の高いハイブリッドなキーパ
ッド/ASRアーキテクチャに関する。 (1)悪環境での従来の音声認識技術の欠陥。例えば、
音声の音響的な特徴は、非定常的な音声及びチャネル効
果により十分にロバストでない。それに加え、例えば全
体語モデリング、文脈依存単音モデリング、及びtri
gram言語モデリングといった従来の技術の計算及び
メモリの負荷は非常に高い。 (2)孤立音声での韓国語、日本語、及び中国語の幾つ
かの東洋言語特徴の音節構造。即ち、(C)+V,休
止,(C)+V,...であり、但し、Cは子音、Vは
母音を表し、Cは韓国語、日本語、及び中国語において
任意である。
明し図示する。しかしながら当業者は、本発明の原理及
び精神は本願の請求の範囲を逸脱することなく日本語、
韓国語、広東語といった他の東洋言語にも適用されうる
ことを認識するであろう。
ンドヘルド式電子装置20についてのハイブリッドなキ
ーパッド/音声認識アーキテクチャを示す図である。図
2中、キーパッド装置22上の頻繁に使用される12の
数字キー、0乃至9、*及び#は、本発明によれば特に
中国語(基本的には37のBoPoMoFo音素からな
る)のチューイン(ZHU-YIN:注音)表記を視覚的に表
わすために割り当てられ、これについて以下詳述する。
従来技術で周知であるように、キーパッド装置22は上
述の12のキーが画面23上のアイコンの形で示される
ハンドヘルド式電子装置20の画面23上のタッチパネ
ルでありうる。動作上、電子装置20のユーザは、孤立
音声(音声の間に休止がある)で発声し、これはマイク
ロホン21によって受信され、孤立音声の中の音節が口
に出されたときに孤立音声の中の各音節の第1のピンイ
ン音素(通常は子音)を表わすキーパッド装置22の1
つのキーを略同時に押す。
信号はA/D変換器を介してディジタル式にサンプリン
グされ、スペクトル解析ブロック25及びピッチ解析ブ
ロック26へ送信される。当業者により周知であるよう
に、内蔵式A/D変換器をマイクロホン21有するディ
ジタルマイクロホンを形成するために、マイクロホン2
1はA/D変換器24に組み込まれうる。ブロック25
では、サンプリングされた音声信号は等しい幅で時間的
に重なり合う多数の解析ゲートへ分割される。次に、各
解析ゲートは、音声解析において一般的に使用されるハ
ミングウィンドウと称されるカーネルで乗算される。各
解析ゲート中のサンプリングされた音声信号の高速フー
リエ変換(FFT)は、解析ゲート中のサンプリングさ
れた音声信号のスペクトルを発生するために計算され、
次にパワースペクトルを生じさせスペクトル音響特徴を
形成するために平方される。それに加え、発話される孤
立した音声の声調特徴は、標準中国語、広東語、タイ
語、台湾語等の東洋声調言語用のピッチを介してサンプ
リングされた音声信号から抽出される。ピッチ解析ブロ
ック26は、日本語及び韓国語といった声調の少ない東
洋言語には使用されない。
によってなされたアクションは、キーパッド装置22か
らのイネーブル/データ信号30によって示されるよう
に、音響マッチングブロック27、孤立音節マッチング
ブロック28、及び最善仮説マッチングブロック29に
よるサンプリングされた音声信号の処理の開始を示す。
イネーブル/データ信号30によって示されるように、
発話を構成する各音節の通常は子音である音素の情報
は、音節の認識を更に速め、それにより電子装置20の
計算上の負荷を減少させるために音響マッチングブロッ
ク27へ送信される。同様に、孤立音声マッチングブロ
ック28は、各発話の中に複数の音節からなる各語の認
識を、音響マッチングブロック27からの各音節及びキ
ーパッド装置22を介した順次のキー入力された音素
(子音)に基づいて速めうる。
でのASRには特に、孤立音声(音声の中に休止が存在
する)モードが望ましい。即ち電子装置20のユーザに
よってなされる孤立音声の信頼性は本発明により高めら
れる。また、本発明の望まし実施例によれば、発話され
た各多音節語について、孤立音節モードが望ましい。即
ち、悪環境で各音節がより容易に認識されるよう多音節
語の中の音節間に休止が存在する。本発明の望ましい実
施例によれば、特に韓国語、日本語、及び中国語のよう
に簡単な音節構造、即ち、S=(C)+Vを有する各発
話された孤立音節について、これをマイクロホン11に
向かって発話しているときにこの孤立音節からなる対応
する子音(又は母音)をキーパッド装置22を介して手
で入力することが望ましい。これは、上述のように、悪
環境では子音を従来の音声認識技術によって識別するこ
とが比較的困難だからである。
装置22への手での入力は、(i)発話された孤立音声
がいつ音響マッチングブロック28によって処理される
か、(ii)孤立音節マッチングブロック28によって
処理されるべき(韓国人、日本人、及び中国人にとって
認識するのが比較的簡単な)対応する孤立発話音節の子
音、及び、(iii)スクロールキー「<」及び「>」
等のキーパッド装置22のブラウズ機能キーを通じた、
最善仮説マッチングブロック29によって処理されるべ
き同音文字(即ち、同じ発音を有する異なる文字、例え
ば中国語では、
4に示される電子装置20において用いられるキーパッ
ド装置22を介したキー入力によって支援される東洋言
語での音声を認識する方法が提供される。図4を参照す
るに、ステップ41において、ユーザによって発話され
た音声を表わす音声信号がマイクロホン21によって入
力される。ステップ42において、スペクトル解析ブロ
ック25及びピッチ解析ブロック26によって音声信号
の特徴が抽出される。ステップ43において、ユーザが
各音節を口に出したときに、キーパッド装置22を介し
て、発話された音声の各音節の最初の音素に対応する情
報が受信される。ステップ44において、音声信号の音
声特徴と、ステップ43において受信された順次のキー
入力された音素に基づいて、音響マッチングブロック2
7により、発話された音声の各音節が認識される。ステ
ップ45において、ステップ44において認識された各
音節と、ステップ43において受信された順次のキー入
力された音素とに基づいて、孤立音節マッチングブロッ
ク28により、発話された音声の中の複数の音節からな
る各語が認識される。
トウエアの形式でコンピュータ読み取り可能な媒体に記
録されうる。それに加え、コンピュータ製品は、電子装
置20のプロセッサに上述の認識方法を実行させるよう
動作可能である。
MoFo、注音)は、以下の、
ーイン表記は、データ主導で、即ち、漢字の音響データ
ベースに基づく「線形弁別解析の逆(ILDA:Invers
e oflinear discriminant analysis)」で、キーパッド
装置22の12個のキーに割り当てられる。望ましく
は、本発明の方法によれば、これはキーパッド22の各
キーにまとめられた子音及び母音を含む幾つかの音素の
平方距離の和(即ち、音響特徴空間中の非類似性の尺
度)のキーパッド装置22のキーの間の音素の平方距離
の和に対する比率を最大化することによってなされう
る。換言すれば、キーの押し下げの効率性を確実とする
ためにキーパッド装置22のキーに標準中国語の37の
チューイン表記を割り当てるための本発明による基準は
以下の通りである。
7のチューイン表記の音響特徴空間の非類似性尺度が最
大化される(本発明によれば、例えばキー「1」に
られる)。この最大化は、図3に示されるASRシステ
ムでは、押し下げられた各キーによって表わされる音素
のグループから特定の音節/音素を認識することが比較
的容易であることが確実とされる。
のチューイン表記の音響的な特徴空間における非類似性
の尺度(本発明によれば、
素)がキーの押し下げによって認識されることを確実と
する。
のチューイン表記の特殊化された割り当てのうちの1つ
の例は、以下の、
リッドなキーパッド/音声認識スキームに基づいてマイ
クロホン21及びキーパッド装置22の両方を介して電
子装置20に多音節語、例えば
ザはまず孤立音節モードで孤立音声
信される。ユーザが休止の間の各音節を発音するとき、
ユーザは音節の子音(可能であれば他の母音)を押し下
げる。上述のように、現行の音声認識技術が悪環境下で
用いられた場合、孤立音声では子音よりも母音を認識す
るほうが容易であり、従って発話された孤立音声の認識
率を高めるためにユーザのキー押し下げにより子音が指
定されることが望ましいことが観察されるためである。
例えば、ユーザは、漢字
ザは、漢字「是」(は、チューインでは
インでは
声調による孤立音声の声調特徴はピッチ解析ブロック2
6によって取り出され、次に音響マッチングブロック2
6、孤立音節マッチングブロック28、及び最善仮説マ
ッチングブロック29によって順次に解析される。従っ
て、標準中国語の4つの声調マーカ
0には必要でない。
間に各音節を口に出し同時にその子音を表わすキーを押
すとき、画面23上の候補リスト(図2には図示せず)
に幾つかの同音文字(即ち同じ発音を有する異なる文
字)が示される。すると、ユーザはキーパッド装置22
上の「<」及び「>」といったスクロールキーや、「O
K」キー(図示せず)を用いて、所望の漢字を選択す
る。このようにして、上述の3つの漢字を電子装置20
に入力するために、ユーザは3つのキーを押すだけ出よ
く、これに対して従来技術ではスクロールキー及び「O
K」キーがあるにもかかわらず少なくとも6乃至8のキ
ー(各文字について少なくとも2回のキー押し下げ)を
押さねばならなかった。周知であるように、孤立音声の
中の同音文字は、文脈依存の学習技術により自動的に選
択されうる。従って、本発明によれば、悪環境における
入力東洋言語に対する効率的なキー押し下げは、本発明
によるキー割り当て及び音声認識方法の両方によって達
成されうる。
孤立音節構造中の対応する子音を表わすキーを押すこと
により、音節同士の曖昧さは効果的にかなり減少され、
認識の誤り率は追加的な計算負荷及びメモリ利用なしに
かなり減少される。本発明はキーパッド及びマイクロホ
ンの両方を通じて韓国語、日本語、及び中国語を入力す
ることが可能な悪環境において使用されるハンドヘルド
式の電子装置について、これらの言語は単純な音節構
造、即ちS=(C)+V、但し、Sは特定の音節、C/
Vは対応する子音/母音を表わす、に特に適している。
施例に関して説明されたが、これは本発明を制限するも
のではない。日本語、韓国語(声調が少ない)、タイ
語、ベトナム語(声調がある)といった東洋言語にも本
発明が適用されうる。更に、キーパッド装置22の12
個の数字キーに37のチューイン表記を割り当てる原理
は、中国語に関する本発明の実施例を通じて英語といっ
た他のラテン系の言語にも適用されうる。例えば、英語
といったラテン系の言語の複数の音素の音響特徴空間を
得るために、データ主導で、キーパッド装置22の各キ
ーにまとめられた複数の音素の平方距離の和(即ち音響
特徴空間中の非類似性の尺度)とキーパッド装置22の
各キーのうちの複数の音素の平方距離の和との比率を最
大化するためである。このようにして、英語のアルファ
ベットの26の文字は、キーパッドの幾つかの、例え
ば、10個又は12個の数字キーに割り当てられ、それ
によりキーパッドのスケールがかなり減少されうる。
ば、本発明の請求項の範囲及び精神を逸脱することなく
変更又は変形されうる。
ステムを示す概略図である。
合キーパッド/音声認識技術を用いた電子機器を示す概
略図である。
ーパッド/音声認識システムを示す概略図である。
入力によって支援される東洋言語の音声を認識する方法
を示すフローチャートである。
Claims (17)
- 【請求項1】 子音+母音+声調又は母音+声調の音節
構造を有する東洋言語の発話を入力する電子装置であっ
て、 上記発話を表わす音声信号を受信する音声受信器と、 上記音声受信器に結合され、上記音声信号の音声特徴を
抽出する前処理手段と、 各キーに子音及び母音を含む少なくとも一つの音素が割
り当てられる複数のキーを含むキーパッド手段と、 上記音声信号の音声特徴及び上記キーパッド手段を通じ
て順次に得られる音素に基づいて上記発話の各音節を認
識する音響マッチング手段と、 上記音響マッチング手段からの各音節及び上記キーパッ
ド手段を通じてキー入力された音素に基づいて上記発話
の中の複数の音節からなる各語を認識する孤立音節マッ
チング手段とを含む電子装置。 - 【請求項2】 各キーは、複数のキーの夫々にまとめら
れた音素の平方された距離の和及び複数のキーのうちの
音素の平方された距離の和が最大化されるよう、少なく
とも1つの音素に割り当てられる、請求項1記載の電子
装置。 - 【請求項3】 発話の各音節が口に出されたときに、各
音節の最初の音素(望ましくは子音)に対応するキーが
押される、請求項1記載の電子装置。 - 【請求項4】 セルラー式電話機、ワイヤレス式電話
機、電子辞書、携帯情報端末、及び電子腕時計からなる
群から選択される一の電子装置である、請求項1記載の
電子装置。 - 【請求項5】 上記発話は、少なくとも1つの多音節語
からなる孤立音声である、請求項1記載の電子装置。 - 【請求項6】 上記発話の各音節の最初の音素は子音で
ある、請求項3記載の電子装置。 - 【請求項7】 ディスプレイを有する電子装置であっ
て、 子音+母音又は母音のいずれかの音節構造を有する東洋
言語の発話を表わす音声信号を受信する音声受信手段
と、 各キーに又は各キーの近傍に子音及び母音を含む少なく
とも一つの音素が割り当てられ目に見える形で表わされ
た複数のキーを有する数字キーパッドと、 上記数値キーパッドを介して順次に得られる音素及び上
記音声受信手段によって受信される発話に基づいて上記
発話から東洋文字を認識する音声認識手段と、 上記ディスプレイ上に上記発話からの東洋文字を表示す
る手段とを含む電子装置。 - 【請求項8】 上記少なくとも一つの音素は、複数のキ
ーの夫々にまとめられた複数の音素の平方された距離の
和と複数のキーのうちの複数の音素の平方された距離の
和との比率が最大化されるよう、上記複数のキーの夫々
に割り当てられ、それにより上記数字キーパッド及び上
記音声受信手段を通じて東洋言語が効率的に入力されう
る、請求項7記載の電子装置。 - 【請求項9】 複数のキーを有する数字キーパッドを介
したキー入力によって支援された、子音+母音又は母音
の音節構造を有する東洋言語の音声を認識する方法であ
って、 (a)上記音声を表わす音声信号を入力する段階と、 (b)上記音声信号の音声特徴を抽出する段階と、 (c)上記数字キーパッドを通じて、上記音声の各音節
が口に出されたときに上記音声中の各音節の最初の音素
に対応するキーの情報を順次に受信する段階と、 (d)上記音声信号の音声特徴及び上記段階(c)から
順次に受信される音素に基づいて上記音声の各音節を認
識する段階と、 (e)上記段階(d)で認識された各音節及び上記段階
(c)から順次に受信される音素に基づいて上記音声の
中の複数の音節からなる各語を認識する段階とを含む方
法。 - 【請求項10】 上記数字キーパッドの複数のキーの夫
々に子音及び母音を含む少なくとも一つの音素が割り当
てられ、上記段階(c)における上記最初の音素は子音
である、請求項9記載の方法。 - 【請求項11】 東洋言語の子音及び母音を含む複数の
音素を電子装置の数字キーパッドにまとめる方法であっ
て、上記キーパッドの複数のキーの夫々に少なくとも一
つの音素が割り当てられ、 (a)上記複数の音素の音響特徴を得る段階と、 (b)上記複数のキーの夫々にまとめられた複数の音素
の平方された距離の和と上記複数のキーのうちの複数の
音素の平方された距離の和との比率をデータ主導式に最
大化する段階とを含む方法。 - 【請求項12】 上記最大化段階は、 (b1)各キーにまとめられた複数の音素が音響的に弁
別されるよう各キーの中の音素の音響空間中で第1の非
類似性尺度を最大化する段階と、 (b2)最も曖昧な音素が同一のキーにまとめられない
ようキーのうちの音素の音響特徴空間中で第2の非類似
性尺度を最小化する段階とを含む、請求項11記載の方
法。 - 【請求項13】 上記東洋言語は中国語であり、上記電
子装置の数字キーパッドは12個のキーを有し、上記1
2個のキーに対して中国語の複数の音素が、 【外1】 のようにまとめられる、請求項11記載の方法。 - 【請求項14】 複数のキーを含む数字キーパッド及び
音声入力手段を有する電子装置に東洋文字を入力する方
法であって、 子音及び母音を含む少なくとも一つの音素は、複数のキ
ーの各キーに又は各キーの近傍に割り当てられ目に見え
る形で表わされること、 上記東洋文字を表わす音声はユーザによって発話され、
上記音声入力手段によって受信され、ユーザは上記東洋
文字の夫々を孤立音声モードで口に出すとともに上記東
洋文字の夫々に対応する最初の音素を表わすキーを順次
に押すこと、及び、 順次にキー入力される音素に基づいて対応する東洋文字
が選択されることを特徴とする方法。 - 【請求項15】 少なくとも一つの音素は、上記複数の
キーの夫々にまとめられた複数の音素の平方された距離
の和と上記複数のキーのうちの複数の音素の平方された
距離の和との比率が最大化されるよう上記複数のキーの
夫々に割り当てられることを特徴とする、請求項14記
載の方法。 - 【請求項16】 複数のキーを有する数字キーパッドを
介したキー入力によって支援された、子音+母音又は母
音の音節構造を有する東洋言語の音声を認識するための
複数の段階をプロセッサに実行させるよう動作可能なコ
ンピュータプログラム製品であって、上記複数の段階
は、 (a)上記音声を表わす音声信号を入力する段階と、 (b)上記音声信号の音声特徴を抽出する段階と、 (c)上記数字キーパッドを通じて、上記音声の各音節
が口に出されたときに上記音声の中の各音節の最初の音
素に対応するキーの情報を順次に受信する段階と、 (d)上記音声信号の音声特徴及び上記段階(c)から
順次に受信される音素に基づいて上記音声の各音節を認
識する段階と、 (e)上記段階(d)で認識された各音節及び上記段階
(c)から順次に受信される音素に基づいて上記音声の
中の複数の音節からなる各語を認識する段階とを含むコ
ンピュータプログラム製品。 - 【請求項17】 上記数字キーパッドの複数のキーの夫
々に子音及び母音を含む少なくとも一つの音素が割り当
てられ、上記段階(c)における上記最初の音素は子音
である、請求項16記載のコンピュータプログラム製
品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00204815.5 | 2000-12-22 | ||
EP00204815 | 2000-12-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002268680A true JP2002268680A (ja) | 2002-09-20 |
JP4230142B2 JP4230142B2 (ja) | 2009-02-25 |
Family
ID=8172572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001388362A Expired - Fee Related JP4230142B2 (ja) | 2000-12-22 | 2001-12-20 | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP4230142B2 (ja) |
KR (1) | KR100868709B1 (ja) |
CN (1) | CN1224955C (ja) |
TW (1) | TW533404B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100868709B1 (ko) * | 2000-12-22 | 2008-11-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉 |
CN101739868B (zh) * | 2008-11-19 | 2012-03-28 | 中国科学院自动化研究所 | 一种用于口语测试的文本朗读水平自动评估诊断方法 |
KR20210020980A (ko) * | 2015-07-13 | 2021-02-24 | 에스케이텔레콤 주식회사 | 키패드를 이용한 키워드 검색 방법 및 장치 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100419751C (zh) * | 2004-03-11 | 2008-09-17 | 台达电子工业股份有限公司 | 使用语音输入查询方式及使用语音输入的行动电子装置 |
CN1952995B (zh) * | 2005-10-18 | 2010-09-22 | 说宝堂信息科技(上海)有限公司 | 智能互动型语言练习装置及其方法 |
CN103488306A (zh) * | 2013-08-30 | 2014-01-01 | 浙江佑安高科消防系统有限公司 | 汉语数音拼音输入法 |
US9711141B2 (en) * | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN107193935A (zh) * | 2017-05-18 | 2017-09-22 | 上海思依暄机器人科技股份有限公司 | 一种拼音处理方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056796A (ja) * | 1998-08-07 | 2000-02-25 | Asahi Chem Ind Co Ltd | 音声入力装置および方法 |
JP2000066819A (ja) * | 1998-08-18 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 汎用中国語音声キーボード設定装置 |
JP2000305924A (ja) * | 1999-04-16 | 2000-11-02 | Matsushita Electric Ind Co Ltd | 数字キーによる漢字入力方法及びその装置 |
KR100355453B1 (ko) * | 1999-08-20 | 2002-10-11 | 한국전자통신연구원 | 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 |
TW533404B (en) * | 2000-12-22 | 2003-05-21 | Koninkl Philips Electronics Nv | Hybrid keypad/speech recognition technique for oriental characters in adverse environments |
-
2001
- 2001-11-16 TW TW090128512A patent/TW533404B/zh not_active IP Right Cessation
- 2001-12-19 CN CNB011456868A patent/CN1224955C/zh not_active Expired - Lifetime
- 2001-12-20 KR KR1020010081533A patent/KR100868709B1/ko not_active IP Right Cessation
- 2001-12-20 JP JP2001388362A patent/JP4230142B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100868709B1 (ko) * | 2000-12-22 | 2008-11-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉 |
CN101739868B (zh) * | 2008-11-19 | 2012-03-28 | 中国科学院自动化研究所 | 一种用于口语测试的文本朗读水平自动评估诊断方法 |
KR20210020980A (ko) * | 2015-07-13 | 2021-02-24 | 에스케이텔레콤 주식회사 | 키패드를 이용한 키워드 검색 방법 및 장치 |
KR102356788B1 (ko) | 2015-07-13 | 2022-02-08 | 에스케이텔레콤 주식회사 | 키패드를 이용한 키워드 검색 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN1360301A (zh) | 2002-07-24 |
KR20020051842A (ko) | 2002-06-29 |
KR100868709B1 (ko) | 2008-11-13 |
TW533404B (en) | 2003-05-21 |
JP4230142B2 (ja) | 2009-02-25 |
CN1224955C (zh) | 2005-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US8311829B2 (en) | Multimodal disambiguation of speech recognition | |
EP3504709B1 (en) | Determining phonetic relationships | |
US20050283364A1 (en) | Multimodal disambiguation of speech recognition | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
JP4468264B2 (ja) | 多言語による名称の音声認識のための方法とシステム | |
EP1557821A2 (en) | Segmental tonal modeling for tonal languages | |
JPH10503033A (ja) | 新ワードのモデル化に基づく音声認識方法及びその装置 | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
US20120221335A1 (en) | Method and apparatus for creating voice tag | |
Fellbaum et al. | Principles of electronic speech processing with applications for people with disabilities | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声系统 | |
JP4230142B2 (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
JP2016161935A (ja) | 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
Venkatagiri | Speech recognition technology applications in communication disorders | |
JP3531342B2 (ja) | 音声処理装置および音声処理方法 | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
Mittal et al. | Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
Sugamura et al. | Speech processing technologies and telecommunications applications at NTT | |
JP2001188556A (ja) | 音声認識方法及び装置 | |
JPH05119793A (ja) | 音声認識方法及び装置 | |
Pisarn et al. | Improving Thai spelling recognition with tone features | |
Pisarn et al. | Thai spelling analysis for automatic spelling speech recognition | |
Miah et al. | To Design Voice Control Keyboard System using Speech Application Programming Interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060919 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061218 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070903 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4230142 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131212 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |