JP2002268680A - 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 - Google Patents

悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術

Info

Publication number
JP2002268680A
JP2002268680A JP2001388362A JP2001388362A JP2002268680A JP 2002268680 A JP2002268680 A JP 2002268680A JP 2001388362 A JP2001388362 A JP 2001388362A JP 2001388362 A JP2001388362 A JP 2001388362A JP 2002268680 A JP2002268680 A JP 2002268680A
Authority
JP
Japan
Prior art keywords
keys
voice
syllable
phonemes
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001388362A
Other languages
English (en)
Other versions
JP4230142B2 (ja
Inventor
Hoan Chan-Han
ホアン チャン−ハン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2002268680A publication Critical patent/JP2002268680A/ja
Application granted granted Critical
Publication of JP4230142B2 publication Critical patent/JP4230142B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/0208Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators for combination with other devices having a different main function, e.g. watches, pens
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Calculators And Similar Devices (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 幾つかのキーパッド及び/又は小さい容量の
メモリを有するPDA、移動電話機、電子辞書、及び電
子腕時計といった小型電子装置用の、中国語といった東
洋言語を非常に高い精度で入力する方法及び装置を提供
することを目的とする。 【解決手段】 上記目的は、各多音節の中国語を自動音
節認識によって母音及び子音が分離されうる孤立声調音
節で口に出し、同時に、悪環境において例えば子音であ
るピンイン発音(副次単語単位)の音響的な具現化から
生ずる曖昧さを更に解決するために、特別に設計された
キーパッドのうちの1つを押すこと、例えば音節の最初
の音素(子音又は母音)を含む打鍵により達成される。
それでもなお曖昧さがある場合は、音節の第2又は第3
のピンイン発音を押すことが必要である。キーパッドの
設計は、各キーパッドの音素の類似性の比率が最小化さ
れ、キーの間のピンイン発音の類似性の比率が最大化さ
れるようデータ主導方式である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号処理に関
し、更に特定的には、限られた記憶容量を有するハンド
ヘルド式の小型電子機器を用いた標準中国語、日本語、
韓国語といった東洋の言語の自動音声認識(ASR)に
関連する。
【0002】
【従来の技術】数十年に亘り、自動音声認識(ASR)
の技術が開発されてきた。1つの例として、パーソナル
コンピュータにおいて用いられる大量語彙連続音声認識
(LVCSR:Large-Vocabulary-Continuous-Speech R
ecognition)システムがある。図1を参照するに、LV
CSRシステム1は、一般的に、スペクトル解析ブロッ
ク15及びピッチ解析16を含む音響的なフロントエン
ドを用い、特徴抽出のために文脈依存モデリング及び言
語モデリングによる発音語彙集を用い、信号を認識す
る。LVCSRシステム1では、文脈依存モデリング及
び言語モデリングの両方のために多数のパラメータを処
理せねばならないため、計算及び記憶の負荷は非常に高
い。携帯情報端末(PDA)、移動電話機、無線電話
機、及び電子辞書等といった少ない記憶容量を有する小
型機器で用いられる従来の音声認識技術では、一般的に
音声入力パターンを認識するために音響的な特徴及び音
声学的/語彙的なモデル並びにコードブック設計が用い
られる。これらの技術は、標準中国語、日本語、韓国語
等といった東洋の言語について特に有用である。LVC
SRシステム1は、パーソナルコンピュータのユーザに
とっては開発され成熟してきたが、それでもなお音響的
な特徴や音声認識器のセンサが悪環境に存在するときに
背景雑音によって汚されやすいという欠点がある。一
方、LVCSRシステム1における認識誤り率の低下
は、主にその言語を特に話す話者によって最も頻繁に使
用される入力単語列の知識、いわゆる言語モデリングに
よるものである。このため、LVCSRシステム1で
は、入力単語列を処理するために大量のメモリ記憶及び
計算努力が必要となる。従って、LVCSRシステム1
は、特に悪環境では、記憶容量の少ない小型電子機器に
は適していない。
【0003】
【発明が解決しようとする課題】従来のLVCSR技術
が悪環境で用いられた場合について考察した場合に、本
願発明の発明者は、パフォーマンスの低下なしに連続す
る音声について音声モデルをうまく用いることは困難で
あること、孤立音声の認識は連続音声の認識よりも容易
であること、孤立音声における母音の認識は子音の認識
よりも容易であること、及び例えば台湾や香港で教育を
受けた殆どの標準中国語を話す人はチューイン(zhu-yi
n)発音に馴染みがあるため漢字をチューイン発音で分
解することの方が容易であることを認識する。一般的
に、1つの漢字に対して1乃至3のピンイン(pin-yi
n)発音が用いられる。概して、中国語、日本語、韓国
語等の幾つかの東洋言語は、孤立音声では、S−休止−
S−休止−S−休止−S−休止−...といった音節構
造を有する。当業者によって周知であるように、音節構
造はS=(C)+Vという性質を有し、但し、Cは子
音、Vは母音を表し、Cは韓国語、日本語、及び中国語
で任意である。
【0004】漢字に関していえば、約20,000の一
般的に使用される文字がある。これらの漢字は、約40
0の音節と、声調音節と称される約1400の異なる音
節とを有する。これらの声調音節は、V+T又はC+V
+Tという特定的な構造を有し、Vは母音、Cは子音、
Tは声調を示す。音声認識の分野の当業者によって周知
であるように、異なる子音の音響的な具現化(又はパワ
ースペクトル)の間にはそのパワースペクトルについて
高い曖昧さがあるといえる。従来のASR技術では、認
識における誤り率は、主に子音の音響的な具現化の不安
定性から生ずるものである。子音の音響的な具現化の安
定性とモデル同時調音を高めるために提案されている1
つのアプローチは、モデル単位を文脈依存の単音である
よう選択することである。文脈依存の単音をモデリング
しない場合は、子音の具現化の不安定性の性質により単
語誤り率の増加を生じさせる。認識単語誤り率を低下さ
せるための他のアプローチは、日常言語で一般的に使用
されている単語列についての知識を用いるいわゆる言語
モデリングである。文脈依存の子音の音響的な具現化は
きれいな音声と比較してはるかに不安定となるため、言
語モデリングを使用することは、悪環境における電話用
の対話システムといったASR技術の主な要因である。
しかしながら、文脈依存単音モデリングでは、モデルの
複雑性が高く、多くの統計的パラメータ(一般的には1
00Kバイト)を学習させ(統計的方法による推定)R
AMといった揮発メモリに記憶させねばならないという
不利な点がある。他の方法は、全体単語モデリングを使
用することである。しかしながらこの方法もモデルの複
雑性を300倍高める。更に、LVCSRシステム1
(一般的には10,000の単語を有する)言語モデリ
ング(N−gram、N=2,3)のメモリ使用は非常
に高く計算的に費用がかかる。従って、ハンドヘルド式
の電子装置ではその内在的な計算及びメモリの制約によ
り可能ではない。
【0005】孤立音声中の母音の容易な認識に基づき、
孤立音声中の音声を認識するために現在利用可能な音声
認識技術は信頼性が高い。声調について、音声の音響的
な特徴は異なる声調を弁別するための十分な情報を提供
しうる。現在の音声認識技術では、特に音声の音響的な
特徴が悪環境において雑音によって汚されている場合
は、子音の弁別が弱点となる。
【0006】
【課題を解決するための手段】本発明の第1の利点は、
東洋言語の子音及び母音を含む複数の音素を、ハンドヘ
ルド電子装置の複数のキーにより、複数のキーの夫々に
まとめられた複数の音素の平方距離(即ち音響特徴空間
中の非類似性の尺度)の和と複数のキーのうちの複数の
音素の平方距離の和との比率が最大化されるようグルー
プへまとめる方法を提供することである。
【0007】本発明の第2の利点は、複数のキーからな
る数字キーパッドと音声入力装置とを有する電子装置へ
東洋文字を入力する方法であって、上記のまとめる方法
によって複数のキーの各キーに又は各キーの近傍に東洋
言語の子音及び母音を含む少なくとも一つの音素が割り
当てられ目に見える形で表わされ、東洋文字を表わす音
声はユーザによって発話され、音声入力手段によって受
信され、ユーザが東洋文字の夫々を孤立音声モードで口
に出すときにユーザは東洋文字の夫々に対応する最初の
音素を表わすキーを順次に押すこと、及び、順次にキー
入力される音素に基づいて対応する東洋文字が選択され
る方法を提供することである。
【0008】本発明の第3の利点は、ハイブリッドなキ
ーパッド/音声認識を通じて東洋言語の発話をそれを表
わす東洋文字を認識するために入力しうる電子装置であ
って、音声入力装置と上述の方法によってまとめられた
複数のキーを有する数字キーパッドとを有する電子装置
を提供することである。電子装置では、音声認識装置
は、悪環境において東洋文字が効率的に電子装置へ入力
されうるよう、キーパッドを通じてキー入力された音素
の列及び発話に基づいて発話から東洋文字を認識する。
【0009】本発明の第4の利点は、上述の電子装置に
おいて用いられる数字キーパッドを通じてキー入力によ
って支援されて東洋言語の音声を認識する方法を提供す
ることである。
【0010】本発明の第5の利点は、プロセッサに上述
の認識方法を実行させるよう動作可能なコンピュータ製
品を提供することである。
【0011】
【発明の実施の形態】本発明は、例として与えられるも
のであり本発明を制限するものではない以下の詳細な説
明及び添付の図面により更に完全に理解されよう。本発
明は、以下の(1)及び(2)のような条件下での、ハ
ンドヘルド式装置用の精度の高いハイブリッドなキーパ
ッド/ASRアーキテクチャに関する。 (1)悪環境での従来の音声認識技術の欠陥。例えば、
音声の音響的な特徴は、非定常的な音声及びチャネル効
果により十分にロバストでない。それに加え、例えば全
体語モデリング、文脈依存単音モデリング、及びtri
gram言語モデリングといった従来の技術の計算及び
メモリの負荷は非常に高い。 (2)孤立音声での韓国語、日本語、及び中国語の幾つ
かの東洋言語特徴の音節構造。即ち、(C)+V,休
止,(C)+V,...であり、但し、Cは子音、Vは
母音を表し、Cは韓国語、日本語、及び中国語において
任意である。
【0012】本発明について標準中国語を例にとって説
明し図示する。しかしながら当業者は、本発明の原理及
び精神は本願の請求の範囲を逸脱することなく日本語、
韓国語、広東語といった他の東洋言語にも適用されうる
ことを認識するであろう。
【0013】図2は、本発明の望ましい実施例によるハ
ンドヘルド式電子装置20についてのハイブリッドなキ
ーパッド/音声認識アーキテクチャを示す図である。図
2中、キーパッド装置22上の頻繁に使用される12の
数字キー、0乃至9、*及び#は、本発明によれば特に
中国語(基本的には37のBoPoMoFo音素からな
る)のチューイン(ZHU-YIN:注音)表記を視覚的に表
わすために割り当てられ、これについて以下詳述する。
従来技術で周知であるように、キーパッド装置22は上
述の12のキーが画面23上のアイコンの形で示される
ハンドヘルド式電子装置20の画面23上のタッチパネ
ルでありうる。動作上、電子装置20のユーザは、孤立
音声(音声の間に休止がある)で発声し、これはマイク
ロホン21によって受信され、孤立音声の中の音節が口
に出されたときに孤立音声の中の各音節の第1のピンイ
ン音素(通常は子音)を表わすキーパッド装置22の1
つのキーを略同時に押す。
【0014】ここで図3を参照するに、受信された音声
信号はA/D変換器を介してディジタル式にサンプリン
グされ、スペクトル解析ブロック25及びピッチ解析ブ
ロック26へ送信される。当業者により周知であるよう
に、内蔵式A/D変換器をマイクロホン21有するディ
ジタルマイクロホンを形成するために、マイクロホン2
1はA/D変換器24に組み込まれうる。ブロック25
では、サンプリングされた音声信号は等しい幅で時間的
に重なり合う多数の解析ゲートへ分割される。次に、各
解析ゲートは、音声解析において一般的に使用されるハ
ミングウィンドウと称されるカーネルで乗算される。各
解析ゲート中のサンプリングされた音声信号の高速フー
リエ変換(FFT)は、解析ゲート中のサンプリングさ
れた音声信号のスペクトルを発生するために計算され、
次にパワースペクトルを生じさせスペクトル音響特徴を
形成するために平方される。それに加え、発話される孤
立した音声の声調特徴は、標準中国語、広東語、タイ
語、台湾語等の東洋声調言語用のピッチを介してサンプ
リングされた音声信号から抽出される。ピッチ解析ブロ
ック26は、日本語及び韓国語といった声調の少ない東
洋言語には使用されない。
【0015】最初の1つのキーが押されたというユーザ
によってなされたアクションは、キーパッド装置22か
らのイネーブル/データ信号30によって示されるよう
に、音響マッチングブロック27、孤立音節マッチング
ブロック28、及び最善仮説マッチングブロック29に
よるサンプリングされた音声信号の処理の開始を示す。
イネーブル/データ信号30によって示されるように、
発話を構成する各音節の通常は子音である音素の情報
は、音節の認識を更に速め、それにより電子装置20の
計算上の負荷を減少させるために音響マッチングブロッ
ク27へ送信される。同様に、孤立音声マッチングブロ
ック28は、各発話の中に複数の音節からなる各語の認
識を、音響マッチングブロック27からの各音節及びキ
ーパッド装置22を介した順次のキー入力された音素
(子音)に基づいて速めうる。
【0016】本発明の望ましい実施例によれば、悪環境
でのASRには特に、孤立音声(音声の中に休止が存在
する)モードが望ましい。即ち電子装置20のユーザに
よってなされる孤立音声の信頼性は本発明により高めら
れる。また、本発明の望まし実施例によれば、発話され
た各多音節語について、孤立音節モードが望ましい。即
ち、悪環境で各音節がより容易に認識されるよう多音節
語の中の音節間に休止が存在する。本発明の望ましい実
施例によれば、特に韓国語、日本語、及び中国語のよう
に簡単な音節構造、即ち、S=(C)+Vを有する各発
話された孤立音節について、これをマイクロホン11に
向かって発話しているときにこの孤立音節からなる対応
する子音(又は母音)をキーパッド装置22を介して手
で入力することが望ましい。これは、上述のように、悪
環境では子音を従来の音声認識技術によって識別するこ
とが比較的困難だからである。
【0017】本発明によれば、ユーザによるキーパッド
装置22への手での入力は、(i)発話された孤立音声
がいつ音響マッチングブロック28によって処理される
か、(ii)孤立音節マッチングブロック28によって
処理されるべき(韓国人、日本人、及び中国人にとって
認識するのが比較的簡単な)対応する孤立発話音節の子
音、及び、(iii)スクロールキー「<」及び「>」
等のキーパッド装置22のブラウズ機能キーを通じた、
最善仮説マッチングブロック29によって処理されるべ
き同音文字(即ち、同じ発音を有する異なる文字、例え
ば中国語では、
【0018】
【外2】 の候補リストからの所望の音節、を提供しうる。
【0019】上述のことに基づいて、本発明によれば図
4に示される電子装置20において用いられるキーパッ
ド装置22を介したキー入力によって支援される東洋言
語での音声を認識する方法が提供される。図4を参照す
るに、ステップ41において、ユーザによって発話され
た音声を表わす音声信号がマイクロホン21によって入
力される。ステップ42において、スペクトル解析ブロ
ック25及びピッチ解析ブロック26によって音声信号
の特徴が抽出される。ステップ43において、ユーザが
各音節を口に出したときに、キーパッド装置22を介し
て、発話された音声の各音節の最初の音素に対応する情
報が受信される。ステップ44において、音声信号の音
声特徴と、ステップ43において受信された順次のキー
入力された音素に基づいて、音響マッチングブロック2
7により、発話された音声の各音節が認識される。ステ
ップ45において、ステップ44において認識された各
音節と、ステップ43において受信された順次のキー入
力された音素とに基づいて、孤立音節マッチングブロッ
ク28により、発話された音声の中の複数の音節からな
る各語が認識される。
【0020】本発明によれば、上述の認識方法は、ソフ
トウエアの形式でコンピュータ読み取り可能な媒体に記
録されうる。それに加え、コンピュータ製品は、電子装
置20のプロセッサに上述の認識方法を実行させるよう
動作可能である。
【0021】標準中国語の37のチューイン(BoPo
MoFo、注音)は、以下の、
【0022】
【外3】 である。
【0023】本発明によれば、標準中国語の37のチュ
ーイン表記は、データ主導で、即ち、漢字の音響データ
ベースに基づく「線形弁別解析の逆(ILDA:Invers
e oflinear discriminant analysis)」で、キーパッド
装置22の12個のキーに割り当てられる。望ましく
は、本発明の方法によれば、これはキーパッド22の各
キーにまとめられた子音及び母音を含む幾つかの音素の
平方距離の和(即ち、音響特徴空間中の非類似性の尺
度)のキーパッド装置22のキーの間の音素の平方距離
の和に対する比率を最大化することによってなされう
る。換言すれば、キーの押し下げの効率性を確実とする
ためにキーパッド装置22のキーに標準中国語の37の
チューイン表記を割り当てるための本発明による基準は
以下の通りである。
【0024】・キーパッド装置22の各キーにおける3
7のチューイン表記の音響特徴空間の非類似性尺度が最
大化される(本発明によれば、例えばキー「1」に
【0025】
【外4】 のように1つのキーに通常は3乃至4の音素が割り当て
られる)。この最大化は、図3に示されるASRシステ
ムでは、押し下げられた各キーによって表わされる音素
のグループから特定の音節/音素を認識することが比較
的容易であることが確実とされる。
【0026】・キーパッド装置22のキーに対する37
のチューイン表記の音響的な特徴空間における非類似性
の尺度(本発明によれば、
【0027】
【外5】 )は最小化される。この最小化は、最も曖昧な音(音
素)がキーの押し下げによって認識されることを確実と
する。
【0028】図2に示されるキーパッド装置22の37
のチューイン表記の特殊化された割り当てのうちの1つ
の例は、以下の、
【0029】
【外6】 である。
【0030】本発明の動作の例として、本発明のハイブ
リッドなキーパッド/音声認識スキームに基づいてマイ
クロホン21及びキーパッド装置22の両方を介して電
子装置20に多音節語、例えば
【0031】
【外7】 (あなたは誰ですか。)を入力しようとする場合、ユー
ザはまず孤立音節モードで孤立音声
【0032】
【外8】 を発音し、その各音節はマイクロホンによって順次に受
信される。ユーザが休止の間の各音節を発音するとき、
ユーザは音節の子音(可能であれば他の母音)を押し下
げる。上述のように、現行の音声認識技術が悪環境下で
用いられた場合、孤立音声では子音よりも母音を認識す
るほうが容易であり、従って発話された孤立音声の認識
率を高めるためにユーザのキー押し下げにより子音が指
定されることが望ましいことが観察されるためである。
例えば、ユーザは、漢字
【0033】
【外9】 (あなた、チューインでは
【0034】
【外10】 )に対する子音
【0035】
【外11】 を表わすキー「#」を直感的に押しうる。同様に、ユー
ザは、漢字「是」(は、チューインでは
【0036】
【外12】 )に対する子音
【0037】
【外13】 を表わすキー「3」を押し、漢字「誰」(だれ、チュー
インでは
【0038】
【外14】 )に対する子音
【0039】
【外15】 を表わすキー「3」を再び押す。上述のように、上述の
声調による孤立音声の声調特徴はピッチ解析ブロック2
6によって取り出され、次に音響マッチングブロック2
6、孤立音節マッチングブロック28、及び最善仮説マ
ッチングブロック29によって順次に解析される。従っ
て、標準中国語の4つの声調マーカ
【0040】
【外16】 に割り当てられる声調キーは、本発明による電子装置2
0には必要でない。
【0041】それに加え、上述の場合、ユーザが休止の
間に各音節を口に出し同時にその子音を表わすキーを押
すとき、画面23上の候補リスト(図2には図示せず)
に幾つかの同音文字(即ち同じ発音を有する異なる文
字)が示される。すると、ユーザはキーパッド装置22
上の「<」及び「>」といったスクロールキーや、「O
K」キー(図示せず)を用いて、所望の漢字を選択す
る。このようにして、上述の3つの漢字を電子装置20
に入力するために、ユーザは3つのキーを押すだけ出よ
く、これに対して従来技術ではスクロールキー及び「O
K」キーがあるにもかかわらず少なくとも6乃至8のキ
ー(各文字について少なくとも2回のキー押し下げ)を
押さねばならなかった。周知であるように、孤立音声の
中の同音文字は、文脈依存の学習技術により自動的に選
択されうる。従って、本発明によれば、悪環境における
入力東洋言語に対する効率的なキー押し下げは、本発明
によるキー割り当て及び音声認識方法の両方によって達
成されうる。
【0042】本発明の望ましい実施例では、発話された
孤立音節構造中の対応する子音を表わすキーを押すこと
により、音節同士の曖昧さは効果的にかなり減少され、
認識の誤り率は追加的な計算負荷及びメモリ利用なしに
かなり減少される。本発明はキーパッド及びマイクロホ
ンの両方を通じて韓国語、日本語、及び中国語を入力す
ることが可能な悪環境において使用されるハンドヘルド
式の電子装置について、これらの言語は単純な音節構
造、即ちS=(C)+V、但し、Sは特定の音節、C/
Vは対応する子音/母音を表わす、に特に適している。
【0043】本発明は標準中国語についての望ましい実
施例に関して説明されたが、これは本発明を制限するも
のではない。日本語、韓国語(声調が少ない)、タイ
語、ベトナム語(声調がある)といった東洋言語にも本
発明が適用されうる。更に、キーパッド装置22の12
個の数字キーに37のチューイン表記を割り当てる原理
は、中国語に関する本発明の実施例を通じて英語といっ
た他のラテン系の言語にも適用されうる。例えば、英語
といったラテン系の言語の複数の音素の音響特徴空間を
得るために、データ主導で、キーパッド装置22の各キ
ーにまとめられた複数の音素の平方距離の和(即ち音響
特徴空間中の非類似性の尺度)とキーパッド装置22の
各キーのうちの複数の音素の平方距離の和との比率を最
大化するためである。このようにして、英語のアルファ
ベットの26の文字は、キーパッドの幾つかの、例え
ば、10個又は12個の数字キーに割り当てられ、それ
によりキーパッドのスケールがかなり減少されうる。
【0044】本発明は、ASRの技術の当業者によれ
ば、本発明の請求項の範囲及び精神を逸脱することなく
変更又は変形されうる。
【図面の簡単な説明】
【図1】従来の大量語彙連続音声認識(LVCSR)シ
ステムを示す概略図である。
【図2】本発明によるピンイン(pin-yin)文字用の複
合キーパッド/音声認識技術を用いた電子機器を示す概
略図である。
【図3】図2に示す電子機器において用いられる複合キ
ーパッド/音声認識システムを示す概略図である。
【図4】図3で使用される数字キーパッドを用いたキー
入力によって支援される東洋言語の音声を認識する方法
を示すフローチャートである。
【符号の説明】
21 マイクロホン 22 キーパッド装置 24 A/D変換器 25 スペクトル解析 26 ピッチ解析 27 音響マッチング 28 孤立音節マッチング 29 最善仮説 30 イネーブル/データ信号
───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands Fターム(参考) 5B019 DA06 DA10 HA06 5D015 AA06 BB02 JJ01 JJ02 KK02 LL08

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 子音+母音+声調又は母音+声調の音節
    構造を有する東洋言語の発話を入力する電子装置であっ
    て、 上記発話を表わす音声信号を受信する音声受信器と、 上記音声受信器に結合され、上記音声信号の音声特徴を
    抽出する前処理手段と、 各キーに子音及び母音を含む少なくとも一つの音素が割
    り当てられる複数のキーを含むキーパッド手段と、 上記音声信号の音声特徴及び上記キーパッド手段を通じ
    て順次に得られる音素に基づいて上記発話の各音節を認
    識する音響マッチング手段と、 上記音響マッチング手段からの各音節及び上記キーパッ
    ド手段を通じてキー入力された音素に基づいて上記発話
    の中の複数の音節からなる各語を認識する孤立音節マッ
    チング手段とを含む電子装置。
  2. 【請求項2】 各キーは、複数のキーの夫々にまとめら
    れた音素の平方された距離の和及び複数のキーのうちの
    音素の平方された距離の和が最大化されるよう、少なく
    とも1つの音素に割り当てられる、請求項1記載の電子
    装置。
  3. 【請求項3】 発話の各音節が口に出されたときに、各
    音節の最初の音素(望ましくは子音)に対応するキーが
    押される、請求項1記載の電子装置。
  4. 【請求項4】 セルラー式電話機、ワイヤレス式電話
    機、電子辞書、携帯情報端末、及び電子腕時計からなる
    群から選択される一の電子装置である、請求項1記載の
    電子装置。
  5. 【請求項5】 上記発話は、少なくとも1つの多音節語
    からなる孤立音声である、請求項1記載の電子装置。
  6. 【請求項6】 上記発話の各音節の最初の音素は子音で
    ある、請求項3記載の電子装置。
  7. 【請求項7】 ディスプレイを有する電子装置であっ
    て、 子音+母音又は母音のいずれかの音節構造を有する東洋
    言語の発話を表わす音声信号を受信する音声受信手段
    と、 各キーに又は各キーの近傍に子音及び母音を含む少なく
    とも一つの音素が割り当てられ目に見える形で表わされ
    た複数のキーを有する数字キーパッドと、 上記数値キーパッドを介して順次に得られる音素及び上
    記音声受信手段によって受信される発話に基づいて上記
    発話から東洋文字を認識する音声認識手段と、 上記ディスプレイ上に上記発話からの東洋文字を表示す
    る手段とを含む電子装置。
  8. 【請求項8】 上記少なくとも一つの音素は、複数のキ
    ーの夫々にまとめられた複数の音素の平方された距離の
    和と複数のキーのうちの複数の音素の平方された距離の
    和との比率が最大化されるよう、上記複数のキーの夫々
    に割り当てられ、それにより上記数字キーパッド及び上
    記音声受信手段を通じて東洋言語が効率的に入力されう
    る、請求項7記載の電子装置。
  9. 【請求項9】 複数のキーを有する数字キーパッドを介
    したキー入力によって支援された、子音+母音又は母音
    の音節構造を有する東洋言語の音声を認識する方法であ
    って、 (a)上記音声を表わす音声信号を入力する段階と、 (b)上記音声信号の音声特徴を抽出する段階と、 (c)上記数字キーパッドを通じて、上記音声の各音節
    が口に出されたときに上記音声中の各音節の最初の音素
    に対応するキーの情報を順次に受信する段階と、 (d)上記音声信号の音声特徴及び上記段階(c)から
    順次に受信される音素に基づいて上記音声の各音節を認
    識する段階と、 (e)上記段階(d)で認識された各音節及び上記段階
    (c)から順次に受信される音素に基づいて上記音声の
    中の複数の音節からなる各語を認識する段階とを含む方
    法。
  10. 【請求項10】 上記数字キーパッドの複数のキーの夫
    々に子音及び母音を含む少なくとも一つの音素が割り当
    てられ、上記段階(c)における上記最初の音素は子音
    である、請求項9記載の方法。
  11. 【請求項11】 東洋言語の子音及び母音を含む複数の
    音素を電子装置の数字キーパッドにまとめる方法であっ
    て、上記キーパッドの複数のキーの夫々に少なくとも一
    つの音素が割り当てられ、 (a)上記複数の音素の音響特徴を得る段階と、 (b)上記複数のキーの夫々にまとめられた複数の音素
    の平方された距離の和と上記複数のキーのうちの複数の
    音素の平方された距離の和との比率をデータ主導式に最
    大化する段階とを含む方法。
  12. 【請求項12】 上記最大化段階は、 (b1)各キーにまとめられた複数の音素が音響的に弁
    別されるよう各キーの中の音素の音響空間中で第1の非
    類似性尺度を最大化する段階と、 (b2)最も曖昧な音素が同一のキーにまとめられない
    ようキーのうちの音素の音響特徴空間中で第2の非類似
    性尺度を最小化する段階とを含む、請求項11記載の方
    法。
  13. 【請求項13】 上記東洋言語は中国語であり、上記電
    子装置の数字キーパッドは12個のキーを有し、上記1
    2個のキーに対して中国語の複数の音素が、 【外1】 のようにまとめられる、請求項11記載の方法。
  14. 【請求項14】 複数のキーを含む数字キーパッド及び
    音声入力手段を有する電子装置に東洋文字を入力する方
    法であって、 子音及び母音を含む少なくとも一つの音素は、複数のキ
    ーの各キーに又は各キーの近傍に割り当てられ目に見え
    る形で表わされること、 上記東洋文字を表わす音声はユーザによって発話され、
    上記音声入力手段によって受信され、ユーザは上記東洋
    文字の夫々を孤立音声モードで口に出すとともに上記東
    洋文字の夫々に対応する最初の音素を表わすキーを順次
    に押すこと、及び、 順次にキー入力される音素に基づいて対応する東洋文字
    が選択されることを特徴とする方法。
  15. 【請求項15】 少なくとも一つの音素は、上記複数の
    キーの夫々にまとめられた複数の音素の平方された距離
    の和と上記複数のキーのうちの複数の音素の平方された
    距離の和との比率が最大化されるよう上記複数のキーの
    夫々に割り当てられることを特徴とする、請求項14記
    載の方法。
  16. 【請求項16】 複数のキーを有する数字キーパッドを
    介したキー入力によって支援された、子音+母音又は母
    音の音節構造を有する東洋言語の音声を認識するための
    複数の段階をプロセッサに実行させるよう動作可能なコ
    ンピュータプログラム製品であって、上記複数の段階
    は、 (a)上記音声を表わす音声信号を入力する段階と、 (b)上記音声信号の音声特徴を抽出する段階と、 (c)上記数字キーパッドを通じて、上記音声の各音節
    が口に出されたときに上記音声の中の各音節の最初の音
    素に対応するキーの情報を順次に受信する段階と、 (d)上記音声信号の音声特徴及び上記段階(c)から
    順次に受信される音素に基づいて上記音声の各音節を認
    識する段階と、 (e)上記段階(d)で認識された各音節及び上記段階
    (c)から順次に受信される音素に基づいて上記音声の
    中の複数の音節からなる各語を認識する段階とを含むコ
    ンピュータプログラム製品。
  17. 【請求項17】 上記数字キーパッドの複数のキーの夫
    々に子音及び母音を含む少なくとも一つの音素が割り当
    てられ、上記段階(c)における上記最初の音素は子音
    である、請求項16記載のコンピュータプログラム製
    品。
JP2001388362A 2000-12-22 2001-12-20 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 Expired - Fee Related JP4230142B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00204815.5 2000-12-22
EP00204815 2000-12-22

Publications (2)

Publication Number Publication Date
JP2002268680A true JP2002268680A (ja) 2002-09-20
JP4230142B2 JP4230142B2 (ja) 2009-02-25

Family

ID=8172572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001388362A Expired - Fee Related JP4230142B2 (ja) 2000-12-22 2001-12-20 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術

Country Status (4)

Country Link
JP (1) JP4230142B2 (ja)
KR (1) KR100868709B1 (ja)
CN (1) CN1224955C (ja)
TW (1) TW533404B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100868709B1 (ko) * 2000-12-22 2008-11-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉
CN101739868B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 一种用于口语测试的文本朗读水平自动评估诊断方法
KR20210020980A (ko) * 2015-07-13 2021-02-24 에스케이텔레콤 주식회사 키패드를 이용한 키워드 검색 방법 및 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100419751C (zh) * 2004-03-11 2008-09-17 台达电子工业股份有限公司 使用语音输入查询方式及使用语音输入的行动电子装置
CN1952995B (zh) * 2005-10-18 2010-09-22 说宝堂信息科技(上海)有限公司 智能互动型语言练习装置及其方法
CN103488306A (zh) * 2013-08-30 2014-01-01 浙江佑安高科消防系统有限公司 汉语数音拼音输入法
US9711141B2 (en) * 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN107193935A (zh) * 2017-05-18 2017-09-22 上海思依暄机器人科技股份有限公司 一种拼音处理方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056796A (ja) * 1998-08-07 2000-02-25 Asahi Chem Ind Co Ltd 音声入力装置および方法
JP2000066819A (ja) * 1998-08-18 2000-03-03 Matsushita Electric Ind Co Ltd 汎用中国語音声キーボード設定装置
JP2000305924A (ja) * 1999-04-16 2000-11-02 Matsushita Electric Ind Co Ltd 数字キーによる漢字入力方法及びその装置
KR100355453B1 (ko) * 1999-08-20 2002-10-11 한국전자통신연구원 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법
TW533404B (en) * 2000-12-22 2003-05-21 Koninkl Philips Electronics Nv Hybrid keypad/speech recognition technique for oriental characters in adverse environments

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100868709B1 (ko) * 2000-12-22 2008-11-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉
CN101739868B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 一种用于口语测试的文本朗读水平自动评估诊断方法
KR20210020980A (ko) * 2015-07-13 2021-02-24 에스케이텔레콤 주식회사 키패드를 이용한 키워드 검색 방법 및 장치
KR102356788B1 (ko) 2015-07-13 2022-02-08 에스케이텔레콤 주식회사 키패드를 이용한 키워드 검색 방법 및 장치

Also Published As

Publication number Publication date
KR20020051842A (ko) 2002-06-29
TW533404B (en) 2003-05-21
JP4230142B2 (ja) 2009-02-25
CN1224955C (zh) 2005-10-26
CN1360301A (zh) 2002-07-24
KR100868709B1 (ko) 2008-11-13

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4468264B2 (ja) 多言語による名称の音声認識のための方法とシステム
US8606582B2 (en) Multimodal disambiguation of speech recognition
EP3504709B1 (en) Determining phonetic relationships
US20050283364A1 (en) Multimodal disambiguation of speech recognition
EP1557821A2 (en) Segmental tonal modeling for tonal languages
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
JPH10503033A (ja) 新ワードのモデル化に基づく音声認識方法及びその装置
US20120221335A1 (en) Method and apparatus for creating voice tag
JP2016521383A (ja) 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
CN108109610B (zh) 一种模拟发声方法及模拟发声系统
Thennattil et al. Phonetic engine for continuous speech in Malayalam
JP2016161935A (ja) 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
Venkatagiri Speech recognition technology applications in communication disorders
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
JP3531342B2 (ja) 音声処理装置および音声処理方法
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
JP2001188556A (ja) 音声認識方法及び装置
JPH05119793A (ja) 音声認識方法及び装置
Miah et al. To Design Voice Control Keyboard System using Speech Application Programming Interface
Pisarn et al. Thai spelling analysis for automatic spelling speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060919

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061218

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070903

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081203

R150 Certificate of patent or registration of utility model

Ref document number: 4230142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131212

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees