JPH04329598A - 音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法 - Google Patents
音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法Info
- Publication number
- JPH04329598A JPH04329598A JP4004098A JP409892A JPH04329598A JP H04329598 A JPH04329598 A JP H04329598A JP 4004098 A JP4004098 A JP 4004098A JP 409892 A JP409892 A JP 409892A JP H04329598 A JPH04329598 A JP H04329598A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- word
- converting
- training
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 96
- 238000007596 consolidation process Methods 0.000 title 1
- 230000001755 vocal effect Effects 0.000 title 1
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims description 52
- 230000033001 locomotion Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000001427 coherent effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 6
- 238000003909 pattern recognition Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000009966 trimming Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 101100345589 Mus musculus Mical1 gene Proteins 0.000 description 1
- 101150044010 SLP1 gene Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 101150055071 slaA gene Proteins 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、メッセージ認識方法及
び装置に関し、特に、手書き動作メッセージの認識及び
音声メッセージの認識を統合化した、改良型のメッセー
ジ認識方法及び装置に関するものである。
び装置に関し、特に、手書き動作メッセージの認識及び
音声メッセージの認識を統合化した、改良型のメッセー
ジ認識方法及び装置に関するものである。
【0002】
【従来技術】音声や手書き動作等、複雑な過程の分析に
固有の困難さのために、これら2つのコミュニケーショ
ン法についての機械認識は、これまでは限られた成功を
得るに留まっていた。音声及び手書き動作認識方法が別
々に発展していった結果、特にワークステーションやパ
ーソナルコンピュータにおいて、マンマシーンインター
フェースの有効性を改善するために、2つの内のいずれ
かの手段を用いることとなった。これら2つの別々に発
展した方法は、コンピュータとの制限のない対話を確立
するために、コミュニケーションの自然な方法、すなわ
ち音声と手書き動作を利用しようとしたものである。
固有の困難さのために、これら2つのコミュニケーショ
ン法についての機械認識は、これまでは限られた成功を
得るに留まっていた。音声及び手書き動作認識方法が別
々に発展していった結果、特にワークステーションやパ
ーソナルコンピュータにおいて、マンマシーンインター
フェースの有効性を改善するために、2つの内のいずれ
かの手段を用いることとなった。これら2つの別々に発
展した方法は、コンピュータとの制限のない対話を確立
するために、コミュニケーションの自然な方法、すなわ
ち音声と手書き動作を利用しようとしたものである。
【0003】自動音声認識(ASR)を開発するための
1つの論理的根拠は、キーボードの必要性を減少または
排除することができる書取り機械を提供することである
。一般的に、ASRは、話者が生成する一群のパターン
を入力として用いるシステムと定義することができる。 また、ASRは、喉及び胸部の音響的振動の計測を基に
音声を認識するシステム及び、唇、顎等の動きを認識す
るシステムを含むように、拡大定義することもできる。 この点に関する事項が、イー.ディ.ペータジャン(E
.D.Petajan)の論文「音声認識を改善するた
めの唇の読み取り」(CH2145−1、第40〜47
頁、IEEE、1985年)に記載されている。
1つの論理的根拠は、キーボードの必要性を減少または
排除することができる書取り機械を提供することである
。一般的に、ASRは、話者が生成する一群のパターン
を入力として用いるシステムと定義することができる。 また、ASRは、喉及び胸部の音響的振動の計測を基に
音声を認識するシステム及び、唇、顎等の動きを認識す
るシステムを含むように、拡大定義することもできる。 この点に関する事項が、イー.ディ.ペータジャン(E
.D.Petajan)の論文「音声認識を改善するた
めの唇の読み取り」(CH2145−1、第40〜47
頁、IEEE、1985年)に記載されている。
【0004】同様に、自動手書き動作認識(AHR)を
開発する理論的根拠の1つは、従来のコンピュータキー
ボードの必要性を減少あるいは除去する方向に向けられ
ている。一般に、AHRは、電子タブレット上にリアル
タイムで獲得された手書き文字を認識するものである。 例えば、人間要素(human factor)の研究
では、しばしば、対象とするパラメータに対するユーザ
の応答を測定するため、多数の心理的実験を行っている
。このような実験では、多くの参加者が関係し、後に分
析するためにその各参加者の応答を登録しなくてはなら
ない。この分析は、通常、専用のソフトウェアで自動的
に行うようになっている。被測定パラメータに対するそ
の被検者の応答を、実験のロジスティクスに対するその
被検者の反応から、できるだけ完全に分離することが、
最も重要なことである。特に、キーボードのようなある
程度不自然なインターフェースを用いる実験は、おそら
く被検者の関心を実験の本質から逸らせてしまうことが
ある。また、実験の運用法によっては、被検者に答えを
タイプする十分な時間を許さないことがある。
開発する理論的根拠の1つは、従来のコンピュータキー
ボードの必要性を減少あるいは除去する方向に向けられ
ている。一般に、AHRは、電子タブレット上にリアル
タイムで獲得された手書き文字を認識するものである。 例えば、人間要素(human factor)の研究
では、しばしば、対象とするパラメータに対するユーザ
の応答を測定するため、多数の心理的実験を行っている
。このような実験では、多くの参加者が関係し、後に分
析するためにその各参加者の応答を登録しなくてはなら
ない。この分析は、通常、専用のソフトウェアで自動的
に行うようになっている。被測定パラメータに対するそ
の被検者の応答を、実験のロジスティクスに対するその
被検者の反応から、できるだけ完全に分離することが、
最も重要なことである。特に、キーボードのようなある
程度不自然なインターフェースを用いる実験は、おそら
く被検者の関心を実験の本質から逸らせてしまうことが
ある。また、実験の運用法によっては、被検者に答えを
タイプする十分な時間を許さないことがある。
【0005】この状況における合理的な代替方法は、応
答をテープレコーダに口述すなわち録音するか、手で回
答用紙に書き込むかのみであるが、このような自然なイ
ンターフェースを用いると、実験の解釈が難しくなる傾
向がある。また被検者の応答を自動分析に適した形式に
変換するには、事務員またはその参加者自身による処理
を必要とする。録音されたまたは手書きの資料は全て、
結果が予想し得ない方向にずれないように、注意深くタ
イプされ、タイプミスを見つけるため全体的に見直され
る。必要な骨の折れる清書作業は大量の時間を要し、解
釈に大きな遅れを生じる原因となる。
答をテープレコーダに口述すなわち録音するか、手で回
答用紙に書き込むかのみであるが、このような自然なイ
ンターフェースを用いると、実験の解釈が難しくなる傾
向がある。また被検者の応答を自動分析に適した形式に
変換するには、事務員またはその参加者自身による処理
を必要とする。録音されたまたは手書きの資料は全て、
結果が予想し得ない方向にずれないように、注意深くタ
イプされ、タイプミスを見つけるため全体的に見直され
る。必要な骨の折れる清書作業は大量の時間を要し、解
釈に大きな遅れを生じる原因となる。
【0006】インターフェースの自然さを犠牲にせずに
このような遅れを回避する1つの方法は、ASRに口述
するか、あるいはAHRに手書き動作を与えるかによっ
て、参加者に直接彼らの反応のソフトコピーを作成させ
ることである。しかしながら、これらの方法には双方共
、以下にあげる欠点がある。従来のASR及びAHR技
法に特有の欠点の1つは、受入れられる認識率は、(単
語または文字のような)入力を分離することで達成され
るため、しばしばユーザに依存するということである。 このように操作すると、次のような望ましくない制限が
生じる。 (a)ユーザはシステムを使えるようになる前に、それ
をトレーニングしなくてはならない。 (b)ユーザは、単語間にポーズを置いて話したり、文
字の間に間隔を置いて書いたり、やや不自然にシステム
と対話しなくてはならない。
このような遅れを回避する1つの方法は、ASRに口述
するか、あるいはAHRに手書き動作を与えるかによっ
て、参加者に直接彼らの反応のソフトコピーを作成させ
ることである。しかしながら、これらの方法には双方共
、以下にあげる欠点がある。従来のASR及びAHR技
法に特有の欠点の1つは、受入れられる認識率は、(単
語または文字のような)入力を分離することで達成され
るため、しばしばユーザに依存するということである。 このように操作すると、次のような望ましくない制限が
生じる。 (a)ユーザはシステムを使えるようになる前に、それ
をトレーニングしなくてはならない。 (b)ユーザは、単語間にポーズを置いて話したり、文
字の間に間隔を置いて書いたり、やや不自然にシステム
と対話しなくてはならない。
【0007】従来のASR及びAHR技法に固有の別の
欠点は、人間が話し方または書き方において長時間完全
に一貫性を保つことができないため、100%の認識精
度を達成するのが非常に難しいことである。この欠点も
次のようないくつかの制限を強いることになる。 (a)ユーザは、デコード中に発生し得るいかなる誤り
も識別しなくてはならず、このため、ユーザの注意がメ
ッセージの主題から逸らされがちとなる。 (b)ユーザは間違ってデコードされた単語または文字
を訂正しなくてはならず、これは、実用性の問題として
、キーボードのような代替技術を用いる必要がある。
欠点は、人間が話し方または書き方において長時間完全
に一貫性を保つことができないため、100%の認識精
度を達成するのが非常に難しいことである。この欠点も
次のようないくつかの制限を強いることになる。 (a)ユーザは、デコード中に発生し得るいかなる誤り
も識別しなくてはならず、このため、ユーザの注意がメ
ッセージの主題から逸らされがちとなる。 (b)ユーザは間違ってデコードされた単語または文字
を訂正しなくてはならず、これは、実用性の問題として
、キーボードのような代替技術を用いる必要がある。
【0008】本発明に関連するものとして、次の米国特
許を引用する。ボリンガーら(Bollinger e
t al)の米国特許第3969700号(1976年
7月13日発行、タイトル「OCR、キーボード等のた
めの局部的文脈最尤誤り訂正(Regional Co
ntext Maximum Likelihood
Error Correction for OCR,
Keyboard, and the Like)」
)は、認識の前に分割(segmentation)を
用いるようにした、光学文字認識(OCR)やASRを
含むパターン認識問題に適用可能な、一般的な誤り訂正
方法について記載している。しかし、オンラインAHR
に関して具体的に述べておらず、またメッセージ認識シ
ステムにおいてASR及びAHRの双方を用いることの
開示もない。マエダらの米国特許第4651289号(
1987年3月17日発行、タイトル「パターン認識装
置及びそれを作成する方法」は、ASRやAHRに用い
られるような、テンプレート照合過程に強度(robu
stness)を導入することを第1の目的としたアル
ゴリズムについて記載している。このために、単一のテ
ンプレートではなく、認識されるべきパターン毎に多数
のテンプレートを用いている。多数の照合の得点を適切
に組み合わせて最終的決定を得る。しかし、この方法を
音声と手書き動作に同時に適用することについては開示
がない。コルジンスキ(Korsinsky)の米国特
許第4736447号(1988年4月5日発行、タイ
トル「ビデオコンピュータ」)は、音声及び手書き動作
を含む種々のデータを獲得することができると言われて
いる、多面インターフェース(multi−facet
interface)について記載している。これに
用いられている基本的認識アルゴリズムは、テンプレー
トの照合である。これでは、認識またはその他の目的の
ために、様々な情報源を統合する試みはなされていない
。また、誤り訂正についても述べていない。バックリー
(Buckley)米国特許第4774677号(19
88年9月27日発行、タイトル「自己組織回路」)の
文献は、パターン認識の一般的分野に関するアルゴリズ
ム及びアーキテクチャの一形式について記載している。 しかし、前出の従来文献と同様、ASR及びAHRの統
合という点を扱ってはいない。ノムラらの米国特許第4
907274号(1990年3月6日発行、タイトル「
インテリジェントワークステーション」)は、音声認識
及び合成を組み込んだ電話インターフェースについて記
載している。この応用は、画像圧縮も関係しているが、
AHR、OCRいずれについても記載がない。
許を引用する。ボリンガーら(Bollinger e
t al)の米国特許第3969700号(1976年
7月13日発行、タイトル「OCR、キーボード等のた
めの局部的文脈最尤誤り訂正(Regional Co
ntext Maximum Likelihood
Error Correction for OCR,
Keyboard, and the Like)」
)は、認識の前に分割(segmentation)を
用いるようにした、光学文字認識(OCR)やASRを
含むパターン認識問題に適用可能な、一般的な誤り訂正
方法について記載している。しかし、オンラインAHR
に関して具体的に述べておらず、またメッセージ認識シ
ステムにおいてASR及びAHRの双方を用いることの
開示もない。マエダらの米国特許第4651289号(
1987年3月17日発行、タイトル「パターン認識装
置及びそれを作成する方法」は、ASRやAHRに用い
られるような、テンプレート照合過程に強度(robu
stness)を導入することを第1の目的としたアル
ゴリズムについて記載している。このために、単一のテ
ンプレートではなく、認識されるべきパターン毎に多数
のテンプレートを用いている。多数の照合の得点を適切
に組み合わせて最終的決定を得る。しかし、この方法を
音声と手書き動作に同時に適用することについては開示
がない。コルジンスキ(Korsinsky)の米国特
許第4736447号(1988年4月5日発行、タイ
トル「ビデオコンピュータ」)は、音声及び手書き動作
を含む種々のデータを獲得することができると言われて
いる、多面インターフェース(multi−facet
interface)について記載している。これに
用いられている基本的認識アルゴリズムは、テンプレー
トの照合である。これでは、認識またはその他の目的の
ために、様々な情報源を統合する試みはなされていない
。また、誤り訂正についても述べていない。バックリー
(Buckley)米国特許第4774677号(19
88年9月27日発行、タイトル「自己組織回路」)の
文献は、パターン認識の一般的分野に関するアルゴリズ
ム及びアーキテクチャの一形式について記載している。 しかし、前出の従来文献と同様、ASR及びAHRの統
合という点を扱ってはいない。ノムラらの米国特許第4
907274号(1990年3月6日発行、タイトル「
インテリジェントワークステーション」)は、音声認識
及び合成を組み込んだ電話インターフェースについて記
載している。この応用は、画像圧縮も関係しているが、
AHR、OCRいずれについても記載がない。
【0009】他の関連技術には次のものがある。欧州特
許出願第0355748号は、パターンを認識する階層
的方法に関連して用いることを意図した、高速分類アル
ゴリズムを記載している。この応用範囲はOCRである
と思われる。しかし、音声認識に付いて開示されてなく
、またはAHR及びAHRの統合について明確に開示さ
れていない。ジェイ.グールド(J. Gould)ら
の「手書き動作/音声信号分析器」(IBM Tech
nical Disclosure Bulletin
、 第22巻、第5号、1979年発行)は、オンライ
ンAHRまたはASRにおいて、ポーズ時間と生成時間
との間で判別を行う分析器を記載している。ディ.バー
(D. Burr)による論文「発声されたテキスト及
び書かれたテキストのニューラルネット認識に関する実
験」(IEEE論文誌、音響学編、音声及び信号処理、
第36巻、第7号、1988年7月発行)は、AHRや
ASRのようなパターン認識に用いる2種類の異なるア
ルゴリズムの比較について、述べている。しかし、音声
と手書き動作とを組み合わせる用法を考慮しておらず、
誤り訂正も扱っていない。
許出願第0355748号は、パターンを認識する階層
的方法に関連して用いることを意図した、高速分類アル
ゴリズムを記載している。この応用範囲はOCRである
と思われる。しかし、音声認識に付いて開示されてなく
、またはAHR及びAHRの統合について明確に開示さ
れていない。ジェイ.グールド(J. Gould)ら
の「手書き動作/音声信号分析器」(IBM Tech
nical Disclosure Bulletin
、 第22巻、第5号、1979年発行)は、オンライ
ンAHRまたはASRにおいて、ポーズ時間と生成時間
との間で判別を行う分析器を記載している。ディ.バー
(D. Burr)による論文「発声されたテキスト及
び書かれたテキストのニューラルネット認識に関する実
験」(IEEE論文誌、音響学編、音声及び信号処理、
第36巻、第7号、1988年7月発行)は、AHRや
ASRのようなパターン認識に用いる2種類の異なるア
ルゴリズムの比較について、述べている。しかし、音声
と手書き動作とを組み合わせる用法を考慮しておらず、
誤り訂正も扱っていない。
【0010】
【発明が解決しようとする課題】したがって、本発明の
目的は、音声及び手書き動作入力の機能的相補性を用い
たメッセージ認識システムを提供することである。本発
明の他の目的は、手書き動作入力または音声入力の一方
を、他方のための誤り訂正に用いる方法及び装置を提供
することである。本発明の更に別の目的は、メッセージ
認識システムにおいて、AHRとASRとを統合し、音
声入力と手書き動作入力との相補性を、同時情報源とし
て活用する方法及び装置に関する。本発明の更に別の目
的は、メッセージ認識システムにおいてAHRとASR
とを統合して音声認識及び手書き動作認識を組み合わせ
て用いることによって、自動メッセージ認識装置全体の
精度を大幅に改善できるるようにした方法及び装置を提
供することである。本発明の他の目的は、メッセージ認
識システムにおいてAHRとASRとを統合し、(a)
シーケンシャルに誤り訂正を行い、(b)別個のAHR
コンポーネントとASRコンポーネントとを同時に用い
、(c)単一のASR/AHRコンポーネントを同時に
用いるようにした方法及び装置を提供することである。
目的は、音声及び手書き動作入力の機能的相補性を用い
たメッセージ認識システムを提供することである。本発
明の他の目的は、手書き動作入力または音声入力の一方
を、他方のための誤り訂正に用いる方法及び装置を提供
することである。本発明の更に別の目的は、メッセージ
認識システムにおいて、AHRとASRとを統合し、音
声入力と手書き動作入力との相補性を、同時情報源とし
て活用する方法及び装置に関する。本発明の更に別の目
的は、メッセージ認識システムにおいてAHRとASR
とを統合して音声認識及び手書き動作認識を組み合わせ
て用いることによって、自動メッセージ認識装置全体の
精度を大幅に改善できるるようにした方法及び装置を提
供することである。本発明の他の目的は、メッセージ認
識システムにおいてAHRとASRとを統合し、(a)
シーケンシャルに誤り訂正を行い、(b)別個のAHR
コンポーネントとASRコンポーネントとを同時に用い
、(c)単一のASR/AHRコンポーネントを同時に
用いるようにした方法及び装置を提供することである。
【0011】
【課題を解決するための手段】前述の目的を達成するた
め、本発明においては、音声認識及び手書き動作認識を
統合的に用いて、自動認識装置のスループットに関する
全体的精度を改善する方法及び装置を提供するものであ
り、音響学的及びストロークについての情報の相補性を
活用し、音声認識及び手書き動作認識のいずれかに関す
るメッセージ認識精度を改善した方法及び装置を提供す
るものである。
め、本発明においては、音声認識及び手書き動作認識を
統合的に用いて、自動認識装置のスループットに関する
全体的精度を改善する方法及び装置を提供するものであ
り、音響学的及びストロークについての情報の相補性を
活用し、音声認識及び手書き動作認識のいずれかに関す
るメッセージ認識精度を改善した方法及び装置を提供す
るものである。
【0012】自動メッセージ認識システムを作動させる
本発明の方法及びその方法を実行する装置においては、
次のステップが実行される。ユーザの音声を第1の信号
に変換し、ユーザの手書き動作を第2の信号に変換し、
前記第1の信号及び前記第2の信号を処理して、前記第
1の信号及び前記第2の信号によって別個に伝達される
か、または前記第1の信号及び前記第2の信号の組み合
わせによって伝送されるかした一貫したメッセージをデ
コードする。前記デコード処理ステップは、前記第1の
信号を第1の複数の多次元ベクトルに変換し、前記第2
の信号を第2の複数の多次元ベクトルに変換するステッ
プを含んでいる。単一の(組み合わせた)音声及び手書
き動作コンポーネントを用いたシステムに対して、前記
処理ステップは、更に、前記第1の複数の多次元ベクト
ルの一つ一つと、前記第2の複数の多次元ベクトルの一
つ一つとを組み合わせて、複数の第3の多次元ベクトル
を形成するステップを含んでいる。
本発明の方法及びその方法を実行する装置においては、
次のステップが実行される。ユーザの音声を第1の信号
に変換し、ユーザの手書き動作を第2の信号に変換し、
前記第1の信号及び前記第2の信号を処理して、前記第
1の信号及び前記第2の信号によって別個に伝達される
か、または前記第1の信号及び前記第2の信号の組み合
わせによって伝送されるかした一貫したメッセージをデ
コードする。前記デコード処理ステップは、前記第1の
信号を第1の複数の多次元ベクトルに変換し、前記第2
の信号を第2の複数の多次元ベクトルに変換するステッ
プを含んでいる。単一の(組み合わせた)音声及び手書
き動作コンポーネントを用いたシステムに対して、前記
処理ステップは、更に、前記第1の複数の多次元ベクト
ルの一つ一つと、前記第2の複数の多次元ベクトルの一
つ一つとを組み合わせて、複数の第3の多次元ベクトル
を形成するステップを含んでいる。
【0013】前記多次元ベクトルを用いて、音声と手書
き動作を組み合わせて用いるために、1組の組み合わせ
単語モデルのパラメータをトレーニングするか、または
、音声及び手書き認識中に別個に用いるために2組の単
語モデルをトレーニングする。使用中、各入力された特
徴ベクトルの確率すなわち尤度を、適切な組(1つまた
は複数)の単語モデルを用いて計算し、候補単語の1つ
または複数のリストを作成する。確率点数を含む基準を
基に、メッセージを表すものとして1つの候補単語を選
択する。また、別個に用いるメッセージ認識システムに
対しては、モデルのトレーニング中に、2つの重み付け
係数(ウエイト)を得るようにする。
き動作を組み合わせて用いるために、1組の組み合わせ
単語モデルのパラメータをトレーニングするか、または
、音声及び手書き認識中に別個に用いるために2組の単
語モデルをトレーニングする。使用中、各入力された特
徴ベクトルの確率すなわち尤度を、適切な組(1つまた
は複数)の単語モデルを用いて計算し、候補単語の1つ
または複数のリストを作成する。確率点数を含む基準を
基に、メッセージを表すものとして1つの候補単語を選
択する。また、別個に用いるメッセージ認識システムに
対しては、モデルのトレーニング中に、2つの重み付け
係数(ウエイト)を得るようにする。
【0014】ASRとAHRとを統合して用いることは
、いくつかの理由によって利点があることが認められて
いる。まず、情報に相補性があることがあげられる。 即ち、発声による情報と手書き動作による情報とは、互
いに補い合うのである。第2に、動作において、相補性
を備えることができる。即ち、音声認識アルゴリズム及
び手書き動作認識アルゴリズムが作動する態様が、互い
に相補するのである。第3に、機能性において、相補性
を備えることができる。即ち、ASR及びAHRを用い
て最も容易に実施できるそれらの機能が、互いに相補す
るのである。例えば、編集能力において、AHRは、A
SRを用いて実施するより難しいのもであり、一方大量
の文書を作成する等のいくつかの機能は、音声入力によ
るほうがより効率的に実施することができる。本発明の
上述の及びその他の特徴は、以下の本発明の詳細な説明
を添付の図面と共に読むことによってより明確になるで
あろう。
、いくつかの理由によって利点があることが認められて
いる。まず、情報に相補性があることがあげられる。 即ち、発声による情報と手書き動作による情報とは、互
いに補い合うのである。第2に、動作において、相補性
を備えることができる。即ち、音声認識アルゴリズム及
び手書き動作認識アルゴリズムが作動する態様が、互い
に相補するのである。第3に、機能性において、相補性
を備えることができる。即ち、ASR及びAHRを用い
て最も容易に実施できるそれらの機能が、互いに相補す
るのである。例えば、編集能力において、AHRは、A
SRを用いて実施するより難しいのもであり、一方大量
の文書を作成する等のいくつかの機能は、音声入力によ
るほうがより効率的に実施することができる。本発明の
上述の及びその他の特徴は、以下の本発明の詳細な説明
を添付の図面と共に読むことによってより明確になるで
あろう。
【0015】
【実施例】図1は、本発明の第1の実施例のメッセージ
認識システム10を、ブロック図で表したものである。 ここにおいては、メッセージを、人間の被検者が発生し
てシステム10に入力する情報であると考えることとす
る。この情報は、音響信号、手書きストローク信号、ま
たは音響及びストローク信号の組み合わせの状態で入力
するようにしている。この情報は、数、アルファベット
の文字、句読点等個々の文字を表すことができるもので
ある。この情報は、単語、フレーズ、及び章を表すこと
もできる。
認識システム10を、ブロック図で表したものである。 ここにおいては、メッセージを、人間の被検者が発生し
てシステム10に入力する情報であると考えることとす
る。この情報は、音響信号、手書きストローク信号、ま
たは音響及びストローク信号の組み合わせの状態で入力
するようにしている。この情報は、数、アルファベット
の文字、句読点等個々の文字を表すことができるもので
ある。この情報は、単語、フレーズ、及び章を表すこと
もできる。
【0016】システム10は、ユーザインターフェース
12を備え、これを表示端末14に結合し、システム1
0のユーザに情報を表示するようにしている。また、マ
ウス、キーボードまたはそれらの組み合わせ等のような
ポインティング装置16を設けて、プロセッサ12に付
加的情報を入力するようにしてもよい。この点に関して
、本発明の方法及び装置を用いる応用においては、主と
なる情報の流入は、望ましくは、音声及び手書き動作入
力の組み合わせを介し、ポインティング手段を備えると
しても、これを介することはない。
12を備え、これを表示端末14に結合し、システム1
0のユーザに情報を表示するようにしている。また、マ
ウス、キーボードまたはそれらの組み合わせ等のような
ポインティング装置16を設けて、プロセッサ12に付
加的情報を入力するようにしてもよい。この点に関して
、本発明の方法及び装置を用いる応用においては、主と
なる情報の流入は、望ましくは、音声及び手書き動作入
力の組み合わせを介し、ポインティング手段を備えると
しても、これを介することはない。
【0017】本発明によれば、システム10は、統合型
音声/手書き動作インターフェース(ISWI)18を
備えている。この二重入力のユーザインターフェース1
8は、電子タブレットとスタイラスのような手書き動作
変換器20と、アナログ/デジタル変換器に結合したマ
イクロホンで構成される音声変換器22とからなってい
る。手書き動作変換器20は、人間の使用時に筆記用具
の動きを検出するのに適した手段であれば、どのような
ものでも良く、また音声変換器22は、音声を表す1組
のパターンを発生するのに適した手段であれば、どのよ
うなものを含んでもよい。例えば、上述のイー.ディ.
ペータジャン(E.D.Petajan)の論文「音声
認識を改善するための唇読み取り」(CH2145−1
、第40〜47頁、IEEE、1985年)には、発声
時の人間の唇と鼻孔とを撮影する固体カメラについて開
示している。 この文献には音響及び視覚認識候補の組み合わせは、音
響認識精度のみの場合を大きく上回る最終音声認識精度
を得ることができるものであると記載されており、この
開示事項を本発明に適用する事ができる。
音声/手書き動作インターフェース(ISWI)18を
備えている。この二重入力のユーザインターフェース1
8は、電子タブレットとスタイラスのような手書き動作
変換器20と、アナログ/デジタル変換器に結合したマ
イクロホンで構成される音声変換器22とからなってい
る。手書き動作変換器20は、人間の使用時に筆記用具
の動きを検出するのに適した手段であれば、どのような
ものでも良く、また音声変換器22は、音声を表す1組
のパターンを発生するのに適した手段であれば、どのよ
うなものを含んでもよい。例えば、上述のイー.ディ.
ペータジャン(E.D.Petajan)の論文「音声
認識を改善するための唇読み取り」(CH2145−1
、第40〜47頁、IEEE、1985年)には、発声
時の人間の唇と鼻孔とを撮影する固体カメラについて開
示している。 この文献には音響及び視覚認識候補の組み合わせは、音
響認識精度のみの場合を大きく上回る最終音声認識精度
を得ることができるものであると記載されており、この
開示事項を本発明に適用する事ができる。
【0018】手書き文字は通常、図3に示した4つのグ
ループに該当するものである。これらのグループは、認
識の複雑度が増す順に示されている。具体的には、これ
らのグループは、個々の文字を所定の領域内に形成して
文字分割(segmentation)の作業を簡素化
するようにした、「ボックスディスクリート」として知
られている第1の種類のライティング(手書き文字)(
W1)を含んでいる。第2の種類のライティング(W2
)は、文字が接触しないようにユーザが意図的に各文字
を形成するようにした、間隔付きディスクリートとして
知られている。第3の種類のライティング(W3)は、
ユーザに制限を与えず、互いに接触する即ち「重なりあ
う」文字を形成してもよいものであり、重なり合い(r
un−on)ディスクリートとして知られている。第4
の種類のライティング(W4)は、図3に示した4つの
スタイルの内最も複雑な分割作業を要する、続き書きラ
イティングである。
ループに該当するものである。これらのグループは、認
識の複雑度が増す順に示されている。具体的には、これ
らのグループは、個々の文字を所定の領域内に形成して
文字分割(segmentation)の作業を簡素化
するようにした、「ボックスディスクリート」として知
られている第1の種類のライティング(手書き文字)(
W1)を含んでいる。第2の種類のライティング(W2
)は、文字が接触しないようにユーザが意図的に各文字
を形成するようにした、間隔付きディスクリートとして
知られている。第3の種類のライティング(W3)は、
ユーザに制限を与えず、互いに接触する即ち「重なりあ
う」文字を形成してもよいものであり、重なり合い(r
un−on)ディスクリートとして知られている。第4
の種類のライティング(W4)は、図3に示した4つの
スタイルの内最も複雑な分割作業を要する、続き書きラ
イティングである。
【0019】ストロークの分割及び識別に関して、種々
の手書き文字認識方法の例を提供するものとして、以下
の米国特許があげられる。米国特許第4024500号
(1977年5月17日、「続き書きの手書き(scr
ipt)文字認識システムのための分割機構」、エヌ.
エム.ハーブスト(N.M.Herbst)及びジェイ
.エッチ.モリセイ(J.H.Morrissey))
米国特許題第4727588号(1988年2月23日
、「手書きテキストイメージの自動調整及び編集システ
ム」、(エー.エス.フォックス(A.S.Fox)、
イー.シー.グリーニアス(E.C.Greanias
)、ジェイ.キム(J.Kim)、及びシーシー.タパ
ート(C.C.Tappert))米国特許第4731
857号(1988年3月15日、「重なった手書き文
字の認識システム」(シー.シー.タパート(C.C.
Tappert))
の手書き文字認識方法の例を提供するものとして、以下
の米国特許があげられる。米国特許第4024500号
(1977年5月17日、「続き書きの手書き(scr
ipt)文字認識システムのための分割機構」、エヌ.
エム.ハーブスト(N.M.Herbst)及びジェイ
.エッチ.モリセイ(J.H.Morrissey))
米国特許題第4727588号(1988年2月23日
、「手書きテキストイメージの自動調整及び編集システ
ム」、(エー.エス.フォックス(A.S.Fox)、
イー.シー.グリーニアス(E.C.Greanias
)、ジェイ.キム(J.Kim)、及びシーシー.タパ
ート(C.C.Tappert))米国特許第4731
857号(1988年3月15日、「重なった手書き文
字の認識システム」(シー.シー.タパート(C.C.
Tappert))
【0020】更に、IBM Tec
hnical Disclosure Bulleti
n、第27巻第9号、1985年発行の、「サブストロ
ーク分割及び複合による手書き認識」(ジェイ.エム.
カーツバーク(J.M.Kurtzberg)、及びシ
ー.シー.タパート(C.C.Tappert)の教示
を、電子タブレット上に手書きした続き書き文字を認識
する技法を示すために引用する。また、IBM Tec
hnical Disclosure Bulleti
n、第25巻、第7B号、1982年12月発行の、ジ
ェイ.エム.カーツバーク(J.M.Kurtzber
g)、及びシー.シー.タパート(C.C.Tappe
rt)による「手書き記号及び単語の分割手順」という
題の論文、及び、IBM Technical Dis
closure Bulletin、第29巻、第11
号、1987年4月発行の、A.S.フォックス(Fo
x)、J.キム(Kim)及びC.C.タパート(Ta
ppert)による「手書き単語のための柔軟性のある
時間−空間分割器」も引用する。
hnical Disclosure Bulleti
n、第27巻第9号、1985年発行の、「サブストロ
ーク分割及び複合による手書き認識」(ジェイ.エム.
カーツバーク(J.M.Kurtzberg)、及びシ
ー.シー.タパート(C.C.Tappert)の教示
を、電子タブレット上に手書きした続き書き文字を認識
する技法を示すために引用する。また、IBM Tec
hnical Disclosure Bulleti
n、第25巻、第7B号、1982年12月発行の、ジ
ェイ.エム.カーツバーク(J.M.Kurtzber
g)、及びシー.シー.タパート(C.C.Tappe
rt)による「手書き記号及び単語の分割手順」という
題の論文、及び、IBM Technical Dis
closure Bulletin、第29巻、第11
号、1987年4月発行の、A.S.フォックス(Fo
x)、J.キム(Kim)及びC.C.タパート(Ta
ppert)による「手書き単語のための柔軟性のある
時間−空間分割器」も引用する。
【0021】従来の電子タブレットを手書き動作変換器
20に用いた場合、典型的には1秒当たり70ポイント
の速度でデータが得られる。サンプリングした手書き動
作の信号を、関連する手書き動作特徴ベクトル(FVH
)プロセッサ24に供給する。特徴ベクトルは、特定の
時間内に蓄積された入力の特徴の集合である。プロセッ
サ24は、各入力ストロークに対して1つ以上の手書き
動作特徴ベクトルを発生する。これは、図4(a)及び
(b)に示すように、ストロークの重心(GC)を参照
して行うのが望ましい。例えば、小文字の「a」の入力
ストロークを、電子タブレットによって獲得したとする
。各特徴ベクトルは、重心に関してのストローク上の各
サンプル点(P)のx及びy方向変位を表す要素(x ̄
、y ̄)と、ベースライン(BL)に関しての点(P)
の距離(b)と、点(P)に接する線(L)に関する角
度情報(θ)とを含んでいる。好適実施例では、結果と
して得られた特徴ベクトルは4つの要素を有し、したが
って、4次元ベクトルを表すことになる。
20に用いた場合、典型的には1秒当たり70ポイント
の速度でデータが得られる。サンプリングした手書き動
作の信号を、関連する手書き動作特徴ベクトル(FVH
)プロセッサ24に供給する。特徴ベクトルは、特定の
時間内に蓄積された入力の特徴の集合である。プロセッ
サ24は、各入力ストロークに対して1つ以上の手書き
動作特徴ベクトルを発生する。これは、図4(a)及び
(b)に示すように、ストロークの重心(GC)を参照
して行うのが望ましい。例えば、小文字の「a」の入力
ストロークを、電子タブレットによって獲得したとする
。各特徴ベクトルは、重心に関してのストローク上の各
サンプル点(P)のx及びy方向変位を表す要素(x ̄
、y ̄)と、ベースライン(BL)に関しての点(P)
の距離(b)と、点(P)に接する線(L)に関する角
度情報(θ)とを含んでいる。好適実施例では、結果と
して得られた特徴ベクトルは4つの要素を有し、したが
って、4次元ベクトルを表すことになる。
【0022】音声変換器22としてマイクロホン及びA
/D変換器を用いた場合、音声を、20kHzのレート
でサンプリングし、高速フーリエ変換を行う。20の周
波数帯域の振幅(a)を、各音声サンプルに対して(a
1,...a20)として決定する(図4(c)参照)
。
/D変換器を用いた場合、音声を、20kHzのレート
でサンプリングし、高速フーリエ変換を行う。20の周
波数帯域の振幅(a)を、各音声サンプルに対して(a
1,...a20)として決定する(図4(c)参照)
。
【0023】システム10に適用する事ができる好適な
音声サンプリング及び変換の態様を教示するものとして
、次の論文を引用する。ジェイ.アール.コーエン(J
.R.Cohen)、「聴覚モデルの音声認識への応用
」(J.Acoustic.Soc.of Amer
ica、第85巻、第6号、2623〜2639頁、1
989年6月)エー.ナダス(A.Nadas)、ディ
.ナハモー(D.Nahamoo)及び、エム.エー.
ピチェニ(M.A.Picheny)、「雑音適応型プ
ロトタイプを用いた音声認識」、(IEEE論文誌、音
響、音声、信号処理、第37巻、第10号、1495〜
1503頁、1989年10月)「適応型ラベリング:
ベクトル量子化を基にした適応変換による音声の正規化
」、(Proc.1988 音響、音声、信号処理に
関する国際会議(Int.Conf.)、ニューヨーク
、NY、40〜43頁、1988年4月)
音声サンプリング及び変換の態様を教示するものとして
、次の論文を引用する。ジェイ.アール.コーエン(J
.R.Cohen)、「聴覚モデルの音声認識への応用
」(J.Acoustic.Soc.of Amer
ica、第85巻、第6号、2623〜2639頁、1
989年6月)エー.ナダス(A.Nadas)、ディ
.ナハモー(D.Nahamoo)及び、エム.エー.
ピチェニ(M.A.Picheny)、「雑音適応型プ
ロトタイプを用いた音声認識」、(IEEE論文誌、音
響、音声、信号処理、第37巻、第10号、1495〜
1503頁、1989年10月)「適応型ラベリング:
ベクトル量子化を基にした適応変換による音声の正規化
」、(Proc.1988 音響、音声、信号処理に
関する国際会議(Int.Conf.)、ニューヨーク
、NY、40〜43頁、1988年4月)
【0024】図4(c)の音声特徴ベクトル(FVS)
を得るための音声サンプルにおいて、複数の周波数帯域
に関連する振幅(a1〜a20)を決定することにより
、図4(d)に示す20次元の周波数領域特徴ベクトル
を発生する。音声変換器22の出力を、関連するFVS
プロセッサ26に供給し、一連の20次元音声特徴ベク
トルを発生する。このベクトルの各要素は、20の各サ
ンプリング帯域の振幅を示す。
を得るための音声サンプルにおいて、複数の周波数帯域
に関連する振幅(a1〜a20)を決定することにより
、図4(d)に示す20次元の周波数領域特徴ベクトル
を発生する。音声変換器22の出力を、関連するFVS
プロセッサ26に供給し、一連の20次元音声特徴ベク
トルを発生する。このベクトルの各要素は、20の各サ
ンプリング帯域の振幅を示す。
【0025】システム10におけるトレーニング中、特
徴ベクトルを、関連する単語モデルトレーニングプロセ
ッサに供給する。手書き動作特徴ベクトルは、手書き動
作モデルトレーナ(MTH)プロセッサ28に供給され
、音声ベクトルは音声モデルトレーナ(MTS)プロセ
ッサ30に供給される。モデルトレーナプロセッサ28
、30の各々をユーザインターフェース12に結合し、
トレーニング中にユーザと対話ができるようにする。こ
の対話は、ユーザによるトレーニング用の文の集合の入
力、及びトレーニング結果の表示を含むことができる。 各モデルトレーナプロセッサは、関連するモデル、即ち
ブロック32の手書き単語モデル(WMH)及びブロッ
ク34の音声単語モデル(WMS)に対して、最適なパ
ラメータの集合を決定するように機能するものである。 更に、トレーニングプロセッサ28及び30の各々の機
能は、係数α及びβで表され最終的なメッセージ認識に
対する音声及び手書き動作の相対的貢献を制御する、最
適な重み付けウエイト(W)(ブロック37)を決定す
ることである。例えば、ある特定の集合のトレーニング
データのトレーニング中、音声が手書き動作より高い尤
度、即ち得点を与えることがわかった場合、音声の尤度
に関連するウエイトを増加し、手書き動作の尤度に関す
るウエイトを減少するようにする。2つの尤度の得点が
同程度の場合、2つのウエイトを同一、即ち0.5に設
定する。ウエイトの用法については、後により詳しく述
べることにする。
徴ベクトルを、関連する単語モデルトレーニングプロセ
ッサに供給する。手書き動作特徴ベクトルは、手書き動
作モデルトレーナ(MTH)プロセッサ28に供給され
、音声ベクトルは音声モデルトレーナ(MTS)プロセ
ッサ30に供給される。モデルトレーナプロセッサ28
、30の各々をユーザインターフェース12に結合し、
トレーニング中にユーザと対話ができるようにする。こ
の対話は、ユーザによるトレーニング用の文の集合の入
力、及びトレーニング結果の表示を含むことができる。 各モデルトレーナプロセッサは、関連するモデル、即ち
ブロック32の手書き単語モデル(WMH)及びブロッ
ク34の音声単語モデル(WMS)に対して、最適なパ
ラメータの集合を決定するように機能するものである。 更に、トレーニングプロセッサ28及び30の各々の機
能は、係数α及びβで表され最終的なメッセージ認識に
対する音声及び手書き動作の相対的貢献を制御する、最
適な重み付けウエイト(W)(ブロック37)を決定す
ることである。例えば、ある特定の集合のトレーニング
データのトレーニング中、音声が手書き動作より高い尤
度、即ち得点を与えることがわかった場合、音声の尤度
に関連するウエイトを増加し、手書き動作の尤度に関す
るウエイトを減少するようにする。2つの尤度の得点が
同程度の場合、2つのウエイトを同一、即ち0.5に設
定する。ウエイトの用法については、後により詳しく述
べることにする。
【0026】本発明の好適実施例では、音声モデルトレ
ーナプロセッサ30は、秘匿(hidden)マルコフ
モデル技法にしたがって、音節及び個々の単語を識別す
るように動作する。例えば、英語の音声では一般的に、
鼻音、閉鎖音、母音、及び摩擦音という、4つの音節の
種類がある。音声認識のためのトレーニング及びマルコ
フモデルの用法は、パターン分析及び機械知能に関する
IEEE論文誌、第PAMI−5巻、第2号、1983
年3月発行、第179〜190頁のエル.バール(L.
Bahl)らの論文「連続音声を認識する最尤法(Mo
st likelihood Approach to
Continuous Speech Recogn
ition)」に掲載されている。
ーナプロセッサ30は、秘匿(hidden)マルコフ
モデル技法にしたがって、音節及び個々の単語を識別す
るように動作する。例えば、英語の音声では一般的に、
鼻音、閉鎖音、母音、及び摩擦音という、4つの音節の
種類がある。音声認識のためのトレーニング及びマルコ
フモデルの用法は、パターン分析及び機械知能に関する
IEEE論文誌、第PAMI−5巻、第2号、1983
年3月発行、第179〜190頁のエル.バール(L.
Bahl)らの論文「連続音声を認識する最尤法(Mo
st likelihood Approach to
Continuous Speech Recogn
ition)」に掲載されている。
【0027】この論文に記載されている技法は、音声言
語モデル及びモデルトレーナを実現するのに好適な1つ
の技法である。一般的に、秘匿マルコフモデルまたは源
は、有限のアルファベットからシンボルを生成する遷移
によって互いに接続されている状態の集合からなるもの
である。トレーニングのために、1つの状態を初期状態
として選択し、別の状態を最終状態として選択する。ト
レーニングアルゴリズムは、この初期状態から最終状態
までの遷移の全文字列(string)、並びにこの過
程で発生した全出力に対して、確率を指定する。
語モデル及びモデルトレーナを実現するのに好適な1つ
の技法である。一般的に、秘匿マルコフモデルまたは源
は、有限のアルファベットからシンボルを生成する遷移
によって互いに接続されている状態の集合からなるもの
である。トレーニングのために、1つの状態を初期状態
として選択し、別の状態を最終状態として選択する。ト
レーニングアルゴリズムは、この初期状態から最終状態
までの遷移の全文字列(string)、並びにこの過
程で発生した全出力に対して、確率を指定する。
【0028】音声に対するマルコフ単語モデルの役割は
、単語の発音を表すことである。マルコフモデルのパラ
メータは、話者が生成した音響信号を発音された単語と
関係付けることによってトレーニングされる。語彙内に
は各単語につき1つのマルコフ単語モデルがあるのに対
して、語彙毎に1つの言語モデルしかないことに、注意
されたい。3−gram言語モデルでは、考慮すべき言
語で書かれた大量のテキスト内に現れる全ての3−up
le単語に対して、確率が収集される。したがって、例
えば、3−upleの“the phone ri
ngs”の確率は、3−upleの“the pho
ne drinks”の確率より大幅に高くなる。こ
の確率の相違は、対応する音響信号とは独立しているこ
とに、注意されたい。したがって、ある1つの言語に対
して、一旦言語モデルを決定するが、話者単位でトレー
ニングするにしたがって、マルコフ単語モデルは向上し
ていく。同様に、同一の言語モデルをAHRにたいして
用いることもできる。しかしながら、AHRに対しては
、単に辞書を引くことのほうが、閲覧(inspect
ion)によって容易に行うことができるので、好まし
い。
、単語の発音を表すことである。マルコフモデルのパラ
メータは、話者が生成した音響信号を発音された単語と
関係付けることによってトレーニングされる。語彙内に
は各単語につき1つのマルコフ単語モデルがあるのに対
して、語彙毎に1つの言語モデルしかないことに、注意
されたい。3−gram言語モデルでは、考慮すべき言
語で書かれた大量のテキスト内に現れる全ての3−up
le単語に対して、確率が収集される。したがって、例
えば、3−upleの“the phone ri
ngs”の確率は、3−upleの“the pho
ne drinks”の確率より大幅に高くなる。こ
の確率の相違は、対応する音響信号とは独立しているこ
とに、注意されたい。したがって、ある1つの言語に対
して、一旦言語モデルを決定するが、話者単位でトレー
ニングするにしたがって、マルコフ単語モデルは向上し
ていく。同様に、同一の言語モデルをAHRにたいして
用いることもできる。しかしながら、AHRに対しては
、単に辞書を引くことのほうが、閲覧(inspect
ion)によって容易に行うことができるので、好まし
い。
【0029】手書き動作モデルトレーナ28は、好まし
くは、シー.シー.タパート(C.C.Tappert
)が「適応性オンライン手書き認識」という論文(パタ
ーン認識処置に関するIEEE国際会議(1984年)
)で開示した、柔軟ストローク照合技法に応じて動作す
るようにする。ここで用いているように、柔軟照合は、
柔軟的に変形した入力ストロークを、それらの関連する
ストロークベクトルによって表されるように、ストロー
クテンプレートに分類し、文字のプロトタイプを形成す
るものである。
くは、シー.シー.タパート(C.C.Tappert
)が「適応性オンライン手書き認識」という論文(パタ
ーン認識処置に関するIEEE国際会議(1984年)
)で開示した、柔軟ストローク照合技法に応じて動作す
るようにする。ここで用いているように、柔軟照合は、
柔軟的に変形した入力ストロークを、それらの関連する
ストロークベクトルによって表されるように、ストロー
クテンプレートに分類し、文字のプロトタイプを形成す
るものである。
【0030】モデルブロック32及び34の各々の出力
に、手書き動作尤度推定器(LEH)36及び音声尤度
推定器(LES)38を結合する。これら推定器の各々
は、それらに関連する単語モデルと共に、入力した音声
または手書き動作信号に応じて、単語列に確率を指定す
ることである。各推定器は、ブロック36aの手書き動
作言語モデル(LMH)及びブロック38aの音声言語
モデル(LMS)によってサポートされており、これら
言語モデルの役割は、可能性のない単語または文字の列
を事前に除去することによって、検索範囲を狭めること
である。例えば、以前に明記したように、“the
phone drinks”という単語列は、“th
e phone rings”という単語列より、
はるかに小さい尤度、即ち確率しか有していない。した
がって、後者の文字列に比べて、前者の文字列の尤度の
計算を完全に行うことは非効率的である。言語モデルは
、N−gram確率を基にしたもの、あるいは機械で読
み取り可能な辞書と同様に単純なもののような、統計的
なものとすることができる。更に、音声用言語モデルは
、手書き動作言語モデルと異なるものでよい。本発明の
好適実施例では、音声言語モデルは統計的3−gram
モデル、そして手書き動作言語モデルは辞書検索型であ
る。
に、手書き動作尤度推定器(LEH)36及び音声尤度
推定器(LES)38を結合する。これら推定器の各々
は、それらに関連する単語モデルと共に、入力した音声
または手書き動作信号に応じて、単語列に確率を指定す
ることである。各推定器は、ブロック36aの手書き動
作言語モデル(LMH)及びブロック38aの音声言語
モデル(LMS)によってサポートされており、これら
言語モデルの役割は、可能性のない単語または文字の列
を事前に除去することによって、検索範囲を狭めること
である。例えば、以前に明記したように、“the
phone drinks”という単語列は、“th
e phone rings”という単語列より、
はるかに小さい尤度、即ち確率しか有していない。した
がって、後者の文字列に比べて、前者の文字列の尤度の
計算を完全に行うことは非効率的である。言語モデルは
、N−gram確率を基にしたもの、あるいは機械で読
み取り可能な辞書と同様に単純なもののような、統計的
なものとすることができる。更に、音声用言語モデルは
、手書き動作言語モデルと異なるものでよい。本発明の
好適実施例では、音声言語モデルは統計的3−gram
モデル、そして手書き動作言語モデルは辞書検索型であ
る。
【0031】トレーニング後のオンライン音声/手書き
動作のデコード処理の間、推定器36及び38は、それ
ぞれプロセッサ24及び26から、特徴ベクトルを受け
取り、関連する単語モデルに関して、またある場合は関
連する言語モデルの得点(確率)に関して、確立の高い
照合単語(probable matching wo
rd)の推定値を発生する。音声用の推定器38は、単
語推定のリスト(L1)を出力し、手書き動作用の推定
器36も単語推定のリスト(L2)を出力する。すなわ
ち、手書き動作に対して、入力されたストロークを柔軟
的照合によって、プロトタイプと比較し、識別された文
字をグループ化し、有効な文字列の辞書と比較し、確立
の高い単語の候補のリスト(L2)を得る。音声に対し
ては、入力発生を生成する各マルコフ単語モデルの尤度
を計算し、ブロック38aの3−gram言語モデルに
よって簡潔化した後、最も高い得点を得た単語を、候補
単語リスト(L1)に配置する。音声と手書き動作の両
方の場合において、リストの大きさを、15等の所定の
合理的な最大値に設定するか、あるいはスレッショルド
を用いて動的に設定することもできる。後者の場合、尤
度が選択したスレショルド内に入る全ての単語をリスト
に保持し、他の単語を破棄するようにする。
動作のデコード処理の間、推定器36及び38は、それ
ぞれプロセッサ24及び26から、特徴ベクトルを受け
取り、関連する単語モデルに関して、またある場合は関
連する言語モデルの得点(確率)に関して、確立の高い
照合単語(probable matching wo
rd)の推定値を発生する。音声用の推定器38は、単
語推定のリスト(L1)を出力し、手書き動作用の推定
器36も単語推定のリスト(L2)を出力する。すなわ
ち、手書き動作に対して、入力されたストロークを柔軟
的照合によって、プロトタイプと比較し、識別された文
字をグループ化し、有効な文字列の辞書と比較し、確立
の高い単語の候補のリスト(L2)を得る。音声に対し
ては、入力発生を生成する各マルコフ単語モデルの尤度
を計算し、ブロック38aの3−gram言語モデルに
よって簡潔化した後、最も高い得点を得た単語を、候補
単語リスト(L1)に配置する。音声と手書き動作の両
方の場合において、リストの大きさを、15等の所定の
合理的な最大値に設定するか、あるいはスレッショルド
を用いて動的に設定することもできる。後者の場合、尤
度が選択したスレショルド内に入る全ての単語をリスト
に保持し、他の単語を破棄するようにする。
【0032】リスト(L1)及び(L2)内の各尤度の
得点すなわち確率を、スケーリングブロック40に供給
し、これらが比較可能な範囲内にあることを保証する。 これは、音声と手書き動作の尤度を独立して得る際に、
必要となることである。このスケーリング処理は、例え
ば、リスト(L1)及び(L2)の各尤度得点を、それ
ぞれリスト(L1)及び(L2)の平均尤度得点で正規
化することによって、実現することができる。文字列“
the phone rings”について、次の
リストを生成することができる。
得点すなわち確率を、スケーリングブロック40に供給
し、これらが比較可能な範囲内にあることを保証する。 これは、音声と手書き動作の尤度を独立して得る際に、
必要となることである。このスケーリング処理は、例え
ば、リスト(L1)及び(L2)の各尤度得点を、それ
ぞれリスト(L1)及び(L2)の平均尤度得点で正規
化することによって、実現することができる。文字列“
the phone rings”について、次の
リストを生成することができる。
【0033】リスト(L1)及び(L2)のスケーリン
グを行なった後の尤度得点リスト(SL1)及び(SL
2)を、尤度併合(likelihood mergi
ng)ブロック42に供給する。リスト(SL1)及び
(SL2)内の同じ単語に対応するいかなる尤度得点(
sl1)及び(sl2)に対しても、併合した尤度(l
)は次のように求められる。 l = f(sl1,sl2,α,β)ここで、f
(. )は、意図した応用環境に応じて選択するもので
ある。本実施例では、f(. )は、次の式で表わされ
る。 f(sl1、sl2、α、β) =
(α・sl1+β・sl2)ここで、α+β=1である
。
グを行なった後の尤度得点リスト(SL1)及び(SL
2)を、尤度併合(likelihood mergi
ng)ブロック42に供給する。リスト(SL1)及び
(SL2)内の同じ単語に対応するいかなる尤度得点(
sl1)及び(sl2)に対しても、併合した尤度(l
)は次のように求められる。 l = f(sl1,sl2,α,β)ここで、f
(. )は、意図した応用環境に応じて選択するもので
ある。本実施例では、f(. )は、次の式で表わされ
る。 f(sl1、sl2、α、β) =
(α・sl1+β・sl2)ここで、α+β=1である
。
【0034】以下の例で、N≠M、及び、トレーニング
中に動的リストを用いると仮定すると、次のリストが得
られる。 スケーリングによって、次に示すリスト(SL1)及び
(SL2)を得ることができる。 得点(slp1) 及び(slq2) がある単語
に対応すると仮定すると(ただし、1≦p≦N、1≦q
≦M)、この単語の全尤度は次のようになる。
中に動的リストを用いると仮定すると、次のリストが得
られる。 スケーリングによって、次に示すリスト(SL1)及び
(SL2)を得ることができる。 得点(slp1) 及び(slq2) がある単語
に対応すると仮定すると(ただし、1≦p≦N、1≦q
≦M)、この単語の全尤度は次のようになる。
【0035】これ自体、トレーニング中におけるウエイ
ト(ブロック37)を決定するための、1つの適切な方
法も示している。理想的な場合、語彙内の各単語に対し
て1つの(α、β)対がある。前述の例では、α及びβ
は、ウエイトまたはユーザが選択した全てに優先する(
overriding)値(WOVR)とすることがで
きる。
ト(ブロック37)を決定するための、1つの適切な方
法も示している。理想的な場合、語彙内の各単語に対し
て1つの(α、β)対がある。前述の例では、α及びβ
は、ウエイトまたはユーザが選択した全てに優先する(
overriding)値(WOVR)とすることがで
きる。
【0036】言語モデルブロック42の出力は、音響入
力及びストローク入力の一方または双方に対応する確立
の高い単語のリスト(L)である。この単語リストは、
確率の順に並べられている。通常、リスト(L)の要素
は、得点リスト(SL1)、(SL2)及び関連するウ
エイト係数α及びβ(W)の関数である。確立の高い単
語のリスト(L)を、デコーダ44に供給し、最も高い
確率を有する候補単語を選択する。このようにして選択
した候補単語を、認識したメッセージとしてユーザイン
ターフェース12を含む他のアプリケーションによって
、ユーザに提供にする。これらの他のアプリケーション
は、例えばワードプロセッサプログラムを含むことがで
きる。
力及びストローク入力の一方または双方に対応する確立
の高い単語のリスト(L)である。この単語リストは、
確率の順に並べられている。通常、リスト(L)の要素
は、得点リスト(SL1)、(SL2)及び関連するウ
エイト係数α及びβ(W)の関数である。確立の高い単
語のリスト(L)を、デコーダ44に供給し、最も高い
確率を有する候補単語を選択する。このようにして選択
した候補単語を、認識したメッセージとしてユーザイン
ターフェース12を含む他のアプリケーションによって
、ユーザに提供にする。これらの他のアプリケーション
は、例えばワードプロセッサプログラムを含むことがで
きる。
【0037】スケーリングしたリスト(SL1)及び(
SL2)を自動的に簡潔化(pruning)即ちトリ
ミングして、リスト(L)がリスト(SL1)及び(S
L2)の双方に共通な候補単語のみを含むようにするこ
とも、本発明の範囲内のことである。このトリミングの
方法は、閲覧観察によって容易に行うことができる。2
つの単語リストを初めにトリミングしておけば、デコー
ダ44の仕事を簡素化し、尤度併合のために考慮する候
補単語がより少なくて済む。
SL2)を自動的に簡潔化(pruning)即ちトリ
ミングして、リスト(L)がリスト(SL1)及び(S
L2)の双方に共通な候補単語のみを含むようにするこ
とも、本発明の範囲内のことである。このトリミングの
方法は、閲覧観察によって容易に行うことができる。2
つの単語リストを初めにトリミングしておけば、デコー
ダ44の仕事を簡素化し、尤度併合のために考慮する候
補単語がより少なくて済む。
【0038】既に明記したように、尤度合併ブロック4
2に手動または自動ウエイト無視(WOVR)機能を備
えるのも、本発明の範囲内のことである。ウエイト無視
信号(WOVR)によって、ユーザは、所望の値にウエ
イトを変えることができる。例えば、ユーザが、音声認
識器には処理が非常に困難であると思われる単語を含ん
だ音声情報を入力している時に、これを行うことができ
る。 これらの単語に関連するウエイトを手動で変えて、音声
尤度得点よりも、手書き動作尤度得点により大きなウエ
イトを与えるようにする。例えば、手書き動作認識器か
ら選択した単語に関するウエイトをβ=1.0に設定し
、音声から選択した単語に関するウエイトをα=0に設
定することができる。これは、音声入力を完全に無視し
たのと同等である。このようなウエイト無視を、音声及
び手書き動作のシーケンシャル動作が必要とされる誤り
訂正モードで用いることもできる。例えば、容易に混同
し得る文字を多数有することがわかっている単語であれ
ば、α=1.0及びβ=0と設定してある限り、手書き
動作変換器20ではなく、音声変換器22を介して入力
された情報のみを処理することができる。
2に手動または自動ウエイト無視(WOVR)機能を備
えるのも、本発明の範囲内のことである。ウエイト無視
信号(WOVR)によって、ユーザは、所望の値にウエ
イトを変えることができる。例えば、ユーザが、音声認
識器には処理が非常に困難であると思われる単語を含ん
だ音声情報を入力している時に、これを行うことができ
る。 これらの単語に関連するウエイトを手動で変えて、音声
尤度得点よりも、手書き動作尤度得点により大きなウエ
イトを与えるようにする。例えば、手書き動作認識器か
ら選択した単語に関するウエイトをβ=1.0に設定し
、音声から選択した単語に関するウエイトをα=0に設
定することができる。これは、音声入力を完全に無視し
たのと同等である。このようなウエイト無視を、音声及
び手書き動作のシーケンシャル動作が必要とされる誤り
訂正モードで用いることもできる。例えば、容易に混同
し得る文字を多数有することがわかっている単語であれ
ば、α=1.0及びβ=0と設定してある限り、手書き
動作変換器20ではなく、音声変換器22を介して入力
された情報のみを処理することができる。
【0039】図2は、第2の実施例であるメッセージ認
識システム50を示す。図2において、図1のものとと
共通のコンポーネントは、同じ参照符号を有し、上述の
ように動作するものである。図2の実施例では、特徴ベ
クトル(FVS)と(FVH)との組み合わせである特
徴ベクトル(FVS,H)を用いて動作するようにする
。音声及び手書き動作特徴ベクトルが、同時に入力され
た音響及び手書き動作入力に応答して発生される。入力
のサンプリングレート及び期間が音声チャンネル及び手
書き動作チャンネルで異なる場合、正規化ブロック52
が2つの入力を共通の時間軸に正規化し、正規化した特
徴ベクトルを組み合わせて、1つの特徴ベクトルにする
。この組み合わせは、図5(a)に示すような、24次
元の組み合わせベクトル(FVS,H)を得るための、
4次元の手書き動作特徴ベクトル(図4(b))と20
次元の音声ベクトル(図4(d))との合成連鎖であっ
てもよい。この2つの特徴ベクトルを組み合わせるのに
、別の技法を用いてもよい。例えば、2つの基礎をなす
別個のベクトル空間の積を取ることによって、これらの
特徴ベクトルを組み合わせ、これにより80次元の組み
合わせ特徴ベクトルを得ることもできる。また、その他
のより複雑な組み合わせ技法を用いてもよい。上述の説
明は、単に例を示しただけであり、その他の次元を考慮
することもできることに、注意されたい。総括的に考慮
すべきことは、FVHの次元<FVSの次元を満足する
ことである。
識システム50を示す。図2において、図1のものとと
共通のコンポーネントは、同じ参照符号を有し、上述の
ように動作するものである。図2の実施例では、特徴ベ
クトル(FVS)と(FVH)との組み合わせである特
徴ベクトル(FVS,H)を用いて動作するようにする
。音声及び手書き動作特徴ベクトルが、同時に入力され
た音響及び手書き動作入力に応答して発生される。入力
のサンプリングレート及び期間が音声チャンネル及び手
書き動作チャンネルで異なる場合、正規化ブロック52
が2つの入力を共通の時間軸に正規化し、正規化した特
徴ベクトルを組み合わせて、1つの特徴ベクトルにする
。この組み合わせは、図5(a)に示すような、24次
元の組み合わせベクトル(FVS,H)を得るための、
4次元の手書き動作特徴ベクトル(図4(b))と20
次元の音声ベクトル(図4(d))との合成連鎖であっ
てもよい。この2つの特徴ベクトルを組み合わせるのに
、別の技法を用いてもよい。例えば、2つの基礎をなす
別個のベクトル空間の積を取ることによって、これらの
特徴ベクトルを組み合わせ、これにより80次元の組み
合わせ特徴ベクトルを得ることもできる。また、その他
のより複雑な組み合わせ技法を用いてもよい。上述の説
明は、単に例を示しただけであり、その他の次元を考慮
することもできることに、注意されたい。総括的に考慮
すべきことは、FVHの次元<FVSの次元を満足する
ことである。
【0040】入力した手書きストロークを、従来のよう
なの空間領域での扱いに対して、周波数領域で扱い、そ
のストローク情報をフーリエ変換することは、本発明の
範囲内のことである。4次元以上のストローク特徴ベク
トルは、したがって、図5(b)に示すように、音声特
徴ベクトルと組み合わせた周波数帯域の振幅情報を表し
ている。手書き動作に対する周波数領域の処理は、図1
に示すシステムにも用いることができるものである。
なの空間領域での扱いに対して、周波数領域で扱い、そ
のストローク情報をフーリエ変換することは、本発明の
範囲内のことである。4次元以上のストローク特徴ベク
トルは、したがって、図5(b)に示すように、音声特
徴ベクトルと組み合わせた周波数帯域の振幅情報を表し
ている。手書き動作に対する周波数領域の処理は、図1
に示すシステムにも用いることができるものである。
【0041】トレーニング中、組み合わされた特徴ベク
トル(FVS,H)を音声及び手書き動作モデルトレー
ナプロセッサ54に供給し、ブロック56の適切な単語
モデルをトレーニングする。例えば、ブロック56の各
単語モデルは、秘匿マルコフモデルであってもよい。組
み合わされた特徴ベクトルにより、単語モデルの状態及
び状態の移り変りは、図1にあるような音声のみに用い
られるマルコフ単語モデルのそれらとは、異なることに
注意されたい。しかしながら、一旦構造を指定すれば、
これらのモデルのパラメータを、例えば、以前に引用し
たエル. バール(L.Bahl)らの、機関誌に掲載
された論文、「連続音声を認識する最尤法」(パターン
分析及び機械知能に関するIEEE論文誌、第PAMI
−5巻、第2号、1983年3月発行、第179〜19
0頁)に記載されているような、前述のような従来の方
法でトレーニングする。1つの相違点は、例えば、単語
モデルブロック56の出力分布が、音声と手書き動作入
力の両方を反映する、ジョイント分布(即ち、音節/単
語のフラグメントを結合したものの確率)であることで
ある。
トル(FVS,H)を音声及び手書き動作モデルトレー
ナプロセッサ54に供給し、ブロック56の適切な単語
モデルをトレーニングする。例えば、ブロック56の各
単語モデルは、秘匿マルコフモデルであってもよい。組
み合わされた特徴ベクトルにより、単語モデルの状態及
び状態の移り変りは、図1にあるような音声のみに用い
られるマルコフ単語モデルのそれらとは、異なることに
注意されたい。しかしながら、一旦構造を指定すれば、
これらのモデルのパラメータを、例えば、以前に引用し
たエル. バール(L.Bahl)らの、機関誌に掲載
された論文、「連続音声を認識する最尤法」(パターン
分析及び機械知能に関するIEEE論文誌、第PAMI
−5巻、第2号、1983年3月発行、第179〜19
0頁)に記載されているような、前述のような従来の方
法でトレーニングする。1つの相違点は、例えば、単語
モデルブロック56の出力分布が、音声と手書き動作入
力の両方を反映する、ジョイント分布(即ち、音節/単
語のフラグメントを結合したものの確率)であることで
ある。
【0042】ブロック56の単語モデルを尤度推定器5
8で用いて、ブロック58からの言語モデル(LMS,
H)に応じて手書き動作入力及び音声入力の組み合わせ
を基に、最も確率の高い単語のリスト(L)を発生する
ようにする。好ましくは、音声及び手書き動作情報をジ
ョイントして用いる際、音声処理には辞書検索型モデル
は通常不適切である場合があるので、言語モデル(LM
S,H)は、3−gram言語モデルを基にする。 デコーダ44は、リスト中の最も高い確率を有する要素
を選択し、このようにして、認識したメッセージを発生
する。
8で用いて、ブロック58からの言語モデル(LMS,
H)に応じて手書き動作入力及び音声入力の組み合わせ
を基に、最も確率の高い単語のリスト(L)を発生する
ようにする。好ましくは、音声及び手書き動作情報をジ
ョイントして用いる際、音声処理には辞書検索型モデル
は通常不適切である場合があるので、言語モデル(LM
S,H)は、3−gram言語モデルを基にする。 デコーダ44は、リスト中の最も高い確率を有する要素
を選択し、このようにして、認識したメッセージを発生
する。
【0043】図6は、システム10及び50の動作をフ
ロー図で示したものである。まず、図6についてを概括
的に説明し、続いてここに示す各ブロックの動作につい
て詳細に説明する。ブロック60では、ペンストローク
及び音響(音声)情報の一方または双方のデータ獲得を
行う。得られたストローク及び音響データをそれぞれプ
ロセッサ24及び26で処理する。これら2つの作業は
、手書き動作情報と音声情報をどのように統合しようと
するのかにしたがって、同時に行っても、別個の時間に
行ってもよい。
ロー図で示したものである。まず、図6についてを概括
的に説明し、続いてここに示す各ブロックの動作につい
て詳細に説明する。ブロック60では、ペンストローク
及び音響(音声)情報の一方または双方のデータ獲得を
行う。得られたストローク及び音響データをそれぞれプ
ロセッサ24及び26で処理する。これら2つの作業は
、手書き動作情報と音声情報をどのように統合しようと
するのかにしたがって、同時に行っても、別個の時間に
行ってもよい。
【0044】トレーニングモード(ブロック62)の間
、手書き入力及び音声入力された文字及び単語の既知の
トレーニング用集合を参照して、得られた情報を分析し
、基礎的(underlying)なモデルのトレーニ
ングを行う。使用中は、トレーニングブロック62を迂
回し、代りに特徴ベクトルを、尤度推定器に導く(ブロ
ック64)。尤度推定器は、特徴ベクトルを用いて、文
字および/または音素の集合体から候補単語を発生する
。次に、デコーダが、ウエイト及びその他の関連するパ
ラメータを基に、最も確率の高い単語を選択する。
、手書き入力及び音声入力された文字及び単語の既知の
トレーニング用集合を参照して、得られた情報を分析し
、基礎的(underlying)なモデルのトレーニ
ングを行う。使用中は、トレーニングブロック62を迂
回し、代りに特徴ベクトルを、尤度推定器に導く(ブロ
ック64)。尤度推定器は、特徴ベクトルを用いて、文
字および/または音素の集合体から候補単語を発生する
。次に、デコーダが、ウエイト及びその他の関連するパ
ラメータを基に、最も確率の高い単語を選択する。
【0045】認識されたメッセージは、その後、ユーザ
に使用可能とされる(ブロック66)。例えば、認識さ
れたメッセージを、単にアルファニューメリック形式に
変換して、表示装置14に表示することができる。また
、例えば、ワードプロセッサプログラムのような、従来
通りにキーボードからメッセージを受けとるような応用
であればいなかるものにでも、認識したメッセージを与
えることができる。
に使用可能とされる(ブロック66)。例えば、認識さ
れたメッセージを、単にアルファニューメリック形式に
変換して、表示装置14に表示することができる。また
、例えば、ワードプロセッサプログラムのような、従来
通りにキーボードからメッセージを受けとるような応用
であればいなかるものにでも、認識したメッセージを与
えることができる。
【0046】本発明により、ASR及びAHRを統合し
た用法が提供された。この統合した用法によって、(a
)ASRとAHRとを同時に用い、結合または併合(j
oint or merged)した尤度得点全体を基
にデコード処理を決定し、文字または音素の集合が特定
の言葉を表すようにする。または、(b)ASR及びA
HRをシケンシャルに用い、かつ一方を他方によって生
じたあらゆる誤りを訂正するために用いる。尚、ASR
とAHRとは、一貫した(consistent)メッ
セージを処理する限り、別のユーザが用いても良いこと
に注意されたい。アプリケーションによっては、ASR
を一人のユーザに操作させ、AHRを別のユーザに操作
させるのが望ましいこともある。
た用法が提供された。この統合した用法によって、(a
)ASRとAHRとを同時に用い、結合または併合(j
oint or merged)した尤度得点全体を基
にデコード処理を決定し、文字または音素の集合が特定
の言葉を表すようにする。または、(b)ASR及びA
HRをシケンシャルに用い、かつ一方を他方によって生
じたあらゆる誤りを訂正するために用いる。尚、ASR
とAHRとは、一貫した(consistent)メッ
セージを処理する限り、別のユーザが用いても良いこと
に注意されたい。アプリケーションによっては、ASR
を一人のユーザに操作させ、AHRを別のユーザに操作
させるのが望ましいこともある。
【0047】音響及び手書き動作情報を同時に用いる場
合に、両方が全体のデコード処理の決定に貢献すること
を、明記しておく。手書きされた情報中のあいまいな文
字は、暫定的に、対応する発声された発音を基に認識さ
れ、逆に、音響的に混同し得る単語は、暫定的に、手書
きされた情報を基に認識されるようにする。この技法の
ためには、単語を書くと同時に発声し、結果として、自
然なポーズが発声された発音の中に現れることになる。 したがって、分離された単語の音声認識を、重なり合っ
た文字と別個の文字が混在する手書き動作認識に統合す
るのが、最も有利である。しかしながら、このような技
法を用いるには環境ノイズが大きすぎる場合、従来のA
SRを上記引用した形式の自動唇読み取り式認識装置に
置き換えるほうが適切なこともある。
合に、両方が全体のデコード処理の決定に貢献すること
を、明記しておく。手書きされた情報中のあいまいな文
字は、暫定的に、対応する発声された発音を基に認識さ
れ、逆に、音響的に混同し得る単語は、暫定的に、手書
きされた情報を基に認識されるようにする。この技法の
ためには、単語を書くと同時に発声し、結果として、自
然なポーズが発声された発音の中に現れることになる。 したがって、分離された単語の音声認識を、重なり合っ
た文字と別個の文字が混在する手書き動作認識に統合す
るのが、最も有利である。しかしながら、このような技
法を用いるには環境ノイズが大きすぎる場合、従来のA
SRを上記引用した形式の自動唇読み取り式認識装置に
置き換えるほうが適切なこともある。
【0048】AHRとASRを連続的に用いる場合に、
AHRをASRの補強として用いることができる。この
方法では、ASRを主認識手段と看做し、AHRを主に
自然で好都合なインターフェースとして用い、透明電子
タブレットまたは表示端末14に表示されるASRの誤
りを訂正するようにする。この技法は、ASR語彙には
ないがAHR辞書には載っている適当な名詞等のような
、新しい単語を入力するのにも適している。また上記と
共に、ASRをAHRの補強として用いることもできる
。この方法では、AHRを主認識手段と看做し、ASR
をAHRの誤りを訂正する目的で用いるようにする。 所定の方法でAHR上の誤りを指示することによって、
音声変換器22を作動させ、ユーザが、誤ってデコード
された手書き文字を正確に発音できるようにする。
AHRをASRの補強として用いることができる。この
方法では、ASRを主認識手段と看做し、AHRを主に
自然で好都合なインターフェースとして用い、透明電子
タブレットまたは表示端末14に表示されるASRの誤
りを訂正するようにする。この技法は、ASR語彙には
ないがAHR辞書には載っている適当な名詞等のような
、新しい単語を入力するのにも適している。また上記と
共に、ASRをAHRの補強として用いることもできる
。この方法では、AHRを主認識手段と看做し、ASR
をAHRの誤りを訂正する目的で用いるようにする。 所定の方法でAHR上の誤りを指示することによって、
音声変換器22を作動させ、ユーザが、誤ってデコード
された手書き文字を正確に発音できるようにする。
【0049】上述のASRとAHRとの全ての組み合わ
せにおいて、ASRとAHRとを統合した用法は、いく
つかの理由により有利であることがわかった。まず第1
に、両方の情報には相補性があることがあげられる。即
ち、発声によって収集した情報と手書き動作によって収
集した情報は、互いに補い合うのである。例えば、Uと
Vという文字は、AHRを用いては認識がむずかしいこ
とがしばしばあるが、ASRでは何も問題はない。逆に
、所謂「イーセット(e−set)」B,C,D,E,
G,P,T,V,Zを,ASRを用いて認識するのは、
周知のように困難であるが、AHRにおいては、なんら
むずかしいことはない。第2に、処理能力において相補
性を得ることができる。即ち、音声及び手書き動作認識
アルゴリズムの処理方法は、しばしば互いに相補し合う
ことがある。例えば、AHRでは、単語が長くなる程、
より多くの文字を誤って認識するかもしれないので、単
語の誤りを生じる確率は大きくなる。しかしながら、A
SRでは、単語が長くなる程、混同する単語は少なくな
るので、この確率は減少する。
せにおいて、ASRとAHRとを統合した用法は、いく
つかの理由により有利であることがわかった。まず第1
に、両方の情報には相補性があることがあげられる。即
ち、発声によって収集した情報と手書き動作によって収
集した情報は、互いに補い合うのである。例えば、Uと
Vという文字は、AHRを用いては認識がむずかしいこ
とがしばしばあるが、ASRでは何も問題はない。逆に
、所謂「イーセット(e−set)」B,C,D,E,
G,P,T,V,Zを,ASRを用いて認識するのは、
周知のように困難であるが、AHRにおいては、なんら
むずかしいことはない。第2に、処理能力において相補
性を得ることができる。即ち、音声及び手書き動作認識
アルゴリズムの処理方法は、しばしば互いに相補し合う
ことがある。例えば、AHRでは、単語が長くなる程、
より多くの文字を誤って認識するかもしれないので、単
語の誤りを生じる確率は大きくなる。しかしながら、A
SRでは、単語が長くなる程、混同する単語は少なくな
るので、この確率は減少する。
【0050】第3に、機能において、相補性を得ること
ができる。即ち、ASRとAHRとを用いて最も容易に
実施される機能が、互いに補い合う事ができる。例えば
、AHRは、筆記用具を用いて単語に線を引いて消すこ
とによってその単語を削除したり、単語または節を相互
交換することを示す等の、編集能力を有するが、このよ
うな機能はASRを用いて実施するのはむずかしい。 一方、大量の文書の作成等の機能は、手書き動作変換器
20を用いるより、音声変換器22のほうが、より効果
的に実施することができる。
ができる。即ち、ASRとAHRとを用いて最も容易に
実施される機能が、互いに補い合う事ができる。例えば
、AHRは、筆記用具を用いて単語に線を引いて消すこ
とによってその単語を削除したり、単語または節を相互
交換することを示す等の、編集能力を有するが、このよ
うな機能はASRを用いて実施するのはむずかしい。 一方、大量の文書の作成等の機能は、手書き動作変換器
20を用いるより、音声変換器22のほうが、より効果
的に実施することができる。
【0051】既に述べたように、音声及び手書き情報認
識を統合した用法は、統合型の音声及び手書き動作イン
ターフェース(ISWI)18によって得られるもので
ある。ISWIを用いた単語認識は、音声が分離してい
るか連続しているかによって、また手書き文字が別個か
重なっているかによって、更に、2つの認識手順が連続
的か、併合かあるいは合同かによって、12通りの可能
性のある条件の下で、行うことができる。この点に関し
て、AHRとASRとのシケンシャルな使用は、誤り訂
正に用いるのに最も適しており、AHRとASRのジョ
イント使用は、ジョイントした尤度推定によって行い、
AHRとASRの合併使用は、(αL1+βL2)に重
み付け合併した尤度推定を用いる。
識を統合した用法は、統合型の音声及び手書き動作イン
ターフェース(ISWI)18によって得られるもので
ある。ISWIを用いた単語認識は、音声が分離してい
るか連続しているかによって、また手書き文字が別個か
重なっているかによって、更に、2つの認識手順が連続
的か、併合かあるいは合同かによって、12通りの可能
性のある条件の下で、行うことができる。この点に関し
て、AHRとASRとのシケンシャルな使用は、誤り訂
正に用いるのに最も適しており、AHRとASRのジョ
イント使用は、ジョイントした尤度推定によって行い、
AHRとASRの合併使用は、(αL1+βL2)に重
み付け合併した尤度推定を用いる。
【0052】更に、ISWIの実現は、次の3つの過程
に依存するものである。 (a)データ獲得(ブロック60) (b)ユーザ依存モードであると仮定したトレーニング
(ブロック62)、 (c)デコード処理(ブロック64)。これらの過程に
ついて、以下に詳細に説明する。
に依存するものである。 (a)データ獲得(ブロック60) (b)ユーザ依存モードであると仮定したトレーニング
(ブロック62)、 (c)デコード処理(ブロック64)。これらの過程に
ついて、以下に詳細に説明する。
【0053】データ獲得(ブロック60)メッセージ認
識システム10及び50を用いるためにデータを獲得す
るには、2つの主要なモードがある。トレーニングモー
ドでは、ジョイント尤度モードを除いて、ユーザは、通
常異なるトレーニング材料を書き込み、また発声するこ
とによって、ストローク情報及び音響情報を個別に生成
する。例えば、ユーザは、100または200の音声上
バランスの取れた文に対してASRをトレーニングし、
アルファベットの全文字の事例をいくつか含む数個の文
に対してAHRをトレーニングする。デコーディング(
デコード処理)モードでは、シーケンシャル使用モード
を除いて、ユーザは、同じメッセージを書き、かつ発声
することによって、ストローク情報と音響情報とを同時
に生成する。筆記は発声より遅いため、発声された各単
語間に自然にポーズが入るという点で、この手順は、特
に重ね書きや分離した音声に適している。
識システム10及び50を用いるためにデータを獲得す
るには、2つの主要なモードがある。トレーニングモー
ドでは、ジョイント尤度モードを除いて、ユーザは、通
常異なるトレーニング材料を書き込み、また発声するこ
とによって、ストローク情報及び音響情報を個別に生成
する。例えば、ユーザは、100または200の音声上
バランスの取れた文に対してASRをトレーニングし、
アルファベットの全文字の事例をいくつか含む数個の文
に対してAHRをトレーニングする。デコーディング(
デコード処理)モードでは、シーケンシャル使用モード
を除いて、ユーザは、同じメッセージを書き、かつ発声
することによって、ストローク情報と音響情報とを同時
に生成する。筆記は発声より遅いため、発声された各単
語間に自然にポーズが入るという点で、この手順は、特
に重ね書きや分離した音声に適している。
【0054】トレーニング(ブロック62)トレーニン
グ過程は、2つの部分に分割することができる。まず、
音声及び手書き動作の両方に対して適切な特徴ベクトル
を発生する。次に、各特徴ベクトルを、秘匿マルコフモ
デルのような、ある種のモデルと共に用い、これにより
関連する単語モデルパラメータをトレーニングする。音
声と手書き動作に対してトレーニングを別個に行えば、
選択された特徴ベクトルは、いずれかの領域で元から用
いられていたものである可能性がある。これにより、音
響及びストローク情報にそれぞれ対応する特徴ベクトル
の複数の対を発生する。このような特徴ベクトルの対は
、2つの異なった方法で利用される。最も単純な方法は
、図1に示すように、このベクトルを2つの別個の種類
のモデル、即ち、一方は音声用に他方は手書き動作用に
用いるようにする。もう1つの方法は、図2のシステム
で実施しているように、入力データを正規化し、特徴ベ
クトルを組み合わせ、音響情報及びストローク情報を合
体した拡張単語モデルをトレーニングするものである。
グ過程は、2つの部分に分割することができる。まず、
音声及び手書き動作の両方に対して適切な特徴ベクトル
を発生する。次に、各特徴ベクトルを、秘匿マルコフモ
デルのような、ある種のモデルと共に用い、これにより
関連する単語モデルパラメータをトレーニングする。音
声と手書き動作に対してトレーニングを別個に行えば、
選択された特徴ベクトルは、いずれかの領域で元から用
いられていたものである可能性がある。これにより、音
響及びストローク情報にそれぞれ対応する特徴ベクトル
の複数の対を発生する。このような特徴ベクトルの対は
、2つの異なった方法で利用される。最も単純な方法は
、図1に示すように、このベクトルを2つの別個の種類
のモデル、即ち、一方は音声用に他方は手書き動作用に
用いるようにする。もう1つの方法は、図2のシステム
で実施しているように、入力データを正規化し、特徴ベ
クトルを組み合わせ、音響情報及びストローク情報を合
体した拡張単語モデルをトレーニングするものである。
【0055】前述のように、音声及び手書き動作認識に
用いて、秘匿マルコフモデルのようなモデルを発生しト
レーニングする既知の方法を、これら2つの技法を統合
するために、用いることもできる。音声及び手書き動作
用のモデルとしてニューラルネットワークを用いること
もできる。これらの方法は、一般的に、ベクトル空間内
のラベル(label)列または点のような抽象的かつ
数学的対象に作用するものである。しかしながら、ジョ
イントトレーニングの場合、単語テンプレートまたはニ
ューラルネットワークトポロジー等のような基礎的モデ
ル構造は、ISWIのためのものと、AHRまたはAS
Rの一方に用いられるものとでは異なる。
用いて、秘匿マルコフモデルのようなモデルを発生しト
レーニングする既知の方法を、これら2つの技法を統合
するために、用いることもできる。音声及び手書き動作
用のモデルとしてニューラルネットワークを用いること
もできる。これらの方法は、一般的に、ベクトル空間内
のラベル(label)列または点のような抽象的かつ
数学的対象に作用するものである。しかしながら、ジョ
イントトレーニングの場合、単語テンプレートまたはニ
ューラルネットワークトポロジー等のような基礎的モデ
ル構造は、ISWIのためのものと、AHRまたはAS
Rの一方に用いられるものとでは異なる。
【0056】次の論文は、音声認識用のニューラルネッ
トワークの好適な実施例を記載したものである。エー.
ワイバー(A.Waiber)、ティ.ハナザワ(T.
Hanazawa)、ジー.ヒントン(G.Hinto
n)、ケー.シカノ(K.Shikano)、ケー.ラ
ング(K.Lang)の「時間遅れニューラルネットワ
ークを用いた音素認識(Phoneme Recogn
ition Using Time−DelayNeu
ral Nexworks)」(音響学、音声及び信号
処理に関するIEEE論文誌第37巻、第3号、第32
8〜339頁,1989年3月発行)エス.ジー.コン
(S.G.Konng)、及びビー.コスコ(B.Ko
sko)の「重心推定および音素認識用の差動競争学習
(differential Competitive
Learning for Centroid Es
timation and Phoneme Reco
gnition)」(IEEE論文誌、ニューラルネッ
トワーク、第2巻、第1号、第118〜124頁,19
91年1月)
トワークの好適な実施例を記載したものである。エー.
ワイバー(A.Waiber)、ティ.ハナザワ(T.
Hanazawa)、ジー.ヒントン(G.Hinto
n)、ケー.シカノ(K.Shikano)、ケー.ラ
ング(K.Lang)の「時間遅れニューラルネットワ
ークを用いた音素認識(Phoneme Recogn
ition Using Time−DelayNeu
ral Nexworks)」(音響学、音声及び信号
処理に関するIEEE論文誌第37巻、第3号、第32
8〜339頁,1989年3月発行)エス.ジー.コン
(S.G.Konng)、及びビー.コスコ(B.Ko
sko)の「重心推定および音素認識用の差動競争学習
(differential Competitive
Learning for Centroid Es
timation and Phoneme Reco
gnition)」(IEEE論文誌、ニューラルネッ
トワーク、第2巻、第1号、第118〜124頁,19
91年1月)
【0057】以下にあげる論文は、手書き動作認識用の
ニューラルネットワークの好適な実施例を記載したもの
である。ピー.モラッソ(P.Morasso)の「重
なった手書き文字のニューラルモデル」(Proc.1
989年ニューラルネットワークに関する国際合同会議
,第2巻、第539〜542頁、ワシントンD.C.、
1989年6月)アイ.ギヨン(I.Guyon)、ピ
ー.アルブレヒト(P.Albrecht)、ヤイ.ル
クン(Y.Le Cun)、ジェイ.デンカ−(J.D
enker)、及びダブリュ.ハバート(W.Hubb
art)の、「タッチターミナル用ニューラルネットワ
ーク文字認識装置の設計」(パターン認識、第24巻、
1991年 印刷中(in press.))
ニューラルネットワークの好適な実施例を記載したもの
である。ピー.モラッソ(P.Morasso)の「重
なった手書き文字のニューラルモデル」(Proc.1
989年ニューラルネットワークに関する国際合同会議
,第2巻、第539〜542頁、ワシントンD.C.、
1989年6月)アイ.ギヨン(I.Guyon)、ピ
ー.アルブレヒト(P.Albrecht)、ヤイ.ル
クン(Y.Le Cun)、ジェイ.デンカ−(J.D
enker)、及びダブリュ.ハバート(W.Hubb
art)の、「タッチターミナル用ニューラルネットワ
ーク文字認識装置の設計」(パターン認識、第24巻、
1991年 印刷中(in press.))
【00
58】デコード処理(ブロック64)個別単語モデルト
レーニングをジョイント単語モデルトレーニングと区別
するように、デコード処理に対しても方法論的二分法(
methodological dichotomy)
が存在する。音響情報およびストローク情報が別個に全
体のデコード処理決定に貢献する場合、1つの適切な汎
用決定手順は、コンセンサス定理のように、多数の専門
家の意見を基にする。例えば、全体尤度得点は、各情報
源に対応する尤度得点の重み付けした合計とすることが
でき、ウエイト(W)を、候補単語の長さまたは雑音の
存在等の外的要素を基にトレーニング中に選択するよう
にする。
58】デコード処理(ブロック64)個別単語モデルト
レーニングをジョイント単語モデルトレーニングと区別
するように、デコード処理に対しても方法論的二分法(
methodological dichotomy)
が存在する。音響情報およびストローク情報が別個に全
体のデコード処理決定に貢献する場合、1つの適切な汎
用決定手順は、コンセンサス定理のように、多数の専門
家の意見を基にする。例えば、全体尤度得点は、各情報
源に対応する尤度得点の重み付けした合計とすることが
でき、ウエイト(W)を、候補単語の長さまたは雑音の
存在等の外的要素を基にトレーニング中に選択するよう
にする。
【0059】音響情報とストローク情報との選択におけ
る決定用のデコーダ44に用いて好適な決定戦略を教示
するものとして、次の3件の機関紙の論文を引用する。 「依存型情報源からの確率分布の組み合わせ(Comb
ining Probability Distrib
utions from Dependent Inf
ormation Source)」管理科学、第27
巻、第4号、1981年4月、第479〜488頁、(
アール.エル.ウインクラ(R.L.Winkler)
)「個々の確率推定の集合について(On the A
ggregation of Individual
Probability Estimates)」、管
理科学,第27巻、第8号、1981年8月,第959
〜964頁(アール.エフ.ボードリ(R.F.Bor
dley)ら)「コンセンサスと証拠」、実用IIにお
けるパターン認識、エルセヴィア(Elsevier)
科学出版B.V.(北オランダ)、1986年、第52
3〜546頁、(ベレンシュタイン(Berenste
in)ら)
る決定用のデコーダ44に用いて好適な決定戦略を教示
するものとして、次の3件の機関紙の論文を引用する。 「依存型情報源からの確率分布の組み合わせ(Comb
ining Probability Distrib
utions from Dependent Inf
ormation Source)」管理科学、第27
巻、第4号、1981年4月、第479〜488頁、(
アール.エル.ウインクラ(R.L.Winkler)
)「個々の確率推定の集合について(On the A
ggregation of Individual
Probability Estimates)」、管
理科学,第27巻、第8号、1981年8月,第959
〜964頁(アール.エフ.ボードリ(R.F.Bor
dley)ら)「コンセンサスと証拠」、実用IIにお
けるパターン認識、エルセヴィア(Elsevier)
科学出版B.V.(北オランダ)、1986年、第52
3〜546頁、(ベレンシュタイン(Berenste
in)ら)
【0060】一方、例えば図2のメッセージ
認識システム50におけるように、音声情報および手書
き動作情報の両方が同時にデコード処理決定に貢献する
時、言語モデル58aにしたがって、拡張した単語モデ
ル56について動作する推定器58に基づいて決定がな
される。ISWIは、人間要素実験の分野を含む多数の
分野において応用できるものである。より一般的には、
ISWIは、音声情報および手書き動作情報の相補性を
、特に誤り訂正や編集の目的のために、活用することの
できる領域であれば、あらゆる領域でうまく適合するも
のである。
認識システム50におけるように、音声情報および手書
き動作情報の両方が同時にデコード処理決定に貢献する
時、言語モデル58aにしたがって、拡張した単語モデ
ル56について動作する推定器58に基づいて決定がな
される。ISWIは、人間要素実験の分野を含む多数の
分野において応用できるものである。より一般的には、
ISWIは、音声情報および手書き動作情報の相補性を
、特に誤り訂正や編集の目的のために、活用することの
できる領域であれば、あらゆる領域でうまく適合するも
のである。
【0061】2種類の実験を行ったが、その結果を説明
する。最初の実験の目的は、音声情報および手書き動作
情報の相補性に関する情報を得ることであった。2番目
の実験の目的は、音声および手書き動作の認識処理能力
の相補性に関するデータを得ることであった。
する。最初の実験の目的は、音声情報および手書き動作
情報の相補性に関する情報を得ることであった。2番目
の実験の目的は、音声および手書き動作の認識処理能力
の相補性に関するデータを得ることであった。
【0062】最初の実験では、8つの色(color)
、8つの目的語(object)、および8つの前置詞
で構成した24の単語の語彙を用いた。被検者(AHR
には前もって知らせていない)は、筆記者独立(wri
ter−independent)モードで、24個の
単語の各々を別々に書いた。6つの単語が誤ってデコー
ドされ、手書き動作誤り率は25%となった。次に、同
じ単語を、分離発声でASRに向って発声し、話者依存
モード(speaker−dependent)でデコ
ードした。12の単語が誤ってデコードされ、したがっ
て音声誤り率は、この比較的難しいボキャビュラリに対
して50%であった。手書きであいまいな単語と発声で
あいまいな単語の共通部分は、3つの単語に減少するこ
とがわかった。この内の1つは音声認識器の語彙以外の
ものであった。したがって、双方の組み合せで、得られ
た全体の誤り率はわずか8%であった。
、8つの目的語(object)、および8つの前置詞
で構成した24の単語の語彙を用いた。被検者(AHR
には前もって知らせていない)は、筆記者独立(wri
ter−independent)モードで、24個の
単語の各々を別々に書いた。6つの単語が誤ってデコー
ドされ、手書き動作誤り率は25%となった。次に、同
じ単語を、分離発声でASRに向って発声し、話者依存
モード(speaker−dependent)でデコ
ードした。12の単語が誤ってデコードされ、したがっ
て音声誤り率は、この比較的難しいボキャビュラリに対
して50%であった。手書きであいまいな単語と発声で
あいまいな単語の共通部分は、3つの単語に減少するこ
とがわかった。この内の1つは音声認識器の語彙以外の
ものであった。したがって、双方の組み合せで、得られ
た全体の誤り率はわずか8%であった。
【0063】AHRの場合、基礎的辞書(underl
ying dictionary)を自動的に参照する
ことによって、全ての誤り(例えば“ORANGE”を
“ORAIVGE”とデコードしたようなもの)を容易
に検出し、訂正し得ることが明らかである。この後処理
は、簡単なアルゴリズムによって実施することができ、
ある与えられた文字列に対して、この文字列に最もよく
適合する単語を、与えられた語彙から決定するものであ
る。このアルゴリズムは、入力された文字列と各仮の(
tentative)単語の中の照合する文字の数を計
算するだけでよい。しかしながら、ASRの場合、この
後処理技法は、限られた訂正しかできないを発見した。 また、手書き動作認識は、時間と共に改善されたことも
明記しておく。最初の試行の間に生じた誤りを観察した
後、被検者は2回目の試行の間に精度の向上を得ること
ができた。同様な向上は、更に限られたものであるが、
ASRを用いた時も観察できた。
ying dictionary)を自動的に参照する
ことによって、全ての誤り(例えば“ORANGE”を
“ORAIVGE”とデコードしたようなもの)を容易
に検出し、訂正し得ることが明らかである。この後処理
は、簡単なアルゴリズムによって実施することができ、
ある与えられた文字列に対して、この文字列に最もよく
適合する単語を、与えられた語彙から決定するものであ
る。このアルゴリズムは、入力された文字列と各仮の(
tentative)単語の中の照合する文字の数を計
算するだけでよい。しかしながら、ASRの場合、この
後処理技法は、限られた訂正しかできないを発見した。 また、手書き動作認識は、時間と共に改善されたことも
明記しておく。最初の試行の間に生じた誤りを観察した
後、被検者は2回目の試行の間に精度の向上を得ること
ができた。同様な向上は、更に限られたものであるが、
ASRを用いた時も観察できた。
【0064】2番目の実験では、他の被検者が、「2件
の論文は、目および耳による音声認識を記載していなか
った。(Two articles did n
ot describe speech per
ception by eyeandear)」と
いう文を、次の3つの異なる方法で生成した。(a)A
HRにおいて、筆記者依存、かつ重ね合わせモードでこ
の文を書く。 (b)話者依存、かつ分離発音モードで、ASRに対し
てその文を発声する。(c)(a)および(b)と同じ
条件で、AHRに対して短い単語(two,did,n
ot,by,eye,and,ear)を書き、ASR
に長い単語(articles,describe,s
peech,perception)を発声する。
の論文は、目および耳による音声認識を記載していなか
った。(Two articles did n
ot describe speech per
ception by eyeandear)」と
いう文を、次の3つの異なる方法で生成した。(a)A
HRにおいて、筆記者依存、かつ重ね合わせモードでこ
の文を書く。 (b)話者依存、かつ分離発音モードで、ASRに対し
てその文を発声する。(c)(a)および(b)と同じ
条件で、AHRに対して短い単語(two,did,n
ot,by,eye,and,ear)を書き、ASR
に長い単語(articles,describe,s
peech,perception)を発声する。
【0065】条件(a)の場合は、2つの誤りを発生し
たが、両方とも長い単語(“articles”と“p
erception”)について起こったものであった
。条件(b)の場合は、4つの誤りを発生し、その内3
つは短い単語(“two,by,eye”)についてで
あり、1つは長い単語“article”についてであ
った。しかしながら、条件(c)の場合は、長い単語“
article”についてのみ誤りを発生し、それはA
SRによる認識の誤りであった。
たが、両方とも長い単語(“articles”と“p
erception”)について起こったものであった
。条件(b)の場合は、4つの誤りを発生し、その内3
つは短い単語(“two,by,eye”)についてで
あり、1つは長い単語“article”についてであ
った。しかしながら、条件(c)の場合は、長い単語“
article”についてのみ誤りを発生し、それはA
SRによる認識の誤りであった。
【0066】これらの実験から、2つの情報源、即ち手
書き動作と音声とを用いることによって、単語認識処理
を大幅に改善できるという明白な証拠が得られた。本発
明の教示は、人間要素実験技法に関して先に言及した問
題を処理する優れた「人間要素ワークベンチ(huma
n factor workbench)」を提供する
ために用いることができる。全心理学的実験に典型的な
制御された環境において、本発明は、いくつかの実施が
可能である。例えば、多くの異なるユーザを伴う短い実
験(これに対するトレーニングが正統と認められる)の
ために、ISWIは、全体の精度を、語彙と文法に課せ
られた制限に依存する、筆記者/話者独立のシステムを
提供する。また、長時間にわたって同じ被検者の集合を
必要とする長い実験に対して、ISWIは、インターフ
ェースの自然さを改善するために、音声および重ね書き
認識を結合することのできる、筆記者/話者依存のシス
テムを提供する。以上本発明をその好適実施例に関して
特定して示し、記載したが、本発明の範囲および精神か
ら逸脱せずに、形式および詳細において変更することが
できることを、当業者は理解するであろう。
書き動作と音声とを用いることによって、単語認識処理
を大幅に改善できるという明白な証拠が得られた。本発
明の教示は、人間要素実験技法に関して先に言及した問
題を処理する優れた「人間要素ワークベンチ(huma
n factor workbench)」を提供する
ために用いることができる。全心理学的実験に典型的な
制御された環境において、本発明は、いくつかの実施が
可能である。例えば、多くの異なるユーザを伴う短い実
験(これに対するトレーニングが正統と認められる)の
ために、ISWIは、全体の精度を、語彙と文法に課せ
られた制限に依存する、筆記者/話者独立のシステムを
提供する。また、長時間にわたって同じ被検者の集合を
必要とする長い実験に対して、ISWIは、インターフ
ェースの自然さを改善するために、音声および重ね書き
認識を結合することのできる、筆記者/話者依存のシス
テムを提供する。以上本発明をその好適実施例に関して
特定して示し、記載したが、本発明の範囲および精神か
ら逸脱せずに、形式および詳細において変更することが
できることを、当業者は理解するであろう。
【図1】本発明の第1の実施例にしたがって構成された
、音声情報及び手書き動作情報を別個に用いるようにし
た、メッセージ認識システムのブロック図である。
、音声情報及び手書き動作情報を別個に用いるようにし
た、メッセージ認識システムのブロック図である。
【図2】本発明の第2の実施例にしたがって構成された
、音声情報及び手書き動作情報を統合して用いるように
した、メッセージ認識システムのブロック図である。
、音声情報及び手書き動作情報を統合して用いるように
した、メッセージ認識システムのブロック図である。
【図3】システムに入力され得る手書き文字の4つの異
なる形式の例を示す図である。
なる形式の例を示す図である。
【図4】(a)は、手書き文字のサンプリング点(P)
に対する手書き動作特徴ベクトルの各要素を説明するた
めの説明図、(b)は、複数の空間属性を集合すること
によって、点(P)に対して発生した四次元の手書き動
作特徴ベクトルを示す図、(c)は、音声特徴ベクトル
を発生するために処理した周波数領域の音声サンプル、
即ち、全てが等しい帯域幅である必要はない複数の周波
数帯における振幅を示すグラフ、(d)は、音声サンプ
ルから発生した20次元音声特徴ベクトルを示す図であ
る。
に対する手書き動作特徴ベクトルの各要素を説明するた
めの説明図、(b)は、複数の空間属性を集合すること
によって、点(P)に対して発生した四次元の手書き動
作特徴ベクトルを示す図、(c)は、音声特徴ベクトル
を発生するために処理した周波数領域の音声サンプル、
即ち、全てが等しい帯域幅である必要はない複数の周波
数帯における振幅を示すグラフ、(d)は、音声サンプ
ルから発生した20次元音声特徴ベクトルを示す図であ
る。
【図5】音声と手書き動作とを組み合わせた組み合わせ
特徴ベクトルを示し、(a)は、図4(b)の手書き動
作特徴ベクトルと図4(d)の音声特徴ベクトルとを単
に連鎖して形成したベクトルを示す図、(b)は、図4
(d)の音声特徴ベクトルと、図4(c)と同様な周波
数分析を行うことによって図4(a)から発生される手
書き動作特徴ベクトルの別の形状との連鎖により形成し
たベクトルを示す図である。
特徴ベクトルを示し、(a)は、図4(b)の手書き動
作特徴ベクトルと図4(d)の音声特徴ベクトルとを単
に連鎖して形成したベクトルを示す図、(b)は、図4
(d)の音声特徴ベクトルと、図4(c)と同様な周波
数分析を行うことによって図4(a)から発生される手
書き動作特徴ベクトルの別の形状との連鎖により形成し
たベクトルを示す図である。
【図6】本発明のメッセージ認識システムの動作を示す
フロー図。
フロー図。
10 システム
16 ポインティング装置
18 統合型音声及び手書き動作インターフェー
ス(ISWI) 24 手書き動作特徴ベクトル(FVH)プロセ
ッサ26 音声特徴ベクトル(FVS)プロセッ
サ28 手書き動作モデルトレーナ(MTH)プ
ロセッサ 30 音声モデルトレーナ(MTS)プロセッサ
32 手書き単語モデル(WMH)ブロック34
音声単語モデル(WMS)ブロック36
手書き動作尤度推定(LEH)器37 ウエイ
ト(W)ブロック
ス(ISWI) 24 手書き動作特徴ベクトル(FVH)プロセ
ッサ26 音声特徴ベクトル(FVS)プロセッ
サ28 手書き動作モデルトレーナ(MTH)プ
ロセッサ 30 音声モデルトレーナ(MTS)プロセッサ
32 手書き単語モデル(WMH)ブロック34
音声単語モデル(WMS)ブロック36
手書き動作尤度推定(LEH)器37 ウエイ
ト(W)ブロック
Claims (43)
- 【請求項1】a) ユーザの音声を第1の信号に変換す
る第1手段と、b) ユーザの手書き動作を第2の信号
に変換する第2手段と、c) 前記第1の信号が結合さ
れる第1の入力と、前記第2の信号が結合される第2の
入力とを有し、前記第1の信号および前記第2の信号を
処理して、前記第1の信号および前記第2の信号によっ
て別個に伝達される一貫したメッセージ、または前記第
1の信号および前記第2の信号によって共同で伝達され
る一貫したメッセージをデコードする第3手段とからな
る事を特徴とする自動メッセージ認識システム。 - 【請求項2】請求項1記載のシステムにおいて、前記第
1手段は、マイクロフォンを備え、該マイクロフォンは
、その出力をデジタル信号に変換する手段に結合されて
いる事を特徴とする自動メッセージ認識システム。 - 【請求項3】請求項1記載のシステムにおいて、前記第
1手段は、ユーザの発声の間少なくともユーザの口を撮
影する手段を備えている事を特徴とする自動メッセージ
認識システム。 - 【請求項4】請求項1記載のシステムにおいて、前記第
2手段は、筆記用具よってなされたストロークを、その
筆記用具の動きを表すデジタルデータに変換する手段を
有する電子タブレットを備えている事を特徴とする自動
メッセージ認識システム。 - 【請求項5】請求項1記載のシステムにおいて、前記第
3手段は、前記第1の信号を複数の第1の多次元ベクト
ルに変換する第1の手段と、前記第2の信号を第2の多
次元ベクトルに変換する第2の手段とを備えている事を
特徴とする自動メッセージ認識システム。 - 【請求項6】請求項5記載のシステムにおいて、前記第
3手段は、前記複数の第1の多次元ベクトルのそれぞれ
を、前記複数の第2の多次元ベクトルのそれぞれと組み
合わせ、複数の第3の多次元ベクトルを形成する組み合
わせ手段を備えている事を特徴とする自動メッセージ認
識システム。 - 【請求項7】請求項5記載のシステムにおいて、前記第
3手段は更に、前記第1の変換手段の動作に応じて第1
の単語モデル集合をトレーニングする手段、及び前記第
2の変換手段の動作に応じて第2の単語モデル集合をト
レーニングする手段を備えている事を特徴とする自動メ
ッセージ認識システム。 - 【請求項8】請求項7記載のシステムにおいて、前記第
1の単語モデル集合が、秘匿マルコフモデルで構成され
ている事を特徴とする自動メッセージ認識システム。 - 【請求項9】請求項7記載のシステムにおいて、前記第
1の単語モデル集合が、ニューラルネットワークで構成
されている事を特徴とする自動メッセージ認識システム
。 - 【請求項10】請求項7記載のシステムにおいて、前記
第2の単語モデル集合が、柔軟性照合手段により発生さ
れたストロークテンプレートからなる文字プロトタイプ
によって形成されている事を特徴とする自動メッセージ
認識システム。 - 【請求項11】請求項6記載のシステムにおいて、前記
第3手段は、前記組み合わせ手段の動作に応答して、手
書きされた単語およびそれに対応する発声された単語に
応じた候補単語を発生するため、単一の単語モデル集合
のパラメータをトレーニングする手段を備えている事を
特徴とする自動メッセージ認識システム。 - 【請求項12】請求項11記載のシステムにおいて、前
記単一の単語モデル集合は、秘匿マルコフモデルからな
る事を特徴とする自動メッセージ認識システム。 - 【請求項13】請求項11記載のシステムにおいて、前
記単一の単語モデル集合は、ニューラルネットワーク手
段からなる事を特徴とする自動メッセージ認識システム
。 - 【請求項14】請求項7記載のシステムにおいて、該シ
ステムは更に、前記第1の信号に応答して前記第1の単
語モデル集合について計算することによって得られた第
1の候補単語リストに応じ、かつ前記第2の信号に応答
して前記第2の単語モデル集合について計算することに
よって得られた第2の候補単語リストに応じて、候補単
語を組み合わせた第3のリストを発生する手段を備えて
いる事を特徴とする自動メッセージ認識システム。 - 【請求項15】請求項14記載のシステムにおいて、該
システムは更に、前記発生手段と結合され、前記第3の
リストに応答して、前記メッセージの全てまたは一部を
表す最も高い確率を有する単語を第3のリストから選択
する手段を備えている事を特徴とする自動メッセージ認
識システム。 - 【請求項16】請求項11記載のシステムにおいて、該
システムは更に、前記第1の信号および前記第2の信号
に応答した前記単一の単語モデルの集合についての計算
によって得られた候補単語のリストに応答して、前記メ
ッセージの全てまたは一部を表す最も高い確率を有する
単語を候補単語のリストから選択する手段を更に備えて
いる事を特徴とする自動メッセージ認識システム。 - 【請求項17】請求項6記載のシステムにおいて、前記
第3手段は更に、前記第1の信号および前記第2の信号
に結合された入力、及び前記第1の変換手段および前記
第2の変換手段に結合された出力を有する正規化手段で
あって、前記第1の信号を前記第2の信号に関して正規
化する正規化手段を備えている事を特徴とする自動メッ
セージ認識システム。 - 【請求項18】請求項14記載のシステムにおいて、前
記発生手段は、前記第1のリストからの単語に関連する
確率を、前記第2のリストからの単語に関連する確率に
関して、必要に応じてスケーリングするスケーリング手
段を備えている事を特徴とする自動メッセージ認識シス
テム。 - 【請求項19】請求項18記載のシステムにおいて、該
システムは更に、前記スケーリング手段の出力に結合さ
れ、所定の重み付けのウエイトにしたがって前記第1お
よび第2のリストの単語に関連する単語の確率を併合す
る併合手段を備えており、該併合手段は、前記第1およ
び第2の候補単語リストを組み合わせて第3のリストを
作成する手段を備えている事を特徴とする自動メッセー
ジ認識システム。 - 【請求項20】自動メッセージ認識システムを動作させ
る方法において、a)ユーザの音声を第1の信号に変換
する音声変換ステップと、b) ユーザの手書き動作を
第2の信号に変換する手書き動作変換ステップと、c)
前記第1の信号および前記第2の信号を処理して、前
記第1の信号および前記第2の信号によって別個に伝達
された一貫したメッセージ、または前記第1の信号およ
び前記第2の信号によって共同で伝達された一貫したメ
ッセージをデコードする処理ステップとからなる事を特
徴とする方法。 - 【請求項21】請求項20記載の方法において、前記音
声変換ステップは、マイクロフォンの出力をデジタル信
号に変換するステップを含んでいる事を特徴とする方法
。 - 【請求項22】請求項20記載の方法において、前記音
声変換ステップは、ユーザの発声の間、少なくともユー
ザの口を撮影するステップを含んでいる事を特徴とする
方法。 - 【請求項23】請求項20記載の方法において、前記手
書き動作変換ステップは、筆記用具によって形成された
ストロークを、該筆記用具の動きを表すデジタルデータ
に変換するステップを含んでいる事を特徴とする方法。 - 【請求項24】請求項20記載の方法において、前記処
理ステップは、前記第1の信号を複数の第1の多次元ベ
クトルに変換するステップと、前記第2の信号を複数の
第2の多次元ベクトルに変換するステップとを含んでい
る事を特徴とする方法。 - 【請求項25】請求項24記載の方法において、該方法
は更に、前記複数の第1の多次元ベクトルのそれぞれと
前記複数の第2の多次元ベクトルのされぞれとを組み合
わせ、複数の第3の多次元ベクトルを形成する組み合わ
せステップを含んでいる事を特徴とする方法。 - 【請求項26】請求項24記載の方法において、該方法
は更に、前記複数の第1の多次元ベクトルを用いて第1
の単語モデル集合のパラメータをトレーニングするステ
ップと、前記複数の第2の多次元ベクトルを用いて第2
の単語モデル集合のパラメータをトレーニングするステ
ップとを含んでいる事を特徴とする方法。 - 【請求項27】請求項26記載の方法において、前記第
1の単語モデル集合をトレーニングするステップは、マ
ルコフ単語モデル集合をトレーニングするステップを含
んでいる事を特徴とする方法。 - 【請求項28】請求項26記載の方法において、前記第
1の単語モデル集合をトレーニングするステップは、ニ
ューラルネットワークをトレーニングするステップを含
んでいる事を特徴とする方法。 - 【請求項29】請求項26記載の方法において、前記第
2の単語モデルをトレーニングするステップは、柔軟的
照合技法を用いることによって、入力ストロークをスト
ロークテンプレートに変換するステップを含んでいる事
を特徴とする方法。 - 【請求項30】請求項25記載の方法において、前記組
み合わせステップは、前記複数の第3の多次元ベクトル
を用いて、単一の単語モデル集合のパラメータをトレー
ニングするステップを含んでいる事を特徴とする方法。 - 【請求項31】請求項30記載の方法において、前記単
一の単語モデル集合をトレーニングするステップは、秘
匿マルコフ言語モデルの集合をトレーニングするステッ
プを含んでいる事を特徴とする方法。 - 【請求項32】請求項26記載の方法において、前記第
1の単語モデル集合をトレーニングするステップは、第
1の言語モデル確率集合をトレーニングするステップを
含んでいる事を特徴とする方法。 - 【請求項33】請求項26記載の方法において、前記第
2の単語モデル集合をトレーニングするステップは、第
2の言語モデル確率集合をトレーニングするステップを
含んでいる事を特徴とする方法。 - 【請求項34】請求項30記載の方法において、前記単
一の単語モデル集合をトレーニングするステップは、単
一の言語モデル確率集合をトレーニングするステップを
含んでいる事を特徴とする方法。 - 【請求項35】請求項30記載の方法において、前記単
一の単語モデル集合をトレーニングするステップは、ニ
ューラルネットワークをトレーニングするステップを含
んでいる事を特徴とする方法。 - 【請求項36】請求項26記載の方法において、該方法
は更に、前記第1の信号に応じた前記第1の単語モデル
集合についての計算によって得られた第1の候補単語リ
ストに応答し、かつ、前記第2の信号に応じた前記第2
の単語モデル集合についての計算によって得られた第2
の候補単語リストに応答して、第3の候補単語組み合わ
せリストを発生する発生ステップを含んでいる事を特徴
とする方法。 - 【請求項37】請求項36記載の方法において、該方法
は更に、前記第3の候補単語組み合わせリストから、メ
ッセージの全部または一部を表す最大の確率を有する1
つの単語を選択するステップを含んでいる事を特徴とす
る方法。 - 【請求項38】請求項30記載の方法において、該方法
は更に、前記単一の単語モデル集合についての計算によ
って得られた候補単語リストに応じて、該リストから、
メッセージの全部または一部を表す最大の確率を有する
単語を選択するステップを含んでいる事を特徴とする方
法。 - 【請求項39】請求項24記載の方法において、前記処
理ステップは、前記第1の信号を前記第2の信号に関し
て、共通の時間軸に正規化する初期ステップを含んでい
る事を特徴とする方法。 - 【請求項40】請求項36記載の方法において、前記発
生ステップは、前記第2のリストからの単語に関連した
確率に関して、前記第1のリストからの単語に関連する
確率を、必要に応じてスケーリングするスケーリングス
テップを含んでいる事を特徴とする方法。 - 【請求項41】請求項40記載の方法において、前記ス
ケーリングステップの後に、前記第1の候補単語リスト
からの単語に関連する単語の確率と、前記第2の候補単
語リストからの単語に関する確率とを、所定の重み付け
ウエイトにしたがって合併するステップが続いている事
を特徴とする方法。 - 【請求項42】自動メッセージ認識システムを動作させ
る方法において、a)ユーザの音声を第1の信号に変換
するステップと、b) 前記第1の信号を処理し、それ
によって伝達される第1のメッセージをデコードするス
テップと、c) 前記デコードされた第1のメッセージ
内における誤りの発生に応答して、ユーザの手書き動作
を第2の信号に変換するステップと、d) 前記第2の
信号を処理して、それによって伝達される第2のメッセ
ージをデコードするステップと、e) 前記第1のメッ
セージ内の誤りを、前記第2のメッセージを用いること
によって訂正するステップとからなる事を特徴とする方
法。 - 【請求項43】自動メッセージ認識システムを動作させ
る方法において、a)ユーザの手書き動作を第1の信号
に変換するステップと、b) 前記第1の信号を処理し
て、それによって伝達される第1のメッセージをデコー
ドするステップと、c) 前記デコードされた第1のメ
ッセージ内における誤りの発生に応答して、ユーザの音
声を第2の信号に変換するステップと、d) 前記第2
の信号を処理して、それによって伝達される第2のメッ
セージをデコードするステップと、e) 前記第1のメ
ッセージ内の誤りを、前記第2のメッセージを用いるこ
とによって訂正するステップとからなる事を特徴とする
方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67660191A | 1991-03-28 | 1991-03-28 | |
US676601 | 1991-03-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04329598A true JPH04329598A (ja) | 1992-11-18 |
JPH0782353B2 JPH0782353B2 (ja) | 1995-09-06 |
Family
ID=24715166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4004098A Expired - Fee Related JPH0782353B2 (ja) | 1991-03-28 | 1992-01-13 | 音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6285785B1 (ja) |
EP (1) | EP0505621A3 (ja) |
JP (1) | JPH0782353B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0883093A (ja) * | 1994-09-14 | 1996-03-26 | Canon Inc | 音声認識装置及び該装置を用いた情報処理装置 |
US20160253992A1 (en) * | 2015-02-27 | 2016-09-01 | Lenovo (Singapore) Pte. Ltd. | Ocr through voice recognition |
Families Citing this family (158)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272293A (ja) * | 1998-03-24 | 1999-10-08 | Sanyo Electric Co Ltd | 遠隔制御装置 |
US6816274B1 (en) * | 1999-05-25 | 2004-11-09 | Silverbrook Research Pty Ltd | Method and system for composition and delivery of electronic mail |
US6904405B2 (en) * | 1999-07-17 | 2005-06-07 | Edwin A. Suominen | Message recognition using shared language model |
US8392188B1 (en) * | 1999-11-05 | 2013-03-05 | At&T Intellectual Property Ii, L.P. | Method and system for building a phonotactic model for domain independent speech recognition |
US6847959B1 (en) * | 2000-01-05 | 2005-01-25 | Apple Computer, Inc. | Universal interface for retrieval of information in a computer system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7035788B1 (en) * | 2000-04-25 | 2006-04-25 | Microsoft Corporation | Language model sharing |
US7024350B2 (en) * | 2000-07-20 | 2006-04-04 | Microsoft Corporation | Compact easily parseable binary format for a context-free grammer |
JP4346814B2 (ja) * | 2000-12-27 | 2009-10-21 | キヤノン株式会社 | 情報処理装置及びその方法、コンピュータ可読メモリ、プログラム |
WO2002052394A1 (en) * | 2000-12-27 | 2002-07-04 | Intel Corporation | A method and system for concurrent use of two or more closely coupled communication recognition modalities |
ES2236483T3 (es) * | 2001-02-28 | 2005-07-16 | Voice-Insight | Sistema de consulta de lenguaje natural para acceder a un sistema de informacion. |
US6931351B2 (en) * | 2001-04-20 | 2005-08-16 | International Business Machines Corporation | Decision making in classification problems |
DE10132012B4 (de) * | 2001-07-03 | 2004-02-12 | Siemens Ag | Skalierung von Ähnlichkeitsmaßen für ein biometrisches Verfahren |
KR20030021395A (ko) * | 2001-09-06 | 2003-03-15 | 정현열 | 에치엠엠 기반의 음성/문자 공용 인식 장치 및 그 방법 |
US20030112277A1 (en) * | 2001-12-14 | 2003-06-19 | Koninklijke Philips Electronics N.V. | Input of data using a combination of data input systems |
DE10204924A1 (de) * | 2002-02-07 | 2003-08-21 | Philips Intellectual Property | Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen |
US20030189603A1 (en) * | 2002-04-09 | 2003-10-09 | Microsoft Corporation | Assignment and use of confidence levels for recognized text |
US6986106B2 (en) | 2002-05-13 | 2006-01-10 | Microsoft Corporation | Correction widget |
US20030233237A1 (en) * | 2002-06-17 | 2003-12-18 | Microsoft Corporation | Integration of speech and stylus input to provide an efficient natural input experience |
US7137076B2 (en) * | 2002-07-30 | 2006-11-14 | Microsoft Corporation | Correcting recognition results associated with user input |
AU2003900865A0 (en) * | 2003-02-26 | 2003-03-13 | Silverbrook Research Pty Ltd | Methods, systems and apparatus (NPW010) |
TWI229844B (en) * | 2003-05-08 | 2005-03-21 | Acer Inc | Recognition method to integrate speech input and handwritten input, and system thereof |
US20070198262A1 (en) * | 2003-08-20 | 2007-08-23 | Mindlin Bernardo G | Topological voiceprints for speaker identification |
US20050125224A1 (en) * | 2003-11-06 | 2005-06-09 | Myers Gregory K. | Method and apparatus for fusion of recognition results from multiple types of data sources |
TWI235358B (en) * | 2003-11-21 | 2005-07-01 | Acer Inc | Interactive speech method and system thereof |
US7848573B2 (en) * | 2003-12-03 | 2010-12-07 | Microsoft Corporation | Scaled text replacement of ink |
US7580570B2 (en) * | 2003-12-09 | 2009-08-25 | Microsoft Corporation | Accuracy model for recognition signal processing engines |
US7506271B2 (en) * | 2003-12-15 | 2009-03-17 | Microsoft Corporation | Multi-modal handwriting recognition correction |
US7630900B1 (en) * | 2004-12-01 | 2009-12-08 | Tellme Networks, Inc. | Method and system for selecting grammars based on geographic information associated with a caller |
US7340686B2 (en) | 2005-03-22 | 2008-03-04 | Microsoft Corporation | Operating system program launch menu search |
GB2428124B (en) * | 2005-07-07 | 2010-04-14 | Hewlett Packard Development Co | Data input apparatus and method |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8077975B2 (en) * | 2008-02-26 | 2011-12-13 | Microsoft Corporation | Handwriting symbol recognition accuracy using speech input |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9230222B2 (en) * | 2008-07-23 | 2016-01-05 | The Quantum Group, Inc. | System and method enabling bi-translation for improved prescription accuracy |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8719014B2 (en) * | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US20120173242A1 (en) * | 2010-12-30 | 2012-07-05 | Samsung Electronics Co., Ltd. | System and method for exchange of scribble data between gsm devices along with voice |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9026428B2 (en) * | 2012-10-15 | 2015-05-05 | Nuance Communications, Inc. | Text/character input system, such as for use with touch screens on mobile phones |
JP2014127188A (ja) * | 2012-12-27 | 2014-07-07 | Toshiba Corp | 整形装置及び方法 |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
DE102013007964B4 (de) * | 2013-05-10 | 2022-08-18 | Audi Ag | Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10725650B2 (en) * | 2014-03-17 | 2020-07-28 | Kabushiki Kaisha Kawai Gakki Seisakusho | Handwritten music sign recognition device and program |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10691885B2 (en) * | 2016-03-30 | 2020-06-23 | Evernote Corporation | Extracting structured data from handwritten and audio notes |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11526571B2 (en) * | 2019-09-12 | 2022-12-13 | International Business Machines Corporation | Requesting an IP address using a non-textual based graphical resource identifier |
US20230060462A1 (en) * | 2021-08-27 | 2023-03-02 | Royal Bank Of Canada | Digital status tracking of funds |
CN116027911B (zh) * | 2023-03-29 | 2023-05-30 | 北京理工大学 | 一种基于音频信号的无接触手写输入识别方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3969700A (en) | 1974-04-10 | 1976-07-13 | International Business Machines Corporation | Regional context maximum likelihood error correction for OCR, keyboard, and the like |
US4024500A (en) | 1975-12-31 | 1977-05-17 | International Business Machines Corporation | Segmentation mechanism for cursive script character recognition systems |
JPS5759241A (en) | 1980-09-27 | 1982-04-09 | Nobuhiko Sasaki | Inputting method for kanji (chinese character) |
US4774677A (en) | 1981-08-06 | 1988-09-27 | Buckley Bruce S | Self-organizing circuits |
JPS5858637A (ja) | 1981-10-02 | 1983-04-07 | Nec Corp | 文章入力装置 |
JPS58129684A (ja) | 1982-01-29 | 1983-08-02 | Toshiba Corp | パタ−ン認識装置 |
JPS58134371A (ja) | 1982-02-03 | 1983-08-10 | Nec Corp | 日本語入力装置 |
US4736447A (en) | 1983-03-07 | 1988-04-05 | Gersh Korsinsky | Video computer |
GB2178578B (en) * | 1983-08-23 | 1987-08-19 | David Thurston Griggs | Speech-controlled phonetic typewriter or display device |
JPS60189070A (ja) | 1984-03-08 | 1985-09-26 | Fujitsu Ltd | 文字入力装置 |
US4731857A (en) | 1984-06-29 | 1988-03-15 | International Business Machines Corporation | Recognition system for run-on handwritten characters |
CA1223366A (en) | 1984-09-27 | 1987-06-23 | Abijah S. Fox | System for automatic adjustment and editing of handwritten text images |
JPS61240361A (ja) | 1985-04-17 | 1986-10-25 | Hitachi Electronics Eng Co Ltd | 手書き文字による文書作成装置 |
US4754489A (en) | 1985-10-15 | 1988-06-28 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US4805225A (en) | 1986-11-06 | 1989-02-14 | The Research Foundation Of The State University Of New York | Pattern recognition method and apparatus |
JP2558682B2 (ja) | 1987-03-13 | 1996-11-27 | 株式会社東芝 | 知的ワ−クステ−シヨン |
US4857912A (en) | 1988-07-27 | 1989-08-15 | The United States Of America As Represented By The Secretary Of The Navy | Intelligent security assessment system |
US5287275A (en) | 1988-08-20 | 1994-02-15 | Fujitsu Limited | Image recognition apparatus and method for recognizing a pattern within an image |
AT391035B (de) * | 1988-12-07 | 1990-08-10 | Philips Nv | System zur spracherkennung |
US5040213A (en) * | 1989-01-27 | 1991-08-13 | Ricoh Company, Ltd. | Method of renewing reference pattern stored in dictionary |
US4993068A (en) | 1989-11-27 | 1991-02-12 | Motorola, Inc. | Unforgeable personal identification system |
AU8641891A (en) | 1990-09-26 | 1992-04-15 | Richard G. Roth | Audio-augmented handwriting recognition |
-
1991
- 1991-12-10 EP EP19910121181 patent/EP0505621A3/en not_active Withdrawn
-
1992
- 1992-01-13 JP JP4004098A patent/JPH0782353B2/ja not_active Expired - Fee Related
-
1993
- 1993-06-07 US US08/073,091 patent/US6285785B1/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0883093A (ja) * | 1994-09-14 | 1996-03-26 | Canon Inc | 音声認識装置及び該装置を用いた情報処理装置 |
US20160253992A1 (en) * | 2015-02-27 | 2016-09-01 | Lenovo (Singapore) Pte. Ltd. | Ocr through voice recognition |
US10133920B2 (en) * | 2015-02-27 | 2018-11-20 | Lenovo (Singapore) Pte. Ltd. | OCR through voice recognition |
Also Published As
Publication number | Publication date |
---|---|
EP0505621A2 (en) | 1992-09-30 |
EP0505621A3 (en) | 1993-06-02 |
US6285785B1 (en) | 2001-09-04 |
JPH0782353B2 (ja) | 1995-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH04329598A (ja) | 音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法 | |
Waibel et al. | Multimodal interfaces | |
Anusuya et al. | Speech recognition by machine, a review | |
US5502774A (en) | Automatic recognition of a consistent message using multiple complimentary sources of information | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
Ahsiah et al. | Tajweed checking system to support recitation | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
Reddy et al. | Speech-to-Text and Text-to-Speech Recognition Using Deep Learning | |
Grewal et al. | Isolated word recognition system for English language | |
Rahman et al. | Arabic Speech Recognition: Advancement and Challenges | |
Ballard et al. | A multimodal learning interface for word acquisition | |
Manjunath et al. | Development of phonetic engine for Indian languages: Bengali and Oriya | |
Mendiratta et al. | A robust isolated automatic speech recognition system using machine learning techniques | |
Suhm | Multimodal interactive error recovery for non-conversational speech user interfaces | |
Dharun et al. | Voice and speech recognition for tamil words and numerals | |
Johnson et al. | Comparison of algorithms to divide noisy phone sequences into syllables for automatic unconstrained English speaking proficiency scoring | |
Venkatagiri | Speech recognition technology applications in communication disorders | |
Sivaraman | Articulatory representations to address acoustic variability in speech | |
Kumar et al. | Bridging the gap between disabled people and new technology in interactive web application with the help of voice | |
Zhou et al. | Applying the Na ï ve Bayes Classifier to Assist Users in Detecting Speech Recognition Errors | |
Agrawal et al. | Robust raw waveform speech recognition using relevance weighted representations | |
Malekzadeh et al. | The recognition of persian phonemes using PPNet | |
Gujral et al. | Various Issues In Computerized Speech Recognition Systems | |
Mishra et al. | A Systematic Review on Automatic Speech Recognition for Odia Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |