JPH1083195A

JPH1083195A - 入力言語認識装置及び入力言語認識方法

Info

Publication number: JPH1083195A
Application number: JP8238025A
Authority: JP
Inventors: 晃二 ▲高▼木; Koji Takagi; Satoshi Miyashita; 聡宮下
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1996-09-09
Filing date: 1996-09-09
Publication date: 1998-03-31

Abstract

(57)【要約】【課題】入力言語を確実に認識すると共に、認識文法
を用意せずに音声認識を可能にする。【解決手段】入力言語認識装置９０を文字認識手段９
１と音声認識手段９２と融合手段９３とか構成する。文
字認識手段９１は、タブレット１０１と文字認識部１０
２と辞書部１０３とからなる。音声認識手段９２はＨＭ
Ｍネットワーク作成部１０５とマイク１０６と分析部１
０７とＨＭＭ照合部１０８とからなる。融合手段９３
は、文字認識手段９１の文字認識部１０２からの出力情
報に基づいて認識文法を自動的に生成して、声認識手段
９２のＨＭＭネットワーク作成部１０５に出力する認識
文法自動生成部１０４からなる。これにより、文字認識
と音声認識を融合させ、これらの一方だけでは認識が困
難なときでも、確実に認識することができるようにな
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声入力と文字入
力を融合させた入力言語認識装置及び入力言語認識方法
に関するものである。

【０００２】

【従来の技術】音声を認識する装置と文字を認識する装
置は一般に知られている。ここでは、音声認識としてＨ
ＭＭ音声認識を、文字認識としてオンライン手書き文字
認識を例に説明する。

【０００３】（１）ＨＭＭ音声認識文献名：沖電気研究開発 1995年4月第166号 vol.6
2，No.2，pp.7〜12 ＨＭＭ（Hidden Marcov Model）音声認識は、音声を
確率的な遷移ネットワークとみなして、認識処理を行う
ものである。ＨＭＭは、その統計的性質から、音声パタ
ーンのような発声速度に伴う時間変動、発声の個人差や
調音結合などの揺らぎを含むパターンを適切に表現でき
るため、音声認識の分野で近年特に用いられている手法
である。このＨＭＭ音声認識装置のブロック図を図２に
示す。

【０００４】図示するように、ＨＭＭ音声認識は主に、
ＨＭＭネットワーク作成部２０１と分析部２０５とＨＭ
Ｍ照合部２０９から構成されている。各部の説明を以下
に行う。

【０００５】(1) ＨＭＭネットワーク作成部２０１ユーザは認識文法を入力する。即ち、認識させようとす
るすべての単語について、その単語、その単語の読み、
単語と単語の接続規則を記述するルール等を、テキスト
データとして入力する。このユーザにより与えられた前
記認識文法とＨＭＭ音素辞書２０２とネットワークコン
パイラ２０３とによってＨＭＭネットワーク２０４が作
成される。このＨＭＭネットワーク２０４は、ユーザが
指定した認識文法に基づいて音声照合動作を制御するた
めの制御情報である。

【０００６】(2) 分析部２０５入力された音声情報に対して、音響分析２０６で分析窓
がかけられて特徴パラメータの抽出が行われる。次に、
雑音レベル逐次学習２０７で抽出された雑音区間のパラ
メータ値を基に音声区間検出２０８が行われる。

【０００７】(3) ＨＭＭ照合部２０９切り出された音声区間の特徴パラメータを用いて、ＨＭ
Ｍネットワーク２０４を基に、ビタビビームサーチ２１
０と呼ばれる照合が行われ、認識結果が出力される。

【０００８】以上のように、ＨＭＭ音声認識では、ユー
ザが予め認識文法を入力し、この認識文法に基づいて作
成されたＨＭＭネットワーク２０４を基に、ＨＭＭ照合
が行われる。

【０００９】（２）オンライン手書き文字認識オンライン手書き文字認識は、筆記された文字の軌跡を
タブレットにより一定時間ごとにｘ，ｙ方向の座標とし
て抽出し、この座標列データを使って、ほぼ実時間で文
字を識別する技術である。オンライン手書き文字認識に
おいては、文字は部分パターンの集まりであり、さらに
部分パターンはストロークの集まりであると定義する。
これらの特徴値を使って認識を行う数値化大分類法によ
る文字認識装置のブロック図を図３に示す。

【００１０】タブレット３０１から文字が入力される。
入力された文字は、前処理部３０３で部分パターンによ
る特徴値の抽出が行われる。次いで、照合部３０４にお
いて、前処理部３０３で抽出された特徴値と辞書３０５
に予め登録されていたパターンとのマッチングが行われ
る。このマッチングによって距離値の算出が行われ、そ
の距離値の小さい順に順位付けがされた複数の候補が認
識結果として特定される。なお、前処理部３０３と照合
部３０４とで文字認識部３０２が構成されている。

【００１１】

【発明が解決しようとする課題】しかしながら、以上述
べたような音声認識処理及び文字認識処理をそれぞれ単
独で用いた場合には、以下に掲げるような問題点があ
る。

【００１２】（１）いずれの場合も認識精度があまり
高くないので、丁寧な文字入力、丁寧な発声でなけれ
ば、高い確率で認識することができない。

【００１３】（２）劣悪な環境下、例えば騒音のある
場所やタブレット３０１が振動する場所では、音声、文
字の認識率が低下する。

【００１４】（３）音声認識の場合、用意する認識文
法によって発声内容が制限される。さらに、認識文法は
ユーザが個別に入力しなければならないため、多数の認
識文法を用意するのは煩雑である。

【００１５】（４）音声認識の場合、同音文字
（「橋」と「端」など）の区別がつかない。

【００１６】（５）文字認識の場合、同形文字
（「夕」と「タ」など）の区別がつかない。

【００１７】

【課題を解決するための手段】前記課題を解決するため
に第１の発明に係る入力言語認識装置は、入力文字を認
識する文字認識手段と、入力音声を認識する音声認識手
段と、これら文字認識手段及び音声認識手段で個別に認
識された同じ意味の入力言語を融合させて入力言語を特
定する融合手段とを備えたことを特徴とする。

【００１８】前記構成により、同じ意味の言語が文字認
識手段から文字情報として入力されると共に、音声認識
手段から音声情報として入力されて、各認識手段で個別
に認識される。そして、各認識手段で認識された入力言
語が融合手段で融合させて最終的に特定される。

【００１９】これにより、振動等のために正確に文字を
入力することができない場合や、騒音等のために音声が
かき消されるような場合等にも、文字認識手段と音声認
識手段とが相互に補完し合って、入力言語の認識を正確
にかつ確実に行うことができるようになる。

【００２０】第２の発明に係る入力言語認識装置は、文
字認識手段が、文字を入力する文字入力部と、予め文字
情報が登録された辞書部と、前記文字入力部から入力さ
れた文字情報と前記辞書部に登録された文字情報とを照
合して候補を選択する照合部とからなり、音声認識手段
が、音声を入力する音声入力部と、別途入力された認識
文法に基づいて制御情報を作成する制御情報作成部と、
この制御情報作成部で作成された制御情報に基づいて前
記音声入力部からの音声情報を照合して入力言語を特定
する照合部とからなり、融合手段が、前記文字認識手段
の照合部からの出力情報に基づいて前記認識文法を生成
して前記制御情報作成部に出力する認識文法生成部から
なること特徴とする。

【００２１】前記構成により、文字認識手段において、
文字入力部からの入力文字情報と辞書部に登録された文
字情報とが、照合部で照合されて候補が１又は複数選択
される。融合手段である認識文法生成部では、前記照合
部からの１又は複数の候補に基づいて認識文法が生成さ
れ、制御情報作成部に出力される。

【００２２】音声認識手段では、制御情報作成部におい
て、認識文法生成部からの認識文法に基づいて制御情報
が作成される。照合部では、前記制御情報に基づいて音
声入力部からの音声情報が照合されて入力言語が特定さ
れる。

【００２３】これにより、振動等のために正確に文字を
入力することができない場合や、騒音等のために正確に
音声を入力することができない場合においても、文字認
識手段と音声認識手段とが相互に補完し合って、入力言
語の認識を正確にかつ確実に行うことができるようにな
る。

【００２４】第３の発明に係る入力言語認識方法は、文
字を入力する文字入力工程と、入力された文字を認識し
て文字候補を選択する文字候補選択工程と、文字認識結
果として得られた文字候補に対応する読みを検索する検
索工程と、検索した読みをもとに音声認識用の認識文法
を生成する認識文法生成工程と、生成された認識文法に
基づいて音声照合処理用の制御情報を作成する制御情報
作成工程と、音声を入力する音声入力工程と、入力され
た音声情報に対して前記制御情報作成工程で作成された
制御情報を基に照合が行われて文字及び音声で入力され
た入力言語が特定される照合工程とからなることを特徴
とする。

【００２５】この入力言語認識方法により、文字入力工
程及び音声入力工程でそれぞれ入力された文字及び音声
による入力言語の情報が、それぞれ照合工程での処理情
報として用いられて相互に補完し合う。これにより、入
力言語の認識を正確にかつ確実に行うことができるよう
になる。

【００２６】

【発明の実施の形態】以下、本発明の実施形態を添付図
面に基づいて説明する。

【００２７】［入力言語認識装置］図１は本実施形態に
係る入力言語認識装置９０を示すブロック図である。こ
の入力言語認識装置９０は、入力文字を認識する文字認
識手段９１と、入力音声を認識する音声認識手段９２
と、これら文字認識手段９１及び音声認識手段９２で個
別に認識された同じ意味の入力言語を融合させて入力言
語を特定する融合手段９３とから構成されている。

【００２８】文字認識手段９１は、オンライン手書き文
字認識によるもので、文字を入力する文字入力部として
のタブレット１０１と、予め文字情報が登録された辞書
部１０３と、タブレット１０１より入力された文字情報
から抽出された特徴と辞書部１０３に登録された文字の
パターンとを照合して候補を選択する照合部としての文
字認識部１０２とから構成されている。

【００２９】音声認識手段９２は、音声を入力する音声
入力部としてのマイク１０６と、前述した従来の分析部
２０５と同様にして音声区間検出が行われる分析部１０
７と、別途入力された認識文法に基づいてＨＭＭネット
ワーク（ＨＭＭ照合部１０８での照合処理に用いる制御
情報）を作成するＨＭＭネットワーク作成部１０５と、
このＨＭＭネットワーク作成部１０５で作成されたＨＭ
Ｍネットワークに基づいて分析部１０７からの音声情報
をＨＭＭ照合して入力言語を特定するＨＭＭ照合部１０
８とから構成されている。

【００３０】融合手段９３は、文字認識手段９１の文字
認識部１０２からの出力情報に基づいて前記認識文法を
自動的に生成してＨＭＭネットワーク作成部１０５に出
力する認識文法自動生成部１０４によって構成されてい
る。

【００３１】なお、文字認識部１０２、ＨＭＭネットワ
ーク作成部１０５、分析部１０７およぴＨＭＭ照合部１
０８の動作は、従来技術で説明した文字認識部３０２、
ＨＭＭネットワーク作成部２０１、分析部２０５、ＨＭ
Ｍ照合部２０９の動作と同様である。

【００３２】［入力言語認識方法］次に、前記構成の入
力言語認識装置９０を用いた入力言語認識方法について
説明する。

【００３３】文字を入力する文字入力工程と、入力され
た文字を認識して文字候補を選択する文字候補選択工程
と、文字認識結果として得られた文字候補に対応する読
みを検索する検索工程と、検索した読みをもとに音声認
識用の認識文法を生成する認識文法生成工程とが、文字
認識手段９１及び融合手段９３において行われる。

【００３４】具体的には、タブレット１０１に文字が入
力されると、文字認識部１０２で入力文字の特徴が抽出
され、辞書１０３に予め登録されていたパターンとの照
合が行われて、候補の文字が複数得られる。認識文法自
動生成部１０４では、文字認識部１０２で結果として得
られた候補を用いて、音声認識に必要な認識文法の自動
生成が行われる。

【００３５】認識文法自動生成の手順を図４に示す。

【００３６】ステップ４０１において、文字認識部１０
２から文字入力があるか否かを判断する。文字入力があ
る場合には、ステップ４０２において、読みがな辞書４
０３から、認識候補文字に対応する読みを検索する。次
いで、ステップ４０４において、その読みを音声認識候
補として認識文法を生成してＨＭＭネットワーク作成部
１０５に出力する。

【００３７】その後、ステップ４０１に戻って、さらに
文字入力がある場合には前記処理を繰り返す。ない場合
にはＨＭＭネットワーク作成部１０５の処理に進む。

【００３８】図５にオンライン文字認識の結果例を示
す。ここでは、「情報」という文字を入力した場合を例
に説明する。

【００３９】入力文字「情」に対する文字認識部１０２
での文字認識の結果、候補として出力された文字は
「情」、「惜」、「等」、「惰」の４つである。出力さ
れた４つの候補に対して、それぞれに対応する読みが検
索される。これらの読みを、それぞれの側部にカッコ書
きで示す。

【００４０】同様に、入力文字「報」に対する文字認識
部１０２での文字認識の結果、候補として出力された文
字は「報」、「鉦」、「鈍」、「鈴」の４つである。出
力された４つの候補に対して、それぞれに対応する読み
が検索される。これらの読みを、それぞれの側部にカッ
コ書きで示す。

【００４１】認識文法自動生成部１０４では、この読み
を使って、発声単位、即ち対象となる音声認識の単位ご
とに、認識文法の自動生成が行われる。

【００４２】図６に、入力文字「情報」を／ｊｙｏ０ｈ
ｏ０／と発声する場合の認識文法の例を示す。

【００４３】「情報」の場合は、「情報」の両側及び、
「情」と「報」の間にそれぞれノードが位置し、ノード
「START」が照合開始、ノード「END」が照合終了を表
す。ノード「START」から「END」の間と入力音声区間が
対応する。

【００４４】音声が入力されると、ノード「START」と
ノード「S1」との間で入力文字「情」に対する候補群ｗ
１から認識が行われ、ノード「S1」とノード「END」と
の間で入力文字「報」に対する候補群ｗ２から認識が行
われる。

【００４５】一方、認識文法を生成する際に、単独では
発声できない文字（例えば音を延ばす「ー」や直前の文
字と連結して小さく発声する「ゃ」等）に対しては、図
７に示す処理がなされる。

【００４６】まず、ステップ７０１で、文字認識候補が
あるか否かを判断する。文字認識候補がない場合は終了
する。文字認識候補がある場合はステップ７０２で、そ
の文字認識候補が単独で発声することが可能か否かを判
断する。単独発声が可能な場合はステップ７０３で、そ
の文字をそのまま、単独の音声認識候補として認識文法
の生成を行う。単独発声が不可能な場合はステップ７０
４で、単独発声不可能文字と前入力候補文字との連結を
行う。例えば、前入力候補文字が「き」、単独発声不可
能文字が「ゃ」の場合、これらを連結して「きゃ」とす
る。次に、ステップ７０５で、連結された文字「きゃ」
を音声認識候補として認識文法の生成を行う。具体的に
は、図８に示すようにして、「きゃ」の認識文法の生成
が行われる。また、音を延ばす記号「ー」に対しても、
前記同様にして、例えば「きー」等の連結文字が作成さ
れ、認識文法の生成が行われる。

【００４７】なた、前記処理により自動生成された認識
文法に基づいて音声照合処理用の制御情報を作成する制
御情報作成工程は、ＨＭＭネットワーク作成部１０５に
おいて行われる。具体的には、ＨＭＭネットワーク作成
部１０５において、前記認識文法を用いてＨＭＭネット
ワークの作成が行われる。このＨＭＭネットワークの作
成は、前述した従来技術と同様である。

【００４８】一方、音声を入力する音声入力工程は、マ
イク１０６及び分析部１０７において行われる。具体的
には、マイク１０６から音声が入力されると、分析部１
０７で音声情報の特徴パラメータが抽出されて、前述し
た従来技術と同様の処理がなされる。

【００４９】また、照合工程、即ち入力音声情報に対し
て、認識文法自動生成部１０４で自動生成された認識文
法を基に照合処理が行われて文字及び音声で入力された
同じ意味の入力言語が特定される照合工程は、ＨＭＭ照
合部１０８において行われる。具体的には、切り出され
た音声区間の特徴パラメータを用いて、前述した従来技
術と同様の照合処理がなされ、認識結果が出力される。

【００５０】［効果］以上のように、認識文法自動生成
部１０４を設けて、文字認識と音声認識を融合させたの
で、文字認識又は音声認識の一方だけでは認識が困難な
状況でも、文字又は音声により入力された言語を確実に
認識することができるようになる。即ち、小刻みな振動
や大きな揺れ等があって文字入力が困難な環境や、周囲
の騒音がひどくて音声入力が困難な環境等においても、
入力言語に対する認識率が大幅に向上する。

【００５１】また、音声認識において認識文法をユーザ
が予め用意する必要がなくなり、自由な入力が可能とな
る。

【００５２】［利用形態］以上の機能を有する入力言語
認識装置９０の一例を図９に示す。図１に示した文字認
識手段９１のタブレット１０１と音声認識手段９２のマ
イク１０６以外の機能を、図９に示すパーソナルコンピ
ュータ９０１に格納している。即ち、パーソナルコンピ
ュータ９０１を主制御部として用いる。このパーソナル
コンピュータ９０１に、文字入力手段としてのタブレッ
ト９０２と、音声入カ手段としてのマイク９０３とを接
続している。利用方法として次の２例をあげる。

【００５３】（１）音声と手書き文字の同時入力文字入力を行いながら発声を行う際の認識文法作成例を
図１０に示す。文字を入力する場合は、１文字入力され
るごとにノードが追加されていく。入力文字「情報」に
対して、「情」と「報」の前後と中間にそれぞれノード
が位置する。

【００５４】このため、発声箇所の制限はなく、「情」
を入力したところで／ｊｙｏＯ／と、「報」を入力した
ところで／ｈｏＯ／と発声してもよい。また、「情報」
と入力した後に／ｊｙｏＯｈｏＯ／と発声してもよい。

【００５５】（２）文字認識結果の修正文字認識結果に対して修正を行う際の手順を図１１に示
す。

【００５６】(1) 文字認識結果に対して、間違い文字
を含んだ部分であって、発声しやすい文字の範囲（大阪
域）を選択する。

【００５７】(2) 選択された文字に対して正解文字／
ｏＯｓａｋａｊｙｏＯ／を発声する。

【００５８】(3) 音声認識手段９２で認識された文字
（大阪城）が表示される。この修正結果の確認をする。

【００５９】文字認識の修正として使う際の利点は、複
数文字を同時に修正できる点にある。

【００６０】しかも、修正文字が連続して存在する必要
はなく、作業の効率は大幅にアッブする。

【００６１】［変形例］前記実施形態では、手書き文字
認識にオンライン手書き文字認識を用いた場合を例に説
明したが、ＯＣＲ文字認識（光学式文字読み取り装置に
よる文字認識）を用いてもよい。この場合にも、前記同
様の作用、効果を奏することができる。

【００６２】また、音声認識にＨＭＭ音声認識を用いて
いるが、ＤＰマッチング等、他のパターンマッチングを
用いてもよい。

【００６３】

【発明の効果】以上、詳述したように、本発明の入力言
語認識装置及び入力言語認識方法によれば次のような効
果を奏することができる。

【００６４】（１）文字認識及び音声認識によって個
別に認識された同じ意味の入力言語を融合させて入力言
語を特定する融合手段を備えたので、文字認識又は音声
認識の一方だけでは入力言語を認識することが困難な状
況でも、入力言語を確実に認識することができるように
なる。

【００６５】（２）文字入力により認識文法を自動的
に生成するようにしたので、音声認識において認識文法
をユーザが予め用意する必要がなくなる。即ち、個々の
文字に対する認識文法を用意しなくても音声認識が可能
になり、音声入力に対する自由度が増す。

【図面の簡単な説明】

【図１】本発明に係る入力言語認識装置を示すブロック
図である。

【図２】従来のＨＭＭ音声認識装置のブロック図であ
る。

【図３】従来の文字認識装置のブロック図である。

【図４】認識文法自動生成の手順を示すフローチャート
である。

【図５】オンライン文字認識の結果例を示す表である。

【図６】入力文字「情報」を／ｊｙｏ０ｈｏ０／と発声
する場合の認識文法の例を示す図である。

【図７】単独では発声できない文字の処理を示すフロー
チャートである。

【図８】「きゃ」の認識文法の例を示す図である。

【図９】入力言語認識装置の一例を示す構成図である。

【図１０】音声と文字を同時に入力するときの認識文法
例を示す表である。

【図１１】文字認識結果に対して修正を行う際の手順を
示す表である。

【符号の説明】９０：入力言語認識装置、９１：文字認識手段、９２：
音声認識手段、９３：融合手段、１０１：タブレット、
１０２：文字認識部、１０３：辞書部、１０４：認識文
法自動生成部、１０５：ＨＭＭネットワーク作成部、１
０６：マイク、１０７：分析部、１０８：ＨＭＭ照合
部。

Claims

【特許請求の範囲】

【請求項１】入力文字を認識する文字認識手段と、入力音声を認識する音声認識手段と、これら文字認識手段及び音声認識手段で個別に認識され
た同じ意味の入力言語を融合させて入力言語を特定する
融合手段とを備えたことを特徴とする入力言語認識装
置。
【請求項２】請求項１に記載の入力言語認識装置にお
いて、前記文字認識手段が、文字を入力する文字入力部と、予
め文字情報が登録された辞書部と、前記文字入力部から
入力された文字情報と前記辞書部に登録された文字情報
とを照合して候補を選択する照合部とからなり、前記音声認識手段が、音声を入力する音声入力部と、別
途入力された認識文法に基づいて制御情報を作成する制
御情報作成部と、この制御情報作成部で作成された制御
情報に基づいて前記音声入力部からの音声情報を照合し
て入力言語を特定する照合部とからなり、前記融合手段が、前記文字認識手段の照合部からの出力
情報に基づいて前記認識文法を生成して前記制御情報作
成部に出力する認識文法生成部からなること特徴とする
入力言語認識装置。
【請求項３】文字を入力する文字入力工程と、入力された文字を認識して文字候補を選択する文字候補
選択工程と、文字認識結果として得られた文字候補に対応する読みを
検索する検索工程と、検索した読みをもとに音声認識用の認識文法を生成する
認識文法生成工程と、生成された認識文法に基づいて音声照合処理用の制御情
報を作成する制御情報作成工程と、音声を入力する音声入力工程と、入力された音声情報に対して前記制御情報作成工程で作
成された制御情報を基に照合処理が行われて文字及び音
声で入力された入力言語が特定される照合工程とからな
ることを特徴とする入力言語認識方法。