JP2003178263A - 文字認識装置及び記録媒体 - Google Patents

文字認識装置及び記録媒体

Info

Publication number
JP2003178263A
JP2003178263A JP2001378018A JP2001378018A JP2003178263A JP 2003178263 A JP2003178263 A JP 2003178263A JP 2001378018 A JP2001378018 A JP 2001378018A JP 2001378018 A JP2001378018 A JP 2001378018A JP 2003178263 A JP2003178263 A JP 2003178263A
Authority
JP
Japan
Prior art keywords
character
word
candidate
katakana
alphanumeric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001378018A
Other languages
English (en)
Inventor
Masanobu Funakoshi
正伸 船越
Kazuyo Ikeda
和世 池田
Haruki Nakakoshi
治樹 中越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001378018A priority Critical patent/JP2003178263A/ja
Publication of JP2003178263A publication Critical patent/JP2003178263A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 より自然な文字認識結果を得ることができる
文字認識装置を提供すること。 【構成】 文字認識の対象となる画像を読み取る画像読
み取り手段と、該画像読み取り手段によって読み取られ
た画像において文字認識を行って適切な候補文字列を出
力する文字認識手段と、該文字認識手段によって出力さ
れた候補文字列に対して自然言語処理を行って言語的に
適切な文字を選択・出力する自然言語処理手段を備え、
該自然言語処理は、画像処理による認識結果の第1候補
文字をスキャンし、カタカナや英数字で構成される文字
列を抽出し、同じ文字列が複数抽出された場合は一時単
語として単語辞書に登録するカタカナ・英数字語抽出手
段を備え、該カタカナ・英数字語抽出手段によって登録
された一時単語を言語処理において優先するカタカナ・
英数字語優先手段を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術】本発明は、自然言語処理手段を有
する文字認識装置及び記録媒体に関する。
【0002】
【従来の技術】一般の文字認識装置では、光学センサを
用いて原稿画像を読み取り、読み取った画像における文
字列において文字の切り出しを行い、切り出した文字画
像を認識してその候補となる文字コード列を出力するこ
とができる。
【0003】しかしながら、出力されたこれら文字コー
ド列の第1候補列は、画像の類似度を基準にして選択・
出力されるため、人間が読むと不自然な結果となること
が多かった。
【0004】そこで、認識後の処理として、出力された
候補文字コード列に対して言語処理を行い、自然な文字
候補列に補正する試みがなされてきた。これは、例えば
文字認識処理の結果出力される候補文字の全ての組み合
わせを作成し、これらを単語辞書から検索し、辞書に記
載された単語のみ取り出してこれらの単語を言語的に正
しく組み合わせることによって自然な文字列を作成する
ものである。
【0005】しかしながら、上記のような文字認識装置
において、未知語、即ち言語処理用の辞書に格納されて
いない単語が原稿に出現した場合、言語処理において未
知語を辞書に登録されている単語に置換してしまうこと
によって、却って文字認識結果を改悪してしまうという
問題が生じた。特に、この現象はカタカナや英数文字列
で顕著であることが分かった。
【0006】例えば、「キリコ」という文字列が含まれ
る原稿を文字認識処理し、その結果、第1候補文字列に
は「キリコ」がそのまま現れたにも拘らず、「キリコ」
という単語が辞書に格納されていなかったため、その
後、言語処理すると、「千リラ」に改悪してしまうよう
な場合があった。
【0007】そこで、文字認識処理の結果、カタカナや
英数字等、ひらがなや漢字以外の文字が画像認識による
第1候補である場合は必ず未知語として抽出し、言語処
理を行わないことによって、カタカナや英文字列を辞書
引きすることによって起こる自然言語処理の悪影響を避
けようとする試みがなされている。
【0008】
【発明が解決しようとする課題】ところが、上記従来の
文字認識装置では、カタカナ、英数字文字列が第1候補
として現れた場合、全て未知語としてそのまま処理され
るため、カタカナ、英数字文字列において文字認識処理
の誤りがあった場合は、たとえ正解文字が第2候補以下
に存在していても言語処理による補正が全くできないと
いう問題があった。
【0009】本発明は上記問題に鑑みてなされたもの
で、その目的とする処は、より自然な文字認識結果を得
ることができる文字認識装置及び記録媒体を提供するこ
とにある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、本発明に係る文字認識装置は、文字認識の対象とな
る画像を読み取る画像読み取り手段と、該画像読み取り
手段によって読み取られた画像において文字認識を行っ
て適切な候補文字列を出力する文字認識手段と、該文字
認識手段によって出力された候補文字列に対して自然言
語処理を行って言語的に適切な文字を選択・出力する自
然言語処理手段を備え、該自然言語処理は、画像処理に
よる認識結果の第1候補文字をスキャンし、カタカナや
英数字で構成される文字列を抽出し、同じ文字列が複数
抽出された場合は一時単語として単語辞書に登録するカ
タカナ・英数字語抽出手段を備え、該カタカナ・英数字
語抽出手段によって登録された一時単語を言語処理にお
いて優先するカタカナ・英数字語優先手段を備えること
を特徴とする。
【0011】又、本発明に係る記録媒体は、文字認識の
対象となる画像を読み取る画像読み取り手段と、該画像
読み取り手段によって読み取られた画像において文字認
識を行って適切な候補文字列を出力する文字認識手段
と、該文字認識手段によって出力された候補文字列に対
して自然言語処理を行なって言語的に適切な文字を選択
・出力する自然言語処理手段を備え、前記自然言語処理
は、画像処理による認識結果の第1候補文字をスキャン
し、カタカナや、英数字で構成される単語を抽出し、同
じ文字列が複数抽出される場合は一時単語として単語辞
書に登録するカタカナ・英数字語抽出手段を備え、該カ
タカナ・英数字語抽出手段によって登録された単語を上
記言語処理において優先するカタカナ・英数字語優先手
段を備えることを特徴とする文字認識処理を行うプログ
ラムを記録して成ることを特徴とする。
【0012】
【発明の実施の形態】以下に本発明の実施の形態を添付
図面に基づいて説明する。
【0013】図1は本発明に係る文字認識装置の構成を
示すブロック図であり、図示の構成において、CPU1
はマイクロプロセッサであり、文字認識処理のための演
算、論理判断等を行い、PCIバス2を介して、該バス
2に接続された各構成要素を制御する。PCIバス2は
マイクロプロセッサCPU1の制御の対象とする構成要
素を指示するアドレス信号を転送し、マイクロプロセッ
サCPU1の制御の対象とする各構成要素のコントロー
ル信号を転送し、各構成機器相互間のデータ転送を行
う。
【0014】次に、ROM3は読出し専用の固定メモリ
であり、該ROM3には本実施の形態における基本I/
Oプログラムが格納される。
【0015】又、RAM4は書込み可能のランダムアク
セスメモリであって、各構成要素からの各種データの一
時記憶と、本実施の形態における各種処理が記述された
プログラムを読み込み、このプログラムに基づいてCP
U1が各種処理を行うために用いられる。このRAM4
のワークエリアは、単語辞書WDIC、一時単語辞書T
DIC、接続規則辞書CDIC、文字候補列バッファC
BUF、単語情報WTB、文節候補情報BCTB、形態
素解析情報KTTBで構成されている。
【0016】尚、単語辞書WDICは、単語の情報を格
納したものであり、詳細は図5を用いて後述する。又、
一時単語辞書TDICは、本実施の形態における一時単
語抽出処理によって抽出された一時単語を格納する領域
であり、詳細は図6を用いて後述する。接続規則辞書C
DICは、形態素解析で用いられる句構造規則を格納し
た辞書であり、詳細は図7を用いて後述する。文字候補
列バッファCBUFは、言語処理の対象となる候補文字
列を格納するバッファである。言語処理は、このバッフ
ァに蓄えられた候補文字列に対して言語的に最適な認識
結果文字列を求める。この詳細は図8を用いて後述す
る。単語情報WTBは、形態素解析の際に単語辞書から
検索された単語或は未知語として抽出された単語を格納
するテーブルであり、詳細は図9を用いて後述する。文
節候補情報BCTBは、形態素解析の際に単語情報WT
Bに接続規則辞書CDICに記述されている接続規則を
適用することによって生成した文節候補を格納するテー
ブルであり、詳細は図10を用いて後述する。形態素解
析情報KTTBは、形態素解析した結果求められた形態
素の情報を文節単位に格納するテーブルであり、詳細は
図11を用いて後述する。
【0017】CDD5はCD−ROMドライブである。
CD−ROM6に記録されているプログラムやデータは
このCD−ROMドライブ5を通じて本システムにロー
ドされる。
【0018】INPUTC7は入力コントローラであ
る。KB8やPD9から送られてくる入力信号はこのコ
ントローラ7によって適宜変換された後、PCIバス2
を経由してCPU1に送信される。KB8はキーボード
であって、アルファベットキー、ひらがなキー、カタカ
ナキー等の文字記号入力キー及びカーソル移動を指示す
るカーソル移動キー等のような各種のファンクションキ
ーを備えている。ファンクションキーとしては、STA
RTを備えている。
【0019】STARTは本発明の文字処理装置におい
て文字認識処理の起動を指示するキーである。PD9は
マウスやトラックボール等のポインティングデバイスで
あり、表示画面上のカーソルやボタン等を指摘する指摘
するために使用される。
【0020】DISK10はOSや各種プログラム、文
書データ等を記憶するための外部メモリである。文書デ
ータ等は必要に応じて保管され、又、保管されたデータ
はキーボード8の指示により必要なときに呼び出され
る。
【0021】VIDEO11はビデオコントローラであ
る。PCIバス2を介して表示用のデータがここに蓄え
られるとともに、表示用の信号に変換されて表示装置で
あるDISP12に出力される。DISP12には陰極
線官や液晶等が用いられ、各種処理の結果や装置の状
態、ユーザに対するメッセージ等を表示する。
【0022】DEVC13はデバイスコントローラであ
る。PCIバス2を介して伝達されるCPU1の指示に
よって、このコントローラ13に接続されている機器を
制御し、又、接続されている機器が出力する信号やデー
タをPCIバス2を介してCPU1やDISK10に適
宜伝達する。
【0023】SCAN14はスキャナーであり、これは
DEVC13からの指示によって、光学的な方法によっ
てここにセットされた原稿をスキャンし、原稿画像を読
み取ってDEVC13に出力する。
【0024】NI15はネットワークインターフェース
であり、本発明に係る文字認識システムをLANやイン
ターネット等を経由して外部のシステムと接続するため
の機器である。本発明に係る文字認識システムは、この
接続を経由して信号やデータを外部のシステムと送受信
することが可能である。
【0025】以上のような各構成要素から成る文字認識
装置においては、キーボードKB8やポインティングデ
バイスPD9からの各種の入力に応じて作動するもので
あって、キーボードKB8やポインティングデバイスP
D9からの入力が供給されると、入力コントローラIN
PUTC7を経由してインタラプト信号がマイクロプロ
セッサCPU1に送られ、そのマイクロプロセッサCP
U1がROM3内に記憶してある各種の制御信号を読み
出し、それらの制御信号に従って各種の制御が行われ
る。
【0026】本実施の形態に係るシステムは、基本I/
Oプログラム、OS及び文字認識処理プログラムをCP
U1が実行することによって動作する。基本I/Oプロ
グラムはROM3中に書き込まれており、OSはDIS
K10に書き込まれている。そして、本システムの電源
がONにされると、基本I/Oプログラム中のIPL
(イニシャルプログラムローディング)機能によりHD
からOSがRAM4に読み込まれてOSの動作が開始さ
れる。
【0027】文字認識処理プログラムは、図12〜図1
7に示される文字認識処理手順のフローチャートに基づ
いてプログラムコード化されたものである。
【0028】図2は文字認識処理プログラム及び関連デ
ータをCD−ROM5に記録したときの該CD−ROM
5の内容の構成図である。
【0029】本実施の形態において、本文字認識処理プ
ログラム及び関連データはCD−ROM5に記録されて
いる。図示したようにCD−ROM5の先頭領域には、
このCD−ROM5のボリューム情報とディレクトリ情
報が記録されており、その後にこのCD−ROM5のコ
ンテンツである本文字認識処理プログラムと文字認識処
理関連データが記録されている。
【0030】図3は本システムと本文字認識処理プログ
ラムが記録されたCD−ROMの模式図である。
【0031】CD−ROM5に記録された文字認識処理
プログラム及び関連データは、図3に示したように、C
D−ROMドライブCDD5を通じて本システムにロー
ドすることができる。このCD−ROM5をCD−RO
MドライブCDD5にセットすると、OS及び基本I/
Oプログラムの制御のもとに本文字認識プログラム及び
関連データがCD−ROM5から読み出され、RAM4
にロードされて動作可能となる。
【0032】図4は本文字認識処理プログラムがRAM
にロードされて実行可能となった状態を示すメモリマッ
プである。
【0033】図5は単語辞書WDICの構成例を説明し
た図である。
【0034】1つの単語の情報として、読みと表記と品
詞と優先度と単語IDが格納される。優先度は、単語が
その他の単語と競合した場合に優先される度合いを示す
値で、本実施の形態では0〜ら10までの値を取り、値
の大きいもの程優先される。単語IDは他の単語と区別
し、単語IDによってその単語を指し示すことができる
ように付されたユニークな番号である。各単語の情報は
読みによってソートされて格納されているが、本実施の
形態における単語辞書WDICは表記によって検索する
ことが可能である。
【0035】図6は一時単語辞書TDICの構成を説明
する図である。
【0036】1つの一時単語の情報として、表記と品詞
と優先度と単語IDが格納される。これらの要素はWD
ICと全く同様な役割を果たすが、品詞はその語の後に
接続する単語の品詞を判定して自動的に判断される。こ
の種の処理は言語処理において一般的に行われており、
公知であるため詳細な説明は省略する。又、優先度はT
DICにおいては10以上の値を取る。本実施の形態で
は、単語IDは、単語辞書WDICに登録されている単
語のIDとは重ならないように作成される。図中におい
て、登録されている単語は全て文字認識結果の第1候補
文字列から抽出されたものであり、抽出された順番に格
納されているが、本実施の形態におけるTDICは、単
語辞書WDICと同様に表記によって検索することが可
能である。
【0037】図7は接続規則辞書CDICの構成を説明
する図である。
【0038】1つの接続規則の情報として、可能な接続
と接続コストが格納される。可能な接続とは、文節内で
接続が可能な2つの単語の品詞の組み合わせを示したも
のである。接続コストとは、この接続を採用した場合に
掛かるるコストであり、コストが低い接続程優先され
る。
【0039】接続規則は、形態素解析において用いられ
る。図中において、「+」は文節を構成する要素が要素
が並ぶ順番通りに無条件に結合して文節を構成できるこ
とを意味している。例えば、図中の規則の1つ(rule
1)は、「名詞」と「助詞(の)」がこの順番に出現す
れば、結合して文節になれることを示している。
【0040】図8は文字候補列バッファCBUFの構成
例の一部を説明した図である。
【0041】文字候補列バッファには、スキャナで読み
取られた原稿の文字列を認識し、文字単位の画像を切り
出し、切り出された文字画像を画像解析により認識した
結果として出力される文字候補列が文字コードに変換さ
れて格納される。本実施の形態では、各文字の第1候補
がCBUFの先頭行に格納され、以下の行には列毎に各
文字の候補が格納される。尚、図の上に記載した番号は
画像処理によって切り出された文字の順番と数を示して
いる。図8は図21に図示されている原稿を文字認識し
たときの文字候補列バッファCBUFの一部である。図
5において、画像解析による第1候補文字列は「画衆の
キリコの回顔民を見に符った。」である。又、原稿の先
頭文字「画」に対する文字候補は、「画」「向」「巴」
「凸」「畠」である。
【0042】図9は単語情報WTBの構成例を説明した
図である。
【0043】単語情報には、文字候補列バッファCBU
Fの各文字の組み合わせに一致する単語を検索した結果
が納められる。例えば、図8に図示した文字候補列の場
合、「画衆の」「画家の」「画朱の」「画宋の」等、各
列毎に文字候補から1文字だけを取り出して連続した文
字列を作成し、これらの全てに対して表記が一致する単
語を検索した結果を格納する。図9に示したように、1
つの単語情報は、文字開始位置、文字終了位置、表記、
品詞、単語IDから成る。文字開始位置と文字終了位置
は、この単語の表記と一致する文字候補列バッファ文字
列先頭からの位置が納められている。図より、表記が
「画家」である単語は文字候補列バッファ内の1番目か
ら2番目の文字候補列にマッチングしていることが分か
る。図9は図8の文字候補列バッファに格納されている
全ての文字候補の組み合わせに対して単語辞書とマッチ
ングを行った場合の単語情報WTBの例である。
【0044】図10は文節候補情報BCTBの構成例を
示した図である。
【0045】文節候補情報には、単語情報WTBに接続
規則辞書CDICに記述されている接続規則を適用した
結果が納められる。図示のように、1つの文節候補情報
は、文字開始位置、文字終了位置、表記、文節を構成す
る単語、優先度から構成される。文字開始位置と文字終
了位置には、単語情報WTBと同じく対応する文字候補
列バッファ中の文字候補の文字候補列バッファの先頭か
らの位置が納められる。図中、先頭の文節候補は、文字
候補列バッファの1番目から3番目の文字候補の組み合
わせの1つであり、名詞<画家>と助詞(の)から構成
されている。図中で「φ」が格納されている欄は、情報
が存在しないことを意味する。
【0046】又、優先度は、本実施の形態においては文
節を構成する全ての単語の優先度の総和から単語間の接
続コストを引いた値が格納される。例えば、図中、先頭
の文節「画家の」の優先度は、名詞<画家>の優先度6
から、図7の接続規則(rule1)の接続コスト1を引い
た値である5が格納される。尚、本実施の形態では、助
詞、助動詞等の付属部は全て優先度を持たない。図10
は図8の文字候補列バッファに対して、全ての文字候補
の組み合わせに対して単語辞書とマッチングを行ったと
きの文節候補情報BCTBの例を示す。
【0047】図11は形態素解析情報KTTBの構成例
を説明した図である。
【0048】形態素解析情報KTTBは、文節番号と、
文節の表記と、文節を構成する単語を対応させて、形態
素解析の結果求まった文字候補列を文節単位に管理して
いる。図において、文節番号が3の文節の表記は「回顧
展を」であり、その文節は名詞<回顧>と名詞<展>と
助詞(を)から構成されていることを示している。文節
番号は、最初に作成された文節から順番に番号が付され
る。図中で「φ」が格納されている欄は情報が存在しな
いことを意味する。図11は図8の文字候補列バッファ
に対して、全ての文字候補の組み合わせに対して単語辞
書とマッチングを行った場合の形態素解析情報KTTB
の例を示す。
【0049】ここで、PAに格納された手順の動作をフ
ローに従って説明する。
【0050】図12は本発明に係る文字認識装置の動作
を示すフローチャートである。S1は、キーボードから
のデータを取り込む処理である。S2で取り込まれたキ
ーの種類を判定し、各キーの処理ルーチンに分岐する。
【0051】STARTキーが入力されたときはS3に
分岐し、文字認識処理が処理される。文字認識処理は図
13において詳述する。処理が行われた後、S5へ進
む。
【0052】その他の入力が行われた場合は、S4に分
岐し、文字入力や挿入、削除、ウィンドウ操作等の通常
の文字認識装置において行われるその他の処理が行われ
る。これらの処理は同種の文字認識装置において一般に
行われる処理であり、公知であるために特に記述しな
い。処理が行われた後S5へ進む。
【0053】S5は、上述の処理の結果、変更された部
分を表示する表示処理である。文書中のデータ1文字を
読む毎に文字パターンに展開し、表示バッファに出力す
るというように通常一般的に行われている処理である。
処理を終えるとS1に進む。
【0054】図13はS4の文字認識処理を詳細化した
フローチャートである。
【0055】S11は、スキャナSCANで原稿を読み
取り、読み取った画像を表示バッファや外部記憶装置D
ISK等に出力する原稿読み取り処理である。この種の
処理は同種の文字認識装置において一般に行われている
処理であり、公知であるために特に記述しない。処理が
行われた後、S12へ進む。
【0056】S12は、S11で読み取った画像に対し
てレイアウト認識と領域抽出を行い、文字領域に対して
個々の文字の画像を切り出す文字切り出し処理である。
この種の処理は同種の文字認識装置において一般に行わ
れている処理であり、公知であるので特に記述しない。
処理が行なわれた後、S13へ進む。
【0057】S13は、S12で切り出された文字画像
を認識して文字候補列コードを文字候補バッファCBU
Fに出力する文字候補出力処理である。この種の処理は
同種の文字認識装置において一般に行われている処理で
あり、公知であるので特に記述しない。処理が行なわれ
た後、S14へ進む。
【0058】S14は、S13で文字候補列バッファC
BUFに出力された文字候補列の第1候補列に対して、
カタカナ・英数字列を抽出し、複数抽出した場合は一時
単語辞書に登録する一時単語抽出処理である。この処理
は図14において後述する。処理が行われた後、S15
へ進む。
【0059】S15は、S14で文字候補列バッファC
BUFに出力された文字候補列に対して、言語処理によ
って認識結果を補正し、言語的に妥当な認識結果を作成
する言語補正処理である。この処理は図15において詳
述する。処理が行われた後、文字認識処理を終了する。
【0060】図14は、S14の一時単語抽出処理を詳
細化したフローである。
【0061】S21は、文字候補列バッファCBUFに
格納された文字候補列の第1候補列を1文字読み込む第
1候補文字読み込み処理である。読み込まれた文字が、
カタカナや英数字である場合はS22へ進む。読み込ま
れた文字がそれ以外の文字であればS21へ進み、次の
文字を読み込む。又、文字が残っていない場合はS25
へ進む。
【0062】S22は、カタカナ、英数字列を抽出し、
抽出した文字列が一時単語辞書に登録されているか否か
か検索する一時単語辞書検索処理である。この処理で
は、先ず、文字候補列バッファCBUFに格納されてい
る第1候補文字列において、字種が変わるまでの文字の
並びを全て読み込む。次に、この文字列が一時単語に登
録されているか否かをチェックする。抽出した文字列が
一時単語辞書に見つかった場合はS23に進む。文字列
が一時単語辞書に登録されていない場合はS24へ進
む。
【0063】S23は、検索された単語の優先度をアッ
プする単語優先度アップ処理である。本実施の形態にお
いては、S22で検索された一時単語辞書のエントリに
対して優先度を1足し込む。このようにすることによっ
て、この一時単語が第1候補文字列に登場すればする
程、後の言語解析によって優先されることになる。言語
解析における単語の優先度の扱いについては後述する。
処理を終えると、S21に戻る。
【0064】S24は、抽出された文字列を新規単語と
して一時単語に格納する新エントリ作成処理である。本
実施の形態では、図6に示すように、新しいエントリが
作成されるが、その優先度は10に設定される。処理を
終えると、S21に戻る。
【0065】S25は、一時単語辞書を検索し、初期の
優先度である10が格納されている単語のエントリを削
除する初期優先度単語消去処理である。複数回第1候補
文字列に登場するカタカナ・英数字列は必ず11以上の
優先度になっているため、この処理によって、複数回第
1候補文字列に出てこない一時単語は全て一時単語辞書
から消去される。処理を終えると、一時単語抽出処理を
終了する。
【0066】図15は、S15の言語補正処理を詳細化
したフローチャートである。
【0067】S31は文字候補列CBUFに格納された
文字候補列に対して、単語辞書WDICを参照しなが
ら、形態素解析を行う形態素解析処理である。本実施の
形態における形態素解析は、二文節最長一致法による。
ここで、二文節最長一致法とは、形態素解析後の隣接す
る任意の二文節に対応する読みの長さが最長になる文節
の区切りを採用する方法である。こうして区切られた文
節列を出力する。その後、解釈可能な文節と文節の構造
を明らかにし、その結果を形態素解析情報KTTBに追
加する。S31の形態素解析は図16において後述す
る。
【0068】S32は、形態素解析情報KTTBを参照
しながら、構文解析を行う構文解析処理である。形態素
解析情報KTTBから文節の候補を各文節番号に対して
1つずつ選び出し、構文規則に基づいて句を生成してい
き、構文解析を行い、最終的に文が生成できれば、構文
解析に成功したものと見なす。このような構文解析の方
法は、構文解析手法として一般的に行われており、公知
であるので詳細は記述しない。構文解析に成功した場合
はS33へ進む。構文解析に失敗した場合は、形態素解
析情報KTTB中の文節の候補を変更して構文解析を行
う。全ての文節の候補に対して構文解析に失敗した場合
はS33に進む。
【0069】S33は、形態素解析及び構文解析によっ
て解析された結果に基づいて最適な文字候補を決定する
文字候補決定処理である。S32において構文解析に成
功していれば、成功した構文解析で使用している文節の
候補の表記を最適な文字候補として決定する。構文解析
に成功したものがなければ、S31の形態素解析のみで
最適な文字候補を決定する。文字候補決定処理を終えた
後、S34へ進む。
【0070】S34は、S33で決定された最適な文字
候補を表示する補正結果表示処理である。これは、例え
ば言語処理によって画像認識結果の第1候補が入れ替え
られた場合、その文字だけを別の属性で表示する等の処
理である。この種の処理は公知であるので詳細は記述し
ない。補正結果表示処理を終えた後、言語補正処理を終
了する。
【0071】図16はS31の形態素解析を詳細化した
フローチャートである。
【0072】S41は、文字候補列バッファCBUFに
格納された文字候補列の全ての部分文字列の組み合わせ
に対して、単語辞書WDICや一時単語辞書TDICを
検索し、表記が部分文字列にマッチする単語の各情報を
単語情報WTBに格納する単語抽出処理である。単語抽
出処理の詳細は図14を用いて後述する。処理を終えた
後、S42に進む。
【0073】S42は、S41によって作成された単語
情報WTBに、接続規則辞書CDICに記述されている
接続規則を適用し、文節候補情報BCTBを作成する処
理である。ここで、文節候補を作成するとは、生成され
た文節の表記が必ず文字候補列バッファCBUFに格納
されている文字候補列の部分列とマッチするように各単
語に接続規則を適用することである。このようにして全
ての文節候補を作成した後、S43に進む。
【0074】S43は、文節候補情報BCTBを参照し
て最終的な文節を決定し、形態素情報KTTBを作成す
る文節の決定処理である。文節を決定する際において用
いられる手法は前述した二文節最長一致法であるが、文
節長が同じ文節が競合している場合は、文節候補情報B
CTBに格納された文節の優先度の高い方が優先され
る。処理を終えると、形態素解析処理を終了する。
【0075】図17はS41の単語抽出処理を詳細化し
たフローチャートである。
【0076】S51は、文字候補バッファCBUFに格
納された文字候補列のあらゆる組み合わせにおいて全て
の部分文字列を作成し、それら部分文字列と同じ表記を
持つ単語が単語辞書WDICや一時単語辞書TDICに
存在するか否かを調べる候補文字部分列検索処理であ
る。この種の辞書検索方法は、この種の言語処理におい
て一般的であり、公知であるため詳述しない。全ての候
補文字部分列に対して検索を終えた後、S52へ進む。
【0077】S52は、S51で辞書検索を行った結
果、或る位置の文字候補に対して単語が抽出できたか否
かをチェックする検索チェック処理である。或る位置の
文字候補に対応する単語が1つでも見つかった場合は、
S54に進む。或る位置の文字候補に対応する単語が全
く見つからなかった場合は、S53の未知語抽出処理に
進む。
【0078】S53は、未知語、即ち、辞書に記載され
ていない単語を抽出する未知語抽出処理である。未知語
抽出処理は、例えばひらがな、カタカナ、漢字、英字等
の字種が連続している部分を抽出して単語と見なし、そ
の後に続いている単語によってこの単語の品詞を定める
処理であり、かな漢字変換のような言語処理では一般に
行われている処理である。本発明における未知語処理で
は、未知語として抽出される文字候補は全て画像認識に
おいて第1候補である文字候補のみを抽出する。即ち、
未知語抽出処理が一旦起動されると、文字候補列バッフ
ァCBUFの第1列において、起動された文字位置から
同種の文字種が連続する部分を抽出して単語と見なし、
その品詞を決定する。処理を終えるとS54へ進む。
【0079】S54は、ここまでの過程で辞書から検索
された単語、或は未知語として抽出された単語を単語情
報WTTBに格納する単語情報格納処理である。処理を
終えるとS55へ進む。
【0080】S55は、文字候補列バッファCBUFに
格納されている文字候補列の末尾まで単語抽出できたか
否かをチェックする候補文字列終了チェックである。単
語抽出が文字候補列バッファCBUFの末尾まで達して
いない場合は、S51に処理が進む。文字候補列バッフ
ァCBUFの末尾まで単語抽出が終了していれば、単語
抽出処理を終える。
【0081】以下、本実施の形態において、具体例とし
て、図21に示す原稿を画像認識した結果、文字候補列
バッファCBUFに図8に示した文字候補列が格納され
ている状態において、言語補正処理を行う様子を、一時
単語抽出処理を行う場合と行わない場合、即ち、従来の
技術と本発明における技術とに分けて、図13、図14
及び図16に示すフローチャートに沿って説明する。
尚、単語辞書WDICには図5に図示したように表記が
「キリコ」である単語は存在しないものとする。又、文
字認識による文字の第1候補列は図22のようになった
と仮定する。
【0082】一時単語抽出処理を行わない場合、即ち、
従来の技術の場合、図13におけるS14の一時単語抽
出処理は行われないため、一時単語辞書TDICは存在
しない。従って、S15の言語補正処理において、その
下位処理である図16におけるS41の単語抽出処理に
よって生成される単語情報WTBは図9のようになる。
この場合、単語抽出処理において、図5の文字位置4を
先頭とする単語「千」と「十」が抽出され、又、文字位
置5を先頭とする単語「リラ」が抽出されるが、一時単
語辞書は存在しないため、「キリコ」という単語は当然
抽出されない。又、この文字位置における単語は単語辞
書より抽出されているため、文字位置4を先頭とする未
知語「キリコ」も抽出されず、図9に図示したように単
語情報WTBに「キリコ」という表記を持つ単語は現れ
ない。
【0083】次に、S42の文節候補作成処理におい
て、S41で生成された単語情報WTB中の単語に図7
で示した接続規則を適用し、図10に示した文節候補情
報BCTBが作成される。例えば、図9の先頭の単語
「画家」に図7の(rule1)「名詞+(の)」を適用す
ることにより、図10の先頭の文節候補「名詞<画家>
+助詞<の>」が得られるが、この文節候補は、文字候
補列バッファの1番目から3番目までの文字候補列に相
当する。
【0084】次に、S43の文節の決定処理において、
S42で作成された文節候補の組み合わせのうち、二文
節最長一致法によって最も妥当な組み合わせが選択決定
され、形態素情報KTTBが作成される。図10に示し
た文節候補によれば、文節候補の可能な組み合わせの先
頭の二文節の候補として、「画家の・千リラの」と「画
家の・千リラ」と「画家の・千」等が作成されるが、こ
のうち、表記が最も長い「画家の・千リラの」が先ず最
適な組み合わせとして決定される。以下、「千リラの・
回顧展を」、「回顧展を・見に行った。」という文節候
補の組み合わせが同様にして決定され、図11に示す形
態素情報KTTBが得られる。
【0085】一方、一時単語抽出処理を行う場合、即
ち、本発明の技術による場合を以下に述べる。
【0086】本発明の技術による場合、図13における
S14の一時単語抽出処理は以下のようになる。
【0087】文字候補バッファCBUFに格納された文
字候補列の第1候補文字列は図22に示すように成って
いるため、図14のS22においてカタカナ・英数文字
列で構成される一時単語を抽出する処理にによって、
「キリコ・キリフ・キリコ・チリフ」という文字列が順
に抽出される。このうち、「キリコ」は2回登場するた
め、S23によって優先度が+1され、残りはS24に
よって新エントリが作成され、S25に処理が移る段階
で一時単語辞書TDICは図6に図示した状態になる。
その後、「キリフ」と「チリコ」のエントリはS25の
処理によって消去される。
【0088】次に、図13においてはS15の言語補正
処理に処理が進み、その下位処理である図16における
S41の単語抽出処理によって生成される単語情報WT
Bは図18のようになる。この場合、 一時単語辞書TD
ICに単語「キリコ」が存在するため、図18に示すよ
うに、辞書検索の結果、単語情報WTBに格納される。
【0089】次に、S42の文節候補作成処理におい
て、S41で生成された単語情報WTB中の単語に図6
で示した接続規則を適用し、図19に示した文節候補情
報BCTBが作成される。
【0090】次に、S33の文節の決定処理において、
S32で作成された文節候補の組み合わせのうち、二文
節最長一致法によって最も妥当な組み合わせが選択決定
され、形態素情報KTTBが作成される。図19に示し
た文節候補によれば、文節候補の可能な組み合わせの先
頭の二文節の候補として、「画家の・キリコの」や「画
家の・千リラ」等が作成されるが、このうち、表記が最
も長い「画家の・キリコの」「画家の・千リラの」が先
ず最適な組み合わせとして選択される。ここで、文節
「キリコの」の優先度(10)と文節「千リラの」の優
先度(4)を比較すると、文節「キリコの」が優先度が
高いため、「画家の・キリコの」の組み合わせが最適で
あると決定される。以下、「キリコの・回顧展を」「回
顧展を・見に行った。」という文節候補の組み合わせが
同様にして決定され、図20に示す形態素情報KTTB
が得られる。即ち、第1候補文字列からカタカナ・英数
字で構成される単語を抽出し、言語処理によって優先す
ることによって、正しい認識結果である「画家のキリコ
の回顧展を見に行った。」を得ることができる。
【0091】更に、その後の文字候補列に対して同様に
言語補正を行うことにより、第1候補文字列に現れた誤
ったカタカナ文字列である「キリフ」、「チリコ」を補
正することが可能である。
【0092】以上説明したように、本実施の形態におい
ては、文字認識の結果、第1候補文字がカタカナ・英数
字列となる場合、言語補正を行う前にこれらの文字列を
抽出して、複数回現れる場合は言語補正において優先す
ることによって、画像認識後の自然言語処理による悪影
響を避けながら、全てのの文字候補に対して言語処理に
よって補正を行うことが可能となり、従来の文字認識装
置よりも認識率を高めることができる。
【0093】又、第1候補文字列に現れる回数によって
これらの文字列の優先度を決定することにより、言語補
正の精度をより高めることが可能になる。
【0094】尚、本発明は上述した実施の形態に限定さ
れるものではない。
【0095】上述の実施の形態では、 文字認識装置のバ
スとしてPCIバスを採用しているが、ISAバスやV
Lバス等を用いても全く同様な文字認識装置を構成する
ことが可能である。
【0096】又、上述の実施の形態では、文字認識処理
において、スキャナSCANから読み込んだ画像に対し
て各処理を行っているが、ディスクDISKに格納済み
の画像やネットワークインターフェースNIを経由して
外部システムから取り込んだ画像に対しても同様な処理
を行うことが可能である。
【0097】更に、上述の実施の形態では、CD−RO
Mから文字認識処理プログラム及び関連データを直接R
AMにロードして実行させる例を示したが、この他にC
D−ROMから文字認識処理プログラム及び関連データ
を一旦DISKに格納(インストール)しておき、本文
字認識処理プログラムを動作させるときにDISKから
RAMにロードするようにすることも可能である。
【0098】又、前記実施の形態では、本文字認識プロ
グラムを記録する媒体としてCD−ROMを用いている
が、それ以外にDVD、MO、FD、ICメモリカー
ド、光磁気カード等を用いても良い。更に、本文字認識
処理プログラムをROMに記録しておき、これをメモリ
マップの一部と成すように構成し、直接CPUで実行す
ることも可能である。
【0099】又、前記実施の形態では、文節を決定する
際に二文節最長一致法を採用したが、これに代えて文節
数最小法や接続コスト最小法等の他の手法を用いること
も可能である。
【0100】更に、前記実施の形態では、一時単語辞書
TDICを単語辞書WDICとは別の領域として定義し
ているが、 WDIC内に一時単語を格納しても同様な処
理が可能である。その他、本発明はその要旨を逸脱しな
い範囲で種々変形して実施することができる。
【0101】
【発明の効果】以上の説明で明らかなように、本発明に
よれば、文字認識後の第1候補文字をスキャンし、カタ
カナや英数字で構成される文字列を抽出し、同じ文字列
が複数抽出された場合は一時単語として単語辞書に登録
するカタカナ・英数字語抽出手段を備え、該カタカナ・
英数字語抽出手段によって登録された一時単語を言語処
理において優先するカタカナ・英数字語優先手段を備え
るようにしたため、言語処理の悪影響を避けながら全て
の文字に対して言語補正を実行することが可能になり、
認識率の高い文字認識処理を実現することができるとい
う効果が得られる。な文字認識装置をユーザに提供でき
る。
【図面の簡単な説明】
【図1】本発明に係る文字認識装置の構成を示すブロッ
ク図である。
【図2】本発明におけるCD−ROMの構成図である。
【図3】本発明における文字認識装置とそのプログラム
媒体の構成図である。
【図4】本発明におけるプログラム実行中のRAMのメ
モリマップを示す図である。
【図5】本発明における単語辞書WDICの構成例を示
す図である。
【図6】本発明における一時単語辞書TDICの構成例
を示す図である。
【図7】本発明における接続規則辞書CDICの構成例
を示す図である。
【図8】本発明における文字候補列バッファCBUFの
構成例を示す図である。
【図9】本発明における単語情報WTBの構成例を示す
図である。
【図10】本発明における文節候補情報BCTBの構成
例を示す図である。
【図11】本発明における形態素情報KKTBの構成例
を示す図である。
【図12】本発明に係る文字認識装置の動作を示すフロ
ーチャートである。
【図13】本発明における文字認識処理の動作を示すフ
ローチャートである。
【図14】本発明における一時単語抽出処理の動作を示
すフローチャートである。
【図15】本発明における言語補正処理の動作を示すフ
ローチャートである。
【図16】本発明における形態素解析処理の動作を示す
フローチャートである。
【図17】本発明における単語抽出処理の動作を示すフ
ローチャートである。
【図18】本発明における単語情報WTBの構成例を示
す図である。
【図19】本発明における文節候補情報BCTBの構成
例を示す図である。
【図20】本発明における形態素情報KKTBの構成例
を示す図である。
【図21】本発明における文字原稿の例を示す図であ
る。
【図22】本発明における文字認識後の第1候補文字列
の例を示す図である。
【符号の説明】
1 CPU 2 PCIバス 3 ROM 4 RAM 5 CDD 6 CD−ROM 7 INPUTC 8 KB 9 PD 10 DISK 11 VIDEO 12 DISP 13 DEVC 14 SCAN 15 NI
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中越 治樹 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 Fターム(参考) 5B064 EA19 EA20

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文字認識の対象となる画像を読み取る画
    像読み取り手段と、該画像読み取り手段によって読み取
    られた画像において文字認識を行って適切な候補文字列
    を出力する文字認識手段と、該文字認識手段によって出
    力された候補文字列に対して自然言語処理を行って言語
    的に適切な文字を選択・出力する自然言語処理手段を備
    え、該自然言語処理は、画像処理による認識結果の第1
    候補文字をスキャンし、カタカナや英数字で構成される
    文字列を抽出し、同じ文字列が複数抽出された場合は一
    時単語として単語辞書に登録するカタカナ・英数字語抽
    出手段を備え、該カタカナ・英数字語抽出手段によって
    登録された一時単語を言語処理において優先するカタカ
    ナ・英数字語優先手段を備えることを特徴とする文字認
    識装置。
  2. 【請求項2】 前記カタカナ・英数字語優先手段は、前
    記抽出手段によって抽出された回数が多い語をより優先
    することを特徴とする請求項1記載の文字認識装置。
  3. 【請求項3】 文字認識の対象となる画像を読み取る画
    像読み取り手段と、該画像読み取り手段によって読み取
    られた画像において文字認識を行って適切な候補文字列
    を出力する文字認識手段と、該文字認識手段によって出
    力された候補文字列に対して自然言語処理を行なって言
    語的に適切な文字を選択・出力する自然言語処理手段を
    備え、前記自然言語処理は、画像処理による認識結果の
    第1候補文字をスキャンし、カタカナや、英数字で構成
    される単語を抽出し、同じ文字列が複数抽出される場合
    は一時単語として単語辞書に登録するカタカナ・英数字
    語抽出手段を備え、該カタカナ・英数字語抽出手段によ
    って登録された単語を上記言語処理において優先するカ
    タカナ・英数字語優先手段を備えることを特徴とする文
    字認識処理を行うプログラムを記録して成ることを特徴
    とする記録媒体。
  4. 【請求項4】 前記カタカナ・英数字語優先手段は、前
    記抽出手段によって抽出された回数が多い語を優先する
    ことを特徴とする文字認識処理を行うプログラムを記録
    したことを特徴とする請求項3記載の記録媒体。
JP2001378018A 2001-12-12 2001-12-12 文字認識装置及び記録媒体 Pending JP2003178263A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001378018A JP2003178263A (ja) 2001-12-12 2001-12-12 文字認識装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001378018A JP2003178263A (ja) 2001-12-12 2001-12-12 文字認識装置及び記録媒体

Publications (1)

Publication Number Publication Date
JP2003178263A true JP2003178263A (ja) 2003-06-27

Family

ID=19185853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001378018A Pending JP2003178263A (ja) 2001-12-12 2001-12-12 文字認識装置及び記録媒体

Country Status (1)

Country Link
JP (1) JP2003178263A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853623B2 (en) 2006-12-18 2010-12-14 Hitachi, Ltd. Data mining system, data mining method and data retrieval system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853623B2 (en) 2006-12-18 2010-12-14 Hitachi, Ltd. Data mining system, data mining method and data retrieval system

Similar Documents

Publication Publication Date Title
US7630880B2 (en) Japanese virtual dictionary
JP4750476B2 (ja) 文書検索装置及び方法と記憶媒体
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
JP4208566B2 (ja) 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2003178263A (ja) 文字認識装置及び記録媒体
JPH09198404A (ja) 文書処理方法及び装置
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2002269136A (ja) 文書検索システム及びプログラム
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JPH07302306A (ja) 文字入力装置
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JP2001014304A (ja) 文書作成装置、変換処理方法及び変換処理プログラムを記録した記録媒体
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2002245470A (ja) 言語特定装置及び翻訳装置及び言語特定方法
JPH117448A (ja) 記録媒体および文字入力装置
JPH11120290A (ja) 文字認識装置及びその方法、コンピュータ可読メモリ
JP3387582B2 (ja) 文字処理装置
JP4111941B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP3847869B2 (ja) 文字列変換装置及び方法
JP2744241B2 (ja) 文字処理装置
JPH11338978A (ja) 文字認識装置、方法および記憶媒体
JP3344793B2 (ja) かな漢字変換装置
JPH0863487A (ja) 文書検索方法及び文書検索装置
JPH09269945A (ja) メディア変換方法およびメディア変換装置