JPH10293811A

JPH10293811A - 文書認識装置及び方法並びにプログラム記憶媒体

Info

Publication number: JPH10293811A
Application number: JP9102927A
Authority: JP
Inventors: Takahiro Saito; 孝広斉藤; Kunio Matsui; くにお松井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-04-21
Filing date: 1997-04-21
Publication date: 1998-11-04

Abstract

(57)【要約】【課題】本発明は、入力される文書画像を文字コードに
変換する文字認識装置に関し、認識した文書の利用効率
を向上できるようにすることを目的とする。【解決手段】入力文書画像から、空白部分を認識しつつ
文字領域を切り出し、その文字領域を正規化して辞書と
照合することで、入力文書画像の持つ文字コードとそれ
が持つ文字属性とを認識する文字認識部11と、文字認識
部11の出力する文字コード列を形態素解析することで形
態素を抽出する形態素解析部13と、形態素解析部13の抽
出する形態素の持つ文字属性と、形態素の持つ文字属性
ルールとから、その抽出された形態素の持つ文字属性に
文字属性ルールに違反するものがある場合には、それを
正規のものに修正する属性情報処理部15と、属性情報処
理部15の出力する文字列ブロックと文書構造ルールとか
ら、その文字列ブロックの持つ文書構造情報を取得する
文書構造解析部17とを備えるように構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力される文書画
像を文字コードに変換する文字認識装置及び方法と、そ
の文字認識装置を実現するプログラムを記憶するプログ
ラム記憶媒体とに関し、特に、認識した文書の利用効率
を向上できるようにする文字認識装置及び方法と、その
文字認識装置を実現するプログラムを記憶するプログラ
ム記憶媒体とに関する。

【０００２】

【従来の技術】文字認識装置では、文書画像の文字領域
に対して、１文字分の文字画像を切り出し、その切り出
した各々の文字画像について、文字パターンとの照合を
行って、最も似ている文字（第１候補文字）を認識結果
として出力している。更に、２位以下の候補文字につい
ても考慮しつつ、文法知識を用いた処理を行うことで最
も自然な文字列に訂正して、それを認識結果として出力
していくという方法もよく行われている。

【０００３】このような文字認識装置では、従来、認識
した文書の使われ方を一切考慮することなく、文字認識
処理を実行して、その認識結果である文字コード列を出
力していくという構成を採っていた。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
文字認識装置のように、認識した文書の使われ方を一切
考慮することなく、ただ単に、文字認識処理を実行する
という構成を採っていると、その認識した文書を利用す
るユーザに対して、様々な不便を強いるという問題点が
あった。

【０００５】具体的に説明するならば、従来の文字認識
装置では、文書の構造については一切認識していない。
これから、ユーザは、文字認識装置により認識された文
書を閲覧しなければ、それらの文書が、いつ発行され
て、どのようなタイトルを持ち、どのような階層構造を
持つのかというようなことについて、一切知ることがで
きない。

【０００６】従って、ユーザは、文字認識装置により認
識された文書に対して、ある日付に発行された文書を検
索したいと思ったり、あるキーワードをタイトルに含む
文書を検索したいと思っても、それを実行できず、いち
いち各文書を閲覧しなければ、それを知ることができな
いという問題点があった。そして、文字認識装置により
認識された文書が、どのような階層構造を持つのかとい
うことについても、いちいち各文書を閲覧しなければ、
それを知ることができないという問題点があった。

【０００７】また、従来の文字認識装置では、認識され
た単語の中に、異なる文字サイズの文字や異なる文字種
別の文字や空白文字が混在しても、それを訂正する機能
を有していない。

【０００８】これから、ユーザは、文字認識装置により
認識された文書を利用する場合に、文字サイズや文字種
別を訂正したり、空白文字を除去したりしなければなら
ないという問題点があった。

【０００９】本発明はかかる事情に鑑みてなされたもの
であって、認識した文書の利用効率を向上できるように
する新たな文字認識装置及び方法の提供と、その文字認
識装置を実現するプログラムを記憶する新たなプログラ
ム記憶媒体の提供とを目的とする。

【００１０】

【課題を解決するための手段】図１に本発明の原理構成
を図示する。図中、１は本発明を具備する文字認識装置
であって、入力される文書画像を文字コードに変換する
ものである。

【００１１】本発明の文字認識装置１は、第１の辞書１
０と、文字認識部１１と、第２の辞書１２と、形態素解
析部１３と、第１のデータベース１４と、属性情報処理
部１５と、第２のデータベース１６と、文書構造解析部
１７とを備える。

【００１２】この第１の辞書１０は、文字属性情報を付
与した形式に従いつつ、文字パターンと文字コードとの
対応関係を管理する。文字認識部１１は、入力される文
書画像から、空白部分を認識しつつ文字領域を切り出
し、その切り出した各文字領域を正規化して第１の辞書
１０の辞書データと照合することで、入力される文書画
像の持つ文字コードとそれが持つ文字属性情報とを認識
する。

【００１３】第２の辞書１２は、単語（形態素）と品詞
情報との対応関係等を管理する。形態素解析部１３は、
第２の辞書１２の辞書データを参照しつつ、文字認識部
１１の出力する文字コード列を形態素解析することで、
その文字コード列から形態素を抽出する。

【００１４】第１のデータベース１４は、形態素の持つ
文字属性ルールを管理する。属性情報処理部１５は、第
１のデータベース１４の管理する文字属性ルールを参照
しつつ、形態素解析部１３の抽出する形態素の持つ文字
属性情報にルール違反のものがあるのか否かをチェック
して、違反するものがある場合には、それを正規のもの
に訂正する。

【００１５】第２のデータベース１６は、文書の持つ文
書構造ルールを管理する。文書構造解析部１７は、第２
のデータベース１６の管理する文書構造ルールを参照し
つつ、属性情報処理部１５の出力する文字列ブロックの
持つ文書構造情報を取得する。

【００１６】ここで、本発明の文字認識装置１の持つ文
字認識機能は具体的にはプログラムで実現されるもので
あり、このプログラムは媒体で提供され、文字認識装置
１に格納されてメモリ上で動作することで、本発明を実
現することになる。

【００１７】このように構成される本発明の文字認識装
置１では、文字認識部１１は、空白部分を認識しつつ、
入力される文書画像の持つ文字コードとそれが持つ文字
属性情報とを認識する。この文字認識部１１による文字
コードの認識結果を受けて、形態素解析部１３が形態素
を抽出し、この結果は、空白部分が認識された形で、入
力される文書画像の持つ形態素とそれを構成する文字の
持つ文字属性情報とが認識されることになる。

【００１８】これを受けて、属性情報処理部１５は、抽
出された形態素の持つ文字属性情報と、第１のデータベ
ース１４に格納される形態素の持つ文字属性ルールとか
ら、その抽出された形態素の持つ文字属性情報にルール
違反のものがあるのか否かをチェックして、違反するも
のがある場合には、それを正規のものに訂正する。

【００１９】例えば、同一の文字サイズの文字で構成さ
れるべき形態素に異なる文字サイズのものがある場合に
は、文字サイズを揃えたり、同一の文字種別の文字で構
成されるべき形態素に異なる文字種別のものがある場合
には、文字種別を揃えたり、空白部分を持たない形態素
に空白部分が含まれるときには、空白部分を除去した
り、罫線や下線に本来の線種の線と異なるものがある場
合には、それを本来の線種の線を揃えたりするのであ
る。

【００２０】このようにして、文字属性情報も含めた形
で入力される文書画像の文字認識処理が完了すると、文
書構造解析部１７は、属性情報処理部１５の出力する正
規の文字属性情報を持つ文字列ブロックと、第２のデー
タベース１６に格納される文書の持つ文書構造ルールと
から、その文字列ブロックの持つ文書構造情報を取得す
る。

【００２１】例えば、文書の一番上中央にあって、平均
よりも大きい文字サイズを持つ文字列ブロックは、「タ
イトル」を示す文字列ブロックであり、文書の右上にあ
って、数字から構成される文字列ブロックは、「日付」
を示す文字列ブロックであるというように、その文字列
ブロックの持つ文書構造情報を取得したり、文書がいく
つの章からなって、各章にいくつの節があるのかといっ
たような文書の階層構造情報を取得するのである。

【００２２】このように、本発明の文字認識装置１で
は、文書の構造についても認識しつつ文字認識処理を実
行することから、例えば、ユーザは、ある日付に発行さ
れた文書や、あるキーワードをタイトルに含む文書を検
索できるようになる。これにより、文字認識された文書
の利用を図れるようになる。

【００２３】そして、本発明の文字認識装置１では、認
識された単語の中に、異なる文字サイズの文字や、異な
る文字種別の文字が混在していても、それを訂正する機
能を有するとともに、空白文字が混在していても、それ
を除去する機能をし、更に、認識された罫線や下線に本
来のものとは異なる線種の線が混在していても、それを
訂正する機能を有するので、ユーザは、文字認識された
文書を利用する場合に、文字サイズや文字種別や空白文
字や罫線や下線を訂正する必要がない。

【００２４】

【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。図２に、本発明の文字認識装置１の
一実施例を図示する。

【００２５】この実施例に示す本発明の文字認識装置１
は、プログラム記憶媒体よりメモリに格納されて、入力
される文書画像の文字認識処理を実行する文字認識プロ
グラム２０と、文字属性情報付きパターン辞書２１と、
単語辞書２２と、文字知識データベース２３と、文書属
性判定データベース２４とを備える。

【００２６】図３に、文字属性情報付きパターン辞書２
１の管理するデータの一実施例、図４に、単語辞書２２
の管理するデータの一実施例、図５に、文字知識データ
ベース２３の管理するデータの一実施例、図６に、文書
属性判定データベース２４の管理するデータの一実施例
を図示する。

【００２７】文字属性情報付きパターン辞書２１は、文
字認識プログラム２０の文字認識処理用に用意されて、
書体／全角／半角の異なる複数のパターン辞書（文字パ
ターンと文字コードとの対応関係を管理する）を備える
ことで、文字属性情報を付与した形式に従いつつ、文字
パターンと文字コードとの対応関係を管理する。

【００２８】すなわち、図３に示すように、全角明朝体
パターン辞書や、全角ゴシック体パターン辞書や、全角
カナ文字パターン辞書や、半角明朝体パターン辞書や、
半角ゴシック体パターン辞書や、半角カナ文字パターン
辞書といったように、書体／全角／半角毎のパターン辞
書を持つことで、文字属性情報を付与した形式に従いつ
つ、文字パターンと文字コードとの対応関係を管理する
のである。

【００２９】また、単語辞書２２は、文字認識プログラ
ム２０の文字認識処理用に用意されて、単語の持つ品詞
情報及び接続情報を管理する。すなわち、図４に示すよ
うに、例えば、“文”という単語は、普通名詞で接続情
報は（１,1,81)であり、“文字”という単語は、普通名
詞で接続情報は（１,1,81)であり、“認識”という単語
は、サ変名詞で接続情報は（１,3,83)であるというよう
に、単語の持つ品詞情報と、５段動詞語幹の後に名詞は
付かないといような単語の持つ接続情報とを管理するの
である。

【００３０】また、文字知識データベース２３は、文字
認識プログラム２０の文字認識処理用に用意されて、形
態素の持つ文字属性ルールや、空白や罫線等のような文
書に含まれる文書要素の持つ文字属性ルールを管理す
る。

【００３１】すなわち、図５に示すように、例えば、
「英文字で構成された形態素」については、一文字目が
小文字で普通名詞の場合には、小文字に揃えるとか、二
文字目以降に小文字が多い場合には、一文字目を大文
字、二文字目以降を小文字にするとか、大文字が多くて
固有名詞の場合には、大文字に揃えるとか、「空白」に
ついては、１つの形態素の中に空白は入らないとか、英
文字形態素間では同一サイズの空白が入る場合があると
か、「罫線」については、同一行に引かれる罫線の種類
は同一であるとか、表を構成する罫線は二重線か単一線
であるとか、「形態素間の整合性」については、〔動詞
＋動詞語尾〕の文字列は同一の文字属性値（フォントや
書体等が同一）を持つとか、複合語は同一の文字属性値
を持つとかいうような、文字サイズや空白文字や罫線や
下線や大文字小文字の使い方などに関する文字属性ルー
ルを管理するのである。

【００３２】また、文書属性判定データベース２４は、
文書の持つ文書構造ルールを管理する。すなわち、図６
に示すように、例えば、「後ろに空白のある文字列」に
ついては、文書の一番上中央にあって、平均よりも大き
いフォントサイズを持つ文字列は、タイトルブロックで
あるとか、前インデント（空白文字）があって、次行も
同じインデント文字ブロックのある文字列は、箇条書き
要素ブロックであるとか、文書右上にあって、数字から
構成される本文は、日付ブロックであるとか、「文字列
ブロックの文字属性の整合性」については、タイトルブ
ロックの上に本文ブロックは存在しないとか、本文ブロ
ックは必ず存在するとか、「文書の階層構造」について
は、文書中に〔数字＋章〕の文字列が存在するときに
は、〔章〕と〔節〕で定義される階層構造を持つとかい
うような、文書の構造に関する文字構造ルールを管理す
るのである。

【００３３】ここで、これらの文字属性情報付きパター
ン辞書２１や、単語辞書２２や、文字知識データベース
２３や、文書属性判定データベース２４については、キ
ーボード等のユーザインタフェースに従って、認識すべ
き文書に応じて制御することが可能になる構成が採られ
ている。

【００３４】図７ないし図１０に、文字認識プログラム
２０の実行する処理フローの一実施例を図示する。次
に、これらの処理フローに従って、本発明について詳細
に説明する。

【００３５】ここで、文字認識プログラム２０の実行す
る処理は、図２中に示すように、大きく分けて、「文字
認識処理」と、「形態素解析処理」と、「属性情報処
理」と、「文書構造解析処理」という４つから構成され
ている。図７に示す処理フローは、この「文字認識処
理」に該当し、図８に示す処理フローは、この「形態素
解析処理」に該当し、図９に示す処理フローは、この
「属性情報処理」に該当し、図１０に示す処理フロー
は、この「文書構造解析処理」に該当する。

【００３６】文字認識プログラム２０は、「文字認識処
理」に入ると、図７の処理フローに示すように、先ず最
初に、ステップ１で、図示しないイメージスキャナに指
示することで、認識対象となる紙文書を読み取って電子
化画像に変換する。

【００３７】続いて、ステップ２で、その読み取った電
子化画像情報から文字領域を切り出し、続くステップ３
で、その切り出した文字領域から、１文字毎の画像領域
を切り出す。これらの切り出し処理は、従来技術と同様
の方法に従って実行されることになる。

【００３８】続いて、ステップ４で、切り出した各文字
の画像の座標値から、空白に関する情報（１つの空白ブ
ロックは、例えば、左上位置と右下位置とで、その画像
位置が示される）を取得する。この処理に従って、文字
と文字との間に存在する空白の情報や、文字ブロックの
前や後ろの位置に存在する空白の情報が取得されること
になる。

【００３９】続いて、ステップ５で、切り出した各文字
画像を、文字属性情報付きパターン辞書２１に登録され
る文字パターンの大きさに合わせる正規化処理を実行す
る。すなわち、切り出した各文字画像を拡大・縮小する
ことで、文字属性情報付きパターン辞書２１に登録され
る文字パターンの大きさに合わせるのである。

【００４０】続いて、ステップ６で、ステップ５の正規
化処理で用いた文字画像の拡大・縮小倍率に従って、切
り出した各文字画像に展開される文字の文字サイズ情報
を得る。すなわち、文字属性情報付きパターン辞書２１
に登録される文字パターンの大きさは既知であるので、
正規化処理で用いた文字画像の拡大・縮小倍率を使って
逆算することで、各文字画像に展開される文字の文字サ
イズ情報を得るのである。

【００４１】続いて、ステップ７で、正規化した各文字
画像と、文字属性情報付きパターン辞書２１に登録され
る文字パターンとを照合することで、各文字画像の示す
文字コードと書体／全角／半角を特定する。すなわち、
文字属性情報付きパターン辞書２１は、上述したよう
に、書体／全角／半角毎のパターン辞書を備えているの
で、この照合処理に従って、各文字画像の示す文字コー
ドとともに、全角明朝体であるとか、半角ゴシック体で
あるとかいったような書体／全角／半角についても特定
されることになる。

【００４２】そして、最後に、ステップ８で、これらの
取得した文字コード／書体（全角・半角）／文字サイズ
／文字画像座標等の情報を統合する処理を実行する。こ
のようにして、文字認識プログラム２０は、「文字認識
処理」に入ると、認識対象となる紙文書を画像情報に変
換し、文字の属性情報を付与しつつ、文字認識処理を実
行する。ここで、図７の処理フローでは記述しなかった
が、罫線や下線についても認識対象として、その位置や
線種を認識するようにしている。

【００４３】このように、本発明では、文字の属性情報
を付与した形で文字認識処理を実行する。例えば、
“ア”の文字コードについて、全角ゴシック体、全角明
朝体、半角カナ文字等のパターン辞書を用意すること
で、全角ゴシック体の“ア”であるとか、全角明朝体の
“ア”であるとか、半角カナ文字の“ア”であるとかと
いうような形で認識処理を実行することで、認識した文
字に対して、書体／全角／半角の属性情報を付与する。

【００４４】更に、認識した文字に対して、文字サイズ
も属性情報として付与する。更に、認識した文字が空白
を持つとか、認識した文字の前や後ろの位置に空白を持
つとかいった空白に関する情報も属性情報として付与す
る。更に、認識した文字に下線が引かれている場合に
は、その線の種類も属性情報として付与する。

【００４５】例えば、図１１に示すように、紙文書中に
記述される“ＯＣＲ”について、“Ｏ”は、ノーマル文
字の“Ｏ”で、１４ｐｔの文字サイズを持ち、画像位置
(1,10)ー(5,17)に展開され、“Ｃ”は、ボルド文字の
“ｃ”で、１６ｐｔの文字サイズを持ち、画像位置(10,
12) ー(14,18) に展開され、“Ｒ”は、ノーマル文字の
“Ｒ”で、１４ｐｔの文字サイズを持ち、画像位置(16,
10) ー(19,17) に展開され、更に、“Ｏ”と“Ｃ”との
間の画像位置(6,10)ー(8,17)に空白が展開されるという
ように、文字属性情報を付与した形で認識するのであ
る。

【００４６】更に、この「文字認識処理」では、図示し
ない文法知識データベースを使って、認識した文字列を
正規のものに訂正する機能も有している。例えば、“re
cognize(半角空白)texts”という文字イメージについ
て、“rec(半角空白）Ｏgn( 半角空白)ize（全角空白)t
oxts”と認識するときに、認識した“toxts ”を正規の
“texts ”に訂正する機能を有している。

【００４７】文字認識プログラム２０は、「文字認識処
理」を終了すると、続いて、「形態素解析処理」に入
る。文字認識プログラム２０は、「形態素解析処理」に
入ると、図８の処理フローに示すように、先ず最初に、
ステップ１で、認識された文字コードの文字列を分割
し、続くステップ２で、分割した文字列を単語辞書２２
と照合することで、単語を特定する。

【００４８】続いて、ステップ３で、単語辞書２２に登
録される接続情報を使って、単語間の接続関係をチェッ
クし、続くステップ４で、品詞の並び方によって定まる
解析コストを求める。

【００４９】続いて、ステップ５で、全ての分割パター
ンについて処理したのか否かを判断して、未処理の分割
パターンが残されていることを判断するときには、ステ
ップ１に戻り、残されていないことを判断するときに
は、ステップ６に進んで、解析コストが最小となる接続
可能分割パターンを出力する。

【００５０】このようにして、文字認識プログラム２０
は、「形態素解析処理」に入ると、「文字認識処理」で
認識される文字列に対して形態素解析を施すことで、そ
の文字列を形態素に分割する。例えば、図１２に示すよ
うに、認識された“文字認識する”という文字列を、普
通名詞の“文字”と、サ変名詞の“認識”と、サ変名詞
語尾・終止連体の“する”という形態素に分割するので
ある。

【００５１】この「形態素解析処理」では、「文字認識
処理」で認識される文字属性情報については考慮せず
に、文字列に対して形態素解析を実行する。これは、
「文字認識処理」で付与された誤った文字属性情報によ
る影響を防止するためである。

【００５２】例えば、“文字認識する”と認識された文
字列の内、“認”が他の文字の文字サイズとは異なる文
字サイズのものと認識されても、その文字サイズの違い
を無視して形態素解析を行うことで、普通名詞の“文
字”と、サ変名詞の“認識”と、サ変名詞語尾・終止連
体の“する”という形態素に分割する。

【００５３】また、“reco( 半角空白）gnize （全角空
白)texts”というように、空白文字が入っていると認識
されても、その空白文字を無視して形態素解析を行うこ
とで、英単語動詞の“recognize ”と、英単語名詞複数
形の“texts ”という形態素に分割するのである。

【００５４】文字認識プログラム２０は、「形態素解析
処理」を終了すると、続いて、「属性情報処理」に入
る。文字認識プログラム２０は、「属性情報処理」に入
ると、図９の処理フローに示すように、文字知識データ
ベース２３に格納される知識に従って、先ず最初に、ス
テップ１で、「形態素解析処理」で抽出した形態素内の
文字属性情報の統一処理を実行し、続くステップ２で、
「形態素解析処理」で抽出した形態素内の文字属性情報
の知識処理を実行する。

【００５５】上述したように、文字知識データベース２
３は、形態素の持つ文字属性ルールや、空白や罫線等の
ような文書要素の持つ文字属性ルールを管理するので、
この文字属性ルールに従って、例えば、１つの形態素の
文字を全て全角（半角）のものに統一したり、１つの形
態素の文字のサイズを全て同一のものに統一したり、１
つの形態素の文字の書体を全て同一のものに統一するな
どの処理を実行する。そして、例えば、一文字目が小文
字で普通名詞の英文字の場合には、全て小文字に揃えた
り、１つの形態素内に空白があるときにはそれを除去し
たり、同一行に引かれる罫線の線種が途中で変わる場合
には線種を統一するなどの処理を実行するのである。

【００５６】続いて、ステップ３で、全ての形態素など
について処理を行ったのか否かを判断して、未処理のも
のが残されていると判断するときには、ステップ１に戻
り、未処理のものが残されていないと判断するときに
は、ステップ４に進んで、文字属性ルールに従って、形
態素間の文字属性情報に矛盾がないのか否かを判断す
る。そして、矛盾する形態素があることを判断するとき
には、ステップ５に進んで、矛盾を起こした形態素につ
いて、再度、上述の属性情報処理を行ってからステップ
４に戻り、矛盾する形態素がないことを判断するときに
は、処理を終了する。

【００５７】このようにして、文字認識プログラム２０
は、「属性情報処理」に入ると、「形態素解析処理」で
抽出される形態素の持つ文字属性情報を、文字知識デー
タベース２３に格納される文字属性ルールに従って訂正
する。

【００５８】例えば、図１３に示すように、「形態素解
析処理」で、普通名詞の“文字”と、サ変名詞の“認
識”と、サ変名詞語尾・終止連体の“する”という形態
素が抽出されるときにあって、「文字認識処理」によ
り、“文字”の“文”は、１４ｐｔの文字サイズを持つ
ノーマル文字で、“文字”の“字”は、１４ｐｔの文字
サイズを持つノーマル文字で、“認識”の“認”は、１
５ｐｔの文字サイズを持つノーマル文字で、“認識”の
“識”は、１４ｐｔの文字サイズを持つノーマル文字
で、“する”の“す”は、１４ｐｔの文字サイズを持つ
ボルド文字で、“する”の“る”は、１４ｐｔの文字サ
イズを持つノーマル文字であることが認識されるときに
は、文字属性ルールに従って、“認”を１４ｐｔの文字
サイズに訂正するとともに、“す”をノーマル文字に訂
正するのである。

【００５９】この訂正処理は、文字属性ルールに従い、
「英単語普通名詞は半角だが、英字固有名詞は全角に揃
える」というような品詞情報により行ったり、このよう
な品詞情報により定まらないものについては、例えば、
形態素内で文字属性の多数決を取って、最も多かった属
性のものに揃えるとかいったような局所的な情報を用い
る方法を採ったり、文書全体の文字情報を集計し、各文
字種について、最も多かった属性のものに揃えるとかい
ったような大局的な情報を用いる方法を採ることで行
う。

【００６０】「属性情報処理」で行う訂正処理につい
て、更に、具体的に説明するならば、この「属性情報処
理」では、文字サイズや文字フォントを訂正する機能を
有するので、例えば、“認識結果”と認識された形態素
の内、“認”については文字サイズが大きいと認識さ
れ、“識結果”については文字サイズが小さいと誤認識
された場合にも、小さな文字サイズの“認識結果”に訂
正されることで、正しい認識結果が得られるようにな
る。そして、“recognize ”と認識された形態素の内、
“ｃ”については文字フォントが別のものと誤認識され
た場合にも、同一の文字フォントの“recognize ”に訂
正されることで、正しい認識結果が得られるようにな
る。そして、“re c ogn i ze ”と全角／半角が混在さ
れて認識された場合にも、半角の“recognize ”に訂正
されることで、正しい認識結果が得られるようになる。

【００６１】また、この「属性情報処理」では、空白情
報を訂正する機能を有するので、例えば、半角空白が存
在しないのにもかかわらず、“recogniz( 半角空白)ing
( 全角空白)texts”と認識された場合にも、半角空白の
ない“recognizing(全角空白)texts”に訂正されること
で、正しい認識結果が得られるようになる。このような
空白情報に対する処理に従って、不要な空白が除去され
るとともに、空白の全角／半角に対する情報も正しいも
のとなるので、正しいインデント情報を得ることができ
るようになる。

【００６２】また、この「属性情報処理」では、大文字
小文字を訂正する機能を有するので、例えば、“reＣog
niＺing ”と認識された場合にも、“recognizing ”に
訂正されることで、正しい認識結果が得られるようにな
る。なお、このような処理は、形態素解析の結果が未登
録語と判断された単語に対しても行うことができること
がある。例えば、“reＣogniＺing ”が未登録語として
判断されても、「Ｉ以外の大文字は文の始めにしか出現
しない」という文字属性ルールが存在するときには、
“recognizing ”に正しく訂正されることになる。

【００６３】また、この「属性情報処理」では、罫線や
下線の線種を訂正する機能を有するので、例えば、罫線
や下線に破線が混在すると認識された場合にも、その破
線が実線に訂正されることで、正しい認識結果が得られ
るようになる。

【００６４】文字認識プログラム２０は、「属性情報処
理」を終了すると、続いて、「文書構造解析処理」に入
る。文字認識プログラム２０は、「文書構造解析処理」
に入ると、図１０の処理フローに示すように、文書属性
判定データベース２４に格納される知識に従って、先ず
最初に、ステップ１で、「属性情報処理」により正規の
文字属性情報を持つものに訂正された各文字列ブロック
に対して、文書属性判定処理を実行することで、文書属
性を付与する。このとき、正確なものに訂正された罫線
情報を利用することで、文書属性判定処理を実行するこ
とがある。

【００６５】上述したように、文書属性判定データベー
ス２４は、文書の持つ文書構造ルールを管理するので、
この文書構造ルールに従って、「属性情報処理」で正し
いものに訂正された文字属性情報を持つ文字列ブロック
に対して、タイトルブロックであるとか、箇条書き要素
ブロックであるとか、日付ブロックであるとかいったよ
うな文書属性を付与したり、文書の階層構造を特定する
のである。

【００６６】続いて、ステップ２で、全ての文字列ブロ
ックに矛盾のない文書属性が付与されたのか否かを判断
して、矛盾する文字列ブロックが残されていることを判
断するときには、ステップ３に進んで、矛盾する文字列
ブロックについて、再度、上述の文書属性判定処理を行
ってからステップ２に戻り、矛盾する文字列ブロックが
ないことを判断するときには、ステップ４に進んで、Ｓ
ＧＭＬのような規定の構造化文書フォーマットに変換し
て、図示しない格納域に格納して処理を終了する。

【００６７】このようにして、文字認識プログラム２０
は、「文書構造解析処理」に入ると、「属性情報処理」
で正しいものに訂正された文字属性情報に基づき、文書
属性判定データベース２４に格納される文書構造ルール
に従って、入力された文書の文書構造を特定するのであ
る。

【００６８】例えば、図１４に示すように、“ＯＣＲ”
という文字列ブロックは、文書のタイトルを示すタイト
ルブロックで、それに続く、“文字認識する”という文
字列ブロックは、文書の本文を示す本文ブロックである
とか、図１５に示すように、設計仕様書というタイトル
を持って、第１章から第ｎ章の章構成を有するととも
に、第１章は第１節から第ｍ節の節構成を有する階層構
造を持つというように、入力された文書の文書構造を特
定するのである。

【００６９】なお、この「文書構造解析処理」に対し
て、認識のミスによりインデントがずれてしまっている
場合に、文書構造によりインデントが揃えられるべきで
あると判断するときには、インデントを揃える処理を実
行するといったように、「文字認識処理」や「形態素解
析処理」や「属性情報処理」での誤処理を訂正する機能
も持たせることも可能である。

【００７０】このようにして、本発明の文字認識装置１
では、文字属性情報も含めた形で、文書の文字認識処理
を実行することで、入力される文書画像を正確に認識で
きるようになるとともに、その文書構造についても取得
できるようになる。

【００７１】この実施例では説明しなかったが、認識さ
れた文書について、文字属性情報を規定のものに変更し
たり、文書構造を規定のものに変更することで、種々の
文書形式を１つの標準化された文書形式に統一すること
が可能である。

【００７２】また、実施例では、「文字認識処理」の所
で、文法情報を用いた認識誤りの訂正を行う構成を採っ
たが、この訂正機能は、「属性情報処理」の所で行う構
成を採ってもよい。この構成を採ると、認識結果に対し
て形態素解析が行われ、その結果を用いて、認識誤りの
訂正処理と文字属性情報の処理とを同時に行うことにな
るので、処理の効率が上がるとともに、データベースの
知識に無駄がなくなる。

【００７３】

【発明の効果】以上説明したように、本発明の文字認識
装置では、文書の構造についても認識しつつ文字認識処
理を実行することから、例えば、ユーザは、ある日付に
発行された文書や、あるキーワードをタイトルに含む文
書を検索できるようになる。これにより、文字認識され
た文書の利用を図れるようになる。

【００７４】そして、本発明の文字認識装置では、認識
された単語の中に、異なる文字サイズの文字や、異なる
文字種別の文字が混在していても、それを訂正する機能
を有するとともに、空白文字が混在していても、それを
除去する機能をし、更に、認識された罫線や下線に本来
のものとは異なる線種の線が混在していても、それを訂
正する機能を有するので、ユーザは、文字認識された文
書を利用する場合に、文字サイズや文字種別や空白文字
や罫線や下線を訂正する必要がない。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の一実施例である。

【図３】文字属性情報付きパターン辞書の一実施例であ
る。

【図４】単語辞書の一実施例である。

【図５】文字知識データベースの一実施例である。

【図６】文書属性判定データベースの一実施例である。

【図７】文字認識プログラムの実行する処理フローの一
実施例である。

【図８】文字認識プログラムの実行する処理フローの一
実施例である。

【図９】文字認識プログラムの実行する処理フローの一
実施例である。

【図１０】文字認識プログラムの実行する処理フローの
一実施例である。

【図１１】文字認識処理の説明図である。

【図１２】形態素解析処理の説明図である。

【図１３】文字属性情報処理の説明図である。

【図１４】文書構造解析処理の説明図である。

【図１５】文書の階層構造の説明図である。

【符号の説明】

１文字認識装置１０第１の辞書１１文字認識部１２第２の辞書１３形態素解析部１４第１のデータベース１５属性情報処理部１６第２のデータベース１７文書構造解析部

Claims

【特許請求の範囲】

【請求項１】入力される文書画像を文字コードに変換
する文字認識装置において、入力される文書画像から、空白部分を認識しつつ文字領
域を切り出し、該文字領域を正規化して用意される辞書
と照合することで、該文書画像の持つ文字コードとそれ
が持つ文字属性情報とを認識する文字認識部と、上記文字認識部の出力する文字コード列を形態素解析す
ることで、該文字コード列から形態素を抽出する形態素
解析部と、上記形態素解析部の抽出する形態素の持つ上記文字属性
情報と、形態素の持つ文字属性ルールとから、上記形態
素解析部の抽出する形態素の持つ上記文字属性情報に該
文字属性ルールに違反するものがあるのか否かをチェッ
クして、違反するものがある場合には、それを正規のも
のに訂正する属性情報処理部とを備えることを、特徴とする文字認識装置。
【請求項２】請求項１記載の文字認識装置において、属性情報処理部の出力する正規の文字属性情報を持つ文
字列ブロックと、文書の持つ文書構造ルールとから、該
文字列ブロックの持つ文書構造情報を取得する文書構造
解析部を備えることを、特徴とする文字認識装置。
【請求項３】請求項１又は２記載の文字認識装置にお
いて、属性情報処理部は、文字サイズを正規のものに訂正する
ように処理することを、特徴とする文字認識装置。
【請求項４】請求項１又は２記載の文字認識装置にお
いて、属性情報処理部は、文字種別を正規のものに訂正するよ
うに処理することを、特徴とする文字認識装置。
【請求項５】請求項１又は２記載の文字認識装置にお
いて、属性情報処理部は、空白を正規のものに訂正するように
処理することを、特徴とする文字認識装置。
【請求項６】請求項１又は２記載の文字認識装置にお
いて、属性情報処理部は、罫線を正規のものに訂正するように
処理することを、特徴とする文字認識装置。
【請求項７】入力される文書画像を文字コードに変換
する文字認識処理方法において、入力される文書画像から、空白部分を認識しつつ文字領
域を切り出し、該文字領域を正規化して用意される辞書
と照合することで、該文書画像の持つ文字コードとそれ
が持つ文字属性情報とを認識する第１の処理過程と、上記第１の処理過程で出力する文字コード列を形態素解
析することで、該文字コード列から形態素を抽出する第
２の処理過程と、上記第２の処理過程で抽出する形態素の持つ上記文字属
性情報と、形態素の持つ文字属性ルールとから、上記第
２の処理過程で抽出する形態素の持つ上記文字属性情報
に該文字属性ルールに違反するものがあるのか否かをチ
ェックして、違反するものがある場合には、それを正規
のものに訂正する第４の処理過程と、上記第４の処理過程で出力する正規の文字属性情報を持
つ文字列ブロックと、文書の持つ文書構造ルールとか
ら、該文字列ブロックの持つ文書構造情報を取得する第
５の処理過程とを備えることを、特徴とする文字認識処理方法。
【請求項８】入力される文書画像を文字コードに変換
する文字認識装置を実現するプログラムが記憶されるプ
ログラム記憶媒体であって、入力される文書画像から、空白部分を認識しつつ文字領
域を切り出し、該文字領域を正規化して用意される辞書
と照合することで、該文書画像の持つ文字コードとそれ
が持つ文字属性情報とを認識する文字認識部と、上記文字認識部の出力する文字コード列を形態素解析す
ることで、該文字コード列から形態素を抽出する形態素
解析部と、上記形態素解析部の抽出する形態素の持つ上記文字属性
情報と、形態素の持つ文字属性ルールとから、上記形態
素解析部の抽出する形態素の持つ上記文字属性情報に該
文字属性ルールに違反するものがあるのか否かをチェッ
クして、違反するものがある場合には、それを正規のも
のに訂正する属性情報処理部と、上記属性情報処理部の出力する正規の文字属性情報を持
つ文字列ブロックと、文書の持つ文書構造ルールとか
ら、該文字列ブロックの持つ文書構造情報を取得する文
書構造解析部とを実現するプログラムが記憶されること
を、特徴とするプログラム記憶媒体。