JPH10293811A - 文書認識装置及び方法並びにプログラム記憶媒体 - Google Patents

文書認識装置及び方法並びにプログラム記憶媒体

Info

Publication number
JPH10293811A
JPH10293811A JP9102927A JP10292797A JPH10293811A JP H10293811 A JPH10293811 A JP H10293811A JP 9102927 A JP9102927 A JP 9102927A JP 10292797 A JP10292797 A JP 10292797A JP H10293811 A JPH10293811 A JP H10293811A
Authority
JP
Japan
Prior art keywords
character
attribute information
morpheme
document
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9102927A
Other languages
English (en)
Inventor
Takahiro Saito
孝広 斉藤
Kunio Matsui
くにお 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP9102927A priority Critical patent/JPH10293811A/ja
Publication of JPH10293811A publication Critical patent/JPH10293811A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】本発明は、入力される文書画像を文字コードに
変換する文字認識装置に関し、認識した文書の利用効率
を向上できるようにすることを目的とする。 【解決手段】入力文書画像から、空白部分を認識しつつ
文字領域を切り出し、その文字領域を正規化して辞書と
照合することで、入力文書画像の持つ文字コードとそれ
が持つ文字属性とを認識する文字認識部11と、文字認識
部11の出力する文字コード列を形態素解析することで形
態素を抽出する形態素解析部13と、形態素解析部13の抽
出する形態素の持つ文字属性と、形態素の持つ文字属性
ルールとから、その抽出された形態素の持つ文字属性に
文字属性ルールに違反するものがある場合には、それを
正規のものに修正する属性情報処理部15と、属性情報処
理部15の出力する文字列ブロックと文書構造ルールとか
ら、その文字列ブロックの持つ文書構造情報を取得する
文書構造解析部17とを備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される文書画
像を文字コードに変換する文字認識装置及び方法と、そ
の文字認識装置を実現するプログラムを記憶するプログ
ラム記憶媒体とに関し、特に、認識した文書の利用効率
を向上できるようにする文字認識装置及び方法と、その
文字認識装置を実現するプログラムを記憶するプログラ
ム記憶媒体とに関する。
【0002】
【従来の技術】文字認識装置では、文書画像の文字領域
に対して、1文字分の文字画像を切り出し、その切り出
した各々の文字画像について、文字パターンとの照合を
行って、最も似ている文字(第1候補文字)を認識結果
として出力している。更に、2位以下の候補文字につい
ても考慮しつつ、文法知識を用いた処理を行うことで最
も自然な文字列に訂正して、それを認識結果として出力
していくという方法もよく行われている。
【0003】このような文字認識装置では、従来、認識
した文書の使われ方を一切考慮することなく、文字認識
処理を実行して、その認識結果である文字コード列を出
力していくという構成を採っていた。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
文字認識装置のように、認識した文書の使われ方を一切
考慮することなく、ただ単に、文字認識処理を実行する
という構成を採っていると、その認識した文書を利用す
るユーザに対して、様々な不便を強いるという問題点が
あった。
【0005】具体的に説明するならば、従来の文字認識
装置では、文書の構造については一切認識していない。
これから、ユーザは、文字認識装置により認識された文
書を閲覧しなければ、それらの文書が、いつ発行され
て、どのようなタイトルを持ち、どのような階層構造を
持つのかというようなことについて、一切知ることがで
きない。
【0006】従って、ユーザは、文字認識装置により認
識された文書に対して、ある日付に発行された文書を検
索したいと思ったり、あるキーワードをタイトルに含む
文書を検索したいと思っても、それを実行できず、いち
いち各文書を閲覧しなければ、それを知ることができな
いという問題点があった。そして、文字認識装置により
認識された文書が、どのような階層構造を持つのかとい
うことについても、いちいち各文書を閲覧しなければ、
それを知ることができないという問題点があった。
【0007】また、従来の文字認識装置では、認識され
た単語の中に、異なる文字サイズの文字や異なる文字種
別の文字や空白文字が混在しても、それを訂正する機能
を有していない。
【0008】これから、ユーザは、文字認識装置により
認識された文書を利用する場合に、文字サイズや文字種
別を訂正したり、空白文字を除去したりしなければなら
ないという問題点があった。
【0009】本発明はかかる事情に鑑みてなされたもの
であって、認識した文書の利用効率を向上できるように
する新たな文字認識装置及び方法の提供と、その文字認
識装置を実現するプログラムを記憶する新たなプログラ
ム記憶媒体の提供とを目的とする。
【0010】
【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、1は本発明を具備する文字認識装置
であって、入力される文書画像を文字コードに変換する
ものである。
【0011】本発明の文字認識装置1は、第1の辞書1
0と、文字認識部11と、第2の辞書12と、形態素解
析部13と、第1のデータベース14と、属性情報処理
部15と、第2のデータベース16と、文書構造解析部
17とを備える。
【0012】この第1の辞書10は、文字属性情報を付
与した形式に従いつつ、文字パターンと文字コードとの
対応関係を管理する。文字認識部11は、入力される文
書画像から、空白部分を認識しつつ文字領域を切り出
し、その切り出した各文字領域を正規化して第1の辞書
10の辞書データと照合することで、入力される文書画
像の持つ文字コードとそれが持つ文字属性情報とを認識
する。
【0013】第2の辞書12は、単語(形態素)と品詞
情報との対応関係等を管理する。形態素解析部13は、
第2の辞書12の辞書データを参照しつつ、文字認識部
11の出力する文字コード列を形態素解析することで、
その文字コード列から形態素を抽出する。
【0014】第1のデータベース14は、形態素の持つ
文字属性ルールを管理する。属性情報処理部15は、第
1のデータベース14の管理する文字属性ルールを参照
しつつ、形態素解析部13の抽出する形態素の持つ文字
属性情報にルール違反のものがあるのか否かをチェック
して、違反するものがある場合には、それを正規のもの
に訂正する。
【0015】第2のデータベース16は、文書の持つ文
書構造ルールを管理する。文書構造解析部17は、第2
のデータベース16の管理する文書構造ルールを参照し
つつ、属性情報処理部15の出力する文字列ブロックの
持つ文書構造情報を取得する。
【0016】ここで、本発明の文字認識装置1の持つ文
字認識機能は具体的にはプログラムで実現されるもので
あり、このプログラムは媒体で提供され、文字認識装置
1に格納されてメモリ上で動作することで、本発明を実
現することになる。
【0017】このように構成される本発明の文字認識装
置1では、文字認識部11は、空白部分を認識しつつ、
入力される文書画像の持つ文字コードとそれが持つ文字
属性情報とを認識する。この文字認識部11による文字
コードの認識結果を受けて、形態素解析部13が形態素
を抽出し、この結果は、空白部分が認識された形で、入
力される文書画像の持つ形態素とそれを構成する文字の
持つ文字属性情報とが認識されることになる。
【0018】これを受けて、属性情報処理部15は、抽
出された形態素の持つ文字属性情報と、第1のデータベ
ース14に格納される形態素の持つ文字属性ルールとか
ら、その抽出された形態素の持つ文字属性情報にルール
違反のものがあるのか否かをチェックして、違反するも
のがある場合には、それを正規のものに訂正する。
【0019】例えば、同一の文字サイズの文字で構成さ
れるべき形態素に異なる文字サイズのものがある場合に
は、文字サイズを揃えたり、同一の文字種別の文字で構
成されるべき形態素に異なる文字種別のものがある場合
には、文字種別を揃えたり、空白部分を持たない形態素
に空白部分が含まれるときには、空白部分を除去した
り、罫線や下線に本来の線種の線と異なるものがある場
合には、それを本来の線種の線を揃えたりするのであ
る。
【0020】このようにして、文字属性情報も含めた形
で入力される文書画像の文字認識処理が完了すると、文
書構造解析部17は、属性情報処理部15の出力する正
規の文字属性情報を持つ文字列ブロックと、第2のデー
タベース16に格納される文書の持つ文書構造ルールと
から、その文字列ブロックの持つ文書構造情報を取得す
る。
【0021】例えば、文書の一番上中央にあって、平均
よりも大きい文字サイズを持つ文字列ブロックは、「タ
イトル」を示す文字列ブロックであり、文書の右上にあ
って、数字から構成される文字列ブロックは、「日付」
を示す文字列ブロックであるというように、その文字列
ブロックの持つ文書構造情報を取得したり、文書がいく
つの章からなって、各章にいくつの節があるのかといっ
たような文書の階層構造情報を取得するのである。
【0022】このように、本発明の文字認識装置1で
は、文書の構造についても認識しつつ文字認識処理を実
行することから、例えば、ユーザは、ある日付に発行さ
れた文書や、あるキーワードをタイトルに含む文書を検
索できるようになる。これにより、文字認識された文書
の利用を図れるようになる。
【0023】そして、本発明の文字認識装置1では、認
識された単語の中に、異なる文字サイズの文字や、異な
る文字種別の文字が混在していても、それを訂正する機
能を有するとともに、空白文字が混在していても、それ
を除去する機能をし、更に、認識された罫線や下線に本
来のものとは異なる線種の線が混在していても、それを
訂正する機能を有するので、ユーザは、文字認識された
文書を利用する場合に、文字サイズや文字種別や空白文
字や罫線や下線を訂正する必要がない。
【0024】
【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。図2に、本発明の文字認識装置1の
一実施例を図示する。
【0025】この実施例に示す本発明の文字認識装置1
は、プログラム記憶媒体よりメモリに格納されて、入力
される文書画像の文字認識処理を実行する文字認識プロ
グラム20と、文字属性情報付きパターン辞書21と、
単語辞書22と、文字知識データベース23と、文書属
性判定データベース24とを備える。
【0026】図3に、文字属性情報付きパターン辞書2
1の管理するデータの一実施例、図4に、単語辞書22
の管理するデータの一実施例、図5に、文字知識データ
ベース23の管理するデータの一実施例、図6に、文書
属性判定データベース24の管理するデータの一実施例
を図示する。
【0027】文字属性情報付きパターン辞書21は、文
字認識プログラム20の文字認識処理用に用意されて、
書体/全角/半角の異なる複数のパターン辞書(文字パ
ターンと文字コードとの対応関係を管理する)を備える
ことで、文字属性情報を付与した形式に従いつつ、文字
パターンと文字コードとの対応関係を管理する。
【0028】すなわち、図3に示すように、全角明朝体
パターン辞書や、全角ゴシック体パターン辞書や、全角
カナ文字パターン辞書や、半角明朝体パターン辞書や、
半角ゴシック体パターン辞書や、半角カナ文字パターン
辞書といったように、書体/全角/半角毎のパターン辞
書を持つことで、文字属性情報を付与した形式に従いつ
つ、文字パターンと文字コードとの対応関係を管理する
のである。
【0029】また、単語辞書22は、文字認識プログラ
ム20の文字認識処理用に用意されて、単語の持つ品詞
情報及び接続情報を管理する。すなわち、図4に示すよ
うに、例えば、“文”という単語は、普通名詞で接続情
報は(1,1,81)であり、“文字”という単語は、普通名
詞で接続情報は(1,1,81)であり、“認識”という単語
は、サ変名詞で接続情報は(1,3,83)であるというよう
に、単語の持つ品詞情報と、5段動詞語幹の後に名詞は
付かないといような単語の持つ接続情報とを管理するの
である。
【0030】また、文字知識データベース23は、文字
認識プログラム20の文字認識処理用に用意されて、形
態素の持つ文字属性ルールや、空白や罫線等のような文
書に含まれる文書要素の持つ文字属性ルールを管理す
る。
【0031】すなわち、図5に示すように、例えば、
「英文字で構成された形態素」については、一文字目が
小文字で普通名詞の場合には、小文字に揃えるとか、二
文字目以降に小文字が多い場合には、一文字目を大文
字、二文字目以降を小文字にするとか、大文字が多くて
固有名詞の場合には、大文字に揃えるとか、「空白」に
ついては、1つの形態素の中に空白は入らないとか、英
文字形態素間では同一サイズの空白が入る場合があると
か、「罫線」については、同一行に引かれる罫線の種類
は同一であるとか、表を構成する罫線は二重線か単一線
であるとか、「形態素間の整合性」については、〔動詞
+動詞語尾〕の文字列は同一の文字属性値(フォントや
書体等が同一)を持つとか、複合語は同一の文字属性値
を持つとかいうような、文字サイズや空白文字や罫線や
下線や大文字小文字の使い方などに関する文字属性ルー
ルを管理するのである。
【0032】また、文書属性判定データベース24は、
文書の持つ文書構造ルールを管理する。すなわち、図6
に示すように、例えば、「後ろに空白のある文字列」に
ついては、文書の一番上中央にあって、平均よりも大き
いフォントサイズを持つ文字列は、タイトルブロックで
あるとか、前インデント(空白文字)があって、次行も
同じインデント文字ブロックのある文字列は、箇条書き
要素ブロックであるとか、文書右上にあって、数字から
構成される本文は、日付ブロックであるとか、「文字列
ブロックの文字属性の整合性」については、タイトルブ
ロックの上に本文ブロックは存在しないとか、本文ブロ
ックは必ず存在するとか、「文書の階層構造」について
は、文書中に〔数字+章〕の文字列が存在するときに
は、〔章〕と〔節〕で定義される階層構造を持つとかい
うような、文書の構造に関する文字構造ルールを管理す
るのである。
【0033】ここで、これらの文字属性情報付きパター
ン辞書21や、単語辞書22や、文字知識データベース
23や、文書属性判定データベース24については、キ
ーボード等のユーザインタフェースに従って、認識すべ
き文書に応じて制御することが可能になる構成が採られ
ている。
【0034】図7ないし図10に、文字認識プログラム
20の実行する処理フローの一実施例を図示する。次
に、これらの処理フローに従って、本発明について詳細
に説明する。
【0035】ここで、文字認識プログラム20の実行す
る処理は、図2中に示すように、大きく分けて、「文字
認識処理」と、「形態素解析処理」と、「属性情報処
理」と、「文書構造解析処理」という4つから構成され
ている。図7に示す処理フローは、この「文字認識処
理」に該当し、図8に示す処理フローは、この「形態素
解析処理」に該当し、図9に示す処理フローは、この
「属性情報処理」に該当し、図10に示す処理フロー
は、この「文書構造解析処理」に該当する。
【0036】文字認識プログラム20は、「文字認識処
理」に入ると、図7の処理フローに示すように、先ず最
初に、ステップ1で、図示しないイメージスキャナに指
示することで、認識対象となる紙文書を読み取って電子
化画像に変換する。
【0037】続いて、ステップ2で、その読み取った電
子化画像情報から文字領域を切り出し、続くステップ3
で、その切り出した文字領域から、1文字毎の画像領域
を切り出す。これらの切り出し処理は、従来技術と同様
の方法に従って実行されることになる。
【0038】続いて、ステップ4で、切り出した各文字
の画像の座標値から、空白に関する情報(1つの空白ブ
ロックは、例えば、左上位置と右下位置とで、その画像
位置が示される)を取得する。この処理に従って、文字
と文字との間に存在する空白の情報や、文字ブロックの
前や後ろの位置に存在する空白の情報が取得されること
になる。
【0039】続いて、ステップ5で、切り出した各文字
画像を、文字属性情報付きパターン辞書21に登録され
る文字パターンの大きさに合わせる正規化処理を実行す
る。すなわち、切り出した各文字画像を拡大・縮小する
ことで、文字属性情報付きパターン辞書21に登録され
る文字パターンの大きさに合わせるのである。
【0040】続いて、ステップ6で、ステップ5の正規
化処理で用いた文字画像の拡大・縮小倍率に従って、切
り出した各文字画像に展開される文字の文字サイズ情報
を得る。すなわち、文字属性情報付きパターン辞書21
に登録される文字パターンの大きさは既知であるので、
正規化処理で用いた文字画像の拡大・縮小倍率を使って
逆算することで、各文字画像に展開される文字の文字サ
イズ情報を得るのである。
【0041】続いて、ステップ7で、正規化した各文字
画像と、文字属性情報付きパターン辞書21に登録され
る文字パターンとを照合することで、各文字画像の示す
文字コードと書体/全角/半角を特定する。すなわち、
文字属性情報付きパターン辞書21は、上述したよう
に、書体/全角/半角毎のパターン辞書を備えているの
で、この照合処理に従って、各文字画像の示す文字コー
ドとともに、全角明朝体であるとか、半角ゴシック体で
あるとかいったような書体/全角/半角についても特定
されることになる。
【0042】そして、最後に、ステップ8で、これらの
取得した文字コード/書体(全角・半角)/文字サイズ
/文字画像座標等の情報を統合する処理を実行する。こ
のようにして、文字認識プログラム20は、「文字認識
処理」に入ると、認識対象となる紙文書を画像情報に変
換し、文字の属性情報を付与しつつ、文字認識処理を実
行する。ここで、図7の処理フローでは記述しなかった
が、罫線や下線についても認識対象として、その位置や
線種を認識するようにしている。
【0043】このように、本発明では、文字の属性情報
を付与した形で文字認識処理を実行する。例えば、
“ア”の文字コードについて、全角ゴシック体、全角明
朝体、半角カナ文字等のパターン辞書を用意すること
で、全角ゴシック体の“ア”であるとか、全角明朝体の
“ア”であるとか、半角カナ文字の“ア”であるとかと
いうような形で認識処理を実行することで、認識した文
字に対して、書体/全角/半角の属性情報を付与する。
【0044】更に、認識した文字に対して、文字サイズ
も属性情報として付与する。更に、認識した文字が空白
を持つとか、認識した文字の前や後ろの位置に空白を持
つとかいった空白に関する情報も属性情報として付与す
る。更に、認識した文字に下線が引かれている場合に
は、その線の種類も属性情報として付与する。
【0045】例えば、図11に示すように、紙文書中に
記述される“OCR”について、“O”は、ノーマル文
字の“O”で、14ptの文字サイズを持ち、画像位置
(1,10)ー(5,17)に展開され、“C”は、ボルド文字の
“c”で、16ptの文字サイズを持ち、画像位置(10,
12) ー(14,18) に展開され、“R”は、ノーマル文字の
“R”で、14ptの文字サイズを持ち、画像位置(16,
10) ー(19,17) に展開され、更に、“O”と“C”との
間の画像位置(6,10)ー(8,17)に空白が展開されるという
ように、文字属性情報を付与した形で認識するのであ
る。
【0046】更に、この「文字認識処理」では、図示し
ない文法知識データベースを使って、認識した文字列を
正規のものに訂正する機能も有している。例えば、“re
cognize(半角空白)texts”という文字イメージについ
て、“rec(半角空白)Ogn( 半角空白)ize(全角空白)t
oxts”と認識するときに、認識した“toxts ”を正規の
“texts ”に訂正する機能を有している。
【0047】文字認識プログラム20は、「文字認識処
理」を終了すると、続いて、「形態素解析処理」に入
る。文字認識プログラム20は、「形態素解析処理」に
入ると、図8の処理フローに示すように、先ず最初に、
ステップ1で、認識された文字コードの文字列を分割
し、続くステップ2で、分割した文字列を単語辞書22
と照合することで、単語を特定する。
【0048】続いて、ステップ3で、単語辞書22に登
録される接続情報を使って、単語間の接続関係をチェッ
クし、続くステップ4で、品詞の並び方によって定まる
解析コストを求める。
【0049】続いて、ステップ5で、全ての分割パター
ンについて処理したのか否かを判断して、未処理の分割
パターンが残されていることを判断するときには、ステ
ップ1に戻り、残されていないことを判断するときに
は、ステップ6に進んで、解析コストが最小となる接続
可能分割パターンを出力する。
【0050】このようにして、文字認識プログラム20
は、「形態素解析処理」に入ると、「文字認識処理」で
認識される文字列に対して形態素解析を施すことで、そ
の文字列を形態素に分割する。例えば、図12に示すよ
うに、認識された“文字認識する”という文字列を、普
通名詞の“文字”と、サ変名詞の“認識”と、サ変名詞
語尾・終止連体の“する”という形態素に分割するので
ある。
【0051】この「形態素解析処理」では、「文字認識
処理」で認識される文字属性情報については考慮せず
に、文字列に対して形態素解析を実行する。これは、
「文字認識処理」で付与された誤った文字属性情報によ
る影響を防止するためである。
【0052】例えば、“文字認識する”と認識された文
字列の内、“認”が他の文字の文字サイズとは異なる文
字サイズのものと認識されても、その文字サイズの違い
を無視して形態素解析を行うことで、普通名詞の“文
字”と、サ変名詞の“認識”と、サ変名詞語尾・終止連
体の“する”という形態素に分割する。
【0053】また、“reco( 半角空白)gnize (全角空
白)texts”というように、空白文字が入っていると認識
されても、その空白文字を無視して形態素解析を行うこ
とで、英単語動詞の“recognize ”と、英単語名詞複数
形の“texts ”という形態素に分割するのである。
【0054】文字認識プログラム20は、「形態素解析
処理」を終了すると、続いて、「属性情報処理」に入
る。文字認識プログラム20は、「属性情報処理」に入
ると、図9の処理フローに示すように、文字知識データ
ベース23に格納される知識に従って、先ず最初に、ス
テップ1で、「形態素解析処理」で抽出した形態素内の
文字属性情報の統一処理を実行し、続くステップ2で、
「形態素解析処理」で抽出した形態素内の文字属性情報
の知識処理を実行する。
【0055】上述したように、文字知識データベース2
3は、形態素の持つ文字属性ルールや、空白や罫線等の
ような文書要素の持つ文字属性ルールを管理するので、
この文字属性ルールに従って、例えば、1つの形態素の
文字を全て全角(半角)のものに統一したり、1つの形
態素の文字のサイズを全て同一のものに統一したり、1
つの形態素の文字の書体を全て同一のものに統一するな
どの処理を実行する。そして、例えば、一文字目が小文
字で普通名詞の英文字の場合には、全て小文字に揃えた
り、1つの形態素内に空白があるときにはそれを除去し
たり、同一行に引かれる罫線の線種が途中で変わる場合
には線種を統一するなどの処理を実行するのである。
【0056】続いて、ステップ3で、全ての形態素など
について処理を行ったのか否かを判断して、未処理のも
のが残されていると判断するときには、ステップ1に戻
り、未処理のものが残されていないと判断するときに
は、ステップ4に進んで、文字属性ルールに従って、形
態素間の文字属性情報に矛盾がないのか否かを判断す
る。そして、矛盾する形態素があることを判断するとき
には、ステップ5に進んで、矛盾を起こした形態素につ
いて、再度、上述の属性情報処理を行ってからステップ
4に戻り、矛盾する形態素がないことを判断するときに
は、処理を終了する。
【0057】このようにして、文字認識プログラム20
は、「属性情報処理」に入ると、「形態素解析処理」で
抽出される形態素の持つ文字属性情報を、文字知識デー
タベース23に格納される文字属性ルールに従って訂正
する。
【0058】例えば、図13に示すように、「形態素解
析処理」で、普通名詞の“文字”と、サ変名詞の“認
識”と、サ変名詞語尾・終止連体の“する”という形態
素が抽出されるときにあって、「文字認識処理」によ
り、“文字”の“文”は、14ptの文字サイズを持つ
ノーマル文字で、“文字”の“字”は、14ptの文字
サイズを持つノーマル文字で、“認識”の“認”は、1
5ptの文字サイズを持つノーマル文字で、“認識”の
“識”は、14ptの文字サイズを持つノーマル文字
で、“する”の“す”は、14ptの文字サイズを持つ
ボルド文字で、“する”の“る”は、14ptの文字サ
イズを持つノーマル文字であることが認識されるときに
は、文字属性ルールに従って、“認”を14ptの文字
サイズに訂正するとともに、“す”をノーマル文字に訂
正するのである。
【0059】この訂正処理は、文字属性ルールに従い、
「英単語普通名詞は半角だが、英字固有名詞は全角に揃
える」というような品詞情報により行ったり、このよう
な品詞情報により定まらないものについては、例えば、
形態素内で文字属性の多数決を取って、最も多かった属
性のものに揃えるとかいったような局所的な情報を用い
る方法を採ったり、文書全体の文字情報を集計し、各文
字種について、最も多かった属性のものに揃えるとかい
ったような大局的な情報を用いる方法を採ることで行
う。
【0060】「属性情報処理」で行う訂正処理につい
て、更に、具体的に説明するならば、この「属性情報処
理」では、文字サイズや文字フォントを訂正する機能を
有するので、例えば、“認識結果”と認識された形態素
の内、“認”については文字サイズが大きいと認識さ
れ、“識結果”については文字サイズが小さいと誤認識
された場合にも、小さな文字サイズの“認識結果”に訂
正されることで、正しい認識結果が得られるようにな
る。そして、“recognize ”と認識された形態素の内、
“c”については文字フォントが別のものと誤認識され
た場合にも、同一の文字フォントの“recognize ”に訂
正されることで、正しい認識結果が得られるようにな
る。そして、“re c ogn i ze ”と全角/半角が混在さ
れて認識された場合にも、半角の“recognize ”に訂正
されることで、正しい認識結果が得られるようになる。
【0061】また、この「属性情報処理」では、空白情
報を訂正する機能を有するので、例えば、半角空白が存
在しないのにもかかわらず、“recogniz( 半角空白)ing
( 全角空白)texts”と認識された場合にも、半角空白の
ない“recognizing(全角空白)texts”に訂正されること
で、正しい認識結果が得られるようになる。このような
空白情報に対する処理に従って、不要な空白が除去され
るとともに、空白の全角/半角に対する情報も正しいも
のとなるので、正しいインデント情報を得ることができ
るようになる。
【0062】また、この「属性情報処理」では、大文字
小文字を訂正する機能を有するので、例えば、“reCog
niZing ”と認識された場合にも、“recognizing ”に
訂正されることで、正しい認識結果が得られるようにな
る。なお、このような処理は、形態素解析の結果が未登
録語と判断された単語に対しても行うことができること
がある。例えば、“reCogniZing ”が未登録語として
判断されても、「I以外の大文字は文の始めにしか出現
しない」という文字属性ルールが存在するときには、
“recognizing ”に正しく訂正されることになる。
【0063】また、この「属性情報処理」では、罫線や
下線の線種を訂正する機能を有するので、例えば、罫線
や下線に破線が混在すると認識された場合にも、その破
線が実線に訂正されることで、正しい認識結果が得られ
るようになる。
【0064】文字認識プログラム20は、「属性情報処
理」を終了すると、続いて、「文書構造解析処理」に入
る。文字認識プログラム20は、「文書構造解析処理」
に入ると、図10の処理フローに示すように、文書属性
判定データベース24に格納される知識に従って、先ず
最初に、ステップ1で、「属性情報処理」により正規の
文字属性情報を持つものに訂正された各文字列ブロック
に対して、文書属性判定処理を実行することで、文書属
性を付与する。このとき、正確なものに訂正された罫線
情報を利用することで、文書属性判定処理を実行するこ
とがある。
【0065】上述したように、文書属性判定データベー
ス24は、文書の持つ文書構造ルールを管理するので、
この文書構造ルールに従って、「属性情報処理」で正し
いものに訂正された文字属性情報を持つ文字列ブロック
に対して、タイトルブロックであるとか、箇条書き要素
ブロックであるとか、日付ブロックであるとかいったよ
うな文書属性を付与したり、文書の階層構造を特定する
のである。
【0066】続いて、ステップ2で、全ての文字列ブロ
ックに矛盾のない文書属性が付与されたのか否かを判断
して、矛盾する文字列ブロックが残されていることを判
断するときには、ステップ3に進んで、矛盾する文字列
ブロックについて、再度、上述の文書属性判定処理を行
ってからステップ2に戻り、矛盾する文字列ブロックが
ないことを判断するときには、ステップ4に進んで、S
GMLのような規定の構造化文書フォーマットに変換し
て、図示しない格納域に格納して処理を終了する。
【0067】このようにして、文字認識プログラム20
は、「文書構造解析処理」に入ると、「属性情報処理」
で正しいものに訂正された文字属性情報に基づき、文書
属性判定データベース24に格納される文書構造ルール
に従って、入力された文書の文書構造を特定するのであ
る。
【0068】例えば、図14に示すように、“OCR”
という文字列ブロックは、文書のタイトルを示すタイト
ルブロックで、それに続く、“文字認識する”という文
字列ブロックは、文書の本文を示す本文ブロックである
とか、図15に示すように、設計仕様書というタイトル
を持って、第1章から第n章の章構成を有するととも
に、第1章は第1節から第m節の節構成を有する階層構
造を持つというように、入力された文書の文書構造を特
定するのである。
【0069】なお、この「文書構造解析処理」に対し
て、認識のミスによりインデントがずれてしまっている
場合に、文書構造によりインデントが揃えられるべきで
あると判断するときには、インデントを揃える処理を実
行するといったように、「文字認識処理」や「形態素解
析処理」や「属性情報処理」での誤処理を訂正する機能
も持たせることも可能である。
【0070】このようにして、本発明の文字認識装置1
では、文字属性情報も含めた形で、文書の文字認識処理
を実行することで、入力される文書画像を正確に認識で
きるようになるとともに、その文書構造についても取得
できるようになる。
【0071】この実施例では説明しなかったが、認識さ
れた文書について、文字属性情報を規定のものに変更し
たり、文書構造を規定のものに変更することで、種々の
文書形式を1つの標準化された文書形式に統一すること
が可能である。
【0072】また、実施例では、「文字認識処理」の所
で、文法情報を用いた認識誤りの訂正を行う構成を採っ
たが、この訂正機能は、「属性情報処理」の所で行う構
成を採ってもよい。この構成を採ると、認識結果に対し
て形態素解析が行われ、その結果を用いて、認識誤りの
訂正処理と文字属性情報の処理とを同時に行うことにな
るので、処理の効率が上がるとともに、データベースの
知識に無駄がなくなる。
【0073】
【発明の効果】以上説明したように、本発明の文字認識
装置では、文書の構造についても認識しつつ文字認識処
理を実行することから、例えば、ユーザは、ある日付に
発行された文書や、あるキーワードをタイトルに含む文
書を検索できるようになる。これにより、文字認識され
た文書の利用を図れるようになる。
【0074】そして、本発明の文字認識装置では、認識
された単語の中に、異なる文字サイズの文字や、異なる
文字種別の文字が混在していても、それを訂正する機能
を有するとともに、空白文字が混在していても、それを
除去する機能をし、更に、認識された罫線や下線に本来
のものとは異なる線種の線が混在していても、それを訂
正する機能を有するので、ユーザは、文字認識された文
書を利用する場合に、文字サイズや文字種別や空白文字
や罫線や下線を訂正する必要がない。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】文字属性情報付きパターン辞書の一実施例であ
る。
【図4】単語辞書の一実施例である。
【図5】文字知識データベースの一実施例である。
【図6】文書属性判定データベースの一実施例である。
【図7】文字認識プログラムの実行する処理フローの一
実施例である。
【図8】文字認識プログラムの実行する処理フローの一
実施例である。
【図9】文字認識プログラムの実行する処理フローの一
実施例である。
【図10】文字認識プログラムの実行する処理フローの
一実施例である。
【図11】文字認識処理の説明図である。
【図12】形態素解析処理の説明図である。
【図13】文字属性情報処理の説明図である。
【図14】文書構造解析処理の説明図である。
【図15】文書の階層構造の説明図である。
【符号の説明】
1 文字認識装置 10 第1の辞書 11 文字認識部 12 第2の辞書 13 形態素解析部 14 第1のデータベース 15 属性情報処理部 16 第2のデータベース 17 文書構造解析部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力される文書画像を文字コードに変換
    する文字認識装置において、 入力される文書画像から、空白部分を認識しつつ文字領
    域を切り出し、該文字領域を正規化して用意される辞書
    と照合することで、該文書画像の持つ文字コードとそれ
    が持つ文字属性情報とを認識する文字認識部と、 上記文字認識部の出力する文字コード列を形態素解析す
    ることで、該文字コード列から形態素を抽出する形態素
    解析部と、 上記形態素解析部の抽出する形態素の持つ上記文字属性
    情報と、形態素の持つ文字属性ルールとから、上記形態
    素解析部の抽出する形態素の持つ上記文字属性情報に該
    文字属性ルールに違反するものがあるのか否かをチェッ
    クして、違反するものがある場合には、それを正規のも
    のに訂正する属性情報処理部とを備えることを、 特徴とする文字認識装置。
  2. 【請求項2】 請求項1記載の文字認識装置において、 属性情報処理部の出力する正規の文字属性情報を持つ文
    字列ブロックと、文書の持つ文書構造ルールとから、該
    文字列ブロックの持つ文書構造情報を取得する文書構造
    解析部を備えることを、 特徴とする文字認識装置。
  3. 【請求項3】 請求項1又は2記載の文字認識装置にお
    いて、 属性情報処理部は、文字サイズを正規のものに訂正する
    ように処理することを、 特徴とする文字認識装置。
  4. 【請求項4】 請求項1又は2記載の文字認識装置にお
    いて、 属性情報処理部は、文字種別を正規のものに訂正するよ
    うに処理することを、 特徴とする文字認識装置。
  5. 【請求項5】 請求項1又は2記載の文字認識装置にお
    いて、 属性情報処理部は、空白を正規のものに訂正するように
    処理することを、 特徴とする文字認識装置。
  6. 【請求項6】 請求項1又は2記載の文字認識装置にお
    いて、 属性情報処理部は、罫線を正規のものに訂正するように
    処理することを、 特徴とする文字認識装置。
  7. 【請求項7】 入力される文書画像を文字コードに変換
    する文字認識処理方法において、 入力される文書画像から、空白部分を認識しつつ文字領
    域を切り出し、該文字領域を正規化して用意される辞書
    と照合することで、該文書画像の持つ文字コードとそれ
    が持つ文字属性情報とを認識する第1の処理過程と、 上記第1の処理過程で出力する文字コード列を形態素解
    析することで、該文字コード列から形態素を抽出する第
    2の処理過程と、 上記第2の処理過程で抽出する形態素の持つ上記文字属
    性情報と、形態素の持つ文字属性ルールとから、上記第
    2の処理過程で抽出する形態素の持つ上記文字属性情報
    に該文字属性ルールに違反するものがあるのか否かをチ
    ェックして、違反するものがある場合には、それを正規
    のものに訂正する第4の処理過程と、 上記第4の処理過程で出力する正規の文字属性情報を持
    つ文字列ブロックと、文書の持つ文書構造ルールとか
    ら、該文字列ブロックの持つ文書構造情報を取得する第
    5の処理過程とを備えることを、 特徴とする文字認識処理方法。
  8. 【請求項8】 入力される文書画像を文字コードに変換
    する文字認識装置を実現するプログラムが記憶されるプ
    ログラム記憶媒体であって、 入力される文書画像から、空白部分を認識しつつ文字領
    域を切り出し、該文字領域を正規化して用意される辞書
    と照合することで、該文書画像の持つ文字コードとそれ
    が持つ文字属性情報とを認識する文字認識部と、 上記文字認識部の出力する文字コード列を形態素解析す
    ることで、該文字コード列から形態素を抽出する形態素
    解析部と、 上記形態素解析部の抽出する形態素の持つ上記文字属性
    情報と、形態素の持つ文字属性ルールとから、上記形態
    素解析部の抽出する形態素の持つ上記文字属性情報に該
    文字属性ルールに違反するものがあるのか否かをチェッ
    クして、違反するものがある場合には、それを正規のも
    のに訂正する属性情報処理部と、 上記属性情報処理部の出力する正規の文字属性情報を持
    つ文字列ブロックと、文書の持つ文書構造ルールとか
    ら、該文字列ブロックの持つ文書構造情報を取得する文
    書構造解析部とを実現するプログラムが記憶されること
    を、特徴とするプログラム記憶媒体。
JP9102927A 1997-04-21 1997-04-21 文書認識装置及び方法並びにプログラム記憶媒体 Withdrawn JPH10293811A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9102927A JPH10293811A (ja) 1997-04-21 1997-04-21 文書認識装置及び方法並びにプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9102927A JPH10293811A (ja) 1997-04-21 1997-04-21 文書認識装置及び方法並びにプログラム記憶媒体

Publications (1)

Publication Number Publication Date
JPH10293811A true JPH10293811A (ja) 1998-11-04

Family

ID=14340488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9102927A Withdrawn JPH10293811A (ja) 1997-04-21 1997-04-21 文書認識装置及び方法並びにプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JPH10293811A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339020A (ja) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書処理装置
JP2008129894A (ja) * 2006-11-22 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 文書構造抽出装置,文書構造抽出方法及びその方法を実装した文書構造抽出プログラム
CN111695566A (zh) * 2020-06-18 2020-09-22 郑州大学 一种对固定格式文档的识别处理方法及处理系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339020A (ja) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書処理装置
JP2008129894A (ja) * 2006-11-22 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 文書構造抽出装置,文書構造抽出方法及びその方法を実装した文書構造抽出プログラム
CN111695566A (zh) * 2020-06-18 2020-09-22 郑州大学 一种对固定格式文档的识别处理方法及处理系统
CN111695566B (zh) * 2020-06-18 2023-03-14 郑州大学 一种对固定格式文档的识别处理方法及处理系统

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
KR100912502B1 (ko) Pdf 파일을 대상으로 하는 자동 번역 방법
US7243305B2 (en) Spelling and grammar checking system
EP0844583B1 (en) Method and apparatus for character recognition
US5384703A (en) Method and apparatus for summarizing documents according to theme
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
JP2987099B2 (ja) 文書作成支援システム及び用語辞書
US20060217955A1 (en) Document translation method and document translation device
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JPH08263478A (ja) 中国語簡繁体字文書変換装置
JPH10293811A (ja) 文書認識装置及び方法並びにプログラム記憶媒体
JPH0877196A (ja) 文書情報抽出装置
JPH0883280A (ja) 文書処理装置
Taylor et al. Integrating natural language understanding with document structure analysis
JP3377942B2 (ja) 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体
JP3814000B2 (ja) 文字列変換装置および文字列変換方法
JP3204517B2 (ja) 未知語認定方法
JP2002014981A (ja) 文書ファイリング装置
JP2592993B2 (ja) 文節切り出し装置
JPH0232467A (ja) 機械翻訳方式
JP2575947B2 (ja) 文節切出し装置
JPH0612453A (ja) 未知語抽出登録装置
JPS6366665A (ja) 文書解析整形装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040706