JPH10228520A

JPH10228520A - 文書画像識別方法

Info

Publication number: JPH10228520A
Application number: JP9028952A
Authority: JP
Inventors: Tsukasa Kouchi; 司幸地; Shiori Ooaku; 志緒理大阿久; Takashi Saito; 高志齋藤; Tei Abe; 悌阿部
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-02-13
Filing date: 1997-02-13
Publication date: 1998-08-25

Abstract

(57)【要約】【課題】入力文書から、数式、化学式が含まれている
科学技術文書を精度よく識別する。【解決手段】領域分割手段１０２は入力文書画像を文
字領域、数式領域などの要素に分割し、文字記号認識手
段１０３は、文字、分子式、演算子などを認識する。化
学式特徴検出手段１０４は化学式などの特徴を検出し、
数式特徴検出手段１０５は演算子などの数式特徴を検出
する。文書クラス判別手段１０６は、検出された化学
式、数式特徴を基に文書クラス（化学文書、数学文書な
ど）を判別する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、化学式、数式を含
む文書を高精度に識別する文書画像識別方法に関する。

【０００２】

【従来の技術】従来、文書画像の識別方法として、例え
ば、文書のレイアウト構造や論理構造などの物理的特徴
を基に画像を識別する方法がある（政井宏之、渡邊豊英
「文書構成の物理的特徴にもとづいた文書画像の分
類」、画像の認識・理解シンポジューム（ＭＩＲＵ’９
６）、１９９６年７月ｐｐＩＩ−２９５−ｐｐＩＩ３０
０を参照）。

【０００３】

【発明が解決しようとする課題】上記した従来の方法で
は、文書構成の物理的特徴や統計的手法により論文誌、
新聞紙、名刺、奥付け、帳票、小切手、広告、ポスター
等をそれぞれ適当なカテゴリに分類することが可能であ
るが、数式、化学式の存在を特徴とするような科学技術
文書の識別が困難である。

【０００４】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、入力文書から、数式、化学式
が含まれている科学技術文書を精度よく識別する文書画
像識別方法を提供することにある。

【０００５】

【課題を解決するための手段】前記目的を達成するため
に、請求項１記載の発明では、入力された文書画像を、
文字領域、数式領域を含む複数の要素に分割し、分割さ
れた各領域について認識処理を行い、該認識結果から化
学式特徴、数式特徴を検出し、該検出結果を基に前記文
書画像を識別することを特徴としている。

【０００６】請求項２記載の発明では、前記化学式特
徴、数式特徴は、特定文字、記号、特定パターンである
ことを特徴としている。

【０００７】請求項３記載の発明では、前記検出結果を
基に前記入力文書画像を、化学文書、数学文書、その他
の文書の何れかに識別することを特徴としている。

【０００８】

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。〈実施例１〉図１は、本発明の実施例の構成を示す。図
において、１０１は画像の入力手段、１０２は文書画像
を文字領域などの要素に分割する領域分割手段、１０３
は文字領域、数式領域に対して演算子などの記号を認識
する文字記号認識手段、１０４は領域分割手段１０２お
よび文字記号認識手段１０３で抽出した情報から化学式
特徴を検出する化学式特徴検出手段、１０５は領域分割
手段１０２および文字記号認識手段１０３で抽出した情
報から数式特徴を検出する数式特徴検出手段、１０６は
化学式特徴検出手段１０４、数式特徴検出手段１０５で
検出した特徴に基づいて文書画像の文書クラスを判別す
る文書クラス判別手段、１０７は入力された画像や処理
中の各種情報を蓄積するデータ記憶部、１０８は全体の
制御部である。

【０００９】図２は、本発明の実施例の処理フローチャ
ートを示す。以下、図２を参照しながら本発明を説明す
る。まず、画像入力手段１０１によって文書画像を得る
（ステップ２０１）。この画像入力手段は、例えばスキ
ャナ、ファックスなどであり、またネットワーク経由で
別の機器から画像を得るようにしてもよい。

【００１０】次に、領域分割手段１０２は、入力された
文書画像を文字領域、数式領域、および図や表や罫線等
の要素に分割する（ステップ２０２）。このような領域
分割方法としては、例えば特開平６−２００９２号公報
に記載された公知技術、電子通信学会論文「周辺分布、
綿密度、外接矩形特徴を利用した文書画像の領域分割」
（秋山他、１９８６年８月、Ｖｏｌ．Ｊ６９−ＤＮｏ．
８）に記載された技術をを用いればよい。

【００１１】また、数式領域の抽出方法としては、例え
ば、渡辺、中沢らの方法「科学技術文書の画像入力にお
ける数式とフォントの認識」電子通信学会信学技報
ＥＩＤ９５−３（１９９４−０６）を用いる。

【００１２】上記した処理によって抽出された文字領域
と数式領域は、数式の添字などの幾何学的属性やフォン
ト情報などを持つ。

【００１３】文字記号認識手段１０３は、抽出された文
字領域と数式領域に対して分子式や演算子およびギリシ
ャ文字等の記号の認識を行う（ステップ２０３）。続い
て、化学式特徴検出手段１０４は、化学式特徴を検出す
る（ステップ２０４）。ここで、有機式、Ｈ₂０などの
ような分子式、元素記号などのように、化学式の存在、
あるいは文書クラスの種類を判別することができる特徴
を「化学式特徴」を呼ぶ。

【００１４】次いで、数式特徴検出手段１０５は数式特
徴を検出する（ステップ２０５）。一般に、科学技術文
書中には多くの数式が存在しており、それらは数式以外
の日本語文や英語文（以下、本文という）とは異なる特
徴を持っている。例えば、文書中に現れる独立した数式
行の存在と、それに伴う数式参照番号、四則演算子、ギ
リシャ文字やその他インテグラルなどの記号の存在、ま
た数式で使用される英字のフォントと本文で使用される
それとの相違、数式と本文の高さの分散などが挙げられ
る。このように文書中において、数式の存在あるいは文
書クラスの種類を判別することができる特徴を「数式特
徴」を呼ぶ。

【００１５】検出された特徴を基に、文書クラス判別手
段１０６は、入力文書を科学技術文書であるか一般文書
であるかを判別し（ステップ２０６）、科学技術文書と
判別された文書を、化学文書であるかその他の文書であ
るかを判別し（ステップ２０７）、その他の文書と判別
された文書を、数学文書であるかその他の文書であるか
を判別し（ステップ２０８）、文書クラスを出力する
（ステップ２０９）。図３は、本発明の処理によって最
終的に分類される文書クラスの一覧を示す。

【００１６】図４は、ステップ２０４の詳細フローチャ
ートである。まず、有機式検出処理を行うために、図、
表、罫線などの要素に分割された領域に対して、骨格解
析を行い（ステップ４０１）、次いで、ベンゼン環のよ
うな要素となる化学記号をパターンマツチングにより求
め（ステップ４０２）、続いて、相互の結合形状により
有機式全体を抽出し（ステップ４０３）、最後に分子式
を検出する（ステップ４０４）。Ｈ₂０などの分子式
は、文字認識結果と添字などの幾何学的属性などを用い
て検出する。

【００１７】図５は、ステップ２０５の詳細フローチャ
ートである。まず、数式行を検出する（ステップ５０
１）。他の文字行とは独立した数式領域だけで構成され
る行があれば、それは数式行として検出する。次に、演
算子特徴を検出し（ステップ５０２）、ギリシャ文字を
検出し、最後に記号を検出する（ステップ５０４）。こ
れらは、ステップ２０３の記号文字認識結果と幾何学的
属性やフォント情報を用いて検出する。

【００１８】図６は、ステップ２０６の詳細フローチャ
ートであり、図７はステップ２０７の詳細フローチャー
トであり、図８はステップ２０８の詳細フローチャート
である。

【００１９】ステップ２０６の文書クラス判別処理
（１）では（図６）、入力文書が科学技術文書である
か、あるいはそれ以外の一般文書であるかを判別する。
すなわち、入力文書中に、化学式特徴または数式特徴が
少なくとも１つ以上検出された場合は（ステップ６０
１）、科学技術文書と判定し（ステップ６０２）、そう
でない場合には一般文書として判定する（ステップ６０
３）。

【００２０】ステップ２０７の文書クラス判別処理
（２）では（図７）、ステップ２０６で判別された科学
技術文書が化学文書であるか、あるいはそれ以外の文書
であるかを判別する。すなわち、科学技術文書中に、化
学式特徴が少なくとも１つ以上検出された場合は（ステ
ップ７０１）、化学文書と判定し（ステップ７０２）、
そうでない場合にはその他の文書として判定する（ステ
ップ７０３）。

【００２１】ステップ２０８の文書クラス判別処理
（３）では（図８）、ステップ２０７で判別されたその
他の文書が数学文書であるか、あるいはそれ以外の文書
であるかかを判別する。その他の文書中に、数式領域が
存在し（ステップ８０１）、数式行が１行以上存在する
場合（ステップ８０２で「はい」）、または数式領域が
存在し（ステップ８０１）、数式行が１行以上存在しな
いときに（ステップ８０２で「いいえ」）、演算子、ギ
リシャ文字、記号が合わせて半数以上、数式領域に存在
する場合（ステップ８０３）、数学文書と判定し（ステ
ップ８０５）、そうでない場合はそれ以外の文書と判定
する（８０４）。

【００２２】なお、本発明は上記したものに限定され
ず、化学式特徴を基に化学文書をさらに、有機化学文
書、無機化学文書などに識別することも可能であり、ま
た、数式特徴を基に数学文書をさらに、代数学、幾何
学、解析学文書などに識別することも可能である。

【００２３】また、本発明はソフトウェアによっても実
現することができる。本発明をソフトウェアによって実
現する場合には、図９に示すように、ＣＰＵ、ＲＯＭ、
ＲＡＭ、表示装置、ハードディスク、キーボード、ＣＤ
−ＲＯＭドライブなどからなる汎用の処理装置を用意
し、ＣＤ−ＲＯＭなどのコンピュータ記憶媒体には、本
発明の文書画像識別機能を実現するプログラムが記録さ
れている。

【００２４】

【発明の効果】以上、説明したように、本発明によれ
ば、入力文書が科学技術文書であるか否か、科学技術文
書であるとき、化学文書であるか数学文書であるか、そ
の他の文書であるかを精度よく識別することができる。

【図面の簡単な説明】

【図１】本発明の実施例の構成を示す。

【図２】本発明の実施例の処理フローチャートを示す。

【図３】本発明の処理によって最終的に分類される文書
クラスの一覧を示す。

【図４】図２のステップ２０４の詳細フローチャートで
ある。

【図５】図２のステップ２０５の詳細フローチャートで
ある。

【図６】図２のステップ２０６の詳細フローチャートで
ある。

【図７】図２のステップ２０７の詳細フローチャートで
ある。

【図８】図２のステップ２０８の詳細フローチャートで
ある。

【図９】本発明をソフトウェアによって実現する場合の
構成例を示す。

【符号の説明】

１０１画像入力手段１０２領域分割手段１０３文字記号認識手段１０４化学式特徴検出手段１０５数式特徴検出手段１０６文書クラス判別手段１０７データ記憶部１０８制御部

───────────────────────────────────────────────────── フロントページの続き (72)発明者阿部悌東京都大田区中馬込１丁目３番６号株式会社リコー内

Claims

【特許請求の範囲】

【請求項１】入力された文書画像を、文字領域、数式
領域を含む複数の要素に分割し、分割された各領域につ
いて認識処理を行い、該認識結果から化学式特徴、数式
特徴を検出し、該検出結果を基に前記文書画像を識別す
ることを特徴とする文書画像識別方法。
【請求項２】前記化学式特徴、数式特徴は、特定文
字、記号、特定パターンであることを特徴とする請求項
１記載の文書画像識別方法。
【請求項３】前記検出結果を基に前記入力文書画像
を、化学文書、数学文書、その他の文書の何れかに識別
することを特徴とする請求項１記載の文書画像識別方
法。