JPH10228520A - 文書画像識別方法 - Google Patents

文書画像識別方法

Info

Publication number
JPH10228520A
JPH10228520A JP9028952A JP2895297A JPH10228520A JP H10228520 A JPH10228520 A JP H10228520A JP 9028952 A JP9028952 A JP 9028952A JP 2895297 A JP2895297 A JP 2895297A JP H10228520 A JPH10228520 A JP H10228520A
Authority
JP
Japan
Prior art keywords
document
formula
mathematical
chemical
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9028952A
Other languages
English (en)
Inventor
Tsukasa Kouchi
司 幸地
Shiori Ooaku
志緒理 大阿久
Takashi Saito
高志 齋藤
Tei Abe
悌 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9028952A priority Critical patent/JPH10228520A/ja
Publication of JPH10228520A publication Critical patent/JPH10228520A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 入力文書から、数式、化学式が含まれている
科学技術文書を精度よく識別する。 【解決手段】 領域分割手段102は入力文書画像を文
字領域、数式領域などの要素に分割し、文字記号認識手
段103は、文字、分子式、演算子などを認識する。化
学式特徴検出手段104は化学式などの特徴を検出し、
数式特徴検出手段105は演算子などの数式特徴を検出
する。文書クラス判別手段106は、検出された化学
式、数式特徴を基に文書クラス(化学文書、数学文書な
ど)を判別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、化学式、数式を含
む文書を高精度に識別する文書画像識別方法に関する。
【0002】
【従来の技術】従来、文書画像の識別方法として、例え
ば、文書のレイアウト構造や論理構造などの物理的特徴
を基に画像を識別する方法がある(政井宏之、渡邊豊英
「文書構成の物理的特徴にもとづいた文書画像の分
類」、画像の認識・理解シンポジューム(MIRU’9
6)、1996年7月ppII−295−ppII30
0を参照)。
【0003】
【発明が解決しようとする課題】上記した従来の方法で
は、文書構成の物理的特徴や統計的手法により論文誌、
新聞紙、名刺、奥付け、帳票、小切手、広告、ポスター
等をそれぞれ適当なカテゴリに分類することが可能であ
るが、数式、化学式の存在を特徴とするような科学技術
文書の識別が困難である。
【0004】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、入力文書から、数式、化学式
が含まれている科学技術文書を精度よく識別する文書画
像識別方法を提供することにある。
【0005】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、入力された文書画像を、
文字領域、数式領域を含む複数の要素に分割し、分割さ
れた各領域について認識処理を行い、該認識結果から化
学式特徴、数式特徴を検出し、該検出結果を基に前記文
書画像を識別することを特徴としている。
【0006】請求項2記載の発明では、前記化学式特
徴、数式特徴は、特定文字、記号、特定パターンである
ことを特徴としている。
【0007】請求項3記載の発明では、前記検出結果を
基に前記入力文書画像を、化学文書、数学文書、その他
の文書の何れかに識別することを特徴としている。
【0008】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 〈実施例1〉図1は、本発明の実施例の構成を示す。図
において、101は画像の入力手段、102は文書画像
を文字領域などの要素に分割する領域分割手段、103
は文字領域、数式領域に対して演算子などの記号を認識
する文字記号認識手段、104は領域分割手段102お
よび文字記号認識手段103で抽出した情報から化学式
特徴を検出する化学式特徴検出手段、105は領域分割
手段102および文字記号認識手段103で抽出した情
報から数式特徴を検出する数式特徴検出手段、106は
化学式特徴検出手段104、数式特徴検出手段105で
検出した特徴に基づいて文書画像の文書クラスを判別す
る文書クラス判別手段、107は入力された画像や処理
中の各種情報を蓄積するデータ記憶部、108は全体の
制御部である。
【0009】図2は、本発明の実施例の処理フローチャ
ートを示す。以下、図2を参照しながら本発明を説明す
る。まず、画像入力手段101によって文書画像を得る
(ステップ201)。この画像入力手段は、例えばスキ
ャナ、ファックスなどであり、またネットワーク経由で
別の機器から画像を得るようにしてもよい。
【0010】次に、領域分割手段102は、入力された
文書画像を文字領域、数式領域、および図や表や罫線等
の要素に分割する(ステップ202)。このような領域
分割方法としては、例えば特開平6−20092号公報
に記載された公知技術、電子通信学会論文「周辺分布、
綿密度、外接矩形特徴を利用した文書画像の領域分割」
(秋山他、1986年8月、Vol.J69−DNo.
8)に記載された技術をを用いればよい。
【0011】また、数式領域の抽出方法としては、例え
ば、渡辺、中沢らの方法「科学技術文書の画像入力にお
ける数式とフォントの認識」 電子通信学会 信学技報
EID95−3(1994−06)を用いる。
【0012】上記した処理によって抽出された文字領域
と数式領域は、数式の添字などの幾何学的属性やフォン
ト情報などを持つ。
【0013】文字記号認識手段103は、抽出された文
字領域と数式領域に対して分子式や演算子およびギリシ
ャ文字等の記号の認識を行う(ステップ203)。続い
て、化学式特徴検出手段104は、化学式特徴を検出す
る(ステップ204)。ここで、有機式、H20などの
ような分子式、元素記号などのように、化学式の存在、
あるいは文書クラスの種類を判別することができる特徴
を「化学式特徴」を呼ぶ。
【0014】次いで、数式特徴検出手段105は数式特
徴を検出する(ステップ205)。一般に、科学技術文
書中には多くの数式が存在しており、それらは数式以外
の日本語文や英語文(以下、本文という)とは異なる特
徴を持っている。例えば、文書中に現れる独立した数式
行の存在と、それに伴う数式参照番号、四則演算子、ギ
リシャ文字やその他インテグラルなどの記号の存在、ま
た数式で使用される英字のフォントと本文で使用される
それとの相違、数式と本文の高さの分散などが挙げられ
る。このように文書中において、数式の存在あるいは文
書クラスの種類を判別することができる特徴を「数式特
徴」を呼ぶ。
【0015】検出された特徴を基に、文書クラス判別手
段106は、入力文書を科学技術文書であるか一般文書
であるかを判別し(ステップ206)、科学技術文書と
判別された文書を、化学文書であるかその他の文書であ
るかを判別し(ステップ207)、その他の文書と判別
された文書を、数学文書であるかその他の文書であるか
を判別し(ステップ208)、文書クラスを出力する
(ステップ209)。図3は、本発明の処理によって最
終的に分類される文書クラスの一覧を示す。
【0016】図4は、ステップ204の詳細フローチャ
ートである。まず、有機式検出処理を行うために、図、
表、罫線などの要素に分割された領域に対して、骨格解
析を行い(ステップ401)、次いで、ベンゼン環のよ
うな要素となる化学記号をパターンマツチングにより求
め(ステップ402)、続いて、相互の結合形状により
有機式全体を抽出し(ステップ403)、最後に分子式
を検出する(ステップ404)。H20などの分子式
は、文字認識結果と添字などの幾何学的属性などを用い
て検出する。
【0017】図5は、ステップ205の詳細フローチャ
ートである。まず、数式行を検出する(ステップ50
1)。他の文字行とは独立した数式領域だけで構成され
る行があれば、それは数式行として検出する。次に、演
算子特徴を検出し(ステップ502)、ギリシャ文字を
検出し、最後に記号を検出する(ステップ504)。こ
れらは、ステップ203の記号文字認識結果と幾何学的
属性やフォント情報を用いて検出する。
【0018】図6は、ステップ206の詳細フローチャ
ートであり、図7はステップ207の詳細フローチャー
トであり、図8はステップ208の詳細フローチャート
である。
【0019】ステップ206の文書クラス判別処理
(1)では(図6)、入力文書が科学技術文書である
か、あるいはそれ以外の一般文書であるかを判別する。
すなわち、入力文書中に、化学式特徴または数式特徴が
少なくとも1つ以上検出された場合は(ステップ60
1)、科学技術文書と判定し(ステップ602)、そう
でない場合には一般文書として判定する(ステップ60
3)。
【0020】ステップ207の文書クラス判別処理
(2)では(図7)、ステップ206で判別された科学
技術文書が化学文書であるか、あるいはそれ以外の文書
であるかを判別する。すなわち、科学技術文書中に、化
学式特徴が少なくとも1つ以上検出された場合は(ステ
ップ701)、化学文書と判定し(ステップ702)、
そうでない場合にはその他の文書として判定する(ステ
ップ703)。
【0021】ステップ208の文書クラス判別処理
(3)では(図8)、ステップ207で判別されたその
他の文書が数学文書であるか、あるいはそれ以外の文書
であるかかを判別する。その他の文書中に、数式領域が
存在し(ステップ801)、数式行が1行以上存在する
場合(ステップ802で「はい」)、または数式領域が
存在し(ステップ801)、数式行が1行以上存在しな
いときに(ステップ802で「いいえ」)、演算子、ギ
リシャ文字、記号が合わせて半数以上、数式領域に存在
する場合(ステップ803)、数学文書と判定し(ステ
ップ805)、そうでない場合はそれ以外の文書と判定
する(804)。
【0022】なお、本発明は上記したものに限定され
ず、化学式特徴を基に化学文書をさらに、有機化学文
書、無機化学文書などに識別することも可能であり、ま
た、数式特徴を基に数学文書をさらに、代数学、幾何
学、解析学文書などに識別することも可能である。
【0023】また、本発明はソフトウェアによっても実
現することができる。本発明をソフトウェアによって実
現する場合には、図9に示すように、CPU、ROM、
RAM、表示装置、ハードディスク、キーボード、CD
−ROMドライブなどからなる汎用の処理装置を用意
し、CD−ROMなどのコンピュータ記憶媒体には、本
発明の文書画像識別機能を実現するプログラムが記録さ
れている。
【0024】
【発明の効果】以上、説明したように、本発明によれ
ば、入力文書が科学技術文書であるか否か、科学技術文
書であるとき、化学文書であるか数学文書であるか、そ
の他の文書であるかを精度よく識別することができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の実施例の処理フローチャートを示す。
【図3】本発明の処理によって最終的に分類される文書
クラスの一覧を示す。
【図4】図2のステップ204の詳細フローチャートで
ある。
【図5】図2のステップ205の詳細フローチャートで
ある。
【図6】図2のステップ206の詳細フローチャートで
ある。
【図7】図2のステップ207の詳細フローチャートで
ある。
【図8】図2のステップ208の詳細フローチャートで
ある。
【図9】本発明をソフトウェアによって実現する場合の
構成例を示す。
【符号の説明】
101 画像入力手段 102 領域分割手段 103 文字記号認識手段 104 化学式特徴検出手段 105 数式特徴検出手段 106 文書クラス判別手段 107 データ記憶部 108 制御部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 阿部 悌 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書画像を、文字領域、数式
    領域を含む複数の要素に分割し、分割された各領域につ
    いて認識処理を行い、該認識結果から化学式特徴、数式
    特徴を検出し、該検出結果を基に前記文書画像を識別す
    ることを特徴とする文書画像識別方法。
  2. 【請求項2】 前記化学式特徴、数式特徴は、特定文
    字、記号、特定パターンであることを特徴とする請求項
    1記載の文書画像識別方法。
  3. 【請求項3】 前記検出結果を基に前記入力文書画像
    を、化学文書、数学文書、その他の文書の何れかに識別
    することを特徴とする請求項1記載の文書画像識別方
    法。
JP9028952A 1997-02-13 1997-02-13 文書画像識別方法 Pending JPH10228520A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9028952A JPH10228520A (ja) 1997-02-13 1997-02-13 文書画像識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9028952A JPH10228520A (ja) 1997-02-13 1997-02-13 文書画像識別方法

Publications (1)

Publication Number Publication Date
JPH10228520A true JPH10228520A (ja) 1998-08-25

Family

ID=12262757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9028952A Pending JPH10228520A (ja) 1997-02-13 1997-02-13 文書画像識別方法

Country Status (1)

Country Link
JP (1) JPH10228520A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636741A (zh) * 2015-02-06 2015-05-20 百度在线网络技术(北京)有限公司 公式识别方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636741A (zh) * 2015-02-06 2015-05-20 百度在线网络技术(北京)有限公司 公式识别方法和装置
CN104636741B (zh) * 2015-02-06 2018-04-13 百度在线网络技术(北京)有限公司 公式识别方法和装置

Similar Documents

Publication Publication Date Title
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP3289968B2 (ja) 電子的文書処理のための装置および方法
Shahab et al. An open approach towards the benchmarking of table structure recognition systems
US6694053B1 (en) Method and apparatus for performing document structure analysis
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US8005300B2 (en) Image search system, image search method, and storage medium
US6377704B1 (en) Method for inset detection in document layout analysis
JPH10228473A (ja) 文書画像処理方法、文書画像処理装置および記憶媒体
US20110007366A1 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US20070027749A1 (en) Advertisement detection
US6351559B1 (en) User-enclosed region extraction from scanned document images
JP3335009B2 (ja) 画像処理方法及び画像処理装置
WO2000062243A1 (fr) Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document
JP4232679B2 (ja) 画像形成装置およびプログラム
Tarride et al. Combination of deep neural networks and logical rules for record segmentation in historical handwritten registers using few examples
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
Eskenazi et al. When document security brings new challenges to document analysis
JP2008257543A (ja) 画像処理システム及びプログラム
JPH10228520A (ja) 文書画像識別方法
JPH0721817B2 (ja) 文書画像処理方法
JPH09319747A (ja) 文書画像の構造化方法
Wu et al. A machine-learning approach for analyzing document layout structures with two reading orders
CN112101356A (zh) 一种图片中特定文本的定位方法、装置及存储介质