JP2002297629A - 文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置 - Google Patents

文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置

Info

Publication number
JP2002297629A
JP2002297629A JP2001098915A JP2001098915A JP2002297629A JP 2002297629 A JP2002297629 A JP 2002297629A JP 2001098915 A JP2001098915 A JP 2001098915A JP 2001098915 A JP2001098915 A JP 2001098915A JP 2002297629 A JP2002297629 A JP 2002297629A
Authority
JP
Japan
Prior art keywords
title
extracting
information
character
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001098915A
Other languages
English (en)
Inventor
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001098915A priority Critical patent/JP2002297629A/ja
Publication of JP2002297629A publication Critical patent/JP2002297629A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 処理速度が速く抽出精度が高い文書画像のタ
イトル抽出方法、抽出プログラム等を提供する。 【解決手段】 文書画像から行領域からなる文字領域に
ポイント付けをしてタイトルを抽出する文書画像のタイ
トルの抽出において、前記文字領域の属性及び前記行領
域のレイアウト的特徴からタイトルらしさの情報を簡易
に抽出する。抽出したタイトルらしさの情報にタイトル
らしさのポイントを付与し、所定のポイントが付与され
た文字領域をタイトル候補として抽出する。抽出したタ
イトル候補について文字認識し、文字認識したタイトル
候補のレイアウト的特徴からタイトルらしさの情報を正
確に抽出し、抽出したタイトルらしさの情報にタイトル
らしさのポイントを付与し、所定のポイントが付与され
たタイトル候補をタイトルとして抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像データか
ら文書内容を簡便に表現する文書領域をタイトル領域と
して抽出する文書画像のタイトル抽出方法、抽出プログ
ラム及び記録媒体並びにタイトル抽出装置に関する。
【0002】
【従来の技術】一般文書をOCR装置等で読み込んで得
られる文書画像から、文書のタイトル等の部分領域を抽
出する技術として、文書画像内の黒画素を走査し、それ
らが連結している領域に外接する矩形領域を文字矩形と
して抽出し、隣接する複数の文字矩形を統合して、それ
らの文字矩形に外接する矩形領域を文字矩形領域として
抽出する。そして、各文字列矩形の下線属性、枠付き属
性等の属性と、文書画像内の文字列矩形の位置や相互の
位置関係に基いて文字列矩形をタイトル矩形として抽出
する技術が公知である(特開平9−134406号公
報:以下、従来技術1という)。従来技術1は、非定型
文書に対して行領域のレイアウト的特徴を用いてタイト
ル抽出を行っている。また、文書画像から切り出された
文字列矩形に対し、この文字列矩形内の文字コードの識
別を行い、文字コード識別の確信度を一定のしきい値と
比較する、或いは前記文字列矩形内の文字数を求め、別
途辞書情報として文書のタイトルの文字数の統計を用い
て比較するなどの手法によりタイトルを抽出する技術が
公知である(特開平2000−148788号公報:以
下、従来技術2という)。従来技術2は、タイトル抽出
の最初から文字認識を行ってその情報を使用してタイト
ル抽出を行っている。
【0003】
【発明が解決しようとする課題】しかしながら、上述の
ように、従来技術1によれば、非定型文書に対して行領
域のレイアウト的特徴を用いてタイトル抽出を行ってい
るので、抽出率が満足のいくものにならない、また従来
技術2によれば、タイトル抽出の最初から文字認識を行
ってその情報を使用してタイトル抽出を行うので、処理
速度が遅くなるという問題点があった。本発明は、この
ような問題点に鑑みてなされたもので、その目的は、文
書タイトル候補の抽出精度が高く、処理速度が速いタイ
トル抽出方法、この抽出方法を実行するためのプログラ
ム及びこのプログラムを記録した記録媒体並びに前記プ
ログラムを搭載したタイトル抽出装置を提供することで
ある。
【0004】
【課題を解決するための手段】請求項1の発明は、文書
画像から行領域からなる文字領域にポイント付けをして
タイトルを抽出する文書画像のタイトル抽出方法におい
て、前記文字領域の属性及び前記行領域のレイアウト的
特徴からタイトルらしさの情報を抽出する工程と、抽出
したタイトルらしさの情報にタイトルらしさのポイント
を付与する工程と、所定のポイントが付与された文字領
域をタイトル候補として抽出する工程と、抽出したタイ
トル候補について文字認識する工程と、文字認識したタ
イトル候補のレイアウト的特徴からタイトルらしさの情
報を抽出する工程と、抽出したタイトルらしさの情報に
タイトルらしさのポイントを付与する工程と、所定のポ
イントが付与されたタイトル候補をタイトルとして抽出
する工程とからなることを特徴とする文書画像のタイト
ル抽出方法である。
【0005】請求項2の発明は、請求項1記載の文書画
像のタイトル抽出方法において、前記タイトルらしさの
情報を抽出する工程は、文字領域毎に行領域の長さを測
定し、同じ長さの行領域が複数あるとき、最初の行領域
がタイトルらしいと判定して前記情報を抽出する工程で
あることを特徴とする文書画像のタイトル抽出方法であ
る。
【0006】請求項3の発明は、請求項1記載の文書画
像のタイトル抽出方法において、前記タイトルらしさの
情報を抽出する工程は、文字領域の行間距離を測定し、
その内部の行の行間距離が変わらないとき、一番上の行
領域がタイトルらしいと判定して前記情報を抽出する工
程であることを特徴とする文書画像のタイトル抽出方法
である。
【0007】請求項4の発明は、請求項1記載の文書画
像のタイトル抽出方法において、前記タイトルらしさの
情報を抽出する工程は、文字領域の属性が表領域である
とき、該表領域の内部の文字行について通常の文字行と
タイトルらしさの判定を変更して前記情報を抽出する工
程であることを特徴とする文書画像のタイトル抽出方法
である。
【0008】請求項5の発明は、請求項1記載の文書画
像のタイトル抽出方法において、前記タイトルらしさの
情報を抽出する工程は、文字領域の属性が表領域である
とき、該表領域のキャプションに相当する文字領域に、
タイトルらしさのポイントを付与して前記情報を抽出す
る工程であることを特徴とする文書画像のタイトル抽出
方法である。
【0009】請求項6の発明は、請求項1記載の文書画
像のタイトル抽出方法において、前記タイトルらしさの
情報を抽出する工程は、文字領域が存在する範囲と分布
から、文書の種類を判別し、判別した文書の種類に応じ
て、タイトルらしいと判定する文字領域の位置を変更し
て前記情報を抽出する工程であることを特徴とする文書
画像のタイトル抽出方法である。
【0010】請求項7の発明は、請求項1乃至6のいず
れかに記載のタイトル抽出方法の各工程を実行するため
の手順を記述したプログラムである。
【0011】請求項8の発明は、請求項7記載のプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
ある。
【0012】請求項9の発明は、請求項7記載のプログ
ラムを搭載したことを特徴とするタイトル抽出装置であ
る。
【0013】
【発明の実施の形態】以下、本発明の実施形態について
説明する。図1は、本発明が適用されるタイトル抽出装
置の要部ブロック図であり、図中、スキャナ100で読
み取られた画像のデータを画像入力部200により必要
に応じ図示しない画像メモリにオリジナルデータとして
格納する。画像データは、画像入力部200から直接又
は前記画像メモリから読み出されて領域分割装置300
の矩形抽出部301に入力され、オリジナル画像の黒連
結成分に外接した矩形を抽出する。外接矩形は、更に行
抽出部302に入力され行抽出が行われる。行抽出部3
02は、例えば、横書き文書の場合、図2に示すよう
に、隣合う文字矩形501,502の水平距離sp1を
求め、sp1が標準文字サイズ以下のときに両矩形を統
合する。或いは図3のように、文字矩形503,504
の水平方向についての重なり量sp2を求め、文字矩形
503,504の高さh1、h2の小さい方の値をhと
して、sp2≧h/2なら文字矩形503,504に統
合する。このようにして統合された文字矩形の全てを包
含する外接矩形を行として抽出する。文字領域生成部3
03は、このようにして抽出された行を統合することに
よって文字領域を抽出する。一方、文字領域抽出装置1
00は、図示しない文字認識部や領域識別部に繋がって
おり、文字認識部において画像データの文字認識、文字
矩形の座標値・大きさの取得が、領域識別部において各
文字毎の文字コード・確信度の取得が行われる。そし
て、タイトル抽出部400において、これらにポイント
付けが行われ、タイトル候補を抽出する。これらの動作
は図示しないCPUが所定のプログラムにしたがって動
作することにより実施される。
【0014】本発明の実施形態は、このようなタイトル
抽出装置において、文書画像から文字領域を抽出し、さ
らに文書画像全体の行情報について、タイトルらしさの
情報を抽出してタイトル候補を求めるものである。具体
的な決め方として、公知のポイント(スコア)計算に基
く順位付けによる手法を用いることができる。
【0015】より具体的には、抽出した文字領域の位
置、キャプションやヘッダー、本文などの属性からタイ
トルらしさの情報を抽出し、行のレイアウト的特徴から
タイトルらしさの情報を抽出し、これらの情報にタイト
ルらしさのポイントを付与して第1次タイトル候補を抽
出する。そして、抽出した第1次タイトル候補につい
て、文字認識を行ってそのレイアウト的特徴からタイト
ルらしさの情報を抽出し、これにタイトルらしさのポイ
ントを付与して第2次タイトル候補(最終的なタイト
ル)を抽出する。
【0016】図4は、本実施形態に係る第1次タイトル
候補を決める1次抽出処理のフロー図である。図4にお
いて、領域分割装置300がタイトル候補抽出の指示を
受けて動作を開始すると、この1次抽出処理では文字認
識をする前段階なので、正確な文字高さがわからない。
そのため、この段階では行の高さを暫定的な文字サイズ
として計算する(S11)。各行についてのフォントサ
イズが分かったら、それらのフォントサイズから、文書
内の標準文字サイズを決定する。算定方式は一度全部の
平均を求め、平均から大きく外れているサイズを除外し
て、再度除外されなかったサイズのみで平均を再度算出
するという方式である。次に、文書中の文字領域の範囲
を抽出し(S12)、その領域の座標値から各行のイン
デントやセンタリングの特徴を抽出する(S13)。こ
れらは、行の単独情報に基くレイアウト的特徴量の抽出
である。
【0017】続いて、前記領域識別により、本来1つの
コラムになるべきものが分割されることがあるので、そ
のようなときの行間距離を求める手がかりとして、領域
間距離を予め測定しておく(S14)。測定の対象は文
字領域に対してのみであり、距離を測定する相手の領域
は、図、表など他の領域でも構わない。更に、前行との
距離(S15)、前行とのXs差の取得(S16)、前
行とのフォントサイズ差の取得(S17)を行う。これ
らは、行の相対情報に基くレイアウト的特徴量の抽出で
ある。
【0018】次に、タイトル抽出部400は、このよう
にして抽出した各特徴を行領域に付与するためにポイン
ト(スコア)付けを行う。フォントサイズからタイトル
らしさの情報を付与する場合、その行がステップS11
で計算した標準文字サイズの何倍であるかを求め、それ
に応じた加点をすることでタイトルらしさとすることが
できる(S18)。 例えば、2倍以上〜10点 1.6倍〜8点 1.3倍〜6点 0.75倍〜1点 それ以外0点 などである。更に、行の長さについて、文字認識を行う
前であるので、その情報が得られない。そのため、この
1次抽出では行の長さをフォントサイズ(行高さ)で割
った値を仮想の文字数情報として使用し、 例えば、文字数3文字未満であれば、行長さスコアを0
点 3文字以上であれば、10点 として、行長さが短い場合にタイトルらしさをマイナス
ポイントする(S19)。
【0019】インデントとセンタリングにスコア付けを
行う(S20)。インデント情報のタイトルらしさ加点
方式は、 例えば、センタリング10点 左寄せ(後インデントのみ)4点 右寄せ(前インデントのみ)2点 インデントなし0点 フォントの大きい場合、センタリングとみなし10点 フォントの小さい場合、準センタリングとみなし4点 などである。
【0020】更に、所属領域について、領域識別によ
り、属性判定された領域のうち、ヘッダー、フッター、
キャプションに分類された領域には属性得点として低い
点の加点をする(S21)。更に又、行の位置情報によ
るスコアとして、横書きの場合は全体の領域を上方、中
盤、下方にわけ、それぞれ行がある位置に対して位置得
点として加点し、縦書きの場合は、左右方向に3つに分
類し、右側が高得点になるように加点する(S22)。
【0021】センタリングのYs順得点として、行の位
置情報のスコアつけをする段階で、センタリングの位置
についてもスコアをつける(S23)。更に又、前行と
の距離差のスコア付けとして、前行とのフォントサイズ
差が小さければ、該当情報をマイナスポイントとし(S
24)、前行とのフォントサイズ差、Xs差によるスコ
ア付けとして、前行とのフォントサイズ差が小さければ
該当情報をマイナスポイントとする(S25)。次に、
このようにしてスコア付けしたスコアのトータルスコア
算出を行い(S26)、スコア順にソートする(S2
7)。このソートによって、タイトルらしさの情報の順
位を得、所定スコア(順位)のタイトルらしさの情報を
第1次のタイトル候補とすることができる。
【0022】このように、文字領域の位置、キャプショ
ンやヘッダー、本文などの属性と行のレイアウト的特徴
からタイトルらしさの情報が抽出され、これにスコア付
けが行われるのでタイトル候補の抽出速度が早くなる。
【0023】次に、順位付けされたタイトルらしさ情報
の所定の上位候補について、前記文字データを認識し、
それに基いて更に同じ方式で第2次タイトル候補を求め
る。図5は、本実施形態に係る第2次タイトル候補を決
める2次抽出処理のフロー図である。図5において、領
域分割装置300が第2次タイトル候補抽出の指示を受
けて動作を開始すると、図示しないOCR装置が起動
し、OCRパラメータや辞書の文字種などをセットし
(S31)、順位付けされたタイトル候補について候補
行のループを設定する(S32)。そして当該候補行に
ついて、行単位の文字認識を行う(S33)。
【0024】このとき、1次抽出でタイトルらしいとな
った行の文字認識結果が悪い場合は、文字のイタリック
変形や倍角変形などの強調がかけられている可能性を検
討して、その文書画像の該当部分に対して逆変換処理を
行い、再度認識を行うことで、ノイズ画像を文字領域と
間違ってしまったのか、フォントの強調処理によって、
通常の文字認識結果に誤りがあるのかを確認する。
【0025】続いて、1行単位に、その行の文字確信度
を、文字認識の確信度から算出する(S33)。具体的
には、挿入文字、空白文字(スペース、全角スペース、
タブ)改行、改領域コードを除いた文字数のうち、確信
度が上位のものから順に8割の文字分の平均によって求
める。次に、フォントサイズの再計算を行う(S3
5)。行のフォントサイズは1次抽出において概算で計
算している。ここでは文字認識が行われた後なので、正
確なフォントサイズを抽出する。2次抽出のフォントサ
イズ計算は、行の確信度の算出と同様に、挿入文字、空
白文字、改行、改領域を除外する。また確信度が85以
下の文字も除外する。除外されなかった文字について、
サイズ順にソートをし、文字数の7割についての平均を
求める。求めた平均を行のフォントサイズとする。更
に、行の文字数を求め(S36)、行のアスペクト比を
求める(S37)。行内文字のアスペクト比は、前記フ
ォントサイズの再計算などと同様に挿入文字、空白、改
行、改領域を除外した文字で、矩形の縦横比を計算す
る。この値が一定範囲内である文字の縦横比の平均を行
内文字のアスペクト比とする。以上の計算をループの候
補行について行い(S38,NO)、その終了後(S3
8,YES)、各特徴のスコア付けを行う。
【0026】まず、フォントサイズについて、このスコ
アは1次抽出で得られている文書中の標準サイズとの比
をパラメーターとしてスコア付けをする(S39)。行
のフォントサイズが1次抽出よりは正確になっているの
で、1次抽出のフォントサイズスコアよりは信頼性が高
くなる。次に、アスペクト比は、2.2〜2.0の範囲
を超えている行、文字数が少ない行、確信度の低い行に
ついて、フォント強調のスコアを0にする。0.4〜
0.7の範囲に入っている通常の行については、倍角と
判定し、スコアを加算する(S40)。行内文字数のス
コアは、 例えば、2文字以下:スコア0 3〜40文字:スコア10 41〜50文字:スコア7 51文字以上:スコア4 などのようにする(S41)。更に、行の確信度のスコ
ア付けを行い(S42)、センタリングの再スコア付け
を行う(S43)。以上の他、前行との距離情報、前行
とのフォントサイズ差、行の位置情報、所属領域の属性
情報についても1次抽出のスコアをそのまま使用してし
てスコア付けを行う。スコア付け後、トータルスコアを
算出し(S44)、スコア順にソートして所定スコア以
上のタイトル候補をタイトルとして抽出する(S4
5)。
【0027】このように、順位付けされたタイトル候補
の所定上位の候補について、文字認識し、文字認識後の
行領域のレイアウト的特徴からタイトルらしさの情報を
抽出し、該情報にスコア付け行って最上位スコアのタイ
トル候補をタイトルとして抽出するので、精度よくタイ
トル候補を抽出することができる。
【0028】なお、領域としてのタイトルらしさの情報
は、文字領域を抽出する際に、その領域を分類し、あら
かじめヘッダー、フッター、キャプション、本文などの
属性から抽出するが、この技術は、本出願人による特開
平7-192084公報に記載された技術を使用することができ
る。文字領域から得られる行の位置座標から、例えば最
も下の領域であるとか、明らかにタイトルが含まれてい
ない領域というのを指摘することができる。この明らか
にタイトルが含まれていないという条件を経験的にみつ
け、位置情報と整合をとるにより、その領域にタイトル
が含まれていなさそうな場合、その領域の行データにあ
るタイトル情報に、タイトルらしくないという情報を付
与する。同様に、分類されているカテゴリーについても
タイトルが含まれないであろうカテゴリーはある。例え
ばヘッダーにはタイトルが含まれる可能性があるが、フ
ッターには含まれる可能性はないというような情報であ
る。このようにして領域としてのタイトルらしさの情報
を抽出する。
【0029】他に、領域としてのタイトルらしさの情報
を取得する方法として、領域単位毎の文字行の長さを測
定する。ある領域の内部に同じ長さの行が多い場合に
は、その領域にはタイトルがない、もしくはタイトルは
一番上の行であり、その真中くらいの位置にタイトルが
存在することはないという判定を行い、領域としてのタ
イトルらしさの情報を抽出する。
【0030】又、領域単位毎の文字行の行間距離を測定
する。領域単位の行間距離が一定値から誤差程度の変化
しかない場合には、その領域にはタイトルがない、もし
くはタイトルは一番上の行であり、その真中くらいの位
置にはタイトルが存在することはないという判定を行
い、領域としてのタイトルらしさの情報を抽出する。
【0031】更に、領域分割をして、生成された領域が
表領域だった場合、その表領域の内部の文字行につい
て、通常の文字行のタイトルらしさの判定を、前記内部
の文字行について行うよう変更する。これは例えば、表
内部の文字列と、表の外の文字列を同じ次元で評価でき
ないため、その次元を合わせるような処理を行うことで
ある。例えば、表の中の文字列はタイトルになりにくい
が、全くタイトルにならないわけではなく、表の外に文
字列が全くない場合や、書誌事項的項目が表形式で上の
方に書かれている場合も存在する。また、表形式で書か
れている文字行は、行の位置座標だけをみれば、並列し
ていくつかの項目が書かれているため、単独に存在しが
ちなタイトルと考えにくいが、表の内部であるという状
態であった場合、単独に存在していないことが、タイト
ルらしくないという情報にならないような操作を行い、
そのようにタイトルらしさの特徴を抽出する際に、表内
部とそれ以外の行を、操作を変えて処理する。
【0032】更に又、行単位ではなく、領域単位でのタ
イトルらしさの特徴を抽出できる方法として、領域分割
をして、生成された領域が表領域だった場合に、その表
領域のキャプションに相当する文字領域について、タイ
トルらしさの情報を付与する。キャプション領域は、通
常タイトルにはなりえない文字領域であるが、表の外に
文字行がなかった場合などは、タイトルになり得る。そ
こで、表がいくつかあった場合に、重要そうな表を選択
して、その重要そうな表のキャプションが最もタイトル
候補としてふさわしいと考えるような処理方法である。
【0033】更に又他の、タイトルらしさの特徴を抽出
できる方法として、領域単位でのタイトルらしさの特徴
を抽出する際に、文字領域の分布又は配置から、文書の
プレゼン資料か雑誌か等のタイプを推定し、推定された
文書のタイプから、それに応じたタイトルらしいと判定
する文字領域の位置を変更する。推定方法には、例えば
特開平11-328306公報に開示されたレイアウト的特徴に
基き複数の論理モデルの中から一致するモデルをみつけ
る方法を使用することができる。また、この公報に開示
されているように精度良く特定の論理モデルに一致をみ
なくても、非常に大きな分類の結果だけでも以降の処理
には有効である。例えばプレゼンテーション資料であれ
ば、左右のセンタリングだけでなく、上下の位置もセン
タリングされている。雑誌記事であれば、文字サイズと
左のインデントが0のケースが他のタイプよりも目立
つ。これを全部の文書に対して行うと、上下の位置がセ
ンタリングされているからといって、雑誌記事などでタ
イトル位置がその情報に影響されると、不正解につなが
る。そこで、文書タイプをあらかじめ推定してからそれ
に応じて文字領域を変更して特徴量を使用すると、タイ
トル抽出がよりよい精度で行うことができる。
【0034】本発明の他の実施形態は、図4及び図5を
参照して説明した文書画像のタイトル抽出方法を実行す
るためのプログラムを、タイトル抽出装置(図1)や任
意のコンピュータに実行させることにより目的とするタ
イトル抽出機能を実現する。そして更に前記プログラム
をコンピュータ読み取り可能なプログラムとしてCD−
ROM等の記録媒体に記録する。このプログラムを前記
抽出装置や任意のコンピュータに搭載又はダウンロード
することによって前記抽出方法を容易に実行することが
できる。
【0035】
【発明の効果】請求項1に対応する作用効果: 文字領
域の属性及び行領域のレイアウト的特徴からタイトルら
しさの情報を抽出し、抽出したタイトルらしさの情報に
タイトルらしさのポイント付けを行って、簡易に文字領
域をタイトル候補として抽出する。このようにして抽出
したタイトル候補について文字認識し、文字認識したタ
イトル候補のレイアウト的特徴からタイトルらしさの情
報を正確に抽出し、抽出したタイトルらしさの情報にタ
イトルらしさのポイント付けを行い、所定ポイントのタ
イトル候補をタイトルとして抽出するので、高速度で精
度よくタイトルを抽出することができる。請求項2、
3、4、5、6に対応する作用効果: タイトル候補の
抽出をよりよい精度で行うことができるようになる。請
求項7、8、9に対応する効果: 請求項1〜6のタイ
トル抽出方法をタイトル抽出装置や任意のコンピュータ
において容易に実行することができるようになる。
【図面の簡単な説明】
【図1】本発明が適用される文字領域抽出装置の要部ブ
ロック図である。
【図2】本発明の実施形態に係る行抽出のための矩形統
合の説明図である。
【図3】本発明の実施形態に係る行抽出のための矩形統
合の説明図である。
【図4】本発明の実施形態に係るタイトル候補抽出のフ
ロー図である。
【図5】本発明の実施形態に係るタイトル候補抽出のフ
ロー図である。
【符号の説明】
100・・スキャナ、200・・画像入力部、300・・領域
分割装置、400・・タイトル抽出部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND07 NK04 NK06 NK31 PP04 PR06 QM05 5L096 BA17 CA14 DA02 FA59 FA66 FA69 JA14

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文書画像から行領域からなる文字領域に
    ポイント付けをしてタイトルを抽出する文書画像のタイ
    トル抽出方法において、前記文字領域の属性及び前記行
    領域のレイアウト的特徴からタイトルらしさの情報を抽
    出する工程と、抽出したタイトルらしさの情報にタイト
    ルらしさのポイントを付与する工程と、所定のポイント
    が付与された文字領域をタイトル候補として抽出する工
    程と、抽出したタイトル候補について文字認識する工程
    と、文字認識したタイトル候補のレイアウト的特徴から
    タイトルらしさの情報を抽出する工程と、抽出したタイ
    トルらしさの情報にタイトルらしさのポイントを付与す
    る工程と、所定のポイントが付与されたタイトル候補を
    タイトルとして抽出する工程とからなることを特徴とす
    る文書画像のタイトル抽出方法。
  2. 【請求項2】 請求項1記載の文書画像のタイトル抽出
    方法において、前記タイトルらしさの情報を抽出する工
    程は、文字領域毎に行領域の長さを測定し、同じ長さの
    行領域が複数あるとき、最初の行領域がタイトルらしい
    と判定して前記情報を抽出する工程であることを特徴と
    する文書画像のタイトル抽出方法。
  3. 【請求項3】 請求項1記載の文書画像のタイトル抽出
    方法において、前記タイトルらしさの情報を抽出する工
    程は、文字領域の行間距離を測定し、その内部の行の行
    間距離が変わらないとき、一番上の行領域がタイトルら
    しいと判定して前記情報を抽出する工程であることを特
    徴とする文書画像のタイトル抽出方法。
  4. 【請求項4】 請求項1記載の文書画像のタイトル抽出
    方法において、前記タイトルらしさの情報を抽出する工
    程は、文字領域の属性が表領域であるとき、該表領域の
    内部の文字行について通常の文字行とタイトルらしさの
    判定を変更して前記情報を抽出する工程であることを特
    徴とする文書画像のタイトル抽出方法。
  5. 【請求項5】 請求項1記載の文書画像のタイトル抽出
    方法において、前記タイトルらしさの情報を抽出する工
    程は、文字領域の属性が表領域であるとき、該表領域の
    キャプションに相当する文字領域に、タイトルらしさの
    ポイントを付与して前記情報を抽出する工程であること
    を特徴とする文書画像のタイトル抽出方法。
  6. 【請求項6】 請求項1記載の文書画像のタイトル抽出
    方法において、前記タイトルらしさの情報を抽出する工
    程は、文字領域が存在する範囲と分布から、文書の種類
    を判別し、判別した文書の種類に応じて、タイトルらし
    いと判定する文字領域の位置を変更して前記情報を抽出
    する工程であることを特徴とする文書画像のタイトル抽
    出方法。
  7. 【請求項7】 請求項1乃至6のいずれかに記載のタイ
    トル抽出方法の各工程を実行するためのプログラム。
  8. 【請求項8】 請求項7記載のプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体。
  9. 【請求項9】 請求項7記載のプログラムを搭載したこ
    とを特徴とする文書画像のタイトル抽出装置。
JP2001098915A 2001-03-30 2001-03-30 文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置 Pending JP2002297629A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001098915A JP2002297629A (ja) 2001-03-30 2001-03-30 文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001098915A JP2002297629A (ja) 2001-03-30 2001-03-30 文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置

Publications (1)

Publication Number Publication Date
JP2002297629A true JP2002297629A (ja) 2002-10-11

Family

ID=18952520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001098915A Pending JP2002297629A (ja) 2001-03-30 2001-03-30 文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置

Country Status (1)

Country Link
JP (1) JP2002297629A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2779613A1 (en) 2013-03-12 2014-09-17 Ricoh Company, Ltd. Document processing apparatus, document processing method, and document processing computer program product
JP2019114111A (ja) * 2017-12-25 2019-07-11 京セラドキュメントソリューションズ株式会社 情報処理装置および情報処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2779613A1 (en) 2013-03-12 2014-09-17 Ricoh Company, Ltd. Document processing apparatus, document processing method, and document processing computer program product
JP2019114111A (ja) * 2017-12-25 2019-07-11 京セラドキュメントソリューションズ株式会社 情報処理装置および情報処理方法
JP7006250B2 (ja) 2017-12-25 2022-01-24 京セラドキュメントソリューションズ株式会社 情報処理装置および情報処理方法

Similar Documents

Publication Publication Date Title
US7561734B1 (en) Machine learning of document templates for data extraction
US7764830B1 (en) Machine learning of document templates for data extraction
US7519226B2 (en) Form search apparatus and method
US5848191A (en) Automatic method of generating thematic summaries from a document image without performing character recognition
US5892842A (en) Automatic method of identifying sentence boundaries in a document image
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
US8948511B2 (en) Automated document processing system
JP3452774B2 (ja) 文字認識方法
US5850476A (en) Automatic method of identifying drop words in a document image without performing character recognition
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
US7046847B2 (en) Document processing method, system and medium
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
US9049400B2 (en) Image processing apparatus, and image processing method and program
JPH11184894A (ja) 論理要素抽出方法および記録媒体
US6968501B2 (en) Document format identification apparatus and method
JP2003058556A (ja) 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JP2002297629A (ja) 文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置
JPH11272800A (ja) 文字認識装置
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
CN113449763A (zh) 信息处理装置以及记录媒体
JP3897999B2 (ja) 手書き文字認識方法
JP3402755B2 (ja) 領域分割方法