JP2002297638A - Method for extracting title from document image - Google Patents

Method for extracting title from document image

Info

Publication number
JP2002297638A
JP2002297638A JP2001094790A JP2001094790A JP2002297638A JP 2002297638 A JP2002297638 A JP 2002297638A JP 2001094790 A JP2001094790 A JP 2001094790A JP 2001094790 A JP2001094790 A JP 2001094790A JP 2002297638 A JP2002297638 A JP 2002297638A
Authority
JP
Japan
Prior art keywords
title
line
character
extracting
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001094790A
Other languages
Japanese (ja)
Inventor
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001094790A priority Critical patent/JP2002297638A/en
Publication of JP2002297638A publication Critical patent/JP2002297638A/en
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To automatically extract a title from a document image according to features characteristic of the title without depending upon any specific document format. SOLUTION: A character string area is cut rectangularly out of the document image, and points of title likelihood are added according to properties of the character string area to extract the title. The points are given on the basis of the features unique to the tile, e.g. the distance between the lines before and behind the object line, whether or not the line is meshed or framed, the difference in character size between the object line and other character lines, whether the object line is independent, etc., and the points are added to extract the line of a character string reaching specific points as the title.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ファクシミリやイ
メージスキャナなどの画像入力装置から入力された文書
画像データのデータベースから、検索の利便性を向上さ
せるために、文書内容を的確に表現するような文書中の
タイトル領域を切出すためのタイトル抽出に関するもの
である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for accurately expressing document contents from a database of document image data input from an image input device such as a facsimile or an image scanner in order to improve the convenience of retrieval. The present invention relates to title extraction for extracting a title area in a document.

【0002】[0002]

【従来の技術】従来、文書画像を検索する際には、後の
検索時の利便性を図るために、画像入力装置からの文書
画像の入力とは別にオペレータが手作業で、その文書の
内容を的確に表現するタイトル情報やキーワード情報を
抽出/作成して付加したり、定形文書に対しては、文書
中の特定の位置(文字列)をタイトル・キーワードとして
切り出していた。
2. Description of the Related Art Conventionally, when searching for a document image, an operator manually operates the content of the document separately from inputting the document image from an image input device in order to improve the convenience of the subsequent search. Is extracted / created and added to the title information and the keyword information that accurately expresses, and a specific position (character string) in the document is cut out as a title / keyword for a fixed-form document.

【0003】また、非定形文書に対してレイアウト的特
徴のみを用いてタイトルを抽出するものとしては、例え
ば、特開平9-134406号公報の「文書画像からのタイトル
抽出装置および方法」、特開平5-274471号公報の「イメ
ージ文書のタイトル領域抽出処理方法」が知られてい
る。
[0003] Further, as a method of extracting a title from an irregular document using only layout features, for example, Japanese Patent Application Laid-Open No. 9-134406, entitled "Apparatus and method for extracting title from document image" Japanese Patent Application Laid-Open No. 5-274471 discloses a “method of extracting a title region of an image document”.

【0004】しかしながら、前記のような従来の技術に
あっては、オペレータによるタイトル情報やキーワード
情報の付加は文書量が多くなるにしたがって作業量も増
加するため、作業負担の増大化を招来させてしまう。ま
た、特定の位置の自動切り出しは、定形文書のみを対象
とするので、非定形文書には利用することができず、利
便性に欠けるといった問題点があった。
However, in the above-described conventional technology, the addition of title information or keyword information by an operator increases the work load as the document size increases, thereby causing an increase in work load. I will. In addition, since automatic extraction of a specific position is performed only on a fixed document, it cannot be used for an unfixed document, and there is a problem that convenience is lacking.

【0005】つまり、前記特開平9-134406号公報・特開
平5-274471号公報に開示されたものでは、レイアウト的
特徴にのみ注目してタイトル抽出を行っているため、文
書内容を的確に表現するタイトルの的中率が必ずしも満
足できるものではなく、後の文書検索等に支障をきたす
等の問題点があった。
That is, in the documents disclosed in JP-A-9-134406 and JP-A-5-274471, titles are extracted by paying attention only to layout features, so that the contents of a document are accurately represented. However, the hit rate of the title to be obtained is not always satisfactory, and there is a problem in that it hinders later document search and the like.

【0006】そこで、特定の文書形式に依存せずにタイ
トル固有の特徴をポイントとして用いることにより、ポ
イント数の多い文字列領域をタイトルとして自動抽出
し、タイトル抽出の的確性および文書検索時の利便性を
向上させることを目的としたものとして、特開2000-148
788公報には、タイトル固有の特徴をタイトルらしさの
ポイントとして用いることで、得点の多い文字列領域を
タイトルとして自動抽出するものが開示されている。
Therefore, by using a feature unique to a title as a point without depending on a specific document format, a character string region having a large number of points is automatically extracted as a title, and the accuracy of title extraction and the convenience in document search are improved. Japanese Patent Application Laid-Open No. 2000-148
Japanese Patent Publication No. 788 discloses that a character string region with a high score is automatically extracted as a title by using a feature unique to the title as a point of the likeness of the title.

【0007】この手法によればタイトルを抽出すること
は可能であるが、文書中における抽出特徴点が限られて
いるため、レイアウトの多様な文書が入力された場合に
は、タイトル抽出精度が悪くなる場合もある。例えば、
タイトル行が1行ではなく2行に分かれているような場
合、前術の方法では、言語処理がタイトルらしさを判定
できない場合が出てくる。さらに、タイトルの文字列が
本文の文字列とほぼ同じサイズであると、タイトルらし
さのポイントがタイトルを抽出できるほどにはうまく得
られないということもある。
According to this method, it is possible to extract a title. However, since extraction feature points in a document are limited, when a document having various layouts is input, title extraction accuracy is poor. In some cases. For example,
In the case where the title line is divided into two lines instead of one line, there are cases where language processing cannot determine the likelihood of a title using the method of the previous technique. Furthermore, if the character string of the title is almost the same size as the character string of the body, the point of the title may not be obtained well enough to extract the title.

【0008】[0008]

【発明が解決しようとする課題】本発明では、特開2000
-148788公報に開示されたものに新たな特徴を加え、従
来うまくタイトル抽出ができないような文書画像から
も、出来るだけタイトルらしさの特徴をポイント化でき
るようにし、タイトル抽出の精度を総合的に高めること
を目的としている。
SUMMARY OF THE INVENTION In the present invention, Japanese Patent Application Laid-Open
-148788 New features are added to those disclosed in the Japanese Patent Publication, so that the title-like features can be pointed as much as possible even from document images where title extraction cannot be performed well in the past, and the overall accuracy of title extraction is enhanced. It is intended to be.

【0009】[0009]

【課題を解決するための手段】請求項1の発明は、文書
画像から文字列領域を矩形で切出し、その文字列領域の
属性に基づいてタイトルらしさのポイントを加算してタ
イトルを抽出する方法において、対象とする行の前及び
/又は後の行間距離を測定し、測定した行間距離と所定
の値とを比較し、所定の値よりも大きい文字行に対して
タイトルらしさのポイントを与える、各工程からなるこ
とを特徴とするタイトル抽出方法である。
According to a first aspect of the present invention, there is provided a method for extracting a title by extracting a character string region from a document image in a rectangular shape and adding a point of the title likeness based on the attribute of the character string region. Measuring the line spacing before and / or after the target line, comparing the measured line spacing with a predetermined value, and giving a point of title-likeness to a character line larger than the predetermined value. This is a title extracting method characterized by comprising steps.

【0010】請求項2の発明は、請求項1に記載された
タイトル抽出方法において、前記文字列領域内の文字行
の文字を認識し、文字認識結果の確信度が所定の値より
低いか否かを判定し、低い場合に前記文字行にマイナス
のタイトルらしさのポイントを与える各工程からなるこ
とを特徴とするタイトル抽出方法である。
According to a second aspect of the present invention, in the title extracting method according to the first aspect, a character of a character line in the character string area is recognized, and whether or not the confidence of the character recognition result is lower than a predetermined value. And a step of determining whether the character line has a negative title-like point when the character line is low.

【0011】請求項3の発明は、請求項1に記載された
タイトル抽出方法において、文書中のセンタリング位置
を求め、対象とする行がセンタリング位置か否かを判定
し、センタリング位置にあると判定したとき、さらに抽
出された文字領域部分を基準としたセンタリング位置を
判定し、前記対象とする行が該文字領域部分を基準とし
たセンタリング位置にあると判定したとき、該文字行に
タイトルらしさのポイントを与える各工程からなること
を特徴とするタイトル抽出方法である。
According to a third aspect of the present invention, in the title extracting method according to the first aspect, the centering position in the document is obtained, and it is determined whether or not the target line is the centering position, and it is determined that the target line is at the centering position. Then, a centering position based on the extracted character area portion is determined, and when it is determined that the target line is located at the centering position based on the character area portion, title-likeness is assigned to the character line. This is a title extracting method characterized by comprising each step of giving points.

【0012】請求項4の発明は、請求項1に記載された
タイトル抽出方法において、対象とする行の横に別の行
が存在するか否か判定し、別の行が存在していると判定
したときは、(対象としている行は独立していないとし
て)マイナスのタイトルらしさのポイントを与える各工
程からなることを特徴とするタイトル抽出方法である。
According to a fourth aspect of the present invention, in the title extracting method according to the first aspect, it is determined whether or not another line exists next to the target line, and it is determined that another line exists. When it is determined, the title extracting method is characterized by comprising the steps of giving a negative title-like point (assuming that the target line is not independent).

【0013】請求項5の発明は、請求項4に記載された
タイトル抽出方法において、対象とする行の横に別の行
が存在すると判定したとき、対象とする行と前記別の行
の文字サイズに差があるか否か判定し、サイズに差があ
ると判定したとき、文字サイズが小さい行には、(独立
していないとして)マイナスのタイトルらしさのポイン
トを与え、文字サイズが大きい行には(独立している可
能性があるとして)タイトルらしさのポイントを与え
る、各工程からなることを特徴とするタイトル抽出方法
である。
According to a fifth aspect of the present invention, in the title extracting method according to the fourth aspect, when it is determined that another line exists next to the target line, the character of the target line and the character of the another line are determined. Judgment is made as to whether there is a difference in size, and if it is judged that there is a difference in size, a line with a small character size is given a negative title-like point (assuming it is not independent) and a line with a large character size Is a title extraction method, which comprises the steps of giving a point of title-likeness (assuming that it may be independent).

【0014】請求項6の発明は、請求項1に記載された
タイトル抽出方法において、対象とする行の前後の行と
の文字サイズの差分を測定し、文字サイズの差分が所定
値を越えているか否かを判定し、越えていると判定した
とき、対象とする行にタイトルらしさのポイントを与え
る、各工程からなることを特徴とするタイトル抽出方法
である。
According to a sixth aspect of the present invention, in the title extracting method according to the first aspect, a difference in character size between a line before and after the target line is measured, and the difference in character size exceeds a predetermined value. It is a title extraction method comprising the steps of: determining whether or not a title is exceeded and, if it is determined to be exceeded, giving a title-like point to a target line.

【0015】請求項7の発明は、請求項6に記載された
タイトル抽出方法において、行を上から下にみて、文字
サイズが小さくなるように変化しいているか否か判定
し、文字サイズが小さくなるように変化しいている行に
対して、マイナスのタイトルらしさのポイントを与え、
その上の行にタイトルらしさのポイントを与える、各工
程からなることを特徴とするタイトル抽出方法である。
According to a seventh aspect of the present invention, in the title extracting method according to the sixth aspect, it is determined whether or not the character size has changed so as to decrease the size by looking at the line from top to bottom. For the lines that are changing to become, give points of negative title-likeness,
This is a title extraction method comprising the steps of giving a title-like point to a line above the title.

【0016】請求項8の発明は、請求項6に記載された
タイトル抽出方法において、行を上から下にみて、文字
サイズが大きくなるように変化しいているか否か判定
し、文字サイズが大きくなるように変化しいていると判
定された行に対してタイトルらしさのポイントを与え、
その上の行にマイナスのタイトルらしさのポイントを与
える、各工程からなることことを特徴とするタイトル抽
出方法である。
According to an eighth aspect of the present invention, in the title extracting method according to the sixth aspect, it is determined whether or not the character size has changed so as to increase the character size by looking at the line from top to bottom. Give a point of the title-likeness to the line determined to be changing so that
A title extracting method characterized by comprising each step of giving a negative title-like point to a line above it.

【0017】請求項9の発明は、文書画像から文字列領
域を矩形で切出し、その文字列領域の属性に基づいてタ
イトルらしさのポイントを加算してタイトルを抽出する
方法において、文字間のスペースが他の行より大きく、
しかも等間隔に現れているか否かを判定し、スペースが
他のより大きく、しかも等間隔に現れていると判定され
た行に対してタイトルらしさのポイントを与える、各工
程からなることを特徴とするタイトル抽出方法である。
According to a ninth aspect of the present invention, there is provided a method for extracting a title by extracting a character string region from a document image in a rectangular shape and adding title-like points based on the attribute of the character string region. Larger than the other lines,
Moreover, it is characterized in that each step determines whether or not the lines appear at equal intervals, and gives a point of the title-likeness to the line determined to have a larger space and also appears at equal intervals. This is a title extraction method.

【0018】請求項10の発明は、文書画像から文字列
領域を矩形で切出し、その文字列領域の属性に基づいて
タイトルらしさのポイント加算して、タイトルを抽出す
る方法において、対象とする行が枠で囲まれているか否
かを判定し、枠に囲まれていると判定したときは、前記
対象とする行に対して、タイトルらしさのポイントを与
える各工程からなることを特徴とするタイトル抽出方法
である。
According to a tenth aspect of the present invention, in the method for extracting a title by extracting a character string area from a document image in a rectangular shape, adding a point of title likeness based on the attribute of the character string area, and extracting a title. It is determined whether or not it is surrounded by a frame, and when it is determined that it is surrounded by a frame, a title extraction is characterized by comprising a step of giving a title-like point to the target line. Is the way.

【0019】請求項11の発明は、請求項10に記載さ
れたタイトル抽出方法において、前記枠の中に文字領域
が複数存在する(例えば、マルチコラム)か否か判定
し、複数存在すると判定したときは、枠に囲まれている
との判定を無効とする(つまり、先のタイトルらしさの
ポイントはクリアして、枠で囲まれている情報をなくし
てタイトルを抽出する)各工程からなるタイトル抽出方
法である。
According to an eleventh aspect of the present invention, in the title extracting method according to the tenth aspect, it is determined whether or not a plurality of character areas exist in the frame (for example, multi-column), and it is determined that a plurality of character areas exist. In such a case, the judgment of being surrounded by a frame is invalidated (that is, the point of the previous title is cleared, and the title is extracted without the information surrounded by the frame). It is an extraction method.

【0020】請求項12の発明は、文書画像から文字列
領域を矩形で切出し、その文字列領域の属性に基づいて
タイトルらしさのポイントを加算してタイトルを抽出す
る方法において、対象とする行が網掛けされているか否
かを判定し、網掛けされていると判定された行にタイト
ルらしさのポイントを与える各工程からなることを特徴
とするタイトル抽出方法である。
According to a twelfth aspect of the present invention, in the method for extracting a title by extracting a character string region from a document image in a rectangle and adding a point of the title likeness based on the attribute of the character string region, A title extracting method characterized by comprising a step of determining whether or not a screen is shaded and giving a point of title-likeness to a line determined to be shaded.

【0021】請求項13の発明は、文書画像から文字列
領域を矩形で切出し、その文字列領域の属性に基づいて
タイトルらしさのポイント加算して、タイトルを抽出す
る方法において、対象とする行が他の行より文字数が少
なく、かつ、センタリングされているか否かを判定し、
他の行より文字数が少なく、かつ、センタリングされて
いると判定したとき、該行を基準にして、それより下の
行にタイトルらしさのマイナスのポイントを与える各工
程からなることを特徴とするタイトル抽出方法である。
According to a thirteenth aspect of the present invention, in a method for extracting a title by extracting a character string area from a document image in a rectangular shape, adding points of the title likeness based on the attribute of the character string area, and extracting a title. It is determined whether the number of characters is smaller than that of the other lines and the centering is performed,
When it is determined that the number of characters is smaller than that of the other lines and that it is centered, a title which comprises a step of giving a negative point of title-likeness to a line below the line based on the line. It is an extraction method.

【0022】請求項14の発明は、文書画像から文字列
領域を矩形で切出し、その文字列領域の属性に基づいて
タイトルらしさのポイントを加算して、タイトルを抽出
する方法において、内部に存在する特定語辞書と比較す
ることで、対象とする行が(例えば「記」などの)特定
の文字のみで構成されるか否かを判定し、特定文字のみ
で構成されていると判定したときは、その行を基準にし
て、その行より上の行と下の行にタイトルらしさのポイ
ントを別に与える各工程からなることを特徴とするタイ
トル抽出方法である。
According to a fourteenth aspect of the present invention, there is provided a method for extracting a title by extracting a character string area from a document image in a rectangular shape, adding a title-like point based on the attribute of the character string area, and extracting the title. By comparing with the specific word dictionary, it is determined whether or not the target line is composed of only specific characters (for example, “notation”). If it is determined that the target line is composed of only specific characters, And a step of separately giving title-like points to lines above and below the line based on the line.

【0023】請求項15の発明は、請求項1乃至14の
いずれかに記載された方法をコンピュータで実行するた
めのプログラムである。
According to a fifteenth aspect of the present invention, there is provided a program for causing a computer to execute the method according to any one of the first to fourteenth aspects.

【0024】請求項16の発明は、請求項15に記載さ
れたプログラムを記録したコンピュータ読み取り可能な
記録媒体。
According to a sixteenth aspect of the present invention, there is provided a computer-readable recording medium on which the program according to the fifteenth aspect is recorded.

【0025】請求項17の発明は、請求項15に記載さ
れたプログラムを搭載したタイトル抽出装置である。
According to a seventeenth aspect of the present invention, there is provided a title extracting apparatus including the program according to the fifteenth aspect.

【0026】[0026]

【発明の実施の形態】以下、本発明の文書画像からのタ
イトル抽出について添付図面を参照して説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The extraction of a title from a document image according to the present invention will be described below with reference to the accompanying drawings.

【0027】図1は、本発明の実施の形態に係るタイト
ル(領域)抽出処理を行うシステム構成を示すブロック
図である。図において、101はファクシミリやイメージ
スキャナ等の画像入力装置(図示せず)から入力された文
書画像から文字列領域を矩形で切り出す領域識別手段と
しての領域識別部、102は領域識別部101の識別結果に基
づいて文字認識を行う文字認識手段としての文字認識
部、103は領域識別部101の識別結果に基づいてフォント
識別を行うフォント識別手段としてのフォント識別部、
104は文字認識部102の認識結果で得られる文字コードに
基づいて自然言語的タイトルらしさを解析する自然言語
解析手段としての自然言語解析部、105はセンタリング
・下線・文字矩形の大きさ・網掛け、枠等を用いてタイ
トルらしさのポイント付けを行うポイント付手段として
のポイント付部である。また、106はタイトル抽出の際
に参照される特定文字を蓄積した特定語辞書である。
FIG. 1 is a block diagram showing a system configuration for performing a title (region) extraction process according to an embodiment of the present invention. In the figure, reference numeral 101 denotes an area identification unit as an area identification unit that cuts out a character string area from a document image input from an image input device (not shown) such as a facsimile or an image scanner, and 102 denotes identification of the area identification unit 101. A character recognition unit as a character recognition unit that performs character recognition based on the result, 103 is a font identification unit as a font identification unit that performs font identification based on the identification result of the area identification unit 101,
104 is a natural language analysis unit as a natural language analysis means for analyzing natural language title likelihood based on the character code obtained by the recognition result of the character recognition unit 102, and 105 is centering, underlining, character rectangle size, and shading , A point-attaching unit as a point-attaching means for assigning a point of a title likeness using a frame or the like. Reference numeral 106 denotes a specific word dictionary in which specific characters referred to in extracting a title are stored.

【0028】図1に示す構成において、画像入力装置(図
示せず)から文書画像が入力されると、スキュー補正等
の前処理を行い、領域識別部101により領域識別処理を
実行し、文字列矩形の座標値・大きさの情報を得る。次
いで、領域識別部101による領域識別処理の結果を用
い、文字認識部102による文字認識、およびフォント識
別部103によるフォント識別を行う。
In the configuration shown in FIG. 1, when a document image is input from an image input device (not shown), preprocessing such as skew correction is performed, an area identification process is executed by an area identification unit 101, and a character string is output. Obtain information on the coordinates and size of the rectangle. Next, using the result of the area identification processing by the area identification unit 101, character recognition by the character recognition unit 102 and font identification by the font identification unit 103 are performed.

【0029】文字認識部102では各文字毎の文字コード
・確信度、文字矩形の座標値・大きさがタイトルらしさ
のポイント付けとして得られる。また、フォント識別部
103では各文字毎のフォント種別がタイトルらしさのポ
イント付けとして得られる。
In the character recognizing unit 102, a character code, a certainty factor, a coordinate value and a size of a character rectangle for each character can be obtained as a point of the likeness of a title. Also, font identification unit
In 103, the font type for each character is obtained as a point of the title-likeness.

【0030】また、文字認識部102により得られる文字
コードは、自然言語解析部104自然言語解析ルーチンに
も供給され、自然言語的タイトルらしさ、つまり、体言
止めになっている領域のタイトルらしさのポイントを与
える。さらに、自然言語処理において、タイトルに頻出
する語尾の統計情報辞書と文字領域内の文字コード列と
を比較し、高頻出度の語尾と一致するものを語尾に含む
文字列領域にタイトルらしさのポイントを与える。
The character code obtained by the character recognizing unit 102 is also supplied to a natural language analyzing unit 104 and a natural language analyzing routine. give. Furthermore, in natural language processing, the statistical information dictionary of endings frequently appearing in the title is compared with the character code string in the character area, and the character string area including the ending that matches the frequent occurrence of the ending in the character string area has the point of title-likeness. give.

【0031】また、上述の各ポイントらしさのポイント
に加え、従来から用いられているセンタリング処理・下
線処理・文字列矩形の大きさ等も用いてタイトルらしさ
の合計ポイントを計算し、タイトルを識別する。
Further, in addition to the above-described points of the likelihood of points, the total points of the likelihood of the title are calculated using the conventionally used centering processing, underlining processing, the size of the character string rectangle, etc., and the title is identified. .

【0032】次に、図3〜図15に示すフローチャート
を参照し、本発明の一連のタイトル抽出方法について順
に説明する。なお、このタイトル抽出方法は、図1の構
成によって複数の組み合わせあるいは単独、あるいは選
択的に行うことができる。
Next, a series of title extracting methods of the present invention will be described in order with reference to flowcharts shown in FIGS. It should be noted that this title extraction method can be performed in a combination of a plurality of methods, alone, or selectively according to the configuration of FIG.

【0033】(実施形態1)この実施形態では、文字行
の行間距離を特徴として抽出し、行間距離に変化のある
行に対してタイトルらしさのポイントを与える。例え
ば、先頭の行は画像の上端からを行間距離として捉える
と、行間距離の大きな行であると判定され、タイトルら
しさのポイントがつく。
(Embodiment 1) In this embodiment, a line-to-line distance of a character line is extracted as a feature, and a line having a change in the line-to-line distance is given a point of a title likeness. For example, when the top line is regarded as a line distance from the upper end of the image, it is determined that the line has a large line distance, and a title-like point is attached.

【0034】図3は、実施形態1に係るタイトル抽出方
法の実行手順を示すフローチャートである。図に従って
説明すれば、まず、文書入力装置(図示せず)から文書
画像を入力し(S301)、領域識別部101により文字列領
域を識別する(S302)。続いて前記文字列領域内の文字
列の行間距離を測定し(S303)、文字列の前及び/又は
後の行との行間距離差が所定の行間距離差よりも大きい
場合、つまり他の行間における行間距離と大きく変化し
ている場合(S304、Yes)、その行にタイトルらしさの
ポイントを与える。このポイントを合計することでタイ
トル領域を決定しタイトルとして抽出する(S305)。
FIG. 3 is a flowchart showing an execution procedure of the title extracting method according to the first embodiment. First, a document image is input from a document input device (not shown) (S301), and a character string area is identified by the area identification unit 101 (S302). Subsequently, the line spacing between the character strings in the character string area is measured (S303), and when the difference between the lines before and / or after the character string is larger than a predetermined line spacing difference, that is, when the other line spacing is used. If the distance between the lines greatly changes (S304, Yes), a title-like point is given to the line. By summing up these points, a title area is determined and extracted as a title (S305).

【0035】(実施形態2)実施形態2では、実施形態
1における処理手順に加え、文字認識結果の文字の確信
度でタイトルらしさのポイントをつける。ここで確信度
が低い文字列は行としての信頼性が低いことに他ならな
いので、そのような行がタイトルとして抽出されても意
味のない文字列になってしまい、有効なキーワードには
なりえない。そこで、文字認識結果の確信度について一
定の閾値を求め、一定の閾値以上であった場合にタイト
ルらしさのポイントを与えし、逆に確信度が一定の閾値
に達しない確信度の低い行は、タイトルらしくないとい
う情報を付加する、つまりマイナスタイトルらしさのポ
イントを与えることで、正しいタイトルが抽出できるよ
うにする。
(Second Embodiment) In a second embodiment, in addition to the processing procedure in the first embodiment, a point of the likelihood of a title is given based on the certainty factor of the character as a result of character recognition. Here, a character string with low confidence is nothing but low reliability as a line, so if such a line is extracted as a title, it becomes a meaningless character string and can be a valid keyword. Absent. Therefore, a certain threshold value is obtained for the certainty factor of the character recognition result, and when the certainty factor is equal to or higher than the certain threshold value, a point of the title-likeness is given. By adding information that does not seem to be a title, that is, by giving a point of minus title likeness, a correct title can be extracted.

【0036】図4は、実施形態2に係るタイトル抽出方
法の実行手順を示すフローチャートである。図に従って
タイトル抽出のための処理手順を説明すれば、まず、文
書入力装置(図示せず)から文書画像を入力し(S40
1)、領域識別部101により文字列領域を識別する(S40
2)。続いて前記文字列領域内の文字列の行間距離を測
定し(S403)、文字列の前後の行間距離差が所定の行間
距離差よりも大きい場合、つまり大きく変化している場
合(S404、Yes)、さらに、文字コード識別の確信度が
一定の閾値以上であれば(S405、Yes)、その行にタイ
トルらしさのポイントを与え、このポイントを合計する
ことでタイトル領域を決定しタイトルとして抽出する
(S406)。文字コード識別の確信度が一定の閾値に達し
ていなければ、タイトルらしくないという情報を付加す
る、つまりタイトルらしさのマイナスのポイントを与え
て(S407)、タイトルとして抽出し難くすることで、正
しいタイトルの抽出精度を上げる。
FIG. 4 is a flowchart showing an execution procedure of the title extracting method according to the second embodiment. The processing procedure for title extraction will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S40).
1), a character string area is identified by the area identification unit 101 (S40)
2). Subsequently, the distance between lines of the character string in the character string region is measured (S403), and when the line distance difference before and after the character string is larger than a predetermined line distance difference, that is, when the line distance greatly changes (S404, Yes) If the certainty factor of the character code identification is equal to or more than a certain threshold (S405, Yes), a title-like point is given to the line, and the points are summed to determine a title area and extracted as a title. (S406). If the certainty of the character code identification does not reach a certain threshold value, information that the character is unlikely to be a title is added. The extraction accuracy of

【0037】(実施形態3)実施形態3では文書中のセ
ンタリング位置を求めて、対象とする行がセンタリング
されていると判定された場合にタイトルらしさのポイン
トを与える。従来、行の左右の端から画像の左右の端ま
での距離が等しい場合、その行はセンタリングされてい
ると判定することが最も普通に行われているが、本実施
形態3ではそれだけでなく、画像全体から、文字領域の
ある範囲の最大、最小の座標値を検索し、文字存在範囲
をみつけ、その文字存在範囲の中でセンタリングされて
いるかどうかをチェックする。これによって、例えばB5
画像をA4に拡大をしないでコピーした画像を使用した場
合には、通常よりセンタリングの位置がずれているにも
拘わらず、文字存在範囲という安定した領域の中でセン
タリング位置をみつけることができるので、特徴も安定
してとることができる。
(Third Embodiment) In a third embodiment, a centering position in a document is obtained, and when it is determined that the target line is centered, a point similar to a title is given. Conventionally, when the distances from the left and right edges of a row to the left and right edges of an image are equal, it is most commonly determined that the row is centered. However, in the third embodiment, not only that, The entire image is searched for the maximum and minimum coordinate values of a certain range of the character area, the character existence range is found, and it is checked whether the character is centered within the character existence range. This allows, for example, B5
If you use an image copied without enlarging the image to A4, you can find the centering position in a stable area called the character existence range, even though the centering position is shifted from normal. , Features can be taken stably.

【0038】図5は、実施形態3に係るタイトル抽出方
法の実行手順を示すフローチャートである。図に従って
タイトル抽出のための処理手順を説明すれば、まず、文
書入力装置(図示せず)から文書画像を入力し(S50
1)、領域識別部101により文字列領域を識別する(S50
2)。次に対象とする行が文書中でセンタリングされて
いるか否か判断し(S503)、センタリングされていれば
(S503、Yes)、文字領域のある範囲の最大、最小の座
標値を検索し、文字存在範囲を識別し(S504)、識別し
た文字列領域が文字存在範囲中でセンタリングされてい
るか否か判別し(S505)、センタリングしていれば(S5
05、Yes)、その行にタイトルらしさのポイントを与
え、このポイントを合計することでタイトル領域を決定
しタイトルとして抽出する(S506)。
FIG. 5 is a flowchart showing the execution procedure of the title extracting method according to the third embodiment. The processing procedure for title extraction will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S50).
1), the character string area is identified by the area identification unit 101 (S50)
2). Next, it is determined whether or not the target line is centered in the document (S503). If the line is centered (S503, Yes), the maximum and minimum coordinate values within a certain range of the character area are searched, and the character is searched. The existence range is identified (S504), and it is determined whether or not the identified character string area is centered in the character existence range (S505).
05, Yes), a title-like point is given to the line, and the points are summed to determine a title area and extracted as a title (S506).

【0039】(実施形態4)実施形態4では、行の独立
性を考える、つまり、その行の横即ち左及び/又は右に
他の行がないような場合は行が単独で位置していること
であり、タイトルらしさがあると考える。それに対して
横に別の行がある場合は、複数の行が併記してある場合
に相当し、行自体が独立しているとは考え難い。そこ
で、そのような場合にタイトルらしさのポイントを減ら
すことを行う。
Fourth Embodiment In the fourth embodiment, the independence of a row is considered. That is, when there is no other row next to the row, that is, left and / or right, the row is located alone. That is, I think there is a title. On the other hand, the case where there is another line besides the case corresponds to the case where a plurality of lines are described in parallel, and it is difficult to consider that the lines themselves are independent. Therefore, in such a case, the point of the title likeness is reduced.

【0040】図6は、実施形態4に係るタイトル抽出方
法の実行手順を示すフローチャートである。図に従って
タイトル抽出のための処理手順を説明すれば、まず、文
書入力装置(図示せず)から文書画像を入力し(S60
1)、領域識別部101により文字列領域を識別する(S60
2)。次に、識別した文字列の左右(左又は右)に文字
列の行の有無を判別し(S603)、別の行がなければ(S6
03、No)、その行にタイトルらしさのポイントを与え、
このポイントを合計することでタイトル領域を決定しタ
イトルとして抽出する(S604)、文字列の別の行があれ
ば(S603、Yes)、タイトルらしさのマイナスのポイン
トを与える(S605)。
FIG. 6 is a flowchart showing an execution procedure of the title extracting method according to the fourth embodiment. The processing procedure for extracting a title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S60).
1), a character string area is identified by the area identification unit 101 (S60)
2). Next, it is determined whether there is a line of the character string on the left or right (left or right) of the identified character string (S603), and if there is no other line (S6).
03, No), giving that line a title-like point,
By summing up these points, a title area is determined and extracted as a title (S604). If there is another line of the character string (S603, Yes), a negative point of the title likeness is given (S605).

【0041】(実施形態5)実施形態5では、実施形態
4に加え、行の大きさなどのバランスを考え、フォント
サイズが同じような場合は併記されていると判定し、ど
ちらかの行のフォントサイズが大きい場合は併記とは考
えにくいので、フォントサイズの大きい行は実は独立性
があると考え、それにタイトルらしさのポイントを与え
る。さらに、フォントサイズが小さいほうは逆にタイト
ルとはなり難いので、ポイントを減らす。
(Fifth Embodiment) In the fifth embodiment, in addition to the fourth embodiment, considering the balance of the line size and the like, when the font sizes are the same, it is determined that the fonts are written together, If the font size is large, it is difficult to imagine that it is written together. Therefore, it is considered that the line with the large font size is actually independent, and gives a point of title-likeness to it. Furthermore, the smaller the font size, the less likely it is to become the title, so the points are reduced.

【0042】図7は、実施形態5に係るタイトル抽出方
法の実行手順を示すフローチャートである。図に従って
タイトル抽出のための処理手順を説明すれば、まず、文
書入力装置(図示せず)から文書画像を入力し(S70
1)、領域識別部101により文字列領域を識別する(S70
2)。次に、識別した文字列の左右(左又は右)に文字
列の行の有無を判別し(S703)、別の行がなければ(S7
03、No)、その行にタイトルらしさのポイントを与え、
このポイントを合計することでタイトル領域を決定しタ
イトルとして抽出する(S704)。ここまでは実施例4と
同様である。次に、横に別の行があれば(S703、Ye
s)、それぞれの行のフォントサイズを測定し(S70
5)、識別した文字列の行のフォントサイズが左右の文
字列の文字のフォントサイズよりも大きければ(S706、
Yes)、その行にタイトルらしさのポイントを与え、こ
のポイントを合計することでタイトル領域を決定しタイ
トルとして抽出する(S704)。識別した文字列の行のフ
ォントサイズが横の文字列の文字のフォントサイズより
も大きくなければ(S706、No)、その行にタイトルらし
さのマイナスのポイントを与える(S707)。
FIG. 7 is a flowchart showing the execution procedure of the title extracting method according to the fifth embodiment. The processing procedure for title extraction will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S70).
1), the character string area is identified by the area identification unit 101 (S70)
2). Next, it is determined whether there is a line of the character string on the left or right (left or right) of the identified character string (S703), and if there is no other line (S7).
03, No), giving that line a title-like point,
By summing up these points, a title area is determined and extracted as a title (S704). Up to this point, the operation is the same as in the fourth embodiment. Next, if there is another line beside (S703, Ye
s) and measure the font size of each line (S70
5) If the font size of the line of the identified character string is larger than the font size of the characters of the left and right character strings (S706,
Yes), a title-like point is given to the line, and the points are summed to determine a title area and extracted as a title (S704). If the font size of the line of the identified character string is not larger than the font size of the character of the horizontal character string (S706, No), a minus point of title-likeness is given to the line (S707).

【0043】実施形態6、7、8では文字サイズの情報
を使用する。単に文字サイズが大きいものをタイトルら
しさのポイントとして追加するだけでなく、その上下の
行との文字サイズの差分を特徴として捉える。タイトル
は目立つような書き方をすることが多いので、実施形態
1と同様に前後の行とはスタイルをわざと変えて目立つ
ようにすることが多い。そのため、行間距離か文字サイ
ズのどちらかが変わることが多く、例え全体的にみてフ
ォントサイズはそれほど強調しているようなサイズでな
くても、明らかに前後の行とフォントサイズが変わって
いることが目立つような位置にはタイトルが存在するこ
とが多い。
In the sixth, seventh and eighth embodiments, information on the character size is used. In addition to simply adding a large character size as a title-like point, the difference in character size between the lines above and below it is captured as a feature. Since the title is often written in a conspicuous manner, it is often the case that the style is deliberately changed from the preceding and following lines, as in the first embodiment. Therefore, either the line spacing or the character size often changes, and even if the font size is not as large as the overall size, the font size is clearly different from the previous and next lines. There are many cases where titles exist at positions where is noticeable.

【0044】(実施形態6)図8は、実施形態6に係る
タイトル抽出方法の実行手順を示すフローチャートであ
る。図に従ってタイトル抽出のための処理手順を説明す
れば、まず、文書入力装置(図示せず)から文書画像を
入力し(S801)、領域識別部101により文字列領域を識
別する(S802)。次に、識別した文字列の横方向のおけ
る文字列の行の有無を判別し(S803)、別の行がなけれ
ば(S803、No)、その行にタイトルらしさのポイントを
与え、このポイントを合計することでタイトル領域を決
定しタイトルとして抽出する(S804)。ここまでは実施
形態4、5と同様である。 次に、左右に別の行があれ
ば(S803、Yes)、それぞれの行のフォントサイズを測
定し(S805)、抽出した文字列の行とフォントサイズが
横の行の文字のフォントサイズよりも大きく、かつ、そ
の差分が所定の値よりも大きい、つまりその差分が大き
ければ(S806、Yes)、その行にタイトルらしさのポイ
ントを与え、このポイントを合計することでタイトル領
域を決定しタイトルとして抽出する(S804)。ステップ
806で前記フォントサイズの差分が大きくなければ
(S806、No)、タイトルらしさのマイナスのポイントを
与える(S807)。
(Embodiment 6) FIG. 8 is a flowchart showing an execution procedure of a title extracting method according to Embodiment 6. The processing procedure for title extraction will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S801), and a character string area is identified by the area identification unit 101 (S802). Next, it is determined whether or not there is a line of the character string in the horizontal direction of the identified character string (S803). If there is no other line (S803, No), a point of title-likeness is given to that line, and this point is The title area is determined by summing up and extracted as a title (S804). The steps up to here are the same as in the fourth and fifth embodiments. Next, if there is another line on the left and right (S803, Yes), the font size of each line is measured (S805), and the line of the extracted character string and the font size are larger than the font size of the character on the horizontal line. If the difference is larger and the difference is larger than a predetermined value, that is, if the difference is larger (S806, Yes), a title-like point is given to the line, and the points are summed to determine a title area and the title area is determined. It is extracted (S804). If the difference between the font sizes is not large in step 806 (S806, No), a minus point of title-likeness is given (S807).

【0045】(実施形態7)実施形態7は、実施形態6
のタイトル抽出方法において、行を上から下にみていっ
た場合に、文字サイズが小さくなるように変化している
行に対して、タイトルらしさのポイントにマイナスのポ
イントを与え、その上の行にタイトルらしさのポイント
を与えることを特徴とするタイトル抽出方法である。図
9は、実施形態7に係るタイトル抽出方法の実行手順を
示すフローチャートである。図に従って本タイトル抽出
のための処理手順を説明すれば、まず、文書入力装置
(図示せず)から文書画像を入力し(S901)、領域識別
部101により文字列領域を識別する(S902)。次に、識
別した文字列領域の文字サイズを測定し(S903)、抽出
した行の文字列の文字が上の行の文字列の文字サイズよ
りも小さいときは(S904、Yes)、その行にタイトルら
しさのマイナスのポイントを与え(加算し)(S905)、
上の行にタイトルらしさのポイントを与え、このポイン
トを合計することでタイトル領域を決定しタイトルとし
て抽出する(S906)。
(Embodiment 7) Embodiment 7 is different from Embodiment 6
In the title extraction method of, when the line is viewed from the top to the bottom, for a line that changes so that the character size becomes smaller, a minus point is given to the point of title-likeness, and the line above it is given This is a title extraction method characterized by giving a point of title-likeness. FIG. 9 is a flowchart illustrating an execution procedure of the title extracting method according to the seventh embodiment. The processing procedure for extracting the main title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S901), and a character string area is identified by the area identification unit 101 (S902). Next, the character size of the identified character string area is measured (S903), and if the character of the character string in the extracted line is smaller than the character size of the character string in the upper line (S904, Yes), Giving (adding) negative points of title-likeness (S905),
A title-like point is given to the upper line, and a title area is determined by adding up the points, and is extracted as a title (S906).

【0046】(実施形態8)実施形態8は、実施形態6
に記載されたタイトル抽出方法において、行を上から下
に見ていった場合に、文字サイズが大きくなるように変
化している行に対して、タイトルらしさのポイントを与
え、その上の行にタイトルらしさのポイントにマイナス
のポイントを与える。図10は、実施形態8に係るタイ
トル抽出方法の実行手順を示すフローチャートである。
図に従って本タイトル抽出のための処理手順を説明すれ
ば、まず、文書入力装置(図示せず)から文書画像を入
力し(S1001)、領域識別部101により文字列領域を識別
する(S1002)。次に、識別した文字列領域の文字サイ
ズを測定し(S1003)、抽出した行の文字列の文字が上
の行の文字列の文字サイズよりも大きいときは(S100
4、Yes)、その行にタイトルらしさのポイントを与え、
このポイントを合計することでタイトル領域を決定しタ
イトルとして抽出し(S1005)、かつ上の行にタイトル
らしさのマイナスのポイントを与える(S1006)。
(Embodiment 8) The embodiment 8 is similar to the embodiment 6
In the title extraction method described in, when looking at the line from top to bottom, give a point of title-likeness to the line that changes so that the character size increases, and give the line above it Give the points of title-like a minus point. FIG. 10 is a flowchart illustrating an execution procedure of the title extracting method according to the eighth embodiment.
The processing procedure for extracting the title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1001), and a character string area is identified by the area identification unit 101 (S1002). Next, the character size of the identified character string area is measured (S1003), and if the character of the character string in the extracted line is larger than the character size of the character string in the upper line (S1003).
4, Yes), give the line a point of title-likeness,
By summing up these points, a title area is determined and extracted as a title (S1005), and a minus point of title-likeness is given to the upper line (S1006).

【0047】(実施形態9)請求項9は文字間の空白部
分が占める割合が大きく、文字が等間隔に現れている特
徴がある場所にタイトルらしさのポイントを与える処理
である。図11は、実施形態9に係るタイトル抽出方法
の実行手順を示すフローチャートである。図に従って本
タイトル抽出のための処理手順を説明すれば、まず、文
書入力装置(図示せず)から文書画像を入力し(S110
1)、領域識別部101により文字列領域を識別する(S110
2)。次に、識別された文字列の文字間のスペースを測
定し(S1103)、対象とする行の文字間のスペースが他
の行の文字間スペースよりも大きく等間隔であれば(S1
104、Yes)、その行にタイトルらしさのポイントを与
え、このポイントを合計することでタイトル領域を決定
しタイトルとして抽出する(S1105)。
(Embodiment 9) A ninth aspect is a process of giving a point of a title-like character to a place where a space occupied by characters has a large proportion and characters appear at equal intervals. FIG. 11 is a flowchart illustrating an execution procedure of the title extracting method according to the ninth embodiment. The processing procedure for extracting the title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S110).
1), a character string area is identified by the area identification unit 101 (S110)
2). Next, the space between the characters of the identified character string is measured (S1103), and if the space between the characters of the target line is larger than the space between the characters of the other lines at equal intervals (S1103).
104, Yes), a title-like point is given to the line, and the points are summed to determine a title area and extracted as a title (S1105).

【0048】(実施形態10)実施形態10は、アンダ
ーライン以外のレイアウト的特徴として、囲み枠で囲ま
れている部分にタイトルが多いことを利用したタイトル
抽出方法である。図12は、実施形態10に係るタイト
ル抽出方法の実行手順を示すフローチャートである。図
に従って本タイトル抽出のための処理手順を説明すれ
ば、まず、文書入力装置(図示せず)から文書画像を入
力し(S1201)、領域識別部101により文字列領域を識別
する(S1202)。次に、識別された文字列が枠で囲まれ
ていれば(S1203、Yes)、その行にタイトルらしさのポ
イントを与え、このポイントを合計することでタイトル
領域を決定しタイトルとして抽出する(S1204)。
(Embodiment 10) The embodiment 10 is a title extracting method utilizing the fact that there are many titles in a portion surrounded by an enclosing frame as a layout feature other than the underline. FIG. 12 is a flowchart illustrating an execution procedure of the title extracting method according to the tenth embodiment. The processing procedure for extracting the title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1201), and a character string area is identified by the area identification unit 101 (S1202). Next, if the identified character string is surrounded by a frame (S1203, Yes), a title-like point is given to the line, and the points are summed to determine a title area and extracted as a title (S1204). ).

【0049】(実施形態11)実施形態11は実施形態
10のタイトル抽出処理で、文書全体が枠に囲まれてい
るような場合は、枠の情報は役に立たないので、その場
合にはリセットしてやり直すようにしたタイトル抽出方
法である。図13は、実施形態11に係るタイトル抽出
方法の実行手順を示すフローチャートである。図に従っ
て本タイトル抽出のための処理手順を説明すれば、ま
ず、文書入力装置(図示せず)から文書画像を入力し
(S1301)、領域識別部101により文字列領域を識別する
(S1302)。次に、識別された文字列が枠で囲まれてい
れば(S1303、Yes)、その枠内に文字領域が複数存在す
るか否かを判別し(S1304)、複数存在していない場合
には(S1304、No)、対象とする行にタイトルらしさの
ポイントを与え、このポイントを合計することでタイト
ル領域を決定しタイトルとして抽出する(S1304)。枠
内に文字領域が複数存在する場合は(S1304、Yes)、そ
の他の処理、ここでは枠に実施形態10における枠に囲
まれているとする処理を無効化(リセット)する。つま
り、枠はないものとして処理する。
(Eleventh Embodiment) In the eleventh embodiment, in the title extraction processing of the tenth embodiment, if the entire document is surrounded by a frame, the information on the frame is useless. This is a title extraction method that starts over. FIG. 13 is a flowchart illustrating an execution procedure of the title extracting method according to the eleventh embodiment. The processing procedure for extracting the main title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1301), and a character string area is identified by the area identification unit 101 (S1302). Next, if the identified character string is surrounded by a frame (S1303, Yes), it is determined whether or not a plurality of character areas exist in the frame (S1304). (S1304, No), a title-like point is given to the target line, and the points are summed to determine a title area and extracted as a title (S1304). If there are a plurality of character areas in the frame (S1304, Yes), the other processing, in this case, the processing in which the frame is surrounded by the frame in the tenth embodiment is invalidated (reset). That is, processing is performed assuming that there is no frame.

【0050】(実施形態12)実施形態12はアンダー
ライン以外のレイアウト的特徴として、網掛けされてい
る行にタイトルが多いことを利用したタイトル抽出方法
である。特に日本の文書では、強調に網掛けを使うこと
が多く、非常に有効である。図14は、実施形態12に
係るタイトル抽出方法の実行手順を示すフローチャート
である。図に従って本タイトル抽出のための処理手順を
説明すれば、まず、文書入力装置(図示せず)から文書
画像を入力し(S1401)、領域識別部101により文字列領
域を識別する(S1402)。次に、識別された文字列が編
掛けされているか否かを判別し(S1403)、網掛けされ
ていれば(S1403Yes)、対象とする行にタイトルらしさの
ポイントを与え、このポイントを合計することでタイト
ル領域を決定しタイトルとして抽出する(S1404)。
(Twelfth Embodiment) A twelfth embodiment is a title extracting method utilizing the fact that there are many titles in a shaded line as a layout feature other than the underline. Especially in Japanese documents, shading is often used for emphasis, which is very effective. FIG. 14 is a flowchart illustrating an execution procedure of the title extracting method according to the twelfth embodiment. The processing procedure for extracting the title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1401), and a character string area is identified by the area identification unit 101 (S1402). Next, it is determined whether or not the identified character string is woven (S1403). If the character string is shaded (S1403Yes), a title-like point is given to the target line, and the points are totaled. Thus, a title area is determined and extracted as a title (S1404).

【0051】(実施形態13)実施形態13は文字数が
少なく、かつセンタリングされているような行が文中に
存在していたら、それは通達などの「記」と書かれてい
るような行のことであり、それより上にタイトルが書か
れていることが通常であることから、それより下にある
行にタイトルらしさのマイナスポイントを与えることを
特徴とするタイトル抽出方法である。図15は、実施形
態13に係るタイトル抽出方法の実行手順を示すフロー
チャートである。図に従って本タイトル抽出のための処
理手順を説明すれば、まず、文書入力装置(図示せず)
から文書画像を入力し(S1501)、領域識別部101により
文字列領域を識別する(S1502)。次に、識別された文
字列の行の文字数を測定し(S1503)、対象とする行の
文字数が他の行よりも少なくかつセンタリングされてい
るか否かを判別し(S1504)、文字数がすくなくセンタ
リングされた行であれば(S1503Yes)、その対象とする行
にタイトルらしさのポイントを与え、このポイントを合
計することでタイトル領域を決定しタイトルとして抽出
する(S1505)。
(Thirteenth Embodiment) In the thirteenth embodiment, if a line having a small number of characters and being centered is present in a sentence, it is a line such as a letter such as a letter written in a notice. This is a title extraction method characterized by giving a minus point of the title-likeness to a line below it, since a title is usually written above it. FIG. 15 is a flowchart illustrating an execution procedure of the title extracting method according to the thirteenth embodiment. The processing procedure for extracting the title will be described with reference to the figure. First, a document input device (not shown)
, A document image is input (S1501), and a character string area is identified by the area identification unit 101 (S1502). Next, the number of characters in the line of the identified character string is measured (S1503), and it is determined whether the number of characters in the target line is smaller and centered than in the other lines (S1504). If it is a line that has been set (S1503 Yes), a title-like point is given to the target line, and the points are summed to determine a title area and extracted as a title (S1505).

【0052】(実施形態14)実施形態14では実施形
態13とは異なり、実際に「記」などの文の切れ目とし
て特徴のある単語を特定語の辞書として格納しておき、
特定の文字のみで構成される行を境としてタイトルらし
さのポイントを変えることを特徴とする。例えば文末の
「殿」などの語も、それ自体がタイトルにはなりにくい
という例としてあげられる。文書を検索して、そのよう
なキーワードとなる語を収集して、データベースとして
保存して精度を高めることが可能である。
(Embodiment 14) In Embodiment 14, unlike Embodiment 13, a word having a characteristic as a break between sentences such as "" is stored as a dictionary of specific words.
It is characterized in that the point of the title-likeness is changed with a line composed of only specific characters as a boundary. For example, words such as "dono" at the end of the sentence are examples of cases in which it is difficult to become a title in itself. It is possible to search for documents, collect such keywords, and save them as a database to improve accuracy.

【0053】図16は、実施形態14に係るタイトル抽
出方法の実行手順を示すフローチャートである。図に従
って本タイトル抽出のための処理手順を説明すれば、ま
ず、文書入力装置(図示せず)から文書画像を入力し
(S1601)、領域識別部101により文字列領域を識別する
(S1602)。次に、抽出された文字列が特定語辞書に登
録された特殊な文字のみで構成されているか否か判別し
(S1603)、特定の文字のみで構成されていれば(S160
3、Yes)、その行を境に上の行と下の行で別のタイトル
らしさのポイン与える(S1604)。
FIG. 16 is a flowchart showing an execution procedure of the title extracting method according to the fourteenth embodiment. The processing procedure for extracting the main title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1601), and a character string area is identified by the area identification unit 101 (S1602). Next, it is determined whether or not the extracted character string is composed only of special characters registered in the specific word dictionary (S1603), and if it is composed only of specific characters (S1603).
(3, Yes), giving a different title-like point to the upper and lower lines with that line as a boundary (S1604).

【0054】以上本発明のタイトル抽出方法の実施形態
について説明したが、前記各方法を実行する一連の手順
をコンピュータプログラムとして記述し、かつ、このプ
ログラムをフレキシブルディスク、CD−ROM、DVD-ROM、
MO等の任意の記録媒体に記録し、これを任意のコンピュ
ータに読み取らせることで文書画像のタイトル抽出装置
を構成し、入力された文書画像からタイトルを自動的に
抽出する本発明の方法を容易に実施することができる。
本プログラムは、記録媒体に記録する以外に、インター
ネット、イントラネット等の任意のネットワークを介し
て、コンピュータに直接読み取らせることも勿論可能で
ある。
The embodiment of the title extracting method according to the present invention has been described above. A series of procedures for executing each of the above methods is described as a computer program, and this program is written on a flexible disk, CD-ROM, DVD-ROM,
A method for extracting a title from an input document image by automatically recording a title on an input document image by configuring a title extracting device for a document image by recording the image on an arbitrary recording medium such as an MO and reading the same by an arbitrary computer. Can be implemented.
In addition to recording this program on a recording medium, it is of course possible for a computer to directly read the program via an arbitrary network such as the Internet or an intranet.

【0055】[0055]

【発明の効果】請求項1乃至14に対応する効果:ポイ
ント数の多い文字列領域をタイトルとして精度よく自動
抽出することができ、かつタイトル抽出が的確におこな
われるため、抽出されたタイトルを用いた文書検索時の
利便性を向上させることができる。請求項15、16に
対応する効果:任意のコンピュータに読み取らせること
により、入力された文書画像からタイトルを抽出する処
理を容易に行うことができる。請求項17に対応する効
果:入力された文書画像からタイトルを抽出する処理を
容易に実施することができる。
According to the first to fourteenth aspects, a character string area having a large number of points can be automatically extracted as a title with high accuracy, and the title can be accurately extracted. The convenience at the time of searching for a document can be improved. Effects corresponding to Claims 15 and 16: By allowing any computer to read, it is possible to easily perform a process of extracting a title from an input document image. Effect corresponding to claim 17: A process of extracting a title from an input document image can be easily performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 タイトル抽出処理を行うシステム構成例のブ
ロック図である。
FIG. 1 is a block diagram illustrating an example of a system configuration for performing a title extraction process.

【図2】 タイトル抽出処理に用いられるタイトルらし
さのポイントのうち、二次的に求められるタイトルらし
さを示す図である。
FIG. 2 is a diagram showing a title likelihood that is secondarily obtained among points of the title likeness used in the title extraction process.

【図3】 本発明のタイトル抽出方法の第1の実施の形
態に係るフローチャートである。
FIG. 3 is a flowchart according to a first embodiment of the title extracting method of the present invention.

【図4】 本発明のタイトル抽出方法の第2の実施の形
態に係るフローチャートである。
FIG. 4 is a flowchart according to a second embodiment of the title extracting method of the present invention.

【図5】 本発明のタイトル抽出方法の第3実施の形態
に係るフローチャートである。
FIG. 5 is a flowchart according to a third embodiment of the title extracting method of the present invention.

【図6】 本発明のタイトル抽出方法の第4の実施の形
態に係るフローチャートである。
FIG. 6 is a flowchart according to a fourth embodiment of the title extracting method of the present invention.

【図7】 本発明のタイトル抽出方法の第5の実施の形
態に係るフローチャートである。
FIG. 7 is a flowchart according to a fifth embodiment of the title extracting method of the present invention.

【図8】 本発明のタイトル抽出方法の第6の実施の形
態に係るフローチャートである。
FIG. 8 is a flowchart according to a sixth embodiment of the title extracting method of the present invention.

【図9】 本発明のタイトル抽出方法の第7の実施の形
態に係るフローチャートである。
FIG. 9 is a flowchart according to a seventh embodiment of the title extracting method of the present invention.

【図10】 本発明のタイトル抽出方法の第8の実施の
形態に係るフローチャートである。
FIG. 10 is a flowchart according to an eighth embodiment of the title extracting method of the present invention.

【図11】 本発明のタイトル抽出方法の第9の実施の
形態に係るフローチャートである。
FIG. 11 is a flowchart according to a ninth embodiment of the title extracting method of the present invention.

【図12】 本発明のタイトル抽出方法の第10の実施
の形態に係るフローチャートである。
FIG. 12 is a flowchart according to a tenth embodiment of the title extracting method of the present invention.

【図13】 本発明のタイトル抽出方法の第11の実施
の形態に係るフローチャートである。
FIG. 13 is a flowchart according to an eleventh embodiment of the title extracting method of the present invention.

【図14】 本発明のタイトル抽出方法の第12の実施
の形態に係るフローチャートである。
FIG. 14 is a flowchart according to a twelfth embodiment of the title extraction method of the present invention.

【図15】 本発明のタイトル抽出方法の第13の実施
の形態に係るフローチャートである。
FIG. 15 is a flowchart according to a thirteenth embodiment of the title extraction method of the present invention.

【図16】 本発明のタイトル抽出方法の第14の実施
の形態に係るフローチャートである。
FIG. 16 is a flowchart according to a fourteenth embodiment of the title extraction method of the present invention.

【符号の説明】[Explanation of symbols]

101…領域識別部、102…文字識別部、103…フ
ォント識別部、104…自然言語識別部、105…ポイ
ント付部、106…特定語辞典
101: area identification unit, 102: character identification unit, 103: font identification unit, 104: natural language identification unit, 105: point attaching unit, 106: specific word dictionary

───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B050 AA10 BA10 BA16 EA03 EA04 5B064 AA01 AB19 BA01 CA08 EA27 EA28 EA32 5B075 ND07 NK04 NK07 NK31 PP04 PR06 QM08  ──────────────────────────────────────────────────続 き Continued on the front page F term (reference) 5B050 AA10 BA10 BA16 EA03 EA04 5B064 AA01 AB19 BA01 CA08 EA27 EA28 EA32 5B075 ND07 NK04 NK07 NK31 PP04 PR06 QM08

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】 文書画像から文字列領域を矩形で切出
し、その文字列領域の属性に基づいてタイトルらしさの
ポイントを加算してタイトルを抽出する方法において、 対象とする行の前及び/又は後の行間距離を測定し、測
定した行間距離と所定の値とを比較し、所定の値よりも
大きい文字行に対してタイトルらしさのポイントを与え
る、各工程からなることを特徴とするタイトル抽出方
法。
1. A method for extracting a title by extracting a character string region from a document image in a rectangle and adding a point of a title likeness based on an attribute of the character string region, and before and / or after a target line. A title extraction method comprising: measuring a line spacing of a character line, comparing the measured line spacing with a predetermined value, and giving a point of title-likeness to a character line larger than the predetermined value. .
【請求項2】 請求項1に記載されたタイトル抽出方法
において、 前記文字列領域内の文字行の文字を認識し、文字認識結
果の確信度が所定の値より低いか否かを判定し、低い場
合に前記文字行にマイナスのタイトルらしさのポイント
を与える、各工程からなることを特徴とするタイトル抽
出方法。
2. The title extraction method according to claim 1, wherein a character of a character line in the character string area is recognized, and it is determined whether or not the degree of certainty of the character recognition result is lower than a predetermined value. A title extracting method, comprising: giving each character line a negative title-like point when the character line is low.
【請求項3】 請求項1に記載されたタイトル抽出方法
において、 文書中のセンタリング位置を求め、対象とする行がセン
タリング位置か否かを判定し、センタリング位置にある
と判定したとき、さらに抽出された文字領域部分を基準
としたセンタリング位置を判定し、前記対象とする行が
該文字領域部分を基準としたセンタリング位置にあると
判定したとき、該文字行にタイトルらしさのポイントを
与える、各工程からなることを特徴とするタイトル抽出
方法。
3. The title extracting method according to claim 1, wherein a centering position in the document is obtained, and it is determined whether or not the target line is at the centering position. Determining a centering position based on the character region portion, and determining that the target line is at the centering position based on the character region portion, giving a point of title-likeness to the character line. Title extracting method characterized by comprising steps.
【請求項4】 請求項1に記載されたタイトル抽出方法
において、 対象とする行の横に別の行が存在するか否か判定し、別
の行が存在していると判定したときマイナスのタイトル
らしさのポイントを与える、各工程からなることを特徴
とするタイトル抽出方法。
4. The title extracting method according to claim 1, wherein it is determined whether or not another line exists next to the target line, and when it is determined that another line exists, a minus is determined. A title extraction method comprising the steps of giving title-like points.
【請求項5】 請求項4に記載されたタイトル抽出方法
において、 対象とする行の横に別の行が存在すると判定したとき、
対象とする行と前記別の行の文字サイズに差があるか否
か判定し、サイズに差があると判定したとき、文字サイ
ズが小さい行にはマイナスのタイトルらしさのポイント
を与え、文字サイズが大きい行にはタイトルらしさのポ
イントを与える、各工程からなることを特徴とするタイ
トル抽出方法。
5. The title extracting method according to claim 4, wherein when it is determined that another line exists next to the target line,
It is determined whether there is a difference in the character size between the target line and the another line, and when it is determined that there is a difference in the size, a line having a small character size is given a point of negative title likeness, and the character size is changed. A title extraction method comprising the steps of: giving a point of title-likeness to a line having a large size.
【請求項6】 請求項1に記載されたタイトル抽出方法
において、 対象とする行の前後の行との文字サイズの差分を測定
し、文字サイズの差分が所定値を越えているか否かを判
定し、越えていると判定したとき、対象とする行にタイ
トルらしさのポイントを与える、各工程からなることを
特徴とするタイトル抽出方法。
6. The title extracting method according to claim 1, wherein a difference in character size between a line before and after the target line is measured, and it is determined whether or not the difference in character size exceeds a predetermined value. And a step of giving the point of the title likeness to the target line when it is determined that the title is exceeded, comprising the steps of:
【請求項7】 請求項6に記載されたタイトル抽出方法
において、行を上から下にみて、文字サイズが小さくな
るように変化しいているか否か判定し、文字サイズが小
さくなるように変化しいている行に対して、マイナスの
タイトルらしさのポイントを与え、その上の行にタイト
ルらしさのポイントを与える、各工程からなることを特
徴とするタイトル抽出方法。
7. The title extracting method according to claim 6, wherein the line is viewed from top to bottom, and it is determined whether or not the character size is changed so as to be reduced. A title extracting method, comprising: giving a negative title-like point to a current line, and giving a title-like point to a line above the negative line.
【請求項8】 請求項6に記載されたタイトル抽出方法
において、行を上から下にみて、文字サイズが大きくな
るように変化しいているか否か判定し、文字サイズが大
きくなるように変化しいていると判定された行に対して
タイトルらしさのポイントを与え、その上の行にマイナ
スのタイトルらしさのポイントを与える、各工程からな
ることことを特徴とするタイトル抽出方法。
8. The title extracting method according to claim 6, wherein the line is viewed from top to bottom, and it is determined whether or not the character size is changed so as to increase, and the character size is changed so as to increase. A title extraction method comprising: giving a title-like point to a line determined to be present; and giving a minus title-like point to a line above the title extraction method.
【請求項9】 文書画像から文字列領域を矩形で切出
し、その文字列領域の属性に基づいてタイトルらしさの
ポイントを加算してタイトルを抽出する方法において、 文字間のスペースが他の行より大きく、しかも等間隔に
現れているか否かを判定し、スペースが他のより大き
く、しかも等間隔に現れていると判定された行に対して
タイトルらしさのポイントを与える、各工程からなるこ
とを特徴とするタイトル抽出方法。
9. A method of extracting a title by extracting a character string region from a document image by a rectangle and adding a point of a title likeness based on the attribute of the character string region, wherein a space between characters is larger than other lines. And determining whether or not the lines appear at equal intervals, and giving points of title-likeness to the lines determined to have larger spaces and appearing at equal intervals. Title extraction method.
【請求項10】 文書画像から文字列領域を矩形で切出
し、その文字列領域の属性に基づいてタイトルらしさの
ポイント加算して、タイトルを抽出する方法において、 対象とする行が枠で囲まれているか否かを判定し、枠に
囲まれていると判定したときは、前記対象とする行に対
して、タイトルらしさのポイントを与える各工程からな
ることを特徴とするタイトル抽出方法。
10. A method of extracting a title by extracting a character string area from a document image in a rectangle and adding a point of a title likeness based on the attribute of the character string area, wherein a target line is surrounded by a frame. A title extraction method comprising the steps of: giving a point of title-likeness to the target line if it is determined whether the line is surrounded by a frame.
【請求項11】 請求項10に記載されたタイトル抽出
方法において、 前記枠の中に文字領域が複数存在するか否か判定し、複
数存在すると判定したときは、枠に囲まれているとの判
定を無効とする各工程からなるタイトル抽出方法。
11. The title extracting method according to claim 10, wherein it is determined whether or not a plurality of character areas exist in the frame, and when it is determined that a plurality of character areas exist, it is determined that the character area is surrounded by the frame. A title extraction method including steps for invalidating the judgment.
【請求項12】 文書画像から文字列領域を矩形で切出
し、その文字列領域の属性に基づいてタイトルらしさの
ポイントを加算してタイトルを抽出する方法において、 対象とする行が網掛けされているか否かを判定し、網掛
けされていると判定された行にタイトルらしさのポイン
トを与える各工程からなることを特徴とするタイトル抽
出方法。
12. A method for extracting a title by extracting a character string region from a document image in a rectangle and adding a point of a title likeness based on the attribute of the character string region, wherein a target line is shaded. A title extraction method comprising: determining whether or not a line is shaded and giving a title-like point to a line determined to be shaded.
【請求項13】 文書画像から文字列領域を矩形で切出
し、その文字列領域の属性に基づいてタイトルらしさの
ポイント加算して、タイトルを抽出する方法において、 対象とする行が他の行より文字数が少なく、かつ、セン
タリングされているか否かを判定し、他の行より文字数
が少なく、かつ、センタリングされていると判定したと
き、該行を基準にして、それより下の行にタイトルらし
さのマイナスのポイントを与える各工程からなることを
特徴とするタイトル抽出方法。
13. A method for extracting a title by extracting a character string region in a rectangle from a document image and adding a point of a title likeness based on the attribute of the character string region, wherein the target line is the number of characters from other lines. Is determined and whether or not it is centered, and when it is determined that the number of characters is smaller than that of the other lines and that it is centered, the title likeness is placed in a line below the line based on the line. A title extraction method comprising the steps of giving a negative point.
【請求項14】 文書画像から文字列領域を矩形で切出
し、その文字列領域の属性に基づいてタイトルらしさの
ポイントを加算して、タイトルを抽出する方法におい
て、 内部に存在する特定語辞書と比較することで、対象とす
る行が特定の文字のみで構成されるか否かを判定し、特
定文字のみで構成されていると判定したときは、その行
を基準にして、その行より上の行と下の行にタイトルら
しさのポイントを別に与える各工程からなることを特徴
とするタイトル抽出方法。
14. A method for extracting a title by extracting a character string area from a document image in a rectangular shape, adding a point of a title likeness based on the attribute of the character string area, and comparing with a specific word dictionary existing in the method. By doing so, it is determined whether or not the target line is composed of only specific characters, and when it is determined that the target line is composed of only specific characters, the line above the line is determined based on that line. A title extraction method comprising: a step of separately giving a title-like point to a line and a line below the line.
【請求項15】 請求項1乃至14のいずれかに記載さ
れた方法をコンピュータで実行するためのプログラム。
15. A program for executing the method according to claim 1 on a computer.
【請求項16】 請求項15に記載されたプログラムを
記録したコンピュータ読み取り可能な記録媒体。
16. A computer-readable recording medium on which the program according to claim 15 is recorded.
【請求項17】 請求項15に記載されたプログラムを
搭載したタイトル抽出装置。
17. A title extracting device equipped with the program according to claim 15.
JP2001094790A 2001-03-29 2001-03-29 Method for extracting title from document image Pending JP2002297638A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001094790A JP2002297638A (en) 2001-03-29 2001-03-29 Method for extracting title from document image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001094790A JP2002297638A (en) 2001-03-29 2001-03-29 Method for extracting title from document image

Publications (1)

Publication Number Publication Date
JP2002297638A true JP2002297638A (en) 2002-10-11

Family

ID=18948936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001094790A Pending JP2002297638A (en) 2001-03-29 2001-03-29 Method for extracting title from document image

Country Status (1)

Country Link
JP (1) JP2002297638A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120097A (en) * 2004-10-25 2006-05-11 Ricoh Co Ltd Positioning system, positioning method, program and recording medium
JP2010244412A (en) * 2009-04-08 2010-10-28 Konica Minolta Business Technologies Inc Apparatus, method and program for processing document
JP2011065255A (en) * 2009-09-15 2011-03-31 Sharp Corp Data processing apparatus, data name generation method and computer program
JP2015072637A (en) * 2013-10-03 2015-04-16 富士通株式会社 Program, information processing device, and information processing method
JP2015200957A (en) * 2014-04-04 2015-11-12 株式会社リコー Image processing apparatus, image processing method, and image processing program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120097A (en) * 2004-10-25 2006-05-11 Ricoh Co Ltd Positioning system, positioning method, program and recording medium
JP4614320B2 (en) * 2004-10-25 2011-01-19 株式会社リコー Alignment apparatus, alignment method, program, and recording medium
JP2010244412A (en) * 2009-04-08 2010-10-28 Konica Minolta Business Technologies Inc Apparatus, method and program for processing document
JP2011065255A (en) * 2009-09-15 2011-03-31 Sharp Corp Data processing apparatus, data name generation method and computer program
JP2015072637A (en) * 2013-10-03 2015-04-16 富士通株式会社 Program, information processing device, and information processing method
JP2015200957A (en) * 2014-04-04 2015-11-12 株式会社リコー Image processing apparatus, image processing method, and image processing program

Similar Documents

Publication Publication Date Title
JP4856925B2 (en) Image processing apparatus, image processing method, and image processing program
JP4785655B2 (en) Document processing apparatus and document processing method
JP5663866B2 (en) Information processing apparatus and information processing program
JP2004348591A (en) Document search method and device thereof
JP5508359B2 (en) Character recognition device, character recognition method and program
JPH1125113A (en) Image retrieving device, generating method for key text for image retrieval, program for functioning computer as device therefor, and computer readable record medium recording program for executing method with computer
JP2009193356A (en) Image processing apparatus, image processing method, program, and storage medium
JP2007122403A (en) Device, method, and program for automatically extracting document title and relevant information
US9049400B2 (en) Image processing apparatus, and image processing method and program
JP2008040753A (en) Image processor and method, program and recording medium
JPH11184894A (en) Method for extracting logical element and record medium
JP2008129793A (en) Document processing system, apparatus and method, and recording medium with program recorded thereon
JP2007310501A (en) Information processor, its control method, and program
KR101118628B1 (en) Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool
CN113343658A (en) PDF file information extraction method and device and computer equipment
JP2002297638A (en) Method for extracting title from document image
JP2005107931A (en) Image search apparatus
JP2004334341A (en) Document retrieval system, document retrieval method, and recording medium
JP2000148788A (en) Device and method for extracting title area from document image and document retrieving method
JP4628278B2 (en) Table recognition apparatus and computer program
JP2007018158A (en) Character processor, character processing method, and recording medium
JPH07282193A (en) Processor for form including table
JP3870672B2 (en) Document filing device
JP2000137728A (en) Document analyzing device and program recording medium
JP4013539B2 (en) Digital content creation system, digital content creation program, and digital content creation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080711