JPH08180131A - Image processing method - Google Patents

Image processing method

Info

Publication number
JPH08180131A
JPH08180131A JP6318285A JP31828594A JPH08180131A JP H08180131 A JPH08180131 A JP H08180131A JP 6318285 A JP6318285 A JP 6318285A JP 31828594 A JP31828594 A JP 31828594A JP H08180131 A JPH08180131 A JP H08180131A
Authority
JP
Japan
Prior art keywords
character
image processing
processing method
character area
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6318285A
Other languages
Japanese (ja)
Inventor
Tadanori Nakatsuka
忠則 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP6318285A priority Critical patent/JPH08180131A/en
Priority to US08/558,184 priority patent/US5689342A/en
Publication of JPH08180131A publication Critical patent/JPH08180131A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE: To save the trouble of correction, etc., by giving read order to character areas by using the continuity of the character areas found by analyzing images of characters or documents in the character areas when it is judged whether or not the character areas are continuous. CONSTITUTION: To check the continuity of the character areas 21 and 22, the two areas are taken out and while the character area 21 is regarded as a basic character area, the character area 22 is regarded as a compared character area. When the basic character area is determined, plural character areas extracted from an input image are determined in order from an area which is close to the start point that is the right upper point of each character area where a document is longitudinally written or the left upper point when the document is laterally written. The continuity of a candidate character area of the compared character area B is judged and when it is judged that only one character area is continuous, the character area is decided as an area succeeding to the basic character area, but when there are plural continuous areas, the area having the maximum continuity is determined as a succeeding area.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、OCR(光学的文字認
識)装置、複写機、ファクシミリ、DTP(デスクトッ
プパブリッシング)等の電子装置において、入力画像の
領域単位に解析する画像処理方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image processing method for analyzing an input image in a region unit in an electronic device such as an OCR (optical character recognition) device, a copying machine, a facsimile, and a DTP (desktop publishing). is there.

【0002】[0002]

【従来の技術】従来の入力画像から文字領域を抽出し、
各文字領域に対する順序付け方法として、各文字領域が
縦書きの場合は右から左方向に順序を付け、更に文字領
域が上下方向にも複数存在する場合には左右方向に順序
付けした後上から下方向に順序を付けていくもの等、各
文字領域の相対位置から順序付けを行う方法がある。
2. Description of the Related Art A character area is extracted from a conventional input image,
As an ordering method for each character area, if each character area is written vertically, order from right to left, and if there are multiple character areas in the vertical direction as well, order them horizontally and then from top to bottom. There is a method of ordering from the relative position of each character area, such as ordering.

【0003】[0003]

【発明が解決しようとしている課題】しかしながら、上
述の従来技術では新聞記事など、原稿の中に複数の記事
が存在し、隣り合う文字領域が異なる記事に属し、互い
に連続するものではない場合や図2の例のように領域2
1、22と領域23、24の間に文字以外の領域が存在
して仕切りとなり、各文字領域の位置からでは21、2
2、23、24の順番なのか、21、23、22、24
の順番なのか区別できない場合に、各領域を読む順とし
ての正しい読み順を付けることができず、処理装置の決
定した順番は修正などが必要となるという問題点があっ
た。
However, in the above-mentioned prior art, when there are a plurality of articles in the manuscript, such as newspaper articles, and adjacent character areas belong to different articles and are not continuous with each other, Area 2 as in example 2
Areas other than characters exist between areas 1 and 22 and areas 23 and 24 to form a partition, and from the position of each character area, 21, 2
2, 23, 24 or 21, 23, 22, 24?
When it is not possible to distinguish whether or not it is the order, there is a problem that the correct reading order cannot be added as the reading order of each area, and the order determined by the processing device needs to be corrected.

【0004】本発明の目的は、原稿の中に新聞記事な
ど、複数の記事が存在する場合や図2の例のように位置
からでは21、22、23、24の順番なのか、21、
23、22、24の順番なのか区別できず、正しい順番
を付けることができない場合でも、正しい読み順序を付
け、修正の手間を減らすことにある。
The purpose of the present invention is to determine whether there are a plurality of articles such as newspaper articles in a manuscript, or if the order is 21, 22, 23, 24 from the position as in the example of FIG.
Even if the order of 23, 22, and 24 cannot be distinguished and the correct order cannot be added, the correct reading order is added to reduce the trouble of correction.

【0005】[0005]

【課題を解決するための手段】上述の課題を解決するた
めに、本発明は原稿画像を記憶し、前記原稿画像に存在
する少なくとも二つの文字領域に係る領域情報を格納
し、前記文字領域の内、二つの文字領域に含まれる文章
が連続するものであるか否かを判断する画像処理方法を
提供する。
In order to solve the above-mentioned problems, the present invention stores a document image, stores region information relating to at least two character regions existing in the document image, and stores the region information of the character region. Provided is an image processing method for determining whether or not sentences included in two character areas are continuous.

【0006】上述の課題を解決するために、本発明は好
ましくは前記文章が連続するか否かの判断は、当該二つ
の文字領域に含まれる文章を解析して判断する。
In order to solve the above-mentioned problems, the present invention preferably determines whether or not the sentences are continuous by analyzing the sentences included in the two character areas.

【0007】上述の課題を解決するために、本発明は好
ましくは前記格納した文字領域に係る領域情報は、前記
記憶した原稿画像を領域分離して抽出したものとする。
In order to solve the above-mentioned problems, the present invention is preferably arranged such that the area information relating to the stored character area is extracted by separating the stored original image into areas.

【0008】上述の課題を解決するために、本発明は好
ましくは前記文字領域に含まれる文章の解析は、当該文
字領域に含まれる画像情報を文字認識して求めた文字に
関して解析する。
In order to solve the above-mentioned problems, the present invention preferably analyzes the sentence included in the character area with respect to a character obtained by character recognition of image information included in the character area.

【0009】上述の課題を解決するために、本発明は好
ましくは前記二つの文字領域に含まれる文章が連続する
ものであるか否かの判断は、連続性の指標により決定す
る。
In order to solve the above-mentioned problems, the present invention preferably determines whether or not the sentences included in the two character areas are continuous by determining the continuity index.

【0010】上述の課題を解決するために、本発明は好
ましくは前記連続性の指標は、文字領域の最後に矢印が
存在した場合に、矢印の示す方向に存在する文字領域に
対して大きくする。
In order to solve the above problems, the present invention preferably increases the continuity index with respect to a character area existing in the direction indicated by the arrow when an arrow exists at the end of the character area. .

【0011】上述の課題を解決するために、本発明は好
ましくは前記連続性の指標は、文字領域の最後に文章の
末尾を示す記号が存在した場合に、最初に時差下してい
る文字領域に対して大きくする。
In order to solve the above-mentioned problems, the present invention is preferably such that the continuity index is the character area that is initially staggered when a symbol indicating the end of a sentence is present at the end of the character area. Increase to.

【0012】上述の課題を解決するために、本発明は好
ましくは前記文章の末尾を示す記号は、句点とする。
In order to solve the above-mentioned problems, in the present invention, the symbol indicating the end of the sentence is preferably a punctuation mark.

【0013】上述の課題を解決するために、本発明は好
ましくは前記文章の末尾を示す記号は、ピリオドとす
る。
In order to solve the above-mentioned problems, in the present invention, the symbol indicating the end of the sentence is preferably a period.

【0014】上述の課題を解決するために、本発明は好
ましくは前記一方の文字領域の最後の文と他方の文字領
域の最初の文の、一つの文としての確からしさを用い
て、前記連続性の指標を決定する。
In order to solve the above-mentioned problems, the present invention preferably uses the certainty as one sentence of the last sentence of the one character region and the first sentence of the other character region to make the continuation. Determine the sex index.

【0015】上述の課題を解決するために、本発明は好
ましくは前記連続性の指標の決定は、文字領域の最後が
文章の末尾を示す記号でない場合に行う。
In order to solve the above problems, the present invention preferably determines the continuity index when the end of the character area is not a symbol indicating the end of a sentence.

【0016】上述の課題を解決するために、本発明は好
ましくは前記一つの文としての確からしさは、一方の文
字領域の最後が名詞で終了している場合に、他方の文字
領域の最初の文が助詞で始まる時に一つの文としての確
からしさを大きくする。
In order to solve the above-mentioned problems, the present invention preferably has a certainty of the above-mentioned one sentence in that when one character region ends with a noun, the other character region begins with the first character region. When a sentence starts with a particle, it increases the certainty as a sentence.

【0017】上述の課題を解決するために、本発明は好
ましくは前記一つの文としての確からしさは、一方の文
字領域の最後の文が主語を含むが述語を含まない場合
に、他方の文字領域の最初の文が主語を含まずかつ述語
を含む時に一つの文としての確からしさを大きくする。
In order to solve the above-mentioned problems, the present invention preferably has a certainty that the last sentence of one character area contains the subject but does not contain the predicate of the other character. When the first sentence of the area does not include the subject but includes the predicate, the certainty as one sentence is increased.

【0018】上述の課題を解決するために、本発明は好
ましくは前記一つの文としての確からしさは、前記一方
の文字領域に含まれる主語と、他方の文字領域に含まれ
る述語との関連土を用いて求める。
In order to solve the above-mentioned problems, the present invention is preferably such that the certainty of the one sentence is related to the subject included in the one character region and the predicate included in the other character region. Calculate using.

【0019】上述の課題を解決するために、本発明は好
ましくは前記文章が連続するか否かの判断は、両文字領
域に共通して存在する単語または類義語の存在割合を用
いて判断する。
In order to solve the above-mentioned problems, the present invention preferably judges whether or not the sentence is continuous by using the existence ratio of words or synonyms commonly existing in both character areas.

【0020】上述の課題を解決するために、本発明は好
ましくは前記文章が連続するか否かの判断は、文字領域
間の類似度を用いて求める。
In order to solve the above-mentioned problems, the present invention preferably determines whether or not the sentences are continuous by using the similarity between the character areas.

【0021】上述の課題を解決するために、本発明は好
ましくは前記文字領域間の類似度は、当該文字領域間の
文章表現について判断する。
In order to solve the above-mentioned problems, the present invention preferably judges the similarity between the character areas with respect to the text expression between the character areas.

【0022】上述の課題を解決するために、本発明は好
ましくは前記文章表現は、丁寧さとする。
In order to solve the above-mentioned problems, the present invention preferably makes the text expressions polite.

【0023】上述の課題を解決するために、本発明は好
ましくは前記文章表現は、行末表現とする。
In order to solve the above-mentioned problems, the present invention preferably makes the sentence expression a line-end expression.

【0024】上述の課題を解決するために、本発明は好
ましくは前記文章表現は、待遇表現とする。
In order to solve the above-mentioned problems, the present invention preferably makes the text expression a treatment expression.

【0025】上述の課題を解決するために、本発明は好
ましくは前記文字領域間の類似度は、文字領域内のジャ
ンルごとの構成割合について判断する。
In order to solve the above-mentioned problems, the present invention preferably judges the similarity between the character areas with respect to the composition ratio for each genre in the character area.

【0026】上述の課題を解決するために、本発明は好
ましくは前記ジャンルとは、漢字とする。
In order to solve the above-mentioned problems, in the present invention, the genre is preferably Chinese characters.

【0027】上述の課題を解決するために、本発明は好
ましくは前記ジャンルとは、ひらがなとする。
In order to solve the above problems, the present invention preferably defines the genre as hiragana.

【0028】上述の課題を解決するために、本発明は好
ましくは前記ジャンルとは、カタカナとする。
In order to solve the above-mentioned problems, in the present invention, the genre is preferably katakana.

【0029】上述の課題を解決するために、本発明は好
ましくは前記ジャンルとは、記号とする。
In order to solve the above-mentioned problems, in the present invention, the genre is preferably a symbol.

【0030】上述の課題を解決するために、本発明は好
ましくは前記ジャンルとは、数字とする。
In order to solve the above-mentioned problems, in the present invention, the genre is preferably a numeral.

【0031】上述の課題を解決するために、本発明は好
ましくは前記ジャンルとは、英字とする。
In order to solve the above problems, in the present invention, the genre is preferably an English character.

【0032】上述の課題を解決するために、本発明は好
ましくは前記文字領域間の類似度は、文字領域内の書式
に基づいて判断する。
In order to solve the above problems, the present invention preferably determines the similarity between the character areas based on the format in the character areas.

【0033】上述の課題を解決するために、本発明は好
ましくは前記書式は、フォントとする。
In order to solve the above-mentioned problems, the present invention preferably makes the format a font.

【0034】上述の課題を解決するために、本発明は好
ましくは前記書式は、文字大きさとする。
In order to solve the above-mentioned problems, the present invention preferably makes the format a character size.

【0035】上述の課題を解決するために、本発明は好
ましくは前記書式は、行長さとする。
In order to solve the above-mentioned problems, the present invention preferably makes the format a line length.

【0036】上述の課題を解決するために、本発明は好
ましくは前記書式は、文字ピッチとする。
In order to solve the above-mentioned problems, the present invention preferably has the character pitch.

【0037】上述の課題を解決するために、本発明は好
ましくは前記書式は、行ピッチとする。
In order to solve the above-mentioned problems, the present invention preferably makes the format a line pitch.

【0038】上述の課題を解決するために、本発明は好
ましくは前記書式は、文字の傾きとする。
In order to solve the above-mentioned problems, the present invention is preferably arranged such that the format is the inclination of characters.

【0039】上述の課題を解決するために、本発明は好
ましくは前記書式は、行の傾きとする。
In order to solve the above-mentioned problems, the present invention preferably sets the format to be line inclination.

【0040】上述の課題を解決するために、本発明は好
ましくは前記書式は、文字間の隙間とする。
In order to solve the above-mentioned problems, the present invention is preferably such that the format is a space between characters.

【0041】上述の課題を解決するために、本発明は好
ましくは前記書式は、行間の隙間とする。
In order to solve the above-mentioned problems, the present invention preferably makes the format a space between lines.

【0042】上述の課題を解決するために、本発明は好
ましくは前記書式は、組方向とする。
In order to solve the above-mentioned problems, the present invention is preferably such that the format is a set direction.

【0043】[0043]

【実施例】図18は本実施例における装置の構成を表す
ブロック図である。1001は本装置全体の処理を実行
するCPUであって、ROM1002に格納されている
制御プログラムに従って判断及び処理を制御する。10
02はROMであり、本実施例において説明するフロー
チャートの制御プログラム、或いは処理に用いる予め定
まっているパラメータ等のデータを記憶している。10
03はRAMであり、CPU1001での処理中のデー
タを記憶するワーキングメモリエリアを備える。100
4はスキャナであり、原稿画像を光学的に読み込む。読
み込まれた画像データはRAM1003に記憶できる。
1005はキーボードであり、各種コードの入力、オペ
レータの指示が入力できる。1006はポインティング
デバイスであり、表示器1007の表示画面上の所望の
位置を指示でき、また、ボタンをクリックすることによ
り選択、取消の指示を入力することもできる。1007
は表示器であり、CRT或いは液晶表示器からなる。1
008は例えばLBP、インクジェット式等のプリン
タ、1009は例えばFDなどの外部記憶装置、101
0はこれら各構成間でのデータの授受を行う為のデータ
バスである。
[Embodiment] FIG. 18 is a block diagram showing the arrangement of an apparatus according to this embodiment. Reference numeral 1001 denotes a CPU that executes processing of the entire apparatus, and controls judgment and processing according to a control program stored in the ROM 1002. 10
Reference numeral 02 denotes a ROM, which stores a control program of the flowchart described in this embodiment, or data such as predetermined parameters used for processing. 10
A RAM 03 has a working memory area for storing data being processed by the CPU 1001. 100
Reference numeral 4 denotes a scanner that optically reads a document image. The read image data can be stored in the RAM 1003.
A keyboard 1005 is used to input various codes and operator's instructions. A pointing device 1006 can instruct a desired position on the display screen of the display 1007, and can also input a selection or cancellation instruction by clicking a button. 1007
Is a display, which is a CRT or a liquid crystal display. 1
Reference numeral 008 is, for example, an LBP or inkjet printer, 1009 is an external storage device such as FD, 101
Reference numeral 0 is a data bus for exchanging data between these components.

【0044】(実施例1)図1は、本発明にかかわる実
施例の順序付け処理を表すフローチャートである。
(Embodiment 1) FIG. 1 is a flowchart showing an ordering process of an embodiment according to the present invention.

【0045】図2は、スキャナ1004或いはFD10
09等のメモリから入力した原稿画像の例であり、この
画像データはRAM1003に格納される。
FIG. 2 shows the scanner 1004 or FD10.
09 is an example of a document image input from a memory such as 09, and this image data is stored in the RAM 1003.

【0046】入力した原稿画像は画像全体の垂直及び水
平方向にヒストグラムをとり、この結果を解析すること
等により、文字列或いは文章がある程度固まって存在し
ている文字領域を抽出し、抽出された領域の位置情報は
RAM1003に格納され、後に各領域ごとの画像の解
析処理を行う際には、この領域の位置情報から特定され
る画像情報をRAM1003から取り出して行う。2
1、22、23、24は抽出された文字領域である。
The inputted original image is taken as a histogram in the vertical and horizontal directions of the entire image, and the result is analyzed to extract a character region where a character string or a sentence is fixed to some extent, and is extracted. The position information of the area is stored in the RAM 1003, and when the image is analyzed for each area later, the image information specified from the position information of this area is extracted from the RAM 1003. Two
1, 22, 23, and 24 are extracted character areas.

【0047】25は、写真領域である。Reference numeral 25 is a photographic area.

【0048】図1における各処理ステップを説明する。Each processing step in FIG. 1 will be described.

【0049】ステップS101 連続するか調べたい二つの文字領域AとBを取り出し
(AからBへの連続性を調べる)、Aを基本文字領域、
Bを比較文字領域とする。
Step S101: Take out two character areas A and B that are to be checked for continuity (check the continuity from A to B), A is the basic character area,
Let B be the comparison character area.

【0050】図2の例では、文字領域21に続く文字領
域が基本文字領域21の左隣りにある文字領域22か、
基本文字領域21の下にある文字領域23のいずれかで
あるか、位置からでは判断できない。そこで、文字領域
21と文字領域22、文字領域21と文字領域23の文
章的な連続性を調べる必要がある。ここでは、まず初め
に文字領域21と文字領域22の連続性を調べるため、
この2領域を取り出し、文字領域21を基本文字領域、
文字領域22を比較文字領域とする。ここで、基本文字
領域の決定は、入力画像から抽出された複数の文字領域
のうち、各文字領域の文章が縦書きの場合は右上を始点
にしてこの始点に近い領域から順に決定し、また、各文
字領域の文章が横書きの場合は左上を始点にしてこの始
点に近い領域から順に決定する。また、比較文字領域の
決定は、基本文字領域が縦書きの場合は下及び左の縦書
きの文字領域とし、基本文字領域が横書きの場合は下及
び右の横書きの文字領域とする。
In the example of FIG. 2, the character area following the character area 21 is the character area 22 adjacent to the left of the basic character area 21, or
It cannot be determined from the position whether it is one of the character areas 23 below the basic character area 21. Therefore, it is necessary to check the textual continuity between the character area 21 and the character area 22, and between the character area 21 and the character area 23. Here, in order to check the continuity of the character areas 21 and 22 first,
These two areas are taken out and the character area 21 is set to the basic character area,
The character area 22 is used as a comparison character area. Here, in the determination of the basic character area, among the plurality of character areas extracted from the input image, when the text of each character area is vertical writing, the upper right is set as the starting point, and the area near the starting point is determined in order. If the text in each character area is written horizontally, the upper left corner is set as the starting point, and the areas near the starting point are sequentially determined. Further, the comparison character area is determined as the lower and left vertical writing character areas when the basic character area is vertical writing, and the lower and right horizontal writing character areas when the basic character area is horizontal writing.

【0051】ステップS102 次に基本文字領域から比較文字領域への連続性Cを求め
る。 この、連続性Cの求め方について後に様々な方法
を詳細に説明する。
Step S102 Next, the continuity C from the basic character area to the comparative character area is obtained. Various methods for obtaining the continuity C will be described in detail later.

【0052】ステップS103 連続性Cを閾値αと比較する。Step S103 The continuity C is compared with the threshold value α.

【0053】C≧α この式を充たす時は、ステップS104に進む。また、
充たさない時は、ステップS105に進む。ただし、こ
こでは閾値αは1.0とする。
C ≧ α When this expression is satisfied, the process proceeds to step S104. Also,
If not satisfied, the process proceeds to step S105. However, the threshold value α is 1.0 here.

【0054】図3の例では寝連続性CはC=1.0で、
式を充たすのでステップS104に進む。
In the example of FIG. 3, the sleep continuity C is C = 1.0,
Since the formula is satisfied, the process proceeds to step S104.

【0055】ステップS104 「連続する」と判定する。Step S104 It is determined that "continuous".

【0056】図3の例では、「連続する」と判定する。In the example of FIG. 3, it is determined to be "continuous".

【0057】ステップS105 「連続しない」と判定する。Step S105 It is determined that "not continuous".

【0058】同様に、基本文字領域が文字領域21、比
較文字領域が文字領域23の場合も連続性を判断する。
Similarly, when the basic character area is the character area 21 and the comparison character area is the character area 23, the continuity is determined.

【0059】このように、比較文字領域Bの候補文字領
域について全て連続性を判断し、「連続する」と判断さ
れる文字領域が一つであればその文字領域を基本文字領
域に連続する領域と決定し、「連続する」と判断される
文字領域が複数である場合は、それらの中から連続性C
の最も大きい領域を連続する領域と決定し、「連続す
る」と判断される領域がなかった場合はその基本文字領
域で連続する領域グループは完結すると判断する。
In this way, the continuity of all candidate character areas of the comparison character area B is judged, and if there is one character area judged to be "continuous", that character area is continuous with the basic character area. If there are a plurality of character areas that are determined to be “continuous”, the continuity C is selected from among them.
The largest area is determined as a continuous area, and if there is no area that is determined to be "continuous", it is determined that the continuous area group in the basic character area is completed.

【0060】以上で順序付けの処理を終了する。This completes the ordering process.

【0061】このような、文字領域ごとの連続性を判断
する処理を、基本文字領域Aを更新しながら繰り返すこ
とにより、入力原稿画像から抽出された複数の文字領域
全てについて(或いは処理対象として特定されている文
字領域全てについて)連続性を判断し、決定された順に
従って各文字領域に含まれる文字群の認識結果を接続
し、入力原稿画像の認識結果としてテキスト表示するこ
とができる。
By repeating such a process of determining continuity for each character area while updating the basic character area A, all the plurality of character areas extracted from the input original image (or specified as a processing target) are identified. It is possible to judge the continuity (for all the character areas that are displayed), connect the recognition results of the character groups included in each character area according to the determined order, and display the text as the recognition result of the input original image.

【0062】以下、S103の連続性Cの求め方の様々
な例について基本文字領域Aが領域21、比較文字領域
Bが領域22である場合を例に詳細に説明する。
Hereinafter, various examples of how to obtain the continuity C in S103 will be described in detail by taking the case where the basic character area A is the area 21 and the comparative character area B is the area 22 as an example.

【0063】図3は、図2に示す原稿画像の文字領域2
1の最後の文字が矢印である例を示した図である。図に
おいて、31は矢印である。
FIG. 3 shows a character area 2 of the original image shown in FIG.
It is the figure which showed the example which the last character of 1 is an arrow. In the figure, 31 is an arrow.

【0064】32、33は、矢印に原点を合わせた直行
座標軸である。
Reference numerals 32 and 33 are orthogonal coordinate axes whose origin is aligned with the arrow.

【0065】34は、文字領域22の右上角の点であ
る。
Reference numeral 34 is a point at the upper right corner of the character area 22.

【0066】35は、矢印の右下、つまり座標軸32、
33からなる直行座標系の第4象限である。
35 is the lower right of the arrow, that is, the coordinate axis 32,
It is the fourth quadrant of the orthogonal coordinate system consisting of 33.

【0067】図4は、ステップS102についての第1
の例の詳細なフローチャートである。
FIG. 4 shows the first step S102.
2 is a detailed flowchart of the example of FIG.

【0068】図4のフローチャートに従って、ステップ
S102を説明する。
Step S102 will be described with reference to the flowchart of FIG.

【0069】まず初めに、ステップS401で、連続性
Cに0.0を代入して初期化する。
First, in step S401, 0.0 is substituted for continuity C for initialization.

【0070】次に、ステップS402で、基本文字領域
の最後の文字が矢印か判定する。矢印の場合は、ステッ
プS403に進む。また、矢印ではない場合は、ステッ
プS102を終了する。つまり、連続性は0.0のまま
で変化しない。
Next, in step S402, it is determined whether the last character in the basic character area is an arrow. In the case of an arrow, the process proceeds to step S403. If it is not an arrow, step S102 ends. That is, the continuity remains 0.0 and does not change.

【0071】図3の例では、基本文字領域を文字領域2
1として最後の文字が矢印か判定する。最後の文字は、
図3の矢印31で示す通り、右下に向いた矢印であるの
でステップS403に進む。
In the example of FIG. 3, the basic character area is the character area 2
It is determined as 1 whether the last character is an arrow. The last letter is
As shown by the arrow 31 in FIG. 3, since the arrow points to the lower right, the process proceeds to step S403.

【0072】次にステップS403で、矢印の方向に比
較文字領域があるか判定する。矢印の方向に比較文字領
域があれば、ステップS404に進む。なければ、ステ
ップS102を終了する。つまり、連続性は0.0のま
まで変化しない。
Next, in step S403, it is determined whether or not there is a comparison character area in the direction of the arrow. If there is a comparison character area in the direction of the arrow, the process proceeds to step S404. If not, step S102 ends. That is, the continuity remains 0.0 and does not change.

【0073】図3の例では、矢印31は右下に向いた矢
印であるので、座標軸32、33からなる、矢印に原点
を合わせた直行座標系の第4象限に、文字領域22の右
上角(横書きの場合は文字領域の左上角)の点34が入
っているので、矢印の方向に比較文字領域22があると
判定し、ステップS404に進む。
In the example of FIG. 3, since the arrow 31 is an arrow pointing to the lower right, the upper right corner of the character area 22 is in the fourth quadrant of the orthogonal coordinate system which is composed of the coordinate axes 32 and 33 and whose origin is aligned with the arrow. Since the point 34 (the upper left corner of the character area in the case of horizontal writing) is included, it is determined that the comparative character area 22 exists in the direction of the arrow, and the process proceeds to step S404.

【0074】ステップS404では、連続性Cに1.0
を加えて連続性を大きくする。
At step S404, the continuity C is set to 1.0.
To increase continuity.

【0075】図3の例では、連続性Cは0.0に1.0
を加えて1.0となる。
In the example of FIG. 3, the continuity C is 0.0 to 1.0.
To 1.0.

【0076】以上で、ステップS102を終了する。Thus, step S102 is completed.

【0077】図3のフローチャートに示す例では、文字
領域間の連続性を文字領域最後の矢印によって大きくし
たが、文字領域の最後に句点またはピリオドが存在した
場合に、最初に字下げしている文字領域に対する連続性
を大きくしても良い。
In the example shown in the flowchart of FIG. 3, the continuity between the character areas is increased by the arrow at the end of the character area. However, when a punctuation mark or a period exists at the end of the character area, the character is indented first. The continuity with respect to the character area may be increased.

【0078】以下、連続性Cの求め方について詳細に説
明する。
The method of obtaining the continuity C will be described in detail below.

【0079】図5は、図2に示す原稿画像の文字領域2
1、22、23に関して最初や最後の文字を示した図で
ある。図において、51は文字領域21の最後の文字か
つ句点である。
FIG. 5 shows the character area 2 of the original image shown in FIG.
It is the figure which showed the first or last character regarding 1,22,23. In the figure, 51 is the last character and phrase in the character area 21.

【0080】52は、文字領域22の最初の字下げ部分
である。
Reference numeral 52 is the first indentation portion of the character area 22.

【0081】53は、文字領域23の最初の文字の
「速」である。
53 is the "fast" of the first character in the character area 23.

【0082】図9は、ステップS102についての第2
の例の詳細なフローチャートである。
FIG. 9 shows the second step S102.
2 is a detailed flowchart of the example of FIG.

【0083】図9のフローチャートに従って、ステップ
S102を説明する。
Step S102 will be described with reference to the flowchart of FIG.

【0084】まず初めに、ステップS901で、連続性
Cに0.0を代入して初期化する。
First, in step S901, 0.0 is substituted for continuity C for initialization.

【0085】次に、ステップS902で、基本文字領域
の最後の文字が句点またはピリオドか判定する。句点ま
たはピリオドの場合はステップS903に進む。句点で
もピリオドでもない場合はステップS102を終了す
る。
Next, in step S902, it is determined whether the last character in the basic character area is a punctuation mark or a period. If it is a punctuation mark or a period, the process proceeds to step S903. If it is neither a punctuation mark nor a period, step S102 ends.

【0086】図5の例において、基本文字領域が文字領
域21、比較文字領域が文字領域22の場合を説明する
と、基本文字領域21の最後は句点51で終了している
ので、ステップS903に進む。
In the example of FIG. 5, the case where the basic character area is the character area 21 and the comparison character area is the character area 22 is explained. Since the end of the basic character area 21 ends at the punctuation mark 51, the process proceeds to step S903. .

【0087】ステップS903では、比較文字領域の最
初が字下げになっているか判定する。字下げになってい
れば、ステップS904に進む。なっていなければ、ス
テップS102を終了する。
In step S903, it is determined whether the first character in the comparison character area is indented. If it is indented, the process proceeds to step S904. If not, step S102 ends.

【0088】図5の例では、比較文字領域22の最初が
字下げ52になっているのでステップS904に進む。
In the example of FIG. 5, since the first character in the comparison character area 22 is the indentation 52, the process proceeds to step S904.

【0089】ステップS904では、連続性Cに1.0
を加えて連続性を大きくする。
At step S904, the continuity C is set to 1.0.
To increase continuity.

【0090】図5の例では、連続性Cは0.0に1.0
を加えて1.0となる。
In the example of FIG. 5, the continuity C is 0.0 to 1.0.
To 1.0.

【0091】その後、ステップS103で閾値と比較さ
れステップS104に進んで、基本文字領域21と比較
文字領域22は連続すると判定する。
After that, the threshold value is compared with the threshold value in step S103, and the process proceeds to step S104 to determine that the basic character area 21 and the comparative character area 22 are continuous.

【0092】同様に基本文字領域が文字領域21、比較
文字領域が文字領域23の場合を説明する。この場合
は、比較文字領域23の最初が文字53であり、字下げ
になってないのでステップS903でNOと判定し、ス
テップS102を終了してステップS103へ進む。
Similarly, the case where the basic character area is the character area 21 and the comparison character area is the character area 23 will be described. In this case, the first character in the comparison character area 23 is the character 53, and the character is not indented. Therefore, it is determined to be NO in step S903, step S102 is terminated, and the process proceeds to step S103.

【0093】連続性Cは、0.0のままなのでステップ
S105に進んで、基本文字領域21と比較文字領域2
3は連続しないと判定する。
Since the continuity C remains 0.0, the process proceeds to step S105, and the basic character area 21 and the comparison character area 2
It is determined that 3 is not continuous.

【0094】図3のフローチャートに示す例では、文字
領域間の連続性を文字領域最後の矢印によって大きくし
たが、文字領域の最後が句点またはピリオドで終了して
いない場合に、文字領域の最後の文と比較する他の文字
領域の最初の文の、一つの文としての確からしさを用い
て、文字領域間の連続性を求めても良い。
In the example shown in the flowchart of FIG. 3, the continuity between the character areas is increased by the arrow at the end of the character area. However, when the end of the character area does not end with a punctuation mark or a period, The continuity between the character regions may be obtained by using the certainty of the first sentence of the other character regions to be compared with the sentence as one sentence.

【0095】ここで、文としての確からしさは、基本文
字領域の最後が名詞で終了している場合に、比較する他
の文字領域は最初の文が助詞で始まる時に文としての確
からしさを大きくする例について説明する。
Here, the certainty as a sentence is that when the end of the basic character area ends with a noun, the other character areas to be compared have a greater certainty as a sentence when the first sentence starts with a particle. An example will be described.

【0096】以下、連続性Cの求め方について詳細に説
明する。
The method of obtaining the continuity C will be described in detail below.

【0097】図6は図2に示す原稿画像の文字領域2
1、22、23に関して最初や最後の文字を示した図で
ある。図において、61は、文字領域21の最後の文字
部分かつ名詞「ロシア」である。62は、文字領域22
の最初の文字かつ助詞「が」である。63は、文字領域
23の最初の文字部分である。
FIG. 6 shows a character area 2 of the original image shown in FIG.
It is the figure which showed the first or last character regarding 1,22,23. In the figure, 61 is the last character portion of the character area 21 and the noun "Russia". 62 is a character area 22
Is the first letter and particle "ga". 63 is the first character portion of the character area 23.

【0098】図10は、ステップS102についての本
例の詳細なフローチャートである。
FIG. 10 is a detailed flowchart of this example regarding step S102.

【0099】図10のフローチャートに従って、ステッ
プS102を説明する。
Step S102 will be described with reference to the flowchart of FIG.

【0100】まず、ステップS1001で連続性Cに
0.0を代入して初期化する。
First, in step S1001, 0.0 is substituted for continuity C for initialization.

【0101】次にステップS1002で、基本文字領域
の最後が句点またはピリオドか判定する。句点またはピ
リオドの場合はステップS102を終了する。句点また
はピリオドでない場合は、ステップS1003に進む。
Next, in step S1002, it is determined whether the end of the basic character area is a punctuation mark or a period. If it is a punctuation mark or a period, step S102 ends. If it is not a punctuation mark or a period, the process proceeds to step S1003.

【0102】図6の例では、基本文字領域を文字領域2
1とし、最後が句点でもピリオドでもないので、ステッ
プS1003に進む。
In the example of FIG. 6, the basic character area is the character area 2
Since it is 1 and the last is neither a punctuation mark nor a period, the process proceeds to step S1003.

【0103】ステップS1003では、基本文字領域の
最後が名詞で終了しているか判定する。最後が名詞であ
れば、ステップS1004に進む。名詞でなければ、ス
テップS102を終了する。
In step S1003, it is determined whether the end of the basic character area ends with a noun. If the last is a noun, the process proceeds to step S1004. If it is not a noun, step S102 ends.

【0104】図6の例では、基本文字領域21の最後が
名詞61の「ロシア」なので、ステップS1004に進
む。
In the example of FIG. 6, since the last of the basic character area 21 is the noun 61 “Russia”, the process proceeds to step S1004.

【0105】ステップS1004では、比較文字領域の
最初が助詞で始まるか判定する。助詞で始まっていれ
ば、ステップS1005に進む。助詞で始まっていなけ
れば、ステップS102を終了する。
In step S1004, it is determined whether the beginning of the comparison character area starts with a particle. If it starts with a particle, the process proceeds to step S1005. If it does not start with a particle, step S102 ends.

【0106】図6の例では、比較文字領域が文字領域2
2の場合は、初めが助詞62の「が」で始まっているの
で、ステップS1005に進む。
In the example of FIG. 6, the comparison character area is the character area 2.
In the case of 2, the beginning begins with the particle 62 “ga”, and thus the process proceeds to step S1005.

【0107】ステップS1005では、連続性Cに1.
0を加えて、連続性を大きくする。
At step S1005, the continuity C is 1.
Add 0 to increase continuity.

【0108】図6の例では、連続性Cは0.0に1.0
を加えて1.0となる。ステップS103の判定の結果
ステップS104に進み、文字領域21と22は連続す
ると判定する。
In the example of FIG. 6, the continuity C is 0.0 to 1.0.
To 1.0. As a result of the determination in step S103, the process proceeds to step S104, and it is determined that the character areas 21 and 22 are continuous.

【0109】同様に比較文字領域が、文字領域23の場
合は初めが文字63の「目」で始まっており、助詞では
ないのでステップS102を終了し、連続性Cは0.0
となり、文字領域21と文字領域23は連続しないと判
定する。
Similarly, in the case where the comparison character area is the character area 23, the beginning is the "eye" of the character 63, and since it is not a particle, step S102 is ended and the continuity C is 0.0.
Therefore, it is determined that the character area 21 and the character area 23 are not continuous.

【0110】図3のフローチャートに示す例では、文字
領域間の連続性を文字領域最後の矢印によって大きくし
たが、文字領域の最後が句点またはピリオドで終了して
いない場合に、最後の文と比較する他の文字領域の最初
の文の、一つの文としての確からしさを用いて、文字領
域間の連続性を求めても良い。
In the example shown in the flowchart of FIG. 3, the continuity between the character areas is increased by the arrow at the end of the character area. However, when the end of the character area is not terminated by a punctuation mark or a period, it is compared with the last sentence. The continuity between the character regions may be obtained by using the certainty of the first sentence of the other character region as one sentence.

【0111】ここで、文としての確からしさは、文字領
域の最後の文が主語を含むが述語を含まない場合に、比
較する他の文字領域の最初の文が主語を含まずかつ述語
を含む時に文としての確からしさを大きくする例につい
て説明する。
Here, the certainty as a sentence is that when the last sentence of the character area includes the subject but does not include the predicate, the first sentence of the other character area to be compared does not include the subject and includes the predicate. An example of sometimes increasing the certainty as a sentence will be described.

【0112】以下、連続性Cの求め方について詳細に説
明する。
The method of obtaining the continuity C will be described in detail below.

【0113】図7は、図2に示す原稿画像の文字領域2
1、22、23に関して最初や最後の文字を示した図で
ある。図において、71は、文字領域21の最後の文
「関連法案の整備が」である。72は、文字領域22の
最初の文「遅れた。」である。73は、文字領域23の
最初の文「最初の国はロシアとなる。」である。
FIG. 7 shows the character area 2 of the original image shown in FIG.
It is the figure which showed the first or last character regarding 1,22,23. In the figure, 71 is the last sentence of the character area 21, "arrangement of related bill". Reference numeral 72 is the first sentence "delayed." In the character area 22. 73 is the first sentence of the character area 23, "The first country is Russia."

【0114】図11は、ステップS102についての詳
細なフローチャートである。
FIG. 11 is a detailed flowchart of step S102.

【0115】図11のフローチャートに従って、ステッ
プS102を説明する。
Step S102 will be described with reference to the flowchart of FIG.

【0116】まず、ステップS1101で連続性Cに
0.0を代入して初期化する。
First, in step S1101, 0.0 is substituted for continuity C for initialization.

【0117】次にステップS1102で、基本文字領域
の最後が句点またはピリオドか判定する。句点またはピ
リオドの場合はステップS102を終了する。句点また
はピリオドでない場合は、ステップS1103に進む。
Next, in step S1102, it is determined whether the end of the basic character area is a punctuation mark or a period. If it is a punctuation mark or a period, step S102 ends. If it is not a punctuation mark or a period, the process proceeds to step S1103.

【0118】図7の例では、基本文字領域を文字領域2
1とし、最後が句点でもピリオドでもないので、ステッ
プS1103に進む。
In the example of FIG. 7, the basic character area is the character area 2
Since the last is neither a punctuation mark nor a period, the process advances to step S1103.

【0119】ステップS1103では、基本文字領域の
最後の文が主語を含みかつ述語を含まないか判定する。
主語を含みかつ述語を含まない場合は、ステップS11
04に進む。そうでない場合はステップS102を終了
する。
In step S1103, it is determined whether the last sentence of the basic character area includes the subject and does not include the predicate.
If the subject is included and the predicate is not included, step S11
Go to 04. If not, step S102 ends.

【0120】図7の例では、基本文字領域21の最後の
文71が主語を含むが述語を含まないので、ステップS
1104に進む。
In the example of FIG. 7, since the last sentence 71 of the basic character area 21 includes the subject but does not include the predicate, step S
Proceed to 1104.

【0121】ステップS1104で、比較文字領域の最
初の文が主語を含まずかつ述語を含むか判定する。主語
を含まずかつ述語を含む場合は、ステップS1105に
進む。そうでない場合は、ステップS102を終了す
る。
In step S1104, it is determined whether the first sentence of the comparison character area does not include a subject and a predicate. If the subject is not included and the predicate is included, the process proceeds to step S1105. Otherwise, step S102 ends.

【0122】図7の例では、比較文字領域を文字領域2
2とした場合、比較文字領域22の最初の文72が主語
を含まず述語を含むので、ステップS1105に進む。
In the example of FIG. 7, the comparison character area is the character area 2
In the case of 2, since the first sentence 72 of the comparison character area 22 does not include the subject but the predicate, the process proceeds to step S1105.

【0123】ステップS1105で、連続性Cに1.0
を加えて連続性を大きくする。
At step S1105, the continuity C is set to 1.0.
To increase continuity.

【0124】図7の例では、連続性Cは0.0に1.0
を加えて1.0となる。ステップS103の判定の結果
ステップS104に進み、文字領域21と22は連続す
ると判定する。
In the example of FIG. 7, the continuity C is 0.0 to 1.0.
To 1.0. As a result of the determination in step S103, the process proceeds to step S104, and it is determined that the character areas 21 and 22 are continuous.

【0125】同様に比較文字領域を文字領域23にした
場合は、ステップS1104において最初の文73が、
主語を含んでいるためステップS102を終了する。連
続性Cは、0.0となりステップS103の判定の結果
ステップS105に進み、文字領域21と文字領域23
と連続しないと判定する。
Similarly, when the comparison character area is the character area 23, the first sentence 73 in step S1104 is
Since the subject is included, step S102 ends. The continuity C becomes 0.0, and as a result of the determination in step S103, the process proceeds to step S105, and the character areas 21 and 23
Is determined not to be continuous.

【0126】図3のフローチャートに示す例では、文字
領域間の連続性を文字領域最後の矢印によって大きくし
たが、文字領域の最後が句点またはピリオドで終了して
いない場合に、最後の文と比較する他の文字領域の最初
の文の、一つの文としての確からしさを用いて、文字領
域間の連続性を求めても良い。
In the example shown in the flowchart of FIG. 3, the continuity between the character areas is increased by the arrow at the end of the character area. However, when the end of the character area is not terminated by a punctuation mark or a period, it is compared with the last sentence. The continuity between the character regions may be obtained by using the certainty of the first sentence of the other character region as one sentence.

【0127】ここで、文としての確からしさは、文字領
域の最後の文が主語を含むが述語を含まない場合に、比
較する他の文字領域の最初の文が主語を含まずかつ述語
を含む時に文としての確からしさを大きくする際に、主
語と述語の関連度を用いて文としての確からしさを求め
る例について説明する。
Here, the certainty as a sentence is that, when the last sentence of the character area includes the subject but does not include the predicate, the first sentence of the other character area to be compared does not include the subject and includes the predicate. An example of finding the certainty as a sentence by using the degree of association between the subject and the predicate when increasing the certainty as a sentence will be described.

【0128】以下、連続性Cの求め方について詳細に説
明する。
The method of obtaining the continuity C will be described in detail below.

【0129】図8は、図2に示す原稿画像の文字領域2
1、22、23に関して最初や最後の文字を示した図で
ある。図において、81は、文字領域21の最後の文
「関連法案の整備が」である。82は、文字領域22の
最初の文「遅れる。」である。83は、文字領域23の
最初の文「走る。」である。
FIG. 8 shows the character area 2 of the original image shown in FIG.
It is the figure which showed the first or last character regarding 1,22,23. In the figure, reference numeral 81 is the last sentence of the character area 21, "arrangement of related bill". Reference numeral 82 is the first sentence “delay.” In the character area 22. Reference numeral 83 is the first sentence "run." In the character area 23.

【0130】図12は、ステップS102についての詳
細なフローチャートである。
FIG. 12 is a detailed flowchart of step S102.

【0131】図13は、主語と述語の関連度データの一
部である。
FIG. 13 is a part of the relevance data of the subject and the predicate.

【0132】図12のフローチャートに従って、ステッ
プS102を説明する。
Step S102 will be described with reference to the flowchart of FIG.

【0133】まず、ステップS1201で連続性Cに
0.0を代入して初期化する。
First, in step S1201, 0.0 is substituted for continuity C for initialization.

【0134】次にステップS1202で、基本文字領域
の最後が句点またはピリオドか判定する。句点またはピ
リオドの場合はステップS102を終了する。句点また
はピリオドでない場合は、ステップS1203に進む。
Next, in step S1202, it is determined whether the end of the basic character area is a punctuation mark or a period. If it is a punctuation mark or a period, step S102 ends. If it is not a punctuation mark or a period, the process advances to step S1203.

【0135】図8の例では、基本文字領域を文字領域2
1とし、最後が句点でもピリオドでもないので、ステッ
プS1203に進む。
In the example of FIG. 8, the basic character area is the character area 2
Since the value is 1 and the last is neither a punctuation mark nor a period, the process advances to step S1203.

【0136】ステップS1203では、基本文字領域の
最後の文が主語を含みかつ述語を含まないか判定する。
主語を含みかつ述語を含まない場合は、ステップS12
04に進む。そうでない場合はステップS102を終了
する。
In step S1203, it is determined whether the last sentence of the basic character area includes the subject and does not include the predicate.
If the subject is included and the predicate is not included, step S12
Go to 04. If not, step S102 ends.

【0137】図8の例では、基本文字領域21の最後の
文81が主語を含むが述語を含まないので、ステップS
1204に進む。
In the example of FIG. 8, since the last sentence 81 of the basic character area 21 includes the subject but does not include the predicate, step S
Proceed to 1204.

【0138】ステップS1204で、比較文字領域の最
初の文が主語を含まずかつ述語を含むか判定する。主語
を含まずかつ述語を含む場合は、ステップS1205に
進む。そうでない場合は、ステップS102を終了す
る。
In step S1204, it is determined whether the first sentence of the comparison character area does not include the subject and does not include the predicate. If the subject is not included and the predicate is included, the process proceeds to step S1205. Otherwise, step S102 ends.

【0139】図8の例では、比較文字領域を文字領域2
2とした場合、比較文字領域22の最初の文82が主語
を含まず述語を含むので、ステップS1205に進む。
In the example of FIG. 8, the comparison character area is the character area 2
In the case of 2, since the first sentence 82 of the comparison character area 22 does not include the subject but the predicate, the process proceeds to step S1205.

【0140】ステップS1205で、連続性Cに主語と
述語の関連度を加えて連続性を大きくする。
In step S1205, the continuity is increased by adding the degree of association between the subject and the predicate to the continuity C.

【0141】図8の例では、主語が「整備が」で、述語
が「遅れる」であるので図13に示す関連度データか
ら、関連度は1.25であることが分かる。そこで、連
続性Cは0.0に1.25を加えて1.25となる。ス
テップS103の判定の結果ステップS104に進み、
文字領域21と22は連続すると判定する。
In the example of FIG. 8, the subject is “maintenance” and the predicate is “delayed”, so it can be seen from the relevance data shown in FIG. 13 that the relevance is 1.25. Therefore, the continuity C becomes 1.25 by adding 1.25 to 0.0. As a result of the determination in step S103, the process proceeds to step S104,
It is determined that the character areas 21 and 22 are continuous.

【0142】同様に比較文字領域を文字領域23にした
場合は、主語が「整備が」で、最初の文83の述語が
「走る」であるので、図13に示す関連度データにそれ
らの関連度が載っていない。載っていない場合は、関連
度0.0なので、連続性Cは0.0を加えて0.0のま
まである。ステップS103の判定の結果ステップS1
05に進み、文字領域21と文字領域23は連続しない
と判定する。
Similarly, when the comparison character area is set to the character area 23, the subject is “maintenance” and the predicate of the first sentence 83 is “run”. Therefore, those relations are shown in the relation degree data shown in FIG. The degree is not listed. If not listed, the relevance is 0.0, so the continuity C remains at 0.0 with 0.0 added. As a result of the determination in step S103, step S1
In step 05, it is determined that the character area 21 and the character area 23 are not continuous.

【0143】図3のフローチャートに示す例では、文字
領域間の連続性を文字領域最後の矢印によって大きくし
たが、文字領域間に共通して存在する単語または類義語
の存在を用いて、文字領域間の連続性を求めても良い。
In the example shown in the flowchart of FIG. 3, the continuity between the character areas is increased by the arrow at the end of the character areas. However, by using the existence of a word or synonym commonly existing between the character areas, the character areas are separated from each other. May be required to be continuous.

【0144】以下、連続性Cの求め方について詳細に説
明する。
The method of obtaining the continuity C will be described in detail below.

【0145】図15は、図2に示す原稿画像の文字領域
21、22、23に関して全ての文字を示した図であ
る。
FIG. 15 is a diagram showing all characters in the character areas 21, 22, and 23 of the original image shown in FIG.

【0146】図16は、ステップS102についての詳
細なフローチャートである。
FIG. 16 is a detailed flowchart of step S102.

【0147】図16のフローチャートに従って、ステッ
プS102を説明する。
Step S102 will be described with reference to the flowchart of FIG.

【0148】まず、ステップS1601で連続性Cに
0.0を代入して初期化する。
First, in step S1601, 0.0 is substituted for continuity C for initialization.

【0149】次にステップS1602で、比較文字領域
内で、基本文字領域の単語と同一または類義語の、比較
文字領域内の総単語数に対する割合を出してCに加え、
連続性を大きくする。
Next, in step S1602, in the comparison character area, the ratio of the same or synonymous words as the words in the basic character area to the total number of words in the comparison character area is calculated and added to C,
Increase continuity.

【0150】図15の例では、比較文字領域を文字領域
22とした時、比較文字領域内22で、基本文字領域2
1の単語と同一または類義語を取り出し、数を数える
と、「経済」が3個、「改革」が1個、「ロシア」の類
義語として「旧ソ連諸国」が1個、存在する。「ロシ
ア」は基本文字領域内に2単語存在するので2個として
カウントすると、 合計は3+1+2=6 となる。
In the example of FIG. 15, when the comparison character area is the character area 22, the basic character area 2 is within the comparison character area 22.
Taking out the same or synonymous words as 1 and counting the numbers, there are three "economy", one "reform", and one "former Soviet Union" as a synonym for "Russia". Since "Russia" has two words in the basic character area, when counted as two words, the total is 3 + 1 + 2 = 6.

【0151】比較文字領域22の総単語数は23なの
で、その割合は、 6÷23=0.26 となる。
Since the total number of words in the comparison character area 22 is 23, the ratio is 6 ÷ 23 = 0.26.

【0152】0.26を連続性Cに加えて0.26とな
る。
0.26 is added to the continuity C to obtain 0.26.

【0153】以上でステップS102を終了する。Thus, step S102 is completed.

【0154】次にステップS103で、閾値αと連続性
Cを比較する。閾値α以上であれば、ステップS104
に進み、未満であれば、ステップS105に進む。ただ
し、ここで閾値は0.20とする。
Next, in step S103, the threshold value α is compared with the continuity C. If it is greater than or equal to the threshold value α, step S104
If it is less than, go to step S105. However, the threshold is 0.20 here.

【0155】図15の例では、連続性Cは0.26なの
でステップS104に進む。
In the example of FIG. 15, since the continuity C is 0.26, the process proceeds to step S104.

【0156】ステップS104で、基本文字領域と比較
文字領域は連続すると判定する。
In step S104, it is determined that the basic character area and the comparison character area are continuous.

【0157】同様に、比較文字領域が文字領域23の場
合について説明すると、基本文字領域21の単語と同一
または類義語を取り出し、数を数えると、「経済」が2
個、「改革」が1個、存在する。従って合計は2+1=
3となる。
Similarly, the case where the comparison character area is the character area 23 will be described. When the same word as the word in the basic character area 21 or a synonym is taken out and the number is counted, "economy" is 2
There is one “reform”. Therefore, the total is 2 + 1 =
It becomes 3.

【0158】比較文字領域23の総単位数は19なの
で、その割合は、 3÷19=0.16 となる。
Since the total number of units in the comparison character area 23 is 19, the ratio is 3 ÷ 19 = 0.16.

【0159】0.16を連続性Cに加えて0.16とな
る。
0.16 is added to the continuity C to give 0.16.

【0160】以上でステップS102を終了する。Thus, step S102 is completed.

【0161】次にステップS103で、閾値αと連続性
Cを比較する。連続性Cは0.16なのでステップS1
05に進む。
Next, in step S103, the threshold value α is compared with the continuity C. Continuity C is 0.16, so step S1
Go to 05.

【0162】ステップS105で、基本文字領域と比較
文字領域は連続しないと判定する。
In step S105, it is determined that the basic character area and the comparison character area are not continuous.

【0163】図3のフローチャートに示す例では、文字
領域間の連続性を文字領域最後の矢印によって大きくし
たが、文字領域間の類似度を用いて求めても良い。
In the example shown in the flowchart of FIG. 3, the continuity between the character areas is increased by the arrow at the end of the character areas, but it may be obtained by using the similarity between the character areas.

【0164】ここで、文字領域間の類似度を文章表現の
類似度、特に丁寧さに関する類似度を用いて求める例に
ついて説明する。
Here, an example will be described in which the similarity between the character areas is obtained by using the similarity of the sentence expression, particularly the similarity regarding politeness.

【0165】以下、連続性Cの求め方について詳細に説
明する。
The method of obtaining the continuity C will be described in detail below.

【0166】図17は、ステップS102についての詳
細なフローチャートである。
FIG. 17 is a detailed flowchart of step S102.

【0167】図17のフローチャートに従って、ステッ
プS102を説明する。
Step S102 will be described with reference to the flowchart of FIG.

【0168】まず、ステップS1701で連続性Cに
0.0を代入して初期化する。
First, in step S1701, 0.0 is substituted for continuity C for initialization.

【0169】次にステップS1702で、基本文字領域
と比較文字領域の文章表現の丁寧さに関する類似度を出
してCに加え、連続性を大きくする。
Next, in step S1702, the similarity regarding the politeness of the text representation of the basic character area and the comparison character area is calculated and added to C to increase continuity.

【0170】例えば、尊敬語、謙譲語、丁寧語の辞書を
持ち、基本文字領域内の文章に存在するそれらの割合X
と、比較文字領域内に存在するそれらの割合Yを求め
て、基本文字領域と比較文字領域間の類似度Sを以下の
式で求める。
For example, it has a dictionary of respected words, humble words, and polite words, and their ratio X existing in sentences in the basic character area is X.
Then, the ratio Y of those existing in the comparison character area is obtained, and the similarity S between the basic character area and the comparison character area is obtained by the following formula.

【0171】S=1.0−(XとYの差)…(1) 次に類似度Sを連続性Cに加える。S = 1.0- (difference between X and Y) (1) Next, the similarity S is added to the continuity C.

【0172】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the continuity C thus obtained is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0173】具体的に考えると基本文字領域内の尊敬
語、謙譲語、丁寧語の割合が0.25、比較文字領域内
の尊敬語、謙譲語、丁寧語の割合が0.3とすると類似
度Sは、 S=1.0−(0.3−0.25)=0.95である。
Considering concretely, the ratio of respected words, humble words, and polite words in the basic character area is 0.25, and the ratio of honorific words, humble words, and polite words in the comparative character area is 0.3, which is similar. The degree S is S = 1.0- (0.3-0.25) = 0.95.

【0174】類似度Sを連続性Cに加えて、連続性Cは
C=0.95となる。
By adding the similarity S to the continuity C, the continuity C becomes C = 0.95.

【0175】以上で、ステップS102を終了し、ステ
ップS103に進む。
With the above, step S102 is ended, and the process proceeds to step S103.

【0176】ステップS103で、閾値αと比較しα以
上であれば、ステップS104に進む。未満であれば、
ステップS105に進む。ただし、ここでは閾値αは
0.8とする。
In step S103, the value is compared with the threshold value α, and if α or more, it proceeds to step S104. If less than
It proceeds to step S105. However, the threshold value α is 0.8 here.

【0177】この例では、連続性Cが閾値以上なのでス
テップS104に進み、基本文字領域と比較文字領域は
連続すると判定する。
In this example, since the continuity C is not less than the threshold value, the process proceeds to step S104, and it is determined that the basic character area and the comparison character area are continuous.

【0178】本実施例の順序付け方法を表すフローチャ
ートは図1に示す第一の実施例と同様である。
The flowchart showing the ordering method of this embodiment is the same as that of the first embodiment shown in FIG.

【0179】以上の説明により、前述の第一の実施例と
同様の作用、効果が得られる。
From the above description, the same operation and effect as those of the above-mentioned first embodiment can be obtained.

【0180】図17のフローチャートに示す例では、文
字領域間の類似度は、文章表現のうちの丁寧さに関する
類似度を用いて類似度を出しているが、類似度は行末表
現に関する類似度を用いても良い。
In the example shown in the flowchart of FIG. 17, the similarity between the character areas is obtained by using the similarity regarding the politeness of the sentence expression, but the similarity indicates the similarity regarding the line end expression. You may use.

【0181】例えば、基本文字領域と比較文字領域内の
文章から、行末表現が「ですます体」である割合をそれ
ぞれ出し、式(1)によって文字領域間の類似度を出し
ても良い。
For example, from the sentences in the basic character area and the comparison character area, the proportions in which the end-of-line expression is “masamasu” may be calculated, respectively, and the similarity between the character areas may be calculated by the expression (1).

【0182】次に類似度Sを連続性Cに加える。Next, the similarity S is added to the continuity C.

【0183】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the obtained continuity C is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0184】具体的に考えると基本文字領域内の「です
ます体」の割合が0.5、比較文字領域内の「ですます
体」の割合が0.4とすると類似度Sは、 S=1.0−(0.5−0.4)=0.9である。
Specifically, if the ratio of “Damasuma body” in the basic character area is 0.5 and the ratio of “Damasuma body” in the comparison character area is 0.4, the similarity S is S = 1.0- (0.5-0.4) = 0.9.

【0185】類似度Sを連続性Cに加えて、連続性Cは
C=0.9となる。
By adding the similarity S to the continuity C, the continuity C becomes C = 0.9.

【0186】これは、閾値αよりも大きいので基本文字
領域と比較文字領域は連続すると判定する。ただし、こ
こで閾値αは0.8とする。
Since this is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous. However, the threshold value α is 0.8 here.

【0187】図17のフローチャートに示す例では、文
字領域間の類似度は、文章表現のうちの丁寧さに関する
類似度を用いて類似度を出しているが、類似度は待遇表
現に関する類似度を用いても良い。
In the example shown in the flowchart of FIG. 17, the similarity between the character areas is obtained by using the similarity regarding the politeness of the sentence expression, but the similarity indicates the similarity regarding the treatment expression. You may use.

【0188】ここで、待遇表現とは話題の人物に体する
話し手の、尊敬・親愛・軽侮などの態度を表す言語表現
をさす。
Here, the treatment expression is a linguistic expression that represents the attitude of a speaker who is a person in the topic, such as respect, dearness, and contempt.

【0189】例えば、基本文字領域と比較文字領域内の
文章から、待遇表現の割合をそれぞれ出し、式(1)に
よって文字領域間の類似度を出しても良い。
For example, the proportion of the treatment expression may be calculated from the sentences in the basic character area and the comparison character area, and the similarity between the character areas may be calculated by the expression (1).

【0190】次に類似度Sを連続性Cに加える。Next, the similarity S is added to the continuity C.

【0191】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the obtained continuity C is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0192】具体的に考えると基本文字領域内の待遇表
現の割合が0.2、比較文字領域内の待遇表現の割合が
0.3とすると類似度Sは、 S=1.0−(0.3−0.2)=0.9である。
Specifically, if the proportion of treatment expressions in the basic character area is 0.2 and the proportion of treatment expressions in the comparison character area is 0.3, the similarity S is S = 1.0- (0 .3-0.2) = 0.9.

【0193】類似度Sを連続性Cに加えて、連続性Cは
C=0.9となる。
By adding the similarity S to the continuity C, the continuity C becomes C = 0.9.

【0194】これは、閾値αよりも大きいので基本文字
領域と比較文字領域は連続すると判定する。ただし、こ
こで閾値αは0.8とする。
Since this is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous. However, the threshold value α is 0.8 here.

【0195】本実施例の順序付け方法を表すフローチャ
ートは図1に示す第一の実施例と同様である。
The flowchart showing the ordering method of this embodiment is the same as that of the first embodiment shown in FIG.

【0196】以上の説明により、前述の第一の実施例と
同様の作用、効果が得られる。
From the above description, the same operation and effect as in the first embodiment described above can be obtained.

【0197】図17のフローチャートに示す例では、文
字領域間の類似度は、文章表現のうちの丁寧さに関する
類似度を用いて類似度を出しているが、類似度は文字領
域内の漢字、ひらがな、カタカナ、記号、数字、英字等
のジャンル毎の構成割合を用いて求めても良い。
In the example shown in the flowchart of FIG. 17, the similarity between the character areas is obtained by using the similarity regarding the politeness of the sentence expression, but the similarity is the kanji in the character area. It is also possible to use the composition ratio for each genre such as hiragana, katakana, symbols, numbers, and letters.

【0198】例えば、基本文字領域と比較文字領域内の
文章から、総文字数に対する漢字の割合をそれぞれ出
し、式(1)によって文字領域間の類似度を出しても良
い。
For example, the ratio of Chinese characters to the total number of characters may be calculated from the sentences in the basic character area and the comparison character area, and the similarity between the character areas may be calculated by the equation (1).

【0199】次に類似度Sを連続性Cに加える。Next, the similarity S is added to the continuity C.

【0200】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the continuity C thus obtained is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0201】具体的に考えると基本文字領域内の漢字の
割合が0.4、比較文字領域内の漢字の割合が0.3と
すると類似度Sは、 S=1.0−(0.4−0.3)=0.9である。
Specifically, if the proportion of Chinese characters in the basic character area is 0.4 and the proportion of Chinese characters in the comparative character area is 0.3, the similarity S is S = 1.0- (0.4 -0.3) = 0.9.

【0202】類似度Sを連続性Cに加えて、連続性Cは
C=0.9となる。
By adding the similarity S to the continuity C, the continuity C becomes C = 0.9.

【0203】これは、閾値αよりも大きいので基本文字
領域と比較文字領域は連続すると判定する。ただし、こ
こで閾値αは0.8とする。
Since this is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous. However, the threshold value α is 0.8 here.

【0204】尚、上述のような総文字数に対する漢字の
割合のみを用いて類似度を出す例に替えて、他のジャン
ルでももちろん良い。また、幾つかのジャンルを組み合
わせても良い。
Note that other genres may be used instead of the example in which the degree of similarity is obtained using only the ratio of Chinese characters to the total number of characters as described above. Also, several genres may be combined.

【0205】尚、上述のような文字領域間の類似度は、
文章表現のうち丁寧さに関する類似度を用いて類似度を
出す例に替えて、類似度は文字領域内の文字画像から求
めた、文字大きさ、行長さ、文字ピッチ、行ピッチ、文
字間の隙間、行間の隙間を用いて求めても良い。
The similarity between the character areas as described above is
Instead of an example in which similarity is calculated using the degree of similarity in politeness, the similarity is calculated from the character image in the character area, such as character size, line length, character pitch, line pitch, and character spacing. It is also possible to obtain it by using the gaps and the gaps between the rows.

【0206】例えば、基本文字領域と比較文字領域内の
文字画像から、文字大きさの平均をそれぞれ出し、X、
Yとすると類似度Sは、 S=1.0−(XとYの差)÷β…(2) 次に類似度Sを連続性Cに加える。式(2)で、βは定
数である。
For example, from the character images in the basic character area and the comparison character area, the average of the character size is calculated, and X,
If the degree of similarity is Y, the degree of similarity S is S = 1.0- (difference between X and Y) / β (2) Next, the degree of similarity S is added to the continuity C. In Expression (2), β is a constant.

【0207】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the continuity C thus obtained is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0208】具体的に考えると基本文字領域内の文字大
きさの平均が64.5ドット、比較文字領域内の文字大
きさの平均が59.3ドットとすると類似度Sは、 S=1.0−(64.5−59.3)÷100=0.9
5である。
Specifically, if the average character size in the basic character area is 64.5 dots and the average character size in the comparative character area is 59.3 dots, the similarity S is S = 1. 0- (64.5-59.3) ÷ 100 = 0.9
It is 5.

【0209】類似度Sを連続性Cに加えて、連続性Cは
C=0.95となる。
The similarity C is added to the continuity C, and the continuity C becomes C = 0.95.

【0210】これは、閾値αよりも大きいので基本文字
領域と比較文字領域は連続すると判定する。ただし、こ
こで閾値αは0.8、定数βは100とする。
Since this is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous. However, the threshold value α is 0.8 and the constant β is 100 here.

【0211】尚、上述のような文字大きさを用いて文字
領域間の類似度を出す例に替えて、行長さ、文字ピッ
チ、行ピッチ、文字間の隙間、行間の隙間を用いてもも
ちろん良い。また、それらのいくつかを組み合わせても
良い。
Note that line length, character pitch, line pitch, gaps between characters, and gaps between lines may be used instead of the example in which the similarity between character regions is obtained using the character size as described above. Of course good. Also, some of them may be combined.

【0212】尚、上述のような文字領域間の類似度は、
文章表現のうちの丁寧さに関する類似度を用いて類似度
を出す例に替えて、類似度は文字領域内の文字画像から
求めたフォントの違いを用いて求めても良い。
The similarity between the character areas as described above is
Instead of an example in which the degree of similarity is calculated by using the degree of politeness in the sentence expression, the degree of similarity may be obtained by using the font difference obtained from the character image in the character area.

【0213】例えば、基本文字領域と比較文字領域内の
文字画像から、総文字数に対する明朝体の文字数の割合
をそれぞれ出し、式(1)によって文字領域間の類似度
を求めても良い。
For example, from the character images in the basic character area and the comparison character area, the ratio of the number of characters in Mincho typeface to the total number of characters may be obtained, and the similarity between the character areas may be obtained by the equation (1).

【0214】次に類似度Sを連続性Cに加える。Next, the similarity S is added to the continuity C.

【0215】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the continuity C thus obtained is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0216】具体的に考えると基本文字領域内の明朝体
の割合が0.9、比較文字領域内の明朝体の割合が0.
91とすると類似度Sは、 S=1.0−(0.91−0.9)=0.99である。
Specifically, the ratio of Mincho typeface in the basic character region is 0.9, and the ratio of Mincho typeface in the comparative character region is 0.
When the similarity is 91, the similarity S is S = 1.0- (0.91-0.9) = 0.99.

【0217】類似度Sを連続性Cに加えて、連続性Cは
C=0.99となる。
Adding the similarity S to the continuity C, the continuity C becomes C = 0.99.

【0218】これは、閾値αよりも大きいので基本文字
領域と比較文字領域は連続すると判定する。ただし、こ
こで閾値αは0.9とする。
Since this is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous. However, the threshold value α is 0.9 here.

【0219】尚、上述のような総文字数に対する明朝体
の文字数の割合を用いて文字領域間の類似度を出す例に
替えて、例えば基本文字領域に使われているフォント
は、ゴシックBBB体であり、比較文字領域に使われて
いるフォントは、標準幅ゴシック体であるから、類似度
0、つまり連続性CはC=0.0として、基本文字領域
と比較文字領域は連続しないと判定しても良い。
Note that instead of the example of obtaining the similarity between the character areas using the ratio of the number of characters in Mincho type to the total number of characters as described above, for example, the font used in the basic character area is a Gothic BBB type. Since the font used for the comparison character area is a standard width Gothic font, it is determined that the similarity is 0, that is, the continuity C is C = 0.0, and the basic character area and the comparison character area are not continuous. You may.

【0220】尚、上述の例のように総文字数に対する明
朝体の文字数の割合を用いて文字領域間の類似度を出す
例に替えて、明朝体の代わりにゴシック体、教科書体は
もちろん、斜体や細明朝体、太明朝体等のフォントとし
ても良い。
Note that instead of the example in which the similarity between character regions is obtained by using the ratio of the number of characters in Mincho type to the total number of characters as in the above example, it goes without saying that Gothic type and textbook type are used instead of Mincho type. The font may be italic, Hosyo, or Taichung.

【0221】尚、上述のような文字領域間の類似度は、
文章表現のうちの丁寧さに関する類似度を用いて類似度
を出す例に替えて、類似度は文字領域内の文字画像から
求めた文字または行の傾斜の違いを用いて求めても良
い。
The similarity between the character areas as described above is
Instead of an example in which the degree of similarity is calculated using the degree of politeness in the text expression, the degree of similarity may be obtained using the difference in the inclination of the character or line obtained from the character image in the character area.

【0222】例えば、基本文字領域と比較文字領域内の
文字画像から、傾斜角度をそれぞれ出し、式(2)によ
って文字領域間の類似度を求めても良い。
For example, the inclination angles may be respectively obtained from the character images in the basic character area and the comparison character area, and the similarity between the character areas may be obtained by the equation (2).

【0223】次に求めた類似度Sを連続性Cに加える。Next, the calculated similarity S is added to the continuity C.

【0224】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the continuity C thus obtained is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0225】具体的に考えると基本文字領域の傾斜角度
が0.1度、比較文字領域の傾斜角度が1.0度とする
と類似度Sは、 S=1.0−(1.0−0.1)÷90=0.99であ
る。
Specifically, if the inclination angle of the basic character area is 0.1 degrees and the inclination angle of the comparison character area is 1.0 degrees, the similarity S is S = 1.0- (1.0-0 .1) /90=0.99.

【0226】類似度Sを連続性Cに加えて、連続性Cは
C=0.99となる。これは、閾値αよりも大きいので
基本文字領域と比較文字領域は連続すると判定する。た
だし、ここで閾値αは0.9、定数βは90とする。
Adding the similarity S to the continuity C, the continuity C becomes C = 0.99. Since this is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous. However, here, the threshold value α is 0.9 and the constant β is 90.

【0227】尚、上述のような文字領域間の類似度は、
文章表現のうちの丁寧さに関する類似度を用いて類似度
を出す例に替えて、類似度は文字領域内の文字画像から
求めた組方向の違いを用いて求めても良い。
The similarity between the character areas as described above is
Instead of an example in which the degree of similarity is calculated using the degree of politeness in the text expression, the degree of similarity may be obtained using the difference in the set direction obtained from the character image in the character area.

【0228】例えば、基本文字領域と比較文字領域内の
文字画像から、総文字数に対する縦書きの文字数の割合
をそれぞれ出し、式(1)によって文字領域間の類似度
を求めても良い。
For example, the ratio of the number of vertically written characters to the total number of characters may be calculated from the character images in the basic character area and the comparison character area, and the degree of similarity between the character areas may be calculated by the equation (1).

【0229】次に求めた類似度Sを連続性Cに加える。Next, the calculated similarity S is added to the continuity C.

【0230】この求めた連続性Cが、閾値αよりも大き
ければ、基本文字領域と比較文字領域は連続すると判定
される。
If the obtained continuity C is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous.

【0231】具体的に考えると基本文字領域内の縦書き
の割合が0.9、比較文字領域内の縦書きの割合が0.
91とすると類似度Sは、 S=1.0−(0.91−0.9)=0.99である。
More specifically, the ratio of vertical writing in the basic character area is 0.9, and the ratio of vertical writing in the comparison character area is 0.
When the similarity is 91, the similarity S is S = 1.0- (0.91-0.9) = 0.99.

【0232】類似度Sを連続性Cに加えて、連続性Cは
C=0.99となる。これは、閾値αよりも大きいので
基本文字領域と比較文字領域は連続すると判定する。た
だし、ここで閾値αは0.9とする。
By adding the similarity S to the continuity C, the continuity C becomes C = 0.99. Since this is larger than the threshold value α, it is determined that the basic character area and the comparison character area are continuous. However, the threshold value α is 0.9 here.

【0233】尚、上述のように総文字数に対する縦書き
の文字数の割合を用いて文字領域間の類似度を出す例に
替えて、例えば基本文字領域の組方向は、縦書きであ
り、比較文字領域の組方向は、横書きであるから、類似
度0、つまり連続性CはC=0.0として、基本文字領
域と比較文字領域は連続しないと判定しても良い。
Note that, instead of the example in which the ratio of the number of vertically written characters to the total number of characters is used to obtain the similarity between the character regions as described above, for example, the set direction of the basic character region is vertical writing, Since the set direction of the areas is horizontal writing, the similarity is 0, that is, the continuity C is C = 0.0, and it may be determined that the basic character area and the comparison character area are not continuous.

【0234】尚、上述のように総文字数に対する縦書き
の文字数の割合を用いて文字領域間の類似度を出す例に
替えて、総行数に対する縦書きの行数の割合を用いても
良い。
Note that the ratio of the number of vertically written lines to the total number of lines may be used instead of the example in which the similarity between character regions is obtained by using the ratio of the number of vertically written characters to the total number of characters as described above. .

【0235】(実施例2)先の実施例1では、2つの文
字領域を対象として連続するか否か判定したが、本実施
例では対象とする領域を3領域以上にした場合の連続性
の判定について説明する。
(Embodiment 2) In the first embodiment, it is determined whether or not two character areas are consecutive, but in the present embodiment, the continuity of the case where the target area is three or more areas is determined. The determination will be described.

【0236】図14は、本実施例の順序付け方法を表す
フローチャートである。
FIG. 14 is a flowchart showing the ordering method of this embodiment.

【0237】図14に従って、本実施例の文字領域の連
続するか否かの判定方法を説明する。ステップS102
に関しては図1と同じであり、先の実施例において詳細
に説明した、連続性Cの判定方法を本実施例においても
用いる。
A method of determining whether or not the character areas are continuous in this embodiment will be described with reference to FIG. Step S102
1 is the same as that of FIG. 1, and the method of determining the continuity C described in detail in the previous embodiment is also used in this embodiment.

【0238】まず初めにステップS1401で連続する
か調べたい基となる基本文字領域を取り出す。
First, in step S1401, a basic character area which is a base to be checked for continuity is extracted.

【0239】図5の例について説明すると、基本文字領
域を文字領域21とする。
Explaining the example of FIG. 5, the basic character area is the character area 21.

【0240】次にステップS1402で、基本文字領域
に対して連続するか比較するひとつ以上の比較文字領域
を取り出す。
Next, in step S1402, one or more comparison character areas that are continuous or are compared with the basic character area are extracted.

【0241】図5の例では、文字領域22と23を比較
文字領域とする。
In the example of FIG. 5, the character areas 22 and 23 are comparison character areas.

【0242】ステップS1403では、比較文字領域を
ひとつ取り出す。
In step S1403, one comparison character area is extracted.

【0243】図5の例では、まず初めに文字領域22を
比較文字領域として取り出す。
In the example of FIG. 5, first, the character area 22 is taken out as a comparison character area.

【0244】ステップS102で、基本文字領域から比
較文字領域への連続性Cを求める。ステップS102の
詳細は、図9に示す通りであり、第2の実施例で示した
のとまったく同じである。
At step S102, the continuity C from the basic character area to the comparative character area is obtained. Details of step S102 are as shown in FIG. 9, and are exactly the same as those shown in the second embodiment.

【0245】図5の例では、文字領域22に関しては、
連続性Cは1.0となる。
In the example of FIG. 5, regarding the character area 22,
The continuity C is 1.0.

【0246】次にステップS1404で、全ての比較文
字領域に関して連続性Cを求めたか判定する。連続性を
全て求めていれば、ステップS1405に進む。残って
いれば、ステップS1403に戻り、ステップS140
2で求めた領域の内連続性Cを求めていない領域を一つ
取り出し、連続性を求める処理を続ける。
Next, in step S1404, it is determined whether the continuity C has been obtained for all the comparison character areas. If all the continuity is obtained, the process proceeds to step S1405. If any remain, the process returns to step S1403 and step S140.
One region in which the continuity C of the regions obtained in 2 is not obtained is taken out, and the process for obtaining continuity is continued.

【0247】図5の例では、文字領域23が残っている
ので、ステップS1403に戻って処理を続ける。文字
領域22と同様に連続性を求めると、第2の実施例で説
明したように連続性Cは0.0となる。これで、全ての
比較文字領域に関して連続性を求めたので、ステップS
1405に進む。
In the example of FIG. 5, since the character area 23 remains, the process returns to step S1403 to continue the processing. When the continuity is calculated similarly to the character area 22, the continuity C is 0.0 as described in the second embodiment. Now that the continuity is obtained for all the comparison character areas, step S
Proceed to 1405.

【0248】ステップS1405では、連続性Cが最も
大きい比較文字領域へ連続すると判定する。
In step S1405, it is determined that the comparison character area having the largest continuity C is continuous.

【0249】図5の例では、比較文字領域22への連続
性Cが1.0、比較文字領域23への連続性Cが0.0
なので、基本文字領域21に連続する文字領域は文字領
域22であると判定する。
In the example of FIG. 5, the continuity C to the comparison character area 22 is 1.0 and the continuity C to the comparison character area 23 is 0.0.
Therefore, it is determined that the character area continuous with the basic character area 21 is the character area 22.

【0250】[0250]

【発明の効果】以上説明した様に、本発明によれば、二
つ以上の文字領域が連続するか否か判断する際に、文字
領域内の文字または文章または画像を解析して求めた文
字領域の連続性を用いることによって文字領域に読み順
を付ける事により、新聞記事等、原稿の中に複数の記事
が存在する場合や位置からでは正しく順番を付けること
ができない場合でも、正しく読み順を付けることがで
き、修正等の手間を削減できる効果がある。
As described above, according to the present invention, when determining whether or not two or more character areas are continuous, a character obtained by analyzing a character or a sentence or an image in the character area is determined. By adding the reading order to the text area by using the continuity of the area, even if there are multiple articles in the manuscript such as newspaper articles or if the order cannot be set correctly from the position, the reading order is correct. Can be attached, and the effect of reducing the trouble such as correction can be achieved.

【図面の簡単な説明】[Brief description of drawings]

【図1】実施例1の順序付け処理を表すフローチャー
ト。
FIG. 1 is a flowchart illustrating an ordering process according to a first exemplary embodiment.

【図2】原稿画像の一例を示す図。FIG. 2 is a diagram showing an example of a document image.

【図3】図2に示す原稿画像の文字領域21の最後の文
字が矢印である場合の例示図。
FIG. 3 is an exemplary view when the last character in a character area 21 of the document image shown in FIG. 2 is an arrow.

【図4】ステップS102についての詳細なフローチャ
ート。
FIG. 4 is a detailed flowchart of step S102.

【図5】図2に示す原稿画像の文字領域21、22、2
3に関して最初や最後の文字を示した図。
FIG. 5 is a character area 21, 22, 2 of the original image shown in FIG.
The figure which showed the first and the last character regarding 3.

【図6】図2に示す原稿画像の文字領域21、22、2
3に関して最初や最後の文字を示した図。
FIG. 6 is a character area 21, 22, 2 of the original image shown in FIG.
The figure which showed the first and the last character regarding 3.

【図7】図2に示す原稿画像の文字領域21、22、2
3に関して最初や最後の文字を示した図。
FIG. 7 is a diagram showing the character areas 21, 22, and 2 of the original image shown in FIG.
The figure which showed the first and the last character regarding 3.

【図8】図2に示す原稿画像の文字領域21、22、2
3に関して最初や最後の文字を示した図。
FIG. 8 is a character area 21, 22, 2 of the original image shown in FIG.
The figure which showed the first and the last character regarding 3.

【図9】ステップS102についての詳細なフローチャ
ート。
FIG. 9 is a detailed flowchart of step S102.

【図10】ステップS102についての詳細なフローチ
ャート。
FIG. 10 is a detailed flowchart of step S102.

【図11】ステップS102についての詳細なフローチ
ャート。
FIG. 11 is a detailed flowchart of step S102.

【図12】ステップS102についての詳細なフローチ
ャート。
FIG. 12 is a detailed flowchart of step S102.

【図13】主語と述語の関連度データの一部を示す図。FIG. 13 is a diagram showing a part of relevance data of a subject and a predicate.

【図14】実施例2の順序付け処理を表すフローチャー
ト。
FIG. 14 is a flowchart showing an ordering process according to the second embodiment.

【図15】図2に示す原稿画像の文字領域21、22、
23に関して全ての文字を示した図。
15 is a diagram showing the character areas 21 and 22 of the original image shown in FIG.
The figure which showed all the characters regarding 23.

【図16】ステップS102についての詳細なフローチ
ャート。
FIG. 16 is a detailed flowchart of step S102.

【図17】ステップS102についての詳細なフローチ
ャート。
FIG. 17 is a detailed flowchart of step S102.

【図18】本実施例の装置の構成を表すブロック図。FIG. 18 is a block diagram showing the configuration of an apparatus according to this embodiment.

Claims (38)

【特許請求の範囲】[Claims] 【請求項1】 原稿画像を記憶し、 前記原稿画像に存在する少なくとも二つの文字領域に係
る領域情報を格納し、 前記文字領域の内、二つの文字領域に含まれる文章が連
続するものであるか否かを判断することを特徴とする画
像処理方法。
1. A document image is stored, region information relating to at least two character regions existing in the document image is stored, and sentences included in two character regions of the character region are continuous. An image processing method characterized by determining whether or not.
【請求項2】 前記文章が連続するか否かの判断は、当
該二つの文字領域に含まれる文章を解析して判断するこ
とを特徴とする請求項1に記載の画像処理方法。
2. The image processing method according to claim 1, wherein the determination as to whether the sentences are continuous is made by analyzing the sentences included in the two character areas.
【請求項3】 前記格納した文字領域に係る領域情報
は、前記記憶した原稿画像を領域分離して抽出したもの
であることを特徴とする請求項1に記載の画像処理方
法。
3. The image processing method according to claim 1, wherein the area information relating to the stored character area is information obtained by separating the stored document image into areas.
【請求項4】 前記文字領域に含まれる文章の解析は、
当該文字領域に含まれる画像情報を文字認識して求めた
文字に関して解析することを特徴とする請求項2に記載
の画像処理方法。
4. The analysis of sentences included in the character area is performed by
The image processing method according to claim 2, wherein the image information included in the character area is analyzed for a character obtained by character recognition.
【請求項5】 前記二つの文字領域に含まれる文章が連
続するものであるか否かの判断は、連続性の指標により
決定することを特徴とする請求項1に記載の画像処理方
法。
5. The image processing method according to claim 1, wherein whether or not the sentences included in the two character areas are continuous is determined by an index of continuity.
【請求項6】 前記連続性の指標は、文字領域の最後に
矢印が存在した場合に、矢印の示す方向に存在する文字
領域に対し大きくすることを特徴とする請求項5に記載
の画像処理方法。
6. The image processing according to claim 5, wherein when the arrow exists at the end of the character area, the continuity index is increased with respect to the character area existing in the direction indicated by the arrow. Method.
【請求項7】 前記連続性の指標は、文字領域の最後に
文章の末尾を示す記号が存在した場合に、最初に時差下
している文字領域に大して大きくすることを特徴とする
請求項5に記載の画像処理方法。
7. The continuity index is set to be much larger in a character area that is staggered first when a symbol indicating the end of a sentence is present at the end of the character area. The image processing method described in.
【請求項8】 前記文章の末尾を示す記号は、句点とす
ることを特徴とする請求項7に記載の画像処理方法。
8. The image processing method according to claim 7, wherein the symbol indicating the end of the sentence is a punctuation mark.
【請求項9】 前記文章の末尾を示す記号は、ピリオド
とすることを特徴とする請求項7に記載の画像処理方
法。
9. The image processing method according to claim 7, wherein the symbol indicating the end of the sentence is a period.
【請求項10】 前記一方の文字領域の最後の文と他方
の文字領域の最初の文の、一つの文としての確からしさ
を用いて、前記連続性の指標を決定することを特徴とす
る請求項5に記載の画像処理方法。
10. The index of continuity is determined by using the certainty of the last sentence of the one character region and the first sentence of the other character region as one sentence. Item 6. The image processing method according to Item 5.
【請求項11】 前記連続性の指標の決定は、文字領域
の最後が文章の末尾を示す記号でない場合に行うことを
特徴とする請求項10に記載の画像処理方法。
11. The image processing method according to claim 10, wherein the continuity index is determined when the end of the character area is not a symbol indicating the end of a sentence.
【請求項12】 前記一つの文としての確からしさは、
一方の文字領域の最後が名詞で終了している場合に、他
方の文字領域の最初の文が助詞で始まる時に一つの文と
しての確からしさを大きくすることを特徴とする請求項
11に記載の画像処理方法。
12. The certainty as one sentence is,
12. The likelihood as one sentence is increased when the first sentence of the other character region starts with a particle when the end of the one character region ends with a noun. Image processing method.
【請求項13】 前記一つの文としての確からしさは、
一方の文字領域の最後の文が主語を含むが述語を含まな
い場合に、他方の文字領域の最初の文が主語を含まずか
つ述語を含む時に一つの文としての確からしさを大きく
することを特徴とする請求項11に記載の画像処理方
法。
13. The certainty as the one sentence is,
When the last sentence of one character area contains a subject but does not contain a predicate, when the first sentence of the other character area contains no subject and contains a predicate, it increases the certainty as a sentence. The image processing method according to claim 11, which is characterized in that.
【請求項14】 前記一つの文としての確からしさは、
前記一方の文字領域に含まれる主語と、他方の文字領域
に含まれる述語との関連土を用いて求めることを特徴と
する請求項13に記載の画像処理方法。
14. The certainty as the one sentence is,
The image processing method according to claim 13, wherein the subject included in the one character area and the predicate included in the other character area are used to obtain the object.
【請求項15】 前記文章が連続するか否かの判断は、
両文字領域に共通して存在する単語または類義語の存在
割合を用いて判断することを特徴とする請求項1に記載
の画像処理方法。
15. The determination as to whether the sentence is continuous is made by
The image processing method according to claim 1, wherein the determination is performed by using the existence ratio of words or synonyms that commonly exist in both character areas.
【請求項16】 前記文章が連続するか否かの判断は、
文字領域間の類似度を用いて求めることを特徴とする請
求項1に記載の画像処理方法。
16. The determination as to whether or not the sentence is continuous,
The image processing method according to claim 1, wherein the image area is obtained by using the similarity between the character areas.
【請求項17】 前記文字領域間の類似度は、当該文字
領域間の文章表現について判断することを特徴とする請
求項16に記載の画像処理方法。
17. The image processing method according to claim 16, wherein the similarity between the character areas is determined with respect to a text expression between the character areas.
【請求項18】 前記文章表現は、丁寧さとすることを
特徴とする請求項17に記載の画像処理方法。
18. The image processing method according to claim 17, wherein the text expression is polite.
【請求項19】 前記文章表現は、行末表現とすること
を特徴とする請求項17記載の画像処理方法。
19. The image processing method according to claim 17, wherein the text expression is a line ending expression.
【請求項20】 前記文章表現は、待遇表現とすること
を特徴とする請求項17記載の画像処理方法。
20. The image processing method according to claim 17, wherein the text expression is a treatment expression.
【請求項21】 前記文字領域間の類似度は、文字領域
内のジャンルごとの構成割合について判断することを特
徴とする請求項16に記載の画像処理方法。
21. The image processing method according to claim 16, wherein the similarity between the character areas is determined based on a composition ratio for each genre in the character area.
【請求項22】 前記ジャンルとは、漢字とすることを
特徴とする請求項21に記載の画像処理方法。
22. The image processing method according to claim 21, wherein the genre is Chinese characters.
【請求項23】 前記ジャンルとは、ひらがなとするこ
とを特徴とする請求項21に記載の画像処理方法。
23. The image processing method according to claim 21, wherein the genre is hiragana.
【請求項24】 前記ジャンルとは、カタカナとするこ
とを特徴とする請求項21に記載の画像処理方法。
24. The image processing method according to claim 21, wherein the genre is katakana.
【請求項25】 前記ジャンルとは、記号とすることを
特徴とする請求項21に記載の画像処理方法。
25. The image processing method according to claim 21, wherein the genre is a symbol.
【請求項26】 前記ジャンルとは、数字とすることを
特徴とする請求項21に記載の画像処理方法。
26. The image processing method according to claim 21, wherein the genre is a number.
【請求項27】 前記ジャンルとは、英字とすることを
特徴とする請求項21に記載の画像処理方法。
27. The image processing method according to claim 21, wherein the genre is an alphabetic character.
【請求項28】 前記文字領域間の類似度は、文字領域
内の書式に基づいて判断することを特徴とする請求項1
6に記載の画像処理方法。
28. The similarity between the character areas is determined based on a format in the character area.
6. The image processing method according to item 6.
【請求項29】 前記書式は、フォントとすることを特
徴とする請求項28に記載の画像処理方法。
29. The image processing method according to claim 28, wherein the format is a font.
【請求項30】 前記書式は、文字大きさとすることを
特徴とする請求項28に記載の画像処理方法。
30. The image processing method according to claim 28, wherein the format is a character size.
【請求項31】 前記書式は、行長さとすることを特徴
とする請求項28に記載の画像処理方法。
31. The image processing method according to claim 28, wherein the format is a line length.
【請求項32】 前記書式は、文字ピッチとすることを
特徴とする請求項28に記載の画像処理方法。
32. The image processing method according to claim 28, wherein the format is a character pitch.
【請求項33】 前記書式は、行ピッチとすることを特
徴とする請求項28に記載の画像処理方法。
33. The image processing method according to claim 28, wherein the format is a line pitch.
【請求項34】 前記書式は、文字の傾きとすることを
特徴とする請求項28に記載の画像処理方法。
34. The image processing method according to claim 28, wherein the format is an inclination of a character.
【請求項35】 前記書式は、行の傾きとすることを特
徴とする請求項28に記載の画像処理方法。
35. The image processing method according to claim 28, wherein the format is line inclination.
【請求項36】 前記書式は、文字間の隙間とすること
を特徴とする請求項28に記載の画像処理方法。
36. The image processing method according to claim 28, wherein the format is a space between characters.
【請求項37】 前記書式は、行間の隙間とすることを
特徴とする請求項28に記載の画像処理方法。
37. The image processing method according to claim 28, wherein the format is a space between lines.
【請求項38】 前記書式は、組方向とすることを特徴
とする請求項28に記載の画像処理方法。
38. The image processing method according to claim 28, wherein the format is a set direction.
JP6318285A 1994-11-17 1994-12-21 Image processing method Pending JPH08180131A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6318285A JPH08180131A (en) 1994-12-21 1994-12-21 Image processing method
US08/558,184 US5689342A (en) 1994-11-17 1995-11-15 Image processing method and apparatus which orders text areas which have been extracted from an image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6318285A JPH08180131A (en) 1994-12-21 1994-12-21 Image processing method

Publications (1)

Publication Number Publication Date
JPH08180131A true JPH08180131A (en) 1996-07-12

Family

ID=18097506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6318285A Pending JPH08180131A (en) 1994-11-17 1994-12-21 Image processing method

Country Status (1)

Country Link
JP (1) JPH08180131A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010509656A (en) * 2006-11-03 2010-03-25 グーグル インコーポレイテッド Media material analysis of consecutive articles
JP2019008615A (en) * 2017-06-26 2019-01-17 コニカミノルタ株式会社 Document reconstruction device
JP2020053730A (en) * 2018-09-25 2020-04-02 京セラドキュメントソリューションズ株式会社 Image forming apparatus and image forming program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010509656A (en) * 2006-11-03 2010-03-25 グーグル インコーポレイテッド Media material analysis of consecutive articles
JP2012123845A (en) * 2006-11-03 2012-06-28 Google Inc Media material analysis of continuing article portions
JP2019008615A (en) * 2017-06-26 2019-01-17 コニカミノルタ株式会社 Document reconstruction device
JP2020053730A (en) * 2018-09-25 2020-04-02 京セラドキュメントソリューションズ株式会社 Image forming apparatus and image forming program

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US6219453B1 (en) Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
JP3839069B2 (en) Method and apparatus for summarizing documents
EP1739574B1 (en) Method of identifying words in an electronic document
KR100578188B1 (en) Character recognition apparatus and method
US20090245654A1 (en) Method And Tool For Recognizing A Hand-Drawn Table
US20200364452A1 (en) A heuristic method for analyzing content of an electronic document
US20030156754A1 (en) Method and system for extracting title from document image
JPH0634256B2 (en) Contact character cutting method
JPH08180131A (en) Image processing method
US20120230590A1 (en) Image processing apparatus, non-transitory computer-readable medium, and image processing method
Min et al. Typographical and Orthographical Spelling Error Correction.
JP7315420B2 (en) How to adapt and modify text
KR101159323B1 (en) Handwritten input for asian languages
JP2000090194A (en) Image processing method and image processor
JP2002063197A (en) Retrieving device, recording medium and program
JP4101345B2 (en) Character recognition device
JP2763227B2 (en) Format determination method
JP3651946B2 (en) Image processing method
JPH0522949B2 (en)
JP2024003769A (en) Character recognition system, method of recognizing character by computer, and character search system
JP2002014981A (en) Document filing device
JP2931485B2 (en) Character extraction device and method
JP2024096597A (en) Image processing device, image processing method, and program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060314