JPH0757046A - Document image storage system of character recognition device - Google Patents

Document image storage system of character recognition device

Info

Publication number
JPH0757046A
JPH0757046A JP5199408A JP19940893A JPH0757046A JP H0757046 A JPH0757046 A JP H0757046A JP 5199408 A JP5199408 A JP 5199408A JP 19940893 A JP19940893 A JP 19940893A JP H0757046 A JPH0757046 A JP H0757046A
Authority
JP
Japan
Prior art keywords
character
image
layout
document image
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5199408A
Other languages
Japanese (ja)
Other versions
JP2606560B2 (en
Inventor
Yoichi Shirakawa
洋一 白川
Takeshi Kamimura
健 上村
Atsushi Tsukumo
淳 津雲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5199408A priority Critical patent/JP2606560B2/en
Publication of JPH0757046A publication Critical patent/JPH0757046A/en
Application granted granted Critical
Publication of JP2606560B2 publication Critical patent/JP2606560B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To store the attribute that a character has without requiring a font discriminating mechanism by storing a character pattern and a character code in correspondence relation and managing them. CONSTITUTION:A document image storage means 10 stores a document image. A layout analyzing means 11 outputs layout information, and outputs character images that are divided, character by character, at the time of a document area. A layout information storage means 12 stores the layout information. A character recognizing means 13 recognizes the character images and outputs the recognition results as character codes. A character code correcting means 14 substitutes proper character codes for the obtained character codes. A character image storage means 15 stores the obtained character images and character codes so that they are made to correspond to each other.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字認識装置における
文書画像記憶方式に関し、特に文書を電子化して管理す
るための文字認識装置における文書画像記憶方式に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document image storage system in a character recognition device, and more particularly to a document image storage system in a character recognition device for digitizing and managing a document.

【0002】[0002]

【従来の技術】従来より、多量の既存の文書画像を管理
するためには、文書画像を電子化することが行われて来
ている。しかし、その際に、単に文書画像のデータを圧
縮してキーワード付けを行うだけではなく、画像を解析
して文字認識により文章領域の内容をコード化すること
により、更に効率的な蓄積および検索が可能となり得る
ので、文書画像の解析は、このような機能を実現するた
めの今後の重要な技術であると考えられる。
2. Description of the Related Art Conventionally, in order to manage a large amount of existing document images, the document images have been digitized. However, at that time, not only compressing the data of the document image and assigning keywords, but also analyzing the image and encoding the content of the text area by character recognition enables more efficient storage and retrieval. As it may be possible, the analysis of document images is considered to be an important technique for realizing such a function in the future.

【0003】従来の文字認識装置における文書画像記憶
方式では、文書をイメージスキャナから入力して得られ
る画像イメージから、文書の構成要素である文章領域や
図表領域を分離し、領域の包含関係や配置関係をレイア
ウト情報として記憶し、特に文章領域に関しては、一文
字単位の領域に分離して文字認識を行っている。
In a conventional document image storage system for a character recognition apparatus, a text area or a figure area, which is a constituent element of a document, is separated from an image image obtained by inputting the document from an image scanner, and the inclusion relation and arrangement of the areas are separated. The relationship is stored as layout information, and in particular, regarding the text area, character recognition is performed by dividing the area into character units.

【0004】このような従来の文字認識装置における文
書画像記憶方式の第1の例として、特願昭62−292
07「文書画像解析方式」がある。この方式によれば、
文書画像が縦書き,横書き,段組などの書式にかかわら
ず、何れの文書のコード化も可能であるという利点があ
る。
As a first example of a document image storage system in such a conventional character recognition apparatus, Japanese Patent Application No. 62-292 is available.
07 “Document image analysis method” is available. According to this method,
There is an advantage that any document can be coded regardless of the format of the document image such as vertical writing, horizontal writing, and column setting.

【0005】図6は、このような従来の文字認識装置に
おける文書画像記憶方式の第1の例を示すブロック図で
ある。図6に示す文書画像メモリ61は、文書画像を電
子化した画像情報を記憶している。また、領域分割部6
2は、文書画像メモリ61の画像情報に対して、上下関
係および左右関係の配置関係を保持しながら、大局的領
域から局所的領域へと領域分割を行って、領域分割の結
果から文書が縦書きか横書きかを判定し、その結果を縦
横情報記憶部63に記憶している。
FIG. 6 is a block diagram showing a first example of a document image storage system in such a conventional character recognition device. A document image memory 61 shown in FIG. 6 stores image information obtained by digitizing a document image. In addition, the area dividing unit 6
No. 2 divides the image information in the document image memory 61 from a global region to a local region while maintaining the vertical and left-right relations, and the document is vertically divided according to the result of the region division. Whether writing or horizontal writing is determined, and the result is stored in the vertical / horizontal information storage unit 63.

【0006】そして、領域分割部62により得られた部
分領域が文章領域である場合には、その文章領域のデー
タは、文字分離部64に送られる。文字分離部64は、
その文章領域を構成する行領域を抽出し、さらに、その
行領域を構成する一文字単位の領域情報を抽出し、順次
に、構造化データ記憶部65に格納している。
When the partial area obtained by the area dividing section 62 is a text area, the data of the text area is sent to the character separating section 64. The character separation unit 64 is
The line area forming the text area is extracted, and the area information for each character forming the line area is extracted and sequentially stored in the structured data storage unit 65.

【0007】そこで、領域探索部67は、領域定義記憶
部66にあらかじめ記憶されている抽出すべき領域の配
置関係に関する条件を読出して、その条件に従って、構
造化データ記憶部65に格納されている文書画像内の領
域間の配置構造を示す構造化データを探索している。さ
らに、領域探索部67は、条件を満たす領域を構造化デ
ータ記憶部65から読出し、所定の順序により抽出結果
記憶部68に格納している。
Therefore, the area searching unit 67 reads out the condition relating to the layout relationship of the regions to be extracted, which is stored in advance in the region definition storing unit 66, and is stored in the structured data storing unit 65 according to the condition. Searching for structured data indicating the arrangement structure between regions in a document image. Further, the area searching unit 67 reads out an area satisfying the condition from the structured data storage unit 65 and stores it in the extraction result storage unit 68 in a predetermined order.

【0008】このようにして、従来の文字認識装置にお
ける文書画像記憶方式の第1の例では、文書画像を構成
要素単位に分割し、各々のレイアウト情報を記憶するこ
とができる。
As described above, in the first example of the document image storage system in the conventional character recognition device, the document image can be divided into the constituent elements and the respective layout information can be stored.

【0009】また、従来の文字認識装置における文書画
像記憶方式の第2の例として、帳票のイメージデータを
読み取り、帳票のイメージデータに含まれる文字を認識
して修正した後に、文字データと帳票のイメージデータ
とを連結したデータファイルを作成して、帳票画像と帳
票画像中の文字コードとを対応付けて管理する方式があ
る。
As a second example of the document image storage system in the conventional character recognition device, the image data of the form is read, the characters contained in the image data of the form are recognized and corrected, and then the character data and the form are deleted. There is a method of creating a data file in which image data is linked and managing the form image and the character code in the form image in association with each other.

【0010】このような従来の文字認識装置における文
書画像記憶方式の第2の例として、特願平2−3937
4「帳票処理装置」がある。この装置によれば、帳票画
像を帳票画像中に書かれている文字列で検索できるとい
う利点がある。
As a second example of the document image storage system in such a conventional character recognition apparatus, Japanese Patent Application No. 2-3937.
4 There is a “form processing device”. According to this device, there is an advantage that the form image can be searched by the character string written in the form image.

【0011】これらの例に示す通り、従来の文字認識装
置における文書画像記憶方式では、文字をコード化して
記憶することを実現しているけれども、文書を構成する
文字フォントの種類やフォントサイズなどの文字属性を
得てはいない。つまり、これまでの技術では、文字の位
置関係および文書のレイアウト情報を記憶することにと
どまっている。
As shown in these examples, in the conventional document image storage system in the character recognition device, although the characters are coded and stored, the type and font size of the character fonts constituting the document, etc. I didn't get the character attribute. In other words, the conventional technology is limited to storing the positional relationship of characters and the layout information of a document.

【0012】[0012]

【発明が解決しようとする課題】上述した従来の文字認
識装置における文書画像記憶方式では、レイアウト情報
や文字コードは保持されているが、文字フォントの種類
やフォントサイズの識別は、現在の技術で困難であるた
めに実現されておらず、これらの情報は失われてしまっ
ているという欠点を有している。
In the document image storage method in the above-mentioned conventional character recognition device, the layout information and the character code are retained, but the type of the character font and the font size are identified by the current technology. It has not been realized because it is difficult, and it has the disadvantage that this information has been lost.

【0013】しかし、文書には、例えば、文字フォント
やフォントサイズを用いて強調事項を示すなどの高度な
情報が含まれている。文書の電子化の際に、この強調事
項のようにより高度な情報を保持するために、文字認識
によって得られる文字コードおよび文章領域や図表領域
の位置関係や包含関係を表わす文書のレイアウト情報の
他に、フォント情報などの文書中の文字属性も記憶する
ことが必要である。
However, the document contains high-level information such as, for example, using a character font or font size to indicate an emphasis item. In order to retain more advanced information such as this emphasis when digitizing documents, other than the character code obtained by character recognition and the layout information of documents indicating the positional relationship and inclusion relationship of text areas and chart areas. In addition, it is necessary to store the character attributes in the document such as font information.

【0014】そこで、本発明の目的は、文字フォントを
利用した高度な文書情報を保持するために、文字画像に
文字属性を対応付けて記憶できる文字認識装置における
文書画像記憶方式を提供することにある。
SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a document image storage system in a character recognition device capable of storing a character attribute in association with a character image in order to hold advanced document information using a character font. is there.

【0015】[0015]

【課題を解決するための手段】第1の発明の文字認識装
置における文書画像記憶方式は、電子化された画像情報
データである文書画像を格納する文書画像格納手段と、
前記文書画像格納手段に格納された文書画像から文章お
よび図表等の構成要素を抽出して、その構成要素が文章
領域であるか図表領域であるかを判断することにより、
その構成要素間の包含関係および上下左右の配置関係を
含むレイアウト情報を出力するとともに、その構成要素
が文章領域である場合には、一文字単位に分割した文字
領域の内容を文字画像として出力するレイアウト解析手
段と、前記レイアウト解析手段により得られたレイアウ
ト情報を格納するレイアウト情報記憶手段と、前記レイ
アウト解析手段により得られた文字画像を認識すること
により、その認識結果を文字コードとして出力する文字
認識手段と、前記文字認識手段により得られた一部の文
字コードを適切な文字コードに修正して置換える機能を
有する文字コード修正手段と、前記レイアウト解析手段
によって得られた文字画像に対して、前記文字コード修
正手段による修正後に得られた文字コードを対応付けて
格納する文字画像記憶手段と、を備えて構成されてい
る。
A document image storage system in a character recognition device according to a first aspect of the present invention is a document image storage unit for storing a document image which is electronic image information data.
By extracting constituent elements such as sentences and charts from the document image stored in the document image storage means, and determining whether the constituent elements are a text area or a chart area,
A layout that outputs layout information including the inclusion relationship between the constituent elements and the layout relationship between the upper, lower, left, and right sides, and if the constituent element is a text area, outputs the content of the character area divided into character units as a character image. A character recognition for outputting the recognition result as a character code by recognizing an analysis means, a layout information storage means for storing the layout information obtained by the layout analysis means, and a character image obtained by the layout analysis means. Means, a character code correction means having a function of correcting and replacing a part of the character code obtained by the character recognition means with an appropriate character code, and a character image obtained by the layout analysis means, A character image in which the character codes obtained after correction by the character code correction means are stored in association with each other. It is configured by including a 憶 means.

【0016】また、第2の発明の文字認識装置における
文書画像記憶方式は、第1の発明の文字認識装置におけ
る文書画像記憶方式の各構成要件に加えて、第1の発明
のレイアウト解析手段は、第1の発明の文書画像格納手
段内に格納された文書画像から文章および図表等の構成
要素を抽出し、その構成要素が文章領域であるか図表領
域であるかを判断することにより、その構成要素が図表
領域である場合に、その構成要素の内容を図表画像とし
て出力する機能を有するとともに、前記レイアウト解析
手段によって出力された図表画像を格納する図表画像記
憶手段と、第1の発明のレイアウト情報記憶手段に格納
するレイアウト情報を読込んで、配置関係に対する変更
を加え、第1の発明の文字画像記憶手段内に格納する文
字画像および前記図表画像記憶手段に格納する図表画像
を読込んで、変更した配置関係に従った再配置を行って
出力するレイアウト編集手段と、を備えて構成されてい
る。
Further, the document image storage system in the character recognition device of the second aspect of the invention is the layout analysis means of the first aspect of the invention in addition to the respective constituents of the document image storage system in the character recognition device of the first aspect of the invention. By extracting a constituent element such as a sentence and a chart from the document image stored in the document image storage means of the first aspect of the invention and determining whether the constituent element is a text area or a chart area, When a constituent element is a chart area, it has a function of outputting the contents of the constituent element as a chart image, and a chart image storage means for storing the chart image output by the layout analysis means; The layout information stored in the layout information storage means is read, the layout relationship is changed, and the character image stored in the character image storage means of the first invention, Nde read a chart images stored in the table image storage means is configured to include a layout editing means for outputting performing rearrangement in accordance with the modified arrangement relationship.

【0017】一方、第3の発明の文字認識装置における
文書画像記憶方式は、電子化された画像情報データであ
る文書画像を格納し、前記文書画像から文章および図表
等の構成要素を抽出して前記構成要素が文章領域である
か図表領域であるかを判断することにより、前記構成要
素の間の包含関係および上下左右の配置関係を含むレイ
アウト情報を出力するとともに、前記構成要素が前記文
章領域である場合には、一文字単位に分割した文字領域
の内容を文字画像として出力し、得られた前記レイアウ
ト情報を格納し、得られた前記文字画像を認識すること
によりその認識結果を文字コードとして出力し、得られ
た前記文字コードの一部を適切な文字コードに修正して
置換え、得られた前記文字画像に対して修正後に得られ
た前記文字コードを対応付けて格納する、ことを含んで
いる。
On the other hand, the document image storage system in the character recognition device of the third invention stores a document image which is electronic image information data, and extracts constituent elements such as sentences and figures from the document image. By determining whether the constituent element is a text area or a graphic area, layout information including an inclusive relationship between the constituent elements and a layout relationship between top, bottom, left, and right is output, and the constituent element is the text area. If it is, the contents of the character area divided into units of one character is output as a character image, the obtained layout information is stored, and the obtained character image is recognized to recognize the recognition result as a character code. The character code obtained by correcting and replacing a part of the obtained character code with an appropriate character code, and correcting the obtained character image. Association with storing includes that.

【0018】さらに、第4の発明の文字認識装置におけ
る文書画像記憶方式は、電子化された画像情報データで
ある文書画像を格納し、前記文書画像から文章および図
表等の構成要素を抽出して前記構成要素が文章領域であ
るか図表領域であるかを判断することにより、前記構成
要素の間の包含関係および上下左右の配置関係を含むレ
イアウト情報を出力するとともに、前記構成要素が前記
文章領域である場合には、一文字単位に分割した文字領
域の内容を文字画像として出力して、前記構成要素が前
記図表領域である場合には、前記構成要素の内容を図表
画像として出力し、得られた前記レイアウト情報を格納
し、得られた前記文字画像を認識することによりその認
識結果を文字コードとして出力し、得られた前記文字コ
ードの一部を適切な文字コードに修正して置換え、得ら
れた前記文字画像に対して修正後に得られた前記文字コ
ードを対応付けて格納し、得られた前記図表画像を格納
し、前記レイアウト情報を読込んで前記配置関係に対す
る変更を加えて、前記文字画像および前記図表画像を読
込んで、前記配置関係を変更した配置関係に従った再配
置を行って出力する、ことを含んでいる。
Further, the document image storage system in the character recognition device of the fourth invention stores a document image which is electronic image information data, and extracts constituent elements such as sentences and diagrams from the document image. By determining whether the constituent element is a text area or a graphic area, layout information including an inclusive relationship between the constituent elements and a layout relationship between top, bottom, left, and right is output, and the constituent element is the text area. If it is, the content of the character area divided into units of one character is output as a character image, and if the constituent element is the chart area, the content of the constituent element is output as a chart image. The layout information is stored, the obtained character image is recognized, the recognition result is output as a character code, and a part of the obtained character code is appropriate. The character code corrected and replaced is stored, the character code obtained after correction is stored in association with the obtained character image, the obtained graphic image is stored, the layout information is read, and the layout is arranged. In addition to changing the relation, the character image and the graphic image are read, and the rearrangement is performed according to the arrangement relation in which the arrangement relation is changed, and the result is output.

【0019】[0019]

【実施例】次に、本発明の実施例について図面を参照し
て説明する。図1は本発明の文字認識装置における文書
画像記憶方式の第1の実施例を示したブロック図であ
る。まず、図1に示す文書画像格納手段10は、電子化
された画像情報データである文書画像を格納している。
Embodiments of the present invention will now be described with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of a document image storage system in a character recognition device of the present invention. First, the document image storage means 10 shown in FIG. 1 stores a document image which is electronic image information data.

【0020】そして、レイアウト解析手段11は、文書
画像格納手段10から得られた文書画像100を読込ん
で、文書画像100を文章領域や図表領域などの構成要
素に分け、その構成要素の包含関係や上下左右の配置関
係のレイアウト情報101を出力している。また、レイ
アウト解析手段11は、構成要素が文章領域であると判
断した場合には、文章領域に包まれる行領域を抽出し、
行領域に含まれる文字単位の文字領域を抽出し、そのレ
イアウト情報101を出力し、その文字領域を文字画像
102として出力している。
The layout analysis means 11 reads the document image 100 obtained from the document image storage means 10, divides the document image 100 into constituent elements such as a text area and a chart area, and determines the inclusion relation of the constituent elements. The layout information 101 regarding the layout relationship between the top, bottom, left and right is output. In addition, when the layout analysis unit 11 determines that the constituent element is a text area, it extracts a line area included in the text area,
A character area for each character included in the line area is extracted, the layout information 101 is output, and the character area is output as a character image 102.

【0021】一方、レイアウト情報記憶手段12は、レ
イアウト解析手段11から得られるレイアウト情報10
1を記憶している。また、文字認識手段13は、レイア
ウト解析手段11から得られた文字画像102を認識
し、認識結果である文字コード103を出力している。
そして、文字コード修正手段14は、文字認識手段13
から得られた文字コード103を修正する文字コードに
置き換えて、置き換えた文字コード104を出力してい
る。
On the other hand, the layout information storage means 12 has the layout information 10 obtained from the layout analysis means 11.
Remember 1 Further, the character recognition unit 13 recognizes the character image 102 obtained from the layout analysis unit 11 and outputs the character code 103 as the recognition result.
Then, the character code correction means 14 is used by the character recognition means 13
The character code 103 obtained from is replaced with the character code to be corrected, and the replaced character code 104 is output.

【0022】そこで、文字画像記憶手段15は、レイア
ウト解析手段11から得られた文字画像102と、文字
コード修正手段14から得られた文字コード104とを
対応付けて格納している。
Therefore, the character image storage means 15 stores the character image 102 obtained from the layout analysis means 11 and the character code 104 obtained from the character code correction means 14 in association with each other.

【0023】次に、第1の実施例の動作について説明す
る。まず、文書画像格納手段10に蓄えられた電子化さ
れた文書画像は、レイアウト解析手段11に送られてい
る。レイアウト解析手段11は、文書を文章領域と図表
領域との構成要素に分けて、その包含関係や配置関係を
レイアウト情報記憶手段12に記憶する。
Next, the operation of the first embodiment will be described. First, the digitized document image stored in the document image storage means 10 is sent to the layout analysis means 11. The layout analysis unit 11 divides the document into constituent elements of a text area and a chart area, and stores the inclusion relation and the arrangement relation in the layout information storage unit 12.

【0024】そして、文章領域であると判断した領域に
対しては、例えば、分割処理により文章領域を構成する
行領域の抽出および行領域を構成する文字単位の領域の
抽出を行う。また、それぞれの位置関係や配置関係は、
レイアウト情報記憶手段12にレイアウト情報として記
憶する。
Then, with respect to the area judged to be the text area, for example, the line area forming the text area and the area for each character forming the line area are extracted by the division processing. Also, the positional relationship and arrangement relationship of each
The layout information is stored in the layout information storage means 12 as layout information.

【0025】図2はレイアウト解析手段11により切出
された文字画像の一例を示した図である。これにより、
例えば、図2(a)に示す文章領域は、例えば、図2
(b)に示す文字領域に分離されて、各々の文字画像と
して出力される。
FIG. 2 is a view showing an example of a character image cut out by the layout analysis means 11. This allows
For example, the text area shown in FIG.
It is divided into the character areas shown in (b) and is output as each character image.

【0026】一方、図3はレイアウト情報記憶手段12
に記憶されるデータの一例を示した図である。文字画像
の包含関係や配置関係は、例えば、図3に示すような階
層的なレイアウト情報によって示される。ここでは、ポ
インタ30が文章領域を指して、ポインタ31が行を指
し、ポインタ32が文字を指し、レイアウトの物理的構
造が階層的に表現されている。また、文字画像には、文
字認識手段13で認識された文字コードが付加される。
On the other hand, FIG. 3 shows the layout information storage means 12
It is a figure showing an example of the data memorized by. The inclusion relation and the arrangement relation of the character images are indicated by, for example, hierarchical layout information as shown in FIG. Here, the pointer 30 points to a text area, the pointer 31 points to a line, the pointer 32 points to a character, and the physical structure of the layout is hierarchically expressed. The character code recognized by the character recognition unit 13 is added to the character image.

【0027】さらに、文字コード修正手段14では、文
字コードが修正される。ここでは、誤認識文字のマニュ
アルによる訂正機能が含まれている。そして、文字画像
は、文字コード修正手段14で修正された文字コードと
共に、文字画像記憶手段15に蓄えられる。
Further, the character code correction means 14 corrects the character code. Here, a manual correction function for misrecognized characters is included. Then, the character image is stored in the character image storage means 15 together with the character code corrected by the character code correction means 14.

【0028】図4は文字画像記憶手段15に記憶される
データの一例を示す図である。これにより、例えば、図
4に示すように、文字画像と文字コードとが対応付けて
記憶される。以上により、文字画像に文字コードを対応
付けた格納が達成される。
FIG. 4 is a diagram showing an example of data stored in the character image storage means 15. Thereby, for example, as shown in FIG. 4, the character image and the character code are stored in association with each other. As described above, the storage in which the character code is associated with the character image is achieved.

【0029】図5は本発明の文字認識装置における文書
画像記憶方式の第2の実施例を示すブロック図である。
図5の第2の実施例は、第1の実施例の各構成要素に加
え、レイアウト解析手段16には、図表画像記憶手段1
7が接続し、レイアウト情報記憶手段12,文字画像記
憶手段15,図表画像記憶手段17には、レイアウト編
集手段18が接続している。
FIG. 5 is a block diagram showing a second embodiment of the document image storage system in the character recognition device of the present invention.
In the second embodiment of FIG. 5, in addition to the components of the first embodiment, the layout analysis means 16 includes a chart image storage means 1
7 is connected, and a layout editing means 18 is connected to the layout information storage means 12, the character image storage means 15, and the chart image storage means 17.

【0030】次に、第2の実施例の動作について説明す
る。まず、レイアウト解析手段16は、文書画像格納手
段10から得られた文書画像100を読込んで、文書を
文章領域や図表領域などの構成要素に分け、その構成要
素の包含関係および上下左右の配置関係のレイアウト情
報101を出力する。
Next, the operation of the second embodiment will be described. First, the layout analysis unit 16 reads the document image 100 obtained from the document image storage unit 10 and divides the document into constituent elements such as a text area and a chart area, and the inclusive relationship and the upper, lower, left, and right layout relationship of the constituent elements. The layout information 101 of is output.

【0031】また、レイアウト解析手段16は、その構
成要素が文章領域であると判断した場合に、文章領域に
含まれる行領域を抽出し、行領域に含まれる文字単位の
文字領域を抽出し、その文字画像102を出力し、その
レイアウト情報101を出力する。さらに、その構成要
素が図または表であると判断した場合には、その図表画
像105を出力する。
When the layout analysis unit 16 determines that the constituent element is a text area, the layout analysis means 16 extracts a line area included in the text area and a character area in character units included in the line area. The character image 102 is output and the layout information 101 is output. Further, when it is determined that the constituent element is a figure or a table, the chart image 105 is output.

【0032】他方、図表画像記憶手段17は、図表画像
105を格納する。レイアウト編集手段18は、レイア
ウト情報記憶手段12から、文書のレイアウト情報10
6を読込み、そのレイアウト情報に変更を加え、変更し
た配置情報に従い、文字画像記憶手段15に蓄えられた
文字画像107と図表画像記憶手段17に蓄えられた図
表画像108とを再配置して編集結果109を出力す
る。
On the other hand, the chart image storage means 17 stores the chart image 105. The layout editing unit 18 stores the document layout information 10 from the layout information storage unit 12.
6 is read, the layout information is changed, and the character image 107 stored in the character image storage unit 15 and the chart image 108 stored in the chart image storage unit 17 are rearranged and edited according to the changed arrangement information. The result 109 is output.

【0033】[0033]

【発明の効果】以上説明したように、本発明の文字認識
装置における文書画像記憶方式を使用すると、例えば、
一度電子化し、データベース等に格納した既存文書を検
索し、出力する際に、文書中の文字強調といった属性情
報までをも含めて、元の文書と同様に再現することが可
能であるという効果がある。
As described above, when the document image storage system in the character recognition device of the present invention is used, for example,
When an existing document that has been digitized once and stored in a database or the like is searched for and output, it is possible to reproduce the same as the original document, including attribute information such as character emphasis in the document. is there.

【0034】また、本発明の文字認識装置における文書
画像記憶方式では、文字属性を保持したままで縦書き文
書を横書きにして印刷するなどのレイアウトを変更した
出力も可能になるという効果も有している。
Further, the document image storage system in the character recognition device of the present invention also has an effect that it is possible to output with a changed layout such as printing a vertically written document in horizontal writing while retaining the character attribute. ing.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文字認識装置における文書画像記憶方
式の第1の実施例を示すブロック図である。
FIG. 1 is a block diagram showing a first embodiment of a document image storage system in a character recognition device of the present invention.

【図2】レイアウト解析手段11により切出された文字
画像の一例を示す図である。
FIG. 2 is a diagram showing an example of a character image cut out by a layout analysis unit 11.

【図3】レイアウト情報記憶手段12に記憶されるデー
タの一例を示す図である。
FIG. 3 is a diagram showing an example of data stored in a layout information storage unit 12.

【図4】文字画像記憶手段15に記憶されるデータの一
例を示す図である。
FIG. 4 is a diagram showing an example of data stored in a character image storage unit 15.

【図5】本発明の文字認識装置における文書画像記憶方
式の第2の実施例を示すブロック図である。
FIG. 5 is a block diagram showing a second embodiment of the document image storage system in the character recognition device of the present invention.

【図6】従来の文字認識装置における文書画像記憶方式
の第1の例を示すブロック図である。
FIG. 6 is a block diagram showing a first example of a document image storage system in a conventional character recognition device.

【符号の説明】[Explanation of symbols]

10 文書画像格納手段 11 レイアウト解析手段 12 レイアウト情報記憶手段 13 文字認識手段 14 文字コード修正手段 15 文字画像記憶手段 16 レイアウト解析手段 17 図表画像記憶手段 18 レイアウト編集手段 30,31,32 ポインタ 61 文書画像メモリ 62 領域分割部 63 縦横情報記憶部 64 文字分離部 65 構造化データ記憶部 66 領域定義記憶部 67 領域探索部 68 抽出結果記憶部 10 document image storage means 11 layout analysis means 12 layout information storage means 13 character recognition means 14 character code correction means 15 character image storage means 16 layout analysis means 17 diagram image storage means 18 layout editing means 30, 31, 32 pointers 61 document images Memory 62 Area division unit 63 Vertical / horizontal information storage unit 64 Character separation unit 65 Structured data storage unit 66 Area definition storage unit 67 Area search unit 68 Extraction result storage unit

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06K 9/34 ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification code Internal reference number FI technical display location G06K 9/34

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 電子化された画像情報データである文書
画像を格納する文書画像格納手段と、 前記文書画像格納手段に格納された文書画像から文章お
よび図表等の構成要素を抽出して、その構成要素が文章
領域であるか図表領域であるかを判断することにより、
その構成要素間の包含関係および上下左右の配置関係を
含むレイアウト情報を出力するとともに、その構成要素
が文章領域である場合には、一文字単位に分割した文字
領域の内容を文字画像として出力するレイアウト解析手
段と、 前記レイアウト解析手段により得られたレイアウト情報
を格納するレイアウト情報記憶手段と、 前記レイアウト解析手段により得られた文字画像を認識
することにより、その認識結果を文字コードとして出力
する文字認識手段と、 前記文字認識手段により得られた一部の文字コードを適
切な文字コードに修正して置換える機能を有する文字コ
ード修正手段と、 前記レイアウト解析手段によって得られた文字画像に対
して、前記文字コード修正手段による修正後に得られた
文字コードを対応付けて格納する文字画像記憶手段と、
を備えることを特徴とする文字認識装置における文書画
像記憶方式。
1. A document image storage means for storing a document image which is electronic image information data, and a constituent element such as a sentence and a figure is extracted from the document image stored in the document image storage means, By determining whether the component is a text area or a chart area,
A layout that outputs layout information including the inclusion relationship between the constituent elements and the layout relationship between the upper, lower, left, and right sides, and if the constituent element is a text area, outputs the content of the character area divided into character units as a character image. Analysis means, layout information storage means for storing the layout information obtained by the layout analysis means, and character recognition for recognizing the character image obtained by the layout analysis means to output the recognition result as a character code. Means, a character code correction means having a function of correcting and replacing a part of the character code obtained by the character recognition means with an appropriate character code, and a character image obtained by the layout analysis means, A character image for storing the character code obtained after the correction by the character code correction means in association with each other. Image storage means,
A document image storage method in a character recognition device, comprising:
【請求項2】 請求項1記載の文字認識装置における文
書画像記憶方式の各構成要件に加えて、 請求項1記載のレイアウト解析手段は、請求項1記載の
文書画像格納手段内に格納された文書画像から文章およ
び図表等の構成要素を抽出し、その構成要素が文章領域
であるか図表領域であるかを判断することにより、その
構成要素が図表領域である場合に、その構成要素の内容
を図表画像として出力する機能を有するとともに、 前記レイアウト解析手段によって出力された図表画像を
格納する図表画像記憶手段と、 請求項1記載のレイアウト情報記憶手段に格納するレイ
アウト情報を読込んで配置関係に対する変更を加え、請
求項1記載の文字画像記憶手段に格納する文字画像およ
び前記図表画像記憶手段に格納する図表画像を読込ん
で、変更した配置関係に従った再配置を行って出力する
レイアウト編集手段と、を備えることを特徴とする文字
認識装置における文書画像記憶方式。
2. The layout analysis means according to claim 1 is stored in the document image storage means according to claim 1, in addition to the respective constituents of the document image storage system in the character recognition device according to claim 1. When a component such as a sentence and a chart is extracted from a document image and whether the component is a text area or a chart area, the content of the component is determined if the component is a chart area. A graphic image storage unit for storing the graphic image image output by the layout analysis unit; and a layout information stored in the layout information storage unit according to claim 1 for a layout relationship. The character image stored in the character image storage means according to claim 1 and the chart image stored in the chart image storage means are read and changed. A document image storage method in a character recognition device, comprising: a layout editing unit that rearranges data according to the layout relationship and outputs the layout data.
【請求項3】 電子化された画像情報データである文書
画像を格納し、 前記文書画像から文章および図表等の構成要素を抽出し
て前記構成要素が文章領域であるか図表領域であるかを
判断することにより、前記構成要素の間の包含関係およ
び上下左右の配置関係を含むレイアウト情報を出力する
とともに、前記構成要素が前記文章領域である場合に
は、一文字単位に分割した文字領域の内容を文字画像と
して出力し、 得られた前記レイアウト情報を格納し、 得られた前記文字画像を認識することによりその認識結
果を文字コードとして出力し、 得られた前記文字コードの一部を適切な文字コードに修
正して置換え、 得られた前記文字画像に対して修正後に得られた前記文
字コードを対応付けて格納する、ことを特徴とする文字
認識装置における文書画像記憶方式。
3. A document image, which is digitized image information data, is stored, and constituent elements such as sentences and charts are extracted from the document image to determine whether the constituent element is a text area or a chart area. By making a judgment, the layout information including the inclusion relationship between the constituent elements and the layout relationship of the upper, lower, left, and right sides is output, and when the constituent element is the text area, the contents of the character area divided into character units. Is output as a character image, the obtained layout information is stored, the obtained character image is recognized, and the recognition result is output as a character code. A character recognition device characterized in that the character image is corrected and replaced, and the obtained character image is stored in association with the character code obtained after the correction. Document image storage method that.
【請求項4】 電子化された画像情報データである文書
画像を格納し、 前記文書画像から文章および図表等の構成要素を抽出し
て前記構成要素が文章領域であるか図表領域であるかを
判断することにより、前記構成要素の間の包含関係およ
び上下左右の配置関係を含むレイアウト情報を出力する
とともに、前記構成要素が前記文章領域である場合に
は、一文字単位に分割した文字領域の内容を文字画像と
して出力して、前記構成要素が前記図表領域である場合
には、前記構成要素の内容を図表画像として出力し、 得られた前記レイアウト情報を格納し、 得られた前記文字画像を認識することによりその認識結
果を文字コードとして出力し、 得られた前記文字コードの一部を適切な文字コードに修
正して置換え、 得られた前記文字画像に対して修正後に得られた前記文
字コードを対応付けて格納し、 得られた前記図表画像を格納し、 前記レイアウト情報を読込んで前記配置関係に対する変
更を加えて、前記文字画像および前記図表画像を読込ん
で、前記配置関係を変更した配置関係に従った再配置を
行って出力する、ことを特徴とする文字認識装置におけ
る文書画像記憶方式。
4. A document image, which is electronic image information data, is stored, and constituent elements such as sentences and charts are extracted from the document image to determine whether the constituent element is a text area or a chart area. By making a judgment, the layout information including the inclusion relationship between the constituent elements and the layout relationship of the upper, lower, left, and right sides is output, and when the constituent element is the text area, the contents of the character area divided into character units. Is output as a character image, and when the component is the chart area, the contents of the component are output as a chart image, the obtained layout information is stored, and the obtained character image is displayed. Upon recognition, the recognition result is output as a character code, part of the obtained character code is corrected and replaced with an appropriate character code, and the obtained character image is The character code obtained after correction is stored in association with each other, the obtained graphic image image is stored, the layout information is read, the layout relationship is changed, and the character image and the graphic image are read. A document image storage method in a character recognition device, wherein the rearrangement is performed according to a layout relationship in which the layout relationship is changed, and the result is output.
JP5199408A 1993-08-11 1993-08-11 Document image storage device Expired - Lifetime JP2606560B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5199408A JP2606560B2 (en) 1993-08-11 1993-08-11 Document image storage device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5199408A JP2606560B2 (en) 1993-08-11 1993-08-11 Document image storage device

Publications (2)

Publication Number Publication Date
JPH0757046A true JPH0757046A (en) 1995-03-03
JP2606560B2 JP2606560B2 (en) 1997-05-07

Family

ID=16407305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5199408A Expired - Lifetime JP2606560B2 (en) 1993-08-11 1993-08-11 Document image storage device

Country Status (1)

Country Link
JP (1) JP2606560B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069256A (en) * 2013-09-27 2015-04-13 株式会社日立製作所 Character identification system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069256A (en) * 2013-09-27 2015-04-13 株式会社日立製作所 Character identification system

Also Published As

Publication number Publication date
JP2606560B2 (en) 1997-05-07

Similar Documents

Publication Publication Date Title
JP2579397B2 (en) Method and apparatus for creating layout model of document image
US20010042083A1 (en) User-defined search template for extracting information from documents
JPH10207988A (en) Method and device for character recognition
JPH0314184A (en) Document image rearrangement filing device
JP3178483B2 (en) Document processing device
JP5446877B2 (en) Structure identification device
JP2006065477A (en) Character recognition device
JPH0821057B2 (en) Document image analysis method
US20010016068A1 (en) Electronic document generating apparatus, electronic document generating method, and program thereof
JPH08180068A (en) Electronic filing device
JP2606560B2 (en) Document image storage device
JPH08153110A (en) Device and method for filing document
JPH0991371A (en) Character display device
JP2701350B2 (en) Document reading device
JP2560656B2 (en) Document filing system
JPH0743718B2 (en) Multimedia document structuring method
JPH05342325A (en) Document processor and form register device therefor
JPH0689330A (en) Image filing system
JPH1115826A (en) Document analyzer and its method
JPS6154569A (en) Document poicture processing system
JPH09204511A (en) Filing device
JPH07107711B2 (en) Document image processing device
JPH10320412A (en) Document generation device
JPH04302070A (en) Character recognizing device
JPH08202859A (en) Electronic filing device and its method

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19961217

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080213

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090213

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100213

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100213

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110213

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110213

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120213

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120213

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130213

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130213

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140213

Year of fee payment: 17

EXPY Cancellation because of completion of term