JPH06223223A - Device and method for electronic filing - Google Patents
Device and method for electronic filingInfo
- Publication number
- JPH06223223A JPH06223223A JP5009268A JP926893A JPH06223223A JP H06223223 A JPH06223223 A JP H06223223A JP 5009268 A JP5009268 A JP 5009268A JP 926893 A JP926893 A JP 926893A JP H06223223 A JPH06223223 A JP H06223223A
- Authority
- JP
- Japan
- Prior art keywords
- document
- attribute
- character
- candidate
- heading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、文書の一部分を見出し
とし、文書と対応付け記憶する電子ファイリング装置、
および、ファイリング方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an electronic filing apparatus which stores a part of a document as a heading and stores it in association with the document.
And a filing method.
【0002】[0002]
【従来の技術】近年、スキャナを用いるなどして文書を
読み込み、読み込んだ文書の一部分を見出しとして、読
み込んだ文書と対応付け、光磁気ディスクなどに記憶し
ておき、検索時には記憶されている見出しを表示し、表
示された見出しの中から呼び出したい文書の見出しを指
定することにより、記憶された文章を検索して、表示す
る電子ファイリング装置が発表されている。2. Description of the Related Art In recent years, a document is read using a scanner or the like, a part of the read document is used as a headline, and the read document is associated with the read document and stored in a magneto-optical disk or the like. Is displayed, and the headline of the document desired to be called is designated from the displayed headlines, and an electronic filing apparatus that retrieves and displays the stored text has been announced.
【0003】以下図面を参照しながら従来の電子ファイ
リング装置の一例について説明する。図4は従来の電子
ファイリング装置の一例を示すブロック図である。図4
において、41は文書読込手段でありファイリングを行
なう文書を読み込み、後述する見出切出手段43、及
び、記憶手段44に供給するものである。An example of a conventional electronic filing apparatus will be described below with reference to the drawings. FIG. 4 is a block diagram showing an example of a conventional electronic filing device. Figure 4
In the figure, reference numeral 41 is a document reading means for reading a document to be filing and supplying it to a finding / cutting-out means 43 and a storage means 44 which will be described later.
【0004】42は見出入力手段であり、ユーザによっ
て指示された見出しとする文書の部分の座標位置を入力
するものである。43は見出切出手段であり、上記見出
入力手段42から入力された座標位置にしたがって、文
書のイメージデータから、見出しとして入力された部分
のイメージデータを切り出すものである。Reference numeral 42 is a head entry inputting means for inputting the coordinate position of the portion of the document to be the heading designated by the user. Reference numeral 43 denotes a head cut-out means, which cuts out the image data of the portion input as the headline from the image data of the document according to the coordinate position input from the head input input means 42.
【0005】44は記憶手段であり、文書読込手段41
から読み込まれた文書のイメージデータと、見出切出手
段43によって切り出された見出しのイメージデータと
を対応付けて記憶するものである。45は検索対象入力
手段であり、保存された文書の検索時に、後述する表示
手段47に表示されている記憶手段44に記憶されてい
る見出しを示す見出し一覧の中から参照したい文書の見
出しを指示するものである。Reference numeral 44 is a storage means, which is a document reading means 41.
The image data of the document read from the image data and the image data of the headline cut out by the head cutout unit 43 are stored in association with each other. Reference numeral 45 denotes a search target inputting means, which designates a heading of a document to be referred from a heading list showing headings stored in a storage means 44 displayed on a display means 47, which will be described later, when a stored document is searched. To do.
【0006】46は検索手段であり、上記検索対象入力
手段45によって指示された見出しと対応付けて記憶さ
れている文書のイメージデータを記憶手段44のなかか
ら検索するものである。47は表示手段であり、読み込
まれた文書、及び、記憶手段44に記憶されている見出
しを見出し一覧として表示するものである。Reference numeral 46 is a search means for searching the storage means 44 for image data of a document stored in association with the headline designated by the search target input means 45. Reference numeral 47 is a display means for displaying the read document and the headings stored in the storage means 44 as a heading list.
【0007】以上のような従来の電子ファイリング装置
について、以下その動作を説明する。まず文書読込手段
41は、ファイリングしようとする文書をイメージデー
タとして読み込む。読み込まれた文書のイメージデータ
は見出切出手段43および記憶手段44に供給され、こ
れと同時に表示手段47に表示される。表示画面を参照
し、ユーザにより見出しとしようとする文書の部分が、
見出入力手段42から座標位置が入力されると、見出切
出手段43は、入力された文書の部分を文書のイメージ
データから切出し、見出しとして記憶手段44に供給す
る。記憶手段44は、見出切出手段43から受け取った
見出しのイメージデータと、文書読込手段41から受け
取った文書のイメージデータとを対応付けて記憶する。The operation of the conventional electronic filing apparatus as described above will be described below. First, the document reading means 41 reads a document to be filed as image data. The image data of the read document is supplied to the finding / cutting-out means 43 and the storage means 44 and simultaneously displayed on the display means 47. Referring to the display screen, the part of the document that the user intends to use as a headline
When the coordinate position is inputted from the finding input means 42, the finding / cutting-out means 43 cuts out the inputted document portion from the image data of the document and supplies it to the storage means 44 as a heading. The storage unit 44 stores the image data of the headline received from the finding / cutting-out unit 43 and the image data of the document received from the document reading unit 41 in association with each other.
【0008】また、文書を検索する場合は、図示しない
指示手段から、ユーザによって検索指示が入力される
と、検索手段46は、記憶手段44に記憶されている見
出しのイメージデータを読み出し、表示手段47は、検
索手段46読み出した見出しイメージデータを一覧にし
て表示する。ユーザーによって、見出し一覧の中の検索
を行なおうとする文書の見出しが、検索対象指示手段4
5から選択され、指示される。検索手段46は記憶手段
44に記憶されている見出しのイメージデータの中か
ら、指示された見出しのイメージデータと一致するもの
を検索し、指示された見出しのイメージデータと対応付
けられて記憶されている文書のイメージデータを記憶手
段44から読みだして、表示手段47に供給する。表示
手段47は、検索手段46から文書のイメージデータを
受け取り、指示された見出しに対応する文書として表示
を行なう。Further, when searching a document, when a user inputs a search instruction from an instruction means (not shown), the search means 46 reads out the image data of the headline stored in the storage means 44 and displays it. 47 displays a list of the index image data read by the search means 46. The headline of the document to be searched in the headline list by the user is the search target designating means 4
5 is selected and instructed. The search means 46 searches the image data of the headline stored in the storage means 44 for one that matches the image data of the instructed headline, and stores it in association with the image data of the instructed headline. The image data of the existing document is read from the storage means 44 and supplied to the display means 47. The display means 47 receives the image data of the document from the search means 46 and displays it as a document corresponding to the designated headline.
【0009】また、見出しを決定する方法として、上記
したような見出しとしたい領域の左上隅、右下隅の位置
を入力させる代わりに、文書一頁全体を縮小して見出画
像を作成する方法もある。As a method of determining a headline, instead of inputting the positions of the upper left corner and the lower right corner of the area to be a headline as described above, a method of creating a found image by reducing the entire page of a document is also possible. is there.
【0010】[0010]
【発明が解決しようとする課題】しかしながら、ユーザ
自身が見出し領域の位置を指定する方法では、ユーザが
入力された文書に再度目を通し、見出しとなる部分をユ
ーザの手作業により指定しなければ成らないため、ユー
ザの手を煩わすという問題を有していた。また、文書の
1頁全体を縮小して見出しとする方法では、ユーザの手
を煩わすことはないものの、文書検索の際に見出しの一
覧を見ても、縮小されているために、全体のレイアウト
程度の判別しかできず、却って分かり難くしてしまい、
文書の検索の際に使い勝手が悪いという問題があった。However, in the method in which the user himself / herself specifies the position of the headline region, the user must re-read the input document and manually specify the part to be the headline. Since this is not done, there is a problem that the user's hand is troubled. Further, in the method of reducing the entire one page of the document as the headline, the user's hand is not bothered, but even if the list of the headlines is looked at during the document search, since the size is reduced, the entire layout is reduced. It is only possible to determine the degree, which makes it difficult to understand,
There was a problem that it was not easy to use when searching for documents.
【0011】本発明は、上記問題点に鑑み、文書の保存
の際にユーザの手を煩わすことなく、且つ、文書検索時
の見出しの見やすい電子ファイリング装置、及び、ファ
イリング方法を提供することを目的とする。In view of the above problems, it is an object of the present invention to provide an electronic filing device and a filing method that do not bother the user when saving a document and that can easily see a headline when searching a document. And
【0012】[0012]
【課題を解決するための手段】上記目的を達成するため
に本発明の請求項1は、文字、及び/または、図形から
なる文書をイメージデータとして読み込む文書読込手段
と、前記文書読込手段により読み込まれた文書のイメー
ジデータから、その文書の見出しとなる領域の候補を切
り出す見出候補切出手段と、前記見出候補切出手段によ
り切り出された見出しとなる領域の候補の中から、見出
しを決定する見出決定手段と、前記見出決定手段により
決定された見出しとその見出し画像を有するイメージデ
ータとを関連づけて記憶する記憶手段と、とを備えたこ
とを特徴とする。In order to achieve the above object, the first aspect of the present invention provides a document reading means for reading a document consisting of characters and / or graphics as image data, and a document reading means for reading the document. From the image data of the document obtained, a heading is selected from the heading candidate cutting-out means for cutting out a candidate for the heading of the document and the heading area candidate cut out by the heading candidate cutting-out means. The present invention is characterized by further comprising: a finding determining means for determining; and a storing means for storing the heading determined by the finding determining means and image data having the heading image in association with each other.
【0013】請求項2の発明は、請求項1における見出
候補切出手段が、入力された文書のイメージデータ中か
ら、連結する黒画素の外接矩形を切り出す連結矩形切出
部と、前記連結矩形切出部により切り出された矩形の大
きさ、及び、形状から矩形内の黒画素が文字として属性
を持つか、図としての属性を持つか判定し、各矩形に対
して、文字属性または図属性を付与する矩形属性付与部
と、前記矩形属性付与部において文字属性を付与された
矩形全てに対して、近隣の矩形を距離、幅、高さの閾値
で統合して一文字の領域をとして認識するし、さらに、
各文字の領域の縦横方向の並び状態から、縦書きか、横
書きかの属性を付与する文字領域生成部、上記矩形属性
付与部により、図属性を付与された矩形に対して、各矩
形を一つの見出となる領域の候補として切り出す図属性
候補切出部と、上記、上記文字領域生成部により、一文
字の領域の認識、及び、縦書きか、横書きかの属性の付
与が行なわれた文字の領域を1パラグラフ毎に区切り、
1パラグラフを1つの見出となる領域の候補として切り
出す文字属性候補切出部と、を備えたことを特徴とす
る。According to a second aspect of the present invention, the finding candidate cutting-out means according to the first aspect is provided with a concatenated rectangular cutout portion for cutting out a circumscribed rectangle of black pixels to be concatenated from the image data of the input document, and the concatenation. Based on the size and shape of the rectangle cut out by the rectangle cutout unit, it is determined whether the black pixels in the rectangle have a character attribute or a figure attribute. With respect to the rectangle attribute assigning unit that assigns an attribute and all the rectangles to which the character attribute is assigned in the rectangle attribute assigning unit, neighboring rectangles are integrated by the thresholds of distance, width, and height to recognize a region of one character. And in addition,
Based on the arrangement state of the regions of each character in the vertical and horizontal directions, the character region generation unit that assigns the attribute of vertical writing or horizontal writing, and the rectangle attribute assigning unit assigns each rectangle to the rectangle to which the drawing attribute is assigned. Characters for which one character area is recognized and the attribute of vertical writing or horizontal writing is given by the figure attribute candidate cutting-out portion that is cut out as a candidate of one area to be found and the above-mentioned character area generating portion The area of is divided into paragraphs,
And a character attribute candidate cutout portion that cuts out one paragraph as a candidate for one area to be found.
【0014】請求項3の発明は、請求項2における上記
見出決定手段が、ユーザーが文書中で見出しとしたい部
分の特徴を入力する見出特徴入力部と、上記見出候補切
出手段から切り出された見出しとなる領域の候補の中か
ら、前記見出特徴入力部から入力された特徴と有するも
のを選択する見出選択部を備えたことを特徴する。According to a third aspect of the present invention, the finding determination means according to the second aspect includes the finding feature inputting section for the user to input a feature of a portion to be used as a heading in the document and the finding candidate cutting means. The present invention is characterized by further comprising a finding selection unit that selects, from among the candidates of the cut-out heading region, a feature and a feature input from the finding feature input unit.
【0015】請求項4の発明は、文字、及び/または、
図形からなる文書をイメージデータとして読み込む文書
読込ステップと、前記文書読込手段により読み込まれた
文書のイメージデータから、その文書の見出しとなる領
域の候補を切り出す見出候補切出ステップと、前記見出
候補切出手段により切り出された見出しとなる領域の候
補の中から、見出しを決定する見出決定ステップと、前
記見出決定手段により決定された見出しとその見出し画
像を有するイメージデータとを関連づけて記憶する記憶
ステップとを有することを特徴とする。The invention of claim 4 is a character and / or
A document reading step of reading a document consisting of figures as image data; a finding candidate cutting step of cutting out a candidate of a region serving as a heading of the document from the image data of the document read by the document reading means; From among the candidates for the area to be the headline cut out by the candidate cutting means, the headline determination step of determining the headline, and the headline determined by the headline determination means and the image data having the headline image are associated with each other. A storing step of storing.
【0016】請求項5の発明は、請求項4における見出
候補切出ステップが、入力された文書のイメージデータ
中から、連結する黒画素の外接矩形を切り出す第一のサ
ブステップと、上記第一のサブステップにより切り出さ
れた矩形の大きさ、及び、形状から矩形内の黒画素が文
字として属性を持つか、図としての属性を持つか判定
し、各矩形に対して、文字属性または図属性を付与する
第二のサブステップと、上記第二のサブステップにおい
て文字属性を付与された矩形全てに対して、近隣の矩形
を距離、幅、高さの閾値で統合して一文字の領域をとし
て認識するし、さらに、各文字の領域の縦横方向の並び
状態から、縦書きか、横書きかの属性を付与する第三の
サブステップと、上記第二のサブステップにより、図属
性を付与された矩形に対して、各矩形を一つの見出とな
る領域の候補として切り出す第四のサブステップと、上
記第三のサブステップにより、一文字の領域の認識、及
び、縦書きか、横書きかの属性の付与が行なわれた文字
の領域を1パラグラフ毎に区切り、1パラグラフを1つ
の見出となる領域の候補として切り出す第五のサブステ
ップと、を有することを特徴とする。According to a fifth aspect of the present invention, the finding candidate cutting step according to the fourth aspect includes a first sub-step of cutting out a circumscribed rectangle of black pixels to be connected from the image data of the input document, and the first sub-step. From the size and shape of the rectangle cut out in one sub-step, it is determined whether the black pixels in the rectangle have a character attribute or a figure attribute. For the second substep of assigning attributes and all the rectangles to which the text attributes were assigned in the second substep above, neighboring rectangles are integrated by the distance, width, and height thresholds to create a region of one character. In addition, the figure attribute is assigned by the third substep of assigning the attribute of vertical writing or horizontal writing from the arrangement state of the area of each character in the vertical and horizontal directions and the second substep described above. Rectangle On the other hand, the fourth substep of cutting out each rectangle as a candidate for one area to be found and the third substep above are used to recognize the area of one character and to give the attribute of vertical writing or horizontal writing. And a fifth sub-step of dividing the character area for which each is performed into paragraphs and cutting out one paragraph as a candidate for one found area.
【0017】請求項6の発明は、請求項5における見出
決定ステップが、ユーザーが文書中で見出しとしたい部
分の特徴を入力する第1のサブステップと、上記見出領
域候補切出ステップにより切り出された見出しとなる領
域の候補の中から、前記見出特徴入力部から入力された
特徴と有するものを選択する第二のサブステップと、を
有することを特徴する。According to a sixth aspect of the present invention, the finding determination step according to the fifth aspect includes the first substep in which the user inputs a feature of a portion to be used as a heading in the document and the finding area candidate cutting step. A second sub-step of selecting a feature and a feature input from the found feature input unit from the extracted candidates for the area to be the headline.
【0018】[0018]
【作用】請求項1の電子ファイリング装置において、文
書読込手段は、文字、及び/または、図形からなる文書
をイメージデータとして読み込む。見出候補切出手段
は、前記文書読込手段により読み込まれた文書のイメー
ジデータから、その文書の見出しとなる領域の候補を切
り出す。In the electronic filing apparatus according to the first aspect of the present invention, the document reading means reads a document consisting of characters and / or graphics as image data. The finding-candidate cutting-out means cuts out, from the image data of the document read by the document reading means, a candidate for a region serving as a headline of the document.
【0019】見出決定手段は、前記見出候補切出手段に
より切り出された見出しとなる領域の候補の中から、見
出しを決定する。記憶手段は、前記見出決定手段により
決定された見出しとその見出し画像を有するイメージデ
ータとを関連づけて記憶する。請求項2の電子ファイリ
ング装置は、請求項1記載の見出候補切出手段におい
て、連結矩形切出部が、入力された文書のイメージデー
タ中から、連結する黒画素の外接矩形を切り出す。The finding determining means determines a heading from the candidates of the area to be the heading cut out by the finding candidate cutting means. The storage means stores the headline decided by the finding decision means and the image data having the headline image in association with each other. According to another aspect of the electronic filing apparatus of the present invention, in the finding candidate cutout unit according to the first aspect, the connected rectangle cutout unit cuts out a circumscribed rectangle of connected black pixels from the image data of the input document.
【0020】矩形属性付与部が、前記連結矩形切出部に
より切り出された矩形の大きさ、及び、形状から矩形内
の黒画素が文字として属性を持つか、図としての属性を
持つか判定し、各矩形に対して、文字属性または図属性
を付与する。文字領域生成部が、前記矩形属性付与部に
おいて文字属性を付与された矩形全てに対して、近隣の
矩形を距離、幅、高さの閾値で統合して一文字の領域を
として認識するし、さらに、各文字の領域の縦横方向の
並び状態から、縦書きか、横書きかの属性を付与する。From the size and shape of the rectangle cut out by the concatenated rectangle cutout unit, the rectangle attribute assigning unit determines whether the black pixel in the rectangle has a character attribute or a graphic attribute. , A character attribute or a drawing attribute is given to each rectangle. The character area generation unit recognizes, as all the rectangles to which the character attribute is added by the rectangle attribute addition unit, adjacent rectangles by integrating the distance, width, and height thresholds as a one-character area, and The attribute of vertical writing or horizontal writing is added based on the arrangement state of the regions of each character in the vertical and horizontal directions.
【0021】図属性候補切出部が、上記矩形属性付与部
により、図属性を付与された矩形に対して、各矩形を一
つの見出となる領域の候補として切り出す。文字属性候
補切出部が、上記文字領域生成部により、一文字の領域
の認識、及び、縦書きか、横書きかの属性の付与が行な
われた文字の領域を1パラグラフ毎に区切り、1パラグ
ラフを一つの見出となる領域の候補として切り出す。
請求項3の電子ファイリング装置は、請求項2の見出決
定手段において、見出特徴入力部が、ユーザーが文書中
で見出しとしたい部分の特徴を入力する。The figure attribute candidate cutout section cuts out each rectangle from the rectangles to which the figure attribute is given by the above-mentioned rectangle attribute giving section, as a candidate for one area to be found. The character attribute candidate cutout unit divides the character region into which the character region generation unit recognizes the region of one character and gives the attribute of vertical writing or horizontal writing for each paragraph, and separates one paragraph. Cut out as a candidate for one area to be found.
In the electronic filing apparatus according to claim 3, in the finding determination means according to claim 2, the found-feature input unit inputs a feature of a portion that the user wants to be a headline in the document.
【0022】見出選択部が、上記見出候補切出手段から
切り出された見出しとなる領域の候補の中から、前記見
出特徴入力部から入力された特徴と有するものを選択す
る。The finding selection unit selects, from the candidates of the area to be the headline cut out by the finding candidate cutting unit, one having the feature input from the found feature input unit.
【0023】[0023]
【実施例】以下、本発明の実施例を図面を参照しながら
説明する。図1は本発明の実施例における電子ファイリ
ング装置のシステム構成を示すブロック図である。図1
において、1は文書読込手段であり、保存を行なう文書
をイメージデータとして読み込み、読み込んだイメージ
データを後述する見出候補切出手段2と記憶手段4に供
給するものである。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the system configuration of an electronic filing apparatus according to an embodiment of the present invention. Figure 1
In FIG. 1, reference numeral 1 denotes a document reading means, which reads a document to be saved as image data and supplies the read image data to a finding candidate cutout means 2 and a storage means 4 which will be described later.
【0024】2は見出候補切出手段であり、後述する矩
形候補切出部21、矩形属性付与部22、文字領域生成
部23を有しており、文書中の文字、及び、図の記載さ
れている部分を見出し候補領域として切り出すものであ
る。21は矩形候補切出部であり、文書のイメージデー
タを受け取り、1ラインづつスキャンしていき、図2に
示すようにイメージデータの黒画素の連続する領域の矩
形を切りだし、その矩形の左上隅の座標値(x1 、
y1 )、右下隅の座標値(x2 、y2 )、幅i、高さh
を記憶するものである。Reference numeral 2 denotes a finding candidate cutout unit, which has a rectangular candidate cutout unit 21, a rectangular attribute addition unit 22, and a character area generation unit 23, which will be described later, and describes the characters in the document and the drawings. The part that is displayed is cut out as a heading candidate area. Reference numeral 21 denotes a rectangle candidate cutout portion, which receives the image data of the document, scans one line at a time, cuts out a rectangle of a region where black pixels of the image data are continuous as shown in FIG. The coordinate value of the corner (x 1 ,
y 1 ), the coordinate value of the lower right corner (x 2 , y 2 ), width i, height h
Is to remember.
【0025】22は矩形属性付与部であり、上記矩形切
出部に記憶されている各矩形の左上隅、右下隅の座標
値、幅、高さを参照し、各矩形に対して、文字の一部の
矩形か、或いは、図の一部の矩形かを示す文字属性また
は図属性を付与するものである。さらに矩形属性付与部
22は、図属性が付与された矩形ひとつ、ひとつを図属
性の付与された見出し候補領域として切り出す。Reference numeral 22 denotes a rectangle attribute assigning unit, which refers to the coordinate values, widths, and heights of the upper left corner and lower right corner of each rectangle stored in the above rectangle cutout unit, and refers to each rectangle with the character A character attribute or a drawing attribute indicating whether the rectangle is a part of the rectangle or a part of the rectangle is added. Further, the rectangle attribute assigning unit 22 cuts out each one of the rectangles to which the figure attribute is assigned as a heading candidate area to which the figure attribute is assigned.
【0026】23は文字領域生成部であり、文字属性の
付与された矩形に注目し、横方向に矩形をスキャンし、
注目している矩形と一定閾値内にある文字属性の付与さ
れた他の矩形との統合を行い文字を形成する統合処理を
行なう。続いて、統合された文字の文字間隔から、文書
が横書きで有るか縦書きであるかを判断し、書式の属性
として、文書に付与するものである。Reference numeral 23 is a character area generation unit, which pays attention to a rectangle to which a character attribute is added, scans the rectangle in the horizontal direction,
An unifying process for forming a character is performed by integrating the focused rectangle and another rectangle having a character attribute within a certain threshold. Then, it is determined from the character spacing of the integrated characters whether the document is in horizontal writing or vertical writing and is added to the document as a format attribute.
【0027】また、上記のように統合処理を行なうこと
で、形成された文字の高さ、幅等の大きさに基づいて、
各文字が、拡大文字、縮小文字、或いは、通常の大きさ
の文字かを判別する。また、文字属性が付与された矩形
のなかで所定の高さを有し、一定の閾値以上の幅を有
し、当該矩形の上部の一定の閾値内に文字が存在するも
のをアンダーラインとする。Further, by performing the integration processing as described above, based on the size such as height and width of the formed characters,
It is determined whether each character is an enlarged character, a reduced character, or a normal size character. In addition, an underline is a rectangle having a character attribute, which has a predetermined height, a width equal to or larger than a certain threshold value, and a character existing within a certain threshold value above the rectangle. .
【0028】さらに、文字領域生成部23は、図3に示
すように、文書中に存在する空間aを1パラグラフの区
切れとし、1パラグラフをひとつの文字属性の付与され
た見出し候補領域として切り出す。3は見出決定手段で
あり、後述する書式判定部31と、見出特徴入力部32
と、見出選択部33を有しており、上記見出候補領域切
出手段2によって切りだされた見出し候補領域の中か
ら、見出特徴入力部32から入力されたユーザの指定す
る特徴を参照して見出しとなるものを決定するものであ
る。Further, as shown in FIG. 3, the character area generating unit 23 divides the space a existing in the document into one paragraph, and cuts out one paragraph as a heading candidate area having one character attribute. . Reference numeral 3 denotes a finding determination means, which is a format determining unit 31 and a finding feature input unit 32 described later.
And a finding selection unit 33, and selects the features specified by the user input from the finding feature input unit 32 from the heading candidate regions cut out by the finding candidate region cutting unit 2. It refers to what determines the headline.
【0029】31は書式判定部であり、書式の属性によ
り文書が縦書きか横書きかを判定するものである。32
は見出特徴入力部であり、ユーザからの見出しとして作
成したい文書中の特徴の情報を入力するものである。3
3見出選択部であり、上記見出特徴入力部から入力され
た文書の特徴の情報と見出し候補切り出し手段2の処理
結果を参照し、見出し候補の中から見出しとなるものを
選択するものである。A format determination unit 31 determines whether the document is written vertically or horizontally depending on the attributes of the format. 32
Is a found-feature input unit for inputting information of features in a document that the user wants to create as a headline. Three
3 heading selection unit for selecting a heading from the heading candidates by referring to the information on the characteristics of the document input from the heading characteristics inputting unit and the processing result of the heading candidate cutout unit 2. is there.
【0030】4は記憶手段であり、文書読込手段1から
読み込んだ文書のイメージデータと、見出候補作成手段
3によって決定された見出しのイメージデータとを対応
付けて記憶するものである。5は検索対象入力手段よ
り、ユーザの指示によって、表示された記憶手段4に記
憶されている見出しを示す見出し一覧の中から、ユーザ
の参照したい文書の見出しを指定するものである。例え
ば、入力にはマウス等が用いられる。Reference numeral 4 denotes a storage unit which stores the image data of the document read from the document reading unit 1 and the image data of the headline determined by the finding candidate creating unit 3 in association with each other. Reference numeral 5 designates a headline of a document that the user wants to refer to from a headline list showing headlines stored in the displayed storage unit 4 according to a user's instruction from the search target input means. For example, a mouse or the like is used for input.
【0031】6は検索手段であり、記憶手段4を検索
し、検索対象入力手段5から入力されたと見出しと対応
付けて格納されている文書のイメージデータを読み出す
ものである。7は表示手段であり、文書、及び、見出し
一覧を表示するものである。以上のように構成された電
子ファイリング装置についてその動作を以下に説明す
る。Reference numeral 6 denotes a search means, which searches the storage means 4 and reads out the image data of the document stored in association with the headline input from the search target input means 5. Reference numeral 7 is a display means for displaying a document and a list of headings. The operation of the electronic filing device configured as described above will be described below.
【0032】先ず、文書読込手段1は、保存を行なう文
書をイメージデータとして読み込む。読み込まれたイメ
ージデータは、記憶手段4に供給され記憶されると共
に、見出候補切出手段2に供給される。供給されたイメ
ージデータは、見出切出手段2の連結矩形切出部21が
受け取り、イメージデータの左上から右方向へ1ライン
づつスキャンしていき、黒画素の連結する領域の矩形を
切り出し、その矩形の左上隅、右下隅の座標値、幅、高
さを記憶していく。First, the document reading means 1 reads a document to be saved as image data. The read image data is supplied to and stored in the storage means 4 and is also supplied to the finding candidate cutout means 2. The supplied image data is received by the connected rectangular cutout unit 21 of the cutout cutout unit 2, and the image data is scanned line by line from the upper left to the right to cut out a rectangle of a region where black pixels are connected, The coordinates, width, and height of the upper left corner and lower right corner of the rectangle are stored.
【0033】続いて、矩形属性付与部22は、連結矩形
切出部21から切り出した各矩形の左上隅、右下隅の座
標値、幅、高さを受け取り、各矩形の幅、高さいずれか
の値が一定の閾値以下ならば、その矩形に文字属性を付
与する。また、文字属性が付与されない矩形には図属性
を付与する。さらに図属性が付与された矩形のひとつ、
ひとつを見出し候補領域として切り出す。Next, the rectangle attribute assigning section 22 receives the coordinate values, the width and the height of the upper left corner and the lower right corner of each rectangle cut out from the connected rectangle cutting section 21, and determines which of the width and height of each rectangle. If the value of is less than or equal to a certain threshold value, the rectangle is given a character attribute. Further, the drawing attribute is given to the rectangle to which the character attribute is not given. One of the rectangles to which the figure attribute is added,
Cut out one as a heading candidate area.
【0034】それぞれの矩形への文字属性、及び、図属
性の付与が終了すると、文字領域生成部23は、文字属
性の着いた矩形に着目し、矩形属性付与部22から当該
矩形の左上隅、右下隅の座標値、幅、高さ、属性値を受
け取る。次に、矩形を横方向にスキャンして、現在着目
している文字属性の付いた矩形と一定閾値内にある他の
文字属性をもつ矩形を一文字として統合していく。When the character attributes and the drawing attributes have been added to the respective rectangles, the character area generation unit 23 focuses on the rectangles having the character attributes, and the rectangle attribute addition unit 22 determines the upper left corner of the rectangles. Receives the coordinate value, width, height, and attribute value of the lower right corner. Next, the rectangle is scanned in the horizontal direction, and the rectangle with the character attribute currently being focused on and the rectangle with other character attributes within a certain threshold are integrated as one character.
【0035】文字の統合が終了すると、文字の左右の距
離を検出し、一定の閾値以下であれば、横書きの属性、
それ以外は縦書きの属性を付与する。また、各文字が、
拡大文字、縮小文字、或いは、通常の大きさの文字かの
判別、アンダーラインの検出を行なう。さらに、1パラ
グラフを一つの見出し領域とし切り出す。このように、
見出候補切出手段2によって、図属性、または、文字属
性が付与された見出し候補領域が切り出されると、続い
て、見出決定手段3では、以下のような処理が行なわれ
る。When the integration of the characters is completed, the distance between the left and right of the characters is detected.
Otherwise, the attribute of vertical writing is added. Also, each character is
It is determined whether the character is an enlarged character, a reduced character, or a character of a normal size, and an underline is detected. Further, one paragraph is cut out as one heading area. in this way,
When the headline candidate area to which the figure attribute or the character attribute is attached is cut out by the heading candidate cutout means 2, subsequently, the heading determination means 3 performs the following processing.
【0036】先ず、見出特徴入力部32から、文書の見
出しとしたい部分の特徴が入力される。この際、入力を
行なう特徴としては、文書の拡大文字の部分、文書のタ
イトル部分、アンダーライン部分、或いは、図の部分等
をあげることができる。見出し特徴入力部32から、文
書の見出しとしたい部分の特徴の情報が、文書の文字が
記載されている部分についての特徴の場合、書式判定部
31は、文字属性を持つ領域に付与された書式の属性か
ら文書が縦書きか、横書きかを判定する。判定の結果が
縦書きの場合、見出選択部33は、文字領域生成部23
の処理結果を参照し、文書の右半分に存在する見出し候
補領域の中から、見出特徴入力部32から入力された特
徴を有する見出し候補領域を選択し、文書の見出しとす
る。First, the found-feature input unit 32 inputs the features of a portion to be used as a document headline. At this time, the input feature may be an enlarged character portion of the document, a title portion of the document, an underlined portion, a figure portion, or the like. When the feature information of the portion to be used as the headline of the document from the headline feature input unit 32 is the feature of the portion in which the characters of the document are described, the format determination unit 31 determines that the format assigned to the area having the character attribute. Whether the document is written vertically or horizontally is determined from the attribute of. When the result of the determination is vertical writing, the finding selection unit 33 determines that the character area generation unit 23
With reference to the processing result of (1), a headline candidate area having a feature input from the found-out feature input unit 32 is selected from the headline candidate areas existing in the right half of the document and set as the headline of the document.
【0037】判定の結果が横書きの場合、見出選択部3
3は、文字領域生成部23の処理結果を参照し、文書の
上半分に存在する見出し候補領域の中から、見出特徴入
力部32から入力された特徴を有する見出し候補領域を
選択し、文書の見出しとする。具体的には、入力された
特徴が、文書の拡大文字部分であれば、見出し決定部3
3は、見出し候補領域の中から文字領域生成部23によ
り拡大文字と判定された文字を含む見出し候補領域を選
択し見出しとする。If the result of the determination is horizontal writing, the finding selection unit 3
3 refers to the processing result of the character area generation unit 23, selects a heading candidate area having the characteristics input from the found-characteristic input unit 32 from the heading candidate areas existing in the upper half of the document, As the heading. Specifically, if the input feature is the enlarged character portion of the document, the headline determining unit 3
3 selects a heading candidate area including a character determined to be an enlarged character by the character area generation unit 23 from the heading candidate areas and sets it as a heading.
【0038】また、文書のタイトル部分という特徴が入
力された場合は、見出し候補領域の中から文書の最初の
行を含む見出し候補領域を選択し、見出しとする。さら
に、アンダーラインの部分という特徴が入力された場合
は、見出し候補領域の中から文字領域生成部23でアン
ダーラインと判定された矩形を含む見出し候補領域を選
択し、見出しとする。When the feature of the title portion of the document is input, the heading candidate area including the first line of the document is selected from the heading candidate areas and set as the heading. Further, when the feature of the underlined portion is input, a headline candidate area including a rectangle determined to be underlined by the character area generation unit 23 is selected from the headline candidate areas and set as a headline.
【0039】一方、図の領域を特徴部分とする入力が見
出特徴入力部から入力されている場合は、図属性のつい
た図見出し候補領域のなかで、一番領域の広いものを見
出しとする。上記のように、決定された見出しは、文書
読込手段1から読み込まれた文書のイメージデータと対
応付けて記憶手段4に記憶される。On the other hand, when an input having a figure area as a characteristic portion is input from the found-feature input section, the area having the widest area among the figure headline candidate areas having the figure attribute is set as the headline. To do. As described above, the determined headline is stored in the storage unit 4 in association with the image data of the document read from the document reading unit 1.
【0040】上記のように、ファイリング装置に保存さ
れている文書を検索する際の処理は、前記した従来の方
法と同じなので説明を省略する。尚、上記見出候補切出
手段2で行なった、文字、及び、図、書式の属性の付与
の方法は公知のものであり、上記実施例に限るものでは
ない。As described above, the process for retrieving the document stored in the filing device is the same as the above-mentioned conventional method, and therefore its explanation is omitted. The method of assigning characters, figures, and format attributes performed by the finding candidate cutout unit 2 is publicly known and is not limited to the above embodiment.
【0041】[0041]
【発明の効果】以上説明したように、本発明によれば、
文書保存の見出し決定の際に、ユーザの指定した特徴を
有する見出しの位置を、ユーザーが逐一指示する必要が
なく、ユーザの手を煩わすことがない。また、文書の一
部分を見出しとするため、文書一頁全体を縮小して見出
しとする場合に比べ、文書検索の際に見出しが見やす
い。As described above, according to the present invention,
When determining the headline for document storage, the user does not need to specify the position of the headline having the characteristics specified by the user, and the user's hand is not bothered. In addition, since a part of the document is used as the headline, the headline is easier to see during the document search than when the entire page of the document is reduced and used as the headline.
【0042】したがって、文書の保存、及び、文書の検
索の際に使い勝手の良い電子ファイル装置と電子ファイ
リング方法を提供することができた。Therefore, it is possible to provide an electronic filing device and an electronic filing method which are easy to use when storing and retrieving a document.
【図1】本発明の電子ファイリング装置のブロック図で
ある。FIG. 1 is a block diagram of an electronic filing device of the present invention.
【図2】矩形の切出の処理の説明を行なうための図であ
る。FIG. 2 is a diagram for explaining a rectangular cutout process.
【図3】1パラグラフごとの区切れの説明を行なうため
の図である。FIG. 3 is a diagram for explaining a break for each paragraph.
【図4】従来の電子ファイリング装置のブロック図であ
る。FIG. 4 is a block diagram of a conventional electronic filing device.
1 文書読込手段 2 見出候補切出手段 3 見出決定手段 4 記憶手段 21 連結矩形切出部 22 矩形属性付与部 23 文字領域生成部 31 書式判定部 32 見出特徴入力部 33 見出選択部 1 Document Reading Means 2 Finding Candidate Extracting Means 3 Finding Determining Means 4 Storage Means 21 Concatenated Rectangle Extracting Sections 22 Rectangular Attribute Assigning Sections 23 Character Area Generating Sections 31 Format Determining Sections 32 Finding Feature Input Sections 33 Finding Selection Sections
Claims (6)
をイメージデータとして読み込む文書読込手段と、 前記文書読込手段により読み込まれた文書のイメージデ
ータから、その文書の見出しとなる領域の候補を切り出
す見出候補切出手段と、 前記見出候補切出手段により切り出された見出しとなる
領域の候補の中から、見出しを決定する見出決定手段
と、 前記見出決定手段により決定された見出しとその見出し
画像を有するイメージデータとを関連づけて記憶する記
憶手段と、 を備えたことを特徴とする電子ファイリング装置。1. A document reading unit for reading a document consisting of characters and / or graphics as image data, and a candidate for a region serving as a heading of the document is cut out from the image data of the document read by the document reading unit. Heading determined by the heading determined by the heading determined by the heading determined by the heading-out candidate cutting-out means, among the candidates of the area to be the heading cut out by the heading-out candidate cutting-out means. An electronic filing device comprising: a storage unit that stores image data having the index image in association with each other.
書のイメージデータ中から、連結する黒画素の外接矩形
を切り出す連結矩形切出部と、 前記連結矩形切出部により切り出された矩形の大きさ、
及び、形状から矩形内の黒画素が文字として属性を持つ
か、図としての属性を持つか判定し、各矩形に対して、
文字属性または図属性を付与する矩形属性付与部と、 前記矩形属性付与部において文字属性を付与された矩形
全てに対して、近隣の矩形を距離、幅、高さの閾値で統
合して一文字の領域として認識する。さらに、各文字の
領域の縦横方向の並び状態から、縦書きか、横書きかの
属性を付与する文字領域生成部、 上記矩形属性付与部により、図属性を付与された矩形に
対して、各矩形を一つの見出となる領域の候補として切
り出す図属性候補切出部と、 上記、上記文字領域生成部により、一文字の領域の認
識、及び、縦書きか、横書きかの属性の付与が行なわれ
た文字の領域を1パラグラフ毎に区切り、1パラグラフ
を1つの見出しとなる領域の候補として切り出す文字属
性候補切出部と、 を備えたことを特徴とする請求項1に記載の電子ファイ
リング装置。2. The finding candidate cutout means cuts out a circumscribed rectangle of a black pixel to be connected from the input image data of a document, and a connected rectangle cutout part. The size of the rectangle,
Also, it is determined from the shape whether the black pixels in the rectangle have the attribute as a character or as the figure, and for each rectangle,
A rectangle attribute assigning unit that assigns a character attribute or a drawing attribute, and for all rectangles to which the character attribute is assigned in the rectangle attribute assigning unit, neighboring rectangles are integrated by the distance, width, and height thresholds to form a single character. Recognize as a region. Furthermore, a character area generation unit that adds an attribute of vertical writing or horizontal writing from the arrangement state of the areas of each character in the vertical and horizontal directions. Figure attribute candidate cutout section that cuts out as a candidate of one area to be found, and the above-mentioned character area generation section, recognizes the area of one character and gives the attribute of vertical writing or horizontal writing. The electronic filing device according to claim 1, further comprising: a character attribute candidate cutout unit that divides the region of the character into paragraphs and cuts out one paragraph as a candidate for a region that serves as one heading.
で見出しとしたい部分の特徴を入力する見出特徴入力部
と、 上記見出候補切出手段から切り出された見出しとなる領
域の候補の中から、前記見出特徴入力部から入力された
特徴と有するものを選択する見出選択部を備えたことを
特徴する請求項2記載の電子ファイリング装置。3. The finding feature determining unit inputting a feature of a portion that a user wants to use as a headline in a document, and a candidate for a region serving as a headline cut out from the finding candidate cutout unit. 3. The electronic filing apparatus according to claim 2, further comprising a finding selection unit that selects a feature having the features input from the finding feature input unit from among the features.
をイメージデータとして読み込む文書読込ステップと、 前記文書読込手段により読み込まれた文書のイメージデ
ータから、その文書の見出しとなる領域の候補を切り出
す見出候補切出ステップと、 前記見出候補切出手段により切り出された見出しとなる
領域の候補の中から、見出しを決定する見出決定ステッ
プと、 前記見出決定手段により決定された見出しとその見出し
画像を有するイメージデータとを関連づけて記憶する記
憶ステップとを有することを特徴とする電子ファイリン
グ方法。4. A document reading step of reading a document consisting of characters and / or graphics as image data, and a candidate for a region to be a heading of the document is cut out from the image data of the document read by the document reading means. A finding candidate cutting step, a finding deciding step of deciding a heading from among the candidates of the area to be the heading cut out by the finding candidate cutting means, and a heading decided by the finding deciding means And a storage step of storing the image data having the heading image in association with each other.
素の外接矩形を切り出す第一のサブステップと、 上記第一のサブステップにより切り出された矩形の大き
さ、及び、形状から矩形内の黒画素が文字として属性を
持つか、図としての属性を持つか判定し、各矩形に対し
て、文字属性または図属性を付与する第二のサブステッ
プと、 上記第二のサブステップにおいて文字属性を付与された
矩形全てに対して、近隣の矩形を距離、幅、高さの閾値
で統合して一文字の領域をとして認識するし、さらに、
各文字の領域の縦横方向の並び状態から、縦書きか、横
書きかの属性を付与する第三のサブステップと、 上記第二のサブステップにより、図属性を付与された矩
形に対して、各矩形を一つの見出となる領域の候補とし
て切り出す第四のサブステップと、 上記第三のサブステップにより、一文字の領域の認識、
及び、縦書きか、横書きかの属性の付与が行なわれた文
字の領域を1パラグラフ毎に区切り、1パラグラフを1
つの見出となる領域の候補として切り出す第五のサブス
テップと、 を有することを特徴とする請求項4に記載の電子ファイ
リング方法。5. The finding candidate cutout step is a first substep of cutting out a circumscribed rectangle of black pixels to be connected from the image data of the input document, and the first substep. From the size and shape of the rectangle, it is judged whether the black pixels in the rectangle have the attribute as a character or the attribute as a figure, and the second sub that assigns the character attribute or the figure attribute to each rectangle. Step, with respect to all the rectangles to which the character attribute is added in the second sub-step, the neighboring rectangles are integrated with the thresholds of the distance, width, and height to recognize a region of one character, and further,
From the vertical and horizontal arrangement of the areas of each character, the third sub-step of assigning the attribute of vertical writing or horizontal writing, and the rectangle to which the drawing attribute is assigned by the second sub-step The fourth substep of cutting out a rectangle as a candidate for one area to be found, and the third substep above, recognition of the area of one character,
Also, the character area to which the attribute of vertical writing or horizontal writing is added is divided into paragraphs and one paragraph is divided into one.
The fifth sub-step of cutting out as a candidate for one area to be found, and the electronic filing method according to claim 4.
る第1のサブステップと、 上記見出領域候補切出ステップにより切り出された見出
しとなる領域の候補の中から、前記見出特徴入力部から
入力された特徴と有するものを選択する第二のサブステ
ップと、 を有することを特徴する請求項5記載の電子ファイリン
グ装置。6. The finding determining step includes a first substep in which a user inputs a feature of a portion to be used as a heading in a document, and an area to be a heading cut out by the heading area candidate cutting step. The electronic filing apparatus according to claim 5, further comprising: a second sub-step of selecting, from candidates, a feature and a feature input from the found feature input unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5009268A JPH06223223A (en) | 1993-01-22 | 1993-01-22 | Device and method for electronic filing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5009268A JPH06223223A (en) | 1993-01-22 | 1993-01-22 | Device and method for electronic filing |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06223223A true JPH06223223A (en) | 1994-08-12 |
Family
ID=11715707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5009268A Pending JPH06223223A (en) | 1993-01-22 | 1993-01-22 | Device and method for electronic filing |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06223223A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563498A (en) * | 2020-04-30 | 2020-08-21 | 广东小天才科技有限公司 | Method and device for collecting questions, electronic equipment and storage medium |
-
1993
- 1993-01-22 JP JP5009268A patent/JPH06223223A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563498A (en) * | 2020-04-30 | 2020-08-21 | 广东小天才科技有限公司 | Method and device for collecting questions, electronic equipment and storage medium |
CN111563498B (en) * | 2020-04-30 | 2024-01-19 | 广东小天才科技有限公司 | Method and device for collecting questions, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5509092A (en) | Method and apparatus for generating information on recognized characters | |
JPH05151254A (en) | Method and system for processing document | |
JP2010123002A (en) | Document image layout device | |
JPH0521267B2 (en) | ||
JPH06223223A (en) | Device and method for electronic filing | |
JPH0612540B2 (en) | Document creation support device | |
JPH08180068A (en) | Electronic filing device | |
JP3787377B2 (en) | Document orientation determination method and apparatus, and character recognition method and apparatus | |
JP2003331299A (en) | Device, method and program for displaying reduced image, and recording medium recorded with program | |
JP2003256772A (en) | Character recognizing device and recording medium | |
JP5650683B2 (en) | Image processing apparatus, image processing method, and image processing program | |
JP3052438B2 (en) | Table recognition device | |
JP3424942B2 (en) | Bilingual image forming device | |
JPH1166065A (en) | Image layout device and program recording medium therefor | |
JPH0830725A (en) | Device and method for processing image | |
JPH09269970A (en) | Method for recognizing character and its device | |
JPH09305704A (en) | Word processor | |
JPH103516A (en) | Method and device for processing information | |
JPH08263588A (en) | Character recognition device | |
JPH09319537A (en) | Information display device | |
JPH11187231A (en) | Image retrieving device and image retrieval method | |
JPH08202859A (en) | Electronic filing device and its method | |
JP3218678B2 (en) | Information selection output device and method | |
JPH08293033A (en) | Information processor | |
JPH09146947A (en) | Method and device for sequencing character area |