JP2023005163A - Document processing method and document processor - Google Patents
Document processing method and document processor Download PDFInfo
- Publication number
- JP2023005163A JP2023005163A JP2021106909A JP2021106909A JP2023005163A JP 2023005163 A JP2023005163 A JP 2023005163A JP 2021106909 A JP2021106909 A JP 2021106909A JP 2021106909 A JP2021106909 A JP 2021106909A JP 2023005163 A JP2023005163 A JP 2023005163A
- Authority
- JP
- Japan
- Prior art keywords
- page
- document
- area
- boundary
- creation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、文書処理方法、及び文書処理装置に関するものである。 The present invention relates to a document processing method and a document processing apparatus.
従来の文書管理システムでは、スキャナで読み込んだ文書画像群の内容をオペレータが目視でチェックし、ツールを利用して文書の区切り位置を指定することにより、文書画像群を文書単位に分割して登録していた。そのため、オペレータが文書の区切り位置を判定するために労力を要し、文書登録時の作業の妨げとなっていた。 In a conventional document management system, an operator visually checks the contents of a group of document images read by a scanner and uses a tool to specify the position of document separation, dividing the group of document images into document units and registering them. Was. For this reason, the operator has to work hard to determine the document delimiter position, which hinders the document registration work.
この対策の一つとして、特許文献1及び特許文献2には、スキャナで文書を読込む際、機械が容易に判別可能な仕切り用紙を予め文書間に挟むことで、文書を半自動的に分割する方式が提案されている。また、他の対策として、特許文献3には、ページ下部に空白領域を有する場合に文書の最終ページとみなし、最終ページの次のページに見出し領域を持つページが来るか来ないかで原稿読み取り順序の正誤判定を行う方式が提案されている。特許文献4では、着目ページ内の情報(予約語の有無、空白領域の高さ、ヘッダ領域内文字認識結果)と前ページとの比較情報(単語の類似性、用紙サイズの相違、平均文字サイズの相違、文字列方向の相違)とを利用し、文書の非連続性を検出している。このように、文書の非連続性を検出することで先頭ページを判別することができる。
As one of the countermeasures, in
しかしながら、上記従来技術には以下に記載する課題がある。例えば、仕切り用紙を用いて文書を分割する方法では、予め文書間に仕切り用紙を人手で挿入する作業を要するという課題がある。ページ下部に空白領域を有する場合に文書の最終ページとみなす方法、又は、文書の非連続性を検出することで先頭ページを判別する方法では、表や図の一部が本文最終ページの次ページ以降に掲載されている場合に文書区切りを誤って判別してしまう課題がある。或いは、製本文書の場合には、本文の後にページ合わせ用の空白ページが挿入されることがあるが、この場合にも文書区切りを誤って判別してしまう。 However, the conventional technology described above has the following problems. For example, in the method of dividing a document using partition sheets, there is a problem that it is necessary to manually insert the partition sheets between documents in advance. In the method of determining the last page of the document when there is a blank area at the bottom of the page, or the method of determining the first page by detecting the discontinuity of the document, part of the table or figure is the next page of the last page of the text There is a problem that the document delimiter is erroneously determined when it is published later. Alternatively, in the case of a bound document, a blank page for page alignment may be inserted after the main text, and in this case also, the document delimiter is erroneously determined.
本発明は、上述の課題の少なくとも一つに鑑みて成されたものであり、種々の構成の文書について、それらの文書を読み取って得られる画像データから文書の境界を的確に判別する仕組みを提供する。 SUMMARY OF THE INVENTION The present invention has been made in view of at least one of the above problems, and provides a mechanism for accurately discriminating the boundaries of documents of various configurations from image data obtained by reading the documents. do.
本発明は、例えば、文書作成方法であって、文書をページ単位で画像データとして取得する取得工程と、前記取得された画像データからページごとに所定の条件を満たす境界ページの兆候を検出する検出工程と、前記検出工程において検出された境界ページの兆候を含むページと、該ページに隣接する隣接ページの情報とに基づいて、文書の境界となる1以上の境界ページを特定する特定工程と、前記特定工程において特定された前記1以上の境界ページの位置で分割した文書データを作成する作成工程とを含むことを特徴とする。 The present invention is, for example, a document creation method, comprising: an acquisition step of acquiring image data of a document page by page; an identifying step of identifying one or more boundary pages that form a boundary of a document based on the page including the sign of the boundary page detected in the detecting step and the information of adjacent pages adjacent to the page; and a creating step of creating document data divided at the positions of the one or more boundary pages specified in the specifying step.
本発明によれば、種々の構成の文書について、それらの文書を読み取って得られる画像データから文書の境界を的確に判別することができる。 According to the present invention, it is possible to accurately determine the boundaries of documents of various configurations from image data obtained by reading the documents.
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. In addition, the following embodiments do not limit the invention according to the scope of claims. Although multiple features are described in the embodiments, not all of these multiple features are essential to the invention, and multiple features may be combined arbitrarily. Furthermore, in the accompanying drawings, the same or similar configurations are denoted by the same reference numerals, and redundant description is omitted.
<第1の実施形態>
<文書処理装置のハードウェア構成>
以下では、本発明の一実施形態について説明する。まず、図1を参照して、本実施形態に係る文書処理装置のハードウェア構成の一例を説明する。ここでは、文書処理装置の一例として画像処理装置を例に説明する。本実施形態では、文書処理装置が扱う文書データをスキャナによって文書を読み取った文書画像ページデータ(以下では、単に画像データとも称する。)を例に説明するが、本発明を限定する意図はなく、例えば外部から入力された文書データを処理するものであってもよい。したがって、本文書処理装置はスキャナ等の読取部を備えなくてもよい。
<First Embodiment>
<Hardware Configuration of Document Processing Device>
An embodiment of the invention is described below. First, with reference to FIG. 1, an example of the hardware configuration of the document processing apparatus according to this embodiment will be described. Here, an image processing apparatus will be described as an example of a document processing apparatus. In the present embodiment, document image page data (hereinafter also simply referred to as image data) obtained by reading document data handled by a document processing apparatus with a scanner will be described as an example. For example, it may process document data input from the outside. Therefore, the document processing apparatus does not need to include a reading unit such as a scanner.
文書処理装置100は、CPU101、RAM102、ROM103、記憶装置104、スキャナ105、及び通信I/F106を備え、各デバイスはシステムバス111を介してデータを相互に送受することができる。CPU101は、ROM103内に記憶されたプログラムや、記憶装置104からRAM102にロードされたOS(オペレーションシステム)やアプリケーション等のプログラムを実行する。すなわち、CPU101が、読み取り可能な記憶媒体に格納されたプログラムを実行することにより、後述する各フローチャートの処理を実行する各処理部として機能する。RAM102は、CPU101のメインメモリであり、ワークエリア等として機能する。スキャナ105は、文書をページ単位で文書画像ページデータとして読み込み、文書間の境界ページを特定するための画像データを生成する。なお、本発明においては、文書間の境界ページを特定するための文書データとして、スキャナ105が原稿から読み取った画像データに限らず、外部装置から受信した画像データでもよい。通信I/F106はネットワークを介して外部装置と通信を行うためのインタフェースであり、例えば外部装置から処理対象となる画像データを受信する。システムバス111は、各ハードウェア要素間の通信を行うための通信経路である。
The
<機能ブロック>
次に、図2を参照して、本実施形態に係る文書処理装置100の機能構成について説明する。図中の各機能部は、ROM103内に記憶されたプログラムや、記憶装置104からRAM102にロードされたアプリケーション等のプログラムをCPU101が実行することで実現される。各処理の実行結果はRAM102に保持される。
<Functional block>
Next, the functional configuration of the
文書処理装置100は、機能構成として、ページ取得部201、空白領域検出部202、境界ページ特定部203、電子文書作成部204、補助情報領域検出部205、及び追加情報確認部206を備える。ページ取得部201は、処理対象となる画像データであるページデータをスキャナ105から取得する。或いは、ページ取得部201は、通信I/F106を介して外部装置から処理対象となる画像データを取得してもよい。
The
空白領域検出部202は、ページ取得部201によって取得された処理対象の画像データについて、ページごとに空白領域を検出する。また、補助情報領域検出部205は、画像データに対応するページにおける補助情報領域を検出する。本実施形態では、補助情報領域はフッター領域、脚注領域、及びページ番号領域を含むものとして説明を行うが、これ以外にも文書の本文ではなく、本文に対する補助情報を提供する領域を補助情報領域としてもよい。空白領域検出部202は、補助情報領域検出部205の検出結果も用いて、空白領域の検出を行う。
The blank
境界ページ特定部203は、処理対象の画像データについて、空白領域検出部202の検出結果に基づき、文書の境界ページを特定する。追加情報確認部206は、処理対象の画像データ(文書画像ページデータ)が、文書内容における追加情報であるかどうかを確認する。追加情報とは、例えば「コラム」や「参考情報」、「インデックス」など、前ページから継続する内容を示す情報である。境界ページ特定部203は、追加情報確認部206の確認結果も用いて境界ページを特定する。特定方法の詳細については後述する。電子文書作成部204は、境界ページ特定部203の特定結果に基づいて、境界情報を含む文書データを作成する。
A boundary
<空白領域の検出>
次に、図3を参照して、本実施形態に係る文書処理装置100の空白領域の検出方法について説明する。300は文書から読み取った1ページ分の文書画像ページデータに対応する画像を示す。
<Blank area detection>
Next, a blank area detection method of the
301は文書領域を示し、302は検出される空白領域を示す。空白領域302には、補助情報領域として脚注領域303が含まれる。本実施形態に係る補助情報領域検出部205は文書画像ページデータを解析して、脚注領域300を補助情報領域として検出する。ここで、補助情報領域検出部205は処理中の着目領域の位置情報(例えば、ページ下方の所定領域)に基づいて、当該領域に存在する罫線や文字列などを補助情報領域として検出する。空白領域検出部202は、補助情報領域検出部205によって検出された脚注領域300を空白領域とみなして制御する。次に、空白領域検出部202は、脚注領域300を空白領域とみなした状態で、文書の下端からの空白領域を検出する。図3の例では、空白領域302が検出され、その高さを304に示す。
301 indicates the document area and 302 indicates the detected blank area. The
より詳細には、空白領域検出部202は、文書画像ページデータの横線上にある黒画素数をカウントしたヒストグラムを作成し、文書の下端から上端に向かってヒストグラムの値が0である横線の本数をカウントし、カウント結果を空白領域の高さとする。なお、本発明はこれに限定されず、任意の他の方法で空白領域の高さを検出してもよい。また、空白領域の高さではなく面積を求めてもよい。検出された空白領域302の高さは、後述するように、文書の境界を特定する際に利用される。
More specifically, the blank
<文書境界の特定>
次に、図4及び図5を参照して、本実施形態に係る文書処理装置100の文書境界の特定方法について説明する。図4の400、410、420、430は、文書から読み取った各ページの文書画像ページデータに対応する画像を示す。各ページには、右下にページ番号領域が設けられ、各ページの番号が示されている。各ページにおいて、領域401、412、421、431はそれぞれ文書領域を示す。領域411は図面領域を示す。領域402、422は空白領域を示す。
<Identification of document boundaries>
Next, a document boundary specifying method of the
1ページ目400において、下部に403に示す高さの空白領域402が空白領域検出部202によって検出される。ここで、境界ページ特定部203は、空白領域検出部202によって検出された空白領域402が所定のサイズ(例えば、所定の高さ)を有するものかを判断し、所定のサイズを有するものであれば当該ページを境界候補として特定する。境界候補として特定すると、境界ページ特定部203は、次ページの文書画像ページデータを取得し、当該ページが前ページから内容が続くページであることを示す追加情報を検出する。
In the
取得した文書画像ページデータが追加情報を含むか否かの判定は、本実施形態では以下の2つの条件の少なくとも一方を満たす場合に追加情報を含むと判定する。1つ目の条件は、取得した文書画像ページデータが所定の文字列から始まる文章である場合である。所定の文字列は例えば「見本」、「コラム」、「参考情報」、「付録」、「appendix」などを設定することができる。文字列の設定については任意であり、ユーザ入力に従って変更することができる。2つ目の条件は、取得した文書画像ページデータの最上部に図面領域や表領域が検出された場合である。なお、上記1つ目の条件として挙げた文字列を境界としてみなすような制御としてもよい。即ち、上記文字列を含むページと前ページとの間を境界と判断してもよい。これらの設定はユーザが任意で行うことができる。 In this embodiment, it is determined whether the acquired document image page data contains additional information when at least one of the following two conditions is satisfied. The first condition is when the acquired document image page data is a sentence that begins with a predetermined character string. For example, "sample", "column", "reference information", "appendix", and "appendix" can be set as the predetermined character string. The setting of the character string is arbitrary and can be changed according to user input. The second condition is when a drawing area or a table area is detected at the top of the acquired document image page data. Note that the control may be such that the character strings listed as the first condition are regarded as boundaries. That is, the boundary may be determined between the page containing the character string and the previous page. These settings can be arbitrarily set by the user.
図4の例では、2ページ目410において上部に図面領域411が存在する。つまり、図面領域411に描画された図は、1ページ目400の下部にある空白領域403に収まることなく、次のページである2ページ目410の上部にずれて配置されたものと推測することができる。即ち、境界ページ特定部203は、文書の境界候補として登録した1ページ目400は実際には境界候補ではなく、2ページ目410以降に続いていると判断する。
In the example of FIG. 4, the
なお、2ページ目410には空白領域が存在しないため、次ページである3ページ目420へ処理対象を移す。3ページ目420では、空白領域422が特定されており、当該ページは新たな境界候補として設定される。続いて、境界ページ特定部203は、次ページの文書画像ページデータを取得して解析する。4ページ目430は上部から文書領域が続いており、特に所定の文字列や図表は検出されない。従って、境界ページ特定部203は、境界候補として設定した3ページ目420と、4ページ目430との間に文書の境界440が存在するものと判断し、登録する。
Since there is no blank area on the
このように、本実施形態に係る文書処理装置100は、下部に存在する所定サイズの空白領域と、所定サイズの空白領域が検出されたページとそれ以降のページ(以下では、隣接ページと称する。)とを解析して、文書の境界を特定する。つまり、空白領域に加えて、隣接ページの情報に基づいて文書の境界を特定する。
As described above, the
図5は追加情報を含む隣接ページの例を示す。500は「見本」という文字列501と、文書領域502とを含む。510は空白ページ(白紙)を示す。なお、空白ページはページ合わせ用の調整ページである。したがって、境界ページ特定部203は、500、510ともに追加情報を含むものと判断する。境界ページ特定部203は、これらの追加情報を含むページを検出すると、境界候補として特定したページが境界ではなく、継続ページが存在するものと判断する。
FIG. 5 shows an example of a contiguous page containing additional information. 500 includes a character string 501 “sample” and a
<処理手順>
次に、図6を参照して、本実施形態における文書画像ページデータの境界ページを特定する際の処理手順を説明する。以下で説明する処理は、例えばCPU101がROM103や記憶装置104に記憶されたプログラムをRAM102に読み出して実行することにより実現される。
<Processing procedure>
Next, with reference to FIG. 6, a processing procedure for identifying boundary pages of document image page data in this embodiment will be described. The processing described below is realized by, for example, the
S100でページ取得部201は、自動分割対象とする文書の束を、スキャナ105等を利用することで、ページ単位で文書画像ページデータとして読み込む。ここで、文書の束とは雑多な形式を持つ複数の文書を束ねたものであり、例えば紙ファイルに綴じられている文書群をそのまま取り出した紙束である。なお、外部装置で読み取られた文書画像データを通信I/F106を利用して取得するようにしてもよい。続いて、S111でCPU101は、S100で読み込んだ文書画像データのすべてのページ(文書画像ページデータ)の処理が完了したかを判定する。処理が完了している場合にはS112に処理を移し、完了していない場合にはS101に処理を移す。
In S100, the
S101でCPU101は、読み込んだ文書画像データから未取得の先頭1ページを文書画像ページデータとして取得する。ここで、未取得のページとは処理が完了していないページを示す。ページを取得すると、S102で補助情報領域検出部205は、取得したページの補助情報領域の検出を行う。この処理は、例えば文書のレイアウト規則や罫線情報を用いてレイアウトを解析することにより実現できる。或いは、文字認識結果から得られる文字列の位置情報や文字列のフォント情報、又は文字列に所定の文字記号を含む場合に補助情報領域を検出するようしてもよい。さらに検出した補助情報領域(着目領域)の位置情報を利用して正しく検出されている補助情報領域を選別するよう構成してもよい。ここで、補助情報領域検出部205は上述のような処理を用いて、ページ下部に位置するフッター領域、脚注領域、ページ番号領域などの補助情報領域を検出する。
In S101, the
次に、S103で空白領域検出部202は、補助情報領域検出部205によって検出された補助情報領域を空白領域として登録する。つまり、空白領域検出部202は、例えば文書画像データがモノクロ画像データである場合には、補助情報領域として検出された領域における有色の画素を白色の画素として認識するように制御する。ここでは実際に文書画像データの画素値を変更する必要はなく、当該領域を空白領域として認識して処理するよう設定するものである。例えば、補助情報領域の座標位置を設定し、後述するS104で利用する。
Next, in S103, the blank
S104で空白領域検出部202は、文書画像ページデータを画像処理的に解析して文書画像ページデータの下部にある空白領域(ページ下部空白領域)を検出する。続いて、空白領域検出部202は、S103で検出した補助情報領域の中で、ページ下部空白領域と重なる領域および隣接する領域があれば、それらを結合することで最終的な下部空白領域を作成する。
In S104, the blank
次に、S105で境界ページ特定部203は、現在のページが文書境界候補の条件を満たしているかを判定し、判定結果に基づいて処理を分岐する。本実施形態では、文書境界候補の条件をページ下部空白領域の位置とサイズで定める。すなわち、ページ下部空白領域がページの下端に接しており、かつページ下部空白領域の高さが所定の高さH以上の場合に、文書の境界ページの候補(境界ページの兆候)とする。ここで、ページ下部空白領域がページの下端に接しているとは、ページ下部空白領域の下に空白領域以外の領域が存在しないことを意味する。Hの値は予め設定しておく。なお、Hの値を予め設定しておくのではなく、動的に設定することも可能である。例えば、前ページまでのページ下部空白領域の高さを統計的に処理した結果(例えば、平均値)をHの値として設定したり、前ページでのページ下部空白領域の高さをHとして設定したりするよう構成することも可能である。現在のページが文書境界候補の条件を満たしている場合には処理をS106に進め、条件を満たしていない場合にはS111に処理を戻す。
Next, in S105, the boundary
次に、S106でCPU101は、追加情報確認部206によって次ページに追加情報が記されているかを確認させるため、S100で読み込んだ文書画像データから、次の文書画像ページデータを取得する。続いて、S107で追加情報確認部206は、S106で取得された文書画像ページデータに境界候補の前ページに関する追加情報を含むかを判定する。判定方法については図4及び図5を用いて既に説明しているため詳細は省略する。判定結果に基づいて処理を分岐する。取得した文書画像ページデータが追加情報を含むと判定された場合には処理をS102に移す。その後、S102からS105までの処理を実行することで追加情報の最終ページ候補(文書境界候補)を探索する。一方、取得した文書画像ページデータが追加情報を含むと判定されなかった場合或いはS106で次の文書画像ページデータを取得できなかった場合は、処理をS108に移す。
Next, in S106, the
S108でCPU101は、次ページが空白ページであるかを確認するため、S100で読み込んだ文書画像データから、次の文書画像ページデータを取得する。続いて、S109で境界ページ特定部203は、S108で取得した文書画像ページデータが空白ページであるかを判定し、判定結果に基づいて処理を分岐する。本実施形態における空白ページの判定は、文書画像ページデータから空白領域を検出することで行う。検出した空白領域がページの上端および下端に接している場合に空白ページと判定する。取得した文書画像ページデータが空白ページと判定された場合はS108に処理を移し、空白ページと判定されなかった場合或いはS108で次の文書画像ページデータを取得できなかった場合はS110に処理を移す。
In S108, the
S110で境界ページ特定部203は、1つ前に処理した文書画像ページデータが文書の境界ページであるとして文書境界を設定し、処理をS111に戻す。その後、S111で全ページの処理が完了したと判定されるとS112に進み、電子文書作成部204は、境界ページ特定部203によって特定された1以上の文書境界に従って、電子文書を作成し、処理を終了する。
In S110, the boundary
以上説明したように、本実施形態に係る文書作成方法では、文書をページ単位で画像データとして取得し、得された画像データからページごとに所定の条件を満たす境界ページの兆候(空白領域)を検出する。また、文書作成方法は、検出された空白領域を含むページと、該ページに隣接する隣接ページの情報とに基づいて、文書の境界となる1以上の境界ページを特定し、特定された1以上の境界ページの位置で分割した文書データを作成する。これにより、文書の境界ページの最下方に脚注やページ番号が存在する場合、文書に関する図や表が別表として次ページ以降に配置されている場合、又は文書の内容を補完するような情報が次ページ以降に追加されている場合にも文書境界を正しく特定できる。さらに、製本等の事情により文書の最後に空白ページが追加されている場合にも文書境界を正しく特定できる。このように、本実施形態によれば、種々の構成の文書について、それらの文書を読み取って得られる画像データから文書の境界を的確に判別することができる。 As described above, in the document creation method according to the present embodiment, a document is acquired as image data on a page-by-page basis, and signs (blank areas) of boundary pages that satisfy predetermined conditions are identified for each page from the acquired image data. To detect. Further, the document creation method identifies one or more boundary pages that serve as boundaries of the document based on the page containing the detected blank area and information on adjacent pages adjacent to the page, and identifies the identified one or more boundary pages. Create document data divided at the position of the boundary page. As a result, if there are footnotes or page numbers at the bottom of the boundary page of the document, if figures or tables related to the document are placed on the following pages as separate tables, or if information that complements the content of the document is Document boundaries can be correctly identified even if they are added after the page. Furthermore, even if a blank page is added at the end of the document due to circumstances such as bookbinding, the document boundary can be specified correctly. As described above, according to the present embodiment, it is possible to accurately determine the boundaries of documents having various configurations from the image data obtained by reading the documents.
<変形例>
本発明は上記実施形態に限らず様々な変形が可能である。上記実施形態では、空白領域検出部202において所定の条件を満たす空白領域を検出し、当該空白領域を有する文書画像ページデータと所定数の隣接ページデータとを解析することでページ境界を特定した。しかしこれに限らず、空白領域以外の兆候を検出した場合に、当該兆候を有するページと所定数のページとを解析することでページ境界を決定するよう構成してもよい。例えば、空白領域検出部を境界ページ兆候検出部とし、当該境界ページ兆候検出部において文書画像ページデータから所定の文字列を検出するようにしてもよい。所定の文字列とは例えば「〆」や「以上」などである。或いは、境界ページ兆候検出部において文書画像ページデータから所定の文字列を検出する他に空白領域を検出するように構成してもよい。この場合、当該空白領域及び当該文字列とを有する文書画像ページデータと所定数の隣接ページデータとを解析することでページ境界をより正確に特定することができる。
<Modification>
The present invention is not limited to the above embodiment, and various modifications are possible. In the above embodiment, the blank
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other embodiments>
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the embodiments described above, and various modifications and variations are possible without departing from the spirit and scope of the invention. Accordingly, the claims are appended to make public the scope of the invention.
101:CPU、102:RAM、103:ROM、104:記憶装置、105:スキャナ、106:通信I/F、201:ページ取得部、202:空白領域検出部、203:境界ページ特定部、204:電子文書作成部 101: CPU; 102: RAM; 103: ROM; Electronic document creation department
Claims (16)
文書をページ単位で画像データとして取得する取得工程と、
前記取得された画像データからページごとに所定の条件を満たす境界ページの兆候を検出する検出工程と、
前記検出工程において検出された境界ページの兆候を含むページと、該ページに隣接する隣接ページの情報とに基づいて、文書の境界となる1以上の境界ページを特定する特定工程と、
前記特定工程において特定された前記1以上の境界ページの位置で分割した文書データを作成する作成工程と
を含むことを特徴とする文書作成方法。 A document creation method comprising:
an acquisition step of acquiring the document as image data page by page;
a detection step of detecting a sign of a boundary page that satisfies a predetermined condition for each page from the acquired image data;
an identifying step of identifying one or more boundary pages serving as document boundaries based on the page containing the sign of the boundary page detected in the detecting step and the information of adjacent pages adjacent to the page;
and a creating step of creating document data divided at the positions of the one or more boundary pages specified in the specifying step.
前記特定工程では、前記確認工程による確認結果を用いて前記1以上の境界ページを特定することを特徴とする請求項2に記載の文書作成方法。 further comprising a confirmation step of confirming additional information indicating content continued from the previous page of the adjacent page in the adjacent page;
3. The document creation method according to claim 2, wherein, in said identifying step, said one or more boundary pages are identified using a confirmation result obtained in said confirming step.
文書をページ単位で画像データとして取得する取得手段と、
前記取得された画像データからページごとに所定の条件を満たす境界ページの兆候を検出する検出手段と、
前記検出手段によって検出された境界ページの兆候を含むページと、該ページに隣接する隣接ページの情報とに基づいて、文書の境界となる1以上の境界ページを特定する特定手段と、
前記特定手段によって特定された前記1以上の境界ページの位置で分割した文書データを作成する作成手段と
を備えることを特徴とする文書作成装置。 A document production device,
Acquisition means for acquiring a document as image data on a page-by-page basis;
detection means for detecting a sign of a boundary page that satisfies a predetermined condition for each page from the acquired image data;
identifying means for identifying one or more boundary pages serving as boundaries of a document based on the page containing the sign of the boundary page detected by the detecting means and information on adjacent pages adjacent to the page;
and a creating unit that creates document data divided at the positions of the one or more boundary pages specified by the specifying unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021106909A JP2023005163A (en) | 2021-06-28 | 2021-06-28 | Document processing method and document processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021106909A JP2023005163A (en) | 2021-06-28 | 2021-06-28 | Document processing method and document processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023005163A true JP2023005163A (en) | 2023-01-18 |
Family
ID=85107658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021106909A Pending JP2023005163A (en) | 2021-06-28 | 2021-06-28 | Document processing method and document processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023005163A (en) |
-
2021
- 2021-06-28 JP JP2021106909A patent/JP2023005163A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8782516B1 (en) | Content style detection | |
US6694053B1 (en) | Method and apparatus for performing document structure analysis | |
US8781229B2 (en) | System and method for localizing data fields on structured and semi-structured forms | |
RU2582860C2 (en) | System and method for reading serial number of paper sheet | |
US8213717B2 (en) | Document processing apparatus, document processing method, recording medium and data signal | |
US10142499B2 (en) | Document distribution system, document distribution apparatus, information processing method, and storage medium | |
CN112100979A (en) | Typesetting processing method based on electronic book, electronic equipment and storage medium | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP2010055142A (en) | Document processing apparatus and program | |
CN112487859A (en) | Information processing apparatus, information processing method, and computer readable medium | |
US20220415008A1 (en) | Image box filtering for optical character recognition | |
CN112380824B (en) | PDF document processing method, device, equipment and storage medium for automatically identifying columns | |
JP2011188465A (en) | Method and device for detecting direction of document layout | |
WO2018073986A1 (en) | Operation assistance device and operation assistance program | |
JP2018042067A (en) | Image processing system, image processing method, and information processing device | |
JP2023005163A (en) | Document processing method and document processor | |
US8731296B2 (en) | Contact text detection in scanned images | |
US7844138B2 (en) | History control apparatus | |
US10706581B2 (en) | Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor | |
JP3573945B2 (en) | Format recognition device and character reading device | |
JP2007241355A (en) | Image processor and image processing program | |
JP2008084105A (en) | Character cutout method and character recognition device | |
JP2017072941A (en) | Document distribution system, information processing method, and program | |
US7110600B1 (en) | Document identifying device and method | |
CN113449763A (en) | Information processing apparatus and recording medium |