JP2023055368A

JP2023055368A - 情報処理装置、情報処理システム、およびプログラム

Info

Publication number: JP2023055368A
Application number: JP2021164680A
Authority: JP
Inventors: 努石井; Tsutomu Ishii; 治郎三鍋; Jiro Mitsunabe
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2021-10-06
Filing date: 2021-10-06
Publication date: 2023-04-18

Abstract

【課題】連続する複数の原稿が読み取られることで生成された１つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにする。【解決手段】情報処理装置としてのユーザ端末１０は、制御部１１を備え、制御部１１では、抽出部１０３が、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出し、比較部１０４が、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の中で前後する頁の特徴量を比較する。そして、判定部１０５が、比較部１０４による前後する頁の特徴量の比較の結果、前後する頁に差分がある場合には、その差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。【選択図】図３

Description

本発明は、情報処理装置、情報処理システム、およびプログラムに関する。

連続する複数の原稿をスキャナ等でそのまま読み取ると、単に複数の頁からなる１つの電子文書が生成されることになるため、原稿ごとに分割することが困難になる。これに対して、例えば、電子文書に含まれる罫線やキーワードを認識して原稿ごとに分割する技術が存在する（特許文献１参照）。

特許第５３７９０８５号公報

しかしながら、従来の技術では、意図する正解率で原稿ごとに分割することは困難である。

本発明の目的は、連続する複数の原稿が読み取られることで生成された１つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにすることを目的とする。

請求項１に記載された発明は、プロセッサを備え、前記プロセッサは、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、情報処理装置である。
請求項２に記載された発明は、前記プロセッサは、前記特徴量として、色、罫線、オブジェクト、および余白のうち１以上の特徴量を前記頁ごとに抽出することを特徴とする、請求項１に記載の情報処理装置である。
請求項３に記載された発明は、前記プロセッサは、前記特徴量として、前記頁全体の画素各々の色をｎ種類（ｎは１以上の整数値）の色のうちいずれかに分類した結果と、当該ｎ種類の色の各々の当該頁全体に対する占有率とを抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記ｎ種類の色および前記占有率の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項２に記載の情報処理装置である。
請求項４に記載された発明は、前記プロセッサは、複数の頁の中で前後する頁の各々の前記占有率の順位ごとの前記差分に基づいて、前記複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、請求項３に記載の情報処理装置である。
請求項５に記載された発明は、前記プロセッサは、前記特徴量として、前記頁に含まれる罫線の向き、位置、長さ、太さ、および数量のうち１以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記罫線の向き、位置、長さ、太さ、および数量のうち１以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項２に記載の情報処理装置である。
請求項６に記載された発明は、前記特徴量としての前記罫線の長さが、前記頁のサイズに対して予め定められた割合を超えることを特徴とする、請求項５に記載の情報処理装置である。
請求項７に記載された発明は、前記プロセッサは、前記特徴量として、前記頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち１以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記オブジェクトの形状、位置、大きさ、および数量のうち１以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項２に記載の情報処理装置である。
請求項８に記載された発明は、前記特徴量としての前記オブジェクトが、前記頁に含まれる輪郭の検出により抽出されることを特徴とする、請求項７に記載の情報処理装置である。
請求項９に記載された発明は、前記プロセッサは、前記特徴量として、前記頁の余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち１以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち１以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項２に記載の情報処理装置である。
請求項１０に記載された発明は、前記余白の位置および大きさが、前記頁におけるパラグラフの位置を示す座標により特定されることを特徴とする、請求項９に記載の情報処理装置である。
請求項１１に記載された発明は、前記プロセッサは、前記特徴量として、前記余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出することを特徴とする、請求項９に記載の情報処理装置である。
請求項１２に記載された発明は、前記プロセッサは、機械学習モデルを用いて、複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、請求項１に記載の情報処理装置である。
請求項１３に記載された発明は、前記機械学習モデルが、決定木、ランダムフォレスト、および勾配ブースティングのうち１以上により生成される、請求項１２に記載の情報処理装置である。
請求項１４に記載された発明は、前記プロセッサは、前記判定の結果を、ユーザが一覧視可能な態様で表示する制御を行うことを特徴とする、請求項１に記載の情報処理装置である。
請求項１５に記載された発明は、前記プロセッサは、前記判定の結果として一覧表示された複数の頁のうち、前記先頭頁とされた頁と、当該先頭頁とされていない頁との間に、移動および追加可能な分割線を表示する制御を行うことを特徴とする、請求項１４に記載の情報処理装置である。
請求項１６に記載された発明は、前記プロセッサは、前記判定の結果として、前記原稿を示すように、前記先頭頁とされた頁と当該先頭頁とされていない頁とが束ねられた態様で表示する制御を行うことを特徴とする、請求項１４に記載の情報処理装置である。
請求項１７に記載された発明は、前記プロセッサは、前記判定の結果として、複数の頁のうち前記先頭頁とされた頁と当該先頭頁とされていない頁とを識別可能な態様で表示する制御を行うことを特徴とする、請求項１４に記載の情報処理装置である。
請求項１８に記載された発明は、前記プロセッサは、前記識別可能な態様として、前記原稿ごとに色分けされた態様で表示する制御を行うことを特徴とする、請求項１７に記載の情報処理装置である。
請求項１９に記載された発明は、前記プロセッサは、前記識別可能な態様として、前記原稿ごとに前記色分け、および前記先頭頁とされた頁ごとに目印となるオブジェクトが付された態様で表示する制御を行うことを特徴とする、請求項１８に記載の情報処理装置である。
請求項２０に記載された発明は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する抽出手段と、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う判定手段と、を有することを特徴とする情報処理システムである。
請求項２１に記載された発明は、コンピュータに、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する機能と、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う機能と、を実現させるためのプログラムである。

請求項１の本発明によれば、連続する複数の原稿が読み取られることで生成された１つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにする情報処理装置を提供できる。
請求項２の本発明によれば、前後する頁の特徴量としての色、罫線、オブジェクト、および余白の違いの程度に基づいて、原稿ごとに自動分割できる。
請求項３の本発明によれば、前後する頁の特徴量の違いの程度として、色の違いの程度を求めることができる。
請求項４の本発明によれば、前後する頁の特徴量の違いの程度として、色の差分を求めることができる。
請求項５の本発明によれば、前後する頁の特徴量の違いの程度として、罫線の向き、位置、長さ、太さ、および数量の差分を求めることができる。
請求項６の本発明によれば、前後する頁の特徴量の違いの程度として、予め定められた基準を満たす罫線の差分を求めることができる。
請求項７の本発明によれば、前後する頁の特徴量の違いの程度として、オブジェクトの形状、位置、大きさ、および数量の差分を求めることができる。
請求項８の本発明によれば、前後する頁の特徴量となるオブジェクトを特定できる。
請求項９の本発明によれば、前後する頁の特徴量の違いの程度として、余白の位置、大きさ、および余白に存在するヘッダーおよびフッターの差分を求めることができる。
請求項１０の本発明によれば、前後する頁の特徴量となる余白を特定できる。
請求項１１の本発明によれば、前後する頁の特徴量の違いの程度として、余白に存在するヘッダーおよびフッターのキーワードの差分を求めることができる。
請求項１２の本発明によれば、電子文書を構成する複数の原稿の各々の先頭頁に該当するか否かの判定がなされる際、機械学習モデルが用いられることで、判定の精度を向上させていくことができる。
請求項１３の本発明によれば、決定木、ランダムフォレスト、および勾配ブースティングによって機械学習モデルが生成されることで、判定の精度を向上させていくことができる。
請求項１４の本発明によれば、自動判定された結果が一覧表示されるので、ユーザの利便性を向上させることができる。
請求項１５の本発明によれば、表示された判定結果を修正することができるので、実用性を向上させることができる。
請求項１６の本発明によれば、自動判定された結果が、原稿ごとに表示されるので、ユーザの見やすさを向上させることができる。
請求項１７の本発明によれば、自動判定された結果が、原稿ごとに表示されるので、ユーザの利便性を向上させることができる。
請求項１８の本発明によれば、自動判定された結果が、原稿ごとに色分け表示されるので、ユーザの見やすさを向上させることができる。
請求項１９の本発明によれば、自動判定された結果が、原稿ごとに色分け表示されるとともに、先頭頁に目印となるオブジェクトが付されるので、ユーザの利便性を向上させることができる。
請求項２０の本発明によれば、連続する複数の原稿が読み取られることで生成された１つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにする情報処理システムを提供できる。
請求項２１の本発明によれば、連続する複数の原稿が読み取られることで生成された１つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにするプログラムを提供できる。

本実施の形態が適用される情報処理システムの全体の構成を示す図である。管理サーバのハードウェア構成を示す図である。管理サーバの制御部の機能構成を示す図である。管理サーバの全体的な処理の流れを示すフローチャートである。頁の特徴量が色である場合における、管理サーバの処理の流れを示すフローチャートである。頁の特徴量が罫線である場合における、管理サーバの処理の流れを示すフローチャートである。頁の特徴量がオブジェクトである場合における、管理サーバの処理の流れを示すフローチャートである。頁の特徴量が色である場合における処理の具体例を示す図である。頁の特徴量が罫線である場合における処理の具体例を示す図である。頁の特徴量がオブジェクトである場合における処理の具体例を示す図である。頁の特徴量が余白である場合における処理の具体例を示す図である。頁の特徴量が余白である場合における処理の具体例を示す図である。クライアント端末に表示される画面の具体例を示す図である。原稿ごとに分割可能な電子文書の具体例を示す図である。（Ａ）は、パンフレットの電子文書の一例を示す図である。（Ｂ）は、請求書の電子文書の一例を示す図である。原稿ごとに分割可能な電子文書の具体例を示す図である。（Ａ）は、注文書の電子文書の一例を示す図である。（Ｂ）は、通知書の電子文書の一例を示す図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
（情報処理システムの構成）
図１は、本実施の形態が適用される情報処理システム１の全体の構成を示す図である。
情報処理システム１は、管理サーバ１０と、クライアント端末３０とがネットワーク９０を介して接続されることにより構成されている。ネットワーク９０は、例えば、ＬＡＮ（Local Area Network）、インターネット等である。

管理サーバ１０は、情報処理システム１の全体の管理をするサーバとしての情報処理装置である。管理サーバ１０は、１以上の頁からなる複数の原稿が連続して複合機やスキャナ等に読み取られることで生成された電子文書の特徴量を頁ごとに抽出する。そして、その電子文書の中で前後する頁の特徴量の違いの程度に基づいて、原稿の先頭頁に該当するか否かの判定を電子文書の頁ごとに行う。なお、本実施の形態では、電子文書が生成される際、原稿の読み取り時に生じ得る白紙頁については、自動的に削除されるものとする。

クライアント端末３０は、ユーザＵが操作するパーソナルコンピュータ、タブレット端末、スマートフォン等の情報処理装置である。クライアント端末３０は、管理サーバ１０から送信されてくる判定の結果を受信して表示する。クライアント端末３０に表示される画面の具体例については、図１３を参照して後述する。

なお、上述した情報処理装置（管理サーバ１０およびクライアント端末３０）ごとの機能は一例であり、情報処理システム１全体として上述の機能を備えていればよい。このため、上述の機能のうち一部または全部を情報処理システム１内で分担してもよいし協働してもよい。例えば、管理サーバ１０の機能の全部をクライアント端末３０の機能としてもよい。これにより、情報処理システム１全体としての処理を促進し、また、処理を補完し合うことが可能となる。
（管理サーバのハードウェア構成）
図２は、管理サーバ１０のハードウェア構成を示す図である。
管理サーバ１０は、制御部１１と、メモリ１２と、記憶部１３と、通信部１４と、操作部１５と、表示部１６とを有している。これらの各部は、データバス、アドレスバス、ＰＣＩ（Peripheral Component Interconnect）バス等で接続されている。

制御部１１は、ＯＳ（基本ソフトウェア）やアプリケーションソフトウェア（応用ソフトウェア）等の各種ソフトウェアの実行を通じて自機の動作を制御するプロセッサである。制御部１１は、例えばＣＰＵ（Central Processing Unit）で構成される。メモリ１２は、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、演算に際して作業エリアとして用いられる。メモリ１２は、例えばＲＡＭ（Random Access Memory）等で構成される。

記憶部１３は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域であり、各種情報を記憶するデータベースが格納されている。記憶部１３は、例えばプログラムや各種設定データなどの記憶に用いられるＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、半導体メモリ等で構成される。通信部１４は、ネットワーク９０を介して、または赤外線通信等の通信方式によるデータの送受信を行う。通信部１４は、クライアント端末３０および外部との間でデータの送受信を行う。

操作部１５は、例えばキーボード、マウス、機械式のボタン、スイッチで構成され、入力操作を受け付ける。操作部１５には、表示部１６と一体的にタッチパネルを構成するタッチセンサも含まれる。表示部１６は、画像やテキスト情報などを表示する。表示部１６は、例えば情報の表示に用いられる液晶ディスプレイや有機ＥＬ（＝Electro Luminescence）ディスプレイで構成される。

（クライアント端末のハードウェア構成）
クライアント端末３０のハードウェア構成は、図２に示す管理サーバ１０のハードウェア構成と同様の構成を備えている。このため、クライアント端末３０のハードウェア構成の図示および説明を省略する。

（管理サーバの制御部の機能構成）
図３は、管理サーバ１０の制御部１１の機能構成を示す図である。
管理サーバ１０の制御部１１では、減色部１０１と、算出部１０２と、抽出部１０３と、比較部１０４と、判定部１０５と、表示制御部１０６とが機能する。

減色部１０１は、頁ごとの特徴量として色が抽出される際に機能する。減色部１０１は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を構成する複数の頁の各々について、頁全体の画素の各々の色をｎ種類（ｎは１以上の整数値）の色のうちいずれかに分類することで減色する。これにより、前後する頁の色の変化を、特徴量の差分として捉えることが可能となる。ここで、減色部１０１がどのような手法を用いて減色を行うかについては特に限定されない。例えば、Ｋ平均法のモデルを用いて減色が行われてもよい。なお、減色部１０１による減色の処理の具体例については、図８を参照して後述する。

算出部１０２は、頁ごとの特徴量として色が抽出される際に機能する。算出部１０２は、減色部１０１による減色の結果として得られるｎ種類の色の各々について、頁全体に対する占有率を算出する。これにより、前後する頁の色の占有率の変化を、特徴量の差分として捉えることが可能となる。なお、算出部１０２により算出された占有率の具体例については、図８を参照して後述する。

抽出部１０３は、頁ごとの特徴量の種類を問わず機能する。抽出部１０３は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を、電子文書を構成する頁ごとに抽出する。本実施の形態では、色、罫線、オブジェクト、および余白が特徴量として抽出される。抽出部１０３は、特徴量としての色、罫線、オブジェクト、および余白を択一的に抽出するのではなく、すべてを対象として抽出する。ただし、特徴量の種類を特定して抽出することもできる。

抽出部１０３は、特徴量としての色を抽出する際、減色部１０１によりｎ種類の色に減色された結果と、算出部１０２により算出された色ごとの頁全体に対する占有率とを抽出する。なお、抽出部１０３により特徴量として抽出された色の具体例については、図８を参照して後述する。

また、抽出部１０３は、特徴量としての罫線を抽出する際、頁に含まれる罫線の向き、位置、長さ、太さ、および数量のうち１以上を抽出する。ここで、抽出部１０３がどのような手法を用いて罫線を抽出するのかについては特に限定されない。例えば、従来技術としてのハフ変換を用いて検出される直線のうち、予め定められた条件を満たすものを罫線として抽出してもよい。この場合、「予め定められた条件」とは、例えば、頁全体の縦横のサイズに対する長さ等である。なお、抽出部１０３により特徴量として抽出された罫線の具体例については、図９を参照して後述する。

また、抽出部１０３は、特徴量としてのオブジェクトを抽出する際、頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち１以上を抽出する。この場合、頁に含まれる輪郭の検出によりオブジェクトが抽出される。ここで、抽出部１０３が輪郭を検出する際に用いる手法は特に限定されない。例えば、従来技術としての輪郭検出関数を用いてもよい。なお、抽出部１０３により特徴量として抽出されたオブジェクトの具体例については、図１０を参照して後述する。

また、抽出部１０３は、特徴量としての余白を抽出する際、頁の余白の位置、大きさ、および余白に存在するヘッダーおよびフッターのうち１以上を抽出する。さらに、抽出部１０３は、余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出する。ここで、抽出部１０３がどのような手法を用いて余白に存在するヘッダーおよびフッターと、ヘッダーおよびフッターに含まれるキーワードとを抽出するかは特に限定されない。例えば、ヘッダーは、ＯＣＲ（Optical Character Reader）で位置が最も上部として認識されたキーワードを抽出してもよい。また、フッターは、ＯＣＲで位置が最も下部として認識されたキーワードを抽出してもよい。なお、抽出部１０３により特徴量として抽出された余白の具体例については、図１１および図１２を参照して後述する。

比較部１０４は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の中で前後する頁の特徴量を比較する。具体的には、比較部１０４は、後述する判定部１０５による判定の対象となる頁とその直前の頁との比較と、判定の対象となる頁とその直後の頁との比較とを行う。例えば、全５頁からなる電子文書は、１頁目と２頁目との比較、２頁目と３頁目との比較、３頁目と４頁目との比較、および４頁目と５頁目との比較を行う。

判定部１０５は、比較部１０４による前後する頁の特徴量の比較の結果、前後する頁に差分がある場合には、その差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。例えば、全５頁からなる電子文書は、１頁目と２頁目との比較の結果、２頁目と３頁目との比較の結果、３頁目と４頁目との比較の結果、および４頁目と５頁目との比較の結果の各々から差分を特定する。そして、特定した差分に基づいて、原稿の先頭頁に該当するか否かを１頁目乃至５頁目の各々について判定する。

具体的には、判定部１０５は、特徴量ごとの差分の組み合わせに基づいて判定を行う。このうち、特徴量としての色に差分がある場合には、減色部１０１により減色された結果としてのｎ種類の色の差分と、ｎ種類の色ごとの頁全体に対する占有率の差分とに基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、前後する頁の各々の占有率の順位ごとの差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。具体的なケースとして、例えば、１頁目において最大の占有率となった色が「白」であり、２頁目において最大の占有率となった色が「赤」である場合、１頁目と２頁目との比較の結果は、特徴量としての色に差分があることになるため、その差分に基づいた判定が行われる。

また、判定部１０５は、特徴量としての罫線に差分がある場合には、罫線の向き、位置、長さ、太さ、および数量のうち１以上の差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、特徴量としての罫線に該当するかどうかについて予め条件を設けておくこともできる。例えば、頁のサイズに対して予め定められた割合（例えば、７０％）を超える長さのものを罫線とする等の条件を予め定めておくことができる。具体的なケースとして、例えば、１頁目には、パラグラフの上下端の各々に横向きの罫線が１本ずつ存在するのに対して、２頁目には罫線が存在しない場合には、１頁目と２頁目との間に特徴量としての罫線に差分があることになるため、その差分に基づいた判定が行われる。

また、判定部１０５は、特徴量としてのオブジェクトに差分がある場合には、オブジェクトの形状、位置、大きさ、および数量のうち１以上の差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。オブジェクトとしては、例えば、文中の表の枠や、グラフの枠等が挙げられる。具体的なケースとして、例えば、１頁目には、２つの四角形の枠が連結することで形成された表が存在するのに対して、２頁目には表が存在しない場合には、１頁目と２頁目との間に特徴量としてのオブジェクトに差分があることになるため、その差分に基づいた判定が行われる。

また、判定部１０５は、特徴量としての余白に差分がある場合には、余白の位置、大きさ、および余白に存在するヘッダーおよびフッターのうち１以上の差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、余白の位置および大きさは、頁におけるパラグラフの位置を示す座標により特定される。具体的なケースとして、例えば、１頁目と２頁目との各々の上下左右の余白のサイズの各々に差分がある場合には、１頁目と２頁目との間に特徴量としての余白に差分があることになるため、その差分に基づいた判定が行われる。

また、判定部１０５は、特徴量としての余白に存在するヘッダーおよびフッターに含まれるキーワードの差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、余白に存在するヘッダーおよびフッターに含まれるキーワードとしては、複数の頁に共通するキーワードや、頁を示す値等が挙げられる。具体的なケースとして、例えば、１頁目の上下の余白には何も存在しないのに対して、２頁目の上下の余白の各々には章のタイトルと頁数との各々が存在する場合には、１頁目と２頁目との間に特徴量としてのオブジェクトに差分があることになるため、その差分に基づいた判定が行われる。

判定部１０５は、機械学習モデルを用いて、複数の頁の各々が原稿の先頭頁に該当するか否かを判定する。この場合、機械学習モデルは、決定木、ランダムフォレスト、および勾配ブースティングのうち１以上により生成される。これにより、判定部１０５による判定の結果を学習して判定の精度を向上させていくことが可能となる。

表示制御部１０６は、判定部１０５による判定の結果を、ユーザＵが一覧視可能な態様でクライアント端末３０に表示する制御を行う。例えば、表示制御部１０６は、判定部１０５による判定の結果として一覧表示された複数の頁のうち、先頭頁とされた頁と、先頭頁とされていない頁との間に、移動および追加可能な分割線を表示する制御を行う。なお、先頭頁とされた頁と、先頭頁とされていない頁との間に表示された分割線の具体例については、図１３を参照して後述する。

また、例えば、表示制御部１０６は、判定の結果として、原稿を示すように、先頭頁とされた頁と先頭頁とされていない頁とが束ねられた態様で表示する制御を行う。なお、先頭頁とされた頁と先頭頁とされていない頁とが束ねられた態様で表示された原稿の具体例については、図１３を参照して後述する。

また、例えば、表示制御部１０６は、判定の結果として、複数の頁のうち先頭頁とされた頁と先頭頁とされていない頁とを識別可能な態様で表示する制御を行う。例えば、識別可能な態様として、原稿ごとに色分けや模様分けされた態様で表示する制御を行う。また、例えば、識別可能な態様として、原稿ごとに色分けや模様分け、および先頭頁とされた頁ごとに目印となるオブジェクト（例えば、付箋）が付された態様で表示する制御を行う。なお、先頭頁とされた頁と先頭頁とされていない頁とが識別可能な態様で表示された原稿の具体例については、図１３を参照して後述する。

（管理サーバの処理）
図４は、管理サーバ１０の全体的な処理の流れを示すフローチャートである。
管理サーバ１０は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得すると（ステップ４０１でＹＥＳ）、取得した電子文書の特徴量を頁ごとに抽出して（ステップ４０２）、前後する頁の特徴量を比較する（ステップ４０３）。これに対して、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得していない場合（ステップ４０１でＮＯ）、管理サーバ１０は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得するまでステップ４０１の処理を繰り返す。

管理サーバ１０は、ステップ４０３での比較の結果、特徴量に差分があり（ステップ４０４でＹＥＳ）、その差分に基づいて、原稿の先頭頁として判定できる場合には（ステップ４０５でＹＥＳ）、原稿の先頭頁として判定する（ステップ４０６）。これに対して、ステップ４０３での比較の結果、特徴量に差分がない場合や（ステップ４０４でＮＯ）、特徴量に差分があっても（ステップ４０４でＹＥＳ）、その差分に基づいて、原稿の先頭頁として判定できない場合には（ステップ４０５でＮＯ）、原稿の先頭頁ではない頁として判定する（ステップ４０７）。

図５は、頁の特徴量が色である場合における、管理サーバ１０の処理の流れを示すフローチャートである。
管理サーバ１０は、機械学習モデルを作成し（ステップ５０１）、頁全体の画素の各々の色をｎ種類の色のうちいずれかに分類する（ステップ５０２）。分類の結果、ｎが２以上である場合には（ステップ５０３でＹＥＳ）、管理サーバ１０は、ｎ種類の色の各々の画素数をカウントして（ステップ５０４）、カウントした画素数の頁全体の画素数に対する占有率を色ごとに算出する（ステップ５０５）。これに対して、分類の結果、ｎが２以上でない場合には（ステップ５０３でＮＯ）、頁全体が１色であることとなり、処理は終了する。

次に、管理サーバ１０は、前後する頁の各々の色の差分に基づいて、原稿の先頭頁として判定できる場合には（ステップ５０６でＹＥＳ）、原稿の先頭頁として判定する（ステップ５０７）。これに対して、前後する頁の各々の色の差分に基づいて、原稿の先頭頁として判定できない場合には（ステップ５０６でＮＯ）、原稿の先頭頁ではない頁として判定する（ステップ５０８）。

図６は、頁の特徴量が罫線である場合における、管理サーバ１０の処理の流れを示すフローチャートである。
管理サーバ１０は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書をグレースケール化し（ステップ６０１）、白黒を反転させる（ステップ６０２）。そして、管理サーバ１０は、予め定められた条件を満たす罫線を検出すると（ステップ６０３でＹＥＳ）、検出した罫線の向きを判定して（ステップ６０４）、罫線の本数を向きごとにカウントする（ステップ６０５）。これに対して、予め定められた条件を満たす罫線が検出されない場合には（ステップ６０３でＮＯ）、処理は終了する。

管理サーバ１０は、前後する頁の各々の罫線の差分に基づいて、原稿の先頭頁として判定できる場合には（ステップ６０６でＹＥＳ）、原稿の先頭頁として判定する（ステップ６０７）。これに対して、前後する頁の各々の罫線の差分に基づいて、原稿の先頭頁として判定できない場合には（ステップ６０６でＮＯ）、原稿の先頭頁ではない頁として判定する（ステップ６０８）。

図７は、頁の特徴量がオブジェクトである場合における、管理サーバ１０の処理の流れを示すフローチャートである。
管理サーバ１０は、１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書をグレースケール化し（ステップ７０１）、２値化する（ステップ７０２）。そして、管理サーバ１０は、辺または角の数が３以上であるオブジェクトの輪郭を検出し（ステップ７０３でＹＥＳ）、そのオブジェクトの辺または角の数が３である場合には（ステップ７０４でＹＥＳ）、検出したオブジェクトの形状が三角形であると判定する（ステップ７０８）。これに対して、辺または角の数が３以上であるオブジェクトの輪郭が検出されなかった場合には（ステップ７０３でＮＯ）、処理は終了する。

管理サーバ１０は、辺または角の数が３以上であるオブジェクトの輪郭を検出し（ステップ７０３でＹＥＳ）、そのオブジェクトの辺または角の数が４である場合には（ステップ７０４でＮＯ、ステップ７０５でＹＥＳ）、検出したオブジェクトの形状が四角形であると判定する（ステップ７０９）。また、オブジェクトの辺または角の数が５である場合には（ステップ７０４および７０５でＮＯ、ステップ７０６でＹＥＳ）、検出したオブジェクトの形状が五角形であると判定する（ステップ７１０）。

また、オブジェクトの辺または角の数が６乃至１０である場合には（ステップ７０４乃至７０６でＮＯ、ステップ７０７でＹＥＳ）、検出したオブジェクトの形状が楕円形であると判定する（ステップ７１１）。これに対して、オブジェクトの辺または角の数が６乃至１０でない場合には（ステップ７０４乃至７０７でＮＯ）、検出したオブジェクトの形状が円形であると判定する（ステップ７１２）。

管理サーバ１０は、検出したオブジェクトの内側から輪郭を検出すると（ステップ７１３でＹＥＳ）、検出した輪郭で形成される図形の数をカウントする（ステップ７１４）。これに対して、検出したオブジェクトの内側から輪郭が検出されない場合には（ステップ７１３でＮＯ）、ステップ７１５に進む。

管理サーバ１０は、前後する頁の各々のオブジェクトの差分に基づいて、原稿の先頭頁として判定できる場合には（ステップ７１５でＹＥＳ）、原稿の先頭頁として判定する（ステップ７１６）。これに対して、前後する頁の各々のオブジェクトの差分に基づいて、原稿の先頭頁として判定できない場合には（ステップ７１５でＮＯ）、原稿の先頭頁ではない頁として判定する（ステップ７１７）。

（具体例）
図８は、頁の特徴量が色である場合における処理の具体例を示す図である。
頁の特徴量が色である場合、管理サーバ１０は、上述のように、機械学習モデルを作成し、頁全体の画素の各々の色をｎ種類の色のうちいずれかに分類することで減色する。そして、ｎ種類の色の各々の画素数をカウントして、カウントした画素数の頁全体の画素数に対する占有率を色ごとに算出する。図８には、ｎ＝５である場合の具体例が示されている。

図８において、各色は、頁全体に対する占有率が高い順に上から並んでおり、ＲＧＢ値で示されている。例えば、１色目のＲＧＢ値は、（Ｒ２５４、Ｇ２５４、Ｂ２５４）であり、１色目の頁全体に対する占有率は９５．３６％である。また、２色目のＲＧＢ値は、（Ｒ９８、Ｇ１５１、Ｂ１２２）であり、２色目の頁全体に対する占有率は１．４９％である。また、３色目のＲＧＢ値は、（Ｒ１５、Ｇ１５、Ｂ１５）であり、３色目の頁全体に対する占有率は１．４４％である。また、４色目のＲＧＢ値は、（Ｒ１０６、Ｇ４１、Ｂ１６５）であり、４色目の頁全体に対する占有率は１．０２％である。また、５色目のＲＧＢ値は、（Ｒ５、Ｇ１１８、Ｂ２２７）であり、５色目の頁全体に対する占有率は０．６８％である。

管理サーバ１０は、前後する頁の各々の色のＲＧＢ値の差分と、各色の占有率の差分とに基づいて、原稿の先頭頁であるか否かを判定する。ここで、ｍ頁目（ｍは１以上の整数値）のｎ種類の色の各々のＲＧＢ値をＲｍ、Ｇｍ、およびＢｍとし、占有率をＳｍとすると、以下のような計算式によって差分が求められる。すなわち、前頁との差分は、Ｒｍ－１－Ｒｍ、Ｇｍ－１－Ｇｍ、Ｂｍ－１－Ｂｍ、Ｓｍ－１－Ｓｍとする。また、後頁との差分は、Ｒｍ－Ｒｍ＋１、Ｇｍ－Ｇｍ＋１、Ｂｍ－Ｂｍ＋１、Ｓｍ－Ｓｍ＋１とする。ここで、判定の対象となる頁が１頁目である場合には、前頁が存在しないので、すべての頁の差分を計算した結果から、それぞれの最大値を差分とする。また、後頁（２頁目）とのＲＧＢ値の差分は、Ｒ１－Ｒ２、Ｇ１－Ｇ２、Ｂ１－Ｂ２とし、占有率の差分はＳ１－Ｓ２とする。

判定の対象が２頁目である場合には、前頁（１頁目）とのＲＧＢ値の差分は、Ｒ１－Ｒ２、Ｇ１－Ｇ２、Ｂ１－Ｂ２とし、占有率の差分は、Ｓ１－Ｓ２とする。また、後頁（３頁目）とのＲＧＢ値の差分は、Ｒ２－Ｒ３、Ｇ２－Ｇ３、Ｂ２－Ｂ３とし、占有率の差分は、Ｓ２－Ｓ３とする。判定の対象が３頁目であり、かつ、最終頁である場合には、前頁（２頁目）とのＲＧＢ値の差分は、Ｒ２－Ｒ３、Ｇ２－Ｇ３、Ｂ２－Ｂ３とし、占有率の差分は、Ｓ２－Ｓ３とする。また、存在しない後頁とのＲＧＢ値の差分、および占有率の差分は、すべての頁の差分を計算した結果の最大値を利用する。Ｒ値の差分を例にすると、１頁目の差分（Ｒ１－Ｒ２）、２頁目の差分（Ｒ２－Ｒ３）のうちの最大値とする。

図９は、頁の特徴量が罫線である場合における処理の具体例を示す図である。
頁の特徴量が罫線である場合、管理サーバ１０は、上述のように、電子文書をグレースケール化し、白黒を反転させる。そして、予め定められた条件を満たす罫線を検出し、その罫線の向きを判定して、罫線の本数を向きごとにカウントする。ここで、「予め定められた条件」とは、頁内に存在する線のうち罫線として検出するものを特定するための条件のことをいう。

例えば、「予め定められた条件」として、頁全体の横方向の長さＷの７０％を超える横向きの線と、頁全体の縦方向の長さＶの７０％を超える縦向きの線との各々を、縦向きの罫線と、横向きの罫線との各々とするように定められていたとする。この場合、管理サーバ１０は、頁全体の横方向の長さＷの７０％を超える横向きの線と、頁全体の縦方向の長さＶの７０％を超える縦向きの線とを抽出して、それぞれの本数をカウントする。図９の例では、横向きの罫線Ｌの本数は「１」、縦向きの罫線の本数は「０」とカウントされている。

図１０は、頁の特徴量がオブジェクトである場合における処理の具体例を示す図である。
頁の特徴量がオブジェクトである場合、管理サーバ１０は、上述のように、頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち１以上を抽出する。この場合、頁に含まれる輪郭の検出によりオブジェクトが抽出される。図１０には、２種類のオブジェクトの例が示されている。いずれも、外側図形は四角形であるが、隣接した四角形の個数が、一方が４個、他方が９個となっている。隣接した四角形の個数のカウントは、例えば、従来技術としての回転を考慮した外接矩形関数等が用いられる。なお、抽出されるオブジェクトのイメージは、例えば図１０に示すような表の枠などが挙げられるが、オブジェクトであれば特に限定されない。

図１１および図１２は、特徴量が余白である場合における処理の具体例を示す図である。
頁の特徴量が余白である場合、管理サーバ１０は、上述のように、頁の余白の位置および大きさを抽出する。具体的には、例えば、図１１に示すように、頁におけるパラグラフＰの左右上下方向の各々の位置を示す座標に基づいて、特徴量としての余白を抽出する。また、管理サーバ１０は、余白に存在するヘッダーおよびフッターのうち１以上を抽出する。さらに、余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出する。例えば、図１２の例では、余白に存在するヘッダーＨおよびフッターＦに含まれるキーワードを抽出する。

図１３は、クライアント端末３０に表示される画面の具体例を示す図である。
管理サーバ１０による判定の結果は、ユーザＵが一覧視可能な態様でクライアント端末３０に表示される。ユーザは、クライアント端末３０に表示された、図示せぬ分割用のボタンを押下すると、自動的に原稿ごとに分割される。なお、どのような態様で原稿ごとに分割されるのかについては特に限定されず、例えば、以下のような態様で原稿ごとに分割される。

例えば、図１３（Ａ）に示すように、一覧表示された複数の頁のうち、先頭頁とされた頁と、先頭頁とされていない頁との間に、１以上の分割線Ｄが表示されるようにしてもよい。この分割線Ｄは、ユーザＵが修正等を行うために移動および追加の操作を行えるようにしてもよい。さらに、ユーザＵによる修正等の作業の結果を学習モデルに反映させて、判定の際に利用できるようにしてもよい。また、例えば、図１３（Ｂ）に示すように、個々の原稿を示すように先頭頁とされた頁と先頭頁とされていない頁とが束ねられた態様で表示されるようにしてもよい。

また、例えば、判定の結果として、複数の頁のうち先頭頁とされた頁と先頭頁とされていない頁とを識別可能な態様で表示されるようにしてもよい。具体的には、図１３（Ｃ）のように、原稿ごとに色分けまたは模様分けされた態様で表示されるようにしてもよい。また、図１３（Ｃ）のように、原稿ごとに色分け、および先頭頁とされた頁ごとに目印となるオブジェクト（例えば、付箋）が付された態様で表示されるようにしてもよい。

図１４および１５は、原稿ごとに分割可能な電子文書の具体例を示す図である。図１４（Ａ）には、パンフレットの電子文書の一例が示されている。図１４（Ｂ）には、請求書の電子文書の一例が示されている。図１５（Ａ）には、注文書の電子文書の一例が示されている。図１５（Ｂ）には、通知書の電子文書の一例が示されている。

このうち、図１４（Ａ）に例示するパンフレットは、掲載された情報、位置、レイアウトに共通性がなく、電子文書を共通的に特定するオブジェクトがない。また、図１４（Ｂ）に例示する請求書は、情報（例えば、請求情報）、位置、レイアウト（例えば、表の有無など）に共通性がある。また、図１５（Ａ）に例示する注文書は、帳票ではあるが、情報、位置、およびレイアウトの共通性が請求書よりも低い。また、図１５（Ｂ）に例示する通知書は、情報（例えば、タイトル）に共通性はなく、位置、レイアウトにある程度共通性がある。このように、電子文書には様々な種類があり、それぞれ特徴を有しているが、本実施の形態にかかる管理サーバ１０による上述の処理によれば、電子文書の種類や特徴を問わず、頁ごとの特徴量としての色、罫線、オブジェクト、余白の差分に対する判定の組み合わせにより、原稿ごとの自動分割が可能となる。

以上、本実施の形態について説明したが、本発明は上述した本実施の形態に限るものではない。また、本発明による効果も、上述した本実施の形態に記載されたものに限定されない。例えば、図１に示すシステム構成、図２に示すハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。また、図３に示す機能構成も例示に過ぎず、特に限定されない。上述した処理を全体として実行できる機能が図１の情報処理システム１に備えられていれば足り、この機能を実現するためにどのような機能構成を用いるかは図３の例に限定されない。

また、図４乃至図７に示す処理のステップの順序も例示に過ぎず、特に限定されない。図示されたステップの順序に沿って時系列的に行われる処理だけではなく、必ずしも時系列的に処理されなくとも、並列的あるいは個別的に行われてもよい。また、図８乃至図１５に示す具体例も一例に過ぎず、特に限定されない。

また、上述の実施の形態では、情報処理装置としての管理サーバ１０が、差分に基づく判定までの処理を行う構成となっているが、これに限定されない。原稿の読み取りと電子文書の生成を行った複合機やスキャナが、そのまま差分に基づく判定までの処理を行う構成とすることもできる。この場合、例えば、上述の図１３に示す画面を複合機やスキャナに直接表示させてもよい。

また、上述の実施の形態では、抽出される特徴量として、色、罫線、オブジェクト、および余白が挙げられているが、これらに限定されない。電子文書を構成する複数の頁の中で前後する頁の差分として抽出可能なあらゆる特徴量を採用することができる。例えば、頁のサイズや向き等が採用されてもよい。

また、上述の実施の形態では、電子文書が生成される際、原稿の読み取り時に生じ得る白紙頁が自動的に削除されるものとされているが、これに限定されない。例えば、両面印刷された原稿と、片面印刷された原稿とが混在した状態で読み取られると、生成される電子文書を構成する頁の中に白紙頁が存在する場合がある。この場合、白紙頁であることを示す特徴量（例えば、色）の差分により、白紙頁とその後の頁とがいずれも先頭頁に該当すると判定されることになるが、例えば、図１３の分割線Ｄを削除する操作等で対応できる。

１…情報処理システム、１０…管理サーバ、１１…制御部、３０…クライアント端末、９０…ネットワーク、１０１…減色部、１０２…算出部、１０３…抽出部、１０４…比較部、１０５…判定部、１０６…表示制御部

Claims

プロセッサを備え、
前記プロセッサは、
１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
情報処理装置。
前記プロセッサは、前記特徴量として、色、罫線、オブジェクト、および余白のうち１以上の特徴量を前記頁ごとに抽出することを特徴とする、
請求項１に記載の情報処理装置。
前記プロセッサは、
前記特徴量として、前記頁全体の画素各々の色をｎ種類（ｎは１以上の整数値）の色のうちいずれかに分類した結果と、当該ｎ種類の色の各々の当該頁全体に対する占有率とを抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記ｎ種類の色および前記占有率の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項２に記載の情報処理装置。
前記プロセッサは、複数の頁の中で前後する頁の各々の前記占有率の順位ごとの前記差分に基づいて、前記複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、
請求項３に記載の情報処理装置。
前記プロセッサは、
前記特徴量として、前記頁に含まれる罫線の向き、位置、長さ、太さ、および数量のうち１以上を抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記罫線の向き、位置、長さ、太さ、および数量のうち１以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項２に記載の情報処理装置。
前記特徴量としての前記罫線の長さが、前記頁のサイズに対して予め定められた割合を超えることを特徴とする、
請求項５に記載の情報処理装置。
前記プロセッサは、
前記特徴量として、前記頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち１以上を抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記オブジェクトの形状、位置、大きさ、および数量のうち１以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項２に記載の情報処理装置。
前記特徴量としての前記オブジェクトが、前記頁に含まれる輪郭の検出により抽出されることを特徴とする、
請求項７に記載の情報処理装置。
前記プロセッサは、
前記特徴量として、前記頁の余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち１以上を抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち１以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項２に記載の情報処理装置。
前記余白の位置および大きさが、前記頁におけるパラグラフの位置を示す座標により特定されることを特徴とする、
請求項９に記載の情報処理装置。
前記プロセッサは、前記特徴量として、前記余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出することを特徴とする、
請求項９に記載の情報処理装置。
前記プロセッサは、機械学習モデルを用いて、複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、
請求項１に記載の情報処理装置。
前記機械学習モデルが、決定木、ランダムフォレスト、および勾配ブースティングのうち１以上により生成される、
請求項１２に記載の情報処理装置。
前記プロセッサは、前記判定の結果を、ユーザが一覧視可能な態様で表示する制御を行うことを特徴とする、
請求項１に記載の情報処理装置。
前記プロセッサは、前記判定の結果として一覧表示された複数の頁のうち、前記先頭頁とされた頁と、当該先頭頁とされていない頁との間に、移動および追加可能な分割線を表示する制御を行うことを特徴とする、
請求項１４に記載の情報処理装置。
前記プロセッサは、前記判定の結果として、前記原稿を示すように、前記先頭頁とされた頁と当該先頭頁とされていない頁とが束ねられた態様で表示する制御を行うことを特徴とする、
請求項１４に記載の情報処理装置。
前記プロセッサは、前記判定の結果として、複数の頁のうち前記先頭頁とされた頁と当該先頭頁とされていない頁とを識別可能な態様で表示する制御を行うことを特徴とする、
請求項１４に記載の情報処理装置。
前記プロセッサは、前記識別可能な態様として、前記原稿ごとに色分けされた態様で表示する制御を行うことを特徴とする、
請求項１７に記載の情報処理装置。
前記プロセッサは、前記識別可能な態様として、前記原稿ごとに前記色分け、および前記先頭頁とされた頁ごとに目印となるオブジェクトが付された態様で表示する制御を行うことを特徴とする、
請求項１８に記載の情報処理装置。
１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する抽出手段と、
前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う判定手段と、
を有することを特徴とする情報処理システム。
コンピュータに、
１以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する機能と、
前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う機能と、
を実現させるためのプログラム。