JP2023055368A - 情報処理装置、情報処理システム、およびプログラム - Google Patents
情報処理装置、情報処理システム、およびプログラム Download PDFInfo
- Publication number
- JP2023055368A JP2023055368A JP2021164680A JP2021164680A JP2023055368A JP 2023055368 A JP2023055368 A JP 2023055368A JP 2021164680 A JP2021164680 A JP 2021164680A JP 2021164680 A JP2021164680 A JP 2021164680A JP 2023055368 A JP2023055368 A JP 2023055368A
- Authority
- JP
- Japan
- Prior art keywords
- page
- pages
- information processing
- electronic document
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 58
- 239000000284 extract Substances 0.000 claims abstract description 29
- 239000003086 colorant Substances 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 21
- 238000000034 method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 241001270131 Agaricus moelleri Species 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】連続する複数の原稿が読み取られることで生成された1つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにする。【解決手段】情報処理装置としてのユーザ端末10は、制御部11を備え、制御部11では、抽出部103が、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出し、比較部104が、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の中で前後する頁の特徴量を比較する。そして、判定部105が、比較部104による前後する頁の特徴量の比較の結果、前後する頁に差分がある場合には、その差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。【選択図】図3
Description
本発明は、情報処理装置、情報処理システム、およびプログラムに関する。
連続する複数の原稿をスキャナ等でそのまま読み取ると、単に複数の頁からなる1つの電子文書が生成されることになるため、原稿ごとに分割することが困難になる。これに対して、例えば、電子文書に含まれる罫線やキーワードを認識して原稿ごとに分割する技術が存在する(特許文献1参照)。
しかしながら、従来の技術では、意図する正解率で原稿ごとに分割することは困難である。
本発明の目的は、連続する複数の原稿が読み取られることで生成された1つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにすることを目的とする。
請求項1に記載された発明は、プロセッサを備え、前記プロセッサは、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、情報処理装置である。
請求項2に記載された発明は、前記プロセッサは、前記特徴量として、色、罫線、オブジェクト、および余白のうち1以上の特徴量を前記頁ごとに抽出することを特徴とする、請求項1に記載の情報処理装置である。
請求項3に記載された発明は、前記プロセッサは、前記特徴量として、前記頁全体の画素各々の色をn種類(nは1以上の整数値)の色のうちいずれかに分類した結果と、当該n種類の色の各々の当該頁全体に対する占有率とを抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記n種類の色および前記占有率の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項4に記載された発明は、前記プロセッサは、複数の頁の中で前後する頁の各々の前記占有率の順位ごとの前記差分に基づいて、前記複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、請求項3に記載の情報処理装置である。
請求項5に記載された発明は、前記プロセッサは、前記特徴量として、前記頁に含まれる罫線の向き、位置、長さ、太さ、および数量のうち1以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記罫線の向き、位置、長さ、太さ、および数量のうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項6に記載された発明は、前記特徴量としての前記罫線の長さが、前記頁のサイズに対して予め定められた割合を超えることを特徴とする、請求項5に記載の情報処理装置である。
請求項7に記載された発明は、前記プロセッサは、前記特徴量として、前記頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち1以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記オブジェクトの形状、位置、大きさ、および数量のうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項8に記載された発明は、前記特徴量としての前記オブジェクトが、前記頁に含まれる輪郭の検出により抽出されることを特徴とする、請求項7に記載の情報処理装置である。
請求項9に記載された発明は、前記プロセッサは、前記特徴量として、前記頁の余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち1以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項10に記載された発明は、前記余白の位置および大きさが、前記頁におけるパラグラフの位置を示す座標により特定されることを特徴とする、請求項9に記載の情報処理装置である。
請求項11に記載された発明は、前記プロセッサは、前記特徴量として、前記余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出することを特徴とする、請求項9に記載の情報処理装置である。
請求項12に記載された発明は、前記プロセッサは、機械学習モデルを用いて、複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、請求項1に記載の情報処理装置である。
請求項13に記載された発明は、前記機械学習モデルが、決定木、ランダムフォレスト、および勾配ブースティングのうち1以上により生成される、請求項12に記載の情報処理装置である。
請求項14に記載された発明は、前記プロセッサは、前記判定の結果を、ユーザが一覧視可能な態様で表示する制御を行うことを特徴とする、請求項1に記載の情報処理装置である。
請求項15に記載された発明は、前記プロセッサは、前記判定の結果として一覧表示された複数の頁のうち、前記先頭頁とされた頁と、当該先頭頁とされていない頁との間に、移動および追加可能な分割線を表示する制御を行うことを特徴とする、請求項14に記載の情報処理装置である。
請求項16に記載された発明は、前記プロセッサは、前記判定の結果として、前記原稿を示すように、前記先頭頁とされた頁と当該先頭頁とされていない頁とが束ねられた態様で表示する制御を行うことを特徴とする、請求項14に記載の情報処理装置である。
請求項17に記載された発明は、前記プロセッサは、前記判定の結果として、複数の頁のうち前記先頭頁とされた頁と当該先頭頁とされていない頁とを識別可能な態様で表示する制御を行うことを特徴とする、請求項14に記載の情報処理装置である。
請求項18に記載された発明は、前記プロセッサは、前記識別可能な態様として、前記原稿ごとに色分けされた態様で表示する制御を行うことを特徴とする、請求項17に記載の情報処理装置である。
請求項19に記載された発明は、前記プロセッサは、前記識別可能な態様として、前記原稿ごとに前記色分け、および前記先頭頁とされた頁ごとに目印となるオブジェクトが付された態様で表示する制御を行うことを特徴とする、請求項18に記載の情報処理装置である。
請求項20に記載された発明は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する抽出手段と、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う判定手段と、を有することを特徴とする情報処理システムである。
請求項21に記載された発明は、コンピュータに、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する機能と、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う機能と、を実現させるためのプログラムである。
請求項2に記載された発明は、前記プロセッサは、前記特徴量として、色、罫線、オブジェクト、および余白のうち1以上の特徴量を前記頁ごとに抽出することを特徴とする、請求項1に記載の情報処理装置である。
請求項3に記載された発明は、前記プロセッサは、前記特徴量として、前記頁全体の画素各々の色をn種類(nは1以上の整数値)の色のうちいずれかに分類した結果と、当該n種類の色の各々の当該頁全体に対する占有率とを抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記n種類の色および前記占有率の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項4に記載された発明は、前記プロセッサは、複数の頁の中で前後する頁の各々の前記占有率の順位ごとの前記差分に基づいて、前記複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、請求項3に記載の情報処理装置である。
請求項5に記載された発明は、前記プロセッサは、前記特徴量として、前記頁に含まれる罫線の向き、位置、長さ、太さ、および数量のうち1以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記罫線の向き、位置、長さ、太さ、および数量のうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項6に記載された発明は、前記特徴量としての前記罫線の長さが、前記頁のサイズに対して予め定められた割合を超えることを特徴とする、請求項5に記載の情報処理装置である。
請求項7に記載された発明は、前記プロセッサは、前記特徴量として、前記頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち1以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記オブジェクトの形状、位置、大きさ、および数量のうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項8に記載された発明は、前記特徴量としての前記オブジェクトが、前記頁に含まれる輪郭の検出により抽出されることを特徴とする、請求項7に記載の情報処理装置である。
請求項9に記載された発明は、前記プロセッサは、前記特徴量として、前記頁の余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち1以上を抽出し、前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、請求項2に記載の情報処理装置である。
請求項10に記載された発明は、前記余白の位置および大きさが、前記頁におけるパラグラフの位置を示す座標により特定されることを特徴とする、請求項9に記載の情報処理装置である。
請求項11に記載された発明は、前記プロセッサは、前記特徴量として、前記余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出することを特徴とする、請求項9に記載の情報処理装置である。
請求項12に記載された発明は、前記プロセッサは、機械学習モデルを用いて、複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、請求項1に記載の情報処理装置である。
請求項13に記載された発明は、前記機械学習モデルが、決定木、ランダムフォレスト、および勾配ブースティングのうち1以上により生成される、請求項12に記載の情報処理装置である。
請求項14に記載された発明は、前記プロセッサは、前記判定の結果を、ユーザが一覧視可能な態様で表示する制御を行うことを特徴とする、請求項1に記載の情報処理装置である。
請求項15に記載された発明は、前記プロセッサは、前記判定の結果として一覧表示された複数の頁のうち、前記先頭頁とされた頁と、当該先頭頁とされていない頁との間に、移動および追加可能な分割線を表示する制御を行うことを特徴とする、請求項14に記載の情報処理装置である。
請求項16に記載された発明は、前記プロセッサは、前記判定の結果として、前記原稿を示すように、前記先頭頁とされた頁と当該先頭頁とされていない頁とが束ねられた態様で表示する制御を行うことを特徴とする、請求項14に記載の情報処理装置である。
請求項17に記載された発明は、前記プロセッサは、前記判定の結果として、複数の頁のうち前記先頭頁とされた頁と当該先頭頁とされていない頁とを識別可能な態様で表示する制御を行うことを特徴とする、請求項14に記載の情報処理装置である。
請求項18に記載された発明は、前記プロセッサは、前記識別可能な態様として、前記原稿ごとに色分けされた態様で表示する制御を行うことを特徴とする、請求項17に記載の情報処理装置である。
請求項19に記載された発明は、前記プロセッサは、前記識別可能な態様として、前記原稿ごとに前記色分け、および前記先頭頁とされた頁ごとに目印となるオブジェクトが付された態様で表示する制御を行うことを特徴とする、請求項18に記載の情報処理装置である。
請求項20に記載された発明は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する抽出手段と、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う判定手段と、を有することを特徴とする情報処理システムである。
請求項21に記載された発明は、コンピュータに、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する機能と、前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う機能と、を実現させるためのプログラムである。
請求項1の本発明によれば、連続する複数の原稿が読み取られることで生成された1つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにする情報処理装置を提供できる。
請求項2の本発明によれば、前後する頁の特徴量としての色、罫線、オブジェクト、および余白の違いの程度に基づいて、原稿ごとに自動分割できる。
請求項3の本発明によれば、前後する頁の特徴量の違いの程度として、色の違いの程度を求めることができる。
請求項4の本発明によれば、前後する頁の特徴量の違いの程度として、色の差分を求めることができる。
請求項5の本発明によれば、前後する頁の特徴量の違いの程度として、罫線の向き、位置、長さ、太さ、および数量の差分を求めることができる。
請求項6の本発明によれば、前後する頁の特徴量の違いの程度として、予め定められた基準を満たす罫線の差分を求めることができる。
請求項7の本発明によれば、前後する頁の特徴量の違いの程度として、オブジェクトの形状、位置、大きさ、および数量の差分を求めることができる。
請求項8の本発明によれば、前後する頁の特徴量となるオブジェクトを特定できる。
請求項9の本発明によれば、前後する頁の特徴量の違いの程度として、余白の位置、大きさ、および余白に存在するヘッダーおよびフッターの差分を求めることができる。
請求項10の本発明によれば、前後する頁の特徴量となる余白を特定できる。
請求項11の本発明によれば、前後する頁の特徴量の違いの程度として、余白に存在するヘッダーおよびフッターのキーワードの差分を求めることができる。
請求項12の本発明によれば、電子文書を構成する複数の原稿の各々の先頭頁に該当するか否かの判定がなされる際、機械学習モデルが用いられることで、判定の精度を向上させていくことができる。
請求項13の本発明によれば、決定木、ランダムフォレスト、および勾配ブースティングによって機械学習モデルが生成されることで、判定の精度を向上させていくことができる。
請求項14の本発明によれば、自動判定された結果が一覧表示されるので、ユーザの利便性を向上させることができる。
請求項15の本発明によれば、表示された判定結果を修正することができるので、実用性を向上させることができる。
請求項16の本発明によれば、自動判定された結果が、原稿ごとに表示されるので、ユーザの見やすさを向上させることができる。
請求項17の本発明によれば、自動判定された結果が、原稿ごとに表示されるので、ユーザの利便性を向上させることができる。
請求項18の本発明によれば、自動判定された結果が、原稿ごとに色分け表示されるので、ユーザの見やすさを向上させることができる。
請求項19の本発明によれば、自動判定された結果が、原稿ごとに色分け表示されるとともに、先頭頁に目印となるオブジェクトが付されるので、ユーザの利便性を向上させることができる。
請求項20の本発明によれば、連続する複数の原稿が読み取られることで生成された1つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにする情報処理システムを提供できる。
請求項21の本発明によれば、連続する複数の原稿が読み取られることで生成された1つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにするプログラムを提供できる。
請求項2の本発明によれば、前後する頁の特徴量としての色、罫線、オブジェクト、および余白の違いの程度に基づいて、原稿ごとに自動分割できる。
請求項3の本発明によれば、前後する頁の特徴量の違いの程度として、色の違いの程度を求めることができる。
請求項4の本発明によれば、前後する頁の特徴量の違いの程度として、色の差分を求めることができる。
請求項5の本発明によれば、前後する頁の特徴量の違いの程度として、罫線の向き、位置、長さ、太さ、および数量の差分を求めることができる。
請求項6の本発明によれば、前後する頁の特徴量の違いの程度として、予め定められた基準を満たす罫線の差分を求めることができる。
請求項7の本発明によれば、前後する頁の特徴量の違いの程度として、オブジェクトの形状、位置、大きさ、および数量の差分を求めることができる。
請求項8の本発明によれば、前後する頁の特徴量となるオブジェクトを特定できる。
請求項9の本発明によれば、前後する頁の特徴量の違いの程度として、余白の位置、大きさ、および余白に存在するヘッダーおよびフッターの差分を求めることができる。
請求項10の本発明によれば、前後する頁の特徴量となる余白を特定できる。
請求項11の本発明によれば、前後する頁の特徴量の違いの程度として、余白に存在するヘッダーおよびフッターのキーワードの差分を求めることができる。
請求項12の本発明によれば、電子文書を構成する複数の原稿の各々の先頭頁に該当するか否かの判定がなされる際、機械学習モデルが用いられることで、判定の精度を向上させていくことができる。
請求項13の本発明によれば、決定木、ランダムフォレスト、および勾配ブースティングによって機械学習モデルが生成されることで、判定の精度を向上させていくことができる。
請求項14の本発明によれば、自動判定された結果が一覧表示されるので、ユーザの利便性を向上させることができる。
請求項15の本発明によれば、表示された判定結果を修正することができるので、実用性を向上させることができる。
請求項16の本発明によれば、自動判定された結果が、原稿ごとに表示されるので、ユーザの見やすさを向上させることができる。
請求項17の本発明によれば、自動判定された結果が、原稿ごとに表示されるので、ユーザの利便性を向上させることができる。
請求項18の本発明によれば、自動判定された結果が、原稿ごとに色分け表示されるので、ユーザの見やすさを向上させることができる。
請求項19の本発明によれば、自動判定された結果が、原稿ごとに色分け表示されるとともに、先頭頁に目印となるオブジェクトが付されるので、ユーザの利便性を向上させることができる。
請求項20の本発明によれば、連続する複数の原稿が読み取られることで生成された1つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにする情報処理システムを提供できる。
請求項21の本発明によれば、連続する複数の原稿が読み取られることで生成された1つの電子文書を、原稿ごとに自動分割する際、単に罫線やキーワードを認識して分割する場合に比べて、より精度よく分割できるようにするプログラムを提供できる。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
(情報処理システムの構成)
図1は、本実施の形態が適用される情報処理システム1の全体の構成を示す図である。
情報処理システム1は、管理サーバ10と、クライアント端末30とがネットワーク90を介して接続されることにより構成されている。ネットワーク90は、例えば、LAN(Local Area Network)、インターネット等である。
(情報処理システムの構成)
図1は、本実施の形態が適用される情報処理システム1の全体の構成を示す図である。
情報処理システム1は、管理サーバ10と、クライアント端末30とがネットワーク90を介して接続されることにより構成されている。ネットワーク90は、例えば、LAN(Local Area Network)、インターネット等である。
管理サーバ10は、情報処理システム1の全体の管理をするサーバとしての情報処理装置である。管理サーバ10は、1以上の頁からなる複数の原稿が連続して複合機やスキャナ等に読み取られることで生成された電子文書の特徴量を頁ごとに抽出する。そして、その電子文書の中で前後する頁の特徴量の違いの程度に基づいて、原稿の先頭頁に該当するか否かの判定を電子文書の頁ごとに行う。なお、本実施の形態では、電子文書が生成される際、原稿の読み取り時に生じ得る白紙頁については、自動的に削除されるものとする。
クライアント端末30は、ユーザUが操作するパーソナルコンピュータ、タブレット端末、スマートフォン等の情報処理装置である。クライアント端末30は、管理サーバ10から送信されてくる判定の結果を受信して表示する。クライアント端末30に表示される画面の具体例については、図13を参照して後述する。
なお、上述した情報処理装置(管理サーバ10およびクライアント端末30)ごとの機能は一例であり、情報処理システム1全体として上述の機能を備えていればよい。このため、上述の機能のうち一部または全部を情報処理システム1内で分担してもよいし協働してもよい。例えば、管理サーバ10の機能の全部をクライアント端末30の機能としてもよい。これにより、情報処理システム1全体としての処理を促進し、また、処理を補完し合うことが可能となる。
(管理サーバのハードウェア構成)
図2は、管理サーバ10のハードウェア構成を示す図である。
管理サーバ10は、制御部11と、メモリ12と、記憶部13と、通信部14と、操作部15と、表示部16とを有している。これらの各部は、データバス、アドレスバス、PCI(Peripheral Component Interconnect)バス等で接続されている。
(管理サーバのハードウェア構成)
図2は、管理サーバ10のハードウェア構成を示す図である。
管理サーバ10は、制御部11と、メモリ12と、記憶部13と、通信部14と、操作部15と、表示部16とを有している。これらの各部は、データバス、アドレスバス、PCI(Peripheral Component Interconnect)バス等で接続されている。
制御部11は、OS(基本ソフトウェア)やアプリケーションソフトウェア(応用ソフトウェア)等の各種ソフトウェアの実行を通じて自機の動作を制御するプロセッサである。制御部11は、例えばCPU(Central Processing Unit)で構成される。メモリ12は、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、演算に際して作業エリアとして用いられる。メモリ12は、例えばRAM(Random Access Memory)等で構成される。
記憶部13は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域であり、各種情報を記憶するデータベースが格納されている。記憶部13は、例えばプログラムや各種設定データなどの記憶に用いられるHDD(Hard Disk Drive)やSSD(Solid State Drive)、半導体メモリ等で構成される。通信部14は、ネットワーク90を介して、または赤外線通信等の通信方式によるデータの送受信を行う。通信部14は、クライアント端末30および外部との間でデータの送受信を行う。
操作部15は、例えばキーボード、マウス、機械式のボタン、スイッチで構成され、入力操作を受け付ける。操作部15には、表示部16と一体的にタッチパネルを構成するタッチセンサも含まれる。表示部16は、画像やテキスト情報などを表示する。表示部16は、例えば情報の表示に用いられる液晶ディスプレイや有機EL(=Electro Luminescence)ディスプレイで構成される。
(クライアント端末のハードウェア構成)
クライアント端末30のハードウェア構成は、図2に示す管理サーバ10のハードウェア構成と同様の構成を備えている。このため、クライアント端末30のハードウェア構成の図示および説明を省略する。
クライアント端末30のハードウェア構成は、図2に示す管理サーバ10のハードウェア構成と同様の構成を備えている。このため、クライアント端末30のハードウェア構成の図示および説明を省略する。
(管理サーバの制御部の機能構成)
図3は、管理サーバ10の制御部11の機能構成を示す図である。
管理サーバ10の制御部11では、減色部101と、算出部102と、抽出部103と、比較部104と、判定部105と、表示制御部106とが機能する。
図3は、管理サーバ10の制御部11の機能構成を示す図である。
管理サーバ10の制御部11では、減色部101と、算出部102と、抽出部103と、比較部104と、判定部105と、表示制御部106とが機能する。
減色部101は、頁ごとの特徴量として色が抽出される際に機能する。減色部101は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を構成する複数の頁の各々について、頁全体の画素の各々の色をn種類(nは1以上の整数値)の色のうちいずれかに分類することで減色する。これにより、前後する頁の色の変化を、特徴量の差分として捉えることが可能となる。ここで、減色部101がどのような手法を用いて減色を行うかについては特に限定されない。例えば、K平均法のモデルを用いて減色が行われてもよい。なお、減色部101による減色の処理の具体例については、図8を参照して後述する。
算出部102は、頁ごとの特徴量として色が抽出される際に機能する。算出部102は、減色部101による減色の結果として得られるn種類の色の各々について、頁全体に対する占有率を算出する。これにより、前後する頁の色の占有率の変化を、特徴量の差分として捉えることが可能となる。なお、算出部102により算出された占有率の具体例については、図8を参照して後述する。
抽出部103は、頁ごとの特徴量の種類を問わず機能する。抽出部103は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を、電子文書を構成する頁ごとに抽出する。本実施の形態では、色、罫線、オブジェクト、および余白が特徴量として抽出される。抽出部103は、特徴量としての色、罫線、オブジェクト、および余白を択一的に抽出するのではなく、すべてを対象として抽出する。ただし、特徴量の種類を特定して抽出することもできる。
抽出部103は、特徴量としての色を抽出する際、減色部101によりn種類の色に減色された結果と、算出部102により算出された色ごとの頁全体に対する占有率とを抽出する。なお、抽出部103により特徴量として抽出された色の具体例については、図8を参照して後述する。
また、抽出部103は、特徴量としての罫線を抽出する際、頁に含まれる罫線の向き、位置、長さ、太さ、および数量のうち1以上を抽出する。ここで、抽出部103がどのような手法を用いて罫線を抽出するのかについては特に限定されない。例えば、従来技術としてのハフ変換を用いて検出される直線のうち、予め定められた条件を満たすものを罫線として抽出してもよい。この場合、「予め定められた条件」とは、例えば、頁全体の縦横のサイズに対する長さ等である。なお、抽出部103により特徴量として抽出された罫線の具体例については、図9を参照して後述する。
また、抽出部103は、特徴量としてのオブジェクトを抽出する際、頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち1以上を抽出する。この場合、頁に含まれる輪郭の検出によりオブジェクトが抽出される。ここで、抽出部103が輪郭を検出する際に用いる手法は特に限定されない。例えば、従来技術としての輪郭検出関数を用いてもよい。なお、抽出部103により特徴量として抽出されたオブジェクトの具体例については、図10を参照して後述する。
また、抽出部103は、特徴量としての余白を抽出する際、頁の余白の位置、大きさ、および余白に存在するヘッダーおよびフッターのうち1以上を抽出する。さらに、抽出部103は、余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出する。ここで、抽出部103がどのような手法を用いて余白に存在するヘッダーおよびフッターと、ヘッダーおよびフッターに含まれるキーワードとを抽出するかは特に限定されない。例えば、ヘッダーは、OCR(Optical Character Reader)で位置が最も上部として認識されたキーワードを抽出してもよい。また、フッターは、OCRで位置が最も下部として認識されたキーワードを抽出してもよい。なお、抽出部103により特徴量として抽出された余白の具体例については、図11および図12を参照して後述する。
比較部104は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の中で前後する頁の特徴量を比較する。具体的には、比較部104は、後述する判定部105による判定の対象となる頁とその直前の頁との比較と、判定の対象となる頁とその直後の頁との比較とを行う。例えば、全5頁からなる電子文書は、1頁目と2頁目との比較、2頁目と3頁目との比較、3頁目と4頁目との比較、および4頁目と5頁目との比較を行う。
判定部105は、比較部104による前後する頁の特徴量の比較の結果、前後する頁に差分がある場合には、その差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。例えば、全5頁からなる電子文書は、1頁目と2頁目との比較の結果、2頁目と3頁目との比較の結果、3頁目と4頁目との比較の結果、および4頁目と5頁目との比較の結果の各々から差分を特定する。そして、特定した差分に基づいて、原稿の先頭頁に該当するか否かを1頁目乃至5頁目の各々について判定する。
具体的には、判定部105は、特徴量ごとの差分の組み合わせに基づいて判定を行う。このうち、特徴量としての色に差分がある場合には、減色部101により減色された結果としてのn種類の色の差分と、n種類の色ごとの頁全体に対する占有率の差分とに基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、前後する頁の各々の占有率の順位ごとの差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。具体的なケースとして、例えば、1頁目において最大の占有率となった色が「白」であり、2頁目において最大の占有率となった色が「赤」である場合、1頁目と2頁目との比較の結果は、特徴量としての色に差分があることになるため、その差分に基づいた判定が行われる。
また、判定部105は、特徴量としての罫線に差分がある場合には、罫線の向き、位置、長さ、太さ、および数量のうち1以上の差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、特徴量としての罫線に該当するかどうかについて予め条件を設けておくこともできる。例えば、頁のサイズに対して予め定められた割合(例えば、70%)を超える長さのものを罫線とする等の条件を予め定めておくことができる。具体的なケースとして、例えば、1頁目には、パラグラフの上下端の各々に横向きの罫線が1本ずつ存在するのに対して、2頁目には罫線が存在しない場合には、1頁目と2頁目との間に特徴量としての罫線に差分があることになるため、その差分に基づいた判定が行われる。
また、判定部105は、特徴量としてのオブジェクトに差分がある場合には、オブジェクトの形状、位置、大きさ、および数量のうち1以上の差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。オブジェクトとしては、例えば、文中の表の枠や、グラフの枠等が挙げられる。具体的なケースとして、例えば、1頁目には、2つの四角形の枠が連結することで形成された表が存在するのに対して、2頁目には表が存在しない場合には、1頁目と2頁目との間に特徴量としてのオブジェクトに差分があることになるため、その差分に基づいた判定が行われる。
また、判定部105は、特徴量としての余白に差分がある場合には、余白の位置、大きさ、および余白に存在するヘッダーおよびフッターのうち1以上の差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、余白の位置および大きさは、頁におけるパラグラフの位置を示す座標により特定される。具体的なケースとして、例えば、1頁目と2頁目との各々の上下左右の余白のサイズの各々に差分がある場合には、1頁目と2頁目との間に特徴量としての余白に差分があることになるため、その差分に基づいた判定が行われる。
また、判定部105は、特徴量としての余白に存在するヘッダーおよびフッターに含まれるキーワードの差分に基づいて、原稿の先頭頁に該当するか否かを頁ごとに判定する。この場合、余白に存在するヘッダーおよびフッターに含まれるキーワードとしては、複数の頁に共通するキーワードや、頁を示す値等が挙げられる。具体的なケースとして、例えば、1頁目の上下の余白には何も存在しないのに対して、2頁目の上下の余白の各々には章のタイトルと頁数との各々が存在する場合には、1頁目と2頁目との間に特徴量としてのオブジェクトに差分があることになるため、その差分に基づいた判定が行われる。
判定部105は、機械学習モデルを用いて、複数の頁の各々が原稿の先頭頁に該当するか否かを判定する。この場合、機械学習モデルは、決定木、ランダムフォレスト、および勾配ブースティングのうち1以上により生成される。これにより、判定部105による判定の結果を学習して判定の精度を向上させていくことが可能となる。
表示制御部106は、判定部105による判定の結果を、ユーザUが一覧視可能な態様でクライアント端末30に表示する制御を行う。例えば、表示制御部106は、判定部105による判定の結果として一覧表示された複数の頁のうち、先頭頁とされた頁と、先頭頁とされていない頁との間に、移動および追加可能な分割線を表示する制御を行う。なお、先頭頁とされた頁と、先頭頁とされていない頁との間に表示された分割線の具体例については、図13を参照して後述する。
また、例えば、表示制御部106は、判定の結果として、原稿を示すように、先頭頁とされた頁と先頭頁とされていない頁とが束ねられた態様で表示する制御を行う。なお、先頭頁とされた頁と先頭頁とされていない頁とが束ねられた態様で表示された原稿の具体例については、図13を参照して後述する。
また、例えば、表示制御部106は、判定の結果として、複数の頁のうち先頭頁とされた頁と先頭頁とされていない頁とを識別可能な態様で表示する制御を行う。例えば、識別可能な態様として、原稿ごとに色分けや模様分けされた態様で表示する制御を行う。また、例えば、識別可能な態様として、原稿ごとに色分けや模様分け、および先頭頁とされた頁ごとに目印となるオブジェクト(例えば、付箋)が付された態様で表示する制御を行う。なお、先頭頁とされた頁と先頭頁とされていない頁とが識別可能な態様で表示された原稿の具体例については、図13を参照して後述する。
(管理サーバの処理)
図4は、管理サーバ10の全体的な処理の流れを示すフローチャートである。
管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得すると(ステップ401でYES)、取得した電子文書の特徴量を頁ごとに抽出して(ステップ402)、前後する頁の特徴量を比較する(ステップ403)。これに対して、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得していない場合(ステップ401でNO)、管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得するまでステップ401の処理を繰り返す。
図4は、管理サーバ10の全体的な処理の流れを示すフローチャートである。
管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得すると(ステップ401でYES)、取得した電子文書の特徴量を頁ごとに抽出して(ステップ402)、前後する頁の特徴量を比較する(ステップ403)。これに対して、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得していない場合(ステップ401でNO)、管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書を取得するまでステップ401の処理を繰り返す。
管理サーバ10は、ステップ403での比較の結果、特徴量に差分があり(ステップ404でYES)、その差分に基づいて、原稿の先頭頁として判定できる場合には(ステップ405でYES)、原稿の先頭頁として判定する(ステップ406)。これに対して、ステップ403での比較の結果、特徴量に差分がない場合や(ステップ404でNO)、特徴量に差分があっても(ステップ404でYES)、その差分に基づいて、原稿の先頭頁として判定できない場合には(ステップ405でNO)、原稿の先頭頁ではない頁として判定する(ステップ407)。
図5は、頁の特徴量が色である場合における、管理サーバ10の処理の流れを示すフローチャートである。
管理サーバ10は、機械学習モデルを作成し(ステップ501)、頁全体の画素の各々の色をn種類の色のうちいずれかに分類する(ステップ502)。分類の結果、nが2以上である場合には(ステップ503でYES)、管理サーバ10は、n種類の色の各々の画素数をカウントして(ステップ504)、カウントした画素数の頁全体の画素数に対する占有率を色ごとに算出する(ステップ505)。これに対して、分類の結果、nが2以上でない場合には(ステップ503でNO)、頁全体が1色であることとなり、処理は終了する。
管理サーバ10は、機械学習モデルを作成し(ステップ501)、頁全体の画素の各々の色をn種類の色のうちいずれかに分類する(ステップ502)。分類の結果、nが2以上である場合には(ステップ503でYES)、管理サーバ10は、n種類の色の各々の画素数をカウントして(ステップ504)、カウントした画素数の頁全体の画素数に対する占有率を色ごとに算出する(ステップ505)。これに対して、分類の結果、nが2以上でない場合には(ステップ503でNO)、頁全体が1色であることとなり、処理は終了する。
次に、管理サーバ10は、前後する頁の各々の色の差分に基づいて、原稿の先頭頁として判定できる場合には(ステップ506でYES)、原稿の先頭頁として判定する(ステップ507)。これに対して、前後する頁の各々の色の差分に基づいて、原稿の先頭頁として判定できない場合には(ステップ506でNO)、原稿の先頭頁ではない頁として判定する(ステップ508)。
図6は、頁の特徴量が罫線である場合における、管理サーバ10の処理の流れを示すフローチャートである。
管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書をグレースケール化し(ステップ601)、白黒を反転させる(ステップ602)。そして、管理サーバ10は、予め定められた条件を満たす罫線を検出すると(ステップ603でYES)、検出した罫線の向きを判定して(ステップ604)、罫線の本数を向きごとにカウントする(ステップ605)。これに対して、予め定められた条件を満たす罫線が検出されない場合には(ステップ603でNO)、処理は終了する。
管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書をグレースケール化し(ステップ601)、白黒を反転させる(ステップ602)。そして、管理サーバ10は、予め定められた条件を満たす罫線を検出すると(ステップ603でYES)、検出した罫線の向きを判定して(ステップ604)、罫線の本数を向きごとにカウントする(ステップ605)。これに対して、予め定められた条件を満たす罫線が検出されない場合には(ステップ603でNO)、処理は終了する。
管理サーバ10は、前後する頁の各々の罫線の差分に基づいて、原稿の先頭頁として判定できる場合には(ステップ606でYES)、原稿の先頭頁として判定する(ステップ607)。これに対して、前後する頁の各々の罫線の差分に基づいて、原稿の先頭頁として判定できない場合には(ステップ606でNO)、原稿の先頭頁ではない頁として判定する(ステップ608)。
図7は、頁の特徴量がオブジェクトである場合における、管理サーバ10の処理の流れを示すフローチャートである。
管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書をグレースケール化し(ステップ701)、2値化する(ステップ702)。そして、管理サーバ10は、辺または角の数が3以上であるオブジェクトの輪郭を検出し(ステップ703でYES)、そのオブジェクトの辺または角の数が3である場合には(ステップ704でYES)、検出したオブジェクトの形状が三角形であると判定する(ステップ708)。これに対して、辺または角の数が3以上であるオブジェクトの輪郭が検出されなかった場合には(ステップ703でNO)、処理は終了する。
管理サーバ10は、1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書をグレースケール化し(ステップ701)、2値化する(ステップ702)。そして、管理サーバ10は、辺または角の数が3以上であるオブジェクトの輪郭を検出し(ステップ703でYES)、そのオブジェクトの辺または角の数が3である場合には(ステップ704でYES)、検出したオブジェクトの形状が三角形であると判定する(ステップ708)。これに対して、辺または角の数が3以上であるオブジェクトの輪郭が検出されなかった場合には(ステップ703でNO)、処理は終了する。
管理サーバ10は、辺または角の数が3以上であるオブジェクトの輪郭を検出し(ステップ703でYES)、そのオブジェクトの辺または角の数が4である場合には(ステップ704でNO、ステップ705でYES)、検出したオブジェクトの形状が四角形であると判定する(ステップ709)。また、オブジェクトの辺または角の数が5である場合には(ステップ704および705でNO、ステップ706でYES)、検出したオブジェクトの形状が五角形であると判定する(ステップ710)。
また、オブジェクトの辺または角の数が6乃至10である場合には(ステップ704乃至706でNO、ステップ707でYES)、検出したオブジェクトの形状が楕円形であると判定する(ステップ711)。これに対して、オブジェクトの辺または角の数が6乃至10でない場合には(ステップ704乃至707でNO)、検出したオブジェクトの形状が円形であると判定する(ステップ712)。
管理サーバ10は、検出したオブジェクトの内側から輪郭を検出すると(ステップ713でYES)、検出した輪郭で形成される図形の数をカウントする(ステップ714)。これに対して、検出したオブジェクトの内側から輪郭が検出されない場合には(ステップ713でNO)、ステップ715に進む。
管理サーバ10は、前後する頁の各々のオブジェクトの差分に基づいて、原稿の先頭頁として判定できる場合には(ステップ715でYES)、原稿の先頭頁として判定する(ステップ716)。これに対して、前後する頁の各々のオブジェクトの差分に基づいて、原稿の先頭頁として判定できない場合には(ステップ715でNO)、原稿の先頭頁ではない頁として判定する(ステップ717)。
(具体例)
図8は、頁の特徴量が色である場合における処理の具体例を示す図である。
頁の特徴量が色である場合、管理サーバ10は、上述のように、機械学習モデルを作成し、頁全体の画素の各々の色をn種類の色のうちいずれかに分類することで減色する。そして、n種類の色の各々の画素数をカウントして、カウントした画素数の頁全体の画素数に対する占有率を色ごとに算出する。図8には、n=5である場合の具体例が示されている。
図8は、頁の特徴量が色である場合における処理の具体例を示す図である。
頁の特徴量が色である場合、管理サーバ10は、上述のように、機械学習モデルを作成し、頁全体の画素の各々の色をn種類の色のうちいずれかに分類することで減色する。そして、n種類の色の各々の画素数をカウントして、カウントした画素数の頁全体の画素数に対する占有率を色ごとに算出する。図8には、n=5である場合の具体例が示されている。
図8において、各色は、頁全体に対する占有率が高い順に上から並んでおり、RGB値で示されている。例えば、1色目のRGB値は、(R254、G254、B254)であり、1色目の頁全体に対する占有率は95.36%である。また、2色目のRGB値は、(R98、G151、B122)であり、2色目の頁全体に対する占有率は1.49%である。また、3色目のRGB値は、(R15、G15、B15)であり、3色目の頁全体に対する占有率は1.44%である。また、4色目のRGB値は、(R106、G41、B165)であり、4色目の頁全体に対する占有率は1.02%である。また、5色目のRGB値は、(R5、G118、B227)であり、5色目の頁全体に対する占有率は0.68%である。
管理サーバ10は、前後する頁の各々の色のRGB値の差分と、各色の占有率の差分とに基づいて、原稿の先頭頁であるか否かを判定する。ここで、m頁目(mは1以上の整数値)のn種類の色の各々のRGB値をRm、Gm、およびBmとし、占有率をSmとすると、以下のような計算式によって差分が求められる。すなわち、前頁との差分は、Rm-1-Rm、Gm-1-Gm、Bm-1-Bm、Sm-1-Smとする。また、後頁との差分は、Rm-Rm+1、Gm-Gm+1、Bm-Bm+1、Sm-Sm+1とする。ここで、判定の対象となる頁が1頁目である場合には、前頁が存在しないので、すべての頁の差分を計算した結果から、それぞれの最大値を差分とする。また、後頁(2頁目)とのRGB値の差分は、R1-R2、G1-G2、B1-B2とし、占有率の差分はS1-S2とする。
判定の対象が2頁目である場合には、前頁(1頁目)とのRGB値の差分は、R1-R2、G1-G2、B1-B2とし、占有率の差分は、S1-S2とする。また、後頁(3頁目)とのRGB値の差分は、R2-R3、G2-G3、B2-B3とし、占有率の差分は、S2-S3とする。判定の対象が3頁目であり、かつ、最終頁である場合には、前頁(2頁目)とのRGB値の差分は、R2-R3、G2-G3、B2-B3とし、占有率の差分は、S2-S3とする。また、存在しない後頁とのRGB値の差分、および占有率の差分は、すべての頁の差分を計算した結果の最大値を利用する。R値の差分を例にすると、1頁目の差分(R1-R2)、2頁目の差分(R2-R3)のうちの最大値とする。
図9は、頁の特徴量が罫線である場合における処理の具体例を示す図である。
頁の特徴量が罫線である場合、管理サーバ10は、上述のように、電子文書をグレースケール化し、白黒を反転させる。そして、予め定められた条件を満たす罫線を検出し、その罫線の向きを判定して、罫線の本数を向きごとにカウントする。ここで、「予め定められた条件」とは、頁内に存在する線のうち罫線として検出するものを特定するための条件のことをいう。
頁の特徴量が罫線である場合、管理サーバ10は、上述のように、電子文書をグレースケール化し、白黒を反転させる。そして、予め定められた条件を満たす罫線を検出し、その罫線の向きを判定して、罫線の本数を向きごとにカウントする。ここで、「予め定められた条件」とは、頁内に存在する線のうち罫線として検出するものを特定するための条件のことをいう。
例えば、「予め定められた条件」として、頁全体の横方向の長さWの70%を超える横向きの線と、頁全体の縦方向の長さVの70%を超える縦向きの線との各々を、縦向きの罫線と、横向きの罫線との各々とするように定められていたとする。この場合、管理サーバ10は、頁全体の横方向の長さWの70%を超える横向きの線と、頁全体の縦方向の長さVの70%を超える縦向きの線とを抽出して、それぞれの本数をカウントする。図9の例では、横向きの罫線Lの本数は「1」、縦向きの罫線の本数は「0」とカウントされている。
図10は、頁の特徴量がオブジェクトである場合における処理の具体例を示す図である。
頁の特徴量がオブジェクトである場合、管理サーバ10は、上述のように、頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち1以上を抽出する。この場合、頁に含まれる輪郭の検出によりオブジェクトが抽出される。図10には、2種類のオブジェクトの例が示されている。いずれも、外側図形は四角形であるが、隣接した四角形の個数が、一方が4個、他方が9個となっている。隣接した四角形の個数のカウントは、例えば、従来技術としての回転を考慮した外接矩形関数等が用いられる。なお、抽出されるオブジェクトのイメージは、例えば図10に示すような表の枠などが挙げられるが、オブジェクトであれば特に限定されない。
頁の特徴量がオブジェクトである場合、管理サーバ10は、上述のように、頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち1以上を抽出する。この場合、頁に含まれる輪郭の検出によりオブジェクトが抽出される。図10には、2種類のオブジェクトの例が示されている。いずれも、外側図形は四角形であるが、隣接した四角形の個数が、一方が4個、他方が9個となっている。隣接した四角形の個数のカウントは、例えば、従来技術としての回転を考慮した外接矩形関数等が用いられる。なお、抽出されるオブジェクトのイメージは、例えば図10に示すような表の枠などが挙げられるが、オブジェクトであれば特に限定されない。
図11および図12は、特徴量が余白である場合における処理の具体例を示す図である。
頁の特徴量が余白である場合、管理サーバ10は、上述のように、頁の余白の位置および大きさを抽出する。具体的には、例えば、図11に示すように、頁におけるパラグラフPの左右上下方向の各々の位置を示す座標に基づいて、特徴量としての余白を抽出する。また、管理サーバ10は、余白に存在するヘッダーおよびフッターのうち1以上を抽出する。さらに、余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出する。例えば、図12の例では、余白に存在するヘッダーHおよびフッターFに含まれるキーワードを抽出する。
頁の特徴量が余白である場合、管理サーバ10は、上述のように、頁の余白の位置および大きさを抽出する。具体的には、例えば、図11に示すように、頁におけるパラグラフPの左右上下方向の各々の位置を示す座標に基づいて、特徴量としての余白を抽出する。また、管理サーバ10は、余白に存在するヘッダーおよびフッターのうち1以上を抽出する。さらに、余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出する。例えば、図12の例では、余白に存在するヘッダーHおよびフッターFに含まれるキーワードを抽出する。
図13は、クライアント端末30に表示される画面の具体例を示す図である。
管理サーバ10による判定の結果は、ユーザUが一覧視可能な態様でクライアント端末30に表示される。ユーザは、クライアント端末30に表示された、図示せぬ分割用のボタンを押下すると、自動的に原稿ごとに分割される。なお、どのような態様で原稿ごとに分割されるのかについては特に限定されず、例えば、以下のような態様で原稿ごとに分割される。
管理サーバ10による判定の結果は、ユーザUが一覧視可能な態様でクライアント端末30に表示される。ユーザは、クライアント端末30に表示された、図示せぬ分割用のボタンを押下すると、自動的に原稿ごとに分割される。なお、どのような態様で原稿ごとに分割されるのかについては特に限定されず、例えば、以下のような態様で原稿ごとに分割される。
例えば、図13(A)に示すように、一覧表示された複数の頁のうち、先頭頁とされた頁と、先頭頁とされていない頁との間に、1以上の分割線Dが表示されるようにしてもよい。この分割線Dは、ユーザUが修正等を行うために移動および追加の操作を行えるようにしてもよい。さらに、ユーザUによる修正等の作業の結果を学習モデルに反映させて、判定の際に利用できるようにしてもよい。また、例えば、図13(B)に示すように、個々の原稿を示すように先頭頁とされた頁と先頭頁とされていない頁とが束ねられた態様で表示されるようにしてもよい。
また、例えば、判定の結果として、複数の頁のうち先頭頁とされた頁と先頭頁とされていない頁とを識別可能な態様で表示されるようにしてもよい。具体的には、図13(C)のように、原稿ごとに色分けまたは模様分けされた態様で表示されるようにしてもよい。また、図13(C)のように、原稿ごとに色分け、および先頭頁とされた頁ごとに目印となるオブジェクト(例えば、付箋)が付された態様で表示されるようにしてもよい。
図14および15は、原稿ごとに分割可能な電子文書の具体例を示す図である。図14(A)には、パンフレットの電子文書の一例が示されている。図14(B)には、請求書の電子文書の一例が示されている。図15(A)には、注文書の電子文書の一例が示されている。図15(B)には、通知書の電子文書の一例が示されている。
このうち、図14(A)に例示するパンフレットは、掲載された情報、位置、レイアウトに共通性がなく、電子文書を共通的に特定するオブジェクトがない。また、図14(B)に例示する請求書は、情報(例えば、請求情報)、位置、レイアウト(例えば、表の有無など)に共通性がある。また、図15(A)に例示する注文書は、帳票ではあるが、情報、位置、およびレイアウトの共通性が請求書よりも低い。また、図15(B)に例示する通知書は、情報(例えば、タイトル)に共通性はなく、位置、レイアウトにある程度共通性がある。このように、電子文書には様々な種類があり、それぞれ特徴を有しているが、本実施の形態にかかる管理サーバ10による上述の処理によれば、電子文書の種類や特徴を問わず、頁ごとの特徴量としての色、罫線、オブジェクト、余白の差分に対する判定の組み合わせにより、原稿ごとの自動分割が可能となる。
以上、本実施の形態について説明したが、本発明は上述した本実施の形態に限るものではない。また、本発明による効果も、上述した本実施の形態に記載されたものに限定されない。例えば、図1に示すシステム構成、図2に示すハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。また、図3に示す機能構成も例示に過ぎず、特に限定されない。上述した処理を全体として実行できる機能が図1の情報処理システム1に備えられていれば足り、この機能を実現するためにどのような機能構成を用いるかは図3の例に限定されない。
また、図4乃至図7に示す処理のステップの順序も例示に過ぎず、特に限定されない。図示されたステップの順序に沿って時系列的に行われる処理だけではなく、必ずしも時系列的に処理されなくとも、並列的あるいは個別的に行われてもよい。また、図8乃至図15に示す具体例も一例に過ぎず、特に限定されない。
また、上述の実施の形態では、情報処理装置としての管理サーバ10が、差分に基づく判定までの処理を行う構成となっているが、これに限定されない。原稿の読み取りと電子文書の生成を行った複合機やスキャナが、そのまま差分に基づく判定までの処理を行う構成とすることもできる。この場合、例えば、上述の図13に示す画面を複合機やスキャナに直接表示させてもよい。
また、上述の実施の形態では、抽出される特徴量として、色、罫線、オブジェクト、および余白が挙げられているが、これらに限定されない。電子文書を構成する複数の頁の中で前後する頁の差分として抽出可能なあらゆる特徴量を採用することができる。例えば、頁のサイズや向き等が採用されてもよい。
また、上述の実施の形態では、電子文書が生成される際、原稿の読み取り時に生じ得る白紙頁が自動的に削除されるものとされているが、これに限定されない。例えば、両面印刷された原稿と、片面印刷された原稿とが混在した状態で読み取られると、生成される電子文書を構成する頁の中に白紙頁が存在する場合がある。この場合、白紙頁であることを示す特徴量(例えば、色)の差分により、白紙頁とその後の頁とがいずれも先頭頁に該当すると判定されることになるが、例えば、図13の分割線Dを削除する操作等で対応できる。
1…情報処理システム、10…管理サーバ、11…制御部、30…クライアント端末、90…ネットワーク、101…減色部、102…算出部、103…抽出部、104…比較部、105…判定部、106…表示制御部
Claims (21)
- プロセッサを備え、
前記プロセッサは、
1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
情報処理装置。 - 前記プロセッサは、前記特徴量として、色、罫線、オブジェクト、および余白のうち1以上の特徴量を前記頁ごとに抽出することを特徴とする、
請求項1に記載の情報処理装置。 - 前記プロセッサは、
前記特徴量として、前記頁全体の画素各々の色をn種類(nは1以上の整数値)の色のうちいずれかに分類した結果と、当該n種類の色の各々の当該頁全体に対する占有率とを抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記n種類の色および前記占有率の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項2に記載の情報処理装置。 - 前記プロセッサは、複数の頁の中で前後する頁の各々の前記占有率の順位ごとの前記差分に基づいて、前記複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、
請求項3に記載の情報処理装置。 - 前記プロセッサは、
前記特徴量として、前記頁に含まれる罫線の向き、位置、長さ、太さ、および数量のうち1以上を抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記罫線の向き、位置、長さ、太さ、および数量のうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項2に記載の情報処理装置。 - 前記特徴量としての前記罫線の長さが、前記頁のサイズに対して予め定められた割合を超えることを特徴とする、
請求項5に記載の情報処理装置。 - 前記プロセッサは、
前記特徴量として、前記頁に含まれるオブジェクトの形状、位置、大きさ、および数量のうち1以上を抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記オブジェクトの形状、位置、大きさ、および数量のうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項2に記載の情報処理装置。 - 前記特徴量としての前記オブジェクトが、前記頁に含まれる輪郭の検出により抽出されることを特徴とする、
請求項7に記載の情報処理装置。 - 前記プロセッサは、
前記特徴量として、前記頁の余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち1以上を抽出し、
前記電子文書の中で前後する頁の前記特徴量の違いの程度として、前記余白の位置、大きさ、および当該余白に存在するヘッダーおよびフッターのうち1以上の差分に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行うことを特徴とする、
請求項2に記載の情報処理装置。 - 前記余白の位置および大きさが、前記頁におけるパラグラフの位置を示す座標により特定されることを特徴とする、
請求項9に記載の情報処理装置。 - 前記プロセッサは、前記特徴量として、前記余白に存在するヘッダーおよびフッターの各々に含まれるキーワードを抽出することを特徴とする、
請求項9に記載の情報処理装置。 - 前記プロセッサは、機械学習モデルを用いて、複数の頁の各々が前記原稿の先頭頁に該当するか否かを判定することを特徴とする、
請求項1に記載の情報処理装置。 - 前記機械学習モデルが、決定木、ランダムフォレスト、および勾配ブースティングのうち1以上により生成される、
請求項12に記載の情報処理装置。 - 前記プロセッサは、前記判定の結果を、ユーザが一覧視可能な態様で表示する制御を行うことを特徴とする、
請求項1に記載の情報処理装置。 - 前記プロセッサは、前記判定の結果として一覧表示された複数の頁のうち、前記先頭頁とされた頁と、当該先頭頁とされていない頁との間に、移動および追加可能な分割線を表示する制御を行うことを特徴とする、
請求項14に記載の情報処理装置。 - 前記プロセッサは、前記判定の結果として、前記原稿を示すように、前記先頭頁とされた頁と当該先頭頁とされていない頁とが束ねられた態様で表示する制御を行うことを特徴とする、
請求項14に記載の情報処理装置。 - 前記プロセッサは、前記判定の結果として、複数の頁のうち前記先頭頁とされた頁と当該先頭頁とされていない頁とを識別可能な態様で表示する制御を行うことを特徴とする、
請求項14に記載の情報処理装置。 - 前記プロセッサは、前記識別可能な態様として、前記原稿ごとに色分けされた態様で表示する制御を行うことを特徴とする、
請求項17に記載の情報処理装置。 - 前記プロセッサは、前記識別可能な態様として、前記原稿ごとに前記色分け、および前記先頭頁とされた頁ごとに目印となるオブジェクトが付された態様で表示する制御を行うことを特徴とする、
請求項18に記載の情報処理装置。 - 1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する抽出手段と、
前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う判定手段と、
を有することを特徴とする情報処理システム。 - コンピュータに、
1以上の頁からなる複数の原稿が連続して読み取られることで生成された電子文書の特徴量を頁ごとに抽出する機能と、
前記電子文書の中で前後する頁の前記特徴量の違いの程度に基づいて、前記原稿の先頭頁に該当するか否かの判定を当該電子文書の頁ごとに行う機能と、
を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021164680A JP2023055368A (ja) | 2021-10-06 | 2021-10-06 | 情報処理装置、情報処理システム、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021164680A JP2023055368A (ja) | 2021-10-06 | 2021-10-06 | 情報処理装置、情報処理システム、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023055368A true JP2023055368A (ja) | 2023-04-18 |
Family
ID=86004398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021164680A Pending JP2023055368A (ja) | 2021-10-06 | 2021-10-06 | 情報処理装置、情報処理システム、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023055368A (ja) |
-
2021
- 2021-10-06 JP JP2021164680A patent/JP2023055368A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10572725B1 (en) | Form image field extraction | |
US10824801B2 (en) | Interactively predicting fields in a form | |
US8442324B2 (en) | Method and system for displaying image based on text in image | |
US8000529B2 (en) | System and method for creating an editable template from a document image | |
US20070143272A1 (en) | Method and apparatus for retrieving similar image | |
US9710524B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
JP3943638B2 (ja) | Ocrを利用しない文書画像中のドロップワードの自動認識方法 | |
JP2002063215A (ja) | 文書表示方法及びシステム、コンピュータプログラム、記録媒体 | |
JP2008234658A (ja) | テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション | |
CA2656425A1 (en) | Recognizing text in images | |
CN112651953B (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
Nurminen | Algorithmic extraction of data in tables in PDF documents | |
CN108764352A (zh) | 重复页面内容检测方法和装置 | |
KR20170101125A (ko) | 정보 처리장치, 정보 처리방법, 및 기억매체 | |
CN113408323A (zh) | 表格信息的提取方法、装置、设备及存储介质 | |
CN111090817A (zh) | 书籍扩展信息的展示方法、电子设备及计算机存储介质 | |
JP2008204184A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
JP2010003218A (ja) | 文書レビュー支援装置及び方法、並びにプログラム及び記憶媒体 | |
US10789715B2 (en) | Image processing device, image processing method, and information storage medium | |
US20180189248A1 (en) | Automated data extraction from a chart | |
JP2023055368A (ja) | 情報処理装置、情報処理システム、およびプログラム | |
JP6322086B2 (ja) | 表示制御装置、表示装置、プログラム、記録媒体 | |
CN105868768A (zh) | 一种识别图片是否带有特定标记的方法及系统 | |
CN110825989A (zh) | 图片展示方法、装置、电子设备及可读介质 | |
CN110942068B (zh) | 信息处理装置、存储介质及信息处理方法 |