JP2021064209A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2021064209A
JP2021064209A JP2019188851A JP2019188851A JP2021064209A JP 2021064209 A JP2021064209 A JP 2021064209A JP 2019188851 A JP2019188851 A JP 2019188851A JP 2019188851 A JP2019188851 A JP 2019188851A JP 2021064209 A JP2021064209 A JP 2021064209A
Authority
JP
Japan
Prior art keywords
character string
key
information processing
electronic document
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019188851A
Other languages
English (en)
Inventor
公則 吉塚
Kiminori Yoshizuka
公則 吉塚
岡田 茂
Shigeru Okada
茂 岡田
清水 淳一
Junichi Shimizu
淳一 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019188851A priority Critical patent/JP2021064209A/ja
Priority to US16/839,793 priority patent/US20210110149A1/en
Publication of JP2021064209A publication Critical patent/JP2021064209A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】キーバリューの関係を利用した文字列抽出技術で、個々のユーザそれぞれに対してその者に対応した文字列抽出結果を提供できるようにする。【解決手段】プロセッサは、OCRデータ64を利用するユーザのユーザ情報に対応する1以上のキーを特定し、OCRデータ64の中から当該1つ以上のキーに対応する文字列82を特定し、この文字列82に対応する文字列86をOCRデータ64の中から抽出する。【選択図】図4

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
キーバリュー(Key-Value)の関係を利用して文字列を抽出する文字列抽出技術が知られている。その具体例を説明する。最初に、キーリスト(キー定義ファイルとも言われる)が作成又は選択される。電子文書において、そのキーリストに含まれる個々のキーごとに、第1文字列が特定され、それに続いて、第1文字列との間で予め定められた空間的関係を満たす文字列として、第2文字列が抽出される。以下、場合により、第1文字列をキー文字列と称し、第2文字列をバリュー文字列と称する。
上記のキーバリューの関係を利用した文字列抽出技術によれば、電子文書から、複数のキーに対応する複数のバリュー文字列を抽出できる。スキャナで読み取られたイメージに対して光学文字認識技術、すなわちOCR(Optical Character Recognition)技術を適用することにより、テキストデータとしての電子文書が生成される。そのような電子文書に対して、キーバリューの関係を利用した文字列抽出技術を適用すれば、イメージに対して事後的に文書属性を付与することが可能となる。
なお、特許文献1には、共通キーワード一覧及び部門別キーワード一覧に基づいて文書を検索する技術が開示されている。この特許文献1には、上記のキーバリュー技術に関する構成は認められない。
国際公開第2008/152823号明細書パンフレット
キーバリューの関係を利用した文字列抽出技術では、複数のユーザがそれらに共通のキーしか利用できない場合、個々のユーザそれぞれがその者に対応する文字列抽出結果を得られない。
本発明の目的は、キーバリューの関係を利用した文字列抽出技術で、個々のユーザそれぞれに対してその者に対応した文字列抽出結果を提供することにある。
請求項1に記載の情報処理装置は、プロセッサを備え、前記プロセッサは、電子文書を利用するユーザのユーザ情報に対応する1以上のキーを特定し、前記電子文書の中から前記1以上のキーに対応する第1文字列を特定し、前記第1文字列に対応する第2文字列を前記電子文書の中から抽出する、ことを特徴とするものである。
請求項2に記載の情報処理装置は、請求項1に記載の情報処理装置において、前記プロセッサは、複数のキーを含むキーリストの集合の中から、前記ユーザ情報から特定されるユーザ属性に対応するキーリストを特定し、前記キーリストのキーごとに、前記電子文書の中から当該キーに対応する前記第1文字列を特定する、ことを特徴とするものである。
請求項3に記載の情報処理装置は、請求項2に記載の情報処理装置において、前記プロセッサは、前記ユーザ属性に対応する複数のキーリストが特定された場合に、前記複数のキーリストに含まれるキーごとに、当該キーに対応する前記第1文字列を特定し、前記第1文字列に対応する前記第2文字列を前記電子文書の中から抽出する、ことを特徴とするものである。
請求項4に記載の情報処理装置は、請求項2に記載の情報処理装置において、前記プロセッサは、前記特定されたキーリストに含まれるキーのうち、前記ユーザ属性に対応する特定のキーを除外したキーごとに、当該キーに対応する前記第1文字列を特定し、前記第1文字列に対応する前記第2文字列を前記電子文書の中から抽出する、ことを特徴とするものである。
請求項5に記載の情報処理装置は、請求項3に記載の情報処理装置において、前記プロセッサは、前記複数のキーリストに含まれる複数のキーに基づいて抽出された複数の第2文字列を表示器に表示させ、前記複数のキーの中に強調条件を満たす特定のキーが含まれている場合に、前記抽出された複数の第2文字列のうち、前記特定のキーに対応する第2文字列が強調表現される、ことを特徴とするものである。
請求項6に記載の情報処理装置は、請求項5に記載の情報処理装置において、前記プロセッサは、前記複数のキーリストのうち2以上のキーリストに重複して含まれるキーを、前記特定のキーとする、ことを特徴とするものである。
請求項7に記載の情報処理装置は、請求項1に記載の情報処理装置において、前記プロセッサは、用紙のスキャンにより生成されたイメージに対する文字認識によりテキストデータを生成し、前記電子文書は、前記文字認識により生成されたテキストデータである、ことを特徴とするものである。
請求項8に記載の情報処理装置は、請求項7に記載の情報処理装置において、前記プロセッサは、前記テキストデータを記憶装置へ保存し、前記テキストデータに対して修正があった場合に修正後のテキストデータを前記記憶装置へ保存し、前記修正後のテキストデータの中から前記1以上のキーに対応する前記第1文字列を特定し、前記第1文字列に対応する前記第2文字列を前記修正後のテキストデータの中から抽出する、ことを特徴とするものである。
請求項9に記載の情報処理装置は、請求項1に記載の情報処理装置において、前記第2文字列は、前記電子文書上における前記第1文字列の位置に対して予め定められた空間的関係を満たす文字列である、ことを特徴とするものである。
請求項10に記載の情報処理装置は、請求項9に記載の情報処理装置において、前記空間的関係は、前記電子文書上における前記第1文字列の位置に対して、前記第2文字列が上下左右を含む特定の方向に位置することである、ことを特徴とするものである。
請求項11に記載の情報処理装置は、請求項9に記載の情報処理装置において、前記空間的関係は、前記電子文書上における前記第1文字列の位置に対して、前記第2文字列が特定の距離内又は特定の範囲内に位置することである、ことを特徴とするものである。
請求項12に記載の情報処理プログラムは、プロセッサに、電子文書を利用するユーザのユーザ情報に対応する1以上のキーを特定させ、前記電子文書の中から前記1以上のキーに対応する第1文字列を特定させ、前記第1文字列に対応する第2文字列を前記電子文書の中から抽出させる、ことを特徴とするものである。
請求項1,9−12に記載の発明によれば、キーバリューの関係を利用した文字列抽出技術で、個々のユーザそれぞれに対してその者に対応した文字列抽出結果が提供される。
請求項2に記載の発明によれば、個々のユーザそれぞれに対してその者が有するユーザ属性に対応した文字列抽出結果が提供される。
請求項3に記載の発明によれば、個々のユーザそれぞれに対してその者が有する複数のユーザ属性に対応した文字抽出結果が提供される。
請求項4に記載の発明によれば、ユーザ属性に対応する特定のキーによる不必要な文字列抽出が回避される。
請求項5に記載の発明によれば、強調表示がされない場合と比べて、特定のキーに対応する第2文字列が視覚的に特定されやすくなる。
請求項6に記載の発明によれば、2以上のキーリストに重複して含まれるキーに対応する第2文字列が視覚的に特定されやすくなる。
請求項7に記載の発明によれば、スキャン及び文字認識により生成された電子文書に対して、キーバリューの関係を利用した文字列抽出技術を適用する場合に、個々のユーザそれぞれに対してその者に対応した文字列抽出結果が提供される。
請求項8に記載の発明によれば、修正された電子文書に対して、キーバリューの関係を利用した文字列抽出技術を再び適用する場合にも、個々のユーザそれぞれに対してその者に対応した文字列抽出結果が提供される。
第1実施形態に係る情報処理装置が組み込まれた情報処理システムの全体構成図である。 紙文書からOCRデータを生成するまでの処理を示す概略図である。 OCRデータから所望の文字列を抽出して表示するまでの処理を示す概略図である。 キーバリューの関係を利用した文字列抽出方法を示す概略図である。 情報処理装置がキーリストを取得するまでの流れを示す概略図である。 統合キーリストの生成方法の一例を示す図である。 統合キーリストの生成の第1例を示す図である。 統合キーリストの生成の第2例を示す図である。 統合キーリストの生成の第3例を示す図である。 確認用画像の一例を示す図である。 確認用画像の別の一例を示す図である。 第2実施形態に係る情報処理装置が組み込まれた情報処理システムの全体構成図である。 編集用画像の一例を示す図である。
以下、実施形態を図面に基づいて説明する。
[1.実施形態の概要]
実施形態の詳細な説明に先立って、実施形態の概要を説明しておく。
実施形態における情報処理装置はプロセッサを備える。プロセッサは、電子文書を利用するユーザのユーザ情報に基づいて1以上のキーを特定する。その上で、プロセッサは、電子文書の中から当該1以上のキーに対応する第1文字列(つまり、キー文字列)を特定する。続いて、プロセッサは、第1文字列に対応する第2文字列(つまり、バリュー文字列)を電子文書の中から抽出する。すなわち、プロセッサは、電子文書を利用するユーザのユーザ情報に対応するキーに基づいてキーバリューの関係を利用した文字列の抽出を行う。これにより、個々のユーザそれぞれに対してその者に対応したバリュー文字列の抽出結果が提供される。
上記構成において、「プロセッサ」は情報処理を行うデバイスであり、その概念には多様な構成が含まれる。これについては後に詳述する。「電子文書」は、電子化された文書を意味し、その概念には、紙文書のスキャンにより得られた文書と、コンピュータへの入力操作等を通じて生成された文書とが含まれ得る。「ユーザ」は、典型的には、電子文書の内容を参照又は確認する者であり、見方を変えれば、キーを特定する上での対象者である。「ユーザ情報」は、例えば、ユーザ名、ユーザIDを含むユーザの識別情報、あるいはユーザ属性を示す情報などである。
なお、キー文字列に基づくバリュー文字列の特定に当たっては、各種の技術を利用可能であり、例えば、電子文書上におけるキー文字列の位置を基準として、予め定められた空間的関係を満たす文字列として、バリュー文字列が特定される。この「空間的関係」は、例えば、基準の位置に対して上下左右を含む特定の方向に位置すること、特定の距離内又は特定の範囲内にあること、などの関係を意味する。
実施形態において、プロセッサは、複数のキーを含むキーリストの集合から、ユーザ情報から特定されるユーザ属性に対応するキーリストを特定する。「キーリスト」は、例えば、1以上のキーを含んで構成されるリストであり、キー定義ファイルとも呼ばれる。ユーザ情報から特定されたキーリストに含まれる個々のキーが上記処理の対象とされてもよいし、ユーザ情報から特定されたキーリストから生成されるキーリスト(例えば、後述の統合キーリスト)に含まれる個々のキーが上記処理の対象とされてもよい。「キーリストの集合」は、ユーザ属性に応じて分類された複数のキーリストの集合体である。なお、1のユーザにつき、1又は複数のユーザ属性が対応付けられてもよい。
実施形態において、プロセッサは、ユーザ属性に対応する複数のキーリストが特定された場合に、複数のキーリストに含まれるキーごとに、当該キーに対応するキー文字列を特定し、当該キー文字列に対応するバリュー文字列を抽出する。プロセッサは、キーバリューの関係を利用して文字列を抽出する本処理に先立って、複数のキーリストを統合して統合キーリストを生成してもよい。この前処理により、例えば、重複した文字列抽出が回避され、あるいは、より高度な文字列抽出を行い得る。複数のキーリストの統合にあたっては、複数のキーリストが実際に統合されてもよいし、複数のキーリストが論理的に統合されてもよい。
上記構成において、複数のキーリストを統合するための統合規則には、和演算、否定演算、又は積演算が含まれてもよい。和演算は、通常、OR演算とも呼ばれる。この和演算によれば、複数のキーリストにそれぞれ含まれるキーを網羅した統合キーリストが生成される。否定演算は、通常、NOT演算とも呼ばれる。この否定演算によれば、予め指定されたキーを除外した統合キーリストが生成される。統合規則は、事前に指定されてもよいし、ユーザやその属性等に応じて適応的に設定されてもよい。
実施形態において、プロセッサは、特定されたキーリストに含まれるキーのうち、ユーザ属性に対応する特定のキーを除外したキーごとに、当該キーに対応するキー文字列を特定し、キー文字列に対応するバリュー文字列を電子文書の中から抽出する。この除外によって、ユーザ属性に対応する特定のキーによる不必要な文字列抽出が回避される。特定のキーは、例えば、上記した統合規則に当該キーの否定演算を含めることで除外される。
実施形態において、プロセッサは、複数のキーリストに含まれる複数のキーに基づいて抽出された複数のバリュー文字列を表示器に表示させてもよい。その場合において、複数のキーの中に強調条件を満たす特定のキーが含まれている場合に、抽出された複数のバリュー文字列のうち、特定のキーに対応する第2文字列が強調表現されてもよい。「強調表現」とは、ユーザにとって他の箇所と比べて視認されやすい態様で表現することを意味する。表示器は、情報処理装置又は該情報処理装置とは別の装置に組み込まれてもよいし、単体の表示装置であってもよい。
上記構成において、表示対象である文字列の一覧を示す抽出文字列リストが生成されてもよい。この「抽出文字列リスト」は、キー文字列及びバリュー文字列の2つの文字列の内で、少なくともバリュー文字列を含むリストである。もちろん、キー文字列及びバリュー文字列の両方を含むリストであってもよい。
実施形態において、プロセッサは、複数のキーリストに対する横断的なキー調査の結果に基づいて、強調条件の成否を判定してもよい。この「横断的なキー調査」とは、複数のキーリストのうちの2以上のキーリスト間で行われるキーの調査を意味し、例えば、統計的な手法に基づく調査であってもよい。例えば、プロセッサは、複数のキーリストのうち2以上のキーリストに重複して含まれるキーを、強調条件を満たす特定のキーとしてもよい。
実施形態において、プロセッサは、用紙のスキャンにより生成されたイメージに対する文字認識によりテキストデータを生成する。そのように文字認識により生成されたテキストデータが上記の電子文書である。スキャンは、光学的な手法によりイメージを生成する動作を意味し、スキャナによる読み取り、カメラによる撮像などを含む。
実施形態において、プロセッサは、テキストデータを記憶装置へ保存し、テキストデータに対して修正があった場合に修正後のテキストデータを記憶装置へ保存する。そして、プロセッサは、修正後のテキストデータの中から1以上のキー文字列を特定し、キー文字列に対応するバリュー文字列を修正後のテキストデータから抽出する。この修正は、記憶装置に保存された状態で行われてもよいし、記憶装置からテキストデータを取得した端末を介して行われてもよい。
実施形態において実行される情報処理方法は、主にソフトウェアの機能として実現され得る。情報処理方法を実行するプログラムは、ネットワークを介して、又は、可搬型記憶媒体を介して、情報処理装置にインストールされる。情報処理装置の概念には、様々なコンピュータシステムが含まれる。
[2.実施形態の詳細]
<第1実施形態>
図1は、第1実施形態に係る情報処理装置12が組み込まれた情報処理システム10の全体構成図である。この情報処理システム10は、情報処理装置12と、情報管理サーバ14と、保存先サーバ16と、を含んで構成される。本図において、情報処理装置12、情報管理サーバ14及び保存先サーバ16は、オフィス等のエリア内に構築されたネットワークNW1を介して相互に接続されている。
情報処理装置12は、プリンタ機能、コピー機能、スキャン機能、ファクシミリ機能及びデータ送信機能のうち少なくとも1つの機能を実行するデジタル複合機(いわゆる、MFP;Multifunction Peripheral)である。この情報処理装置12は、演算部20と、記憶部22と、画像形成部24と、ユーザインターフェース部(以下、UI部26)と、認証部28と、ネットワーク通信部30と、を含んで構成される。
演算部20は、情報処理装置12を構成する各部を統括的に制御するプロセッサからなる。演算部20は、記憶部22に格納された情報処理プログラムを読み出して実行することで、光学文字認識機能部(以下、「OCR機能部32」という)、文字列抽出機能部34、表示制御機能部36、及びリスト生成機能部38として機能する。これらの機能部については後に詳述する。
記憶部22は、非一過性であり、かつ、演算部20により読み取り可能な記憶媒体で構成されている。この記憶媒体は、ハードディスクドライブ(HDD:Hard Disk Drive)、ソリッドステートドライブ(SSD:Solid State Drive)を含む記憶装置、あるいは、光磁気ディスク、ROM、CD−ROM、フラッシュメモリ等の可搬媒体である。本図の例では、記憶部22には、いずれも後述する抽出文字列リスト40及び出力ファイル42が格納されている。
画像形成部24は、用紙をスキャンしてイメージを生成する読取ユニット25を含んで構成される。UI部26は、タッチセンサ、表示パネル及びハードウェアボタン等から構成されており、ユーザによる入力操作の受付や、ユーザに向けた情報の出力等を行う。認証部28は、パスワード認証、カード認証又は生体認証を含む様々な認証方式を用いて、情報処理装置12の利用権限を有するユーザを認証する。ネットワーク通信部30は、情報管理サーバ14及び保存先サーバ16を含む外部装置との間でネットワーク通信を行うための通信モジュールである。
情報管理サーバ14は、情報処理装置12の運用に関して必要な情報(例えば、ユーザ情報、セキュリティ情報、データ管理情報)を記憶しておき、情報処理装置12からの要求に応じてこの情報を適時に提供するサーバである。情報管理サーバ14内には、後述する複数のキーリスト50を管理するためのデータベース(以下、「キーリストDB44」という)が構築されている。ユーザごと又はユーザ属性ごとにキーリスト50が定義されている。ユーザ属性には、例えば、部署、部門、役職、職級、チーム、プロジェクト、タスクフォース、組織(例えば、企業や団体)等が含まれる。
保存先サーバ16は、エリア内の複数のユーザ間でデータを共有するためのファイルサーバである。本図の例では、保存先サーバ16には、情報処理装置12が生成した抽出文字列リスト40及び出力ファイル42が保存されている。この出力ファイル42は、例えば、OCRデータ64(図2)を含んで構成されるベクトル形式(例えば、PDF:Portable Document Format)のデータファイルである。
図2は、紙文書60からOCRデータ64を生成するまでの処理を示す概略図である。紙文書60は、業務上作成される紙媒体の文書であり、例えば、契約書、見積書、発注書、請求書等である。まず、情報処理装置12の読取ユニット25は、紙文書60をスキャンしてラスタ形式の画像データ(以下、「イメージ62」という)を出力する。その後、情報処理装置12が有する演算部20のOCR機能部32は、読取ユニット25により生成されたイメージ62に対してOCR処理を行うことで、この処理の結果を含むOCRデータ64を出力する。
OCRデータ64は、例えば、文字の纏まりを示す文字列と、文字列の位置を示す位置情報と、その他の文字情報を単位とするテキスト形式のデータである。「文字列」は、例えば、「請求書」、「請求番号」、「12345」等である。「位置情報」は、例えば、文字列を囲む矩形領域の位置を特定可能な座標値や辺の長さ等である。「その他の文字情報」の一例として、文字のサイズやフォント等が挙げられる。なお、OCRデータ64のデータ形式はこれに限られない。例えば、OCRデータ64は、情報の種類ごとに設けられた複数のレイヤから構成されるデータファイルであってもよい。
図3は、OCRデータ64から所望の文字列を抽出して表示するまでの処理を示す概略図である。まず、演算部20の文字列抽出機能部34は、1又は複数のキーで構成されるキーリスト50を用いて、OCRデータ64に対する文字列抽出処理を行う。この文字列抽出処理は、図4を用いて後に詳述するキーバリューの関係を利用して行われる。この処理により、キー文字列とバリュー文字列のペアを情報単位とする抽出文字列リスト40が出力される。
その後、演算部20の表示制御機能部36は、文字列抽出機能部34により生成された抽出文字列リスト40を用いて、確認用画像70を表示するための表示用データを生成する。これにより、情報処理装置12のUI部26は、文字列抽出機能部34により生成された表示用データに基づいて確認用画像70を表示する。この確認用画像70には、抽出文字列リスト40を可視的に表現した結果欄72が設けられている。この結果欄72は、キー文字列の一覧を示すキー欄72kと、バリュー文字列の一覧を示すバリュー欄72vと、から構成される。
図4は、キーバリューの関係を利用した文字列抽出方法を示す概略図である。OCRデータ64において、電子文書が存在する二次元領域80は、XY座標系で定義される領域である。OCRデータ64では、「請求番号」なる文字列82と、位置情報(X1,Y1,H1,V1)とが対応付けられている。ここで、(X1,Y1)は、文字列82を囲む矩形領域(以下、配置領域84という)の左上頂点の座標を示す。H1は、配置領域84のX軸方向に沿った辺の長さを示す。V1は、配置領域84のY軸方向に沿った辺の長さを示す。また、OCRデータ64では、「12345」なる文字列86と、位置情報(X2,Y2,H2,V2)とが対応付けられている。ここで、(X2,Y2)は、文字列86を囲む矩形領域(以下、配置領域88)の左上頂点の座標を示す。また、H2は、配置領域88のX軸方向に沿った辺の長さを示す。また、V2は、配置領域88のY軸方向に沿った辺の長さを示す。
以上を前提として、文字列抽出機能部34を具体的に説明する。まず、文字列抽出機能部34は、キーリスト50を構成するキーのうち「請求番号」を選択する。そして、文字列抽出機能部34は、OCRデータ64の中からキー(つまり、請求番号)に一致する文字列82と、この文字列82に対応する配置領域84をそれぞれ特定する。そして、文字列抽出機能部34は、配置領域84との間で予め定められた空間的関係を満たす配置領域88を特定する。例えば、配置領域84の代表的な点(ここでは、配置領域84の中心)を起点としてX軸正方向に走査し、最初に検出された配置領域88が選択される。これにより、「請求番号」からなる文字列82(つまり、キー文字列)に対応するバリュー文字列として、「12345」からなる文字列86が抽出される。なお、キーリスト50の中に2以上のキーが含まれる場合、キーごとにバリュー文字列の抽出が順次行われる。以上の処理そのものは公知の技術であり、その方法として様々な手法が実用化されている。
図5は、情報処理装置12がキーリスト50を取得するまでの処理を示す概略図である。まず、情報処理装置12の認証部28は、ユーザXに対する認証処理を通じて、ユーザ情報(例えば、ユーザID)を取得する。その後、情報処理装置12は、紙文書60のスキャンを契機として、ユーザIDを含む要求信号を情報管理サーバ14に送信する。そうすると、情報管理サーバ14は、情報処理装置12から取得したユーザIDを用いて、ユーザXが所属する部門が「開発部」であることを特定する。そして、情報管理サーバ14は、部門別のキーリスト集合54の中から、開発部に対応するキーリスト50を選択し、該キーリスト50を情報処理装置12に向けて送信する。これにより、ユーザXに対応したキーリスト50が取得される。
上記した例では、1のユーザに対して1のキーリスト50が特定される場合を想定している。実際には個々のユーザが様々な属性を有しており、あるユーザに対して複数のキーリスト50が特定される場合もあり得る。実施形態においては、そのような場合、複数のキーリスト50が個別に処理される代わりに、複数のキーリスト50を統合する前処理が適用される。そして、前処理を通じて生成した統合キーリスト52が文字列抽出処理に用いられる。
図6は、統合キーリスト52の生成方法の一例を示す図である。各キーリスト50は、OR演算に用いられる「OR要素」のキー又はNOT演算に用いられる「NOT要素」のキーから構成される。情報処理装置12が有する演算部20のリスト生成機能部38は、複数のキーリスト50を統合することで1の統合キーリスト52を生成する。このリスト生成機能部38は、例えば、分類器90と、差分器92とにより実現される。
分類器90は、複数のキーリスト50を構成するキーを分類する。例えば、分類器90は、各キーリスト50中のキーに付与される識別フラグの有無又は値によって、OR要素又はNOT要素のいずれであるかを分類してもよい。これにより、OR要素のキーが集約されたOR要素リスト94と、NOT要素のキーが集約されたNOT要素リスト96がそれぞれ出力される。右側のキーリスト50には「OR要素」及び「NOT要素」の両方のキーが含まれるが、これに代わって、「NOT要素」のみを含むキーリスト50が用いられてもよい。
また、分類器90は、上記した分類と併せて、複数のキーリスト50にわたる横断的なキー調査を行ってもよい。このキー調査には統計的手法を含む様々な手法が用いられ、例えば、調査の結果としてヒストグラムが得られる。この場合、OR要素リスト94又はNOT要素リスト96には、それぞれのキーに対応するカウント値(つまり、ヒストグラムの度数)が含まれ得る。
差分器92は、OR要素リスト94を構成する第1キー集合と、NOT要素リスト96を構成する第2キー集合との差分を求める。これにより、キーの差集合からなる統合キーリスト52が生成される。なお、統合キーリスト52には、後述する強調条件を判定するために必要な情報(例えば、上記のカウント値等)が含まれてもよい。
なお、図6に示した生成方法は一例であって、他の生成方法が利用されてもよい。例えば、演算規則をキーリストには含めず、別途、演算規則を与えるようにしてもよい。その場合、ユーザ属性に応じて演算規則が適応的に選択されてもよい。ユーザが演算規則を事前に又はその都度、指定するようにしてもよい。演算規則の初期設定をOR演算とし、それに対して必要な場合にオプションの演算規則を付加するようにしてもよい。
続いて、4種類のキーリスト集合54−57から統合キーリスト52を生成する具体例について、図7−図10を参照しながら説明する。キーリスト集合54は、図5の例と同様に、部門別に分類されたキーリスト50の集合体である。キーリスト集合55は、個人別に分類されたキーリスト50の集合体である。キーリスト集合56は、役職別に分類されたキーリスト50の集合体である。キーリスト集合57は、タスク別に分類されたキーリスト50の集合体である。
図7の例では、ユーザAに該当する「開発部」のキーリスト50aは、「契約条件」(OR要素のキー)から構成される。ユーザAに該当する「ユーザA」のキーリスト50bは、NULL値からなりキーが1つも設定されていない。ユーザAに該当する「部長」のキーリスト50cは、「契約期間」(OR要素のキー)から構成される。ユーザAに該当する「タスクT」のキーリスト50dは、「契約期間」(OR要素のキー)から構成される。この場合、図6の分類器90により「契約条件」及び「契約期間」からなるOR要素リスト94が生成される。その結果、「契約条件」及び「契約期間」からなる統合キーリスト52が生成される。
図8の例では、ユーザBに該当する「知的財産部」のキーリスト50eは、「特許保証」及び「納品物」(いずれもOR要素のキー)から構成される。ユーザBに該当する「ユーザB」のキーリスト50fは、NULL値からなりキーが1つも設定されていない。ユーザBに該当する「部長」のキーリスト50gは、「契約期間」(OR要素のキー)及び「納品物」(NOT要素のキー)から構成される。ユーザBに該当する「タスクT」のキーリスト50hは、「契約期間」(OR要素のキー)から構成される。この場合、図6の分類器90により、「特許保証」、「納品物」及び「契約期間」からなるOR要素リスト94と、「納品物」からなるNOT要素リスト96が生成される。その結果、「特許保証」及び「契約期間」からなる統合キーリスト52が生成される。
図9の例では、ユーザBに該当する「知的財産部」のキーリスト50iは、「登録番号」及び「特許保証」(いずれもOR要素のキー)から構成される。ユーザBに該当する「ユーザB」のキーリスト50jは、NULL値からなりキーが1つも設定されていない。ユーザBに該当する「部長」のキーリスト50kは、「契約期間」(OR要素のキー)から構成される。ユーザBに該当する「タスクT」のキーリスト50lは、「契約期間」(OR要素のキー)から構成される。この場合、図6の分類器90により、「登録番号」(カウント値=1)「特許保証」(カウント値=2)及び「契約期間」(カウント値=1)からなるOR要素リスト94が生成される。その結果、「登録番号」、「特許保証」及び「契約期間」からなる統合キーリスト52が生成される。この統合キーリスト52には、1又は複数のキーの他に、例えば、キーごとのカウント値、キーの重複の有無を示す重複フラグ、キーに付与された属性等の各種情報が含まれる。
ところで、ユーザ属性に応じた複数のキーリスト50のうち、カウント値が大きいキーであるほど、そのユーザにとって関心のある情報が含まれる可能性が高い。そこで、演算部20の表示制御機能部36は、予め定められた強調条件を満たす文字列を強調表現させた抽出文字列リスト40を表示させてもよい。この強調条件の一例として、上記したカウント値が絶対的又は相対的に大きいことが挙げられる。ここで、「絶対的に大きい」とは、カウント値が予め定められた閾値よりも大きいことを意味する。具体例として、閾値が1であるときにカウント値が2以上である場合、閾値が2であるときにカウント値が3以上である場合がこの条件にそれぞれ該当する。一方、「相対的に大きい」とは、カウント値の分布間で相対的に大きいことを意味する。具体例として、カウント値が最大であること、カウント値の分布のうち大きい方から上位30%であること等がこの条件に該当する。
他の強調条件として、重複フラグが「キー重複あり」を示す値であることや、キーの属性が特定のものであることが挙げられる。また、強調条件は、単一の条件であってもよいし、2以上の個別条件を組み合わせた複合条件であってもよい。
図10に示す確認用画像70aにおいて、結果欄72のうちキー欄72kには、上から下に向かって順に、登録番号、特許保証、及び契約期間からなる3つのキー文字列が表示される。また、結果欄72のうちバリュー欄72vには、それぞれのキー文字列に対応する位置に3つのバリュー文字列が表示される。この表示の順序は、図9においてキーリスト50i,50j,50k,50lの順序で選択し、かつ各リストの先頭から末尾にわたってキーを読み出した順序に一致する。
ところで、この結果欄72には、上から2番目の文字列ペア74を囲むように、矩形状の枠マーク76が設けられる。つまり、カウント値が2である「特許保証」のキーに対応する文字列ペア74は、カウント値が1である他の文字列ペアと比べて、ユーザにとって他の箇所と比べて視認されやすい態様で強調表現される。なお、この強調表現は、囲み枠、下線、マーカ線等のマークを特定の文字列ペア74に付与する手法により行われてもよいし、文字列ペア74の色、太さ、サイズ、フォント等を変更する手法により行われてもよい。
図11に示す確認用画像70bは、結果欄72の最も上の位置に「特許保証」に関する文字列ペア74が表示される点で、確認用画像70aとは異なっている。つまり、カウント値が2である「特許保証」のキーに対応する文字列ペア74は、カウント値が1である他の文字列ペアと比べて、ユーザにとって他の箇所と比べて視認されやすい態様で強調表現される。このように、文字列ペア74の表示位置を変更する手法により強調表現がなされてもよい。
<第2実施形態>
図12は、第2実施形態に係る情報処理装置102が組み込まれた情報処理システム100の全体構成図である。この情報処理システム100は、情報処理装置102と、スキャナ104と、クライアント端末106と、を含んで構成される。本図において、情報処理装置102、スキャナ104及びクライアント端末106は、ネットワークNW2を介して相互に接続されている。
情報処理装置102は、電子文書に対して様々な処理を実行可能に構成されるサーバである。情報処理装置102は、クラウド型のサーバであってもよいし、オンプレミス型のサーバであってもよい。ここで、情報処理装置102を単体のコンピュータとして図示しているが、これに代わって、情報処理装置102は、分散システムを構築するコンピュータ群であってもよい。
情報処理装置102は、例えば、演算部110と、記憶部112と、を含んで構成される。演算部110は、情報処理装置102を構成する各部を制御するプロセッサからなる。演算部110は、記憶部112に格納された情報処理プログラムを読み出して実行することで、OCR機能部32、文字列抽出機能部34、及びリスト生成機能部38として機能する。これらの機能部は第1実施形態と同様の機能部であるため、詳しい説明を省略する。
記憶部112は、第1実施形態の記憶部22と同様に、非一過性であり、かつ、演算部110により読み取り可能な記憶媒体で構成されている。本図の例では、記憶部112には、上記したキーリストDB44の他に、電子文書に関するデータベース(以下、電子文書DB114)がそれぞれ構築されている。
スキャナ104は、用紙のスキャンによりイメージを生成する装置である。このスキャナ104は、ネットワークNW2を介して、自身が生成したイメージを情報処理装置102に送信するための通信機能を有している。
クライアント端末106は、例えば、パーソナルコンピュータ、タブレット、スマートフォン、ウェアラブルデバイス等からなる。このクライアント端末106は、入力部116と、出力部118と、を含んで構成される。入力部116は、マウス、キーボード、タッチセンサ又はマイクロフォンを含む入力デバイスからなる。出力部118は、ディスプレイ、スピーカを含む出力デバイスからなる。クライアント端末106は、入力部116による入力機能と出力部118による出力機能を組み合わせることで、ユーザインターフェース部(以下、UI部120という)を実現する。
第2実施形態における情報処理システム100は、以上のように構成される。続いて、この情報処理システム100の動作の概略について説明する。まず、スキャナ104は、ユーザの操作に応じて用紙のスキャン動作を行い、紙文書のイメージを生成する。スキャナ104は、自身が生成したイメージを情報処理装置102に向けて送信する。
情報処理装置102が有する演算部110のOCR機能部32は、スキャナ104からのイメージに対してOCR処理を行うことで、この処理の結果を含むOCRデータ64を生成する。そして、演算部110の文字列抽出機能部34は、キーリストDB44から読み出したキーリスト50を用いてOCRデータ64に対する文字列抽出処理を行うことで、抽出文字列リスト40を生成する。その後、情報処理装置102は、自身が生成したOCRデータ64及び抽出文字列リスト40を、記憶部112の電子文書DB114に保存させる。
これにより、利用権限を有するユーザは、記憶部112に保存された各種データを利用することができる。例えば、ユーザは、クライアント端末106のUI部120を操作することで、電子文書の内容を確認し、この電子文書を必要に応じて編集してもよい。この場合、クライアント端末106は、情報処理装置102に対してOCRデータ64の送信を要求し、情報処理装置102からのOCRデータ64をUI部120に表示する。
ユーザが、UI部120を介してOCRデータ64の編集操作を行うと、クライアント端末106は、修正済みのOCRデータ64rを情報処理装置102に送信する。そうすると、情報処理装置102が有する演算部110の文字列抽出機能部34は、クライアント端末106からのOCRデータ64rに対して文字列抽出処理を行うことで、修正済みの抽出文字列リスト40rを生成する。この抽出文字列リスト40rが記憶部112に保存されることで、ユーザは、修正が反映された正しいデータを利用することができる。
図13は、編集用画像130の一例を示す図である。この編集用画像130には、文書表示欄132と、文書属性欄134とが左右方向に並んで設けられている。文書表示欄132には、編集対象である電子文書、ここでは見積書が表示される。文書属性欄134には、ファイル名、種類、タイトル、発行者、作成日、請求番号、請求金額からなる複数の項目が設けられている。これらの項目の内容は、電子文書のタグ情報であってもよいし、抽出文字列リスト40に含まれる文字列のペアであってもよい。
ユーザは、編集用画像130の文書属性欄134を視認し、文書表示欄132に表示される電子文書に対応した属性が付与されているか否かを確認する。電子文書に対応した属性が付与されている場合、ユーザは、電子文書の編集を行うことなく[終了]ボタン136を選択する操作を行う。一方、例えば請求番号の内容に誤りがあった場合、ユーザは、カーソル138をバリュー文字列「12346」の該当箇所140に合わせ、文書表示欄132内の編集機能を用いて、該当箇所140の文字列を「12345」に修正する。そして、ユーザが[更新]ボタン142を選択する操作を行うと、OCRデータ64の編集が反映され、修正済みのOCRデータ64rが得られる。
なお、本発明は、上記した実施形態に限定されるものではなく、この発明の主旨を逸脱しない範囲で自由に変更できることは勿論である。あるいは、技術的に矛盾が生じない範囲で各々の構成を任意に組み合わせてもよい。
上記した実施形態における「プロセッサ」は、広義のプロセッサを意味し、汎用的なプロセッサ(CPU又はMPU)のみならず、専用的なプロセッサ(GPU;Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、PLD:Programmable Logic Device)を含み得る。
上記した実施形態におけるプロセッサの動作は、1つのプロセッサにより行われてもよいし、物理的に離れた位置に設けられた複数のプロセッサが協働して行われてもよい。また、プロセッサの各動作の順序は、上記した順序のみに限定されるものではなく、必要に応じて適宜変更され得る。
10,100 情報処理システム、12,102 情報処理装置、14 情報管理サーバ、16 保存先サーバ、20,110 演算部(プロセッサ)、22,112 記憶部、25 読取ユニット、26,120 UI部、40,40r 抽出文字列リスト、44 キーリストDB、50,50a−50l キーリスト、52 統合キーリスト、54−57 キーリスト集合、60 紙文書、62 イメージ、64,64r OCRデータ、70,70a,70b 確認用画像、72 結果欄、72k キー欄、72v バリュー欄、74 文字列ペア、76 枠マーク、82 文字列(第1文字列)、86 文字列(第2文字列)、104 スキャナ、106 クライアント端末、130 編集用画像、NW1,NW2 ネットワーク。

Claims (12)

  1. プロセッサを備え、前記プロセッサは、
    電子文書を利用するユーザのユーザ情報に対応する1以上のキーを特定し、
    前記電子文書の中から前記1以上のキーに対応する第1文字列を特定し、
    前記第1文字列に対応する第2文字列を前記電子文書の中から抽出する、
    ことを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記プロセッサは、
    複数のキーを含むキーリストの集合の中から、前記ユーザ情報から特定されるユーザ属性に対応するキーリストを特定し、
    前記キーリストのキーごとに、前記電子文書の中から当該キーに対応する前記第1文字列を特定する、
    ことを特徴とする情報処理装置。
  3. 請求項2に記載の情報処理装置において、
    前記プロセッサは、
    前記ユーザ属性に対応する複数のキーリストが特定された場合に、
    前記複数のキーリストに含まれるキーごとに、当該キーに対応する前記第1文字列を特定し、
    前記第1文字列に対応する前記第2文字列を前記電子文書の中から抽出する、
    ことを特徴とする情報処理装置。
  4. 請求項2に記載の情報処理装置において、
    前記プロセッサは、
    前記特定されたキーリストに含まれるキーのうち、前記ユーザ属性に対応する特定のキーを除外したキーごとに、当該キーに対応する前記第1文字列を特定し、
    前記第1文字列に対応する前記第2文字列を前記電子文書の中から抽出する、
    ことを特徴とする情報処理装置。
  5. 請求項3に記載の情報処理装置において、
    前記プロセッサは、前記複数のキーリストに含まれる複数のキーに基づいて抽出された複数の第2文字列を表示器に表示させ、
    前記複数のキーの中に強調条件を満たす特定のキーが含まれている場合に、前記抽出された複数の第2文字列のうち、前記特定のキーに対応する第2文字列が強調表現される、
    ことを特徴とする情報処理装置。
  6. 請求項5に記載の情報処理装置において、
    前記プロセッサは、前記複数のキーリストのうち2以上のキーリストに重複して含まれるキーを、前記特定のキーとする、
    ことを特徴とする情報処理装置。
  7. 請求項1に記載の情報処理装置において、
    前記プロセッサは、用紙のスキャンにより生成されたイメージに対する文字認識によりテキストデータを生成し、
    前記電子文書は、前記文字認識により生成されたテキストデータである、
    ことを特徴とする情報処理装置。
  8. 請求項7に記載の情報処理装置において、
    前記プロセッサは、
    前記テキストデータを記憶装置へ保存し、
    前記テキストデータに対して修正があった場合に修正後のテキストデータを前記記憶装置へ保存し、
    前記修正後のテキストデータの中から前記1以上のキーに対応する前記第1文字列を特定し、
    前記第1文字列に対応する前記第2文字列を前記修正後のテキストデータの中から抽出する、
    ことを特徴とする情報処理装置。
  9. 請求項1に記載の情報処理装置において、
    前記第2文字列は、前記電子文書上における前記第1文字列の位置に対して予め定められた空間的関係を満たす文字列である、
    ことを特徴とする情報処理装置。
  10. 請求項9に記載の情報処理装置において、
    前記空間的関係は、前記電子文書上における前記第1文字列の位置に対して、前記第2文字列が上下左右を含む特定の方向に位置することである、
    ことを特徴とする情報処理装置。
  11. 請求項9に記載の情報処理装置において、
    前記空間的関係は、前記電子文書上における前記第1文字列の位置に対して、前記第2文字列が特定の距離内又は特定の範囲内に位置することである、
    ことを特徴とする情報処理装置。
  12. プロセッサに、
    電子文書を利用するユーザのユーザ情報に対応する1以上のキーを特定させ、
    前記電子文書の中から前記1以上のキーに対応する第1文字列を特定させ、
    前記第1文字列に対応する第2文字列を前記電子文書の中から抽出させる、
    ことを特徴とする情報処理プログラム。
JP2019188851A 2019-10-15 2019-10-15 情報処理装置及び情報処理プログラム Pending JP2021064209A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019188851A JP2021064209A (ja) 2019-10-15 2019-10-15 情報処理装置及び情報処理プログラム
US16/839,793 US20210110149A1 (en) 2019-10-15 2020-04-03 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019188851A JP2021064209A (ja) 2019-10-15 2019-10-15 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2021064209A true JP2021064209A (ja) 2021-04-22

Family

ID=75383139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019188851A Pending JP2021064209A (ja) 2019-10-15 2019-10-15 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20210110149A1 (ja)
JP (1) JP2021064209A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022101136A (ja) * 2020-12-24 2022-07-06 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172055A (ja) * 2004-12-15 2006-06-29 Canon Software Inc 文字認識装置および文字認識精度判定方法およびプログラムおよび記録媒体
JP2014016762A (ja) * 2012-07-09 2014-01-30 Hitachi Omron Terminal Solutions Corp 帳票認識装置および帳票認識方法
JP2018055256A (ja) * 2016-09-27 2018-04-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2018128996A (ja) * 2017-02-10 2018-08-16 キヤノン株式会社 情報処理装置、制御方法、およびプログラム
JP2019049823A (ja) * 2017-09-08 2019-03-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2019169026A (ja) * 2018-03-26 2019-10-03 株式会社Pfu 情報処理装置、文字認識エンジン最適化方法及びプログラム
JP2019169182A (ja) * 2016-11-17 2019-10-03 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2020115260A (ja) * 2019-01-17 2020-07-30 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP2020135095A (ja) * 2019-02-14 2020-08-31 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172055A (ja) * 2004-12-15 2006-06-29 Canon Software Inc 文字認識装置および文字認識精度判定方法およびプログラムおよび記録媒体
JP2014016762A (ja) * 2012-07-09 2014-01-30 Hitachi Omron Terminal Solutions Corp 帳票認識装置および帳票認識方法
JP2018055256A (ja) * 2016-09-27 2018-04-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2019169182A (ja) * 2016-11-17 2019-10-03 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2018128996A (ja) * 2017-02-10 2018-08-16 キヤノン株式会社 情報処理装置、制御方法、およびプログラム
JP2019049823A (ja) * 2017-09-08 2019-03-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2019169026A (ja) * 2018-03-26 2019-10-03 株式会社Pfu 情報処理装置、文字認識エンジン最適化方法及びプログラム
JP2020115260A (ja) * 2019-01-17 2020-07-30 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP2020135095A (ja) * 2019-02-14 2020-08-31 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
US20210110149A1 (en) 2021-04-15

Similar Documents

Publication Publication Date Title
US11354490B1 (en) Systems, methods, and computer readable media for creating slide presentations
JP6025522B2 (ja) 画像処理装置、画像処理方法、画像処理システム及びプログラム
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US20160147386A1 (en) Image scanning apparatus and method for controlling the same
JP5676942B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US9064201B2 (en) Information processing apparatus that instructs printing using metadata without divulging content of the metadata and method thereof
US10235583B2 (en) Electronically shredding a document
US11303769B2 (en) Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium
JP2007087322A (ja) ワークフローシステム、サーバ装置、ワークフローシステムの処理方法及びワークフロープログラム
US10049097B1 (en) Systems and methods for creating multi-layered optical character recognition (OCR) documents
US20190220234A1 (en) Methods, systems, apparatuses and devices for facilitating printing of a digital image based on image splitting
EP2884425B1 (en) Method and system of extracting structured data from a document
JP2006025129A (ja) 画像処理システム及び画像処理方法
CN105740317B (zh) 用于将非文本内容对象化以及用于文档发现的方法和系统
JP2007243730A (ja) 画像処理装置およびその制御方法、および画像処理システム
US9798724B2 (en) Document discovery strategy to find original electronic file from hardcopy version
JP2017212575A (ja) 画像読込み装置及びプログラム
JP2021064209A (ja) 情報処理装置及び情報処理プログラム
JP2010003218A (ja) 文書レビュー支援装置及び方法、並びにプログラム及び記憶媒体
US11074392B2 (en) Information processing apparatus and non-transitory computer readable medium for switching between an attribute information mode and an image information mode
JP7398945B2 (ja) 拡張現実の文書編集方法、プログラム及びシステム
JP4630836B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP6190549B1 (ja) 文書処理システム
KR101458155B1 (ko) 편집 문서 생성 장치 및 방법
JP7287510B2 (ja) 文書処理のための方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231205