JP2022137608A - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2022137608A JP2022137608A JP2021037164A JP2021037164A JP2022137608A JP 2022137608 A JP2022137608 A JP 2022137608A JP 2021037164 A JP2021037164 A JP 2021037164A JP 2021037164 A JP2021037164 A JP 2021037164A JP 2022137608 A JP2022137608 A JP 2022137608A
- Authority
- JP
- Japan
- Prior art keywords
- area
- character recognition
- setting item
- information
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04803—Split screen, i.e. subdividing the display area or the window area into separate subareas
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Processing Or Creating Images (AREA)
- Facsimiles In General (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】指定対象となる文字認識領域をユーザーに対して分かりやすく提示する。
【解決手段】文書のスキャン画像に対する文字認識処理の結果と、文書のスキャン画像に付与するプロパティに設定される設定項目とを取得する。文書のスキャン画像を表示するプレビュー領域と、設定項目に入力される情報を編集する編集領域とを有する画面の表示であって、文書のスキャン画像のプレビュー領域への表示と、設定項目および情報の編集領域への表示とを制御する。編集領域に表示された設定項目に対する選択を検出する。検出された設定項目に設定された検出規則を取得する。文字認識処理の結果から検出規則を満たす文字認識領域を抽出する。プレビュー領域上に表示され前記抽出された文字認識領域を強調表示する。
【選択図】図9
【解決手段】文書のスキャン画像に対する文字認識処理の結果と、文書のスキャン画像に付与するプロパティに設定される設定項目とを取得する。文書のスキャン画像を表示するプレビュー領域と、設定項目に入力される情報を編集する編集領域とを有する画面の表示であって、文書のスキャン画像のプレビュー領域への表示と、設定項目および情報の編集領域への表示とを制御する。編集領域に表示された設定項目に対する選択を検出する。検出された設定項目に設定された検出規則を取得する。文字認識処理の結果から検出規則を満たす文字認識領域を抽出する。プレビュー領域上に表示され前記抽出された文字認識領域を強調表示する。
【選択図】図9
Description
本開示は、文書ファイルにプロパティを設定するための技術に関する。
従来、紙帳票等の文書をスキャンしてファイル化し、文書のスキャン画像を文字認識処理して文字情報を抽出し、得られた文字情報の中から選択された文字列を文書のファイル名やメタデータなどのプロパティ(設定情報)に設定するシステムがある。
このような処理を行うシステムとして、文書のスキャン画像を表示するプレビュー領域と、プロパティの設定項目に入力される情報を表示・編集する編集領域とを有する画面をユーザーに提示するシステムがある。
また、プロパティの設定項目に正規表現などの検証規則を設けることで、プロパティの設定項目に適切な文字列が設定されたかを検証するシステムがある。特許文献1は、文書画像データからテキストデータを取得し、正規表現を基に取得した取得したテキストデータが適切であるかを検証する技術を開示している。
特許文献1は、ユーザー操作によって指定されるテキストデータが適切かどうか検証するものである。文書画像には、指定対象となり得るテキストデータが複数存在し、ユーザーが適切なテキストデータを指定することが難しかった。
本開示は、上記課題に鑑みてなされたものであり、指定対象となる文字認識領域をユーザーに対して分かりやすく提示することを目的とする。
本開示の一態様に係る画像処理装置は、文書のスキャン画像に対する文字認識処理の結果と、前記文書のスキャン画像に付与するプロパティに設定される設定項目とを取得する取得手段と、前記文書のスキャン画像を表示するプレビュー領域と、前記設定項目に入力される情報を編集する編集領域とを有する画面の表示であって、前記文書のスキャン画像の前記プレビュー領域への表示と、前記設定項目および前記情報の前記編集領域への表示とを制御する表示制御手段と、前記編集領域に表示された前記設定項目に対する選択を検出する検出手段と、前記検出手段によって検出された前記設定項目に設定された検出規則を取得する取得手段と、前記文字認識処理の結果から前記検出規則を満たす文字認識領域を抽出する抽出手段と、を有し、前記表示制御手段は、前記プレビュー領域上に表示され前記抽出手段によって抽出された文字認識領域を強調表示することを特徴とする。
本開示によれば、指定対象となる文字認識領域をユーザーに対して分かりやすく提示することができる。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は、特許請求の範囲に係る本開示を限定するものではなく、また本実施形態において説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。同一の構成要素には同一の参照番号を付して、その説明を省略する。
[実施形態1]
<システム構成>
図1は、本実施形態に係る情報処理装置を含むシステムの構成例を示す図である。本実施形態のシステムは、図1に示すように、スキャン文書処理サーバー111と、クライアント端末121と、業務サーバー131とを有し、これらがネットワーク101で相互にデータを送受信可能に接続されている。
<システム構成>
図1は、本実施形態に係る情報処理装置を含むシステムの構成例を示す図である。本実施形態のシステムは、図1に示すように、スキャン文書処理サーバー111と、クライアント端末121と、業務サーバー131とを有し、これらがネットワーク101で相互にデータを送受信可能に接続されている。
スキャン文書処理サーバー111は、文書をスキャンして得られたスキャン画像のファイル名やメタデータなどのプロパティを設定する文書処理などを行うサーバーであり、詳細については後述する。クライアント端末121は、例えば、パーソナルコンピューター、ラップトップコンピューター、タブレットコンピューター、スマートフォンなどでもよいし、他の形態・種別のコンピューターであってもよく、詳細については後述する。業務サーバー131は、ファイル管理・文書管理・受注・会計などの業務に関する処理を行うサーバーであり、詳細については後述する。
<情報処理装置のハードウェア構成>
図2は、スキャン文書処理サーバー111、クライアント端末121、業務サーバー131の情報処理装置のハードウェア構成例を示す図である。情報処理装置は、ユーザーインターフェース201、ネットワークインターフェース202、CPU203、ROM204、RAM205、二次記憶装置206を有し、各部は入出力インターフェース207を介して、相互にデータを送受信可能に接続されている。
図2は、スキャン文書処理サーバー111、クライアント端末121、業務サーバー131の情報処理装置のハードウェア構成例を示す図である。情報処理装置は、ユーザーインターフェース201、ネットワークインターフェース202、CPU203、ROM204、RAM205、二次記憶装置206を有し、各部は入出力インターフェース207を介して、相互にデータを送受信可能に接続されている。
ユーザーインターフェース201は、ディスプレイ、キーボード、マウス、ボタン、タッチパネルなどを有し、情報や信号の入出力を行う。これらのハードウェアを備えないコンピューターは、リモートデスクトップやリモートシェルなどにより、他のコンピューターから接続・操作することも可能である。
ネットワークインターフェース202は、LANなどのネットワークに接続して、他のコンピューターやネットワーク機器との通信を行う。通信の方式としては、有線・無線のいずれでもよい。
CPU(Central Processing Unit)203は、ROM204、RAM205、二次記憶装置206などに記憶されたプログラムを読み出して実行し、情報処理装置の各種制御を指示する。
ROM(Read Only Memory)204は、組込済みプログラムおよびデータなどを記録する。RAM(Random Access Memory)205は、CPU203の主メモリ、ワークエリアなどの一時記憶領域として用いられる。二次記憶装置206は、プログラムを記憶するストレージであり、例えばHDD(Hard Disk Drive)やフラッシュメモリなどを使用することができる。
<システム全体のソフトウェア構成>
図3は、システムのソフトウェアの構成例を示す図である。なお、各ハードウェアにインストールされたソフトウェアは、それぞれ情報処理装置のCPU203で実行され、ネットワーク接続の矢印で図示するように、相互に通信可能な構成となっている。
図3は、システムのソフトウェアの構成例を示す図である。なお、各ハードウェアにインストールされたソフトウェアは、それぞれ情報処理装置のCPU203で実行され、ネットワーク接続の矢印で図示するように、相互に通信可能な構成となっている。
<スキャン文書処理サーバー111の構成>
スキャン文書処理サーバー111は、スキャン文書処理アプリケーション311と、バックエンドアプリケーション331と、データストア321とを有する。本実施形態では、スキャン文書処理サーバー111がWebアプリケーションサーバーとして動作するものとして説明するが、他のアプリケーションが実装される形態でもよい。
スキャン文書処理サーバー111は、スキャン文書処理アプリケーション311と、バックエンドアプリケーション331と、データストア321とを有する。本実施形態では、スキャン文書処理サーバー111がWebアプリケーションサーバーとして動作するものとして説明するが、他のアプリケーションが実装される形態でもよい。
スキャン文書処理アプリケーション311は、スキャン文書処理サーバー111にインストールされたアプリケーションであり、API312と、Web UI313とを有する。言い換えると、API(Application Programming Interface)312とWeb UI(User Interface)313とは、スキャン文書処理アプリケーション311によって提供されるともいえる。
データストア321は、スキャン文書処理サーバー111の二次記憶装置206内の記憶領域として実現されており、スキャン文書格納部322と、スキャン文書ジョブキュー323と、設定情報管理部324と、スキャン文書処理結果格納部325とを有する。データストア321は、スキャン文書処理アプリケーション311または後述するバックエンドアプリケーション331が使用するデータを保存・格納する。データストア321の各機能部は、次に説明する各種データを格納する。スキャン文書格納部322は、スキャン文書自体のファイルを、JPEG等の画像ファイルあるいはPDF(Portable Document Format)等の文書ファイルとして保存する。スキャン文書ジョブキュー323は、後述する設定情報入力処理待ちのジョブを管理するキューを保持する。設定情報管理部324は、スキャン文書ごとに付加が必要な設定項目の一覧・設定項目毎の名前、後述する設定項目毎に設定される値のフォーマット(文字列・数字など)や検証規則(検出規則)を管理する。スキャン文書処理結果格納部325は、文字認識(OCR(Optical Character Recognition))処理結果、帳票判別結果を格納する。また、スキャン文書処理結果格納部325は、スキャン文書ごとに設定項目に関連付けられたOCR領域情報や、入力された設定項目の値などを格納する。
バックエンドアプリケーション331は、スキャン文書処理サーバー111にインストールされたアプリケーションであり、OCR処理部332と、帳票処理部333と、外部システム通信部334とを有する。
バックエンドアプリケーション331は、バックグラウンド処理を実行するためのアプリケーションである。バックエンドアプリケーション331は、次に示すようなバックグラウンドで順次実行する処理を担当する。OCR処理部332は、スキャン文書格納部322から入力画像(スキャン画像)を取得し、取得した入力画像に対してOCR処理を実行する。OCR処理では、文字列と認識された領域の始点座標・幅・高さに関する情報を取得し、認識できたOCR処理結果である文字列を抽出する。帳票処理部333は、前記入力画像、OCR処理結果の領域パターン、OCR結果の文字列などの情報を用いて、帳票の種別を判別する。判別処理は、パターン認識、機械学習などいずれの手法でもよい。外部システム通信部334は、外部の業務サーバー131にスキャン文書およびその処理結果の送信処理を実行する。スキャン文書およびその処理結果を外部に送信する必要がない場合は、外部システム通信部334は省略可能である。
<クライアント端末121の構成>
クライアント端末121は、クライアントアプリケーション351を有する。クライアントアプリケーション351は、クライアント端末121にインストールされたアプリケーションである。本実施形態では、クライアントアプリケーション351は、スキャン文書処理アプリケーション311のWebアプリケーションを実行する。クライアントアプリケーション351の提供形態の1つとして、ブラウザーでWeb UI313を表示し、API312を介して必要なデータを送受信することでWebアプリケーションを実行する方法がある。または、API312を介して必要なデータを送受信するよう作成されたコンピューターまたはスマートフォンのアプリケーションなどでもよい。
クライアント端末121は、クライアントアプリケーション351を有する。クライアントアプリケーション351は、クライアント端末121にインストールされたアプリケーションである。本実施形態では、クライアントアプリケーション351は、スキャン文書処理アプリケーション311のWebアプリケーションを実行する。クライアントアプリケーション351の提供形態の1つとして、ブラウザーでWeb UI313を表示し、API312を介して必要なデータを送受信することでWebアプリケーションを実行する方法がある。または、API312を介して必要なデータを送受信するよう作成されたコンピューターまたはスマートフォンのアプリケーションなどでもよい。
<業務サーバー131の構成>
業務サーバー131は、業務アプリケーション361と、業務データストレージ362とを有する。業務アプリケーション361は、業務サーバー131にインストールされたアプリケーションであり、業務サーバー131で実行される。業務アプリケーション361は、例えば、ファイル管理・文書管理・受注・会計などいずれの業務アプリケーションであってもよい。スキャン文書処理サーバー111で処理した結果を、受信・業務処理・保管する場合に、業務アプリケーション361が必要である。それ以外の場合は、省略可能である。業務データストレージ362は、業務アプリケーション361が使用するデータを保存する。
業務サーバー131は、業務アプリケーション361と、業務データストレージ362とを有する。業務アプリケーション361は、業務サーバー131にインストールされたアプリケーションであり、業務サーバー131で実行される。業務アプリケーション361は、例えば、ファイル管理・文書管理・受注・会計などいずれの業務アプリケーションであってもよい。スキャン文書処理サーバー111で処理した結果を、受信・業務処理・保管する場合に、業務アプリケーション361が必要である。それ以外の場合は、省略可能である。業務データストレージ362は、業務アプリケーション361が使用するデータを保存する。
<UI画面の構成例>
ここで、クライアントアプリケーション351を実行したときに提供されるUI画面のプレビューページ画像の文字認識領域(OCR領域)から文書にファイル名やメタデータを設定する場面について図を用いて説明する。なお、このUI画面は、クライアント端末121などのユーザーインターフェース201が有するディスプレイなどに表示される。図4は、クライアントアプリケーション351が提供するUI画面例および座標系を示す図である。図4(a)に、クライアントアプリケーション351が提供するUI画面にてプレビューページ画像のOCR領域から文書にファイル名やメタデータを設定する場面を示す。
ここで、クライアントアプリケーション351を実行したときに提供されるUI画面のプレビューページ画像の文字認識領域(OCR領域)から文書にファイル名やメタデータを設定する場面について図を用いて説明する。なお、このUI画面は、クライアント端末121などのユーザーインターフェース201が有するディスプレイなどに表示される。図4は、クライアントアプリケーション351が提供するUI画面例および座標系を示す図である。図4(a)に、クライアントアプリケーション351が提供するUI画面にてプレビューページ画像のOCR領域から文書にファイル名やメタデータを設定する場面を示す。
UI画面400は、プレビューペイン401と、設定情報編集ペイン410とを有する。プレビューペイン401は、文書をスキャンして得られたスキャン画像をプレビューページ画像402として表示するプレビュー領域を有する。プレビューペイン401は、スクロールやズームなどのユーザー操作を受け付け、受け付けたユーザー操作内容に応じた状態でプレビューページ画像402を表示する。設定情報編集ペイン410は、スキャン文書が判別された帳票種別ごとに付与すべき設定項目の一覧を表示および設定項目に入力される情報を編集するための編集領域を有する。設定情報編集ペイン410は、「FileName」に関する設定情報411と、「MetaData」に関する設定情報415とを有する。
図4(a)の例では、スキャン文書は「PURCHASE ORDER(購入注文書)」として帳票の種別が判別されており、設定情報編集ペイン410にあっては、必要な設定項目として、帳票の判別結果に応じた項目が表示される。「FileName」の設定情報411では、必要な設定項目として、顧客名を設定する設定項目「Customer Name」412と、日付を設定する設定項目「Date」413とを有し、これらが編集可能に表示される。また、「Metadata」の設定情報415では、必要な設定項目として、会社名を設定する設定項目「Company Name」416と、この会社の住所を設定する設定項目「Address」417とを有し、これらが編集可能に表示される。各設定項目412、413、416、417は、表示エリア4121、4131、4161、4171と、入力コントロール4122、4132、4162、4172と、前景色表示部4123、4133、4163、4173とを有する。表示エリア4121、4131、4161、4171は、選択されたOCR領域の切り取り画像を表示するエリアである。入力コントロール4122、4132、4162、4172は、選択されたOCR領域の抽出文字列を表示および編集するためのエリアである。前景色表示部4123、4133、4163、4173は、OCR領域の前景に強調部として付与された色を表示するエリアである。
図4(b)は、プレビューページ画像402と、OCR領域との関係を示す直交座標系を説明する図である。OCR処理による文字認識結果として、OCR領域421、422、423、424の4つが存在する。OCR領域421は、文字列「PURCHASE ORDER」を囲む矩形領域に対応する。OCR領域422は、文字列「11/27/2019」を囲む矩形領域に対応する。OCR領域423は、文字列「Company Name:」を囲む矩形領域に対応する。OCR領域424は、文字列「XYZ Corporation」を囲む矩形領域に対応する。なお、プレビューページ画像402には、4つよりも多い数のOCR領域が存在するが、ここでは省略して説明する。OCR領域では、始点座標・幅・高さのそれぞれが識別される。例えば、OCR領域421であれば、単位をピクセルとして、OCR領域421の左上の座標である始点座標が(1200,700)であり、幅(x軸方向)の大きさが720であり、高さ(y軸方向)の大きさが120のように表現される。
<OCR領域が指定されたときのUI画面例>
ここで、OCR領域が指定されたときのUI画面例について図を用いて説明する。図5は、クライアントアプリケーション351が提供するUI画面400にて、ユーザー操作でOCR領域が指定(選択)された場面を示す図である。図5(a)に、指定されたOCR領域が検証規則に適合している場合を示し、図5(b)に、指定されたOCR領域が検証規則に適合していない場合を示す。
ここで、OCR領域が指定されたときのUI画面例について図を用いて説明する。図5は、クライアントアプリケーション351が提供するUI画面400にて、ユーザー操作でOCR領域が指定(選択)された場面を示す図である。図5(a)に、指定されたOCR領域が検証規則に適合している場合を示し、図5(b)に、指定されたOCR領域が検証規則に適合していない場合を示す。
設定項目が選択された状態で、プレビューページ画像にて検証規則が設定されたOCR領域が指定されると、選択された設定項目の各エリアに指定されたOCR領域に関する情報が表示されることになる。図5(a)の例では、設定項目「Company Name」が選択中の設定項目511として表示された状態にて、プレビューページ画像402上のOCR領域501が選択されると、次に示すUI画面の制御が行われる。すなわち、選択中の設定項目511に対応する表示エリア512に、プレビューページ画像402上で選択されたOCR領域501の切り取り画像である「XYZ Corporation」が表示される。また、選択中の設定項目511に対応する入力コントロール(入力エリア)513には、表示エリア512に表示される切り取り画像のテキストデータである「XYZ Corporation」が表示される。なお、入力コントロール513に対しダブルクリックなどのユーザー操作が行われると、入力コントロール513に表示される文字列が、例えば、キーボードを用いた入力操作によって編集可能な状態となる。OCR領域との関連付けが未指定の場合には「+」ボタンが表示される。
他方、設定項目が選択された状態で、プレビューページ画像にて検証規則が設定されていないOCR領域が指定されると、選択された設定項目の特定のエリアに、無効な入力であることを示す情報が表示されることになる。図5(b)の例では、設定項目「Company Name」が選択されて選択中の設定項目521として表示された状態にて、プレビューページ画像上で設定項目に対応した検証規則が設定されていないOCR領域が選択されると、次に示す表示制御が行われる。すなわち、選択中の設定項目521に対応する表示エリア522に「+」のみが表示され、選択中の設定項目521に対応する入力コントロール523に検証規則を満たさないことを示すメッセージである「※無効な入力です。」が表示されることになる。
なお、図5(a)に示すUI画面500や図5(b)に示す設定項目「Company Name」の表示手段は、例えば、クライアントアプリケーション351が提供するUI画面上にダイアログやポップアップで通知するなど他の任意の手段でもよい。
<UI画面の制御処理>
次に、図4および図5で示したクライアントアプリケーションが提供するUI画面を用いてファイル名やメタデータの設定項目に入力される情報として、選択したOCR領域の文字列を設定するUI画面の制御処理について、図を用いて説明する。図6は、UI画面の制御処理の流れを示すフローチャートである。
次に、図4および図5で示したクライアントアプリケーションが提供するUI画面を用いてファイル名やメタデータの設定項目に入力される情報として、選択したOCR領域の文字列を設定するUI画面の制御処理について、図を用いて説明する。図6は、UI画面の制御処理の流れを示すフローチャートである。
スキャン文書処理アプリケーション311は、スキャン文書ジョブキュー323から処理待ちキューを取得し、取得した処理待ちキューをクライアントアプリケーション351に提供する。そして、ユーザーによって処理を開始したいスキャン文書ジョブが選択されると、スキャン文書処理アプリケーション311は、選択されたスキャン文書ジョブを基に、スキャン文書格納部322から画像ファイルを取得する。さらに、スキャン文書処理アプリケーション311は、スキャン文書処理結果格納部325から選択されたスキャン文書のOCR処理結果および帳票判別結果を取得する。加えて、スキャン文書処理アプリケーション311は、設定情報管理部324から帳票種別ごとの設定項目の一覧と各設定項目が保持する情報とを取得する。スキャン文書処理アプリケーション311は、取得したこれらのデータをクライアントアプリケーション351に提供する。
S601では、クライアントアプリケーション351は、プレビュー画像とOCR処理結果とを読み込む。S602では、クライアントアプリケーション351は、設定項目の一覧と各設定項目が保持する情報とを読み込む。そして、S603では、クライアントアプリケーション351は、プレビューペインにプレビュー画像を表示する。S604では、設定情報編集ペインに設定項目の一覧を項目名で項目毎に表示する。
上述のS601-S604までの処理を実行することで、クライアント端末121のユーザーインターフェース201が有するディスプレイには、図4(a)に示すUI画面400が表示されることになる。
S605では、クライアントアプリケーション351は、設定項目[n]のUI要素の選択が行われたか否かを判定する。すなわち、クライアントアプリケーション351は、設定項目[n]のUI要素に対するクリックイベントの検出結果を基に、設定情報編集ペイン410の何れかの設定項目の「+」ボタンエリアに対してクリックなどのユーザー操作が行われたか否かを判定する。
設定項目[n]のUI要素に対するクリックイベントを検出し、設定情報編集ペイン410のいずれかの設定項目の「+」ボタンエリアに対してクリックなどのユーザー操作が行われたとの判定結果を得ると(S605のYES)、処理がS606に移行される。他方、設定項目[n]のUI要素に対するクリックイベントを検出せず、設定情報編集ペイン410のいずれの設定項目に対してもクリックなどのユーザー操作が行われていないとの判定結果を得ると(S605のNO)、図6に示すフローを終える。
S606では、クライアントアプリケーション351は、クリックイベントを検出した設定項目[n]のUI要素、すなわち、ユーザー操作で選択された設定項目[n]のUI要素に対して背景色を塗りつぶした状態で表示する。塗りつぶし手段は、UI要素の枠線部分の色を変更する手段でもよいし、他の任意の手段でもよい。これにより、ユーザーは、設定項目[n]のUI要素を選択するユーザー操作が受け付けられたことと、選択された設定項目[n]のUI要素が処理対象に設定されたこととを識別することができる。
S607では、クライアントアプリケーション351は、プレビューペインのプレビューページ画像上にてユーザー操作によって選択されたOCR領域を検出する。具体的には、S606によって設定項目[n]のUI要素の背景色が塗りつぶし表示された状態で、プレビューペインのプレビューページ画像上にある複数のOCR領域から所望のOCR領域がクリックなどのユーザー操作で選択されると、次の処理が行われる。すなわち、クライアントアプリケーション351は、選択されたOCR領域501のクリックイベントを検出する。
S608では、クライアントアプリケーション351は、S607で検出したOCR領域501に関するOCR領域情報を取得する。すなわち、クライアントアプリケーション351は、OCR領域501の始点座標・幅・高さに関する情報と、認識できたOCR結果の文字列を取得する。
S609では、クライアントアプリケーション351は、設定情報管理部324から受け取ったデータをもとに、設定項目[n]に検証規則が設定されているか否かを判定する。検証規則が設定されているとの判定結果を得た場合(S609のYES)、処理がS610に移行される。他方、検証規則が設定されていないとの判定結果を得た場合(S609のNO)、処理がS612に移行される。
S610では、クライアントアプリケーション351は、設定項目[n]に設定されている検証規則の内容を取得する。
S611では、クライアントアプリケーション351は、選択されたOCR領域の文字列がS610で取得した設定項目[n]の検証規則を満たすか否かを判定する。選択されたOCR領域の文字列が検証規則を満たすとの判定結果を得た場合(S611のYES)、処理がS612に移行される。他方、選択されたOCR領域の文字列が検証規則を満たさないとの判定結果を得た場合(S611のNO)、処理がS613に移行される。
S612では、クライアントアプリケーション351は、S608で取得した情報を元に、S607で選択したOCR領域501から抽出した文字列を入力コントロール513に表示し、編集可能な状態とする。なお、表示エリア512にはOCR領域501から切り取られた画像が表示されることになる。
上述のS605-S612までの処理を実行することで、クライアント端末121のユーザーインターフェース201が有するディスプレイには、図5(a)に示すUI画面500が表示されることになる。
S613では、クライアントアプリケーション351は、クライアント端末121のユーザーインターフェース201のディスプレイには、無効な入力であることを示すメッセージを含む設定項目が表示されることになる。例えば、ユーザーインターフェース201のディスプレイには、図5(b)に示されるように、選択中の設定項目521に対応する入力コントロール523に検証規則を満たさないことを示すメッセージである「※無効な入力です。」が表示されることになる。このような表示が行われることで、ユーザー操作内容に関する判定結果がユーザーに対して報知されることになる。
<検証規則の設定方法>
スキャン文書(帳票の種別)ごとに検証規則を設定する方法について、図を用いて説明する。図7は、スキャン文書(帳票の種別)ごとに検証規則を設定するUI画面例を説明する図である。UI画面(以下、設定UIともいう)700は、クライアントアプリケーション351の設定機能として提供されるUI画面でもよい。または、UI画面700は、クライアント端末121にインストールされ、クライアントアプリケーション351と異なる独立したアプリケーションで提供されるUI画面でもよい。
スキャン文書(帳票の種別)ごとに検証規則を設定する方法について、図を用いて説明する。図7は、スキャン文書(帳票の種別)ごとに検証規則を設定するUI画面例を説明する図である。UI画面(以下、設定UIともいう)700は、クライアントアプリケーション351の設定機能として提供されるUI画面でもよい。または、UI画面700は、クライアント端末121にインストールされ、クライアントアプリケーション351と異なる独立したアプリケーションで提供されるUI画面でもよい。
UI画面700は、登録文書表示エリア701と、設定項目表示エリア711と、詳細情報表示エリア721との3つの領域を有する。登録文書表示エリア701は、スキャン文書処理結果格納部325に登録されている文書種類の一覧を表示するエリアである。図7では、「Purchase Order」と、「Invoice」と、「Contract」との3種類の文書(帳票)が登録され、ユーザー操作によって登録文書の「Purchase Order」702が選択されている例を示している。
設定項目表示エリア711は、選択された登録文書の「Purchase Order」702に対応付けて登録されている設定項目の一覧を表示するエリアである。図7では、「Customer Name」と、「Date」と、「Company Name」と、「Adress」との4つの設定項目が登録され、ユーザー操作によって登録設定項目の「Company Name」712が選択されている例を示している。
詳細情報表示エリア721は、選択された設定項目に対応付けて設定されている設定情報の詳細の一覧を表示するエリアである。図7では、選択された設定項目の「Company Name」712に対応付けて、表示名には「Company Name」が、データタイプには「Text」が設定されている例を示している。さらに、図7では、データの検証規則には「/.+?Corporation$/」が設定されている。「/.+?Corporation$/」が表示されている検証規則入力フィールド722は、ユーザー操作によって任意の検証規則が入力されるフィールドである。検証規則入力フィールド722に検証規則が入力された状態で保存ボタン731にてクリックなどのユーザー操作を検出すると、検証規則入力フィールド722に入力された検証規則が選択された帳票にて該当する設定項目に反映される。検証規則の入力方法として、図7に示すように、ユーザー操作によって検証規則入力フィールド722に任意のルールを直接入力してもよい。また、検証規則の入力方法として、事前に準備された検証規則の候補をプルダウンリストで表示し、プルダウンリストの中からユーザー操作によって選択してもよい。
<検証規則の設定処理>
スキャン文書(帳票の種別)ごとに検証規則を設定する処理について、図を用いて説明する。図8は、スキャン文書(帳票の種別)ごとに検証規則を設定する処理の流れを示すフローチャートである。
スキャン文書(帳票の種別)ごとに検証規則を設定する処理について、図を用いて説明する。図8は、スキャン文書(帳票の種別)ごとに検証規則を設定する処理の流れを示すフローチャートである。
S801では、設定UIは、スキャン文書処理結果格納部325から帳票種類を取得する。
続いて、S802では、設定UIは、設定情報管理部324から帳票種類に紐づいた設定情報を取得する。S803では、設定UIは、スキャン文書処理結果格納部325に登録されている文書種類を一覧にしてユーザーに表示する。
S804では、設定UIは、ユーザーによる帳票種類の選択操作を検出する。帳票種類の選択操作は、ユーザーが、表示された文書種類から検証規則を設定したい文書を選択する操作である。
S805では、設定UIは、選択された帳票種類に登録されている設定項目の一覧を取得し、取得した設定項目の一覧を表示する。
S806では、設定UIは、ユーザーによる設定項目の選択操作を検出する。設定項目の選択操作は、ユーザーが、表示された設定項目のうち任意の項目を選択する操作である。
S807では、設定UIは、選択された設定項目の設定情報の一覧を取得し、取得した設定項目の設定情報の一覧を表示する。
S808では、設定UIは、検証規則入力フィールドに対してユーザーによる入力(変更操作)が行われたか否かを判定する。検証規則入力フィールドに対して入力(変更操作)が行われたとの判定結果を得た場合(S808のYES)、処理がS809に移行される。他方、検証規則入力フィールドに対して入力(変更操作)が行われていないとの判定結果を得た場合(S808のNO)、図8に示すフローを終える。
S809では、設定UIは、検証規則入力フィールドに対して入力された内容を取得する。この検証規則は、正規表現、文字コードによる制限、文字数上限、任意の文字が含まれるかあるいは含まれないか、など入力内容に関して検証を行うルールであれば任意の手段でよい。
説明を簡易にするため、正規表現のルール付けで検証を行う例を用いて説明を行う。検証規則入力フィールド722では「/.+?Corporation$/」という先頭に1文字以上の文字が入りかつ末尾が「Corporation」で終わる文字列のみを入力できる検証規則が設定されている。また、設定した正規表現を満たすか否かは、取得したOCR領域の文字列に対して正規表現を適用した結果、抽出できる文字列がOCR領域の文字列と一致するか否かで確認することが可能である。
S810では、設定UIは、上記のような検証規則入力フィールドへ正しい検証規則が入力されたか否かを判定する。検証規則が正しいフォーマットで入力されていないとの判定結果を得た場合(S810のNO)、処理がS811に移行される。他方、検証規則が正しいフォーマットで入力されたとの判定結果を得た場合(S810のYES)、処理がS812に移行される。
S811では、設定UIは、検証規則入力フィールドへの検証規則の再入力をユーザーに対して要求する。例えば、検証規則を検証規則入力フィールドに再入力するようユーザーに報知するメッセージを表示するなどの処理が行われる。
S812では、設定UIは、ユーザーによる保存操作を検出する。
S813では、設定UIは、保存時に変更された設定情報を設定情報管理部324へ送り、変更された設定情報を対応する設定情報に反映し、登録されている設定情報を更新する。
以上の処理が実行されることで、設定項目に対して検証規則が設定されることになる。
以上の処理が実行されることで、設定項目に対して検証規則が設定されることになる。
<検証規則が適用されたUI画面の構成例>
検証規則が適用されたUI画面の構成例について、図を用いて説明する。図9は、クライアントアプリケーション351が提供するUI画面にて、検証規則に従うメタデータの設定項目を選択した場面を説明する図である。
検証規則が適用されたUI画面の構成例について、図を用いて説明する。図9は、クライアントアプリケーション351が提供するUI画面にて、検証規則に従うメタデータの設定項目を選択した場面を説明する図である。
ここまでの処理により検証規則の設定と検証規則が設定された設定項目にプレビューページ画像のOCR領域の文字列を設定するUI画面の制御処理について説明した。しかし、この場合、ユーザーは検証規則が設定された項目に対して有効な文字列がプレビューペインのプレビューページ画像のいずれの箇所に存在するかプレビューページ画像全体から見つけなければならず、設定操作に手間を要してしまう。
そこで、本実施形態では、設定項目に設定された検証規則を満たすOCR領域に対して強調表示を行うことで、ユーザー操作が行われる前に入力可能なOCR領域を容易にユーザーに提示することを可能とする。
プレビューペイン401に表示されるプレビューページ画像402では、前景が赤色となる強調部901が検証規則を満たすOCR領域に重畳して表示される表示制御が行われることになる。また、設定情報編集ペイン410の「MetaData」に関する設定情報415にあっては、対象となる設定項目「Company Name」の枠線部分に、強調部911と同じ色の赤色等の強調部911が重畳して表示される表示制御が行われることになる。なお、強調部901と強調部911とが赤色である場合について説明したが、強調部901および強調部911の色は、赤色に限らず、強調部901と強調部911とで異なる色でもよく、ユーザーに対象となる箇所を報知できる色であればよい。このように強調部901および強調部911を重畳して表示する表示制御を行うことにより、ユーザー操作によって設定項目が選択されると、設定項目に対応し、検証規則を満たしているOCR領域をユーザーに対して報知することが可能となる。
<強調表示処理>
ここで、検証規則を満たすOCR領域に対して強調表示を行う処理の流れについて図を用いて説明する。図10は、強調表示処理の流れを示すフローチャートである。ユーザーによって任意の検証規則が設定されている設定項目[n]を選択されているとする。すなわち、図8を用いて説明した検証規則の設定と図6に示す任意の設定項目[n]の選択(S606)まで完了している、とする。
ここで、検証規則を満たすOCR領域に対して強調表示を行う処理の流れについて図を用いて説明する。図10は、強調表示処理の流れを示すフローチャートである。ユーザーによって任意の検証規則が設定されている設定項目[n]を選択されているとする。すなわち、図8を用いて説明した検証規則の設定と図6に示す任意の設定項目[n]の選択(S606)まで完了している、とする。
S1001では、クライアントアプリケーション351は、選択された設定項目[n]に設定されている検証規則を取得する。
S1002では、全OCR領域分S1003-S1004の処理を繰り返し実行する。すなわち、未処理のOCR領域の中から処理対象のOCR領域が選択され、選択されたOCR領域に対してS1003-S1004の処理が実行される。処理対象のOCR領域に対する処理が終了すると、再度、未処理のOCR領域の中から処理対象のOCR領域が選択される。未処理のOCR領域が無くなると、図10に示すフローを終了する。
S1003では、クライアントアプリケーション351は、処理対象のOCR領域の抽出文字列に対して、検証規則を満たすか否かを判定する(確認する)。検証規則を満たすとの判定結果を得た場合(S1003のYES)、処理がS1004に移行される。検証規則を満たさないとの判定結果を得た場合(S1003のNO)、S1004がスキップされて処理対象のOCRに対する処理を終える。そのため、処理対象のOCR領域に対しては強調表示が実行されないこととなる。
S1004では、処理対象のOCR領域に対して強調表示するための処理が実行される。すなわち、この検証規則を満たすOCR領域に対しては前景色を変更する表示が実行される。強調表示する手段は、前景色を変更する手段に限定されず、例えば、OCR領域を囲む枠線を変更する手段などの、他の表示手段であってもよい。
ここで、図10に示すフローについて、図9に示すスキャン画像例を用いて説明する。図9において「Company Name」の設定項目に対し、「/.+?Corporation$/」という「〇〇Corporation」(〇〇は任意の文字)の文字列であるか正規表現で検証する規則が設定されているとする。この検証規則を満たすOCR領域として「XYZ Corporation」が存在する領域が特定される。そして、「XYZ Corporation」に対し強調表示が実行され、「XYZ Corporation」を含むOCR領域の前景色が赤色で強調部901として表示される表示制御が行われる。なお、強調表示する際の前景色は、赤色に限定されない。OCR領域の抽出文字列の色および周囲の背景色と異なり、ユーザーに対して報知できればよい。
ここで、上述の強調部の他例について図を用いて説明する。図11(a)-図11(c)は、図9に示す強調部の他例を示す図である。
強調部として、図11(a)に示すように、プレビューページ画像402において、検証規則を満たすOCR領域の上部側で当該OCR領域に付随して重畳表示され、テキストなどが入力可能(設定可能)な表示である吹き出し1101を用いてもよい。また、吹き出し1101内にて表示されるテキストは、「〇 入力可能」などの、対象となるOCR領域から検証規則を満たす文字列を取得可能であることを示すメッセージを付加してもよい。また、吹き出し1101の代わりにツールチップを用いてもよい。
また、強調部として、図11(b)に示すように、プレビューページ画像402において、検証規則を満たすOCR領域を強調表示処理前の存在箇所から下方側に移動させ、当該OCR領域の移動前の箇所に重畳表示されるアイコン1102を用いてもよい。アイコン1102は、二重丸の図形(マーク)でもよいし、他の形状の図形であってもよい。
また、強調部として、図11(c)に示すように、プレビューページ画像402において、検証規則を満たすOCR領域以外(文字認識領域以外)の領域をグレーアウトするなど白色以外の色としてもよい。すなわち、矩形領域1103の色と、矩形領域1103以外の領域の色を異ならせて表示してもよい。
なお、図6のS611にて選択OCR領域の文字列が検証規則を満たさないときでも、入力可能なOCR領域にてホバーやクリックなどの選択操作を検出した際、図11(a)-図11(c)に示す強調部をプレビューページ画像402に重畳表示してもよい。
他方、選択不可能なOCR領域にてホバーやクリックなどの選択操作を検出した際、選択不可能であることを示す強調部をプレビューページ画像402に重畳表示してもよい。選択可能な文字認識領域と異なる文字認識領域に対する選択操作を検出した際に、操作に対応する文字認識領域であって、選択不可能な文字列を強調表示する例について図を用いて説明する。図12(a)-図12(b)は、選択不可能(設定不可能)な文字列の強調表示例を示す図である。
選択不可を示す強調部として、図12(a)に示すように、プレビューページ画像402にて、検証規則を満たさないOCR領域の上部側で当該OCR領域に付随して重畳表示され、テキストなどが入力不可能な表示である吹き出し1201を用いてもよい。また、吹き出し1201内にて表示されるテキストは、「× 入力不可」などの、対象となるOCR領域から検証規則を満たさず、文字列を取得不可能であることを示すメッセージを付加してもよい。また、吹き出し1201の代わりにツールチップを用いてもよい。
また、選択不可を示す強調部として、図12(b)に示すように、プレビューページ画像402にて、検証規則を満たさないOCR領域を強調表示処理前の存在箇所から下方側に移動させ、移動前の箇所に重畳表示されるアイコン1202を用いてもよい。アイコン1202は、×(バツ印)の図形でもよいし、他の形状の図形であってもよい。
以上、説明した通り、ユーザーに対して、検証規則を設定された設定項目に入力可能なOCR領域を分かりやすく提示することが可能となる。また、ユーザーに対して、検証規則が設定された設定項目に入力不可能であって、選択不可能なOCR領域を分かりやすく提示することが可能となる。
図13は、正規表現を満たすOCR領域が一意に決まるOCR領域を含むスキャン画像を処理する際に表示されるUI画面例を示す図である。プレビューページ画像402に正規表現を満たすOCR領域が一意に決まるOCR領域が存在する場合、該当するOCR領域を含む領域に、強調表示を行う表示部が重畳して表示され、対応する設定編集ペインの設定項目に対応する文字列が表示される。また、設定編集ペインには、対応する表示部と同じ色が表示されることになる。図13では、プレビューページ画像402の「Date:」に対応するOCR領域の「11/27/2019」に強調部1301が、「Company Name:」に対応するOCR領域の「XYZ Corporation」に強調部1302が表示される。強調部1301では、青色の前景をOCR領域に重畳して表示することになり、強調部1302では、赤色の前景をOCR領域に重畳して表示することになる。さらに、設定情報編集ペイン410にあっては、プレビューペイン401にて強調部に対応する設定項目にて、対応する情報が自動で表示される。
すなわち、設定項目「Date」に関し、表示エリアには「11/27/2019」の画像が、入力コントロールには「11/27/2019」のテキストデータが、前景色表示部には強調部1301と同じ色の青色が自動で表示されることになる。設定項目「Company Name」に関し、表示エリアには「XYZ Corporation」の画像が、入力コントロールには「XYZ Corporation」のテキストデータが、前景色表示部には強調部1302と同じ色の赤色が表示される。
<UI画面の制御処理>
ここで、正規表現を満たすOCR領域が一意に決まり、このOCR領域の文字列を設定項目に自動で設定するUI画面の制御処理の流れについて、図を用いて説明する。図14は、UI画面の制御処理の流れを示すフローチャートである。
ここで、正規表現を満たすOCR領域が一意に決まり、このOCR領域の文字列を設定項目に自動で設定するUI画面の制御処理の流れについて、図を用いて説明する。図14は、UI画面の制御処理の流れを示すフローチャートである。
ユーザーによる任意の設定項目に対する任意の検証規則の設定、OCR領域の抽出、プレビューペインのプレビュー画像の表示、設定情報編集ペインに設定項目の一覧の表示が完了しているとする。すなわち、図8を用いて説明した検証規則の設定と、図6の設定項目毎の表示(S604)まで完了している、とする。
S1401では、クライアントアプリケーション351は、全ての設定項目分S1402-S1408の処理を繰り返し実行する。すなわち、未処理の設定項目の中から処理対象の設定項目が選択され、選択された設定項目に対してS1402-S1408の処理が実行される。処理対象の設定項目に対する処理が終了すると、再度、未処理の設定項目の中から処理対象の設定項目が選択される。未処理の設定項目が無くなると、図14に示すフローを終了する。
S1402では、クライアントアプリケーション351は、選択された設定項目に対し、検証規則が設定されているか否かを判定する(確認する)。選択された設定項目が検証規則を持たず検証規則が設定されていないとの判定結果を得た場合(S1402のNO)、次の設定項目の処理へ移る。選択された設定項目が検証規則を持ち検証規則が設定されているとの判定結果を得た場合(S1402のYES)、処理がS1403に移行される。
S1403では、クライアントアプリケーション351は、選択された設定項目に設定されている検証規則を取得する。
S1404では、全OCR領域分S1405-S1406の処理を繰り返し実行する。すなわち、未処理のOCR領域の中から処理対象のOCR領域が選択され、選択されたOCR領域に対してS1405-S1406の処理が実行される。処理対象のOCR領域に対する処理が終了すると、再度、未処理のOCR領域の中から処理対象のOCR領域が選択される。未処理のOCR領域が無くなると、処理がS1407に移行される。
S1405では、S1404で選択されたOCR領域に対し、取得した検証規則を満たすOCR領域が存在するか否かを判定する(確認する)。取得した検証規則を満たすOCR領域が存在しないとの判定結果を得た場合(S1405のNO)、S1406がスキップされることになる。そして、処理がS1404に戻され、S1404にて、処理対象として未処理のOCRが選択されることになる。他方、取得した検証規則を満たすOCR領域が存在するとの判定結果を得た場合(S1405のYES)、処理がS1406に移行される。
S1406では、選択したOCR領域を記憶し、検証規則を満たしたOCR領域の数をカウントする。
全OCR領域に対し検証規則を満たすか否かの確認を終えると、処理がS1407に移行される。
S1407では、検証規則を満たすOCR領域が一つだけか否かを判定する。検証規則を満たすOCR領域が一つだけであるとの判定結果を得た場合(S1407のYES)、処理がS1408に移行される。他方、検証規則を満たすOCR領域が一つだけでないとの判定結果を得た場合(S1407のNO)、S1408がスキップされることになる。なお、未処理の設定項目があると、処理がS1401に戻される。
S1408では、クライアントアプリケーション351は、検証規則を満たすOCR領域の文字列を入力コントロールへ表示する。
上述の処理が全ての設定項目に対して行われる。
ここで、図14に示すフローを適用した場合のUI画面例について、図13を用いて説明する。設定項目「Date」413の表示エリア1311に対し「/¥d{2}¥/(¥d{2})¥/(¥d{4})$/」という「□□/□□/□□□□」(□は0-9任意の文字)の形式の文字列であるか正規表現で検証する検証規則が設定されているとする。設定項目「Company Name」416の表示エリア1312に対し「/.+?Corporation$/」という「〇〇Corporation」(〇〇は任意の文字)の形式の文字列であるか正規表現で検証する検証規則が設定されているとする。他の設定項目には検証規則が設定されていないとする。
このとき、「FileName」に関し、まず設定項目「Customer Name」412に対し検証規則が設定されているかを確認し、この設定項目に検証規則が設定されていないため、次の設定項目「Date」413の処理に移る。設定項目「Date」413には、上述の検証規則が設定されているため、全OCR領域のうちこの検証規則を満たすOCR領域を抽出する処理が実行される。全OCR領域のうちこの検証規則を満たすOCR領域は、強調部1301が付加されたOCR領域の「11/27/2019」ただ一つのみであるため、設定項目「Date」413の表示エリア1311にOCR領域が自動で設定される。すなわち、表示エリア1311にOCR領域の切り取り画像が自動で入力される。また、「Date」413の入力コントロールには、OCR領域の抽出文字列である「11/27/2019」が自動で入力される。
次に、「MetaData」に関し、設定項目「Company Name」416の処理に移る。設定項目「Company Name」416には、上述の検証規則が設定されているため、全OCR領域のうちこの検証規則を満たすOCR領域を抽出する。全OCR領域のうち検証規則を満たすOCR領域は、強調部1302が付加されたOCR領域の「XYZ Corporation」ただ一つのみであり、設定項目「Company Name」の表示エリア1312にOCR領域が自動で設定される。すなわち、表示エリア1312にOCR領域の切り取り画像が自動で入力される。また、「Company Name」416の入力コントロールには、OCR領域の抽出文字列である「XYZ Corporation」が自動で入力される。
最後に、設定項目「Address」417の処理に移る。設定項目「Address」417に対し検証規則が設定されているかを確認し、この設定項目には検証規則が設定されていないため、全ての設定項目に対して確認を終え処理が終了する。
このように処理が実行されることで、図13に示す状態のUI画面となることから、ユーザーに設定項目の検証規則に紐づいたOCR領域の提示がより容易になる。
[その他の実施形態]
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピューターにおける1以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピューターにおける1以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (10)
- 文書のスキャン画像に対する文字認識処理の結果と、前記文書のスキャン画像に付与するプロパティに設定される設定項目とを取得する取得手段と、
前記文書のスキャン画像を表示するプレビュー領域と、前記設定項目に入力される情報を編集する編集領域とを有する画面の表示であって、前記文書のスキャン画像の前記プレビュー領域への表示と、前記設定項目および前記情報の前記編集領域への表示とを制御する表示制御手段と、
前記編集領域に表示された前記設定項目に対する選択を検出する検出手段と、
前記検出手段によって検出された前記設定項目に設定された検出規則を取得する取得手段と、
前記文字認識処理の結果から前記検出規則を満たす文字認識領域を抽出する抽出手段と、
を有し、
前記表示制御手段は、前記プレビュー領域上に表示され前記抽出手段によって抽出された文字認識領域を強調表示する
ことを特徴とする情報処理装置。 - 前記検出手段は、前記画面の前記プレビュー領域に対する操作も検出し、
前記表示制御手段は、前記検出手段が、前記プレビュー領域上に表示され前記抽出手段によって抽出された文字認識領域に対する操作を検出したとき、当該抽出された文字認識領域に付随して、前記設定項目に入力可能な情報であることを示すメッセージまたはマークを用いて強調表示する、または、当該抽出された文字認識領域以外の領域をグレーアウトで強調表示する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記表示制御手段は、前記検出手段が、前記プレビュー領域上に表示され前記抽出手段によって抽出された文字認識領域と異なる文字認識領域に対する操作を検出したとき、前記検出した前記操作に対応する文字認識領域に付随して、前記設定項目に入力不可能な情報であることを示すメッセージまたはマークを用いて強調表示を行う
ことを特徴とする請求項2に記載の情報処理装置。 - 前記表示制御手段は、前記抽出手段によって抽出された文字認識領域が1つのみであるときに、当該抽出された文字認識領域に含まれる文字列を、対応する前記設定項目に入力される情報として前記編集領域に自動で表示する
ことを特徴とする請求項1から3の何れか一項に記載の情報処理装置。 - 前記表示制御手段は、前記抽出した文字認識領域の前景に色を付与して強調表示する
ことを特徴とする請求項1から4の何れか一項に記載の情報処理装置。 - 前記画面は、前記抽出した文字認識領域の前景に付与された色を表示する前景色表示部を有し、
前記表示制御手段は、前記抽出した文字認識領域の前景に色を付与して強調表示したときに、前記抽出した文字認識領域の前景に付与された色を前記前景色表示部に表示する
ことを特徴とする請求項5に記載の情報処理装置。 - 前記表示制御手段は、前記検出手段によって前記設定項目に対する選択を検出したとき、対応する前記設定項目を強調表示する
ことを特徴とする請求項1から6の何れか一項に記載の情報処理装置。 - 前記プロパティは、前記文書のスキャン画像のファイル名と、前記文書のスキャン画像のメタデータとを含む
ことを特徴とする請求項1から7の何れか一項に記載の情報処理装置。 - 文書のスキャン画像に対する文字認識処理の結果と、前記文書のスキャン画像に付与するプロパティに設定される設定項目とを取得する取得工程と、
前記文書のスキャン画像を表示するプレビュー領域と、前記設定項目に入力される情報を編集する編集領域とを有する画面の表示であって、前記文書のスキャン画像の前記プレビュー領域への表示と、前記設定項目および前記情報の前記編集領域への表示とを制御する表示制御工程と、
前記編集領域に表示された前記設定項目に対する選択を検出する検出工程と、
前記検出工程にて検出された前記設定項目に設定された検出規則を取得する取得工程と、
前記文字認識処理の結果から前記検出規則を満たす文字認識領域を抽出する抽出工程と、
を含み、
前記表示制御工程にて、前記プレビュー領域上に表示され前記抽出工程にて抽出された文字認識領域を強調表示する
ことを特徴とする情報処理方法。 - コンピュータを、請求項1から8の何れか一項に記載の情報処理装置として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021037164A JP2022137608A (ja) | 2021-03-09 | 2021-03-09 | 情報処理装置、情報処理方法およびプログラム |
US17/687,847 US11620434B2 (en) | 2021-03-09 | 2022-03-07 | Information processing apparatus, information processing method, and storage medium that provide a highlighting feature of highlighting a displayed character recognition area |
CN202210219972.4A CN115050038A (zh) | 2021-03-09 | 2022-03-08 | 信息处理装置、信息处理方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021037164A JP2022137608A (ja) | 2021-03-09 | 2021-03-09 | 情報処理装置、情報処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022137608A true JP2022137608A (ja) | 2022-09-22 |
Family
ID=83156836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021037164A Pending JP2022137608A (ja) | 2021-03-09 | 2021-03-09 | 情報処理装置、情報処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11620434B2 (ja) |
JP (1) | JP2022137608A (ja) |
CN (1) | CN115050038A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022091530A (ja) * | 2020-12-09 | 2022-06-21 | キヤノン株式会社 | 情報処理装置、画像処理システム、制御方法、並びにプログラム |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044958A1 (en) * | 2002-08-27 | 2004-03-04 | Wolf John P. | Systems and methods for inserting a metadata tag in a document |
US20060044605A1 (en) * | 2004-08-24 | 2006-03-02 | Schneider Charles R | Systems, methods and computer program products for labeled forms processing |
US7689037B2 (en) * | 2004-10-22 | 2010-03-30 | Xerox Corporation | System and method for identifying and labeling fields of text associated with scanned business documents |
US8171394B2 (en) * | 2005-06-24 | 2012-05-01 | Microsoft Corporation | Methods and systems for providing a customized user interface for viewing and editing meta-data |
US20080162603A1 (en) * | 2006-12-28 | 2008-07-03 | Google Inc. | Document archiving system |
EP2015554B1 (en) * | 2007-07-13 | 2012-05-16 | Ricoh Company, Ltd. | User interface generating method, image forming apparatus, and computer program product |
US8650221B2 (en) * | 2007-09-10 | 2014-02-11 | International Business Machines Corporation | Systems and methods to associate invoice data with a corresponding original invoice copy in a stack of invoices |
US20090089315A1 (en) * | 2007-09-28 | 2009-04-02 | Tractmanager, Inc. | System and method for associating metadata with electronic documents |
JP2010072842A (ja) * | 2008-09-17 | 2010-04-02 | Konica Minolta Business Technologies Inc | 画像処理装置および画像処理方法 |
US20100289757A1 (en) * | 2009-05-14 | 2010-11-18 | Budelli Joey G | Scanner with gesture-based text selection capability |
US8793574B2 (en) * | 2011-03-16 | 2014-07-29 | Ancestry.Com Operations Inc. | Methods and systems for identification and transcription of individual ancestral records and family |
US8996981B2 (en) * | 2011-09-06 | 2015-03-31 | Onevizion, Inc. | Managing forms in electronic documents |
US9430453B1 (en) * | 2012-12-19 | 2016-08-30 | Emc Corporation | Multi-page document recognition in document capture |
US10769357B1 (en) * | 2012-12-19 | 2020-09-08 | Open Text Corporation | Minimizing eye strain and increasing targeting speed in manual indexing operations |
US9317484B1 (en) * | 2012-12-19 | 2016-04-19 | Emc Corporation | Page-independent multi-field validation in document capture |
US9032545B1 (en) * | 2012-12-19 | 2015-05-12 | Emc Corporation | Securing visual information on images for document capture |
US20140258828A1 (en) * | 2013-03-11 | 2014-09-11 | Brent Lymer | Pick-and-place webform autofill |
JP2014174923A (ja) | 2013-03-12 | 2014-09-22 | Ricoh Co Ltd | 文書処理装置、文書処理方法、および文書処理プログラム |
US9652445B2 (en) * | 2013-05-29 | 2017-05-16 | Xerox Corporation | Methods and systems for creating tasks of digitizing electronic document |
US9323447B2 (en) * | 2013-10-15 | 2016-04-26 | Sharp Laboratories Of America, Inc. | Electronic whiteboard and touch screen method for configuring and applying metadata tags thereon |
US10176159B2 (en) * | 2014-05-05 | 2019-01-08 | Adobe Systems Incorporated | Identify data types and locations of form fields entered by different previous users on different copies of a scanned document to generate an interactive form field |
AU2017376897A1 (en) * | 2016-11-29 | 2019-05-30 | Y Soft Scanning Solutions s.r.o. | System for distributing image scanning tasks to networked devices |
JP6953230B2 (ja) * | 2017-08-22 | 2021-10-27 | キヤノン株式会社 | スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム |
US10452904B2 (en) * | 2017-12-01 | 2019-10-22 | International Business Machines Corporation | Blockwise extraction of document metadata |
JP6983675B2 (ja) * | 2018-01-23 | 2021-12-17 | キヤノン株式会社 | スキャン画像に関連する情報を設定するための装置、方法、プログラム、およびシステム |
US10511730B1 (en) * | 2018-06-07 | 2019-12-17 | Kyocera Document Solutions Inc. | Method to create a secure distributed data validation system using a distributed storage system and artificial intelligence |
JP7225017B2 (ja) * | 2019-04-19 | 2023-02-20 | キヤノン株式会社 | タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム |
JP7317561B2 (ja) * | 2019-04-19 | 2023-07-31 | キヤノン株式会社 | タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム |
JP7434001B2 (ja) * | 2020-03-13 | 2024-02-20 | キヤノン株式会社 | 情報処理装置、プログラム、情報処理方法 |
-
2021
- 2021-03-09 JP JP2021037164A patent/JP2022137608A/ja active Pending
-
2022
- 2022-03-07 US US17/687,847 patent/US11620434B2/en active Active
- 2022-03-08 CN CN202210219972.4A patent/CN115050038A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11620434B2 (en) | 2023-04-04 |
CN115050038A (zh) | 2022-09-13 |
US20220292251A1 (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7391672B2 (ja) | 文書を電子化するための画像処理システム、その制御方法及びプログラム | |
JP7434001B2 (ja) | 情報処理装置、プログラム、情報処理方法 | |
US11303769B2 (en) | Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium | |
US20180173543A1 (en) | Apparatus, information processing system, information processing method, and computer program product | |
KR20240020719A (ko) | 정보 처리 장치, 저장 매체, 및 저장 방법 | |
JP2020021249A (ja) | 情報処理システムとサーバ及びそれらの制御方法、並びにプログラム | |
EP3598340A1 (en) | Information processing apparatus, method of processing information and carrier means | |
JP2009239362A (ja) | 情報処理装置、画像読取装置及びプログラム | |
US11887390B2 (en) | Information processing apparatus, information processing system, information processing method, and non-transitory recording medium | |
CN112615970B (zh) | 控制设置元数据的画面的显示的方法、存储介质及设备 | |
JP2022137608A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2021184190A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2019114193A (ja) | 画像処理装置および画像処理プログラム | |
US11588945B2 (en) | Data input support apparatus that displays a window with an item value display area, an overview image display area, and an enlarged image display area | |
JP7154982B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP2016167712A (ja) | 情報処理装置、プログラム及び制御方法 | |
US20230368555A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP7487394B2 (ja) | 文書を電子化する画像処理システム、その制御方法及びプログラム | |
JP6065080B2 (ja) | 情報処理システム、その制御方法、及びプログラム、並びに、情報処理装置、その制御方法、及びプログラム | |
JP2017182472A (ja) | 文字編集サーバ及び文字編集システム | |
JP2017162080A (ja) | 機器、情報処理システム、表示制御方法、及びプログラム | |
JP2021180367A (ja) | 情報処理装置、情報処理システム、方法およびプログラム | |
JP2022019446A (ja) | 画像処理システム、装置、方法、プログラム | |
JP2024027246A (ja) | 文書管理装置、文書管理方法、および文書管理プログラム | |
JP2020127095A (ja) | 情報処理システム、電子黒板、及びプログラム |