JP2022181367A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2022181367A JP2022181367A JP2021088281A JP2021088281A JP2022181367A JP 2022181367 A JP2022181367 A JP 2022181367A JP 2021088281 A JP2021088281 A JP 2021088281A JP 2021088281 A JP2021088281 A JP 2021088281A JP 2022181367 A JP2022181367 A JP 2022181367A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- processor
- position information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 44
- 238000012937 correction Methods 0.000 claims description 36
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000013523 data management Methods 0.000 abstract description 40
- 238000010586 diagram Methods 0.000 description 20
- 238000000605 extraction Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000034 method Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
【課題】修正後の文字列に対応する画像の位置を特定する。【解決手段】画像データ管理装置2のプロセッサ21は、文書の画像に含まれる文字列及び当該画像における当該文字列の位置を含む文字認識結果を取得し、文字認識結果に含まれる文字列を表示させ、文字列が修正された場合に、文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報を特定する。さらに、プロセッサ21は、文字認識結果に含まれる第1文字列に対応する第2文字列を表示させ、第2文字列が修正された場合に、文字認識結果に含まれる各文字列に対応付けられている位置情報のうち修正後の第2文字列に対応する位置情報を特定する。【選択図】図1
Description
本発明は、情報処理装置及びプログラムに関する。
特許文献1には、文書の読み取り結果に従って、文字コード、読み取りエラーが発生した文字位置を示すエラー情報及び文書全体の画像情報を含む中間ファイルを作成し、その中間ファイルに含まれるエラー情報に基づいて、エラーが発生した文字が属するフィールドを検出し、そのフィールドの画像を文書全体の画像情報から切り出して、修正すべきフィールドの文字読み取り結果とそのフィールドの画像から構成されるエラー修正用画面を表示することが記載されている。
本発明は、修正後の文字列に対応する画像の位置を特定することを目的とする。
本発明の請求項1に係る情報処理装置は、プロセッサを有し、前記プロセッサは、画像に含まれる文字列及び当該画像における当該文字列の位置情報を含む文字認識結果を取得し、前記文字認識結果に含まれる前記文字列を表示させ、表示された前記文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている前記位置情報のうち修正後の前記文字列に対応する位置情報を特定する。
本発明の請求項2に係る情報処理装置は、請求項1記載の構成において、前記プロセッサは、前記文字認識結果に含まれる第1文字列に対応する第2文字列を表示させ、前記第2文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報のうち修正後の前記第2文字列に対応する位置情報を特定する。
本発明の請求項3に係る情報処理装置は、請求項2記載の構成において、前記プロセッサは、前記第1文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の第1文字列に対応する位置情報を特定する。
本発明の請求項4に係る情報処理装置は、請求項1~3のいずれか1項に記載の構成において、前記プロセッサは、画像を表す画像データを取得し、取得した前記画像データが表す画像のうち、特定した前記位置情報が示す位置の画像を表示させる。
本発明の請求項5に係る情報処理装置は、請求項4記載の構成において、前記プロセッサは、取得した前記画像データが表す画像のうち、修正後の文字列を含む画像を表示させる。
本発明の請求項6に係る情報処理装置は、請求項1~5のいずれか1項に記載の構成において、前記プロセッサは、文字列が修正された場合に、修正後の当該文字列の一部と、前記文字認識結果に含まれる各文字列とが一致する場合には、一致した一部の文字列を含む文字列の位置情報を特定する。
本発明の請求項7に係る情報処理装置は、請求項1~6のいずれか1項に記載の構成において、前記プロセッサは、画像を表す画像データを取得し、文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報が複数特定された場合において、当該複数の位置情報が示す位置の複数の画像を表示し、当該複数の画像から選択された画像を、修正された文字列に対応する画像として表示させる。
本発明の請求項8に係る情報処理装置は、請求項1~7のいずれか1項に記載の構成において、前記プロセッサは、画像を表す画像データを取得し、文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報が複数特定された場合において、各々の位置情報が示す位置の複数の画像についての優先度を特定し、特定した前記優先度に応じて、当該複数の画像から選択された画像を、修正された文字列に対応する画像として表示させる。
本発明の請求項9に係る情報処理装置は、請求項8記載の構成において、前記プロセッサは、前記優先度を特定するための複数の規則のうちいずれかを用いる。
本発明の請求項10に係る情報処理装置は、請求項9記載の構成において、前記プロセッサは、前記複数の規則のうち、修正後の文字列に応じた規則を用いる。
本発明の請求項11に係る情報処理装置は、請求項9記載の構成において、前記プロセッサは、前記複数の規則のうち、前記画像データの属性に応じた規則を用いる。
本発明の請求項12に係る情報処理装置は、請求項1~11のいずれか1項に記載の構成において、前記プロセッサは、文字列が修正された場合に、修正された文字列に対応する画像を文字認識対象とするか否かを受け付けるための画面を表示させる。
本発明の請求項13に係る情報処理装置は、請求項12記載の構成において、前記プロセッサは、前記画像において文字認識対象となる位置を指定するための画面を表示させる。
本発明の請求項14に係るプログラムは、コンピュータに、画像に含まれる文字列及び当該画像における当該文字列の位置を含む文字認識結果を取得するステップと、前記文字認識結果に含まれる文字列を表示させるステップと、文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報を特定するステップとを実行させるためのプログラムである。
請求項1,14に係る情報処理装置によれば、修正後の文字列に対応する画像の位置を特定することができる。
請求項2に係る情報処理装置によれば、文字認識結果に含まれる第1文字列に対応する第2文字列が修正された場合に、修正後の第2文字列に対応する画像の位置を特定することができる。
請求項3に係る情報処理装置によれば、文字認識結果に含まれる第1文字列が修正された場合に、修正後の第1文字列に対応する画像の位置を特定することができる。
請求項4に係る情報処理装置によれば、特定した前記位置情報が示す位置の画像を表示させることができる。
請求項5に係る情報処理装置によれば、修正後の文字列を含む画像を表示させることができる。
請求項6に係る情報処理装置によれば、修正後の当該文字列の一部と一致する文字列を含む文字列の位置情報を特定することができる。
請求項7に係る情報処理装置によれば、修正後の文字列に対応する位置情報が複数特定された場合において、複数の位置情報が示す位置の複数の画像のいずれかを表示することができる。
請求項8に係る情報処理装置によれば、修正後の文字列に対応する位置情報が複数特定された場合において、優先度に応じて、複数の位置情報が示す位置の複数の画像のいずれかを表示することができる。
請求項9に係る情報処理装置によれば、複数の規則のいずれかに従い、優先度を特定することができる。
請求項10に係る情報処理装置によれば、複数の規則のうち、修正した文字列に応じた規則に応じて優先度を特定することができる。
請求項11に係る情報処理装置によれば、複数の規則のうち、画像データの属性に応じた規則に応じて優先度を特定することができる。
請求項12に係る情報処理装置によれば、文字列が修正された場合に、修正された文字列に対応する画像を文字認識対象とするか否かを指定することができる。
請求項13に係る情報処理装置によれば、画像において文字認識対象となる位置を指定することができる。
請求項2に係る情報処理装置によれば、文字認識結果に含まれる第1文字列に対応する第2文字列が修正された場合に、修正後の第2文字列に対応する画像の位置を特定することができる。
請求項3に係る情報処理装置によれば、文字認識結果に含まれる第1文字列が修正された場合に、修正後の第1文字列に対応する画像の位置を特定することができる。
請求項4に係る情報処理装置によれば、特定した前記位置情報が示す位置の画像を表示させることができる。
請求項5に係る情報処理装置によれば、修正後の文字列を含む画像を表示させることができる。
請求項6に係る情報処理装置によれば、修正後の当該文字列の一部と一致する文字列を含む文字列の位置情報を特定することができる。
請求項7に係る情報処理装置によれば、修正後の文字列に対応する位置情報が複数特定された場合において、複数の位置情報が示す位置の複数の画像のいずれかを表示することができる。
請求項8に係る情報処理装置によれば、修正後の文字列に対応する位置情報が複数特定された場合において、優先度に応じて、複数の位置情報が示す位置の複数の画像のいずれかを表示することができる。
請求項9に係る情報処理装置によれば、複数の規則のいずれかに従い、優先度を特定することができる。
請求項10に係る情報処理装置によれば、複数の規則のうち、修正した文字列に応じた規則に応じて優先度を特定することができる。
請求項11に係る情報処理装置によれば、複数の規則のうち、画像データの属性に応じた規則に応じて優先度を特定することができる。
請求項12に係る情報処理装置によれば、文字列が修正された場合に、修正された文字列に対応する画像を文字認識対象とするか否かを指定することができる。
請求項13に係る情報処理装置によれば、画像において文字認識対象となる位置を指定することができる。
[1]構成
図1は、本実施形態に係る情報処理システム100の構成を例示するブロック図である。情報処理システム100は、文書画像データ管理装置1及びユーザ端末2を備える。文書画像データ管理装置1及びユーザ端末2はいずれもコンピュータ装置であり、無線通信回線又は有線通信回線を含む通信回線3により接続されている。文書画像データ管理装置1は本発明における情報処理装置の一例である。
図1は、本実施形態に係る情報処理システム100の構成を例示するブロック図である。情報処理システム100は、文書画像データ管理装置1及びユーザ端末2を備える。文書画像データ管理装置1及びユーザ端末2はいずれもコンピュータ装置であり、無線通信回線又は有線通信回線を含む通信回線3により接続されている。文書画像データ管理装置1は本発明における情報処理装置の一例である。
図2は、文書画像データ管理装置1のハードウェア構成を例示する図である。プロセッサ11は、文書画像データ管理装置1の他の要素を制御するプロセッサである。メモリ12は、プロセッサ11がプログラムを実行するためのワークエリアとして機能する記憶装置であり、例えばRAM(Random Access Memory)を含む。ストレージ13は各種のプログラム及びデータを記憶する記憶装置であり、例えばSSD(Solid State Drive)又はHDD(Hard Disk Drive)を含む。プロセッサ11がメモリ12又はストレージ13に記憶されているプログラムを実行することにより文書画像データ管理装置1において各種機能が実装される。通信IF(Interface)14は、予め定められた無線又は有線の通信規格に従って通信回線3を介して他の装置と通信を行う。
図3は、ユーザ端末2のハードウェア構成を例示する図である。プロセッサ21は、ユーザ端末2の他の要素を制御するプロセッサである。メモリ22は、プロセッサ21がプログラムを実行するためのワークエリアとして機能する記憶装置であり、例えばRAMを含む。ストレージ23は各種のプログラム及びデータを記憶する記憶装置であり、例えば、SSD又はHDDを含む。プロセッサ21がメモリ22又はストレージ23に記憶されているプログラムを実行することによりユーザ端末2において各種機能が実装される。通信IF24は、予め定められた無線又は有線の通信規格に従って他の装置と通信を行う。UI(User1 Interface)部25は例えばディスプレイ等の表示装置と各種キー等の操作装置を備えており、ユーザに対するUI画面を表示したり、ユーザの操作を受け付けたりする。
情報処理システム100において、ユーザが図示せぬスキャナ装置によって文書を読み取らせると、その読み取った結果を示す文書画像データがスキャナ装置によって生成され、文書画像データ管理装置1に格納される。ユーザは、ユーザ端末2を操作して、文書画像データ管理装置1に格納されている各種の文書画像データを閲覧したり、これら文書画像データに対して、任意の文字列を、例えばタグとかメタデータと呼ばれる情報として付与したりすることができる。
図4は、本実施形態における文書を例示する図である。この例では、請求書に相当する文書に、「請求書」「請求日」「番号」…などに相当する文字列t1~t7が含まれている様子が示されている。
文書画像データ管理装置1のプロセッサ11は、文書を示す文書画像データに対してOCR(Optical Character Recognition/Reader)等の文字認識処理を行う。これにより、プロセッサ11は、文書画像データに含まれる文字列及びその文書画像データにおける文字列の位置を含む文字認識結果を取得する。文字認識結果は、文書画像データ管理装置1のストレージ13に記憶される。図5は文書画像データ管理装置1のストレージ13に記憶される文字認識結果を例示する図である。図5は、図4に例示した文書について文字認識処理を行った結果について例示している。図5に示すように、文字認識処理を経て認識された文字列群と、各文字列の文書中の位置を示す位置情報群とが対応付けて記憶される。各文字列に対応する各位置情報は、例えば文書に対して設定されたXY直交座標軸(図4参照)に基づいて、その文字列を含む矩形(例えば文字列に外接する外接矩形)のいずれか1の頂点のXY座標値(x,y)と、その矩形のX軸方向における長さ(width)、及び、その矩形のY軸方向における長さ(height)で表現される。例えば、図4において「請求書」という文字列t1の位置情報は図5に例示するように「p01」であり、「発行日」という文字列t2の位置情報は図5に例示するように「p02」であり、「ISSUE DATE」という文字列t3の位置情報は図5に例示するように「p03」であり、「2018年10月1日」という文字列t4の位置情報は図5に例示するように「p04」である。
文書画像データ管理装置1のプロセッサ11は、認識した文字列群からキー及びバリューと呼ばれる文字列を抽出するとともに、上記文書画像データからバリューと呼ばれる文字列に相当する画像データを抽出する。ここで、キーとは、例えば文書のタイトル、その文書の発行日、その文書に固有の番号など、各文書に含まれる文字列群の中から予め決められた文字列の属性を意味するものである。これに対し、バリューとは、各文書においてキーに相当する文字列そのものであり、キーとバリューは対を成す概念である。例えば請求書に相当する文書において、キー「タイトル」に対応するバリューは「請求書」という文字列であり、キー「発行日」に対応するバリューは「YYYY年MM月DD日」(Y,M,Dは任意の数字)という文字列であり、キー「番号」に対応するバリューは「XXXXXXXXX」(Xは任意の文字、記号又は数字)という文字列である。なお、本実施形態におけるキーに相当する文字列は本発明における第1文字列の一例であり、本実施形態におけるバリューに相当する文字列は本発明における第2文字列の一例である。
文書画像データ管理装置1のプロセッサ11は、文書画像データからキー及びバリューを抽出するための規則が記述された抽出テーブルを記憶している。図6は文書画像データ管理装置1のストレージ13に記憶される抽出テーブルを例示する図である。この抽出テーブルにおいて、文書において各キーとなり得る文字列群と、各キーに対応するバリューとなる文字列の位置情報とが対応付けられている。この抽出テーブルにおいて、例えば、「タイトル」というキーに対応するバリューは、文書において「最上段」の位置にあると定義されている。また、「発行日」というキーに対応するバリューは、文書においてその「キーの右横」の位置にあると定義されている。また、「番号」というキーに対応するバリューは、文書においてその「キーの右横」の位置にあると定義されている。なお、図6では、各キーに対応するバリューとなる文字列の位置情報を「最上段」とか「右横」と表現しているが、実際には、例えば文書に対して設定されたXY直交座標系における座標値を用いて表現されている。例えば、最上段の位置とは、例えば文書に対して設定されたXY直交座標軸においてY座標値が最も大きい文字列の位置情報であることを意味している。また、キーの右横の位置とは、例えば文書に対して設定されたXY直交座標軸において、キーに対してX座標値がその次に大きい文字列の位置情報であることを意味している。
文書画像データ管理装置1のプロセッサ11は、この抽出テーブルに従い、認識した文字列群からキー及びバリューと呼ばれる文字列を抽出するとともに、上記文書画像データからバリューと呼ばれる文字列に相当する画像データを抽出する。図7は、文書画像データ管理装置1のストレージ13に記憶される抽出結果を例示する図である。図7は、図4に例示した文書について図6に例示した抽出テーブルに従い抽出した結果について例示している。図7に示すように、キー「タイトル」に対応するバリュー「請求書」という文字列が抽出され、さらに、そのバリュー「請求書」に相当する画像データの位置情報「p01」が抽出されている。また、キー「発行日」に対応するバリュー「ISSUE DATE」という文字列が抽出され、さらに、そのバリュー「ISSUE DATE」に相当する画像データの位置情報「p03」が抽出されている。また、キー「番号」に対応するバリュー「INVOICE NUMBER」という文字列が抽出され、さらに、そのバリュー「INVOICE NUMBER」に相当する画像データの位置情報「p06」が抽出されている。ここで、バリューに相当する画像データの位置情報を抽出することは、その画像データを抽出することに相当する。
しかしながら、図7においては、キー「発行日」に対応するバリューとして「ISSUE DATE」という文字列が抽出されているが、これは「発行日」という単語の英訳に過ぎず、そのバリューは、キー「発行日」に対応するバリューである「YYYY年MM月DD日」(Y,M,Dは任意の数字)という文字列、つまりここでは「2018年10月1日」であるべきである。同様に、キー「番号」に対応するバリューとして「INVOICE NUMBER」という文字列が抽出されているが、これは「番号」という単語の英訳に過ぎず、そのバリューは「LI-k12554」であるべきである。このような誤りは、例えばキー「発行日」に対応するバリューがそのキーの右横にある場合や、また、図4の例のようにキー「発行日」に対応するバリューがそのキーの英訳を挟んで右横にある場合などのように、様々な文書においてレイアウトが異なるケースが考えられるからである。
このような場合、ユーザはユーザ端末2を操作して、これらの抽出結果を修正することができるようになっている。この修正に関する動作について以下に説明する。
[2]動作
図8に示すフローチャートを参照して、文書画像データ管理装置1の動作について説明する。図8において、文書画像データ管理装置1のプロセッサ11は、ユーザ端末2において、ユーザが上記抽出結果を修正するための修正用UI画面を表示させる(ステップS0)。図9は、修正用UI画面を例示する図である。図9に示した修正用UI画面G1は、例えば図7の内容に従い、文字認識結果に含まれるキーに相当する文字列と、バリューに相当する文字列と、文書画像データが表す画像のうち、バリューに相当する文字列に対応する画像とが表示されたUI画面である。また、図9に示した修正用UI画面G2は、図4に例示した文書画像データが示す文書画像の全体が表示されたUI画面である。これらの修正用UI画面G1、G2は、例えばユーザによって同時に閲覧可能となるよう、1画面上に両者が並べられて表示される。
図8に示すフローチャートを参照して、文書画像データ管理装置1の動作について説明する。図8において、文書画像データ管理装置1のプロセッサ11は、ユーザ端末2において、ユーザが上記抽出結果を修正するための修正用UI画面を表示させる(ステップS0)。図9は、修正用UI画面を例示する図である。図9に示した修正用UI画面G1は、例えば図7の内容に従い、文字認識結果に含まれるキーに相当する文字列と、バリューに相当する文字列と、文書画像データが表す画像のうち、バリューに相当する文字列に対応する画像とが表示されたUI画面である。また、図9に示した修正用UI画面G2は、図4に例示した文書画像データが示す文書画像の全体が表示されたUI画面である。これらの修正用UI画面G1、G2は、例えばユーザによって同時に閲覧可能となるよう、1画面上に両者が並べられて表示される。
ここで、前述したように、キー「発行日」に対応するバリューとして「ISSUE DATE」という文字列が表示され、さらにその画像が表示されているが、このバリューは本来、「2018年10月1日」である。そこで、ユーザは、キー「発行日」に対応するバリューとして表示された「ISSUE DATE」を「2018年10月1日」に修正する操作を行う。この修正操作は、例えばユーザが修正用UI画面G1においてキー「発行日」に対応するバリューとして「2018年10月1日」という文字列を直接入力する操作であってもよいし、ユーザが修正用UI画面G2において表示されている「2018年10月1日」という文字列を、キー「発行日」に対応するバリューとして指定する操作であってもよい。
文書画像データ管理装置1のプロセッサ11は、バリューが修正されたと判断すると(ステップS1;YES)、図5に例示した文字認識結果のうち、修正後のバリューである「2018年10月1日」に相当する文字列を検索し、該当する文字列が幾つあるかを判断する(ステップS2)。ここで、文書画像データ管理装置1のプロセッサ11は、文字認識結果のうち、修正後のバリューに相当する文字列が無い場合は(ステップS2;無し)、所定のエラー画面をユーザ端末2に表示させる等して図8の処理を終了する。
文書画像データ管理装置1のプロセッサ11は、文字認識結果のうち、修正後のバリューに相当する文字列が1つある場合は(ステップS2;1つ)、図5に例示した文字認識結果に基づいて、その文字列に相当する画像の位置情報を特定する(ステップS3)。ここでは、図5に例示するとおり、「2018年10月1日」という文字列に対応する位置情報「p04」が特定される。
そして、文書画像データ管理装置1のプロセッサ11は、図7に例示したデータのうち、キー「発行日」に対応する修正前のバリューとしての文字列「ISSUE DATE」を、修正後のバリューとしての文字列「2018年10月1日」に書き換えるとともに、対応する位置情報を「p03」を、特定した位置情報「p04」に書き換える(ステップS4)。これにより、図7に例示した抽出結果の内容は、図10に例示するような抽出結果に書き換えられることになる。この結果、修正用UI画面G1においては図11に例示するように、キー「発行日」に対応するバリュー「2018年10月1日」が表示され、さらに、位置情報P4に対応する画像(文書画像において「2018年10月1日」に対応する画像)が表示される。
同様の手順で、ユーザがキー「番号」に対応するバリューとして表示された「INVOICE NUMBER」を「LI-K12554」に修正すると、文書画像データ管理装置1のプロセッサ11は、図12に例示するように、図7に例示したデータのうちキー「番号」に対応する修正前のバリューとしての文字列「ISSUE DATE」が、修正後のバリューとしての文字列「LI-k12554」に書き換えられ、これに対応する位置情報が「p06」が位置情報「p07」に書き換えられる。この結果、図13に例示するような修正用UI画面G1がユーザ端末2に表示されることになる。
また、文書画像データ管理装置1のプロセッサ11は、文字認識結果のうち、修正後のバリューに相当する文字列が複数ある場合は(ステップS2;複数)、図5に例示した文字認識結果において或る優先順位に基づいて、その優先順位が最も高い文字列を選択する(ステップS5)。
具体的には、文書画像データ管理装置1のプロセッサ11は、図6の例示に従い、バリューに相当する複数の文字列のそれぞれの位置情報が示す位置の複数の画像をユーザ端末2の修正用UI画面G2においてに表示させ、これら複数の画像からユーザがユーザ端末2を操作することにより選択された画像を、修正された文字列に対応する画像としてユーザ端末2において表示させる。この修正後は、前述したように、文字列の抽出結果が書き換えられ、その書き換え結果に応じた修正用UI画面G1が表示される。
以上説明した本実施形態によれば、文書に含まれる文字列群のうち修正された文字列に対応する画像の位置を特定することが可能となる。さらに、本実施形態によれば、特定した位置にある画像を表示させることが可能となる。
[3]変形例
上述した実施形態は、本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、上述した実施形態及び以下に示す各変形例は、必要に応じて組み合わされて実施されてもよい。
上述した実施形態は、本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、上述した実施形態及び以下に示す各変形例は、必要に応じて組み合わされて実施されてもよい。
(1)上述した実施形態において、文書画像データ管理装置1のプロセッサ11は、文字認識結果から検出されたキーに相当する文字列(第1文字列)に対応するバリューに相当する文字列(第2文字列)を表示させ、バリューに相当する文字列(第2文字列)が修正された場合に、文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後のバリューに相当する文字列(第2文字列)に対応する位置情報を特定していたが、キーに相当する文字列(第1文字列)をユーザが修正可能としてもよい。この場合、プロセッサ11は、第1文字列が修正された場合に、文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の第1文字列に対応する位置情報を特定し、特定した位置にある画像を表示させるようにしてもよい。
(2)上述した実施形態において、文書画像データ管理装置1のプロセッサ11は、バリューに相当する文字列が修正された場合に、修正後の文字列と、文字認識結果に含まれる文字列とが一致する場合に、一致した文字列の位置情報を特定し、特定した位置にある画像を表示させるようにしていた。この処理に関し、プロセッサ11は、バリューに相当する文字列が修正された場合に、修正後の文字列の一部と、文字認識結果に含まれる各文字列とが一致する場合には、一致した一部の文字列を含む文字列の位置情報を特定し、特定した位置にある画像を表示させるようにしていた。つまり、修正後の文字列と、文字認識結果に含まれる文字列とが部分的に一致していてもよい。
(3)上述した実施形態において、文書画像データ管理装置1のプロセッサ11は、バリューに相当する文字列が修正された場合に、文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報が複数特定された場合に、ユーザによって選択された画像の位置情報を最も優先度が高いものとして扱っていたが、この優先度の実施形態の例に限定されない。
また、プロセッサ11は、上記優先度を特定するための複数の規則をストレージ13に記憶させておき、その複数の規則のうちうちいずれかを用いるようにしてもよい。例えばプロセッサ11は、複数の規則のうち、修正後の文字列に応じた規則を用いるようにしてもよい。プロセッサ11は、例えば修正後の文字列が、キー「タイトル」に対応するバリューに相当する文字列である場合には、最も大きなサイズの文字列や或る特定のフォントの文字列の優先度を高くしてもよい。
また、プロセッサ11は、複数の規則のうち、文書画像データの属性に応じた規則を用いるようにしてもよい。プロセッサ11は、例えば文書画像データに対してその種類(属性)を意味するメタデータが付与されているような場合に、或るメタデータAが付与された文書画像データについては、例えば修正後の文字列が、キー「タイトル」に対応するバリューに相当する文字列である場合には、最も大きなサイズの文字列の優先度を高くし、また、或るメタデータBが付与された文書画像データについては、例えば修正後の文字列が、キー「タイトル」に対応するバリューに相当する文字列である場合には、或る特定のフォントの文字列の優先度を高くしてもよい。
(4)文書画像データ管理装置1のプロセッサ11は、文字列が修正された場合に、修正後の文字列に対応する画像を以降の文字認識対象とするか否かを受け付けるためのUI画面をユーザ端末2に表示させるようにしてもよい。例えば、文書画像データ管理装置1のプロセッサ11は、文字列が修正された場合に、文字認識対象となる位置を指定するための画面を表示するようにしてもよい。より具体的には、プロセッサ11は、図6で例示した、各キーに対応するバリューとなる文字列の位置情報を、修正後の文字列に相当する画像の文書中の位置を示す位置情報に書き換えるか否かをユーザに問い合わせるための画面を表示させ、書き換えるというユーザの回答があった場合には、修正後の文字列に相当する画像の文書中の位置を示す位置情報に書き換える。これにより、図6で例示した文字列の位置情報である「最上段」や「右横」が書き換えられ、以降は、ユーザが文字列を修正する必要がなくなることになる。
(5)上述の実施形態において、文書画像データ管理装置1のプロセッサ11又はユーザ端末2のプロセッサ21により実行されるプログラムは、インターネットなどの通信回線を介してダウンロードされてもよい。また、これらのプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。
1…文書画像データ管理装置、11…プロセッサ、12…メモリ、13…ストレージ、14…通信IF、2…ユーザ端末、21…プロセッサ、22…メモリ、23…ストレージ、24…通信IF、25…UI部、100…情報処理システム。
Claims (14)
- プロセッサを有し、
前記プロセッサは、
画像に含まれる文字列及び当該画像における当該文字列の位置情報を含む文字認識結果を取得し、
前記文字認識結果に含まれる前記文字列を表示させ、
表示された前記文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている前記位置情報のうち修正後の前記文字列に対応する位置情報を特定する
情報処理装置。 - 前記プロセッサは
前記文字認識結果に含まれる第1文字列に対応する第2文字列を表示させ、
前記第2文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報のうち修正後の前記第2文字列に対応する位置情報を特定する
請求項1記載の情報処理装置。 - 前記プロセッサは
前記第1文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の第1文字列に対応する位置情報を特定する
請求項2記載の情報処理装置。 - 前記プロセッサは、
画像を表す画像データを取得し、
取得した前記画像データが表す画像のうち、特定した前記位置情報が示す位置の画像を表示させる
請求項1~3のいずれか1項に記載の情報処理装置。 - 前記プロセッサは、
取得した前記画像データが表す画像のうち、修正後の文字列を含む画像を表示させる
請求項4記載の情報処理装置。 - 前記プロセッサは、
文字列が修正された場合に、修正後の当該文字列の一部と、前記文字認識結果に含まれる各文字列とが一致する場合には、一致した一部の文字列を含む文字列の位置情報を特定する
請求項1~5のいずれか1項に記載の情報処理装置。 - 前記プロセッサは、
画像を表す画像データを取得し、
文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報が複数特定された場合において、
当該複数の位置情報が示す位置の複数の画像を表示し、
当該複数の画像から選択された画像を、修正された文字列に対応する画像として表示させる
請求項1~6のいずれか1項に記載の情報処理装置。 - 前記プロセッサは、
画像を表す画像データを取得し、
文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報が複数特定された場合において、
各々の位置情報が示す位置の複数の画像についての優先度を特定し、
特定した前記優先度に応じて、当該複数の画像から選択された画像を、修正された文字列に対応する画像として表示させる
請求項1~7のいずれか1項に記載の情報処理装置。 - 前記プロセッサは、
前記優先度を特定するための複数の規則のうちいずれかを用いる
請求項8記載の情報処理装置。 - 前記プロセッサは、
前記複数の規則のうち、修正後の文字列に応じた規則を用いる
請求項9記載の情報処理装置。 - 前記プロセッサは、
前記複数の規則のうち、前記画像データの属性に応じた規則を用いる
請求項9記載の情報処理装置。 - 前記プロセッサは、
文字列が修正された場合に、修正された文字列に対応する画像を文字認識対象とするか否かを受け付けるための画面を表示させる
請求項1~11のいずれか1項に記載の情報処理装置。 - 前記プロセッサは、
前記画像において文字認識対象となる位置を指定するための画面を表示させる
請求項12に記載の情報処理装置。 - コンピュータに、
画像に含まれる文字列及び当該画像における当該文字列の位置を含む文字認識結果を取得するステップと、
前記文字認識結果に含まれる文字列を表示させるステップと、
文字列が修正された場合に、前記文字認識結果に含まれる各文字列に対応付けられている位置情報群のうち修正後の文字列に対応する位置情報を特定するステップと
を実行させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021088281A JP2022181367A (ja) | 2021-05-26 | 2021-05-26 | 情報処理装置及びプログラム |
US17/485,538 US20220383023A1 (en) | 2021-05-26 | 2021-09-27 | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method |
CN202111284921.1A CN115410206A (zh) | 2021-05-26 | 2021-11-01 | 信息处理装置、记录介质及信息处理方法 |
EP21205989.3A EP4095716A1 (en) | 2021-05-26 | 2021-11-02 | Information processing apparatus, program, and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021088281A JP2022181367A (ja) | 2021-05-26 | 2021-05-26 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022181367A true JP2022181367A (ja) | 2022-12-08 |
Family
ID=78806233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021088281A Pending JP2022181367A (ja) | 2021-05-26 | 2021-05-26 | 情報処理装置及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220383023A1 (ja) |
EP (1) | EP4095716A1 (ja) |
JP (1) | JP2022181367A (ja) |
CN (1) | CN115410206A (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000105796A (ja) | 1998-09-28 | 2000-04-11 | Toshiba Corp | 文字読み取りシステムおよび同システムにおける読み取り結果訂正処理方法 |
JP6050843B2 (ja) * | 2015-01-30 | 2016-12-21 | 株式会社Pfu | 情報処理装置、方法およびプログラム |
JP2021077332A (ja) * | 2019-11-05 | 2021-05-20 | キヤノン株式会社 | 情報処理装置、サーバ、システム、情報処理方法、およびプログラム |
-
2021
- 2021-05-26 JP JP2021088281A patent/JP2022181367A/ja active Pending
- 2021-09-27 US US17/485,538 patent/US20220383023A1/en active Pending
- 2021-11-01 CN CN202111284921.1A patent/CN115410206A/zh active Pending
- 2021-11-02 EP EP21205989.3A patent/EP4095716A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4095716A1 (en) | 2022-11-30 |
US20220383023A1 (en) | 2022-12-01 |
CN115410206A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
US8015203B2 (en) | Document recognizing apparatus and method | |
US9870484B2 (en) | Document redaction | |
JP6826293B2 (ja) | 情報処理システムと、その処理方法及びプログラム | |
US9378649B2 (en) | Masking partial text data in digital document | |
JP4591229B2 (ja) | 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム | |
JP4959501B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2007323474A (ja) | Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体 | |
JP2009031937A (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP2008282094A (ja) | 文字認識処理装置 | |
JP2022181367A (ja) | 情報処理装置及びプログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
JP7035474B2 (ja) | 文書処理装置およびプログラム | |
CN112365402A (zh) | 智能组卷方法、装置、存储介质及电子设备 | |
JP2007128160A (ja) | 情報処理装置 | |
CN108733637A (zh) | 信息处理设备和信息处理方法 | |
WO2023074008A1 (ja) | 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体 | |
JP2002259173A (ja) | ファイル管理プログラム、ファイル管理プログラムを記録したコンピュータ読取可能な記録媒体、ファイル管理装置およびファイル管理方法 | |
JP2009157470A (ja) | 電子文書処理装置及びプログラム | |
JP6475288B2 (ja) | プログラム比較方法、プログラム比較装置およびプログラム比較プログラム | |
JP2013182459A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2009003496A (ja) | 帳票データ変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240226 |