JP2018128996A - 情報処理装置、制御方法、およびプログラム - Google Patents
情報処理装置、制御方法、およびプログラム Download PDFInfo
- Publication number
- JP2018128996A JP2018128996A JP2017023558A JP2017023558A JP2018128996A JP 2018128996 A JP2018128996 A JP 2018128996A JP 2017023558 A JP2017023558 A JP 2017023558A JP 2017023558 A JP2017023558 A JP 2017023558A JP 2018128996 A JP2018128996 A JP 2018128996A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- area
- value corresponding
- rule
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
Description
図1は、本実施形態における複写機100の構成を示す図である。
複写機100は、スキャナ101、送受信部102、およびプリンタ103を有する。
情報処理装置200は、送受信部201、保存部202、制御部203、表示部204、受付部205、ルール登録部206、および情報抽出部207を有する。また、情報処理装置200は、不図示のCPUとROMとRAMとを内部に有する。CPUは、ROMから情報処理装置200のプログラムをロードし、一次保存領域としてRAMを利用して情報処理装置200のプログラムを実行する。以上の動作により、図2に示す各部の処理が実行される。
本実施形態では、非定型帳票のスキャン画像を一例として説明するが、これに限られものではなく、帳票以外のどのような文書のスキャン画像であっても本発明は適用可能である。また、スキャン画像ではなく、例えばカメラで撮影した画像に対しても本発明は適用可能である。
図4に示すユーザインタフェースは、ルール登録部206が表示部204を介して表示する。ユーザは、図4に示すユーザインタフェースに、抽出する情報のキーワードとなる文字列と、抽出する情報すなわちバリューの条件を入力する。
本実施形態では、帳票から情報を抽出する際の条件をルールと呼び、ルールを複数組定義したデータをルールテーブルと呼ぶ。ルール1は、図4に示したユーザインタフェースに入力されたキーワードとバリューの条件を保存したルールである。
ステップS601で、情報処理装置200が有する情報抽出部207は、保存部202に保存されたスキャン画像を取得する。ステップS602で、情報抽出部207は、取得したスキャン画像に対して領域解析処理を行う。領域解析処理では、スキャン画像を解析することにより、文字列や、画像、グラフィックなどの属性毎の領域を判定する。本実施形態では、各領域は矩形の領域として判定されるものとする。
矩形領域の属性は、文字列、画像、グラフィック等である。本実施形態では、領域解析処理の結果、属性が文字列であると特定された領域を利用して情報の抽出を行う。領域解析処理は、既知の手法を用いればよい。情報抽出部207は、領域解析処理を行った結果を領域情報テーブルとして保存部202に保存する。
領域情報テーブルは、スキャン画像上の矩形領域を一意に識別するIDと、矩形領域のスキャン画像における座標情報である左上座標、幅、および高さと、当該矩形領域に対して文字認識処理を実行した結果とを保存する。座標の値は、スキャン画像の左上を原点とし、横方向をX軸、縦方向をY軸とした場合のピクセル値である。
ステップS901で、情報抽出部207は、ステップS603で取得したルールテーブルからルールを1つ選択する。ステップS902で、情報抽出部207は、選択したルールにおいてバリューの文字列長が固定であると設定されているかを判定する。バリューの文字列長が固定であると設定されている場合、処理はステップS904に進む。
図5に示したルールテーブルに対して、「ルール内推定順」および「テーブル内推定順」の情報が追加されている。「テーブル内推定順」が、ルールテーブルに含まれるルールのうち、どのルールを用いて抽出したい情報が記載されている領域を推定するかを表す情報である。
詳細には、図11は、ステップS607でID2の矩形領域に対して文字認識処理が実行された後の領域情報テーブルを示している。図8に示した領域情報テーブルに対して、ID2の矩形領域の「文字認識結果」列に値が追加されている。すなわち、ID2の領域に対して文字認識処理を実行した結果、「1234−C56」が抽出されたことを示している。
詳細には、図12は、ステップS608でID1の矩形領域に対して文字認識処理が実行された後の領域情報テーブルを示している。図11に示した領域情報テーブルに対して、ID1の矩形領域の「文字認識結果」列に値が追加されている。すなわち、ID2の領域の対となる領域がID1の領域であり、当該ID1の領域に対して文字認識処理を実行した結果、「伝票番号」が抽出されたことを示している。
図1に示したスキャナ画像は、日本語で記述された文書をスキャンした場合ついて説明したが、図13のように、本発明は、英語で記述された文書の画像であってもよい。文書画像1301および文書画像1302は、それぞれ英語で記述された同一の項目の情報を含む。
図4に示したユーザインタフェースと同様に、ルール登録部206が表示部204を介して図14のユーザインタフェースを表示する。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
200 情報処理装置
203 制御部
206 ルール登録部
207 情報抽出部
Claims (10)
- 画像に対して領域解析処理を実行することにより領域を抽出する抽出手段と、
特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得する取得手段と、
前記ルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、当該ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する決定手段と、
前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する特定手段と、
前記特定された領域に対して文字認識処理を行う文字認識手段と、を備え、
前記特定手段は、前記決定された順番に従い、先に特定した領域に基づいて、対応するもう一方の領域を特定する、
ことを特徴とする情報処理装置。 - 前記ルールが、前記キーワードに対応するバリューが固定長の文字列であることを含む場合、前記決定手段は、前記抽出された領域の中から、前記キーワードを含む領域を特定するよりも先に当該キーワードに対応するバリューを含む領域を特定することを決定する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記ルールが、前記キーワードに対応するバリューが特定の字種であることを含む場合、前記決定手段は、前記抽出された領域の中から、前記キーワードを含む領域を特定するよりも先に当該キーワードに対応するバリューを含む領域を特定することを決定する、
ことを特徴とする請求項1または2に記載の情報処理装置。 - 前記ルールが、前記キーワードに対応するバリューが特定の字種であることを含む場合、前記文字認識手段は、当該特定の字種に限定した文字認識処理を行う、
ことを特徴とする請求項3に記載の情報処理装置。 - 前記特定手段は、前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域のサイズを推定し、前記抽出された領域の中から当該サイズを有する領域を、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域として決定する、
ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。 - 前記決定手段は、前記ルールが複数ある場合、ルールを用いる順番を、各ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する、
ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。 - 前記特定手段は、前記ルールが複数ある場合、1つのルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する際に、既に他のルールを用いて前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域であると特定された領域は、前記抽出された領域の中から除外する、
ことを特徴とする請求項6に記載の情報処理装置。 - 前記ルールは、前記キーワードを含む領域と当該キーワードに対応するバリューを含む領域との配置に関する情報を含み、
前記特定手段は、前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域のうち先に特定した領域と、前記配置に関する情報とを用いて、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域のうち後で特定する領域を特定する、
ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。 - コンピュータを請求項1乃至8のいずれか1項に記載の情報処理装置として機能させることを特徴とするプログラム。
- 画像に対して領域解析処理を実行することにより領域を抽出する工程と、
特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得する工程と、
前記ルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する工程と、
前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する工程と、
前記特定された領域に対して文字認識処理を行う工程と、を有し、
前記特定する工程では、前記決定された順番に従い、先に特定された領域が前記キーワードを含む領域の場合、当該キーワードに対応するバリューを含む領域を、前記キーワードを含む領域に基づきさらに特定し、
前記先に特定された領域が前記キーワードに対応するバリューを含む領域の場合、前記キーワードを含む領域を、前記キーワードに対応するバリューを含む領域に基づきさらに特定する、
ことを特徴とする情報処理装置の制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017023558A JP6878034B2 (ja) | 2017-02-10 | 2017-02-10 | 情報処理装置、制御方法、およびプログラム |
US15/877,062 US10885325B2 (en) | 2017-02-10 | 2018-01-22 | Information processing apparatus, control method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017023558A JP6878034B2 (ja) | 2017-02-10 | 2017-02-10 | 情報処理装置、制御方法、およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018128996A true JP2018128996A (ja) | 2018-08-16 |
JP2018128996A5 JP2018128996A5 (ja) | 2020-03-19 |
JP6878034B2 JP6878034B2 (ja) | 2021-05-26 |
Family
ID=63104657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017023558A Active JP6878034B2 (ja) | 2017-02-10 | 2017-02-10 | 情報処理装置、制御方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10885325B2 (ja) |
JP (1) | JP6878034B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444751A (zh) * | 2019-01-17 | 2020-07-24 | 富士施乐株式会社 | 信息处理装置、储存介质及信息处理方法 |
JP2020154962A (ja) * | 2019-03-22 | 2020-09-24 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2020160649A (ja) * | 2019-03-26 | 2020-10-01 | 株式会社日立情報通信エンジニアリング | 画像処理装置、画像処理方法及び画像処理プログラム |
JP2020181523A (ja) * | 2019-04-26 | 2020-11-05 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021033325A (ja) * | 2019-08-13 | 2021-03-01 | キヤノン株式会社 | 画像処理装置、その制御方法及びプログラム |
JP2021064209A (ja) * | 2019-10-15 | 2021-04-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US11113558B2 (en) | 2019-01-22 | 2021-09-07 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium storing information processing program for character string extraction |
US11481447B2 (en) | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
US11995908B2 (en) | 2020-03-23 | 2024-05-28 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11416674B2 (en) * | 2018-07-20 | 2022-08-16 | Ricoh Company, Ltd. | Information processing apparatus, method of processing information and storage medium |
WO2020254924A1 (en) * | 2019-06-16 | 2020-12-24 | Way2Vat Ltd. | Systems and methods for document image analysis with cardinal graph convolutional networks |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129793A (ja) * | 2006-11-20 | 2008-06-05 | Canon Inc | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 |
JP2012208589A (ja) * | 2011-03-29 | 2012-10-25 | Hitachi Omron Terminal Solutions Corp | 帳票認識装置、帳票認識方法およびそのためのプログラム |
JP2016051339A (ja) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置及び方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0407935B1 (en) * | 1989-07-10 | 1999-10-06 | Hitachi, Ltd. | Document data processing apparatus using image data |
JP2009093305A (ja) | 2007-10-05 | 2009-04-30 | Hitachi Computer Peripherals Co Ltd | 帳票認識装置 |
JP2010217996A (ja) | 2009-03-13 | 2010-09-30 | Omron Corp | 文字認識装置、文字認識プログラム、および文字認識方法 |
US8687890B2 (en) * | 2011-09-23 | 2014-04-01 | Ancestry.Com Operations Inc. | System and method for capturing relevant information from a printed document |
-
2017
- 2017-02-10 JP JP2017023558A patent/JP6878034B2/ja active Active
-
2018
- 2018-01-22 US US15/877,062 patent/US10885325B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129793A (ja) * | 2006-11-20 | 2008-06-05 | Canon Inc | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 |
JP2012208589A (ja) * | 2011-03-29 | 2012-10-25 | Hitachi Omron Terminal Solutions Corp | 帳票認識装置、帳票認識方法およびそのためのプログラム |
JP2016051339A (ja) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置及び方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11006015B2 (en) | 2019-01-17 | 2021-05-11 | Fuji Xerox Co., Ltd. | Information processing apparatus and non-transitory computer readable medium storing information processing program |
JP2020115260A (ja) * | 2019-01-17 | 2020-07-30 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
CN111444751B (zh) * | 2019-01-17 | 2024-01-05 | 富士胶片商业创新有限公司 | 信息处理装置、储存介质及信息处理方法 |
JP7302175B2 (ja) | 2019-01-17 | 2023-07-04 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
CN111444751A (zh) * | 2019-01-17 | 2020-07-24 | 富士施乐株式会社 | 信息处理装置、储存介质及信息处理方法 |
US11113558B2 (en) | 2019-01-22 | 2021-09-07 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium storing information processing program for character string extraction |
JP7272037B2 (ja) | 2019-03-22 | 2023-05-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP2020154962A (ja) * | 2019-03-22 | 2020-09-24 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2020160649A (ja) * | 2019-03-26 | 2020-10-01 | 株式会社日立情報通信エンジニアリング | 画像処理装置、画像処理方法及び画像処理プログラム |
JP2020181523A (ja) * | 2019-04-26 | 2020-11-05 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7275816B2 (ja) | 2019-04-26 | 2023-05-18 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP2021033325A (ja) * | 2019-08-13 | 2021-03-01 | キヤノン株式会社 | 画像処理装置、その制御方法及びプログラム |
JP7408313B2 (ja) | 2019-08-13 | 2024-01-05 | キヤノン株式会社 | 画像処理装置、その制御方法及びプログラム |
US11481447B2 (en) | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
JP2021064209A (ja) * | 2019-10-15 | 2021-04-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US11995908B2 (en) | 2020-03-23 | 2024-05-28 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
US10885325B2 (en) | 2021-01-05 |
US20180232573A1 (en) | 2018-08-16 |
JP6878034B2 (ja) | 2021-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6878034B2 (ja) | 情報処理装置、制御方法、およびプログラム | |
US10437466B2 (en) | Formula inputting method and apparatus | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US10142499B2 (en) | Document distribution system, document distribution apparatus, information processing method, and storage medium | |
US20210075919A1 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP7387363B2 (ja) | データ入力支援装置、データ入力支援方法及びプログラム | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
US10984277B2 (en) | Image analysis apparatus, image analysis method, and non-transitory computer readable medium | |
KR101598789B1 (ko) | 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법 | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2020184275A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2020087112A (ja) | 帳票処理装置および帳票処理方法 | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP6700705B2 (ja) | 振り分けシステム、情報処理方法、及びプログラム | |
JP2010211470A (ja) | 文書データ生成装置と文書データ生成方法 | |
US11972208B2 (en) | Information processing device and information processing method | |
US11006015B2 (en) | Information processing apparatus and non-transitory computer readable medium storing information processing program | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム | |
US11163992B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5039659B2 (ja) | 文字認識方法及び文字認識装置 | |
JP6503850B2 (ja) | 範囲指定プログラム、範囲指定方法および範囲指定装置 | |
JP2020099031A (ja) | 情報処理装置、及び情報処理方法 | |
JP7292984B2 (ja) | 行分割装置および方法、ならびにプログラム | |
JP2013182459A (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200205 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210428 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6878034 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |