JP2020166658A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2020166658A JP2020166658A JP2019067501A JP2019067501A JP2020166658A JP 2020166658 A JP2020166658 A JP 2020166658A JP 2019067501 A JP2019067501 A JP 2019067501A JP 2019067501 A JP2019067501 A JP 2019067501A JP 2020166658 A JP2020166658 A JP 2020166658A
- Authority
- JP
- Japan
- Prior art keywords
- character
- error
- image data
- image
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims description 3
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims description 33
- 238000012937 correction Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
(実施の形態1)
図1は、文書処理システムの構成例を示す模式図である。本実施の形態では、文書画像(画像データ)から文書内の文字を認識し、認識した文字の誤りを検出して正しい文字に補正する文書処理システムについて説明する。文書処理システムは、情報処理装置1及び端末2を含む。各装置は、インターネット等のネットワークNを介して相互に通信接続されている。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。
端末2から文書画像(画像データ)を取得した場合、サーバ1は、取得した文書画像内の各文字画像(画像領域)を識別し、当該文字画像に対応する文字を認識する。例えばサーバ1は、OCR処理を行って文字画像をテキストデータに変換する。
例えばサーバ1は、文章構造を特定するためのルールを規定する構造化テーブル141を参照して、文書ファイルを、文書画像を構成する所定の基本要素毎に構造化した構造化データに変換する。文書の要素とは、例えば文書のタイトル、本文、写真、図表、キャプション等であるが、文書画像を所定単位で分割した要素であればよく、その内容(分割単位)は特に限定されない。構造化テーブル141は、文書画像を構成する各要素について、各要素を識別する上で基準とするルールと、各要素に対して付与すべきメタデータとを格納してある。
正解文章には、学習用の文書ファイルに付されているテキストデータを用いる。誤りを含む文章には、学習用の文書ファイルを画像化し、その画像に対してOCRなどの文字認識を適用した結果得られる元のテキストデータとは異なる誤りを含むテキストデータを用いる。
サーバ1の制御部11は、正順序モデル142及び逆順序モデル143を生成するために用いる文章群(文書コーパス)を取得する(ステップS11)。制御部11は、取得した文章を所定単位の文字列毎に分割する(ステップS12)。
サーバ1の制御部11は、誤り補正モデル144を生成するための学習用データであって、文字画像を含む文書画像に対し、各文字画像に対応するテキストデータが付与された文書ファイル群を取得する(ステップS31)。制御部11は、取得した文書ファイルからテキストデータを除去し、文書画像に変換する(ステップS32)。
サーバ1の制御部11は、処理対象とする文書画像(画像データ)を取得する(ステップS51)。制御部11は、OCR等の手段で文書画像内の各文字画像をテキストデータに変換し、文書画像における当該テキストデータの座標を特定する(ステップS52)。制御部11は、変換したテキストデータを、特定した座標に挿入(付与)した文書ファイルを生成する(ステップS53)。制御部11は、構造化テーブル141を参照して、生成した文書ファイル内の各要素を識別し、各要素にメタデータを付与した構造化データに変換する(ステップS54)。
本実施の形態では、構造化テーブル141に代えて、機械学習によって文章構造を学習した構造化モデル145を用いて文書画像の構造化を行う形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図11は、実施の形態2に係るサーバ1の構成例を示すブロック図である。本実施の形態に係るサーバ1の補助記憶部14は、構造化テーブル141に代えて、構造化モデル145(構造識別器)を記憶している。構造化モデル145は、機械学習によって構築された学習済みモデルであり、教師用の文書画像内の各要素を識別するための構造識別器である。
上述の如く、本実施の形態においてサーバ1は、予めルールが設定された構造化テーブル141に代えて、機械学習を行うことで構築した構造化モデル145を用いて文書の構造化を行う。例えばサーバ1は、CNNに係るニューラルネットワーク、具体的にはセマンティックセグメンテーションに係るニューラルネットワークを構造化モデル145として生成し、文書の構造化処理に用いる。
サーバ1の制御部11は、構造化モデル145を生成するための教師データであって、非構造化データである教師用の文書画像に対し、当該文書を構成する各要素のメタデータの正解値が関連付けられた教師データを取得する(ステップS201)。制御部11は、取得した教師データを用いて構造化モデル145を生成する(ステップS202)。具体的には、制御部11は、教師用の文書画像を構造化モデル145に入力し、各要素に相当する画像領域、及び当該領域に含まれる要素に付与すべきメタデータを識別した識別結果を出力として取得する。制御部11は、取得した識別結果を正解値と比較し、両者が近似するように重み等の各種パラメータを最適化して構造化モデル145を生成する。制御部11は、一連の処理を終了する。
図14は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
取得部1401は、文字画像を含む画像データを取得する。認識部1402は、前記文字画像に対応する文字及び座標を認識する。特定部1403は、前記画像データを構成する各要素を識別する際のルールを規定する構造化テーブルを参照、又は前記画像データを構成する各要素を識別する構造識別器を用いて、前記文字を含む前記画像データの各要素の構造を特定する。文字処理部1404は、特定した構造に基づき、前記文字の誤りを検出、又は誤りである前記文字を補正する。
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 構造化テーブル
142 正順序モデル
143 逆順序モデル
144 誤り補正モデル
145 構造化モデル
2 端末
Claims (10)
- 文字画像を含む画像データを取得する取得部と、
前記文字画像に対応する文字及び座標を認識する認識部と、
前記画像データを構成する各要素を識別する際のルールを規定する構造化テーブルを参照、又は前記画像データを構成する各要素を識別する構造識別器を用いて、前記文字を含む前記画像データの各要素の構造を特定する特定部と、
特定した構造に基づき、前記文字の誤りを検出、又は誤りである前記文字を補正する文字処理部と
を備えることを特徴とする情報処理装置。 - 前記認識部は、前記文字画像をテキストデータに変換する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記文字処理部は、文章群を学習済みの識別器を用いて、前記文字の誤りを検出又は補正する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記文字処理部は、一又は複数の前記識別器を用いて前記文字の誤りを検出又は補正する
ことを特徴とする請求項3に記載の情報処理装置。 - 前記文字処理部は、前記文章に出現する文字の並び順を学習済みの前記識別器を用いて、前記文字の誤りを検出又は補正する
ことを特徴とする請求項3又は4に記載の情報処理装置。 - 前記文字処理部は、前記文章に出現する文字の並び順を、該文章の順に学習済みの第1の前記識別器と、前記文章の先頭から末尾までを逆順序に並び替えた前記文章の順に学習済みの第2の前記識別器とを用いて前記文字の誤りを検出又は補正する
ことを特徴とする請求項5に記載の情報処理装置。 - 前記文字処理部は、正解の前記文章と、該正解の文章に対応する文章であって、誤りの文字を含む文章とを学習済みの前記識別器を用いて前記文字の誤りを検出又は補正する
ことを特徴とする請求項3〜6のいずれか1項に記載の情報処理装置。 - 前記正解の文章は、文字画像を含む学習用の画像データにおいて、前記文字画像に対応付けられたテキストデータであり、
前記誤りの文字を含む文章は、前記認識部が前記学習用の画像データに含まれる前記文字画像を変換したテキストデータである
ことを特徴とする請求項7に記載の情報処理装置。 - 文字画像を含む画像データを取得し、
前記文字画像に対応する文字及び座標を認識し、
前記画像データを構成する各要素を識別する際のルールを規定する構造化テーブルを参照、又は前記画像データを構成する各要素を識別する構造識別器を用いて、前記文字を含む前記画像データの各要素の構造を特定し、
特定した構造に基づき、前記文字の誤りを検出、又は誤りである前記文字を補正する
処理をコンピュータに実行させることを特徴とする情報処理方法。 - 文字画像を含む画像データを取得し、
前記文字画像に対応する文字及び座標を認識し、
前記画像データを構成する各要素を識別する際のルールを規定する構造化テーブルを参照、又は前記画像データを構成する各要素を識別する構造識別器を用いて、前記文字を含む前記画像データの各要素の構造を特定し、
特定した構造に基づき、前記文字の誤りを検出、又は誤りである前記文字を補正する
処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019067501A JP7322468B2 (ja) | 2019-03-29 | 2019-03-29 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019067501A JP7322468B2 (ja) | 2019-03-29 | 2019-03-29 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020166658A true JP2020166658A (ja) | 2020-10-08 |
JP7322468B2 JP7322468B2 (ja) | 2023-08-08 |
Family
ID=72716358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019067501A Active JP7322468B2 (ja) | 2019-03-29 | 2019-03-29 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7322468B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7393509B2 (ja) | 2021-11-29 | 2023-12-06 | ネイバー コーポレーション | 非定型文書から構造化情報を抽出するディープラーニングに基づいた方法及びシステム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008052439A (ja) * | 2006-08-23 | 2008-03-06 | Fuji Xerox Co Ltd | 画像処理システムおよび画像処理プログラム |
JP2013127815A (ja) * | 2006-11-29 | 2013-06-27 | Google Inc | モバイル機器システムを用いたデジタル画像アーカイブ及び検索 |
-
2019
- 2019-03-29 JP JP2019067501A patent/JP7322468B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008052439A (ja) * | 2006-08-23 | 2008-03-06 | Fuji Xerox Co Ltd | 画像処理システムおよび画像処理プログラム |
JP2013127815A (ja) * | 2006-11-29 | 2013-06-27 | Google Inc | モバイル機器システムを用いたデジタル画像アーカイブ及び検索 |
Non-Patent Citations (2)
Title |
---|
ROHIT SALUJA ET AL: "Error Detection and Corrections in Indic OCR Using LSTMs", 2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR), JPN6023003598, 15 November 2017 (2017-11-15), US, pages 17 - 22, XP033307739, ISSN: 0004976864, DOI: 10.1109/ICDAR.2017.13 * |
荒木 哲郎 他3名: "マルコフ連鎖モデルを用いた日本語文の置換型,挿入型及び脱落型誤りの検出・訂正法の改善", 電子情報通信学会論文誌D-II, vol. 86, no. 1, JPN6023003597, 1 January 2002 (2002-01-01), pages 66 - 78, ISSN: 0004976863 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7393509B2 (ja) | 2021-11-29 | 2023-12-06 | ネイバー コーポレーション | 非定型文書から構造化情報を抽出するディープラーニングに基づいた方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
JP7322468B2 (ja) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11954139B2 (en) | Deep document processing with self-supervised learning | |
US20200410160A1 (en) | Extracting structured information from a document containing filled form images | |
JP5647919B2 (ja) | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム | |
CN109858036B (zh) | 一种文书划分方法及装置 | |
US8391607B2 (en) | Image processor and computer readable medium | |
US20210110153A1 (en) | Heading Identification and Classification for a Digital Document | |
CN112434690A (zh) | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 | |
US11295175B1 (en) | Automatic document separation | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
KR102282025B1 (ko) | 컴퓨터를 이용한 문서 분류 및 문자 추출 방법 | |
JP7322468B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
JP2008225695A (ja) | 文字認識誤り修正装置およびプログラム | |
Kumar et al. | Survey paper of script identification of Telugu language using OCR | |
US11972208B2 (en) | Information processing device and information processing method | |
Chowdhury et al. | Implementation of an optical character reader (ocr) for bengali language | |
Idziak et al. | Scalable handwritten text recognition system for lexicographic sources of under-resourced languages and alphabets | |
JP7512630B2 (ja) | くずし字認識システム、くずし字認識方法、データセットの作成方法、及びプログラム | |
Chavan et al. | Automated Script Evaluation using Machine Learning and Natural Language Processing | |
KR102673900B1 (ko) | 표 데이터 추출 시스템 및 그 방법 | |
JP7283112B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Saluja | Robust multilingual OCR: from Ancient Indic texts to modern Indian Street signs. | |
US20230377358A1 (en) | Method and apparatus for dechipering obfuscated text for cyber security | |
US20230343123A1 (en) | Using model uncertainty for contextual decision making in optical character recognition | |
US20230045871A1 (en) | Character recognition method, computer program product with stored program and computer readable medium with stored program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7322468 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |