JP2021144307A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2021144307A JP2021144307A JP2020040977A JP2020040977A JP2021144307A JP 2021144307 A JP2021144307 A JP 2021144307A JP 2020040977 A JP2020040977 A JP 2020040977A JP 2020040977 A JP2020040977 A JP 2020040977A JP 2021144307 A JP2021144307 A JP 2021144307A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- characters
- recognition result
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 abstract description 10
- 238000012790 confirmation Methods 0.000 abstract description 6
- 238000010191 image analysis Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/018—Input/output arrangements for oriental characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
- Quality & Reliability (AREA)
- Editing Of Facsimile Originals (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】文字画像の文字認識処理による文字認識結果を確認する際に、文字画像に含まれる文字の間隔と文字認識結果に含まれる文字の間隔が一致していない場合に文字画像に含まれる文字と当該文字に対応する文字認識結果に含まれる文字とを対応させて表示させる。【解決手段】情報処理装置は、帳票の読取画像を文字認識処理して文字認識結果の確認訂正作業を行う際、読取画像の文字列を構成する文字毎に画像が分断し、また各文字の大きさを得る。そして、帳票の読取画像と帳票の文字認識処理による認識結果の各表示領域31,32を上下に並べて表示する際、認識結果の各文字の位置に、対応する読取画像の文字画像を位置合わせすることで、読取画像の文字と当該文字認識結果の文字とを対応付け、また文字の大きさを合わせる。そして、確信度の低い文字33は、対応する文字34と共に強調表示する。【選択図】図5
Description
本発明は、情報処理装置及びプログラムに関する。
従来から、帳票やアンケート等手書き入力された文書の読取画像に対してOCR(Optical Character Recognition)等を利用して文字認識し、読取画像と文字認識結果を並べて表示し、文字認識結果に誤りがあれば、担当者に確認訂正させるという文字認識結果の確認訂正作業が行われている。
この確認訂正作業を支援するために、例えば、特許文献1では、原稿をスキャンし、OCR処理した出力結果のレイアウトは、元原稿のレイアウトに準ずるようにして出力させるシステムが提案されている。
例えば、手書きされる文字は、文字の間隔や大きさがまちまちである場合がある。このような場合、例えば手書きされた文字を含む画像と、文字認識処理による認識結果とを比較しやすいように上下に並べて表示しても、対応付けるべき文字の位置がずれることで、確認訂正対象となる文字の対応付けを直観的に行うことが困難な場合がある。
本発明は、文字画像の文字認識処理による文字認識結果を確認する際に、文字画像に含まれる文字の間隔と文字認識結果に含まれる文字の間隔が一致していない場合に文字画像に含まれる文字と当該文字に対応する文字認識結果に含まれる文字とを対応させて表示させることを目的とする。
本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、複数の文字を含む画像と、前記画像に対する文字認識処理による認識結果と、を取得し、前記画像の文字認識処理による文字認識結果を確認する際、前記画像に含まれる文字の間隔と前記認識結果に含まれる文字の間隔が一致していない場合に前記画像に含まれる各文字と当該文字の認識結果として得られた文字とが対応する位置にかつ文字の大きさを合わせて表示させる、ことを特徴とする。
また、前記プロセッサは、前記認識結果として得られた各文字の確信度を取得し、前記確信度が閾値に満たない文字と当該文字に対応する文字の画像との組を強調表示する、ことを特徴とする。
また、前記強調表示は、前記確信度が前記閾値に満たない文字と当該文字に対応する文字の画像との双方を、太字で表示する、文字サイズを拡大する、枠線で囲う、または、前記確信度が前記閾値以上となる文字と当該文字に対応する文字の画像と表示色を変える、ことの少なくとも1つである、ことを特徴とする。
また、前記強調表示は、前記確信度が前記閾値に満たない文字と当該文字に対応する文字の画像と異なる部分のみに対して行う、ことを特徴とする。
また、前記プロセッサは、前記確信度が前記閾値に満たない文字に対応する文字の画像に対する操作に応じて当該文字の画像を拡大表示させる、ことを特徴とする。
また、前記プロセッサは、前記確信度が前記閾値に満たない文字に対応する文字の画像が選択されると、当該文字の画像の認識結果として得られた文字を編集可能に表示させる、ことを特徴とする。
また、前記プロセッサは、選択された文字の認識結果として得られた文字と置き換える候補となる文字を取得し、取得した文字を選択可能に表示させる、ことを特徴とする。
本発明に係るプログラムは、コンピュータに、複数の文字を含む画像と、前記画像に対する文字認識処理による認識結果と、を取得する機能、前記画像の文字認識処理による文字認識結果を確認する際、前記画像に含まれる文字の間隔と前記認識結果に含まれる文字の間隔が一致していない場合に前記画像に含まれる各文字と当該文字の認識結果として得られた文字を対応する位置にかつ文字の大きさを合わせて表示させる機能、を実現させる。
請求項1に記載の発明によれば、文字画像の文字認識処理による文字認識結果を確認する際に、文字画像に含まれる文字の間隔と文字認識結果に含まれる文字の間隔が一致していない場合に文字画像に含まれる文字と当該文字に対応する文字認識結果に含まれる文字とを対応させて表示させることができる。
請求項2に記載の発明によれば、確信度が閾値に満たない文字と当該文字に対応する文字の画像との組と、確信度が閾値以上となる文字と当該文字に対応する文字の画像との組と、の違いをより明確に表示させることができる。
請求項3に記載の発明によれば、強調表示されていることが視認しやすい。
請求項4に記載の発明によれば、異なる部分がより視認しやすくなる。
請求項5に記載の発明によれば、選択された文字の画像が視認しやすくなる。
請求項6に記載の発明によれば、認識結果として得られた文字をユーザに訂正させることができる。
請求項7に記載の発明によれば、選択操作によりユーザに文字を訂正させることができる。
請求項8に記載の発明によれば、文字画像の文字認識処理による文字認識結果を確認する際に、文字画像に含まれる文字の間隔と文字認識結果に含まれる文字の間隔が一致していない場合に文字画像に含まれる文字と当該文字に対応する文字認識結果に含まれる文字とを対応させて表示させることができる。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
図1は、本発明に係る情報処理装置の一実施の形態を示すブロック構成図である。本実施の形態における情報処理装置10は、パーソナルコンピュータ(PC)等の従前から存在する汎用的なハードウェア構成で実現できる。すなわち、情報処理装置10は、CPU、ROM、RAM、ハードディスクドライブ(HDD)等の記憶手段、入力手段として設けられたマウスやキーボード及び表示手段として設けられたディスプレイを含むインタフェース、またネットワークインタフェース等の通信手段を搭載する。
本実施の形態における情報処理装置10は、図1に示すように、画像取得部11、帳票種別判別部12、画像解析部13、文字認識処理部14、表示情報生成部15、インタフェース(UI)処理部16、帳票定義情報記憶部21、候補文字情報記憶部22、画像解析情報記憶部23及び文字認識情報記憶部24を有している。なお、本実施の形態において説明に用いない構成要素については、図から省略している。
また、図1には、画像形成装置1が示されている。画像形成装置1は、コピー機能、スキャナ機能等各種機能を搭載した複合機であり、コンピュータを内蔵した装置である。画像形成装置1は、文字が記載されている文書を読み取ることで文書の画像を形成する。本実施の形態では、文書として文字が手書き入力されている帳票を想定している。従って、以降の説明では、文書と帳票とを同義に用いる。また、本実施の形態において「文字」という場合、特に断らない限り、一文字及び複数の文字からなる文字列の双方を含む。
画像取得部11は、画像形成装置1が形成した帳票の読取画像を取得する。帳票種別判別部12は、読取画像を解析することで帳票の種別を判別する。画像解析部13は、帳票に記入されている文字を解析することによって、文字に関する情報を生成して画像解析情報として画像解析情報記憶部23に保存する。画像解析情報のデータ構成については後述する。
文字認識処理部14は、帳票に対して文字認識処理を実施することで、帳票に記入されている文字を認識し、その認識結果を含む文字認識情報を生成して文字認識情報記憶部24に保存する。文字認識処理による認識結果としては、帳票に記入されている文字を判別した結果、すなわち文字が得られる。表示情報生成部15は、画像解析情報及び文字認識情報からユーザに提示する情報を表示情報として生成する。
インタフェース(UI)処理部16は、操作受付部161及び表示制御部162を有している。操作受付部161は、入力手段を用いたユーザの入力操作を受け付ける。表示制御部162は、表示手段への表示制御を行う。
帳票定義情報記憶部21には、帳票の種別毎に、当該帳票のフォーム及び帳票上のどの座標位置にどの項目の項目名や項目値の記入領域が設けられているかなど文字認識処理を実施する範囲を特定しうる定義情報が予め設定されている。
候補文字情報記憶部22には、文字認識処理において文字を誤認識した場合に訂正の候補となる文字が予め設定されている。例えば、「郎」の場合、「朗」が訂正の候補となり、その逆に「朗」の場合、「郎」が訂正の候補となる。画像解析情報記憶部23及び文字認識情報記憶部24に記憶される画像解析情報及び文字認識情報は、後述する表示処理が実施される過程において作成されるので、処理の説明と合わせて説明する。
情報処理装置10における各構成要素11〜16は、情報処理装置10を形成するコンピュータと、コンピュータに搭載されたCPUで動作するプログラムとの協調動作により実現される。また、各記憶部21〜24は、情報処理装置10に搭載されたHDDにて実現される。あるいは、RAM又は外部にある記憶手段をネットワーク経由で利用してもよい。
本実施の形態では、以下に説明する処理に必要な構成要素を情報処理装置10に持たせたが、これに限る必要はない。例えば、情報処理装置10は、文字認識処理などクラウドなどの外部システムが提供するサービス機能を利用してもよい。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
本実施の形態における情報処理装置10は、帳票等の文書の読取画像に対して文字認識処理を実施することで読取画像に記述されている文字を認識し、その文字認識結果の確認訂正作業の利用に適している。以下、確認訂正作業をユーザが行う際に帳票の読取画像に含まれる文字と文字認識結果に含まれる文字の画面への表示処理について図2に示すフローチャートを用いて説明する。
ユーザが処理対象とする帳票を画像形成装置1に読み取らせると、画像形成装置1は、スキャン機能により帳票の読取画像を形成する。画像取得部11は、その帳票の読取画像を画像形成装置1から取得する(ステップ101)。
続いて、帳票種別判別部12は、帳票の読取画像を帳票定義情報に含まれている各種帳票のフォームと照合することで、読み取った帳票の種別を判別する(ステップ102)。帳票の種別を判別し、その帳票種別の定義情報を参照することで、情報処理装置10は、読取画像のどの位置に処理対象とする文字(本実施の形態では、手書き文字を想定している)が記入されているのか、その記入されている領域(いわゆる記入欄)を特定できる。
従って、画像解析部13は読取画像を解析することによって、特定された領域内の画像を抽出する(ステップ103)。なお、帳票には、通常、複数の記入欄が設けられているが、各記入欄に対して同様の処理を行えばよいので、本実施の形態では、1つの記入欄に着目して説明する。具体的には、図3〜5に例示するように、氏名の記入欄を例にして説明する。なお、本実施の形態の特徴的な処理を説明するためにも、氏名等のように記入欄から抽出される文字は、一文字ではなく複数の文字から成る文字列とする。
画像解析部13は、読取画像から文字列を抽出すると、画像解析情報記憶部23に保存する。更に、画像解析部13は、文字列を構成する一文字毎に画像を切り出し、切り出した文字毎に文字の大きさを特定し、また各文字の間隔を特定して画像解析情報として画像解析情報記憶部23に保存する。画像解析情報については、更に後述する。
また、文字認識処理部14は、読取画像において文字列が記入されている領域に対し文字認識処理を実施して各文字の認識結果を得る(ステップ104)。更に、認識結果を構成する一文字毎に、確信度を算出する(ステップ105)。「確信度」とは、文字認識処理の結果の正当性を判定するための指標である。確信度は、従前からある手法を用いて算出する。確信度を示す値が大きいほど文字認識処理の処理結果、すなわち文字の認識結果が正しいと判断される。一方、確信度が小さいほど認識結果が怪しい、つまり誤認識である可能性が高くなる。文字認識処理部14は、文字認識結果に含まれる文字の並び順と、各文字、つまり、一文字ずつの認識結果と、当該一文字の確信度を対応付けして文字認識情報を生成して文字認識情報記憶部24に保存する。
なお、図2に示すフローチャートでは、画像解析部13が文字認識処理部14より先に処理するように図示しているが、文字認識処理部14が画像解析部13より先に処理してもよいし、画像解析部13と文字認識処理部14が同時並行して処理してもよい。
続いて、表示情報生成部15は、生成された画像解析情報及び文字認識情報に基づき表示情報を生成し、表示制御部162は、表示情報に基づき表示制御を行うが、この処理の内容について、図3〜図5に示す画面表示例を用いて説明する。
図3は、読取画像と文字認識結果が上下に並べて表示されたときの画面表示例を示す図である。図3において、表示領域31には文字の読取画像が、表示領域32には読取画像の文字の認識結果が、それぞれ表示される。表示情報生成部15は、文字認識情報記憶部24から各文字の確信度を取得し、各文字の確信度を予め設定されている閾値と比較し、閾値より低い確信度の文字を、確信度の低い文字として選定し、強調表示の対象とする。図3では、確信度の低い認識結果である文字33に加えて、当該文字33に対応する読取画像の文字34も強調表示の対象としている例を示している。図3では、強調表示の方法の一例として該当する文字33,34を枠で囲んでいる。強調表示の方法については、後述する。
従来においては、図3に例示するように確認訂正の対象となる文字33を強調表示することで、確信度が閾値以上の文字、すなわち確信度の高い文字と識別できるようにしている。しかしながら、文字33とこれに対応する文字34の位置がずれている。
手書き文字は、同じ文字列を構成する文字であっても文字の大きさや間隔が均一になるとは限らず、揃っていない場合がある。これに対し、文字認識結果は、コンピュータが表示する文字なので、文字幅が異なる可変幅フォントが存在するものの、基本的には文字列を情報処理して表示させる際、各文字の大きさや間隔は一定である。従って、図3に例示するように対応する文字33と文字34の組がずれた位置に表示される場合がある。図3では、文字数が少ないが、文字数が多い場合、表示領域32に改行して文字列を表示する場合、あるいは確信度の低い文字が多数存在する場合など、確信度の低い文字33に対応する読取画像の文字34がどれなのか、表示領域31において強調表示されている文字を見ても特定しづらい場合が発生しうる。
そこで、本実施の形態においては、文字認識処理による文字認識結果を確認する際、図3に例示するように読取画像に含まれる文字の間隔と認識結果に含まれる文字の間隔が一致していない場合、図5に示すように読取画像に含まれる各文字と当該文字の認識結果として得られた文字とが対応する位置にかつ文字の大きさを合わせて表示するようにしたことを特徴としている。
そのために、画像解析部13は、ステップ103において、図4に示すように文字列が横書きの場合、文字列を構成する一文字毎に画像を切り出すことによって一文字の画像を形成し、破線35で示すように読取画像の各文字の幅を求める。また、破線36で示すように各文字の間隔を求める。先頭文字の場合は、直前(つまり、左側)に文字が存在しないので記入欄との間隔を求める。また、各文字の大きさを求める。文字の大きさは、文字を囲む矩形の大きさを求めておけばよいが、矩形の幅は、前述した文字の幅と同じでよく、矩形の高さは記入欄の高さでよい。そして、画像解析部13は、文字列全体の読取画像に加えて、前述した各文字の画像や大きさ、また文字間隔に関する情報を画像解析情報として画像解析情報記憶部23に保存する。ここでは、横書きの場合を例にして説明したが、縦書きの場合も同様に対応することが可能である。
文字認識結果は、前述したようにコンピュータが表示する文字である。従って、文字の大きさや間隔は特に調整しない。もちろん、文字の大きさ、つまりフォントサイズは変更できるし、また、文字送りの幅も調整することは可能である。ただ、本実施の形態では、文字認識結果に含まれる各文字に読取画像の各文字を合わせるように表示させる。
すなわち、図5に示すように文字認識結果を表示領域32に表示する場合、表示情報生成部15は、読取画像と認識結果が上下に並べて表示される場合、表示領域32に表示される「て」、「す」、「と」、「太」、「朗」の各文字の上に、対応する文字「て」、「す」、「と」、「太」、「郎」が位置付けされるように読取画像の各文字を個々に位置合わせする(ステップ106)。このように処理することで、図3と図5を比較してみれば明らかなように、図5では、確信度の低い文字33の直上に対応する文字34が表示されることになる。つまり、対応する文字33,34の組が明らかになる。また、コンピュータが文字を表示するときのフォントサイズは既知の情報なので、ユーザが文字を比較しやすいように、表示情報生成部15は、読取画像の各文字を認識結果の文字の大きさに合わせるよう適宜拡縮して表示情報を生成する。
表示情報生成部15は、以上のように表示されたときの文字の位置合わせをすると、文字認識情報を参照し、認識結果に含まれる各文字の確信度を参照して、確信度の低い文字33を強調表示の対象として選定する(ステップ107)。これにより、表示制御部162は、生成された表示情報に従って、読取画像と認識結果とを上下に並べて表示させる(ステップ108)。そして、表示制御部162は、選定され確信度が低い文字33及びこれに対応する文字34を共に強調表示させる。
以上説明したように、本実施の形態によれば、読取画像に含まれる各文字と当該文字の認識結果として得られた文字とが対応する位置にかつ文字の大きさを合わせて表示させるようにしたので、文字認識結果の確認訂正作業を効率的に行うことができる。仮に、読取画像の文字数が多く、文字認識結果が改行されて表示領域32に表示されることになったとしても、確信度の低い文字に対応する文字は、確信度の低い文字の上方に位置することになるので、確信度の低い文字に対応する読取画像の文字を容易に見つけ出すことは可能となる。
ここで、強調表示について説明する。本実施の形態では、確信度の低い文字とこれに対応する読取画像の文字の双方を組にして強調表示させる。上記例では、該当する文字を枠で囲む強調表示の例を示したが、この例に限る必要はない。例えば、太字で表したり、文字サイズを拡大したりして、確信度の高い文字と見分けがつくように表示してもよい。あるいは、確信度の高い文字と表示色を変えてもよい。また、前述した強調表示の方法を組み合わせて表示させてもよい。
また、確信度の低い文字が複数存在する場合は、確信度の低い文字同士で枠の形状や表示色等強調表示の表示形態を異ならせて表示させてもよい。この場合、確信度の低い文字に対応する読取画像の文字は、対応する確信度の低い文字の表示形態に合わせることによって文字の組が特定しやすいように表示させるのが好適である。例えば、文字列を通常の黒色で表示させる場合、確信度の高い文字は通常の黒色で表示される。そして、確信度の低い1つの文字は赤色、他の1つの文字は緑色、他の1つの文字は青色などのように確信度の低い文字の中でも表示色を変える。
次に、本実施の形態において提供する付加的な機能について説明する。
図6は、読取画像の文字を表示する表示領域32の一部を拡大した図である。読取画像の文字と認識結果とが異なる場合、読取画像全体ではなく文字の異なる部分のみを強調表示させてもよい。
例えば、認識結果として得られた文字を画像化し、その画像と読取画像の文字とを比較する。図5には、「郎」を「朗」と誤認識している例が示されているが、この文字の組では、偏が一致していても旁が異なっている。そこで、表示情報生成部15は、対応する組の文字の画像を解析し、確信度の低い認識結果の文字画像と当該文字に対応する読取画像の文字画像と異なる部分を特定し、読取画像の文字におけるその特定した部分の文字色を他と異ならせることで強調表示させる。すなわち、通常の文字色が黒色の場合、「太」と「郎」の偏は黒色とし、「郎」の旁は赤色として表示させる。このように、読取画像と認識結果の各文字の異なる部分を抽出して強調表示させてもよい。
図7は、図5に示す表示画面において読取画像の文字にオンマウスされたときの画面表示例を示す図である。ユーザがマウスを操作するなどして、例えば「郎」という文字34にマウスを重ねると、図7に示すように、オンマウスされた文字34が拡大表示される。これにより、表示領域31に表示されている文字34の大きさでは認識しづらい場合に、手書きされている文字が視認しやすくなる。
なお、本実施の形態では、拡大表示させたい文字34そのものにオンマウスするというユーザ操作に応じて拡大表示するようにしたが、拡大表示させるための操作は、この例に限る必要はない。例えば、対応するに認識結果の文字33にオンマウスさせてもよいし、拡大表示させるための操作ボタンを設けて、その操作ボタンを操作させるようにしてもよい。
図8は、図5に示す表示画面において読取画像の文字が選択されたときの画面表示例を示す図である。図7では、「郎」という文字34をオンマウスすると、拡大表示しているが、オンマウスしてクリック操作をすると、編集モードに切り替わるようにしてもよい。図8では、「郎」という文字34がクリック操作され、文字34が選択されると、文字34に対応する認識結果の文字33、すなわち「朗」が選択されたこととなり、「朗」という文字が編集可能な状態になる。図8では、編集可能な状態であることでカーソル37が「朗」に対応させて示している。このようにして、認識結果として得られた文字をユーザに訂正させることができる。
ところで、図8を用いて説明した訂正作業では、ユーザは、読取画像の文字を見て正しい文字を手入力することになる。ただ、文字認識処理で間違いやすい文字というのは、ある程度決まっている。例えば、前述した「郎」と「朗」の他にも「萩」と「荻」などである。従って、表示情報生成部15は、候補文字情報を参照して、訂正対象の文字と置き換える候補となる文字、すなわち読取画像の文字を正しく認識したときの文字(以下、「正しい文字」)の候補を取得し、取得した正しい文字の候補を選択可能に一覧表示させてもよい。例えば、認識結果が右クリックされたときにプルダウンメニューにて正しい文字の候補を表示させる。この場合、ユーザは、正しい文字を手入力するのではなく、表示された候補の中から正しい文字を選択することになる。なお、表示される正しい文字の候補は、1つとは限らない。
例えば、正しい文字が漢字の場合、ユーザは、英字やひらがなを入力して漢字に変換することになるが、正しい文字の読み方がわからない場合、誤っているとわかっていてもその文字を訂正することができない。もちろん、候補となる文字の中に正しい文字が含まれているということが前提となるが、ユーザは、文字の候補の中から選択すればよいので、正しい文字の読み方がわからなくても誤った文字を訂正することが可能となる。
以上説明したように、本実施の形態によれば、文字認識結果の確認訂正作業を支援するための種々の機能を提供することができる。
上記実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また上記実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施の形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
1 画像形成装置、10 情報処理装置、11 画像取得部、12 帳票種別判別部、13 画像解析部、14 文字認識処理部、15 表示情報生成部、16 ユーザインタフェース(UI)処理部、21 帳票定義情報記憶部、22 候補文字情報記憶部、23 画像解析情報記憶部、24 文字認識情報記憶部、161 操作受付部、162 表示制御部。
Claims (8)
- プロセッサを備え、
前記プロセッサは、
複数の文字を含む画像と、前記画像に対する文字認識処理による認識結果と、を取得し、
前記画像の文字認識処理による文字認識結果を確認する際、前記画像に含まれる文字の間隔と前記認識結果に含まれる文字の間隔が一致していない場合に前記画像に含まれる各文字と当該文字の認識結果として得られた文字とが対応する位置にかつ文字の大きさを合わせて表示させる、
ことを特徴とする情報処理装置。 - 前記プロセッサは、
前記認識結果として得られた各文字の確信度を取得し、
前記確信度が閾値に満たない文字と当該文字に対応する文字の画像との組を強調表示する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記強調表示は、前記確信度が前記閾値に満たない文字と当該文字に対応する文字の画像との双方を、
太字で表示する、
文字サイズを拡大する、
枠線で囲う、
または、
前記確信度が前記閾値以上となる文字と当該文字に対応する文字の画像と表示色を変える、
ことの少なくとも1つである、
ことを特徴とする請求項2に記載の情報処理装置。 - 前記強調表示は、前記確信度が前記閾値に満たない文字と当該文字に対応する文字の画像と異なる部分のみに対して行う、ことを特徴とする請求項2に記載の情報処理装置。
- 前記プロセッサは、前記確信度が前記閾値に満たない文字に対応する文字の画像に対する操作に応じて当該文字の画像を拡大表示させる、ことを特徴とする請求項1に記載の情報処理装置。
- 前記プロセッサは、前記確信度が前記閾値に満たない文字に対応する文字の画像が選択されると、当該文字の画像の認識結果として得られた文字を編集可能に表示させる、ことを特徴とする請求項1に記載の情報処理装置。
- 前記プロセッサは、
選択された文字の認識結果として得られた文字と置き換える候補となる文字を取得し、
取得した文字を選択可能に表示させる、
ことを特徴とする請求項6に記載の情報処理装置。 - コンピュータに、
複数の文字を含む画像と、前記画像に対する文字認識処理による認識結果と、を取得する機能、
前記画像の文字認識処理による文字認識結果を確認する際、前記画像に含まれる文字の間隔と前記認識結果に含まれる文字の間隔が一致していない場合に前記画像に含まれる各文字と当該文字の認識結果として得られた文字を対応する位置にかつ文字の大きさを合わせて表示させる機能、
を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020040977A JP2021144307A (ja) | 2020-03-10 | 2020-03-10 | 情報処理装置及びプログラム |
US16/931,396 US11348331B2 (en) | 2020-03-10 | 2020-07-16 | Information processing apparatus and non-transitory computer readable medium |
CN202010842353.1A CN113378839A (zh) | 2020-03-10 | 2020-08-20 | 信息处理装置、信息处理方法及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020040977A JP2021144307A (ja) | 2020-03-10 | 2020-03-10 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021144307A true JP2021144307A (ja) | 2021-09-24 |
Family
ID=77568961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020040977A Pending JP2021144307A (ja) | 2020-03-10 | 2020-03-10 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11348331B2 (ja) |
JP (1) | JP2021144307A (ja) |
CN (1) | CN113378839A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022018202A (ja) * | 2020-07-15 | 2022-01-27 | 株式会社リコー | 情報処理装置およびプログラム |
JP2022097259A (ja) * | 2020-12-18 | 2022-06-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
US11960823B1 (en) * | 2022-11-10 | 2024-04-16 | Adobe Inc. | Missing glyph replacement system |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07107700B2 (ja) * | 1987-04-28 | 1995-11-15 | 松下電器産業株式会社 | 文字認識装置 |
JPH05120471A (ja) | 1991-10-28 | 1993-05-18 | Sharp Corp | 文字認識装置 |
JPH06131493A (ja) | 1992-10-22 | 1994-05-13 | Matsushita Electric Ind Co Ltd | 文字認識装置及び文字認識方法 |
US6246794B1 (en) * | 1995-12-13 | 2001-06-12 | Hitachi, Ltd. | Method of reading characters and method of reading postal addresses |
JP3639126B2 (ja) * | 1998-01-22 | 2005-04-20 | 富士通株式会社 | 住所認識装置及び住所認識方法 |
JP2002007951A (ja) | 2000-06-19 | 2002-01-11 | Hitachi Ltd | 帳票入力方法及びその実施装置並びにその処理プログラムを記録した記録媒体 |
JP2006196976A (ja) | 2005-01-11 | 2006-07-27 | Canon Inc | Ocrによる自動清書機能を持つ複写システム |
JP5455038B2 (ja) * | 2009-12-28 | 2014-03-26 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP5982844B2 (ja) * | 2012-02-06 | 2016-08-31 | オムロン株式会社 | 文字読取用のプログラムおよび文字読取装置 |
JP6078953B2 (ja) * | 2012-02-17 | 2017-02-15 | オムロン株式会社 | 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム |
US9501853B2 (en) * | 2015-01-09 | 2016-11-22 | Adobe Systems Incorporated | Providing in-line previews of a source image for aid in correcting OCR errors |
RU2621601C1 (ru) * | 2016-06-27 | 2017-06-06 | Общество с ограниченной ответственностью "Аби Девелопмент" | Устранение искривлений изображения документа |
JP2020021273A (ja) * | 2018-07-31 | 2020-02-06 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置 |
US10990814B2 (en) * | 2018-09-21 | 2021-04-27 | Microsoft Technology Licensing, Llc | Converting an image into a structured table |
-
2020
- 2020-03-10 JP JP2020040977A patent/JP2021144307A/ja active Pending
- 2020-07-16 US US16/931,396 patent/US11348331B2/en active Active
- 2020-08-20 CN CN202010842353.1A patent/CN113378839A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN113378839A (zh) | 2021-09-10 |
US11348331B2 (en) | 2022-05-31 |
US20210287029A1 (en) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021144307A (ja) | 情報処理装置及びプログラム | |
JP5699623B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、および、プログラム | |
US10142499B2 (en) | Document distribution system, document distribution apparatus, information processing method, and storage medium | |
JP2018128996A (ja) | 情報処理装置、制御方法、およびプログラム | |
US11836442B2 (en) | Information processing apparatus, method, and storage medium for associating metadata with image data | |
JP2015176267A (ja) | 画像処理装置、画像処理方法、画像処理プログラム | |
US11710329B2 (en) | Image processing apparatus with automated registration of previously encountered business forms, image processing method and storage medium therefor | |
US10706581B2 (en) | Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor | |
JP2018025885A (ja) | 画像処理装置 | |
US8355577B2 (en) | Image processing apparatus and method | |
JP2013171309A (ja) | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム | |
JP2010061471A (ja) | 文字認識装置およびプログラム | |
US20190057276A1 (en) | Image analysis apparatus, image analysis method, and non-transitory computer readable medium | |
JP7241506B2 (ja) | 光学式文字認識結果の修正支援装置および修正支援用プログラム | |
JP6302317B2 (ja) | 帳票フォーマット情報登録方法及びシステム並びにプログラム | |
US20090245659A1 (en) | Fast Key-In for Machine-Printed OCR-based Systems | |
US20220309274A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
JP2013149210A (ja) | 画像処理プログラム、画像処理方法、及び画像処理装置 | |
JP7031465B2 (ja) | 情報処理装置及びプログラム | |
JP7468004B2 (ja) | 帳票処理装置及びプログラム | |
US20220311894A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
JP2005352735A (ja) | 文書ファイル作成支援装置、文書ファイル作成支援方法及びそのプログラム | |
JP2006277149A (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
US11782990B2 (en) | Document processing apparatus and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240611 |