JP2020071619A - 光学式文字認識結果の修正支援装置および修正支援用プログラム - Google Patents

光学式文字認識結果の修正支援装置および修正支援用プログラム Download PDF

Info

Publication number
JP2020071619A
JP2020071619A JP2018204444A JP2018204444A JP2020071619A JP 2020071619 A JP2020071619 A JP 2020071619A JP 2018204444 A JP2018204444 A JP 2018204444A JP 2018204444 A JP2018204444 A JP 2018204444A JP 2020071619 A JP2020071619 A JP 2020071619A
Authority
JP
Japan
Prior art keywords
area
accuracy
correction
original image
distribution map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018204444A
Other languages
English (en)
Other versions
JP7241506B2 (ja
Inventor
豊 名護屋
Yutaka Nagoya
豊 名護屋
甲 島澤
Ko Shimazawa
甲 島澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wingarc1st Inc
Original Assignee
Wingarc1st Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wingarc1st Inc filed Critical Wingarc1st Inc
Priority to JP2018204444A priority Critical patent/JP7241506B2/ja
Priority to US16/666,861 priority patent/US11055551B2/en
Publication of JP2020071619A publication Critical patent/JP2020071619A/ja
Application granted granted Critical
Publication of JP7241506B2 publication Critical patent/JP7241506B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】誤認識が起こりやすい様々なケースに対応して、テキストデータの修正作業において注意すべき領域をユーザが容易に判断できるようにする。【解決手段】元画像から変換されたテキストデータに対する修正箇所の領域情報を修正履歴情報として記録する修正履歴記録部11と、修正履歴情報に基づいて、元画像のレイアウト上の個々の個別領域ごとに光学式文字認識の正確度を算出する正確度算出部12と、正確度の大きさの違いを個別領域ごとの表示態様の違いで表した分布図画像を生成して表示する分布図画像生成部13および分布図画像表示部14とを備え、元文書の書式やOCR装置の状態などを含む様々なケースに起因して、元画像のレイアウト上の決まった領域における文字認識率が低下することがあるという傾向を反映して個別領域ごとに色分けした分布図画像を生成して表示することができるようにする。【選択図】図1

Description

本発明は、光学式文字認識結果の修正支援装置および修正支援用プログラムに関し、特に、光学式文字認識(OCR)において誤認識されたデータの修正作業を支援するための技術に関するものである。
画像の中に含まれる文字を認識してテキストデータ(コンピュータが利用できる文字コード)に変換するOCR(Optical Character Recognition:光学的文字認識)と呼ばれる技術が広く使われている。画像データとしての文字をテキストデータとしての文字に変換できるといっても、100%正確に文字認識されるわけではない。そのため、誤認識された文字については手作業で修正する必要がある。従来、OCRの文字認識結果に基づくテキストデータの修正作業を支援するシステムが知られている(例えば、特許文献1参照)。
特許文献1に記載の文字認識訂正装置では、OCR出力の元となる文書イメージ(スキャン画像)を表示し、表示された文書イメージのある領域が選択されると、選択された領域に対応するOCR出力のテキストをポップアップメニュー内に表示する。また、OCR出力内の語に対応する文書イメージの領域に対して認識確度パラメータを決定し、それぞれの認識確度パラメータを表すようにヒートマップ表示する(例えば種々の色で強調する)。
具体的には、個々の語に関して認識結果が正しい結果である可能性を示す認識確度パラメータを複数の閾値と比較し、その比較結果に応じて表示色を決めて文書イメージの領域を表示することにより、認識された語のヒートマップを形成する。認識確度パラメータは、例えばあるフォントの文字「rn」は文字「m」と認識され得る可能性があるとして、その文字対に対して60%の認識確度パラメータが決定されるといったように、文字の組み合わせ等に応じてあらかじめ想定されている値である。このように、各語の認識確度パラメータに基づいて文書イメージ上にヒートマップを表示することにより、OCR出力について文書イメージの最も問題の有りそうな部分にユーザを導くことができるとされている。
特開平11−102414号公報
上記特許文献1に記載のヒートマップ表示により、スキャン画像上において認識確度の悪い文字のある場所が可視化されるので、OCRの文字認識結果に基づき変換されたテキストデータの修正作業において注目すべき箇所を容易に把握することが可能となる。
特許文献1では、個々の語について誤認識される可能性として決定された認識確度パラメータに基づいてヒートマップ表示を行っているが、誤認識が発生する要因は、特許文献1に記載されているような文字の組み合わせや語そのものの性質ばかりではない。例えば、カラー文字や文字のかすれ、文字が斜めになっている、文字間隔が詰まっている、文字が網掛けされている、スキャン画像に汚れがある、手書きの文字なども、誤認識が発生しやすいケースである。しかしながら、特許文献1に記載の技術では、これらの誤認識が起こりやすい様々なケースに対応してヒートマップ表示をすることができないという問題があった。
本発明は、このような問題を解決するために成されたものであり、誤認識が起こりやすい様々なケースに対応して、テキストデータの修正作業において注意すべき度合を領域ごとに区別して表した分布図画像を提供できるようにすることを目的とする。
上記した課題を解決するために、本発明では、元画像に対する光学式文字認識の結果として出力されたテキストデータの中から特定箇所がユーザにより修正された場合、その修正箇所が元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として記録する。そして、その修正履歴情報に基づいて、元画像のレイアウト上の個々の個別領域ごとに光学式文字認識の正確度を算出し、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した分布図画像を生成して表示するようにしている。
上記のように構成した本発明によれば、元画像に対して光学式文字認識が行われ、その結果として出力されたテキストデータの中から特定箇所がユーザにより修正される都度、その修正箇所が元画像のレイアウト上でどの領域に当たるかを示した領域情報が修正履歴情報として逐次記録されていく。ここで、光学式読み取り(スキャン)によって元画像が生成される前の原稿の書式や、原稿をスキャンして元画像を生成する装置の状態などを含む様々なケースに起因して、元画像のレイアウト上の決まった領域における文字認識率が低下することがある。この場合、元画像上の当該決まった領域においてテキストデータが修正される回数は多くなり、そうでない領域においてテキストデータが修正される回数は少なくなる傾向が生じる。本発明によれば、このような傾向を反映した光学式文字認識の正確度が元画像のレイアウト上の個々の個別領域ごとに算出され、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した分布図画像が生成される。これにより、本発明によれば、誤認識が起こりやすい様々なケースに対応して、テキストデータの修正作業において注意すべき度合を領域ごとに区別して表した分布図画像を提供することができる。
第1の実施形態による修正支援装置を含む文字認識装置の機能構成例を示すブロック図である。 文字認識装置のハードウェア構成例を示す図である。 元画像上に設定される個別領域の一例を示す図である。 分布図画像表示部の制御により表示装置に表示される分布図画像の一例を示す図である。 第2の実施形態による修正支援装置を含む文字認識装置の機能構成例を示すブロック図である。 認識結果表示部の制御により表示装置に表示される情報の一例を示す図である。 第3の実施形態による修正支援装置を含む文字認識装置の機能構成例を示すブロック図である。 修正用画面表示部の制御により表示装置に表示される情報の一例を示す図である。 修正用画面表示部の制御により表示装置に表示される情報の別例を示す図である。
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。図1は、第1の実施形態による光学式文字認識結果の修正支援装置(以下、単に修正支援装置という)10Aを含む文字認識装置100の機能構成例(一部にハードウェア構成を含む)を示すブロック図である。図2は、文字認識装置100のハードウェア構成例を示す図である。修正支援装置10Aは、光学式文字認識によって元画像に含まれる文字から変換されたテキストデータの修正作業を支援する装置である。
図2に示すように、文字認識装置100は、操作部101、スキャナ102、OCR装置103、表示装置104、マイコン105および記憶装置106を備えて構成されている。
操作部101は、キーボード、マウス、タッチパネル等から成り、ユーザがこれらを操作することによって文字認識装置100に対して種々の指示を与えることができるようになっている。スキャナ102は、光学的読取装置であり、文書等の紙媒体の原稿を光学的に読み取って画像データ化するものである。スキャナ102により生成される画像データは、特許請求の範囲の「元画像」に相当する。
OCR装置103は、スキャナ102により生成された元画像に含まれる文字を認識し、画像としての文字(以下、文字画像という)を文字コード(以下、文字テキストという)に変換することによってテキストデータを生成するものである。表示装置104は、例えば液晶表示装置、有機EL表示装置などのディスプレイであり、各種情報を表示する。例えば、表示装置104は、スキャナ102により生成された元画像や、OCR装置103により生成されたテキストデータなどを表示する。また、表示装置104は、後述する各種画面を表示する。
マイコン105は、上述した操作部101、スキャナ102、OCR装置103および表示装置104の動作を制御する。また、マイコン105は、図1に示す修正支援装置10Aの動作を制御する。記憶装置106は、各種データを記憶する不揮発性の記憶媒体であり、例えばハードディスク、半導体メモリ等により構成される。
次に、第1の実施形態による修正支援装置10Aを含む文字認識装置100の機能構成を説明する。図1に示すように、文字認識装置100は、その機能構成として、修正履歴記録部11、正確度算出部12、分布図画像生成部13、分布図画像表示部14、修正履歴記憶部15、元画像記憶部21、テキスト記憶部22および修正処理部23を備えている。このうち、修正履歴記録部11、正確度算出部12、分布図画像生成部13、分布図画像表示部14および修正履歴記憶部15が、第1の実施形態による修正支援装置10Aが備える機能構成である。
修正履歴記録部11、正確度算出部12、分布図画像生成部13、分布図画像表示部14および修正処理部23は、実際には図2に示したマイコン105のCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。なお、これらの機能の全部または一部をハードウェアまたはDSP(Digital Signal Processor)により構成することも可能である。修正履歴記憶部15、元画像記憶部21およびテキスト記憶部22は、図1に示した記憶装置106が備える機能構成である。
元画像記憶部21は、スキャナ102により生成された元画像(文書等の読み取り原稿の画像データ)を記憶する。ここで、元画像記憶部21は、原稿1枚につき1つの元画像を記憶する。
テキスト記憶部22は、OCR装置103により生成されたテキストデータを記憶する。ここで、テキスト記憶部22は、1つの元画像につき1ページのテキストデータを記憶する。1ページのテキストデータは、元画像のレイアウトを模したレイアウト情報を有し、元画像に含まれる文字画像の位置とほぼ同位置に文字テキストを配したものである。
テキスト記憶部22に記憶されるテキストデータは、元画像における文字画像の位置情報(例えば、元画像の1つの角を原点とする2次元座標平面における座標値)と、文字画像から変換された文字テキストとを関連付ける紐付け情報を含んでいる。すなわち、OCR装置103が元画像に含まれる文字画像を認識して文字テキストに変換する際に、元画像内における文字画像の位置情報を取得し、これを文字テキストと関連付けてテキスト記憶部22に記憶する。
修正処理部23は、テキスト記憶部22に記憶されたテキストデータを、ユーザからの指示に応じて修正する。OCR装置103による文字認識の認識率(誤認識をすることなく正しい文字テキストに変換できる確率)を100%にすることは困難であり、少なからず誤認識による間違った文字テキストがテキストデータ内に含まれている可能性がある。ユーザは、例えばテキストデータを表示装置104の画面に表示させ、手元にある原稿と比較して誤認識された文字テキストを発見し、操作部101を操作することによって必要な修正を行う。
修正処理部23により文字テキストの修正が行われた場合、その修正を反映した状態でテキストデータが更新され、更新されたテキストデータがテキスト記憶部22に記憶される。このとき、更新前のテキストデータは、更新後のテキストデータによって上書きされる。
修正履歴記録部11は、テキスト記憶部22に記憶されたテキストデータ(特許請求の範囲の「光学式文字認識の結果として出力されたテキストデータ」に相当)の中から特定の文字テキスト(特許請求の範囲の「特定箇所」に相当)がユーザにより修正された場合、その修正箇所が元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として修正履歴記憶部15に記録する。
上述したように、テキストデータは、元画像における文字画像の位置情報と、当該文字画像から変換された文字テキストとを関連付ける紐付け情報を含んでいる。従って、修正処理部23により何れかの文字テキストが修正された場合、その文字テキストに対応する紐付け情報により、元画像における文字画像の位置情報を取得することが可能である。修正履歴記録部11は、この位置情報を修正箇所の領域情報として検出し、検出した領域情報を修正履歴情報として修正履歴記憶部15に記憶させる。
複数枚の原稿をOCR処理することによって複数のテキストデータがテキスト記憶部22に記憶され、それぞれのテキストデータに対して修正処理部23により必要な修正を行っていくと、テキストデータ内における修正箇所を示す領域情報が修正履歴記憶部15に逐次記憶されていく。ここで、複数のテキストデータにおいて同じ箇所が修正されると、同じ修正箇所を示す領域情報が修正履歴記憶部15に蓄積されていく。
正確度算出部12は、修正履歴記憶部15に記憶された修正履歴情報に基づいて、元画像のレイアウト上の個々の個別領域ごとに光学式文字認識の正確度を算出する。ここで、個別領域とは、元画像の全体領域の中に設定した複数の小領域をいう。
図3は、個別領域の一例を示す図である。個別領域は、図3(a)に示すように、元画像の全体領域を縦方向にm分割および横方向にn分割した場合における個々の分割領域とすることが可能である。分割の仕方は任意であり、分割領域の大きさは任意に設計することが可能である。図3(a)のように個別領域を設定した場合、個々の個別領域は、互いに隣接した連続領域となる。
また、個別領域は、図3(b)に示すように、元画像の全体領域の中に分散して設定した非連続な小領域とすることも可能である。例えば、元画像に含まれる文字画像が存在する領域を個別領域として設定することが可能である。定型のフォーマットを有する複数の原稿をOCR処理するような場合、それらの原稿から生成される複数の元画像は、同じ位置に文字画像の領域が存在する。このような文字画像の領域は元画像内の離散した位置に存在し得るが、これを個別領域とすることも可能である。
正確度算出部12は、修正履歴記憶部15に記憶された修正履歴情報に基づいて、以上のようにして元画像のレイアウト上に設定された個々の個別領域ごとに、光学式文字認識の正確度を算出する。正確度とは、個別領域に対応する位置において文字テキストの修正がどの程度行われたかに基づいて算出される指標であり、修正の行われた回数が多いほど正確度の値は小さくなり、修正の行われた回数が少ないほど正確度の値は大きくなる。
例えば、正確度算出部12は、テキスト記憶部22に記憶されているテキストデータの数を母数として、修正が行われた回数の割合の逆数を正確度として算出する。個々の個別領域において文字テキストの修正が行われた回数は、修正履歴記憶部15に記憶されている修正箇所の領域情報に基づいて、同じ領域情報が記憶されている数を集計することによって求めることが可能である。なお、修正の行われた回数が0回の場合は、逆数をとると値は∞となるが、この場合に正確度の値を∞のままとしてもよいし、所定の最高値に設定してもよい。
なお、ここではテキスト記憶部22に記憶されているテキストデータの数を母数として正確度を算出することとしたが、本発明はこれに限定されない。例えば、テキスト記憶部22に記憶されているテキストデータのうち、ある特定の定型フォーマットの原稿から生成されたテキストデータの数を母数として正確度を算出するようにしてもよい。この場合、例えばスキャナ102により原稿を読み取ってOCR装置103によりテキストデータを生成する際に、特定の定型フォーマットの原稿であることを操作部101の操作によって指定し、これにより生成されたテキストデータを他と識別可能な状態にしてテキスト記憶部22に記憶させる。このようにすれば、特定の定型フォーマットの原稿から生成されたテキストデータを対象として正確度を算出することが可能となる。
ここで、図3(b)のように文字画像の位置に個別領域を設定した場合、個々の個別領域の位置と、個々の文字テキストが配置されている位置とは一致する。従って、修正履歴記憶部15に記憶されている修正箇所の領域情報に基づいて、同じ領域情報が記憶されている数を集計した値(その領域情報における文字テキストの修正回数)が、対応する個別領域における文字テキストの修正回数としてそのまま使える値となり、これをもとに個別領域ごとの正確度を算出することが可能である。
一方、図3(a)のように連続的な分割領域を個別領域として設定した場合、個々の個別領域の位置と、個々の文字テキストが配置されている位置(すなわち、修正履歴記憶部15に記憶されている修正箇所の領域情報で示される位置)とが必ずしも一致するとは限らない。この場合は、修正箇所の領域情報に基づいて算出される正確度を、当該修正箇所の領域情報で示される位置と少なくとも一部が重なる1つまたは複数の個別領域の正確度であるとみなすようにしてよい。
分布図画像生成部13は、正確度算出部12により個々の個別領域ごとに算出された正確度に基づいて、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した分布図画像を生成する。例えば、布図画像生成部13は、元画像の全体レイアウトにおいて、当該全体レイアウトに含まれる個々の個別領域ごとに正確度算出部12により算出された正確度に基づいて、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した全体分布図画像を生成する。
個々の個別領域ごとに変える表示態様は、例えば表示色である。例えば、分布図画像生成部13は、正確度の大きさを2つの閾値によって3つに分類し、分類に応じて異なる表示色で個々の個別領域を表した部分布図画像を生成する。具体的には、正確度が最も大きい分類に属する個別領域を青色、正確度が中程度の分類に属する個別領域を黄色、正確度が最も小さい分類に属する個別領域を赤色などで表す。正確度が最も大きい分類に属する個別領域を無色(背景色と同色)としてもよい。なお、個別領域ごとに変える表示態様として、表示色に代えて、同色の表示濃度や、網掛けの種類などを用いてもよい。
ここでは、布図画像生成部13は、元画像の全体レイアウトに対応した全体分布図画像を生成する例について説明したが、本発明はこれに限定されない。例えば、布図画像生成部13は、操作部101の操作によって元画像の全体レイアウトの中の指定された一部領域において、当該指定された一部領域に含まれる個々の個別領域ごとに正確度算出部12により算出された正確度に基づいて、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した一部分布図画像を生成するようにしてもよい。
分布図画像表示部14は、分布図画像生成部13により生成された分布図画像を表示装置104に表示させる。例えば、ユーザが操作部101を操作して分布図画像の表示を修正支援装置10に指示したときに、分布図画像生成部13が分布図画像を生成し、生成された分布図画像を分布図画像表示部14が表示装置104に表示させる。
ここで、分布図画像表示部14は、個別領域ごとに表示色を変えただけの色分布画像(ヒートマップ画像)を表示させるようにしてもよいし、当該色分布画像を半透化処理して元画像上に重畳して表示させるようにしてもよい。また、分布図画像表示部14が色分布画像を半透化処理して元画像上に重畳する形態ではなく、分布図画像生成部13が元画像自体に色分布を与える加工処理を行うことにより、元画像上において色分布を含む加工画像を生成するようにしてもよい。
図4は、表示装置104に表示される分布図画像の一例を示す図である。図4は、図3(a)のように個別領域を設定した場合に表示される全体分布図画像(ヒートマップ画像)の例を示している。また、図4では、正確度が最も大きい分類に属する個別領域を無色とし、正確度が中程度の分類に属する個別領域と、正確度が最も小さい分類に属する個別領域とを異なる色で表示した分布図画像の例を示している。
ユーザは、この分布図画像を見ることにより、過去の修正履歴を反映した結果として、どの領域の正確度が低くなっているか、つまりどの領域に誤認識が多く発生しているかを一見して把握することができる。誤認識が多く発生している領域を把握できれば、修正処理部23によってテキストデータの修正を行う際に、表示装置104に表示されたテキストデータと手元の原稿とのどの領域を重点的に対比して確認すればよいかの目安を得ることができ、修正作業を効率的に行うことができるようになる。
なお、文字画像の内容が異なる複数の原稿をOCR処理しているにもかかわらず、ある特定の領域において誤認識が多くなるケースとして、種々の要因が考えられる。例えば、定型フォーマットの原稿をOCR処理した場合において、特定の領域について、文字が黒以外の色になっている、文字が背景色に近い色になっている、文字が斜めになっている、手書き文字になっているといったように、スキャンによって元画像が生成される原稿の書式に起因して、元画像のレイアウト上の決まった領域における文字認識率が低下することがある。
また、定型フォーマットの原稿か否かにかかわらず、スキャナ102やOCR装置103の状態などに起因して、元画像のレイアウト上の決まった領域における文字認識率が低下することもある。例えば、原稿がFAXにより打ち出された書類であるために、特定の領域の文字が頻繁にかすれる場合があり得る。また、スキャナ102の原稿台に傷や汚れが付いているために、元画像上の特定の領域に、常に決まった形のドット群が形成されるといったことも発生し得る。
以上のような場合、元画像上の決まった領域において比較的多くの誤認識が発生し、当該領域にある文字画像から変換された文字テキストが修正される回数は多くなり、そうでない領域にある文字画像から変換された文字テキストが修正される回数は少なくなる傾向が生じる。本実施形態によれば、このような傾向を反映した正確度が元画像のレイアウト上の個々の個別領域ごとに算出され、正確度の大きさの違いを個別領域ごとの表示色の違いで表した分布図画像が生成される。これにより、本実施形態によれば、誤認識が起こりやすい様々なケースに対応して、テキストデータの修正作業において注意すべき度合を領域ごとに区別して表した分布図画像をユーザに提供することができる。ユーザは、この分布図画像を見ることにより、テキストデータの修正作業を効率的に行うことができるようになる。
(第2の実施形態)
次に、本発明の第2の実施形態を図面に基づいて説明する。図5は、第2の実施形態による修正支援装置10Bを含む文字認識装置100の機能構成例(一部にハードウェア構成を含む)を示すブロック図である。なお、この図5において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
図5に示すように、第2の実施形態による修正支援装置10Bは、その機能構成として、認識結果表示部16を更に備えている。この認識結果表示部16は、実際には図2に示したマイコン105のCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
認識結果表示部16は、元画像記憶部21に記憶されている元画像を表示装置104に表示し、表示された元画像上の任意の一部領域の指定を受け付けて、指定された一部領域における光学式文字認識の結果である部分テキストデータを別画面表示する。ここで、表示された元画像上の任意の一部領域の指定は、ユーザが操作部101を操作することによって行う。また、部分テキストデータは、テキスト記憶部22に記憶されたテキストデータを用いて生成する。
上述したように、テキスト記憶部22に記憶されているテキストデータは、元画像のレイアウトを模したレイアウト情報を有している。従って、認識結果表示部16は、元画像上における任意の一部領域の指定を受け付けると、元画像上で指定された一部領域に対応するテキストデータ上の領域をレイアウト情報から特定することができ、当該特定した一部領域のテキストデータを部分テキストデータとして生成することが可能である。認識結果表示部16は、こうして生成した部分テキストデータを表示装置104に表示させる。例えば、表示装置104に表示されている元画像の上に重ねて、部分テキストデータをポップアップ表示させる。
認識結果表示部16は、部分テキストデータを表示装置104に表示させる際に、指定された一部領域に含まれる個々の個別領域ごとに正確度算出部12により算出された正確度に基づいて、別画面表示(ポップアップ表示)上において、正確度の大きさの違いを個々の個別領域に対応するテキスト領域ごとの表示態様の違いで表した表示を行う。
個別領域に対応するテキスト領域とは、元画像上に設定された個別領域と同様にテキストデータ上に設定した領域のことをいう。例えば、図3(a)のように元画像上に個別領域を設定した場合は、テキストデータ上にも図3(a)と同様に設定した個々の領域がテキスト領域である。一方、図3(b)のように元画像上に個別領域を設定した場合は、テキストデータ上にも図3(b)と同様に設定した個々の領域がテキスト領域である。例えば、個々のテキスト領域をテキストボックスとして設定し、そのボックス内の表示色を正確度に応じて変えるようにする。なお、テキスト領域に対する表示色の設定方法はこれに限定されない。
図6は、認識結果表示部16の制御により表示装置104に表示される情報の一例を示す図である。図6において、符号60で示す領域は、元画像が表示されている領域(例えば、表示装置104の表示画面全体)である。符号61で示す領域は、元画像上でユーザにより指定された一部領域である。符号62で示す領域は、元画像上で指定された一部領域61に対応して表示された部分テキストデータのポップアップ画面である。なお、ここでは領域60における元画像の具体的な描画については図示を省略している。また、ポップアップ画面62については図示を簡略化している。
ここでは、図3(a)のように個別領域を設定した場合に表示されるポップアップ画面62の例を示している。すなわち、認識結果表示部16は、図3(a)のように元画像の全体領域に対して設定された個別領域のうち、元画像上で指定された一部領域61に含まれる個別領域について正確度算出部12により算出された正確度に基づいて、個別領域に対応するテキスト領域ごとに表示色を変えた分布図画像を生成し、これをポップアップ画面62に表示している。
ユーザは、ポップアップ画面62に表示された部分テキストデータ上の文字テキストを、当該ポップアップ画面62上で直接修正することが可能である。このとき、ポップアップ画面62上では、過去の修正履歴を反映した結果として個々のテキスト領域が色分け表示されているので、どのテキスト領域の正確度が低くなっているか、つまりどのテキスト領域に誤認識が多く発生しているかを一見して把握することができる。これにより、ユーザは、修正処理部23によってポップアップ画面62上の部分テキストデータの修正を行う際に、ポップアップ画面62と手元の原稿とのどの領域を重点的に対比して確認すればよいかの目安を得ることができ、修正作業を効率的に行うことができるようになる。
なお、操作部101における特定の操作(例えば、キーボード上の特定キーの操作など)によって、ポップアップ画面62の表示/非表示(図6(a)に示す非表示の状態と、図6(b)に示す表示の状態)をトグル的に切り替えられるようにしてもよい。このようにすれば、ポップアップ画面62に表示された部分テキストデータの修正を行う際に、部分テキストデータを手元の原稿と比較する必要がなく、ポップアップ画面62の表示/非表示をトグル的に切り替えながら部分テキストデータと元画像とを対比することができるので、修正作業を更に効率的に行うことができるようになる。
(第3の実施形態)
次に、本発明の第3の実施形態を図面に基づいて説明する。図7は、第3の実施形態による修正支援装置10Cを含む文字認識装置100の機能構成例(一部にハードウェア構成を含む)を示すブロック図である。なお、この図7において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
図7に示すように、第3の実施形態による修正支援装置10Cは、その機能構成として、修正用画面表示部17を更に備えている。この修正用画面表示部17は、実際には図2に示したマイコン105のCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
修正用画面表示部17は、元画像上の任意の一部領域の指定を受け付けて、指定された一部領域の部分元画像と、当該指定された一部領域における光学式文字認識の結果である部分テキストデータとを並べて成る修正用画面を表示する。ここで、元画像上の任意の一部領域の指定は、ユーザが操作部101を操作することによって行う。また、部分元画像は、元画像記憶部21に記憶された元画像を用いて生成し、部分テキストデータは、テキスト記憶部22に記憶されたテキストデータを用いて生成する。
修正用画面表示部17は、指定された一部領域に含まれる個々の個別領域ごとに正確度算出部12により算出された正確度に基づいて、修正用画面における一部領域の元画像上において、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した表示を行う。例えば、修正用画面表示部17は、正確度に応じて個別領域ごとに表示色を変えた色分布画像を生成し、当該色分布画像を半透化処理して部分元画像上に重畳して表示させる。あるいは、正確度に応じて個別領域ごとに表示色を変えた部分元画像を生成して表示させるようにしてもよい。
図8は、修正用画面表示部17の制御により表示装置104に表示される情報の一例を示す図である。なお、この図8において、図6に示した要素と同一の要素には同一の符号を付している。図8(a)は、図6(a)と同じ状態を示している。
図8(b)は、元画像上で指定された一部領域61に対応して表示される修正用画面80を示している。当該修正用画面80において、左側の領域81には、元画像上でユーザにより指定された一部領域61に対応する部分元画像が表示されている。また、右側の領域82には、指定された一部領域61に対応する部分テキストデータが表示されている。このうち、左側の領域81に表示されている部分元画像に関しては、一部領域61に含まれる個々の個別領域ごとに算出された正確度の大きさの違いを表示色の違いで表した表示がなされている。なお、右側の領域82に表示されている部分テキストデータにおいて、個々のテキスト領域ごとに正確度の大きさの違いを表示色の違いで表すようにしてもよい。
ここでは、図3(a)のように個別領域を設定した場合の表示例を示している。すなわち、修正用画面表示部17は、図3(a)のように元画像の全体領域に対して設定された個別領域のうち、元画像上で指定された一部領域61に含まれる個別領域について正確度算出部12により算出された正確度に基づいて、個別領域ごとに表示色を変えた分布図画像を生成し、これを半透化処理して部分元画像に重畳して表示している。あるいは、正確度に応じて個別領域ごとに表示色を変えた部分元画像を生成して表示させるようにしてもよい。
ユーザは、修正用画面80の右側の領域82に表示された部分テキストデータ上の文字テキストを直接修正することが可能である。このとき、修正用画面80の左側の領域81では、過去の修正履歴を反映した結果として個々の個別領域を色分けした状態で部分元画像が表示されているので、ユーザは、どの領域の正確度が低くなっているか、つまりどの領域に誤認識が多く発生しているかを一見して把握することができる。しかも、ユーザは、一画面上で部分元画像と部分テキストデータとの対比をしながら修正を行うことができるので、修正作業の効率を格段に向上させることができる。
なお、元画像上で指定された一部領域の部分元画像と、当該指定された一部領域に対応する部分テキストデータとの並べ方は、図8に示した例に限定されない。例えば、図8では部分元画像と部分テキストデータとを横方向に並べて表示したが、縦方向に並べて表示するようにしてもよい。
また、図8では、部分元画像も部分テキストデータも元のレイアウトを維持した状態で並べて表示する例を示したが、より見やすくなるようにレイアウトを変えて表示するようにしてもよい。例えば、図3(a)のように元画像の全体領域に対して個別領域を設定している場合において、指定した一部領域61に含まれる個別領域の中から文字画像が含まれる個別領域を抽出し、図9に示すように、抽出した個別領域91とそれに対応するテキスト領域92とを並べて表示するようにしてもよい。これは、図3(b)のように個別領域を設定している場合にも同様に適用可能である。なお、図9では、指定された一部領域61の中に個別領域の全体が含まれるもののみを抽出して並べている。
なお、第2の実施形態と第3の実施形態は、組み合わせて適用することも可能である。
その他、上記第1〜第3の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
10A〜10C 修正支援装置
11 修正履歴記録部
12 正確度算出部
13 分布図画像生成部
14 分布図画像表示部
15 修正履歴記憶部
16 認識結果表示部
17 修正用画面表示部

Claims (6)

  1. 光学式文字認識によって元画像に含まれる文字から変換されたテキストデータの修正作業を支援する装置であって、
    上記光学式文字認識の結果として出力された上記テキストデータの中から特定箇所がユーザにより修正された場合、その修正箇所が上記元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として記録する修正履歴記録部と、
    上記修正履歴記録部により記録された修正履歴情報に基づいて、上記元画像のレイアウト上の個々の個別領域ごとに上記光学式文字認識の正確度を算出する正確度算出部と、
    上記正確度算出部により上記個々の個別領域ごとに算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した分布図画像を生成する分布図画像生成部と、
    上記分布図画像生成部により生成された分布図画像を表示させる分布図画像表示部とを備えたことを特徴とする光学式文字認識結果の修正支援装置。
  2. 上記布図画像生成部は、上記元画像の全体レイアウトにおいて、当該全体レイアウトに含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した全体分布図画像を生成することを特徴とする請求項1に記載の光学式文字認識結果の修正支援装置。
  3. 上記布図画像生成部は、上記元画像の全体レイアウトの中の指定された一部領域において、当該指定された一部領域に含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した一部分布図画像を生成することを特徴とする請求項1に記載の光学式文字認識結果の修正支援装置。
  4. 上記元画像を表示し、表示された元画像上の任意の一部領域の指定を受け付けて、当該指定された一部領域における上記光学式文字認識の結果である部分テキストデータを別画面表示する認識結果表示部を更に備え、
    上記認識結果表示部は、上記指定された一部領域に含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記別画面表示上において、上記正確度の大きさの違いを上記個々の個別領域に対応するテキスト領域ごとの表示態様の違いで表した表示を行うことを特徴とする請求項1に記載の光学式文字認識結果の修正支援装置。
  5. 上記元画像上の任意の一部領域の指定を受け付けて、当該指定された一部領域の部分元画像と、当該指定された一部領域における上記光学式文字認識の結果である部分テキストデータとを並べて成る修正用画面を表示する修正用画面表示部を更に備え、
    上記修正用画面表示部は、上記指定された一部領域に含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記修正用画面の上記部分元画像上または上記部分テキストデータ上において、上記正確度の大きさの違いを上記個々の個別領域またはそれに対応する個々のテキスト領域ごとの表示態様の違いで表した表示を行うことを特徴とする請求項1に記載の光学式文字認識結果の修正支援装置。
  6. 光学式文字認識によって元画像に含まれる文字から変換されたテキストデータの修正作業を支援するための機能を提供する光学式文字認識結果の修正支援用プログラムであって、
    上記光学式文字認識の結果として出力された上記テキストデータの中から特定箇所がユーザにより修正された場合、その修正箇所が上記元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として記録する修正履歴記録手段、
    上記修正履歴記録手段により記録された修正履歴情報に基づいて、上記元画像のレイアウト上の個々の個別領域ごとに上記光学式文字認識の正確度を算出する正確度算出手段、
    上記正確度算出手段により上記個々の個別領域ごとに算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した分布図画像を生成する分布図画像生成手段、および
    上記分布図画像生成手段により生成された分布図画像を表示させる分布図画像表示手段
    としてコンピュータを機能させるための光学式文字認識結果の修正支援用プログラム。
JP2018204444A 2018-10-30 2018-10-30 光学式文字認識結果の修正支援装置および修正支援用プログラム Active JP7241506B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018204444A JP7241506B2 (ja) 2018-10-30 2018-10-30 光学式文字認識結果の修正支援装置および修正支援用プログラム
US16/666,861 US11055551B2 (en) 2018-10-30 2019-10-29 Correction support device and correction support program for optical character recognition result

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018204444A JP7241506B2 (ja) 2018-10-30 2018-10-30 光学式文字認識結果の修正支援装置および修正支援用プログラム

Publications (2)

Publication Number Publication Date
JP2020071619A true JP2020071619A (ja) 2020-05-07
JP7241506B2 JP7241506B2 (ja) 2023-03-17

Family

ID=70325257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018204444A Active JP7241506B2 (ja) 2018-10-30 2018-10-30 光学式文字認識結果の修正支援装置および修正支援用プログラム

Country Status (2)

Country Link
US (1) US11055551B2 (ja)
JP (1) JP7241506B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7452060B2 (ja) * 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7552113B2 (ja) * 2020-07-15 2024-09-18 株式会社リコー 情報処理装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03214281A (ja) * 1990-01-19 1991-09-19 Sony Corp 文字認識装置
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
JP2012133507A (ja) * 2010-12-21 2012-07-12 Fujitsu Marketing Ltd レシートデータ照合支援装置およびレシートデータ照合支援プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3214281B2 (ja) 1995-03-03 2001-10-02 日本鋼管株式会社 低温用建築鋼材
JP2002073827A (ja) * 2000-08-31 2002-03-12 Fujitsu Ltd 校正者の能力管理方法、及び装置
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
US7849062B1 (en) * 2005-03-18 2010-12-07 Beyondcore, Inc. Identifying and using critical fields in quality management
US20060247912A1 (en) * 2005-04-27 2006-11-02 Microsoft Corporation Metric for evaluating systems that produce text
US20060285749A1 (en) * 2005-06-17 2006-12-21 Microsoft Corporation User-initiated reporting of handwriting recognition errors over the internet
US20080300898A1 (en) * 2007-05-30 2008-12-04 Belkacem Bacha Document processing services
US9037962B1 (en) * 2012-04-30 2015-05-19 Intuit Inc. Method and system for tracking and reporting data importation accuracy
US10037409B2 (en) * 2013-02-27 2018-07-31 Mro Corporation Automated method and system for reducing the improper disclosure of documents
US10936863B2 (en) * 2017-11-13 2021-03-02 Way2Vat Ltd. Systems and methods for neuronal visual-linguistic data retrieval from an imaged document
US10614301B2 (en) * 2018-04-09 2020-04-07 Hand Held Products, Inc. Methods and systems for data retrieval from an image
US11080563B2 (en) * 2018-06-28 2021-08-03 Infosys Limited System and method for enrichment of OCR-extracted data
US11461409B2 (en) * 2019-06-07 2022-10-04 Accenture Global Solutions Limited Digitization of technical documentation driven by machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03214281A (ja) * 1990-01-19 1991-09-19 Sony Corp 文字認識装置
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
JP2012133507A (ja) * 2010-12-21 2012-07-12 Fujitsu Marketing Ltd レシートデータ照合支援装置およびレシートデータ照合支援プログラム

Also Published As

Publication number Publication date
US20200134349A1 (en) 2020-04-30
JP7241506B2 (ja) 2023-03-17
US11055551B2 (en) 2021-07-06

Similar Documents

Publication Publication Date Title
US9013721B2 (en) Image forming apparatus, non-transitory computer-readable recording medium for storing image forming program, and image forming method
US20210073535A1 (en) Information processing apparatus and information processing method for extracting information from document image
KR20090109047A (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
JP5154886B2 (ja) 楽譜認識装置及びコンピュータプログラム
JP2023522360A (ja) Ocrベース文書分析システム及び方法
JP7241506B2 (ja) 光学式文字認識結果の修正支援装置および修正支援用プログラム
CN113378839A (zh) 信息处理装置、信息处理方法及计算机可读介质
JP2012138009A (ja) 楽譜認識装置、及びコンピュータプログラム
JP5853466B2 (ja) 画像処理システム、画像処理プログラム
JP2019159932A (ja) 情報処理装置及びプログラム
JP2019169182A (ja) 情報処理装置、制御方法、プログラム
US9036217B2 (en) Image processing system, apparatus, method and computer readable medium for cropping a document with tabs among sides
JP4518212B2 (ja) 画像処理装置及びプログラム
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP6030915B2 (ja) 画像再配置方法、画像再配置システム、および画像再配置プログラム
JP2018041304A (ja) 画像解析装置
JP2021152696A (ja) 情報処理装置及びプログラム
JP4765312B2 (ja) 画像処理装置および画像処理プログラム
JP2015055891A (ja) 文字認識結果検証装置及び文字読取システム
JP4693825B2 (ja) 情報処理装置およびプログラム
JP5003837B2 (ja) 画像処理装置及びプログラム
JP7271889B2 (ja) 情報処理装置及びプログラム
JP6003677B2 (ja) 画像処理装置及び画像処理プログラム
JP2006119942A (ja) 文字列領域切り出し装置
JP6705327B2 (ja) 画像形成装置、特殊パターンの合成方法及び合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230307

R150 Certificate of patent or registration of utility model

Ref document number: 7241506

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150