JP7241506B2

JP7241506B2 - 光学式文字認識結果の修正支援装置および修正支援用プログラム

Info

Publication number: JP7241506B2
Application number: JP2018204444A
Authority: JP
Inventors: 豊名護屋; 甲島澤
Original assignee: Wingarc1st Inc
Current assignee: Wingarc1st Inc
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2023-03-17
Anticipated expiration: 2038-10-30
Also published as: JP2020071619A; US11055551B2; US20200134349A1

Description

本発明は、光学式文字認識結果の修正支援装置および修正支援用プログラムに関し、特に、光学式文字認識（ＯＣＲ）において誤認識されたデータの修正作業を支援するための技術に関するものである。

画像の中に含まれる文字を認識してテキストデータ（コンピュータが利用できる文字コード）に変換するＯＣＲ（Optical Character Recognition：光学的文字認識）と呼ばれる技術が広く使われている。画像データとしての文字をテキストデータとしての文字に変換できるといっても、１００％正確に文字認識されるわけではない。そのため、誤認識された文字については手作業で修正する必要がある。従来、ＯＣＲの文字認識結果に基づくテキストデータの修正作業を支援するシステムが知られている（例えば、特許文献１参照）。

特許文献１に記載の文字認識訂正装置では、ＯＣＲ出力の元となる文書イメージ（スキャン画像）を表示し、表示された文書イメージのある領域が選択されると、選択された領域に対応するＯＣＲ出力のテキストをポップアップメニュー内に表示する。また、ＯＣＲ出力内の語に対応する文書イメージの領域に対して認識確度パラメータを決定し、それぞれの認識確度パラメータを表すようにヒートマップ表示する（例えば種々の色で強調する）。

具体的には、個々の語に関して認識結果が正しい結果である可能性を示す認識確度パラメータを複数の閾値と比較し、その比較結果に応じて表示色を決めて文書イメージの領域を表示することにより、認識された語のヒートマップを形成する。認識確度パラメータは、例えばあるフォントの文字「rn」は文字「ｍ」と認識され得る可能性があるとして、その文字対に対して６０％の認識確度パラメータが決定されるといったように、文字の組み合わせ等に応じてあらかじめ想定されている値である。このように、各語の認識確度パラメータに基づいて文書イメージ上にヒートマップを表示することにより、ＯＣＲ出力について文書イメージの最も問題の有りそうな部分にユーザを導くことができるとされている。

特開平１１－１０２４１４号公報

上記特許文献１に記載のヒートマップ表示により、スキャン画像上において認識確度の悪い文字のある場所が可視化されるので、ＯＣＲの文字認識結果に基づき変換されたテキストデータの修正作業において注目すべき箇所を容易に把握することが可能となる。

特許文献１では、個々の語について誤認識される可能性として決定された認識確度パラメータに基づいてヒートマップ表示を行っているが、誤認識が発生する要因は、特許文献１に記載されているような文字の組み合わせや語そのものの性質ばかりではない。例えば、カラー文字や文字のかすれ、文字が斜めになっている、文字間隔が詰まっている、文字が網掛けされている、スキャン画像に汚れがある、手書きの文字なども、誤認識が発生しやすいケースである。しかしながら、特許文献１に記載の技術では、これらの誤認識が起こりやすい様々なケースに対応してヒートマップ表示をすることができないという問題があった。

本発明は、このような問題を解決するために成されたものであり、誤認識が起こりやすい様々なケースに対応して、テキストデータの修正作業において注意すべき度合を領域ごとに区別して表した分布図画像を提供できるようにすることを目的とする。

上記した課題を解決するために、本発明では、元画像に対する光学式文字認識の結果として出力されたテキストデータの中から特定箇所がユーザにより修正された場合、その修正箇所が元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として記録する。そして、その修正履歴情報に基づいて、元画像のレイアウト上の個々の個別領域ごとに光学式文字認識の正確度を算出し、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した分布図画像を生成して表示するようにしている。

上記のように構成した本発明によれば、元画像に対して光学式文字認識が行われ、その結果として出力されたテキストデータの中から特定箇所がユーザにより修正される都度、その修正箇所が元画像のレイアウト上でどの領域に当たるかを示した領域情報が修正履歴情報として逐次記録されていく。ここで、光学式読み取り（スキャン）によって元画像が生成される前の原稿の書式や、原稿をスキャンして元画像を生成する装置の状態などを含む様々なケースに起因して、元画像のレイアウト上の決まった領域における文字認識率が低下することがある。この場合、元画像上の当該決まった領域においてテキストデータが修正される回数は多くなり、そうでない領域においてテキストデータが修正される回数は少なくなる傾向が生じる。本発明によれば、このような傾向を反映した光学式文字認識の正確度が元画像のレイアウト上の個々の個別領域ごとに算出され、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した分布図画像が生成される。これにより、本発明によれば、誤認識が起こりやすい様々なケースに対応して、テキストデータの修正作業において注意すべき度合を領域ごとに区別して表した分布図画像を提供することができる。

第１の実施形態による修正支援装置を含む文字認識装置の機能構成例を示すブロック図である。文字認識装置のハードウェア構成例を示す図である。元画像上に設定される個別領域の一例を示す図である。分布図画像表示部の制御により表示装置に表示される分布図画像の一例を示す図である。第２の実施形態による修正支援装置を含む文字認識装置の機能構成例を示すブロック図である。認識結果表示部の制御により表示装置に表示される情報の一例を示す図である。第３の実施形態による修正支援装置を含む文字認識装置の機能構成例を示すブロック図である。修正用画面表示部の制御により表示装置に表示される情報の一例を示す図である。修正用画面表示部の制御により表示装置に表示される情報の別例を示す図である。

（第１の実施形態）
以下、本発明の第１の実施形態を図面に基づいて説明する。図１は、第１の実施形態による光学式文字認識結果の修正支援装置（以下、単に修正支援装置という）１０Ａを含む文字認識装置１００の機能構成例（一部にハードウェア構成を含む）を示すブロック図である。図２は、文字認識装置１００のハードウェア構成例を示す図である。修正支援装置１０Ａは、光学式文字認識によって元画像に含まれる文字から変換されたテキストデータの修正作業を支援する装置である。

図２に示すように、文字認識装置１００は、操作部１０１、スキャナ１０２、ＯＣＲ装置１０３、表示装置１０４、マイコン１０５および記憶装置１０６を備えて構成されている。

操作部１０１は、キーボード、マウス、タッチパネル等から成り、ユーザがこれらを操作することによって文字認識装置１００に対して種々の指示を与えることができるようになっている。スキャナ１０２は、光学的読取装置であり、文書等の紙媒体の原稿を光学的に読み取って画像データ化するものである。スキャナ１０２により生成される画像データは、特許請求の範囲の「元画像」に相当する。

ＯＣＲ装置１０３は、スキャナ１０２により生成された元画像に含まれる文字を認識し、画像としての文字（以下、文字画像という）を文字コード（以下、文字テキストという）に変換することによってテキストデータを生成するものである。表示装置１０４は、例えば液晶表示装置、有機ＥＬ表示装置などのディスプレイであり、各種情報を表示する。例えば、表示装置１０４は、スキャナ１０２により生成された元画像や、ＯＣＲ装置１０３により生成されたテキストデータなどを表示する。また、表示装置１０４は、後述する各種画面を表示する。

マイコン１０５は、上述した操作部１０１、スキャナ１０２、ＯＣＲ装置１０３および表示装置１０４の動作を制御する。また、マイコン１０５は、図１に示す修正支援装置１０Ａの動作を制御する。記憶装置１０６は、各種データを記憶する不揮発性の記憶媒体であり、例えばハードディスク、半導体メモリ等により構成される。

次に、第１の実施形態による修正支援装置１０Ａを含む文字認識装置１００の機能構成を説明する。図１に示すように、文字認識装置１００は、その機能構成として、修正履歴記録部１１、正確度算出部１２、分布図画像生成部１３、分布図画像表示部１４、修正履歴記憶部１５、元画像記憶部２１、テキスト記憶部２２および修正処理部２３を備えている。このうち、修正履歴記録部１１、正確度算出部１２、分布図画像生成部１３、分布図画像表示部１４および修正履歴記憶部１５が、第１の実施形態による修正支援装置１０Ａが備える機能構成である。

修正履歴記録部１１、正確度算出部１２、分布図画像生成部１３、分布図画像表示部１４および修正処理部２３は、実際には図２に示したマイコン１０５のＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。なお、これらの機能の全部または一部をハードウェアまたはＤＳＰ（Digital Signal Processor）により構成することも可能である。修正履歴記憶部１５、元画像記憶部２１およびテキスト記憶部２２は、図１に示した記憶装置１０６が備える機能構成である。

元画像記憶部２１は、スキャナ１０２により生成された元画像（文書等の読み取り原稿の画像データ）を記憶する。ここで、元画像記憶部２１は、原稿１枚につき１つの元画像を記憶する。

テキスト記憶部２２は、ＯＣＲ装置１０３により生成されたテキストデータを記憶する。ここで、テキスト記憶部２２は、１つの元画像につき１ページのテキストデータを記憶する。１ページのテキストデータは、元画像のレイアウトを模したレイアウト情報を有し、元画像に含まれる文字画像の位置とほぼ同位置に文字テキストを配したものである。

テキスト記憶部２２に記憶されるテキストデータは、元画像における文字画像の位置情報（例えば、元画像の１つの角を原点とする２次元座標平面における座標値）と、文字画像から変換された文字テキストとを関連付ける紐付け情報を含んでいる。すなわち、ＯＣＲ装置１０３が元画像に含まれる文字画像を認識して文字テキストに変換する際に、元画像内における文字画像の位置情報を取得し、これを文字テキストと関連付けてテキスト記憶部２２に記憶する。

修正処理部２３は、テキスト記憶部２２に記憶されたテキストデータを、ユーザからの指示に応じて修正する。ＯＣＲ装置１０３による文字認識の認識率（誤認識をすることなく正しい文字テキストに変換できる確率）を１００％にすることは困難であり、少なからず誤認識による間違った文字テキストがテキストデータ内に含まれている可能性がある。ユーザは、例えばテキストデータを表示装置１０４の画面に表示させ、手元にある原稿と比較して誤認識された文字テキストを発見し、操作部１０１を操作することによって必要な修正を行う。

修正処理部２３により文字テキストの修正が行われた場合、その修正を反映した状態でテキストデータが更新され、更新されたテキストデータがテキスト記憶部２２に記憶される。このとき、更新前のテキストデータは、更新後のテキストデータによって上書きされる。

修正履歴記録部１１は、テキスト記憶部２２に記憶されたテキストデータ（特許請求の範囲の「光学式文字認識の結果として出力されたテキストデータ」に相当）の中から特定の文字テキスト（特許請求の範囲の「特定箇所」に相当）がユーザにより修正された場合、その修正箇所が元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として修正履歴記憶部１５に記録する。

上述したように、テキストデータは、元画像における文字画像の位置情報と、当該文字画像から変換された文字テキストとを関連付ける紐付け情報を含んでいる。従って、修正処理部２３により何れかの文字テキストが修正された場合、その文字テキストに対応する紐付け情報により、元画像における文字画像の位置情報を取得することが可能である。修正履歴記録部１１は、この位置情報を修正箇所の領域情報として検出し、検出した領域情報を修正履歴情報として修正履歴記憶部１５に記憶させる。

複数枚の原稿をＯＣＲ処理することによって複数のテキストデータがテキスト記憶部２２に記憶され、それぞれのテキストデータに対して修正処理部２３により必要な修正を行っていくと、テキストデータ内における修正箇所を示す領域情報が修正履歴記憶部１５に逐次記憶されていく。ここで、複数のテキストデータにおいて同じ箇所が修正されると、同じ修正箇所を示す領域情報が修正履歴記憶部１５に蓄積されていく。

正確度算出部１２は、修正履歴記憶部１５に記憶された修正履歴情報に基づいて、元画像のレイアウト上の個々の個別領域ごとに光学式文字認識の正確度を算出する。ここで、個別領域とは、元画像の全体領域の中に設定した複数の小領域をいう。

図３は、個別領域の一例を示す図である。個別領域は、図３（ａ）に示すように、元画像の全体領域を縦方向にｍ分割および横方向にｎ分割した場合における個々の分割領域とすることが可能である。分割の仕方は任意であり、分割領域の大きさは任意に設計することが可能である。図３（ａ）のように個別領域を設定した場合、個々の個別領域は、互いに隣接した連続領域となる。

また、個別領域は、図３（ｂ）に示すように、元画像の全体領域の中に分散して設定した非連続な小領域とすることも可能である。例えば、元画像に含まれる文字画像が存在する領域を個別領域として設定することが可能である。定型のフォーマットを有する複数の原稿をＯＣＲ処理するような場合、それらの原稿から生成される複数の元画像は、同じ位置に文字画像の領域が存在する。このような文字画像の領域は元画像内の離散した位置に存在し得るが、これを個別領域とすることも可能である。

正確度算出部１２は、修正履歴記憶部１５に記憶された修正履歴情報に基づいて、以上のようにして元画像のレイアウト上に設定された個々の個別領域ごとに、光学式文字認識の正確度を算出する。正確度とは、個別領域に対応する位置において文字テキストの修正がどの程度行われたかに基づいて算出される指標であり、修正の行われた回数が多いほど正確度の値は小さくなり、修正の行われた回数が少ないほど正確度の値は大きくなる。

例えば、正確度算出部１２は、テキスト記憶部２２に記憶されているテキストデータの数を母数として、修正が行われた回数の割合の逆数を正確度として算出する。個々の個別領域において文字テキストの修正が行われた回数は、修正履歴記憶部１５に記憶されている修正箇所の領域情報に基づいて、同じ領域情報が記憶されている数を集計することによって求めることが可能である。なお、修正の行われた回数が０回の場合は、逆数をとると値は∞となるが、この場合に正確度の値を∞のままとしてもよいし、所定の最高値に設定してもよい。

なお、ここではテキスト記憶部２２に記憶されているテキストデータの数を母数として正確度を算出することとしたが、本発明はこれに限定されない。例えば、テキスト記憶部２２に記憶されているテキストデータのうち、ある特定の定型フォーマットの原稿から生成されたテキストデータの数を母数として正確度を算出するようにしてもよい。この場合、例えばスキャナ１０２により原稿を読み取ってＯＣＲ装置１０３によりテキストデータを生成する際に、特定の定型フォーマットの原稿であることを操作部１０１の操作によって指定し、これにより生成されたテキストデータを他と識別可能な状態にしてテキスト記憶部２２に記憶させる。このようにすれば、特定の定型フォーマットの原稿から生成されたテキストデータを対象として正確度を算出することが可能となる。

ここで、図３（ｂ）のように文字画像の位置に個別領域を設定した場合、個々の個別領域の位置と、個々の文字テキストが配置されている位置とは一致する。従って、修正履歴記憶部１５に記憶されている修正箇所の領域情報に基づいて、同じ領域情報が記憶されている数を集計した値（その領域情報における文字テキストの修正回数）が、対応する個別領域における文字テキストの修正回数としてそのまま使える値となり、これをもとに個別領域ごとの正確度を算出することが可能である。

一方、図３（ａ）のように連続的な分割領域を個別領域として設定した場合、個々の個別領域の位置と、個々の文字テキストが配置されている位置（すなわち、修正履歴記憶部１５に記憶されている修正箇所の領域情報で示される位置）とが必ずしも一致するとは限らない。この場合は、修正箇所の領域情報に基づいて算出される正確度を、当該修正箇所の領域情報で示される位置と少なくとも一部が重なる１つまたは複数の個別領域の正確度であるとみなすようにしてよい。

分布図画像生成部１３は、正確度算出部１２により個々の個別領域ごとに算出された正確度に基づいて、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した分布図画像を生成する。例えば、布図画像生成部１３は、元画像の全体レイアウトにおいて、当該全体レイアウトに含まれる個々の個別領域ごとに正確度算出部１２により算出された正確度に基づいて、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した全体分布図画像を生成する。

個々の個別領域ごとに変える表示態様は、例えば表示色である。例えば、分布図画像生成部１３は、正確度の大きさを２つの閾値によって３つに分類し、分類に応じて異なる表示色で個々の個別領域を表した部分布図画像を生成する。具体的には、正確度が最も大きい分類に属する個別領域を青色、正確度が中程度の分類に属する個別領域を黄色、正確度が最も小さい分類に属する個別領域を赤色などで表す。正確度が最も大きい分類に属する個別領域を無色（背景色と同色）としてもよい。なお、個別領域ごとに変える表示態様として、表示色に代えて、同色の表示濃度や、網掛けの種類などを用いてもよい。

ここでは、布図画像生成部１３は、元画像の全体レイアウトに対応した全体分布図画像を生成する例について説明したが、本発明はこれに限定されない。例えば、布図画像生成部１３は、操作部１０１の操作によって元画像の全体レイアウトの中の指定された一部領域において、当該指定された一部領域に含まれる個々の個別領域ごとに正確度算出部１２により算出された正確度に基づいて、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した一部分布図画像を生成するようにしてもよい。

分布図画像表示部１４は、分布図画像生成部１３により生成された分布図画像を表示装置１０４に表示させる。例えば、ユーザが操作部１０１を操作して分布図画像の表示を修正支援装置１０に指示したときに、分布図画像生成部１３が分布図画像を生成し、生成された分布図画像を分布図画像表示部１４が表示装置１０４に表示させる。

ここで、分布図画像表示部１４は、個別領域ごとに表示色を変えただけの色分布画像（ヒートマップ画像）を表示させるようにしてもよいし、当該色分布画像を半透化処理して元画像上に重畳して表示させるようにしてもよい。また、分布図画像表示部１４が色分布画像を半透化処理して元画像上に重畳する形態ではなく、分布図画像生成部１３が元画像自体に色分布を与える加工処理を行うことにより、元画像上において色分布を含む加工画像を生成するようにしてもよい。

図４は、表示装置１０４に表示される分布図画像の一例を示す図である。図４は、図３（ａ）のように個別領域を設定した場合に表示される全体分布図画像（ヒートマップ画像）の例を示している。また、図４では、正確度が最も大きい分類に属する個別領域を無色とし、正確度が中程度の分類に属する個別領域と、正確度が最も小さい分類に属する個別領域とを異なる色で表示した分布図画像の例を示している。

ユーザは、この分布図画像を見ることにより、過去の修正履歴を反映した結果として、どの領域の正確度が低くなっているか、つまりどの領域に誤認識が多く発生しているかを一見して把握することができる。誤認識が多く発生している領域を把握できれば、修正処理部２３によってテキストデータの修正を行う際に、表示装置１０４に表示されたテキストデータと手元の原稿とのどの領域を重点的に対比して確認すればよいかの目安を得ることができ、修正作業を効率的に行うことができるようになる。

なお、文字画像の内容が異なる複数の原稿をＯＣＲ処理しているにもかかわらず、ある特定の領域において誤認識が多くなるケースとして、種々の要因が考えられる。例えば、定型フォーマットの原稿をＯＣＲ処理した場合において、特定の領域について、文字が黒以外の色になっている、文字が背景色に近い色になっている、文字が斜めになっている、手書き文字になっているといったように、スキャンによって元画像が生成される原稿の書式に起因して、元画像のレイアウト上の決まった領域における文字認識率が低下することがある。

また、定型フォーマットの原稿か否かにかかわらず、スキャナ１０２やＯＣＲ装置１０３の状態などに起因して、元画像のレイアウト上の決まった領域における文字認識率が低下することもある。例えば、原稿がＦＡＸにより打ち出された書類であるために、特定の領域の文字が頻繁にかすれる場合があり得る。また、スキャナ１０２の原稿台に傷や汚れが付いているために、元画像上の特定の領域に、常に決まった形のドット群が形成されるといったことも発生し得る。

以上のような場合、元画像上の決まった領域において比較的多くの誤認識が発生し、当該領域にある文字画像から変換された文字テキストが修正される回数は多くなり、そうでない領域にある文字画像から変換された文字テキストが修正される回数は少なくなる傾向が生じる。本実施形態によれば、このような傾向を反映した正確度が元画像のレイアウト上の個々の個別領域ごとに算出され、正確度の大きさの違いを個別領域ごとの表示色の違いで表した分布図画像が生成される。これにより、本実施形態によれば、誤認識が起こりやすい様々なケースに対応して、テキストデータの修正作業において注意すべき度合を領域ごとに区別して表した分布図画像をユーザに提供することができる。ユーザは、この分布図画像を見ることにより、テキストデータの修正作業を効率的に行うことができるようになる。

（第２の実施形態）
次に、本発明の第２の実施形態を図面に基づいて説明する。図５は、第２の実施形態による修正支援装置１０Ｂを含む文字認識装置１００の機能構成例（一部にハードウェア構成を含む）を示すブロック図である。なお、この図５において、図１に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。

図５に示すように、第２の実施形態による修正支援装置１０Ｂは、その機能構成として、認識結果表示部１６を更に備えている。この認識結果表示部１６は、実際には図２に示したマイコン１０５のＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

認識結果表示部１６は、元画像記憶部２１に記憶されている元画像を表示装置１０４に表示し、表示された元画像上の任意の一部領域の指定を受け付けて、指定された一部領域における光学式文字認識の結果である部分テキストデータを別画面表示する。ここで、表示された元画像上の任意の一部領域の指定は、ユーザが操作部１０１を操作することによって行う。また、部分テキストデータは、テキスト記憶部２２に記憶されたテキストデータを用いて生成する。

上述したように、テキスト記憶部２２に記憶されているテキストデータは、元画像のレイアウトを模したレイアウト情報を有している。従って、認識結果表示部１６は、元画像上における任意の一部領域の指定を受け付けると、元画像上で指定された一部領域に対応するテキストデータ上の領域をレイアウト情報から特定することができ、当該特定した一部領域のテキストデータを部分テキストデータとして生成することが可能である。認識結果表示部１６は、こうして生成した部分テキストデータを表示装置１０４に表示させる。例えば、表示装置１０４に表示されている元画像の上に重ねて、部分テキストデータをポップアップ表示させる。

認識結果表示部１６は、部分テキストデータを表示装置１０４に表示させる際に、指定された一部領域に含まれる個々の個別領域ごとに正確度算出部１２により算出された正確度に基づいて、別画面表示（ポップアップ表示）上において、正確度の大きさの違いを個々の個別領域に対応するテキスト領域ごとの表示態様の違いで表した表示を行う。

個別領域に対応するテキスト領域とは、元画像上に設定された個別領域と同様にテキストデータ上に設定した領域のことをいう。例えば、図３（ａ）のように元画像上に個別領域を設定した場合は、テキストデータ上にも図３（ａ）と同様に設定した個々の領域がテキスト領域である。一方、図３（ｂ）のように元画像上に個別領域を設定した場合は、テキストデータ上にも図３（ｂ）と同様に設定した個々の領域がテキスト領域である。例えば、個々のテキスト領域をテキストボックスとして設定し、そのボックス内の表示色を正確度に応じて変えるようにする。なお、テキスト領域に対する表示色の設定方法はこれに限定されない。

図６は、認識結果表示部１６の制御により表示装置１０４に表示される情報の一例を示す図である。図６において、符号６０で示す領域は、元画像が表示されている領域（例えば、表示装置１０４の表示画面全体）である。符号６１で示す領域は、元画像上でユーザにより指定された一部領域である。符号６２で示す領域は、元画像上で指定された一部領域６１に対応して表示された部分テキストデータのポップアップ画面である。なお、ここでは領域６０における元画像の具体的な描画については図示を省略している。また、ポップアップ画面６２については図示を簡略化している。

ここでは、図３（ａ）のように個別領域を設定した場合に表示されるポップアップ画面６２の例を示している。すなわち、認識結果表示部１６は、図３（ａ）のように元画像の全体領域に対して設定された個別領域のうち、元画像上で指定された一部領域６１に含まれる個別領域について正確度算出部１２により算出された正確度に基づいて、個別領域に対応するテキスト領域ごとに表示色を変えた分布図画像を生成し、これをポップアップ画面６２に表示している。

ユーザは、ポップアップ画面６２に表示された部分テキストデータ上の文字テキストを、当該ポップアップ画面６２上で直接修正することが可能である。このとき、ポップアップ画面６２上では、過去の修正履歴を反映した結果として個々のテキスト領域が色分け表示されているので、どのテキスト領域の正確度が低くなっているか、つまりどのテキスト領域に誤認識が多く発生しているかを一見して把握することができる。これにより、ユーザは、修正処理部２３によってポップアップ画面６２上の部分テキストデータの修正を行う際に、ポップアップ画面６２と手元の原稿とのどの領域を重点的に対比して確認すればよいかの目安を得ることができ、修正作業を効率的に行うことができるようになる。

なお、操作部１０１における特定の操作（例えば、キーボード上の特定キーの操作など）によって、ポップアップ画面６２の表示／非表示（図６（ａ）に示す非表示の状態と、図６（ｂ）に示す表示の状態）をトグル的に切り替えられるようにしてもよい。このようにすれば、ポップアップ画面６２に表示された部分テキストデータの修正を行う際に、部分テキストデータを手元の原稿と比較する必要がなく、ポップアップ画面６２の表示／非表示をトグル的に切り替えながら部分テキストデータと元画像とを対比することができるので、修正作業を更に効率的に行うことができるようになる。

（第３の実施形態）
次に、本発明の第３の実施形態を図面に基づいて説明する。図７は、第３の実施形態による修正支援装置１０Ｃを含む文字認識装置１００の機能構成例（一部にハードウェア構成を含む）を示すブロック図である。なお、この図７において、図１に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。

図７に示すように、第３の実施形態による修正支援装置１０Ｃは、その機能構成として、修正用画面表示部１７を更に備えている。この修正用画面表示部１７は、実際には図２に示したマイコン１０５のＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

修正用画面表示部１７は、元画像上の任意の一部領域の指定を受け付けて、指定された一部領域の部分元画像と、当該指定された一部領域における光学式文字認識の結果である部分テキストデータとを並べて成る修正用画面を表示する。ここで、元画像上の任意の一部領域の指定は、ユーザが操作部１０１を操作することによって行う。また、部分元画像は、元画像記憶部２１に記憶された元画像を用いて生成し、部分テキストデータは、テキスト記憶部２２に記憶されたテキストデータを用いて生成する。

修正用画面表示部１７は、指定された一部領域に含まれる個々の個別領域ごとに正確度算出部１２により算出された正確度に基づいて、修正用画面における一部領域の元画像上において、正確度の大きさの違いを個々の個別領域ごとの表示態様の違いで表した表示を行う。例えば、修正用画面表示部１７は、正確度に応じて個別領域ごとに表示色を変えた色分布画像を生成し、当該色分布画像を半透化処理して部分元画像上に重畳して表示させる。あるいは、正確度に応じて個別領域ごとに表示色を変えた部分元画像を生成して表示させるようにしてもよい。

図８は、修正用画面表示部１７の制御により表示装置１０４に表示される情報の一例を示す図である。なお、この図８において、図６に示した要素と同一の要素には同一の符号を付している。図８（ａ）は、図６（ａ）と同じ状態を示している。

図８（ｂ）は、元画像上で指定された一部領域６１に対応して表示される修正用画面８０を示している。当該修正用画面８０において、左側の領域８１には、元画像上でユーザにより指定された一部領域６１に対応する部分元画像が表示されている。また、右側の領域８２には、指定された一部領域６１に対応する部分テキストデータが表示されている。このうち、左側の領域８１に表示されている部分元画像に関しては、一部領域６１に含まれる個々の個別領域ごとに算出された正確度の大きさの違いを表示色の違いで表した表示がなされている。なお、右側の領域８２に表示されている部分テキストデータにおいて、個々のテキスト領域ごとに正確度の大きさの違いを表示色の違いで表すようにしてもよい。

ここでは、図３（ａ）のように個別領域を設定した場合の表示例を示している。すなわち、修正用画面表示部１７は、図３（ａ）のように元画像の全体領域に対して設定された個別領域のうち、元画像上で指定された一部領域６１に含まれる個別領域について正確度算出部１２により算出された正確度に基づいて、個別領域ごとに表示色を変えた分布図画像を生成し、これを半透化処理して部分元画像に重畳して表示している。あるいは、正確度に応じて個別領域ごとに表示色を変えた部分元画像を生成して表示させるようにしてもよい。

ユーザは、修正用画面８０の右側の領域８２に表示された部分テキストデータ上の文字テキストを直接修正することが可能である。このとき、修正用画面８０の左側の領域８１では、過去の修正履歴を反映した結果として個々の個別領域を色分けした状態で部分元画像が表示されているので、ユーザは、どの領域の正確度が低くなっているか、つまりどの領域に誤認識が多く発生しているかを一見して把握することができる。しかも、ユーザは、一画面上で部分元画像と部分テキストデータとの対比をしながら修正を行うことができるので、修正作業の効率を格段に向上させることができる。

なお、元画像上で指定された一部領域の部分元画像と、当該指定された一部領域に対応する部分テキストデータとの並べ方は、図８に示した例に限定されない。例えば、図８では部分元画像と部分テキストデータとを横方向に並べて表示したが、縦方向に並べて表示するようにしてもよい。

また、図８では、部分元画像も部分テキストデータも元のレイアウトを維持した状態で並べて表示する例を示したが、より見やすくなるようにレイアウトを変えて表示するようにしてもよい。例えば、図３（ａ）のように元画像の全体領域に対して個別領域を設定している場合において、指定した一部領域６１に含まれる個別領域の中から文字画像が含まれる個別領域を抽出し、図９に示すように、抽出した個別領域９１とそれに対応するテキスト領域９２とを並べて表示するようにしてもよい。これは、図３（ｂ）のように個別領域を設定している場合にも同様に適用可能である。なお、図９では、指定された一部領域６１の中に個別領域の全体が含まれるもののみを抽出して並べている。

なお、第２の実施形態と第３の実施形態は、組み合わせて適用することも可能である。

その他、上記第１～第３の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０Ａ～１０Ｃ修正支援装置
１１修正履歴記録部
１２正確度算出部
１３分布図画像生成部
１４分布図画像表示部
１５修正履歴記憶部
１６認識結果表示部
１７修正用画面表示部

Claims

光学式文字認識によって元画像に含まれる文字から変換されたテキストデータの修正作業を支援する装置であって、
上記光学式文字認識の結果として出力された上記テキストデータの中から特定箇所がユーザにより修正された場合、その修正箇所が上記元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として記録する修正履歴記録部と、
上記修正履歴記録部により記録された修正履歴情報に基づいて、上記元画像のレイアウト上の個々の個別領域ごとに、修正の行われた回数が多いほど値が小さくなり修正の行われた回数が少ないほど値が大きくなる指標である上記光学式文字認識の正確度を算出する正確度算出部と、
上記正確度算出部により上記個々の個別領域ごとに算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した分布図画像を生成する分布図画像生成部と、
上記分布図画像生成部により生成された分布図画像を表示させる分布図画像表示部とを備えたことを特徴とする光学式文字認識結果の修正支援装置。
上記分布図画像生成部は、上記元画像の全体レイアウトにおいて、当該全体レイアウトに含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した全体分布図画像を生成することを特徴とする請求項１に記載の光学式文字認識結果の修正支援装置。
上記分布図画像生成部は、上記元画像の全体レイアウトの中の指定された一部領域において、当該指定された一部領域に含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した一部分布図画像を生成することを特徴とする請求項１に記載の光学式文字認識結果の修正支援装置。
上記元画像を表示し、表示された元画像上の任意の一部領域の指定を受け付けて、当該指定された一部領域における上記光学式文字認識の結果であるテキストデータの領域を部分テキストデータとして生成し、当該部分テキストデータを別画面表示する認識結果表示部を更に備え、
上記認識結果表示部は、上記指定された一部領域に含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記別画面表示上において、上記正確度の大きさの違いを、上記部分テキストデータのレイアウト上で上記個々の個別領域に対応する位置に設定される領域である個々のテキスト領域ごとの表示態様の違いで表した表示を行うことを特徴とする請求項１に記載の光学式文字認識結果の修正支援装置。
上記元画像上の任意の一部領域の指定を受け付けて、当該指定された一部領域における上記光学式文字認識の結果であるテキストデータの領域を部分テキストデータとして生成し、当該部分テキストデータと、上記指定された一部領域の元画像である部分元画像とを並べて成る修正用画面を表示する修正用画面表示部を更に備え、
上記修正用画面表示部は、上記指定された一部領域に含まれる個々の個別領域ごとに上記正確度算出部により算出された正確度に基づいて、上記修正用画面の上記部分元画像上または上記部分テキストデータ上において、上記正確度の大きさの違いを、上記個々の個別領域または上記部分テキストデータのレイアウト上で上記個々の個別領域に対応する位置に設定される領域である個々のテキスト領域ごとの表示態様の違いで表した表示を行うことを特徴とする請求項１に記載の光学式文字認識結果の修正支援装置。
光学式文字認識によって元画像に含まれる文字から変換されたテキストデータの修正作業を支援するための機能を提供する光学式文字認識結果の修正支援用プログラムであって、
上記光学式文字認識の結果として出力された上記テキストデータの中から特定箇所がユーザにより修正された場合、その修正箇所が上記元画像のレイアウト上でどの領域に当たるかを検出し、修正箇所の領域情報を修正履歴情報として記録する修正履歴記録手段、
上記修正履歴記録手段により記録された修正履歴情報に基づいて、上記元画像のレイアウト上の個々の個別領域ごとに、修正の行われた回数が多いほど値が小さくなり修正の行われた回数が少ないほど値が大きくなる指標である上記光学式文字認識の正確度を算出する正確度算出手段、
上記正確度算出手段により上記個々の個別領域ごとに算出された正確度に基づいて、上記正確度の大きさの違いを上記個々の個別領域ごとの表示態様の違いで表した分布図画像を生成する分布図画像生成手段、および
上記分布図画像生成手段により生成された分布図画像を表示させる分布図画像表示手段
としてコンピュータを機能させるための光学式文字認識結果の修正支援用プログラム。