JP2024003769A

JP2024003769A - 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム

Info

Publication number: JP2024003769A
Application number: JP2023097010A
Authority: JP
Inventors: 明宮田; Akira Miyata
Original assignee: Sumasen; SUMASEN CO LTD
Current assignee: Sumasen; SUMASEN CO LTD
Priority date: 2022-06-27
Filing date: 2023-06-13
Publication date: 2024-01-15

Abstract

【課題】コンピュータによる文字認識の精度を高める技術を提供する。【解決手段】文字認識システムは、それぞれが異なる特性を有する複数の人工知能を有し、前記複数の人工知能のそれぞれによって、書類の画像データに含まれる文字の画像に対する文字認識を実行する認識部と、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する認識結果生成部と、を備える。【選択図】図４

Description

本発明は、文字認識システム、コンピュータによる文字の認識方法、および文字検索システムに関する。

従来から、様々な書類の電子化の際に、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）と呼ばれる文字認識の技術が活用されてきた。通常、文字認識では、例えば、下記の特許文献１に開示されているように、書類を光学的に読み取った画像データに含まれている活字や手書き文字を表す画像をコンピュータが認識し、デジタルテキストに変換する。近年では、機械学習やディープラーニングなどの人工知能（ＡＩ；ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）技術の適用により、文字認識の精度は著しく向上してきている。

特開２０１９－１２８６９０号公報

しかしながら、書類によっては、複雑な図や表の中に文字が記載されているものもあるし、文字が不鮮明なものもあり、コンピュータによる文字の識別が困難な場合がある。また、手書き文字を文字認識する場合には、その手書き文字の状態や記載場所、書き手のクセ等によって、その認識精度が大きく変動する可能性もある。活字の文字認識の場合であっても、その活字のフォントの種類や、大きさ、文字間隔等の違いによって、認識精度が不安定になる場合もある。

こうした課題に対して、例えば、上記の特許文献１では、特性の異なる複数のエンジンのそれぞれに、同じ書類のデータに対して文字認識を実行させ、出力された複数の文字認識結果のうちから、多数決により、最終的な文字認識の結果を決定している。しかしながら、特許文献１の技術の場合、多数決で決定された文字認識結果が必ずしも正解ではない可能性がある。コンピュータによる文字認識の精度を向上させることについては依然として改良の余地がある。

本発明は、例えば、以下の形態として実現することが可能である。

［第１形態］第１形態の文字認識システムは、それぞれが異なる特性を有する複数の人工知能を有し、前記複数の人工知能のそれぞれによって、書類の画像データに含まれる文字の画像に対する文字認識を実行する認識部と、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する認識結果生成部と、を備える。
第１形態の文字認識システムによれば、文字認識を実行する複数の人工知能の認識結果を、各人工知能の特性を反映させたアルゴリズムによって組み合わせるため、複数の人工知能のそれぞれの特性を活かして文字認識の精度を高めることができる。

［第２形態］上記第１形態の文字認識は、文字の属性に関する情報をまとめたデータ群を格納する記憶部と、前記データ群を参照して、前記書類における前記文字の属性を推定し、推定された前記文字の属性に基づいて、前記複数の人工知能のそれぞれの前記文字認識の結果、または、前記文字認識結果データの少なくとも一方を修正する矯正処理を実行する矯正処理実行部とを備えてよい。
第２形態の文字認識システムによれば、認識部が、書類の種類や前後の文字との関係、書類における文字の位置などから定まる文字の属性に基づいて、各人工知能が出力する文字認識の結果、または、文字認識結果データが修正されるため、文字認識の精度をさらに向上させることができる。

［第３形態］上記第２形態の文字認識システムにおいて、前記記憶部は、前記データ群として、前記書類において所定の位置に配列される定型の文字列であるラベルの複数の例が登録されたラベルデータベースを有し、前記矯正処理部は、前記書類における前記ラベルに相当する文字列を特定し、前記ラベルデータベースを参照して、前記ラベルに相当する文字列の文字認識の結果を、前記ラベルの複数の例の中で該当するものに一致するように修正してよい。
第３形態の文字認識システムによれば、定型的な書類のラベルを表す文字の認識精度を高めることができる。

［第４形態］上記第３形態の文字認識システムにおいて、前記記憶部は、さらに、前記データ群として、前記ラベルに関連付けられた情報を表す文字列の例が登録されたフィールドデータベースを有し、前記認識結果生成部は、前記ラベルとして特定された前記文字列に続く所定の位置に配列された文字列について、前記フィールドデータベースを参照して、前記ラベルに関連付けられた情報を表す文字列の例に一致するように文字認識の結果を修正してよい。
第４形態の文字認識システムによれば、ラベルに関連付けられた情報を表す文字列についての文字の認識精度を高めることができる。

［第５形態］上記第１形態、第２形態、第３形態、および、第４形態のうちのいずれかの文字認識システムは、さらに、前記文字認識結果データに対するユーザーによる校正結果の入力を受け付ける校正処理部と、前記校正処理部が受け付けた前記校正結果に基づいて、前記認識部における前記複数の人工知能の学習モデルの修正を実行するフィードバック処理部と、を備えてよい。
第５形態の文字認識システムによれば、ユーザーが文字認識結果データを校正することができるため、文字認識結果データにおいて文字の誤認識が生じたままになることを抑制できる。また、ユーザーによる校正結果に基づいて、人工知能の学習モデルを改善することができるため、文字認識の精度をさらに向上させることができる。

［第６形態］上記第２形態、第３形態、および、第４形態のうちのいずれかの文字認識システムにおいて、前記記憶部の前記データ群は、前記書類の提供元であるユーザーに合わせた内容で、前記ユーザーごとに予め準備されていてよい。
第６形態の文字認識システムによれば、ユーザーに合わせたデータ群に基づいて文字認識の結果を修正する処理が実行されるため、ユーザーごとに高い文字認識の精度を安定して得ることが可能になる。

［第７形態］第７形態は、コンピュータに書類の文字を認識させる方法として提供される。第７形態の方法は、コンピュータが、複数の人工知能のそれぞれによって、前記書類の画像データに含まれる文字の画像に対する文字認識を実行する工程と、コンピュータが、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する工程と、を備える。
第７形態の方法によれば、複数の人工知能による文字認識の結果が、各人工知能の特性を反映させたアルゴリズムによって組み合わせられるため、複数の人工知能のそれぞれの特性を活かして文字認識の精度を高めることができる。

［第８形態］第８形態の文字検索システムは、上記第５形態の文字認識システムと、前記校正処理部が受け付けた前記校正結果を反映した前記文字認識結果データに関する文書データを記憶する記憶処理部と、前記ユーザーが前記文書データを検索するための検索画面を表示部に表示させる表示処理部と、前記検索画面に入力された検索条件に基づいて前記文書データを検索する検索処理部と、を備え、前記表示処理部は、前記文書データにおける前記検索条件に合致する箇所が分かる態様で検索結果を前記表示部に表示させる。
第８形態の文字検索システムによれば、ユーザーにとって関心度が高い文書データに効率良くアクセスできるようになるため、ユーザーにとって利便性の向上を図ることができる。

本発明は、文字認識システムやコンピュータによる文字の認識方法以外の種々の形態で実現することも可能である。例えば、文字認識装置、文字認識システムや文字認識装置において用いられるアルゴリズムや学習モデル等の形態として実現することができる。また、文字認識システムや文字認識装置を制御するための制御プログラム、前記のアルゴリズムや学習モデル、プログラムを記録した記録媒体等の形態として実現することもできる。

第１実施形態の文字認識システムの構成を示す概略図。第１実施形態の文字認識処理装置の構成を示す概略ブロック図。第１実施形態の文字認識処理のフローチャート。第１実施形態の文字認識処理の処理内容を模式的に示す模式図。矯正処理のフローチャート。書類の一例を示す模式図。第２実施形態の文字認識処理のフローチャート。第３実施形態の文字検索システムにおける文字認識処理装置の構成を示す概略ブロック図。第３実施形態の文字検索システムについて、検索トップ画面の一例を示す模式図。第３実施形態の文字検索システムについて、検索結果画面の一例を示す模式図。第３実施形態の文字検索システムについて、検索結果画面上にポップアップが表示された場合の一例を示す模式図。第３実施形態の文字検索システムで実行される処理内容のフローチャート。

１．第１実施形態：
図１は、本実施形態における文字認識システム１０の構成を示す概略図である。文字認識システム１０は、紙媒体への印刷等により作成された書類の電子化を実行する。文字認識システム１０は、その書類の電子化の際に、書類の画像データに対してＡＩ技術を活用した文字認識を実行する。ここでの「文字認識」とは、コンピュータが、書類の画像データを解析して、当該書類の画像に含まれる文字を表す画像を認識し、その文字をデジタルテキストデータに変換する処理を意味する。また、「デジタルテキストデータへの変換」とは、対象となる文字に一意に対応するキャラクターコードを特定する処理に相当する。

文字認識システム１０は、文字認識処理装置１１と、書類読取装置１２と、ユーザー端末１３と、を備える。文字認識処理装置１１と書類読取装置１２とユーザー端末１３とはそれぞれ、ネットワークＮＴに接続されており、ネットワークＮＴを介して互いにデータの通信を行う。本実施形態では、ネットワークＮＴとしてインターネットを利用する。他の実施形態では、ネットワークＮＴは、インターネットに限定されることはなく、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）であってもよい。

文字認識処理装置１１は、プロセッサーである中央処理装置（ＣＰＵ；ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と主記憶装置（ＲＡＭ；ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）とを備えるコンピュータによって構成される。文字認識処理装置１１は、書類読取装置１２から書類の画像データの入力を受け付け、後述する文字認識処理を実行し、その認識結果をユーザー端末１３に出力する。文字認識処理装置１１の構成の詳細および文字認識処理の内容については後述する。

書類読取装置１２は、例えば、ＣＣＤ（Ｃｈａｒｇｅｄ－ＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサやＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサなどの固体撮像素子と光源素子とを備える。書類読取装置１２は、光源素子により書類を照射したときの反射光を固体撮像素子によって受光することにより、書類を光学的に読み取り、書類の画像データを生成する。以下では、便宜上、書類の画像データを「書類データ」とも呼ぶ。

書類読取装置１２は、ネットワークＮＴを通じて文字認識処理装置１１やユーザー端末１３にその書類データを出力する。なお、書類読取装置１２は、書類の束から電子化の対象となる書類を一枚ずつ繰り出すフィーダー装置を備えていてもよいし、生成した多量の書類データを分類して記憶するデータベースを備えていてもよい。

ユーザー端末１３は、ＣＰＵとＲＡＭとを備えるコンピュータによって構成される。ユーザー端末１３は、ユーザーに対して情報を表示する表示部１４と、ユーザーの操作を受け付ける入力部１５と、を備え、文字認識システム１０のユーザーインターフェースとして機能する。文字認識システム１０のユーザーは、ユーザー端末１３を介して、文字認識処理装置１１が提供する機能を利用することができる。詳細は後述するが、本実施形態の文字認識システム１０では、ユーザーは、ユーザー端末１３を介して、文字認識処理装置１１が出力した文字認識結果を校正することができる。

図２は、文字認識処理装置１１の構成を示す概略ブロック図である。文字認識処理装置１１は、制御部２０と、記憶部３０と、画像処理部４０と、通信部４５と、を備える。制御部２０と記憶部３０と画像処理部４０と通信部４５とは共通の信号線を介して互いに接続されている。

文字認識処理装置１１では、ＣＰＵがＲＡＭに読み込んで展開した命令やプログラムを実行することにより、制御部２０の様々な機能が実現される。制御部２０は、文字認識処理装置１１全体の処理動作を制御する機能を有する。また、制御部２０は、文字認識処理を実行するための種々の機能部として、書類判別部２１と、認識部２２と、認識結果生成部２３と、矯正処理部２４と、校正処理部２５と、フィードバック処理部２６と、を有する。これらの機能部２１，２２，２３，２４，２５，２６については後述する。

記憶部３０は、外部記憶装置であり、例えば、ハードディスク（ＨＤ）やソリッドステートディスク（ＳＳＤ）等の不揮発的な記憶装置によって構成される。記憶部３０には、各種のデータベースが構築されており、そのデータベースに、文字認識処理において参照される文字の属性に関する情報をまとめたデータ群が格納されている。記憶部３０のデータベースは、そのデータ群として、書式データベース３１と、辞書データベース３２と、コーパスデータベース３３と、ラベルデータベース３４と、フィールドデータベース３５と、を有する。これらの各データベースに格納されているデータについては後述する。

画像処理部４０は、画像処理専用のプロセッサーによって構成され、制御部２０の制御下において、超解像処理（ＳｕｐｅｒＲｅｓｏｌｕｔｉｏｎ）を実行する。画像処理部４０は、超解像処理により、書類の画像データの解像度と鮮鋭度とを調整する。これにより、書類の画像データを高解像度化できるとともに、当該画像データに写る像の輪郭線が明瞭になり、文字認識の際の画像解析が容易になる。よって、文字認識の精度を高めることができる。

通信部４５は、制御部２０の制御下において、ネットワークＮＴを通じた通信処理を実行する。文字認識処理装置１１では、書類読取装置１２やユーザー端末１３との間のデータの通信は通信部４５を介して行われる。

図３および図４を参照して文字認識システム１０で実行される文字認識処理を説明する。図３は、文字認識システム１０において実行される文字認識処理のフローチャートである。図４は、文字認識処理の処理内容を模式的に示す模式図であり、図３に示されたＳ１０～Ｓ７０の処理の内容が順に図示されている。

ステップＳ１０では、文字認識処理装置１１は、ネットワークＮＴを通じて書類読取装置１２から書類データを取得する。文字認識処理装置１１は、ネットワークＮＴを通じて、ユーザー端末１３から書類データを取得してもよい。なお、文字認識処理装置１１は、ネットワークＮＴを介することなく、記憶装置や記録媒体を通じて書類データの入力を受け付けてもよい。文字認識処理装置１１は、書類読取装置１２やユーザー端末１３との一対一の通信により書類データの入力を受け付けてもよい。

ステップＳ１５では、文字認識処理装置１１の画像処理部４０に書類データが入力され、画像処理部４０が書類データに対して超解像処理を実行する。これによって、書類データの解像度が予め定められた基準以上の高解像度に調整されるとともに、書類データの鮮鋭度が高められる。

ステップＳ２０では、制御部２０の書類判別部２１が、書類データが表す書類の種類を分類する処理を実行する。書類判別部２１は、画像処理部４０によって解像度が調整された書類データを解析して、書類の特徴点を抽出し、書類の種類を判別する。例えば、書類を、文章を主体とする書類、写真を主体とする書類、絵図や図表を主体とする書類、文章、写真、絵図、図表が混在している書類、絵図や写真の中に文字がレイアウトされている書類、手書き文字を含む書類などに分類する。

また、書類判別部２１は、論文や、法律文書、会計文書、公文書等のような定型の書式に従って作成された書類について、その書式ごとに分類する。文字認識処理装置１１の書式データベース３１には、様々な定型の書式に関するデータ群が格納されている。書類判別部２１は、書式データベース３１のデータ群を参照して、書類が、そのような定型の書式に従って作成されているものであるか否かを判別する。また、書類判別部２１は、定型の書式に従った書類について、どのような書式に従っているのかを特定する。

ステップＳ３０では、認識部２２において、書類データに対して複数のＡＩによる文字認識が実行される。認識部２２は、複数の認識処理部２８を有する。各認識処理部２８は、ＡＩを利用して実現された機能部であり、それぞれが独立に入力された画像データに対して文字認識を実行する。各認識処理部２８のＡＩは、複数のノードで構成され、各ノードの接続が予め準備された学習モデルに基づいて規定されたニューラルネットワークを備えている。各認識処理部２８のニューラルネットワークは、解析対象となるデータが入力される入力層と、解析結果を出力する出力層と、を有している。各認識処理部２８は、入力された書類データにおける文字を表す画像の部分を特定し、各文字についての文字認識を実行する。

各認識処理部２８は、文字認識について異なる特性を有する。各認識処理部２８の特性とは、書類や文字の種類に応じた認識精度の違いに基づく適性を意味する。各認識処理部２８の特性とは、例えば、文章主体の文書の文字認識に優れている特性や、写真や図表と文章とが混在している文書の文字認識に優れている特性、特定の書式の文書の文字認識に優れている特性、手書き文字の認識に優れている特性などである。各認識処理部２８の特性の違いは、例えば、学習モデルやノード構成の違いに基づくものとしてもよい。ステップＳ３０では、各認識処理部２８のそれぞれが上記したような特性に応じた異なる文字認識の結果を出力する。

ステップＳ３０の各認識処理部２８による文字認識の際には、対応するデジタルテキストデータとして複数の候補が挙げられる。文字認識では、その候補の中から優先度の高い１つに特定された結果が出力されるが、複数の候補の中から誤ったものが最終結果として特定される場合もある。そこで、ステップＳ３５では、矯正処理部２４が、各認識処理部２８が出力するそれぞれの文字認識の結果について矯正処理を実行し、そうした誤りを修正する。

ステップＳ３５の矯正処理では、矯正処理部２４が、書類における文字の属性を推定し、その推定した属性に基づいて、当該文字についての文字認識の結果の妥当性を検証して修正する。「文字の属性」とは、書類における文字の位置づけを意味し、その文字が、書類に記録されたどのような情報を構成するものであるのかを表す。文字の属性としては、例えば、文章中の単語や助詞等を構成するもの、表の項目名であるラベルを構成するもの、フィールドとも呼ばれる、表中のラベルに関連する情報を構成するものなどがある。

矯正処理部２４は、書類における文字の位置や、周囲にある文字との関係から、各文字の属性を推定する。その後、矯正処理部２４は、その推定した属性に適合するように文字認識の結果であるデジタルテキストデータを修正する。矯正処理部２４は、その際に、記憶部３０における辞書データベース３２や、コーパスデータベース３３、ラベルデータベース３４、フィールドデータベース３５を参照する。

辞書データベース３２には、様々な単語が登録されている。コーパスデータベース３３には、品詞の変化のバリエーションなど、様々な品詞の使い方に関するデータ群が登録されている。ラベルデータベース３４には、様々なラベルの例が登録されている。フィールドデータベース３５には、ラベルデータベース３４に登録されているラベルに関連付けされたフィールドの例が登録されている。

図５および図６を参照して、矯正処理部２４による矯正処理の具体的な処理手順の一例を説明する。図５は、矯正処理のフローチャートである。図６は、書類ＤＣの一例を示す模式図である。図６では、書類ＤＣ中の各文字を「□」で図示してある。

ステップＳ１１０では、矯正処理部２４は、書類データにおいて、文字のみで構成されている文字ブロックＣＢを特定する。ステップＳ１２０では、文字ブロックＣＳを、文字が一列に配列された一行ごとの行ブロックＬＢに分割する。また、行ブロックＬＢを構成する文字列から、漢字とひらがなの組み合わせや、句読点や括弧等の記号による区切り等に基づいて、同じ文脈を構成していると推定される文字のグループである文脈ブロックＳＢに区分する。文脈ブロックＳＢは、多くの場合、名詞や動詞、形容詞、副詞、助詞などの品詞ごとに区分される。図６では、文字ブロックＣＢや、行ブロックＬＢ、文脈ブロックＳＢの区分の例を一部のみ模式的に示してある。

ステップＳ１３０では、矯正処理部２４は、書類データに含まれる罫線ＲＬを認識する。矯正処理部２４は、例えば、書類データにおいて縦方向または横方向に延びている直線の画像を罫線ＲＬとして認識してもよいし、文字の上や下、横にある直線を罫線ＲＬとして認識してもよい。

ステップＳ１４０では、矯正処理部２４は、認識した罫線ＲＬに基づいて文字ブロックＣＢや行ブロックＬＢ、文脈ブロックＳＢを再構成する。例えば、矯正処理部２４は、文脈ブロックＳＢを横切る罫線ＲＬがある場合には、その罫線ＲＬで区切られた文脈ブロックＳＢが形成されるように、文脈ブロックＳＢを再構成する。また、矯正処理部２４は、罫線ＲＬによって枠が形成されている場合、その罫線ＲＬで囲まれた枠内の文字のグループを１つの文字ブロックＣＢとし、その枠内の文字ブロックＣＢの中で行ブロックＬＢに分割し直す。

ステップＳ１５０では、矯正処理部２４は、文脈ブロックＳＢとして区分された文字列のうちからラベルに相当する文字列を特定する。矯正処理部２４は、例えば、罫線ＲＬの枠で囲まれた文字列のうち、書類ＤＣの左端に位置するものや、罫線ＲＬで構成される表の上端に配列されているものをラベルとして特定する。矯正処理部２４は、罫線ＲＬがない領域でも、所定の文字数の文字列が書類ＤＣの左端で上下に規則正しく配列されている場合、それらの文字列をラベルとして特定してもよい。

ステップＳ１６０では、矯正処理部２４は、ラベルとして特定された文字列に続く所定の位置に配列された文脈ブロックＳＢの文字列を、フィールドを構成するものと特定する。

以上のＳ１１０～Ｓ１６０の処理は、矯正処理部２４が書類における文字の属性を推定する処理であると解釈できる。

ステップＳ１７０では、矯正処理部２４は、辞書データベース３２やコーパスデータベースを参照して、文脈ブロックＳＢに含まれる文字列によって構成される単語や助詞を構成する文字等の修正をする。矯正処理部２４は、例えば、文字認識において複数の候補がある文脈ブロックＳＢの文字列ついて、文字認識の結果を、辞書データベース３２に登録されている単語に一致するように修正する。また、辞書データベース３２の単語にない文字列については、複数の候補の文字列について、コーパスデータベース３３に一致する文字列が登録されているか否かを検証し、一致する文字列がある場合には、その態様に修正する。

ステップＳ１８０では、矯正処理部２４は、ラベルデータベース３４を参照して、ラベルとして特定された文字列の矯正処理を実行する。ラベルデータベース３４には、様々なラベルの複数の例が登録されている。矯正処理部２４は、例えば、ラベルとして特定された文字列について、文字認識において複数の候補が上がっている場合に、文字認識の結果を、ラベルデータベース３４に登録されている複数の例のうちで該当するものに一致するように修正する。

ステップＳ１９０では、矯正処理部２４は、フィールドデータベース３５を参照して、ラベルに続く所定の位置に配列された文字列の矯正処理を実行する。フィールドデータベース３５には、ラベルに関連付けられた情報を表す文字列の例、つまり、フィールドの例が登録されている。例えば、フィールドデータベース３５には、ラベル「銀行名」に関連付けられた情報として、銀行の名称や、銀行固有の金融機関コードが登録されている。また、フィールドデータベース３５には、ラベル「支店名」に関連付けられた情報として、支店名の名称や、支店名のＩＤ番号が登録されている。矯正処理部２４は、ラベルと同じ行に配置された文字列や、ラベルの下に配列された文字列についての文字認識の結果を、フィールドデータベース３５でそのラベルに紐づけられて登録されているものに一致するように修正する。

以上により、矯正処理部２４による矯正処理は完了する。矯正処理によれば、文字認識の結果が、書類における文字の属性に応じて修正されるため、文字認識の対象となる文字が、属性からかけ離れた文字に変換されてしまうことが抑制される。よって、文字認識処理装置１１による文字認識の精度を高めることができる。

なお、一般に、ユーザーの業種等に応じて、使用頻度が高い文字列は異なる。そのため、矯正処理で参照されるデータベースの内容は、文字認識システム１０のユーザーに合わせた内容で、ユーザーごとに予め準備されたものであることが好ましい。つまり、データベースの内容はユーザーごとにカスタマイズされたものであることが好ましい。これによって、例えば、一般的ではない専門用語など、特殊な業務でのみ使用頻度が高い単語の誤認識が抑制されるため、ユーザーごとの利便性が高められる。

図３および図４を参照して、ステップＳ４０以降の処理を説明する。

ステップＳ４０では、認識結果生成部２３が、各認識処理部２８による文字認識の結果を組み合わせて、書類全体の文字認識結果データを生成する。認識結果生成部２３は、各認識処理部２８の特性に応じて予め定められた認識結果決定アルゴリズム２９を備えている。認識結果生成部２３は、各認識処理部２８から文字認識の結果を表すデータが入力されると、認識結果決定アルゴリズム２９に従って、それらの文字認識の結果を組み合わせた文字認識結果データを生成して出力する。

認識結果決定アルゴリズム２９は、例えば、認識処理部２８ごとに予め定められた優先度に基づいて、認識処理部２８の文字認識の結果の採用を決定して文字認識結果データを生成するものとしてよい。その優先度は、書類の種類に応じて定められていてもよい。また、その優先度は、書類の内容に応じて修正されてもよい。例えば、数字が多い書類については数字の文字認識精度が高い認識処理部２８の優先度が高められるとしてもよい。認識結果決定アルゴリズム２９は、手書き文字については、手書き文字の文字認識の精度が高い認識処理部２８の優先度を高めてもよい。

認識結果生成部２３は、文字認識結果データを生成する際に、各認識処理部２８の文字認識の結果にばらつきがあった文字について、そのばらつきの度合いに応じた誤認識の可能性を示すパラメータを文字認識結果データに含める。

認識結果生成部２３によれば、複数の認識処理部２８の特性に基づいて複数の文字認識結果を組み合わせて文字認識結果データを生成することが可能になる。よって、認識部２２のそれぞれの認識処理部２８の特性を活かした文字認識の結果を得ることができ、文字認識の精度を高めることができる。

ステップＳ５０は、校正処理部２５が実行する校正処理である。ステップＳ５０では、校正処理部２５は、まず、書類の画像データと、その書類の画像データに対して生成された文字認識結果データと、をユーザー端末１３に出力する。ユーザー端末１３には、ユーザーによる校正を受け付けるためのアプリケーションプログラムである校正処理プログラムが予めインストールされている。

校正処理プログラムは、書類の画像データと、文字認識結果データとを表示部１４に並べて表示する。この際、文字認識結果データにおいて文字の誤認識の可能性が高い文字につてはマーカー表示をするなどして、ユーザーに注意を喚起する。

ステップＳ６０では、ユーザーによる文字認識結果データの校正を受け付ける。ユーザーは、入力部１５を操作して、校正処理プログラムが表示部１４に表示している文字認識結果データに対して誤っている個所の修正をすることができる。ユーザーは、文字認識結果データに対して、誤認識された文字の修正だけでなく、罫線の追加や変更、削除といった修正を行うこともできる。校正処理プログラムは、ユーザーによるその修正内容を、ユーザーによる校正結果の入力として受け付け、文字認識処理装置１１の校正処理部２５に送信する。校正処理部２５は、ユーザー端末１３から送られてくるユーザーによる校正結果の入力を受け付け、文字認識結果データにその校正結果を反映させる。

ステップＳ６０では、校正処理部２５は、ユーザーによる校正結果に罫線の修正が含まれているか否かを判定する。校正結果に罫線の修正が含まれていなければ、校正処理部２５は、校正結果が反映された文字認識結果データを、ユーザー端末１３に出力する。

ユーザーによる校正結果に罫線の修正が含まれていた場合、校正処理部２５は、その修正指示に応じて文字認識結果データの罫線を修正する。その後、罫線が修正された文字認識結果データに対して、ステップＳ３０の各認識処理部２８による文字認識が再度、実行される。そして、ステップＳ４０において認識結果生成部２３によって再度、文字認識結果データが生成される。罫線が修正された場合、その修正に応じて、文字ブロックＣＢや行ブロックＬＢ、文脈ブロックＳＢの再構成がなされるため、文字認識の精度を向上させることができる。

ステップＳ７０では、フィードバック処理部２６が、校正処理部２５が受け付けたユーザーによる校正結果の内容に基づいて、認識部２２の各認識処理部２８を構成する人工知能の学習モデルの修正を実行する。これによって、各認識処理部２８による文字認識の精度を高めることができる。

以上のように、本実施形態の文字認識システム１０によれば、複数の認識処理部２８による文字認識の結果を組み合わせて書類全体の文字認識結果を生成される。よって、各認識処理部２８を構成する人工知能のそれぞれの特性を活かして文字認識の精度を高めることが可能である。

２．第２実施形態：
図７は、第２実施形態の文字認識システムにおいて実行される文字認識処理のフローチャートである。第２実施形態の文字認識システムの構成は、第１実施形態の文字認識システム１０の構成とほぼ同じである。第２実施形態の文字認識処理は、矯正処理の実行タイミングが異なっている点が第１実施形態の文字認識処理と異なっている。

第２実施形態では、矯正処理部２４は、認識結果生成部２３が生成した文字認識結果データに対して矯正処理を図５に示すフローで実行する。この構成によれば、文字認識結果データに文字の属性からかけ離れて誤認識された文字が含まれることを抑制することができ、文字認識システムにおける文字認識の精度を高めることができる。

３．第３実施形態：
第３実施形態の文字検索システム１は、文字認識システム１０によって生成される文字認識結果データに基づく文書データの検索を行うためのシステムであり、文字認識システム１０を含んでいる。文字検索システム１は、記憶処理部５１、検索処理部５２、表示処理部５３、及び文書データベース３６を備えている。図８に示すように、文字認識処理装置２０の制御部２０は、例えば記憶処理部５１、検索処理部５２、及び表示処理部５３を有している。記憶処理部５１、検索処理部５２、及び表示処理部５３は、文字検索処理を実行するための機能部である。また、文字認識処理装置２０の記憶部３０は、例えば文書データベース３６を有している。文字認識処理装置２０は、文字検索処理装置として機能する。

記憶処理部５１は、校正処理部２５が受け付けた校正結果を反映した文字認識結果データに関する文書データを、文書データベース３６に記憶する処理を実行する。文書データは、例えばテキストデータ又は電子ファイル化された文書として記憶されている。文書データベース３６は、文書データが格納される。記憶処理部５１は、文書データに対応した書類データが表す書類の種類に分類して、文書データを記憶しても良い。

検索処理部５２は、例えばユーザー端末１３から与えられる検索条件例えば検索キーワードを用いて、文書データベース３６を検索することで、当該検索キーワードを含む文書データを抽出する処理を実行する。検索キーワードは、単語単位、文章単位、及びこれらの組合せ等で構成できる。また、検索処理部５２は、抽出した文書データのうち検索キーワードに合致する箇所を含む書類データ上での位置情報例えばページ番号や行番号等を特定する。検索処理部５２は、抽出した文書データに基づいて、検索結果情報を生成する。検索結果情報には、例えば文書データ中の検索キーワードのヒット件数等が含まれる。

表示処理部５３は、ユーザーが文書データを検索するための検索トップ画面６１を例えば表示部１４つまりユーザー端末１３に表示させる処理を実行する。この場合、検索処理部５２は、検索トップ画面６１に入力された検索キーワードに基づいて文書データを検索する。検索トップ画面６１は、検索画面として機能する。例えば文字認識処理装置２０の表示処理部５３は、ユーザー端末１３に所定の情報を表示させるための命令を、ネットワークＮＴを介してユーザー端末１３に送信できる。そして、ユーザー端末１３は、文字認識処理装置２０から所定の情報を表示する旨の命令を受信すると、その命令に基づいて表示部１４に所定の情報を表示させる。また、表示処理部５３は、検索処理部５２によって生成された検索結果情報に基づいて、表示部１４の表示内容を更新させる。

検索トップ画面６１では、図９に示すように、検索キーワード入力領域６１１及び文書データ表示領域６１２が配置される。検索キーワード入力領域６１１は、ユーザーが検索キーワードを入力する領域である。ユーザーは、入力部１５を用いて、検索キーワード入力領域６１１に、検索キーワードを入力する。図９等では、２つの検索キーワードをそれぞれ「ＸＸＸ」、「ＹＹＹ」とし、各検索キーワード間をスペースで区切って示している。

検索キーワード入力領域６１１に、２つの検索キーワードをスペースで区切って入力する場合、任意の指定間隔による近傍検索として検索されるように構成しても良い。指定間隔は、図示しない設定画面においてユーザーが適宜設定可能な構成にできる。また、検索キーワード入力領域６１１に入力された検索キーワードを含む文章に対して例えば単語単位に分割するいわゆる分かち書きを行い、分かち書きによって分割された各単語を用いて近傍検索を行う構成としても良い。分かち書きの際に用いる単語は、ユーザーによって予め登録することができる。

文書データ表示領域６１２は、文書データベース３６に格納された文書データに対応した書類データのファイル名が表示される領域である。図９における「Ａ資料」、「Ｂ資料」、及び「Ｃ資料」は、ファイル名の一例である。なお、ファイル名には、ファイルの拡張子を含んでいても良い。

表示処理部５３は、検索トップ画面６１において、検索キーワード入力領域６１１に検索キーワードが入力された状態で、検索キー６１３が操作されると、検索結果画面６２を表示させる。図１０に示すように、検索結果画面６２には、結果表示領域６２１及びリスト表示領域６２２が配置される。結果表示領域６２１は、例えば検索結果の説明文が表示される。図１０中の「検索キーワード「ＸＸＸＹＹＹ」合計で、３件ヒットしました。」との文字は、検索結果の説明文の一例である。リスト表示領域６２２は、例えば検索キーワードが含まれる文書データが検索キーワードのヒット件数とともにリスト表示される。

なお、検索結果画面６２には、検索トップ画面６１と同様に、検索キーワード入力領域６１１及び検索キー６１３を配置できる。ユーザーは、検索結果画面６２が表示された状態で、検索条件つまり検索キーワードを変更したい場合、検索結果画面６２に配置された検索キーワード入力領域６１１の入力内容を変更し、再度検索キー６１３を入力操作することで、変更後の検索キーワードを用いて検索を行うことができる。

リスト表示では、例えば複数の文書データを検索キーワードのヒット件数の多い順に上から下へ並べて表示される。つまり、リスト表示領域６２２には、検索キーワードに関連の高い文書データが上から下へ並べて表示される。リスト表示される文書データは、例えば選択操作が可能な文書データボタン６２２ａで構成される。文書データボタン６２２ａは、ユーザーによって入力操作が可能な操作キーである。本実施形態では、検索結果画面６２において、文書データボタン６２２ａが選択されていない場合、文書データボタン６２２ａの背景色は「白色」又は「無色」にて表示される。

表示処理部５３は、図１０のハッチングで示すように、リスト表示領域６２２に表示された文書データボタン６２２ａのうちいずれかの文書データボタン６２２ａが選択されると、図１１に示すように、ポップアップ６３を検索結果画面６２上に表示させる。ポップアップ６３は、ユーザーが選択した文書データにおいて検索キーワードが合致する箇所を示すものである。例えばポップアップ６３の上段には、選択された文書データが、チェックマーク及び検索キーワードのヒット件数とともに、背景色が「緑色」にて表示される。図１１では、背景色をハッチングで表している。背景色は、「緑色」に限らず、「赤色」など他の色であっても良い。また、ポップアップ６３には、概要欄６３１が配置される。概要欄６３１には、例えば検索キーワードが含まれる文章及び当該文章が存在するページ番号が表示される。このようにして、表示処理部５３は、文書データにおける検索キーワードに合致する箇所が分かる態様で検索結果を表示部１４に表示させる。

表示処理部５３は、ポップアップ６３に対する表示操作例えばクリック操作が行われると、文書データの全文データを表示部１４に表示させることができる。この場合、文書データにおける検索キーワードが含まれる文章が存在するページが優先的に表示され、検索キーワードに合致する箇所には例えばハイライト表示される。これにより、ユーザーにとって関心度が高い文章にアクセスしやすくできる。

次に、図１２を参照して、文字検索システム１において行われる制御内容の一例について説明する。なお、以下の説明では、制御部２０が制御を行う主体として説明する。制御部２０は、処理を開始すると、ステップＡ１１において、検索トップ画面６１をユーザー端末１３の表示部１４に表示させる。次に、制御部２０は、ステップＡ１２において、例えば検索キーワードの入力による検索操作を受け付ける。

制御部２０は、検索操作を受けると、ステップＡ１３において、検索キーワードを含む文書データを抽出する検索処理を実行する。その後、制御部２０は、ステップＡ１４において、検索処理の結果に基づいて、検索結果画面６２を表示させる。次に、制御部２０は、ステップＡ１５において、検索結果画面６２上に表示された文書データボタン６２２ａの選択操作を受け付ける。

制御部２０は、文書データボタン６２２ａの選択操作を受けると、ステップＡ１６において、検索結果画面６２上にポップアップ６３を表示させる。次に、制御部２０は、ステップＡ１７において、ポップアップ６３に対する表示操作を受け付ける。制御部２０は、ポップアップ６３への表示操作を受けると、ステップＡ１８において、文書データボタン６２２ａに対応した文書データの全文データのうち、検索キーワードが含まれる文章が存在するページを表示部１４に表示させて、一連の制御を終了する（ＥＮＤ）。

このような第３実施形態によれば、ユーザーにとって関心度が高い文書データに効率良くアクセスできるようになるため、ユーザーにとって利便性の向上を図ることができる。

なお、矯正処理部２４によって参照される辞書データベース３２や、コーパスデータベース３３、ラベルデータベース３４、フィールドデータベース３５に登録された内容は、例えば検索処理部５２で用いられる検索キーワード等に基づいて更新可能な構成としても良い。つまり、矯正処理で参照されるデータベースの内容は、文字検索システム１のユーザーに合わせた内容で、ユーザーごとに準備できる構成にしても良い。

４．他の実施形態：
本発明は、上述の各実施形態の構成に限定されることはない。例えば、各実施形態の構成を以下のように改変することも可能である。

４－１．他の実施形態１：
例えば、矯正処理部２４は、第１実施形態のように、認識部２２における各認識処理部２８の文字認識の結果に対して矯正処理を実行するとともに、認識結果生成部２３が生成する文字認識結果データに対しても矯正処理を実行するものとしてもよい。

４－２．他の実施形態２：
上記の各実施形態において文字認識処理装置１１で実行されていた文字認識処理は、書類読取装置１２やユーザー端末１３において実行されてもよい。また、文字認識処理装置１１は、ユーザーによる文字認識結果データを校正する操作を受け付ける機能を有していてもよい。

４－３．他の実施形態３：
上記の各実施形態において、認識部２２の認識処理部２８以外の構成部にＡＩ技術が適用されていてもよい。例えば、書類判別部２１がＡＩによって書類の種類を判別するように構成されていてもよい。また、認識結果決定アルゴリズム２９による文字認識結果データの生成が、ＡＩによって実行されるように構成されていてもよい。

４－４．他の実施形態４：
上記の各実施形態において、記憶部３０の各データベース３１，３２，３３，３４，３５，３６は、文字認識処理装置１１が備えていなくてもよく、例えば、ネットワークＮＴに接続された、文字認識処理装置１１から独立したストレージ上に構築されていてもよい。

１０…文字認識システム、１１…文字認識処理装置、１２…書類読取装置、１３…ユーザー端末、１４…表示部、１５…入力部、２０…制御部、２１…書類判別部、２２…認識部、２３…認識結果生成部、２４…矯正処理部、２５…校正処理部、２６…フィードバック処理部、２８…認識処理部、２９…認識結果決定アルゴリズム、３０…記憶部、３１…書式データベース、３２…辞書データベース、３３…コーパスデータベース、３４…ラベルデータベース、３５…フィールドデータベース、３６…文書データベース、４０…画像処理部、４５…通信部、５１…記憶処理部、５２…検索処理部、５３…表示処理部、ＣＢ…文字ブロック、ＤＣ…書類、ＬＢ…行ブロック、ＮＴ…ネットワーク、ＲＬ…罫線、ＳＢ…文脈ブロック

Claims

文字認識システムであって、
それぞれが異なる特性を有する複数の人工知能を有し、前記複数の人工知能のそれぞれによって、書類の画像データに含まれる文字の画像に対する文字認識を実行する認識部と、
前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する認識結果生成部と、を備える、文字認識システム。
請求項１記載の文字認識システムであって、さらに、
文字の属性に関する情報をまとめたデータ群を格納する記憶部と、
前記データ群を参照して、前記書類における前記文字の属性を推定し、推定された前記文字の属性に基づいて、前記複数の人工知能のそれぞれの前記文字認識の結果、または、前記文字認識結果データの少なくとも一方を修正する矯正処理を実行する矯正処理実行部と、
を備える、文字認識システム。
請求項２記載の文字認識システムであって、
前記記憶部は、前記データ群として、前記書類において所定の位置に配列される定型の文字列であるラベルの複数の例が登録されたラベルデータベースを有し、
前記矯正処理部は、前記書類における前記ラベルに相当する文字列を特定し、前記ラベルデータベースを参照して、前記ラベルに相当する文字列の文字認識の結果を、前記ラベルの複数の例の中で該当するものに一致するように修正する、文字認識システム。
請求項３記載の文字認識システムであって、
前記記憶部は、さらに、前記データ群として、前記ラベルに関連付けられた情報を表す文字列の例が登録されたフィールドデータベースを有し、
前記認識結果生成部は、前記ラベルとして特定された前記文字列に続く所定の位置に配列された文字列について、前記フィールドデータベースを参照して、前記ラベルに関連付けられた情報を表す文字列の例に一致するように文字認識の結果を修正する、文字認識システム。
請求項１記載の文字認識システムであって、さらに、
前記文字認識結果データに対するユーザーによる校正結果の入力を受け付ける校正処理部と、
前記校正処理部が受け付けた前記校正結果に基づいて、前記認識部における前記複数の人工知能の学習モデルの修正を実行するフィードバック処理部と、
を備える、文字認識システム。
請求項２から請求項４のいずれか一項に記載の文字認識システムであって、
前記記憶部の前記データ群は、前記書類の提供元であるユーザーに合わせた内容で、前記ユーザーごとに予め準備されている、文字認識システム。
コンピュータに書類の文字を認識させる方法であって、
コンピュータが、複数の人工知能のそれぞれによって、前記書類の画像データに含まれる文字の画像に対する文字認識を実行する工程と、
コンピュータが、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する工程と、
を備える、方法。
請求項５記載の文字認識システムと、
前記校正処理部が受け付けた前記校正結果を反映した前記文字認識結果データに関する文書データを記憶する記憶処理部と、
前記ユーザーが前記文書データを検索するための検索画面を表示部に表示させる表示処理部と、
前記検索画面に入力された検索条件に基づいて前記文書データを検索する検索処理部と、を備え、
前記表示処理部は、前記文書データにおける前記検索条件に合致する箇所が分かる態様で検索結果を前記表示部に表示させる、文字検索システム。