JP6795195B2

JP6795195B2 - 文字種推定システム、文字種推定方法、および文字種推定プログラム

Info

Publication number: JP6795195B2
Application number: JP2017206520A
Authority: JP
Inventors: 福光齊藤
Original assignee: Net Smile Inc
Current assignee: Net Smile Inc
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2020-12-02
Anticipated expiration: 2037-10-25
Also published as: JP2019079347A

Description

本発明は、文字種推定システム、文字種推定方法、および文字種推定プログラムに関するものである。

ある帳票識別システムでは、帳票フォーマットテーブルが予めユーザにより作成されており、帳票フォーマットテーブルには、ユーザにより指定された文字認識対象領域の位置、サイズ、文字種などを示すフィールド情報が含まれている。そして、この帳票フォーマット（つまり、フィールド情報）に基づいて、帳票画像の画像データから、帳票内の文字情報（テキストデータ）が取得されている。

特開２０１６−４８４４４号公報

しかしながら、上述のシステムでは、帳票などの書類のレイアウト（フォーマット）に対応した帳票フォーマットテーブルを予め作成しておかなければならず、フォーマットの互いに異なる複数の書類に対して、その書類の数と同数の帳票フォーマットテーブルを作成する必要があり、様々な書類内の文字情報の抽出を行うことは、帳票フォーマットテーブルの作成の手間を考えると実際上困難である。

本発明は、上記の問題に鑑みなされたものであり、様々な書類内の文字情報の抽出を正確に行える文字種推定システム、文字種推定方法および文字種推定プログラムを得ることを目的とする。

本発明に係る文字種推定システムは、書類画像を取得する書類画像取得部と、その書類画像内の１または複数のテキスト領域の位置・サイズ情報、およびその１または複数のテキスト領域のそれぞれについてテキスト領域内のテキストの文字種を推定する文字種推定部と、推定されたテキスト領域について推定された文字種用の文字認識処理を実行して、推定されたテキスト領域内のテキストをテキストデータとして特定するテキスト特定部とを備える。そして、文字種推定部は、機械学習済みのディープニューラルネットワークを備え、そのディープニューラルネットワークの入力データは、上述の書類画像であり、そのディープニューラルネットワークの出力データは、上述の１または複数のテキスト領域のそれぞれについての上述の位置・サイズ情報および文字種である。

本発明に係る文字種推定方法は、書類画像を取得する書類画像取得ステップと、上述の機械学習済みのディープニューラルネットワークで、その書類画像内の１または複数のテキスト領域の位置・サイズ情報、およびその１または複数のテキスト領域のそれぞれについてテキスト領域内のテキストの文字種を推定する文字種推定ステップと、推定されたテキスト領域について推定された文字種用の文字認識処理を実行して、推定されたテキスト領域内のテキストをテキストデータとして特定するテキスト特定ステップとを備える。

本発明に係る文字種推定プログラムは、コンピュータを、上述の書類画像取得部、上述の文字種推定部、および上述のテキスト特定部として機能させる。

本発明によれば、様々な書類内の文字情報の抽出を正確に行えるようにする文字種推定システム、文字種推定方法および文字種推定プログラムが得られる。

本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。

図１は、本発明の実施の形態に係る文字種推定システムの構成を示すブロック図である。図２は、書類画像の一例を示す図である。図３は、図２に示す書類画像に対して推定されるテキスト領域を説明する図である。図４は、図１に示す文字種推定システムの動作を説明するフローチャートである。

以下、図に基づいて本発明の実施の形態を説明する。

図１は、本発明の実施の形態に係る文字種推定システムの構成を示すブロック図である。図１に示す文字種推定システムは、１台の情報処理装置で構成されているが、後述の処理部を、互いにデータ通信可能な複数の情報処理装置に分散させてもよい。また、そのような複数の情報処理装置には、特定の演算を並列処理するＧＰＵ（Graphics Processing Unit）が含まれていてもよい。

図１に示す文字種推定システムは、記憶装置１、通信装置２、画像読取装置３、および演算処理装置４を備える。

記憶装置１は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。

ここでは、記憶装置１には、文字種推定プログラム１１が格納されており、また、設定データ（後述のディープニューラルネットワークの係数設定値など）が必要に応じて格納される。なお、文字種推定プログラム１１は、ＣＤ（Compact Disk）などの可搬性のあるコンピュータ読み取り可能な記録媒体に格納されていてもよい。その場合、例えば、その記録媒体から記憶装置１へプログラム１１がインストールされる。また、プログラム１１は、１つのプログラムでも、複数のプログラムの集合体でもよい。

通信装置２は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。画像読取装置３は、書類から書類画像を光学的に読み取り、書類画像の画像データ（ラスタイメージデータなど）を生成する。

演算処理装置４は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などを備えるコンピュータであって、プログラムを、ＲＯＭ、記憶装置１などからＲＡＭにロードしＣＰＵで実行することで、各種処理部として動作する。

ここでは、プログラム１１を実行することで、演算処理装置４は、書類画像取得部２１、文字種推定部２２、テキスト特定部２３、データファイル生成部２４、検証部２５、および機械学習処理部２６として動作する。

書類画像取得部２１は、画像データとして書類画像を取得する。書類画像は、領収書（レシートを含む）、請求書、納品書などの帳票類や、その他、企業などの組織において定型な書類などの画像（ラスタイメージ）である。例えば、書類画像取得部２１は、記憶装置１に格納されている画像データとしての書類画像を読み出したり、通信装置２により受信された画像データとしての書類画像を取得したり、画像読取装置３により生成された画像データとしての書類画像を取得したりする。

文字種推定部２２は、書類画像内の１または複数のテキスト領域（矩形領域）の位置・サイズ情報、およびその１または複数のテキスト領域のそれぞれについて各テキスト領域内のテキストの文字種を推定する。具体的には、文字種推定部２２は、機械学習済みのディープニューラルネットワークを備え、そのディープニューラルネットワークで、各テキスト領域の位置・サイズ情報およびそのテキスト領域内のテキストの文字種を推定する。このディープニューラルネットワークの入力データは、書類画像（つまり、書類画像の画素値）であり、このディープニューラルネットワークの出力データは、上述の１または複数のテキスト領域のそれぞれについての位置・サイズ情報および文字種である。

推定される文字種は、ディープニューラルネットワークの機械学習時に使用される訓練データ（入力値と出力値との対）のうちの出力値として使用された文字種のいずれかとなる。

例えば、その文字種は、テキスト自体の特徴（内的属性）を示す、（ａ）言語種別（日本語、英語など）、（ｂ）表記体系（ひらがな、カタカナ、漢字など）、（ｃ）数字か否か、（ｄ）手書き文字か活字文字か、（ｅ）それらの組み合わせといった分類を含む。

また、その文字種は、上述のテキスト自体の特徴の代わりに、あるいは、上述のテキスト自体の特徴に追加して、テキストの外的属性（つまり、テキストに対して付加される属性）を示すものでもよく、例えば、（ｆ）金額（￥などの通貨マークが付加された数字）、（ｇ）表の見出し（ヘッダー文字など）、（ｈ）電子メール（英語テキストと＠マークとドメイン表記テキストの結合）（ｉ）ＵＲＬ（Uniform Resource Locator）、（ｊ）電話番号、（ｋ）住所、（ｌ）日付、（ｍ）印影（円や矩形などの外枠とその外枠の中のテキスト）などの分類を含むようにしてもよい。

さらに、その文字種は、特殊文字種として、テキストを含まない図形の分類（例えば、（ａ）バーコード、（ｂ）２次元コード、（ｃ）ロゴマーク、（ｄ１）チェックされているチェックボックス、（ｄ２）チェックされていないチェックボックスなど）を含んでもよい。

なお、ここで、ディープニューラルネットワークは、例えば、隠れ層が２つ以上の制限付きボルツマンマシンである。つまり、ディープラーニングで機械学習されたニューラルネットワークである。また、このディープニューラルネットワークの構成および機械学習については、既知のものが使用できる。例えば、このディープニューラルネットワークには、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＲＮＮ（Recursive Neural Network）などを使用してもよい。さらに、そのようなディープニューラルネットワークに、必要に応じて、ＬＳＴＭ（Long Short-Term Memory）法、ＣＴＣ（Connectionist Temporal Classification）法などを適用してもよい。

また、このディープニューラルネットワークの機械学習には、様々な書類の書類画像について、その書類画像のラスタイメージデータ（つまりビットマップ画像データ）（入力データ）とその書類画像についての１または複数のテキスト領域の位置・サイズ情報および文字種（出力データ）との対がトレーニングデータとして使用される。

図２は、書類画像の一例を示す図である。図３は、図２に示す書類画像に対して推定されるテキスト領域を説明する図である。

図２に示す書類画像１０１は、納品書の画像である。この書類画像１０１がディープニューラルネットワークに入力されると、図３における破線矩形で示すように、ディープニューラルネットワークから、テキスト領域の位置・サイズ情報、およびそのテキスト領域の文字種が出力される。なお、テキスト領域の位置・サイズ情報は、例えば、矩形のテキスト領域の対角線上の２点の座標値でもよいし、矩形のテキスト領域の中心点、特定頂点などの代表位置の座標並びにその矩形の縦の長さおよび横の長さでもよい。

例えば図３に示す書類画像１０１におけるテキスト領域１１１として、その位置・サイズ情報とともに、文字種「カタカナ」（つまり、日本語の活字体のカタカナ）が推定され、テキスト領域１１２として、その位置・サイズ情報とともに、文字種「英字」（つまり、英語の活字体のアルファベット）が推定され、テキスト領域１１３として、その位置・サイズ情報とともに、文字種「数字」（つまり、活字体の数字）が推定され、テキスト領域１１４として、その位置・サイズ情報とともに、文字種「手書きの漢字」（つまり、日本語の手書きの漢字）が推定される。

テキスト特定部２３は、推定された位置・サイズ情報に基づいてテキスト領域の部分画像を書類画像から抽出し、推定されたテキスト領域（つまり、抽出した部分画像）について推定された文字種用の文字認識処理を実行して、推定されたテキスト領域内のテキストをテキストデータ（つまり、文字コード）として特定する。

例えば図３に示す書類画像１０１では、上述のようにテキスト領域１１１〜１１４の文字種が推定され、各テキスト領域１１１〜１１４のテキストデータを得るために、テキスト特定部２３は、テキスト領域１１１の画像（部分画像）については、活字体のカタカナ用の文字認識処理を実行し、テキスト領域１１２の画像（部分画像）については、活字体の英字アルファベット用の文字認識処理を実行し、テキスト領域１１３の画像（部分画像）については、活字体の数字用の文字認識処理を実行し、テキスト領域１１４の画像（部分画像）については、日本語の手書き漢字用の文字認識処理を実行する。

なお、特定の文字種用の文字認識処理でも、その他の文字種の文字認識が可能とされている。ただし、その特定の文字種に比べ、文字認識率が低くなったり認識誤り率が高くなったりする可能性がある。

なお、文字種が上述のテキストを含まない特殊文字種である場合、テキスト特定部２３は、そのテキスト領域の画像に対して、その特殊文字種に対応した処理を実行するようにしてもよい。例えば、文字種がバーコードや２次元コードである場合には、テキスト特定部２３は、そのバーコードや２次元コードをデコードして、そのバーコードや２次元コードをテキストデータやバイナリデータに変換するようにしてもよい。また、例えば、文字種がロゴマークである場合には、テキスト特定部２３は、書類画像から、テキスト領域の画像を切り出して、ロゴ画像として出力するようにしてもよい。また、例えば、文字種が、チェックされているチェックボックスかチェックされていないチェックボックスである場合には、テキスト特定部２３は、そのテキスト領域のテキストとして、チェックされているチェックボックスまたはチェックされていないチェックボックスに対応する固有のコード（テキストデータまたはバイナリデータ）を出力するようにしてもよい。

データファイル生成部２４は、上述の複数のテキスト領域のテキストデータを含むデータファイルを生成する。このデータファイルは、例えばＣＳＶ（Comma-Separated Values）データファイルなどの所定のフォーマットのデータファイルである。

例えば、上述のテキストデータは、このデータファイルにおいて、上述の複数のテキスト領域の位置に対応する順序で配列される。この場合、例えば、書類画像における横方向または縦方向における複数のテキスト領域の位置に基づいて、この順序が特定される。あるいは、この場合、データファイル生成部２４は、書類画像におけるテキストオブジェクトを自動的に検出するとともに、ユーザ操作に基づいてそのテキストオブジェクトの属性を特定し、そのテキストオブジェクトの位置にその属性を関連付けてテンプレートデータを生成し、テンプレートデータに基づいて、上述のテキスト領域の位置に対応する属性（例えば、テキスト領域の位置に最も近いテキストオブジェクトの位置に関連付けられている属性）を特定し、その属性に対応する順序でテキストデータをデータファイルにおいて配列する。

また、例えば、上述のテキストデータは、このデータファイルにおいて、推定された文字種に対応する順序で配列される。この場合、例えば、文字種として上述のような外的属性（日付など）を示すものを使用し、推定された文字種が示す属性に対応する順序でテキストデータが配列される。

検証部２５は、上述の１または複数のテキスト領域のうちの（上述の属性、位置などで指定される）特定のテキスト領域のテキストの有無または特定のテキスト領域のテキストの整合性を検証するようにしてもよい。例えば、上述の特定のテキスト領域が印鑑の押印用の領域である場合、検証部２５は、テキスト特定部２３によりテキストが特定されたか否かに基づいて、押印の有無を判定し、その判定結果をユーザに報知するようにしてもよいし、その特定のテキスト領域に画像オブジェクトがない場合には、押印がないと判定してもよい。また、例えば、上述の特定のテキスト領域が日付の領域である場合、検証部２５は、テキスト特定部２３により特定されたテキストが日付の記述フォーマットに適合しているか否かに基づいて整合性を判定し、その判定結果をユーザに報知するようにしてもよい。

機械学習処理部２６は、トレーニングデータを生成するアノテーション処理、およびアノテーション処理により生成されたトレーニングデータで文字種推定部２２のディープニューラルネットワークを機械学習する機械学習処理を実行する。

なお、例えば、アノテーション処理では、（ａ）サンプルの書類画像内のテキストオブジェクトが自動的に検出され、（ｂ）各テキストオブジェクトについて、そのテキストオブジェクトのみを囲む矩形領域がテキスト領域とされ、（ｃ）ユーザ操作により、そのテキスト領域内の文字種が付与され、（ｄ）その書類画像（入力データ）と、その書類画像内のテキスト領域の位置・サイズ情報および文字種（出力データ）との対が１つのトレーニングデータとされる。

また、アノテーション処理には、文字種推定部２２により推定されたあるテキスト領域の文字種が誤っており、ユーザにより訂正された場合における正当な文字種およびそのテキスト領域の位置・サイズ情報（並びにその書類画像内のその他のテキスト領域の位置・サイズ情報および文字種）が出力データとされ、そのときの書類画像が入力データとされてトレーニングデータを生成する処理も含まれ、そのようにして生成されたトレーニングデータに基づいて、機械学習処理部２６は、文字種推定部２２のディープニューラルネットワークに対する追加の機械学習を行うようにしてもよい。

なお、上述のデータファイル生成部２４、検証部２５、機械学習処理部２６は、必須のものではなく、必要に応じて設ければよい。

次に、上記文字種推定システムの動作について説明する。図４は、図１に示す文字種推定システムの動作を説明するフローチャートである。

まず、書類画像取得部２１は、書類画像を取得する（ステップＳ１）。

次に、文字種推定部２２は、取得された書類画像内の各テキスト領域の位置・サイズ情報、および各テキスト領域内のテキストの文字種を推定する（ステップＳ２）。このとき、文字種推定部２２は、機械学習済みのディープニューラルネットワークを使用して、取得された書類画像（ラスタイメージ）を入力データとしてディープニューラルネットワークに入力し、ディープニューラルネットワークの出力データとして、各テキスト領域の位置・サイズ情報および文字種を取得する。

そして、テキスト特定部２３は、推定されたテキスト領域について推定された文字種用の文字認識処理を実行して、推定されたテキスト領域内のテキストをテキストデータとして特定する（ステップＳ３）。このとき、推定された文字種用の文字認識処理が適用されることで、文字認識率が向上するとともに、認識誤り率が低下する。

各テキスト領域について文字認識処理が実行された後、必要に応じて、検証部２５は、特定のテキスト領域についての検証を上述のように行う（ステップＳ４）。

そして、データファイル生成部２４は、各テキスト領域について特定されたテキストデータを含むデータファイルを例えばＣＳＶフォーマットなどで生成する（ステップＳ５）。例えば、このようにして生成されたデータファイルを使用して、書類画像内の文字情報がテキストデータとしてデータベースに登録される。

以上のように、上記実施の形態によれば、書類画像取得部２１は、書類画像を取得し、文字種推定部２２は、その書類画像内の１または複数のテキスト領域の位置・サイズ情報、およびその１または複数のテキスト領域のそれぞれについてテキスト領域内のテキストの文字種を推定し、テキスト特定部２３は、推定されたテキスト領域について推定された文字種用の文字認識処理を実行して、推定されたテキスト領域内のテキストをテキストデータとして特定する。そして、文字種推定部２２は、機械学習済みのディープニューラルネットワークを備え、そのディープニューラルネットワークの入力データは、上述の書類画像であり、そのディープニューラルネットワークの出力データは、上述の１または複数のテキスト領域のそれぞれについての上述の位置・サイズ情報および文字種である。

これにより、事前にユーザが文字種を指定することなく、書類内の各テキストに対して適切な文字認識処理が自動的に実行され、様々な書類内の文字情報の抽出が正確に行われる。

なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。

例えば、上記実施の形態において、上述のシステムは、推定した文字種を他の用途に使用してもよい。例えば、特定の文字種については文字認識を行わないようにしてもよい。

また、上記実施の形態において、上述の処理が完了した後、ただちに、書類画像の画像データを当該システムから消去するようにしてもよい。

本発明は、例えば、帳票読取システムに適用可能である。

１１文字種推定プログラム
２１書類画像取得部
２２文字種推定部
２３テキスト特定部
２４データファイル生成部
２５検証部
２６機械学習処理部

Claims

書類画像を取得する書類画像取得部と、
前記書類画像内の１または複数のテキスト領域の位置・サイズ情報、および前記１または複数のテキスト領域のそれぞれについて前記テキスト領域内のテキストの文字種を推定する文字種推定部と、
推定された前記テキスト領域について推定された前記文字種用の文字認識処理を実行して、推定された前記テキスト領域内のテキストをテキストデータとして特定するテキスト特定部とを備え、
前記文字種推定部は、機械学習済みのディープニューラルネットワークを備え、
前記ディープニューラルネットワークの入力データは、前記書類画像であり、
前記ディープニューラルネットワークの出力データは、前記１または複数のテキスト領域のそれぞれについての前記位置・サイズ情報および前記文字種であること、
を特徴とする文字種推定システム。
前記複数のテキスト領域の前記テキストデータを含むデータファイルを生成するデータファイル生成部とをさらに備え、
前記テキストデータは、前記データファイルにおいて、前記複数のテキスト領域の位置に対応する順序で配列されること、
を特徴とする請求項１記載の文字種推定システム。
前記複数のテキスト領域の前記テキストデータを含むデータファイルを生成するデータファイル生成部とをさらに備え、
前記テキストデータは、前記データファイルにおいて、前記文字種に対応する順序で配列されること、
を特徴とする請求項１記載の文字種推定システム。
前記１または複数のテキスト領域のうちの特定のテキスト領域のテキストの有無または前記特定のテキスト領域のテキストの整合性を検証する検証部をさらに備えることを特徴とする請求項１記載の文字種推定システム。
書類画像を取得する書類画像取得ステップと、
機械学習済みのディープニューラルネットワークで、前記書類画像内の１または複数のテキスト領域の位置・サイズ情報、および前記１または複数のテキスト領域のそれぞれについて前記テキスト領域内のテキストの文字種を推定する文字種推定ステップと、
推定された前記テキスト領域について推定された前記文字種用の文字認識処理を実行して、推定された前記テキスト領域内のテキストをテキストデータとして特定するテキスト特定ステップとを備え、
前記ディープニューラルネットワークの入力データは、前記書類画像であり、
前記ディープニューラルネットワークの出力データは、前記１または複数のテキスト領域のそれぞれについての前記位置・サイズ情報および前記文字種であること、
を特徴とする文字種推定方法。
コンピュータを、
書類画像を取得する書類画像取得部、
前記書類画像内の１または複数のテキスト領域の位置・サイズ情報、および前記１または複数のテキスト領域のそれぞれについて前記テキスト領域内のテキストの文字種を推定する文字種推定部、並びに
推定された前記テキスト領域について推定された前記文字種用の文字認識処理を実行して、推定された前記テキスト領域内のテキストをテキストデータとして特定するテキスト特定部として機能させ、
前記文字種推定部は、機械学習済みのディープニューラルネットワークを備え、
前記ディープニューラルネットワークの入力データは、前記書類画像であり、
前記ディープニューラルネットワークの出力データは、前記１または複数のテキスト領域のそれぞれについての前記位置・サイズ情報および前記文字種であること、
を特徴とする文字種推定プログラム。