JP2023166719A

JP2023166719A - 文字認識処理システム、文字認識処理方法、及びプログラム

Info

Publication number: JP2023166719A
Application number: JP2022077428A
Authority: JP
Inventors: 秀征伊藤; Shusei Ito; 康高畠; Yasutaka Hata; 洋平近藤; Yohei Kondo
Original assignee: Toppan Holdings Inc
Current assignee: Toppan Holdings Inc
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2023-11-22

Abstract

【課題】複数の種別の異なる文字認識対象画像ごとに対応して適切な文字認識処理の結果が得られる文字認識処理システム、方法及びプログラムを提供する。【解決手段】製造工場毎において使用されるユーザ端末と、文字認識サーバと、を備える文字認識処理システムにおいて、文字認識サーバ２００は、撮像画像に基づく文字認識対象画像について、認識対象文字列が単一行によるものである第１種別と、複数の認識対象文字列が所定の様式に従って予め定められた位置に配置される第２種別とのいずれであるのかを判定する種別判定部２２２と、第１種別と判定された文字認識画像については、第１種別に対応する第１文字認識前処理を実行し、第２種別と判定された文字認識対象画像については、第２種別に対応する第２文字認識前処理を実行し、第１文字認識前処理または第２文字認識前処理が行われた文字認識対象画像から文字を認識する文字認識処理部２２３と、を備える。【選択図】図３

Description

本発明は、文字認識処理システム、文字認識処理方法、及びプログラムに関する。

スキャナにより紙帳票をスキャンして得られた文書画像から抽出した文字情報を構造化するようにされた技術が知られている（例えば、特許文献１参照）。

特開２０１９－８２８１４号公報

文字認識処理にあたり、文字認識対象画像として、例えば賞味期限の年月日等のように単一行の文字列によるものである種別ものと、帳票等のように規定の様式に従って複数の所定の項目ごとに文字列が配置される種別とのそれぞれに対応する場合がある。このように複数の種別の異なる文字認識対象画像に対応して文字認識処理を行う場合、種別ごとに適切な文字認識処理の結果が得られるようにすることが求められる。

本発明は、このような事情に鑑みてなされたもので、複数の種別の異なる文字認識対象画像ごとに対応して適切な文字認識処理の結果が得られるようにすることを目的とする。

上述した課題を解決する本発明の一態様は、撮像画像に基づく文字認識対象画像について、認識対象文字列が単一行によるものである第１種別と、複数の認識対象文字列が所定の様式に従って予め定められた位置に配置される第２種別とのいずれであるのかを判定する種別判定部と、前記第１種別と判定された文字認識画像については、前記第１種別に対応する第１文字認識前処理を実行し、前記第２種別と判定された文字認識対象画像については、前記第２種別に対応する第２文字認識前処理を実行し、前記第１文字認識前処理または前記第２文字認識前処理が行われた文字認識対象画像から文字を認識する文字認識処理部とを備える文字認識処理システムである。

本発明の一態様は、文字認識処理システムにおける文字認識処理方法であって、撮像画像に基づく文字認識対象画像について、認識対象文字列が単一行によるものである第１種別と、複数の認識対象文字列が所定の様式に従って予め定められた位置に配置される第２種別とのいずれであるのかを判定する種別判定ステップと、前記第１種別と判定された文字認識画像については、前記第１種別に対応する第１文字認識前処理を実行し、前記第２種別と判定された文字認識対象画像については、前記第２種別に対応する第２文字認識前処理を実行し、前記第１文字認識前処理または前記第２文字認識前処理が行われた文字認識対象画像から文字を認識する文字認識処理ステップとを備える文字認識処理方法である。

本発明の一態様は、文字認識処理システムにおけるコンピュータを、撮像画像に基づく文字認識対象画像について、認識対象文字列が単一行によるものである第１種別と、複数の認識対象文字列が所定の様式に従って予め定められた位置に配置される第２種別とのいずれであるのかを判定する種別判定部、前記第１種別と判定された文字認識画像については、前記第１種別に対応する第１文字認識前処理を実行し、前記第２種別と判定された文字認識対象画像については、前記第２種別に対応する第２文字認識前処理を実行し、前記第１文字認識前処理または前記第２文字認識前処理が行われた文字認識対象画像から文字を認識する文字認識処理部として機能させるためのプログラムである。

以上説明したように、本発明によれば、複数の種別の異なる文字認識対象画像ごとに対応して適切な文字認識処理の結果が得られるようになるという効果が得られる。

本実施形態における文字認識処理システムの構成例を示す図である。本実施形態のユーザ端末にて表示される文字認識支援アプリケーションのアプリケーション画面の一例を示す図である。本実施形態における文字認識サーバの構成例を示す図である。本実施形態におけるフォーマットデータの一例を示す図である。本実施形態における文字列ルールテーブルの一例を示す図である。本実施形態における文字変換テーブルの一例を示す図である。本実施形態における文字認識サーバが文字認識に対応して実行する処理手順例を示す図である。本実施形態における文字認識サーバが２値化に対応して実行する処理手順例を示すフローチャートである。本実施形態における文字認識サーバが傾き補正に対応して実行する処理手順例を示すフローチャートである。本実施形態における文字認識サーバが、文字補正に対応して実行する処理手順例を示すフローチャートである。本実施形態における単一行文字列の種別の文字認識対象画像を示す図である。本実施形態におけるフォーマット化書面の種別の文字認識対象画像を示す図である。本実施形態における傾き補正の例について説明する図である。本実施形態における結合文字列の生成の例について説明する図である。

［文字認識処理システムの構成例］
図１は、本実施形態の文字認識処理システムの構成例を示している。本実施形態の文字認識処理システムは、製造工場ＦＣにおける製品の製造管理の支援として、製造工場ＦＣにおける所定の対象についてＯＣＲ（Optical Character Reader）による文字認識処理を行い、文字認識結果を製造工場ＦＣにおける管理者等のユーザが確認可能とされる。

本実施形態の文字認識処理システムは、製造工場ＦＣごとにおいて使用されるユーザ端末１００と、文字認識サーバ２００とを備える。

ユーザ端末１００は、製造工場ＦＣにおいて文字認識対象を撮像するのに用いられる。また、ユーザ端末１００は、文字認識処理結果を表示することができる。ユーザ端末１００は、本実施形態の文字認識処理システムに対応する文字認識支援アプリケーションが動作するようにされてよい。文字認識支援アプリケーションは、ユーザの撮像の操作に応じて得られた文字認識対象画像を文字認識サーバ２００に送信し、文字認識サーバ２００が受信した文字認識対象画像を対象に実行した文字認識処理結果を表示することができる。

ユーザ端末１００は、例えばユーザが所持するスマートフォンやタブレット端末等の携帯端末であってもよい。この場合には、ユーザがユーザ端末１００を操作して文字認識対象を撮像するようにされる。あるいは、ユーザ端末は、例えばベルトコンベアなどにより運ばれる製品における文字認識対象の箇所を撮像するカメラと、当該カメラと接続されたコンピュータ装置とにより構成されてよい。

本実施形態において文字認識対象は、例えば製品のパッケージに印刷された賞味期限などであってよい。また、文字認識対象は、製造装置や製造管理装置などにおいて表示される温度等の製造管理に関する情報などであってよい。このような賞味期限、装置での表示による温度等の情報は、単一行による文字列が文字認識対象となる。

また、文字認識対象は、製品に貼り付けられるラベルなどであってよい。また、文字認識情報は、受注や発注等に関連する帳票であってよい。このようなラベルや帳票等は、当該ラベルや帳票が対応する範囲において、規定のフォーマット（様式）に従って所定位置に配置された項目ごとに含まれる文字列が文字認識対象となる。

本実施形態の文字認識支援システムは、文字認識対象の種別として、単一行の文字列によるもの（単一行文字列：第１種別の一例）と、ラベルや帳票などのようにフォーマットが定められたもの（フォーマット化書面：第２種別の一例）とのそれぞれに対応して文字認識処理を行うことが可能とされている。

［文字認識支援アプリケーションについて］
図２は、ユーザ端末１００にて表示される文字認識支援アプリケーションのアプリケーション画面の一例を示している。図２（Ａ）は、単一行文字列を文字認識対象とする場合のアプリケーション画面の一例であり、図２（Ｂ）は、フォーマット化書面を文字認識対象とする場合のアプリケーション画面の一例である。
同図のアプリケーション画面において、撮像画像エリアＡＲ１は、カメラにより撮像されている撮像画像が表示されるエリアである。撮像画像エリアＡＲ１においては、単一行文字列の撮像に際してガイドとなるフレームエリアＡＲ２が配置されている。

撮像画像エリアＡＲ１内にはフレームエリアＡＲ２が配置されている。フレームエリアＡＲ２は、撮像画像の全体において、単一行文字列を文字認識対象とする場合に対応して文字認識対象画像として撮像される領域部分を示す。

ユーザは、単一行文字列を文字認識対象とする場合には、図２（Ａ）に示すように、フレームエリアＡＲ２内に文字認識対象の文字列が収まるようにして撮像する操作を行う。また、ユーザは、フォーマット化書面を文字認識対象とする場合には、撮像画像エリアＡＲ１内に文字に新式対象のフォーマット化書面が収まるようにして撮像する操作を行う。
ユーザ端末１００は、撮像の操作が行われたことに応じて、撮像画像から撮像画像エリアＡＲ１に対応する画像部分とフレームエリアＡＲ２に対応して抜き出した画像部分とのそれぞれを、文字認識対象画像として文字認識サーバ２００に送信する。
なお、ユーザ端末１００は、撮像画像エリアＡＲ１に対応する画像部分と、当該画像部分においてフレームエリアＡＲ２に対応する座標の情報とを送信してもよい。

文字認識サーバ２００は、受信した文字認識対象画像に基づいて、今回の文字認識対象が、単一行文字列とフォーマット化書面とのいずれであるのかを判定し、判定した文字認識対象に応じた文字認識処理を実行する。文字認識サーバ２００は、文字認識処理結果として得られた文字列をユーザ端末１００に送信する。
ユーザ端末１００は、文字認識処理結果としての文字列を受信すると、受信した文字列をアプリケーション画面における認識結果エリアＡＲ３に表示させる。また、ユーザ端末１００は、受信した文字認識処理結果としての文字列を自己が備える記憶部に記憶してよい。あるいは、ユーザ端末１００は、製造工場ＦＣにおける所定の装置、サーバ等（図示せず）に文字認識処理結果を送信してよい。
製造工場ＦＣの装置、サーバ等は送信された文字認識結果を記憶してよい。このようにユーザ端末１００あるいは製造工場ＦＣ内の装置、サーバ等にて記憶された文字認識処理結果としての文字列は、製造工場ＦＣにおける各種の製造管理等に用いられてよい。
文字認識サーバ２００は、フォーマット化書面を文字認識対象とした場合には、撮像されたフォーマット化書面において認識した所定項目ごとの文字列の情報を文字認識処理結果としてユーザ端末１００に送信する。
また、この場合にも、ユーザ端末１００は、受信した文字認識処理結果を、自己が備える記憶部または製造工場ＦＣ内の装置、サーバ等に記憶させてよい。
また、この場合にもユーザ端末１００は、所定の態様で文字認識処理結果を表示してよい。一例として、ユーザ端末１００は、フォーマット化書面において文字認識対象とされている項目名ごとに認識された文字列のリストを表示してよい。

［文字認識サーバの構成例］
図３は、文字認識サーバ２００の機能構成例を示している。同図の文字認識サーバ２００は、通信部２０１、制御部２０２、及び記憶部２０３を備える。
通信部２０１は、ネットワーク経由でユーザ端末１００と通信を行う。

制御部２０２は、文字認識サーバ２００における各種の制御を実行する。制御部２０２は、画像取得部２２１、種別判定部２２２、文字認識処理部２２３、及び処理結果送信部２２４を備える。
画像取得部２２１は、ユーザ端末１００から送信された文字認識対象画像を取得する。

種別判定部２２２は、画像取得部２２１により取得された文字認識対象画像の種別が単一行文字列とフォーマット化書面とのいずれであるのかを判定する。

文字認識処理部２２３は、取得された文字認識対象画像を対象に文字認識処理を実行する。文字認識処理部２２３は、種別判定部２２２により判定された文字認識対象画像の種別に応じた処理を実行する。つまり、文字認識処理部２２３は、種別判定部２２２により文字認識対象画像が単一行文字列であると判定された場合には、単一行文字列に対応する文字認識処理を実行し、種別判定部２２２により文字認識対象画像がフォーマット化書面であると判定された場合には、フォーマット化書面に対応する文字認識処理を実行する。

処理結果送信部２２４は、文字認識処理部２２３により認識された文字列を示す文字認識処理結果を、文字認識対象画像の送信元のユーザ端末１００に送信する。

記憶部２０３は、文字認識サーバ２００が対応する各種の情報を記憶する。記憶部２０３は、フォーマットデータベース記憶部２３１、文字列ルールテーブル記憶部２３２、及び文字変換テーブル記憶部２３３を備える。
フォーマットデータベース記憶部２３１は、フォーマットデータベースを記憶する。フォーマットデータベースは、文字認識対象として製造工場ＦＣから登録されたフォーマット化書面ごとのフォーマットのデータベースである。

フォーマットデータベースは、フォーマットごとのフォーマットデータを格納する。
図４は、１つのフォーマットに対応するフォーマットデータの一例を示している。同図のフォーマットデータは、フォーマットＩＤ、フォーマット名、画像データ、及び項目データの領域を含む。

フォーマットＩＤの領域は、対応のフォーマットを一意に示すフォーマットＩＤを格納する。

フォーマット名の領域は、対応のフォーマットに付されたフォーマットの名称（フォーマット名）を格納する。

画像データの領域は、対応のフォーマットによるフォーマット化書面の画像データを格納する。フォーマット化書面の画像データは、例えばフォーマット化書面のファイルを画像ファイルに変換したものであってよい。

項目データの領域は、対応のフォーマットにおいて文字認識対象として指定される項目ごとに対応するデータ（項目データ）を格納する。

１つの項目に対応する項目データは、項目ＩＤ、項目名、及び座標の領域を含む。
項目ＩＤの領域は、対応の項目を一意に示す項目ＩＤを格納する。
項目名の領域は、対応の項目に付された名称（項目名）を格納する。
座標の領域は、フォーマット化書面において対応の項目が配置されている座標を格納する。座標は、例えばフォーマット化書面における対応の項目に配置される文字列に外接矩形を設定し、当該外接矩形の位置を示すものとして定められてよい。

なお、１つのフォーマットに対応するフォーマットデータは、例えば対応のフォーマットを登録した製造工場ＦＣを示す工場ＩＤを格納してもよい。

説明を図３に戻す。文字列ルールテーブル記憶部２３２は、文字列ルールテーブルを記憶する。文字列ルールテーブルは、各製造工場ＦＣが文字認識対象とする単一行文字列ごとに対応する文字列ルールと、各製造工場ＦＣが文字認識対象として登録したフォーマット化書面における項目ごとの文字列ルールとを記憶する。

図５は、文字列ルールテーブルの一例を示している。図５（Ａ）は、単一行文字列を文字認識対象とする場合の文字列ルールテーブルである。単一行文字列に対応する文字列ルールテーブルは、単一行文字列に対して１以上の文字列ルールを定義する構造である。１つの単一行文字列に対応する文字列ルールに対してはシーケンス番号が付与される。
図５（Ｂ）は、フォーマット化書面に対応する文字列ルールテーブルである。フォーマット化書面に対応する文字列ルールテーブルは、フォーマット化書面ごとに対応するフォーマットＩＤを格納し、１つのフォーマットＩＤに対応して、フォーマット化書面において含まれる１以上の項目ＩＤと、各項目ＩＤに対応する１以上の文字列ルールとが格納される。１つの項目ＩＤが示す項目に対応する１以上の文字列ルールには、１から昇順によるシーケンス番号が付与される。
文字列ルールは、例えば文字の桁ごとに指定される文字あるいは文字の範囲の条件を指定する。
なお、文字列ルールのない単一行文字列あるいは項目の文字列については、文字列ルールテーブルに対応の文字列ルールが格納されなくともよい。

説明を図３に戻す。文字変換テーブル記憶部２３３は、文字変換テーブルを記憶する。文字変換テーブルは、後述のように文字認識処理によって認識された文字についてのご認識を補正するにあたって使用されるテーブルである。

図６は、文字変換テーブルの一例を示している。同図の文字変換テーブルは、変換対象となる文字（変換対象文字）ごとに１以上の変換候補文字が対応付けられる。また、１の変換対象文字に対応付けられた変換候補文字ごとに優先度（優先順位）が対応付けられる。

［処理手順例］
図７～図１０のフローチャートを参照して、文字認識サーバ２００が実行する処理手順例について説明する。また、図７～図１０の説明において、適宜、図１１～図１４を参照して処理についての説明を行う。

図７のフローチャートは、文字認識サーバ２００が文字認識に対応して実行する処理手順例を示している。
ステップＳ１００：文字認識支援アプリケーションがインストールされたユーザ端末１００は、文字認識対象を撮像したことに応じて、文字認識対象画像を文字認識サーバ２００に送信する。文字認識サーバ２００において画像取得部２２１は、ユーザ端末１００から送信された文字認識対象画像を取得する。

ステップＳ１０２：種別判定部２２２は、ステップＳ１００により取得された文字認識対象画像に対応する文字認識対象の種別が単一行文字列とフォーマット化書面とのいずれであるのかを判定する。

図１１、図１２を参照して、ステップＳ１０２による文字認識対象の種別判定の一例について説明する。
図１１は、単一行文字列としての種別の文字認識対象画像Ｐ１を示している。図１２は、フォーマット化書面としての種別の文字認識対象画像Ｐ２を示している。文字認識対象画像Ｐ１は、フレームエリアＡＲ２に対応して抜き出された画像部分に対応する。文字認識対象画像Ｐ２は、撮像画像エリアＡＲ１に対応する画像部分に対応する。
以降の説明において文字認識対象画像Ｐ１、Ｐ２について特に区別しない場合には、文字認識対象画像Ｐと記載する。
ステップＳ１０２において、種別判定部２２２は、ステップＳ１００により取得された文字認識対象画像Ｐ１の高さｈ１を測定するとともに、文字認識対象画像Ｐ１において存在する文字列に対応する高さのうちで最も大きい値を高さｈ２として測定する。種別判定部２２２は、ｈ２／ｈ１と所定のしきい値Ｋとを比較する。種別判定部２２２は、ｈ２／ｈ１がしきい値Ｋより大きければ、文字認識対象は単一行文字列の種別であると判定し、ｈ２／ｈ１がしきい値Ｋ以下であれば、文字認識対象はフォーマット化書面の種別であると判定する。

また、種別判定部２２２は、先のステップＳ１０２による文字認識対象の種別判定を以下のようにして行ってもよい。
種別判定部２２２は、上記のステップＳ１１２と同様に、フォーマットデータベースにおいてフォーマットごとに対応して格納される画像データの特徴量のうちから、ステップＳ１００により取得した文字認識対象画像Ｐ２の特徴量に最も近いものを検索する。
近似値が所定の閾値より大きいフォーマットの画像データの特徴量が検索されない場合、文字認識対象画像Ｐ２と同じ内容のフォーマットの画像データは無いということになる。この場合、種別判定部２２２は、文字認識対象の種別が単一行文字列であると判定してよい。一方、一致するフォーマットの画像データの特徴量が検索された、文字認識対象画像Ｐは、一致したと判定された画像データの特徴量が対応するフォーマット化書面であることになる。この場合、種別判定部２２２は、文字認識対象の種別がフォーマット化書面であると判定する。
そして、このようにステップＳ１０２の種別判定を行った場合において、文字認識対象の種別がフォーマット化書面であると判定した場合には、当該ステップＳ１０２による判定結果が得られた段階で、フォーマット特定も行われたことになる。この場合、図７におけるステップＳ１１２の処理は省略されてよい。

説明を図７に戻す。
ステップＳ１０４：種別判定部２２２は、ステップＳ１０４により判定された文字認識対象の種別について、単一行文字列とフォーマット化書面とのいずれであるのかを判定する。

ステップＳ１０６：ステップＳ１０４により文字認識対象の種別が単一行文字列であると判定された場合、文字認識処理部２２３は、ステップＳ１０６～Ｓ１１０による前処理（第１文字認識前処理の一例）を実行する。単一行文字列の種別に対応する前処理として、文字認識処理部２２３は、まずステップＳ１０６により、文字認識対象画像Ｐの２値化を実行する。

図８のフローチャートを参照して、ステップＳ１０６としての２値化の処理手順例について説明する。
ステップＳ２００：文字認識処理部２２３は、単一行文字列の種別に対応する文字認識対象画像Ｐ１についてリサイズを行う。リサイズとして、文字認識処理部２２３は、例えば文字認識対象画像Ｐ１の高さ（縦）と幅（横）について、それぞれ所定の画素数に変更する処理となる。このようなリサイズの処理によって、後述の適応的２値化に際しては、認識対象の文字の大きさによっては、文字部分に白抜けが生じる可能性がある。当該ステップＳ２００のリサイズにより認識対象の文字のサイズについて白抜きが生じないように調整することができる。

ステップＳ２０２：ステップＳ１００により取得された文字認識対象画像Ｐ１はカラー画像である。そこで、文字認識処理部２２３は、ステップＳ２００によりリサイズした文字認識対象画像をグレースケールの画像に変換するグレースケール化を実行する。

ステップＳ２０４：文字認識処理部２２３は、ステップＳ２０２によりグレースケール化された文字認識対象画像の平滑化を実行する。平滑化により文字認識対象画像からノイズが除去される。

ステップＳ２０６：ステップＳ１００にて取得された文字認識対象画像Ｐ１の背景の色と文字との色の関係によっては、文字認識処理部２２３は、ステップＳ２０４により平滑化された文字認識対象画像において背景が黒色で文字が白色である場合に、白黒反転する処理を実行する。これにより、文字認識対象画像は、白色の背景に黒色の文字が配置されたものとなり、次の適応的２値化に適した画像となる。

ステップＳ２０８：文字認識処理部２２３は、ステップＳ２０６により白黒反転された文字認識対象画像について、適応的２値化を実行する。適応的２値化では、２値化のしきい値を画素ごとに求めつつ２値化が行われることから、文字認識対象画像において部分的に明るさが変化するような状態に対応して適切な２値化の結果を得ることができる。

ステップＳ２１０：文字認識処理部２２３は、ステップＳ２０８により適応的２値化された後の文字認識対象画像について、例えばステップＳ２００によりリサイズされる前のサイズに戻すためのリサイズを実行する。

説明を図７に戻す。
ステップＳ１０８：文字認識処理部２２３は、ステップＳ１０６により２値化された文字認識対象画像について傾き補正を実行する。ステップＳ１００により取得された文字認識対象画像Ｐにおける文字列は、撮像時の被写体とカメラとの角度関係により傾いている場合がある。文字認識処理にあたっては、認識対象の文字は水平であることが求められる。そこで、文字認識処理部２２３は、傾き補正として、文字認識対象画像Ｐにおける文字列が水平となるように補正を行う。

図９のフローチャートを参照して、ステップＳ１０８としての傾き補正の処理手順例について説明する。
ステップＳ３００：文字認識処理部２２３は、ステップＳ１０６による２値化が完了した文字認識対象画像における文字を白色に変換する処理を実行する。この際、背景については黒色に変換する。これにより、背景が黒色で文字が白色の文字認識対象画像が得られる。

ステップＳ３０２：文字認識処理部２２３は、文字認識対象画像における文字列の塗りつぶし処理を実行する。塗りつぶし処理は、例えばモルフォロジー変換における膨張処理であってよい。例えば、このような膨張処理では、文字列認識対象画像の各画素を中心としたＮ画素×Ｎ画素を抜き出し、白の画素が一つでも含まれれば各画素値を白に、白の画素が含まれなければ黒に出力するようにして白の画素領域を膨張させていく。
塗りつぶし処理が文字認識対象画像の全体に対して実行されることで、例えば図１３（Ａ）に示されるように、ステップＳ３００により得られた文字認識対象画像Ｐ１０において文字列（認識対象文字列）が存在する領域は、図１３（Ｂ）に示されるように１つの白色のかたまりによる塗りつぶし領域ＡＲ２１に変換される。

ステップＳ３０４：文字認識処理部２２３は、ステップＳ３０２により得られた塗りつぶし領域ＡＲ２１に対応する外接矩形ＳＱ（図１３（Ｂ））を算出する。

ステップＳ３０６：文字認識処理部２２３は、ステップＳ３０４により算出された外接矩形ＳＱを対象に、傾き補正に対応する回転処理を実行する。文字認識処理部２２３は、算出された外接矩形ＳＱの水平に対する傾き角度を算出し、算出した傾き角度がゼロとなるように外接矩形ＳＱを回転させる。
なお、ステップＳ３０２により複数の塗りつぶし領域ＡＲ２１が得られたことに応じて複数の外接矩形ＳＱが算出された場合には、文字認識処理部２２３は、文字認識対象画像Ｐ１０における中心位置に最も近い外接矩形ＳＱを利用して傾き補正を行ってよい。また、文字認識処理部２２３は、算出された複数の外接矩形ＳＱのうちで高さが一定以上の外接矩形ＳＱを利用して傾き補正を行うようにしてもよい。

説明を図７に戻す。
ステップＳ１１０：文字認識処理部２２３は、文字認識対象画像部分の抽出（抜き出し）を行う。つまり、文字認識処理部２２３は、ステップＳ１０８により傾き補正が行われた外接矩形ＳＱに対して元の文字列を当てはめる。文字認識処理部２２３は、文字認識対象画像Ｐ１０から、文字列を当てはめた外接矩形ＳＱの画像部分を、文字認識対象画像部分として抽出してよい。これにより、水平の文字列を含む文字認識対象画像部分が得られる。また、このように文字認識対象画像部分を抽出することで、項目に対応する文字列以外で文字として認識されるノイズを除去できる。

ステップＳ１１２：ステップＳ１０４にて文字認識対象画像Ｐ１の種別がフォーマット化書面であると判定された場合、文字認識処理部２２３は、ステップＳ１１２～Ｓ１１６による前処理（第２文字認識前処理の一例）を実行する。フォーマット化書面の種別に対応する前処理として、文字認識処理部２２３は、まず、ステップＳ１１２により、フォーマット特定を実行する。フォーマット特定は、文字認識対象画像Ｐ１が対応するフォーマット化書面のフォーマットを特定することである。

図１２を再度参照して、ステップＳ１１２によるフォーマット特定について説明する。
ステップＳ１００により、図１２に示すラベルを撮像した文字認識対象画像Ｐ２が得られた。この場合には、ステップＳ１０２、Ｓ１０４により文字認識対象画像Ｐ２がフォーマット化書面であることが判定される。
この場合、文字認識処理部２２３は、ステップＳ１１２のフォーマット特定として、文字認識対象画像Ｐ２の特徴量を算出する。また、種別判定部２２２は、フォーマットデータベースにおいてフォーマットごとに対応して格納される画像データの特徴量についても算出する。なお、フォーマットデータベースにおいて、フォーマットごとに画像データの特徴量も予め格納しておき、種別判定部２２２は、格納された画像データの特徴量を用いるようにされてもよい。種別判定部２２２は、フォーマットの画像データの特徴量のうちで、文字認識対象画像Ｐ２の特徴量と最も近いものを検索する。検索された特徴量が対応するフォーマットが、文字認識対象画像Ｐ１が対応するフォーマット化書面のフォーマットであるとして特定される。

文字認識処理部２２３は、上記のように、文字認識対象画像Ｐ２の特徴量と一致するフォーマットの画像データの特徴量を検索するにあたり、取得した文字認識対象画像Ｐ２において項目に該当する文字列を含まない画像部分を抜き出してよい。文字認識処理部２２３は、抜き出した画像部分と同じ特徴量を含むフォーマットの画像データの特徴量を検索するようにされてよい。

例えば、文字認識対象画像Ｐ２においては、項目ごとに対応する文字列領域ＡＲ１２（ＡＲ１２－１～ＡＲ１２－７）を含む。項目に対応する文字列領域ＡＲ１２において示される文字列は固定ではなく変更されるものも多い。このため、同じフォーマットのフォーマット化書面であっても、文字認識対象画像Ｐ２におけるフォーマット化書面の内容と、フォーマットデータにおいて格納されるフォーマット化書面の画像データの内容とで項目の文字が異なっている場合がある。つまり、文字認識対象画像Ｐ２の特徴量と、フォーマットデータにおいて格納される画像データの特徴量とを比較した場合には、一定以上の相違が生じて検索の精度が低下する可能性がある。
そこで、上記のように、文字認識対象画像Ｐ２において項目に該当する文字列を含まない画像部分の特徴量を検索に用いることで検索の精度を高めることができる。

具体的に図１２の例では、文字認識処理部２２３は、文字認識対象画像Ｐ２における画像部分ＡＲ１３を抜き出して検索に用いてよい。画像部分ＡＲ１３は、項目に対応する文字列を含まず固定的な内容を有し絵柄も特徴的であることから、検索に有効である。
文字認識処理部２２３は、例えば文字認識対象画像において項目に対応する文字列が配置されていると推定される領域を推定し、推定した領域ができるだけ少なく、絵柄等が含まれる領域を検索に用いる画像部分として決定してよい。このように画像部分を決定する処理は、例えば各種のフォーマット化書面の画像と検索に用いる画像部分との対応を学習させた学習済みモデルを用いて実行されてよい。

ステップＳ１１４：文字認識処理部２２３は、ステップＳ１００にて取得した文字認識対象画像からフォーマット化書面に対応する画像部分を抽出する。

ステップＳ１１６：文字認識処理部２２３は、ステップＳ１１４により抽出したフォーマット化書面の画像部分から、項目に対応する画像部分を文字認識対象画像部分として抽出する。具体的に、ステップＳ１１４により抽出されたフォーマット化書面の画像部分が図１２に示されるものであった場合、文字認識処理部２２３は、文字列領域ＡＲ１２（ＡＲ１２－１～ＡＲ１２－７）を文字認識対象画像部分として抽出してよい。
この場合において、文字認識処理部２２３は、ステップＳ１１２にて特定されたフォーマットのフォーマットデータにおける項目ごとの座標の情報を用いて、文字認識対象画像における項目ごとの位置を特定し、特定した位置に対応する画像部分を文字認識対象画像部分として抽出してよい。このように文字認識対象画像部分を抽出することで、項目に対応する文字列以外で文字として認識されるノイズを除去できる。
また、例えば図１２における文字列領域ＡＲ１２－７におけるＵＲＬのように変更されることなく固定的となる文字列の項目については、例えば文字認識対象画像部分から除外されてよい。このためには、例えばフォーマットデータにおける項目のデータのうちに、文字列領域ＡＲ１２－７に対応する項目のデータを含めないようにしてよい。

なお、ステップＳ１１４によるフォーマット化書面に対応する画像部分の抽出に際して、文字認識処理部２２３は、傾き補正を実行してよい。この場合の傾き補正として、文字認識処理部２２３は、フォーマット化書面に対応する画像部分においてフォーマットデータと一致する特徴部分を、フォーマットデータにおいて特徴が一致した特徴部分と同じ位置とするように射影変換を行ってよい。

ステップＳ１１８：文字認識処理部２２３は、ステップＳ１１０またはステップＳ１１６により抽出された文字認識対象画像部分を対象に文字認識処理を実行する。つまり、文字認識処理部２２３は、文字認識対象画像部分における文字列を認識する。

ステップＳ１２０：ステップＳ１１８による文字認識処理の結果に誤りが含まれている可能性がある。そこで、文字認識処理部２２３は、ステップＳ１１８により認識された文字列における文字の補正（文字補正）を実行する。

図１０のフローチャートを参照して、ステップＳ１２２としての文字補正の処理手順例について説明する。なお、以降の説明から理解されるように、文字補正の処理は、文字認識対象画像部分ごとに対応して最終的な文字認識結果を確定させる処理となる。

ステップＳ４００：文字認識処理部２２３は、ステップＳ１１８により文字認識処理を行った文字認識対象画像部分のうちから補正対象とする文字認識対象画像部分を１つ選択する。

ステップＳ４０２：文字認識処理部２２３は、補正対象の文字認識対象画像部分に対するステップＳ１１８の文字認識処理の結果として、認識された文字列単位が複数存在するか否かを判定する。文字列単位とは、１以上の文字によるひとまとまりの単位である。１つの文字が水平方向において他の文字と一定の距離を隔てている場合には、当該１つの文字により１つの単位文字列が形成され、複数の文字が水平方向において互いに隣り合う文字が一定の距離にある複数の文字により１つの単位文字列が形成される。

ステップＳ４０４：ステップＳ４０２において単位文字列が複数存在すると判定された場合、文字認識処理部２２３は、文字認識対象画像部分において存在する複数の単位文字列の配置に応じて、複数の単位文字列を結合させた結合文字列を生成する。

図１４を参照して、結合文字列の設定例について説明する。同図は、ステップＳ４００により選択された文字認識対象画像部分Ｐ２０に対する含まれる文字認識処理の結果の一例が示されている。
１の文字認識対象画像部分Ｐ２０においては、単一行文字列に対応する１つの単位文字列、もしくはフォーマットにおける１つの項目に対応する１つの単位文字列が存在する。しかしながら、例えば文字認識対象画像部分においてこれまでの処理により除去しきれなかったノイズ等がある場合には、ステップＳ１１８による文字認識処理の結果として、複数の単位文字列が得られる場合がある。同図においては、左上の認識単位文字列ＵＮ－１と右上の認識単位文字列ＵＮ－２と、左下の認識単位文字列ＵＮ－３と、右下の認識単位文字列ＵＮ－４との４つが存在するとの文字認識処理の結果が得られている。認識単位文字列ＵＮ（ＵＮ－１、ＵＮ－２、ＵＮ－３、ＵＮ－４）のそれぞれにおいて文字列を形成する各文字が認識されている。

このように１つの文字認識対象画像部分Ｐ２０において複数の認識単位文字列ＵＮが存在することとなった場合、文字認識処理部２２３は、正解の単位文字列となり得る認識単位文字列ＵＮの組み合わせごとに単位文字列を連結して連結単位文字列を設定する。
具体的に、図１４の例の場合には、文字認識処理部２２３は、単独の認識単位文字列ＵＮ－１、ＵＮ－２、ＵＮ－３、ＵＮ－４のそれぞれを、単独で連結単位文字列として設定する。また、文字認識処理部２２３は、文字認識対象画像部分Ｐ２０内で水平方向において重複することなく存在する位置関係にある複数の認識単位文字列ＵＮにより連結単位文字列を設定する。具体的には、文字認識処理部２２３は、認識単位文字列ＵＮ－１と認識単位文字列ＵＮ－２とにより連結単位文字列を設定し、認識単位文字列ＵＮ－３と認識単位文字列ＵＮ－２とにより連結単位文字列を設定してよい。なお、認識単位文字列ＵＮ－１と認識単位文字列ＵＮ－４とは、破線で示すように水平方向において重複することから、連結単位文字列として設定されない。

文字認識処理部２２３は、上記のように設定した連結単位文字列ごとに、認識単位文字列ＵＮの左から右にかけて順に文字列を結合していくことで１つの文字列（結合文字列）を生成する。具体的に、認識単位文字列ＵＮ－１の文字列が「１２３４５」で認識単位文字列ＵＮ－２の文字列が「ＡＢ－ＣＤ」である場合、連結単位文字列は、「１２３４５ＡＢ－ＣＤ」となる。単一の認識単位文字列ＵＮによる連結単位文字列については、対応の認識単位文字列ＵＮにおける文字列をそのまま結合文字列として生成してよい。
また、ステップＳ４０２による文字認識処理の結果として、文字認識対象画像部分Ｐ２０の外枠からはみ出す部分があるようにして存在する認識単位文字列ＵＮ－５が得られる場合がある。このような認識単位文字列ＵＮ－５について、文字認識処理部２２３は、ステップＳ４０４において連結単位文字列から除外してよい。

ステップＳ４０６：文字認識処理部２２３は、ステップＳ４０４により生成した結合文字列ごとに、文字列ルールテーブル記憶部２３２に記憶されている対応の文字列ルールと一致しているか否かの判定（ルール一致判定）を行う。

ステップＳ４０８：文字認識処理部２２３は、ステップＳ４０６のルール一致判定により、対応の文字列ルールと一致していると判定された結合文字列が有るか否かを判定する。

ステップＳ４１０：ステップＳ４０４により生成された結合文字列のうちのいずれか１つが正しい文字認識結果に対応しているのであるが、ステップＳ４０８により対応の文字列ルールと一致していると判定された結合文字列がないと判定された場合には、正しい文字認識結果に対応している結合文字列において誤認識された文字が含まれていることになる。
そこで、文字認識処理部２２３は、結合文字列ごとに、文字の補正と補正後の結合文字列についてのルール一致判定とを行う。
１つの結合文字列の補正にあたり、文字認識処理部２２３は、文字変換テーブルに記憶されている文字変換テーブルを利用する。文字認識処理部２２３は、補正対象の結合文字列において、ルール一致判定の結果として文字列ルールに一致していないことが特定された文字を変換対象として、文字変換テーブルを用いて文字の変換を行う。例えば結合文字列においてアルファベットの「Ｏ」として認識されている文字を変換対象とする場合、文字認識処理部２２３は、文字変換テーブル（図６）を参照して、変換対象文字としてのアルファベットの「Ｏ」に対応付けられた変換候補文字のうちで先ず優先度が最も高い数字の「０」に変換する。
文字認識処理部２２３は、補正後の結合文字列ごとに再度、ルール一致判定を行う。

ステップＳ４１２：ステップＳ４０２にて存在する単位文字列が１つであると判定された場合、文字認識処理部２２３は、当該１つの単位文字列についてルール一致判定を行う。

ステップＳ４１４：文字認識処理部２２３は、ステップＳ４１２によるルール一致判定について対応の文字列ルールに一致するとの判定結果が得られたか否かを判定する。

ステップＳ４１６：ステップＳ４１４にて対応の文字列ルールに一致していないと判定された場合、文字認識処理部２２３は、ステップＳ４１０に準じて、対象の単位文字列において文字列ルールに一致していないことが特定された文字について文字変換テーブルを用いて変換するようにして補正を行う。文字認識処理部２２３は、補正された単位文字列について再度ルール一致判定を行う。

ステップＳ４１８：文字認識処理部２２３は、今回選択された文字認識対象画像部分に対応する最終的な文字認識結果を確定させる。
具体的に、文字認識処理部２２３は、ステップＳ４０８にて文字列ルールと一致した結合文字列が有ると判定された場合には、文字列ルールと一致した結合文字列を最終的に認識した文字列として確定させる。
また、文字認識処理部２２３は、ステップＳ４１４にて対象の単位文字列が文字列ルールに一致したと判定された場合には、当該対象の単位文字列を、最終的に認識した文字列として確定させる。
また、文字認識処理部２２３は、ステップＳ４１０の処理を経た場合には、当該ステップＳ４１０にて文字列ルールと一致したことが判定された補正後の結合文字列を、最終的に認識した文字列として確定させる。また、ステップＳ４１０の処理の結果、文字列ルールと一致する補正後の結合文字列がなかったと判定された場合には、文字認識エラーであると確定させてよい。
また、文字認識処理部２２３は、ステップＳ４１４にて文字列ルールと一致したことが判定された場合には、対象の単位文字列を、最終的に認識した文字列として確定させる。
また、文字認識処理部２２３は、ステップＳ４１６を経た場合として、当該ステップＳ４１６にて補正後の単位文字列が文字列ルールと一致した場合には、補正後の単位文字列を、最終的に認識した文字列として確定させる。一方、ステップＳ４１６を経た場合として、当該ステップＳ４１６にて補正後の単位文字列が文字列ルールと一致しなかった場合には、文字認識エラーであると確定させてよい。

ステップＳ４２０：文字認識処理部２２３は、現段階にて、全ての文字認識対象画像部分を対象とする文字補正（文字認識結果の確定）の処理が完了したか否かを判定する。
全ての文字認識対象画像部分を対象とする処理が完了していないと判定された場合には、ステップＳ４００に処理が戻されることで、次の文字認識対象画像部分を対象とする処理が実行される。
文字認識対象画像の種別が単一行文字列であった場合には、文字認識対象画像部分は１つであることから、１回目のステップＳ４２０にて全ての文字認識対象画像部分を対象とする処理が完了したと判定される。また、文字認識対象画像の種別がフォーマット化書面であった場合には、対応のフォーマットにおける全ての項目ごとに対応する文字認識対象画像部分ごとの処理が完了したことを以て、ステップＳ４２０にて全ての文字認識対象画像部分を対象とする処理が完了したと判定される。

説明を図７に戻す。
ステップＳ１２２：処理結果送信部２２４は、ステップＳ４１８により得られた最終的な文字認識結果を示す文字認識結果情報を、文字認識対象画像の送信元のユーザ端末１００に送信する。ユーザ端末１００は、受信した文字認識結果情報を表示等により出力する。
なお、ステップＳ１２２の処理は、図２の例のように即座に文字認識結果が表示されるように、文字認識結果が確定され次第、文字認識結果情報を送信する場合の手順となる。例えば、処理結果送信部２２４は、ステップＳ４１８による最終的な文字認識結果を記憶しておき、ユーザ端末１００から要求されたことに応じて、記憶していた文字認識結果の文字認識結果情報をユーザ端末１００に送信してもよい。

製造工場ＦＣにおいて、管理者等のユーザは、文字認識サーバ２００から送信された文字認識結果情報を用いて製造に関する管理を行うことができる。
一例として、例えば製造工場ＦＣにおいて、製品のパッケージ等に印刷された製品の賞味期限等の所定項目の印刷内容についての文字認識結果情報を確認することで、製品における印刷間違い等を効率良く発見することができる。
なお、製造工場ＦＣのユーザが文字認識サーバ２００に賞味期限等の正しい文字列の情報を登録しておくようにされたうえで、文字認識サーバ２００が文字認識結果と登録された文字列とを比較し、相違していれば、ユーザ端末１００に対して印刷間違いが生じていることを報知するようにされてもよい。

また、例えば製造工場ＦＣにおいて、製品に付された型番等についてバーコードなどによりコード化されていない場合においては、ユーザが型番等の文字認識処理結果を利用することで、効率良く棚卸し等を行うこともできる。

また、製造工場ＦＣにおける設備における計器の計測値などをユーザ端末１００により撮像して、計測値の文字認識結果を保管（記憶）しておくようにして設備のメンテナンスに利用することができる。

また、ユーザは、ユーザ端末１００により帳票を撮像し、帳票単位で文字認識結果を保管しておくようにすることで、例えば受注番号に応じた帳票の分類などの帳票に関する管理を、コンピュータを用いて行うことができる。

なお、文字認識サーバ２００は、印刷された単一行文字列や帳票等をスキャンして得られた画像データやＰＤＦ形式等をはじめとする文書ファイルを取得して文字認識対象としてよい。また、他の任意のシステムから電子データとして出力された画像データや文書ファイルを取得して文字認識対象としてよい。

なお、本実施形態の文字認識処理システムの用途は特に限定されるものではなく、製造工場ＦＣ以外の環境に対応して利用されてよい。

なお、上述のユーザ端末１００、文字認識サーバ２００等の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述のユーザ端末１００、文字認識サーバ２００等の処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ－ＲＯＭ等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。配信サーバの記録媒体に記憶されるプログラムのコードは、端末装置で実行可能な形式のプログラムのコードと異なるものでもよい。すなわち、配信サーバからダウンロードされて端末装置で実行可能な形でインストールができるものであれば、配信サーバで記憶される形式は問わない。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末装置で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１００ユーザ端末、２００文字認識サーバ、２０１通信部、２０２制御部、２０３記憶部、２２１画像取得部、２２２種別判定部、２２３文字認識処理部、２２４処理結果送信部、２３１フォーマットデータベース記憶部、２３２文字列ルールテーブル記憶部、２３３文字変換テーブル記憶部

Claims

撮像画像に基づく文字認識対象画像について、認識対象文字列が単一行によるものである第１種別と、複数の認識対象文字列が所定の様式に従って予め定められた位置に配置される第２種別とのいずれであるのかを判定する種別判定部と、
前記第１種別と判定された文字認識画像については、前記第１種別に対応する第１文字認識前処理を実行し、前記第２種別と判定された文字認識対象画像については、前記第２種別に対応する第２文字認識前処理を実行し、前記第１文字認識前処理または前記第２文字認識前処理が行われた文字認識対象画像から文字を認識する文字認識処理部と
を備える文字認識処理システム。
前記文字認識処理部は、前記第１文字認識前処理において、文字認識対象画像内の１行の認識対象文字列を水平にする傾き補正を行うようにされ、前記傾き補正は、前記１行の認識対象文字列に対する外接矩形を形成し、形成した外接矩形について傾き補正を行う
請求項１に記載の文字認識処理システム。
前記文字認識処理部は、認識対象文字列の第１色と背景の第２色とで色分けした文字認識対象画像について、第２色の画素と所定の位置関係にある第１色の画素を第２色に変換するようにフィルタ処理を実行することで前記外接矩形を形成する
請求項２に記載の文字認識処理システム。
前記文字認識処理部は、１の文字列に対応する文字認識の対象となる文字認識対象画像部分について文字認識を行った結果として１以上の単位文字列が存在する場合には、水平方向において重複することなく配置された位置関係にある複数の単位文字列を結合して得られる結合文字列を生成し、生成した結合文字列のうちから対応の文字列の条件を満たす結合文字列を、文字認識結果とする
請求項１から３のいずれか一項に記載の文字認識処理システム。
文字認識処理システムにおける文字認識処理方法であって、
撮像画像に基づく文字認識対象画像について、認識対象文字列が単一行によるものである第１種別と、複数の認識対象文字列が所定の様式に従って予め定められた位置に配置される第２種別とのいずれであるのかを判定する種別判定ステップと、
前記第１種別と判定された文字認識画像については、前記第１種別に対応する第１文字認識前処理を実行し、前記第２種別と判定された文字認識対象画像については、前記第２種別に対応する第２文字認識前処理を実行し、前記第１文字認識前処理または前記第２文字認識前処理が行われた文字認識対象画像から文字を認識する文字認識処理ステップと
を備える文字認識処理方法。
文字認識処理システムにおけるコンピュータを、
撮像画像に基づく文字認識対象画像について、認識対象文字列が単一行によるものである第１種別と、複数の認識対象文字列が所定の様式に従って予め定められた位置に配置される第２種別とのいずれであるのかを判定する種別判定部、
前記第１種別と判定された文字認識画像については、前記第１種別に対応する第１文字認識前処理を実行し、前記第２種別と判定された文字認識対象画像については、前記第２種別に対応する第２文字認識前処理を実行し、前記第１文字認識前処理または前記第２文字認識前処理が行われた文字認識対象画像から文字を認識する文字認識処理部
として機能させるためのプログラム。