JP2020119559A

JP2020119559A - 文字認識方法及び文字認識装置

Info

Publication number: JP2020119559A
Application number: JP2020004985A
Authority: JP
Inventors: ジャン・チュヌイェヌ; Chunyen Jang; 俊孫; Shun Son; ユィ・シアオイ; Xiaoyi Yu
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-01-28
Filing date: 2020-01-16
Publication date: 2020-08-06
Also published as: CN111488870A

Abstract

【課題】文字認識方法を提供する。【解決手段】該文字認識方法は、画像を取得するステップと、画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、複数の矩形領域のうちの互いに近接する第１領域及び第２領域について、第１領域と第２領域との重なり領域の水平方向の幅の、第２領域の水平方向の幅に対する比が第１所定閾値以上である場合、第１領域と第２領域とを１つの領域に併合するステップであって、第２領域の水平方向の幅は第１領域の水平方向の幅よりも小さく、第１領域と第２領域とは部分的に重なる、ステップと、変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む。【選択図】図４

Description

本開示は、文字認識方法及び文字認識装置に関し、特に手書き文字を含む文書のスキャン画像における文字の認識に関する。

ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：光学式文字認識）は、光学技術を用いて文字及び符号をスキャンして認識する技術である。この技術は、画像入力、２値化などの画像前処理、認識すべき文書の段落分けや行分けの処理などのレイアウト解析、文字切り取り、切り取られた文字の認識を含む。

従来のＯＣＲ技術は、印刷された文字又はノイズを有する印刷された文字を認識する場合に良好な分割効果を有する。これは、印刷された文字が通常のレイアウトを有しており、印刷された紙の文書をスキャンして得られた画像にスキャンの際にノイズが発生する可能性があるが、ＯＣＲの認識精度が大幅に低下することがないからである。

しかし、従来のＯＣＲ方法は、特殊なフォント又は特殊なレイアウト、例えばぞんざいな手書きなどによる認識精度の低下という問題を解決することができず、このような認識精度の低下は主に文字の分割段階での文字の誤分割によるものである。手書き文字は書く者の書きの特性に応じて大きく異なり、異なる言語で文字を構築するプロセスも大きく異なるため、文字を正しく分割することはさらに困難になる。

一例として、本開示では、分割、認識し難い日本語の手書きの紙文書のスキャン画像における文字の抽出を説明し、日本語の手書きの文書を含む文書の文字認識の技術を提供することを目的とする。なお、本発明は、日本語と同様なフォントを有する他の言語、例えば中国語などに適用されてもよい。

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。

本開示の目的を実現するために、本開示の１つの態様では、文字認識方法であって、画像を取得するステップと、前記画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、前記複数の矩形領域のうちの互いに近接する第１領域及び第２領域について、前記第１領域と前記第２領域との重なり領域の水平方向の幅の、前記第２領域の水平方向の幅に対する比が第１所定閾値以上である場合、前記第１領域と前記第２領域とを１つの領域に併合するステップであって、前記第２領域の水平方向の幅は前記第１領域の水平方向の幅よりも小さく、前記第１領域と前記第２領域とは部分的に重なる、ステップと、変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む、方法を提供する。

本開示のもう１つの態様では、文字認識方法を実行する少なくとも１つのプロセッサ、を含む、文字認識装置をさらに提供する。

本開示に係る文字認識方法によれば、日本語の手書き文書を含む文書における文字を分割、認識することができ、従来技術に比べて、文字認識の精度を向上させることができる。

本開示の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は図面を参照しながら本開示の実施形態を説明する。
オーバーセグメンテーションのアルゴリズムを用いて手書き文字に対してオーバーセグメンテーション（ｏｖｅｒ−ｓｅｇｍｅｎｔａｔｉｏｎ）を行って得られた結果を示す模式図である。分割後の矩形領域の併合及び文字認識の処理を示す模式図である。従来のオーバーセグメンテーションのアルゴリズムを用いた誤分割の例を示す模式図である。本発明の実施形態に係る文字認識方法を示すフローチャートである。従来の分割線の生成方法を示す模式図である。本開示の実施形態に係る第１所定条件に基づいて矩形領域を併合する方法の１つの態様を示す模式図である。本開示の実施形態に係る第１所定条件に基づいて矩形領域を併合する方法のもう１つの態様を示す模式図である。図７Ａ及び図７Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法の１つの態様を示す模式図である。図７Ａ及び図７Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法の１つの態様を示す模式図である。図８Ａ及び図８Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のもう１つの態様を示す模式図である。図８Ａ及び図８Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のもう１つの態様を示す模式図である。図９Ａ及び図９Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のさらにもう１つの態様を示す模式図である。図９Ａ及び図９Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のさらにもう１つの態様を示す模式図である。図１０Ａ及び図１０Ｂは２組のテキスト行画像の例を示す模式図である。図１０Ａ及び図１０Ｂは２組のテキスト行画像の例を示す模式図である。本開示の実施形態に係る文字認識方法を実現可能な装置の汎用機器の構成を示す図である。

以下は図面を参照しながら本開示の例示的な実施形態を説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、当業者が実施形態を実現する際に、実施形態を実現するために特定の決定を行ってもよく、これらの決定は実施形態に応じて変更されてもよい。

なお、本開示を明確にするために、図面には本開示に密に関連する構成要件のみが示され、本開示と関係のない細部が省略されている。

以下は図面を参照しながら本開示の例示的な実施例を説明する。なお、明確化のために、図面及び説明では当業者に知られており、例示的な実施例と関係のない部分及びプロセスの表示及び説明が省略されている。

なお、例示的な実施例の各態様は、システム、方法又はコンピュータプログラムプロダクトとして実施されてもよい。このため、例示的な実施例の各態様は、具体的に以下の形式で実現されてもよく、即ち、完全なハードウェアの実施例、完全なソフトウェアの実施例（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、又はソフトウェアとハードウェアとの組み合わせの実施例であってもよく、本明細書では一般的に「回路」、「モジュール」又は「システム」と称される場合がある。さらに、例示的な実施例の各態様は、１つ又は複数のコンピュータ読み取り可能な媒体で表されるコンピュータプログラムプロダクトの形を採用してもよく、該コンピュータ読み取り可能な媒体にはコンピュータ読み取り可能なプログラムコードが記録されている。コンピュータプログラムは、例えば、コンピュータのネットワークを介して配分されてもよいし、１つ又は複数のリモートサーバに配置されてもよいし、装置のメモリに埋め込まされてもよい。

１つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを用いてもよい。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線若しくは半導体のシステム、装置若しくは機器、又はこれらの任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例（非網羅的なリスト）は、１つ又は複数のワイヤの電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去型のプログラミング可能な読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学的記憶装置、磁気的記憶装置、又はこれらの適切な組み合わせを含む。本明細書では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置若しくは機器により使用され、或いはこれらに関連して使用するプログラムを含み、或いは記憶する任意の有形の媒体であってもよい。

コンピュータ読み取り可能な信号媒体は、例えば、ベースバンド内、又はキャリアの一部として伝播される、コンピュータ読み取り可能なプログラムコードを有するデータ信号を含んでもよい。このような伝播信号は、任意の適切な形を採用してもよく、例えば電磁、光学又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。

コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の、命令実行システム、装置又は機器により使用され、或いはこれらに関連して使用されるプログラムを伝送、伝播又は送信できる任意のコンピュータで読み取り可能な媒体であってもよい。

コンピュータ読み取り可能な媒体におけるプログラムコードは、任意の適切な媒体を用いて伝送されてもよく、例えば無線、有線、光ケーブル、無線周波数など、又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。

本明細書に開示される例示的な実施例の各態様の操作を実行するためのコンピュータプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで記述されてもよく、該プログラミング言語は、Ｊａｖａ(登録商標)、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、「Ｃ」プログラミング言語又は同様なプログラミング言語などの従来の手続き型プログラミング言語を含む。

以下は、例示的な実施例に係る方法、装置（システム）及びコンピュータプログラムプロダクトのフローチャート及び／又はブロック図を参照しながら、本明細書で開示される例示的な実施例の各態様を説明する。なお、フローチャート及び／又はブロック図の各ブロック、並びにフローチャート及び／又はブロック図の各ブロックの組み合わせは、コンピュータプログラム命令により実現されてもよい。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサに提供されて装置を構成し、コンピュータ又は他のプログラミング可能なデータ処理装置によりこれらの命令を実行することで、フローチャート及び／又はブロック図の各ブロックに規定された機能／操作を実現するための装置を構成する。

これらのコンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置に特定の方法で動作するコンピュータ読み取り可能な媒体に記憶され、コンピュータ読み取り可能な媒体に記憶された命令によりフローチャート及び／又はブロック図の各ブロックに規定された機能／操作を実現する命令を含むプロダクトを構成してもよい。

コンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置にロードされ、コンピュータ又は他のプログラミング可能なデータ処理装置で一連の動作ステップが実行され、コンピュータ又は他のプログラミング装置で実行される命令によりフローチャート及び／又はブロック図の各ブロックに規定された機能／操作を実現するプロセスを提供してもよい。

図１はオーバーセグメンテーションのアルゴリズムを用いて手書き文字に対してオーバーセグメンテーション（ｏｖｅｒ−ｓｅｇｍｅｎｔａｔｉｏｎ）を行って得られた結果を示す模式図である。

図１には、オーバーセグメンテーションのアルゴリズムを用いて１行の文字に対してオーバーセグメンテーションを行って得られた結果を示している。オーバーセグメンテーションは、過度の分割を意味し、図１に示すように、例えば１行の文字を含む画像において行に垂直な分割線を設置することで、１行の文字を複数の矩形領域に分割する。分割線により分割された例えば図１に示す矩形領域に含まれる文字部分が１つの文字の一部である可能性があるため、後続処理において同一の文字に属する字画を含む２つ以上の矩形領域を併合して完全な文字を形成する必要がある。以下は、この処理を説明する。このように、本開示の各実施形態では、オーバーセグメンテーションのアルゴリズムを用いて文字画像に対して初期的分割を行う。具体的な分割線の決定方法は後述する。

図２は分割後の矩形領域の併合及び文字認識の処理を示す模式図である。

オーバーセグメンテーションの後に、１つの文字は該文字の字画を含む２つ以上の領域に区分される場合がある。よって、認識を行うためにこれらの領域を併合して完全な文字を形成する必要がある。併合の段階では、全ての領域を１回の処理を行い、ここで、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて認識を行い、その後、該領域とその後の１，２，…，ｎ個の領域（図２ではｎは４である）とを併合してＣＮＮにより認識を行う。例えば、図２では、３つの日本語文字「浅草橋」はオーバーセグメンテーションのアルゴリズムにより４つの領域に分割され、この４つの領域の併合について１０種類の組み合わせが存在するため、ＣＮＮを用いてこの１０種類の組み合わせの併合領域についてそれぞれ認識を行う。通常、１行の文字には数多くの文字が含まれ、数多くの分割領域が生成されるため、このような組み合わせにより計算の負荷が非常に大きくなり、効率性が低くなる。図３には従来のオーバーセグメンテーションのアルゴリズムを用いた誤分割の例を示している。図３の左図には１つの文字が５つの領域に区分されていることを示し、図３の右図には数多くのノイズ領域が生成していることを示している。例えば図３の状況では、ＧＰＵが計算を効率的に実行できる場合であっても、ＣＰＵを用いて計算を行う際に、計算プロセスが非常に遅くなってしまう。従って、例えばＣＰＵの計算環境について、本発明は、計算量を削減すると共に、認識精度を確保する様々な改良案を提供する。

図４は本発明の実施形態に係る文字認識方法を示すフローチャートである。

ステップ４０１において、文字を含む文書画像を取得する。通常、認識すべき画像は、例えば書類、メールなどをスキャンして得られた画像であってもよく、応用の需要に応じて、デジタル画像の方式により取得される文字を含む任意のタイプの画像であってもよい。ステップ４０２において、取得された画像をそれぞれが文字の字画を含む複数の矩形領域に区分する。具体的には、上述したオーバーセグメンテーションのアルゴリズムを用いて文字を各矩形領域に区分し、オーバーセグメンテーションのアルゴリズムでは、画像の前処理を行う必要があり、分割に適する連結成分画像において分割を行う。そして、一連の画像処理により、複数の候補分割線を取得する。そして、フィルタリング方法を実行して誤った分割線を削除する。しかし、多くの冗長な分割線が依然として含まれている。従って、本開示の実施形態では、従来のオーバーセグメンテーションのアルゴリズムをベースにしてさらに改良を行い、冗長な分割線を削除するフィルタリング方法を提供する。以下は、図５を参照しながら該改良方法を詳細に説明する。オーバーセグメンテーションのアルゴリズムにより分割線を取得する方法は当業者にとって既知であるため、ここでその原理を詳細に説明しなくても、当業者が該方法を実現できる。なお、具体的な応用に基づいて、該改良された冗長な分割線を削除するためのフィルタリング方法を採用するか否かを決定してもよい。

図５には分割線の生成方法を示している。図５の左図は、決定された分割に適する連結成分の画像であり、分割線が決定されている。図５の中央の図は、連結成分の画像に対応する完全な文字の画像である。右図は、分割線の例である。該従来のアルゴリズムでは、分割線と該文字の字画との交点の数は４個であり（分割点自体を含まない）、この分割線が冗長であることは明らかである。本発明の各実施形態では、分割線と文字の字画との交点の数は２以下となるように設定される（分割点自体を含まない）。これによって、統計実験により冗長であることが証明された分割線をフィルタリングすることができ、認識の精度を確保できると共に、計算量をさらに削減することができる。冗長な分割線を除去した後に、各矩形領域を取得する。分割線が取得された場合に矩形領域を取得する方法は、オーバーセグメンテーションのアルゴリズムを知っている当業者にとって既知であるため、ここでその原理を詳細に説明しなくても、当業者が該方法を実現できる。

図４に戻り、ステップ４０２の処理が終了した後に、ステップ４０３に進む。ステップ４０３において、第１所定条件に基づいて複数の矩形領域のうちの互いに近接する第１領域と第２領域とを併合する。ここで、第２領域の水平方向の幅は第１領域の水平方向の幅よりも小さく、且つ第１領域と第２領域とは部分的に重なる。ここで、第１所定条件は、該第１領域及び第２領域について、第１領域と第２領域との重なり領域の水平方向の幅の、第２領域の水平方向の幅に対する比が第１所定閾値以上であることを意味する。以下は、図６Ａを参照しながら該第１所定条件を説明する。

図６Ａは本開示の実施形態に係る第１所定条件に基づいて矩形領域を併合する方法の１つの態様を示す模式図である。

図６Ａの左図及び右図には、部分的に重なる領域が２つあり、右側の矩形領域の幅はｗ＿ｓであり、且つ左側の矩形領域の幅よりも小さく、重なり部分の幅はｗ＿ｏである。ｗ＿ｏ／ｗ＿ｓ≧ｔｈ０を満たした場合、この２つの矩形領域を１つの矩形領域に併合する。ここで、好ましくは、ｔｈ０の値は０．３であり、該好ましい値が計算効率と認識精度とを両立できることが証明されている。図６Ａの右図は、このような併合方法の一例を示している。

図４に戻り、ステップ４０３が終了した後に、ステップ４０４において、変更後の矩形領域の区分に基づいて文字認識を行う。深層学習方法を用いて文字認識を行ってもよく、深層学習方法はＣＮＮである。

本開示のもう１つの実施形態では、ステップ４０１において、文字を含む文書画像を取得する。通常、認識すべき画像は、例えば書類、メールなどをスキャンして得られた画像であってもよく、応用の需要に応じて、デジタル画像の方式により取得される文字を含む任意のタイプの画像であってもよい。ステップ４０２において、取得された画像をそれぞれが文字の字画を含む複数の矩形領域に区分する。具体的には、上述したオーバーセグメンテーションのアルゴリズムを用いて文字を各矩形領域に区分し、オーバーセグメンテーションのアルゴリズムでは、画像の前処理を行う必要があり、分割に適する連結成分画像において従来の分割又は上記の最適化された分割を行う。ステップ４０２の処理が終了した後に、ステップ４０３に進む。ステップ４０３において、第１所定条件に基づいて複数の矩形領域のうちの互いに近接する第１領域と第２領域とを併合する。ここで、第２領域の水平方向の幅は第１領域の水平方向の幅よりも小さく、且つ第１領域と第２領域とは部分的に重なる。また、複数の矩形領域は、第２領域に近接し、且つ第２領域と重ならない第３領域をさらに含む。ここで、第１所定条件を満たした場合、即ち該第１領域、第２領域及び第３領域について、第１領域と第２領域との重なり領域の水平方向の幅の、第２領域の水平方向の幅に対する比が第１所定閾値以上であり、且つ第３領域と第２領域との水平方向の距離の、第２領域の水平方向の幅に対する比が第２所定閾値以上である場合、第１領域と第２領域とを１つの領域に併合する。

図６Ａの左図は、このような併合方法の一例を示している。図６Ａの左図では、右側の矩形領域とそれに近接する他の矩形領域との距離はｗ＿ｓｐである。この場合は、上述した第１所定条件、即ちｗ＿ｏ／ｗ＿ｓ≧ｔｈ０＆＆ｗ＿ｓｐ／ｗ＿ｓ≧ｔｈ１を満たした場合、この２つの矩形領域を１つの矩形領域に併合する。ここで、好ましくは、ｔｈ０及びｔｈ１の値は０．３であり、該好ましい値が計算効率と認識精度とを両立できることが証明されている。

図６Ｂは本開示の実施形態に係る第１所定条件に基づいて矩形領域を併合する方法のもう１つの態様を示す模式図である。

図６Ｂには、図６Ａに示す態様のさらなる最適化を示している。図６Ａの方法のみを用いると、エラーが生じる場合がある。図６Ｂは２つの例を示している。この問題を解決するために、本開示の実施形態では、併合を行う前に、この２つの領域が同一の連結成分に属するか否かを判断し、同一の連結成分に属さない場合、この２つの領域を併合しない。

本開示の実施形態では、図４の文字認識方法において矩形領域をフィルタリングする際に、より多い冗長な矩形領域を除去してもよい。このような処理によれば、矩形領域をさらに減らすことができ、計算効率を向上させることができる。図７Ａ及び図７Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法の１つの態様を示す模式図である。

図４に示す文字認識方法におけるステップ４０２において取得された複数の矩形領域には幅が小さ過ぎる非文字の矩形領域が存在する可能性があるため、このような領域を削除する必要がある。図７Ａ及び図７Ｂはこのような２つの例を示し、円における小さな矩形領域は削除すべき非文字の矩形領域である。具体的には、複数の矩形領域のうちの水平方向の幅が推定された水平方向の平均字画幅よりも小さい矩形領域に対する区分を削除する。その目的は、字画領域の平均の幅の統計を取ることで明らかに字画でない領域を決定して削除することである。

本開示の実施形態では、図４の文字認識方法において矩形領域をフィルタリングする際に、より多い冗長な矩形領域を除去してもよい。このような処理によれば、矩形領域をさらに減らすことができ、計算効率を向上させることができる。図８Ａ及び図８Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のもう１つの態様を示す模式図である。

図４に示す文字認識方法におけるステップ４０２において取得された複数の矩形領域には、１つの比較的に大きな矩形領域が水平方向に他の１つ又は複数の矩形領域を完全に覆う可能性がある。図８Ａはこのような２つの例を示している。図８Ａでは、１つの比較的に大きな矩形領域が他の１つの比較的に小さな矩形領域を完全に覆っている。このような場合は、比較的に小さな矩形領域を削除する必要がある。しかし、このような設定ではエラーが発生する可能性があり、例えば図８に示す比較的に小さな矩形領域に含まれる字画が比較的に大きな矩形領域における文字の構成部分ではないため、このような比較的に小さな矩形領域を削除しなくてもよい。このような場合は、以下の制限条件が追加されている。２つの矩形領域における字画が同一の連結成分に属さない場合、比較的に小さな矩形領域をそのまま維持し、２つの領域における字画が同一の連結成分に属する場合、覆われている比較的に小さな矩形領域を削除する。

本開示の実施形態では、図４の文字認識方法において矩形領域をフィルタリングする際に、より多い冗長な矩形領域を除去してもよい。このような処理によれば、矩形領域をさらに減らすことができ、計算効率を向上させることができる。図９Ａ及び図９Ｂは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のさらにもう１つの態様を示す模式図である。

図４に示す文字認識方法におけるステップ４０２において取得された複数の矩形領域には、幅が小さ過ぎる非文字の矩形領域が存在する可能性があるため、このような領域を削除する必要がある。図９Ａ及び図９Ｂはこのような２つの例を示し、水平方向に沿う２つの隣接する矩形領域が同一の矩形領域と同時に重なっている。このような場合は、隣接する矩形領域と同時に重なる該領域は冗長であり、削除してもよい。

本開示の実施形態に係る文字認識のステップでは、好ましくは深層学習方法を用い、具体的には、該深層学習方法はＣＮＮである。

近年、フィードフォワードニューラルネットワークである畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）が提案されており、その人工ニューロンはカバレッジエリア内の周囲の一部のセルに応答することができ、大規模の画像処理に優れたパフォーマンスを有する。ＣＮＮは、畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）とプーリング層（ｐｏｏｌｉｎｇｌａｙｅｒ）を含む。ＣＮＮは主に、変異、拡大／縮小、及び他の形式の歪みに不変な２次元の画像を認識するために用いられる。ＣＮＮの特徴検出層は訓練データを用いて学習を行うため、ＣＮＮを用いる場合は、明示的な特徴抽出が回避され、暗黙的に訓練データを用いて学習を行う。また、同一の特徴マッピング面におけるニューロンの重みが同一であるため、ネットワークは並行的に学習を行うことができる。これは、ニューロンが互いに接続されたネットワークに対する畳み込みネットワークの大きな利点でもある。畳み込みニューラルネットワークは、局所の重みを共有するという特別な構造により、画像処理及び画像認識に独自の利点を持ち、その構造は実際の生物学的ニューラルネットワークにより近くなる。重みの共有によりネットワークの複雑さが低減し、特に多次元の入力ベクトルの画像をネットワークに直接入力できるという特徴により、特徴の抽出及び分類におけるデータ再構築の複雑さを回避することができる。

従って、本開示の各実施形態では、ＣＮＮを用いて、組み合わせられた文字画像を認識する。ＣＮＮは当業者にとって既知であるため、ここでその本開示の実施形態における応用のみを説明し、その原理を詳細に説明しない。

上記の全ての処理（上述したオーバーセグメンテーションの分割線の最適化方法、及び冗長な矩形領域をフィルタリングするための各種の好適な方法を含む）の後、候補の矩形領域の数は最初の従来のオーバーセグメンテーション方法により生成された矩形領域の数に比べて大幅に少なくなるため、計算効率は大幅に向上した。例えば、検証された２つのデータセット（なお、データセットの関連情報の例示は、単なる本発明の技術的な優位性を示すためのものであり、本発明を限定するものではない）は、その１つは宅急便(登録商標)の書類からの７８３個の日本語の住所のテキスト行を含み、もう１つは２３６７６個の通常の日本語のテキスト行を含む。図１０Ａ及び図１０Ｂは２組のテキスト行画像の例を示している。計算により、元のオーバーセグメンテーションのアルゴリズムにより得られた矩形領域の総数、及び最適化されたオーバーセグメンテーションのアルゴリズムにより得られた矩形領域の総数が取得された。その結果は以下の通りである。

７８３個の住所のテキスト行では、最適化したところ、間違った境界枠が生成されていない。２３６７６個の通常のテキスト行では、最適化したところ、僅か１０個のエラーが発生し、計算効率の改善と比較すると、数十万程度の矩形領域において僅か１０のエラーは全体的な認識精度へ殆ど影響しない。

なお、上述した冗長な矩形領域の削除方法は、特定の応用に応じて任意に組み合わせてもよい。

また、認識された文字を含む文書に対して処理を行うために、認識された文字は、コンピュータにより読み取られてもよい。

図１１は本開示の実施形態に係る文字認識方法を実現可能な装置の汎用機器９００の構成を示す図である。汎用機器９００は、例えばコンピュータシステムであってもよい。なお、汎用機器９００は単なる一例であり、本開示の方法及び装置の使用範囲又は機能を制限するものではない。また、汎用機器９００は、上記の情報処理方法及び情報処理装置における構成要件又はその組み合わせに依存するものではない。

図１１において、中央処理部（ＣＰＵ）９０１は、読み出し専用メモリ（ＲＯＭ）９０２に記憶されているプログラム、又は記憶部９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたプログラムにより各種の処理を実行する。ＲＡＭ９０３には、必要に応じて、ＣＰＵ９０１が各種の処理を実行するに必要なデータが記憶されている。ＣＰＵ９０１、ＲＯＭ９０２、及びＲＡＭ９０３は、バス９０４を介して互いに接続されている。入力／出力インターフェース９０５もバス９０４に接続されている。

入力部９０６（キーボード、マウスなどを含む）、出力部９０７（ディスプレイ、例えばブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む）、記憶部９０８（例えばハードディスクなどを含む）、通信部９０９（ネットワークのインタフェースカード、例えばＬＡＮカード、モデムなどを含む）は、入力／出力インターフェース９０５に接続されている。通信部９０９は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライバ９１０は、入力／出力インターフェース９０５に接続されてもよい。取り外し可能な媒体９１１は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ９１０にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部９０８にインストールされている。

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体９１１を介してソフトウェアを構成するプログラムをインストールする。

なお、これらの記憶媒体は、図１１に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体９１１に限定されない。取り外し可能な媒体９１１は、例えば磁気ディスク（フロッピーディスクを含む）、光ディスク（光ディスク−読み出し専用メモリ（ＣＤ−ＲＯＭ）、及びデジタル多目的ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））及び半導体メモリを含む。或いは、記憶媒体は、ＲＯＭ９０２、記憶部９０８に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

また、本開示は、コンピュータ読み取り可能なプログラム命令が記憶されたコンピュータプログラムプロダクトをさらに提供する。該プログラム命令がコンピュータにより読み取り、実行される際に、上記本開示の方法を実行することができる。それに応じて、このようなプログラム命令を記録した上述した各種の記憶媒体も本開示の範囲内のものである。

以上はブロック図、フローチャート及び／又は実施形態を詳細に説明することで、本開示の実施形態の装置及び／又は方法の具体的な実施形態を説明している。これらのブロック図、フローチャート及び／又は実施形態に１つ又は複数の機能及び／又は動作が含まれている場合、これらのブロック図、フローチャート及び／又は実施形態における各機能及び／又は動作は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせにより個別及び／又はまとめて実施されてもよい。１つの実施形態では、本明細書に記載された主題の幾つかの部分は、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）又は他の統合形態により実現されてもよい。なお、本明細書に記載された実施形態の全て又は一部の態様は、集積回路における１つ又は複数のコンピュータにより実行される１つ又は複数のコンピュータプログラムの形（例えば１つ又は複数のコンピュータシステムにより実行される１つ又は複数のコンピュータプログラムの形）、１つ又は複数のプロセッサにより実行される１つ又は複数のプログラムの形（１つ又は複数のマイクロプロセッサにより実行される１つ又は複数のプログラムの形）、ファームウェアの形、又は実質的なこれらの任意の組み合わせの形で均等的に実施されもよい。また、本明細書に開示された内容に応じて、本開示を設計するための回路及び／又は本開示のソフトウェア及び／又はファームウェアを編集するためのコードは全て当業者の能力の範囲内のものである。

なお、用語「含む」、「有する」は本明細書に説明された特徴、要素、ステップ又は部材の存在を意味するが、他の１つ又は複数の特徴、要素、ステップ又は部材の存在又は追加を排除するものではない。序数に関する用語は、これらの用語により言及された特徴、要素、ステップ又は部材の実施の順序又は重要性のレベルを意味することではなく、単なるこれらの特徴、要素、ステップ又は部材を区別するためものである。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
（付記１）
文字認識方法であって、
画像を取得するステップと、
前記画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、
前記複数の矩形領域のうちの互いに近接する第１領域及び第２領域について、前記第１領域と前記第２領域との重なり領域の水平方向の幅の、前記第２領域の水平方向の幅に対する比が第１所定閾値以上である場合、前記第１領域と前記第２領域とを１つの領域に併合するステップであって、前記第２領域の水平方向の幅は前記第１領域の水平方向の幅よりも小さく、前記第１領域と前記第２領域とは部分的に重なる、ステップと、
変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む、方法。
（付記２）
前記複数の矩形領域は、前記第２領域に近接し、且つ前記第２領域と重ならない第３領域をさらに含み、
前記第３領域と前記第２領域との水平方向の距離の、前記第２領域の水平方向の幅に対する比が第２所定閾値以上である場合、前記第１領域と前記第２領域とを１つの領域に併合する、付記１に記載の方法。
（付記３）
前記第１領域と前記第２領域とが同一の連結成分に属さない場合、前記第１領域と前記第２領域とを１つの領域に併合しない、付記１又は２に記載の方法。
（付記４）
前記複数の矩形領域のうちの水平方向の幅が推定された水平方向の平均字画幅よりも小さい矩形領域に対する区分を削除する、付記１又は２に記載の方法。
（付記５）
前記複数の矩形領域のうちの他の１つの領域に実質的に含まれる領域について、該領域と前記他の１つの領域とが同一の連結成分に属する場合、該領域に対する区分を削除する、付記１又は２に記載の方法。
（付記６）
前記複数の矩形領域のうちの他の２つの領域に実質的に含まれる領域に対する区分を削除する、付記１又は２に記載の方法。
（付記７）
垂直方向の分割線を用いて、前記画像をそれぞれが字画を含む複数の矩形領域に区分する、付記１又は２に記載の方法。
（付記８）
前記分割線は、字画との交点の数が２以下となるように設定され、
前記交点は、分割点を含まない、付記７に記載の方法。
（付記９）
前記複数の矩形領域のうちの水平方向の幅と垂直方向の高さとの比が２以上である矩形領域に対する区分を削除する、付記１又は２に記載の方法。
（付記１０）
深層学習方法を用いて前記文字認識を行い、
前記深層学習方法はＣＮＮである、付記１又は２に記載の方法。
（付記１１）
前記文字は、中国語又は日本語を含む、付記１又は２に記載の方法。
（付記１２）
前記文字は、手書き文字である、付記１１に記載の方法。
（付記１３）
前記画像は、文書のスキャン画像である、付記１又は２に記載の方法。
（付記１４）
認識される文字は、コンピュータによりさらに読み取られることができる、付記１又は２に記載の方法。
（付記１５）
上記の付記の何れかに記載の方法を実行する少なくとも１つのプロセッサ、を含む、文字認識装置。
（付記１６）
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に、文字認識方法を実行する、記憶媒体。

以上は本開示の具体的な実施形態を説明しているが、当業者は添付の特許請求の範囲の要旨及び範囲内で本開示に対して各種の変更、改善又は均等的なものを行うことができる。これらの変更、改良又は均等的なものは本開示の保護範囲に属する。

Claims

文字認識方法であって、
画像を取得するステップと、
前記画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、
前記複数の矩形領域のうちの互いに近接する第１領域及び第２領域について、前記第１領域と前記第２領域との重なり領域の水平方向の幅の、前記第２領域の水平方向の幅に対する比が第１所定閾値以上である場合、前記第１領域と前記第２領域とを１つの領域に併合するステップであって、前記第２領域の水平方向の幅は前記第１領域の水平方向の幅よりも小さく、前記第１領域と前記第２領域とは部分的に重なる、ステップと、
変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む、方法。
前記複数の矩形領域は、前記第２領域に近接し、且つ前記第２領域と重ならない第３領域をさらに含み、
前記第３領域と前記第２領域との水平方向の距離の、前記第２領域の水平方向の幅に対する比が第２所定閾値以上である場合、前記第１領域と前記第２領域とを１つの領域に併合する、請求項１に記載の方法。
前記第１領域と前記第２領域とが同一の連結成分に属さない場合、前記第１領域と前記第２領域とを１つの領域に併合しない、請求項１又は２に記載の方法。
前記複数の矩形領域のうちの水平方向の幅が推定された水平方向の平均字画幅よりも小さい矩形領域に対する区分を削除する、請求項１又は２に記載の方法。
前記複数の矩形領域のうちの他の１つの領域に実質的に含まれる領域について、該領域と前記他の１つの領域とが同一の連結成分に属する場合、該領域に対する区分を削除する、請求項１又は２に記載の方法。
前記複数の矩形領域のうちの他の２つの領域に実質的に含まれる領域に対する区分を削除する、請求項１又は２に記載の方法。
垂直方向の分割線を用いて、前記画像をそれぞれが字画を含む複数の矩形領域に区分する、請求項１又は２に記載の方法。
前記分割線は、字画との交点の数が２以下となるように設定され、
前記交点は、分割点を含まない、請求項７に記載の方法。
前記複数の矩形領域のうちの水平方向の幅と垂直方向の高さとの比が２以上である矩形領域に対する区分を削除する、請求項１又は２に記載の方法。
請求項１乃至９の何れかに記載の方法を実行する少なくとも１つのプロセッサ、を含む、文字認識装置。