JP2020119559A - 文字認識方法及び文字認識装置 - Google Patents

文字認識方法及び文字認識装置 Download PDF

Info

Publication number
JP2020119559A
JP2020119559A JP2020004985A JP2020004985A JP2020119559A JP 2020119559 A JP2020119559 A JP 2020119559A JP 2020004985 A JP2020004985 A JP 2020004985A JP 2020004985 A JP2020004985 A JP 2020004985A JP 2020119559 A JP2020119559 A JP 2020119559A
Authority
JP
Japan
Prior art keywords
region
area
rectangular
width
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020004985A
Other languages
English (en)
Inventor
ジャン・チュヌイェヌ
Chunyen Jang
俊 孫
Shun Son
俊 孫
ユィ・シアオイ
Xiaoyi Yu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020119559A publication Critical patent/JP2020119559A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

【課題】文字認識方法を提供する。【解決手段】該文字認識方法は、画像を取得するステップと、画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、複数の矩形領域のうちの互いに近接する第1領域及び第2領域について、第1領域と第2領域との重なり領域の水平方向の幅の、第2領域の水平方向の幅に対する比が第1所定閾値以上である場合、第1領域と第2領域とを1つの領域に併合するステップであって、第2領域の水平方向の幅は第1領域の水平方向の幅よりも小さく、第1領域と第2領域とは部分的に重なる、ステップと、変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む。【選択図】図4

Description

本開示は、文字認識方法及び文字認識装置に関し、特に手書き文字を含む文書のスキャン画像における文字の認識に関する。
OCR(Optical Character Recognition:光学式文字認識)は、光学技術を用いて文字及び符号をスキャンして認識する技術である。この技術は、画像入力、2値化などの画像前処理、認識すべき文書の段落分けや行分けの処理などのレイアウト解析、文字切り取り、切り取られた文字の認識を含む。
従来のOCR技術は、印刷された文字又はノイズを有する印刷された文字を認識する場合に良好な分割効果を有する。これは、印刷された文字が通常のレイアウトを有しており、印刷された紙の文書をスキャンして得られた画像にスキャンの際にノイズが発生する可能性があるが、OCRの認識精度が大幅に低下することがないからである。
しかし、従来のOCR方法は、特殊なフォント又は特殊なレイアウト、例えばぞんざいな手書きなどによる認識精度の低下という問題を解決することができず、このような認識精度の低下は主に文字の分割段階での文字の誤分割によるものである。手書き文字は書く者の書きの特性に応じて大きく異なり、異なる言語で文字を構築するプロセスも大きく異なるため、文字を正しく分割することはさらに困難になる。
一例として、本開示では、分割、認識し難い日本語の手書きの紙文書のスキャン画像における文字の抽出を説明し、日本語の手書きの文書を含む文書の文字認識の技術を提供することを目的とする。なお、本発明は、日本語と同様なフォントを有する他の言語、例えば中国語などに適用されてもよい。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
本開示の目的を実現するために、本開示の1つの態様では、文字認識方法であって、画像を取得するステップと、前記画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、前記複数の矩形領域のうちの互いに近接する第1領域及び第2領域について、前記第1領域と前記第2領域との重なり領域の水平方向の幅の、前記第2領域の水平方向の幅に対する比が第1所定閾値以上である場合、前記第1領域と前記第2領域とを1つの領域に併合するステップであって、前記第2領域の水平方向の幅は前記第1領域の水平方向の幅よりも小さく、前記第1領域と前記第2領域とは部分的に重なる、ステップと、変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む、方法を提供する。
本開示のもう1つの態様では、文字認識方法を実行する少なくとも1つのプロセッサ、を含む、文字認識装置をさらに提供する。
本開示に係る文字認識方法によれば、日本語の手書き文書を含む文書における文字を分割、認識することができ、従来技術に比べて、文字認識の精度を向上させることができる。
本開示の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は図面を参照しながら本開示の実施形態を説明する。
オーバーセグメンテーションのアルゴリズムを用いて手書き文字に対してオーバーセグメンテーション(over−segmentation)を行って得られた結果を示す模式図である。 分割後の矩形領域の併合及び文字認識の処理を示す模式図である。 従来のオーバーセグメンテーションのアルゴリズムを用いた誤分割の例を示す模式図である。 本発明の実施形態に係る文字認識方法を示すフローチャートである。 従来の分割線の生成方法を示す模式図である。 本開示の実施形態に係る第1所定条件に基づいて矩形領域を併合する方法の1つの態様を示す模式図である。 本開示の実施形態に係る第1所定条件に基づいて矩形領域を併合する方法のもう1つの態様を示す模式図である。 図7A及び図7Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法の1つの態様を示す模式図である。 図7A及び図7Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法の1つの態様を示す模式図である。 図8A及び図8Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のもう1つの態様を示す模式図である。 図8A及び図8Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のもう1つの態様を示す模式図である。 図9A及び図9Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のさらにもう1つの態様を示す模式図である。 図9A及び図9Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のさらにもう1つの態様を示す模式図である。 図10A及び図10Bは2組のテキスト行画像の例を示す模式図である。 図10A及び図10Bは2組のテキスト行画像の例を示す模式図である。 本開示の実施形態に係る文字認識方法を実現可能な装置の汎用機器の構成を示す図である。
以下は図面を参照しながら本開示の例示的な実施形態を説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、当業者が実施形態を実現する際に、実施形態を実現するために特定の決定を行ってもよく、これらの決定は実施形態に応じて変更されてもよい。
なお、本開示を明確にするために、図面には本開示に密に関連する構成要件のみが示され、本開示と関係のない細部が省略されている。
以下は図面を参照しながら本開示の例示的な実施例を説明する。なお、明確化のために、図面及び説明では当業者に知られており、例示的な実施例と関係のない部分及びプロセスの表示及び説明が省略されている。
なお、例示的な実施例の各態様は、システム、方法又はコンピュータプログラムプロダクトとして実施されてもよい。このため、例示的な実施例の各態様は、具体的に以下の形式で実現されてもよく、即ち、完全なハードウェアの実施例、完全なソフトウェアの実施例(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェアとハードウェアとの組み合わせの実施例であってもよく、本明細書では一般的に「回路」、「モジュール」又は「システム」と称される場合がある。さらに、例示的な実施例の各態様は、1つ又は複数のコンピュータ読み取り可能な媒体で表されるコンピュータプログラムプロダクトの形を採用してもよく、該コンピュータ読み取り可能な媒体にはコンピュータ読み取り可能なプログラムコードが記録されている。コンピュータプログラムは、例えば、コンピュータのネットワークを介して配分されてもよいし、1つ又は複数のリモートサーバに配置されてもよいし、装置のメモリに埋め込まされてもよい。
1つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを用いてもよい。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線若しくは半導体のシステム、装置若しくは機器、又はこれらの任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数のワイヤの電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去型のプログラミング可能な読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学的記憶装置、磁気的記憶装置、又はこれらの適切な組み合わせを含む。本明細書では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置若しくは機器により使用され、或いはこれらに関連して使用するプログラムを含み、或いは記憶する任意の有形の媒体であってもよい。
コンピュータ読み取り可能な信号媒体は、例えば、ベースバンド内、又はキャリアの一部として伝播される、コンピュータ読み取り可能なプログラムコードを有するデータ信号を含んでもよい。このような伝播信号は、任意の適切な形を採用してもよく、例えば電磁、光学又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。
コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の、命令実行システム、装置又は機器により使用され、或いはこれらに関連して使用されるプログラムを伝送、伝播又は送信できる任意のコンピュータで読み取り可能な媒体であってもよい。
コンピュータ読み取り可能な媒体におけるプログラムコードは、任意の適切な媒体を用いて伝送されてもよく、例えば無線、有線、光ケーブル、無線周波数など、又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。
本明細書に開示される例示的な実施例の各態様の操作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで記述されてもよく、該プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、「C」プログラミング言語又は同様なプログラミング言語などの従来の手続き型プログラミング言語を含む。
以下は、例示的な実施例に係る方法、装置(システム)及びコンピュータプログラムプロダクトのフローチャート及び/又はブロック図を参照しながら、本明細書で開示される例示的な実施例の各態様を説明する。なお、フローチャート及び/又はブロック図の各ブロック、並びにフローチャート及び/又はブロック図の各ブロックの組み合わせは、コンピュータプログラム命令により実現されてもよい。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサに提供されて装置を構成し、コンピュータ又は他のプログラミング可能なデータ処理装置によりこれらの命令を実行することで、フローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現するための装置を構成する。
これらのコンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置に特定の方法で動作するコンピュータ読み取り可能な媒体に記憶され、コンピュータ読み取り可能な媒体に記憶された命令によりフローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現する命令を含むプロダクトを構成してもよい。
コンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置にロードされ、コンピュータ又は他のプログラミング可能なデータ処理装置で一連の動作ステップが実行され、コンピュータ又は他のプログラミング装置で実行される命令によりフローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現するプロセスを提供してもよい。
図1はオーバーセグメンテーションのアルゴリズムを用いて手書き文字に対してオーバーセグメンテーション(over−segmentation)を行って得られた結果を示す模式図である。
図1には、オーバーセグメンテーションのアルゴリズムを用いて1行の文字に対してオーバーセグメンテーションを行って得られた結果を示している。オーバーセグメンテーションは、過度の分割を意味し、図1に示すように、例えば1行の文字を含む画像において行に垂直な分割線を設置することで、1行の文字を複数の矩形領域に分割する。分割線により分割された例えば図1に示す矩形領域に含まれる文字部分が1つの文字の一部である可能性があるため、後続処理において同一の文字に属する字画を含む2つ以上の矩形領域を併合して完全な文字を形成する必要がある。以下は、この処理を説明する。このように、本開示の各実施形態では、オーバーセグメンテーションのアルゴリズムを用いて文字画像に対して初期的分割を行う。具体的な分割線の決定方法は後述する。
図2は分割後の矩形領域の併合及び文字認識の処理を示す模式図である。
オーバーセグメンテーションの後に、1つの文字は該文字の字画を含む2つ以上の領域に区分される場合がある。よって、認識を行うためにこれらの領域を併合して完全な文字を形成する必要がある。併合の段階では、全ての領域を1回の処理を行い、ここで、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いて認識を行い、その後、該領域とその後の1,2,…,n個の領域(図2ではnは4である)とを併合してCNNにより認識を行う。例えば、図2では、3つの日本語文字「浅草橋」はオーバーセグメンテーションのアルゴリズムにより4つの領域に分割され、この4つの領域の併合について10種類の組み合わせが存在するため、CNNを用いてこの10種類の組み合わせの併合領域についてそれぞれ認識を行う。通常、1行の文字には数多くの文字が含まれ、数多くの分割領域が生成されるため、このような組み合わせにより計算の負荷が非常に大きくなり、効率性が低くなる。図3には従来のオーバーセグメンテーションのアルゴリズムを用いた誤分割の例を示している。図3の左図には1つの文字が5つの領域に区分されていることを示し、図3の右図には数多くのノイズ領域が生成していることを示している。例えば図3の状況では、GPUが計算を効率的に実行できる場合であっても、CPUを用いて計算を行う際に、計算プロセスが非常に遅くなってしまう。従って、例えばCPUの計算環境について、本発明は、計算量を削減すると共に、認識精度を確保する様々な改良案を提供する。
図4は本発明の実施形態に係る文字認識方法を示すフローチャートである。
ステップ401において、文字を含む文書画像を取得する。通常、認識すべき画像は、例えば書類、メールなどをスキャンして得られた画像であってもよく、応用の需要に応じて、デジタル画像の方式により取得される文字を含む任意のタイプの画像であってもよい。ステップ402において、取得された画像をそれぞれが文字の字画を含む複数の矩形領域に区分する。具体的には、上述したオーバーセグメンテーションのアルゴリズムを用いて文字を各矩形領域に区分し、オーバーセグメンテーションのアルゴリズムでは、画像の前処理を行う必要があり、分割に適する連結成分画像において分割を行う。そして、一連の画像処理により、複数の候補分割線を取得する。そして、フィルタリング方法を実行して誤った分割線を削除する。しかし、多くの冗長な分割線が依然として含まれている。従って、本開示の実施形態では、従来のオーバーセグメンテーションのアルゴリズムをベースにしてさらに改良を行い、冗長な分割線を削除するフィルタリング方法を提供する。以下は、図5を参照しながら該改良方法を詳細に説明する。オーバーセグメンテーションのアルゴリズムにより分割線を取得する方法は当業者にとって既知であるため、ここでその原理を詳細に説明しなくても、当業者が該方法を実現できる。なお、具体的な応用に基づいて、該改良された冗長な分割線を削除するためのフィルタリング方法を採用するか否かを決定してもよい。
図5には分割線の生成方法を示している。図5の左図は、決定された分割に適する連結成分の画像であり、分割線が決定されている。図5の中央の図は、連結成分の画像に対応する完全な文字の画像である。右図は、分割線の例である。該従来のアルゴリズムでは、分割線と該文字の字画との交点の数は4個であり(分割点自体を含まない)、この分割線が冗長であることは明らかである。本発明の各実施形態では、分割線と文字の字画との交点の数は2以下となるように設定される(分割点自体を含まない)。これによって、統計実験により冗長であることが証明された分割線をフィルタリングすることができ、認識の精度を確保できると共に、計算量をさらに削減することができる。冗長な分割線を除去した後に、各矩形領域を取得する。分割線が取得された場合に矩形領域を取得する方法は、オーバーセグメンテーションのアルゴリズムを知っている当業者にとって既知であるため、ここでその原理を詳細に説明しなくても、当業者が該方法を実現できる。
図4に戻り、ステップ402の処理が終了した後に、ステップ403に進む。ステップ403において、第1所定条件に基づいて複数の矩形領域のうちの互いに近接する第1領域と第2領域とを併合する。ここで、第2領域の水平方向の幅は第1領域の水平方向の幅よりも小さく、且つ第1領域と第2領域とは部分的に重なる。ここで、第1所定条件は、該第1領域及び第2領域について、第1領域と第2領域との重なり領域の水平方向の幅の、第2領域の水平方向の幅に対する比が第1所定閾値以上であることを意味する。以下は、図6Aを参照しながら該第1所定条件を説明する。
図6Aは本開示の実施形態に係る第1所定条件に基づいて矩形領域を併合する方法の1つの態様を示す模式図である。
図6Aの左図及び右図には、部分的に重なる領域が2つあり、右側の矩形領域の幅はw_sであり、且つ左側の矩形領域の幅よりも小さく、重なり部分の幅はw_oである。w_o/w_s≧th0を満たした場合、この2つの矩形領域を1つの矩形領域に併合する。ここで、好ましくは、th0の値は0.3であり、該好ましい値が計算効率と認識精度とを両立できることが証明されている。図6Aの右図は、このような併合方法の一例を示している。
図4に戻り、ステップ403が終了した後に、ステップ404において、変更後の矩形領域の区分に基づいて文字認識を行う。深層学習方法を用いて文字認識を行ってもよく、深層学習方法はCNNである。
本開示のもう1つの実施形態では、ステップ401において、文字を含む文書画像を取得する。通常、認識すべき画像は、例えば書類、メールなどをスキャンして得られた画像であってもよく、応用の需要に応じて、デジタル画像の方式により取得される文字を含む任意のタイプの画像であってもよい。ステップ402において、取得された画像をそれぞれが文字の字画を含む複数の矩形領域に区分する。具体的には、上述したオーバーセグメンテーションのアルゴリズムを用いて文字を各矩形領域に区分し、オーバーセグメンテーションのアルゴリズムでは、画像の前処理を行う必要があり、分割に適する連結成分画像において従来の分割又は上記の最適化された分割を行う。ステップ402の処理が終了した後に、ステップ403に進む。ステップ403において、第1所定条件に基づいて複数の矩形領域のうちの互いに近接する第1領域と第2領域とを併合する。ここで、第2領域の水平方向の幅は第1領域の水平方向の幅よりも小さく、且つ第1領域と第2領域とは部分的に重なる。また、複数の矩形領域は、第2領域に近接し、且つ第2領域と重ならない第3領域をさらに含む。ここで、第1所定条件を満たした場合、即ち該第1領域、第2領域及び第3領域について、第1領域と第2領域との重なり領域の水平方向の幅の、第2領域の水平方向の幅に対する比が第1所定閾値以上であり、且つ第3領域と第2領域との水平方向の距離の、第2領域の水平方向の幅に対する比が第2所定閾値以上である場合、第1領域と第2領域とを1つの領域に併合する。
図6Aの左図は、このような併合方法の一例を示している。図6Aの左図では、右側の矩形領域とそれに近接する他の矩形領域との距離はw_spである。この場合は、上述した第1所定条件、即ちw_o/w_s≧th0&&w_sp/w_s≧th1を満たした場合、この2つの矩形領域を1つの矩形領域に併合する。ここで、好ましくは、th0及びth1の値は0.3であり、該好ましい値が計算効率と認識精度とを両立できることが証明されている。
図6Bは本開示の実施形態に係る第1所定条件に基づいて矩形領域を併合する方法のもう1つの態様を示す模式図である。
図6Bには、図6Aに示す態様のさらなる最適化を示している。図6Aの方法のみを用いると、エラーが生じる場合がある。図6Bは2つの例を示している。この問題を解決するために、本開示の実施形態では、併合を行う前に、この2つの領域が同一の連結成分に属するか否かを判断し、同一の連結成分に属さない場合、この2つの領域を併合しない。
図4に戻り、ステップ403が終了した後に、ステップ404において、変更後の矩形領域の区分に基づいて文字認識を行う。深層学習方法を用いて文字認識を行ってもよく、深層学習方法はCNNである。
本開示の実施形態では、図4の文字認識方法において矩形領域をフィルタリングする際に、より多い冗長な矩形領域を除去してもよい。このような処理によれば、矩形領域をさらに減らすことができ、計算効率を向上させることができる。図7A及び図7Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法の1つの態様を示す模式図である。
図4に示す文字認識方法におけるステップ402において取得された複数の矩形領域には幅が小さ過ぎる非文字の矩形領域が存在する可能性があるため、このような領域を削除する必要がある。図7A及び図7Bはこのような2つの例を示し、円における小さな矩形領域は削除すべき非文字の矩形領域である。具体的には、複数の矩形領域のうちの水平方向の幅が推定された水平方向の平均字画幅よりも小さい矩形領域に対する区分を削除する。その目的は、字画領域の平均の幅の統計を取ることで明らかに字画でない領域を決定して削除することである。
本開示の実施形態では、図4の文字認識方法において矩形領域をフィルタリングする際に、より多い冗長な矩形領域を除去してもよい。このような処理によれば、矩形領域をさらに減らすことができ、計算効率を向上させることができる。図8A及び図8Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のもう1つの態様を示す模式図である。
図4に示す文字認識方法におけるステップ402において取得された複数の矩形領域には、1つの比較的に大きな矩形領域が水平方向に他の1つ又は複数の矩形領域を完全に覆う可能性がある。図8Aはこのような2つの例を示している。図8Aでは、1つの比較的に大きな矩形領域が他の1つの比較的に小さな矩形領域を完全に覆っている。このような場合は、比較的に小さな矩形領域を削除する必要がある。しかし、このような設定ではエラーが発生する可能性があり、例えば図8に示す比較的に小さな矩形領域に含まれる字画が比較的に大きな矩形領域における文字の構成部分ではないため、このような比較的に小さな矩形領域を削除しなくてもよい。このような場合は、以下の制限条件が追加されている。2つの矩形領域における字画が同一の連結成分に属さない場合、比較的に小さな矩形領域をそのまま維持し、2つの領域における字画が同一の連結成分に属する場合、覆われている比較的に小さな矩形領域を削除する。
本開示の実施形態では、図4の文字認識方法において矩形領域をフィルタリングする際に、より多い冗長な矩形領域を除去してもよい。このような処理によれば、矩形領域をさらに減らすことができ、計算効率を向上させることができる。図9A及び図9Bは本開示の実施形態に係る冗長な矩形領域をさらに除去する方法のさらにもう1つの態様を示す模式図である。
図4に示す文字認識方法におけるステップ402において取得された複数の矩形領域には、幅が小さ過ぎる非文字の矩形領域が存在する可能性があるため、このような領域を削除する必要がある。図9A及び図9Bはこのような2つの例を示し、水平方向に沿う2つの隣接する矩形領域が同一の矩形領域と同時に重なっている。このような場合は、隣接する矩形領域と同時に重なる該領域は冗長であり、削除してもよい。
本開示の実施形態に係る文字認識のステップでは、好ましくは深層学習方法を用い、具体的には、該深層学習方法はCNNである。
近年、フィードフォワードニューラルネットワークである畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)が提案されており、その人工ニューロンはカバレッジエリア内の周囲の一部のセルに応答することができ、大規模の画像処理に優れたパフォーマンスを有する。CNNは、畳み込み層(convolutional layer)とプーリング層(pooling layer)を含む。CNNは主に、変異、拡大/縮小、及び他の形式の歪みに不変な2次元の画像を認識するために用いられる。CNNの特徴検出層は訓練データを用いて学習を行うため、CNNを用いる場合は、明示的な特徴抽出が回避され、暗黙的に訓練データを用いて学習を行う。また、同一の特徴マッピング面におけるニューロンの重みが同一であるため、ネットワークは並行的に学習を行うことができる。これは、ニューロンが互いに接続されたネットワークに対する畳み込みネットワークの大きな利点でもある。畳み込みニューラルネットワークは、局所の重みを共有するという特別な構造により、画像処理及び画像認識に独自の利点を持ち、その構造は実際の生物学的ニューラルネットワークにより近くなる。重みの共有によりネットワークの複雑さが低減し、特に多次元の入力ベクトルの画像をネットワークに直接入力できるという特徴により、特徴の抽出及び分類におけるデータ再構築の複雑さを回避することができる。
従って、本開示の各実施形態では、CNNを用いて、組み合わせられた文字画像を認識する。CNNは当業者にとって既知であるため、ここでその本開示の実施形態における応用のみを説明し、その原理を詳細に説明しない。
上記の全ての処理(上述したオーバーセグメンテーションの分割線の最適化方法、及び冗長な矩形領域をフィルタリングするための各種の好適な方法を含む)の後、候補の矩形領域の数は最初の従来のオーバーセグメンテーション方法により生成された矩形領域の数に比べて大幅に少なくなるため、計算効率は大幅に向上した。例えば、検証された2つのデータセット(なお、データセットの関連情報の例示は、単なる本発明の技術的な優位性を示すためのものであり、本発明を限定するものではない)は、その1つは宅急便(登録商標)の書類からの783個の日本語の住所のテキスト行を含み、もう1つは23676個の通常の日本語のテキスト行を含む。図10A及び図10Bは2組のテキスト行画像の例を示している。計算により、元のオーバーセグメンテーションのアルゴリズムにより得られた矩形領域の総数、及び最適化されたオーバーセグメンテーションのアルゴリズムにより得られた矩形領域の総数が取得された。その結果は以下の通りである。
Figure 2020119559
783個の住所のテキスト行では、最適化したところ、間違った境界枠が生成されていない。23676個の通常のテキスト行では、最適化したところ、僅か10個のエラーが発生し、計算効率の改善と比較すると、数十万程度の矩形領域において僅か10のエラーは全体的な認識精度へ殆ど影響しない。
なお、上述した冗長な矩形領域の削除方法は、特定の応用に応じて任意に組み合わせてもよい。
また、認識された文字を含む文書に対して処理を行うために、認識された文字は、コンピュータにより読み取られてもよい。
図11は本開示の実施形態に係る文字認識方法を実現可能な装置の汎用機器900の構成を示す図である。汎用機器900は、例えばコンピュータシステムであってもよい。なお、汎用機器900は単なる一例であり、本開示の方法及び装置の使用範囲又は機能を制限するものではない。また、汎用機器900は、上記の情報処理方法及び情報処理装置における構成要件又はその組み合わせに依存するものではない。
図11において、中央処理部(CPU)901は、読み出し専用メモリ(ROM)902に記憶されているプログラム、又は記憶部908からランダムアクセスメモリ(RAM)903にロードされたプログラムにより各種の処理を実行する。RAM903には、必要に応じて、CPU901が各種の処理を実行するに必要なデータが記憶されている。CPU901、ROM902、及びRAM903は、バス904を介して互いに接続されている。入力/出力インターフェース905もバス904に接続されている。
入力部906(キーボード、マウスなどを含む)、出力部907(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部908(例えばハードディスクなどを含む)、通信部909(ネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース905に接続されている。通信部909は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライバ910は、入力/出力インターフェース905に接続されてもよい。取り外し可能な媒体911は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ910にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部908にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体911を介してソフトウェアを構成するプログラムをインストールする。
なお、これらの記憶媒体は、図11に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体911に限定されない。取り外し可能な媒体911は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(光ディスク−読み出し専用メモリ(CD−ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM902、記憶部908に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
また、本開示は、コンピュータ読み取り可能なプログラム命令が記憶されたコンピュータプログラムプロダクトをさらに提供する。該プログラム命令がコンピュータにより読み取り、実行される際に、上記本開示の方法を実行することができる。それに応じて、このようなプログラム命令を記録した上述した各種の記憶媒体も本開示の範囲内のものである。
以上はブロック図、フローチャート及び/又は実施形態を詳細に説明することで、本開示の実施形態の装置及び/又は方法の具体的な実施形態を説明している。これらのブロック図、フローチャート及び/又は実施形態に1つ又は複数の機能及び/又は動作が含まれている場合、これらのブロック図、フローチャート及び/又は実施形態における各機能及び/又は動作は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせにより個別及び/又はまとめて実施されてもよい。1つの実施形態では、本明細書に記載された主題の幾つかの部分は、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)又は他の統合形態により実現されてもよい。なお、本明細書に記載された実施形態の全て又は一部の態様は、集積回路における1つ又は複数のコンピュータにより実行される1つ又は複数のコンピュータプログラムの形(例えば1つ又は複数のコンピュータシステムにより実行される1つ又は複数のコンピュータプログラムの形)、1つ又は複数のプロセッサにより実行される1つ又は複数のプログラムの形(1つ又は複数のマイクロプロセッサにより実行される1つ又は複数のプログラムの形)、ファームウェアの形、又は実質的なこれらの任意の組み合わせの形で均等的に実施されもよい。また、本明細書に開示された内容に応じて、本開示を設計するための回路及び/又は本開示のソフトウェア及び/又はファームウェアを編集するためのコードは全て当業者の能力の範囲内のものである。
なお、用語「含む」、「有する」は本明細書に説明された特徴、要素、ステップ又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、ステップ又は部材の存在又は追加を排除するものではない。序数に関する用語は、これらの用語により言及された特徴、要素、ステップ又は部材の実施の順序又は重要性のレベルを意味することではなく、単なるこれらの特徴、要素、ステップ又は部材を区別するためものである。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
文字認識方法であって、
画像を取得するステップと、
前記画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、
前記複数の矩形領域のうちの互いに近接する第1領域及び第2領域について、前記第1領域と前記第2領域との重なり領域の水平方向の幅の、前記第2領域の水平方向の幅に対する比が第1所定閾値以上である場合、前記第1領域と前記第2領域とを1つの領域に併合するステップであって、前記第2領域の水平方向の幅は前記第1領域の水平方向の幅よりも小さく、前記第1領域と前記第2領域とは部分的に重なる、ステップと、
変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む、方法。
(付記2)
前記複数の矩形領域は、前記第2領域に近接し、且つ前記第2領域と重ならない第3領域をさらに含み、
前記第3領域と前記第2領域との水平方向の距離の、前記第2領域の水平方向の幅に対する比が第2所定閾値以上である場合、前記第1領域と前記第2領域とを1つの領域に併合する、付記1に記載の方法。
(付記3)
前記第1領域と前記第2領域とが同一の連結成分に属さない場合、前記第1領域と前記第2領域とを1つの領域に併合しない、付記1又は2に記載の方法。
(付記4)
前記複数の矩形領域のうちの水平方向の幅が推定された水平方向の平均字画幅よりも小さい矩形領域に対する区分を削除する、付記1又は2に記載の方法。
(付記5)
前記複数の矩形領域のうちの他の1つの領域に実質的に含まれる領域について、該領域と前記他の1つの領域とが同一の連結成分に属する場合、該領域に対する区分を削除する、付記1又は2に記載の方法。
(付記6)
前記複数の矩形領域のうちの他の2つの領域に実質的に含まれる領域に対する区分を削除する、付記1又は2に記載の方法。
(付記7)
垂直方向の分割線を用いて、前記画像をそれぞれが字画を含む複数の矩形領域に区分する、付記1又は2に記載の方法。
(付記8)
前記分割線は、字画との交点の数が2以下となるように設定され、
前記交点は、分割点を含まない、付記7に記載の方法。
(付記9)
前記複数の矩形領域のうちの水平方向の幅と垂直方向の高さとの比が2以上である矩形領域に対する区分を削除する、付記1又は2に記載の方法。
(付記10)
深層学習方法を用いて前記文字認識を行い、
前記深層学習方法はCNNである、付記1又は2に記載の方法。
(付記11)
前記文字は、中国語又は日本語を含む、付記1又は2に記載の方法。
(付記12)
前記文字は、手書き文字である、付記11に記載の方法。
(付記13)
前記画像は、文書のスキャン画像である、付記1又は2に記載の方法。
(付記14)
認識される文字は、コンピュータによりさらに読み取られることができる、付記1又は2に記載の方法。
(付記15)
上記の付記の何れかに記載の方法を実行する少なくとも1つのプロセッサ、を含む、文字認識装置。
(付記16)
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に、文字認識方法を実行する、記憶媒体。
以上は本開示の具体的な実施形態を説明しているが、当業者は添付の特許請求の範囲の要旨及び範囲内で本開示に対して各種の変更、改善又は均等的なものを行うことができる。これらの変更、改良又は均等的なものは本開示の保護範囲に属する。

Claims (10)

  1. 文字認識方法であって、
    画像を取得するステップと、
    前記画像を、それぞれが文字の字画を含む複数の矩形領域に区分するステップと、
    前記複数の矩形領域のうちの互いに近接する第1領域及び第2領域について、前記第1領域と前記第2領域との重なり領域の水平方向の幅の、前記第2領域の水平方向の幅に対する比が第1所定閾値以上である場合、前記第1領域と前記第2領域とを1つの領域に併合するステップであって、前記第2領域の水平方向の幅は前記第1領域の水平方向の幅よりも小さく、前記第1領域と前記第2領域とは部分的に重なる、ステップと、
    変更後の矩形領域の区分に基づいて文字認識を行うステップと、を含む、方法。
  2. 前記複数の矩形領域は、前記第2領域に近接し、且つ前記第2領域と重ならない第3領域をさらに含み、
    前記第3領域と前記第2領域との水平方向の距離の、前記第2領域の水平方向の幅に対する比が第2所定閾値以上である場合、前記第1領域と前記第2領域とを1つの領域に併合する、請求項1に記載の方法。
  3. 前記第1領域と前記第2領域とが同一の連結成分に属さない場合、前記第1領域と前記第2領域とを1つの領域に併合しない、請求項1又は2に記載の方法。
  4. 前記複数の矩形領域のうちの水平方向の幅が推定された水平方向の平均字画幅よりも小さい矩形領域に対する区分を削除する、請求項1又は2に記載の方法。
  5. 前記複数の矩形領域のうちの他の1つの領域に実質的に含まれる領域について、該領域と前記他の1つの領域とが同一の連結成分に属する場合、該領域に対する区分を削除する、請求項1又は2に記載の方法。
  6. 前記複数の矩形領域のうちの他の2つの領域に実質的に含まれる領域に対する区分を削除する、請求項1又は2に記載の方法。
  7. 垂直方向の分割線を用いて、前記画像をそれぞれが字画を含む複数の矩形領域に区分する、請求項1又は2に記載の方法。
  8. 前記分割線は、字画との交点の数が2以下となるように設定され、
    前記交点は、分割点を含まない、請求項7に記載の方法。
  9. 前記複数の矩形領域のうちの水平方向の幅と垂直方向の高さとの比が2以上である矩形領域に対する区分を削除する、請求項1又は2に記載の方法。
  10. 請求項1乃至9の何れかに記載の方法を実行する少なくとも1つのプロセッサ、を含む、文字認識装置。
JP2020004985A 2019-01-28 2020-01-16 文字認識方法及び文字認識装置 Pending JP2020119559A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910079821.1A CN111488870A (zh) 2019-01-28 2019-01-28 文字识别方法和文字识别装置
CN201910079821.1 2019-01-28

Publications (1)

Publication Number Publication Date
JP2020119559A true JP2020119559A (ja) 2020-08-06

Family

ID=71811681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020004985A Pending JP2020119559A (ja) 2019-01-28 2020-01-16 文字認識方法及び文字認識装置

Country Status (2)

Country Link
JP (1) JP2020119559A (ja)
CN (1) CN111488870A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135993A (ja) * 2020-02-24 2021-09-13 ▲創▼新奇智(上海)科技有限公司 テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159031B (zh) * 2021-04-21 2024-05-10 广州逅艺文化科技有限公司 一种手写文本检测方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0258186A (ja) * 1988-08-24 1990-02-27 Fujitsu Ltd 切断分離を伴う文字認識方法
JPH09106441A (ja) * 1995-10-11 1997-04-22 Ricoh Co Ltd 文字認識方法及び文字認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203539B (zh) * 2015-05-04 2020-01-17 杭州海康威视数字技术股份有限公司 识别集装箱箱号的方法和装置
CN108133209B (zh) * 2016-12-01 2021-05-07 北京新唐思创教育科技有限公司 一种文本识别中的目标区域搜索方法及其装置
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0258186A (ja) * 1988-08-24 1990-02-27 Fujitsu Ltd 切断分離を伴う文字認識方法
JPH09106441A (ja) * 1995-10-11 1997-04-22 Ricoh Co Ltd 文字認識方法及び文字認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135993A (ja) * 2020-02-24 2021-09-13 ▲創▼新奇智(上海)科技有限公司 テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
JP7026165B2 (ja) 2020-02-24 2022-02-25 ▲創▼新奇智(上海)科技有限公司 テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体

Also Published As

Publication number Publication date
CN111488870A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
US10360703B2 (en) Automatic data extraction from a digital image
Bhowmik et al. Text and non-text separation in offline document images: a survey
Wang et al. Optical recognition of handwritten Chinese characters by hierarchical radical matching method
JP2700130B2 (ja) 手書き文字の認識システム及び認識方法
Tran et al. Page segmentation using minimum homogeneity algorithm and adaptive mathematical morphology
Lacerda et al. Segmentation of connected handwritten digits using Self-Organizing Maps
Mesquita et al. Parameter tuning for document image binarization using a racing algorithm
US20240221004A1 (en) Fraud detection via automated handwriting clustering
Al Abodi et al. An effective approach to offline Arabic handwriting recognition
Lyu et al. The early Japanese books reorganization by combining image processing and deep learning
JP2020119559A (ja) 文字認識方法及び文字認識装置
Dhanikonda et al. An efficient deep learning model with interrelated tagging prototype with segmentation for telugu optical character recognition
CN111241897B (zh) 通过推断视觉关系的工业检验单数字化的系统和实现方法
Altinsoy et al. Fully‐automatic raw G‐band chromosome image segmentation
US8401298B2 (en) Storage medium storing character recognition program, character recognition method, and character recognition apparatus
Berriche et al. Hybrid Arabic handwritten character segmentation using CNN and graph theory algorithm
Ganchimeg History document image background noise and removal methods
CN111832390B (zh) 一种手写古文字检测方法
Chabardes et al. A labeling algorithm based on a forest of decision trees
CN111967391A (zh) 医学化验单的文本识别方法和计算机可读存储介质
CN115909356A (zh) 数字文档的段落确定方法、装置、电子设备及存储介质
CN111612804B (zh) 图像分割方法、装置、电子设备及存储介质
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备
Razak et al. A real-time line segmentation algorithm for an offline overlapped handwritten Jawi character recognition chip
Sumetphong et al. Modeling broken characters recognition as a set-partitioning problem

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240305