JP6085999B2

JP6085999B2 - 画像中の文字列を認識する方法及び装置

Info

Publication number: JP6085999B2
Application number: JP2013046996A
Authority: JP
Inventors: 屹峰潘; チェヌ・スユアヌ; スヌ・ジュヌ; 源何
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-03-09
Filing date: 2013-03-08
Publication date: 2017-03-01
Anticipated expiration: 2033-03-08
Also published as: JP2013186906A; CN103310209A

Description

本発明は、文字（character）認識分野に関し、具体的に、画像中の文字列を認識する方法及び装置に関する。

デジタル画像取得装置（例えば、携帯電話、カメラなど）の普及に伴い、テキスト情報に基づく画像検索システムが幅広く注目されている。そのうち、自然シーンの画像中のテキスト認識は、システム全体の主な構成部分として、システムのパフォーマンスに大きく影響する。しかし、テキストのサイズ、フォント及び画像品質の劣化などの影響を受け、テキスト認識は、高精度の認識結果を達成することが依然として困難である。また、自然シーンの画像には通常複数種類の言語が含まれるので、これもテキス認識の精度に大きい影響を与える。

よって、上述の問題を解決することができる技術が望ましい。

本発明の主な目的は、画像中の文字列を認識する方法及び装置を提供することにある。

本発明の一側面によれば、画像中の文字列を認識する方法が提供される。この方法は、画像中の文字列領域を抽出するステップと、文字列領域に対して分割を行うステップと、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略（Path Searching Strategy）により文字列領域に含まれる文字列を認識するステップと、を含む。

本発明の実施例による、画像中の文字列を認識する方法のフローチャートである。本発明による例示的な文字列領域を示す図である。本発明による例示的な前処理後の文字列領域を示す図である。本発明による例示的なオーバーセグメンテーション後の文字列領域の画像を示す図である。本発明による例示的な最適経路探索を示す図である。本発明の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定するフローチャートである。本発明の他の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定するフローチャートである。本発明による例示的な文字列領域を示す図である。本発明による例示的な、言語種類文脈特徴を導入しない時に得られた認識結果を示す図である。本発明による例示的な、言語種類文脈特徴を導入した時に得られた認識結果を示す図である。本発明の実施例による、文字幅及び重み付き平均文字幅の間の差に基づいて文字幅文脈特徴を確定するフローチャートである。本発明による例示的な文字列領域を示す図である。本発明による例示的な、文字幅文脈特徴を導入しない時の文字列認識結果を示す図である。本発明による例示的な、文字幅文脈特徴を導入した時の文字列認識結果を示す図である。本発明による例示的な、画像中の文字列を認識するフローチャートである。本発明の実施例による、画像中の文字列を認識する装置のブロック図である。本発明の他の実施例による、画像中の文字列を認識する装置のブロック図である。本発明の他の実施例による、画像中の文字列を認識する装置のブロック図である。本発明の実施例による、画像中の文字列を認識する方法及び装置を実施するために用い得る計算装置の例示的な構造図である。

以下、添付した図面を参照しながら本発明の好適な実施形態について説明する。

図1、図2A〜2C及び図3を参照して、本発明の実施例による、画像中の文字列を認識する方法の処理100を説明する。

図1に示すように、ステップS105では、画像中の文字列領域を抽出することができる。図2Aは、本発明の例示的な文字列領域を示す図である。図2Aに示すように、画像中の文字列領域、即ち、“成就我[智]造”を含む文字列領域を抽出することができる。

オプションで、後述のステップS110での文字列領域のオーバーセグメンテーションの前に、文字列領域に対して前処理を行うことができる。図2Bは、本発明の例示的な前処理後の文字列領域を示す図である。そのうち、前処理は、幾つかの基本的な画像処理プロセス、例えば、二値化、画像の平滑化、傾き除去及び連通域の抽出などを含む。これらの前処理の主な目的は、後続の文字分割、抽出及び認識に、信頼できる画像品質を提供することにある。理解すべきは、前処理は、必ずしも必要でないステップである。例えば、画像中の文字列領域が非常にはっきりしている場合は、これらの前処理を行わなくてもよい。

ステップS110では、ステップS105にて抽出された文字列領域に対してオーバーセグメンテーションを行うことができる。シーン画像中の文字列のサイズ、フォント及び配置方式などの差が比較的大きい場合は、オーバーセグメンテーションの戦略を採用することで、文字間ができるだけくっつかないことを保証し得る。オーバーセグメンテーションの結果に基づいて、後続の最適経路探索、即ち、文字列認識に便利であるために、分割候補グリッドを構成することができる。図2Cは、本発明による例示的なオーバーセグメンテーション後の文字列領域の画像を示す図である。図2Cに示すように、“成就我[智]造”を含む文字列領域に対してオーバーセグメンテーションを行っている。

続いて、ステップS115では、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。図3は、本発明による例示的な最適経路探索を示す図である。図3には、各種の探索経路が示されている。

一般的な文字列認識については、最適経路探索は、分割及び文字列認識を同時に行う常用の方法である。分割候補グリッドには、何れか１つの経路が１つの文字列認識結果に対応し、最適経路探索の目的は、経路目標関数の最適化結果に対応する経路を見つけ、この経路に対応する認識結果が真の結果に最も接近すると判定することにある。文字列シーケンスX、文字種類符号シーケンスY及び対応する分割経路Sが与えられると、経路目標関数は、次のように表れ得る。

ここで、
（外１）

は、特徴関数を表し、
（外２）

は、関数の重み（weight）を表す。

本実施例では、特徴関数は、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴を含む。

オプションで、特徴関数
（外３）

は、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの１つ又は複数の特徴を更に含んでもよい。これについては、図9を参照して後述する。

通常、自然シーンの画像中の文字の多様性により、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のみに基づければ、満足な認識結果を得ることが難しい。本実施例による技術案では、言語種類文脈特徴及び文字幅文脈特徴を考慮しているため、認識精度を向上させることができる。次に、図4、図5及び図6A〜6Cを参照して、言語種類文脈特徴を確定する処理を説明し、また、図7及び図8A〜8Cを参照して、文字幅文脈特徴を確定する処理を説明する。

まず、図4、図5及び図6A〜6Cを参照して、本発明の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定する処理を説明する。

自然シーンの画像には、通常、異なる種類の言語、例えば、漢字、英文及びアラビア数字などが含まれる。また、同一文字列中の文字は、通常、１つの種類の言語に属する。これに基づいて、本実施例によれば、言語種類文脈特徴に基づいて、経路探索関数の計算を行うことができる。

図4に示すように、ステップS110にて文字列領域に対してオーバーセグメンテーションを行った後に、ステップS405では、経路中の各文字及びその一つの隣接する文字が同じ種類の言語に属するかどうかを確定することができる。ステップS410では、上述の確定結果に基づいて言語種類文脈特徴を算出することができる。

具体的には、２つの隣接する文字
（外４）

及び符号
（外５）

が与えられるとすると、言語種類文脈特徴関数は、次のように定義され得る。

ここで、α_は、ペナルティ係数であり、その値は、経験により確定されてもよい。言語種類文脈特徴は、異なる種類の言語に属する２つの隣接する文字のみに対してペナルティを行うことにより、同一行にある文字を同じ種類の言語に強制的に属させる目的を達成することができる。

続いて、ステップS115では、言語種類文脈特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。

次に、図5を参照して、本発明の他の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定する処理を説明する。

図5に示すように、ステップS110にて文字列領域に対してオーバーセグメンテーションを行った後に、ステップS505では、探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定することができる。ステップS510では、上述の確定結果に基づいて言語種類文脈特徴を算出することができる。

具体的には、目標文字の隣接する文字の数が複数であってもよい。目標文字X₁の隣接する文字の集合が
（外６）

であるとすると、言語種類文脈特徴関数は、次のように定義され得る。

好ましくは、ペナルティ係数_αは、訓練サンプルを用いて、機械学習アルゴリズムにより求められたものである。具体的なアルゴリズムについては、例えば、非特許文献である“Xiang-Dong Zhou、Jin-Lun Yu、Cheng-Lin Liu、Nagasaki，T．、Marukawa，K.：Online Handwritten Japanese Character String Recognition Incorporating Geometric Context．ICDAR 2009．7：48-52”を参照することができる。

図6Aは、本発明による例示的な文字列領域を示す図であり、図6Bは、本発明による例示的な、言語種類文脈特徴を導入しない時に得られた認識結果を示す図であり、図6Cは、本発明による例示的な、言語種類文脈特徴を導入した時に得られた認識結果を示す図である。図6Bに示すように、言語種類文脈特徴を導入しない時に得られた結果は、“o 1 o − 6 7 5 o 2 2 2 9”であり、そのうち、３つ“0”は、誤って“o”と認識されている。図6Cに示すように、言語種類文脈特徴を導入した時に得られた結果は、“0 1 o − 6 7 5 0 2 2 2 9”であり、そのうち、３つの“0”のうちの１つは、誤って“o”と認識されている。これによって分かるように、言語種類文脈特徴を導入することにより、文字認識の正確率を向上させることができる。

次に、図7及び図8A〜図8Cを参照して、本発明の実施例による、文字幅と重み付き平均文字幅との間の差に基づいて文字幅文脈特徴を確定する処理を説明する。そのうち、文字幅文脈特徴は、各探索経路について、後述の方法により確定されるものである。文字列認識過程では、誤って分割することによる誤認識が比較的よく現れる。また、文字の書き方が異なっても、レイアウトに便利であるために、同一行にある文字は、通常、同じ文字幅を有する。本実施例によれば、文字幅文脈特徴に基づいて、上述のような誤りを修正することができる。

図7に示すように、ステップS110にて文字列領域に対してオーバーセグメンテーションを行った後に、ステップS705では、文字列領域に対して初期認識を行うことができる。

ステップS710では、初期認識結果に基づいて重み付き平均文字幅を推定することができ、即ち、重み付き平均文字幅
（外7）

であり、そのうち、
（外8）

は、初期認識結果中の第i個文字の文字幅であり、
（外9）

は、
（外10）

の文字認識信頼度である。即ち、文字認識信頼度
（外11）

を重み係数の値とする。例えば、目標文字の左側にある第一個の文字の右境界から、該目標文字の右側にある第一個の文字の左境界までの距離（図8Aに示すように）を、該目標文字の文字幅
（外12）

とすることができる。理解すべきは、これは、文字幅の１つの例だけである。例えば、文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか１つであってもよい。

ステップS715では、探索経路中の各文字の文字幅と重み付き平均文字幅との間の差を確定することができる。

例えば、文字幅文脈特徴及び元の特徴を組み合わせて、次のような新しい特徴を定義してもよい。

この定義は、目標文字の文字幅とテキスト行の平均文字幅とが接近すれば、比較的小さいペナルティ係数が得られ、これに反して、比較的大きいペナルティ係数が得られることを示している。

ステップS720では、上述の差に基づいて文字幅文脈特徴を算出することができる。

続いて、ステップS115では、文字幅文脈特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。

図8Aは、本発明による例示的な文字列領域を示す図であり、図8Bは、本発明による例示的な、文字幅文脈特徴を導入しない時の文字列認識結果を示す図であり、図8Cは、本発明による例示的な、文字幅文脈特徴を導入した時の文字列認識結果を示す図である。図8Bに示すように、文字幅文脈特徴を導入しない時に、認識結果は、“成就我胤造”である。図8Cに示すように、文字幅文脈特徴を導入した時に、認識結果は、“成就我[智]造”である。これによって分かるように、文字幅文脈特徴を導入することにより、文字認識の正確率を向上させることができる。

次に、文字種類文脈特徴を導入した場合、及び文字幅文脈特徴を導入した場合についてそれぞれ説明する。実際には、上述の数1により、文字種類文脈特徴及び文字幅文脈特徴を同時に導入することができる。また、他の特徴、例えば、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴などを導入することもできる。

次に、図9を参照して、本発明による例示的な、画像中の文字列を認識する処理を説明する。

図9に示すように、上述の言語種類文脈特徴及び文字幅文脈特徴の他、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴も同時に導入している。

理解すべきは、必ずしもこれらの特徴の全てを同時に導入する必要がなく、そのうちの１つ又は複数を導入してもよい。

次に、図10を参照して、本発明の実施例による画像中の文字列を認識する装置1000を説明する。

図10に示すように、画像中の文字列を認識する装置1000は、抽出ユニット1005、分割ユニット1010及び認識ユニット1015を含んでもよい。

抽出ユニット1005は、画像中の文字列領域を抽出することができる。分割ユニット1010は、文字列領域に対してオーバーセグメンテーションを行うことができる。認識ユニット1015は、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。

次に、図11を参照して、本発明の他の実施例による、画像中の文字列を認識する装置1000’を説明する。図11に示すような画像中の文字列を認識する装置1000’と、図10に示すような画像中の文字列を認識する装置1000との相違点は、認識ユニット1015は、言語種類確定サブユニット1015-1及び第一計算サブユニット1015-2を含むことにある。

言語種類確定サブユニット1015-1は、経路中の各文字及びその１つの隣接する文字が同じ種類の言語に属するかどうかを確定することができる。或いは、言語種類確定サブユニット1015-1は、経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定することができる。

第一計算サブユニット1015-2は、上述の確定結果に基づいて言語種類文脈特徴を算出することができる。

次に、図12を参照して、本発明の他の実施例による、画像中の文字列を認識する装置1000”を説明する。図12に示すような画像中の文字列を認識する装置1000”と、図10に示すような画像中の文字列を認識する装置1000との相違点は、認識ユニット1015は、初期認識サブユニット1015-3、平均文字幅推定サブユニット1015-4、差異確定サブユニット1015-5及び第二計算サブユニット1015-6を含むことにある。

初期認識サブユニット1015-3は、文字列領域に対して初期認識を行うことができる。平均文字幅推定サブユニット1015-4は、初期認識結果に基づいて重み付き平均文字幅を推定することができ、即ち、重み付き平均文字幅
（外13）

であり、そのうち、
（外14）

は、初期認識結果中の第i個文字の文字幅であり、
（外15）

は、
（外16）

の文字認識信頼度である。差異確定サブユニット1015-5は、経路中の各文字の文字幅と、重み付き平均文字幅との間の差を確定することができる。第二計算サブユニット1015-6は、この差に基づいて文字幅文脈特徴を算出することができる。

そのうち、文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか１つである。

画像中の文字列を認識する装置1000、1000’及び1000”は、前処理ユニット（図示せず）を含んでもよく、前処理ユニットは、文字列領域に対して前処理を行うことができる。

オプションで、認識ユニット1015は、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴と、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの少なくとも１つの特徴とに基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。

本発明の実施例によれば、言語種類文脈特徴及び文字幅文脈特徴を用いることにより、自然シーンの画像中の文字列の認識精度を向上させることができる。

そのうち、言語種類文脈特徴は、“同一テキスト行では、文字が同じ種類に属する”という合理的な制約を強化している。文字幅文脈特徴は、“同一テキスト行では、文字幅が近い”という合理的な制約を強化している。本発明の実施例によれば、“分割−認識”という仕組みの下で、２種類の新しい特徴（即ち、言語種類文脈特徴及び文字幅文脈特徴）と、従来の特徴とを１つの目標最適化特徴関数に統合し、これに基づいて自然シーンの画像中の文字列に対して認識を行うことができる。また、実験結果によれば、本発明が提供しているこの２種類の新しい特徴は、自然シーンの画像中の文字列を認識する時の認識精度の顕著な向上に役立つことができる。

上述の実施例による、画像中の文字列を認識する方法及び装置における各ステップや構成ユニットなどは、ソフトウェア、ファームウェア、ハードウェア又はそれらの任意の組み合わせの方式で実現されてもよい。ソフトウェア又はファームウェアにより実現される場合は、記憶媒体又はネットワークから、専用ハードウェア構造を有する装置（例えば図13に示す汎用装置1300）に、このソフトウェア又はファームウェアを構成するプログラムをインストールすることができる。この装置は、各種のプログラムがインストールされている時に、上述の各構成ユニットやステップの各種の機能を行うことができる。

図13は、本発明の実施例による、画像中の文字列を認識する方法及び装置を実施するために用い得る計算装置の例示的な構造図である。

図13では、中央処理ユニット（CPU）1301は、ROM 1302に記憶されているプログラム、又は、記憶部1308からRAM 1303にロードされているプログラムに基づいて、各種の処理を行う。RAM 1303は、必要に応じて、CPU 1301が各種の処理などを実行する時に必要なデータを記憶する。CPU 1301、ROM 1302及びRAM 1303は、バス1304により互いに接続される。入力/出力インタフェース1305もバス1304に接続される。

また、入力/出力インタフェース1305に接続されるのは、入力部1306（キーボード、マウスなどを含み）、出力部1307（例えばCRT、LCDのような表示器及びスピーカーなどを含み）、記憶部1308（ハードディスクなどを含み）、通信部1309（例えばLANカード、モデムなどのネットワークアクセスカードを含み）をも含む。通信部1309は、ネットワーク、例えばインターネットを介して通信処理を行う。必要に応じて、ドライブ1310も入力/出力インタフェース1305に接続され得る。取り外し可能な媒体1311、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置なども、必要に応じてドライブ1310に取り付けされてもよく、その中から読み出されたコンピュータプログラムは、必要に応じて記憶部1308にインストールされ得る。

ソフトウェアにより上述の一連の処理を実現する場合、ネットワーク、例えばインターネット、又は、記憶媒体、例えば取り外し可能な媒体介質1311からソフトウェアを構成するプログラムをインストールしてもよい。

なお、当業者が理解すべきは、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図13に示すような取り外し可能な媒体1311に限定されない。取り外し可能な媒体1311の例としては、磁気ディスク（フロッピー（登録商標）ディスクを含む）、光ディスク（ＣＤ−ＲＯＭ及びＤＶＤを含む）、光磁気ディスク（ＭＤ（登録商標）を含む）、及び半導体メモリを含む。或いは、記憶媒体はROM1302、記憶部1308に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。

また、本開示は、マシン（例えば、コンピュータ）読取可能な命令コードからなるプログラムプロダクトにも関する。この命令コードは、マシンに読み取られて実行される時に、上述の実施例による方法を実行することができる。それ相応に、上述のマシン読取可能な命令コードからなるプログラムプロダクトを記憶している記憶媒体も本開示に含まれている。このような記憶媒体は、磁気ディスク（フロッピーディスク）、光ディスク、光磁気ディスク、メモリカード、メモリメモリスティックなどを含むが、これらに限定されない。

また、本開示の一つの図面又は一つの実施例に記載の要素及び特徴は、一つ以上の他の図面又は実施例に示す要素及び特徴と組み合わせることができる。

また、上述の一連の処理を行うステップは、上述に説明した順序に従って時間順に行ってもよいが、必ずしも時間順に行う必要がない。一部のステップは、並行又は互いに独立で行ってもよい。

また、本開示による上述の方法の各処理プロセスは、各種のマシン読み取り可能な記憶媒体に記憶されるコンピュータ実行可能なプログラムで実現され得ることも明らかである。

また、本開示の目的は、次の方法で実現されてもよい。即ち、上述の実行可能なプログラムコードを記憶している記憶媒体を直接又は間接的にシステム又は装置に提供し、且つ、該システム又は装置内のコンピュータ又はCPUは、上述のプログラムコードを読み出して実行する。

このとき、システム又は装置はプログラムを実行する機能を有すれば、本発明の実施形態はプログラムに限定されず、且つ、該プログラムは任意の形式であってもよく、例えば、オブジェクトプログラム、インタープリター実行可能なプログラム、又は、オペレーティングシステムへのスクリプトプログラムであってもよい。

上述のマシン読み取り可能な記憶媒体は、各種の記憶器及び記憶ユニット、半導体装置、光、磁気及び光磁気ディスクのような磁気ディスクユニット、及び情報記憶に適する他の媒体等を含むが、これらに限定されない。

また、クライントコンピュータは、インターネットを介して、対応するサーバに接続し、且つ、本発明によるコンピュータプログムラコードをコンピュータにダウンロードしてインストールし、それから、このプログラムを実行することにより、本発明を実現することもできる。

最後に説明すべきは、本文では、例えば、「第一」及び「第二」などのような関係を表す語は、１つの実体又は操作と、もう１つの実体又は操作とを区分するためだけのものであり、これらの実体又は操作の間にそのような実際の関係又は順序が存在するとの意味又は示唆を有しない。また、「含む」、「有する」の語又はその他の変形語は、非排他的な「含む」を包括するため用いられ、これにより、一連の要素を含むプロセス、方法、物品又は装置は、これらの要素だけでなく、明記されていない他の要素を含んでもよく、或いは、このプロセス、方法、物品又は装置が所有する固有の要素を含むものである。より多くの限定が無い場合、「・・・を含む」という語句で限定される要素は、この要素を含むプロセス、方法、物品又は装置に存在する他の同じ要素を排除しない。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。

（付記1）
画像中の文字列を認識する方法であって、
前記画像中の文字列領域を抽出するステップと、
前記文字列領域に対してオーバーセグメンテーションを行うステップと、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識するステップと、を含む、方法。

（付記2）
付記1に記載の方法であって、
前記言語種類文脈特徴は、各探索経路について、
前記探索経路中の各文字及びその一つの隣接する文字が同じ種類の言語に属するかどうかを確定し、及び、
前記確定結果に基づいて、前記言語種類文脈特徴を計算することにより確定される、方法。

（付記3）
付記1に記載の方法であって、
前記言語種類文脈特徴は、各探索経路について、
前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定し、及び、
前記確定結果に基づいて、前記言語種類文脈特徴を計算することより確定される、方法。

（付記4）
付記1に記載の方法であって、
前記文字幅文脈特徴は、各探索経路について、
前記文字列領域に対して初期認識を行い、
前記初期認識結果に基づいて、次の数5により重み付き平均文字幅を推定し、
前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定し、及び、
前記差に基づいて、前記文字幅文脈特徴を計算することにより確定され、

ここで、
（外17）

は、前記初期認識結果中の第i個文字の文字幅であり、
（外18）

は、
（外19）

の信頼度である、方法。

（付記5）
付記4に記載の方法であって、
前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか１つである、方法。

（付記6）
付記1乃至5の何れか1つに記載の方法であって、
前記文字列領域に対してオーバーセグメンテーションを行う前に、前記文字列領域に対して前処理を行うステップを更に含む、方法。

（付記7）
付記1乃至5の何れか1つに記載の方法であって、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識するステップは、
前記言語種類文脈特徴及び前記文字幅文脈特徴のうちの少なくとも１つの特徴と、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの少なくとも１つの特徴とに基づいて、前記経路探索戦略により前記文字列領域に含まれる文字列を認識するステップを含む、方法。

（付記8）
画像中の文字列を認識する装置であって、
前記画像中の文字列領域を抽出する抽出ユニットと、
前記文字列領域に対してオーバーセグメンテーションを行う分割ユニットと、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識する認識ユニットと、を含む、装置。

（付記9）
付記8に記載の装置であって、
前記認識ユニットは、
前記探索経路中の各文字及びその1つの隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
前記確定結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。

（付記10）
付記8に記載の装置であって、
前記認識ユニットは、
前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
前記確定結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。

（付記11）
付記8に記載の装置であって、
前記認識ユニットは、
前記文字列領域に対して初期認識を行う初期認識サブユニットと、
前記初期認識結果に基づいて、次の数6により重み付き平均文字幅を推定する平均文字幅推定サブユニットと、
前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定する差異確定サブユニットと、
前記差に基づいて、前記文字幅文脈特徴を計算する第二計算サブユニットと、を含み、

ここで、
（外20）

は、前記初期認識結果中の第i個文字の文字幅であり、
（外21）

は、
（外22）

の信頼度である、装置。

（付記12）
付記11に記載の装置であって、
前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか１つである、装置。

（付記13）
付記8乃至12の何れか1つに記載の装置であって、
前記文字列領域に対して前処理を行う前処理ユニットを更に含む、装置。

（付記14）
付記8乃至12の何れか1つに記載の装置であって、
前記認識ユニットは、前記言語種類文脈特徴及び前記文字幅文脈特徴のうちの少なくとも１つの特徴と、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの少なくとも１つの特徴とに基づいて、前記経路探索戦略により前記文字列領域に含まれる文字列を認識する、装置。

（付記15）
コンピュータに、付記1に記載の方法の各ステップを実行させるためのプログラム。

（付記16）
付記15に記載のプログラムを記録しているコンピュータ読み出し可能な記憶媒体。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

画像中の文字列を認識する方法であって、
前記画像中の文字列領域を抽出する抽出ステップと、
前記文字列領域に対してオーバーセグメンテーションを行う分割ステップと、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識する認識ステップと、を含み、
前記文字幅文脈特徴は、各探索経路について、
前記文字列領域に対して初期認識を行い、
前記初期認識の結果に基づいて、次の数7により重み付き平均文字幅を推定し、
前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定し、
前記差に基づいて、前記文字幅文脈特徴を計算することにより確定され、

ここで、
（外23）

は、前記重み付き平均文字幅であり、
（外24）

は、前記初期認識の結果中の第i個文字の文字幅であり、
（外25）

は、
（外26）

の信頼度である、方法。
請求項１に記載の方法であって、
前記言語種類文脈特徴は、各探索経路について、
前記探索経路中の各文字及びその一つの隣接する文字が同じ種類の言語に属するかどうかを確定し、
前記確定の結果に基づいて、前記言語種類文脈特徴を計算することにより確定される、方法。
請求項１に記載の方法であって、
前記言語種類文脈特徴は、各探索経路について、
前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定し、
前記確定の結果に基づいて、前記言語種類文脈特徴を計算することより確定される、方法。
請求項１に記載の方法であって、
前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか１つである、方法。
画像中の文字列を認識する装置であって、
前記画像中の文字列領域を抽出する抽出ユニットと、
前記文字列領域に対してオーバーセグメンテーションを行う分割ユニットと、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも１つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識する認識ユニットと、を含み、
前記認識ユニットは、
前記文字列領域に対して初期認識を行う初期認識サブユニットと、
前記初期認識の結果に基づいて、次の数8により重み付き平均文字幅を推定する平均文字幅推定サブユニットと、
前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定する差異確定サブユニットと、
前記差に基づいて、前記文字幅文脈特徴を計算する第二計算サブユニットと、を含み、

ここで、
（外27）

は、前記重み付き平均文字幅であり、
（外28）

は、前記初期認識の結果中の第i個文字の文字幅であり、
（外29）

は、
（外30）

の信頼度である、装置。
請求項５に記載の装置であって、
前記認識ユニットは、
前記探索経路中の各文字及びその1つの隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
前記確定の結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。
請求項５に記載の装置であって、
前記認識ユニットは、
前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
前記確定の結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。
請求項５に記載の装置であって、
前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか１つである、装置。
コンピュータに、請求項１〜４の任意の一項に記載の方法を実行させるためのプログラム。
請求項９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。