JP6085999B2 - 画像中の文字列を認識する方法及び装置 - Google Patents

画像中の文字列を認識する方法及び装置 Download PDF

Info

Publication number
JP6085999B2
JP6085999B2 JP2013046996A JP2013046996A JP6085999B2 JP 6085999 B2 JP6085999 B2 JP 6085999B2 JP 2013046996 A JP2013046996 A JP 2013046996A JP 2013046996 A JP2013046996 A JP 2013046996A JP 6085999 B2 JP6085999 B2 JP 6085999B2
Authority
JP
Japan
Prior art keywords
character
width
character string
context feature
language type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013046996A
Other languages
English (en)
Other versions
JP2013186906A (ja
Inventor
屹峰 潘
屹峰 潘
チェヌ・スユアヌ
スヌ・ジュヌ
源 何
源 何
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2013186906A publication Critical patent/JP2013186906A/ja
Application granted granted Critical
Publication of JP6085999B2 publication Critical patent/JP6085999B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、文字(character)認識分野に関し、具体的に、画像中の文字列を認識する方法及び装置に関する。
デジタル画像取得装置(例えば、携帯電話、カメラなど)の普及に伴い、テキスト情報に基づく画像検索システムが幅広く注目されている。そのうち、自然シーンの画像中のテキスト認識は、システム全体の主な構成部分として、システムのパフォーマンスに大きく影響する。しかし、テキストのサイズ、フォント及び画像品質の劣化などの影響を受け、テキスト認識は、高精度の認識結果を達成することが依然として困難である。また、自然シーンの画像には通常複数種類の言語が含まれるので、これもテキス認識の精度に大きい影響を与える。
よって、上述の問題を解決することができる技術が望ましい。
本発明の主な目的は、画像中の文字列を認識する方法及び装置を提供することにある。
本発明の一側面によれば、画像中の文字列を認識する方法が提供される。この方法は、画像中の文字列領域を抽出するステップと、文字列領域に対して分割を行うステップと、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略(Path Searching Strategy)により文字列領域に含まれる文字列を認識するステップと、を含む。
本発明の実施例による、画像中の文字列を認識する方法のフローチャートである。 本発明による例示的な文字列領域を示す図である。 本発明による例示的な前処理後の文字列領域を示す図である。 本発明による例示的なオーバーセグメンテーション後の文字列領域の画像を示す図である。 本発明による例示的な最適経路探索を示す図である。 本発明の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定するフローチャートである。 本発明の他の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定するフローチャートである。 本発明による例示的な文字列領域を示す図である。 本発明による例示的な、言語種類文脈特徴を導入しない時に得られた認識結果を示す図である。 本発明による例示的な、言語種類文脈特徴を導入した時に得られた認識結果を示す図である。 本発明の実施例による、文字幅及び重み付き平均文字幅の間の差に基づいて文字幅文脈特徴を確定するフローチャートである。 本発明による例示的な文字列領域を示す図である。 本発明による例示的な、文字幅文脈特徴を導入しない時の文字列認識結果を示す図である。 本発明による例示的な、文字幅文脈特徴を導入した時の文字列認識結果を示す図である。 本発明による例示的な、画像中の文字列を認識するフローチャートである。 本発明の実施例による、画像中の文字列を認識する装置のブロック図である。 本発明の他の実施例による、画像中の文字列を認識する装置のブロック図である。 本発明の他の実施例による、画像中の文字列を認識する装置のブロック図である。 本発明の実施例による、画像中の文字列を認識する方法及び装置を実施するために用い得る計算装置の例示的な構造図である。
以下、添付した図面を参照しながら本発明の好適な実施形態について説明する。
図1、図2A〜2C及び図3を参照して、本発明の実施例による、画像中の文字列を認識する方法の処理100を説明する。
図1に示すように、ステップS105では、画像中の文字列領域を抽出することができる。図2Aは、本発明の例示的な文字列領域を示す図である。図2Aに示すように、画像中の文字列領域、即ち、“成就我[智]造”を含む文字列領域を抽出することができる。
オプションで、後述のステップS110での文字列領域のオーバーセグメンテーションの前に、文字列領域に対して前処理を行うことができる。図2Bは、本発明の例示的な前処理後の文字列領域を示す図である。そのうち、前処理は、幾つかの基本的な画像処理プロセス、例えば、二値化、画像の平滑化、傾き除去及び連通域の抽出などを含む。これらの前処理の主な目的は、後続の文字分割、抽出及び認識に、信頼できる画像品質を提供することにある。理解すべきは、前処理は、必ずしも必要でないステップである。例えば、画像中の文字列領域が非常にはっきりしている場合は、これらの前処理を行わなくてもよい。
ステップS110では、ステップS105にて抽出された文字列領域に対してオーバーセグメンテーションを行うことができる。シーン画像中の文字列のサイズ、フォント及び配置方式などの差が比較的大きい場合は、オーバーセグメンテーションの戦略を採用することで、文字間ができるだけくっつかないことを保証し得る。オーバーセグメンテーションの結果に基づいて、後続の最適経路探索、即ち、文字列認識に便利であるために、分割候補グリッドを構成することができる。図2Cは、本発明による例示的なオーバーセグメンテーション後の文字列領域の画像を示す図である。図2Cに示すように、“成就我[智]造”を含む文字列領域に対してオーバーセグメンテーションを行っている。
続いて、ステップS115では、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。図3は、本発明による例示的な最適経路探索を示す図である。図3には、各種の探索経路が示されている。
一般的な文字列認識については、最適経路探索は、分割及び文字列認識を同時に行う常用の方法である。分割候補グリッドには、何れか1つの経路が1つの文字列認識結果に対応し、最適経路探索の目的は、経路目標関数の最適化結果に対応する経路を見つけ、この経路に対応する認識結果が真の結果に最も接近すると判定することにある。文字列シーケンスX、文字種類符号シーケンスY及び対応する分割経路Sが与えられると、経路目標関数は、次のように表れ得る。
Figure 0006085999
ここで、
(外1)
Figure 0006085999
は、特徴関数を表し、
(外2)
Figure 0006085999
は、関数の重み(weight)を表す。
本実施例では、特徴関数は、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴を含む。
オプションで、特徴関数
(外3)
Figure 0006085999
は、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの1つ又は複数の特徴を更に含んでもよい。これについては、図9を参照して後述する。
通常、自然シーンの画像中の文字の多様性により、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のみに基づければ、満足な認識結果を得ることが難しい。本実施例による技術案では、言語種類文脈特徴及び文字幅文脈特徴を考慮しているため、認識精度を向上させることができる。次に、図4、図5及び図6A〜6Cを参照して、言語種類文脈特徴を確定する処理を説明し、また、図7及び図8A〜8Cを参照して、文字幅文脈特徴を確定する処理を説明する。
まず、図4、図5及び図6A〜6Cを参照して、本発明の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定する処理を説明する。
自然シーンの画像には、通常、異なる種類の言語、例えば、漢字、英文及びアラビア数字などが含まれる。また、同一文字列中の文字は、通常、1つの種類の言語に属する。これに基づいて、本実施例によれば、言語種類文脈特徴に基づいて、経路探索関数の計算を行うことができる。
図4に示すように、ステップS110にて文字列領域に対してオーバーセグメンテーションを行った後に、ステップS405では、経路中の各文字及びその一つの隣接する文字が同じ種類の言語に属するかどうかを確定することができる。ステップS410では、上述の確定結果に基づいて言語種類文脈特徴を算出することができる。
具体的には、2つの隣接する文字
(外4)
Figure 0006085999
及び符号
(外5)
Figure 0006085999
が与えられるとすると、言語種類文脈特徴関数は、次のように定義され得る。
Figure 0006085999
ここで、αは、ペナルティ係数であり、その値は、経験により確定されてもよい。言語種類文脈特徴は、異なる種類の言語に属する2つの隣接する文字のみに対してペナルティを行うことにより、同一行にある文字を同じ種類の言語に強制的に属させる目的を達成することができる。
続いて、ステップS115では、言語種類文脈特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。
次に、図5を参照して、本発明の他の実施例による、隣接する文字に基づいて言語種類文脈特徴を確定する処理を説明する。
図5に示すように、ステップS110にて文字列領域に対してオーバーセグメンテーションを行った後に、ステップS505では、探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定することができる。ステップS510では、上述の確定結果に基づいて言語種類文脈特徴を算出することができる。
具体的には、目標文字の隣接する文字の数が複数であってもよい。目標文字X1の隣接する文字の集合が
(外6)
Figure 0006085999
であるとすると、言語種類文脈特徴関数は、次のように定義され得る。
Figure 0006085999
好ましくは、ペナルティ係数αは、訓練サンプルを用いて、機械学習アルゴリズムにより求められたものである。具体的なアルゴリズムについては、例えば、非特許文献である“Xiang-Dong Zhou、Jin-Lun Yu、Cheng-Lin Liu、Nagasaki,T.、Marukawa,K.:Online Handwritten Japanese Character String Recognition Incorporating Geometric Context.ICDAR 2009.7:48-52”を参照することができる。
続いて、ステップS115では、言語種類文脈特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。
図6Aは、本発明による例示的な文字列領域を示す図であり、図6Bは、本発明による例示的な、言語種類文脈特徴を導入しない時に得られた認識結果を示す図であり、図6Cは、本発明による例示的な、言語種類文脈特徴を導入した時に得られた認識結果を示す図である。図6Bに示すように、言語種類文脈特徴を導入しない時に得られた結果は、“o 1 o − 6 7 5 o 2 2 2 9”であり、そのうち、3つ“0”は、誤って“o”と認識されている。図6Cに示すように、言語種類文脈特徴を導入した時に得られた結果は、“0 1 o − 6 7 5 0 2 2 2 9”であり、そのうち、3つの“0”のうちの1つは、誤って“o”と認識されている。これによって分かるように、言語種類文脈特徴を導入することにより、文字認識の正確率を向上させることができる。
次に、図7及び図8A〜図8Cを参照して、本発明の実施例による、文字幅と重み付き平均文字幅との間の差に基づいて文字幅文脈特徴を確定する処理を説明する。そのうち、文字幅文脈特徴は、各探索経路について、後述の方法により確定されるものである。文字列認識過程では、誤って分割することによる誤認識が比較的よく現れる。また、文字の書き方が異なっても、レイアウトに便利であるために、同一行にある文字は、通常、同じ文字幅を有する。本実施例によれば、文字幅文脈特徴に基づいて、上述のような誤りを修正することができる。
図7に示すように、ステップS110にて文字列領域に対してオーバーセグメンテーションを行った後に、ステップS705では、文字列領域に対して初期認識を行うことができる。
ステップS710では、初期認識結果に基づいて重み付き平均文字幅を推定することができ、即ち、重み付き平均文字幅
(外7)
Figure 0006085999
であり、そのうち、
(外8)
Figure 0006085999
は、初期認識結果中の第i個文字の文字幅であり、
(外9)
Figure 0006085999
は、
(外10)
Figure 0006085999
の文字認識信頼度である。即ち、文字認識信頼度
(外11)
Figure 0006085999
を重み係数の値とする。例えば、目標文字の左側にある第一個の文字の右境界から、該目標文字の右側にある第一個の文字の左境界までの距離(図8Aに示すように)を、該目標文字の文字幅
(外12)
Figure 0006085999
とすることができる。理解すべきは、これは、文字幅の1つの例だけである。例えば、文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか1つであってもよい。
ステップS715では、探索経路中の各文字の文字幅と重み付き平均文字幅との間の差を確定することができる。
例えば、文字幅文脈特徴及び元の特徴を組み合わせて、次のような新しい特徴を定義してもよい。
Figure 0006085999
この定義は、目標文字の文字幅とテキスト行の平均文字幅とが接近すれば、比較的小さいペナルティ係数が得られ、これに反して、比較的大きいペナルティ係数が得られることを示している。
ステップS720では、上述の差に基づいて文字幅文脈特徴を算出することができる。
続いて、ステップS115では、文字幅文脈特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。
図8Aは、本発明による例示的な文字列領域を示す図であり、図8Bは、本発明による例示的な、文字幅文脈特徴を導入しない時の文字列認識結果を示す図であり、図8Cは、本発明による例示的な、文字幅文脈特徴を導入した時の文字列認識結果を示す図である。図8Bに示すように、文字幅文脈特徴を導入しない時に、認識結果は、“成就我胤造”である。図8Cに示すように、文字幅文脈特徴を導入した時に、認識結果は、“成就我[智]造”である。これによって分かるように、文字幅文脈特徴を導入することにより、文字認識の正確率を向上させることができる。
次に、文字種類文脈特徴を導入した場合、及び文字幅文脈特徴を導入した場合についてそれぞれ説明する。実際には、上述の数1により、文字種類文脈特徴及び文字幅文脈特徴を同時に導入することができる。また、他の特徴、例えば、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴などを導入することもできる。
次に、図9を参照して、本発明による例示的な、画像中の文字列を認識する処理を説明する。
図9に示すように、上述の言語種類文脈特徴及び文字幅文脈特徴の他、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴も同時に導入している。
理解すべきは、必ずしもこれらの特徴の全てを同時に導入する必要がなく、そのうちの1つ又は複数を導入してもよい。
次に、図10を参照して、本発明の実施例による画像中の文字列を認識する装置1000を説明する。
図10に示すように、画像中の文字列を認識する装置1000は、抽出ユニット1005、分割ユニット1010及び認識ユニット1015を含んでもよい。
抽出ユニット1005は、画像中の文字列領域を抽出することができる。分割ユニット1010は、文字列領域に対してオーバーセグメンテーションを行うことができる。認識ユニット1015は、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。
次に、図11を参照して、本発明の他の実施例による、画像中の文字列を認識する装置1000’を説明する。図11に示すような画像中の文字列を認識する装置1000’と、図10に示すような画像中の文字列を認識する装置1000との相違点は、認識ユニット1015は、言語種類確定サブユニット1015-1及び第一計算サブユニット1015-2を含むことにある。
言語種類確定サブユニット1015-1は、経路中の各文字及びその1つの隣接する文字が同じ種類の言語に属するかどうかを確定することができる。或いは、言語種類確定サブユニット1015-1は、経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定することができる。
第一計算サブユニット1015-2は、上述の確定結果に基づいて言語種類文脈特徴を算出することができる。
次に、図12を参照して、本発明の他の実施例による、画像中の文字列を認識する装置1000”を説明する。図12に示すような画像中の文字列を認識する装置1000”と、図10に示すような画像中の文字列を認識する装置1000との相違点は、認識ユニット1015は、初期認識サブユニット1015-3、平均文字幅推定サブユニット1015-4、差異確定サブユニット1015-5及び第二計算サブユニット1015-6を含むことにある。
初期認識サブユニット1015-3は、文字列領域に対して初期認識を行うことができる。平均文字幅推定サブユニット1015-4は、初期認識結果に基づいて重み付き平均文字幅を推定することができ、即ち、重み付き平均文字幅
(外13)
Figure 0006085999
であり、そのうち、
(外14)
Figure 0006085999
は、初期認識結果中の第i個文字の文字幅であり、
(外15)
Figure 0006085999
は、
(外16)
Figure 0006085999
の文字認識信頼度である。差異確定サブユニット1015-5は、経路中の各文字の文字幅と、重み付き平均文字幅との間の差を確定することができる。第二計算サブユニット1015-6は、この差に基づいて文字幅文脈特徴を算出することができる。
そのうち、文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか1つである。
画像中の文字列を認識する装置1000、1000’及び1000”は、前処理ユニット(図示せず)を含んでもよく、前処理ユニットは、文字列領域に対して前処理を行うことができる。
オプションで、認識ユニット1015は、言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴と、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの少なくとも1つの特徴とに基づいて、経路探索戦略により文字列領域に含まれる文字列を認識することができる。
本発明の実施例によれば、言語種類文脈特徴及び文字幅文脈特徴を用いることにより、自然シーンの画像中の文字列の認識精度を向上させることができる。
そのうち、言語種類文脈特徴は、“同一テキスト行では、文字が同じ種類に属する”という合理的な制約を強化している。文字幅文脈特徴は、“同一テキスト行では、文字幅が近い”という合理的な制約を強化している。本発明の実施例によれば、“分割−認識”という仕組みの下で、2種類の新しい特徴(即ち、言語種類文脈特徴及び文字幅文脈特徴)と、従来の特徴とを1つの目標最適化特徴関数に統合し、これに基づいて自然シーンの画像中の文字列に対して認識を行うことができる。また、実験結果によれば、本発明が提供しているこの2種類の新しい特徴は、自然シーンの画像中の文字列を認識する時の認識精度の顕著な向上に役立つことができる。
上述の実施例による、画像中の文字列を認識する方法及び装置における各ステップや構成ユニットなどは、ソフトウェア、ファームウェア、ハードウェア又はそれらの任意の組み合わせの方式で実現されてもよい。ソフトウェア又はファームウェアにより実現される場合は、記憶媒体又はネットワークから、専用ハードウェア構造を有する装置(例えば図13に示す汎用装置1300)に、このソフトウェア又はファームウェアを構成するプログラムをインストールすることができる。この装置は、各種のプログラムがインストールされている時に、上述の各構成ユニットやステップの各種の機能を行うことができる。
図13は、本発明の実施例による、画像中の文字列を認識する方法及び装置を実施するために用い得る計算装置の例示的な構造図である。
図13では、中央処理ユニット(CPU)1301は、ROM 1302に記憶されているプログラム、又は、記憶部1308からRAM 1303にロードされているプログラムに基づいて、各種の処理を行う。RAM 1303は、必要に応じて、CPU 1301が各種の処理などを実行する時に必要なデータを記憶する。CPU 1301、ROM 1302及びRAM 1303は、バス1304により互いに接続される。入力/出力インタフェース1305もバス1304に接続される。
また、入力/出力インタフェース1305に接続されるのは、入力部1306(キーボード、マウスなどを含み)、出力部1307(例えばCRT、LCDのような表示器及びスピーカーなどを含み)、記憶部1308(ハードディスクなどを含み)、通信部1309(例えばLANカード、モデムなどのネットワークアクセスカードを含み)をも含む。通信部1309は、ネットワーク、例えばインターネットを介して通信処理を行う。必要に応じて、ドライブ1310も入力/出力インタフェース1305に接続され得る。取り外し可能な媒体1311、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置なども、必要に応じてドライブ1310に取り付けされてもよく、その中から読み出されたコンピュータプログラムは、必要に応じて記憶部1308にインストールされ得る。
ソフトウェアにより上述の一連の処理を実現する場合、ネットワーク、例えばインターネット、又は、記憶媒体、例えば取り外し可能な媒体介質1311からソフトウェアを構成するプログラムをインストールしてもよい。
なお、当業者が理解すべきは、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図13に示すような取り外し可能な媒体1311に限定されない。取り外し可能な媒体1311の例としては、磁気ディスク(フロッピー(登録商標)ディスクを含む)、光ディスク(CD−ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体メモリを含む。或いは、記憶媒体はROM1302、記憶部1308に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。
また、本開示は、マシン(例えば、コンピュータ)読取可能な命令コードからなるプログラムプロダクトにも関する。この命令コードは、マシンに読み取られて実行される時に、上述の実施例による方法を実行することができる。それ相応に、上述のマシン読取可能な命令コードからなるプログラムプロダクトを記憶している記憶媒体も本開示に含まれている。このような記憶媒体は、磁気ディスク(フロッピーディスク)、光ディスク、光磁気ディスク、メモリカード、メモリメモリスティックなどを含むが、これらに限定されない。
また、本開示の一つの図面又は一つの実施例に記載の要素及び特徴は、一つ以上の他の図面又は実施例に示す要素及び特徴と組み合わせることができる。
また、上述の一連の処理を行うステップは、上述に説明した順序に従って時間順に行ってもよいが、必ずしも時間順に行う必要がない。一部のステップは、並行又は互いに独立で行ってもよい。
また、本開示による上述の方法の各処理プロセスは、各種のマシン読み取り可能な記憶媒体に記憶されるコンピュータ実行可能なプログラムで実現され得ることも明らかである。
また、本開示の目的は、次の方法で実現されてもよい。即ち、上述の実行可能なプログラムコードを記憶している記憶媒体を直接又は間接的にシステム又は装置に提供し、且つ、該システム又は装置内のコンピュータ又はCPUは、上述のプログラムコードを読み出して実行する。
このとき、システム又は装置はプログラムを実行する機能を有すれば、本発明の実施形態はプログラムに限定されず、且つ、該プログラムは任意の形式であってもよく、例えば、オブジェクトプログラム、インタープリター実行可能なプログラム、又は、オペレーティングシステムへのスクリプトプログラムであってもよい。
上述のマシン読み取り可能な記憶媒体は、各種の記憶器及び記憶ユニット、半導体装置、光、磁気及び光磁気ディスクのような磁気ディスクユニット、及び情報記憶に適する他の媒体等を含むが、これらに限定されない。
また、クライントコンピュータは、インターネットを介して、対応するサーバに接続し、且つ、本発明によるコンピュータプログムラコードをコンピュータにダウンロードしてインストールし、それから、このプログラムを実行することにより、本発明を実現することもできる。
最後に説明すべきは、本文では、例えば、「第一」及び「第二」などのような関係を表す語は、1つの実体又は操作と、もう1つの実体又は操作とを区分するためだけのものであり、これらの実体又は操作の間にそのような実際の関係又は順序が存在するとの意味又は示唆を有しない。また、「含む」、「有する」の語又はその他の変形語は、非排他的な「含む」を包括するため用いられ、これにより、一連の要素を含むプロセス、方法、物品又は装置は、これらの要素だけでなく、明記されていない他の要素を含んでもよく、或いは、このプロセス、方法、物品又は装置が所有する固有の要素を含むものである。より多くの限定が無い場合、「・・・を含む」という語句で限定される要素は、この要素を含むプロセス、方法、物品又は装置に存在する他の同じ要素を排除しない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
画像中の文字列を認識する方法であって、
前記画像中の文字列領域を抽出するステップと、
前記文字列領域に対してオーバーセグメンテーションを行うステップと、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識するステップと、を含む、方法。
(付記2)
付記1に記載の方法であって、
前記言語種類文脈特徴は、各探索経路について、
前記探索経路中の各文字及びその一つの隣接する文字が同じ種類の言語に属するかどうかを確定し、及び、
前記確定結果に基づいて、前記言語種類文脈特徴を計算することにより確定される、方法。
(付記3)
付記1に記載の方法であって、
前記言語種類文脈特徴は、各探索経路について、
前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定し、及び、
前記確定結果に基づいて、前記言語種類文脈特徴を計算することより確定される、方法。
(付記4)
付記1に記載の方法であって、
前記文字幅文脈特徴は、各探索経路について、
前記文字列領域に対して初期認識を行い、
前記初期認識結果に基づいて、次の数5により重み付き平均文字幅を推定し、
前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定し、及び、
前記差に基づいて、前記文字幅文脈特徴を計算することにより確定され、
Figure 0006085999
ここで、
(外17)
Figure 0006085999
は、前記初期認識結果中の第i個文字の文字幅であり、
(外18)
Figure 0006085999
は、
(外19)
Figure 0006085999
の信頼度である、方法。
(付記5)
付記4に記載の方法であって、
前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか1つである、方法。
(付記6)
付記1乃至5の何れか1つに記載の方法であって、
前記文字列領域に対してオーバーセグメンテーションを行う前に、前記文字列領域に対して前処理を行うステップを更に含む、方法。
(付記7)
付記1乃至5の何れか1つに記載の方法であって、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識するステップは、
前記言語種類文脈特徴及び前記文字幅文脈特徴のうちの少なくとも1つの特徴と、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの少なくとも1つの特徴とに基づいて、前記経路探索戦略により前記文字列領域に含まれる文字列を認識するステップを含む、方法。
(付記8)
画像中の文字列を認識する装置であって、
前記画像中の文字列領域を抽出する抽出ユニットと、
前記文字列領域に対してオーバーセグメンテーションを行う分割ユニットと、
言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識する認識ユニットと、を含む、装置。
(付記9)
付記8に記載の装置であって、
前記認識ユニットは、
前記探索経路中の各文字及びその1つの隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
前記確定結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。
(付記10)
付記8に記載の装置であって、
前記認識ユニットは、
前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
前記確定結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。
(付記11)
付記8に記載の装置であって、
前記認識ユニットは、
前記文字列領域に対して初期認識を行う初期認識サブユニットと、
前記初期認識結果に基づいて、次の数6により重み付き平均文字幅を推定する平均文字幅推定サブユニットと、
前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定する差異確定サブユニットと、
前記差に基づいて、前記文字幅文脈特徴を計算する第二計算サブユニットと、を含み、
Figure 0006085999
ここで、
(外20)
Figure 0006085999
は、前記初期認識結果中の第i個文字の文字幅であり、
(外21)
Figure 0006085999
は、
(外22)
Figure 0006085999
の信頼度である、装置。
(付記12)
付記11に記載の装置であって、
前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか1つである、装置。
(付記13)
付記8乃至12の何れか1つに記載の装置であって、
前記文字列領域に対して前処理を行う前処理ユニットを更に含む、装置。
(付記14)
付記8乃至12の何れか1つに記載の装置であって、
前記認識ユニットは、前記言語種類文脈特徴及び前記文字幅文脈特徴のうちの少なくとも1つの特徴と、単字認識器特徴、語義文脈特徴及び幾何学的文脈特徴のうちの少なくとも1つの特徴とに基づいて、前記経路探索戦略により前記文字列領域に含まれる文字列を認識する、装置。
(付記15)
コンピュータに、付記1に記載の方法の各ステップを実行させるためのプログラム。
(付記16)
付記15に記載のプログラムを記録しているコンピュータ読み出し可能な記憶媒体。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (10)

  1. 画像中の文字列を認識する方法であって、
    前記画像中の文字列領域を抽出する抽出ステップと、
    前記文字列領域に対してオーバーセグメンテーションを行う分割ステップと、
    言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識する認識ステップと、を含み、
    前記文字幅文脈特徴は、各探索経路について、
    前記文字列領域に対して初期認識を行い、
    前記初期認識の結果に基づいて、次の数7により重み付き平均文字幅を推定し、
    前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定し、
    前記差に基づいて、前記文字幅文脈特徴を計算することにより確定され、
    Figure 0006085999
    ここで、
    (外23)
    Figure 0006085999
    は、前記重み付き平均文字幅であり、
    (外24)
    Figure 0006085999
    は、前記初期認識の結果中の第i個文字の文字幅であり、
    (外25)
    Figure 0006085999
    は、
    (外26)
    Figure 0006085999
    の信頼度である、方法。
  2. 請求項1に記載の方法であって、
    前記言語種類文脈特徴は、各探索経路について、
    前記探索経路中の各文字及びその一つの隣接する文字が同じ種類の言語に属するかどうかを確定し、
    前記確定の結果に基づいて、前記言語種類文脈特徴を計算することにより確定される、方法。
  3. 請求項1に記載の方法であって、
    前記言語種類文脈特徴は、各探索経路について、
    前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定し、
    前記確定の結果に基づいて、前記言語種類文脈特徴を計算することより確定される、方法。
  4. 請求項に記載の方法であって、
    前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか1つである、方法。
  5. 画像中の文字列を認識する装置であって、
    前記画像中の文字列領域を抽出する抽出ユニットと、
    前記文字列領域に対してオーバーセグメンテーションを行う分割ユニットと、
    言語種類文脈特徴及び文字幅文脈特徴のうちの少なくとも1つの特徴に基づいて、経路探索戦略により前記文字列領域に含まれる文字列を認識する認識ユニットと、を含み、
    前記認識ユニットは、
    前記文字列領域に対して初期認識を行う初期認識サブユニットと、
    前記初期認識の結果に基づいて、次の数8により重み付き平均文字幅を推定する平均文字幅推定サブユニットと、
    前記探索経路中の各文字の文字幅と、前記重み付き平均文字幅との間の差を確定する差異確定サブユニットと、
    前記差に基づいて、前記文字幅文脈特徴を計算する第二計算サブユニットと、を含み、
    Figure 0006085999
    ここで、
    (外27)
    Figure 0006085999
    は、前記重み付き平均文字幅であり、
    (外28)
    Figure 0006085999
    は、前記初期認識の結果中の第i個文字の文字幅であり、
    (外29)
    Figure 0006085999
    は、
    (外30)
    Figure 0006085999
    の信頼度である、装置。
  6. 請求項に記載の装置であって、
    前記認識ユニットは、
    前記探索経路中の各文字及びその1つの隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
    前記確定の結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。
  7. 請求項に記載の装置であって、
    前記認識ユニットは、
    前記探索経路中の各文字及びその複数の隣接する文字中の各隣接する文字が同じ種類の言語に属するかどうかを確定する言語種類確定サブユニットと、
    前記確定の結果に基づいて、前記言語種類文脈特徴を計算する第一計算サブユニットと、を含む、装置。
  8. 請求項に記載の装置であって、
    前記文字幅は、文字自身の幅、文字の両側にある隙間の幅と該文字自身の幅との和、文字の両側にある隙間の幅の半分と該文字自身の幅との和、文字自身の幅と該文字の右側にある隙間の幅との和、及び、文字自身の幅と該文字の左側にある隙間の幅との和、のうちの何れか1つである、装置。
  9. コンピュータに、請求項1〜4の任意の一項に記載の方法を実行させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2013046996A 2012-03-09 2013-03-08 画像中の文字列を認識する方法及び装置 Expired - Fee Related JP6085999B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210062124.3 2012-03-09
CN2012100621243A CN103310209A (zh) 2012-03-09 2012-03-09 识别图像中的字符串的方法和装置

Publications (2)

Publication Number Publication Date
JP2013186906A JP2013186906A (ja) 2013-09-19
JP6085999B2 true JP6085999B2 (ja) 2017-03-01

Family

ID=49135405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013046996A Expired - Fee Related JP6085999B2 (ja) 2012-03-09 2013-03-08 画像中の文字列を認識する方法及び装置

Country Status (2)

Country Link
JP (1) JP6085999B2 (ja)
CN (1) CN103310209A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104399674A (zh) * 2014-09-11 2015-03-11 上海大学 烟箱品牌视觉检测分拣系统
CN107016387B (zh) * 2016-01-28 2020-02-28 苏宁云计算有限公司 一种识别标签的方法及装置
CN107092902B (zh) * 2016-02-18 2021-04-06 富士通株式会社 字符串的识别方法和系统
CN108133208B (zh) * 2016-12-01 2021-04-09 北京新唐思创教育科技有限公司 一种版面分析中的字符切分方法及其装置
CN109814733B (zh) * 2019-01-08 2022-11-08 百度在线网络技术(北京)有限公司 基于输入的推荐信息生成方法和装置
CN116343209B (zh) * 2023-03-14 2025-10-03 广东电网有限责任公司广州供电局 运用于机器人流程自动化的字符串识别方法、设备及介质
CN120013972B (zh) * 2025-04-21 2025-07-08 北京霍里思特科技有限公司 图像分割方法、图像分割装置、物料分选设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04335487A (ja) * 1991-05-10 1992-11-24 Ricoh Co Ltd 文字認識装置の文字切り出し方法
JP2940747B2 (ja) * 1992-10-13 1999-08-25 三洋電機株式会社 文字切り出し装置
JP3313272B2 (ja) * 1996-01-08 2002-08-12 株式会社日立製作所 住所読み取り方法および識別関数重みベクトル生成方法
US6246794B1 (en) * 1995-12-13 2001-06-12 Hitachi, Ltd. Method of reading characters and method of reading postal addresses
JPH10198761A (ja) * 1997-01-09 1998-07-31 Oki Electric Ind Co Ltd 文字認識方法および文字認識装置
JP3919617B2 (ja) * 2002-07-09 2007-05-30 キヤノン株式会社 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP2005141329A (ja) * 2003-11-04 2005-06-02 Toshiba Corp 手書き文字認識装置、及び手書き文字認識方法
JP5322517B2 (ja) * 2008-07-08 2013-10-23 キヤノン株式会社 画像処理装置および方法
CN102289662A (zh) * 2011-07-28 2011-12-21 南京大学 一种二值工程图中的字符检测方法

Also Published As

Publication number Publication date
JP2013186906A (ja) 2013-09-19
CN103310209A (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
JP6085999B2 (ja) 画像中の文字列を認識する方法及び装置
US11769111B2 (en) Probabilistic language models for identifying sequential reading order of discontinuous text segments
CN110135427B (zh) 用于识别图像中的字符的方法、装置、设备和介质
US10372821B2 (en) Identification of reading order text segments with a probabilistic language model
Bissacco et al. Photoocr: Reading text in uncontrolled conditions
CN113780098B (zh) 文字识别方法、装置、电子设备以及存储介质
US20210124976A1 (en) Apparatus and method for calculating similarity of images
US9286527B2 (en) Segmentation of an input by cut point classification
CN109948615A (zh) 多语言文本检测识别系统
US9977995B2 (en) Image clustering method, image clustering system, and image clustering server
KR101028670B1 (ko) 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US9424823B2 (en) Method and apparatus for recognising music symbols
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
CN114398952A (zh) 训练文本生成方法、装置、电子设备及存储介质
US20200349389A1 (en) Method and device for training image recognition model and related device
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN110879972A (zh) 一种人脸检测方法及装置
CN102968610B (zh) 收据图像处理方法和设备
US12462589B2 (en) Text line detection
US20250111687A1 (en) Annotation alignment algorithm analysis for character recognition
CN117632110A (zh) 基于图像的前端代码生成方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170117

R150 Certificate of patent or registration of utility model

Ref document number: 6085999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees