JP2013536958A - デジタル画像の認識 - Google Patents

デジタル画像の認識 Download PDF

Info

Publication number
JP2013536958A
JP2013536958A JP2013525899A JP2013525899A JP2013536958A JP 2013536958 A JP2013536958 A JP 2013536958A JP 2013525899 A JP2013525899 A JP 2013525899A JP 2013525899 A JP2013525899 A JP 2013525899A JP 2013536958 A JP2013536958 A JP 2013536958A
Authority
JP
Japan
Prior art keywords
partial image
topology information
information set
image
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013525899A
Other languages
English (en)
Other versions
JP5701388B2 (ja
JP2013536958A5 (ja
Inventor
スン・シアーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013536958A publication Critical patent/JP2013536958A/ja
Publication of JP2013536958A5 publication Critical patent/JP2013536958A5/ja
Application granted granted Critical
Publication of JP5701388B2 publication Critical patent/JP5701388B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【解決手段】 数字の認識が開示される。この認識は、複数の数字に関する情報を含む受信画像から、複数の数字の1つに関連付けられている部分画像を抽出することと、部分画像に関連付けられているトポロジー情報セットに少なくとも部分的に基づいて、認識を実行することとを含み、部分画像に関連付けられているトポロジー情報セットに少なくとも部分的に基づいて、認識を実行することは、部分画像に関連付けられているトポロジー情報セットを得るために、部分画像を処理することと、部分画像に関連付けられているトポロジー情報セットを、事前設定され記憶されているトポロジー情報セットと比較することと、部分画像に関連付けられているトポロジー情報セットが、事前設定され記憶されているトポロジー情報セットと一致する場合に、部分画像を、事前設定され記憶されているトポロジー情報セットに関連付けられた認識された数字に関連付けられていると決定することとを含む。
【選択図】図5

Description

[関連出願の相互参照]
本出願は、あらゆる目的のために、参照によって本明細書に組み込まれる、2010年8月30日に出願された、発明の名称を「A DIGITAL IMAGE RECOGNITION METHOD, DEVICE, AND A CRAWLER SERVER(デジタル画像認識方法、デバイス、及びクローラサーバ)」とする中国特許出願第20101010270456.1号に基づく優先権を主張する。
本開示は、画像処理の分野に関し、特に、デジタル画像認識の技術に関する。
様々な状況で、デジタル画像の認識が求められる。デジタル画像の認識は、例えば、ウェブクローラによって用いられる必要がある。ウェブクローラ(本明細書では単に、「クローラ」とのみ称されることもある)は、サーチエンジンによる検索の実施を助けるために、データを収集する。ウェブクローラは、(コンピュータを使用して)ウェブページをダウンロードし、次いで、それらのウェブページに含まれている又は隠されているデータを抽出及び/又は認識するのが一般的である。ウェブクローラは、抽出/認識されたデータを、インデックスの構築時にサーチエンジンが受け入れて/アクセスして使用することが可能なフォーマットにアレンジする。このように、ウェブページからデータを抽出及び/又は認識するウェブクローラの役割は、重要である。
例えば、ビジネス用のバーティカルサーチエンジン(すなわち、あらゆるタイプのコンテンツではなく、コンテンツの特定部分にフォーカスするサーチエンジン)の場合は、関連付けられているウェブクローラは、「店名」、「住所」、「電話番号」、「地図座標」、及び「レビュー」などの情報を抽出及び/又は認識することができる。例えば、正確な電話番号が含まれると、ある特定のビジネスの情報の質及び有効性に大きく寄与することができるので、電話番号(例えば、会社の電話番号、事業用の電話番号、又は個人の電話番号を含む)は、バーティカルサーチにおける非常に重要な情報である。この例では、たとえ、ある特定のビジネスについて、電話情報を除くその他の情報の抽出及び/又は認識が完全であったとしても、そのビジネス用に収集されたデータは、正確な電話番号情報の欠落ゆえに、依然として不完全である。認識を求められる数の羅列の別の例として、スキャン画像(例えば、IDカードをスキャンした画像)内に存在するID番号が挙げられる。
引き続き電話情報を例にとると、電話番号は、数字の羅列であることが一般的である。ウェブページにおいて、電話番号は、画像の形態で表示されることがある。これは、ユーザによる読み取りが、電話番号によって妨害されることのないようにするためである。また、電話番号自体は、比較的短く、ウェブページ上の非常に狭い領域を占めるに過ぎないので、電話番号が写真として送られるときに、それがネットワークのオーバーヘッドを不必要に増加させることはない。ウェブクローラによる取得が必要とされる電話番号などの情報が、デジタル画像として記憶されている場合は、ウェブクローラは、このような(例えば数値)情報を認識するために、光学式文字認識(OCR)機能を含んでいると有用である。OCRは、テキストのスキャン画像を機械が理解できるテキストに変換する機械的及び/又は電子的変換の一形態である。
OCRは、コンピュータによるパターン認識の一形態であり、数字(「0」から「9」までの間の任意の数字)のみの認識は、OCRにおける特定の一分野である。一般に、利用可能な技術は、差別化技術である数字認識技術を用いる。このような差別化技術は、以下の工程を実施するのが通例である。すなわち、個々の数字「0」〜「9」の画像モデルを受信して、個々のモデル画像から認識対象とされる画像を個別に差別化し、認識対象画像とモデル画像との間で異なる画素の数を探し出し、認識対象画像と異なる画素の数が最も少ないモデル画像に対応する数字が、認識対象画像の中の数字であると決定される。この方法は、幾何学的に歪んでいない画像に対しては、優れたレベルの認識精度を有する。しかしながら、画像ノイズが深刻である(例えば、ノイズ除去技術を適用した後も、画像のノイズが多い)と、差別化技術を使用した数字認識の質は、低下する恐れがある。また、差別化技術は、幾何学的な変形を有する数字の画像(例えば、反っている又は一部拡大されている画像)を処理するときは、あまり役に立たない恐れがある。
別の代表的な画像認識方法として、ニューラルネットワークの使用が挙げられる。ニューラルネットワークの使用を含む画像認識技術は、以下の一般的工程を含むのが通例である。すなわち、認識対象画像に対して特徴抽出が実施され、且つ/或いは認識対象特徴についての記述もなされ、人によって認識された幾つかのサンプルが、機械学習の対象としての役割を果たすために選択され、そして、機械学習技術は、画像モード(例えば、認識のルール又はパターン)を出力することができる。認識対象画像に関してこの機械学習モードを適用することによって、認識対象画像のなかの数字を得ることができる。数字画像認識におけるニューラルネットワーク技術の利用にも、ある種の問題が伴う。しかしながら、ニューラルネットワーク技術における個々の数字の認識率は、差別化技術における認識率よりも高い(例えば、ニューラルネットワーク技術を使用すると、個々の文字の認識において96%〜98%もの高さに達することができる)。例えば、実際面において、中国における固定電話の番号は、通常、少なくとも8桁で構成されており、中国における携帯電話の番号は、更に多い桁数からなるのが一般的である。個々の文字に対して96%〜98%の精度を仮定すると、(中国における固定電話の場合など)8桁の電話番号に対する画像認識精度は、おおよそ72.1〜85.1%になり、(中国における携帯電話の場合など)11桁の電話番号に対する画像認識精度は、63.8〜80.1%になり、(固定電話の電話番号にエリアコードを含めた場合など)12桁の電話番号に対する画像認識精度は、61.3〜78.5%になるだろう。実際、画像認識精度が高くないときは、クローラによって提供される認識結果の質は、悪くなる(例えば、誤って認識された文字を多く含む)傾向が強い。より優れた画像認識精度を実現するためには、認識プログラムの(1つ又は2つ以上の)ニューラルネットワークモデルを繰り返し微調整及び改善することができる。しかしながら、画像認識モデルの微調整の繰り返しは、非効率的になる恐れがある。
発明の様々な実施形態が、以下の詳細な説明及び添付の図面で開示される。
数字「3」の画像の一例を示した図である。
数字認識のためのシステムの一実施形態を示した図である。
数字認識のプロセスの一実施形態を示した流れ図である。
精緻化される前及び後における部分画像の一例を示した図である。
数字認識のプロセスの一実施形態を示した流れ図である。
数字「4」の描写を伴う部分画像の頂点の一例を示した図である。
部分画像における満たされた中心画素及びその周囲の8つのそれぞれの画素の、3つの例を示した図である。
閉じられた輪の中心に中心点を有する数字「4」の画像の一例を示した図である。
事前設定されたトポロジー情報セット及びそれらに対応する数字をデータベースに記憶させることができる一形態の一例を示した図である。
数字認識を処理するためのシステムの一実施形態を示した図である。
数字認識を処理するためのシステムの一実施形態を示した図である。
発明は、プロセス、装置、システム、合成物、コンピュータによって読み取り可能なストレージ媒体に実装されたコンピュータプログラム製品、並びに/又は結合先のメモリに記憶された命令及び/若しくは結合先のメモリによって提供される命令を実行するように構成されたプロセッサなどのプロセッサを含む、数々の形態で実現することができる。本明細書では、これらの実現形態、又は発明がとりうるその他のあらゆる形態を、技術と称することができる。総じて、開示されたプロセスの工程の順番は、発明の範囲内で可変である。別途明記されない限り、タスクを実施するように構成されるとして説明されるプロセッサ又はメモリなどの構成要素は、所定時にタスクを実施するように一時的に構成される汎用の構成要素として、又はタスクを実施するように製造された特殊な構成要素として実装することができる。本明細書において、「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つ又は2つ以上のデバイス、回路、及び/又は処理コアを言う。
発明の原理を例示した添付の図面とともに、以下で、発明の1つ又は2つ以上の実施形態の詳細な説明が提供される。発明は、このような実施形態との関連で説明されているが、いかなる実施形態にも限定されない。発明の範囲は、特許請求の範囲によってのみ限定され、発明は、数々の代替形態、変更形態、及び均等物を網羅している。以下の説明では、発明の完全な理解を提供するために、数々の具体的詳細が明記されている。これらの詳細は、例示を目的として提供されるものであり、発明は、これらの詳細の一部又は全部を伴わずとも、特許請求の範囲にしたがって実施することが可能である。明瞭さを期するために、発明に関係する技術分野において知られている技術要素は、発明が不必要に不明瞭にされないように、詳細な説明を省略されている。
本開示の技術は、例えば、パソコン、サーバコンピュータ、手持ち式のすなわち携帯型のデバイス、タブレットタイプのデバイス、多重処理デバイス、上記の任意の1つ又は2つ以上のデバイスを含む分散環境などの、汎用の又は専用の、数々のコンピュータデバイス環境又は構成において使用することができる。
一部の実施形態では、本開示は、例えばコンピュータ又はプログラムモジュールによって実行される、コンピュータによって実行可能な命令として実装することができる。一般に、プログラムモジュールは、特定のタスクの実行又は特定の抽象データ型ルーチン、プログラム、オブジェクト、グループ、データ構造などの実装を含む。本開示は、また、分散コンピュータ環境においても実現することができ、このような分散コンピュータ環境において、タスクは、通信ネットワークを通じて接続されたリモートプロセッサによって実行することができる。分散コンピュータ環境において、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピュータストレージ媒体のなかに配することができる。
画像認識の技術が開示される。様々な実施形態において、画像認識は、数字又は記号を認識する状況で適用される。以下の例は、本出願の基本概念、すなわち、数字に対する人の視覚的認識は、「3」などの数字をその数字のフォーマット設定に関係なく認識することができる、という概念を導入する。例えば、「3」が、3(太字表記)、3(大きめのフォントで表記)、又は3(イタリック体表記)として現われているかどうかに関係なく、人の眼は、依然として、自身が見ているものを「3」であるとして決定することができる。文字のその他の僅かな変化も、必ずしも文字を認識不可能にするとは限らないと考えられる。
図1は、数字「3」の画像の一例を示している。この例において、3つの黒い点は、あらゆるヴァリエーションの活字数字「3」に共通する数字「3」の頂点を表しており、点と点との間の線は、頂点と頂点との間の辺を表している。「3」を反らせる又は変形させるかもしれない頂点間の辺のヴァリエーションに関係なく、人による視覚的認識のプロセスは、互いに相対的に正しく位置するとともに辺によって正しくつながれた数字の頂点が存在している限り、依然として、その数字を認識することができる。ゆえに、頂点及び辺は、数字認識のプロセスにおいて重要な役割を果たす。或る数字について、その頂点及び頂点間の辺が与えられる限り、その数字は、認識可能であると考えられる。
図2は、数字認識のためのシステムの一実施形態を示した図である。システム200は、サーバ202、204、206と、ネットワーク208と、ウェブクローラ210と、事前設定されたトポロジー情報セットのデータベース212とを含む。ネットワーク208は、高速データネットワーク及び/又は電気通信ネットワークを含むことができる。
サーバ202、204、及び206は、ウェブクローラ210がクロールするように構成されたウェブページを含むウェブサイトを提供するウェブサーバの例である。サーバ202、204、及び206は、第三者が運用することができる。
ウェブクローラ210は、(例えば、サーバ202、204、及び206などのサーバによって提供される)ウェブページをクロールするように構成される。一部の実施形態では、ウェブクローラ210は、ハードウェア及びソフトウェアの一方又は両方を使用して実装することができる。一部の実施形態では、ウェブクローラ210は、サーチエンジンに関連付けられている、且つ/或いはサーチエンジンの一構成要素である。様々な実施形態において、ウェブクローラ210は、関連付けられたサーチエンジンによって後ほど処理するために、ウェブページからコンテンツをダウンロードするように構成され、サーチエンジンは、より優れたサーチを提供するために、ダウンロードされたウェブページをインデックス化する。一部の実施形態では、ウェブクローラ210は、また、ダウンロードされたウェブページから特定の情報を抽出するようにも構成される。例えば、ウェブクローラ210は、所定のダウンロード画像から所定の情報(例えば、数字)を抽出するように構成することができる。具体的には、(例えば、サーチエンジンによるインデックス化又はその他の目的のために)ウェブクローラ210が認識するためには、数字(例えば、電話番号)を描写した所定のダウンロード画像が有用だと考えらえる。
一部の実施形態では、ウェブクローラ210は、画像(例えば、ウェブページからダウンロードされた画像)に対して数字の認識を実施するように構成される。ウェブクローラ210は、画像(例えば、クロールされたウェブページから得られた画像)から1つ又は2つ以上の部分画像を抽出するように構成される。画像は、1つ又は2つ以上の数字描写を含むことができ、抽出された各部分画像は、1つの数字の描写を含む。一部の実施形態では、ウェブクローラ210は、1つ又は2つ以上の形態の前処理(例えば、グレースケールへの変換やノイズ除去)及び/又は精緻化(例えば、画像デグラデーション)を部分画像に対して実施するように構成される。ウェブクローラ210は、1つ又は2つ以上の精緻化された各部分画像からトポロジー情報を抽出するように構成される。本明細書において、トポロジー情報とは、形状の変形にかかわらず保持される形状の特性を言う。数字の描写に関するトポロジー情報は、文字が経るかもしれない変形にかかわらず保持される文字の特性を記述している。トポロジー情報には、例えば、頂点及び辺、各個々の頂点の度数、頂点及び辺が1つ又は2つ以上の閉じられた環を形成しているかどうか、並びに各部分画像の描写のなかで2つの頂点が辺によってつながれているかどうかなどがある。ウェブクローラ210は、部分画像の抽出トポロジー情報を、データベース212に記憶されている事前設定されたトポロジー情報セットと比較するように構成される。データベース212に記憶されている事前設定されたトポロジー情報セットの各々は、一つの数字(例えば、「0」から「9」)に関連付けられている。部分画像の抽出トポロジー情報と、事前設定されたトポロジー情報セットとの間に一致が見いだされた場合は、その部分画像の中の描写は、その一致した事前設定されたトポロジー情報セットに対応する数字として認識されると決定される。一部の実施形態では、部分画像の抽出トポロジー情報と、どの事前設定されたトポロジー情報セットとの間にも一致が見いだされなかった場合に、抽出トポロジー情報は、(例えば、後ほど解析するために)記憶される。
図3は、数字認識のプロセスの一実施形態を示した流れ図である。様々な実施形態において、プロセス300は、個々の数字(例えば、「0」から「9」)の認識に適用することができる。一部の実施形態では、プロセス300は、システム200において実行することができる。一部の実施形態では、プロセス300は、システム900において実行することができる。
ステップ302では、受信画像から部分画像が抽出される。この抽出画像は、1つの数字に関連付けられている。
様々な実施形態において、受信画像は、ウェブクローラによってクロールされたウェブページから取り出すことができる。一部の実施形態では、受信画像は、1つ又は2つ以上の数字を含むものを既にふるい分けされており、1つ又は2つ以上の数字を含まない受信画像は、数字認識のための更なる処理を経ることはない。例えば、ウェブページの構造を解析し、そのウェブページのなかで、統計的に見て数字を描写した画像を含む傾向がある場所の画像のみを抽出することによって、画像をふるい分けし、それが数字を含むかどうかを決定することができる。1つ又は2つ以上の数字を伴う受信画像において、各数字は、認識対象画像として描写されている。例えば、複数の数字を伴う画像は、電話番号(例えば、個々の数字の羅列)の画像であるかもしれない。本明細書において、部分画像とは、別の画像から抽出され、その抽出元の元画像の少なくとも一部分を含む画像を言う。受信画像は、数字描写と同じ数の部分画像として抽出することができる(すなわち、各数字描写を1つの部分画像として抽出することができる)。例えば、もし、受信画像のなかに、描写されている数字が10個ある場合は、その画像から、対応する10個の部分画像を抽出することができる。一部の実施形態では、数字描写は、そのような描写の両側に十分な空白/画素コンテンツの欠如がある場合に検出される。一部の実施形態では、受信画像は、数字ではないその他の文字/記号(例えば、括弧「(」又は「)」)を描写しているかもしれず、これらの各文字/記号もやはり、部分画像として抽出することができる。
一部の実施形態では、受信画像から部分画像を抽出する前に、受信画像に対して前処理が実施される。例えば、受信画像が黒、白、及び/又はグレーの色のみを含む(すなわち、画像がモノクロ画像又はグレースケール画像になる)ように、その受信画像に含まれている色差を(例えばフィルタを使用して)除去することができる。また、例えば、画像のなかのノイズの少なくとも一部を除去することができる。ノイズとは、数字の認識を助けるのに役立つ画像コンテンツではない、冗長画素情報などのその他の画像コンテンツを言うことができる。受信画像に対して前処理を実施する目的は、数字認識の質を低下させる可能性があるノイズ及びその他の要因を取り除くことにある。
ステップ304では、部分画像に関連付けられたトポロジー情報に少なくとも部分的に基づいて、その部分画像に対して認識が実施される。この認識は、部分画像に関連付けられたトポロジー情報セットを得るために、部分画像を処理することと、部分画像に関連付けられたトポロジー情報セットを、事前設定された記憶されているトポロジー情報セットと比較することと、部分画像に関連付けられたトポロジー情報セットが、事前設定された記憶されているトポロジー情報セットと一致する場合に、部分画像を、事前設定された記憶されているトポロジー情報セットに関連付けられた認識された数字に関連付けられるものとして決定することとを含む。ステップ302において、2つ以上の部分画像が抽出されると、ステップ304における認識プロセスは、各部分画像に対して並行に又は逐次的に実施することができる。一部の実施形態では、ステップ304は、ウェブクローラによって実施される。
部分画像の認識は、部分画像を精緻化することを含む。上述のように、一部の実施形態では、部分画像に対し、ノイズ除去及びグレースケール変換などの前処理が既に実施されている。前処理を経た部分画像は、数理形態学の分野からの従来の画像「デグラデーション」技術を使用して、更に精緻化することができる。画像デグラデーション技術は、部分画像を、元の部分画像の辺(例えば、2つの頂点をつないでいる線)の連続性を依然として保持しつつ太さが僅か一画素の線を有する画像に変換することができる(すなわち、精緻化された部分画像の全ての画素は、その周囲の8つの画素のなかに少なくとも1つの別の画素を含む)。図4は、精緻化される前及び後における部分画像の一例を示している。この例では、部分画像402は、精緻化されておらず、部分画像404は、精緻化されている。部分画像404は、線の太さは僅か一画素であるが元の(精緻化されていない)部分画像の辺の連続性は保持されている数字を描写することを意図している。
図3に戻り、一部の実施形態では、部分画像が精緻化された後、その精緻化された部分画像からトポロジー情報が得られる。様々な実施形態において、トポロジー情報は、部分画像のなかの数字描写の頂点及びそれら頂点の間の辺に関する情報を言う。本明細書において、グラフ理論で使用される頂点とは、それを基にしてグラフを形成する基本単位を言う。本明細書において、グラフ理論で使用される辺とは、2つの頂点をつなぐ線分を言う。様々な実施形態において、頂点の度数とは、(グラフ理論で言う意味の、)頂点から延びている辺の本数を言う。このようなトポロジー情報は、数字描写が受けているいかなる反り又は変形にかかわらず、頂点及びその辺に関する情報が、それを基にして数字が認識されるための十分なデータ基盤になる、という前提に基づいて抽出される。
様々な実施形態において、部分画像の抽出トポロジー情報は、データベースに記憶されている事前設定されたトポロジー情報セットと突き合わされる。事前設定されたトポロジー情報セットは、「0」から「9」までの数字に関連付けられている。一部の実施形態では、一数字が、1つ又は2つ以上の事前設定された記憶されているトポロジー情報セットに関連付けられている。部分画像から集められたトポロジー情報セットと、数字「0」から「9」までの1つに関連付けられた記憶されているトポロジー情報セットとの間に一致があると決定された場合は、その部分画像の中の数字描写は、記憶されているトポロジー情報セットに関連付けられた数字として認識されると決定される。トポロジー情報セットは、様々な形態で記憶させることができる。例えば、数字と、それらに対応する事前設定されたトポロジー情報セットとの間の関係は、行列、表、及び/又はその他の任意のデータ構造として記憶させることができる。一部の実施形態では、個々の数字が、1つの事前設定された記憶されているトポロジー情報セットに関連付けられている。一部の実施形態では、抽出情報を、事前設定されたトポロジー情報と突き合わせて、一致が存在する場合にその一致を見いだすことができるように、トポロジー情報は、事前設定されたトポロジー情報が記憶されているのと同じ形式で抽出及び/又は記憶される。例えば、事前設定されたトポロジー情報が、行列の形態で記憶されている場合は、抽出トポロジー情報もまた、これら2つの情報セットが比較可能であるように、行列の形態に形式を合わされる。
一部の実施形態では、或る抽出トポロジー情報セットが、記憶されているどの事前設定されたトポロジー情報セットとも一致することができないときに、その抽出トポロジー情報セットを記憶させることができる。一部の実施形態では、一致を見いだせないこれらのトポロジー情報セットは、記憶され、(例えば、それらが役に立つかどうかを決定するためにユーザによって手動で)後ほど再吟味される。例えば、一致を決定できなかった記憶されているトポロジー情報が、再吟味され、実際は数字に対応していると決定された時は、この関係をデータベースに記憶させることができる。
図5は、数字認識のプロセスの一実施形態を示す流れ図である。一部の実施形態では、プロセス500は、システム200において実行することができる。
ステップ502では、受信画像から部分画像が抽出される。抽出画像は、1つの数字に関連付けられている。ステップ502は、ステップ302と同様に説明することができる。
ステップ504では、部分画像が精緻化される。一部の実施形態では、受信画像から複数の部分画像が抽出される場合に、1つの部分画像が、その他の部分画像よりも先に認識されるようにランダムに選択される。その最初に選択された部分画像に対して認識が実施された後は、第2の部分画像を選択及び認識することができ、次いで、第3の部分画像に続き、全ての抽出画像に対して認識が実施されるまで同様に続けることができる。一部の実施形態では、複数の部分画像がある場合に、それらの部分画像に対して並行に認識を実施することができる。一部の実施形態では、部分画像を精緻化するのに先立って、部分画像に対して前処理(例えば、ノイズ除去や、モノクロ又はグレースケールへの変換)が実施される。
様々な実施形態において、部分画像は、数理形態学を使用して精緻化される。部分画像の精緻化の結果、部分画像は、太さは僅か一画素であるが精緻化前の部分画像の辺の連続性を保持している数字の描写を含む。
ステップ506では、部分画像に関連付けられた1つ又は2つ以上の頂点及び1つ又は2つ以上の辺が抽出される。
精緻化された部分画像は、太さが一画素であり、全ての画素が、その周囲の8つの画素のなかに少なくとも1つの別の画素を含む。したがって、部分画像のなかに描写されている数字の各頂点を見つけるために、及び2つの頂点がどのように関係し合っているかに基づいて個々の頂点の度数を得るために、その部分画像の画素をトラバースすることが可能である。上述のように、頂点の度数は、その頂点から延びている辺の本数に対応している。一部の実施形態では、部分画像に関連付けられた頂点の数及び関連の頂点データは、その部分画像に関連付けられたトポロジー情報として言及される。図6Aは、数字「4」の描写を伴う部分画像の頂点の一例を示している。この例に示されるように、数字「4」は、5つの頂点A、B、C、D、及びEを有する。頂点Aの度数は2であり、頂点Bの度数は2であり、頂点Cの度数は4であり、頂点Dの度数は1であり、頂点Eの度数は1である。図6の数字「4」の個々の頂点の度数は、表1に示されている。
Figure 2013536958
一部の実施形態では、精緻化された部分画像の描写は、頂点及び頂点間の辺を検出するために、左から右に且つ上から下になどの事前設定された方向にトラバースされる。例えば、トラバースプロセスは、部分画像の左上隅の満たされた画素から開始する。通例、最初にトラバースされる画素は、頂点である。次いで、プロセスは、左から右に且つ上から下に行く形で次の満たされた画素に続く。一部の実施形態では、トラバースプロセス中に、既知の技術に基づいて頂点を抽出することができる。例えば、頂点は、精緻化された部分画像の各満たされた画素を取り巻く周囲の8つの画素を解析することによって決定することができる。図6Bは、部分画像における満たされた中心画素及びその周囲の8つのそれぞれの画素の、3つの例を示している。610は、3×3の画素領域を示しており、その中心画素である画素612は、精緻化された部分画像における満たされた画素である。言い換えると、610は、中心画素612と、その周囲の8つの画素とを示している。610は、中心画素612が、1つの満たされた画素に隣接していることを示しており、これは、画素612が、頂点であることを意味する(すなわち、なぜならば、周囲の8つの画素のなかに、満たされた画素が1つあるからである)。620は、精緻化された部分画像における満たされた画素である中心画素614を示しており、ここで、中心画素614は、その周囲の8つの画素のなかに、3つの満たされた画素を有する。隣接する3つの(すなわち、中心画素の真北、真東、真南、及び真西のうちの3つの方向にある)満たされた画素を有する図示された配置ゆえに、中心画素614は、頂点であるとして決定される。630は、中心画素616が、精緻化された部分画像における満たされた画素であることを示しており、ここで、中心画素616は、その周囲の8つの画素のなかに、2つの満たされた画素を有する。隣接する2つの(すなわち、中心画素の真北、真東、真南、及び真西のうちの2つの方向にある)満たされた画素を有する図示された配置ゆえに、中心画素616は、頂点であるとして決定される。ただし、頂点を検出する技術は、本明細書で説明されるものに限定されない。
一部の実施形態では、全ての頂点が検出された後に、頂点に関連付けられた度数が検出される。一部の実施形態では、頂点に関連付けられた度数は、その頂点が検出されたすぐ後に決定される。一部の実施形態では、精緻化された部分画像のなかの描写が幾つ頂点を含むかに関係なく、頂点及びその辺を検出する技術は同じである。
図5に戻り、ステップ508では、1つ又は2つ以上の頂点及び1つ又は2つ以上の辺が記憶される。
部分画像から検出された頂点及び関連の辺の情報は、(例えば、一時記憶装置に)記憶される。頂点及び関連の辺の情報は、様々な形態で記憶させることができる。頂点及びその各々の各度数に関する情報(例えば、表1)が、記憶させることができる。また、任意の2つの頂点間に辺が存在するかどうかに関する情報も、表2の例に示されるように、尚且つ以下で説明されるように記憶させることができる。すなわち、部分画像の任意の2つの頂点間に辺(例えば、つながり)が存在するかどうかを、列及び各行に各頂点を含む行列/表に記憶させることができ、2つの頂点(例えば、AとB)の間に辺が存在する場合は、それは、列がAで行がB(及び列がBで行がA)の欄において「1」によって示され、そうでない場合は、「0」によって示される。
再び図6に戻り、以下の表2は、数字「4」の頂点及び関連の辺の情報を示している。表2において、図6の例における頂点(A、B、C、D、及びE)は、列及び行の両方に入っている。もし、2つの頂点間につながり/辺が存在する場合は、それら2つの頂点に関連付けられた欄に、「1」がある。2つの頂点間につながり/辺が存在しない場合は(又は、もし、それらの頂点が同じ頂点である場合は)、それら2つの頂点に関連付けられた欄には、「0」がある。具体的に言うと、例えば、(図6からわかるように、)頂点Aと頂点Bとの間にはつながり/辺があるので、列Aと行Bとが交差する欄及び列Bと行Aとが交差する欄には、「1」がある。また、頂点Aと頂点Dとの間には、つながり/辺がないので、列Aと行Dとが交差する欄及び列Dと行Aとが交差する欄には、「0」がある。
Figure 2013536958
ステップ510では、1つ又は2つ以上の頂点の少なくとも一部分及び1つ又は2つ以上の辺の少なくとも一部分に、閉じられた環が関連付けられているかどうかが決定される。部分画像に、閉じられた環が関連付けられている場合は、その検出された環の中心点に関連付けられた位置情報が記憶される。様々な実施形態において、閉じられた環は、3つ又は4つ以上の頂点及びそれらの頂点間の辺が、部分画像の一領域を完全に包囲していることを言う。一部の実施形態では、閉じられた環は、頂点及び辺のグラフにおける閉じられた環の存在を決定するための既知の技術を使用して検出することができる。技術の一例では、閉じられた環の検出技術は、精緻化された画像における1つの満たされた画素の検出から開始し、その第1の画素に隣接する第2の満たされた画素に進むことができ、次いで、その第2の画素に隣接する第3の満たされた画素に、以下同様に進むことができる。満たされた画素を検出する一連の手順が、第1の満たされた画素に戻る場合は、閉じられた環であること(すなわち、満たされた画素を検出するその一連の手順によって、閉じられた環が形成されたこと)が決定される。一部の実施形態では、検出された閉じられた環が、精緻化された部分画像におけるその他の満たされた画素との関連においてどこにあるかが、(例えば、精緻化された部分画像における各満たされた画素に、その各画素がトラバースされるのに伴って通し番号を割り当てることによって、)追跡される。例えば、部分画像における満たされた画素が、常に左から右に且つ上から下にトラバースされると仮定して、閉じられた環のなかで最初にトラバースされる画素の通し番号を記憶させることもできる。図7は、閉じられた環の中心に中心点を有する数字「4」の画像の一例を示している。この例では、頂点A、B、及びCと、これら3つの頂点の少なくとも2つに関連付けられた辺とが、閉じられた環を形成(例えば、一領域を完全に包囲)しており、点Fは、その閉じられた領域の中心にあるとして決定された点である。一部の実施形態では、中心点の位置は、必ずしも、閉じられた環に関連付けられた全ての頂点又は辺の幾何学的中心にあるとは限らず、むしろ、閉じられた領域内のどこかの場所である。技術の一例では、中心点Fは、先ず、閉じられた環を形成するとして検出された画素の(x、y)座標をとり、次いで、閉じられた環の中心点の座標(すなわち、(平均x、平均y))を形成するために平均x値及び平均y値を得ることよって、決定することができる。別の例の技術では、中心点Fは、先ず、閉じられた環を形成するとして検出された画素の最大x値、最小x値、最大y値、及び最小x値を決定することによって、決定することができる。これら4つの値(最大x値、最小x値、最大y値、及び最小x値)は、矩形を形成するために使用することができる。この矩形の中心のx座標及びy座標は、(この点が、閉じられた環のなかの閉じられた領域内に実際にあるのではないと証明されない限り、)閉じられた環の中心点と捉えることができる。
一部の実施形態では、中心点は、部分画像に関連付けられた頂点及び辺の情報とともに記憶される(例えば表2)。例えば、数字「4」の中心点位置が、その頂点及び辺の情報とともに記憶されている場合は(例えば表2)、その中心点位置は、表の追加の欄又は別の場所に、(例えば座標として表して)含めることができる。一部の実施形態では、部分画像から閉じられた環が検出されなかった場合に、中心点情報に関連付けられた欄に、「無」に関連付けられたデータが記憶されると考えられる。
閉じられた環及び/又は閉じられた環の中心点がどのように検出されるかに関係なく、1つ若しくは2つ以上の閉じられた環の検出及び/又は1つ若しくは2つ以上の中心点の検出は、部分画像から抽出されたトポロジー情報セットが事前設定された記憶されているトポロジー情報セットと一致するかどうかを決定するのに役立つ。例えば、数字「8」は、「0」から「9」までの数字の中で、2つの閉じられた環と、2つの中心点とを含む唯一の数字である。ゆえに、「8」の部分画像から抽出されたトポロジー情報セットは、「8」に対応する事前設定された記憶されているトポロジー情報セットと一致するはずであり、このトポロジー情報セットは、2つの閉じられた環及び/又は2つの中心点に関する情報を含む唯一の、事前設定された記憶されているトポロジー情報セットであるはずである。また、数字「6」及び「9」は、ともに、1つの閉じられた環と、1つの中心点とをそれぞれ含む。しかしながら、精緻化された部分画像における満たされた画素が、常に左から右且つ上から下であると仮定すると、部分画像から抽出されたトポロジー情報セットは、「6」に対応する事前設定された記憶されているトポロジー情報セットとの一致と、「9」に対応する事前設定された記憶されているトポロジー情報セットとの一致との間で区別するために、閉じられた環が、トラバースプロセスの早い段階(例えば、数字「9」を描写した部分画像の場合の)、又はトラバースプロセスの比較的遅い段階(例えば、数字「6」を描写した部分画像の場合)のいずれで検出されたかを反映しているだろう。
一部の実施形態では、ステップ510は、任意であり、省略可能である。
ステップ512では、部分画像に関連付けられた1つ又は2つ以上の頂点及び1つ又は2つ以上の辺が、事前設定された記憶されているトポロジー情報セットと一致することができるかどうかが決定され、一致がある場合は、部分画像は、その一致した事前設定された記憶されているトポロジー情報セットに対応する数字として認識されると決定される。
様々な実施形態において、事前設定されたトポロジー情報セットと、それらに対応する数字(すなわち、「0」、「1」、「2」、「3」、「4」、「5」、「6」、「7」、「8」、又は「9」)との間の関係が、例えばデータベースに記憶される。一部の実施形態では、数字は、1つ又は2つ以上の事前設定された記憶されているトポロジー情報セットに関連付けることができる。様々な実施形態において、数字に対応する記憶されているトポロジー情報セットは、少なくとも、頂点情報(各頂点に関連付けられた度数を含む)、辺情報、数字の頂点間の関係(例えば、2つの頂点間に辺が存在するかどうか)、及び一部の実施形態では、1つ又は2つ以上の中心点に関する情報を含む。一部の実施形態では、各トポロジー情報セットは、上記のように、表1及び表2のような1つ又は2つ以上の行列又は表に記憶される。
一部の実施形態では、部分画像から抽出された頂点及び関連の辺の情報は、データベースに記憶されている事前設定されたトポロジー情報セットと同じ形式に(もし、まだ同じ形式でないならば)変換される。一部の実施形態では、頂点及び関連の辺の情報は、上で説明されたように、表1及び表2の形態に(もし、まだその形態でないならば)変換される。上で説明されたように、表1は、部分画像の頂点及びその各々の各度数に関する情報を含み、表2は、部分画像の中の描写の任意の2つの頂点間に辺が存在するかどうかに関する情報を含む。
一部の実施形態では、部分画像から抽出された頂点及び関連の辺の情報の一部分を、データベースに記憶されている事前設定されたトポロジー情報セットのなかの対応する一部分と一度に比較することができ、一致がある場合は、抽出情報の別の一部分を、事前設定されたトポロジー情報セットの中の対応する別の一部分と比較し、全ての部分が比較されるまで、同様に進めることができる。抽出情報の全ての部分が、事前設定された記憶されている情報セットのなかの対応する全ての部分と一致する場合は、部分画像の描写は、その一致した事前設定された記憶されているトポロジー情報セットに関連付けられている数字として認識されると決定される。抽出情報の一部分と、事前設定された情報セットのなかの対応する一部分との間に一致がない場合は、抽出情報は、データベースに記憶されている別の事前設定されたトポロジー情報セットと比較される。
例えば、部分画像から抽出された、頂点及びそのデータの各々の各度数に関する情報を、データベースに記憶されている事前設定されたトポロジー情報セットのなかの対応する情報と比較することができる。具体的に言うと、一部の実施形態では、部分画像の頂点の正確な順番を保証するために、抽出された頂点の順番(例えば、トラバースプロセスにおいて頂点が検出された順番)もまた、記憶されている情報セットの頂点の順番と比較される。一致がある場合は、部分画像から抽出されたデータの任意の2つの頂点間に辺が存在するかどうかに関する情報と、事前設定されたトポロジー情報セットのなかの対応する情報との間で、次の比較を行うことができる。一致がある場合は、部分画像から抽出された(1つ又は2つ以上の)中心点と、データベースに記憶されている事前設定されたトポロジー情報セットのなかの対応する情報との間で、第3の比較を行うことができる。一致がある場合は、部分画像の描写は、それとの一致を見いだされた事前設定されたトポロジー情報セットに関連付けられた数字として認識されると決定される。
ステップ514では、認識の実施対象となる抽出部分画像が他にあるか否かが決定される。受信画像から抽出された部分画像で認識を実施されていないものがある場合は、制御は、次の未処理の部分画像を処理するために、ステップ502に引き渡される。しかしながら、全ての部分画像に対して認識が実施されている場合は、制御は、ステップ516に引き渡される。ただし、一部の実施形態では、各部分画像を順次(例えば1つずつ)処理する代わりに、各部分画像を並行に処理することが可能である。
ステップ516では、部分画像から認識された数字が表示される。一部の実施形態では、認識プロセスを成功裏に適用された部分画像が複数あるときに、それらの部分画像から認識された数字は、それらの部分画像が抽出された左から右の(認識された数字が複数行である場合は、更に上から下の)順番で、(例えば、認識プロセスを試行しているユーザのための画面に)表示される。例えば、受信画像が、(左から右に読まれる)電話番号を含む画像であった場合は、認識された電話番号の数字は、電話番号画像の各部分画像が抽出されたのと同じ左から右の順番で表示すると有用だと考えられる。
図8は、事前設定されたトポロジー情報セット及びそれらに対応する数字をデータベースに記憶させることができる一形態の一例を示している。この例に示されるように、列802は、数字(「0」、「1」、「2」、「3」、「4」、「5」、「6」、「7」、「8」、及び「9」)を含み、列804は、対応する1つ又は2つ以上の事前設定されたトポロジー情報セットの視覚的表現を含む。この例では、数字「0」は、1つの事前設定されたトポロジー情報セット806に対応している。806が、(精緻化された部分画像の描写と同様に)視覚的表現として示されている一方で、一部の実施形態では、同じトポロジー情報806(すなわち、ゼロ頂点、ゼロ辺、1中心点)をデータベースのなかの行列/表として記憶させることも可能である。この例では、数字「1」は、3つの事前設定されたトポロジー情報セット808、810、及び812に対応している。やはり、808、810、812が、視覚的表現として示されている一方で、一部の実施形態では、同じトポロジー情報808(すなわち、2頂点、1辺、ゼロ中心点)、810(すなわち、3頂点、2辺、ゼロ中心点)、及び812(すなわち、5頂点、4辺、ゼロ中心点)をデータベースのなかの行列/表として記憶させることも可能である。
図9は、数字認識を処理するためのシステムの一実施形態の図を示している。一部の実施形態では、システム900において、プロセス300を実行することができる。一部の実施形態では、システム900は、(例えば、ウェブクローラが、様々な実施形態において、数の描写を含む画像をクロールするのに伴ってより良く数字を認識することができるように、)ウェブクローラに関連付けて実装される。一部の実施形態では、システム900は、ウェブクローラの一構成要素である。
モジュール及びサブモジュールは、1つ又は2つ以上のプロセッサ上で実行されるソフトウェアコンポーネントとして、プログラマブルロジックデバイス及び/若しくは特定の機能を実施するように設計された特殊用途向け集積回路などのハードウェアとして、又はそれらの組み合わせとして実装することができる。一部の実施形態では、モジュール及びサブモジュールは、本発明の実施形態で説明される方法を(パソコン、サーバ、ネットワーク機器などの)コンピュータデバイスに実行させるための幾つかの命令を含み尚且つ(光ディスク、フラッシュストレージデバイス、モバイルハードディスクなどの)不揮発性のストレージ媒体に記憶させることができるソフトウェア製品の形で具現化することができる。モジュール及びサブモジュールは、1つのデバイスに実装する又は複数のデバイスに分散させることができる。
部分画像抽出モジュール902は、受信画像から部分画像を抽出するように構成される。各部分画像は、「0」から「9」までの1つの数字(又は言い換えると、数字の描写)に関連付けられている。一部の実施形態では、2つ以上の部分画像を抽出することができる。
画像認識モジュール904は、1つ又は2つ以上の抽出部分画像の各々に対し、各部分画像のトポロジー情報に少なくとも基づいて数字認識処理を実施するように構成される。画像認識モジュール904は、以下を含む。
1つ又は2つ以上の部分画像を精緻化するように構成された、精緻化サブモジュール906。例えば、精緻化サブモジュール906は、部分画像のなかの描写を一画素の太さに変換するために、数理形態学を使用して部分画像を精緻化することができる。
1つ又は2つ以上の部分画像からトポロジー情報を抽出するように構成された、トポロジー情報抽出サブモジュール908。
各部分画像の、各部分画像の抽出トポロジー情報を、データベースに記憶されている、数字に関連付けられた事前設定されたトポロジー情報セットと突き合わせるように構成された、突き合わせサブモジュール910。部分画像からの抽出トポロジー情報と、事前設定された記憶されているトポロジー情報セットとの間に一致が見いだされたならば、その部分画像のなかの描写は、事前設定された記憶されているトポロジー情報セットに関連付けられた数字として認識されると決定される。
一部の実施形態では、システム900は、もし、抽出トポロジー情報が、データベースに記憶されているどの事前設定されたトポロジー情報セットとも一致することができない場合に、その抽出トポロジー情報を記憶させるように構成された、保存モジュール912を含む。
図10は、数字認識を処理するためのシステムの一実施形態を示した図である。一部の実施形態では、システム1000において、システム500を実行することができる。一部の実施形態では、システム1000は、ウェブクローラに関連付けて実装される。一部の実施形態では、システム1000は、ウェブクローラの一構成要素である。
システム1000は、システム900にも存在していた幾つかのサブモジュール(部分画像抽出サブモジュール902、精緻化サブモジュール906、トポロジー情報抽出サブモジュール908、及び突き合わせサブモジュール910)を含み、これらは再度説明されない。
度数抽出サブモジュール914は、精緻化された部分画像の1つ又は2つ以上の頂点及び1つ又は2つ以上の辺を抽出するように構成される。
つながり関係記録サブモジュール916は、部分画像の頂点間のつながりに関する情報(例えば、2つの頂点間に辺が存在するかどうか)を含む、抽出された頂点及び関連の辺の情報を、(例えば、テンポラリストレージに)記憶させるように構成される。
位置情報記録サブモジュール918は、部分画像のなかに閉じられた環があるかどうかを決定するように、及びもしある場合にその検出された閉じられた環の中心点の位置を記録するように構成される。
提示モジュール920は、1つ又は2つ以上の部分画像からの認識された数字をディスプレイに表示するように構成される。一部の実施形態では、認識された数字は、対応する部分画像が抽出されたのと同じ順番で、左から右に且つ上から下に表示される。
本明細書における個々の実施形態は、追加的手法を使用して説明されていること、並びに各実施形態の説明において強調されているのは、その他の実施形態からの相違であること、並びに個々の実施形態の共通の及び類似の部分は、参照によって含められることが、説明されるべきである。システムの実施形態の説明の一部は、方法の実施形態の説明によって補強することができる。
最後に、用語「を含む」、「を内包する」、又はそれらのその他の任意の異形は、非排他的な包括を網羅することを狙いとしていること、したがって、幾つかの必須モジュールを含むプロセス、方法、システム、又はデバイスは、それらのモジュールを含むのみならず、明示的に挙げられなかったその他の必須モジュールも含むこと、又はこのプロセス、方法、システム、若しくはデバイスに固有な必須モジュールを含むことが、説明されるべきである。その他の制約がなければ、「1つの…を含む」という文句によって条件付けられた必須モジュールは、上記のプロセス、方法、システム、又はデバイスにおけるその他の同一の必須モジュールが存在することを排除するものではない。
以上では、本開示によって提供されたデジタル数字認識の方法、システム、及びクローラサーバの説明が提供されており、本開示の原理及び実現方法を詳述するために、テキストのなかで具体例が使用されている。上記の実施形態の説明は、本開示の方法及びその核となる概念の理解を補助するためのものにすぎない。同時に、本開示の概念にしたがって、当業者ならば、具体的な実現モード及び利用範囲に対して変更を加えることが可能であり、以上をまとめると、本明細書の内容は、本開示を制限するものと理解されてはならない。
以上の実施形態は、理解を明瞭にする目的で幾らか詳細に説明されてきたが、発明は、提供された詳細に限定されない。発明を実現するには、数々の代替的手法がある。開示された実施形態は、例示的なものであり、限定を目的としたものではない。

Claims (17)

  1. システムであって、
    プロセッサであって、
    複数の数字に関する情報を含む受信画像から、前記複数の数字の1つに関連付けられている部分画像を抽出することと、
    前記部分画像に関連付けられているトポロジー情報セットに少なくとも部分的に基づいて、認識を実行することであって、
    前記部分画像に関連付けられている前記トポロジー情報セットを得るために、前記部分画像を処理することと、
    前記部分画像に関連付けられている前記トポロジー情報セットを、事前設定され記憶されているトポロジー情報セットと比較することと、
    前記部分画像に関連付けられている前記トポロジー情報セットが、前記事前設定され記憶されているトポロジー情報セットと一致する場合に、前記部分画像を、前記事前設定され記憶されているトポロジー情報セットに関連付けられている認識された数字に関連付けられていると決定することとを含む認識を実行するように構成されているプロセッサと、
    前記プロセッサと接続され、前記プロセッサに命令を提供するように構成されているメモリと、を備える、システム。
  2. 請求項1に記載のシステムであって、
    前記プロセッサは、更に、前記部分画像を精緻化するように構成されている、システム。
  3. 請求項2に記載のシステムであって、
    前記部分画像を精緻化することは、前記部分画像に対して画像デグラデーションを適用することを含む、システム。
  4. 請求項1に記載のシステムであって、
    前記部分画像を処理することは、前記部分画像に関連付けられている1つ又は2つ以上の頂点及び1つ又は2つ以上の辺を抽出することによって、前記トポロジー情報セットを得ることを含む、システム。
  5. 請求項4に記載のシステムであって、
    前記プロセッサは、更に、前記1つ又は2つ以上の頂点の少なくとも一部分及び前記1つ又は2つ以上の辺の少なくとも一部分に関連付けられている閉じられた環があるかどうかを決定するように構成されている、システム。
  6. 請求項1に記載のシステムであって、
    前記事前設定され記憶されているトポロジー情報セットは、データベースに記憶されている、システム。
  7. 請求項1に記載のシステムであって、
    前記プロセッサは、更に、前記認識された数字を表示するように構成されている、システム。
  8. 請求項1に記載のシステムであって、
    前記認識された数字は、0、1、2、3、4、5、6、7、8、又は9の1つである、システム。
  9. 方法であって、
    複数の数字に関する情報を含む受信画像から、前記複数の数字の1つに関連付けられている部分画像を抽出することと、
    前記部分画像に関連付けられているトポロジー情報セットに少なくとも部分的に基づいて、認識を実行することであって、
    前記部分画像に関連付けられている前記トポロジー情報セットを得るために、前記部分画像を処理することと、
    前記部分画像に関連付けられている前記トポロジー情報セットを、事前設定され記憶されているトポロジー情報セットと比較することと、
    前記部分画像に関連付けられている前記トポロジー情報セットが、前記事前設定され記憶されているトポロジー情報セットと一致する場合に、前記部分画像を、前記事前設定され記憶されているトポロジー情報セットに関連付けられている認識された数字に関連付けられていると決定することと、
    を含む、認識を実行することと、
    を備える方法。
  10. 請求項9に記載の方法であって、更に、
    前記部分画像を精緻化することを備える方法。
  11. 請求項10に記載の方法であって、
    前記部分画像を精緻化することは、前記部分画像に対して画像デグラデーションを適用することを含む、方法。
  12. 請求項9に記載の方法であって、
    前記部分画像を処理することは、前記部分画像に関連付けられている1つ又は2つ以上の頂点及び1つ又は2つ以上の辺を抽出することによって、前記トポロジー情報セットを得ることを含む、方法。
  13. 請求項12に記載の方法であって、更に、
    前記1つ又は2つ以上の頂点の少なくとも一部分及び前記1つ又は2つ以上の辺の少なくとも一部分に関連付けられている閉じられた環があるかどうかを決定することを備える方法。
  14. 請求項9に記載の方法であって、
    前記事前設定され記憶されているトポロジー情報セットは、データベースに記憶されている、方法。
  15. 請求項9に記載の方法であって、更に、
    前記認識された数字を表示することを備える方法。
  16. 請求項9に記載の方法であって、
    前記認識された数字は、0、1、2、3、4、5、6、7、8、又は9の1つである、方法。
  17. コンピュータによって読み取り可能なストレージ媒体に実装されたコンピュータプログラム製品であって、
    複数の数字に関する情報を含む受信画像から、前記複数の数字の1つに関連付けられている部分画像を抽出するためのコンピュータ命令と、
    前記部分画像に関連付けられているトポロジー情報セットに少なくとも部分的に基づいて、認識を実行することであって、
    前記部分画像に関連付けられている前記トポロジー情報セットを得るために、前記部分画像を処理することと、
    前記部分画像に関連付けられている前記トポロジー情報セットを、事前設定され記憶されているトポロジー情報セットと比較することと、
    前記部分画像に関連付けられている前記トポロジー情報セットが、前記事前設定され記憶されているトポロジー情報セットと一致する場合に、前記部分画像を、前記事前設定された記憶されているトポロジー情報セットに関連付けられている認識された数字に関連付けられていると決定することと、
    を含む、認識を実行するためのコンピュータ命令と、
    を備えるコンピュータプログラム製品。
JP2013525899A 2010-08-30 2011-08-26 デジタル画像の認識 Active JP5701388B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN2010102704561A CN102385707A (zh) 2010-08-30 2010-08-30 一种数字图像识别的方法、装置及爬虫服务器
CN201010270456.1 2010-08-30
US13/199,332 US8781227B2 (en) 2010-08-30 2011-08-25 Recognition of numerical characters in digital images
US13/199,332 2011-08-25
PCT/US2011/001512 WO2012030384A1 (en) 2010-08-30 2011-08-26 Recognition of digital images

Publications (3)

Publication Number Publication Date
JP2013536958A true JP2013536958A (ja) 2013-09-26
JP2013536958A5 JP2013536958A5 (ja) 2014-09-25
JP5701388B2 JP5701388B2 (ja) 2015-04-15

Family

ID=45697350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013525899A Active JP5701388B2 (ja) 2010-08-30 2011-08-26 デジタル画像の認識

Country Status (5)

Country Link
US (2) US8781227B2 (ja)
EP (1) EP2572317B1 (ja)
JP (1) JP5701388B2 (ja)
CN (1) CN102385707A (ja)
WO (1) WO2012030384A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053359B2 (en) 2012-06-07 2015-06-09 Konica Minolta Laboratory U.S.A., Inc. Method and system for document authentication using Krawtchouk decomposition of image patches for image comparison
US9230383B2 (en) * 2012-12-28 2016-01-05 Konica Minolta Laboratory U.S.A., Inc. Document image compression method and its application in document authentication
US10725650B2 (en) * 2014-03-17 2020-07-28 Kabushiki Kaisha Kawai Gakki Seisakusho Handwritten music sign recognition device and program
CN104915664B (zh) * 2015-05-22 2021-02-09 腾讯科技(深圳)有限公司 联系对象标识获取方法和装置
CN104933138A (zh) * 2015-06-16 2015-09-23 携程计算机技术(上海)有限公司 网页爬虫系统及网页爬取方法
CN105184328B (zh) * 2015-08-17 2018-11-27 浪潮金融信息技术有限公司 一种识别图像的方法及装置
CN105117723B (zh) * 2015-08-17 2018-07-06 浪潮金融信息技术有限公司 一种图像识别方法及装置
CN106407932B (zh) * 2016-09-20 2019-05-28 中国石油大学(华东) 基于分数阶微积分与广义逆神经网络的手写数字识别方法
US10438098B2 (en) * 2017-05-19 2019-10-08 Hand Held Products, Inc. High-speed OCR decode using depleted centerlines
JP6919990B2 (ja) * 2017-10-17 2021-08-18 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面
JP7003617B2 (ja) * 2017-12-12 2022-01-20 富士通株式会社 推定装置、推定方法、及び推定プログラム
CN108363943B (zh) * 2017-12-27 2020-12-01 苏州工业园区报关有限公司 基于智能化识别技术的通关机器人
CN111553340A (zh) * 2019-02-12 2020-08-18 昆山纬绩资通有限公司 数据撷取方法及其系统
CN111680688B (zh) * 2020-06-10 2023-08-08 创新奇智(成都)科技有限公司 字符识别方法及装置、电子设备、存储介质
CN118369695A (zh) * 2021-12-06 2024-07-19 汉字探测有限责任公司 用于表示和搜索字的系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61182182A (ja) * 1985-02-06 1986-08-14 Omron Tateisi Electronics Co 文字認識装置
JPH01116782A (ja) * 1987-10-30 1989-05-09 Glory Ltd 文字パターン認識方法
JPH01229388A (ja) * 1988-03-09 1989-09-13 Nippon Steel Corp 数字認識方法および装置
JPH0324682A (ja) * 1989-06-21 1991-02-01 Aisin Seiki Co Ltd 文字特徴抽出方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0079251B1 (en) * 1981-09-11 1990-01-31 BURROUGHS CORPORATION (a Delaware corporation) Geometric character recognition using skeleton and stroke width representation
US4742556A (en) 1985-09-16 1988-05-03 Davis Jr Ray E Character recognition method
US5097517A (en) 1987-03-17 1992-03-17 Holt Arthur W Method and apparatus for processing bank checks, drafts and like financial documents
JP3260843B2 (ja) * 1992-08-25 2002-02-25 株式会社リコー 文字認識方法
JP4742404B2 (ja) 2000-05-17 2011-08-10 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
US7336827B2 (en) 2000-11-08 2008-02-26 New York University System, process and software arrangement for recognizing handwritten characters
JP3965983B2 (ja) * 2001-11-30 2007-08-29 松下電工株式会社 画像処理方法およびその装置
WO2004079526A2 (en) * 2003-02-28 2004-09-16 Gannon Technologies Group Systems and methods for source language word pattern matching
KR20070112454A (ko) * 2005-02-15 2007-11-26 유겐카이샤 케이아이티이 이메지 테크놀로지즈 수기 문자 인식 방법, 수기 문자 인식 시스템, 수기 문자인식 프로그램, 및 기억 매체
WO2006091156A1 (en) * 2005-02-28 2006-08-31 Zi Decuma Ab Recognition graph
US20070058856A1 (en) * 2005-09-15 2007-03-15 Honeywell International Inc. Character recoginition in video data
EP1971957B1 (en) * 2006-01-11 2010-10-20 Gannon Technologies Group, LLC Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
EP1974314A4 (en) 2006-01-11 2009-09-02 Gannon Technologies Group Llc PICTOGRAPHIC DETECTION TECHNOLOGY APPLIED TO DIFFERENT CHARACTERISTICS OF A HANDWRITTEN ARABIC TEXT
CN101201902A (zh) * 2006-12-14 2008-06-18 汤浩钧 基于六角网格的识别系统及识别方法
JP5253788B2 (ja) 2007-10-31 2013-07-31 富士通株式会社 画像認識装置、画像認識プログラムおよび画像認識方法
US8452108B2 (en) * 2008-06-25 2013-05-28 Gannon Technologies Group Llc Systems and methods for image recognition using graph-based pattern matching
US20100189316A1 (en) 2009-01-27 2010-07-29 Gannon Technologies Group, Llc Systems and methods for graph-based pattern recognition technology applied to the automated identification of fingerprints
JP5343617B2 (ja) * 2009-02-25 2013-11-13 富士通株式会社 文字認識プログラム、文字認識方法および文字認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61182182A (ja) * 1985-02-06 1986-08-14 Omron Tateisi Electronics Co 文字認識装置
JPH01116782A (ja) * 1987-10-30 1989-05-09 Glory Ltd 文字パターン認識方法
JPH01229388A (ja) * 1988-03-09 1989-09-13 Nippon Steel Corp 数字認識方法および装置
JPH0324682A (ja) * 1989-06-21 1991-02-01 Aisin Seiki Co Ltd 文字特徴抽出方法

Also Published As

Publication number Publication date
EP2572317A4 (en) 2017-05-17
JP5701388B2 (ja) 2015-04-15
US20140328541A1 (en) 2014-11-06
US8958643B2 (en) 2015-02-17
WO2012030384A1 (en) 2012-03-08
CN102385707A (zh) 2012-03-21
EP2572317A1 (en) 2013-03-27
US8781227B2 (en) 2014-07-15
EP2572317B1 (en) 2020-10-07
US20120051645A1 (en) 2012-03-01

Similar Documents

Publication Publication Date Title
JP5701388B2 (ja) デジタル画像の認識
US10445569B1 (en) Combination of heterogeneous recognizer for image-based character recognition
US10032072B1 (en) Text recognition and localization with deep learning
CN108304814B (zh) 一种文字类型检测模型的构建方法和计算设备
CN110288069B (zh) 二维码生成和解析的方法、装置、设备及可读存储介质
CN107609489B (zh) 书法书写路径评价装置、方法及电子设备
CN111507251A (zh) 试题图像中作答区域的定位方法、装置和电子设备
JP5854802B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP2016523397A (ja) 情報認識のための方法及びシステム
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN112988557B (zh) 一种搜索框定位方法、数据采集方法、装置及介质
CN109508716B (zh) 一种图像文字的定位方法及装置
CN105869122A (zh) 图像处理方法和装置
CN112861736B (zh) 基于图像处理的文献表格内容识别与信息提取方法
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN110766068B (zh) 一种验证码识别方法及计算设备
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及系统
CN110781195B (zh) 一种兴趣点信息更新的系统、方法和装置
US20130259385A1 (en) Image processing device, image processing method and apparatus
CN108804652B (zh) 封面图片的生成方法、装置、存储介质和电子装置
JP4474231B2 (ja) 文書リンク情報取得システム
CN110738227A (zh) 模型训练方法及装置、识别方法、存储介质及电子设备
CN113283262A (zh) 一种二维码定位方法、装置、电子设备、机器可读介质
CN111768338A (zh) 一种试题图像拼接的方法、装置、电子设备和存储介质
TWI497425B (zh) Method, apparatus and reptile server for digital image recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140805

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140911

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150217

R150 Certificate of patent or registration of utility model

Ref document number: 5701388

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250