JP5580502B1 - 画像処理システム、画像処理方法、および画像処理プログラム - Google Patents

画像処理システム、画像処理方法、および画像処理プログラム Download PDF

Info

Publication number
JP5580502B1
JP5580502B1 JP2014513845A JP2014513845A JP5580502B1 JP 5580502 B1 JP5580502 B1 JP 5580502B1 JP 2014513845 A JP2014513845 A JP 2014513845A JP 2014513845 A JP2014513845 A JP 2014513845A JP 5580502 B1 JP5580502 B1 JP 5580502B1
Authority
JP
Japan
Prior art keywords
candidate
image
category
score
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014513845A
Other languages
English (en)
Other versions
JPWO2014136327A1 (ja
Inventor
直樹 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2014513845A priority Critical patent/JP5580502B1/ja
Application granted granted Critical
Publication of JP5580502B1 publication Critical patent/JP5580502B1/ja
Publication of JPWO2014136327A1 publication Critical patent/JPWO2014136327A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一実施形態に係る画像処理システムは、特徴量算出部、分類部、スコア算出部、および出力部を備える。特徴量算出部は、複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する。複数の原サンプル画像は、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む。分類部は、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する。各候補領域にはアノテーションが付加されている。スコア算出部は、文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出する。出力部は、各カテゴリのスコアをカテゴリ情報として出力する。

Description

本発明の一側面は、画像処理システム、画像処理方法、および画像処理プログラムに関する。
従来から、文字領域を画像内から抽出する技術が知られている。例えば、下記非特許文献1には、同じ色の領域で且つ連結された領域を、文字領域として抽出する技術がある。また、同じ色が連結された領域について、外接矩形のアスペクト比f1とその外接矩形の面積に対する同色領域の面積の比f2とを求め、予め定めた範囲のf1およびf2を有する矩形領域を文字領域と判定する方法もある。さらに、そのような性質を有する複数の矩形領域が連続して線状に並んでいたら、それらの矩形領域を文字領域と判定する方法(ライン判定)もある。
Y.Zhong, K. Karu, and A. K. Jain. "Locating text in complex colorimages," Pattern recognition, vol. 28, no. 10, pp.1523-1535, 1995.
しかし、上記の方法ではいずれも、実際には文字領域ではない部分を文字領域として検出したり、実際には文字領域であるのに文字領域として検出しなかったりする場合があり、検出の正確性が必ずしも高いとは言えなかった。例えば、二つの比f1,f2が所定範囲内にある矩形領域を文字領域として検出する方法では、これらの比が所定範囲内にある矩形領域でも実際にはその中に文字が存在しない場合があった。そのため、画像中の文字領域をより正確に検出することが望まれている。
本発明の一側面に係る画像処理システムは、複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部であって、該複数の原サンプル画像が、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む、該特徴量算出部と、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字有り画像および文字無し画像のどちらから抽出されたかを示すアノテーションが付加されている、該分類部と、文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、各カテゴリのスコアをカテゴリ情報として出力する出力部とを備える。
本発明の一側面に係る画像処理方法は、コンピュータが実行する画像処理方法であって、複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出ステップであって、該複数の原サンプル画像が、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む、該特徴量算出ステップと、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類ステップであって、各候補領域には、該候補領域が文字有り画像および文字無し画像のどちらから抽出されたかを示すアノテーションが付加されている、該分類ステップと、文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出ステップと、各カテゴリのスコアをカテゴリ情報として出力する出力ステップとを含む。
本発明の一側面に係る画像処理プログラムは、コンピュータを、複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部であって、該複数の原サンプル画像が、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む、該特徴量算出部と、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字有り画像および文字無し画像のどちらから抽出されたかを示すアノテーションが付加されている、該分類部と、文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、各カテゴリのスコアをカテゴリ情報として出力する出力部として機能させる。
本発明の一側面に係るコンピュータ読取可能な記録媒体は、コンピュータを、複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部であって、該複数の原サンプル画像が、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む、該特徴量算出部と、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字有り画像および文字無し画像のどちらから抽出されたかを示すアノテーションが付加されている、該分類部と、文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、各カテゴリのスコアをカテゴリ情報として出力する出力部として機能させるための画像処理プログラムを記憶する。
このような側面では、特徴量に基づいて分類された複数のカテゴリのそれぞれについて、文字有り画像から検出された候補領域の出現頻度がスコアとして算出され出力される。これにより各カテゴリにおける文字の出現の蓋然性が得られるので、この詳細な結果を用いれば、画像中の文字領域をより正確に検出することができる。
本発明の一側面に係る画像処理システムは、少なくとも一つの原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部と、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字領域であるか否かを示すアノテーションが付加されている、該分類部と、文字領域であることを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、各カテゴリのスコアをカテゴリ情報として出力する出力部とを備える。
本発明の一側面に係る画像処理方法は、コンピュータが実行する画像処理方法であって、少なくとも一つの原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出ステップと、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類ステップであって、各候補領域には、該候補領域が文字領域であるか否かを示すアノテーションが付加されている、該分類ステップと、文字領域であることを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出ステップと、各カテゴリのスコアをカテゴリ情報として出力する出力ステップとを含む。
本発明の一側面に係る画像処理プログラムは、コンピュータを、少なくとも一つの原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部と、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字領域であるか否かを示すアノテーションが付加されている、該分類部と、文字領域であることを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、各カテゴリのスコアをカテゴリ情報として出力する出力部として機能させる。
本発明の一側面に係るコンピュータ読取可能な記録媒体は、コンピュータを、少なくとも一つの原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部と、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字領域であるか否かを示すアノテーションが付加されている、該分類部と、文字領域であることを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、各カテゴリのスコアをカテゴリ情報として出力する出力部として機能させるための画像処理プログラムを記憶する。
このような側面では、特徴量に基づいて分類された複数のカテゴリのそれぞれについて、文字領域と指定された候補領域の出現頻度がスコアとして算出され出力される。これにより各カテゴリにおける文字の出現の蓋然性が得られるので、この詳細な結果を用いれば、画像中の文字領域をより正確に検出することができる。
別の側面に係る画像処理システムでは、スコア算出部が、一つのカテゴリにおける、文字有り画像から抽出された候補領域の個数の割合をスコアとして算出してもよい。
別の側面に係る画像処理システムでは、分類部が、文字有り画像から抽出された候補領域と文字無し画像から抽出された候補領域とを含むカテゴリに含まれる候補領域をさらに複数のカテゴリに再分類し、スコア算出部が、再分類により生成された複数のカテゴリのそれぞれについて、文字有り画像から抽出された候補領域の個数の割合をスコアとして算出してもよい。
別の側面に係る画像処理システムでは、アノテーションが原サンプル画像毎に付加されており、特徴量算出部が、候補領域の抽出元である原サンプル画像に付加されているアノテーションを該候補領域に付加してもよい。
別の側面に係る画像処理システムでは、スコア算出部が、一つのカテゴリにおける、文字領域であることを示すアノテーションが付加された候補領域の個数の割合をスコアとして算出してもよい。
別の側面に係る画像処理システムでは、分類部が、文字領域であることを示すアノテーションが付加された候補領域と文字領域であることを示すアノテーションが付加されていない候補領域とを含むカテゴリに含まれる候補領域をさらに複数のカテゴリに再分類し、スコア算出部が、再分類により生成された複数のカテゴリのそれぞれについて、文字領域であることを示すアノテーションが付加された候補領域の個数の割合をスコアとして算出してもよい。
別の側面に係る画像処理システムでは、分類部が、特徴量に基づいて複数のカテゴリ中心を設定し、候補領域の特徴量およびカテゴリ中心の間の距離が最も小さいカテゴリに該候補領域を関連付けてもよい。
別の側面に係る画像処理システムでは、特徴量が、候補領域のアスペクト比と、文字領域として判定された部分の面積比とであってもよい。
別の側面に係る画像処理システムでは、各原サンプル画像には被写体のジャンルまたは該原サンプル画像の提供元を示す付加属性が関連付けられており、特徴量算出部、分類部、およびスコア算出部が、複数の原サンプル画像を付加属性毎にグループ化してグループ毎に処理を実行し、出力部が各グループのカテゴリ情報を出力してもよい。
別の側面に係る画像処理システムでは、カテゴリ情報に基づいて、処理対象である原対象画像が文字領域を含むか否かを判定する判定部をさらに備えてもよい。
別の側面に係る画像処理システムでは、判定部が、処理対象を含む原対象画像から抽出した複数の候補領域のそれぞれについて特徴量を算出し、各候補領域が属するカテゴリを特定し、複数の候補領域に対応する複数のスコアのうち最も高いスコアに基づいて、原対象画像が文字領域を含むか否かを判定してもよい。
別の側面に係る画像処理システムでは、カテゴリ情報に基づいて、処理対象の画像から文字領域の候補として抽出された候補領域が文字領域か否かを判定する判定部をさらに備えてもよい。
別の側面に係る画像処理システムでは、判定部が、処理対象を含む原対象画像から抽出した複数の候補領域のそれぞれについて特徴量を算出し、各候補領域が属するカテゴリを特定し、各候補領域について、候補領域に対応するスコアに基づき、該候補領域が文字領域であるか否かを判定してもよい。
別の側面に係る画像処理システムでは、付加属性を有する処理対象が文字領域を含むか否かを、該付加属性に対応するカテゴリ情報に基づいて判定する判定部をさらに備えてもよい。
本発明の一側面によれば、画像中の文字領域をより正確に検出することができる。
実施形態に係る画像処理システムの概念を示す図である。 抽出された候補領域の例を示す図である。 実施形態に係る画像処理システム(各装置)のハードウェア構成を示す図である。 実施形態に係る画像処理システムの機能構成を示すブロック図である。 候補領域の特徴量を説明するための図である。 候補領域の分類(クラスタリング)の概念を示す図である。 カテゴリ情報の例を示す図である。 実施形態に係る画像処理システム(学習装置)の動作を示すフローチャートである。 実施形態に係る画像処理システム(検出装置)の動作を示すフローチャートである。 実施形態に係る画像処理プログラムの構成を示す図である。 従来技術における候補領域の分類の概念を示す図である。 実施例および比較例での実験結果を示すグラフである。 変形例に係る画像処理システム(学習装置)の動作を示すフローチャートである。 変形例に係る画像処理システム(検出装置)の動作を示すフローチャートである。 変形例に係るカテゴリ情報の例を示す図である。 変形例における候補領域の分類の例を示す図である。 図16に示すカテゴリの一つを細分化した例を示す図である。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
図1〜7を用いて、実施形態に係る画像処理システム1の機能及び構成を説明する。画像処理システム1は、画像中に文字が描画されているか否かを判定するためのコンピュータ・システムである。例えば、この画像処理システム1は、多数の種類の商品を取り扱う仮想商店街で用いられている大量の商品画像の判定に適用することができる。なお、本明細書における「文字」は、任意の形状のマークなども含む概念である。
一般に、仮想商店街で用いられる商品画像の中には、商品そのもののみが写っている画像(商品写真)Paと、商品写真に文字が重畳された画像Pbとの双方が存在する(図1参照)。商品写真内に描画される文字の例としては、「送料無料」などの宣伝文句や、価格、店名などが挙げられる。文字は、画像編集ソフトにより挿入されていてもよいし、主たる被写体とともに撮影されていてもよい。
仮想商店街の管理者としては、文字が描画または撮影されている画像(本明細書では「文字有り画像(text image)」という)を排除して、文字が描画も撮影もされていない画像(本明細書では「文字無し画像(non−text image)」という)だけを使いたい場合がある。例えば、管理者は、一つの商品についての各仮想店舗での販売価格をWebページ上で見せたい場合に、その商品の代表画像として、文字無し画像(例えば、商品そのもののみを写した画像)を使いたい場合がある。
このような要求に応えるため、画像処理システム1は、図1に示すように、文字無し画像と文字有り画像とを自動的に選別する。この自動選別は、学習処理と検出処理という二種類の処理により実現される。その処理のために、画像処理システム1は学習装置10、検出装置20、およびカテゴリ・データベース30を備えている。まずは、これら二つの処理の概要を説明する。
第1フェーズは学習処理である。この処理では、その画像が文字有り画像か文字無し画像かを示すアノテーションが人手により付加された複数の原サンプル画像を入力データとして用いる。学習装置10は、各原サンプル画像に対してカラー処理(color processing)を施すことでその原サンプル画像から候補領域(candidate region)を抽出する。候補領域とは、文字が描画または撮影されていると推定された、原サンプル画像の一部分である。例として、図2に候補領域Ra〜Rmを示す。この例における候補領域Re,Rfのように、実際には文字ではない部分も候補領域として抽出され得る。続いて、学習装置10は各候補領域の特徴量に基づいて複数の候補領域を複数のカテゴリに分類する。そして、学習装置10は各カテゴリのスコアや判定用の閾値などを求め、これらの算出結果をカテゴリ情報としてカテゴリ・データベース30に格納する。
第2フェーズは検出処理である。この検出処理の対象となるデータ(処理対象)は、画像の全体または一部である。検出装置20は、学習処理と同様のカラー処理を実行して候補領域を抽出し、各候補領域をいずれかのカテゴリに対応させてスコアを設定する。続いて、検出装置20は学習処理で得られた閾値と候補領域のスコアとを比較することで、処理対象が文字を含むか否かを判定する。なお、本明細書では、「画像の全体または一部が文字を含む」とは、画像の全体または一部に文字が描画または撮影されている場合のことをいう。
図3に、学習装置10および検出装置20のハードウェア構成を示す。学習装置10および検出装置20はいずれも、オペレーティングシステムやアプリケーション・プログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、ハードディスクやフラッシュメモリなどで構成される補助記憶部103と、ネットワークカードあるいは無線通信モジュールで構成される通信制御部104と、キーボードやマウスなどの入力装置105と、ディスプレイなどの出力装置106とを備えている。
後述する学習装置10および検出装置20の各機能的構成要素はいずれも、CPU101又は主記憶部102の上に所定のソフトウェアを読み込ませ、CPU101の制御の下で通信制御部104や入力装置105、出力装置106などを動作させ、主記憶部102又は補助記憶部103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部102又は補助記憶部103内に格納される。
なお、学習装置10および検出装置20はそれぞれ、1台のコンピュータで構成されていてもよいし、複数台のコンピュータで構成されていてもよい。
次に、これら二種類の装置の機能構成を示しつつ、学習処理および検出処理について詳細に説明する。
まず、学習装置10について説明する。図4に示すように、学習装置10は機能的構成要素として第1候補抽出部(特徴量算出部)11、分類部12、スコア算出部13、および出力部14を備えている。
第1候補抽出部11は、複数の原サンプル画像から複数の候補領域を抽出し、各候補領域について特徴量を算出する機能要素である。原サンプル画像とは、学習処理のために収集された商品画像データである。原サンプル画像群は1以上の文字有り画像と1以上の文字無し画像とから成る。原サンプル画像には、その画像が文字有り画像か文字無し画像かを示すアノテーションが人手により関連付けられている。アノテーションの付与は、画像処理システム1に対して予め正解を与えておく作業であるともいえる。
第1候補抽出部11は一つの原サンプル画像に対して下記の処理を実行する。
まず、第1候補抽出部11は一つの原サンプル画像に対してカラー処理を実行することで、その原サンプル画像から候補領域を抽出する。本実施形態において、各候補領域の形状は、文字であると推定された領域を囲む外接四角形(外接長方形または外接正方形)である。
カラー処理の具体的な手法は限定されない。例えば、第1候補抽出部11は領域ベースの手法(region−based approach)の一つであるカラー・クラスタリング(color clustering)を用いて候補領域を抽出してもよい。この手法では、第1候補抽出部11はクラスタリングのためにk−平均法(k−means method)を用いてカラー数を削減し、そのクラスタリングの後に各カラー・クラスタ(color cluster)に対してトポロジ解析に基づく領域分割を行う。言い換えれば、第1候補抽出部11は色がほぼ同じであり且つ連続している領域を候補領域として抽出する。
第1候補抽出部11は、色がほぼ同じであり且つ連続している領域に外接する外接四角形について、後述するアスペクト比f1及び面積比(領域比)f2を求め、アスペクト比f1及び面積比f2が予め定めた範囲内の上記領域を候補領域としてもよい。この場合、アスペクト比f1及び面積比f2が予め定めた範囲は、文字領域としておよそ有り得ない特徴量を持つ領域を除外するように設定される。
領域ベースを用いた場合の候補領域の誤検出を抑制するために、第1候補抽出部11は濃淡勾配の方向ヒストグラム(Histogram of Oriented Gradient(HOG))を用いてもよい。HOGは、文字幅を構成する一組の境界画素(edge pixels)に関して双方のエッジの傾きは同じあるが各エッジの向きは互いに逆である、という性質に着目した手法である。
あるいは、第1候補抽出部11は分類ベースの手法(classifier−based approach)、例えばサポート・ベクトル・マシン(support vector machine(SVM))を用いて候補領域を抽出してもよい。あるいは、第1候補抽出部11は領域ベースの手法を用いた後に分類ベースの手法で後処理を実行することで候補領域を抽出してもよい。
候補領域を検出すると、第1候補抽出部11は各候補領域について二つの特徴量を求める。一つは外接四角形のアスペクト比f1である。もう一つは、外接四角形の面積(外接四角形の全画素数)に対する、文字領域(text region)であると判定された部分の面積(文字領域の画素数)の比(面積比)f2であり、本明細書ではこれを「領域比(area ratio)」ともいう。図5の例では、アスペクト比は外接四角形Raの高さhおよび幅wから得られる。また、領域比は外接四角形Raの面積(画素数)と、文字の部分(網掛け部分)Qの面積(画素数)とから得られる。
第1候補抽出部11は、候補領域の抽出と各候補領域の二つの特徴量f1,f2の算出とを、すべての原サンプル画像について実行する。そして、第1候補抽出部11は各候補領域についての情報を分類部12に出力する。一つの候補領域についての情報は、その候補領域を一意に特定する領域IDと、その候補領域が抽出された原サンプル画像のアノテーションと、アスペクト比f1と、領域比f2とを含んでいる。したがって、各候補領域の情報を参照すれば、その候補領域が文字有り画像および文字無し画像のどちらから抽出されたかを知ることができる。
分類部12は、特徴量に基づいて複数の候補領域を複数のカテゴリに分類する機能要素である。この処理は領域クラスタリング(region clustering)ともいうことができる。
アスペクト比f1と領域比f2との間では値の範囲または尺度が異なるので、分類部12はまずこれら2種類の特徴量のそれぞれを正規化する。正規化の方法は限定されないが、本実施形態では、分類部12は特徴量の共分散行列を用いて正規化を行う。分類部12は、特徴量を列とし、抽出されたデータの個数(すなわち、候補領域の個数)を行数とする行列(列ベクトル)Xからその共分散行列Σ求める。そして、分類部12はその共分散行列Σを用いて各候補領域の特徴量を下記式(1)により正規化する。その式(1)における行列Xが、正規化された行列である。分類部12はアスペクト比f1および領域比f2のそれぞれについてこの正規化を実行する。
Figure 0005580502
続いて、分類部12はk−平均法を用いて、二つの正規化された特徴量f1,f2に基づき複数の候補領域を複数のカテゴリに分類する。一般に、理想のカテゴリ数は未知であるので、分類部12はカテゴリ数を徐々に増やしながらクラスタリングを繰り返し、誤差の減少量が所定値未満になるかまたは誤差が増大した時点でカテゴリ数の増加を止める。カテゴリ数の初期値は例えば2である。
このような分類部12の処理の概念を図6を用いて説明する。図6は、二つの特徴量f1,f2を座標軸とする二次元座標上に各候補領域をプロットしたグラフである。黒丸は文字有り画像から抽出された候補領域を示し、白丸は文字無し画像から抽出された候補領域を示している。グラフ上の領域C1〜C5はカテゴリを示している。このグラフでは、分類部12が複数の候補領域を5個のカテゴリC1〜C5に分けたことを示している。分類部12は、設定した各カテゴリのカテゴリ中心(各領域の中心に相当し、図6では「×」で示されている)と一つの候補領域との間のマハラノビス距離(Mahalanobis distance)を求め、その距離が最小となるカテゴリにその候補領域を所属させる。
なお、二次元座標上におけるカテゴリの形状は円に限定されない。一つのカテゴリが網羅する範囲は様々であるから、二次元座標上におけるカテゴリは円以外の図形で表現され得る。
分類部12は領域クラスタリングを終えると、候補領域と所属カテゴリとの関連付けを実行し、カテゴリが関連付けられた各候補領域の情報をスコア算出部13に出力する。また、分類部12は各カテゴリのカテゴリ中心のデータ(図6における各円の中心に相当する特徴量f1,f2)もスコア算出部13に出力する。カテゴリ中心は、そのカテゴリの代表特徴量であるともいえる。
スコア算出部13は、文字有り画像から抽出された候補領域の出現頻度を示すスコアを各カテゴリについて算出する機能要素である。このスコアは、カテゴリに属する候補領域が文字を含む蓋然性を示す指標であるともいえる。
スコア算出部13は下記式(2)を用いて各カテゴリのスコアを算出する。スコアP(Cn)は、n番目のカテゴリCnのスコアを表している。
P(Cn)=t/a …(2)
変数tは、カテゴリCnに属する候補領域のうち文字有り画像から抽出されたものの個数である。変数aはカテゴリCnに属する候補領域の総数、すなわち、文字有り画像から抽出された候補領域の個数と文字無し画像から抽出された候補領域の個数との和である。したがって、スコアP(Cn)は、カテゴリCnに属する候補領域の総数に対する、文字有り画像から抽出された候補領域の個数の割合である。すなわち、本実施形態では出現頻度を割合で示している。
図6に示されているカテゴリC1〜C5のスコアは、以下の通りである。
C1=3/4=0.75
C2=1/3≒0.33
C3=1/4=0.25
C4=3/4=0.75
C5=3/5=0.60
さらに、スコア算出部13は、文字有り画像に属する候補領域が現われる頻度の平均(平均出現頻度)P(T)を下記式(3)により求める。
P(T)=t/N
変数tは、すべての文字有り画像から抽出した候補領域の総数であり、Nはすべての原サンプル画像(すべての文字有り画像および文字無し画像)から抽出した候補領域の総数である。
図6の例では、P(T)=(3+1+1+3+3)/(4+3+4+4+5)=11/20=0.55である。
スコア算出部13は、各カテゴリCnのスコアP(Cn)と平均出現頻度P(T)とを出力部14に出力する。
出力部14は、カテゴリ情報をカテゴリ・データベース30に格納する機能要素である。このカテゴリ情報は検出装置20により用いられる。具体的には、出力部14は下記4種類のデータをカテゴリ情報としてカテゴリ・データベース30に格納する。
・カテゴリの個数
・各カテゴリのカテゴリ中心(アスペクト比および領域比のそれぞれについての代表特徴量)
・各カテゴリのスコアP(Cn)
・平均出現頻度P(T)
カテゴリ情報の例を図7に示す。この例では、カテゴリの個数が20である。そして、20個のカテゴリのそれぞれについて、カテゴリを一意に特定するカテゴリID、カテゴリ中心、およびスコアが互いに関連付けられている。また、平均出現頻度も記録されている。
なお、カテゴリ・データベース30の論理構造および物理構造は限定されない。例えば、カテゴリ・データベース30はデータ・ファイルとして存在してもよいし、関係データベースとして存在してもよい。
次に、検出装置20について説明する。図4に示すように、検出装置20は機能的構成要素として第2候補抽出部21、スコア設定部22、および判定部23を備えている。本願出願時点における請求の範囲ではこれらの機能要素をまとめて「判定部」と表現している。
第2候補抽出部21は、一つの原対象画像を受け付け、この原対象画像から候補領域を抽出し、各候補領域について特徴量を算出する機能要素である。原対象画像とは、検出処理の対象物として収集された商品画像データであって、アノテーションを持たない画像である。第2候補抽出部21は、学習装置10における第1候補抽出部11と同じ手法を用いて、候補領域の抽出と各候補領域の特徴量(アスペクト比f1および領域比f2)の算出とを実行する。そして、第2候補抽出部21は抽出した各候補領域の情報をスコア設定部22に出力する。
スコア設定部22は、入力された候補領域にスコアを設定する機能要素である。スコア設定部22は、学習装置10の分類部12と同様の手法で各候補領域の特徴量f1,f2を正規化した後に、各候補領域について下記の処理を実行する。
スコア設定部22は、一つの候補領域の特徴量f1,f2と、カテゴリ・データベース30から読み出した各カテゴリのカテゴリ中心とに基づいて、候補領域との間のマハラノビス距離が最も小さいカテゴリを選択する。そして、スコア設定部22は選択されたカテゴリのスコアP(Cn)をその候補領域に設定する。ここでマハラノビス距離を計算する際には、スコア設定部22は学習過程で用いた共分散行列Σの平方根を用いて特徴量f1,f2を正規化する。学習装置10は学習過程で算出した共分散行列Σの平方根をデータベースに記憶している。
図6の二次元座標を例に説明する。例えば、ある候補領域についてカテゴリC3が選択された場合にはその候補領域には0.25が設定され、カテゴリC4が選択された場合にはその候補領域には0.75が設定される。
各候補領域についてスコアを設定すると、スコア設定部22はその情報を判定部23に出力する。
判定部23は、処理対象が文字有り画像か文字無し画像かを判定する機能要素である。本実施形態では、処理対象は原対象画像そのものである。まず、判定部23は平均出現頻度P(T)をカテゴリ・データベース30から読み出す。続いて、判定部23は各候補領域のスコアの中の最大値とその平均出現頻度とを比較する。その最大スコアが平均出現頻度以上であれば、判定部23は処理対象が文字有り画像であると判定する。一方、その最大スコアが平均出現頻度未満であれば、判定部23は処理対象が文字無し画像であると判定する。
図7に示すカテゴリ情報を前提として、もし最大スコアが0.50であれば、判定部23は原対象画像が文字無し画像であると判定する。もし、最大スコアが0.58であれば、判定部23は原対象画像が文字有り画像であると判定する。
最後に、判定部23は判定結果を出力する。出力方法は限定されず、例えば判定部23はその判定結果をモニタ上に表示してもよいし、プリンタに出力してもよいし、任意のデータベースに格納してもよい。
次に、図8,9を用いて、画像処理システム1の動作を説明するとともに本実施形態に係る画像処理方法について説明する。
まず、図8を参照しながら学習装置10の動作を説明する。本実施形態では、ユーザは原サンプル画像のそれぞれに予めアノテーションを付加している。これを前提として、まず第1候補抽出部11が各原サンプル画像をカラー処理することで複数の候補領域を抽出する(ステップS11)。続いて、第1候補抽出部11は原サンプル画像に付加されているアノテーションの付加と、二つの特徴量f1,f2の算出とを各候補領域について実行する(ステップS12、特徴量算出ステップ)。
続いて、分類部12が特徴量f1,f2に基づいて複数の候補領域を複数のカテゴリに分類する(ステップS13、分類ステップ)。この処理において、分類部12は各カテゴリのカテゴリ中心を得る。続いて、スコア算出部13が各カテゴリのスコアP(Cn)と、全体においての平均出現頻度P(T)とを算出する(ステップS14、スコア算出ステップ)。そして、出力部14がカテゴリ情報(カテゴリ数と、各カテゴリについてのカテゴリ中心およびスコアP(Cn)と、平均出現頻度P(T))とをカテゴリ・データベース30に格納する(ステップS15、出力ステップ)。
次に、図9を参照しながら検出装置20の動作を説明する。まず、第2候補抽出部21が原対象画像から候補領域を抽出する(ステップS21)。続いて、第2候補抽出部21は二つの特徴量を算出する処理を各候補領域について実行する(ステップS22)。続いて、スコア設定部22が各候補領域の特徴量とカテゴリ・データベース30内のカテゴリ情報とに基づいて、各候補領域にスコアP(Cn)を設定する(ステップS23)。続いて、判定部23が、設定されたスコアの最大値が平均出現頻度P(T)以上であれば(ステップS24;YES)、原対象画像が文字有り画像であると判定し(ステップS25)、その最大値が平均出現頻度P(T)未満であれば(ステップS24;NO)、原対象画像が文字無し画像であると判定する(ステップS26)。原対象画像が複数存在する場合には、検出装置20はこの一連の処理を各原対象画像について実行する。
次に、図10を用いて、画像処理システム1を実現するための画像処理プログラムPを説明する。プログラムPは、コンピュータを学習装置10として機能させるための学習プログラムP1と、コンピュータを検出装置20として機能させるための検出プログラムP2とを備えている。
学習プログラムP1は、メインモジュールP10、第1候補抽出モジュールP11、分類モジュールP12、スコア算出モジュールP13、および出力モジュールP14を備えている。
メインモジュールP10は、学習装置10の機能を統括的に制御する部分である。第1候補抽出モジュールP11、分類モジュールP12、スコア算出モジュールP13、および出力モジュールP14を実行することにより実現される機能はそれぞれ、上記の第1候補抽出部11、分類部12、スコア算出部13、および出力部14の機能と同様である。
検出プログラムP2は、メインモジュールP20、第2候補抽出モジュールP21、スコア設定モジュールP22、および判定モジュールP23を備えている。
メインモジュールP20は、検出装置20の機能を統括的に制御する部分である。第2候補抽出モジュールP21、スコア設定モジュールP22、および判定モジュールP23を実行することにより実現される機能はそれぞれ、上記の第2候補抽出部21、スコア設定部22、および判定部23の機能と同様である。
学習プログラムP1及び検出プログラムP2はそれぞれ、例えば、CD−ROMやDVD−ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。また、各プログラムP1,P2は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
以上説明したように、本実施形態によれば、アスペクト比および領域比に基づいて分類された複数のカテゴリのそれぞれについて、文字有り画像から検出された候補領域の出現頻度がスコアとして算出され出力される。これにより各カテゴリにおける文字の出現の蓋然性が得られるので、この詳細な結果を用いれば、画像中の文字領域をより正確に検出することができる。
従来技術において二つの特徴量f1,f2を用いる場合には、図11に示すように、アスペクト比f1について設定した一つの区間[a,b]と領域比f2について設定した一つの区間[c,d]とにより定められる一つのカテゴリCzしか設定されなかった。そして、そのカテゴリCz内に位置する候補領域が文字領域であると判定されていた。したがって、候補領域が文字領域であるか否かの判定の正確性が低かった。
これに対して画像処理システム1は、図6に示すように、複数のカテゴリを設定して各カテゴリについてスコアP(Cn)を設定する。したがって、候補領域が文字領域であるか否かの判定を、図11に示す従来技術よりも詳細に実施することができる。
より具体的に作用効果について説明する。図2の文字領域である候補領域Ra〜Rd(「S」「A」「L」「E」)と、文字領域ではない候補領域Re、Rfとは、特徴量が異なるので、異なるカテゴリに分類される可能性が高い。文字領域である候補領域Ra〜Rdは、文字有り画像に出現し、文字無し画像には出現しない。文字領域ではない候補領域Re、Rfは、文字有り画像にも文字無し画像にも出現する。このため、文字領域である候補領域Ra〜Rdがそれぞれ属するカテゴリの出現頻度は相対的に高くなり、文字領域ではない候補領域Re、Rfがそれぞれ属するカテゴリの出現頻度は相対的に低くなる。よって、カテゴリ毎の出現頻度に基づいて、文字有り画像か否かを判定することにより、正確性が高まる。
このような本発明の優位性を示す実験結果の一例を説明する。この実験では、電子商取引サイトのWebページからランダムに500枚の画像を抽出し、これらの画像を250枚ずつの2グループ(第1群および第2群)に分けた。これらの画像はいずれも、そのサイト上での取扱商品の写真であり、その少なくとも一部は宣伝文句、価格、店名などの文字が描かれている文字領域を含んでいた。
実施例は次の通りである。まず、第1群の各原画像に人手でアノテーションを付加し、これらの原画像を用いて学習処理を実行することで、カテゴリ・データベースを生成した。次に、このデータベースを利用して、第2群の各原画像に対する検出処理を実行し、この処理結果から再現率(recall)、適合率(precision)、および正解率(accuracy)を算出した。
一方、比較例では、抽出された候補領域の特徴量と上記唯一のカテゴリCzとの間の位置関係に基づいて文字有り画像か文字無し画像かを判定する従来手法を用いて、再現率、適合率、および正解率を算出した。
ここで、再現率は、現実に文字有り画像であるもののうち、検出処理において文字有り画像であると判定されたものの割合である。適合率は、文字有り画像として検出された候補領域のうち、実際に文字が含まれていたものの割合である。正解率は、文字有り画像であるか文字無し画像であるかの判定が正解であった割合である。
次に、実施例および比較例の双方について、第1群と第2群とを入れ替えて同じ処理を行うことで、交差検証(cross−validation)を実施した。そして、再現率、適合率、および正解率のそれぞれについて2回の値の平均値を取って最終結果とした。
この最終結果を図12に示す。このグラフに示すように、再現率、適合率、および正解率のいずれについても実施例の方が良好であった。特に正解率については、実施例が比較例を17.8%上回った。このように、本発明が従来の手法に比べて正確であることが示された。
本実施形態では、アノテーションは原サンプル画像に対して付加すれば足りるので、学習処理における、人手によるアノテーション付加の作業負荷が軽減される。従来の手法では一文字ごとにアノテーション(正解)を与える必要があり、その作業負荷が非常に大きかった。これに対して、本実施形態では画像毎にアノテーションを与えれば足りるので、ユーザの作業負荷が格段に軽減される。また、ユーザはアノテーションを付与する際に、描画されている文字の種類、フォント、色、サイズなどの様々なパターンを意識する必要がないので、汎用性が高い。この効果は、ユーザが大量の画像を処理する場合(例えばECサイト内の膨大な商品画像を処理する場合など)においてより顕著になる。
また、ユーザはアノテーションを付与した後は画像処理システム1に処理を任せることができる。すなわち、学習装置10および検出装置20で用いられる各種パラメータを調整することなく、例えば上記実験結果で示されるように処理対象を良好に分類することが可能である。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
上記実施形態では原サンプル画像に対してアノテーションを付加したが、学習処理において各候補領域にアノテーションを付加してもよい。この場合には、図13に示すように、第1候補抽出部11はアノテーション無しの各原サンプル画像から複数の候補領域を抽出し(ステップS31)、各候補領域について二つの特徴量を算出する(ステップS32、特徴量算出ステップ)。第1候補抽出部11はこれらの処理を終えると各候補領域についてのデータをユーザが編集可能な態様で出力する。ユーザは各候補領域にアノテーションを付加し(ステップS33)、この入力を分類部12が受け付ける。ここで付与されるアノテーションは、候補領域が文字領域であるか否かを示す情報である。そして、この入力処理が完了した後に、上記実施形態と同様にステップS13〜S15の処理が実行される。
このように候補領域毎にアノテーションを付加することで、上記実施形態よりもアノテーションが正確に設定されるので、カテゴリ・データベース30の精度が向上し、その結果、検出処理における判定もさらに正確になる。その反面、この変形例ではアノテーションを付加する作業量が増える。しかし、一文字毎にアノテーションを与える必要がある従来の手法に比べれば、その作業量はかなり少ない。
上記実施形態では検出装置20が、原対象画像が文字有り画像か文字無し画像かを判定したが、検出装置20は、その画像から抽出した候補領域が文字領域か非文字領域(non−text region)かを判定してもよい。すなわち、処理対象は原画像であってもよいし、その原画像の一部である1以上の候補領域であってもよい。
図14を用いてこの変形例を具体的に説明する。まず、上記実施形態と同様にステップS21〜S23の処理が実行され、各候補領域にスコアP(Cn)が設定される。
続いて、判定部23が個々の候補領域について以下の処理を実行する。すなわち判定部23は、候補領域のスコアが平均出現頻度P(T)以上であれば(ステップS41;YES)、対象領域が文字領域であると判定し(ステップS42)、そのスコアが平均出現頻度P(T)未満であれば(ステップS41;NO)、対象領域が非文字領域であると判定する(ステップS43)。判定部23はすべての候補領域についてこのような判定処理を実行する(ステップS44参照)。原対象画像が複数存在する場合には、検出装置20は一連の処理を各原対象画像について実行する。
学習処理と検出処理とは互いに独立している。したがって、学習処理においてアノテーションを原サンプル画像と各候補領域とのどちらに付与するかは、検出処理に影響しない。また、検出処理において原対象画像そのものについて判定するか各候補領域について判定するかは、学習処理に影響しない。
上記実施形態では検出処理での閾値として平均出現頻度を用いたが、閾値として用いる数値はこれに限定されない。例えば、全カテゴリのスコアの平均値または中央値を閾値として用いてもよい。また、学習に用いた全ての原サンプル画像について、文字有り画像か否かを最も正確に判定するように、上記の閾値を設定してもよい。すなわち、原サンプル画像毎に候補領域の最大スコアを特定し、閾値以上の最大スコアをとる原サンプル画像が文字有り画像として最も正確に判定されるように、閾値を設定してもよい。
画像処理システム1は、被写体の商品のジャンルや、画像の提供元(例えば仮想店舗)などの付加属性を考慮して学習処理および検出処理を実行してもよい。この場合には、学習装置10は付加属性に基づいて原サンプル画像をグループ化してそのグループ毎に学習処理を行うことで、付加属性毎のカテゴリ情報を生成する。
付加属性毎に生成したカテゴリ情報の例を図15に示す。この例では、カテゴリ情報(カテゴリ数と、各カテゴリについてのカテゴリ中心およびスコアと、平均出現頻度)が「カメラ」などの商品ジャンル毎に生成されている。
このように画像の付加属性を考慮することで、商品や提供元の特性に応じたカテゴリ情報が得られるので、検出処理の精度の向上が期待できる。
上記実施形態ではカテゴリ情報を、処理対象が文字を含むか否かの判定に用いたが、カテゴリ情報の利用目的はこれに限定されない。本発明における学習処理の結果は任意の画像処理に利用することが可能である。したがって、カテゴリ・データベース30および検出装置20は必須の要素ではない。これに関連して、出力部14におけるカテゴリ情報の出力方法も限定されない。例えば、出力部14はカテゴリ情報をモニタ上に表示してもよいし、プリンタに出力してもよい。
上記実施形態では学習装置10、検出装置20、およびカテゴリ・データベース30がそれぞれ独立して存在していたが、画像処理システムの構成はこれに限定されない。例えば、これら三要素のうち任意の二つの要素を一つの装置に統合してもよいし、これらすべての要素を一つの装置で実現してもよい。
分類部12およびスコア算出部13は、一回目の処理(上記実施形態で説明した処理)で各カテゴリのスコアP(Cn)を求めた後に、文字有り画像から抽出された候補領域と文字無し画像から抽出された候補領域との双方を含むカテゴリをさらに複数のカテゴリ(本明細書では「サブカテゴリ」ともいう)に細分化してもよい。ここで、「細分化」とは、処理対象のカテゴリ内の候補領域を複数のサブカテゴリに分類(再分類)することである。この細分化は、文字有り画像から抽出された候補領域と文字無し画像から抽出された候補領域とがほぼ半々の割合で混在するカテゴリ内の候補領域を、文字有り画像から抽出された候補領域の出現頻度が高いカテゴリと該出現頻度が低いカテゴリとにより明確に分類することを目的とする。細分化するカテゴリのスコアP(Cn)の範囲(本明細書では「細分化範囲」ともいう)は任意に決めてよい。例えば細分化範囲の下限を0.4以上0.5未満の間に設定し、細分化範囲の上限を0.5より大きくかつ0.6以下の間に設定してもよい。より具体的には、下限を0.4あるいは0.45に設定したり、上限を0.55あるいは0.6に設定したりすることが考えられる。あるいは、細分化範囲は0.5を含まなくてもよい。
図16,17の例を用いてカテゴリの細分化を説明する。図16は、分類部12の一回目の処理により複数の候補領域が複数のカテゴリに分類された状態を示す。図6と同様に図16では、二つの特徴量f1(アスペクト比),f2(領域比)を座標軸とする二次元座標上に各候補領域がプロットされている。黒丸は文字有り画像から抽出された候補領域を示し、白丸は文字無し画像から抽出された候補領域を示している。グラフ上の領域C11〜C14はカテゴリを示す。記号「×」はカテゴリ中心を示す。上記実施形態と同様に、分類部12はアスペクト比f1および領域比f2のそれぞれを正規化し、続いてk−平均法を用いて複数の候補領域を複数のカテゴリに分類する。
スコア算出部13は上記式(2)を用いて、文字有り画像から抽出された候補領域の出現頻度を示すスコアP(Cn)を各カテゴリについて算出する。図16に示されるカテゴリC11〜C14のスコアは以下の通りである。
C11=1/3≒0.33
C12=4/8=0.50
C13=3/3=1.00
C14=2/3≒0.67
この変形例において、スコア算出部13は細分化が必要か否かを各カテゴリについて判定する。このためにスコア算出部13は細分化範囲を予め保持している。図16の例において細分化範囲が0.40以上0.60以下であるとすると、スコア算出部13は、スコアがその範囲内にあるカテゴリC12内の候補領域についてのみ再分類すると判定し、その処理を分類部12に指示する。当然ながら、細分化すべきカテゴリが複数個存在するのであれば、スコア算出部13はそのすべてのカテゴリを細分化するように分類部12に指示する。どのカテゴリのスコアも細分化範囲内になければ、スコア算出部13は分類部12に細分化を指示することなく、上記実施形態と同様に各カテゴリCnのスコアP(Cn)と平均出現頻度P(T)とを出力部14に出力する。ここで、カテゴリを細分化するか否かは平均出現頻度P(T)の値に影響しない。
分類部12は、スコア算出部13から指示を受けると処理対象のカテゴリを複数のカテゴリに細分化する。分類部12は、細分化するカテゴリのそれぞれにおいて複数のサブカテゴリのカテゴリ中心を設定し、カテゴリ中心と一つの候補領域との間のマハラノビス距離が最小となるサブカテゴリにその候補領域を所属させる。したがって、ある候補領域をサブカテゴリに所属させる処理は、未分類の候補領域をカテゴリに所属させる処理と同様である。
図16におけるカテゴリC12を細分化した一例を図17に示す。この例では、分類部12はカテゴリC12内の複数の候補領域を3個のサブカテゴリC121,C122,C123に再分類している。
分類部12が細分化を終えると、スコア算出部13は上記式(2)を用いて、各サブカテゴリのスコアP(Cn)を算出する。図17に示されるサブカテゴリC121〜C123のスコアは以下の通りである。
C121=1/3≒0.33
C122=3/3=1.00
C123=0/2=0
続いて、スコア算出部13は各カテゴリCnのスコアP(Cn)と平均出現頻度P(T)とを出力部14に出力する。上述した通り、カテゴリを細分化するか否かは平均出現頻度P(T)の値に影響しない。なお、ここでいう「カテゴリ」とは、一回目の処理で生成されたカテゴリ、または細分化処理で生成されたカテゴリ(サブカテゴリ)のどちらかである。検出処理を含む以降の処理では、カテゴリが一回目の処理で生成されたものかそれとも細分化処理で生成されたものかを考慮しないので、その区別をカテゴリ・データベース30のカテゴリ情報に含める必要はない。もちろん、必要であれば、カテゴリがサブカテゴリか否か(細分化処理により得られたものか否か)を示す情報をカテゴリ情報に含めてもよい。
分類部12およびスコア算出部13は、スコアが細分化範囲内にあるカテゴリが無くなるまで上記の細分化処理を繰り返し実行してもよい。この場合には、各カテゴリの性質(そのカテゴリが、文字有り画像から抽出された候補領域の出現頻度が高いものか、それとも該出現頻度が低いものか)を明確に設定できる。
あるいは、細分化処理を行う回数の上限が定められていてもよい(例えば、一回のみ、2回、5回など)。この場合には、スコアが細分化範囲内にあるカテゴリが残っていても処理が打ち切られる場合があるが、学習装置10の計算負荷を抑えつつ各カテゴリの性質をより明確に設定できる。
いずれにせよ、このような細分化を行うことで各カテゴリの性質がより明確になるので、画像中の文字領域をより正確に検出することができる。
学習処理におけるカテゴリの細分化は、原サンプル画像に対してアノテーションを付加する場合と、各候補領域にアノテーションを付加する場合との双方に適用できる。各候補領域にアノテーションが付加された場合には、分類部12およびスコア算出部13は、文字領域であることを示すアノテーションが付加された候補領域と文字領域であることを示すアノテーションが付加されていない候補領域(言い換えると、文字領域でないことを示すアノテーションが付加された候補領域)との双方を含むカテゴリをさらに複数のカテゴリに細分化する。
1…画像処理システム、10…学習装置、11…第1候補抽出部、12…分類部、13…スコア算出部、14…出力部、20…検出装置、21…第2候補抽出部(判定部)、22…スコア設定部(判定部)、23…判定部、30…カテゴリ・データベース、P…画像処理プログラム、P1…学習プログラム、P10…メインモジュール、P11…第1候補抽出モジュール、P12…分類モジュール、P13…スコア算出モジュール、P14…出力モジュール、P2…検出プログラム、P20…メインモジュール、P21…第2候補抽出モジュール、P22…スコア設定モジュール、P23…判定モジュール。

Claims (19)

  1. 複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部であって、該複数の原サンプル画像が、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む、該特徴量算出部と、
    前記特徴量に基づいて前記複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が前記文字有り画像および前記文字無し画像のどちらから抽出されたかを示すアノテーションが付加されている、該分類部と、
    前記文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、
    各カテゴリの前記スコアをカテゴリ情報として出力する出力部と
    を備える画像処理システム。
  2. 前記スコア算出部が、一つのカテゴリにおける、前記文字有り画像から抽出された候補領域の個数の割合を前記スコアとして算出する、
    請求項1に記載の画像処理システム。
  3. 前記分類部が、前記文字有り画像から抽出された候補領域と前記文字無し画像から抽出された候補領域とを含む前記カテゴリに含まれる前記候補領域をさらに複数のカテゴリに再分類し、
    前記スコア算出部が、前記再分類により生成された前記複数のカテゴリのそれぞれについて、前記文字有り画像から抽出された候補領域の個数の割合を前記スコアとして算出する、
    請求項2に記載の画像処理システム。
  4. 前記アノテーションが前記原サンプル画像毎に付加されており、
    前記特徴量算出部が、前記候補領域の抽出元である前記原サンプル画像に付加されているアノテーションを該候補領域に付加する、
    請求項1〜3のいずれか一項に記載の画像処理システム。
  5. 少なくとも一つの原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部と、
    前記特徴量に基づいて前記複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字領域であるか否かを示すアノテーションが付加されている、該分類部と、
    前記文字領域であることを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、
    各カテゴリの前記スコアをカテゴリ情報として出力する出力部と
    を備える画像処理システム。
  6. 前記スコア算出部が、一つのカテゴリにおける、前記文字領域であることを示すアノテーションが付加された候補領域の個数の割合を前記スコアとして算出する、
    請求項5に記載の画像処理システム。
  7. 前記分類部が、前記文字領域であることを示すアノテーションが付加された候補領域と前記文字領域であることを示すアノテーションが付加されていない候補領域とを含む前記カテゴリに含まれる前記候補領域をさらに複数のカテゴリに再分類し、
    前記スコア算出部が、前記再分類により生成された前記複数のカテゴリのそれぞれについて、前記文字領域であることを示すアノテーションが付加された候補領域の個数の割合を前記スコアとして算出する、
    請求項6に記載の画像処理システム。
  8. 前記分類部が、前記特徴量に基づいて複数のカテゴリ中心を設定し、前記候補領域の特徴量および前記カテゴリ中心の間の距離が最も小さい前記カテゴリに該候補領域を関連付ける、
    請求項1〜7のいずれか一項に記載の画像処理システム。
  9. 前記特徴量が、前記候補領域のアスペクト比と、文字領域として判定された部分の面積比とである、
    請求項1〜8のいずれか一項に記載の画像処理システム。
  10. 各原サンプル画像には被写体のジャンルまたは該原サンプル画像の提供元を示す付加属性が関連付けられており、
    前記特徴量算出部、前記分類部、および前記スコア算出部が、前記複数の原サンプル画像を前記付加属性毎にグループ化してグループ毎に処理を実行し、
    前記出力部が各グループの前記カテゴリ情報を出力する、
    請求項1〜9のいずれか一項に記載の画像処理システム。
  11. 前記カテゴリ情報に基づいて、処理対象である原対象画像が文字領域を含むか否かを判定する判定部をさらに備える、
    請求項1〜10のいずれか一項に記載の画像処理システム。
  12. 前記判定部が、
    前記処理対象を含む原対象画像から抽出した複数の候補領域のそれぞれについて前記特徴量を算出し、
    各候補領域が属する前記カテゴリを特定し、
    前記複数の候補領域に対応する前記複数のスコアのうち最も高いスコアに基づいて、前記原対象画像が文字領域を含むか否かを判定する、
    請求項11に記載の画像処理システム。
  13. 前記カテゴリ情報に基づいて、処理対象の画像から文字領域の候補として抽出された候補領域が文字領域か否かを判定する判定部をさらに備える、
    請求項1〜10のいずれか一項に記載の画像処理システム。
  14. 前記判定部が、
    前記処理対象を含む原対象画像から抽出した複数の候補領域のそれぞれについて前記特徴量を算出し、
    各候補領域が属する前記カテゴリを特定し、
    各候補領域について、前記候補領域に対応するスコアに基づき、該候補領域が文字領域であるか否かを判定する、
    請求項11に記載の画像処理システム。
  15. 前記付加属性を有する処理対象が文字領域を含むか否かを、該付加属性に対応する前記カテゴリ情報に基づいて判定する判定部をさらに備える
    請求項10に記載の画像処理システム。
  16. コンピュータが実行する画像処理方法であって、
    複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出ステップであって、該複数の原サンプル画像が、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む、該特徴量算出ステップと、
    前記特徴量に基づいて前記複数の候補領域を複数のカテゴリに分類する分類ステップであって、各候補領域には、該候補領域が前記文字有り画像および前記文字無し画像のどちらから抽出されたかを示すアノテーションが付加されている、該分類ステップと、
    前記文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出ステップと、
    各カテゴリの前記スコアをカテゴリ情報として出力する出力ステップと
    を含む画像処理方法。
  17. コンピュータが実行する画像処理方法であって、
    少なくとも一つの原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出ステップと、
    前記特徴量に基づいて前記複数の候補領域を複数のカテゴリに分類する分類ステップであって、各候補領域には、該候補領域が文字領域であるか否かを示すアノテーションが付加されている、該分類ステップと、
    前記文字領域であることを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出ステップと、
    各カテゴリの前記スコアをカテゴリ情報として出力する出力ステップと
    を含む画像処理方法。
  18. コンピュータを、
    複数の原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部であって、該複数の原サンプル画像が、文字領域を含む文字有り画像を1以上含むとともに、文字領域を含まない文字無し画像を1以上含む、該特徴量算出部と、
    前記特徴量に基づいて前記複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が前記文字有り画像および前記文字無し画像のどちらから抽出されたかを示すアノテーションが付加されている、該分類部と、
    前記文字有り画像から抽出されたことを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、
    各カテゴリの前記スコアをカテゴリ情報として出力する出力部と
    して機能させるための画像処理プログラム。
  19. コンピュータを、
    少なくとも一つの原サンプル画像から文字領域の候補として抽出した複数の候補領域のそれぞれについて特徴量を算出する特徴量算出部と、
    前記特徴量に基づいて前記複数の候補領域を複数のカテゴリに分類する分類部であって、各候補領域には、該候補領域が文字領域であるか否かを示すアノテーションが付加されている、該分類部と、
    前記文字領域であることを示すアノテーションが付加された候補領域の出現頻度を示すスコアを各カテゴリについて算出するスコア算出部と、
    各カテゴリの前記スコアをカテゴリ情報として出力する出力部と
    して機能させるための画像処理プログラム。
JP2014513845A 2013-03-06 2013-11-25 画像処理システム、画像処理方法、および画像処理プログラム Active JP5580502B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014513845A JP5580502B1 (ja) 2013-03-06 2013-11-25 画像処理システム、画像処理方法、および画像処理プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2013044432 2013-03-06
JP2013044432 2013-03-06
JP2014513845A JP5580502B1 (ja) 2013-03-06 2013-11-25 画像処理システム、画像処理方法、および画像処理プログラム
PCT/JP2013/081636 WO2014136327A1 (ja) 2013-03-06 2013-11-25 画像処理システム、画像処理方法、および画像処理プログラム

Publications (2)

Publication Number Publication Date
JP5580502B1 true JP5580502B1 (ja) 2014-08-27
JPWO2014136327A1 JPWO2014136327A1 (ja) 2017-02-09

Family

ID=51490872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014513845A Active JP5580502B1 (ja) 2013-03-06 2013-11-25 画像処理システム、画像処理方法、および画像処理プログラム

Country Status (3)

Country Link
US (1) US9501554B2 (ja)
JP (1) JP5580502B1 (ja)
WO (1) WO2014136327A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054494A (ja) * 2015-08-11 2017-03-16 本田技研工業株式会社 標示ベースの位置測定
CN111091040A (zh) * 2019-10-15 2020-05-01 西北大学 基于全局轮廓和脸型结构分类的人脸吸引力数据处理方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3136270B1 (en) * 2015-08-26 2021-02-24 Viavi Solutions Inc. Raw material identification using spectroscopy
JP2017151768A (ja) * 2016-02-25 2017-08-31 富士ゼロックス株式会社 翻訳プログラム及び情報処理装置
US10417530B2 (en) 2016-09-30 2019-09-17 Cylance Inc. Centroid for improving machine learning classification and info retrieval
US11270485B2 (en) * 2019-07-22 2022-03-08 Adobe Inc. Automatic positioning of textual content within digital images
US11295495B2 (en) 2019-10-14 2022-04-05 Adobe Inc. Automatic positioning of textual content within digital images
CN110851059A (zh) * 2019-11-13 2020-02-28 北京字节跳动网络技术有限公司 图片编辑方法、装置和电子设备
JP7523953B2 (ja) 2020-06-01 2024-07-29 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US11727678B2 (en) * 2020-10-30 2023-08-15 Tiliter Pty Ltd. Method and apparatus for image recognition in mobile communication device to identify and weigh items

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242579A (ja) * 2004-02-25 2005-09-08 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
JP2011257952A (ja) * 2010-06-08 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 判定装置及び方法及びプログラム
JP2012068982A (ja) * 2010-09-24 2012-04-05 Fujitsu Ltd 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242579A (ja) * 2004-02-25 2005-09-08 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
JP2011257952A (ja) * 2010-06-08 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 判定装置及び方法及びプログラム
JP2012068982A (ja) * 2010-09-24 2012-04-05 Fujitsu Ltd 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054494A (ja) * 2015-08-11 2017-03-16 本田技研工業株式会社 標示ベースの位置測定
CN111091040A (zh) * 2019-10-15 2020-05-01 西北大学 基于全局轮廓和脸型结构分类的人脸吸引力数据处理方法

Also Published As

Publication number Publication date
US20150370889A1 (en) 2015-12-24
US9501554B2 (en) 2016-11-22
WO2014136327A1 (ja) 2014-09-12
JPWO2014136327A1 (ja) 2017-02-09

Similar Documents

Publication Publication Date Title
JP5580502B1 (ja) 画像処理システム、画像処理方法、および画像処理プログラム
US10958796B2 (en) Image processing apparatus, image processing method, and storage medium
Liang et al. Delta-density based clustering with a divide-and-conquer strategy: 3DC clustering
US9449026B2 (en) Sketch-based image search
AU2007317938B2 (en) Media material analysis of continuing article portions
CN101398900B (zh) 模式识别方法、参数学习方法和设备
JP4545641B2 (ja) 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
JP2013125322A (ja) 学習装置、プログラム及び学習方法
JP6277750B2 (ja) 画像処理装置及び方法
JP6863926B2 (ja) データ分析システム及びデータ分析方法
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
US20190206105A1 (en) Methods and systems for determining the structure of a sorted collection list of layouts
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
JP6879749B2 (ja) 支援装置および支援方法
Lee et al. Detecting and dismantling composite visualizations in the scientific literature
JP5442912B1 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
Saberkari et al. A shape-independent algorithm for fully-automated gridding of cDNA microarray images
US11979523B2 (en) Storage medium, image processing method, and image processing apparatus
Diem et al. Semi-automated document image clustering and retrieval
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
Böschen et al. A comparison of approaches for automated text extraction from scholarly figures
CN112818894B (zh) 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
JP3768738B2 (ja) 電子ファイリングシステム,表紙識別処理装置およびそれらのプログラム記録媒体
Laaksonen et al. Application of Self-Organizing Maps and automatic image segmentation to 101 object categories database
Setitra et al. Fast binary shape categorization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140710

R150 Certificate of patent or registration of utility model

Ref document number: 5580502

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250