JP6779641B2

JP6779641B2 - 画像分類装置、画像分類システム及び画像分類方法

Info

Publication number: JP6779641B2
Application number: JP2016055422A
Authority: JP
Inventors: 清彦岩井
Original assignee: Spectee Inc
Current assignee: Spectee Inc
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2020-11-04
Anticipated expiration: 2036-03-18
Also published as: JP2017168057A

Description

本発明は、静止画や動画などの画像を分類する画像分類装置、画像分類システム及び画像分類方法に関する。より詳しくは、インターネットなどから収集した様々な種類の画像を、その画像自体の特徴に基づいて分類する技術に関する。

近年、インターネット上に掲載された画像を解析し、分類する技術が開発されている（例えば、特許文献１，２参照。）。例えば、特許文献１には、画像中に含まれる基底となる形状を定義し、判定対象の画像に基底形状が存在するか否かで画像を分類する方法が記載されている。また、特許文献２には、画像周辺の説明テキスト情報と画像情報とを利用して、特定のキーワードが持つ概念に対応した画像を分類する方法が記載されている。

一方、機械学習（マシンラーニング）を利用して、画像分類を行う方法も提案されている（特許文献３参照）。特許文献３に記載の画像分類装置は、判定対象の画像について、画素値の勾配と座標の積である勾配モーメントを要素として含む特徴ベクトルを算出し、既知の画像を用いて機械学習して得られた結果との類似性により画像分類を行っている。

また、従来、キーワードに基づくウェブ検索により収集された複数の画像データから、人手を介さずに、オブジェクト認識用の学習データを自動作成する技術も提案されている（特許文献４参照）。特許文献４に記載の学習データ作成装置では、収集された画像データの領域画像をその特徴量に基づいて所定のクラスタに分類し、各クラスタの分布状態から領域画像の分布が少ないクラスタを特定して、そのクラスタに属する領域画像を画像データから削除し、学習データとしている。

特開平１１−３４５３４０号公報特開２００７−３１７１３３号公報特開２０１５−１１５５２号公報特開２０１２−２２４１９号公報

インターネット上には、静止画、動画及びコンピュータグラフィックス（ＣＧ）など多種多様の画像が存在しており、また、複数の要素を備えた画像も存在する。しかしながら、前述した従来の画像分類方法では、これら全ての画像を精度よく分類することは困難である。更に、従来の画像分類方法を用いた場合、分類精度の向上や高速処理を実現するには、極めて高い技術力と多大な経験や知識を必要とする。

そこで、本発明は、インターネット上から収集した様々な画像を、任意の区分で、精度良く分類することが可能な画像分類装置、画像分類システム及び画像分類方法を提供することを目的とする。

本発明に係る画像分類装置は、機械学習機能を備え、判定対象の画像データが入力され、２種以上のサンプル画像を用いて構築された２以上の学習データと、前記判定対象の画像全体から抽出した特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像の区分を判定する複数の画像判定部を有し、前記複数の画像判定部は、それぞれ学習データの構築に用いたサンプル画像の区分が異なり、処理順序が木構造になるよう配置されており、上段に上位概念の区分を判定する画像判定部が配置され、下段になるに従い下位概念の区分を判定する画像判定部が配置されているものである。
本発明の画像分類装置は、インターネットから収集した様々な種類の画像を、予め設定された任意の区分で分類することができる。
また、本発明の画像分類装置は、例えば画種を判定する画像判定部を最上段に配置してもよい。
一方、前記機械学習としては、例えば深層学習（ディープラーニング）を適用することができる。
また、前記画像判定部には、畳み込みニューラルネットワークが実装されていてもよい。

本発明に係る画像分類システムは、前述した画像分類装置を備えるものである。

本発明に係る画像分類方法は、機械学習法を用いて対象画像を分類する画像分類方法であって、判定対象の画像データが入力され、第１の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記対象画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記対象画像が前記第１の区分のいずれの種類の画像であるかを判定する第１判定工程と、前記判定対象の画像データが入力され、前記第１の区分よりも下位概念の第２の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像が前記第２の区分のいずれの種類の画像であるかを判定する第２判定工程と、前記判定対象の画像データが入力され、前記第１の区分よりも下位概念の第３の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像が前記第３の区分のいずれの種類の画像であるかを判定する第３判定工程とを有し、前記第１判定工程の判定結果に基づき前記第２判定工程又は前記第３判定工程を行う。
本発明の画像分類方法は、更に、前記判定対象の画像データが入力され、前記第３の区分よりも下位概念の第４の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像が前記第４の区分のいずれの種類の画像であるかを判定する第４判定工程を有していてもよい。
各判定工程は、判定対象として同一の画像データが入力され、それぞれ独立して判定を行ってもよい。
一方、前記機械学習としては、例えば深層学習（ディープラーニング）を適用することができる。
また、前記判定工程は、畳み込みニューラルネットワークにより実行することもできる。
前記判定対象の画像は、インターネット上から収集した画像でもよい。

本発明によれば、機械学習機能を備えた複数の画像判定部をツリー状に配置し、判定部毎に異なる学習データに基づき判定を行うため、インターネット上から収集した様々な画像を、目的に応じて設定された任意の区分で、精度良く分類することができる。

本発明の第１の実施形態に係る画像分類装置の構成例を示す概念図である。図１に示す画像分類装置１を用いて画像を分類する方法を示すフローチャートである。本発明の第２の実施形態に係る画像分類システムの構成例を示す概念図である。

以下、本発明を実施するための形態について、添付の図面を参照して、詳細に説明する。なお、本発明は、以下に説明する実施形態に限定されるものではない。

（第１の実施形態）
先ず、本発明の第１の実施形態に係る画像分類装置について説明する。図１は本実施形態の画像分類装置の構成例を示す概念図である。図１に示すように、本実施形態の画像分類装置１は、静止画や動画などの画像データを解析し、被写体や撮影シーンを任意の区分で分類するものであり、機械学習機能を備える複数の画像判定部１０〜１４が木構造（ツリー状）に配置されている。

［画像判定部］
画像判定部１０〜１４は、機械学習の手法を用いて取得した判定基準（画像の特徴）に基づき、画像の区分を判定するものである。各画像判定部１０〜１４は、それぞれ区分が異なるサンプル画像データを用いて学習しており、相互に異なる判定基準を有している。ここで、画像の区分としては、例えば静止画や動画、実写や人工画像などの画種の他、人物、風景及び人工物などの被写体のジャンルが挙げられるが、これらに限定されるものではなく、目的に応じて任意に設定することが可能である。

画像判定部１０〜１４に用いる機械学習の手法は、特に限定されるものではなく、公知のアルゴリズムを用いて実施することができるが、分類精度の観点からは、深層学習（ディープラーニング）を用いることが好ましい。ディープラーニングは、高階層のニューラルネットワークを用いた機械学習の手法であり、学習データに基づいて、画像識別を行うことができる。ディープラーニングの中でも、特に畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）は、高精度で画像識別可能であることから、判定部１０〜１４として好適である。

画像判定部１０〜１４は、上段側、即ち判定対象の画像データが入力される側に、上位概念の区分を判定するものが配置され、下段側になるに従い下位概念の区分を判定するものが配置されている。具体的には、最も上段（第１段）に配置されている画像判定部１０では、例えば実写や人工画像などの画種を判定する。この場合、画像判定部１０には、予め「実写画像」とタグ付けされたサンプル画像と、「人工画像」とタグ付けされたサンプル画像を用いて学習させておけばよい。

画像判定部１０から分岐する画像判定部１１，１２は、それぞれ画種よりも下位概念の区分で、画像を判定する。例えば、画像判定部１１が「人工画像」を判定するものであり、画像判定部１２が「実写画像」を判定するものである場合は、画像判定部１１ではアニメーションやコンピュータグラフィックス（ＣＧ：computer graphics）などの作成手法を判定し、判定結果Ａ１，Ａ２を得る。一方、「実写画像」を判定する画像判定部１２では、風景や人物などの被写体のジャンルを判定する。

前述した画像判定部１２から分岐する画像判定部１３，１４では、それぞれ被写体が「風景」又は「人物」と判定された画像について、更に下位の概念で判定を行う。例えば、画像判定部１３では「風景」と判定された画像について、被写体が街並か、自然か、その他かなどを判定し、判定結果Ｂ１１〜Ｂ１３を得る。一方、画像判定部１４では「人物」と判定された画像について、自撮りか否かなどを判定し、判定結果Ｂ２１，Ｂ２２を得る。

なお、画像判定部１１〜１４も、画像判定部１０と同様に、予め判定する区分に応じたサンプル画像を用いて学習させておけばよい。また、画像判定部１０〜１４の配置は、図１に示す構成に限定されるものではなく、各画像判定部からの分岐の数や階層は、目的に応じて適宜選択することができる。更に、処理速度向上のため、木構造の一群の画像判定部を、２群以上、並列に配置してもよい。この場合、一の画像判定部群と他の画像判定部群とで、同一の処理を行ってもよいし、異なる処理を行ってもよい。

［その他］
本実施形態の画像分類装置１には、前述した画像判定部に加えて、画像に含まれるオブジェクトを検知する物体検知部や、検知したオブジェクトを分類する物体分類部などが設けられていてもよい。

［動作］
次に、本発明の実施形態の画像分類装置の動作、即ち、本実施形態の画像分類装置を用いて画像を分類する方法について説明する。図２は図１に示す画像分類装置１を用いて画像を分類する方法を示すフローチャートである。本実施形態の画像分類装置で分類される画像は、例えばインターネットに接続されている各種ソーシャルメディアから収集することができ、種類、サイズ及び形式などは限定されない。

［ステップＳ１］
本実施形態の画像分類装置１で画像を分類する場合は、先ず、画種を判定する。具体的には、サンプル画像により「人工画像」と「実写画像」の学習データが構築された第１段の画像判定部１０に判定対象の画像データを入力し、「人工画像」及び「実写画像」のいずれであるか判定を行う。

画像判定部１０では、例えば、判定対象の画像について、特定の部分ではなく、全体から特徴量を抽出し、それを学習データと比較して、「人工画像」及び「実写画像」である確率（それぞれの学習データとの一致率）を算出する。そして、画像判定部１０は、算出された一致率が予め設定した基準値以上であるか否かにより、その画像が「人工画像」及び「実写画像」のいずれであるかを判定する。

なお、「人工画像」及び「実写画像」の一致率のいずれも基準値未満であった場合は、一致率が高かった方であると仮定し、次の判定を行う。もし、一致率が同じ値であった場合は、予め定めた優先順位が高い方であると仮定して、次の判定を行えばよい。

引き続き、この判定結果に基づいて、第２段の画像判定部１１，１２で判定を行う。具体的には、画像判定部１０で「人工画像」と判断された場合は、判定対象の画像データを画像判定部１１に入力して、作成手法を判定する。一方、画像判定部１０で「実写画像」と判定された場合は、判定対象の画像データを画像判定部１２に入力して、被写体のジャンルを判定する。

［ステップＳ１１］
画像判定部１０で「人工画像」と判断された場合は、サンプル画像により「アニメーション」と「その他の人工画像」の学習データが構築された第２段の画像判定部１１に、判定対象の画像データを入力する。画像判定部１１に入力される画像データは、画像判定部１０に入力したものと同じである。

画像判定部１１では、判定対象の画像の全体から特徴量を抽出し、それを学習データと比較して、「アニメーション」及び「その他の人工画像」である確率（それぞれの学習データとの一致率）を算出する。そして、画像判定部１１は、算出された一致率が予め設定した基準値以上であるか否かにより、その画像が「アニメーション」及び「その他の人工画像」のいずれであるかを判定し、その結果を出力する。

なお、「アニメーション」及び「その他の人工画像」の一致率のいずれも基準値未満であった場合は、一致率が高かった方であると仮定し、結果を出力する。もし、一致率が同じ値になった場合は、予め定めた優先順位が高い方であると仮定して、結果を出力すればよい。

［ステップＳ２１］
一方、画像判定部１０で「実写画像」と判断された場合は、サンプル画像により「風景画像」及び「人物画像」の学習データが構築された第２段の画像判定部１２に、判定対象の画像データを入力する。画像判定部１２に入力される画像データも、画像判定部１０に入力したものと同じである。

画像判定部１２では、判定対象の画像の全体から特徴量を抽出し、それを学習データと比較して、「風景画像」及び「人物画像」である確率（それぞれの学習データとの一致率）を算出する。そして、画像判定部１２は、算出された一致率が予め設定した基準値以上であるか否かにより、その画像が「風景画像」及び「人物画像」のいずれであるかを判定する。

なお、「風景画像」及び「人物画像」の一致率のいずれも基準値未満であった場合は、一致率が高かった方であると仮定し、次の判定を行う。もし、一致率が同じ値になった場合は、予め定めた優先順位が高い方であると仮定し、次の判定を行えばよい。

引き続き、この判定結果に基づいて、第３段の画像判定部１３，１４で判定を行う。具体的には、画像判定部１２で「風景画像」と判断された場合は、判定対象の画像データを画像判定部１３に入力して、撮影シーンを判定する。一方、画像判定部１２で「人物画像」と判定された場合は、判定対象の画像データを画像判定部１４に入力して、撮影方法を判定する。

［ステップＳ２２］
画像判定部１２で「風景画像」と判断された場合は、サンプル画像により「街並み画像」、「自然画像」及び「その他の風景画像」の３種の学習データが構築された第３段の画像判定部１３に、判定対象の画像データを入力する。画像判定部１３に入力される画像データも、画像判定部１０に入力したものと同じである。

画像判定部１３では、判定対象の画像の全体から特徴量を抽出し、それを学習データと比較して、「街並み画像」、「自然画像」及び「その他の風景画像」である確率（それぞれの学習データとの一致率）を算出する。そして、画像判定部１３は、算出された一致率が予め設定した基準値以上であるか否かにより、その画像が「街並み画像」、「自然画像」及び「その他の風景画像」のいずれであるかを判定する。

なお、「街並み画像」、「自然画像」及び「その他の風景画像」の一致率のいずれも基準値未満であった場合は、一致率が最も高かったものであると仮定し、結果を出力する。もし、「街並み画像」、「自然画像」及び「その他の風景画像」のうちの２種について一致率が同じ値となり、その値が予め設定した基準値以上又は基準値には満たないが残りの１種よりも高い場合は、２種のうち予め定めた優先順位が高い方であると仮定し、結果を出力すればよい。

［ステップＳ２３］
一方、画像判定部１２で「人物画像」と判断された場合は、サンプル画像により「自撮画像」及び「その他の人物画像」の学習データが構築された第３段の画像判定部１４に、判定対象の画像データを入力する。画像判定部１４に入力される画像データも、画像判定部１０に入力したものと同じである。

画像判定部１４では、判定対象の画像の全体から特徴量を抽出し、それを学習データと比較して、「自撮画像」及び「その他の人物画像」である確率（それぞれの学習データとの一致率）を算出する。そして、画像判定部１４は、算出された一致率が予め設定した基準値以上であるか否かにより、その画像が「自撮画像」及び「その他の人物画像」のいずれであるかを判定する。

なお、「自撮画像」及び「その他の人物画像」の一致率のいずれも基準値未満であった場合は、一致率が高かった方であると仮定し、結果を出力する。もし、一致率が同じ値になった場合は、予め定めた優先順位が高い方であると仮定し、結果を出力すればよい。

ディープラーニングなどの機械学習の手法を用いると、１回の動作で、複数の区分を比較し、判定することが可能であるが、その場合、学習時間及び判定処理に要する時間が長くなり、十分な分類精度が得られない。これに対して、本実施形態の画像分類装置１では、１つの画像データについて、異なる基準（学習データ）で複数回判定を行うため、個々の画像判定部は、学習に要する時間を短縮でき、処理時間も短くなる。

また、この画像分類方法は、画像全体で判定しているため、画像データから一部を取り出して判定する従来の方法や周囲のテキストデータを用いて判定する従来の方法に比べて、高い精度で様々な画像を分類することができる。なお、本実施形態の画像分類装置は、静止画だけでなく、動画を分類することも可能であり、また、静止画と動画が混在しているデータ群の分類にも適用することができる。動画の分類を行う場合は、例えば、第１段の画像判定部で判定を行う前に、複数のフレームに分解することで、静止画と同様の処理で判定を行うことが可能である。

以上詳述したように、本実施形態の画像分類装置は、機械学習機能を備えた複数の画像判定部をツリー状に配置し、判定部毎に異なる学習データに基づき判定を行っているため、インターネット上から収集した様々な画像を、目的に応じて設定された任意の区分で、精度良く分類することが可能となる。また、本実施形態の画像分類装置は、先ず、上位概念の区分について判定を行い、下流になるに従い下位概念の区分について判定を行う構成となっているため、大量の画像データを高速で処理することができる。

前述した画像分類技術は、インターネット上から収集した画像の分類だけでなく、違法動画の検出、ニュース動画の検出、不適切なコンテンツの除去、特定ブランドの解析、地域トレンドの解析など、様々な用途に適用することが可能である。

（第２の実施形態）
次に、本発明の第２の実施形態に係る画像分類システムについて説明する。図３は本実施形態の画像分類システムの構成例を示す概念図である。図３に示すように、本実施形態の画像分類システムは、インターネット３上から画像を収集し、それを任意の区分で分類するものであり、１又は２以上の画像分類装置１を備えている。

画像分類装置１は、機械学習機能を備えた複数の画像判定部がツリー状に配置されており、判定部毎に異なる学習データに基づき判定を行うものであり、例えば前述した第１の実施形態の画像分類装置１を用いることができる。本実施形態の画像分類システムでは、複数の情報処理装置を相互に接続し、各情報処理装置に学習データが異なる複数の画像判定部を設け、複数の情報処理装置を跨いでツリー状となる構成をとることもできる。この場合、相互に接続された複数の情報処理装置が、１つの画像分類装置１として機能する。

また、本実施形態の画像分類システムでは、機械学習機能を備えた複数の画像判定部がツリー状に配置された複数の画像処理装置１が並列に接続されていてもよい。このように、画像分類装置１や情報処理装置が、複数台設けられている場合は、少なくとも１つの画像分類装置１又は情報処理装置がインターネット３に接続されていればよい。

更に、本実施形態の画像分類システムでは、画像分類装置１内又は別途設けられた情報処理装置内に、インターネット３を介してソーシャルメディア４に掲載された画像データを収集する画像収集部が設けられていてもよい。この画像収集部は、特定又は不特定の静止画や動画を収集し、例えば画像分類装置１内又は別途設けられた記憶装置内に記憶する。加えて、本実施形態の画像分類システムは、画像分類装置１で分類された画像を、インターネット３を介して、ユーザ端末２ａ，２ｂで閲覧可能にすることもできる。

本実施形態の画像分類システムでは、機械学習機能を備えた複数の画像判定部をツリー状に配置し、判定部毎に異なる学習データに基づき判定を行っているため、インターネット上から収集した様々な画像を、目的に応じて設定された任意の区分で、精度良く分類することができる。

なお、本実施形態の画像分類システムにおける上記以外の構成及び効果は、前述した第１の実施形態と同様である。

１画像分類装置
２ａ、２ｂユーザ端末
３インターネット
４ソーシャルメディア
１０〜１４画像判定部

Claims

機械学習機能を備え、判定対象の画像データが入力され、２種以上のサンプル画像を用いて構築された２以上の学習データと、前記判定対象の画像全体から抽出した特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像の区分を判定する複数の画像判定部を有し、
前記複数の画像判定部は、それぞれ学習データの構築に用いたサンプル画像の区分が異なり、処理順序が木構造になるよう配置されており、上段に上位概念の区分を判定する画像判定部が配置され、下段になるに従い下位概念の区分を判定する画像判定部が配置されている画像分類装置。
インターネットから収集した様々な種類の画像を、予め設定された任意の区分で分類する請求項１に記載の画像分類装置。
画種を判定する画像判定部が最上段に配置されている請求項１又は２に記載の画像分類装置。
前記機械学習は、深層学習である請求項１〜３のいずれか１項に記載の画像分類装置。
前記画像判定部として、畳み込みニューラルネットワークが実装されている請求項１〜４のいずれか１項に記載の画像分類装置。
請求項１〜５のいずれか１項に記載の画像分類装置を備える画像分類システム。
機械学習法を用いて対象画像を分類する画像分類方法であって、
判定対象の画像データが入力され、第１の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記対象画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記対象画像が前記第１の区分のいずれの種類の画像であるかを判定する第１判定工程と、
前記判定対象の画像データが入力され、前記第１の区分よりも下位概念の第２の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像が前記第２の区分のいずれの種類の画像であるかを判定する第２判定工程と、
前記判定対象の画像データが入力され、前記第１の区分よりも下位概念の第３の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像が前記第３の区分のいずれの種類の画像であるかを判定する第３判定工程と、
を有し、
前記第１判定工程の判定結果に基づき前記第２判定工程又は前記第３判定工程を行う画像分類方法。
更に、前記判定対象の画像データが入力され、前記第３の区分よりも下位概念の第４の区分に属する２種以上の画像データに基づいて構築された２以上の学習データと、前記判定対象の画像全体から抽出された特徴量から、前記判定対象の画像について各学習データとの一致率を算出し、該一致率にのみ基づいて前記判定対象の画像が前記第４の区分のいずれの種類の画像であるかを判定する第４判定工程を有する請求項７に記載の画像分類方法。
各判定工程は、判定対象として同一の画像データが入力され、それぞれ独立して判定を行う請求項７又は８に記載の画像分類方法。
前記機械学習が、深層学習である請求項７〜９のいずれか１項に記載の画像分類方法。
前記判定工程を畳み込みニューラルネットワークにより実行する請求項７〜１０のいずれか１項に記載の画像分類方法。
前記判定対象の画像は、インターネット上から収集されたものである請求項７〜１１のいずれか１項に記載の画像分類方法。