JP2019046253A

JP2019046253A - 画像処理装置及びプログラム

Info

Publication number: JP2019046253A
Application number: JP2017169632A
Authority: JP
Inventors: 清晴相澤; Kiyoharu Aizawa; 小川　徹; Toru Ogawa; 徹小川
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2019-03-22
Also published as: WO2019045101A1

Abstract

【課題】コマ、顔部分、身体部分、及び文字部分の認識精度を、従来のものに比べて向上できる画像処理装置及びプログラムを提供する。【解決手段】所定の情報処理に供される画像処理装置は、漫画画像データを受け入れ、当該漫画画像データに基づいて、コマ部分、顔部分、身体部分、文字部分のそれぞれを特定するよう機械学習した結果を用い、コマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とをそれぞれ生成する。【選択図】図６

Description

本発明は、画像処理装置及びプログラムに関する。

近年では、漫画の画像データを加工して、セリフ部分を抽出して他国語用に翻訳する技術や、コマごとに配列を変更して、スマートフォン等の画面に適した状態とする技術が考えられている。

このような処理を行うにあたり、従来から、色や文字認識処理の結果等を用いて、描かれた人物の部分やセリフ部分を特定する処理等が考えられている（非特許文献１）。

Christophe Rigaud, et. al., Speech ballon and speaker association for comics and manga understanding., Proceedings of the 13th International Conference on Document Analysis and Recognition, pp. 351-355, IEEE, 2015

一方、近年では機械学習により画像中から物体を検出する技術が開発され、広く研究されている。しかしながら、従来の一般物体検出の処理では、画像中の特定の部分には一つの物体が含まれるとの前提で検出が行われるため、多数の検出対象が互いに重なりあっている場合については考慮されていない。

ところが漫画画像データにおいては、コマの内側に（ないしは複数のコマにまたがって）人物の身体や顔が描画され、また、これらの各部に重なり合わせてセリフの文字が配置されることが一般的である。従って、機械学習による物体検出処理をそのまま適用したのでは、コマ、登場人物の身体、顔、セリフといった部分がそれぞれ十分な精度で検出できない。

本発明は上記実情に鑑みて為されたもので、漫画画像データの処理において、機械学習処理を用いて、コマ、顔部分、身体部分、及び文字部分の認識精度を、従来のものに比べて向上できる画像処理装置及びプログラムを提供することを、その目的の一つとする。

上記従来例の問題点を解決するための本発明は、画像処理装置であって、漫画画像データを受け入れる受入手段と、画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出手段と、画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出手段と、画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出手段と、画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出手段と、前記受け入れた漫画画像データに基づいて、前記フレーム検出手段が検出したコマ部分を特定する情報と、前記顔検出手段が検出した、顔部分を特定する情報と、前記身体検出手段が検出した、身体部分を特定する情報と、前記文字検出手段が検出した、文字部分を特定する情報と、を生成する検出情報生成手段と、を含み、前記生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とが所定の情報処理に供されることとしたものである。

本発明によれば、機械学習処理を用いて、漫画画像データのうちからコマ、顔部分、身体部分、及び文字部分を認識する際の認識精度を、従来のものに比べて向上できる。

本発明の実施の形態に係る画像処理装置の構成例を表すブロック図である。本発明の実施の形態に係る画像処理装置の例を表す機能ブロック図である。本発明の実施の形態に係る画像処理装置が処理の対象とする漫画画像データの概要例を表す説明図である。本発明の実施の形態に係る画像処理装置の検出処理部の概要例を表す内部機能ブロック図である。本発明の実施の形態に係る画像処理装置の検出処理部のもう一つの例を表す内部機能ブロック図である。本発明の実施の形態に係る画像処理装置の検出処理部のもう一つの例による処理の概要例を表す説明図である。本発明の実施の形態に係る画像処理装置の検出処理部の構成例を表す機能ブロック図である。

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る画像処理装置１は、図１に例示するように、制御部１１と、記憶部１２と、操作部１３と、表示部１４と、入出力部１５とを含んで構成されている。

制御部１１は、ＣＰＵ等のプログラム制御デバイスであり、記憶部１２に格納されたプログラムを実行して、漫画画像データを受け入れ、当該受け入れた漫画画像データに基づいて、コマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報と、を生成する。本実施の形態の制御部１１は、これらの各部分を特定する処理において、画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出器と、画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出器と、画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出器と、画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出器とを用いる。

またこの制御部１１は、生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理を実行する。この情報処理としては、例えば、各部を表す画像を出力する処理や、文字部分を特定する情報により特定された範囲内の文字列に対する光学文字認識処理や、コマ部分ごとに画像データを分割する分割処理等がある。これらの制御部１１の動作については、後に詳しく述べる。

記憶部１２は、メモリデバイス等であり、制御部１１により実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ、非一時的な記録媒体に格納されて提供され、この記憶部１２に格納されたものであってもよい。また、この記憶部１２は、制御部１１のワークメモリとしても動作する。

操作部１３は、マウスやキーボード等であり、利用者の指示操作を受け入れて制御部１１に出力する。表示部１４は、例えばディスプレイ等であり、制御部１１から入力される指示に基づいて情報を表示出力する。

入出力部１５は、例えばネットワークインタフェース等であり、外部からデータ（画像データ等）を受信して、制御部１１に出力する。またこの入出力部１５は、制御部１１から入力される指示に従って、データを外部の装置等に送出する。

次に制御部１１の動作について説明する。本実施の形態の制御部１１は、記憶部１２に格納されたプログラムを実行することで、機能的には、図２に例示するように、受入部２１と、検出処理部２２と、検出情報生成部２３と、情報処理部２４とを含んで構成される。また検出処理部２２は、フレーム検出部３１と、顔検出部３２と、身体検出部３３と、文字検出部３４とを含む。

受入部２１は、漫画画像データを受け入れて検出処理部２２に出力する。ここで漫画画像データは、一般的には、顔部分（Ｆ）と身体部分（Ｂ）と文字部分（Ｃ）とが互いに重なり合って描画された画像データであり（図３）、少なくとも一つのコマ（Ｍ）を含む。また、この受入部２１は、検出処理部２２におけるニューラルネットワークを利用するため、漫画画像データを拡大または縮小して、ニューラルネットワークの入力に適したサイズにリサイズする。

検出処理部２２のフレーム検出部３１は、画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出器を有する。具体的に、このフレーム検出部３１が備えるフレーム検出器は、Ｒ−ＣＮＮ（Regions with CNN features）（Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014）や、Fast Ｒ−ＣＮＮ（Girshick, Ross. "Fast r-cnn." Proceedings of the IEEE International Conference on Computer Vision. 2015）、Faster Ｒ−ＣＮＮ（Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015）、YOLO（You Only Look Once）（Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." arXiv preprint arXiv: 1506.02640 (2015)）、あるいは、ＳＳＤ（シングル・ショット・マルチボックス・ディテクタ；Single Shot MultiBox Detector）（Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015)）など、種々の方法で構成されたニューラルネットワークを採用して実現できる。

図４にその概略を示すように、ＳＳＤ等のニューラルネットワークを採用した検出器４０は、ベースネットワーク部４１と、分類器４２とを含んで構成される。ここでベースネットワーク部４１は、検出対象の候補が含まれる画像の範囲と、当該範囲内の画像の特徴量とを出力する。また分類器４２は、出力された画像の範囲に、検出対象（フレーム検出部３１の場合、漫画画像データのコマを区分する枠線）が含まれるか否かを、出力された特徴量に基づいて判断する。

このようなＳＳＤ等を採用した検出器４０は、検出対象の範囲（フレーム検出部３１の場合、漫画画像データのコマを区分する枠線に外接する形状の範囲）を人為的に指定した画像データのサンプルを用いて機械学習させる。ここで機械学習の具体的方法や、検出器４０の利用方法については、広く知られているので、ここでの詳しい説明を省略する。

顔検出部３２は、画像データから、当該画像データ内に描画されたキャラクタの顔部分を検出するよう機械学習された状態にある顔検出器を有する。この顔検出器も、フレーム検出部３１が備えるフレーム検出器と同様、ＳＳＤ等、種々の方法で構成されたニューラルネットワークを採用して実現できる。この顔検出器は、検出対象の範囲である、漫画画像データに含まれるキャラクタの顔に外接する所定形状の範囲を人為的に指定した画像データのサンプルを用いて機械学習させる。

身体検出部３３は、画像データから、当該画像データ内に描画されたキャラクタの身体部分を検出するよう機械学習された状態にある身体検出器を有する。この身体検出器も、フレーム検出部３１が備えるフレーム検出器と同様、ＳＳＤ等、種々の方法で構成されたニューラルネットワークを採用して実現できる。この身体検出器は、検出対象の範囲である、漫画画像データに含まれるキャラクタの身体に外接する所定形状の範囲を人為的に指定した画像データのサンプルを用いて機械学習させる。

文字検出部３４は、画像データから、当該画像データ内に描画された文字部分を検出するよう機械学習された状態にある文字検出器を有する。この文字検出器も、フレーム検出部３１が備えるフレーム検出器と同様、ＳＳＤ等、種々の方法で構成されたニューラルネットワークを採用して実現できる。この文字検出器は、検出対象の範囲である、漫画画像データに含まれる文字部分に外接する所定形状の範囲を人為的に指定した画像データのサンプルを用いて機械学習させる。

検出情報生成部２３は、受入部２１が受け入れた漫画画像データについて、フレーム検出部３１が検出したコマ部分を特定する情報と、顔検出部３２が検出した、顔部分を特定する情報と、身体検出部３３が検出した、身体部分を特定する情報と、文字検出部３４が検出した、文字部分を特定する情報とを生成する。

情報処理部２４は、生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理を実行する。この情報処理としては、例えば、特定された文字部分の画像に対して光学的文字認識（ＯＣＲ）を行い、その結果を出力する処理等がある。また、情報処理部２４は、光学的文字認識の結果、得られた文字列を、機械翻訳処理により他言語に翻訳して出力してもよい。

本実施の形態の一例は以上の構成を備え、次のように動作する。なお、以下の説明では、制御部１１によるフレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４は、ＳＳＤを採用し、それぞれ、予め画像データから、当該画像データ内に描画された漫画のコマ部分、顔部分、身体部分、及び文字部分を検出するよう機械学習した状態にあるものとする。

画像処理装置１は、利用者から入力される漫画の画像データ（機械学習のサンプルに含まれないもの）を処理の対象として、当該処理対象の画像データに対して並列的に、フレーム検出器と、顔検出器と、身体検出器と、文字検出器とにより、コマ部分、キャラクタの顔部分、身体部分、及び文字部分をそれぞれ検出して、それぞれ検出した画像の範囲を特定する情報を得る。

そして画像処理装置１は、コマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理、例えば特定された文字部分の画像に対して光学的文字認識（ＯＣＲ）を行い、当該光学的文字認識の結果、得られた文字列を、機械翻訳処理により他言語に翻訳して出力する。

［ベースネットワークを共用する例］
またここまでの説明では、フレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４は、それぞれ独立したベースネットワークと、検出器を備えるものとしたが、本実施の形態はこの例に限られない。例えば一つのベースネットワークをフレーム検出部３１，顔検出部３２，身体検出部３３，文字検出部３４が共用してもよい。

すなわちこの例では、フレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４は、図５に例示するように、それぞれに共通して、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを機械学習した状態にあり、処理対象となった画像データに基づき、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを出力するベースネットワーク部４１′と、フレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４のそれぞれに対応して、独立して設けられる分類器４２ａ，４２ｂ，４２ｃ，４２ｄとを備える。

なお、この例でも、ベースネットワーク部４１′及び分類器４２ａ，ｂ，ｃ，ｄは、ＳＳＤに基づくニューラルネットワークとしてよいが、次の点でＳＳＤを変形して用いる。すなわち一般的なＳＳＤの出力段では、物体を検出する領域の候補（アンカーボックス）が予め複数定められており（複数のアンカーボックスの集合をアンカーセットと呼ぶ）、当該複数の領域の候補のうちから、対象となる物体が含まれる領域を特定する。

本実施の形態のここでの例では、出力段より前のネットワーク（ベースネットワーク部４１′）は１つとするが、出力段において、アンカーセット（各アンカーセットには、例えば８７３２個のアンカーボックスが含まれる）をフレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４のそれぞれに対応して、４つ複製して、各分類器４２ａ，ｂ，ｃ，ｄとして用いる。すなわちこの例におけるＳＳＤでは、各アンカーボックスについて、当該アンカーボックス内で検出した物体の領域との位置特定誤差（左上座標の情報と幅及び高さの情報とからなる４次元の情報）と、物体が含まれ得るとされる確信度（ここではシグモイド関数により正規化しておく）との合計５次元の情報を出力するが、アンカーボックスが複製した４つの同じアンカーセット中のアンカーボックスのうち、第１のアンカーセットＡ１中のアンカーボックスについては画像データのうちコマ部分を機械学習させた状態とする。また第２のアンカーセットＡ２中のアンカーボックスについては、画像データのうち顔部分を機械学習させた状態とし、第３のアンカーセットＡ３中のアンカーボックスについては、画像データのうち身体部分を機械学習させた状態とし、第４のアンカーセットＡ４中のアンカーボックスについては、画像データのうち文字部分を機械学習させた状態とする（図６）。

具体的には、出力段が出力する第１のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、コマの枠線に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器４２ａ及びベースネットワーク部４１′のパラメータを更新する。

同様に、出力段が出力する第２のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、キャラクタの顔部分に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器４２ｂ及びベースネットワーク部４１′のパラメータを更新する。また出力段が出力する第３のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、キャラクタの身体に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器４２ｃ及びベースネットワーク部４１′のパラメータを更新する。さらに出力段が出力する第４のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、文字に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器４２ｄ及びベースネットワーク部４１′のパラメータを更新する。

なお、第ｉ（ｉ＝１，２，３，４）のアンカーセット中のａ番目のアンカーボックス（ａ＝１，２，…８７３２）に対する、ｍ番目のサンプル（ミニバッチ学習を行うこととして、ミニバッチサイズをＭとすると、ｍ＝１，２，…，Ｍ）の割り当てｓ（ｍ，ｉ，ａ）とその重なりＪ（ｍ，ｉ，ａ）とを次のように定義する。

ここで、ｇは１以上、Ｇ（ｍ）以下の整数であり、Ｇ（ｍ）は、上記ｍ番目のサンプルに含まれる正解の個数であり、ｔ（ｍ，ｇ）、及びＢ（ｍ，ｇ）は上記ｍ番目のサンプルのｇ番目の正解のクラス（コマ、顔、身体、文字のいずれであるかを表す情報）と、外接矩形とを表す。

そして損失関数（Loss関数）Ｌ（ｚ）を、位置特定誤差Ｌloc（ｍ，ｚ）と、確信度Ｌconf（ｍ，ｚ）との和として次のように設定する。

ここで、ｚはニューラルネットワークの出力を表し、Ａ（ｍ，ｐｏｓ）は、ｍ番目のサンプルについてオブジェクトが割り当てられたアンカーボックスの添字集合であり、具体的には、

などとしておく。

なお、Ｌloc（ｍ，ｚ）及び、Ｌconf（ｍ，ｚ）は、次のように定義しておく。

なお、Ａ（ｍ，ｎｅｇ）は、ハードネガティブ（hard negative）の集合であって、オブジェクトに割り当てられていないアンカーボックスのうち、ｌ（ｍ，ｉ，ａ，ｚ）が大きい順に上位ｋ｜Ａ（ｍ，ｐｏｓ）｜個を選択して得られる（ハードネガティブマイニングと呼ばれる方法であるので、ここでの詳細な説明を省略する）。また、huber()は、ヒューバー関数（huber関数）である。この関数についても広く知られているのでここでの詳細な説明を省略する。

以上のようにフレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４が構成された本実施の形態の画像処理装置１においても、フレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４のそれぞれに対応する分類器４２ａ，ｂ，ｃ，ｄが、それぞれコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを推定するので、これらを用いて所定の情報処理を実行する。

［画像データを分割する例］
また本実施の形態の制御部１１は、受入部２１の動作として、入力された漫画画像データの全体を、拡大または縮小して、ニューラルネットワークの入力に適したサイズにリサイズするのではなく、入力された漫画画像データを、所定の条件に基づいて複数の分割部分に分割し、当該分割して得られた分割部分（部分的な漫画画像データ、以下、部分画像データと呼ぶ）を、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部２２に出力してもよい。

ここで上記所定の条件は、例えば、元の漫画画像データ（幅ｗ，高さｈ）を、２×２個に分割（それぞれが幅ｗ／２，高さｈ／２となるような、重なり合わない４つの領域に分割）するとの条件であってもよい。またこの条件は、漫画画像データの内容に基づき、例えば、白色（背景色）が連続する部分で分割するとの条件であってもよい。さらに、この所定の条件は、コマごとに分割するとの条件であってもよい。

本実施の形態のこの例では、検出処理部２２のフレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４は、部分画像データのそれぞれからコマ部分（コマごとに分割しない場合）、顔部分、身体部分及び文字部分を検出する。なお、この例では、機械学習の処理も、分割して得られた部分画像データを用いて行うこととしてもよい。

そして検出情報生成部２３は、部分画像データごとにフレーム検出部３１が検出したコマ部分を特定する情報と、顔検出部３２が検出した、顔部分を特定する情報と、身体検出部３３が検出した、身体部分を特定する情報と、文字検出部３４が検出した、文字部分を特定する情報とを生成し、これらをまとめて元の漫画画像データにおける、コマ部分、顔部分、身体部分、及び文字部分のそれぞれを特定する情報を生成する。

情報処理部２４は、検出情報生成部２３により生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理を実行する。

また、上述の通り、部分画像データに分割する所定の条件として、コマごとに分割するとの条件であってもよい。この場合、制御部１１は、検出処理部２２のフレーム検出部３１としての動作によりコマ部分を検出し、当該検出したコマ部分ごとに分割して部分画像データを生成することとしてもよい。

すなわち本実施の形態のこの例では、図７に例示するように、フレーム検出部３１が出力する、コマ部分（コマを区分する枠線）に外接する多角形（または円弧等の曲線を少なくとも一部に含んでもよい）を特定する情報を、顔検出部３２，身体検出部３３，文字検出部３４に出力する。そして、顔検出部３２，身体検出部３３，文字検出部３４のそれぞれが、フレーム検出部３１が出力する情報で特定されるコマ部分ごとに、各コマ部分をそれぞれ部分画像データとして、部分画像データのそれぞれから顔部分、身体部分及び文字部分を検出する。なお、この例でも、顔検出部３２，身体検出部３３，文字検出部３４に係る機械学習の処理は、分割して得られた部分画像データを用いて行うこととしてもよい。

そしてこの例でも、検出情報生成部２３は、フレーム検出部３１が検出したコマ部分ごとに、顔検出部３２が検出した、顔部分を特定する情報と、身体検出部３３が検出した、身体部分を特定する情報と、文字検出部３４が検出した、文字部分を特定する情報とを生成し、これらをまとめて元の漫画画像データにおける、コマ部分、顔部分、身体部分、及び文字部分のそれぞれを特定する情報を生成する。

［検出結果の合成］
また処理の対象とする画像データを分割する場合、制御部１１は、分割前の画像データについても、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部２２としての動作を行ってもよい。すなわち、制御部１１は、フレーム検出部３１，顔検出部３２，身体検出部３３，及び文字検出部３４の動作として、分割前の画像データのそれぞれからコマ部分、顔部分、身体部分及び文字部分を検出する。

そして制御部１１は、ここで検出したコマ部分、顔部分、身体部分及び文字部分を特定する情報を記憶しておき、さらに処理の対象とする画像データを、所定の条件に基づいて複数の分割部分に分割し、当該分割して得られた部分画像データごとに、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部２２としての動作を行う。

この例によると、分割前の画像データについて検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報と、分割後に得られた部分画像データごとの顔部分、身体部分及び文字部分を特定する情報とが得られることとなる。

そして制御部１１は、分割前の画像データから検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報と、分割後の部分画像データのそれぞれから検出された顔部分、身体部分及び文字部分を特定する情報とを用い、分割前、または分割後のいずれか少なくとも一方から顔部分、身体部分及び文字部分が検出されたならば、検出情報生成部２３は、当該少なくとも一方から検出した顔部分、身体部分及び文字部分を特定する情報を生成して出力する（各部分の検出結果をそれぞれ統合して出力する）。

この例では、いわば、分割前の画像データから検出した顔部分、身体部分、文字部分のそれぞれと、分割後の画像データから検出した顔部分、身体部分、文字部分のそれぞれとの論理和が、処理対象となった画像データから検出した顔部分、身体部分、文字部分として、当該処理対象となった画像データから検出した顔部分、身体部分、文字部分を特定する情報が出力される。

なお、コマ部分は、顔部分、身体部分、または文字部分よりも一般的に高い精度で検出できるため、分割前の画像データ（または分割後の画像データであってもよい）のいずれか一方のみから検出すれば十分と考えられるが、制御部１１は、コマ部分についても、分割前の画像データまたは分割後の画像データの少なくともいずれかから検出した場合に、当該コマ部分を特定する情報を出力するようにしてもよい。

また、このように、いずれかから検出された各部分（コマ部分、顔部分、身体部分、文字部分のそれぞれ）の情報を出力する場合は、重複している部分の情報については、重複を除いて出力する。

またここでは分割前の画像データと、分割後の画像データとのいずれかから検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報を出力することとした。つまり、例えば処理対象の画像データが漫画の１ページ分の画像データである場合、ページ全体で検出したものと、部分ごとに分割した分割部分ごとに検出したものとの「ＯＲ（論理和）」をとることとした。しかしながら、本実施の形態のこの例は、これに限られず、分割前の画像データと、分割後の画像データとの双方から共通して検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報を出力してもよい（つまり、例えば処理対象の画像データが漫画の１ページ分の画像データである場合、ページ全体で検出したものと、部分ごとに分割した分割部分ごとに検出したものとの「ＡＮＤ（論理積）」をとってもよい）。

さらに、ここでは分割の態様を一種類としたが、複数種類の分割態様で分割して得た複数種類の部分画像データを生成してもよい。例えば、コマごとに分割して得た部分画像データと、２×２の４分割した部分画像データと…といったように複数種類の態様で分割して得られた部分画像データ（さらに分割前の画像データを加えてもよい）のいずれか少なくとも一つから（あるいはそれぞれから共通して）検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報を出力することとしてもよい。この場合も、重複が生じる場合は、重複を除いて出力する。

［実施形態の効果］
このように本実施の形態によれば、漫画画像データ内で互いに重なり合い、または包含関係となるコマ部分、キャラクタの顔部分、身体部分、及び文字部分の各部に対応してそれぞれ独立した検出器（または分類器）により、それぞれ検出を行うので、従来の機械学習を利用した検出に比べ、検出の精度を向上できる。

１画像処理装置、１１制御部、１２記憶部、１３操作部、１４表示部、１５入出力部、２１受入部、２２検出処理部、２３検出情報生成部、２４情報処理部、３１フレーム検出部、３２顔検出部、３３身体検出部、３４文字検出部、４０検出器、４１，４１′ ベースネットワーク部、４２分類器。

Claims

漫画画像データを受け入れる受入手段と、
画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出手段と、
画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出手段と、
画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出手段と、
画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出手段と、
前記受け入れた漫画画像データに基づいて、前記フレーム検出手段が検出したコマ部分を特定する情報と、前記顔検出手段が検出した、顔部分を特定する情報と、前記身体検出手段が検出した、身体部分を特定する情報と、前記文字検出手段が検出した、文字部分を特定する情報と、を生成する検出情報生成手段と、
を含み、
前記生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とが所定の情報処理に供される画像処理装置。
請求項１記載の画像処理装置であって、
前記フレーム検出手段と、顔検出手段と、身体検出手段と、文字検出手段とは、それぞれに共通して、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを機械学習した状態にあり、処理対象となった画像データに基づき、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを出力するベースネットワーク部と、
前記フレーム検出手段と、顔検出手段と、身体検出手段と、文字検出手段とのそれぞれに対応して設けられる分類器であって、前記画像の特徴量に基づき、対応する画像の範囲内に含まれる画像が、それぞれコマ部分、顔部分、身体部分、文字部分であるか否かを分類する分類器とを含む画像処理装置。
請求項１または２に記載の画像処理装置であって、
前記検出情報生成手段は、前記受け入れた漫画画像データを、所定の条件に基づいて複数の分割部分に分割して得られた分割部分のそれぞれのうちから、前記顔検出手段と、身体検出手段と、文字検出手段とにより、分割部分ごとに、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを生成する画像処理装置。
請求項３に記載の画像処理装置であって、
前記検出情報生成手段は、フレーム検出手段が検出したコマ部分を特定する情報を用いて、当該特定されたコマ部分のそれぞれを前記分割部分として、当該分割部分のそれぞれのうちから、前記顔検出手段と、身体検出手段と、文字検出手段とにより、分割部分であるコマ部分ごとに、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを生成する画像処理装置。
請求項３または４に記載の画像処理装置であって、
前記検出情報生成手段は、前記受け入れた漫画画像データを、分割する前の画像データから前記顔検出手段と、身体検出手段と、文字検出手段とにより検出した顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを生成し、
当該生成した情報と、前記分割部分のそれぞれのうちから検出した、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを統合して出力する画像処理装置。
請求項１から５のいずれか一項に記載の画像処理装置であって、
前記フレーム検出手段と、顔検出手段と、身体検出手段と、文字検出手段とは、シングル・ショット・マルチボックス・ディテクタ（ＳＳＤ）を用いて構成される画像処理装置。
コンピュータを、
漫画画像データを受け入れる受入手段と、
画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出手段と、
画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出手段と、
画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出手段と、
画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出手段と、
前記受け入れた漫画画像データに基づいて、前記フレーム検出手段が検出したコマ部分を特定する情報と、前記顔検出手段が検出した、顔部分を特定する情報と、前記身体検出手段が検出した、身体部分を特定する情報と、前記文字検出手段が検出した、文字部分を特定する情報と、を生成する検出情報生成手段と、
として機能させ、
前記生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とが所定の情報処理に供されるプログラム。