JP2019046253A - 画像処理装置及びプログラム - Google Patents
画像処理装置及びプログラム Download PDFInfo
- Publication number
- JP2019046253A JP2019046253A JP2017169632A JP2017169632A JP2019046253A JP 2019046253 A JP2019046253 A JP 2019046253A JP 2017169632 A JP2017169632 A JP 2017169632A JP 2017169632 A JP2017169632 A JP 2017169632A JP 2019046253 A JP2019046253 A JP 2019046253A
- Authority
- JP
- Japan
- Prior art keywords
- information
- image data
- character
- detection means
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
【課題】コマ、顔部分、身体部分、及び文字部分の認識精度を、従来のものに比べて向上できる画像処理装置及びプログラムを提供する。【解決手段】所定の情報処理に供される画像処理装置は、漫画画像データを受け入れ、当該漫画画像データに基づいて、コマ部分、顔部分、身体部分、文字部分のそれぞれを特定するよう機械学習した結果を用い、コマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とをそれぞれ生成する。【選択図】図6
Description
本発明は、画像処理装置及びプログラムに関する。
近年では、漫画の画像データを加工して、セリフ部分を抽出して他国語用に翻訳する技術や、コマごとに配列を変更して、スマートフォン等の画面に適した状態とする技術が考えられている。
このような処理を行うにあたり、従来から、色や文字認識処理の結果等を用いて、描かれた人物の部分やセリフ部分を特定する処理等が考えられている(非特許文献1)。
Christophe Rigaud, et. al., Speech ballon and speaker association for comics and manga understanding., Proceedings of the 13th International Conference on Document Analysis and Recognition, pp. 351-355, IEEE, 2015
一方、近年では機械学習により画像中から物体を検出する技術が開発され、広く研究されている。しかしながら、従来の一般物体検出の処理では、画像中の特定の部分には一つの物体が含まれるとの前提で検出が行われるため、多数の検出対象が互いに重なりあっている場合については考慮されていない。
ところが漫画画像データにおいては、コマの内側に(ないしは複数のコマにまたがって)人物の身体や顔が描画され、また、これらの各部に重なり合わせてセリフの文字が配置されることが一般的である。従って、機械学習による物体検出処理をそのまま適用したのでは、コマ、登場人物の身体、顔、セリフといった部分がそれぞれ十分な精度で検出できない。
本発明は上記実情に鑑みて為されたもので、漫画画像データの処理において、機械学習処理を用いて、コマ、顔部分、身体部分、及び文字部分の認識精度を、従来のものに比べて向上できる画像処理装置及びプログラムを提供することを、その目的の一つとする。
上記従来例の問題点を解決するための本発明は、画像処理装置であって、漫画画像データを受け入れる受入手段と、画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出手段と、画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出手段と、画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出手段と、画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出手段と、前記受け入れた漫画画像データに基づいて、前記フレーム検出手段が検出したコマ部分を特定する情報と、前記顔検出手段が検出した、顔部分を特定する情報と、前記身体検出手段が検出した、身体部分を特定する情報と、前記文字検出手段が検出した、文字部分を特定する情報と、を生成する検出情報生成手段と、を含み、前記生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とが所定の情報処理に供されることとしたものである。
本発明によれば、機械学習処理を用いて、漫画画像データのうちからコマ、顔部分、身体部分、及び文字部分を認識する際の認識精度を、従来のものに比べて向上できる。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る画像処理装置1は、図1に例示するように、制御部11と、記憶部12と、操作部13と、表示部14と、入出力部15とを含んで構成されている。
制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムを実行して、漫画画像データを受け入れ、当該受け入れた漫画画像データに基づいて、コマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報と、を生成する。本実施の形態の制御部11は、これらの各部分を特定する処理において、画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出器と、画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出器と、画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出器と、画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出器とを用いる。
またこの制御部11は、生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理を実行する。この情報処理としては、例えば、各部を表す画像を出力する処理や、文字部分を特定する情報により特定された範囲内の文字列に対する光学文字認識処理や、コマ部分ごとに画像データを分割する分割処理等がある。これらの制御部11の動作については、後に詳しく述べる。
記憶部12は、メモリデバイス等であり、制御部11により実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ、非一時的な記録媒体に格納されて提供され、この記憶部12に格納されたものであってもよい。また、この記憶部12は、制御部11のワークメモリとしても動作する。
操作部13は、マウスやキーボード等であり、利用者の指示操作を受け入れて制御部11に出力する。表示部14は、例えばディスプレイ等であり、制御部11から入力される指示に基づいて情報を表示出力する。
入出力部15は、例えばネットワークインタフェース等であり、外部からデータ(画像データ等)を受信して、制御部11に出力する。またこの入出力部15は、制御部11から入力される指示に従って、データを外部の装置等に送出する。
次に制御部11の動作について説明する。本実施の形態の制御部11は、記憶部12に格納されたプログラムを実行することで、機能的には、図2に例示するように、受入部21と、検出処理部22と、検出情報生成部23と、情報処理部24とを含んで構成される。また検出処理部22は、フレーム検出部31と、顔検出部32と、身体検出部33と、文字検出部34とを含む。
受入部21は、漫画画像データを受け入れて検出処理部22に出力する。ここで漫画画像データは、一般的には、顔部分(F)と身体部分(B)と文字部分(C)とが互いに重なり合って描画された画像データであり(図3)、少なくとも一つのコマ(M)を含む。また、この受入部21は、検出処理部22におけるニューラルネットワークを利用するため、漫画画像データを拡大または縮小して、ニューラルネットワークの入力に適したサイズにリサイズする。
検出処理部22のフレーム検出部31は、画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出器を有する。具体的に、このフレーム検出部31が備えるフレーム検出器は、R−CNN(Regions with CNN features)(Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014)や、Fast R−CNN(Girshick, Ross. "Fast r-cnn." Proceedings of the IEEE International Conference on Computer Vision. 2015)、Faster R−CNN(Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015)、YOLO(You Only Look Once)(Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." arXiv preprint arXiv: 1506.02640 (2015))、あるいは、SSD(シングル・ショット・マルチボックス・ディテクタ;Single Shot MultiBox Detector)(Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015))など、種々の方法で構成されたニューラルネットワークを採用して実現できる。
図4にその概略を示すように、SSD等のニューラルネットワークを採用した検出器40は、ベースネットワーク部41と、分類器42とを含んで構成される。ここでベースネットワーク部41は、検出対象の候補が含まれる画像の範囲と、当該範囲内の画像の特徴量とを出力する。また分類器42は、出力された画像の範囲に、検出対象(フレーム検出部31の場合、漫画画像データのコマを区分する枠線)が含まれるか否かを、出力された特徴量に基づいて判断する。
このようなSSD等を採用した検出器40は、検出対象の範囲(フレーム検出部31の場合、漫画画像データのコマを区分する枠線に外接する形状の範囲)を人為的に指定した画像データのサンプルを用いて機械学習させる。ここで機械学習の具体的方法や、検出器40の利用方法については、広く知られているので、ここでの詳しい説明を省略する。
顔検出部32は、画像データから、当該画像データ内に描画されたキャラクタの顔部分を検出するよう機械学習された状態にある顔検出器を有する。この顔検出器も、フレーム検出部31が備えるフレーム検出器と同様、SSD等、種々の方法で構成されたニューラルネットワークを採用して実現できる。この顔検出器は、検出対象の範囲である、漫画画像データに含まれるキャラクタの顔に外接する所定形状の範囲を人為的に指定した画像データのサンプルを用いて機械学習させる。
身体検出部33は、画像データから、当該画像データ内に描画されたキャラクタの身体部分を検出するよう機械学習された状態にある身体検出器を有する。この身体検出器も、フレーム検出部31が備えるフレーム検出器と同様、SSD等、種々の方法で構成されたニューラルネットワークを採用して実現できる。この身体検出器は、検出対象の範囲である、漫画画像データに含まれるキャラクタの身体に外接する所定形状の範囲を人為的に指定した画像データのサンプルを用いて機械学習させる。
文字検出部34は、画像データから、当該画像データ内に描画された文字部分を検出するよう機械学習された状態にある文字検出器を有する。この文字検出器も、フレーム検出部31が備えるフレーム検出器と同様、SSD等、種々の方法で構成されたニューラルネットワークを採用して実現できる。この文字検出器は、検出対象の範囲である、漫画画像データに含まれる文字部分に外接する所定形状の範囲を人為的に指定した画像データのサンプルを用いて機械学習させる。
検出情報生成部23は、受入部21が受け入れた漫画画像データについて、フレーム検出部31が検出したコマ部分を特定する情報と、顔検出部32が検出した、顔部分を特定する情報と、身体検出部33が検出した、身体部分を特定する情報と、文字検出部34が検出した、文字部分を特定する情報とを生成する。
情報処理部24は、生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理を実行する。この情報処理としては、例えば、特定された文字部分の画像に対して光学的文字認識(OCR)を行い、その結果を出力する処理等がある。また、情報処理部24は、光学的文字認識の結果、得られた文字列を、機械翻訳処理により他言語に翻訳して出力してもよい。
本実施の形態の一例は以上の構成を備え、次のように動作する。なお、以下の説明では、制御部11によるフレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34は、SSDを採用し、それぞれ、予め画像データから、当該画像データ内に描画された漫画のコマ部分、顔部分、身体部分、及び文字部分を検出するよう機械学習した状態にあるものとする。
画像処理装置1は、利用者から入力される漫画の画像データ(機械学習のサンプルに含まれないもの)を処理の対象として、当該処理対象の画像データに対して並列的に、フレーム検出器と、顔検出器と、身体検出器と、文字検出器とにより、コマ部分、キャラクタの顔部分、身体部分、及び文字部分をそれぞれ検出して、それぞれ検出した画像の範囲を特定する情報を得る。
そして画像処理装置1は、コマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理、例えば特定された文字部分の画像に対して光学的文字認識(OCR)を行い、当該光学的文字認識の結果、得られた文字列を、機械翻訳処理により他言語に翻訳して出力する。
[ベースネットワークを共用する例]
またここまでの説明では、フレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34は、それぞれ独立したベースネットワークと、検出器を備えるものとしたが、本実施の形態はこの例に限られない。例えば一つのベースネットワークをフレーム検出部31,顔検出部32,身体検出部33,文字検出部34が共用してもよい。
またここまでの説明では、フレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34は、それぞれ独立したベースネットワークと、検出器を備えるものとしたが、本実施の形態はこの例に限られない。例えば一つのベースネットワークをフレーム検出部31,顔検出部32,身体検出部33,文字検出部34が共用してもよい。
すなわちこの例では、フレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34は、図5に例示するように、それぞれに共通して、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを機械学習した状態にあり、処理対象となった画像データに基づき、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを出力するベースネットワーク部41′と、フレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34のそれぞれに対応して、独立して設けられる分類器42a,42b,42c,42dとを備える。
なお、この例でも、ベースネットワーク部41′及び分類器42a,b,c,dは、SSDに基づくニューラルネットワークとしてよいが、次の点でSSDを変形して用いる。すなわち一般的なSSDの出力段では、物体を検出する領域の候補(アンカーボックス)が予め複数定められており(複数のアンカーボックスの集合をアンカーセットと呼ぶ)、当該複数の領域の候補のうちから、対象となる物体が含まれる領域を特定する。
本実施の形態のここでの例では、出力段より前のネットワーク(ベースネットワーク部41′)は1つとするが、出力段において、アンカーセット(各アンカーセットには、例えば8732個のアンカーボックスが含まれる)をフレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34のそれぞれに対応して、4つ複製して、各分類器42a,b,c,dとして用いる。すなわちこの例におけるSSDでは、各アンカーボックスについて、当該アンカーボックス内で検出した物体の領域との位置特定誤差(左上座標の情報と幅及び高さの情報とからなる4次元の情報)と、物体が含まれ得るとされる確信度(ここではシグモイド関数により正規化しておく)との合計5次元の情報を出力するが、アンカーボックスが複製した4つの同じアンカーセット中のアンカーボックスのうち、第1のアンカーセットA1中のアンカーボックスについては画像データのうちコマ部分を機械学習させた状態とする。また第2のアンカーセットA2中のアンカーボックスについては、画像データのうち顔部分を機械学習させた状態とし、第3のアンカーセットA3中のアンカーボックスについては、画像データのうち身体部分を機械学習させた状態とし、第4のアンカーセットA4中のアンカーボックスについては、画像データのうち文字部分を機械学習させた状態とする(図6)。
具体的には、出力段が出力する第1のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、コマの枠線に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器42a及びベースネットワーク部41′のパラメータを更新する。
同様に、出力段が出力する第2のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、キャラクタの顔部分に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器42b及びベースネットワーク部41′のパラメータを更新する。また出力段が出力する第3のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、キャラクタの身体に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器42c及びベースネットワーク部41′のパラメータを更新する。さらに出力段が出力する第4のアンカーセット中のアンカーボックスの情報については、学習用のサンプルを入力したときに、文字に外接する矩形が推定されることとなるよう、出力段から誤差を逆伝播して、分類器42d及びベースネットワーク部41′のパラメータを更新する。
なお、第i(i=1,2,3,4)のアンカーセット中のa番目のアンカーボックス(a=1,2,…8732)に対する、m番目のサンプル(ミニバッチ学習を行うこととして、ミニバッチサイズをMとすると、m=1,2,…,M)の割り当てs(m,i,a)とその重なりJ(m,i,a)とを次のように定義する。
ここで、gは1以上、G(m)以下の整数であり、G(m)は、上記m番目のサンプルに含まれる正解の個数であり、t(m,g)、及びB(m,g)は上記m番目のサンプルのg番目の正解のクラス(コマ、顔、身体、文字のいずれであるかを表す情報)と、外接矩形とを表す。
そして損失関数(Loss関数)L(z)を、位置特定誤差Lloc(m,z)と、確信度Lconf(m,z)との和として次のように設定する。
ここで、zはニューラルネットワークの出力を表し、A(m,pos)は、m番目のサンプルについてオブジェクトが割り当てられたアンカーボックスの添字集合であり、具体的には、
などとしておく。
なお、Lloc(m,z)及び、Lconf(m,z)は、次のように定義しておく。
なお、A(m,neg)は、ハードネガティブ(hard negative)の集合であって、オブジェクトに割り当てられていないアンカーボックスのうち、l(m,i,a,z)が大きい順に上位k|A(m,pos)|個を選択して得られる(ハードネガティブマイニングと呼ばれる方法であるので、ここでの詳細な説明を省略する)。また、huber()は、ヒューバー関数(huber関数)である。この関数についても広く知られているのでここでの詳細な説明を省略する。
以上のようにフレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34が構成された本実施の形態の画像処理装置1においても、フレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34のそれぞれに対応する分類器42a,b,c,dが、それぞれコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを推定するので、これらを用いて所定の情報処理を実行する。
[画像データを分割する例]
また本実施の形態の制御部11は、受入部21の動作として、入力された漫画画像データの全体を、拡大または縮小して、ニューラルネットワークの入力に適したサイズにリサイズするのではなく、入力された漫画画像データを、所定の条件に基づいて複数の分割部分に分割し、当該分割して得られた分割部分(部分的な漫画画像データ、以下、部分画像データと呼ぶ)を、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部22に出力してもよい。
また本実施の形態の制御部11は、受入部21の動作として、入力された漫画画像データの全体を、拡大または縮小して、ニューラルネットワークの入力に適したサイズにリサイズするのではなく、入力された漫画画像データを、所定の条件に基づいて複数の分割部分に分割し、当該分割して得られた分割部分(部分的な漫画画像データ、以下、部分画像データと呼ぶ)を、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部22に出力してもよい。
ここで上記所定の条件は、例えば、元の漫画画像データ(幅w,高さh)を、2×2個に分割(それぞれが幅w/2,高さh/2となるような、重なり合わない4つの領域に分割)するとの条件であってもよい。またこの条件は、漫画画像データの内容に基づき、例えば、白色(背景色)が連続する部分で分割するとの条件であってもよい。さらに、この所定の条件は、コマごとに分割するとの条件であってもよい。
本実施の形態のこの例では、検出処理部22のフレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34は、部分画像データのそれぞれからコマ部分(コマごとに分割しない場合)、顔部分、身体部分及び文字部分を検出する。なお、この例では、機械学習の処理も、分割して得られた部分画像データを用いて行うこととしてもよい。
そして検出情報生成部23は、部分画像データごとにフレーム検出部31が検出したコマ部分を特定する情報と、顔検出部32が検出した、顔部分を特定する情報と、身体検出部33が検出した、身体部分を特定する情報と、文字検出部34が検出した、文字部分を特定する情報とを生成し、これらをまとめて元の漫画画像データにおける、コマ部分、顔部分、身体部分、及び文字部分のそれぞれを特定する情報を生成する。
情報処理部24は、検出情報生成部23により生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理を実行する。
また、上述の通り、部分画像データに分割する所定の条件として、コマごとに分割するとの条件であってもよい。この場合、制御部11は、検出処理部22のフレーム検出部31としての動作によりコマ部分を検出し、当該検出したコマ部分ごとに分割して部分画像データを生成することとしてもよい。
すなわち本実施の形態のこの例では、図7に例示するように、フレーム検出部31が出力する、コマ部分(コマを区分する枠線)に外接する多角形(または円弧等の曲線を少なくとも一部に含んでもよい)を特定する情報を、顔検出部32,身体検出部33,文字検出部34に出力する。そして、顔検出部32,身体検出部33,文字検出部34のそれぞれが、フレーム検出部31が出力する情報で特定されるコマ部分ごとに、各コマ部分をそれぞれ部分画像データとして、部分画像データのそれぞれから顔部分、身体部分及び文字部分を検出する。なお、この例でも、顔検出部32,身体検出部33,文字検出部34に係る機械学習の処理は、分割して得られた部分画像データを用いて行うこととしてもよい。
そしてこの例でも、検出情報生成部23は、フレーム検出部31が検出したコマ部分ごとに、顔検出部32が検出した、顔部分を特定する情報と、身体検出部33が検出した、身体部分を特定する情報と、文字検出部34が検出した、文字部分を特定する情報とを生成し、これらをまとめて元の漫画画像データにおける、コマ部分、顔部分、身体部分、及び文字部分のそれぞれを特定する情報を生成する。
情報処理部24は、検出情報生成部23により生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを用いて所定の情報処理を実行する。
[検出結果の合成]
また処理の対象とする画像データを分割する場合、制御部11は、分割前の画像データについても、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部22としての動作を行ってもよい。すなわち、制御部11は、フレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34の動作として、分割前の画像データのそれぞれからコマ部分、顔部分、身体部分及び文字部分を検出する。
また処理の対象とする画像データを分割する場合、制御部11は、分割前の画像データについても、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部22としての動作を行ってもよい。すなわち、制御部11は、フレーム検出部31,顔検出部32,身体検出部33,及び文字検出部34の動作として、分割前の画像データのそれぞれからコマ部分、顔部分、身体部分及び文字部分を検出する。
そして制御部11は、ここで検出したコマ部分、顔部分、身体部分及び文字部分を特定する情報を記憶しておき、さらに処理の対象とする画像データを、所定の条件に基づいて複数の分割部分に分割し、当該分割して得られた部分画像データごとに、ニューラルネットワークの入力に適したサイズにリサイズして、検出処理部22としての動作を行う。
この例によると、分割前の画像データについて検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報と、分割後に得られた部分画像データごとの顔部分、身体部分及び文字部分を特定する情報とが得られることとなる。
そして制御部11は、分割前の画像データから検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報と、分割後の部分画像データのそれぞれから検出された顔部分、身体部分及び文字部分を特定する情報とを用い、分割前、または分割後のいずれか少なくとも一方から顔部分、身体部分及び文字部分が検出されたならば、検出情報生成部23は、当該少なくとも一方から検出した顔部分、身体部分及び文字部分を特定する情報を生成して出力する(各部分の検出結果をそれぞれ統合して出力する)。
この例では、いわば、分割前の画像データから検出した顔部分、身体部分、文字部分のそれぞれと、分割後の画像データから検出した顔部分、身体部分、文字部分のそれぞれとの論理和が、処理対象となった画像データから検出した顔部分、身体部分、文字部分として、当該処理対象となった画像データから検出した顔部分、身体部分、文字部分を特定する情報が出力される。
なお、コマ部分は、顔部分、身体部分、または文字部分よりも一般的に高い精度で検出できるため、分割前の画像データ(または分割後の画像データであってもよい)のいずれか一方のみから検出すれば十分と考えられるが、制御部11は、コマ部分についても、分割前の画像データまたは分割後の画像データの少なくともいずれかから検出した場合に、当該コマ部分を特定する情報を出力するようにしてもよい。
また、このように、いずれかから検出された各部分(コマ部分、顔部分、身体部分、文字部分のそれぞれ)の情報を出力する場合は、重複している部分の情報については、重複を除いて出力する。
またここでは分割前の画像データと、分割後の画像データとのいずれかから検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報を出力することとした。つまり、例えば処理対象の画像データが漫画の1ページ分の画像データである場合、ページ全体で検出したものと、部分ごとに分割した分割部分ごとに検出したものとの「OR(論理和)」をとることとした。しかしながら、本実施の形態のこの例は、これに限られず、分割前の画像データと、分割後の画像データとの双方から共通して検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報を出力してもよい(つまり、例えば処理対象の画像データが漫画の1ページ分の画像データである場合、ページ全体で検出したものと、部分ごとに分割した分割部分ごとに検出したものとの「AND(論理積)」をとってもよい)。
さらに、ここでは分割の態様を一種類としたが、複数種類の分割態様で分割して得た複数種類の部分画像データを生成してもよい。例えば、コマごとに分割して得た部分画像データと、2×2の4分割した部分画像データと…といったように複数種類の態様で分割して得られた部分画像データ(さらに分割前の画像データを加えてもよい)のいずれか少なくとも一つから(あるいはそれぞれから共通して)検出されたコマ部分、顔部分、身体部分及び文字部分を特定する情報を出力することとしてもよい。この場合も、重複が生じる場合は、重複を除いて出力する。
[実施形態の効果]
このように本実施の形態によれば、漫画画像データ内で互いに重なり合い、または包含関係となるコマ部分、キャラクタの顔部分、身体部分、及び文字部分の各部に対応してそれぞれ独立した検出器(または分類器)により、それぞれ検出を行うので、従来の機械学習を利用した検出に比べ、検出の精度を向上できる。
このように本実施の形態によれば、漫画画像データ内で互いに重なり合い、または包含関係となるコマ部分、キャラクタの顔部分、身体部分、及び文字部分の各部に対応してそれぞれ独立した検出器(または分類器)により、それぞれ検出を行うので、従来の機械学習を利用した検出に比べ、検出の精度を向上できる。
1 画像処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 入出力部、21 受入部、22 検出処理部、23 検出情報生成部、24 情報処理部、31 フレーム検出部、32 顔検出部、33 身体検出部、34 文字検出部、40 検出器、41,41′ ベースネットワーク部、42 分類器。
Claims (7)
- 漫画画像データを受け入れる受入手段と、
画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出手段と、
画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出手段と、
画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出手段と、
画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出手段と、
前記受け入れた漫画画像データに基づいて、前記フレーム検出手段が検出したコマ部分を特定する情報と、前記顔検出手段が検出した、顔部分を特定する情報と、前記身体検出手段が検出した、身体部分を特定する情報と、前記文字検出手段が検出した、文字部分を特定する情報と、を生成する検出情報生成手段と、
を含み、
前記生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とが所定の情報処理に供される画像処理装置。 - 請求項1記載の画像処理装置であって、
前記フレーム検出手段と、顔検出手段と、身体検出手段と、文字検出手段とは、それぞれに共通して、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを機械学習した状態にあり、処理対象となった画像データに基づき、検出対象の候補となる画像の範囲と、当該範囲内の画像の特徴量とを出力するベースネットワーク部と、
前記フレーム検出手段と、顔検出手段と、身体検出手段と、文字検出手段とのそれぞれに対応して設けられる分類器であって、前記画像の特徴量に基づき、対応する画像の範囲内に含まれる画像が、それぞれコマ部分、顔部分、身体部分、文字部分であるか否かを分類する分類器とを含む画像処理装置。 - 請求項1または2に記載の画像処理装置であって、
前記検出情報生成手段は、前記受け入れた漫画画像データを、所定の条件に基づいて複数の分割部分に分割して得られた分割部分のそれぞれのうちから、前記顔検出手段と、身体検出手段と、文字検出手段とにより、分割部分ごとに、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを生成する画像処理装置。 - 請求項3に記載の画像処理装置であって、
前記検出情報生成手段は、フレーム検出手段が検出したコマ部分を特定する情報を用いて、当該特定されたコマ部分のそれぞれを前記分割部分として、当該分割部分のそれぞれのうちから、前記顔検出手段と、身体検出手段と、文字検出手段とにより、分割部分であるコマ部分ごとに、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを生成する画像処理装置。 - 請求項3または4に記載の画像処理装置であって、
前記検出情報生成手段は、前記受け入れた漫画画像データを、分割する前の画像データから前記顔検出手段と、身体検出手段と、文字検出手段とにより検出した顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを生成し、
当該生成した情報と、前記分割部分のそれぞれのうちから検出した、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とを統合して出力する画像処理装置。 - 請求項1から5のいずれか一項に記載の画像処理装置であって、
前記フレーム検出手段と、顔検出手段と、身体検出手段と、文字検出手段とは、シングル・ショット・マルチボックス・ディテクタ(SSD)を用いて構成される画像処理装置。 - コンピュータを、
漫画画像データを受け入れる受入手段と、
画像データから、当該画像データ内に描画された漫画のコマ部分を検出するよう機械学習された状態にあるフレーム検出手段と、
画像データから、当該画像データ内に描画された顔部分を検出するよう機械学習された状態にある顔検出手段と、
画像データから、当該画像データ内に描画された身体部分を検出するよう機械学習された状態にある身体検出手段と、
画像データから、当該画像データ内に含まれる文字部分を検出するよう機械学習された状態にある文字検出手段と、
前記受け入れた漫画画像データに基づいて、前記フレーム検出手段が検出したコマ部分を特定する情報と、前記顔検出手段が検出した、顔部分を特定する情報と、前記身体検出手段が検出した、身体部分を特定する情報と、前記文字検出手段が検出した、文字部分を特定する情報と、を生成する検出情報生成手段と、
として機能させ、
前記生成されたコマ部分を特定する情報と、顔部分を特定する情報と、身体部分を特定する情報と、文字部分を特定する情報とが所定の情報処理に供されるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017169632A JP2019046253A (ja) | 2017-09-04 | 2017-09-04 | 画像処理装置及びプログラム |
PCT/JP2018/032635 WO2019045101A1 (ja) | 2017-09-04 | 2018-09-03 | 画像処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017169632A JP2019046253A (ja) | 2017-09-04 | 2017-09-04 | 画像処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019046253A true JP2019046253A (ja) | 2019-03-22 |
Family
ID=65527562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017169632A Pending JP2019046253A (ja) | 2017-09-04 | 2017-09-04 | 画像処理装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2019046253A (ja) |
WO (1) | WO2019045101A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021170221A (ja) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | 学習済みモデル、サイト判定プログラム及びサイト判定システム |
JP7324475B1 (ja) | 2022-10-20 | 2023-08-10 | 株式会社hotarubi | 情報処理装置、情報処理方法及び情報処理プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070082B (zh) * | 2020-08-24 | 2023-04-07 | 西安理工大学 | 一种基于实例感知成分合并网络的曲线文字定位方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2817429B1 (fr) * | 2000-11-29 | 2003-01-31 | Eastman Kodak Co | Procede pour envoyer des images sur un terminal a faible capacite d'affichage |
JP5480008B2 (ja) * | 2010-05-11 | 2014-04-23 | Kddi株式会社 | マンガコンテンツの要約を生成する要約マンガ画像生成装置、プログラム及び方法 |
-
2017
- 2017-09-04 JP JP2017169632A patent/JP2019046253A/ja active Pending
-
2018
- 2018-09-03 WO PCT/JP2018/032635 patent/WO2019045101A1/ja active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021170221A (ja) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | 学習済みモデル、サイト判定プログラム及びサイト判定システム |
JP7324475B1 (ja) | 2022-10-20 | 2023-08-10 | 株式会社hotarubi | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2024060845A (ja) * | 2022-10-20 | 2024-05-07 | 株式会社hotarubi | 情報処理装置、情報処理方法及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2019045101A1 (ja) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11430259B2 (en) | Object detection based on joint feature extraction | |
AU2019275232B2 (en) | Multi-sample whole slide image processing via multi-resolution registration | |
US10769496B2 (en) | Logo detection | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
JP2020095713A (ja) | 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム | |
Hoque et al. | Real time bangladeshi sign language detection using faster r-cnn | |
JP2020527260A (ja) | テキスト検出分析方法、装置及びデバイス | |
JP2024509411A (ja) | 欠陥検出方法、装置及びシステム | |
WO2020139743A1 (en) | Computer-executed method and apparatus for assessing vehicle damage | |
GB2549554A (en) | Method and system for detecting an object in an image | |
CN110737785B (zh) | 一种图片标注的方法及装置 | |
CN114862845B (zh) | 手机触摸屏的缺陷检测方法、装置、设备及存储介质 | |
US8571264B2 (en) | Method of using structural models for optical recognition | |
US11200694B2 (en) | Apparatus and method for extracting object information | |
WO2019045101A1 (ja) | 画像処理装置及びプログラム | |
US20220222822A1 (en) | Microscopy System and Method for Evaluating Image Processing Results | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
Uddin et al. | Horse detection using haar like features | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
Kaur et al. | Brahmi character recognition based on SVM (support vector machine) classifier using image gradient features | |
Mayer et al. | Adjusted pixel features for robust facial component classification | |
JP2007025902A (ja) | 画像処理装置、画像処理方法 | |
CN111968114B (zh) | 基于级联深度学习方法的骨科耗材检测方法及系统 | |
JP2006323779A (ja) | 画像処理方法、画像処理装置 | |
US11893784B2 (en) | Assessment of image quality for optical character recognition using machine learning |