JP2011128924A - Comic image analysis apparatus, program, and search apparatus and method for extracting text from comic image - Google Patents
Comic image analysis apparatus, program, and search apparatus and method for extracting text from comic image Download PDFInfo
- Publication number
- JP2011128924A JP2011128924A JP2009287145A JP2009287145A JP2011128924A JP 2011128924 A JP2011128924 A JP 2011128924A JP 2009287145 A JP2009287145 A JP 2009287145A JP 2009287145 A JP2009287145 A JP 2009287145A JP 2011128924 A JP2011128924 A JP 2011128924A
- Authority
- JP
- Japan
- Prior art keywords
- image
- manga
- region
- sub
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、画像からテキストを抽出する画像解析技術に関する。また、その画像をキーワードによって検索する画像検索技術に関する。 The present invention relates to an image analysis technique for extracting text from an image. Further, the present invention relates to an image search technique for searching for the image by a keyword.
近年、インターネットを介して、電子書籍を配信・販売するサイトが多く開設されている。このようなサイトでは、検索機能が充実し、様々な要素に基づいて電子書籍を検索することができる。電子書籍としては、文章に基づく小説等の書籍に限られず、画像に基づくマンガのような書籍も含まれる。これら電子書籍には、メタ情報(タイトル、作者名、ジャンル等)が付加されており、ユーザは、そのメタ情報を検索要素として検索することもできる。例えば電子書籍が文章に基づくものである場合、文章内のテキストを、キーワードによって検索することもできる。 In recent years, many sites for distributing and selling electronic books via the Internet have been established. In such a site, the search function is enhanced, and an electronic book can be searched based on various elements. Electronic books are not limited to books such as novels based on text, but also include books such as manga based on images. Meta information (title, author name, genre, etc.) is added to these electronic books, and the user can also search the meta information as a search element. For example, when an electronic book is based on a sentence, the text in the sentence can be searched by a keyword.
一方で、異なる技術として、従来、画像から文字領域を抽出する技術がある(例えば特許文献1〜3参照)。この技術によれば、例えば文字が紙に印字された画像を入力とし、文字が出現する領域を自動的に抽出することができる。文字を検出するために、文字のフォントのエッジ特徴や、その輪郭を囲む矩形領域の間隔などを考慮する。
On the other hand, as a different technique, conventionally, there is a technique for extracting a character region from an image (see, for example,
電子書籍の中でも、マンガコンテンツは、多くのユーザによって所望される重要なコンテンツとなっている。しかしながら、マンガコンテンツは、画像に基づくものであるために、一般に、メタ情報の単位でしか検索することができない。マンガ画像の中には、吹き出しでテキストが記述されているが、これらテキストも画像の一部として認識されているからである。そのため、例えば、マンガ画像における特定のセリフをキーワードとして、マンガ画像を検索することができない。 Among electronic books, comic content is important content desired by many users. However, since manga content is based on images, it can generally be searched only in units of meta information. This is because, in the manga image, text is described in a balloon, and these texts are also recognized as part of the image. Therefore, for example, a manga image cannot be searched using a specific line in the manga image as a keyword.
図1は、マンガ画像の例である。 FIG. 1 is an example of a manga image.
図1によれば、マンガ画像は、コマ画像単位に区分されていることが多く、画像の吹き出しの中に、台詞のようなテキストが含まれている。また、マンガ画像は、一般的にモノクロであって、画像のみならずテキスト自体も、人手に基づくペン又は筆によって描かれている場合も多い。そのため、マンガ画像は、風景写真のような画像と異なって、全体的にエッジが多いという特性がある。 According to FIG. 1, a manga image is often divided into frame image units, and text such as dialogue is included in a balloon of the image. In addition, the manga image is generally monochrome, and not only the image but also the text itself is often drawn with a hand-based pen or brush. Therefore, unlike an image such as a landscape photograph, a manga image has a characteristic that it has many edges as a whole.
これに対し、例えば特許文献1〜3に記載されたような技術によれば、文字のフォントのエッジ特徴を利用して、画像から文字領域を抽出しようとする。そのために、人手に基づいて描かれた文字列から、文字領域を抽出することは極めて難しい。
On the other hand, according to the techniques described in, for example,
そこで、本発明は、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法を提供することを目的とする。 Therefore, the present invention provides a manga image analysis device, a program, a search device, and a method for appropriately identifying a character area by analyzing a manga image imagewise and extracting text described therein. Objective.
本発明によれば、マンガ画像に記述されたテキストを抽出するマンガ画像解析装置であって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
を有することを特徴とする。
According to the present invention, there is provided a manga image analyzing apparatus for extracting text described in a manga image,
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering a large number of feature points based on the distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying according to whether or not it is a character region;
It has a text extraction means for extracting text from a sub-region image determined as a character region.
本発明のマンガ画像解析装置によれば、
学習用画像から、多数の特徴点を抽出する学習用特徴点抽出手段と、
多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
を更に有し、
サブ領域画像分類手段によって用いられる学習データは、画像分類学習手段によって学習された学習データであることも好ましい。
According to the manga image analysis apparatus of the present invention,
Learning feature point extracting means for extracting a large number of feature points from the learning image;
Elemental clustering means for clustering a large number of feature points into k learning clusters based on the feature values;
Learning cluster vector calculation means for calculating a feature vector in the cluster from all feature points included in the cluster for each elemental cluster;
For each elemental cluster, the image classification learning means further learning whether or not the feature point included in the cluster is a character region,
The learning data used by the sub-region image classification unit is preferably learning data learned by the image classification learning unit.
本発明のマンガ画像解析装置によれば、
要素的クラスタリング手段は、k-meansクラスタリングによってk個の学習クラスタに分類し、
サブ領域ベクトル算出手段及び学習用クラスタベクトル算出手段は、k個の学習クラスタに対応したk次元の特徴ベクトルを算出し、
画像分類学習手段は、文字領域と判定されるk次元の特徴ベクトルの学習データを生成することも好ましい。
According to the manga image analysis apparatus of the present invention,
Elemental clustering means classify into k learning clusters by k-means clustering,
The sub-region vector calculating means and the learning cluster vector calculating means calculate k-dimensional feature vectors corresponding to k learning clusters,
It is also preferable that the image classification learning unit generates learning data of a k-dimensional feature vector determined as a character region.
本発明のマンガ画像解析装置によれば、対象用特徴点抽出手段又は学習用特徴点抽出手段は、特徴点をSIFT(Scale-Invariant Feature Transform)によって検出することも好ましい。 According to the manga image analyzing apparatus of the present invention, it is also preferable that the target feature point extracting unit or the learning feature point extracting unit detect the feature points by SIFT (Scale-Invariant Feature Transform).
本発明のマンガ画像解析装置によれば、画像分類学習手段は、サポートベクタマシン(Support Vector Machine)を用いることも好ましい。 According to the manga image analysis apparatus of the present invention, it is also preferable that the image classification learning means uses a support vector machine.
本発明のマンガ画像解析装置によれば、テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCR(Optical Character Recognition)であることも好ましい。 According to the manga image analysis apparatus of the present invention, the text extraction means is OCR (Optical Character Recognition) that specifies a character by collating a sub-region image determined to be a character region with a pre-stored character pattern. Is also preferable.
本発明のマンガ画像解析装置によれば、
解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分するコマ画像抽出手段を更に有し、
コマ画像毎に、対象用特徴点抽出手段が多数の特徴点を抽出することも好ましい。
According to the manga image analysis apparatus of the present invention,
It further has a frame image extraction means for dividing the manga image to be analyzed into frame image units surrounded by straight lines on the image,
It is also preferable that the feature point extraction unit for object extracts a large number of feature points for each frame image.
本発明によれば、前述したマンガ画像解析装置における全ての機能を含むマンガ画像検索装置であって、
テキスト抽出手段によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
検索キーワードを入力する検索キーワード入力手段と、
インデックス記憶手段を用いて、検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
検索されたマンガ画像の識別情報を出力する検索結果出力手段と
を更に有することを特徴とする。
According to the present invention, there is provided a manga image search device including all functions in the above-described manga image analysis device,
Index storage means for storing the text extracted by the text extraction means as an index in association with the identification information of the manga image;
A search keyword input means for inputting a search keyword;
Manga image search means for searching for identification information of a manga image including an index that matches the search keyword using the index storage means;
The apparatus further comprises search result output means for outputting identification information of the searched manga image.
本発明のマンガ画像検索装置によれば、
テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCRであり、当該OCRによって文字サイズをインデックス記憶手段へ出力するものであり、
インデックス記憶手段は、テキスト毎に優先度を対応付けて記憶するものであって、テキスト抽出手段から出力された文字サイズが大きいテキストほど、高い優先度を対応付けており、
マンガ検索手段は、インデックス記憶手段に記憶された優先度が高いテキストほど、優先的に検索結果として出力することも好ましい。
According to the manga image retrieval apparatus of the present invention,
The text extraction means is an OCR that specifies a character by collating a sub-region image determined to be a character area with a character pattern stored in advance, and outputs the character size to the index storage means by the OCR.
The index storage means stores the priority for each text in association with each other. The text having a larger character size output from the text extraction means associates a higher priority,
It is also preferable that the manga search means outputs the search result with higher priority as the text stored in the index storage means has a higher priority.
本発明によれば、マンガ画像に記述されたテキストを抽出する装置に搭載されたコンピュータを機能させるプログラムであって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, there is provided a program for causing a computer mounted on an apparatus for extracting text described in a manga image to function.
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering a large number of feature points based on the distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying according to whether or not it is a character region;
A computer is made to function as a text extraction means for extracting text from a sub-region image determined to be a character region.
本発明によれば、マンガ画像に記述されたテキストを抽出する装置におけるマンガ画像解析方法であって、
解析対象のマンガ画像から、多数の特徴点を抽出する第1のステップと、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第2のステップと、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第3のステップと、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第4のステップと、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第5のステップと、
文字領域と判定されたサブ領域画像から、テキストを抽出する第6のステップと
を有することを特徴とする。
According to the present invention, there is provided a manga image analysis method in an apparatus for extracting text described in a manga image,
A first step of extracting a large number of feature points from the manga image to be analyzed;
A second step of clustering a number of feature points based on the distribution density on the image;
For each positional cluster, a third step of extracting a sub-region image on the image from an outer frame surrounding a number of feature points included in the cluster;
A fourth step of calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
A fifth step of comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying the feature vector according to whether or not it is a character region;
And a sixth step of extracting text from the sub-region image determined as the character region.
本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。 According to the manga image analysis device, program, search device, and method of the present invention, by characterically analyzing a manga image, a character region can be appropriately identified and text described therein can be extracted. In addition, by associating the extracted text with a manga image as an index, a manga image can be searched by a keyword.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図2は、本発明におけるマンガ画像解析装置の基本的な機能構成図である。また、図3は、マンガ画像解析の経過に基づく画像の特徴点を表すイメージ図である。 FIG. 2 is a basic functional configuration diagram of the manga image analyzing apparatus according to the present invention. FIG. 3 is an image diagram showing image feature points based on the progress of manga image analysis.
マンガ画像解析装置1は、マンガ画像に記述されたテキストを抽出する。この用途として、例えば、抽出されたテキストをそのマンガ画像にインデックスとして対応付けることによって、マンガ画像をキーワードによって検索することができる。
The manga
図2によれば、マンガ画像解析装置1は、マンガ画像蓄積部10と、マンガ画像解析部11とを有する。
As shown in FIG. 2, the manga
マンガ画像蓄積部10は、解析対象のマンガ画像を蓄積しており、そのマンガ画像をマンガ画像解析部11へ出力する。解析対象のマンガ画像は、例えば前述した図1のような画像である。
The manga
マンガ画像解析部11は、解析対象のマンガ画像に記述されたテキストを抽出するものであって、コマ画像抽出部111と、対象用特徴点抽出部112と、位置的クラスタリング部113と、サブ領域画像抽出部114と、サブ領域ベクトル算出部115と、サブ領域画像分類部116と、テキスト抽出部117とを有する。これら機能構成は、装置に搭載されたコンピュータを機能させるマンガ画像解析プログラムを実行することによって実現される。また、これら機能構成からなる処理フローは、装置におけるマンガ画像解析方法としても理解される。
The manga
コマ画像抽出部111は、マンガ画像を、コマ画像単位で解析する場合に備えられる。コマ画像抽出部111は、解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分する。図3(a)は、コマ画像を特定するイメージ図である。コマ画像に分割するために、帯を用いた直線検出により分割線候補を検出し、分割線適合検査によって分割線を決定する技術がある(例えば非特許文献4参照)。この技術によれば、分割線候補は、幅1画素の検出線画素を検出し、検出線角度が横軸に対して±45°以内であれば縦軸方向に隣接した2つの検出線と、それ以外であれば横軸方向に隣接した検出線とを「検出帯」とする。それら検出帯について、濃度勾配方向検査と、コマ内外検査とによって、コマ画像に分割する。分割されたコマ画像単位で、解析対象のマンガ画像として、位置的クラスタリング部113へ出力される。
The frame
尚、マンガ画像が、コマ画像単位に予め区分されている場合には、コマ画像抽出部111は、当然に備える必要はない。例えば、携帯電話機向けに配信されているマンガ画像の場合、コマ画像単位に人手によって予め区分されているからである。コマ画像抽出部111は、あくまでオプション的なものであって、図2によれば破線によって描かれている。
In addition, when the manga image is divided into frame images in advance, the frame
対象用特徴点抽出部112は、解析対象のマンガ画像から、多数の特徴点を抽出する。図3(b)は、マンガ画像から検出された特徴点を表すイメージ図である。「特徴点」とは、視覚的な特徴を表す点であって、例えばSIFT(Scale-Invariant Feature Transform)を用いて検出することができる(例えば非特許文献1又は3参照)。SIFTとは、スケールスペースを用いて画像構造を解析し、画像のスケール変化及び回転に不変となる特徴量を記述する技術である。SIFTによれば、特徴点を検出するために、以下の2つのステップを要する。
(S1)スケールスペースの極値探索によってキーポイント及びスケールを決定する。
(S2)決定されたキーポイントの中で、主曲率及びコントラストによって安定したキーポイントに絞り込む。
このようにして抽出された多数の特徴点は、位置的クラスタリング部113へ出力される。
The target feature
(S1) A key point and a scale are determined by an extreme value search of the scale space.
(S2) The key points determined are narrowed down to stable key points according to the main curvature and contrast.
A large number of feature points extracted in this way are output to the
位置的クラスタリング部113は、多数の特徴点を、画像上の分布密度に基づいてクラスタリングする。ここでのクラスタリングは、特徴点の特徴に基づくクラスタリングではなく、特徴点の画像上の「位置」に基づくクラスタリングである。例えば、DBSCANアルゴリズムを適用することにより(例えば非特許文献2参照)、画像上の位置的に高密度に分布する特徴点をクラスタとして抽出する。
The
サブ領域画像抽出部114は、位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠(例えば外接多角形)から、画像上のサブ領域画像を抽出する。図3(c)は、特徴点を用いて検出されたサブ領域を表すイメージ図である。
For each positional cluster, the sub-region
サブ領域ベクトル算出部115は、サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する。ここで、特徴ベクトルとは、k個の学習クラスタに対応したk次元のベクトル(v1,v2,・・・,vk)を表す。当該サブ領域画像に含まれる1つの特徴点の特徴量が、各学習クラスタの特徴量に対する指数として表される。ここで、k個の学習クラスタは、予め生成されたものであってもよいし、図4で後述するものであってもよい。
The sub-region
サブ領域画像分類部116は、サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する。ここで「学習データ」とは、予め文字領域が特定された領域画像における特徴ベクトルである。この学習データは、文字領域であるとする「正例」に限られず、文字領域でないとする「負例」であってもよい。尚、学習データは、予め生成されたものであってもよいし、図4で後述するものであってもよい。
The sub-region
テキスト抽出部117は、文字領域と判定されたサブ領域画像から、テキストを抽出する。テキスト抽出部117は、例えば、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定する既存のOCR(Optical Character Recognition)を用いたものであってもよい。
The
図4は、本発明のマンガ画像解析装置における学習処理部の機能構成図である。また、図5は、学習処理の経過に基づく画像の特徴点を表すイメージ図である。 FIG. 4 is a functional configuration diagram of the learning processing unit in the manga image analyzing apparatus of the present invention. FIG. 5 is an image diagram showing image feature points based on the progress of the learning process.
図4のマンガ画像解析装置1によれば、図2の機能構成部に加えて、学習用特徴点抽出部121と、要素的クラスタリング部122と、学習用クラスタベクトル算出部123と、画像分類学習部124とを更に有する。これら機能構成も、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
According to the manga
学習用特徴点抽出部121は、学習用画像から、多数の特徴点を抽出する。図5(a)は、学習用画像から検出された特徴点を表すイメージ図である。前述した対象用特徴点抽出部112と同様に、例えばSIFTを用いて検出することができる。抽出された多数の特徴点は、要素的クラスタリング部122へ出力される。
The learning feature point extraction unit 121 extracts a large number of feature points from the learning image. FIG. 5A is an image diagram showing feature points detected from the learning image. Similar to the target feature
要素的クラスタリング部122は、多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする。ここで、クラスタリングには、k-meansの方式が用いられてもよい。図5(b)は、特徴点のk-meansクラスタリングを表すイメージ図である。そして、k個の学習クラスタのそれぞれについて、当該クラスタの代表特徴値を算出する。例えば、多数の特徴値からなるクラスタ毎に、それら特徴値の重心をもって代表特徴値とみなすものであってもよい。
The
学習用クラスタベクトル算出部123は、要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトル(v1,v2,・・・,vk)を算出する。学習用クラスタベクトル算出部123は、前述したサブ領域ベクトル算出部114と同様に、k個の学習クラスタに対応したk次元のベクトルを算出する。
The learning cluster
画像分類学習部124は、要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させたものである。具体的には、学習用画像について、予め与えられたサブ領域画像毎に、k次元のベクトルを算出する。具体的には、各サブ領域画像に分布する特徴点と、要素的クラスタリング部122によって得られたk個の学習クラスタの代表要素点との距離を算出し、各特徴点が属するクラスタを決定する。図5(c)は、各要素クラスタリングに対するサブ領域画像のベクトルの対応を表すイメージ図である。その結果、各クラスタに属する特徴点の数(又は割合)を特徴値とするk次元ベクトルを生成することができる。
The image classification learning unit 124 learns for each elemental cluster whether or not the feature point included in the cluster is a character region. Specifically, a k-dimensional vector is calculated for each learning sub-image for the learning image. Specifically, the distance between the feature points distributed in each sub-region image and the representative element points of k learning clusters obtained by the
画像分類学習部124は、サポートベクタマシン(Support Vector Machine)を用いるものであってもよい。サポートベクタマシンとは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて2クラスのパターン識別器を構成するものであって、学習サンプルから、各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。具体的には、学習用画像の中で文字領域と指定されたサブ領域のベクトルを「正例」とし、それ以外のベクトルを「負例」して、画像分類用の学習データを生成する。 The image classification learning unit 124 may use a support vector machine. The support vector machine is an identification algorithm using supervised learning, and is applied to pattern recognition. The support vector machine constitutes two classes of pattern discriminators using linear input elements, and learns the parameters of the linear input elements by calculating the distance from each feature value from the learning sample. Specifically, learning data for image classification is generated by setting a vector of a sub-region designated as a character region in the learning image as a “positive example” and other vectors as “negative examples”.
従って、マンガ画像解析部11のサブ領域ベクトル算出部115は、画像分類学習部124に基づくk個の学習クラスタに対応したk次元のベクトル(v1,v2,・・・,vk)を利用することができる。また、マンガ画像解析部11のサブ領域画像分類部116は、画像分類学習部124によって生成された画像分類用の学習データを用いて、マンガ画像から抽出されたサブ領域画像が、文字領域か否かを分類する。
Accordingly, the sub-region
図6は、本発明のマンガ画像解析装置における検索処理部の機能構成図である。 FIG. 6 is a functional configuration diagram of the search processing unit in the manga image analysis apparatus of the present invention.
図6によれば、図2又は図4のマンガ画像解析装置における全ての機能を含むマンガ画像検索装置2が表されている。マンガ画像検索装置2は、更に、インデックス記憶部13と、インタフェース部14と、検索キーワード入力部131と、マンガ画像検索部132と、検索結果出力部133とを有する。検索キーワード入力部131、マンガ画像検索部132及び検索結果出力部133は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
FIG. 6 shows the manga
インデックス記憶部13は、マンガ画像解析部11によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶する。マンガ画像がコマ画像単位に区分されている場合、そのコマ画像の識別情報に、インデックスが対応付けられる。コマ画像の識別情報は、例えばマンガ画像の識別情報に加えて、その画像内のコマ番号又は座標によって特定される。
The
尚、マンガ画像の識別番号に、テキストがそのまま対応付けられているものであってもよいし、形態素解析によって形態素単位に区分されて対応付けられているものであってもよい。 The text may be directly associated with the identification number of the manga image, or may be associated with the morpheme unit by morphological analysis.
インタフェース部14は、ユーザインタフェースであってもよいし、通信インタフェースであってもよい。ユーザインタフェースである場合、例えば検索キーワードをキーボードによって入力し、その検索結果(識別番号又はマンガ画像自体)をディスプレイに表示するものであってもよい。通信インタフェースである場合、ネットワークを介して端末から検索キーワードを受信し、その検索結果を端末へ返信する。
The
検索キーワード入力部131は、インタフェース部14から検索キーワード(クエリ)を入力し、その検索キーワードをマンガ画像検索部132へ出力する。
The search
マンガ画像検索部132は、インデックス記憶部13を用いて、入力された検索キーワードと一致(又は類似)するインデックスを含むマンガ画像の識別情報を検索する。検索キーワードとインデックスとの間で、編集距離が一定距離以下であるものを、類似するとして検索してもよい。その検索結果は、検索結果出力部133へ出力される。
The manga
検索結果出力部133は、検索結果となるマンガ画像の識別情報又はマンガ画像自体を、インタフェース部14へ出力する。
The search
ここで、他の実施形態として、マンガ画像解析部11のテキスト抽出部117が、OCRによって文字サイズを、インデックス記憶部13へ出力することも好ましい。これによって、インデックス記憶部13は、テキスト毎に優先度を対応付けて記憶することができる。ここで、文字サイズが大きいテキストほど、高い優先度を対応付ける。
Here, as another embodiment, it is also preferable that the
また、マンガ検索部132は、インデックス記憶部13に記憶された優先度が高いテキストほど、優先的に検索結果として出力する。これによって、マンガ画像の中で、文字サイズが大きいテキストほど、優先度の高いインデックスとして検索することができる。
Further, the
図7は、本発明のマンガ検索装置を備えたシステム構成図である。 FIG. 7 is a system configuration diagram including the manga search apparatus of the present invention.
図7によれば、マンガ画像検索装置2が、インターネットに接続されており、マンガ画像データベース3、携帯電話機4及び端末5と通信することができる。マンガ画像データベース3は、マンガ画像を蓄積したデータベースであって、マンガコンテンツ(マンガ画像)をマンガ画像検索装置2へ送信する。マンガ画像検索装置2は、そのマンガコンテンツについてインデックスを生成することができる。一方で、携帯電話機4及び端末5は、アクセスネットワークを介してインターネットに接続し、マンガ画像検索装置2へ、ユーザの操作に応じた検索キーワードを送信する。これに対し、マンガ画像検索装置2は、その検索結果を、携帯電話機4及び端末5へ返信する。
According to FIG. 7, the manga
以上、詳細に説明したように、本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。 As described above in detail, according to the manga image analysis device, program, search device, and method of the present invention, a character region is appropriately identified by image analysis of a manga image and described therein. Text can be extracted. In addition, by associating the extracted text with a manga image as an index, a manga image can be searched by a keyword.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 マンガ画像解析装置
10 マンガ画像蓄積部
111 コマ画像抽出部
112 対象用特徴点抽出部
113 位置的クラスタリング部
114 サブ領域画像抽出部
115 サブ領域ベクトル算出部
116 サブ領域画像分類部
117 テキスト抽出部
121 学習用特徴点抽出部
122 要素的クラスタリング部
123 学習用クラスタベクトル算出部
124 画像分類学習部
13 インデックス記憶部
131 検索キーワード入力部
132 マンガ画像検索部
133 検索結果出力部
14 インタフェース部
2 マンガ画像検索装置
3 マンガ画像データベース
4 携帯電話機
5 端末
DESCRIPTION OF
Claims (11)
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
を有することを特徴とするマンガ画像解析装置。 A manga image analyzer that extracts text described in a manga image,
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering the multiple feature points based on distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data and classifying according to whether or not it is a character region;
A manga image analyzing apparatus, comprising: text extracting means for extracting text from the sub-region image determined to be a character region.
前記多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
を更に有し、
前記サブ領域画像分類手段によって用いられる前記学習データは、前記画像分類学習手段によって学習された学習データである
ことを特徴とする請求項1に記載のマンガ画像解析装置。 Learning feature point extracting means for extracting a large number of feature points from the learning image;
Elemental clustering means for clustering the multiple feature points into k learning clusters based on the feature values;
Learning cluster vector calculation means for calculating a feature vector in the cluster from all feature points included in the cluster for each elemental cluster;
For each elemental cluster, the image classification learning means further learning whether or not the feature point included in the cluster is a character region,
The manga image analysis apparatus according to claim 1, wherein the learning data used by the sub-region image classification unit is learning data learned by the image classification learning unit.
前記サブ領域ベクトル算出手段及び前記学習用クラスタベクトル算出手段は、k個の学習クラスタに対応したk次元の特徴ベクトルを算出し、
前記画像分類学習手段は、文字領域と判定されるk次元の特徴ベクトルの学習データを生成する
ことを特徴とする請求項1又は2に記載のマンガ画像解析装置。 The elemental clustering means classifies into k learning clusters by k-means clustering,
The sub-region vector calculating means and the learning cluster vector calculating means calculate k-dimensional feature vectors corresponding to k learning clusters,
The manga image analysis apparatus according to claim 1, wherein the image classification learning unit generates learning data of a k-dimensional feature vector determined to be a character region.
Feature Transform)によって検出することを特徴とする請求項1から3のいずれか1項に記載のマンガ画像解析装置。 The target feature point extracting unit or the learning feature point extracting unit converts the feature points into SIFT (Scale-Invariant
The manga image analysis apparatus according to any one of claims 1 to 3, wherein the manga image analysis apparatus is detected by Feature Transform.
前記コマ画像毎に、前記対象用特徴点抽出手段が多数の特徴点を抽出することを特徴とする請求項1から6のいずれか1項に記載のマンガ画像解析装置。 It further has a frame image extraction means for dividing the manga image to be analyzed into frame image units surrounded by straight lines on the image,
The manga image analyzing apparatus according to claim 1, wherein the target feature point extracting unit extracts a large number of feature points for each frame image.
前記テキスト抽出手段によって抽出された前記テキストをインデックスとして、前記マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
検索キーワードを入力する検索キーワード入力手段と、
前記インデックス記憶手段を用いて、前記検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
検索されたマンガ画像の識別情報を出力する検索結果出力手段と
を更に有することを特徴とするマンガ画像検索装置。 A manga image search device including all functions in the manga image analysis device according to any one of claims 1 to 7,
Index storage means for storing the text extracted by the text extraction means as an index in association with identification information of the manga image;
A search keyword input means for inputting a search keyword;
Manga image search means for searching for identification information of a manga image including an index that matches the search keyword using the index storage means;
A manga image search device further comprising search result output means for outputting identification information of a searched manga image.
前記インデックス記憶手段は、前記テキスト毎に優先度を対応付けて記憶するものであって、前記テキスト抽出手段から出力された前記文字サイズが大きいテキストほど、高い優先度を対応付けており、
前記マンガ検索手段は、前記インデックス記憶手段に記憶された前記優先度が高いテキストほど、優先的に検索結果として出力する
ことを特徴とする請求項8に記載のマンガ画像検索装置。 The text extraction means is an OCR that specifies a character by collating the sub-region image determined to be a character area with a pre-stored character pattern, and outputs the character size to the index storage means by the OCR And
The index storage means stores a priority in association with each text, the text having a larger character size output from the text extraction means associates a higher priority,
9. The manga image search apparatus according to claim 8, wherein the manga search means outputs a search result preferentially for a text having a higher priority stored in the index storage means.
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
してコンピュータを機能させることを特徴とするマンガ画像解析用のプログラム。 A program that allows a computer installed in a device that extracts text described in a manga image to function.
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering the multiple feature points based on distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data and classifying according to whether or not it is a character region;
A manga image analysis program that causes a computer to function as text extraction means for extracting text from the sub-region image determined to be a character region.
解析対象のマンガ画像から、多数の特徴点を抽出する第1のステップと、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第2のステップと、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第3のステップと、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第4のステップと、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第5のステップと、
文字領域と判定された前記サブ領域画像から、テキストを抽出する第6のステップと
を有することを特徴とするマンガ画像解析方法。 A method for analyzing a manga image in an apparatus for extracting text described in a manga image,
A first step of extracting a large number of feature points from the manga image to be analyzed;
A second step of clustering the multiple feature points based on a distribution density on the image;
For each positional cluster, a third step of extracting a sub-region image on the image from an outer frame surrounding a number of feature points included in the cluster;
A fourth step of calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying the feature vector according to whether or not it is a character region;
And a sixth step of extracting text from the sub-region image determined to be a character region.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009287145A JP5433396B2 (en) | 2009-12-18 | 2009-12-18 | Manga image analysis device, program, search device and method for extracting text from manga image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009287145A JP5433396B2 (en) | 2009-12-18 | 2009-12-18 | Manga image analysis device, program, search device and method for extracting text from manga image |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011128924A true JP2011128924A (en) | 2011-06-30 |
JP5433396B2 JP5433396B2 (en) | 2014-03-05 |
Family
ID=44291454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009287145A Expired - Fee Related JP5433396B2 (en) | 2009-12-18 | 2009-12-18 | Manga image analysis device, program, search device and method for extracting text from manga image |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5433396B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130142433A1 (en) * | 2011-12-05 | 2013-06-06 | Electronics And Telecommunications Research Institute | System and method for fingerprinting for comics |
JP2013218131A (en) * | 2012-04-10 | 2013-10-24 | Panasonic Corp | Image display system and image display device |
KR101574409B1 (en) | 2014-02-10 | 2015-12-03 | 연세대학교 산학협력단 | Method for extracting fingerprint in publication, Apparatus and method for identifying publication using the same fingerprint |
US9250371B2 (en) | 2012-11-06 | 2016-02-02 | Samsung Electronics Co., Ltd. | Polarizing film, anti-reflective film and display device including the same |
JP2021060875A (en) * | 2019-10-08 | 2021-04-15 | 株式会社コミチ | Frame extraction method and program |
CN115238670A (en) * | 2022-08-09 | 2022-10-25 | 平安科技(深圳)有限公司 | Information text extraction method, device, equipment and storage medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11205679A (en) * | 1998-01-20 | 1999-07-30 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for detecting superimposed character in image and record medium for recording the method |
JP2000181931A (en) * | 1998-12-18 | 2000-06-30 | Sharp Corp | Automatic authoring device and recording medium |
JP2000235618A (en) * | 1999-02-16 | 2000-08-29 | Mitsubishi Electric Corp | Character detecting device |
JP2001222713A (en) * | 2000-02-09 | 2001-08-17 | Sharp Corp | Information processor and information terminal |
JP2006127446A (en) * | 2004-09-29 | 2006-05-18 | Ricoh Co Ltd | Image processing device, image processing method, program, and recording medium |
-
2009
- 2009-12-18 JP JP2009287145A patent/JP5433396B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11205679A (en) * | 1998-01-20 | 1999-07-30 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for detecting superimposed character in image and record medium for recording the method |
JP2000181931A (en) * | 1998-12-18 | 2000-06-30 | Sharp Corp | Automatic authoring device and recording medium |
JP2000235618A (en) * | 1999-02-16 | 2000-08-29 | Mitsubishi Electric Corp | Character detecting device |
JP2001222713A (en) * | 2000-02-09 | 2001-08-17 | Sharp Corp | Information processor and information terminal |
JP2006127446A (en) * | 2004-09-29 | 2006-05-18 | Ricoh Co Ltd | Image processing device, image processing method, program, and recording medium |
Non-Patent Citations (2)
Title |
---|
CSNG200900279018; 山口拓真 外1名: '確率的トピックモデルによる文書画像の領域分割' 電子情報通信学会論文誌 (J92-D) 第6号 情報・システム Vol. J92-D No. 6, 20090601, pp.876-887, 社団法人電子情報通信学会 * |
JPN6013026386; 山口拓真 外1名: '確率的トピックモデルによる文書画像の領域分割' 電子情報通信学会論文誌 (J92-D) 第6号 情報・システム Vol. J92-D No. 6, 20090601, pp.876-887, 社団法人電子情報通信学会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130142433A1 (en) * | 2011-12-05 | 2013-06-06 | Electronics And Telecommunications Research Institute | System and method for fingerprinting for comics |
US8873863B2 (en) * | 2011-12-05 | 2014-10-28 | Electronics And Telecommunications Research Institute | System and method for fingerprinting for comics |
JP2013218131A (en) * | 2012-04-10 | 2013-10-24 | Panasonic Corp | Image display system and image display device |
US9250371B2 (en) | 2012-11-06 | 2016-02-02 | Samsung Electronics Co., Ltd. | Polarizing film, anti-reflective film and display device including the same |
KR101574409B1 (en) | 2014-02-10 | 2015-12-03 | 연세대학교 산학협력단 | Method for extracting fingerprint in publication, Apparatus and method for identifying publication using the same fingerprint |
JP2021060875A (en) * | 2019-10-08 | 2021-04-15 | 株式会社コミチ | Frame extraction method and program |
JP7370574B2 (en) | 2019-10-08 | 2023-10-30 | 株式会社コミチ | Frame extraction method and program |
CN115238670A (en) * | 2022-08-09 | 2022-10-25 | 平安科技(深圳)有限公司 | Information text extraction method, device, equipment and storage medium |
CN115238670B (en) * | 2022-08-09 | 2023-07-04 | 平安科技(深圳)有限公司 | Information text extraction method, device, equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5433396B2 (en) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cliche et al. | Scatteract: Automated extraction of data from scatter plots | |
CN110750656B (en) | Multimedia detection method based on knowledge graph | |
Rigaud et al. | Knowledge-driven understanding of images in comic books | |
Iakovidou et al. | Localizing global descriptors for content-based image retrieval | |
JP5433396B2 (en) | Manga image analysis device, program, search device and method for extracting text from manga image | |
EP2291812A2 (en) | Forum web page clustering based on repetitive regions | |
CN109492168B (en) | Visual tourism interest recommendation information generation method based on tourism photos | |
Tian et al. | Image classification based on the combination of text features and visual features | |
Davila et al. | Tangent-V: Math formula image search using line-of-sight graphs | |
Santosh | Complex and composite graphical symbol recognition and retrieval: a quick review | |
US20190034758A1 (en) | Systems and methods for clustering of near-duplicate images in very large image collections | |
JP5480008B2 (en) | Summary manga image generation apparatus, program and method for generating manga content summary | |
JP5414334B2 (en) | Pseudo-document search system and pseudo-document search method | |
Morsillo et al. | Youtube scale, large vocabulary video annotation | |
Diem et al. | Semi-automated document image clustering and retrieval | |
Obaidullah et al. | An approach for automatic Indic script identification from handwritten document images | |
Nagendraswamy et al. | LBPV for recognition of sign language at sentence level: An approach based on symbolic representation | |
Böschen et al. | A comparison of approaches for automated text extraction from scholarly figures | |
Richter et al. | Leveraging community metadata for multimodal image ranking | |
Suruliandi et al. | An empirical evaluation of recent texture features for the classification of natural images | |
Waykar et al. | Multimodal features and probability extended nearest neighbor classification for content-based lecture video retrieval | |
Tencer et al. | Sketch-based retrieval of document illustrations and regions of interest | |
Herzog et al. | Feature-based object identification for web automation | |
Tang et al. | Triangle coordinate diagram localization for academic literature based on line segment detection in cloud computing | |
CN117972133B (en) | Graphic and text retrieval method and system based on big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131209 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5433396 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |