JP2011128924A - Comic image analysis apparatus, program, and search apparatus and method for extracting text from comic image - Google Patents

Comic image analysis apparatus, program, and search apparatus and method for extracting text from comic image Download PDF

Info

Publication number
JP2011128924A
JP2011128924A JP2009287145A JP2009287145A JP2011128924A JP 2011128924 A JP2011128924 A JP 2011128924A JP 2009287145 A JP2009287145 A JP 2009287145A JP 2009287145 A JP2009287145 A JP 2009287145A JP 2011128924 A JP2011128924 A JP 2011128924A
Authority
JP
Japan
Prior art keywords
image
manga
region
sub
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009287145A
Other languages
Japanese (ja)
Other versions
JP5433396B2 (en
Inventor
Keiichiro Hoashi
啓一郎 帆足
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009287145A priority Critical patent/JP5433396B2/en
Publication of JP2011128924A publication Critical patent/JP2011128924A/en
Application granted granted Critical
Publication of JP5433396B2 publication Critical patent/JP5433396B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a comic image analysis apparatus that extracts described text by analyzing comic images on an image basis. <P>SOLUTION: The comic image analysis apparatus includes: an objective feature point extraction means for extracting many feature points from a comic image to be analyzed, a positional clustering means for clustering the many feature points according to the density of distribution on the image, a subregional image extraction means for extracting a subregional image on the image by a frame surrounding the many feature points contained in each positional cluster, a subregion vector calculation means for calculating a feature vector of the subregional image, a subregional image classification means for comparing the feature vector of the subregional image with a feature vector of character regions obtained from learning data to classify it according to whether it is a character region or not, and a text extraction means for extracting text from a subregional image determined to be a character region. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、画像からテキストを抽出する画像解析技術に関する。また、その画像をキーワードによって検索する画像検索技術に関する。   The present invention relates to an image analysis technique for extracting text from an image. Further, the present invention relates to an image search technique for searching for the image by a keyword.

近年、インターネットを介して、電子書籍を配信・販売するサイトが多く開設されている。このようなサイトでは、検索機能が充実し、様々な要素に基づいて電子書籍を検索することができる。電子書籍としては、文章に基づく小説等の書籍に限られず、画像に基づくマンガのような書籍も含まれる。これら電子書籍には、メタ情報(タイトル、作者名、ジャンル等)が付加されており、ユーザは、そのメタ情報を検索要素として検索することもできる。例えば電子書籍が文章に基づくものである場合、文章内のテキストを、キーワードによって検索することもできる。   In recent years, many sites for distributing and selling electronic books via the Internet have been established. In such a site, the search function is enhanced, and an electronic book can be searched based on various elements. Electronic books are not limited to books such as novels based on text, but also include books such as manga based on images. Meta information (title, author name, genre, etc.) is added to these electronic books, and the user can also search the meta information as a search element. For example, when an electronic book is based on a sentence, the text in the sentence can be searched by a keyword.

一方で、異なる技術として、従来、画像から文字領域を抽出する技術がある(例えば特許文献1〜3参照)。この技術によれば、例えば文字が紙に印字された画像を入力とし、文字が出現する領域を自動的に抽出することができる。文字を検出するために、文字のフォントのエッジ特徴や、その輪郭を囲む矩形領域の間隔などを考慮する。   On the other hand, as a different technique, conventionally, there is a technique for extracting a character region from an image (see, for example, Patent Documents 1 to 3). According to this technique, for example, an image in which characters are printed on paper can be used as an input, and a region where the characters appear can be automatically extracted. In order to detect a character, the edge characteristics of the font of the character, the interval between rectangular regions surrounding the outline, and the like are taken into consideration.

特開平8−293003号公報JP-A-8-293003 特開2005−275854号公報JP 2005-275854 A 特開2009−130899号公報JP 2009-130899 A

D. Lowe、「Distinctive image features fromscale-invariant keypoints」、IEEE Trans. Pattern Analysis Machine Intelligence,20: 91-110, 2004.D. Lowe, `` Distinctive image features fromscale-invariant keypoints '', IEEE Trans. Pattern Analysis Machine Intelligence, 20: 91-110, 2004. M. Ester, H.-P. Kriegel, J. Sander, and X.Xu、「A density-based algorithm for discovering clusters in large spatialdatabases with noise」、in Proceedings from 2nd International Conference onKnowledge Discovery and Data Mining, 1996, pp. 226-230.M. Ester, H.-P. Kriegel, J. Sander, and X.Xu, `` A density-based algorithm for discovering clusters in large spatial databases with noise '', in Proceedings from 2nd International Conference on Knowledge Discovery and Data Mining, 1996, pp. 226-230. 藤吉弘亘、「Gradientベースの特徴抽出」、中部大学工学部情報工学科、[online]、[平成21年12月3日検索]、インターネット<URL:http://ci.nii.ac.jp/naid/110006423317/>Hironobu Fujiyoshi, “Gradient-based feature extraction”, Chubu University Faculty of Engineering, Department of Information Engineering, [online], [December 3, 2009 search], Internet <URL: http://ci.nii.ac.jp/naid / 110006423317 /> 石井大祐、河村圭、渡辺裕、早稲田大学大学院国際情報通信研究科、「コミックのコマ分割処理に関する一検討」、電子情報通信学会論文誌 D Vol.J90-D No.7 pp.1667-1670、2007年、画像符号化・映像メディア処理レター特集、[online]、[平成21年12月9日検索]、インターネット<URL:http://www.ams.giti.waseda.ac.jp/pdf-files/j90-d_7_1667.pdf>Daisuke Ishii, Satoshi Kawamura, Hiroshi Watanabe, Graduate School of International Information and Communication Studies, Waseda University, "A Study on Comic's Frame Division Processing", IEICE Transactions D Vol.J90-D No.7 pp.1667-1670, 2007, Image Encoding / Video Media Processing Letter Special Feature, [online], [Search December 9, 2009], Internet <URL: http://www.ams.giti.waseda.ac.jp/pdf- files / j90-d_7_1667.pdf>

電子書籍の中でも、マンガコンテンツは、多くのユーザによって所望される重要なコンテンツとなっている。しかしながら、マンガコンテンツは、画像に基づくものであるために、一般に、メタ情報の単位でしか検索することができない。マンガ画像の中には、吹き出しでテキストが記述されているが、これらテキストも画像の一部として認識されているからである。そのため、例えば、マンガ画像における特定のセリフをキーワードとして、マンガ画像を検索することができない。   Among electronic books, comic content is important content desired by many users. However, since manga content is based on images, it can generally be searched only in units of meta information. This is because, in the manga image, text is described in a balloon, and these texts are also recognized as part of the image. Therefore, for example, a manga image cannot be searched using a specific line in the manga image as a keyword.

図1は、マンガ画像の例である。   FIG. 1 is an example of a manga image.

図1によれば、マンガ画像は、コマ画像単位に区分されていることが多く、画像の吹き出しの中に、台詞のようなテキストが含まれている。また、マンガ画像は、一般的にモノクロであって、画像のみならずテキスト自体も、人手に基づくペン又は筆によって描かれている場合も多い。そのため、マンガ画像は、風景写真のような画像と異なって、全体的にエッジが多いという特性がある。   According to FIG. 1, a manga image is often divided into frame image units, and text such as dialogue is included in a balloon of the image. In addition, the manga image is generally monochrome, and not only the image but also the text itself is often drawn with a hand-based pen or brush. Therefore, unlike an image such as a landscape photograph, a manga image has a characteristic that it has many edges as a whole.

これに対し、例えば特許文献1〜3に記載されたような技術によれば、文字のフォントのエッジ特徴を利用して、画像から文字領域を抽出しようとする。そのために、人手に基づいて描かれた文字列から、文字領域を抽出することは極めて難しい。   On the other hand, according to the techniques described in, for example, Patent Documents 1 to 3, an attempt is made to extract a character region from an image by using an edge feature of a character font. Therefore, it is extremely difficult to extract a character area from a character string drawn based on manpower.

そこで、本発明は、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法を提供することを目的とする。   Therefore, the present invention provides a manga image analysis device, a program, a search device, and a method for appropriately identifying a character area by analyzing a manga image imagewise and extracting text described therein. Objective.

本発明によれば、マンガ画像に記述されたテキストを抽出するマンガ画像解析装置であって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
を有することを特徴とする。
According to the present invention, there is provided a manga image analyzing apparatus for extracting text described in a manga image,
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering a large number of feature points based on the distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying according to whether or not it is a character region;
It has a text extraction means for extracting text from a sub-region image determined as a character region.

本発明のマンガ画像解析装置によれば、
学習用画像から、多数の特徴点を抽出する学習用特徴点抽出手段と、
多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
を更に有し、
サブ領域画像分類手段によって用いられる学習データは、画像分類学習手段によって学習された学習データであることも好ましい。
According to the manga image analysis apparatus of the present invention,
Learning feature point extracting means for extracting a large number of feature points from the learning image;
Elemental clustering means for clustering a large number of feature points into k learning clusters based on the feature values;
Learning cluster vector calculation means for calculating a feature vector in the cluster from all feature points included in the cluster for each elemental cluster;
For each elemental cluster, the image classification learning means further learning whether or not the feature point included in the cluster is a character region,
The learning data used by the sub-region image classification unit is preferably learning data learned by the image classification learning unit.

本発明のマンガ画像解析装置によれば、
要素的クラスタリング手段は、k-meansクラスタリングによってk個の学習クラスタに分類し、
サブ領域ベクトル算出手段及び学習用クラスタベクトル算出手段は、k個の学習クラスタに対応したk次元の特徴ベクトルを算出し、
画像分類学習手段は、文字領域と判定されるk次元の特徴ベクトルの学習データを生成することも好ましい。
According to the manga image analysis apparatus of the present invention,
Elemental clustering means classify into k learning clusters by k-means clustering,
The sub-region vector calculating means and the learning cluster vector calculating means calculate k-dimensional feature vectors corresponding to k learning clusters,
It is also preferable that the image classification learning unit generates learning data of a k-dimensional feature vector determined as a character region.

本発明のマンガ画像解析装置によれば、対象用特徴点抽出手段又は学習用特徴点抽出手段は、特徴点をSIFT(Scale-Invariant Feature Transform)によって検出することも好ましい。   According to the manga image analyzing apparatus of the present invention, it is also preferable that the target feature point extracting unit or the learning feature point extracting unit detect the feature points by SIFT (Scale-Invariant Feature Transform).

本発明のマンガ画像解析装置によれば、画像分類学習手段は、サポートベクタマシン(Support Vector Machine)を用いることも好ましい。   According to the manga image analysis apparatus of the present invention, it is also preferable that the image classification learning means uses a support vector machine.

本発明のマンガ画像解析装置によれば、テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCR(Optical Character Recognition)であることも好ましい。   According to the manga image analysis apparatus of the present invention, the text extraction means is OCR (Optical Character Recognition) that specifies a character by collating a sub-region image determined to be a character region with a pre-stored character pattern. Is also preferable.

本発明のマンガ画像解析装置によれば、
解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分するコマ画像抽出手段を更に有し、
コマ画像毎に、対象用特徴点抽出手段が多数の特徴点を抽出することも好ましい。
According to the manga image analysis apparatus of the present invention,
It further has a frame image extraction means for dividing the manga image to be analyzed into frame image units surrounded by straight lines on the image,
It is also preferable that the feature point extraction unit for object extracts a large number of feature points for each frame image.

本発明によれば、前述したマンガ画像解析装置における全ての機能を含むマンガ画像検索装置であって、
テキスト抽出手段によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
検索キーワードを入力する検索キーワード入力手段と、
インデックス記憶手段を用いて、検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
検索されたマンガ画像の識別情報を出力する検索結果出力手段と
を更に有することを特徴とする。
According to the present invention, there is provided a manga image search device including all functions in the above-described manga image analysis device,
Index storage means for storing the text extracted by the text extraction means as an index in association with the identification information of the manga image;
A search keyword input means for inputting a search keyword;
Manga image search means for searching for identification information of a manga image including an index that matches the search keyword using the index storage means;
The apparatus further comprises search result output means for outputting identification information of the searched manga image.

本発明のマンガ画像検索装置によれば、
テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCRであり、当該OCRによって文字サイズをインデックス記憶手段へ出力するものであり、
インデックス記憶手段は、テキスト毎に優先度を対応付けて記憶するものであって、テキスト抽出手段から出力された文字サイズが大きいテキストほど、高い優先度を対応付けており、
マンガ検索手段は、インデックス記憶手段に記憶された優先度が高いテキストほど、優先的に検索結果として出力することも好ましい。
According to the manga image retrieval apparatus of the present invention,
The text extraction means is an OCR that specifies a character by collating a sub-region image determined to be a character area with a character pattern stored in advance, and outputs the character size to the index storage means by the OCR.
The index storage means stores the priority for each text in association with each other. The text having a larger character size output from the text extraction means associates a higher priority,
It is also preferable that the manga search means outputs the search result with higher priority as the text stored in the index storage means has a higher priority.

本発明によれば、マンガ画像に記述されたテキストを抽出する装置に搭載されたコンピュータを機能させるプログラムであって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, there is provided a program for causing a computer mounted on an apparatus for extracting text described in a manga image to function.
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering a large number of feature points based on the distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying according to whether or not it is a character region;
A computer is made to function as a text extraction means for extracting text from a sub-region image determined to be a character region.

本発明によれば、マンガ画像に記述されたテキストを抽出する装置におけるマンガ画像解析方法であって、
解析対象のマンガ画像から、多数の特徴点を抽出する第1のステップと、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第2のステップと、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第3のステップと、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第4のステップと、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第5のステップと、
文字領域と判定されたサブ領域画像から、テキストを抽出する第6のステップと
を有することを特徴とする。
According to the present invention, there is provided a manga image analysis method in an apparatus for extracting text described in a manga image,
A first step of extracting a large number of feature points from the manga image to be analyzed;
A second step of clustering a number of feature points based on the distribution density on the image;
For each positional cluster, a third step of extracting a sub-region image on the image from an outer frame surrounding a number of feature points included in the cluster;
A fourth step of calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
A fifth step of comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying the feature vector according to whether or not it is a character region;
And a sixth step of extracting text from the sub-region image determined as the character region.

本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。   According to the manga image analysis device, program, search device, and method of the present invention, by characterically analyzing a manga image, a character region can be appropriately identified and text described therein can be extracted. In addition, by associating the extracted text with a manga image as an index, a manga image can be searched by a keyword.

マンガ画像の例である。It is an example of a manga image. 本発明におけるマンガ画像解析装置の基本的な機能構成図である。It is a basic functional block diagram of the manga image analysis apparatus in this invention. マンガ画像解析の経過に基づく画像の特徴点を表すイメージ図である。It is an image figure showing the feature point of the image based on progress of manga image analysis. 本発明のマンガ画像解析装置における学習処理部の機能構成図である。It is a functional block diagram of the learning process part in the manga image analysis apparatus of this invention. 学習処理の経過に基づく画像の特徴点を表すイメージ図である。It is an image figure showing the feature point of the image based on progress of learning processing. 本発明におけるマンガ画像検索装置の機能構成図である。It is a functional block diagram of the manga image search apparatus in this invention. 本発明のマンガ検索装置を備えたシステム構成図である。It is a system block diagram provided with the manga search apparatus of this invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図2は、本発明におけるマンガ画像解析装置の基本的な機能構成図である。また、図3は、マンガ画像解析の経過に基づく画像の特徴点を表すイメージ図である。   FIG. 2 is a basic functional configuration diagram of the manga image analyzing apparatus according to the present invention. FIG. 3 is an image diagram showing image feature points based on the progress of manga image analysis.

マンガ画像解析装置1は、マンガ画像に記述されたテキストを抽出する。この用途として、例えば、抽出されたテキストをそのマンガ画像にインデックスとして対応付けることによって、マンガ画像をキーワードによって検索することができる。   The manga image analyzing apparatus 1 extracts text described in a manga image. For this purpose, for example, by associating the extracted text with the manga image as an index, the manga image can be searched by a keyword.

図2によれば、マンガ画像解析装置1は、マンガ画像蓄積部10と、マンガ画像解析部11とを有する。   As shown in FIG. 2, the manga image analysis apparatus 1 includes a manga image storage unit 10 and a manga image analysis unit 11.

マンガ画像蓄積部10は、解析対象のマンガ画像を蓄積しており、そのマンガ画像をマンガ画像解析部11へ出力する。解析対象のマンガ画像は、例えば前述した図1のような画像である。   The manga image storage unit 10 stores manga images to be analyzed, and outputs the manga images to the manga image analysis unit 11. The manga image to be analyzed is, for example, the image as shown in FIG.

マンガ画像解析部11は、解析対象のマンガ画像に記述されたテキストを抽出するものであって、コマ画像抽出部111と、対象用特徴点抽出部112と、位置的クラスタリング部113と、サブ領域画像抽出部114と、サブ領域ベクトル算出部115と、サブ領域画像分類部116と、テキスト抽出部117とを有する。これら機能構成は、装置に搭載されたコンピュータを機能させるマンガ画像解析プログラムを実行することによって実現される。また、これら機能構成からなる処理フローは、装置におけるマンガ画像解析方法としても理解される。   The manga image analysis unit 11 extracts text described in the manga image to be analyzed, and includes a frame image extraction unit 111, a target feature point extraction unit 112, a positional clustering unit 113, and a sub-region. The image extracting unit 114 includes a sub region vector calculating unit 115, a sub region image classifying unit 116, and a text extracting unit 117. These functional configurations are realized by executing a manga image analysis program that causes a computer installed in the apparatus to function. Further, the processing flow comprising these functional configurations is understood as a manga image analysis method in the apparatus.

コマ画像抽出部111は、マンガ画像を、コマ画像単位で解析する場合に備えられる。コマ画像抽出部111は、解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分する。図3(a)は、コマ画像を特定するイメージ図である。コマ画像に分割するために、帯を用いた直線検出により分割線候補を検出し、分割線適合検査によって分割線を決定する技術がある(例えば非特許文献4参照)。この技術によれば、分割線候補は、幅1画素の検出線画素を検出し、検出線角度が横軸に対して±45°以内であれば縦軸方向に隣接した2つの検出線と、それ以外であれば横軸方向に隣接した検出線とを「検出帯」とする。それら検出帯について、濃度勾配方向検査と、コマ内外検査とによって、コマ画像に分割する。分割されたコマ画像単位で、解析対象のマンガ画像として、位置的クラスタリング部113へ出力される。   The frame image extraction unit 111 is provided when a manga image is analyzed on a frame image basis. The frame image extraction unit 111 classifies the manga image to be analyzed into frame image units surrounded by straight lines on the image. FIG. 3A is an image diagram for specifying a frame image. In order to divide into frame images, there is a technique in which a dividing line candidate is detected by straight line detection using a band, and a dividing line is determined by dividing line matching inspection (see, for example, Non-Patent Document 4). According to this technique, the dividing line candidate detects a detection line pixel having a width of 1 pixel, and if the detection line angle is within ± 45 ° with respect to the horizontal axis, two detection lines adjacent in the vertical axis direction, Otherwise, a detection line adjacent in the horizontal axis direction is defined as a “detection band”. These detection bands are divided into frame images by density gradient direction inspection and frame inside / outside inspection. The divided frame image units are output to the positional clustering unit 113 as manga images to be analyzed.

尚、マンガ画像が、コマ画像単位に予め区分されている場合には、コマ画像抽出部111は、当然に備える必要はない。例えば、携帯電話機向けに配信されているマンガ画像の場合、コマ画像単位に人手によって予め区分されているからである。コマ画像抽出部111は、あくまでオプション的なものであって、図2によれば破線によって描かれている。   In addition, when the manga image is divided into frame images in advance, the frame image extraction unit 111 is not necessarily provided. This is because, for example, in the case of a manga image distributed for a mobile phone, the frame image is preliminarily divided manually. The frame image extraction unit 111 is optional only, and is drawn with a broken line in FIG.

対象用特徴点抽出部112は、解析対象のマンガ画像から、多数の特徴点を抽出する。図3(b)は、マンガ画像から検出された特徴点を表すイメージ図である。「特徴点」とは、視覚的な特徴を表す点であって、例えばSIFT(Scale-Invariant Feature Transform)を用いて検出することができる(例えば非特許文献1又は3参照)。SIFTとは、スケールスペースを用いて画像構造を解析し、画像のスケール変化及び回転に不変となる特徴量を記述する技術である。SIFTによれば、特徴点を検出するために、以下の2つのステップを要する。
(S1)スケールスペースの極値探索によってキーポイント及びスケールを決定する。
(S2)決定されたキーポイントの中で、主曲率及びコントラストによって安定したキーポイントに絞り込む。
このようにして抽出された多数の特徴点は、位置的クラスタリング部113へ出力される。
The target feature point extraction unit 112 extracts a large number of feature points from the manga image to be analyzed. FIG. 3B is an image diagram showing feature points detected from a manga image. A “feature point” is a point representing a visual feature, and can be detected using, for example, SIFT (Scale-Invariant Feature Transform) (see, for example, Non-Patent Document 1 or 3). SIFT is a technique for describing a feature quantity that is invariant to scale change and rotation of an image by analyzing the image structure using a scale space. According to SIFT, the following two steps are required to detect feature points.
(S1) A key point and a scale are determined by an extreme value search of the scale space.
(S2) The key points determined are narrowed down to stable key points according to the main curvature and contrast.
A large number of feature points extracted in this way are output to the positional clustering unit 113.

位置的クラスタリング部113は、多数の特徴点を、画像上の分布密度に基づいてクラスタリングする。ここでのクラスタリングは、特徴点の特徴に基づくクラスタリングではなく、特徴点の画像上の「位置」に基づくクラスタリングである。例えば、DBSCANアルゴリズムを適用することにより(例えば非特許文献2参照)、画像上の位置的に高密度に分布する特徴点をクラスタとして抽出する。   The positional clustering unit 113 clusters a large number of feature points based on the distribution density on the image. The clustering here is not clustering based on the features of the feature points but clustering based on the “positions” of the feature points on the image. For example, by applying the DBSCAN algorithm (see, for example, Non-Patent Document 2), feature points distributed on the image at a high density are extracted as clusters.

サブ領域画像抽出部114は、位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠(例えば外接多角形)から、画像上のサブ領域画像を抽出する。図3(c)は、特徴点を用いて検出されたサブ領域を表すイメージ図である。   For each positional cluster, the sub-region image extraction unit 114 extracts a sub-region image on the image from an outer frame (for example, a circumscribed polygon) surrounding many feature points included in the cluster. FIG. 3C is an image diagram showing sub-regions detected using feature points.

サブ領域ベクトル算出部115は、サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する。ここで、特徴ベクトルとは、k個の学習クラスタに対応したk次元のベクトル(v1,v2,・・・,vk)を表す。当該サブ領域画像に含まれる1つの特徴点の特徴量が、各学習クラスタの特徴量に対する指数として表される。ここで、k個の学習クラスタは、予め生成されたものであってもよいし、図4で後述するものであってもよい。 The sub-region vector calculation unit 115 calculates a feature vector in the sub-region image from all feature points included in the sub-region image. Here, the feature vector represents a k-dimensional vector (v 1 , v 2 ,..., V k ) corresponding to k learning clusters. A feature amount of one feature point included in the sub-region image is represented as an index with respect to the feature amount of each learning cluster. Here, the k learning clusters may be generated in advance or may be described later with reference to FIG.

サブ領域画像分類部116は、サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する。ここで「学習データ」とは、予め文字領域が特定された領域画像における特徴ベクトルである。この学習データは、文字領域であるとする「正例」に限られず、文字領域でないとする「負例」であってもよい。尚、学習データは、予め生成されたものであってもよいし、図4で後述するものであってもよい。   The sub-region image classification unit 116 compares the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifies it according to whether or not it is a character region. Here, “learning data” is a feature vector in an area image in which a character area is specified in advance. This learning data is not limited to a “positive example” that is a character area, but may be a “negative example” that is not a character area. The learning data may be generated in advance or may be described later with reference to FIG.

テキスト抽出部117は、文字領域と判定されたサブ領域画像から、テキストを抽出する。テキスト抽出部117は、例えば、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定する既存のOCR(Optical Character Recognition)を用いたものであってもよい。   The text extraction unit 117 extracts text from the sub-region image determined as the character region. The text extraction unit 117 may use, for example, an existing OCR (Optical Character Recognition) that identifies a character by matching a sub-region image determined as a character region with a previously stored character pattern. .

図4は、本発明のマンガ画像解析装置における学習処理部の機能構成図である。また、図5は、学習処理の経過に基づく画像の特徴点を表すイメージ図である。   FIG. 4 is a functional configuration diagram of the learning processing unit in the manga image analyzing apparatus of the present invention. FIG. 5 is an image diagram showing image feature points based on the progress of the learning process.

図4のマンガ画像解析装置1によれば、図2の機能構成部に加えて、学習用特徴点抽出部121と、要素的クラスタリング部122と、学習用クラスタベクトル算出部123と、画像分類学習部124とを更に有する。これら機能構成も、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。   According to the manga image analysis apparatus 1 of FIG. 4, in addition to the functional component of FIG. 2, a learning feature point extraction unit 121, an elemental clustering unit 122, a learning cluster vector calculation unit 123, and image classification learning And a portion 124. These functional configurations are also realized by executing a program that causes a computer mounted on the apparatus to function.

学習用特徴点抽出部121は、学習用画像から、多数の特徴点を抽出する。図5(a)は、学習用画像から検出された特徴点を表すイメージ図である。前述した対象用特徴点抽出部112と同様に、例えばSIFTを用いて検出することができる。抽出された多数の特徴点は、要素的クラスタリング部122へ出力される。   The learning feature point extraction unit 121 extracts a large number of feature points from the learning image. FIG. 5A is an image diagram showing feature points detected from the learning image. Similar to the target feature point extraction unit 112 described above, detection can be performed using, for example, SIFT. The extracted many feature points are output to the elemental clustering unit 122.

要素的クラスタリング部122は、多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする。ここで、クラスタリングには、k-meansの方式が用いられてもよい。図5(b)は、特徴点のk-meansクラスタリングを表すイメージ図である。そして、k個の学習クラスタのそれぞれについて、当該クラスタの代表特徴値を算出する。例えば、多数の特徴値からなるクラスタ毎に、それら特徴値の重心をもって代表特徴値とみなすものであってもよい。   The elemental clustering unit 122 clusters a large number of feature points into k learning clusters based on the feature values. Here, the k-means method may be used for clustering. FIG. 5B is an image diagram showing k-means clustering of feature points. Then, for each of the k learning clusters, a representative feature value of the cluster is calculated. For example, for each cluster consisting of a large number of feature values, the center of the feature values may be regarded as the representative feature value.

学習用クラスタベクトル算出部123は、要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトル(v1,v2,・・・,vk)を算出する。学習用クラスタベクトル算出部123は、前述したサブ領域ベクトル算出部114と同様に、k個の学習クラスタに対応したk次元のベクトルを算出する。 The learning cluster vector calculation unit 123 calculates, for each elemental cluster, feature vectors (v 1 , v 2 ,..., V k ) in the cluster from all feature points included in the cluster. The learning cluster vector calculation unit 123 calculates k-dimensional vectors corresponding to k learning clusters, similarly to the sub-region vector calculation unit 114 described above.

画像分類学習部124は、要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させたものである。具体的には、学習用画像について、予め与えられたサブ領域画像毎に、k次元のベクトルを算出する。具体的には、各サブ領域画像に分布する特徴点と、要素的クラスタリング部122によって得られたk個の学習クラスタの代表要素点との距離を算出し、各特徴点が属するクラスタを決定する。図5(c)は、各要素クラスタリングに対するサブ領域画像のベクトルの対応を表すイメージ図である。その結果、各クラスタに属する特徴点の数(又は割合)を特徴値とするk次元ベクトルを生成することができる。   The image classification learning unit 124 learns for each elemental cluster whether or not the feature point included in the cluster is a character region. Specifically, a k-dimensional vector is calculated for each learning sub-image for the learning image. Specifically, the distance between the feature points distributed in each sub-region image and the representative element points of k learning clusters obtained by the elemental clustering unit 122 is calculated, and the cluster to which each feature point belongs is determined. . FIG. 5C is an image diagram showing the correspondence of the vector of the sub-region image to each element clustering. As a result, it is possible to generate a k-dimensional vector whose feature value is the number (or ratio) of feature points belonging to each cluster.

画像分類学習部124は、サポートベクタマシン(Support Vector Machine)を用いるものであってもよい。サポートベクタマシンとは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて2クラスのパターン識別器を構成するものであって、学習サンプルから、各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。具体的には、学習用画像の中で文字領域と指定されたサブ領域のベクトルを「正例」とし、それ以外のベクトルを「負例」して、画像分類用の学習データを生成する。   The image classification learning unit 124 may use a support vector machine. The support vector machine is an identification algorithm using supervised learning, and is applied to pattern recognition. The support vector machine constitutes two classes of pattern discriminators using linear input elements, and learns the parameters of the linear input elements by calculating the distance from each feature value from the learning sample. Specifically, learning data for image classification is generated by setting a vector of a sub-region designated as a character region in the learning image as a “positive example” and other vectors as “negative examples”.

従って、マンガ画像解析部11のサブ領域ベクトル算出部115は、画像分類学習部124に基づくk個の学習クラスタに対応したk次元のベクトル(v1,v2,・・・,vk)を利用することができる。また、マンガ画像解析部11のサブ領域画像分類部116は、画像分類学習部124によって生成された画像分類用の学習データを用いて、マンガ画像から抽出されたサブ領域画像が、文字領域か否かを分類する。 Accordingly, the sub-region vector calculation unit 115 of the manga image analysis unit 11 generates k-dimensional vectors (v 1 , v 2 ,..., V k ) corresponding to k learning clusters based on the image classification learning unit 124. Can be used. Further, the sub-region image classification unit 116 of the manga image analysis unit 11 uses the learning data for image classification generated by the image classification learning unit 124 to determine whether the sub-region image extracted from the manga image is a character region. Classify.

図6は、本発明のマンガ画像解析装置における検索処理部の機能構成図である。   FIG. 6 is a functional configuration diagram of the search processing unit in the manga image analysis apparatus of the present invention.

図6によれば、図2又は図4のマンガ画像解析装置における全ての機能を含むマンガ画像検索装置2が表されている。マンガ画像検索装置2は、更に、インデックス記憶部13と、インタフェース部14と、検索キーワード入力部131と、マンガ画像検索部132と、検索結果出力部133とを有する。検索キーワード入力部131、マンガ画像検索部132及び検索結果出力部133は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。   FIG. 6 shows the manga image search apparatus 2 including all the functions in the manga image analysis apparatus of FIG. 2 or FIG. The manga image search device 2 further includes an index storage unit 13, an interface unit 14, a search keyword input unit 131, a manga image search unit 132, and a search result output unit 133. The search keyword input unit 131, the manga image search unit 132, and the search result output unit 133 are realized by executing a program that causes a computer installed in the apparatus to function.

インデックス記憶部13は、マンガ画像解析部11によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶する。マンガ画像がコマ画像単位に区分されている場合、そのコマ画像の識別情報に、インデックスが対応付けられる。コマ画像の識別情報は、例えばマンガ画像の識別情報に加えて、その画像内のコマ番号又は座標によって特定される。   The index storage unit 13 stores the text extracted by the manga image analysis unit 11 as an index in association with the identification information of the manga image. When the comic image is divided into frame images, an index is associated with the identification information of the frame image. The identification information of the frame image is specified by, for example, the frame number or coordinates in the image in addition to the identification information of the manga image.

尚、マンガ画像の識別番号に、テキストがそのまま対応付けられているものであってもよいし、形態素解析によって形態素単位に区分されて対応付けられているものであってもよい。   The text may be directly associated with the identification number of the manga image, or may be associated with the morpheme unit by morphological analysis.

インタフェース部14は、ユーザインタフェースであってもよいし、通信インタフェースであってもよい。ユーザインタフェースである場合、例えば検索キーワードをキーボードによって入力し、その検索結果(識別番号又はマンガ画像自体)をディスプレイに表示するものであってもよい。通信インタフェースである場合、ネットワークを介して端末から検索キーワードを受信し、その検索結果を端末へ返信する。   The interface unit 14 may be a user interface or a communication interface. In the case of a user interface, for example, a search keyword may be input using a keyboard, and the search result (identification number or manga image itself) may be displayed on a display. In the case of the communication interface, the search keyword is received from the terminal via the network, and the search result is returned to the terminal.

検索キーワード入力部131は、インタフェース部14から検索キーワード(クエリ)を入力し、その検索キーワードをマンガ画像検索部132へ出力する。   The search keyword input unit 131 inputs a search keyword (query) from the interface unit 14 and outputs the search keyword to the manga image search unit 132.

マンガ画像検索部132は、インデックス記憶部13を用いて、入力された検索キーワードと一致(又は類似)するインデックスを含むマンガ画像の識別情報を検索する。検索キーワードとインデックスとの間で、編集距離が一定距離以下であるものを、類似するとして検索してもよい。その検索結果は、検索結果出力部133へ出力される。   The manga image search unit 132 uses the index storage unit 13 to search for identification information of a manga image including an index that matches (or resembles) the input search keyword. The search keyword and the index whose edit distance is equal to or smaller than a certain distance may be searched as being similar. The search result is output to the search result output unit 133.

検索結果出力部133は、検索結果となるマンガ画像の識別情報又はマンガ画像自体を、インタフェース部14へ出力する。   The search result output unit 133 outputs the manga image identification information or the manga image itself that is the search result to the interface unit 14.

ここで、他の実施形態として、マンガ画像解析部11のテキスト抽出部117が、OCRによって文字サイズを、インデックス記憶部13へ出力することも好ましい。これによって、インデックス記憶部13は、テキスト毎に優先度を対応付けて記憶することができる。ここで、文字サイズが大きいテキストほど、高い優先度を対応付ける。   Here, as another embodiment, it is also preferable that the text extraction unit 117 of the manga image analysis unit 11 outputs the character size to the index storage unit 13 by OCR. As a result, the index storage unit 13 can store the priority in association with each text. Here, a higher priority is associated with a text having a larger character size.

また、マンガ検索部132は、インデックス記憶部13に記憶された優先度が高いテキストほど、優先的に検索結果として出力する。これによって、マンガ画像の中で、文字サイズが大きいテキストほど、優先度の高いインデックスとして検索することができる。   Further, the manga search unit 132 preferentially outputs the search result as the higher priority text stored in the index storage unit 13. As a result, a text with a larger character size in a manga image can be searched as a higher priority index.

図7は、本発明のマンガ検索装置を備えたシステム構成図である。   FIG. 7 is a system configuration diagram including the manga search apparatus of the present invention.

図7によれば、マンガ画像検索装置2が、インターネットに接続されており、マンガ画像データベース3、携帯電話機4及び端末5と通信することができる。マンガ画像データベース3は、マンガ画像を蓄積したデータベースであって、マンガコンテンツ(マンガ画像)をマンガ画像検索装置2へ送信する。マンガ画像検索装置2は、そのマンガコンテンツについてインデックスを生成することができる。一方で、携帯電話機4及び端末5は、アクセスネットワークを介してインターネットに接続し、マンガ画像検索装置2へ、ユーザの操作に応じた検索キーワードを送信する。これに対し、マンガ画像検索装置2は、その検索結果を、携帯電話機4及び端末5へ返信する。   According to FIG. 7, the manga image search device 2 is connected to the Internet and can communicate with the manga image database 3, the mobile phone 4 and the terminal 5. The manga image database 3 is a database storing manga images, and transmits manga content (manga images) to the manga image search device 2. The manga image search device 2 can generate an index for the manga content. On the other hand, the mobile phone 4 and the terminal 5 are connected to the Internet via the access network, and transmit a search keyword corresponding to the user's operation to the manga image search device 2. On the other hand, the manga image search device 2 returns the search result to the mobile phone 4 and the terminal 5.

以上、詳細に説明したように、本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。   As described above in detail, according to the manga image analysis device, program, search device, and method of the present invention, a character region is appropriately identified by image analysis of a manga image and described therein. Text can be extracted. In addition, by associating the extracted text with a manga image as an index, a manga image can be searched by a keyword.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 マンガ画像解析装置
10 マンガ画像蓄積部
111 コマ画像抽出部
112 対象用特徴点抽出部
113 位置的クラスタリング部
114 サブ領域画像抽出部
115 サブ領域ベクトル算出部
116 サブ領域画像分類部
117 テキスト抽出部
121 学習用特徴点抽出部
122 要素的クラスタリング部
123 学習用クラスタベクトル算出部
124 画像分類学習部
13 インデックス記憶部
131 検索キーワード入力部
132 マンガ画像検索部
133 検索結果出力部
14 インタフェース部
2 マンガ画像検索装置
3 マンガ画像データベース
4 携帯電話機
5 端末
DESCRIPTION OF SYMBOLS 1 Manga image analysis apparatus 10 Manga image storage part 111 Frame image extraction part 112 Target feature point extraction part 113 Positional clustering part 114 Sub area image extraction part 115 Sub area vector calculation part 116 Sub area image classification part 117 Text extraction part 121 Feature point extraction unit for learning 122 Elemental clustering unit 123 Cluster vector calculation unit for learning 124 Image classification learning unit 13 Index storage unit 131 Search keyword input unit 132 Manga image search unit 133 Search result output unit 14 Interface unit 2 Manga image search device 3 Manga image database 4 Mobile phone 5 Terminal

Claims (11)

マンガ画像に記述されたテキストを抽出するマンガ画像解析装置であって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
を有することを特徴とするマンガ画像解析装置。
A manga image analyzer that extracts text described in a manga image,
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering the multiple feature points based on distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data and classifying according to whether or not it is a character region;
A manga image analyzing apparatus, comprising: text extracting means for extracting text from the sub-region image determined to be a character region.
学習用画像から、多数の特徴点を抽出する学習用特徴点抽出手段と、
前記多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
を更に有し、
前記サブ領域画像分類手段によって用いられる前記学習データは、前記画像分類学習手段によって学習された学習データである
ことを特徴とする請求項1に記載のマンガ画像解析装置。
Learning feature point extracting means for extracting a large number of feature points from the learning image;
Elemental clustering means for clustering the multiple feature points into k learning clusters based on the feature values;
Learning cluster vector calculation means for calculating a feature vector in the cluster from all feature points included in the cluster for each elemental cluster;
For each elemental cluster, the image classification learning means further learning whether or not the feature point included in the cluster is a character region,
The manga image analysis apparatus according to claim 1, wherein the learning data used by the sub-region image classification unit is learning data learned by the image classification learning unit.
前記要素的クラスタリング手段は、k-meansクラスタリングによってk個の学習クラスタに分類し、
前記サブ領域ベクトル算出手段及び前記学習用クラスタベクトル算出手段は、k個の学習クラスタに対応したk次元の特徴ベクトルを算出し、
前記画像分類学習手段は、文字領域と判定されるk次元の特徴ベクトルの学習データを生成する
ことを特徴とする請求項1又は2に記載のマンガ画像解析装置。
The elemental clustering means classifies into k learning clusters by k-means clustering,
The sub-region vector calculating means and the learning cluster vector calculating means calculate k-dimensional feature vectors corresponding to k learning clusters,
The manga image analysis apparatus according to claim 1, wherein the image classification learning unit generates learning data of a k-dimensional feature vector determined to be a character region.
前記対象用特徴点抽出手段又は前記学習用特徴点抽出手段は、前記特徴点をSIFT(Scale-Invariant
Feature Transform)によって検出することを特徴とする請求項1から3のいずれか1項に記載のマンガ画像解析装置。
The target feature point extracting unit or the learning feature point extracting unit converts the feature points into SIFT (Scale-Invariant
The manga image analysis apparatus according to any one of claims 1 to 3, wherein the manga image analysis apparatus is detected by Feature Transform.
前記画像分類学習手段は、サポートベクタマシン(Support Vector Machine)を用いることを特徴とする請求項1から4のいずれか1項に記載のマンガ画像解析装置。   The manga image analysis apparatus according to claim 1, wherein the image classification learning unit uses a support vector machine. 前記テキスト抽出手段は、文字領域と判定された前記サブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCR(Optical Character Recognition)であることを特徴とする請求項1から5のいずれか1項に記載のマンガ画像解析装置。   6. The text extracting means is an OCR (Optical Character Recognition) that specifies a character by collating the sub-region image determined to be a character region with a pre-stored character pattern. The manga image analysis apparatus according to any one of the above. 解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分するコマ画像抽出手段を更に有し、
前記コマ画像毎に、前記対象用特徴点抽出手段が多数の特徴点を抽出することを特徴とする請求項1から6のいずれか1項に記載のマンガ画像解析装置。
It further has a frame image extraction means for dividing the manga image to be analyzed into frame image units surrounded by straight lines on the image,
The manga image analyzing apparatus according to claim 1, wherein the target feature point extracting unit extracts a large number of feature points for each frame image.
請求項1から7のいずれか1項に記載のマンガ画像解析装置における全ての機能を含むマンガ画像検索装置であって、
前記テキスト抽出手段によって抽出された前記テキストをインデックスとして、前記マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
検索キーワードを入力する検索キーワード入力手段と、
前記インデックス記憶手段を用いて、前記検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
検索されたマンガ画像の識別情報を出力する検索結果出力手段と
を更に有することを特徴とするマンガ画像検索装置。
A manga image search device including all functions in the manga image analysis device according to any one of claims 1 to 7,
Index storage means for storing the text extracted by the text extraction means as an index in association with identification information of the manga image;
A search keyword input means for inputting a search keyword;
Manga image search means for searching for identification information of a manga image including an index that matches the search keyword using the index storage means;
A manga image search device further comprising search result output means for outputting identification information of a searched manga image.
前記テキスト抽出手段は、文字領域と判定された前記サブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCRであり、当該OCRによって文字サイズを前記インデックス記憶手段へ出力するものであり、
前記インデックス記憶手段は、前記テキスト毎に優先度を対応付けて記憶するものであって、前記テキスト抽出手段から出力された前記文字サイズが大きいテキストほど、高い優先度を対応付けており、
前記マンガ検索手段は、前記インデックス記憶手段に記憶された前記優先度が高いテキストほど、優先的に検索結果として出力する
ことを特徴とする請求項8に記載のマンガ画像検索装置。
The text extraction means is an OCR that specifies a character by collating the sub-region image determined to be a character area with a pre-stored character pattern, and outputs the character size to the index storage means by the OCR And
The index storage means stores a priority in association with each text, the text having a larger character size output from the text extraction means associates a higher priority,
9. The manga image search apparatus according to claim 8, wherein the manga search means outputs a search result preferentially for a text having a higher priority stored in the index storage means.
マンガ画像に記述されたテキストを抽出する装置に搭載されたコンピュータを機能させるプログラムであって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
してコンピュータを機能させることを特徴とするマンガ画像解析用のプログラム。
A program that allows a computer installed in a device that extracts text described in a manga image to function.
Feature point extraction means for extracting a large number of feature points from the manga image to be analyzed;
Positional clustering means for clustering the multiple feature points based on distribution density on the image;
Sub-region image extraction means for extracting a sub-region image on an image from an outer frame surrounding a large number of feature points included in the cluster for each positional cluster;
Sub-region vector calculation means for calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Sub-region image classification means for comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data and classifying according to whether or not it is a character region;
A manga image analysis program that causes a computer to function as text extraction means for extracting text from the sub-region image determined to be a character region.
マンガ画像に記述されたテキストを抽出する装置におけるマンガ画像解析方法であって、
解析対象のマンガ画像から、多数の特徴点を抽出する第1のステップと、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第2のステップと、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第3のステップと、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第4のステップと、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第5のステップと、
文字領域と判定された前記サブ領域画像から、テキストを抽出する第6のステップと
を有することを特徴とするマンガ画像解析方法。
A method for analyzing a manga image in an apparatus for extracting text described in a manga image,
A first step of extracting a large number of feature points from the manga image to be analyzed;
A second step of clustering the multiple feature points based on a distribution density on the image;
For each positional cluster, a third step of extracting a sub-region image on the image from an outer frame surrounding a number of feature points included in the cluster;
A fourth step of calculating a feature vector in the sub-region image from all feature points included in the sub-region image;
Comparing the feature vector of the sub-region image with the feature vector of the character region obtained from the learning data, and classifying the feature vector according to whether or not it is a character region;
And a sixth step of extracting text from the sub-region image determined to be a character region.
JP2009287145A 2009-12-18 2009-12-18 Manga image analysis device, program, search device and method for extracting text from manga image Expired - Fee Related JP5433396B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009287145A JP5433396B2 (en) 2009-12-18 2009-12-18 Manga image analysis device, program, search device and method for extracting text from manga image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009287145A JP5433396B2 (en) 2009-12-18 2009-12-18 Manga image analysis device, program, search device and method for extracting text from manga image

Publications (2)

Publication Number Publication Date
JP2011128924A true JP2011128924A (en) 2011-06-30
JP5433396B2 JP5433396B2 (en) 2014-03-05

Family

ID=44291454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009287145A Expired - Fee Related JP5433396B2 (en) 2009-12-18 2009-12-18 Manga image analysis device, program, search device and method for extracting text from manga image

Country Status (1)

Country Link
JP (1) JP5433396B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130142433A1 (en) * 2011-12-05 2013-06-06 Electronics And Telecommunications Research Institute System and method for fingerprinting for comics
JP2013218131A (en) * 2012-04-10 2013-10-24 Panasonic Corp Image display system and image display device
KR101574409B1 (en) 2014-02-10 2015-12-03 연세대학교 산학협력단 Method for extracting fingerprint in publication, Apparatus and method for identifying publication using the same fingerprint
US9250371B2 (en) 2012-11-06 2016-02-02 Samsung Electronics Co., Ltd. Polarizing film, anti-reflective film and display device including the same
JP2021060875A (en) * 2019-10-08 2021-04-15 株式会社コミチ Frame extraction method and program
CN115238670A (en) * 2022-08-09 2022-10-25 平安科技(深圳)有限公司 Information text extraction method, device, equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11205679A (en) * 1998-01-20 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for detecting superimposed character in image and record medium for recording the method
JP2000181931A (en) * 1998-12-18 2000-06-30 Sharp Corp Automatic authoring device and recording medium
JP2000235618A (en) * 1999-02-16 2000-08-29 Mitsubishi Electric Corp Character detecting device
JP2001222713A (en) * 2000-02-09 2001-08-17 Sharp Corp Information processor and information terminal
JP2006127446A (en) * 2004-09-29 2006-05-18 Ricoh Co Ltd Image processing device, image processing method, program, and recording medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11205679A (en) * 1998-01-20 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for detecting superimposed character in image and record medium for recording the method
JP2000181931A (en) * 1998-12-18 2000-06-30 Sharp Corp Automatic authoring device and recording medium
JP2000235618A (en) * 1999-02-16 2000-08-29 Mitsubishi Electric Corp Character detecting device
JP2001222713A (en) * 2000-02-09 2001-08-17 Sharp Corp Information processor and information terminal
JP2006127446A (en) * 2004-09-29 2006-05-18 Ricoh Co Ltd Image processing device, image processing method, program, and recording medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900279018; 山口拓真 外1名: '確率的トピックモデルによる文書画像の領域分割' 電子情報通信学会論文誌 (J92-D) 第6号 情報・システム Vol. J92-D No. 6, 20090601, pp.876-887, 社団法人電子情報通信学会 *
JPN6013026386; 山口拓真 外1名: '確率的トピックモデルによる文書画像の領域分割' 電子情報通信学会論文誌 (J92-D) 第6号 情報・システム Vol. J92-D No. 6, 20090601, pp.876-887, 社団法人電子情報通信学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130142433A1 (en) * 2011-12-05 2013-06-06 Electronics And Telecommunications Research Institute System and method for fingerprinting for comics
US8873863B2 (en) * 2011-12-05 2014-10-28 Electronics And Telecommunications Research Institute System and method for fingerprinting for comics
JP2013218131A (en) * 2012-04-10 2013-10-24 Panasonic Corp Image display system and image display device
US9250371B2 (en) 2012-11-06 2016-02-02 Samsung Electronics Co., Ltd. Polarizing film, anti-reflective film and display device including the same
KR101574409B1 (en) 2014-02-10 2015-12-03 연세대학교 산학협력단 Method for extracting fingerprint in publication, Apparatus and method for identifying publication using the same fingerprint
JP2021060875A (en) * 2019-10-08 2021-04-15 株式会社コミチ Frame extraction method and program
JP7370574B2 (en) 2019-10-08 2023-10-30 株式会社コミチ Frame extraction method and program
CN115238670A (en) * 2022-08-09 2022-10-25 平安科技(深圳)有限公司 Information text extraction method, device, equipment and storage medium
CN115238670B (en) * 2022-08-09 2023-07-04 平安科技(深圳)有限公司 Information text extraction method, device, equipment and storage medium

Also Published As

Publication number Publication date
JP5433396B2 (en) 2014-03-05

Similar Documents

Publication Publication Date Title
Cliche et al. Scatteract: Automated extraction of data from scatter plots
CN110750656B (en) Multimedia detection method based on knowledge graph
Rigaud et al. Knowledge-driven understanding of images in comic books
Iakovidou et al. Localizing global descriptors for content-based image retrieval
JP5433396B2 (en) Manga image analysis device, program, search device and method for extracting text from manga image
EP2291812A2 (en) Forum web page clustering based on repetitive regions
CN109492168B (en) Visual tourism interest recommendation information generation method based on tourism photos
Tian et al. Image classification based on the combination of text features and visual features
Davila et al. Tangent-V: Math formula image search using line-of-sight graphs
Santosh Complex and composite graphical symbol recognition and retrieval: a quick review
US20190034758A1 (en) Systems and methods for clustering of near-duplicate images in very large image collections
JP5480008B2 (en) Summary manga image generation apparatus, program and method for generating manga content summary
JP5414334B2 (en) Pseudo-document search system and pseudo-document search method
Morsillo et al. Youtube scale, large vocabulary video annotation
Diem et al. Semi-automated document image clustering and retrieval
Obaidullah et al. An approach for automatic Indic script identification from handwritten document images
Nagendraswamy et al. LBPV for recognition of sign language at sentence level: An approach based on symbolic representation
Böschen et al. A comparison of approaches for automated text extraction from scholarly figures
Richter et al. Leveraging community metadata for multimodal image ranking
Suruliandi et al. An empirical evaluation of recent texture features for the classification of natural images
Waykar et al. Multimodal features and probability extended nearest neighbor classification for content-based lecture video retrieval
Tencer et al. Sketch-based retrieval of document illustrations and regions of interest
Herzog et al. Feature-based object identification for web automation
Tang et al. Triangle coordinate diagram localization for academic literature based on line segment detection in cloud computing
CN117972133B (en) Graphic and text retrieval method and system based on big data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5433396

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees