JP5880089B2 - コミック画像データ検出装置及びコミック画像データ検出プログラム - Google Patents

コミック画像データ検出装置及びコミック画像データ検出プログラム Download PDF

Info

Publication number
JP5880089B2
JP5880089B2 JP2012019066A JP2012019066A JP5880089B2 JP 5880089 B2 JP5880089 B2 JP 5880089B2 JP 2012019066 A JP2012019066 A JP 2012019066A JP 2012019066 A JP2012019066 A JP 2012019066A JP 5880089 B2 JP5880089 B2 JP 5880089B2
Authority
JP
Japan
Prior art keywords
image data
comic
frame
matching
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012019066A
Other languages
English (en)
Other versions
JP2013156946A (ja
Inventor
岩永 弘之
弘之 岩永
純一 島村
純一 島村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Inc filed Critical Toppan Inc
Priority to JP2012019066A priority Critical patent/JP5880089B2/ja
Publication of JP2013156946A publication Critical patent/JP2013156946A/ja
Application granted granted Critical
Publication of JP5880089B2 publication Critical patent/JP5880089B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明はWebサイト上に存在する画像データから、検出対象のコミックのページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出する技術に関するものである。
従来、ネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出する技術が開示されている(特許文献1参照)。
特許文献1に記載された違法情報検出装置は、検索結果情報から特徴量を抽出し、抽出した特徴量を検索結果情報と対応付けて記憶する。更に、テキスト、音声、画像、及び動画等の照合技術を用いて、各検索結果情報の間の類似度を計算し、計算した類似度に基づき類似しているか否かを判定する。そして、類似していると判定された検索結果情報の数が所定値を超える場合に、その検出結果情報を違法性の高い情報として検出する。
また、例えば、特許文献2には、ビットマップデータのテンプレート画像と照合対象の画像とでマッチングを行うパターンマッチング装置が開示されている。かかるパターンマッチング装置では、ビットマップデータと照合対象の画像、それぞれからエッジ情報を抽出する。次に、エッジ画像となった両画像に対して平滑化処理を施して両者の形状変化を補う。このように、形状変形部分を補正したエッジ画像同士をマッチング処理する。
特開2009−199513号公報 特開2008−159061号公報
例えば、上記特許文献1の画像の照合に上記特許文献2の照合技術を適用した場合に、テンプレート画像としてビットマップデータ(多階調画像データ)を用意する必要がある。照合対象の種類が少ない場合は、ビットマップデータを照合対象の数だけ記憶保持すればよいが、Webサイト上に存在するコミック画像データのように、照合対象が多種の場合は、テンプレート画像として用意するビットマップデータも多種となり、そのデータ容量が膨大となる。そのため、エッジ画像化するなど、ビットマップデータから不要な情報を削除して、各テンプレートデータの容量を少なくする必要がある。但し、目的の照合精度を確保するためには、照合対象に応じて適切な特徴量を抽出する必要があり、また、抽出した特徴量の内容によってマッチング処理にかかる時間も変わってくる。しかしながら、これまでは、コミック画像データの検出に際して、適切なテンプレートデータを用いた検出方法が提案されていなかった。
本発明は、このような課題を解決するためになされたものであり、その目的は、コミック画像データの検出に際して、テンプレートデータの容量を軽減可能で且つマッチング時間の短縮が可能な、コミック画像データ検出装置、コミック画像データ検出プログラム及びコミック画像データ検出方法を提供することである。
〔形態1〕 上記目的を達成するために、形態1のコミック画像データ検出装置は、Webサイト上に存在する画像データから、検出対象のコミックにおける予め設定されたページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出するコミック画像データ検出装置であって、前記検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割に係る情報であるコマ割情報を抽出するコマ割情報抽出手段と、前記コマ割情報抽出手段で抽出したコマ割情報を記憶するコマ割情報記憶手段と、前記Webサイトから画像データを取得する画像データ取得手段と、前記画像データ取得手段で取得した画像データと前記コマ割情報記憶手段に記憶されているコマ割情報とに基づき、前記取得した画像データと前記コマ割情報とのマッチングを行うマッチング手段と、前記マッチング手段のマッチング結果に基づく前記取得した画像データと前記コミック画像データとの類似度に基づき、前記取得した画像データから前記コミック画像データと一致又は類似する画像データを検出する検出手段と、を備えることを特徴とする。
このような構成であれば、コマ割情報抽出手段によって、検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割情報が抽出されと、抽出されたコマ割情報が、コマ割情報記憶手段によって記憶される。一方、画像データ取得手段によって、Webサイトから画像データが取得されると、マッチング手段によって、取得された画像データと、コマ割情報記憶手段に記憶されているコマ割情報とに基づき、取得した画像データとコマ割情報とのマッチングが行われる。マッチング手段によってマッチングが行われると、検出手段によって、このマッチング結果に基づく取得した画像データとコミック画像データとの類似度に基づき、取得した画像データからコミック画像データと一致又は類似する画像データが検出される。
これにより、コミックに特有の情報であるコマ割情報を抽出し、抽出したコマ割情報を用いてマッチングを行うことが可能となるので、検出精度を比較的高精度に保った状態で、マッチングに用いるテンプレートデータのデータ量を軽減することができる。
〔形態2〕 更に、形態2のコミック画像データ検出装置は、形態1の構成に対して、前記コマ割情報抽出手段は、前記コミック画像データを、該コミック画像データの画像に含まれるエッジ成分の分布を示す画像データであるエッジ画像データに変換し、該エッジ画像データから、前記コマ割情報として、コマ割された各コマの外縁部分に対応するエッジ成分のみが描画された画像データであるコマ割画像データを抽出することを特徴とする。
このような構成であれば、コミック画像データから余分な情報を除去した画像データであって、各コマの形状、位置、サイズの情報を含む画像データを、コマ割情報として抽出することができる。従って、コマ割情報のデータ量を大幅に軽減することができる。加えて、コマ割情報は、コミックに特有の情報であるため、マッチング時のテンプレートデータとして検出精度の比較的高い情報となる。
〔形態3〕 更に、形態3のコミック画像データ検出装置は、形態2の構成に対して、前記コマ割情報抽出手段は、前記コミック画像データに対応する前記抽出したコマ割画像データについて、前記コマ割情報として、アスペクト比を保持したままで画像サイズを変更して構成される、画像サイズの異なる複数のコマ割画像データを生成することを特徴とする。
このような構成であれば、アスペクト比を保持した状態で、サイズの異なる複数のコマ割画像データを、コマ割情報として生成することができる。
これにより、Webサイトから取得された画像データのサイズや、画像データ中に含まれるコミックのページ数などに対応して、適切なサイズのコマ割画像データを用いてマッチングを行うことが可能となる。従って、検出精度を向上することができる。
〔形態4〕 更に、形態4のコミック画像データ検出装置は、形態1乃至3のいずれか1の構成に対して、 前記検出手段は、Webサイト毎に、前記一致又は類似する画像データとして検出された画像データに基づき、検出された画像データが予め設定された絞込条件に合致しているか否かを判定し、合致している判定すると、当該画像データを違法に公開された可能性のあるコミック画像データとして検出するようになっており、
前記検出手段で検出された、違法に公開された可能性のあるコミック画像データと、該画像データを公開しているWebサイトの情報とを対応付けて記憶するサイト情報記憶手段を備えることを特徴とする。
このような構成であれば、絞込条件の設定によって、違法にコミック画像データを公開している可能性のあるサイト(以下、違法候補サイトと称す)、または違法に公開されている可能性のあるコミック画像データ(以下、違法候補画像データと称す)を適切に検出することが可能となる。また、例えば、電子コミックのネット通販を正規に行っているWebサイトを違法候補サイトとして検出しないように、正規のサイトを除外するように絞込条件を設定することなどが可能となる。
〔形態5〕 更に、形態7のコミック画像データ検出装置は、形態4の構成に対して、前記検出手段は、前記一致又は類似する画像データとして検出された画像データが、予め設定されたページ数以上のコミック画像データを含むと判定された場合に、前記絞込条件に合致すると判定することを特徴とする。
このような構成であれば、例えば、正規の電子コミック販売サイトなどのように、コミックの紹介ページとして、例えば1〜3ページの画像を公開しているようなサイト、即ち、検出対象から除外すべきサイトが大量に検出(リストアップ)されるのを防ぐことが可能となる。
〔形態6〕 一方、上記目的を達成するために、形態6のコミック画像データ検出プログラムは、Webサイト上に存在する画像データから、検出対象のコミックにおける予め設定されたページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出するコミック画像データ検出プログラムであって、前記検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割に係る情報であるコマ割情報を抽出するコマ割情報抽出手段、前記Webサイトから画像データを取得する画像データ取得手段、前記画像データ取得手段で取得した画像データと前記コマ割情報抽出手段で抽出したコマ割情報が記憶されたコマ割情報記憶手段に記憶されているコマ割情報とに基づき、前記取得した画像データと前記コマ割情報とのマッチングを行うマッチング手段、及び、前記マッチング手段のマッチング結果に基づく前記取得した画像データと前記コミック画像データとの類似度に基づき、前記取得した画像データから前記コミック画像データと一致又は類似する画像データを検出する検出手段として実現される機能をコンピュータに実行させるためのプログラムを含むことを特徴とする。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、形態1のコミック画像データ検出装置と同等の作用及び効果が得られる。
〔形態7〕 また、上記目的を達成するために、形態7のコミック画像データ検出方法は、Webサイト上に存在する画像データから、検出対象のコミックにおける予め設定されたページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出するコミック画像データ検出方法であって、前記検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割に係る情報であるコマ割情報を抽出するコマ割情報抽出ステップと、前記コマ割情報抽出ステップで抽出したコマ割情報を記憶するコマ割情報記憶手段と、前記Webサイトから画像データを取得する画像データ取得ステップと、前記画像データ取得ステップで取得した画像データと前記コマ割情報記憶ステップで記憶されたコマ割情報とに基づき、前記取得した画像データと前記コマ割情報とのマッチングを行うマッチングステップと、前記マッチングステップのマッチング結果に基づく前記取得した画像データと前記コミック画像データとの類似度に基づき、前記取得した画像データから前記コミック画像データと一致又は類似する画像データを検出する検出ステップと、を含むことを特徴とする。
これにより、上記形態1のコミック画像データ検出装置と同等の作用及び効果が得られる。
以上説明したように、本発明によれば、コミック画像データにおけるコマ割に係る情報を抽出して、これをマッチングに用いるデータ(テンプレートデータ)として記憶するようにしたので、検出精度を比較的高精度に保った状態で、テンプレートデータの記憶に必要なメモリ容量を軽減することができるという効果が得られる。更に、違法にコミック画像データを公開しているWebサイトを人手によって検出する前に、違法にコミック画像データを公開している可能性のあるWebサイトを絞り込むことができるので、検出を行う人の手間を軽減することができるという効果が得られる。
コミック画像データ検出システムの概要を示す図である。 コミック画像データ検出装置100のハードウェア構成を示すブロック図である。 コミック画像データ検出装置100の機能構成の一例を示すブロック図である。 (a)は、コミック画像データの一例を示す図であり、(b)は、(a)のコミック画像データから抽出したコマ割画像データの一例を示す図である。 コマ割情報抽出処理の処理手順の一例を示すフローチャートである。 コミック画像データ検出処理の処理手順の一例を示すフローチャートである。 (a)〜(e)は、コマ割画像データのコマ割内容の一例を示す図である。 複数サイズのコマ割画像データの一例を示す図である。
以下、図面に基づき、本発明にかかるコミック画像データ検出装置、コミック画像データ検出プログラム及びコミック画像データ検出方法の実施形態を説明する。図1〜図8は、本発明にかかるコミック画像データ検出装置、コミック画像データ検出プログラム及びコミック画像データ検出方法の実施形態を示す図である。
(構成)
図1は、本発明の実施形態にかかるコミック画像データ検出システムの概要を示す図である。
図1に示すように、コミック画像データ検出システム1は、コミック画像データ検出装置100と、Webサーバ200_1〜200_N(Nは4以上の自然数)と、クライアント端末300_1〜300_M(Mは、2以上の自然数)と、を含んで構成される。
また、コミック画像データ検出装置100と、Webサーバ200_1〜200_Nと、クライアント端末300_1〜300_Mとは、公知のインターネット400を介して、相互にデータ通信可能に接続されている。
コミック画像データ検出装置100は、Webサーバ200_1〜200_Nの提供するWebサイトにおいて公開されている画像データから、コミックのページを画像データ化したデータであるコミック画像データを検出する機能を有している。更に、コミック画像データ検出装置100は、検出対象のコミックのコミック画像データを違法に公開している可能性のあるWebサイトを違法候補サイトとして検出する機能を有している。
Webサーバ200_1〜200_Nは、インターネットプロバイダ等の管理下にあるサーバから構成されており、テキスト、音声、画像、動画等のコンテンツを公開している多数のWebサイトを提供するサーバである。以下、区別する必要が無い場合に、Webサーバ200_1〜200_Nを、単に、Webサーバ200と称す。
クライアント端末300_1〜300_Mは、インターネット400を介して、Webサーバ200の提供するWebサイトにアクセスし、アクセス先のWebサイトで公開されている各種コンテンツの閲覧やダウンロード等を行うことが可能な端末である。以下、区別する必要が無い場合に、クライアント端末300_1〜300_Mを、単に、クライアント端末300と称す。
次に、図2に基づき、コミック画像データ検出装置100のハードウェア構成について説明する。図2は、コミック画像データ検出装置100のハードウェア構成を示すブロック図である。
図2に示すように、コミック画像データ検出装置100は、CPU(Central Processing Unit)60と、RAM(Random Access Memory)62と、ROM(Read Only Memory)64と、入出力インターフェース(I/F)66と、バス68とを含んで構成されるコンピュータシステムを備えている。CPU60、RAM62、ROM64およびI/F66は、バス68に接続されており、バス68を介してこれら接続デバイス間のデータの送受信を可能としている。
コミック画像データ検出装置100は、更に、I/F66を介して、記憶装置70と、表示装置72と、入力装置74と、イメージスキャナ76と、NIC(Network Interface Card)78とに接続されている。
CPU60は、ROM64または記憶装置70に予め記憶された各種専用のコンピュータプログラムをRAM62に読み込み、RAM62に読み込まれたプログラムに記述された命令に従って、各種リソースを駆使して、後述するコマ割情報抽出処理及びコミック画像データ検出処理を実行する。
記憶装置70は、各種専用のコンピュータプログラム、プログラムの実行において用いられるデータ等の、上記コマ割情報抽出処理及びコミック画像データ検出処理に必要なデータを記憶する。
具体的に、記憶装置70は、上記コマ割情報抽出処理において抽出されたコマ割情報をマッチング処理に用いるテンプレートデータとして記憶する。
更に、記憶装置70は、上記コミック画像データ検出処理において検出された違法に公開されている可能性のあるコミック画像データ(違法候補画像データ)及びこの違法候補画像データを公開しているWebサイト(違法候補サイト)の情報を記憶する。
ここで、記憶装置70は、FDドライブ、HDドライブ等の磁気記憶型記憶装置、CDドライブ、DVDドライブ、BRDドライブ等の光学的読取/書込方式記憶装置、MOドライブ等の磁気記憶型/光学的読取方式記憶装置等の、コンピュータで記憶データを読み取り可能でかつデータを書き込み可能な記憶装置であれば何でもよい。
表示装置72は、CRTディスプレイ、液晶ディスプレイなどの周知の表示装置であり、CPU60からの指令に応じて、上記コミック画像データ検出処理において検出された違法候補画像データ及びこの違法候補画像データを公開している違法候補サイトの情報等の画像の表示を行う。
入力装置74は、キーボード、マウス、操作ボタン、タッチ式の入力デバイス(タッチパネル等)などのヒューマンインターフェースデバイスであり、ユーザの操作に応じた入力を受け付ける。
イメージスキャナ76は、CPU60からの指令に応じて、原稿読取部にセットされた原稿(本実施形態ではコミックのページ)を光学的に読み取って、読み取った原稿の画像データ(本実施形態ではコミック画像データ)を生成する。そして、生成したコミック画像データを、順次I/F66を介してコミック画像データ検出装置100に送信する。
NIC78は、LAN、WAN、インターネット等のネットワーク上の外部装置と通信するためのデバイスであり、一般にLANカード等と呼ばれる周知のネットワークアダプタである。NIC78は、ネットワークケーブルLを介してルータやハブ等に接続され、これらを介して、コミック画像データ検出装置100をネットワーク(本実施形態ではインターネット)に接続する。なお、周知の無線LAN等の、無線によって無線LAN用のアクセスポイントを介してネットワークに接続する構成であってもよい。
これにより、本実施の形態では、ネットワークに接続されたWebサーバ200の提供するWebサイトから、NIC78を介して、各Webサイトで公開されている画像データを取得することが可能である。
なお、このコミック画像データ検出装置100は、例えば、周知のパーソナルコンピュータなどに実装されるものとして構成される。
次に、図3及び図4に基づき、コミック画像データ検出装置100の機能構成について説明する。図3は、コミック画像データ検出装置100の機能構成の一例を示すブロック図である。また、図4(a)は、コミック画像データの一例を示す図であり、(b)は、(a)のコミック画像データから抽出したコマ割画像データの一例を示す図である。
図3に示すように、コミック画像データ検出装置100は、機能構成部として、コミック画像データ取得部10と、コマ割情報抽出部11と、データ通信部12と、Webサイト検索部13と、画像データ取得部14と、マッチング部15と、判定部16と、検出部17と、を備えている。
コミック画像データ取得部10は、入力装置74を介したオペレータからのデータ取得指示に応じて、イメージスキャナ76に対して原稿の読み取り指示を送信する。
本実施形態において、オペレータは、イメージスキャナ76の原稿読取部に、検出対象のコミックのページをセットしておく。これにより、イメージスキャナ76は、コミック画像データ取得部10からの読み取り指示に応じて、セットされたコミックのページをイメージセンサによって光学的に読み取り、読み取ったページの画像データ(コミック画像データ)を生成する。そして、イメージスキャナ76は、生成したコミック画像データを、I/F66を介して、コミック画像データ検出装置100に送信する。また、オペレータは、入力装置74を介して、原稿読取部にセットしたコミックの情報(タイトル、作者名、巻数など)をコミック画像データ検出装置100に入力する。
なお、イメージスキャナ76が複数枚の原稿を載置可能な給紙トレイを備え、原稿が読み取られる毎に給紙トレイに載置された原稿を自動で1枚ずつ原稿読取部にセットする機能を有しているとする。この場合、コミック画像データ取得部10から、連続して読み取る読み取り指示をイメージスキャナ76に送信することで、イメージスキャナ76に、給紙トレイに載せられている複数枚の原稿を1枚ずつ連続して読み取らせることが可能である。
コミック画像データ取得部10は、イメージスキャナ76から送信されたコミック画像データを取得する。そして、取得したコミック画像データをRAM62の予め設定された記憶領域に記憶する。このとき、取得したコミック画像データを、入力されたコミック情報に対応付けて記憶する。また、コミック画像データ取得部10は、コミック画像データの取得が完了すると、コミック画像データの取得が完了したことを、コマ割情報抽出部11に通知する。
コマ割情報抽出部11は、コミック画像データ取得部10からの通知に応じて、RAM62に記憶されたコミック画像データを読み出し、読み出したコミック画像データからコマ割情報を抽出する。
例えば、図4(a)に示す描画内容のコミック画像データCI1が得られたとする。
コミック画像データCI1の画像は、図4(a)に示すように、4つの矩形のコマF1〜F4と、コマF1〜F4の外側の領域部分である余白部分MAとから構成される。コマF1は、その外縁部分を形成する線分であるコマ割線E1と、コマ割線E1によって囲まれた領域内に描画された漫画P1とから構成され、コマF2は、その外縁部分を形成するコマ割線E2と、コマ割線E2によって囲まれた領域内に描画された漫画P2とから構成されている。更に、コマF3は、その外縁部分を形成するコマ割線E3と、コマ割線E3によって囲まれた領域内に描画された漫画P3とから構成され、コマF4は、その外縁部分を形成するコマ割線E4と、コマ割線E4によって囲まれた領域内に描画された漫画P4とから構成されている。
コマ割情報抽出部11は、まず、読み出したコミック画像データCI1を、公知のエッジ抽出方法を用いてエッジ画像データに変換する。
ここで、エッジ抽出方法としては、例えば、Prewittオペレータ、Sobelオペレータ、ラプラシアン等の公知の微分オペレータを用いてコミック画像データを微分(エッジ強調)し、エッジ強調した後に、予め設定された二値化閾値を用いて二値化する方法がある。また、二値化の方法としては、二値化閾値として1つの固定値を用いる方法、コミック画像データの画像を複数にブロック分けし、各ブロック毎に異なる二値化閾値を用いる方法等がある。また、二値化閾値は、オペレータが入力した値を用いてもよいし、二値化対象の画像のヒストグラムなどからその都度計算によって求めてもよい。
また、コミックのページが、カラーページの場合、コミック画像データをグレースケールデータ化してからエッジ抽出等を行っても良い。
また、二値化後の画像データをエッジ画像データとしてもよいが、二値化後に、エッジ部分を線形化する線形化処理を行ってもよい。また、必要に応じて、ノイズ除去処理(例えば、膨張・収縮等)を行ってもよい。
線形化処理としては、例えば、公知のブレゼンハムの線分描画アルゴリズムを用いてエッジ部分を線形化する方法がある。
このようにして生成されたエッジ画像データは、例えば、エッジ部分の画素値を「1」、エッジ以外の部分の画素値を「0」とした二値から構成される。なお、図4(a)に示すコミック画像データの例では、スクリーントーンやベタ塗り等が施されていない線画中心の漫画内容となっているため、エッジ画像データの内容は略同じものとなる。
コマ割情報抽出部11は、次に、エッジ画像データから各コマを形成する線分であるコマ割線を残し、漫画部分を除去した内容の画像データを抽出する。
例えば、図4(a)の例であれば、各コマF1〜F4を形成するコマ割線E1〜E4を残し、漫画部分P1〜P4を除去した内容の画像データを抽出する。これにより、図4(b)に示す画像内容の画像データFI1(以下、コマ割画像データFI1と称す)が抽出(生成)される。コマ割画像データFI1は、図4(b)に示すように、ページ上に各コマF1〜F4のコマ割線E1〜E4のみが描画された画像内容を有する。コマ割画像データは、図4(b)に示すように、ページ紙面上における各コマの形状、サイズ及び位置の情報を有するデータとなる。なお、図4(a)の例では、各コマがコマ割線によって閉領域を形成しているが、コマ割線は、例えば、紙面を二分する1本の横線などのように、紙面の外縁部分を領域の端として各コマを構成する場合などもある。この場合は、余白部分が無くなる。また、コマ割線は、紙面の縦横に対して直交する線に限らず、斜め線などの直交しない線の場合もある。また、コマ割線によって構成される閉領域の形状も矩形に限らず、台形や三角形などの他の形状の場合もある。
更に、本実施形態において、コマ割情報抽出部11は、抽出したコマ割画像データを基準(100[%])として、アスペクト比を保持した状態で、例えば、10[%]〜200[%]の範囲で基準のコマ割画像データを10[%]刻みに縮小及び拡大した画像データを生成する。そして、この10[%]〜200[%]までの10[%]刻みのコマ割画像データを、ランレングス圧縮等の可逆性を有する圧縮手法で圧縮し、これらの圧縮データをコミック情報と対応付けて記憶装置70に記憶する。本実施形態では、この複数サイズのコマ割画像データが、コマ割情報となる。コマ割画像データは、描画部分のデータとして単色でかつ各コマのコマ割線部分のデータしか含まないためデータ量を大幅に圧縮することが可能である。なお、縮小及び拡大の範囲は、10[%]〜200[%]の範囲に限らず、他の範囲としてもよいし、また、10[%]刻みに限らず、他の刻み幅としてもよい。
データ通信部12は、NIC78を介した、各種データの外部装置への送信と外部装置からの各種データの受信とを制御する機能を有している。
具体的に、データ通信部12は、各機能構成部からのデータ送信依頼に応じて、NIC78を介して、インターネット400に接続されたWebサーバ200などの外部装置にデータを送信する機能を有している。更に、データ通信部12は、NIC78を介して、インターネット400に接続された外部装置から受信したデータを対応する各機能構成部に出力する機能を有している。
Webサイト検索部13は、オペレータからの入力装置74を介して入力されたパトロール開始指示に応じて、記憶装置70から、コマ割画像データに対応付けられたコミック情報に含まれる、コミックのタイトル、作者名、巻数等の情報を読み出す。そして、読み出したタイトル、作者名、巻数等を示すワードを検索ワードとして、インターネット400に接続されたWebサーバ200の提供するWebサイトから、検索ワードに対応するWebサイトを検索する。
具体的に、Webサイト検索部13は、データ通信部12を介して、例えば、予め設定された、信用のおける検索サービスを提供しているWebサイトにアクセスする。そして、このWebサイトに、データ通信部12を介して検索ワードを送信し、検索サービスを利用して、Webサイトを検索する。
そして、Webサイト検索部13は、検索されたWebサイトの情報(URL)を、検索ワードと対応付けて記憶装置70に記憶する。その後、Webサイト検索部13は、Webサイトの検索が完了したことを画像データ取得部14に通知する。
なお、検索された全てのWebサイトの情報を記憶する構成に限らず、検索数(ヒット数)が膨大な場合を考慮して、例えば、予め設定した上限数のWebサイトの情報のみを記憶する構成としてもよい。
また、本実施形態において、Webサイト検索部13は、例えば、電子コミックのネット販売を正規に行っているWebサイト等の、著作権を有する者から許可を得ているWebサイトについては、予めリストを生成しておき、リストにあるWebサイトが検索された場合は、検索結果から除外する。
画像データ取得部14は、Webサイト検索部13からの通知に応じて、記憶装置70に記憶されたWebサイトの情報(URL)に基づき、データ通信部12を介して、各Webサイトに対して順番にアクセスする。そして、アクセスしたWebサイトにおいて公開されている画像データを、データ通信部12を介して取得し、取得した画像データを記憶装置70に記憶する。
更に、画像データ取得部14は、検索された全てのWebサイトから画像データを取得すると、画像データの取得が完了したことをマッチング部15に対して通知する。また、画像データ取得部14は、取得される画像データの数が多い場合に対応して、予め設定された上限数の画像データを取得する毎に、画像データの取得を一旦停止し、マッチング部15に対して、マッチング指示を送信する。一方、マッチング部15からのマッチング完了の通知を受け、この通知を受けたことに応じて、停止していた画像データの取得を再開する。
なお、上記した、Webサイト検索部13において検索サービスを利用して検索ワードを用いたWebサイトの検索を行い、画像データ取得部14において検索されたWebサイトから画像データを取得する構成に限らず、他の構成としてもよい。例えば、検索ワードによるWebサイトの検索を行わずに、予め取得条件を設定し、画像データ取得部14において、設定した取得条件に合致するWebサーバ200の提供するWebサイトから、設定した取得条件に合致する画像データを全て取得する構成としてもよい。取得条件としては、例えば、Webサーバ200の所在する地域(日本、アメリカなど)、画像データの更新日時などを設定する。また、更新日時としては、例えば、コマ割情報に対応するコミックの販売日以降の日時を設定する。
マッチング部15は、画像データ取得部14からの取得完了通知又はマッチング指示に応じて、記憶装置70に記憶されている、Webサイトから取得した画像データ(以下、取得画像データと称す)と、コマ割画像データとのマッチングを行う機能を備えている。
マッチング部15は、具体的に、コマ割情報の抽出処理と同様に、取得画像データをエッジ画像データに変換し、変換したエッジ画像データからコマ割線と推定される画像部分のみを残した画像データ(以下、取得コマ割画像データと称す)を抽出する。そしてこの抽出した取得コマ割画像データに対して、記憶装置70に記憶された各コマ割画像データをテンプレート画像としたテンプレートマッチングを行う。
なお、取得した画像データをエッジ画像データに変換してからマッチングを行う構成に限らず、例えば、取得画像データをそのまま用いてマッチングを行う構成など他の構成としてもよい。
取得画像データは、1つの画像データ中に、コミックの1ページ分を含むもの、2ページ分以上を含むものが考えられる。本実施形態では、1ページ分を含む場合と、見開き2ページ又はバラバラなページ順の2ページを含む場合とを対象として、マッチングを行う。その際に、取得画像データのサイズに応じて、10[%]〜200[%]までの各サイズのコマ割画像データから最適なサイズの2種類の画像データを選択して、マッチングを行う。例えば、見開き又はバラバラの2ページ分に対しては、1ページ分を含む場合のサイズに対して、半分のサイズのコマ割画像データを選択する。
また、マッチングの方法としては、例えば、コマ割画像データと取得コマ割画像データとの解像度を同じにして、同じ画素位置の各画素の画素値の差分を計算し、この差分値の絶対値の総和を計算する。コマ割画像データと取得コマ割画像データとは、二値化(ここでは、「0」と「1」に二値化)された画像データとなっているため、差分を計算した場合に、同じ画素値の部分では、計算結果が「0」となり、異なる画素値の部分では、「1」又は「−1」となる。
マッチング部15は、マッチングの結果であるコマ割画像データと取得コマ割画像データとの差分値の総和を判定部16に出力する。
判定部16は、マッチング部15から取得した総和と、予め設定されたマッチング閾値とを比較し、総和がマッチング閾値以下であれば、コマ割画像データと取得コマ割画像データとが一致又は類似している画像内容であると判定し、総和がマッチング閾値よりも大きければ、コマ割画像データと取得コマ割画像データとは異なる(類似していない)画像内容であると判定する。この計算方法の場合は、総和が小さければ小さいほど両者が類似していることになり、総和が「0」のときに両者が一致していることになる。つまり、この総和は、コマ割画像データと取得コマ割画像データとの類似度を示している。
判定部16は、この判定結果と、対応する取得画像データを公開しているWebサイトの情報とを対応付けた判定結果情報を生成し、生成した判定結果情報を検出部17に出力する。
検出部17は、判定部16からの判定結果情報に基づき、Webサイト毎に、一致又は類似した画像内容であると判定された取得コマ割画像データに含まれる画像データの数を計数する。そして、検出された各Webサイトについて、全ての判定結果情報を取得すると、計数値と、予め設定された計数閾値とを比較する。この比較により、計数値が計数閾値以上である場合は、計数された取得コマ割画像データに対応する取得画像データが違法に公開されている可能性のあるコミック画像データ(違法画像データ)であると判定する。一方、計数値が計数閾値未満である場合は、計数された取得コマ割画像データに対応する取得画像データが違法に公開された可能性のあるコミック画像データでは無いと判定する。
ここで、計数値は、マッチング処理に用いた検出対象のコミックのコミック画像データと一致又は類似していると判定された画像データ(ページ)の数を示す。
また、計数閾値は、例えば、正規の販売サイトが、紹介ページとして公開しているコミック画像データを違法画像データから除外するための閾値である。つまり、コミックの例えば1〜3ページくらいを抜粋して紹介しているような場合に、違法として判断しないように、上限のページ数を設定した閾値となる。また、別の観点からは、違法候補サイトの数が膨大となって、取り締まりに支障を来さないように、数を絞り込むための閾値とも言える。
検出部17は、違法に公開された可能性があると判定した場合に、違法とに公開された可能性があると判定したコミック画像データの少なくとも一部と、該違法候補画像データを公開しているWebサイト(違法候補サイト)の情報と、コミック情報とを対応付けた情報である違法用の検出結果情報を生成する。そして、生成した違法用の検出結果情報を記憶装置70に記憶する。一方、違法に公開された可能性がないと判定した場合、検出部17は、そのWebサイトの情報と、違法ではないことを示す情報と、コミック情報とを対応付けた情報である非違法用の検出結果情報を生成する。そして、生成した非違法用の検出結果情報を記憶装置70に記憶する。更に、検出部17は、記憶装置70から、違法ではないと判定されたWebサイトに対応する取得画像データを削除する。なお、違法ではないと判定した場合に、そのWebサイトの情報と取得画像データとを削除する構成としてもよい。
また、検出部17は、検出結果情報を記憶(又は更新)したことを、検出結果表示部18に通知する。
検出結果表示部18は、検出部17からの通知に応じて、記憶装置70から検出結果情報を読み出し、読み出した情報に基づき、検出結果を示す画像を表示装置72に表示する。
(コマ割情報抽出処理)
次に、図5に基づき、CPU60がROM64に記憶された専用のコンピュータプログラムに従って実行するコマ割情報抽出処理の処理手順を説明する。図5は、コマ割情報抽出処理の処理手順の一例を示すフローチャートである。
CPU60において、コマ割情報抽出処理が実行されると、図5に示すように、まず、ステップS100に移行する。
ステップS100では、コミック画像データ取得部10において、入力装置74を介したオペレータからのデータ取得指示があったか否かを判定する。その結果、オペレータからのデータ取得指示があったと判定した場合(Yes)は、ステップS102に移行する。一方、オペレータからのデータ取得指示がなかったと判定した場合(No)は、データ取得指示があるまで判定処理を繰り返す。
ステップS102に移行した場合は、コミック画像データ取得部10において、イメージスキャナ76から送信されたコミック画像データを取得して、ステップS104に移行する。
具体的に、コミック画像データ取得部10は、データ取得指示に応じて、イメージスキャナ76に対して読み取り指示を送信する。この読み取り指示に応じて、イメージスキャナ76においてコミックのページ(原稿)が光学的に読み取られ、読み取られたページのコミック画像データが生成される。そして、コミック画像データ取得部10は、イメージスキャナ76から送信されたコミック画像データをI/F66を介して取得する。
ステップS104では、コミック画像データ取得部10において、ステップS102で取得したコミック画像データを、別途オペレータによって入力された、コミック情報と対応付けてRAM62に記憶して、ステップS106に移行する。
ステップS106では、コミック画像データ取得部10において、コミック画像データの記憶が完了したと判定すると、コミック画像データを取得したことを、コマ割情報抽出部11に通知して、ステップS108に移行する。
ステップS108では、コマ割情報抽出部11において、RAM62に記憶されたコミック画像データを読み出して、ステップS110に移行する。
ステップS110では、コマ割情報抽出部11において、ステップS108で読み出したコミック画像データからコマ割情報を抽出するコマ割情報抽出処理を実行して、ステップS112に移行する。
コマ割情報抽出処理では、コマ割情報抽出部11は、まず、読み出したコミック画像データをエッジ画像データに変換する。次に、このエッジ画像データからコマ割された各コマの外縁部分を形成するコマ割線を残し、各コマの外縁部分の内側に描画された漫画部分を除去した内容のコマ割画像データを抽出する。更に、コマ割情報抽出部11は、抽出したコマ割画像データのサイズを基準(100[%])として、0[%]〜200[%]の範囲で10[%]刻みで基準のコマ割画像データをアスペクト比を保持した状態で縮小及び拡大した、サイズの異なる複数のコマ割画像データを生成する。これら生成された各サイズのコマ割画像データと、抽出した基準のコマ割画像データとをセットとして、コミック情報と対応付けたものがコマ割情報となる。
また、コマ割情報抽出部11は、RAM62に記憶されたコミック画像データの全てに対して順次コマ割情報抽出処理を行い、抽出処理が完了したコミック画像データを順次RAM62から削除する。
ステップS112では、コマ割情報抽出部11において、ステップS110のコマ割情報抽出処理において生成されたコマ割情報を、コミック情報と対応付けて記憶装置70に記憶して、ステップS100に移行する。
本実施形態において、コマ割情報抽出部11は、複数サイズのコマ割画像データを、ランレングス圧縮等の可逆性を有する圧縮方法で圧縮し、この圧縮したコマ割画像データをコミック情報と対応付けて記憶する。
(コミック画像データ検出処理)
次に、図6に基づき、CPU60がROM64に記憶された専用のコンピュータプログラムに従って実行するコミック画像データ検出処理の処理手順を説明する。図6は、コミック画像データ検出処理の処理手順の一例を示すフローチャートである。
CPU60において、コミック画像データ検出処理が実行されると、図6に示すように、まず、ステップS200に移行する。
ステップS200では、Webサイト検索部13において、入力装置74を介したオペレータからのパトロール開始指示があったか否かを判定する。その結果、パトロール開始指示があったと判定した場合(Yes)は、ステップS202に移行する。一方、パトロール開始指示がなかったと判定した場合(No)は、パトロール開始指示があるまで判定処理を繰り返す。
ステップS202では、Webサイト検索部13において、記憶装置70から、検索ワードを読み出して、ステップS204に移行する。
Webサイト検索部13は、具体的に、コミック画像データと対応付けて記憶装置70に記憶されているコミック情報から、該コミック情報に含まれるタイトルや作者名等のワード情報を検索ワードとして読み出す。
ステップS204では、Webサイト検索部13において、ステップS202で読み出した検索ワードを用いて、インターネット400に接続されたWebサーバ200の提供するWebサイトから、検索ワードに対応するWebサイトを検索して、ステップS206に移行する。
ステップS206では、Webサイト検索部13において、検索ワードに対応するWebサイトが検索されたか否かを判定する。その結果、検索ワードに対応するWebサイトが検索されたと判定した場合(Yes)は、ステップS208に移行する。一方、検索ワードに対応するWebサイトが検索されなかったと判定した場合(No)は、ステップS244に移行する。
ステップS208に移行した場合は、Webサイト検索部13において、検索されたWebサイトの情報(URL)を記憶装置70に記憶して、ステップS210に移行する。
ステップS210に移行した場合は、画像データ取得部14において、記憶装置70に記憶された情報に対応するWebサイトに順次アクセスし、アクセス先のWebサイトにおいて公開されている画像データを取得して、ステップS212に移行する。
ステップS212では、画像データ取得部14において、ステップS210で取得した画像データを、記憶装置70に記憶して、ステップS214に移行する。
ステップS214では、画像データ取得部14において、取得した画像データの数が、予め設定された上限数に到達したか否かを判定する。その結果、上限数に到達したと判定した場合(Yes)は、上限数に到達したことをマッチング部15に通知して、ステップS216に移行し、上限数に到達していないと判定した場合(No)は、ステップS242に移行する。
ステップS216に移行した場合は、マッチング部15において、記憶装置70から、取得画像データと、この取得画像データに対応するコマ割画像データとを読み出して、ステップS218に移行する。
ステップS218では、マッチング部15において、ステップS216で読み出した取得画像データと、コマ割画像データとのマッチング処理を実行して、ステップS220に移行する。
マッチング処理では、マッチング部15は、まず、取得画像データをエッジ画像データに変換し、このエッジ画像データからコマ割された各コマと推定される画像部分の外縁部分を残して、その他の描画部分を除去した内容の取得コマ割画像データを抽出する。次に、サイズの異なる複数のコマ割画像データから、取得コマ割画像データのサイズに適したサイズのコマ割画像データを選択する。そして、選択したコマ割画像データの各画素の画素値と、取得コマ割画像データの同じ画素位置の各画素の画素値との差分値の絶対値を順次算出する。そして、これら絶対値の総和を算出し、算出した総和を、マッチング結果として順次判定部16に出力する。
ステップS220では、判定部16において、マッチング部15から取得した総和と、予め設定されたマッチング閾値とを比較し、この比較結果に基づき、取得画像データがコミック画像データと一致又は類似している画像データであるか否かを判定する。そして、この判定結果に基づき判定結果情報を生成し、生成した判定結果情報を検出部17に出力して、ステップS222に移行する。なお、本実施形態では、判定結果情報に、取得画像データ内に含まれる一致又は類似すると判定された画像データ(以下、類似画像データと称す)の数の情報も付加する。
ステップS222では、検出部17において、判定部16から取得した判定結果情報に基づき、マッチングした取得画像データが類似画像データを含むか否かを判定する。その結果、類似画像データを含むと判定した場合(Yes)は、ステップS224に移行し、類似画像データを含まないと判定した場合(No)は、ステップS226に移行する。
ステップS224に移行した場合は、検出部17において、対応するWebサイトについて、取得画像データ中に含まれる類似画像データ(ページ)の数を計数して、ステップS226に移行する。
ステップS226では、マッチング部15において、取得した全ての画像データについて、マッチング処理が完了したか否かを判定する。その結果、マッチング処理が完了したと判定した場合(Yes)は、ステップS228に移行し、マッチング処理が完了していないと判定した場合(No)は、ステップS218に移行する。
ステップS228に移行した場合は、画像データ取得部14において、未取得の画像データがあるか否かを判定し、未取得の画像データがあると判定した場合(Yes)は、ステップS210に移行し、未取得の画像データがないと判定した場合(No)は、ステップS230に移行する。
ステップS230に移行した場合は、検出部17において、Webサイト毎に、類似画像データの計数値と、予め設定された計数閾値とを比較して、ステップS232に移行する。
ステップS232では、検出部17において、ステップS230の比較結果に基づき、絞込条件に合致するWebサイトがあったか否かを判定する。その結果、絞込条件に合致するWebサイトがあったと判定した場合(Yes)は、ステップS234に移行する。
一方、絞込条件に合致するWebサイトがなかったと判定した場合(No)は、ステップS236に移行する。
本実施形態では、類似画像データの計数値が計数閾値以上である場合に、絞込条件に合致していると判定し、類似画像データの計数値が計数閾値未満である場合に、絞込条件に合致していないと判定する。
ステップS234に移行した場合は、検出部17において、絞込条件に合致すると判定された取得画像データの一部と、当該画像データを公開している違法候補サイトの情報と、コミック情報とを含む違法用の検出結果情報を生成して、ステップS238に移行する。
一方、ステップS236に移行した場合は、検出部17において、違法候補サイトではないことを示す情報と、そのWebサイトの情報と、コミック情報とを含む非違法用の検出結果情報を生成して、ステップS238に移行する。
ステップS238では、検出部17において、ステップS234又はS236で生成した検出結果情報を記憶装置70に記憶して、ステップS239に移行する。
ステップS239では、検出部17において、検出結果情報が未生成のWebサイトがあるか否かを判定する。その結果、検出結果情報が未生成のWebサイトがあると判定した場合(Yes)は、ステップS230に移行する。一方、検出結果情報が未生成のWebサイトが無いと判定した場合(No)は、検出結果情報の記憶(又は更新)処理が完了したことを、検出結果表示部18に通知して、ステップS240に移行する。
ステップS240では、検出結果表示部18において、記憶装置70から検出結果情報を読み出し、読み出した検出結果情報に基づき、検出結果を表示装置72に表示して、ステップS240に移行する。
一方、ステップS214において、予め設定した上限数に到達していないと判定してステップS238に移行した場合は、画像データ取得部14において、画像データの取得が完了したか否かを判定する。その結果、画像データの取得が完了したと判定した場合(Yes)は、完了したことをマッチング部15に通知して、ステップS216に移行する。一方、画像データの取得が完了していないと判定した場合(No)は、ステップS210に移行する。
また、ステップS206において、検索ワードに対応するWebサイトが検索されずにステップS240に移行した場合は、Webサイト検索部13において、他のコミックの検索ワードがあるか否かを判定する。その結果、他のコミックの検索ワードがあると判定した場合(Yes)は、ステップS204に移行し、他のコミックの検索ワードがないと判定した場合(No)は、ステップS200に移行する。
(動作)
次に、図7〜図8に基づき、本実施形態のコミック画像データ検出装置100の動作を説明する。
ここで、図7(a)〜(e)は、コマ割画像データのコマ割内容の一例を示す図である。また、図8は、複数サイズのコマ割画像データの一例を示す図である。
まず、コミック画像データ検出装置100におけるコマ割情報抽出処理の動作について説明する。
いま、コミック画像データ検出装置100において、オペレータが入力装置74を操作してデータ取得指示を入力したとする。これにより、コミック画像データ取得部10は、データ取得指示の入力に応じて(ステップS100のYes)、I/F66を介して、イメージスキャナ76に対して読取指示を出力する。その際、オペレータは、イメージスキャナ76の原稿読取部又は給紙トレイに、検出対象のコミックから予め選定して切り離したページをセットしておく。このページの選定は、検出対象のコミックにおいて特徴的なコマ割となっているページや、各コマがコマ割線で囲まれた閉領域となっているページなど、マッチング処理時のマッチング精度や、コマ割情報抽出時の抽出精度等を考慮して行うことが望ましい。また、オペレータは、予め検出対象のコミックのタイトル、作者名、巻数等のコミック情報を入力しておく。
イメージスキャナ76は、原稿読取部にセットされたコミックのページを光学的に読み取って、コミック画像データを生成し、生成したコミック画像データをI/F66を介してコミック画像データ検出装置100に送信する。
そして、コミック画像データ取得部10は、イメージスキャナ76から送信されたコミック画像データを取得し(ステップS102)、取得したコミック画像データを、コミック情報と対応付けてRAM62に記憶する(ステップS104)。その後、コミック画像データ取得部10は、コミック画像データの取得通知をコマ割情報抽出部11に送信する(ステップS106)。
コマ割情報抽出部11は、コミック画像データ取得部10からの取得通知を受信すると、RAM62から、コミック画像データを読み出し(ステップS108)、読み出したコミック画像データからコマ割情報を抽出するコマ割情報抽出処理を実行する(ステップS110)。
コマ割情報抽出部11は、まず、読み出したコミック画像データに対して、例えば、公知のSobelオペレータによるエッジ強調処理を実行する。次に、エッジ強調後のデータを、予め設定した二値化閾値によって二値化して、二値化されたエッジ画像データを生成する。更に、コマ割情報抽出部11は、エッジ画像データに対して、例えば、公知のブレゼンハムの線分描画アルゴリズムを用いてエッジ部分を線形化する処理を施す。その後、エッジ部分が線形化されたエッジ画像データから、予め設定された抽出規則に従って、コマ割線部分を残し、漫画部分を除去した内容のコマ割画像データを抽出する。例えば、抽出規則としては、エッジ画像データ中の線分によって閉領域が形成されている部分について、閉領域の外縁部分を残し、閉領域内の描画部分を除去する規則が設定されている。
このようにして、図7(a)〜(e)に例示したようなコマ割画像データがコマ割情報として抽出されたとする。
ここで、図7(a)は、図4(b)と同様のものであり、図7(b)は、図7(a)と同様の各コマの形状が矩形となっている場合の例である。図7(c)は、各コマの形状が台形となっている場合の例であり、図7(d)は、各コマの形状として台形と矩形とが混在している場合の例である。図7(e)は、ページの端部を外縁部の一部としているコマ割りがされている場合の例である。図7(e)の例では、ページ端部がコマ割線となっているため各コマの判断が難しい。
コマ割情報抽出部11は、更に、抽出した各コマ割画像データの画像サイズを基準(100[%])として、10[%]〜200[%]の範囲で10[%]刻みで各画像を縮小及び拡大した複数サイズのコマ割画像データを生成する。図7(a)のコマ割画像データを例に挙げると、図8に示すように、基準のコマ割画像データに対して、画像サイズの縮小によって、10[%]〜90[%]まで10[%]刻みで9種類のサイズのコマ割画像データを生成する。更に、画像サイズの拡大によって、110[%]〜200[%]まで10[%]刻みで10種類のサイズのコマ割画像データを生成する。これにより、20段階のサイズのコマ割画像データが得られる。
コマ割情報抽出部11は、各20段階のサイズのコマ割画像データを、例えば、ランレングス圧縮等の可逆性を有する圧縮方法で圧縮し、この圧縮されたコマ割画像データを、コミック情報と対応付けて記憶装置70に記憶する(ステップS112)。なお、このようなコマ割情報の生成は、検出対象のコミック全てに対して行う。
次に、コミック画像データ検出装置100におけるコマ割情報抽出処理の動作について説明する。
いま、コミック画像データ検出装置100において、オペレータが入力装置74を操作してパトロール開始指示を入力したとする。これにより、Webサイト検索部13は、パトロール開始指示の入力に応じて(ステップS200のYes)、記憶装置70にコミック画像データと対応付けて記憶されているコミック情報に含まれる検索ワードを読み出す(ステップS202)。なお、オペレータによるパトロール開始指示の入力に限らず、専用のソフトウェアによって、パトロールの開始時刻を予めスケジューリングしておき、スケジューリングされた開始時刻になったことに応じて自動でWebサイトの検索処理を実行するように構成してもよい。
次に、Webサイト検索部13は、読み出した検索ワードを用いてWebサイトの検索を行う(ステップS204)。ここでは、Webサイトの検索は、検索対象のコミックのタイトルと、作者名と、コミックの巻数とを用いて、例えば、OR条件で検索を行う。つまり、Webサイト内に、これらの検索ワードのいずれか1つでも含むページを有していれば、そのWebサイトが検索される(ヒットする)ことになる。また、検索エンジンとしては、例えば、信用のおける公知の検索エンジンを用いる。
この検索処理によって、検索ワードに対応するWebサイトが検索されると(ステップS206のYes)、Webサイト検索部13は、検索されたWebサイトの情報(URL)を、検索対象のコミックのコミック情報と対応付けて記憶装置70に記憶する(ステップS208)。そして、Webサイトの情報を記憶したことを、画像データ取得部14に通知する。
画像データ取得部14は、Webサイト検索部13からの通知を受けたと判定すると、記憶装置70に記憶されたWebサイトの情報(URL)に基づき、ここではヒット順(検索時の表示順)に、各Webサイトにアクセスを行い、アクセス先のWebサイトにおいて公開されている画像データを取得する(ステップS210)。そして、画像データ取得部14は、取得した画像データを、コミック情報と対応付けて記憶装置70に記憶する(ステップS212)。なお、上記したように、検索ワードを用いたWebサイトの検索を行わずに、Webサイトから、予め設定した取得条件に合致する画像データを全て取得する構成としてもよい。但し、この場合は、画像データと共に、取得条件に合致した画像データを公開しているWebサイトの情報(例えば、URL)を、取得した画像データに対応付けて記憶するようにする。
画像データ取得部14は、画像データの取得数が予め設定した上限数に到達したか否かを判定する(ステップS214)。ここでは、到達していないと判定し(ステップS214のNo)、かつ画像データの取得が完了したと判定したとする(ステップS238)。これにより、画像データ取得部14は、画像データの取得が完了したことを、マッチング部15に通知する。
マッチング部15は、画像データ取得部14からの通知を受けたと判定すると、記憶装置70から、取得した画像データ(取得画像データ)と該取得画像データに対応付けられたコミック情報に対応するコマ割画像データとを読み出す(ステップS216)。
そして、マッチング部15は、読み出した取得画像データとコマ割画像データとのマッチング処理を実行する(ステップS218)
具体的に、マッチング部15は、まず、読み出した取得画像データをエッジ画像データへと変換する。このとき、コマ割情報抽出部11でコマ割情報の抽出処理時に用いた処理方法と同様の処理方法でエッジ画像データへと変換する。
次に、マッチング部15は、コマ割情報抽出部11で用いた抽出規則と同様の規則に従って、このエッジ画像データからコマ割線部分と推定される部分を残して、その他の描画部分を除去した内容のコマ割画像データ(取得コマ割画像データ)を抽出する。なお、上記したように、エッジ画像データへの変換を行わずに、取得画像データをそのまま用いてマッチングを行う構成とすることも可能である。
マッチング部15は、抽出した取得コマ割画像データに対して、記憶装置70から読み出した各コマ割画像データをテンプレートデータとして、テンプレートマッチングを実行する。このとき、20段階の各サイズのコマ割画像データの全てとマッチングを行ってもよいが、ここでは、コミックの1ページ分と見開き又はバラバラの2ページ分とを検出対象として、取得コマ割画像データのサイズに応じて、同サイズ又は最も近いサイズのコマ割画像データと、その半分のサイズのコマ割画像データとを選択する。そして、選択したコマ割画像データを用いてマッチングを行う。なお、2ページ分に対しては、検出対象のコミックに対応するコマ割画像データの全ての組合せでマッチングを行う。
また、マッチングは、取得コマ割画像データとコマ割画像データとを重ね合わせて、両者の重なった位置にある各2つの画素の画素値を用いて行う。ここでは、両画像のサイズ(解像度)を合わせて、ぴったりと重なるようにする。半分のサイズのコマ割画像データについては、取得コマ割画像データを半分にした一方又は他方とぴったりと重なるようにサイズを調整する。そして、画像の左上又は右上の画素を基準にして両者を重ね合わせた場合の、重なる位置にある各画素同士について、両者の画素値の差分の絶対値を算出し、更に、この絶対値の総和を算出する。マッチング部15は、各選択したコマ割画像データに対する総和をマッチング結果として、判定部16に出力する。
判定部16は、マッチング部15からマッチング結果を取得すると、取得したマッチング結果と、予め設定されたマッチング閾値とを比較する。そして、総和がマッチング閾値以下である場合に、取得コマ割画像データが、マッチングに用いたコマ割画像データと一致又は類似していると判定する。一方、総和がマッチング閾値よりも大きい場合は、取得コマ割画像データが、マッチングに用いたコマ割画像データと類似していないと判定する(ステップS220)。ここで、上記のマッチング方法では、総和が小さい程、取得コマ割画像データとコマ割画像データとの類似度が高いことになる(総和が「0」で完全一致)。なお、マッチング閾値は、全てに共通の1つの固定値を用いてもよいし、コマ割画像データ毎に閾値を設定してもよいし、各コマ割画像データのサイズ毎に閾値を設定してもよい。特に、コマ割線部分が多ければ多いほど、一致度は下がっていくことが予測されるので、このようなコマ割画像データに対して、あまり小さい閾値を設定してしまうと、検出率の低下を招く恐れがある。一方、閾値を大きくし過ぎると不要な画像まで一致していると判定されてしまうので、事前に行った試験の結果や実測データ等に基づいて最適な閾値を設定することが望ましい。
判定部16は、このようにして判定した判定結果の情報と、Webサイトの情報とを含む判定結果情報を生成し、生成した判定結果情報を検出部17に出力する。
検出部17は、判定部16からの判定結果情報に基づき、マッチングした取得画像データが、類似画像データを含んでいるか否かを判定する(ステップS222)。ここで、類似画像データを含んでいると判定した場合(ステップS222のYes)は、検出部17は、対応するWebサイトの類似画像データ数に、ここでは1〜2を加算する(ステップS224)。具体的に、1つの取得画像データにおいて、1ページ分の内容が含まれている場合は1を加算し、2ページ分の内容が含まれている場合は2を加算する。
上記一連のマッチング処理(ステップS216〜S224)を、全ての取得画像データについて処理が完了するまで繰り返し実行する。
そして、マッチング部15においてマッチング処理が完了したと判定され(ステップS226のYes)、画像データ取得部14において、未取得の画像データが無いと判定されたとする(ステップS228のNo)。これにより、検出部17は、Webサイト毎に、これまでに計数した類似画像データ数と予め設定された計数閾値とを比較する。そして、この比較結果に基づき、絞込条件に合致するものがあるか否かを判定する(ステップS232)。ここでは、検出対象のコミックのページが「3」ページ以上含まれている場合に違法候補サイトと判断することとして、計数閾値は「3」に設定されていることとする。従って、検出部17は、類似画像データ数が「3」以上であると判定した場合は、絞込条件に合致すると判定し(ステップS232のYes)、類似画像データ数が「3」未満であると判定した場合は、絞込条件に合致しないと判定する(ステップS232のNo)。
検出部17は、絞込条件に合致すると判定した場合に、該当するWebサイト(違法候補サイト)の情報(URL)と、類似していると判定されかつ違法と判定された取得画像データの少なくとも一部と、コミック情報とを対応付けた検出結果情報を生成する(ステップS234)。一方、絞込条件に合致していないと判定した場合に、該当するWebサイトの情報と、コミック情報とを対応付けた検出結果情報を生成する(ステップS236)。
そして、検出部17は、生成した検出結果情報を、記憶装置70に記憶し、検出結果情報を記憶(又は更新)したことを検出結果表示部18に通知する(ステップS238)。また、検出部17は、違法ではないと判定されたWebサイトに対応する取得画像データを含む不要な取得画像データを記憶装置70から削除する。
検出結果表示部18は、検出部17からの通知に応じて、記憶装置70から検出結果情報を読み出し、読み出した検出結果情報に基づき検出結果を表示する(ステップS240)。なお、検出結果を表示する際に、類似度の高い順にソートして表示するようにしてもよい。
以上説明したように、本実施形態におけるコミック画像データ検出装置100であれば、検出対象のコミックのコミック画像データから、コマ割情報として、コマ割線の描画部分を残して、漫画部分を除去した内容のコマ割画像データを抽出することができる。更に、抽出したコマ割画像データを基準として、当該コマ割画像データを10[%]〜200[%]の範囲で縮小及び拡大した、サイズの異なる複数のコマ割画像データを生成することができる。更に、これらコマ割画像データをランレングス圧縮等の可逆性を有する圧縮方法で圧縮したデータをコマ割情報として記憶装置70に記憶することができる。
各コマを形成するコマ割線部分の画像は単色(黒色)であり、かつ、コマ割線は、基本的に直線の情報となるので描画部分は、漫画部分と比較して少ない。従って、コマ割情報は、可逆性を有する圧縮方法で圧縮をしてもデータ量を大幅に削減することができる。
また、コマ割画像データは、各コマの形状、位置、サイズ等の情報を含むデータであり、マッチングに用いるテンプレートデータとしての機能を有している。加えて、コマ割情報は、コミックに特有の情報であることから、原画像や全てのエッジ成分を含むエッジ画像を用いたマッチングと比較して、検出精度を低下させることなくデータ量を大幅に軽減することができる。
また、本実施形態におけるコミック画像データ検出装置100は、コマ割画像データとして二値化した画像データを生成するようにしたので、例えば、コマ割画像データの画素値「0」の画素との差分を省略することなどが可能となり、原画像(特に多階調画像)を用いたマッチングと比較して、マッチング処理にかかる時間を短縮することができる。
また、本実施形態におけるコミック画像データ検出装置100は、絞込条件によって、コミック画像データを違法に公開している可能性のあるWebサイトを絞り込んで検出することができるので、最終的に違法なサイトを人手によって検出する際の手間を軽減することができる。
ここで、上記実施形態において、コミック画像データ取得部10が、コミック画像データ取得手段を構成し、コマ割情報抽出部11が、コマ割情報抽出手段を構成し、コマ割情報抽出部11及び記憶装置70が、コマ割情報記憶手段を構成する。
また、上記実施形態において、Webサイト検索部13及び画像データ取得部14が、画像データ取得手段を構成し、マッチング部15が、マッチング手段を構成する。
また、上記実施形態において、判定部16及び検出部17が検出手段を構成し、検出部17及び記憶装置70が、サイト情報記憶手段を構成する。
また、上記実施形態において、ステップS108〜S110が、コマ割情報抽出ステップに対応し、ステップS112が、コマ割情報記憶ステップに対応する。
また、上記実施形態において、ステップS204〜S210が、画像データ取得ステップに対応し、ステップS218が、マッチングステップに対応し、ステップS220〜S236が、検出ステップに対応する。
(変形例)
上記実施形態において、コマ割情報として、コマ割線部分を残し、それ以外の漫画部分を除去したコマ割画像データを抽出する構成としたが、この構成に限らない。
例えば、コミックにおいてコマ割以外の特徴的な情報として、各コマ内の人物等のセリフを記載する吹き出し部分がある。この吹き出し部分の描画内容についても残すようにすることで、より検出精度の高いコマ割情報を生成することが可能となる。吹き出し部分の描画内容としては、吹き出しを構成する枠線部分と、吹き出し内に記載された文字部分とがある。これらのいずれか一方を抽出してもよいし、両方を抽出してもよい。また、文字部分については、画像中に残すようにしてもよいが、文字コード化して、吹き出しの位置情報と対応付けて別途記憶する構成としてもよい。
また、吹き出し部分に限らず、登場人物の顔が描画されているコマについては、その情報をコマ割情報として記憶する構成としてもよい。但し、テンプレートデータの量が増えるとマッチング処理にかかる時間も長くなるので、処理時間とのトレードオフで含めるようにする。または、最初のマッチング処理では、コマ割線部分の描画情報のみを残したコマ割画像データによるマッチングを行い、このマッチングで違法に公開されている可能性があると判定されたWebサイトの画像データのみに対して、吹き出し部分や顔の位置情報を含むコマ割画像データを用いたマッチング処理を行う。吹き出し部分の情報は、データの記憶容量を考慮して、差分データとして持つようにする。
また、上記実施形態において、コマ割情報として、コマ割画像データを抽出する構成としたが、この構成に限らない。各コマの形状、サイズ、位置が解る情報であれば、例えば、コマの形状が多角形状であれば、各コマの頂点の座標情報と、形状を示す情報、コミック画像データのサイズ(ページサイズ)とを抽出する構成としてもよい。この場合は、例えば、マッチング処理時に、これらと同じ情報を取得画像データから抽出してマッチングを行う構成と、これらの情報に基づき、画像データを再構成して、再構成した画像データとのマッチングを行う構成とがある。
また、上記実施形態において、コミック画像データを、イメージスキャナから取得する構成としたが、この構成に限らない。例えば、USBメモリ等のコンパクトメモリ、CDドライブ、DVDドライブ、ブルーレイドライブ等を経由して取得する構成としてもよいし、ネットワーク経由で他のPC等から取得する構成としてもよい。
また、上記実施形態は、本発明の好適な具体例であり、技術的に好ましい種々の限定が付されているが、本発明の範囲は、上記の説明において特に本発明を限定する旨の記載がない限り、これらの形態に限られるものではない。また、上記の説明で用いる図面は、図示の便宜上、部材ないし部分の縦横の縮尺は実際のものとは異なる模式図である。
また、本発明は上記実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
1…コミック画像データ検出システム、100…コミック画像データ検出装置、200_1〜200_N…Webサーバ、10…コミック画像データ取得部、11…コマ割情報抽出部、12…データ通信部、13…Webサイト検索部、14…画像データ取得部、15…マッチング部、16…判定部、17…検出部、18…検出結果表示部、60…CPU、62…RAM、64…ROM、66…I/F、68…バス、70…記憶装置、72…表示装置、74…入力装置、76…イメージスキャナ、78…NIC

Claims (7)

  1. Webサイト上に存在する画像データから、検出対象のコミックにおける予め設定されたページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出するコミック画像データ検出装置であって、
    前記検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割に係る情報であるコマ割情報を抽出するコマ割情報抽出手段と、
    前記コマ割情報抽出手段で抽出したコマ割情報を記憶するコマ割情報記憶手段と、
    前記Webサイトから画像データを取得する画像データ取得手段と、
    前記画像データ取得手段で取得した画像データと前記コマ割情報記憶手段に記憶されているコマ割情報とに基づき、前記取得した画像データと前記コマ割情報とのマッチングを行うマッチング手段と、
    前記マッチング手段のマッチング結果に基づく前記取得した画像データと前記コミック画像データとの類似度に基づき、前記取得した画像データから前記コミック画像データと一致又は類似する画像データを検出する検出手段と、を備え
    前記コマ割情報抽出手段は、前記コミック画像データを、該コミック画像データの画像に含まれるエッジ成分の分布を示す画像データであるエッジ画像データに変換し、該エッジ画像データから、前記コマ割情報として、コマ割された各コマの外縁部分に対応するエッジ成分のみが描画された画像データであるコマ割画像データを抽出すると共に、アスペクト比を保持したままで画像サイズを変更して構成される、画像サイズの異なる複数のコマ割画像データを生成することを特徴とするコミック画像データ検出装置。
  2. 前記検出手段は、Webサイト毎に、前記一致又は類似する画像データとして検出された画像データに基づき、検出された画像データが予め設定された絞込条件に合致しているか否かを判定し、合致している判定すると、当該画像データを違法に公開された可能性のあるコミック画像データとして検出するようになっており、
    前記検出手段で検出された、違法に公開された可能性のあるコミック画像データと、該画像データを公開しているWebサイトの情報とを対応付けて記憶するサイト情報記憶手段を備えることを特徴とする請求項に記載のコミック画像データ検出装置。
  3. 前記検出手段は、前記一致又は類似する画像データとして検出された画像データが、予め設定されたページ数以上のコミック画像データを含むと判定された場合に、前記絞込条件に合致すると判定することを特徴とする請求項に記載のコミック画像データ検出装置。
  4. Webサイト上に存在する画像データから、検出対象のコミックにおける予め設定されたページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出するコミック画像データ検出装置であって、
    前記検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割に係る情報であるコマ割情報を抽出するコマ割情報抽出手段と、
    前記コマ割情報抽出手段で抽出したコマ割情報を記憶するコマ割情報記憶手段と、
    前記Webサイトから画像データを取得する画像データ取得手段と、
    前記画像データ取得手段で取得した画像データと前記コマ割情報記憶手段に記憶されているコマ割情報とに基づき、前記取得した画像データと前記コマ割情報とのマッチングを行うマッチング手段と、
    前記マッチング手段のマッチング結果に基づく前記取得した画像データと前記コミック画像データとの類似度に基づき、前記取得した画像データから前記コミック画像データと一致又は類似する画像データを検出する検出手段と、を備え、
    前記検出手段は、Webサイト毎に、前記一致又は類似する画像データとして検出された画像データに基づき、検出された画像データが予め設定されたページ数以上のコミック画像データを含むか否かを判定し、含むと判定すると、当該画像データを違法に公開された可能性のあるコミック画像データとして検出するようになっており、
    前記検出手段で検出された、違法に公開された可能性のあるコミック画像データと、該画像データを公開しているWebサイトの情報とを対応付けて記憶するサイト情報記憶手段を備えることを特徴とするコミック画像データ検出装置。
  5. 前記コマ割情報抽出手段は、前記コミック画像データを、該コミック画像データの画像に含まれるエッジ成分の分布を示す画像データであるエッジ画像データに変換し、該エッジ画像データから、前記コマ割情報として、コマ割された各コマの外縁部分に対応するエッジ成分のみが描画された画像データであるコマ割画像データを抽出することを特徴とする請求項4に記載のコミック画像データ検出装置。
  6. Webサイト上に存在する画像データから、検出対象のコミックにおける予め設定されたページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出するコミック画像データ検出プログラムであって、
    前記検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割に係る情報であるコマ割情報を抽出するコマ割情報抽出手段、
    前記Webサイトから画像データを取得する画像データ取得手段、
    前記画像データ取得手段で取得した画像データと前記コマ割情報抽出手段で抽出したコマ割情報が記憶されたコマ割情報記憶手段に記憶されているコマ割情報とに基づき、前記取得した画像データと前記コマ割情報とのマッチングを行うマッチング手段、及び、
    前記マッチング手段のマッチング結果に基づく前記取得した画像データと前記コミック画像データとの類似度に基づき、前記取得した画像データから前記コミック画像データと一致又は類似する画像データを検出する検出手段として実現される機能をコンピュータに実行させるためのプログラムを含み、
    前記コマ割情報抽出手段は、前記コミック画像データを、該コミック画像データの画像に含まれるエッジ成分の分布を示す画像データであるエッジ画像データに変換し、該エッジ画像データから、前記コマ割情報として、コマ割された各コマの外縁部分に対応するエッジ成分のみが描画された画像データであるコマ割画像データを抽出すると共に、アスペクト比を保持したままで画像サイズを変更して構成される、画像サイズの異なる複数のコマ割画像データを生成することを特徴とするコミック画像データ検出プログラム。
  7. Webサイト上に存在する画像データから、検出対象のコミックにおける予め設定されたページを画像データ化したデータであるコミック画像データと一致又は類似する画像データを検出するコミック画像データ検出プログラムであって、
    前記検出対象のコミックのコミック画像データから、該コミック画像データにおける、少なくともコマ割された各コマの形状及び各コマの位置の情報を含むコマ割に係る情報であるコマ割情報を抽出するコマ割情報抽出手段、
    前記Webサイトから画像データを取得する画像データ取得手段、
    前記画像データ取得手段で取得した画像データと前記コマ割情報抽出手段で抽出したコマ割情報が記憶されたコマ割情報記憶手段に記憶されているコマ割情報とに基づき、前記取得した画像データと前記コマ割情報とのマッチングを行うマッチング手段、及び、
    前記マッチング手段のマッチング結果に基づく前記取得した画像データと前記コミック画像データとの類似度に基づき、前記取得した画像データから前記コミック画像データと一致又は類似する画像データを検出する検出手段として実現される機能をコンピュータに実行させるためのプログラムを含み、
    前記検出手段は、Webサイト毎に、前記一致又は類似する画像データとして検出された画像データに基づき、検出された画像データが予め設定されたページ数以上のコミック画像データを含むか否かを判定し、含むと判定すると、当該画像データを違法に公開された可能性のあるコミック画像データとして検出するようになっており、
    前記検出手段で検出された、違法に公開された可能性のあるコミック画像データと、該画像データを公開しているWebサイトの情報とを対応付けて記憶するサイト情報記憶手段として実現される機能をコンピュータに実行させるためのプログラムを含むことを特徴とするコミック画像データ検出プログラム。
JP2012019066A 2012-01-31 2012-01-31 コミック画像データ検出装置及びコミック画像データ検出プログラム Expired - Fee Related JP5880089B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012019066A JP5880089B2 (ja) 2012-01-31 2012-01-31 コミック画像データ検出装置及びコミック画像データ検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012019066A JP5880089B2 (ja) 2012-01-31 2012-01-31 コミック画像データ検出装置及びコミック画像データ検出プログラム

Publications (2)

Publication Number Publication Date
JP2013156946A JP2013156946A (ja) 2013-08-15
JP5880089B2 true JP5880089B2 (ja) 2016-03-08

Family

ID=49052034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012019066A Expired - Fee Related JP5880089B2 (ja) 2012-01-31 2012-01-31 コミック画像データ検出装置及びコミック画像データ検出プログラム

Country Status (1)

Country Link
JP (1) JP5880089B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101841192B1 (ko) * 2016-11-16 2018-03-22 주식회사 디알엠인사이드 온라인 만화 식별 시스템 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6570219B2 (ja) * 2014-06-30 2019-09-04 日本信号株式会社 物体検出装置
CN113792182B (zh) * 2021-09-17 2023-08-08 广州博冠信息科技有限公司 图像进度的提示方法及装置、存储介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6425081B1 (en) * 1997-08-20 2002-07-23 Canon Kabushiki Kaisha Electronic watermark system electronic information distribution system and image filing apparatus
JP4407955B2 (ja) * 2005-10-18 2010-02-03 株式会社タイトー 漫画のページ認識方式および漫画情報再生システム
JP5082917B2 (ja) * 2008-02-25 2012-11-28 日本電気株式会社 違法情報検出装置、違法情報検出方法、及び違法情報検出プログラム
JP5378963B2 (ja) * 2009-11-27 2013-12-25 株式会社野村総合研究所 電子漫画管理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101841192B1 (ko) * 2016-11-16 2018-03-22 주식회사 디알엠인사이드 온라인 만화 식별 시스템 및 방법

Also Published As

Publication number Publication date
JP2013156946A (ja) 2013-08-15

Similar Documents

Publication Publication Date Title
US7106330B2 (en) Drawing comparison apparatus
JP5844783B2 (ja) テキスト領域を含むグレースケール文書画像を処理する方法、グレースケール文書画像の少なくともテキスト領域を二値化する方法、グレースケール文書画像においてグリッドを形成するテーブルの抽出方法及びプログラム
JP5095535B2 (ja) 画像処理方法、画像処理システム、画像処理装置及びプログラム
JP3345350B2 (ja) 文書画像認識装置、その方法、及び記録媒体
US7460710B2 (en) Converting digital images containing text to token-based files for rendering
US7965892B2 (en) Image processing apparatus, control method thereof, and program
JP5467643B2 (ja) 文書の類似度を判定する方法、装置及びプログラム。
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
US8838657B1 (en) Document fingerprints using block encoding of text
US6711292B2 (en) Block selection of table features
TW201543378A (zh) 偵測及擷取影像文件組成部分以產生流程文件
CN109697414B (zh) 一种文本定位方法及装置
KR20010053788A (ko) 내용기반 이미지 검색 시스템 및 그 방법
JP2011028459A (ja) 画像処理方法および画像処理装置およびプログラム
JP2008225692A (ja) 画像検索方法、装置およびプログラム
JP5880089B2 (ja) コミック画像データ検出装置及びコミック画像データ検出プログラム
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
JP5984880B2 (ja) 画像処理装置
Dornauer et al. Web Image Formats: Assessment of Their Real-World-Usage and Performance Across Popular Web Browsers
Yang et al. Effective geometric restoration of distorted historical document for large‐scale digitisation
CN108804652B (zh) 封面图片的生成方法、装置、存储介质和电子装置
US8488886B2 (en) Font matching
JP4804433B2 (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160118

R150 Certificate of patent or registration of utility model

Ref document number: 5880089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees