JP2004287670A - 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体 - Google Patents

画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2004287670A
JP2004287670A JP2003077088A JP2003077088A JP2004287670A JP 2004287670 A JP2004287670 A JP 2004287670A JP 2003077088 A JP2003077088 A JP 2003077088A JP 2003077088 A JP2003077088 A JP 2003077088A JP 2004287670 A JP2004287670 A JP 2004287670A
Authority
JP
Japan
Prior art keywords
image
keyword
group
database
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003077088A
Other languages
English (en)
Inventor
Hiroyuki Miyajima
裕幸 宮嶋
Seiji Matsumoto
征二 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2003077088A priority Critical patent/JP2004287670A/ja
Publication of JP2004287670A publication Critical patent/JP2004287670A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】キーワードによる画像検索を可能とする画像群データベースを自動作成する画像データベース作成方法を提供する。
【解決手段】コンピュータ3は、ネットワーク19を介して収集した画像データ9を、画像特徴量を基に画像グループに分類して画像グループデータ13に保存する。また画像データ9それぞれに自動的にキーワードを付与して、キーワード群データ15を作成する。また、画像グループ毎に、グループ内全画像のキーワード群を統合して、グループキーワード群データ17を作成する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワーク上のマルチメディアデータから画像群データベースを作成する方法に関する。
【0002】
【従来の技術】
インターネットにおいて、画像・動画等のマルチメディアデータは、ユーザの視覚に直接訴えることのできる有効な情報伝達手段である。そして、これらインターネット上の大量の画像の中から必要な画像を検索することは、重要な課題になってきている。
【0003】
インターネット上のドキュメント検索システムとしては、ロボットプログラム(スパイダ)によるデータベース自動作成システム等が知られている。
【0004】
インターネット上の画像を検索する手段としては、検索のキーとなる基本画像を設定し、画像データの特徴量等の情報を基に類似画像検索を提供するシステムが知られている(例えば特許文献1参照)。また、画像一つ一つに、作業者がキーワードを付与して保存し、このキーワードを基に画像検索を行う方法がある。例えば特許文献2のシステムは、画像検索の効率化に関するものであるが、作業者が各画像に特徴となるキーワードを入力して、画像及びキーワードのデータベースが作成されている。
【0005】
【特許文献1】
特開2003−36273号公報
【特許文献2】
特開2001−160062号公報
【0006】
【発明が解決しようとする課題】
しかしながら、従来の基本画像を基に類似画像検索を行う方法では、画像検索をするにあたり、検索のキーとなる基本画像を予め設定しなくてはならない。またこの方法では、テキストを検索するときのように、キーワードを設定して画像検索を行うことはできない。
【0007】
また、キーワードを設定して画像を検索する方法では、予め画像一つ一つに、作業者がキーワードを付与して保存しておかなくてはならない。この画像検索方法は、キーワード付与のコストや時間がかかると共に、キーワード付与時に作業者の主観が入るという問題点がある。
【0008】
本発明は、このような問題に鑑みてなされたもので、その目的とするところは、キーワードによる画像検索を可能とする画像群データベースを自動作成する画像データベース作成方法を提供することにある。
【0009】
【課題を解決するための手段】
前述した目的を達成するために第1の発明は、ネットワークに接続されたコンピュータと、データベースとからなる画像データベース作成装置であって、前記コンピュータは、前記ネットワーク経由でデータを収集し、前記データベースに保存する保存手段と、前記データベース内の画像データをグループ化する画像グループ化手段と、前記画像グループを、前記データベースに保存する画像グループ保存手段と、前記画像データにキーワード群を付与するキーワード付与手段と、前記画像グループに含まれる前記画像データのキーワード群を統合するキーワード統合手段とを、具備することを特徴とする画像データベース作成装置である。
【0010】
前記画像グループ手段は、前記画像データの画像特徴量を抽出してベクトル化し、類似ベクトルを有する画像データをグループ化する。
前記画像特徴量は、カラーヒストグラム、エッジ、テクスチャ等である。カラーヒストグラムは、画像の色情報、即ちRGB信号、輝度・色差(色相)信号等をヒストグラム化したものであり、ベクトル量で表される。エッジは、画像の各部分から抽出したエッジ(輪郭)を例えば25次元にベクトル化したベクトル量である。テクスチャは、ピクセルごとの輝度の変化を解析して多次元ベクトル化したベクトル量である。これらの多次元ベクトルで表された画像特徴量を、該当する画像データ固有のベクトルとし管理する。また、この多次元ベクトルを、自己組織化マップ(SOM)等の手法を用いて2次元にベクトル化し、画像の分類(クラスタリング)に利用する。
自己組織化マップとは、多次元のベクトルにより表されたデータを、その特徴を残し他のデータとの相互関係を保ったまま、2次元のマップに写像することであり、多次元のデータの関係が2次元平面上の距離として表される。この2次元平面上の距離が近いベクトル(類似ベクトル)を、同一グループに分類する。
前記キーワード付与手段は、前記画像データを含むHTMLドキュメントの中からキーワードを抽出する。HTMLドキュメント中のテキストデータから、重要キーワードを形態素解析及びTF−IDFの手法を用いて抽出し、キーワード群を生成する。形態素解析とは、文章を最小の単語に区切ることである。TF−IDFは、TF(Term Frequency)文書に高頻度で現れること、IDF(Inverse Document Frequency)少数の文書にしか現れないことが、重要キーワードであるとする手法である。
又は、前記キーワード付与手段は、前記画像データを含むHTMLドキュメントに対して、最も引用度スコアの高いHTMLドキュメント中からキーワードを抽出する。即ち、前記画像を含むHTMLドキュメント中にテキストデータがない場合には、最も引用度スコアの高いHTMLドキュメント中のテキストデータからキーワードを抽出する。
引用度スコアとは、多数引用されるページは信頼でき、また信頼できるページに引用されるページも信頼できるという再帰的な関係で該当ページの引用度を算出するものである。
前記キーワード統合手段は、前記画像グループを構成する全ての前記画像データのキーワード群を統合して、前記画像グループに対応する1つのキーワード群を作成する。
【0011】
第1の発明の画像データベース作成装置は、ネットワークに接続されたコンピュータとデータベースとからなり、コンピュータは、ネットワーク経由で収集し、データベースに保存した画像データを、画像特徴量を基にグループ化する。また、画像毎にキーワード群を作成し、更に同じグループ内の全画像データのキーワード群を統合して、1つの画像グループに対応する1つのグループキーワード群を作成する。
【0012】
第2の発明は、ネットワークに接続されたコンピュータと、データベースとからなる画像データベース作成装置において、前記コンピュータは、前記ネットワーク経由でデータを収集し、前記データベースに保存する保存工程と、前記データベース内の画像データをグループ化する画像グループ化工程と、前記画像グループを、前記データベースに保存する画像グループ保存工程と、前記画像データにキーワード群を付与するキーワード付与工程と、前記画像グループに含まれる前記画像データのキーワード群を統合するキーワード統合工程とを、有することを特徴とする画像データベース作成方法である。
【0013】
第2の発明の画像データベース作成方法は、ネットワーク経由で収集し、データベースに保存した画像データを、画像特徴量を基にグループ化する。また、画像毎にキーワード群を作成し、更に同じグループ内の全画像データのキーワード群を統合して、1つの画像グループに対応する1つのグループキーワード群を作成する。
【0014】
第3の発明は、コンピュータを、請求項1から請求項6記載のいずれかの画像データベース作成装置として機能させるためのプログラムである。
【0015】
第3の発明のプログラムは、コンピュータを請求項1から請求項6記載のいずれかの画像データベース作成装置として機能させるものであり、このプログラムをネットワークを介して流通させることもできる。
【0016】
第4の発明は、コンピュータを、請求項1から請求項6記載のいずれかの画像データベース作成装置として機能させるためのプログラムを記録した記録媒体である。
【0017】
第4の発明の記録媒体は、コンピュータを請求項1から請求項6記載のいずれかの画像データベース作成装置として機能させるためのプログラムを記憶しており、この記録媒体を流通させることもでき、またこのプログラムをネットワークを介して流通させることもできる。
【0018】
【発明の実施の形態】
以下、図面に基づいて本発明の実施の形態を詳細に説明する。
【0019】
(1.構成)
図1は、本発明の実施の形態に係る画像データベース作成装置1の構成を示す図である。画像データベース作成装置1は、コンピュータ3と、収集データデータベース5と、生成データデータベース7とで構成される。コンピュータ3は、インターネットやイントラネット等のネットワーク19に接続されており、他の端末装置21等とネットワーク19を介して接続される。本実施の形態に示す画像データベース作成装置1及びネットワーク19は、閉鎖された1つの事業所に適用されるものとしてもよいし、一般的なインターネットネットワーク19として開放的に適用されるものであってもよい。
【0020】
収集データデータベース5は、コンピュータ5が、ネットワーク19経由で収集したWebデータを保存する。保存データは、画像データ9とHTMLドキュメント11として記録される。
【0021】
生成データデータベース7は、画像グループデータ13、キーワード群データ15、グループキーワード群データ17からなり、収集データから生成されるデータである。
【0022】
画像グループデータ13は、類似する画像データ9をグループ化したものである。キーワード群データ15は、画像データ9の1つ1つの画像に、その画像に関連の高いキーワードを付与し、キーワード群を作成したものである。グループキーワード群データ17は、前述の画像グループデータ13の1つの画像グループ毎に、グループを構成する全画像データのキーワード群を統合して1つのグループキーワード群を作成したものである。
【0023】
本実施の形態では、コンピュータ3が、
1)収集した画像データ9を、自動的に類似画像を画像グループに分類して画像グループデータ13を作成し、
2)画像データ9ごとに、自動的にキーワードを抽出してキーワード群データ13を作成し、
3)画像グループごとに、自動的にキーワードを統合してグループキーワード群データ17を作成する。
【0024】
(2.画像データベース作成方法)
次に、本実施の形態の画像データベース作成方法の詳細について説明する。
【0025】
(2−1 画像データのクラスタリング)
まず、本実施の形態において、収集した画像データ9をクラスタリング(分類)する手順について説明する。図2に、画像データのクラスタリング201を示すフローチャートを示す。
【0026】
収集データデータベース5には、コンピュータ3がネットワーク19経由で様々なデータ(例えば画像やテキストで構成されたWebのページ)を収集して保存している。コンピュータ3は、保存されている画像データ9を取得する(ステップ202)。
【0027】
次に、該画像データ9の画像特徴量を抽出し、ベクトル化する(ステップ203)。画像特徴量としては、カラーヒストグラム、エッジ、テクスチャ等のそれぞれを多次元ベクトルとして算出する。
【0028】
カラーヒストグラムは、画像の色情報、即ちRGB信号、輝度・色差(色相)信号等をヒストグラム化したものであり、ベクトル量で表される。エッジは、画像の各部分から抽出したエッジ(輪郭)を例えば25次元にベクトル化したベクトル量である。テクスチャは、ピクセルごとの輝度の変化を解析して多次元ベクトル化したベクトル量である。
【0029】
これらの多次元ベクトルで表された画像特徴量を、自己組織化マップ(SOM)等の手法を用いて2次元にベクトル化し、該当する画像データ固有のベクトル(図5参照)を算出する。尚、図5に示す1つの画像データ9のベクトルは1つの「×」で2次元平面上に表される。
【0030】
このようにして、収集した全部の画像データ9について、ステップ202からステップ203の処理を行い(ステップ204のNO)、全ての画像データ9に画像特徴量から算出されるベクトルを付与する。
【0031】
次に、ベクトル化された画像データ9を基に、類似ベクトルを抽出して、画像群をグループ化する(ステップ205)。図5は、画像データ9を1つずつベクトル化して「×」で示したものを2次元平面に示したものであり、2次元平面上の距離が近いものほど画像の類似度が高いとされる。図5の例では、画像データ9は3つのグループ、画像グループ51、53、55に大きく分類される。尚、分類条件は適宜変更できる。
【0032】
グループ化した画像群ごとに代表ベクトル57を生成する(ステップ206)。例えば画像グループ51を形成する画像データ全てのベクトルの平均を求め、これをこの画像グループ51の代表ベクトル57とする。
【0033】
コンピュータ3は、生成データベース7に、グループ化した画像グループ、及びその代表ベクトル57を、画像グループデータ13として作成し保存する(ステップ207から▲1▼へ)。
【0034】
(2−2 画像のキーワード抽出)
次のステップとして、図3の▲1▼に進み、画像のキーワード抽出301について説明する。図3は、画像のキーワード抽出301を示すフローチャートであり、各画像データ9にコンピュータ3が自動的にキーワード群を付与する。従来の、作業者が画像データを見て付与する方法と比較すると、時間的短縮、及び作業者の主観が入らない公正なキーワード抽出データが得られるという効果が期待できる。
【0035】
まず、コンピュータ3は、収集データベース5に保存された画像データ9の中から、画像を選択し、該画像を含むHTMLドキュメント11を取得する(ステップ302)。
【0036】
このHTMLドキュメント11のリンク構造解析を行い、引用度スコアを計算する(ステップ303)。引用度スコアとは、多数引用されるページ(HTMLドキュメントと同義)は信頼でき、また信頼できるページに引用されるページも信頼できるという再帰的な関係を仮定し、Webページの重要さを定義した指標を表している。ページからページへのリンクが引用関係を表すので、リンク構造を解析することで引用度を計算できる。各ページの引用度スコアは、そのページが他のページから受けているリンクの重みを累積して計算する。多数引用されるほど、引用度スコアは高くなる。
【0037】
図6は、引用度スコアを示す図である。例えば、HTMLドキュメント61が、他のHTMLドキュメント63、65、67から引用されているとする。HTMLドキュメント63の引用度スコアは「50」、HTMLドキュメント65の引用度スコアは「30」、HTMLドキュメント67の引用度スコアは「35」であることを示し、HTMLドキュメント61は、最も引用度スコアの高いHTMLドキュメント63に、最も関連性が高いと判断される。
【0038】
次に、HTMLドキュメント11にテキストデータが含まれている場合(ステップ304のYES)、コンピュータ3は該当するHTMLドキュメント11からテキストを抽出する(ステップ305)。図7は、HTMLドキュメント61が複数のテキストと複数の画像を含む場合を示した図である。
【0039】
このとき、ドキュメント中のテーブル71をタグ解析した、テーブルタグ77を図8に示す。テキスト領域73の「テキスト1」と画像領域75の「画像A」とは、それぞれテーブルタグ77内のHTMLテキスト部分79「テキスト1」とHTML画像部分81「画像A」に対応している。したがって、画像Aのキーワードを抽出するためのテキストとして、「テキスト1」が選定される。
【0040】
次に、HTMLドキュメント11が、画像のみのドキュメントであってテキストデータが含まれていない場合(ステップ304のNO)、コンピュータ3は、最も引用度スコアの高いHTMLドキュメント11を選択してテキストを抽出する(ステップ307)。尚、引用度スコアはステップ303で算出したデータを用い(ステップ306)、最も引用度スコアの高いHTMLドキュメント中からテキストを抽出する。
【0041】
次に、抽出されたテキストの形態素解析を行う(ステップ308)。形態素解析とは、文章から単語を切り出すことであり、意味をもつ最小の言語単位(形態素)の範囲を抽出することである。
【0042】
次に形態素解析された単語を、TF−IDF解析して、重要キーワードを抽出する(ステップ309)。TF−IDF解析とは、TF(Term Frequency)文書に高頻度で現れるキーワード、IDF(Inverse Document Frequency)少数の文書にしか現れないキーワードが、重要キーワードであるとする手法である。またTF−IDF解析で、抽出されるキーワードを点数化し、重要度スコアとして算出する。
【0043】
このようにして、コンピュータ3は1つの画像に対して複数のキーワードを自動的に抽出する。図9に、画像83と、キーワード群87との関係を示す。画像83「G01−001」は、画像のクラスタリング(ステップ201)処理後、図5に示すように画像グループ51「G01」にクラスタリング(分類)される。同じ画像グループ51「G01」には、画像85「G01−002」等が含まれている。
【0044】
図9において、画像83「G01−001」には、画像のキーワード抽出(ステップ301)処理により、重要度スコア93順にキーワード91を抽出したキーワード群87「K01−001」が紐付けされる(ステップ310)。作成されるキーワード群は、生成データデータベース7に、キーワード群データ15として保存される。
【0045】
上記のように、コンピュータ3は、収集データベース5に保存する全ての画像について、キーワード群作成を行う(ステップ311のNOから▲2▼へ)。
(2−3 グループキーワード群作成)
【0046】
次に、図4の▲2▼に進み、画像グループのグループキーワード群作成ステップ401について説明する。図4は、画像グループのグループキーワード群作成401を示すフローチャートであり、コンピュータ3が各画像グループのキーワード群を自動的に作成する。
【0047】
まず、コンピュータ3は、画像グループデータ13を取得する(ステップ402)。その中から、例えば画像グループ51「G01」(図9参照)の、グループキーワード群を作成するものとする。
【0048】
画像グループ51「G01」に登録されている画像83「G01−001」に紐付けされているキーワード群87「K01−001」をキーワード群データ15から取得する(ステップ403)。
【0049】
次に、キーワードの統合と追加処理をして(ステップ404)、画像グループ51「G01」のグループキーワード群95「K01」を作成する。即ち、画像グループ51「G01」の全画像についてステップ403、ステップ404の処理を繰り返す(ステップ405のYES)。
【0050】
例えば、図9において、画像グループ51「G01」の、画像83「G01−001」のキーワード群87「K01−001」と、画像85「G01−002」のキーワード群89「K01−002」とを統合したものは、グループキーワード群95「K01」に示される。
【0051】
グループキーワード群95「K01」のキーワード91「サッカー」の重要度スコア93「25」は、キーワード群87「K01−001」の「サッカー」の重要度スコア「10」と、キーワード群89「K01−002」の「サッカー」の重要度スコア「15」とを加算したものであり、他のキーワード91についても同様の計算を行う。
【0052】
画像グループ51「G01」の全画像について、キーワード91の重要度スコア93の加算処理を行った結果、その画像グループ51のグループキーワード群95「K01」作成を終了する。その際、キーワード91を重要度スコア93の高いものから順に、例えば上位10個分を登録するようにする。
【0053】
上述のように作成されたグループキーワード群95と、画像グループ51とを紐付けする(ステップ406)。
【0054】
ステップ402からステップ406の処理を、画像グループデータ13に登録されている全ての画像グループについて実行し(ステップ407のYES)、個々の画像グループに対し、グループキーワード群を作成する(ステップ407のNO)。生成データデータベース7には、グループキーワード群データ17が作成される(図1参照)。
【0055】
(3.新規画像追加の処理)
コンピュータ3が、新規に画像及びHTMLドキュメントを収集した場合、更新処理の高速化のため、次の方法で追加更新を行う。
【0056】
まず、新規HTMLドキュメントに含まれる画像の、画像特徴量ベクトルと、ステップ206(図2)で作成した画像群の代表ベクトル57とをそれぞれ比較し、最も近い代表ベクトル57を持つ画像グループに該等する画像を加える。
【0057】
画像が追加された画像グループのグループキーワード群95には、新規HTMLドキュメントに含まれるキーワード群を新たに追加統合する。
【0058】
尚、更新データが一定量を超えた場合、即ち、全体の中での新規画像のウェイトが大きくなったら、全体のクラスタリング等に影響を及ぼすので、全データから再計算を行う。
【0059】
(4.効果、その他)
このように、本実施の形態によれば、コンピュータ3が、
1)収集した画像データ9を、画像特徴量を基に自動的に画像グループに分類し、
2)画像データ9ごとに、自動的にキーワードを抽出してキーワード群を作成し、
3)画像グループごとに、自動的にキーワードを統合してグループキーワード群を作成する。従って、全ての工程が自動で行われるので、時間的な効率化を図ることが出来る。
【0060】
また、キーワード抽出工程では、作業者の主観の違いによる抽出差が入らないので、客観的かつ抽出基準の明確な画像群データベースを作成することができる。
【0061】
また、本実施の形態によって作成される画像群データベースは、キーワードで画像を検索できるので、ユーザにとっては利用が容易である。
【0062】
また、本実施の形態では、ネットワーク19で画像やHTMLドキュメントを収集するとしたが、カタログ・雑誌・写真等の画像にキーワードを付与して分類する場合等にも本実施の形態の一部の機能を応用することができる。
【0063】
尚、本発明の技術的範囲は、前述した実施の形態に限られるものではない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【0064】
【発明の効果】
以上、詳細に説明したように本発明によれば、キーワードによる画像検索を可能とする画像群データベースを自動作成する画像データベース作成方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る画像データベース作成装置1の構成を示す図
【図2】画像データのクラスタリング201を示すフローチャート
【図3】画像のキーワード抽出301を示すフローチャート
【図4】画像グループのグループキーワード群作成を示すフローチャート
【図5】画像の代表ベクトル57を示す図
【図6】引用度スコアを示す図
【図7】HTMLドキュメント61を示す図
【図8】HTMLドキュメントのタグ解析を示す図
【図9】グループキーワード群95の作成を示す図
【符号の説明】
1・・・ 画像データベース作成装置
3・・・ コンピュータ
5・・・ 収集データデータベース
7・・・ 生成データデータベース
9・・・ 画像データ
11・・・ HTMLドキュメント
13・・・ 画像グループデータ
15・・・ キーワード群データ
17・・・ グループキーワード群データ
19・・・ ネットワーク
21・・・ 端末装置
51、53、55・・・ 画像グループ
57・・・ 代表ベクトル
61、63、65、67・・・ HTMLドキュメント
71・・・ テーブル
73・・・ テキスト領域
75・・・ 画像領域
77・・・ テーブルタグ
79・・・ HTMLテキスト部分
81・・・HTML画像部分
83、85・・・ 画像
87、89・・・ キーワード群
91・・・ キーワード
93・・・ 重要度スコア

Claims (14)

  1. ネットワークに接続されたコンピュータと、データベースとからなる画像データベース作成装置であって、
    前記コンピュータは、
    前記ネットワーク経由でデータを収集し、前記データベースに保存する保存手段と、
    前記データベース内の画像データをグループ化する画像グループ化手段と、
    前記画像グループを、前記データベースに保存する画像グループ保存手段と、
    前記画像データにキーワード群を付与するキーワード付与手段と、
    前記画像グループに含まれる前記画像データのキーワード群を統合するキーワード統合手段と、
    を、具備することを特徴とする画像データベース作成装置。
  2. 前記画像グループ化手段は、前記画像データの画像特徴量を抽出してベクトル化し、類似ベクトルを有する画像データをグループ化することを特徴とする請求項1記載の画像データベース作成装置。
  3. 前記画像特徴量は、カラーヒストグラム、エッジ、テクスチャ等であることを特徴とする請求項2記載の画像データベース作成装置。
  4. 前記キーワード付与手段は、前記画像データを含むHTMLドキュメント中からキーワードを抽出することを特徴とする請求項1記載の画像データベース作成装置。
  5. 前記キーワード付与手段は、前記画像データを含むHTMLドキュメントに対して、最も引用度スコアの高いHTMLドキュメント中からキーワードを抽出することを特徴とする請求項1記載の画像データベース作成装置。
  6. 前記キーワード統合手段は、前記画像グループを構成する全ての前記画像データのキーワード群を統合して、前記画像グループに対応する1つのキーワード群を作成することを特徴とする請求項1記載の画像データベース作成装置。
  7. ネットワークに接続されたコンピュータと、データベースとからなる画像データベース作成装置において、
    前記コンピュータは、
    前記ネットワーク経由でデータを収集し、前記データベースに保存する保存工程と、
    前記データベース内の画像データをグループ化する画像グループ化工程と、
    前記画像グループを、前記データベースに保存する画像グループ保存工程と、
    前記画像データにキーワード群を付与するキーワード付与工程と、
    前記画像グループに含まれる前記画像データのキーワード群を統合するキーワード統合工程と、
    を、有することを特徴とする画像データベース作成方法。
  8. 前記画像グループ化工程は、前記画像データの画像特徴量を抽出してベクトル化し、類似ベクトルを有する画像データをグループ化することを特徴とする請求項7記載の画像データベース作成方法。
  9. 前記画像特徴量は、カラーヒストグラム、エッジ、テクスチャ等であることを特徴とする請求項8記載の画像データベース作成方法。
  10. 前記キーワード付与工程は、前記画像データを含むHTMLドキュメント中からキーワードを抽出することを特徴とする請求項7記載の画像データベース作成方法。
  11. 前記キーワード付与工程は、前記画像データを含むHTMLドキュメントに対して、最も引用度スコアの高いHTMLドキュメント中からキーワードを抽出することを特徴とする請求項7記載の画像データベース作成方法。
  12. 前記キーワード統合工程は、前記画像グループを構成する全ての前記画像データのキーワード群を統合して、前記画像グループに対応する1つのキーワード群を作成することを特徴とする請求項7記載の画像データベース作成方法。
  13. コンピュータを、請求項1から請求項6記載のいずれかの画像データベース作成装置として機能させるためのプログラム。
  14. コンピュータを、請求項1から請求項6記載のいずれかの画像データベース作成装置として機能させるためのプログラムを記録した記録媒体。
JP2003077088A 2003-03-20 2003-03-20 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体 Pending JP2004287670A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077088A JP2004287670A (ja) 2003-03-20 2003-03-20 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077088A JP2004287670A (ja) 2003-03-20 2003-03-20 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2004287670A true JP2004287670A (ja) 2004-10-14

Family

ID=33291929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077088A Pending JP2004287670A (ja) 2003-03-20 2003-03-20 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2004287670A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093358A1 (ja) * 2010-01-27 2011-08-04 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム及び記録媒体
WO2012032971A1 (ja) * 2010-09-07 2012-03-15 オリンパス株式会社 キーワード付与装置及び記録媒体
KR101137243B1 (ko) * 2007-04-17 2012-04-20 (주)야긴스텍 온톨로지 기반의 인텔리전트 이씨엠 시스템
JP2012155524A (ja) * 2011-01-26 2012-08-16 Olympus Corp キーワード付与装置、プログラム及び情報記憶媒体
JP2015041225A (ja) * 2013-08-21 2015-03-02 日本電信電話株式会社 情報処理装置、情報抽出装置、及びプログラム
JP2016076115A (ja) * 2014-10-07 2016-05-12 株式会社Nttドコモ 情報処理装置、情報処理方法及びプログラム
JP2017530451A (ja) * 2014-12-30 2017-10-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報検索方法及び装置
CN111460206A (zh) * 2020-04-03 2020-07-28 百度在线网络技术(北京)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
JP7469262B2 (ja) 2021-07-16 2024-04-16 Lineヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101137243B1 (ko) * 2007-04-17 2012-04-20 (주)야긴스텍 온톨로지 기반의 인텔리전트 이씨엠 시스템
WO2011093358A1 (ja) * 2010-01-27 2011-08-04 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム及び記録媒体
WO2012032971A1 (ja) * 2010-09-07 2012-03-15 オリンパス株式会社 キーワード付与装置及び記録媒体
JP2012058926A (ja) * 2010-09-07 2012-03-22 Olympus Corp キーワード付与装置及びプログラム
JP2012155524A (ja) * 2011-01-26 2012-08-16 Olympus Corp キーワード付与装置、プログラム及び情報記憶媒体
JP2015041225A (ja) * 2013-08-21 2015-03-02 日本電信電話株式会社 情報処理装置、情報抽出装置、及びプログラム
JP2016076115A (ja) * 2014-10-07 2016-05-12 株式会社Nttドコモ 情報処理装置、情報処理方法及びプログラム
JP2017530451A (ja) * 2014-12-30 2017-10-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報検索方法及び装置
CN111460206A (zh) * 2020-04-03 2020-07-28 百度在线网络技术(北京)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
JP2021163477A (ja) * 2020-04-03 2021-10-11 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
KR20210124033A (ko) * 2020-04-03 2021-10-14 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체
JP7121819B2 (ja) 2020-04-03 2022-08-18 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
KR102609616B1 (ko) * 2020-04-03 2023-12-04 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체
JP7469262B2 (ja) 2021-07-16 2024-04-16 Lineヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US20100299332A1 (en) Method and system of indexing numerical data
CN104408191B (zh) 关键词的关联关键词的获取方法和装置
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US20110022550A1 (en) Mixing knowledge sources with auto learning for improved entity extraction
KR20070102035A (ko) 문서 분류 시스템 및 그 방법
WO2008073784A1 (en) Web site structure analysis
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
US20110022598A1 (en) Mixing knowledge sources for improved entity extraction
KR102334255B1 (ko) AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
JP2007080061A (ja) Webページの検索方法及びWebページのクラスタリング方法
Ruocco et al. A scalable algorithm for extraction and clustering of event-related pictures
JP2004287670A (ja) 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
Wang et al. Relevance feedback technique for content-based image retrieval using neural network learning
Lee et al. A structural and content‐based analysis for Web filtering
JP3746233B2 (ja) 知識分析システムおよび知識分析方法
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN111475607A (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
CN114741550B (zh) 图像搜索方法、装置、电子设备和计算机可读存储介质
Moumtzidou et al. Discovery of environmental nodes in the web
Trieschnigg et al. Hierarchical topic detection in large digital news archives: exploring a sample based approach
KR100809751B1 (ko) 문서분석 시스템 및 그 방법
JPH11213000A (ja) インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
CN114943285A (zh) 互联网新闻内容数据智能审核系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090609