JP2018018428A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2018018428A
JP2018018428A JP2016150364A JP2016150364A JP2018018428A JP 2018018428 A JP2018018428 A JP 2018018428A JP 2016150364 A JP2016150364 A JP 2016150364A JP 2016150364 A JP2016150364 A JP 2016150364A JP 2018018428 A JP2018018428 A JP 2018018428A
Authority
JP
Japan
Prior art keywords
image
phrase
target image
keyword candidate
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016150364A
Other languages
English (en)
Other versions
JP6696344B2 (ja
Inventor
真人 藤垣
Makoto Fujigaki
真人 藤垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2016150364A priority Critical patent/JP6696344B2/ja
Publication of JP2018018428A publication Critical patent/JP2018018428A/ja
Application granted granted Critical
Publication of JP6696344B2 publication Critical patent/JP6696344B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対象画像に類似する画像の検索を用いて抽出された語句を、対象画像の画像属性情報候補として特定する場合と比較して、対象画像を表現するのによりふさわしい語句を画像属性情報候補として特定する。【解決手段】対象画像38に類似する第1画像が含まれる抽出対象データに出現する語句(例えば一次キーワード候補)が抽出され、抽出された語句を用いて第2画像(検索結果画像44,46,48,50,52)が検索される。対象画像38に類似する第2画像の検索に用いられた語句が、対象画像の画像属性情報(例えば最終キーワード候補)として特定される。【選択図】図2

Description

本発明は、情報処理装置及びプログラムに関する。
画像の内容を表現する画像属性情報(例えばキーワードやタグ情報)を自動的に画像に付与する技術が知られている。
特許文献1に記載のシステムにおいては、キーワード付与対象画像の特徴と似た特徴を有する画像を含むhtmlページが検索され、そのhtmlページに記述されている名詞群が抽出される。名詞群の中で出現頻度の高い名詞がキーワード候補として提供される。
特開2011−54006号公報
ところで、画像属性情報の付与対象となる画像(対象画像)に類似する画像の検索を用いて抽出された語句を、対象画像の画像属性情報候補として特定すると、当該語句の対象画像に対する画像属性情報としてのふさわしさを評価することがないため、対象画像を表現するのにふさわしくない語句が画像属性情報候補として特定されてしまう場合がある。
本発明の目的は、対象画像に類似する画像の検索を用いて抽出された語句を、対象画像の画像属性情報候補として特定する場合と比較して、対象画像を表現するのによりふさわしい語句を画像属性情報候補として特定することにある。
請求項1に係る発明は、対象画像に類似する第1画像が含まれる抽出対象データに出現する語句を抽出する抽出手段と、前記抽出された語句を用いて第2画像を検索する画像検索手段と、前記対象画像に類似する第2画像の検索に用いられた語句を、前記対象画像の画像属性情報候補として特定する第1特定手段と、を有する情報処理装置である。
請求項2に係る発明は、前記第1特定手段は、前記画像属性情報候補に関連する語句を前記対象画像の新たな画像属性情報候補として更に特定する、ことを特徴とする請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記画像属性情報候補に関連する語句は、類義語群を定義する類義語辞書情報から抽出された、前記画像属性情報候補の類義語である、ことを特徴とする請求項2に記載の情報処理装置である。
請求項4に係る発明は、複数の対象画像がある場合、前記抽出手段は、対象画像毎に語句を抽出し、前記画像検索手段は、前記複数の対象画像について抽出された語句群のうち共通する語句についてはまとめて前記第2画像を検索する、ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報処理装置である。
請求項5に係る発明は、前記複数の対象画像は、各対象画像が有する印象に従って、互いに異なる印象を有する複数のグループに分類されており、前記画像検索手段は、前記グループ毎に、同一の前記グループに属する対象画像群について抽出された語句群のうち共通する語句についてはまとめて前記第2画像を検索し、当該情報処理装置は、前記グループ毎に、前記第2画像を用いて特定された前記画像属性情報候補であって、同一の前記グループに属する前記対象画像群に共通する前記画像属性情報候補を、同一の前記グループに属する前記対象画像群についての共通属性情報候補として特定する第2特定手段を更に有する、ことを特徴とする請求項4に記載の情報処理装置である。
請求項6に係る発明は、前記第1特定手段は、前記対象画像との間の類似度が予め設定された閾値以上となる前記第2画像の検索に用いられた語句を、前記対象画像の前記画像属性情報候補として特定する、ことを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置である。
請求項7に係る発明は、前記画像属性情報候補を表示手段に表示させる制御手段を更に有する、ことを特徴とする請求項1から請求項6のいずれか一項に記載の情報処理装置である。
請求項8に係る発明は、コンピュータを、対象画像に類似する第1画像が含まれる抽出対象データに出現する語句を抽出する抽出手段、前記抽出された語句を用いて第2画像を検索する画像検索手段、前記対象画像に類似する第2画像の検索に用いられた語句を、前記対象画像の画像属性情報候補として特定する特定手段、として機能させるプログラムである。
請求項1,2,3,6,7,8に係る発明によると、対象画像に類似する画像の検索を用いて抽出された語句を、対象画像の画像属性情報候補として特定する場合と比較して、対象画像を表現するのによりふさわしい語句が画像属性情報候補として特定される。
請求項4に係る発明によると、個々の対象画像について抽出された語句について個別的に第2画像を検索する場合と比較して、第2画像の検索の効率が向上する。
請求項5に係る発明によると、対象画像に類似する画像の検索を用いて抽出された語句を、対象画像が属するグループの共通属性情報候補として特定する場合と比較して、グループを表現するのによりふさわしい語句が共通属性情報候補として特定される。
本発明の第1実施形態に係るキーワード付与システムを示すブロック図である。 第1実施形態に係るキーワード候補選定装置を示すブロック図である。 端末装置を示すブロック図である。 対象画像の一例を示す図である。 ウェブページ(htmlページ)の一例を示す図である。 一次キーワード候補リストの一例を示す図である。 検索結果画像と最終キーワード候補の一例を示す図である。 第1実施形態に係るキーワード候補選定装置による処理を示すフローチャートである。 第2実施形態に係るキーワード候補選定装置を示すブロック図である。 対象画像、一次キーワード候補及び検索結果画像の対応関係の一例を示す図である。 第4実施形態に係るキーワード候補選定装置を示すブロック図である。 対象画像とグループの一例を示す図である。 対象画像、一次キーワード候補及び検索結果画像の対応関係の一例を示す図である。
[第1実施形態]
以下、本発明の第1実施形態について説明する。図1には、本発明の第1実施形態に係る情報処理システムとしてのキーワード付与システムの一例が示されている。このシステムは、一例として、情報処理装置としてのキーワード候補選定装置10と、1又は複数の端末装置12と、1又は複数のウェブサーバ14と、を含む。キーワード候補選定装置10と端末装置12は、例えば、インターネットやLAN(Local Area Network)等の通信経路を介して互いに通信を行う。キーワード候補選定装置10と個々のウェブサーバ14は、例えば、インターネットやLAN等の通信経路を介して互いに通信を行う。もちろん、端末装置12と個々のウェブサーバ14は、インターネットやLAN等の通信経路を介して通信を行ってもよい。
キーワード候補選定装置10は、画像属性情報の付与対象となる画像(以下、「対象画像」と称する)を受け、その対象画像の内容を表わす画像属性情報の候補を特定する機能を備えている。画像属性情報は、例えば、キーワードやタグ情報等である。対象画像のデータは、例えば端末装置12から送られる。また、キーワード候補選定装置10は、他の装置との間でデータを送受信する機能を備えている。
端末装置12は、例えば、PC(パーソナルコンピュータ)、タブレットPC、スマートフォン、携帯電話、等の装置であり、他の装置との間でデータを送受信する機能を備えている。
ウェブサーバ14は、ウェブページを提供する機能、ウェブページを検索する機能、他の装置との間でデータを送受信する機能を備えている。例えば、ウェブサーバ14は、インターネットを介してウェブページのデータをキーワード候補選定装置10に提供する。
以下、キーワード付与システムについて詳しく説明する。以下では、画像属性情報の一例として、対象画像の内容を表わすキーワードを特定する場合について説明する。
図2を参照して、キーワード候補選定装置10の構成について詳しく説明する。図2には、キーワード候補選定装置10の構成が示されている。
通信部16は通信インターフェースであり、他の装置にデータを送信する機能、及び、他の装置からデータを受信する機能を備えている。通信部16は、無線通信機能を備えた通信インターフェースであってもよいし、有線通信機能を備えた通信インターフェースであってもよい。一例として、通信部16は、端末装置12から対象画像のデータを受信し、ウェブサーバ14からウェブページのデータを受信する。また、通信部16は、画像属性情報候補としてのキーワード候補のデータを端末装置12に送信する。
ウェブページ取得部18は、対象画像に類似する画像(以下、「類似画像」と称する)が含まれる1又は複数のウェブページのデータ(htmlページのデータ)を各ウェブサーバ14から取得する。類似画像は第1画像の一例に相当し、ウェブページのデータは抽出対象データの一例に相当する。例えば、各ウェブサーバ14は、キーワード候補選定装置10からの要求に応じて、類似画像が含まれるウェブページを検索し、そのウェブページのデータをキーワード候補選定装置10に送信する。ウェブページ取得部18は、そのウェブページのデータを取得する。なお、ウェブページ取得部18は、キーワード候補選定装置10に設けられておらず、他の装置(例えば検索サーバ等)に設けられていてもよい。この場合、キーワード候補選定装置10は、当該他の装置によって取得されたウェブページのデータを当該他の装置から取得する。
類似という概念には、同一という概念も含まれるものとする。類似画像の検索処理や特徴抽出処理として、例えば公知の手法が用いられる。例えば、ウェブページ取得部18は、対象画像から特徴を表わす情報(例えば、画素の濃淡、濃淡の平均値、画像の輪郭、等のパラメータ)を抽出し、その抽出された特徴と類似する特徴を有する類似画像が含まれるウェブページのデータを、各ウェブサーバ14から取得する。例えば、建物の画像、山の画像、空の画像、雲の画像、海の画像、川の画像、人物の画像、動物の画像、植物の画像、物品の画像等が、対象画像の特徴情報として抽出される。例えば、対象画像から特徴情報として山の画像が抽出された場合、その山と形状が類似する山の画像を含むウェブページが各ウェブサーバ14によって検索され、そのウェブページのデータがキーワード候補選定装置10に送られる。
語句抽出部20は、ウェブページ取得部18によって取得されたウェブページ、つまり、類似画像が含まれるウェブページを解析することにより、そのウェブページに出現する語句(文字列)を一次キーワード候補として抽出する。複数のウェブページのデータがウェブページ取得部18によって取得された場合、語句抽出部20は、ウェブページ毎に語句を抽出する。
抽出対象データの一例としてウェブページのデータが用いられているが、ウェブページ以外のデータが抽出対象データとして用いられてもよい。例えば、画像と文字列とを含む文書データや画像データ等が抽出対象データとして用いられてもよい。この場合、ウェブページ取得部18は、抽出対象データが格納されている図示しない記憶装置(例えば文書データベースや画像データベース等)から、類似画像が含まれる文書データや画像データを取得する。画像と文字列とを含む文書データが抽出対象データとして用いられる場合、語句抽出部20は、その文書データから語句を抽出する。画像データが抽出対象データとして用いられる場合、語句抽出部20は、その画像データに対して例えばOCR(Optical Character Recognition)処理を適用することにより、その画像データから語句を抽出する。
画像検索部22は、語句抽出部20によって抽出された語句(一次キーワード候補)を検索キーワードとして用いて1又は複数の画像(以下、「検索結果画像」と称する)を検索する。検索結果画像は第2画像の一例に相当する。語句抽出部20によって複数の語句が抽出された場合、画像検索部22は、個々の語句を単独の検索キーワードとして用いて、個々の語句毎に画像を検索する。別の例として、画像検索部22は、複数の語句の組み合わせを検索キーワード群として用いて画像を検索してもよい。例えば、画像検索部22は、AND検索、つまり、検索キーワード群を構成する複数の語句に適合する画像を検索する。各ウェブサーバ14は、キーワード候補選定装置10からの要求に応じて、一次キーワード候補を用いて、インターネット上や画像データベース等に存在する画像群から画像を検索し、その画像(検索結果画像)のデータをキーワード候補選定装置10に送信する。画像検索部22は、その画像データを取得する。画像検索処理として、例えば公知の手法が用いられる。例えば、インターネット上や画像データベース等に存在する画像群から、一次キーワード候補と同一又は類似の語句が対応付けられている画像が検索され、その画像のデータ(検索結果画像のデータ)がキーワード候補選定装置10に送信される。もちろん、別の検索技術によって画像が検索されてもよい。
類似度演算部24は、対象画像と検索結果画像との間の類似度を演算する。複数の検索結果画像が検索された場合、類似度演算部24は、検索結果画像毎に、対象画像と検索結果画像との間の類似度を演算する。類似度演算処理として、例えば公知の手法が用いられる。例えば、類似度演算部24は、対象画像及び検索結果画像のそれぞれから特徴情報(例えば、画素の濃淡、濃淡の平均値、画像の輪郭、等のパラメータ)を抽出し、対象画像から抽出された特徴情報と検索結果画像から抽出された特徴情報とを対比することにより、対象画像と検索結果画像との間の類似度を演算する。
キーワード候補特定部26は、対象画像に類似する検索結果画像の検索に用いられた語句を、対象画像の最終キーワード候補(画像属性情報候補の一例に相当する情報)として特定する。例えば、キーワード候補特定部26は、対象画像との間の類似度が予め設定された類似度閾値以上となる検索結果画像の検索に用いられた語句(一次キーワード候補)を、対象画像の最終キーワード候補として特定する。類似度閾値は、ユーザや管理者等によって変更されてもよい。
最終キーワード候補のデータは、キーワード候補選定装置10から端末装置12に送信される。端末装置12においては、例えば、最終キーワード候補が表示される。
制御部28は、キーワード候補選定装置10の各部の動作を制御する。
以下、図3を参照して、端末装置12の構成について詳しく説明する。図3には、端末装置12の構成が示されている。
通信部30は通信インターフェースであり、他の装置にデータを送信する機能、及び、他の装置からデータを受信する機能を備えている。通信部30は、無線通信機能を備えた通信インターフェースであってもよいし、有線通信機能を備えた通信インターフェースであってもよい。一例として、通信部30は、対象画像のデータをキーワード候補選定装置10に送信し、画像属性情報候補としての最終キーワード候補のデータをキーワード候補選定装置10から受信する。
記憶部32はハードディスクやメモリ等の記憶装置であり、例えば、各種のプログラムや各種のデータ等を記憶する。もちろん、それらは別々の記憶装置に記憶されてもよいし、同一の記憶装置に記憶されてもよい。
UI部34やユーザインターフェース部であり、表示部と操作部を含む。表示部は、例えば液晶ディスプレイ等の表示装置である。操作部は、例えば、タッチパネルやキーボード等の入力装置である。もちろん、UI部34は、表示部と操作部の両方の機能を兼ね備えたユーザインターフェース(例えば、タッチパネルとしてのディスプレイや、電子的にキーボード等を表示するディスプレイ等)であってもよい。
制御部36は、端末装置12の各部の動作を制御する。最終キーワード候補のデータがキーワード候補選定装置10から端末装置12に送信されると、制御部36は、その最終キーワード候補をUI部34に表示させる。例えば、ユーザがUI部34を使用してキーワード付与の指示を与えると、制御部36は、対象画像に最終キーワード候補を対応付ける。もちろん、この対応付けは、キーワード候補選定装置10によって行われてもよい。
以下、キーワード付与システムについて詳しく説明する。
図4には対象画像の一例が示されている。対象画像38は、一例として、「豆腐」が表わされている画像である。この対象画像38は、ユーザが端末装置12を使用して、キーワード付与対象の画像として指定された画像である。例えば、端末装置12のUI部34に画像群が表示され、ユーザはUI部34を使用して、画像群の中からキーワード付与対象となる対象画像38を指定する。もちろん、別の手法によって対象画像38が指定されたり、端末装置12に入力されたりしてもよい。対象画像38のデータは、通信経路を介して、端末装置12からキーワード候補選定装置10に送信される。
ウェブページ取得部18は、対象画像38から「豆腐の画像」を特徴情報として抽出し、その「豆腐の画像」に類似する画像を含む1又は複数のウェブページのデータを、各ウェブサーバ14から取得する。
図5には、ウェブサーバ14から提供されたウェブページの一例が示されている。このウェブページ40には画像42が含まれている。画像42には豆腐が表わされており、画像42は、対象画像38に類似する画像である。このように、対象画像38に類似する画像42が含まれるウェブページ40が検索され、そのウェブページ40のデータがウェブサーバ14からキーワード候補選定装置10に送信される。
ウェブページ40のデータがウェブサーバ14からキーワード候補選定装置10に提供されると、語句抽出部20は、ウェブページ40に出現する語句を一次キーワード候補として抽出する。例えば、語句抽出部20は、形態素解析を適用することにより、文字列を複数の単語に分割して名詞を一次キーワード候補として抽出する。もちろん、語句抽出部20は、名詞以外の語句(例えば動詞、形容詞、副詞等)を一次キーワード候補として抽出してもよい。
語句抽出部20は、語句の出現回数に基づいて、一次キーワード候補としての語句を抽出してもよい。例えば、語句抽出部20は、ウェブページ40に出現する語句群の中で、出現回数が予め設定された回数閾値以上となる語句を一次キーワード候補として抽出し、出現回数が回数閾値未満となる語句を抽出しなくてもよい。回数閾値は、ユーザや管理者等によって変更されてもよい。出現回数が回数閾値以上となる語句は、画像42との関連性、つまり、対象画像38との関連性が、出現回数が回数閾値未満となる語句よりも高いと予測される。それ故、出現回数が回数閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、語句の出現回数の順位に基づいて、一次キーワード候補としての語句を抽出してもよい。例えば、語句抽出部20は、出現回数が多い順に上位の順位を語句に付けていき、ウェブページ40に出現する語句群の中で、出現回数の順位が予め設定された順位閾値以上となる語句を一次キーワード候補として抽出し、出現回数の順位が順位閾値未満となる語句を抽出しなくてもよい。順位閾値は、ユーザや管理者等によって変更されてもよい。例えば、語句抽出部20は、ウェブページ40に出現する語句群の全体に対して、順位が上位から数番目(例えば5番目等)以内に含まれる語句を一次キーワード候補として抽出する。出現回数の順位が順位閾値以上となる語句は、対象画像38との関連性が、出現回数の順位が順位閾値未満となる語句よりも高いと予測される。それ故、出現回数の順位が順位閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、語句の出現頻度に基づいて、一次キーワード候補としての語句を抽出してもよい。例えば、語句抽出部20は、ウェブページ40に出現する全語句の出現回数の総和を演算し、個々の語句毎に、その総和に対する当該語句の出現回数の割合を当該語句の出現頻度として演算する。語句抽出部20は、ウェブページ40に出現する語句群の中で、出現頻度が予め設定された頻度閾値以上となる語句を一次キーワード候補として抽出し、出現頻度が頻度閾値未満となる語句を抽出しなくてもよい。頻度閾値は、ユーザや管理者等によって変更されてもよい。出現頻度が頻度閾値以上となる語句は、対象画像38との関連性が、出現頻度が頻度閾値未満となる語句よりも高いと予測される。それ故、出現頻度が頻度閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、語句の出現頻度の順位に基づいて、一次キーワード候補となる語句を抽出してもよい。例えば、語句抽出部20は、出現頻度の高い順に上位の順位を語句に付けていき、ウェブページ40に出現する語句群の中で、出現頻度の順位が予め設定された順位閾値以上となる語句を一次キーワード候補として抽出し、出現頻度の順位が順位閾値未満となる語句を抽出しなくてもよい。順位閾値は、ユーザや管理者等によって変更されてもよい。例えば、語句抽出部20は、ウェブページ40に出現する語句群の全体に対して、順位が上位から数番目(例えば5番目等)以内に含まれる語句を一次キーワード候補として抽出する。出現頻度の順位が順位閾値以上となる語句は、対象画像38との関連性が、出現頻度の順位が順位閾値未満となる語句よりも高いと予測される。それ故、出現頻度の順位が順位閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、語句のフォントサイズに基づいて、一次キーワード候補となる語句を抽出してもよい。例えば、語句抽出部20は、ウェブページ40に出現する語句群の中で、フォントサイズが予め設定されたサイズ閾値以上となる語句を一次キーワード候補として抽出し、フォントサイズがサイズ閾値未満となる語句を抽出しなくてもよい。サイズ閾値は、ユーザや管理者等によって変更されてもよい。フォントサイズがサイズ閾値以上となる語句は、フォントサイズがサイズ閾値未満となる語句よりも、ウェブページ40内において目立っていると予測され、対象画像38との関連性が高いと予測される。それ故、フォントサイズがサイズ閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、語句のフォントサイズの順位に基づいて、一次キーワード候補としての語句を抽出してもよい。例えば、語句抽出部20は、フォントサイズの大きい順に上位の順位を語句に付けていき、ウェブページ40に出現する語句群の中で、フォントサイズの順位が予め設定された順位閾値以上となる語句を一次キーワード候補として抽出し、フォントサイズの順位が順位閾値未満となる語句を抽出しなくてもよい。順位閾値は、ユーザや管理者等によって変更されてもよい。例えば、語句抽出部20は、ウェブページ40に出現する語句群の全体に対して、順位が上位から数番目(例えば5番目)以内に含まれる語句を一次キーワード候補として抽出する。フォントサイズの順位が順位閾値以上となる語句は、フォントサイズの順位が順位閾値未満となる語句よりも、ウェブページ40内において目立っていると予測され、対象画像38との関連性が高いと予測される。それ故、フォントサイズの順位が順位閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、語句のフォントサイズの割合に基づいて、一次キーワード候補としての語句を抽出してもよい。例えば、語句抽出部20は、ウェブページ40に出現する全語句についてのフォントサイズの平均(以下、「平均フォントサイズ」と称する)を演算し、個々の語句毎に、平均フォントサイズに対する当該語句のフォントサイズの割合を演算する。語句抽出部20は、ウェブページ40に出現する語句群の中で、その割合が予め設定された割合閾値以上となる語句を一次キーワード候補として抽出し、その割合が割合閾値未満となる語句を抽出しなくてもよい。割合閾値は、ユーザや管理者等によって変更されてもよい。フォントサイズの割合が割合閾値以上となる語句は、フォントサイズの割合が割合閾値未満となる語句よりも、ウェブページ40内において目立っていると予測され、対象画像38との関連性が高いと予測される。それ故、フォントサイズの割合が割合閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、語句のフォントサイズの割合の順位に基づいて、一次キーワード候補としての語句を抽出してもよい。例えば、語句抽出部20は、フォントサイズの割合の高い順に上位の順位を語句に付けていき、ウェブページ40に出現する語句群の中で、フォントサイズの割合の順位が予め設定された順位閾値以上となる語句を一次キーワード候補として抽出し、フォントサイズの割合が順位閾値未満となる語句を抽出しなくてもよい。順位閾値は、ユーザや管理者等によって変更されてもよい。例えば、語句抽出部20は、ウェブページ40に出現する語句群の全体に対して、順位が上位から数番目(例えば5番目)以内に含まれる語句を一次キーワード候補として抽出する。フォントサイズの割合の順位が順位閾値以上となる語句は、フォントサイズの割合の順位が順位閾値未満となる語句よりも、ウェブページ40内において目立っていると予測され、対象画像38との関連性が高いと予測される。それ故、フォントサイズの割合の順位が順位閾値以上となる語句を抽出することにより、対象画像38との関連性が相対的に高いと予測される語句が一次キーワード候補として抽出される。
別の例として、語句抽出部20は、類似画像としての画像42との位置関係に基づいて、一次キーワード候補としての語句を抽出してもよい。例えば、語句抽出部20は、画像42の配置位置を基準として、予め設定された範囲内に記述されている名詞を一次キーワード候補として抽出してもよい。その範囲内に記述されている名詞は、対象画像38との関連性が、その範囲外に記述されている名詞よりも高いと予測される。それ故、その範囲内に含まれる名詞を抽出することにより、その範囲外に記述されている名詞よりも対象画像38との関連性が高いと予測される名詞が一次キーワード候補として抽出される。別の例として、語句抽出部20は、画像42に最も近い位置に記述されている名詞を一次キーワード候補として抽出してもよい。語句抽出部20は、例えば、ウェブページ40のhtmlソースの階層構造を解析することにより、画像42と各語句との位置関係を特定すればよい。
もちろん、語句抽出部20は、上記以外の基準に従って、ウェブページ40から語句を抽出してもよい。
ウェブページ40以外のウェブページも取得された場合、語句抽出部20は、ウェブページ40以外のウェブページからも上述したように語句を抽出する。
図6には、一次キーワード候補リストの一例が示されている。この一次キーワード候補リストには、一次キーワード候補として抽出された語句が含まれている。一例として、「豆腐」、「有限会社」、「AAA(店舗名)」、「店」、及び、「健康」、等の名詞が、一次キーワード候補として抽出されている。なお、「AAA(店舗名)」は固有名詞であるため、語句抽出部20は、「AAA(店舗名)」を一次キーワード候補から除外してもよい。この場合、「AAA(店舗名)」は、一次キーワード候補リストに含まれない。なお、一次キーワード候補リストのデータは、キーワード候補選定装置10から端末装置12に送信され、一次キーワード候補リストが端末装置12のUI部34に表示されてもよい。
以下、図7を参照して、画像検索部22、類似度演算部24及びキーワード候補特定部26による処理について詳しく説明する。
図6に示すように一次キーワード候補としての語句が抽出されると、画像検索部22は、一次キーワード候補を検索キーワードとして用いて画像を検索する。例えば、画像検索部22は、個々の一次キーワード候補を単独の検索キーワードとして用いて、個々の一次キーワード候補毎に画像を検索する。図7には、その検索によって取得された検索結果画像が示されている。検索結果画像44は、一次キーワード候補「豆腐」を検索キーワードとして用いて検索された画像(例えば、語句「豆腐」が対応付けられている画像)であり、例えば、豆腐が表わされた画像である。検索結果画像46は、一次キーワード候補「有限会社」を検索キーワードとして用いて検索された画像(例えば、語句「有限会社」が対応付けられている画像)であり、例えば、ある有限会社の外観が表わされた画像である。検索結果画像48は、一次キーワード候補「AAA(店舗名)」を検索キーワードとして用いて検索された画像(例えば、語句「AAA」が対応付けられている画像)であり、例えば、氏名が「AAA」である人物が表わされた画像である。検索結果画像50は、一次キーワード候補「店」を検索キーワードとして用いて検索された画像(例えば、語句「店」が対応付けられている画像)であり、例えば、ある店舗が表された画像である。検索結果画像52は、一次キーワード候補「健康」を検索キーワードとして用いて検索された画像(例えば、語句「健康」が対応付けられている画像)であり、例えば、健康を連想させるような画像である。
なお、一次キーワード候補リストが端末装置12のUI部34に表示され、ユーザによって、その一次キーワード候補リストの中から検索キーワードとして用いる一次キーワード候補が指定されてもよい。この場合、ユーザによって指定された一次キーワード候補のデータが端末装置12からキーワード候補選定装置10に送信され、画像検索部22は、ユーザによって指定された一次キーワード候補を検索キーワードとして用いて画像を検索する。複数の一次キーワード候補がユーザによって指定された場合、画像検索部22は、個々の一次キーワード候補を単独の検索キーワードとして用いて、個々の一次キーワード候補毎に画像を検索する。
画像検索部22は、複数の一次キーワード候補の組み合わせを検索キーワード群として用いて、AND検索を行うことにより画像を検索してもよい。図6に示す例で説明すると、画像検索部22は、例えば、一次キーワード候補「豆腐」と「健康」の組み合わせを検索キーワード群として用いて、AND検索を行うことにより、一次キーワード候補「豆腐」と「健康」の両方に適合する画像(例えば、語句「豆腐」と「健康」の両方が対応付けられている画像)を検索する。これにより、一次キーワード候補「豆腐」と「健康」の両方に関連する画像が検索される。検索キーワード群に含まれる一次キーワード候補の数は、予め設定された数であってもよいし、ユーザや管理者等によって変更されてもよい。また、検索キーワード群に含まれる一次キーワード候補は、一次キーワード候補群の中から画像検索部22によってランダムに選択されてもよいし、一次キーワード候補群の中からユーザによって選択されてもよい。例えば、一次キーワード候補リストが端末装置12のUI部34に表示され、ユーザによって、その一次キーワード候補リストの中から検索キーワード群として用いる複数の一次キーワード候補が指定されてもよい。
類似度演算部24は、対象画像38と検索結果画像44,46,48,50,52のそれぞれとの間の類似度を演算する。つまり、対象画像38と検索結果画像44との間の類似度、対象画像38と検索結果画像46との間の類似度、対象画像38と検索結果画像48との間の類似度、対象画像38と検索結果画像50との間の類似度、及び、対象画像38と検索結果画像52との間の類似度が演算される。
キーワード候補特定部26は、対象画像38との間の類似度が類似度閾値以上となる検索結果画像を特定し、その検索結果画像の検索に用いられた一次キーワード候補を、対象画像38の最終キーワード候補として特定する。図7に示す例では、対象画像38と検索結果画像44との間の類似度が類似度閾値以上になっており、検索結果画像44の検索に用いられた一次キーワード候補「豆腐」が最終キーワード候補として特定される。
最終キーワード候補「豆腐」のデータは、キーワード候補選定装置10から端末装置12に送信され、端末装置12のUI部34に最終キーワード候補「豆腐」が表示される。例えば、ユーザがUI部34を使用してキーワード付与の指示を与えると、端末装置12の制御部36は、最終キーワード候補「豆腐」を画像属性情報として対象画像38に対応付ける。もちろん、端末装置12において、最終キーワード候補「豆腐」が画像属性情報として対象画像38に自動的に対応付けられてもよい。なお、キーワード候補選定装置10において、最終キーワード候補「豆腐」が画像属性情報として対象画像38に自動的に対応付けられ、最終キーワード候補「豆腐」が対応付けられた対象画像38のデータが、キーワード候補選定装置10から端末装置12に送信されてもよい。
画像属性情報としての最終キーワード候補「豆腐」は、例えば、対象画像38を検索するための検索キーワードとして用いられる。例えば、検索キーワードとして語句「豆腐」が与えられると、最終キーワード候補「豆腐」が対応付けられた対象画像38が検索される。
図7に示す例では、一次キーワード候補群の中から1つの語句「豆腐」が最終キーワード候補として特定されているが、複数の語句が最終キーワード候補として特定される場合もある。例えば、対象画像38との間の類似度が類似度閾値以上となる検索結果画像が複数ある場合、各検索結果画像の検索に用いられた一次キーワード候補が、最終キーワード候補として特定される。この場合、端末装置12のUI部34に複数の最終キーワード候補が表示され、ユーザがUI部34を使用して複数の最終キーワード候補の中から付与対象の最終キーワード候補を指定すると、ユーザによって指定された最終キーワード候補が対象画像38に対応付けられる。もちろん、端末装置12又はキーワード候補選定装置10にて、複数の最終キーワード候補が画像属性情報として対象画像38に自動的に対応付けられてもよい。
また、複数の一次キーワード候補の組み合わせを検索キーワード群として用いて画像が検索された場合、対象画像38との間の類似度が類似度閾値以上となる検索結果画像の検索に用いられた複数の一次キーワード候補が、最終キーワード候補として特定される。例えば、一次キーワード候補「豆腐」と「健康」の両方を検索キーワード群として用いてAND検索された画像(検索結果画像)と対象画像38との類似度が類似度閾値以上となる場合、一次キーワード候補「豆腐」と「健康」の両方が最終キーワード候補として特定される。
以下、図8を参照して、キーワード候補選定装置10による処理について説明する。図8には、その処理の一例を示すフローチャートが示されている。
まず、キーワード候補選定装置10は、端末装置12から送信された対象画像のデータを受信する(S01)。ウェブページ取得部18は、対象画像の類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得する(S02)。語句抽出部20は、ウェブページ毎に、ウェブページに出現する語句を一次キーワード候補として抽出する(S03)。これにより、一次キーワード候補を含む一次キーワード候補リストが生成される。以下、一次キーワード候補リストに含まれる全一次キーワード候補についての処理が終了するまで、処理を繰り返す。画像検索部22は、一次キーワード候補を検索キーワードとして用いて画像を検索する(S04)。この検索で得られた画像が検索結果画像である。類似度演算部24は、対象画像と検索結果画像との間の類似度を演算する(S05)。類似度が類似度閾値以上となる場合(S06,Yes)、キーワード候補特定部26は、その検索結果画像の検索に用いられた一次キーワード候補を最終キーワード候補として特定する(S07)。類似度が類似度閾値未満となる場合(S06,No)、次の一次キーワード候補を対象として処理が行われる。一次キーワード候補リストに含まれる全ての一次キーワード候補について、ステップS04からステップS07までの処理が終了した場合、処理は終了する。
以上のように、第1実施形態においては、対象画像に類似する画像(類似画像)の検索を用いて一次キーワード候補が抽出され、その一次キーワード候補を用いて画像(検索結果画像)が検索され、対象画像との間の類似度が類似度閾値以上となる検索結果画像の検索に用いられた一次キーワード候補が最終キーワード候補として特定される。対象画像と検索結果画像との間の類似度を検証することにより、一次キーワード候補が対象画像の内容を適切に表現する語句であるか否かの評価が行われることになる。つまり、一次キーワード候補の対象画像に対する画像属性情報としてのふさわしさが評価される。対象画像との間の類似度が類似度閾値以上となる検索結果画像の検索に用いられた一次キーワード候補を用いて画像を検索することにより、対象画像との間の類似度が類似度閾値以上となる画像が検索されるのであるから、対象画像との間の類似度が類似度閾値以上となる検索結果画像の検索に用いられた一次キーワード候補は、対象画像との間の類似度が類似度閾値未満となる検索結果画像の検索に用いられた一次キーワード候補よりも、対象画像を表現するのによりふさわしい語句(一次キーワード候補)であると予測される。それ故、一次キーワード候補群の中で対象画像との間の類似度が類似度閾値以上となる検索結果画像の検索に用いられた一次キーワード候補を最終キーワード候補として特定することにより、一次キーワード候補群をそのまま最終キーワード候補として特定する場合と比較して、対象画像を表現するのによりふさわしい語句(一次キーワード候補)が最終キーワード候補として特定される。
例えば、インターネットオークションに代表される商品販売用のウェブページ等には、対象画像とは関係のない画像が含まれる場合がある。また、ウェブページに出現する語句とウェブページに含まれる画像とは、必ずしも相関するとは限らない。それ故、このような場合に、対象画像に類似する画像を含むウェブページを検索し、そのウェブページに出現する語句(一次キーワード候補)を最終キーワード候補として特定したとしても、対象画像を適切に表現する最終キーワード候補が特定されるとは限らない。図6及び図7を参照して説明すると、一次キーワード候補として抽出された語句「有限会社」、「AAA」、「店」、「健康」は、豆腐を表わす対象画像38に関係のない語句、つまり、対象画像38を表現するのにふさわしい語句とは限らない。このような語句を最終キーワード候補として特定した場合、対象画像38を表現するのにふさわしくない語句が最終キーワード候補として特定されることがある。これに対して、第1実施形態によると、一次キーワード候補が対象画像38の内容を適切に表現する語句であるか否かの検証が行われるので、対象画像38を表現するのにふさわしくない語句が最終キーワード候補から除外され、対象画像38を表現するのにふさわしい語句が最終キーワード候補として特定されることになる。
[第2実施形態]
以下、本発明の第2実施形態について説明する。図9には、第2実施形態に係るキーワード候補選定装置が示されている。第2実施形態に係るキーワード候補選定装置10Aは、第1実施形態に係るキーワード候補選定装置10の構成に加えて、類義語辞書DB(データベース)54を含む。類義語辞書DB54以外の構成は、第1実施形態に係るキーワード候補選定装置10の構成と同じである。
類義語辞書DB54は、ハードディスクやメモリ等の記憶装置であり、語句の類義語(同義語)を示すデータを記憶する。類義語辞書DB54においては、語句毎に、語句と類義語とが対応付けられている。類義語を示すデータは、例えば予め作成されて類義語辞書DB54に記憶されている。
キーワード候補特定部26は、第1実施形態と同様に、画像属性情報候補としての最終キーワード候補を特定する。さらに、キーワード候補特定部26は、その最終キーワード候補に関連する語句を新たな最終キーワード候補として特定する。最終キーワード候補に関連する語句は、例えば、その最終キーワード候補の類義語である。キーワード候補特定部26は、類義語辞書DB54を対象として最終キーワード候補の類義語を検索し、その検索によって得られた類義語を新たな最終キーワード候補として特定する。
以上のように、最終キーワード候補の類義語を新たな最終キーワード候補として特定することにより、一次キーワード候補をそのまま最終キーワード候補として特定する場合と比較して、対象画像を表現するのによりふさわしい語句が最終キーワード候補として特定される。
[第3実施形態]
以下、本発明の第3実施形態について説明する。第3実施形態に係るキーワード候補選定装置は、第1実施形態に係るキーワード候補選定装置10、又は、第2実施形態に係るキーワード候補選定装置10Aと同じ構成を有する。
第3実施形態においては、複数の対象画像に対する最終キーワード候補が特定される。例えば、ウェブページ取得部18は、対象画像毎に、対象画像の類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得する。語句抽出部20は、対象画像毎にウェブページから語句(一次キーワード候補)を抽出する。画像検索部22は、複数の対象画像について抽出された語句群(一次キーワード候補群)の中で共通する語句(一次キーワード候補)についてはまとめて画像(検索結果画像)を検索する。類似度演算部24は、対象画像毎に、対象画像と検索結果画像との間の類似度を演算する。キーワード候補特定部26は、対象画像毎に、類似度が類似度閾値以上となる検索結果画像の検索に用いられた語句(一次キーワード候補)を、対象画像の最終キーワード候補として特定する。
以下、図10を参照して、第3実施形態について詳しく説明する。図10には、対象画像、一次キーワード候補及び検索結果画像の対応関係の一例が示されている。
一例として、対象画像A,Bのデータが端末装置12からキーワード候補選定装置10に送信され、対象画像A,Bに対する最終キーワード候補を特定するものとする。
ウェブページ取得部18は、対象画像Aの類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得し、対象画像Bの類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得する。
語句抽出部20は、対象画像Aに関して取得された1又は複数のウェブページから語句(一次キーワード候補)を抽出し、対象画像Bに関して取得された1又は複数のウェブページから語句(一次キーワード候補)を抽出する。図10に示すように、一例として、対象画像Aに関して語句a,bが一次キーワード候補として抽出され、対象画像Bに関して語句a,cが一次キーワード候補として抽出されたものとする。語句aは、対象画像A,Bで共通する一次キーワード候補である。
画像検索部22は、共通する語句aについてはまとめて画像を検索する。例えば、語句aに関して検索結果画像αが検索されたものとする。語句b,cは対象画像A,Bで共通する一次キーワード候補ではないので、画像検索部22は、語句b,cについてそれぞれ個別に画像を検索する。例えば、語句bに関して検索結果画像βが検索され、語句cに関して検索結果画像γが検索されたものとする。
類似度演算部24は、検索結果画像と、その検索結果画像の検索に用いられた語句に関する対象画像(その語句が抽出されたウェブページの取得に用いられた対象画像)と、の間の類似度を演算する。図10に示す例では、類似度演算部24は、対象画像Aと検索結果画像αとの間の類似度、対象画像Aと検索結果画像βとの間の類似度、対象画像Bと検索結果画像αとの間の類似度、及び、対象画像Bと検索結果画像γとの間の類似度を演算する。
キーワード候補特定部26は、第1実施形態と同様に、対象画像毎に、類似度が類似度閾値以上となる検索結果画像の検索に用いられた語句(一次キーワード候補)を、対象画像の最終キーワード候補として特定する。図10に示す例では、対象画像Aと検索結果画像αとの間の類似度が類似度閾値以上となっているため、検索結果画像αの検索に用いられた語句a(一次キーワード候補)が、対象画像Aに対する最終キーワード候補として特定される。一方、対象画像Aと検索結果画像βとの間の類似度は類似度閾値未満であるため、検索結果画像βの検索に用いられた語句b(一次キーワード候補)は、対象画像Aに対する最終キーワード候補として特定されない。また、対象画像Bと検索結果画像γとの間の類似度が類似度閾値以上となっているため、検索結果画像γの検索に用いられた語句c(一次キーワード候補)が、対象画像Bに対する最終キーワード候補として特定される。一方、対象画像Bと検索結果画像αとの間の類似度は類似度閾値以下であるため、検索結果画像αの検索に用いられた語句a(一次キーワード候補)は、対象画像Bに対する最終キーワード候補として特定されない。
以上のように、共通する一次キーワード候補についてはまとめて検索結果画像を検索することにより、個々の一次キーワード候補について個別的に検索結果画像を検索する場合と比較して、検索結果画像の検索の効率が向上する。
もちろん、第3実施形態においても、第2実施形態と同様に、最終キーワード候補の類義語を新たな最終キーワード候補として特定してもよい。
[第4実施形態]
以下、本発明の第4実施形態について説明する。図11には、第2実施形態に係るキーワード候補選定装置10Bが示されている。第4実施形態に係るキーワード候補選定装置10Bは、第1実施形態に係るキーワード候補選定装置10の構成に加えて、共通キーワード候補特定部56を含む。共通キーワード候補特定部56以外の構成は、第1実施形態に係るキーワード候補選定装置10の構成と同じである。もちろん、第4実施形態に係るキーワード候補選定装置10Bは、第2実施形態に係る類義語辞書DB54を含んでいてもよい。
第4実施形態においては、複数の対象画像に対する最終キーワード候補が特定される。複数の対象画像は、各対象画像が喚起する印象(テイスト)に従って、互いに異なるテイストを有する複数のグループに分類されている。その分類は予め行われてもよいし、複数の対象画像のデータを受けたキーワード候補選定装置10Bにて行われてもよい。
テイストは、例えば、ある対象に対して人が感じる印象を類型化した嗜好モデルに従って決定される。例えば、対象画像が喚起する印象を数値化することにより、印象類似度としての感性スコアが得られる。感性スコアは、対象画像が印象の喚起に寄与する程度を示す値(印象の強度を示す値)である。感性スコアは、例えば、類型化1類に従った感性評価実験によって得られる。
例えば、対象画像についての感性スコアが予め決定されており、その感性スコアに基づいて対象画像が有するテイストが予め決定され、対象画像にテイストを示す情報が対応付けられている。テイストの一例として、例えば、「温かい印象」、「冷たい印象」、「硬い印象」、「柔らかい印象」、等がある。より具体的には、テイストの一例として、「ワイルド」、「ナチュラル」、「ロマンチック」、「ダイナミック」、「プリティ」、等がある。各テイストが感性スコアとして予め数値化されており、各テイストについての感性スコア、つまり、各テイストを表わす感性スコアが予め決定されている。対象画像についての感性スコアに対応するテイストが、当該対象画像のテイストとして決定される。
各対象画像は、テイストに従ってグループに予め分類されている。例えば、互いに同一又は類似のテイストを有する複数の対象画像が、同一のグループに分類され、互いに異なるテイスト(非同一及び非類似のテイスト)を有する複数の対象画像は、それぞれ異なるグループに分類される。なお、互いに類似する複数のテイストとは、例えば、各テイストについての感性スコアの差が予め設定された数値範囲内に含まれる複数のテイストである。
なお、キーワード候補選定装置10Bの制御部28が、受け付けた対象画像の感性スコアを演算し、その感性スコアに対応するテイストを特定することにより、対象画像が有するテイストを特定してもよい。この場合、制御部28は、各対象画像が有するテイストに従って、各対象画像を同一又は異なるグループに分類してもよい。
第4実施形態においては、例えば、ウェブページ取得部18は、対象画像毎に、対象画像の類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得する。語句抽出部20は、対象画像毎にウェブページから語句(一次キーワード候補)を抽出する。画像検索部22は、同一のグループに属する対象画像群について抽出された語句群(一次キーワード候補群)の中で共通する語句(一次キーワード候補)についてはまとめて画像(検索結果画像)を検索する。もちろん、画像検索部22は、共通する語句についてまとめて画像を検索せずに、個々の語句毎に画像を検索してもよい。類似度演算部24は、対象画像毎に、対象画像と検索結果画像との間の類似度を演算する。キーワード候補特定部26は、対象画像毎に、類似度が類似度閾値以上となる検索結果画像の検索に用いられた語句(一次キーワード候補)を、対象画像の最終キーワード候補として特定する。
第4実施形態では、更に、共通キーワード候補特定部56が、グループ毎に、同一のグループに属する対象画像群に共通する最終キーワード候補を、当該同一のグループに属する対象画像群についての共通キーワード候補として特定する。共通キーワード候補が共通属性情報候補の一例に相当する。
以下、図12及び図13を参照して、第4実施形態について詳しく説明する。図12には、対象画像とグループの一例が示されている。図13には、対象画像、一次キーワード候補及び検索結果画像の対応関係の一例が示されている。
一例として、対象画像A,B,C,Dのデータが端末装置12からキーワード候補選定装置10Bに送信され、対象画像A,B,C,Dに対する最終キーワード候補を特定するものとする。
対象画像A,B,C,Dは、各対象画像が有するテイスト(例えば各対象画像に対応付けられているテイストを示す情報)に従って、同一又は異なるグループに分類されている。図12に示す例では、対象画像A,Bのそれぞれのテイストが同一又は類似であるため、対象画像A,Bが同一のグループXに分類されており、対象画像C,Dのそれぞれのテイストが同一又は類似であるため、対象画像C,Dが同一のグループYに分類されている。この分類は予め行われていてもよいし、キーワード候補選定装置10Bの制御部28によって行われてもよい。
以下、図13を参照して、第4実施形態に係る処理について詳しく説明する。
ウェブページ取得部18は、対象画像A,B,C,Dのそれぞれについて、類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得する。つまり、ウェブページ取得部18は、対象画像Aの類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得し、対象画像Bの類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得し、対象画像Cの類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得し、対象画像Dの類似画像が含まれる1又は複数のウェブページのデータを各ウェブサーバ14から取得する。
語句抽出部20は、対象画像A,B,C,Dのそれぞれに関して取得された1又は複数のウェブページから語句(一次キーワード候補)を抽出する。つまり、語句抽出部20は、対象画像Aに関して取得された1又は複数のウェブページから語句(一次キーワード候補)を抽出し、対象画像Bに関して取得された1又は複数のウェブページから語句(一次キーワード候補)を抽出し、対象画像Cに関して取得された1又は複数のウェブページから語句(一次キーワード候補)を抽出し、対象画像Dに関して取得された1又は複数のウェブページから語句(一次キーワード候補)を抽出する。図13に示すように、一例として、グループXについては、対象画像Aに関して語句a,b,cが一次キーワード候補として抽出され、対象画像Bに関して語句a,b,dが一次キーワード候補として抽出されたものとする。語句a,bは、対象画像A,Bで共通する一次キーワード候補である。グループYに属する対象画像C,Dについては説明を省略するが、グループXと同様に、一次キーワード候補としての語句が抽出される。
画像検索部22は、グループ毎に、共通する一次キーワード候補についてはまとめて画像を検索する。グループXにおいて、語句a,bは対象画像A,Bで共通する一次キーワード候補であるため、画像検索部22は、共通する語句aについてまとめて画像を検索し、同様に、共通する語句bについてまとめて画像を検索する。語句aに関して検索結果画像αが検索され、語句bに関して検索結果画像βが検索されたものとする。語句c,dは対象画像A,Bで共通する一次キーワード候補ではないので、画像検索部22は、語句c,dについてそれぞれ個別に画像を検索する。例えば、語句cに関して検索結果画像γが検索され、語句dに関して検索結果画像δが検索されたものとする。グループYについてもグループXと同様に、一次キーワード候補を用いて画像が検索される。
類似度演算部24は、検索結果画像と、その検索結果画像の検索に用いられた語句に関する対象画像(その語句が抽出されたウェブページの取得に用いられた対象画像)と、の間の類似度を演算する。図13に示す例では、類似度演算部24は、グループXについて、対象画像Aと検索結果画像αとの間の類似度、対象画像Aと検索結果画像βとの間の類似度、対象画像Aと検索結果画像γとの間の類似度、対象画像Bと検索結果画像αとの間の類似度、対象画像Bと検索結果画像βとの間の類似度、及び、対象画像Bと検索結果画像δとの間の類似度を演算する。グループYについてもグループXと同様に、対象画像と検索結果画像との間の類似度が演算される。
キーワード候補特定部26は、第1実施形態と同様に、対象画像毎に、類似度が類似度閾値以上となる検索結果画像の検索に用いられた語句(一次キーワード候補)を、対象画像の最終キーワード候補として特定する。図13に示す例では、対象画像Aと検索結果画像αとの間の類似度が類似度閾値以上となっているため、検索結果画像αの検索に用いられた語句a(一次キーワード候補)が、対象画像Aに対する最終キーワード候補として特定される。同様に、対象画像Aと検索結果画像βとの間の類似度が類似度閾値以上となっているため、検索結果画像βの検索に用いられた語句b(一次キーワード候補)が、対象画像Aに対する最終キーワード候補として特定される。一方、対象画像Aと検索結果画像γとの間の類似度は類似度閾値未満であるため、検索結果画像γの検索に用いられた語句c(一次キーワード候補)は、対象画像Aに対する最終キーワード候補として特定されない。また、対象画像Bと検索結果画像βとの間の類似度が類似度閾値以上となっているため、検索結果画像βの検索に用いられた語句b(一次キーワード候補)が、対象画像Bに対する最終キーワード候補として特定される。一方、対象画像Bと検索結果画像αとの間の類似度は類似度閾値未満であるため、検索結果画像αの検索に用いられた語句aは、対象画像Bに対する最終キーワード候補として特定されない。同様に、対象画像Bと検索結果画像δとの間の類似度は類似度閾値未満であるため、検索結果画像δの検索に用いられた語句dは、対象画像Bに対する最終キーワード候補として特定されない。グループYについてもグループXと同様に、対象画像毎に最終キーワード候補が特定される。
もちろん、第4実施形態においても、第2実施形態と同様に、最終キーワード候補の類義語を新たな最終キーワード候補として特定してもよい。
共通キーワード候補特定部56は、グループXについて、当該グループXに属する対象画像A,Bに共通する最終キーワード候補を、当該グループXに属する対象画像A,Bについての共通キーワード候補として特定する。図13に示す例では、最終キーワード候補としての語句bが、対象画像A,Bに共通する最終キーワード候補である。そのため、語句bが、グループXについての共通キーワード候補として特定される。グループYについてもグループXと同様に、共通キーワード候補が特定される。もちろん、同一グループに属する対象画像群で共通する最終キーワード候補が存在しない場合、そのグループについての共通キーワード候補は特定されない。
各対象画像についての最終キーワード候補のデータと、各グループについての共通キーワード候補のデータは、キーワード候補選定装置10Bから端末装置12に送信され、最終キーワード候補と共通キーワード候補が、端末装置12のUI部34に表示される。ユーザがUI部34を使用して、最終キーワード候補とその最終キーワード候補の付与対象となる対象画像を指定すると、ユーザによって指定された最終キーワード候補が、ユーザによって指定された対象画像に対応付けられる。また、ユーザがUI部34を使用して、共通キーワード候補とその共通キーワード候補の付与対象となるグループを指定すると、ユーザによって指定された共通キーワード候補が、ユーザによって指定されたグループに対応付けられる。もちろん、指定された共通キーワード候補が、指定されたグループに属する対象画像に対応付けられてもよい。
端末装置12又はキーワード候補選定装置10Bにて、最終キーワード候補が、当該最終キーワード候補に対応する対象画像に対応付けられてもよいし、共通キーワード候補が、当該共通キーワード候補に対応するグループやそのグループに属する対象画像に対応付けられてもよい。図13に示す例では、語句a,bが最終キーワード候補として対象画像Aに対応付けられ、語句bが最終キーワード候補として対象画像Bに対応付けられてもよい。また、語句bが共通キーワード候補としてグループXや対象画像A,Bに対応付けられてもよい。グループYについてもグループXと同様に、対象画像に最終キーワード候補が自動的に対応付けられてもよいし、グループYに共通キーワード候補が自動的に対応付けられてもよい。
以上のように、第4実施形態においては、同一グループに属する対象画像群について共通する最終キーワード候補が、当該グループについての共通キーワード候補として特定される。これにより、同一グループに属する対象画像群について共通しない最終キーワード候補を当該グループについての共通キーワード候補として特定する場合と比較して、当該グループを表現するのによりふさわしい語句(最終キーワード候補)が共通キーワード候補として特定される。
上記のキーワード候補選定装置10,10A,10B及び端末装置12のそれぞれは、一例としてハードウェア資源とソフトウェアとの協働により実現される。具体的には、キーワード候補選定装置10,10A,10B及び端末装置12のそれぞれは、図示しないCPU等の1又は複数のプロセッサを備えている。当該プロセッサが、図示しない記憶装置に記憶されたプログラムを読み出して実行することにより、キーワード候補選定装置10,10A,10B及び端末装置12のそれぞれの各部の機能が実現される。上記プログラムは、CDやDVD等の記録媒体を経由して、又は、ネットワーク等の通信経路を経由して、記憶装置に記憶される。または、キーワード候補選定装置10,10A,10B及び端末装置12のそれぞれの各部は、例えばプロセッサや電子回路等のハードウェア資源により実現されてもよい。その実現においてメモリ等のデバイスが利用されてもよい。別の例として、キーワード候補選定装置10,10A,10B及び端末装置12のそれぞれの各部は、DSP(Digital Signal Processor)やFPGA(Field Programmable Gate Array)等によって実現されてもよい。
10,10A,10B キーワード候補選定装置、12 端末装置、14 ウェブサーバ、16 通信部、18 ウェブページ取得部、20 語句抽出部、22 画像検索部、24 類似度演算部、26 キーワード候補特定部、28 制御部、54 類義語辞書DB、56 共通キーワード候補特定部。

Claims (8)

  1. 対象画像に類似する第1画像が含まれる抽出対象データに出現する語句を抽出する抽出手段と、
    前記抽出された語句を用いて第2画像を検索する画像検索手段と、
    前記対象画像に類似する第2画像の検索に用いられた語句を、前記対象画像の画像属性情報候補として特定する第1特定手段と、
    を有する情報処理装置。
  2. 前記第1特定手段は、前記画像属性情報候補に関連する語句を前記対象画像の新たな画像属性情報候補として更に特定する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記画像属性情報候補に関連する語句は、類義語群を定義する類義語辞書情報から抽出された、前記画像属性情報候補の類義語である、
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 複数の対象画像がある場合、前記抽出手段は、対象画像毎に語句を抽出し、
    前記画像検索手段は、前記複数の対象画像について抽出された語句群のうち共通する語句についてはまとめて前記第2画像を検索する、
    ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報処理装置。
  5. 前記複数の対象画像は、各対象画像が有する印象に従って、互いに異なる印象を有する複数のグループに分類されており、
    前記画像検索手段は、前記グループ毎に、同一の前記グループに属する対象画像群について抽出された語句群のうち共通する語句についてはまとめて前記第2画像を検索し、
    当該情報処理装置は、
    前記グループ毎に、前記第2画像を用いて特定された前記画像属性情報候補であって、同一の前記グループに属する前記対象画像群に共通する前記画像属性情報候補を、同一の前記グループに属する前記対象画像群についての共通属性情報候補として特定する第2特定手段を更に有する、
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記第1特定手段は、前記対象画像との間の類似度が予め設定された閾値以上となる前記第2画像の検索に用いられた語句を、前記対象画像の前記画像属性情報候補として特定する、
    ことを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置。
  7. 前記画像属性情報候補を表示手段に表示させる制御手段を更に有する、
    ことを特徴とする請求項1から請求項6のいずれか一項に記載の情報処理装置。
  8. コンピュータを、
    対象画像に類似する第1画像が含まれる抽出対象データに出現する語句を抽出する抽出手段、
    前記抽出された語句を用いて第2画像を検索する画像検索手段、
    前記対象画像に類似する第2画像の検索に用いられた語句を、前記対象画像の画像属性情報候補として特定する特定手段、
    として機能させるプログラム。
JP2016150364A 2016-07-29 2016-07-29 情報処理装置及びプログラム Active JP6696344B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016150364A JP6696344B2 (ja) 2016-07-29 2016-07-29 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016150364A JP6696344B2 (ja) 2016-07-29 2016-07-29 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2018018428A true JP2018018428A (ja) 2018-02-01
JP6696344B2 JP6696344B2 (ja) 2020-05-20

Family

ID=61081737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016150364A Active JP6696344B2 (ja) 2016-07-29 2016-07-29 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6696344B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020194472A (ja) * 2019-05-30 2020-12-03 オリンパス株式会社 サーバ、表示方法、作成方法、およびプログラム
US11176378B2 (en) * 2018-09-28 2021-11-16 Fujifilm Corporation Image processing device, image processing method,program, and recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176378B2 (en) * 2018-09-28 2021-11-16 Fujifilm Corporation Image processing device, image processing method,program, and recording medium
JP2020194472A (ja) * 2019-05-30 2020-12-03 オリンパス株式会社 サーバ、表示方法、作成方法、およびプログラム

Also Published As

Publication number Publication date
JP6696344B2 (ja) 2020-05-20

Similar Documents

Publication Publication Date Title
WO2022022002A1 (zh) 一种信息展示方法、信息搜索方法及装置
US11100124B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
KR102170206B1 (ko) 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법
JP6381775B2 (ja) 情報処理システム及び情報処理方法
US10482146B2 (en) Systems and methods for automatic customization of content filtering
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
EP3513328A1 (en) Method and apparatus for ranking electronic information by similarity association
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
WO2017113592A1 (zh) 模型生成方法、词语赋权方法、装置、设备及计算机存储介质
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
CN114564666A (zh) 百科信息展示方法、装置、设备和介质
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
JP6696344B2 (ja) 情報処理装置及びプログラム
JP6144968B2 (ja) 情報提示装置、方法、及びプログラム
JP6163143B2 (ja) 情報提供装置、情報提供方法、および情報提供プログラム
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
JP6607691B2 (ja) 評価値演算装置、及びプログラム
JP7042720B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5277090B2 (ja) リンク作成支援装置、リンク作成支援方法およびプログラム
CN111831884A (zh) 一种基于信息查找的匹配系统与方法
JP2019149102A (ja) 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム
JP7297855B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
CN110555196A (zh) 用于自动生成文章的方法、装置、设备和存储介质
JP6707484B2 (ja) 理解支援方法、理解支援装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200406

R150 Certificate of patent or registration of utility model

Ref document number: 6696344

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350