JP7304220B2 - 素材検索システム、素材検索方法、素材検索装置、およびプログラム - Google Patents

素材検索システム、素材検索方法、素材検索装置、およびプログラム Download PDF

Info

Publication number
JP7304220B2
JP7304220B2 JP2019125022A JP2019125022A JP7304220B2 JP 7304220 B2 JP7304220 B2 JP 7304220B2 JP 2019125022 A JP2019125022 A JP 2019125022A JP 2019125022 A JP2019125022 A JP 2019125022A JP 7304220 B2 JP7304220 B2 JP 7304220B2
Authority
JP
Japan
Prior art keywords
display object
display
search
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019125022A
Other languages
English (en)
Other versions
JP2021012452A (ja
Inventor
隆人 小柳
啓介 角田
健太郎 鈴木
直也 宮下
大祐 箕浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Comware Corp
Original Assignee
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Comware Corp filed Critical NTT Comware Corp
Priority to JP2019125022A priority Critical patent/JP7304220B2/ja
Publication of JP2021012452A publication Critical patent/JP2021012452A/ja
Application granted granted Critical
Publication of JP7304220B2 publication Critical patent/JP7304220B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、素材検索システム、素材検索方法、素材検索装置、およびプログラムに関する。
従来より、例えば、大量の電子文書から所望の文書を検索する技術が知られている(例えば下記の特許文献1)。特許文献1に記載された類似文書検索システムは、電子文書における部分領域のレイアウトに基づくクエリを用いて検索を行う。
具体的に、類似文書検索システムは、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と複数の電子文書を格納し、複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する。そして、類似文書検索システムは、検索用部分領域を受け付け、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出し、複数の項目の中で検索用部分領域が該当する検索用項目を、特徴情報を用いて特定し、検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する。
国際公開第2009/087815号
上述した類似文書検索システムは、予め格納した部分領域と、検索用部分領域との類似度を、部分領域の重心座標、面積および縦横比と、検索用部分領域の重心座標、面積および縦横比と、を用いて計算するとしている。したがって、類似文書検索システムは、部分領域の内部構成について類似度を計算することができない。電子文書に含まれる部分領域の内部構成を検索する手法としては、例えば、全文検索技術と、画像検索技術が挙げられる。
全文検索技術は、電子文書に含まれるワードを用い、当該ワードを含む電子文書の検索を行うことが可能である。しかし、全文検索技術は、広く使われるワードを検索キーに用いた場合には多くの電子文書を検索してしまう。すなわち、全文検索技術は、検索結果にノイズが多い場合があるため、所望の電子文書を発見することが困難である場合である。また、全文検索技術は、検索対象のワードを含む電子文書を持っていても、当該電子文書から検索に用いるワードを探し出して入力する手間がかかるといった課題もある。
画像検索技術は、事前に計算された画像のハッシュ値と一致するハッシュ値を持つ画像を検索する技術である。このため、画像検索技術によれば、電子文書を画像に変換し、画像のハッシュ値と同じハッシュ値を持つ画像を検索すれば、高い精度で電子文書を検索することができる。しかし、この画像検索技術は、転用により一部が変更された画像を発見することが困難であるため、所望の電子文書を検索することができない場合がある。
本発明は、上記の課題に鑑みてなされたものであって、電子文書の一部(素材)が転用されても、高い精度で類似する電子文書の素材を検索することができる素材検索システム、素材検索方法、素材検索装置、およびプログラムを提供することを目的としている。
(1)本発明の一態様は、複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出す切り出し部と、前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出する第1の特徴抽出部と、複数の表示オブジェクトを含む素材であって検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、前記第2の素材の特徴を抽出する第2の特徴抽出部と、前記切り出し部により切り出された前記第1の素材毎に、前記第1の特徴抽出部により抽出された前記第1の素材の特徴と、前記第2の特徴抽出部により抽出された前記第2の素材の特徴とを比較する比較部と、前記比較部による比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索する検索部と、を備え、前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第1の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第2の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する、素材検索システムである。
)本発明の一態様は、上記の素材検索システムであって、前記比較部は、前記切り出し部により切り出された前記第1の素材毎に、前記第1の特徴抽出部により抽出された表示オブジェクトごとの特徴と、前記第2の特徴抽出部により抽出された表示オブジェクトごとの特徴とを比較し、前記検索部は、前記比較部により比較された表示オブジェクトごとの比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索してよい。
)本発明の一態様は、上記の素材検索システムであって、前記比較部は、前記第1の素材における表示オブジェクトごとの特徴が、前記第2の素材の表示オブジェクトごとの特徴から所定の閾値を超えるか否かを判定してよい。
)本発明の一態様は、上記の素材検索システムであって、前記第1の表示情報に基づく第1の画像を生成する第1の画像処理部と、前記比較部による比較結果に基づいて、前記第1の画像処理部により生成された第1の画像に、前記第2の素材に含まれる表示オブジェクトに類似する表示オブジェクトを示す検索結果画像を重畳させたコンテンツを生成するコンテンツ生成部と、を備えてよい。
)本発明の一態様は、バッチサーバ装置が、複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出すステップと、前記バッチサーバ装置が、前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出するステップと、複数の表示オブジェクトを含む素材であって、検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、第2の素材の特徴を抽出するステップと、前記バッチサーバ装置が、前記第1の素材毎に、前記第1の素材の特徴と、前記第2の素材の特徴とを比較するステップと、前記バッチサーバ装置が、比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索するステップと、を含前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第1の素材の特徴を抽出するステップは、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第2の素材の特徴を抽出するステップは、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する、素材検索方法である。
)本発明の一態様は、複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出す切り出し部と、前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出する第1の特徴抽出部と、複数の表示オブジェクトを含む素材であって検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、第2の素材の特徴を抽出する第2の特徴抽出部と、前記切り出し部により切り出された前記第1の素材毎に、前記第1の特徴抽出部により抽出された前記第1の素材の特徴と、前記第2の特徴抽出部により抽出された前記第2の素材の特徴とを比較する比較部と、前記比較部による比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索する検索部と、を備え、前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第1の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第2の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する、素材検索装置である。
)本発明の一態様は、コンピュータに、複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出させ、前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出させ、複数の表示オブジェクトを含む素材であって検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、第2の素材の特徴を抽出させ、前記第1の素材毎に、前記第1の素材の特徴と、前記第2の素材の特徴とを比較させ、比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索させ、前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する、プログラムである。
本発明の一態様によれば、電子文書の一部(素材)が転用されても、高い精度で類似する電子文書の素材を検索することができる。
本発明を適用した第1実施形態に係る素材検索システムの一例を示すブロック図である。 実施形態の素材検索システムにおける事前処理の一例を示すフローチャートである。 実施形態の素材検索システムにおける検索処理の一例を示すフローチャートである。 プレゼンテーション文書ファイルにおけるスライドの一例を示す図である。 クラスタリング処理の一例を示す図である。 素材を切り分ける処理の一例を示す図である。 特徴抽出処理の一例を示す図である。 第2の素材の選択処理の一例を示す図である。 ユーザ端末装置100に表示させる表示画面の一例である。 ユーザにより選択された範囲の一例を示す図である。 表示オブジェクトIDと、距離の特徴値と、角度の特徴値と、サイズの特徴値と、形状の特徴値との関係を示す図である。 表示オブジェクトIDと、距離の許容範囲と、角度の許容範囲と、サイズの許容範囲と、形状の特徴値との関係を示す図である。 第1の素材の素材IDと、選択範囲に含まれる表示オブジェクトの表示オブジェクトIDとの関係を示す図である。 検索結果を提示する画像の一例を示す図である。 実施形態の効果の一例を示す図であって、(a)は対象のスライドのうち、ユーザの操作により選択された範囲を示す図であり、(b)は検索対象の第2の素材を示す図である。 実施形態の効果の一例を示す図であって、(a)は素材が横方向に拡大されて転用されたスライドを示す図であり、(b)は素材が縦方向に拡大されて転用されたスライドを示す図であり、(c)は素材がスライド全体に拡大されて転用されたスライドを示す図であり、(d)は素材のうち一部の表示オブジェクト(3)が削除されて転用されたスライドを示す図であり、(e)は素材に対して一部の表示オブジェクトが変更されて転用されたスライドを示す図であり、(f)は素材に対して他の表示オブジェクト(A)が追加されて転用されたスライドを示す図である。 事前処理におけるプレゼンテーション文書ファイルの監視処理の一例を示すシーケンス図である。 事前処理における内部データの抽出処理の一例を示すシーケンス図である。 事前処理におけるスライドの画像化処理の一例を示すシーケンス図である。 事前処理における特徴抽出処理の一例を示すシーケンス図である。 事前処理における検索リソースの生成処理の一例を示すシーケンス図である。 検索処理の一例を示すシーケンス図である。
以下、本発明を適用した素材検索システム、素材検索方法、素材検索装置、およびプログラムを、図面を参照して説明する。
本発明を適用した素材検索システムは、電子文書として、例えば、プレゼンテーション文書を用いて、当該プレゼンテーション文書に含まれる素材を検索する。素材とは、プレゼンテーション文書に含まれる、複数の表示オブジェクトを含むデータである。表示オブジェクトとは、例えば、所定の形状を有する図形オブジェクトである。なお、表示オブジェクトは、例えば、クリップアートと称される画像であってもよく、外部から取り込んだグラフィック画像であってもよく、既存の画像処理プログラムなどで作成した静止画像や動画画像であってもよい。
以下の実施形態において、素材検索システムは、各プレゼンテーション文書における各スライドを複数の素材に分割し、素材ごとに検索結果を提供することを実現する。これにより、素材検索システムは、例えば、ユーザによりプレゼンテーション文書に含まれる任意のスライドのうち一部の素材を選択した場合、当該素材に含まれる複数の表示オブジェクトに基づいて、当該選択された素材に類似する素材を検索結果として抽出し、提供することができる。
なお、実施形態において、電子文書の一例がプレゼンテーション文書であり、プレゼンテーション文書に一または複数のスライドが含まれ、各スライドには複数の表示オブジェクトが含まれるものとして説明する。しかし、実施形態が適用される範囲はプレゼンテーション文書に限定されず、複数の表示オブジェクトを含む電子文書であれば適用可能であることは勿論である。
<システム構成例>
図1は、本発明を適用した第1実施形態に係る素材検索システムの一例を示すブロック図である。素材検索システムは、例えば、ユーザ端末装置100と、検索サーバ装置200と、バッチサーバ装置300と、管理用データベース装置410と、ストレージ装置420と、ファイル蓄積装置500とを備える。ユーザ端末装置100および検索サーバ装置200は、ネットワークNWに接続される。ネットワークNWに接続される各装置は、NIC(Network Interface Card)や無線通信モジュールなどの通信インターフェースを備えている。ネットワークNWは、例えば、汎用のインターネット、WAN(Wide Area Network)、LAN(Local Area Network)、セルラー網などを含む。また、検索サーバ装置200、バッチサーバ装置300、管理用データベース装置410、ストレージ装置420、およびファイル蓄積装置500は、例えば、アクセスが制限されたLAN等により相互に通信接続される。なお、実施形態において、検索サーバ装置200とバッチサーバ装置300は別体であるが、一体の検索装置であってよい。
ユーザ端末装置100は、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータ等である。ユーザ端末装置100は、例えば、通信部102と、表示部104と、受付部106と、クエリ生成部108とを備える。通信部102は、例えばNICである。表示部104は、例えば液晶ディスプレイである。受付部106は、例えば、タッチセンサやマイク等のユーザの操作を受け付ける機器である。クエリ生成部108は、受付部106で受け付けたユーザの操作の操作に基づいて検索クエリを生成する。また、ユーザ端末装置100は、ブラウザやアプリケーションプログラムなどのUA(User Agent)を備える(不図示)。ユーザ端末装置100は、UAとしてのブラウザを利用して、検索サーバ装置200に検索クエリを送信したり、検索サーバ装置200から各種のコンテンツデータを受信する。なお、クエリ生成部108やUAといった機能部は、例えばCPU(Central Processing Unit)等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。また、これらの機能部のうち一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。
検索サーバ装置200は、ユーザ端末装置100に対して素材の検索サービスを提供するサーバ装置である。検索サーバ装置200は、例えば、例えば、API(Application Programming Interface)部202と、検索部204と、結果生成部206とを備える。なお、API部202、検索部204、および結果生成部206といった機能部は、例えばCPU等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。また、これらの機能部のうち一部または全部は、LSI、ASIC、またはFPGA等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。
API部202は、ユーザ端末装置100からの要求を受け付けた場合に、ユーザ端末装置100からの要求に対する応答をユーザ端末装置100に送信するインターフェースとして機能する。検索部204は、ユーザ端末装置100から受け付けた検索クエリに基づいて検索処理を実行する。結果生成部206は、検索部204による検索処理の検索結果を生成する。
バッチサーバ装置300は、例えば、監視部302と、データ抽出部304と、画像生成部306と、クラスタリング部308と、マッピング部310と、特徴抽出部312とを備える。監視部302、データ抽出部304、画像生成部306、クラスタリング部308、マッピング部310、および特徴抽出部312といった機能部は、例えばCPU等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。また、これらの機能部のうち一部または全部は、LSI、ASIC、またはFPGA等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。
監視部302は、ファイル蓄積装置500に蓄積されたプレゼンテーション文書ファイルを監視し、処理対象のプレゼンテーション文書ファイルを抽出する。データ抽出部304は、プレゼンテーションファイルから内部データを抽出する。内部データは、プレゼンテーション文書ファイルに含まれる情報であって各表示オブジェクトを定義するデータである。画像生成部306は、プレゼンテーション文書ファイルに含まれる各スライドを画像化する。クラスタリング部308は、各スライドに含まれる複数の表示オブジェクトから素材を切り出す。マッピング部310は、各スライドの画像と、当該画像における表示オブジェクトおよび素材とのマッピング処理を行う。特徴抽出部312は、各表示オブジェクトの特徴を抽出する。
管理用データベース装置410は、例えば、NIC、HDD(Hard Disk Drive)等の記憶装置、およびデータベース管理ソフトウェア等を含む。管理用データベース装置410には、例えば、プレゼンテーション文書ファイルID、スライドID、素材ID、表示オブジェクトID、および画像ファイルID等を対応付けた管理情報が格納されている。また、管理用データベース装置410には、例えば素材IDに対応して特徴ファイルや画像のファイルの格納場所情報が格納されている。
ストレージ装置420は、例えば、NIC、HDD等の記憶装置、および制御用ソフトウェア等を含む。ストレージ装置420には、例えば、内部データファイル、特徴ファイル、画像ファイル、およびプレゼンテーション文書ファイルの保存場所情報等が格納されている。
ファイル蓄積装置500は、NIC、HDD等の記憶装置、および制御用ソフトウェア等を含む。ファイル蓄積装置500には、プレゼンテーション文書ファイルが格納される。ファイル蓄積装置500には、例えば、特定の社内で共有されるプレゼンテーション文書ファイルが格納される。
以下、実施形態の素材検索システムにおける全体処理について説明する。素材検索システムにおける全体処理は、例えば、事前処理と、検索処理とを含む。
<事前処理>
図2は、実施形態の素材検索システムにおける事前処理の一例を示すフローチャートである。
まず、監視部302は、ファイル蓄積装置500に処理対象のプレゼンテーション文書ファイルを発見する(ステップS100)。次にデータ抽出部304は、プレゼンテーション文書ファイルを展開することで内部データを抽出する(ステップS102)。プレゼンテーション文書ファイルを展開するとは、プレゼンテーション文書ファイルに所定の処理(変換、解析など)を施すことによりプレゼンテーション文書ファイルに固有の情報を抽出することである。プレゼンテーション文書ファイルを展開するとは、例えばパワーポイントファイルにおいて埋め込まれたXML(Extensible Markup Language)データを解析して、特徴抽出に必要な情報を取得することである。また、画像生成部306は、プレゼンテーション文書ファイルに含まれる各スライドを画像化する(ステップS104)。
次にクラスタリング部308は、各スライドから素材を切り出す(ステップS106)。以下、事前処理において切り出された素材を、第1の素材と記載する。次にマッピング部310は、画像化された各スライドの画像と、各スライドから切り出された素材とのマッピングを行う(ステップS108)。また、特徴抽出部312は、素材ごとに特徴を抽出し、特徴ファイルを作成する(ステップS110)。次にバッチサーバ装置300は、管理用データベース装置410に管理情報等と登録すると共に、特徴ファイルや画像ファイルをストレージ装置420に登録する(ステップS112)。
<検索処理>
図3は、実施形態の素材検索システムにおける検索処理の一例を示すフローチャートである。
まず、API部202は、ユーザ端末装置100からプレゼンテーション文書ファイルを受信したか否かを判定する(ステップS200)。API部202は、プレゼンテーション文書ファイルを受信していない場合(ステップS200:NO)、待機し、プレゼンテーション文書ファイルを受信した場合(ステップS200:YES)、ステップS202に処理を進める。
次に検索部204は、受信したプレゼンテーション文書ファイルに含まれる各スライドを画像化し(ステップS202)、ユーザ端末装置100に送信する(ステップS204)。次に検索部204は、検索クエリを受信したか否かを判定する(ステップS206)。検索部204は、検索クエリを受信していない場合(ステップS206:NO)、待機し、検索クエリを受信した場合(ステップS206:YES)、ステップS208に処理を進める。なお、検索部204は、画像を送信した後から所定時間が経過した場合に、タイムアウトとして本フローチャートの処理を終了してよい。
次に検索部204は、プレゼンテーション文書ファイルを展開することで、検索クエリに含まれる素材に対応する表示オブジェクトの内部データを抽出し(ステップS208)、素材の特徴を抽出する(ステップS210)。なお、以下の説明において検索クエリに含まれる素材を、第2の素材と記載する。
次に検索部204は、第2の素材の特徴と、第1の素材の特徴とを比較して、第2の素材の特徴に類似する第1の素材を検索する(ステップS212)。次に検索部204は、検索結果に基づき、第2の素材に類似する第1の素材を含むスライドの画像を取得し、当該スライドの画像に対し、第2の素材に含まれる表示オブジェクトを表すアイコン画像をマッピングする(ステップS214)。検索部204は、検索結果コンテンツをユーザ端末装置100に送信する(ステップS216)。検索結果コンテンツは、例えば、第1の素材を含むスライドの画像に対してアイコン画像をマッピングした画像を表示するためのデータである。
以下、上述した事前処理および検索処理における具体的な処理内容について説明する。
<素材の切り出し処理(ステップS106)>
図4は、プレゼンテーション文書ファイルにおけるスライドの一例を示す図である。スライドには、表示オブジェクトIDが1~5の5個の表示オブジェクトが含まれているものとする。
図5は、クラスタリング処理の一例を示す図である。クラスタリング処理の処理前において、複数の表示オブジェクトは、5個のクラスタに分割されている。バッチサーバ装置300は、各表示オブジェクトの中心位置を特定し、中心間距離が近い表示オブジェクト同士を結合する。まず、バッチサーバ装置300は、表示オブジェクトID「3」の表示オブジェクトと、表示オブジェクトID「4」の表示オブジェクトとを結合することで、4個のクラスタを形成する。次にバッチサーバ装置300は、表示オブジェクトID「3」と表示オブジェクトID「4」とが結合された表示オブジェクトと、表示オブジェクトID「5」の表示オブジェクトとを結合することで、3個のクラスタを形成する。バッチサーバ装置300は、表示オブジェクトID「1」の表示オブジェクトと、表示オブジェクトID「2」の表示オブジェクトとを結合することで、2個のクラスタを形成する。次にバッチサーバ装置300は、2個のクラスタを結合することで1個のクラスタを形成する。
図6は、素材を切り分ける処理の一例を示す図である。バッチサーバ装置300は、表示オブジェクト間の距離に基づく図6に示すような樹形図において、Cophenetic相関係数(類似度)が閾値を下回る範囲でクラスタを分割する。これにより、バッチサーバ装置300は、表示オブジェクトIDが「4,3,5」の3個の表示オブジェクトを含む第1の素材と、表示オブジェクトIDが「2,1」の2個の表示オブジェクトを含む第1の素材とにクラスタリングすることができる。なお、素材を切り分ける処理においては、1枚のスライドに対し、複数パターンの素材を切り分けてもよい。例えば、上記において、表示オブジェクトIDが「4,3,5」の3個の表示オブジェクトを含む第1の素材と、表示オブジェクトIDが「2,1」の2個の表示オブジェクトを含む第1の素材に加えて、当該スライドのオブジェクトをすべて含む素材、すなわちオブジェクトIDが「1,2,3,4,5」の5個の表示オブジェクトを含む第1の素材を抽出してもよい。なお、実施形態は、既存技術のagglomerative hierarchical clustering+ward法という手法を利用したが、これに限定されず、オブジェクトをn個の素材にグルーピングできる処理であればよい。
<特徴抽出処理(ステップS110)>
図7は、特徴抽出処理の一例を示す図である。なお、以下の説明において、特徴抽出処理は、2つの表示オブジェクトを含む第1の素材を処理対象とするものとする。
バッチサーバ装置300は、第1の素材に含まれる表示オブジェクトごとに、当該表示オブジェクトの形状に基づく特徴を抽出する。バッチサーバ装置300は、内部データ(XMLデータ)から形状(Geometry)の特徴値を抽出する。形状の特徴値は、形状に対応して予め内部データに割り当てられている。例えば、表示オブジェクトの形状が同じ四角形の場合には同じ特徴値となり、表示オブジェクトの形状が円形である場合には四角形の表示オブジェクトとは異なる特徴値になる。
バッチサーバ装置300は、まず、第1の素材の基準点を設定する(図7(A))。基準点は、例えば、第1の素材における中央点である。バッチサーバ装置300は、表示オブジェクトごとに距離Lおよび角度θを演算する(図7(B))。距離Lは、基準点から表示オブジェクトの中心点までの距離である。距離Lの特徴値は、例えば、基準点から第1の素材の頂点までの距離を1とした場合における、基準点から各表示オブジェクトの中心点までの距離に応じた値で表される。角度θの特徴値は、水平線と、基準点と表示オブジェクトとを結ぶ線とのなす角度(degree)である。バッチサーバ装置300は、表示オブジェクトごとに、第1の素材のサイズを1にした場合における表示オブジェクトのサイズSの特徴値を演算する(図7(C))。
なお、図7には、表示オブジェクトIDが1の距離等を示しているが、表示オブジェクトIDが「2」の表示オブジェクトについても同様に特徴抽出処理を行うものとする。これにより、バッチサーバ装置300は、表示オブジェクトIDが「1」の表示オブジェクトの特徴値、および表示オブジェクトIDが「1」の表示オブジェクトの特徴値を含む第1の素材の特徴を抽出する。
<第2の素材の選択処理>
図8は、第2の素材の選択処理の一例を示す図である。ユーザ端末装置100は、図8(A)に示すように、表示オブジェクトID「1~5」の表示オブジェクトのうち、表示オブジェクトIDが1,2の表示オブジェクトに相当する画像範囲を選択したものとする。ユーザ端末装置100は、表示オブジェクトIDが1,2の表示オブジェクトに相当する画像範囲を示す情報を含む検索クエリを生成し、当該検索クエリを検索サーバ装置200に送信する。
検索サーバ装置200は、検索クエリからユーザの操作により選択された画像範囲の情報に基づいて、第2の素材を認識する。検索サーバ装置200は、図8(B)に示すように、表示オブジェクトIDが「1,2」の表示オブジェクトの端部を繋いで形成される矩形領域を第2の素材(検索対象素材)として認識する。そして、検索サーバ装置200は、バッチサーバ装置300と同様に、第2の素材の表示オブジェクトごとに、形状の特徴値、角度の特徴値、およびサイズの特徴値を算出する。これにより、検索サーバ装置200は、表示オブジェクトIDが「1」の表示オブジェクトの特徴値、および表示オブジェクトIDが「1」の表示オブジェクトの特徴値を含む第2の素材の特徴を抽出する。
検索サーバ装置200は、第2の素材の特徴に類似する第1の素材の特徴を検索する。このとき、検索サーバ装置200は、第2の素材の特徴に一致する第1の素材の特徴を検索してよいが、これに限定されず、第2の素材の特徴に対して所定の許容範囲に含まれる第1の素材の特徴を抽出してよい。検索サーバ装置200は、図8(C)に示すように、距離L、角度θ、およびサイズSについて許容範囲を設定してよい。許容範囲は、検索サーバ装置200において設定してもよく、ユーザの操作に基づく許容範囲であってよい。ユーザの操作に基づく許容範囲は、例えば、検索クエリに含まれることによって検索サーバ装置200に通知されてよい。
<検索処理の具体例>
以下、検索処理の具体例について説明する。
図9は、ユーザ端末装置100に表示させる表示画面の一例である。ユーザ端末装置100は、プレゼンテーション文書ファイルの検索サービスを受けるため、検索対象のプレゼンテーション文書ファイルを選択する。ユーザ端末装置100は、ユーザの操作に基づいて、「○○プレゼン資料.pptx」というプレゼンテーション文書ファイルを選択し、アップロードボタンを選択すると、○○プレゼン資料.pptxを検索サーバ装置200に送信する。
その後、ユーザ端末装置100は、アップロードした○○プレゼン資料に含まれるスライド画像を受信し、表示画面に表示させる。ユーザ端末装置100は、ユーザの操作に基づいて、スライド画像のうち、3つの表示オブジェクトを含む範囲(図中の点線範囲)が選択され、検索ボタンが選択された場合に、選択範囲を示す情報を含む検索クエリを検索サーバ装置200に送信する。検索サーバ装置200は、選択範囲を示す情報に基づき、第2の素材を認識する。
図10は、ユーザにより選択された範囲の一例を示す図である。検索サーバ装置200は、ユーザの操作により選択された3つの表示オブジェクトにそれぞれ1~3の表示オブジェクトIDを与える。
図11は、表示オブジェクトIDと、距離の特徴値と、角度の特徴値と、サイズの特徴値と、形状の特徴値との関係を示す図である。検索サーバ装置200は、図11に示すような特徴ファイルを作成する。
図12は、表示オブジェクトIDと、距離の許容範囲と、角度の許容範囲と、サイズの許容範囲と、形状の特徴値との関係を示す図である。検索サーバ装置200は、例えば検索クエリに含まれる許容範囲の情報に基づいて、図12に示す許容範囲データを作成する。
図13は、第1の素材の素材IDと、選択範囲に含まれる表示オブジェクトの表示オブジェクトIDとの関係を示す図である。図13(a)は、第2の素材の表示オブジェクト(OID=0)を含む第1の素材の素材IDと当該第1の素材における表示オブジェクトIDとの対応を示す図である。図13(b)は、第2の素材の表示オブジェクト(OID=1)を含む第1の素材の素材IDと当該第1の素材における表示オブジェクトIDとの対応を示す図である。図13(c)は、第2の素材の表示オブジェクト(OID=2)を含む第1の素材の素材IDと当該第1の素材における表示オブジェクトIDとの対応を示す図である。
検索サーバ装置200は、図11に示す第2の素材の特徴から図12に示す許容範囲に含まれる第1の素材の特徴を検索する。検索サーバ装置200は、まず図11に示される第2の素材における表示オブジェクトID「0」の条件を満たす表示オブジェクトを持つ第1の素材を検索する。図13(a)に例示するように、これを満たす第1の素材のオブジェクトは素材ID「8」のOID「0」のオブジェクト、素材ID「2068」のOID「1」のオブジェクト、素材ID「60166」のOID「0」のオブジェクトとなる。同様に第2の素材に含まれるすべての表示オブジェクトに対し、それぞれのオブジェクトIDの条件を満たす第1の素材の表示オブジェクトを検索する。図13(b)、図13(c)はそれぞれ第2の素材のOID「1」に関する検索結果と、OID「2」に関する検索結果の例である。検索サーバ装置200は第2の素材の表示オブジェクト条件をすべて検索し終えたら、それぞれの結果を集計し、上位n件を抽出し、検索結果とする。例えば、図10~図13の状況であれば、検索結果は3個の表示オブジェクトが条件を満たす素材ID「60166」の素材が第1位、2個の表示オブジェクトが条件を満たす素材ID「2068」の素材が第2位、1個の表示オブジェクトが条件を満たす素材ID「8」、素材ID「64」、素材ID「134」、素材ID「645」の素材が3位となる。以上より、検索サーバ装置200は、選択範囲に含まれる3個の表示オブジェクトに類似する表示オブジェクトを持つ素材を検索することができる。
図14は、検索結果を提示する画像の一例を示す図である。検索サーバ装置200は、事前処理において作成されたスライド画像に、第2の素材に含まれる表示オブジェクトに対応する第1の素材中の表示オブジェクト画像に対応して星形のアイコン画像を重畳する。星形のアイコン画像は、ファイル蓄積装置500に蓄積されたプレゼンテーション文書ファイルのうち、第2の素材に含まれる3個の表示オブジェクトに類似する3個の表示オブジェクトを含む第1の素材を表している。検索サーバ装置200は、スライド画像にアイコン画像を重畳した画像を、検索結果画像としてユーザ端末装置100に提供する。
また、検索サーバ装置200は、第1の素材毎に、色などを区別して表示してよい。これにより、検索サーバ装置200は、検索サーバ装置200において認識している第1の素材のうち、どの第1の素材が第2の素材と類似しているかをユーザに認識させることができる。なお、図14には第1の素材を含むプレゼンテーション文書ファイル画像を示したが、プレゼンテーション文書ファイル画像を、図9に示したアップロード対象の画像に代えて表示し、表示画面の下部に、検索結果を表示してよい。
なお、第1の素材を含むスライド画像にアイコン画像を重畳した場合を説明したが、これに限定されず、第2の素材を含むスライド画像に、第1の素材と類似すると判定された第2の素材中の表示オブジェクト画像に対応して アイコン画像を重畳してよい。例えば、図9に示すように、選択した範囲に含まれる表示オブジェクトのうち、類似する表示オブジェクトを含む第1の素材が含まれる場合には、アイコン画像を表示すると共に、当該第1の素材が含まれるプレゼンテーション文書ファイルのファイル名や、ディレクトリ、ページや一致度を表示してよい。
図15および図16は、実施形態の効果の一例を示す図である。図15(a)は対象のスライドのうち、ユーザの操作により選択された範囲を示す図であり、図15(b)は、検索対象の第2の素材を示す図である。ユーザ端末装置100は、ユーザが選択された範囲に相当する第2の素材を表す情報を検索クエリに含めて検索サーバ装置200に送信する。
図16は、図15(b)に示した素材(第2の素材)が、他のプレゼンテーション文書ファイルにおいて転用されたスライドを示す図である。図16(a)は、素材が横方向に拡大されて転用されたスライドを示す図であり、図16(b)は、素材が縦方向に拡大されて転用されたスライドを示す図であり、図16(c)は、素材がスライド全体に拡大されて転用されたスライドを示す図であり、図16(d)は、素材のうち一部の表示オブジェクト(3)が削除されて転用されたスライドを示す図であり、図16(e)は、素材に対して一部の表示オブジェクトが変更されて転用されたスライドを示す図であり、図16(f)は、素材に対して他の表示オブジェクト(A)が追加されて転用されたスライドを示す図である。
検索サーバ装置200によれば、第1の素材の特徴と、第2の素材の特徴とを比較するため、図16に示すように素材が変形して転用された場合であっても、第2の素材に類似する第1の素材を検索することができる。すなわち、検索サーバ装置200によれば、第2の素材に含まれる表示オブジェクトの形状、素材中の距離、素材中の角度、素材中のサイズに基づいて素材同士を比較するので、喩え素材が変形しても、当該変形された第1の素材に対して高い類似度を取得することができる。すなわち、検索サーバ装置200によれば、ユーザの操作に基づく第2の素材中の表示オブジェクト(ID=1~5)が、第1の素材の表示オブジェクト(ID=1~5)に類似するため、当該表示オブジェクト(ID=1~5)を含む第1の素材を検索することができる。
<素材検索システムの処理例>
以下、上述した素材検索システムにおける処理例を説明する。
図17は、事前処理におけるプレゼンテーション文書ファイルの監視処理の一例を示すシーケンス図である。まず監視部302は、ファイル蓄積装置500に蓄積されているプレゼンテーション文書ファイルの一覧情報を取得する(ステップS1)。次に監視部302は、取得した一覧情報に含まれるプレゼンテーション文書ファイルの情報が管理用データベース装置410に存在するか否かを確認する。監視部302は、プレゼンテーション文書ファイルの情報が管理用データベース装置410に存在する場合、当該プレゼンテーション文書ファイルのタイムスタンプ情報を確認する(ステップS2)。監視部302は、一覧情報に含まれるタイムスタンプ情報が、管理用データベース装置410から取得したタイムスタンプ情報よりも新しい場合、またはプレゼンテーション文書ファイルの情報が管理用データベース装置410に存在しない場合、当該プレゼンテーション文書ファイルをストレージ装置420にコピーする(ステップS3)。次に監視部302は、取得したプレゼンテーション文書ファイルの処理フラグを、「画像化未処理ファイル」、および「抽出未処理ファイル」として管理用データベース装置410に記憶する(ステップS4)。
図18は、事前処理における内部データの抽出処理の一例を示すシーケンス図である。まずデータ抽出部304は、管理用データベース装置410におけるプレゼンテーション文書ファイルの情報を参照し、管理用データベース装置410を参照して抽出未処理ファイルが存在するか否かを監視する(ステップS11)。データ抽出部304は、抽出未処理のプレゼンテーション文書ファイルをストレージ装置420から取得し、取得したプレゼンテーション文書ファイルを解析することで、表示オブジェクトの内部データを抽出する(ステップS12)。次にデータ抽出部304は、抽出した表示オブジェクトの内部データをストレージ装置420に出力する(ステップS13)。次にデータ抽出部304は、管理用データベース装置410におけるプレゼンテーション文書ファイルの処理フラグを「抽出処理済み」に更新する(ステップS14)。次にデータ抽出部304は、管理用データベース装置410の管理情報のうち、内部データ抽出済みの管理情報を更新する(ステップS15)。データ抽出部304は、例えば、内部データファイルのIDや保存場所の情報を更新する。
図19は、事前処理におけるスライドの画像化処理の一例を示すシーケンス図である。まず画像生成部306は、管理用データベース装置410を参照して画像化未処理ファイルが存在するか否かを監視する(ステップS21)。画像生成部306は、画像化未処理のプレゼンテーション文書ファイルにおける各スライドを画像に変換する(ステップS22)。画像生成部306は、画像化された複数のスライド(画像情報)を、プレゼンテーション文書ファイルの画像ファイルとしてストレージ装置420に保存する(ステップS23)。画像生成部306は、画像化されたプレゼンテーション文書ファイルを画像化処理済みファイルとして管理用データベース装置410を更新する(ステップS24)。次に画像生成部306は、画像ファイルのファイルIDや画像ファイルの保存場所などの管理情報を更新する(ステップS25)。
図20は、事前処理における特徴抽出処理の一例を示すシーケンス図である。まず、バッチサーバ装置300は、管理用データベース装置410を参照して画像化処理済み且つ抽出処理済みのプレゼンテーション文書ファイルが存在するか否かを監視する(ステップS31)。サーバ装置300は、監視対象のプレゼンテーション文書ファイルが存在する場合、ストレージ装置420から内部データファイルおよび画像ファイルを取得する(ステップS32)。次にバッチサーバ装置300は、画像ファイルと表示オブジェクトの内部データとをマージし、第1の素材を生成する(ステップS33)。例えば、クラスタリング部308は、クラスタリング処理を行うことにより1つのスライドから複数の第1の素材を抽出し、各第1の素材の画像ファイルに含まれる表示オブジェクトと、内部データとの対応付けを行う。次に特徴抽出部312は、第1の素材の特徴を算出し、特徴ファイルとしてストレージ装置420に出力する(ステップS34)。バッチサーバ装置300は、第1の素材ごとの画像(素材画像)をストレージ装置420に出力する(ステップS35)。バッチサーバ装置300は、特徴ファイルについての管理情報(ファイルID、スライドID、素材ID、オブジェクトID等)を更新する(ステップS36)。次にバッチサーバ装置300は、プレゼンテーション文書ファイルの処理フラグを「特徴抽出処理済み」に更新する(ステップS37)。
図21は、事前処理における検索リソースの生成処理の一例を示すシーケンス図である。バッチサーバ装置300は、処理フラグが「特徴抽出処理済み」のプレゼンテーション文書ファイルについての管理情報を取得する(ステップS41)。次にバッチサーバ装置300は、取得した管理情報に基づいて「特徴抽出処理済み」のプレゼンテーション文書ファイルに含まれる第1の素材の特徴ファイルを管理用データベース装置410から全て取得し、一つの特徴データとしてマージする(ステップS42)。次にバッチサーバ装置300は、マージした特徴データを、検索処理に使用する行列部分と、検索結果の提示に使用するマッピング部分に分離する(ステップS43)。行列部分とは、例えば図11に示したように、プレゼンテーション文書ファイルごと、およびスライドごとに、第1の素材の特徴が行列化されたデータである。マッピング部分とは、例えば図14に示したように、第1の素材に含まれるスライド画像の範囲と、当該スライド画像に含まれる表示オブジェクトとのマッピング(位置関係)を表すデータである。行列部分、およびマッピング部分が、検索リソースとして使用される。バッチサーバ装置300は、行列部分をストレージ装置420のファイル(特徴ファイル)に出力する(ステップS44)。バッチサーバ装置300は、マッピング部分をストレージ装置420のファイル(画像ファイル)に出力する(ステップS45)。
図22は、検索処理の一例を示すシーケンス図である。
検索サーバ装置200は、例えば起動時に、ストレージ装置420から行列ファイルおよびマッピングファイルを取得する(ステップS51)。ユーザ端末装置100は、検索サービスを受けるための検索画面にアクセスする要求を検索サーバ装置200に送信する(ステップS52)。検索サーバ装置200は、ユーザ端末装置100からの要求に応じて、ユーザを特定するためのクッキー情報を管理用データベース装置410に払い出す(ステップS53)。次に検索サーバ装置200は、要求に応じて、検索画面を表示するためのコンテンツデータをユーザ端末装置100に提供する(ステップS54)。これにより、ユーザ端末装置100は、ユーザの操作に応じてプレゼンテーション文書ファイルを選択し、プレゼンテーション文書ファイルを検索サーバ装置200にアップロードする(ステップS55)。検索サーバ装置200は、アップロードされたプレゼンテーション文書ファイルをユーザごとに領域に保存し、プレゼンテーション文書ファイルを画像ファイルに変換し、プレゼンテーション文書ファイルの内部データを展開する(ステップS56)。検索サーバ装置200は、スライド毎の画像データ(スライド画像)をユーザ端末装置100に送信する(ステップS57)。これにより、ユーザ端末装置100は、ユーザの操作に応じてスライド画像の範囲を選択させることができる。
ユーザ端末装置100は、スライド画像を表示し、当該スライド画像の一部が選択された状態で検索ボタンが選択されたことに応じ(ステップS58)、検索クエリを検索サーバ装置200に送信する(ステップS59)。検索サーバ装置200は、ユーザにより選択されたスライド画像、当該スライド画像内における選択範囲の情報(座標情報)から、第2の素材を特定する。検索サーバ装置200は、ステップS56において展開した内部データを用いて第2の素材の特徴を算出する(ステップS60)。次に検索サーバ装置200は、第2の素材の特徴を、第1の素材の行列ファイルから検索する(ステップS61)。検索サーバ装置200は、検索された第1の素材(検索結果)に基づいて、当該第1の素材の画像ファイルを取得する(ステップS62)。次に検索サーバ装置200は、検索結果を作成して保存する(ステップS63)。検索サーバ装置200は、上述したように、第2の素材中の表示オブジェクトと類似する第1の素材中の表示オブジェクトにアイコン画像を付加することで検索結果を作成する。次に検索サーバ装置200は、検索結果をユーザ端末装置100に送信する(ステップS64)。ユーザ端末装置100は、受信した検索結果を表示する(ステップS65)。
なお、実施形態において、第2の素材の特徴の算出を検索サーバ装置200において実行したが、ユーザ端末装置100において第2の素材の特徴の算出を実行してよい。この場合、ユーザ端末装置100は、第2の素材の特徴を検索クエリに含めて検索サーバ装置200に送信し、検索サーバ装置200は、ステップS60の処理をスキップしてステップS61の検索処理を実行する。これにより、検索サーバ装置200の処理負担を軽減することができる。
以上のように、実施形態の素材検索システムによれば、複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出す切り出し部(クラスタリング部308)と、第1の素材に含まれる各表示オブジェクトの特徴を抽出する第1の特徴抽出部(特徴抽出部312)と、複数の表示オブジェクトを含む素材であって、検索対象の第2の素材に含まれる各表示オブジェクトの特徴を抽出する第2の特徴抽出部(検索部204)と、切り出し部(308)により切り出された第1の素材毎に、第1の特徴抽出部(312)により抽出された各表示オブジェクトの特徴と、第2の特徴抽出部(205)により抽出された各表示オブジェクトの特徴とを比較する比較部(検索部204)と、比較部により比較された複数の表示オブジェクトの比較結果に基づいて、複数の第1の素材のうち第2の素材に類似する第1の素材を検索する検索部(204)と、を実現することができる。この素材検索システムによれば、プレゼンテーション文書ファイルの一部(第1の素材)が転用されても、高い精度で類似するプレゼンテーション文書ファイルの素材(第2の素材)を検索することができる。
例えば、プレゼンテーション文書ファイルに含まれる文書に類似する文書を、全文検索を用いて検索する場合には、ユーザによりキーワードを検討させる必要がある。これに対し、実施形態の素材検索システムによれば、キーワードを入力することなしに、第2の素材に類似する第1の素材を含むプレゼンテーション文書ファイルを検索することができる。また、プレゼンテーション文書ファイルに含まれる素材が変形されて転用された場合のように、第1の素材と第2の素材が完全に一致しない場合であっても、第1の素材の特徴に類似する特徴を持つ第2の素材を検索することができる。
また、実施形態の素材検索システムによれば、プレゼンテーション文書ファイルに含まれる表示オブジェクトの内部データ(例えばXMLデータ)を展開して表示オブジェクトの特徴を抽出するので、全文検索技術におけるキーワードや画像検索技術における画像(ビットマップ)などとは異なる、プレゼンテーション文書ファイルが持つ固有の情報を用いて検索を行うことができる。
さらに、実施形態の素材検索システムによれば、表示オブジェクトの形状、素材における基準位置から表示オブジェクトまでの距離、素材における基準位置から見た表示オブジェクトの角度、および素材のサイズに対する表示オブジェクトのサイズの割合を、素材の特徴として抽出するので、素材中の複数の表示オブジェクトの特徴に基づいて素材を検索することができる。これにより、実施形態の素材検索システムによれば、素材の転用時に拡大や縮小、表示オブジェクトの削除や追加等の変更がされても、指定した範囲に含まれる複数の表示オブジェクトの形状、距離、角度、およびサイズが類似していれば、第1の素材を検索することができる。
さらに、実施形態の素材検索システムによれば、第1の素材の特徴が、第2の素材の特徴から所定の閾値を超えるか否かを判定するので、第1の素材が変形されて転用されても、閾値以内の特徴の差異であれば、第2の素材と類似していると判定することができる。
さらに、実施形態の素材検索システムによれば、第1の素材を含むスライド画像に、第2の素材に含まれる表示オブジェクトに類似する表示オブジェクトを示す検索結果画像(星形のアイコン画像)を重畳させたコンテンツを生成することができる。これにより、実施形態の素材検索システムによれば、選択された範囲に含まれる表示オブジェクトのうち、類似する表示オブジェクトを簡単に提示することができる。この結果、実施形態の素材検索システムによれば、検索サービスの利便性を向上させることができる。
さらに、実施形態のユーザ端末装置100によれば、複数の表示オブジェクトを含む第1の表示情報を検索サーバ装置200に送信し、検索サーバ装置200から第1の表示情報に基づく画像情報を受信し、画像情報を用いた表示をし、表示された画像のうち一部の範囲を選択する操作を受け付けたことに応じ、受け付けられた範囲を示す情報を含む検索クエリを生成することができる。これにより、ユーザ端末装置100によれば、プレゼンテーション文書ファイル画像を検索する際に簡単に検索クエリを生成することができる。
なお、各実施形態および変形例について説明したが、一例であってこれらに限られず、例えば、各実施形態や各変形例のうちのいずれかや、各実施形態の一部や各変形例の一部を、他の1または複数の実施形態や他の1または複数の変形例と組み合わせて本発明の一態様を実現させてもよい。
なお、本実施形態におけるユーザ端末装置100、検索サーバ装置200、およびバッチサーバ装置300の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムを、コンピュータシステムに読み込ませ、実行することにより、ユーザ端末装置100、検索サーバ装置200、およびバッチサーバ装置300に係る上述した種々の処理を行ってもよい。
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリなどの書き込み可能な不揮発性メモリ、CD-ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic
Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。
ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク(通信網)や電話回線などの通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。
100 ユーザ端末装置
102 通信部
104 表示部
106 受付部
108 クエリ生成部
200 検索サーバ装置
202 API部
204 検索部
206 結果生成部
300 バッチサーバ装置
302 監視部
304 データ抽出部
306 画像生成部
308 クラスタリング部
310 マッピング部
312 特徴抽出部
410 管理用データベース装置
420 ストレージ装置
500 ファイル蓄積装置

Claims (7)

  1. 複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出す切り出し部と、
    前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出する第1の特徴抽出部と、
    複数の表示オブジェクトを含む素材であって検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、前記第2の素材の特徴を抽出する第2の特徴抽出部と、
    前記切り出し部により切り出された前記第1の素材毎に、前記第1の特徴抽出部により抽出された前記第1の素材の特徴と、前記第2の特徴抽出部により抽出された前記第2の素材の特徴とを比較する比較部と、
    前記比較部による比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索する検索部と、を備え、
    前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第1の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、
    前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第2の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する
    素材検索システム。
  2. 前記比較部は、前記切り出し部により切り出された前記第1の素材毎に、前記第1の特徴抽出部により抽出された表示オブジェクトごとの特徴と、前記第2の特徴抽出部により抽出された表示オブジェクトごとの特徴とを比較し、
    前記検索部は、前記比較部により比較された表示オブジェクトごとの比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索する、
    請求項に記載の素材検索システム。
  3. 前記比較部は、前記第1の素材における表示オブジェクトごとの特徴が、前記第2の素材の表示オブジェクトごとの特徴から所定の閾値を超えるか否かを判定する、
    請求項に記載の素材検索システム。
  4. 前記第1の表示情報に基づく第1の画像を生成する第1の画像処理部と、
    前記比較部による比較結果に基づいて、前記第1の画像処理部により生成された第1の画像に、前記第2の素材に含まれる表示オブジェクトに類似する表示オブジェクトを示す検索結果画像を重畳させたコンテンツを生成するコンテンツ生成部と、
    を備える、請求項からのうち何れか1項に記載の素材検索システム。
  5. バッチサーバ装置が、複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出すステップと、
    前記バッチサーバ装置が、前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出するステップと、
    複数の表示オブジェクトを含む素材であって、検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、第2の素材の特徴を抽出するステップと、
    前記バッチサーバ装置が、前記第1の素材毎に、前記第1の素材の特徴と、前記第2の素材の特徴とを比較するステップと、
    前記バッチサーバ装置が、比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索するステップと、
    を含
    前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第1の素材の特徴を抽出するステップは、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、
    前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第2の素材の特徴を抽出するステップは、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する、素材検索方法。
  6. 複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出す切り出し部と、
    前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出する第1の特徴抽出部と、
    複数の表示オブジェクトを含む素材であって検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、第2の素材の特徴を抽出する第2の特徴抽出部と、
    前記切り出し部により切り出された前記第1の素材毎に、前記第1の特徴抽出部により抽出された前記第1の素材の特徴と、前記第2の特徴抽出部により抽出された前記第2の素材の特徴とを比較する比較部と、
    前記比較部による比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索する検索部と、を備え、
    前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第1の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、
    前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第2の特徴抽出部は、前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する、素材検索装置。
  7. コンピュータに、
    複数の表示オブジェクトを含む第1の表示情報のうち一部の表示オブジェクトを含む第1の素材を切り出させ、
    前記第1の表示情報に含まれる情報であって各表示オブジェクトを定義した第1の内部データに基づいて、前記第1の素材の特徴を抽出させ、
    複数の表示オブジェクトを含む素材であって検索対象の第2の素材を含む第2の表示情報に含まれる情報であって各表示オブジェクトを定義した第2の内部データに基づいて、第2の素材の特徴を抽出させ、
    前記第1の素材毎に、前記第1の素材の特徴と、前記第2の素材の特徴とを比較させ、比較結果に基づいて、複数の第1の素材のうち前記第2の素材に類似する前記第1の素材を検索させ、
    前記第1の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第1の素材における基準位置から前記表示オブジェクトまでの距離、前記第1の素材における基準位置から見た前記表示オブジェクトの角度、および前記第1の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出し、
    前記第2の内部データは少なくとも表示オブジェクトの形状情報を含み、
    前記第1の素材の特徴として、前記表示オブジェクトごとに、前記第2の素材における基準位置から前記表示オブジェクトまでの距離、前記第2の素材における基準位置から見た前記表示オブジェクトの角度、および前記第2の素材のサイズに対する前記表示オブジェクトのサイズの割合、の少なくとも一つの特徴を抽出する
    プログラム。
JP2019125022A 2019-07-04 2019-07-04 素材検索システム、素材検索方法、素材検索装置、およびプログラム Active JP7304220B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019125022A JP7304220B2 (ja) 2019-07-04 2019-07-04 素材検索システム、素材検索方法、素材検索装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019125022A JP7304220B2 (ja) 2019-07-04 2019-07-04 素材検索システム、素材検索方法、素材検索装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021012452A JP2021012452A (ja) 2021-02-04
JP7304220B2 true JP7304220B2 (ja) 2023-07-06

Family

ID=74226205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019125022A Active JP7304220B2 (ja) 2019-07-04 2019-07-04 素材検索システム、素材検索方法、素材検索装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP7304220B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2007164648A (ja) 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2008027131A (ja) 2006-07-20 2008-02-07 Canon Inc 画像検索機能を持つ情報漏えい抑止システム
JP2010140209A (ja) 2008-12-11 2010-06-24 Nec Corp 検索システム、検索方法、およびプログラム
JP2011253442A (ja) 2010-06-03 2011-12-15 Nec Corp 画像検索装置、画像検索装置のデータ処理方法、および画像検索システム
JP2012221148A (ja) 2011-04-07 2012-11-12 Hitachi Ltd 画像処理方法、及び、画像処理システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240423B1 (en) * 1998-04-22 2001-05-29 Nec Usa Inc. Method and system for image querying using region based and boundary based image matching

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2007164648A (ja) 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2008027131A (ja) 2006-07-20 2008-02-07 Canon Inc 画像検索機能を持つ情報漏えい抑止システム
JP2010140209A (ja) 2008-12-11 2010-06-24 Nec Corp 検索システム、検索方法、およびプログラム
JP2011253442A (ja) 2010-06-03 2011-12-15 Nec Corp 画像検索装置、画像検索装置のデータ処理方法、および画像検索システム
JP2012221148A (ja) 2011-04-07 2012-11-12 Hitachi Ltd 画像処理方法、及び、画像処理システム

Also Published As

Publication number Publication date
JP2021012452A (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
US7548936B2 (en) Systems and methods to present web image search results for effective image browsing
US7457825B2 (en) Generating search requests from multimodal queries
JP5241954B2 (ja) 形状に基づく画像検索
RU2390833C2 (ru) Способ и система для идентификации связанности изображения, используя анализ ссылок и компоновки страницы
US8412717B2 (en) Changing ranking algorithms based on customer settings
US9652558B2 (en) Lexicon based systems and methods for intelligent media search
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
US9633015B2 (en) Apparatus and methods for user generated content indexing
US20150120760A1 (en) Image tagging
US20100169326A1 (en) Method, apparatus and computer program product for providing analysis and visualization of content items association
CN108664582B (zh) 企业关系的查询方法、装置、计算机设备及存储介质
JP2004178605A (ja) 情報検索装置及びその方法
KR20100046586A (ko) 맵 기반의 웹 검색 방법 및 장치
JP2012123654A (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP7304220B2 (ja) 素材検索システム、素材検索方法、素材検索装置、およびプログラム
JP7304221B2 (ja) 検索クエリ生成装置、検索クエリ生成方法、プログラム、素材検索システム、および素材検索方法
JP6376124B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6140835B2 (ja) 情報検索システムおよび情報検索方法
WO2022074859A1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
JP2004164331A (ja) 画像検索方法、画像検索装置、および画像検索プログラム
US20210216540A1 (en) Accessible and efficient search process using clustering
US20170255691A1 (en) Information processing system, information processing method, and program
JP2007233752A (ja) 検索装置、コンピュータプログラム及び記録媒体
US11500937B1 (en) Data retrieval system
Graupmann et al. GeoSphereSearch: Context-Aware Geographic Web Search.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230626

R150 Certificate of patent or registration of utility model

Ref document number: 7304220

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150