JP5466133B2 - 画像付文書検索装置及び画像付文書検索プログラム - Google Patents

画像付文書検索装置及び画像付文書検索プログラム Download PDF

Info

Publication number
JP5466133B2
JP5466133B2 JP2010239806A JP2010239806A JP5466133B2 JP 5466133 B2 JP5466133 B2 JP 5466133B2 JP 2010239806 A JP2010239806 A JP 2010239806A JP 2010239806 A JP2010239806 A JP 2010239806A JP 5466133 B2 JP5466133 B2 JP 5466133B2
Authority
JP
Japan
Prior art keywords
image
evaluation value
document data
data
added document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010239806A
Other languages
English (en)
Other versions
JP2012093901A (ja
Inventor
泰彦 宮崎
豪 東野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010239806A priority Critical patent/JP5466133B2/ja
Publication of JP2012093901A publication Critical patent/JP2012093901A/ja
Application granted granted Critical
Publication of JP5466133B2 publication Critical patent/JP5466133B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、通信ネットワーク上の画像付文書を検索する技術に関する。
現在、通信ネットワーク上には、URL(Uniform Resource Locator)という形式により指定され、主にHTML(HyperText Markup Language)というフォーマットで記述された電子的な文書(以下、Web文書)が多数存在する。そして、これら多数のWeb文書の中から適切なWeb文書を検索するための仕組みは「サーチエンジン」と呼ばれ、例えば「http://www.goo.ne.jp/」等の検索サイトで実施されている。
このようなサーチエンジンは、主に、利用者が指定した検索キーワードを含むWeb文書を通信ネットワーク上から検索する機能と、検索されたWeb文書に適切な順位を決めて利用者に表示する機能とで構成されている。
現在では、通信ネットワーク上のWeb文書数は膨大であり、指定された検索キーワードを有するWeb文書が多数検索されることから、検索されたWeb文書を適切な順序で表示する順位決めの技術は、サーチエンジンにとって重要となっている。
順位決めの公知技術としては、例えば、非特許文献1に記載された方法が挙げられる。この方法では、検索された各Web文書に対して、リンクアンカーテキストを抽出してWeb文書間のリンク関係を解析し、より重要なWeb文書からのリンクをより多く持つWeb文書に対して、より高い数値が与えられる「ページランク」と呼ばれる評価値を算出し、その評価値に基づいて出力順を決めている。
また、このような従来技術の改良方法として、特許文献1には、アクセス履歴等を利用する技術が開示され、特許文献2の背景技術には、検索キーワードとWeb文書との一致度を算出し、その一致度とWeb文書の重要度(評価値)とに基づいて順位決めを行う技術が開示されている。
特開2010−72909号公報 特開2010−61322号公報 特開2003−85209号公報
Sergey Brin、外1名、「The anatomy of a large-scale hypertextual Web search engine」、Computer Networks and ISDN Systems、Volume 30、Issue 1-7、1998年、p.107-117
そのような従来技術による検索結果の順位付けは、主に、PC(Personal Computer)上でWebブラウザと呼ばれるソフトウェアを用いて利用者が閲覧することを目的として決められている。
そのため、検索結果のWeb文書は、「読む」こと、つまり、Web文書のテキスト情報を中心としており、利用者が読み進めるWeb文書上の位置に応じてスクロール等の操作を行うことによりアクセスすることを前提として、適切な順序になるように決定されている。
一方、近年、PC以外のデバイスも通信ネットワークに接続可能となっており、必ずしも、利用者の操作を前提としない端末装置もある。例えば、街頭に設置され、不特定多数の利用者が見るディスプレイ装置(一般に、「デジタルサイネージ」等と呼ばれる)や、家庭内に置かれ、写真立てのような形状をしたディスプレイ装置(一般に、「デジタルフォトフレーム」等と呼ばれる)等がある。これらのディスプレイ装置には、通信ネットワークへアクセスする手段と、Webブラウザに相当する機能が具備され、Web文書を表示することが可能となっている。
このような端末装置は、特定の利用者が占有して操作することよりも、複数の利用者により、主に操作を必要とすることなく情報を表示することを目的としている。以降、このような端末装置を共用ディスプレイという。ブラウザ機能を有するPCをこのような目的で使用することが可能であるから、以降の説明においてブラウザ機能を有するPCも共用ディスプレイに含まれる。
しかしながら、このような共用ディスプレイに表示するためのWeb文書を前述した既存技術により検索すると、上位の検索結果のものであっても、必ずしも、共用ディスプレイで表示することが適切でないものが含まれる。共用ディスプレイは、利用者により操作されることは少なく、やや離れた場所から「眺める」ことを前提としているため、テキスト情報中心のWeb文書を「読む」こと、特に、その際にスクロール等の操作を伴うことは適切ではない。
本発明は、上記を鑑みてなされたものであり、表示端末での表示に適したWeb文書を提供することを課題とする。
請求項1に記載の画像付文書検索装置は、通信ネットワークをクローリングして画像付文書データを逐次取得する手段と、取得された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、前記画像付文書データと前記レイアウト評価値とを関連付けて予め記憶しておく手段と、検索要求に該当する画像付文書データを前記記憶手段から検索し、検索された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、前記算出する手段は、前記画像データの配置状態を値化する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出し、前記プリミティブな評価値は、少なくとも、Rt=画像の個数/全文字数、Rl=画像の個数/全行数、Rh=Σ i=1,…,N 画像iの高さ/画像付文書データの表示領域の高さ、Mt=Max i=0,…,N (画像iと画像i+1との間の文字数)、Ml=Max i=0,…,N (画像iと画像i+1との間の行数)、Mh=Max i=0,…,N (画像iと画像i+1との間の領域の高さ)であって(但し、Nは画像の個数であり、画像0は画像付文書データの先頭、画像N+1は画像付文書データの最後にあるとする)、前記算出する手段は、当該評価値のうちいずれか1以上を用いて前記レイアウト評価値を算出することを特徴とする。
本発明によれば、通信ネットワークをクローリングして画像付文書データを逐次取得し、取得された画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出し、画像付文書データとレイアウト評価値とを関連付けて予め記憶しておき、検索要求に該当する画像付文書データを記憶手段から検索し、検索された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信するため、表示端末での表示に適した画像付文書データを提供できる。
具体的に言えば、Web文書のレイアウト(Web文書内のテキストと画像との配置状態)を考慮したレイアウト評価値を算出し、検索されたWeb文書の順位を当該レイアウト評価値を用いて決定するため、デジタルサイネージやデジタルフォトフレーム等での表示に適したWeb文書検索結果を利用者に提供できる。
また、レイアウト評価値で順位付けができるため、既存の評価方法による評価値での順位付けを、レイアウト評価値での順位付けに変更することもできる。
請求項2に記載の画像付文書検索装置は、検索要求に該当する画像付文書データを通信ネットワーク上から検索し、検索された画像付文書データを記憶手段に記憶する手段と、検索された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、前記画像付文書データを前記記憶手段から読み出して、読み出された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、前記算出する手段は、前記画像データの配置状態を値化する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出し、前記プリミティブな評価値は、少なくとも、Rt=画像の個数/全文字数、Rl=画像の個数/全行数、Rh=Σ i=1,…,N 画像iの高さ/画像付文書データの表示領域の高さ、Mt=Max i=0,…,N (画像iと画像i+1との間の文字数)、Ml=Max i=0,…,N (画像iと画像i+1との間の行数)、Mh=Max i=0,…,N (画像iと画像i+1との間の領域の高さ)であって(但し、Nは画像の個数であり、画像0は画像付文書データの先頭、画像N+1は画像付文書データの最後にあるとする)、前記算出する手段は、当該評価値のうちいずれか1以上を用いて前記レイアウト評価値を算出することを特徴とする。
本発明によれば、検索要求に該当する画像付文書データを通信ネットワーク上から検索し、検索された画像付文書データを記憶手段に記憶し、検索された画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出し、画像付文書データを記憶手段から読み出して、読み出された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信するため、表示端末での表示に適した画像付文書データを提供できる。
具体的に言えば、請求項1に記載された発明の効果と同様に、Web文書のレイアウト(Web文書内のテキストと画像との配置状態)を考慮したレイアウト評価値を算出し、検索されたWeb文書の順位を当該レイアウト評価値を用いて決定するため、デジタルサイネージやデジタルフォトフレーム等での表示に適したWeb文書検索結果を利用者に提供できる。
また、レイアウト評価値で順位付けができるため、既存の評価方法による評価値での順位付けを、レイアウト評価値での順位付けに変更することもできる。
請求項3に記載の画像付文書検索装置は、通信ネットワークをクローリングして画像付文書データを逐次取得する手段と、取得された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、前記画像付文書データと前記レイアウト評価値とを関連付けて予め記憶しておく手段と、検索要求に該当する画像付文書データを前記記憶手段から検索し、検索された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、前記算出する手段は、前記画像データの配置状態を値化し、且つ前記画像データの配置間隔を反映する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出することを特徴とする
請求項4に記載の画像付文書検索装置は、検索要求に該当する画像付文書データを通信ネットワーク上から検索し、検索された画像付文書データを記憶手段に記憶する手段と、検索された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、前記画像付文書データを前記記憶手段から読み出して、読み出された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、前記算出する手段は、前記画像データの配置状態を値化し、且つ前記画像データの配置間隔を反映する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出することを特徴とする
請求項5に記載の画像付文書検索装置は、請求項1乃至4のうちいずれかに記載の画像付文書検索装置において、前記返信する手段が、既存の評価方法による前記画像付文書データの評価値と前記レイアウト評価値とを用いて算出された評価値で順位付けることを特徴とする。
請求項6に記載の画像付文書検索装置は、請求項1乃至5のうちいずれかに記載の画像付文書検索装置において、前記返信する手段が、順位付けられた複数の画像付文書データのうちいずれかをフィルタリングして返信することを特徴とする。
請求項7に記載の画像付文書検索プログラムは、請求項1乃至6のうちいずれかに記載の画像付文書検索装置における各手段の処理をコンピュータに実行させることを特徴とする。
本発明によれば、表示端末での表示に適したWeb文書を提供することができる。
第1の実施の形態に係る画像付文書検索装置の機能ブロック構成を示す図である。 コンテンツ蓄積部に蓄積されるデータ例を示す図である。 レイアウト評価値算出部の処理フローを示す図である。 Web文書の構成例を示す図である。 Web文書の構成例を示す図である。 Web文書検索部の処理フローを示す図である。 第2の実施の形態に係る画像付文書検索装置の機能ブロック構成を示す図である。 順位付けに使用された評価値を含むサーチエンジンの検索結果を示す図である。 第2の実施の形態に係るWeb文書検索部の処理フローを示す図である。
以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る画像付文書検索装置の機能ブロック構成を示す図である。この画像付文書検索装置100は、クローラ部11と、コンテンツ蓄積部12と、レイアウト評価値算出部13と、Web文書検索部14とで構成されている。以下、これら各部の機能について詳述する。
クローラ部11は、通信ネットワーク500上をクローリング(巡回)し、当該通信ネットワーク500に接続されたサーバ(不図示)のWebサイトから画像付文書データ(以下、Web文書)を逐次取得して、コンテンツ蓄積部12に随時蓄積する機能を有している。このような機能は、主にHTTPと呼ばれる通信手順に従って各Webサイトにアクセスし、そのアクセスにより取得されたHTML形式のデータを、後述するコンテンツ蓄積部12を構成するデータベースマネジメントシステム(以下、DBMS)を通じて蓄積するソフトウェアプログラムにより実現可能である。なお、このような機能は、既存のサーチエンジンでも実施されている。
コンテンツ蓄積部12は、クローラ部11によって取得されたWeb文書や当該Web文書の構成要素、レイアウト評価値算出部13によって算出されたレイアウト評価値や既存の評価方法によって算出された評価値を関連付けて蓄積しておく機能を有している。蓄積されるデータ例については後述する。なお、このような機能は、一般のDBMSにより実現可能である。
レイアウト評価値算出部13は、クローラ部11によって取得されたWeb文書に含まれる画像データの配置状態(レイアウト)を値化したレイアウト評価値を算出し、コンテンツ蓄積部12に蓄積する機能を有している。なお、この値化の代表例はレイアウトに応じた数値による数値化であるが、レイアウトを評価可能であれば記号や符号等も利用できる。
Web文書検索部14は、表示端末300から送信された検索要求に該当するWeb文書をコンテンツ蓄積部12から検索し、検索されたWeb文書に対して算出されたレイアウト評価値で当該Web文書を順位付け、順位付けられたWeb文書を要求元の表示端末300に返信する機能を有している。
一方、表示端末300は、検索キーワードを含む検索要求を画像付文書検索装置100に送信する機能や、当該画像付文書検索装置100から返信された複数のWeb文書を順位付けられた順序で表示する機能を有している。前述したように、デジタルサイネージやデジタルフォトフレーム等の共用ディスプレイが好適な一例であるが、ブラウザ機能を有するPCであっても表示端末300として利用可能である。
次に、コンテンツ蓄積部12に蓄積されるデータについて説明する。図2は、コンテンツ蓄積部に蓄積されるデータ例を示す図である。
図2(a)は、クローラ部11により蓄積されるWeb文書からなるHTMLデータベースであり、そのWeb文書の所在を示すURLをキーとして、取得されたWeb文書のHTMLが蓄積されている。
図2(b)は、図2(a)のデータを解析して得られるWeb文書の構成要素からなる文書データベースであり、同様にURLをキーとして、タイトル情報やテキスト情報等が蓄積されている。当該URLへのリンクが貼られた他のWeb文書のアンカーテキストの情報等も付加して蓄積することも好適な実施例となる。その他、各種のメタデータ(不図示)等、公知のサーチエンジンで実施されている検索のためのデータを抽出して蓄積してもよい。このような解析処理は、HTMLを解析してWeb文書からこれらの各データを抽出して蓄積するプログラムを作成し、クローラ部11によるWeb文書の蓄積タイミング又はタイマー等による定期的タイミングで、そのプログラムを起動させることにより実現可能である。
図2(c)は、レイアウト評価値算出部13により蓄積されるレイアウト評価値からなる評価値データベースであり、同様にURLをキーとして、HTMLデータベースや文書データベースに蓄積されたWeb文書に対してレイアウト評価値算出部13により算出されたレイアウト評価値が蓄積されている。また、評価値データベースの「評価値」の欄には、非特許文献1や特許文献1、2に開示されたような、既存の任意の評価方法によって算出された各Web文書の評価値が蓄積されている。レイアウト評価値だけではなく、このような既存技術による評価値を加味して順位付けを行うことは、より好適な実施例となる。
次に、レイアウト評価値算出部13の動作について説明する。図3は、レイアウト評価値算出部の処理フローを示す図である。
最初に、コンテンツ蓄積部12のHTMLデータベースからHTMLを取り出す(S101)。HTTP等の通信手順に従って、Web文書が置かれたWebサイトから最新のHTMLデータを直接取得することも可能である。
次いで、S101の後、取り出したHTMLを画像部とテキスト部とに分ける(S102)。ここで、その分類方法について以下説明する。
本発明では、Web文書の構成のうち、画像類である部分とその他のテキスト類である部分に着目する。Web文書は、一般的に、図4に示すような構成を有している。すなわち、HTMLのうち、主に<img>タグにより記述された部分に、そのタグで指定された画像データがはめ込まれる。<img>以外にも、<object>、<video>、<iframe>等で記述される部分も「画像」とみなしてもよい。
しかし、全ての<img>タグは全て「画像」を示しているとも限らない。図4に示したように、テキスト中に、そのテキストと略同等の高さを持つ画像は、むしろ文字としての役割を果たしていることが多く、一般に「絵文字」と呼ばれている。
そこで、本発明においては、<img>、<object>、<video>、<iframe>タグによるエレメントのうち、予め決められた基準高よりも高いものを画像部に分類し、<head><!-- -->を表記上現れないコメント等として削除し、それ以外をテキスト部に分類する。
次いで、S102の後、画像部とテキスト部とに分けられたデータを用いてレイアウト評価値を算出する(S103)。ここで、レイアウト評価値の算出方法について以下説明する。
レイアウト評価値の算出方法としては、以下に示す式(1)〜式(6)のプリミティブな評価値のうち1以上を単独又は組み合わせて計算することにより求める。最初に、式(1)〜式(3)について説明する。
Rt=総文字数比=(画像の個数N)/(全文字数) ・・・式(1)
Rl=総行数比=(画像の個数N)/(全行数) ・・・式(2)
Rh=総高比=(Σi=1,…,N画像iの高さ)/(Web文書の表示領域の高さ) ・・・式(3)
なお、i=1,…,Nは、「Σ」の下に記載されることが正確な表記である。
Rtは、文字数に対する画像数の比率を示し、この数値が大きいほど、画像中心のWeb文書であることを意味する。表示端末300への表示には、画像中心であるほうが望ましい。
Rlは、文字数ではなく、テキストの行数に対する比率を示す。Web文書の中には、頻繁に改行を入れてあるものもあり、そのようなWeb文書では、Rt値が大きくても、1つの画像と次の画像との間が間延びするものがあり得る。ゆえに、改行をベースにカウントすることで、その影響を小さくすることができる。なお、HTMLにおいては、<br>や<hr>などの改行を意味するタグや、<p><h1><h2><h3><li><tr>など、そのタグブロックの後で改行することを意味するタグをカウントすることにより算出できる。
Rhは、より厳密に比率を算出する方法である。例えば、<h1><h2><h3>は、それぞれ文字(テキスト)の高さが異なるため、同じ1行であっても、そのテキストが表示時に占める画面上の高さも異なる。画像についても、画像データ自体の高さや、<img>タグの属性として指定される値によって、表示上の高さが異なる。また、多くのWeb文書では、スタイルシートという仕組みにより、各タグがどのような大きさで表示されるかを個別に指定することが可能である。このような違いに応じて、実際にブラウザで表示したときに、スクロール範囲の全体内に、画像がどの程度含まれているかを、高さ方向の大きさに基づいて判定する。
なお、このような値を算出するためには、レイアウト評価値算出部13が動作するサーバ上に、通常は端末で起動されるブラウザのうち、HTMLを解釈して実際の表示用画像データに展開するモジュール(一般には、レンダリングエンジン等とも呼ばれる)を組み込み、このモジュールで仮想的な画面を構成するメモリ領域上に展開して算出するようなソフトウェアプログラムを作成することで実現可能である。
以上示した式(1)〜式(3)の数式では比率を計算しているため、例えば図5に示す2つのWeb文書(A)及びWeb文書(B)については、Rt、Rl、Rhの値はいずれも同じになる。しかしながら、表示端末300に適切なレイアウトという観点では、より等間隔で画像が配置されているWeb文書(A)の方が好ましい。
このような差を反映するための評価値算出方法として、以下に示す式(4)〜式(6)を用いることも可能である。
Mt=最大画像間文字数=Maxi=0,…,N(画像iと画像i+1との間の文字数) ・・・式(4)
Ml=最大画像間行数=Maxi=0,…,N(画像iと画像i+1との間の行数) ・・・式(5)
Mh=最大画像間高さ=Maxi=0,…,N(画像iと画像i+1との間の領域の高さ)・・・式(6)
なお、i=0,…,Nは、「Max」の下に記載されることが正確な表記である。
Mt、Ml、Mhは、それぞれ、画像と画像との間のテキスト数、行数、高さのうち、最大となるものを求める計算方法である。これらの数値は、より小さいほうが、より表示端末300に適していると判定できる。あるいは、その逆数(例えば、1/Mt等)を使用すれば、数値が大きい方が、より表示端末300に適していると判定でき、又は後述するように、係数Kをかけて総合スコアを算出する場合には、その係数が負となるようにすると、算出される総合スコアが大きい方が、より表示端末300に適していると判定できる。以降、評価値(又は後述する総合スコア)は、数値が大きいほどより表示端末300に適しているとして説明する。
なお、ここでは、仮想的に、画像0はWeb文書の先頭にあり、画像N+1はWeb文書の最後にあるとしている。具体的には、画像0と画像1との間の文字数を、画像1より前にある文字数(Web文書が画像1から始まっているときは、0文字)とし、画像Nと画像N+1との間の文字数を、画像Nより後ろにある文字数(Web文書が画像Nで終わっているときは、0文字)とする。
以上より、式(1)〜式(6)のプリミティブな評価値のうち、実施形態に応じて、予め選んだ1つをレイアウト評価値の算出式として使用してもよいし、これら評価値のうち複数の値を利用して以下に示す式(7)により算出される評価値をレイアウト評価値としてもよい。また、選んだ1つ以上を逆数等した値をレイアウト評価値としてもよい。すなわち、レイアウト評価値は、少なくとも式(1)〜式(6)のプリミティブな評価値を用いて算出される。
Σ・L+K ・・・式(7)
なお、Σは、「Σ」の下に記載されることが正確な表記である。また、Lは、Rt、Rl、Rh、Mt、Ml、Mhのうちいずれか1以上であり、K、Kは、予め決められた所定係数である。この係数については、いくつかのサンプルとなるWeb文書に対して、何人かの主観評価によりつけられた評価値を取得して、統計的な回帰の手法により決める方法もある。
次に、Web文書検索部14の動作について説明する。図6は、Web文書検索部の処理フローを示す図である。
最初に、表示端末300からの検索要求を受け付け、パラメータとして渡される検索キーワードを取り出す(S201)。
次いで、S201の後、取り出した検索キーワードが含まれるWeb文書をコンテンツ蓄積部12から検索する(S202)。この検索は、コンテンツ蓄積部12を構成しているDBMSに対して、文書データベースへの検索要求を発行することにより行われる。
次いで、S202の後、取得したWeb文書に対するレイアウト評価値や、公知技術による評価値をコンテンツ蓄積部12から取得する(S203)。この取得は、コンテンツ蓄積部12を構成しているDBMSに対して、評価値データベースへの検索要求を発行することにより行われる。
次いで、S203の後、検索キーワードの一致度Cと、レイアウト評価値Lと、公知技術による評価値Eとにより、例えば以下に示す式(8)を用いて、各Web文書の総合スコアSを算出する(S204)。
S=Kl×L+Ke×E+Kc×C ・・・式(8)
なお、Kl、Ke、Kcは、予め決められた所定係数である。この係数については、いくつかのサンプルとなる検索要求と、それにより検索されたWeb文書に対して何人かの主観評価によりつけられた評価値を取得して、統計的な回帰の手法により決める方法もある。
最後に、S204の後、S202で得られた検索結果を総合スコアSの降順にソートし、S201で受け付けた検索要求に対する返信として表示端末300に返却する(S205)。必要に応じて、例えば上位10位までのWeb文書のみを返すようにフィルタリングするようにしてもよい。
〔第2の実施の形態〕
続いて、第2の実施の形態について説明する。第1の実施の形態と異なり、表示端末300からの検索要求があったときに初めてレイアウト評価値を算出することを特徴としている。
図7は、第2の実施の形態に係る画像付文書検索装置の機能ブロック構成を示す図である。この画像付文書検索装置100は、サーチエンジン部15と、レイアウト評価値算出部13と、Web文書検索部14とで構成されている。
サーチエンジン部15は、表示端末300から送信された検索要求に該当するWeb文書を通信ネットワーク500上から検索し、検索されたWeb文書をデータ記憶部(不図示)に一時的に記憶する機能を有している。サーチエンジン部15としては、例えば、http://www.goo.ne.jp/等で公知に実施されているサーチエンジンを利用する。なお、単に、検索キーワードに対して順位付けされた検索結果を取得するだけでもよいが、図8に示すように、順位付けに使用された評価値(検索キーワードとの一致度も加味された評価値)も取得してもよい。
レイアウト評価値算出部13は、サーチエンジン部15によって検索されたWeb文書に含まれる画像データの配置状態(レイアウト)を値化したレイアウト評価値を算出する機能を有している。
Web文書検索部14は、Web文書をデータ記憶部から読み出して、読み出されたWeb文書のレイアウト評価値で順位付け、順位付けられたWeb文書を要求元の表示端末300に返信する機能を有している。
なお、本実施の形態では、検索されたWeb文書をデータ記憶部に一時的に記憶することを記載しているが、これは、第1の実施の形態で説明したようなWeb文書を予め蓄積しておくものとは異なり、表示端末300から検索要求された際に取得したWeb文書を記憶するものであって、自然法則を利用していることを明確にしたものである。
次に、Web文書検索部14の動作について説明する。図9は、Web文書検索部の処理フローを示す図である。
最初に、表示端末300からの検索要求を受け付け、パラメータとして渡される検索キーワードを取り出す(S301)。
次に、S301の後、サーチエンジン部15の機能を利用して、取り出した検索キーワードが含まれるWeb文書を通信ネットワーク500上から検索し、順位付けられた検索結果のWeb文書を取得する(S302)。なお、このときに取得するWeb文書としては、例えば上位100件等のように、多めに取得する方が好ましい。
次いで、S302の後、レイアウト評価値算出部13の機能を利用して、取得された例えば上位100件の各Web文書のレイアウト評価値を算出する(S303)。算出方法は、第1の実施の形態で説明したものと同じである。
次いで、S303の後、レイアウト評価値によりフィルタリングして表示端末300に返却する(S304)。具体的なフィルタリング方法としては、例えば、レイアウト評価値が予め決められた値に達していないものをフィルタリングする方法や、レイアウト評価値の降順にソートして、その上位10件のみを返却する方法が挙げられる。また、S302で評価値(第1の実施の形態で説明した公知技術による評価値Eや、検索キーワードの一致度C)も取得できる場合には、第1の実施の形態と同様に、式(8)を用いて総合スコアを算出し、降順にソートして上位10件のみを返却する方法も挙げられる。
これまで、2つの実施の形態について説明したが、これら実施形態によって得られる効果について以下説明する。
例えば、「横浜市内の飲食店情報を順次表示する共用ディスプレイ」を表示端末300に使用する場合には、「横浜市&飲食店」といった検索キーワードを当該共用ディスプレイに設定する。これにより、この共用ディスプレイは、画像付文書検索装置100に検索要求を検索キーワードと共に送信することになる。そして、その結果として、その共用ディスプレイは、「共用ディスプレイでの表示に適したWeb文書」を得ることができるようになる。得られた結果は、例えば特許文献3のような公知の技術により、検索結果を示すWeb文書に対して利用者の操作を要することなく、自動的にWeb文書自体を逐次表示することができる。これにより、特に操作を必要とせず、適切な「横浜市内の飲食店情報を順次表示する共用ディスプレイ」とすることができる。
以上より、第1の実施の形態によれば、通信ネットワーク500上をクローリングしてWeb文書を逐次取得し、取得されたWeb文書に含まれる画像データのレイアウトを数値化したレイアウト評価値を算出し、Web文書とレイアウト評価値とを関連付けて予めコンテンツ蓄積部12に蓄積しておき、表示端末300からの検索要求に該当するWeb文書をコンテンツ蓄積部12から検索し、検索されたWeb文書のレイアウト評価値で順位付け、順位付けられたWeb文書を要求元の表示端末300に返信するので、表示端末300での表示に適したWeb文書を提供できる。
第2の実施の形態によれば、表示端末300からの検索要求に該当するWeb文書を通信ネットワーク500上から検索し、検索されたWeb文書をデータ記憶部に一時的に記憶し、検索されたWeb文書データに含まれる画像データの配置状態を数値化したレイアウト評価値を算出し、Web文書データをデータ記憶部から読み出して、読み出されたWeb文書データのレイアウト評価値で順位付け、順位付けられたWeb文書を要求元の表示端末300に返信するので、表示端末300での表示に適したWeb文書を提供できる。
具体的に言えば、Web文書のレイアウト(Web文書内のテキストと画像との配置状態)を考慮したレイアウト評価値を算出し、検索されたWeb文書の順位を当該レイアウト評価値を用いて決定するため、デジタルサイネージやデジタルフォトフレーム等での表示に適したWeb文書検索結果を利用者に提供できる。
また、レイアウト評価値で順位付けができるため、既存の評価方法による評価値での順位付けを、レイアウト評価値での順位付けに変更することもできる。
最後に、本実施の形態で説明した画像付文書検索装置100は、コンピュータで構成される。すなわち、コンテンツ蓄積部12と、データ記憶部とは、メモリやハードディスク等の記憶手段で実現される。また、クローラ部11と、レイアウト評価値算出部13と、Web文書検索部14と、サーチエンジン部15とは、CPU等の演算手段で実現され、プログラムで実行される。
また、本実施の形態で説明した画像付文書検索装置100をプログラムとして光記憶装置や磁気記憶装置等の記録媒体に読出可能に記録し、この記録媒体をコンピュータに組み込んだり、若しくは記録媒体に記録されたプログラムを、任意の通信回線を介してコンピュータにダウンロードしたり、又は記録媒体からインストールし、該プログラムでコンピュータを動作させることにより、上述した各処理動作を画像付文書検索装置100として機能させることができるのは勿論である。
100…画像付文書検索装置
11…クローラ部
12…コンテンツ蓄積部
13…レイアウト評価値算出部
14…Web文書検索部
300…表示端末
500…通信ネットワーク
S101〜S103、S201〜S205、S301〜S304…ステップ

Claims (7)

  1. 通信ネットワークをクローリングして画像付文書データを逐次取得する手段と、
    取得された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、
    前記画像付文書データと前記レイアウト評価値とを関連付けて予め記憶しておく手段と、
    検索要求に該当する画像付文書データを前記記憶手段から検索し、検索された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、
    前記算出する手段は、
    前記画像データの配置状態を値化する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出し、
    前記プリミティブな評価値は、
    少なくとも、Rt=画像の個数/全文字数、Rl=画像の個数/全行数、Rh=Σ i=1,…,N 画像iの高さ/画像付文書データの表示領域の高さ、Mt=Max i=0,…,N (画像iと画像i+1との間の文字数)、Ml=Max i=0,…,N (画像iと画像i+1との間の行数)、Mh=Max i=0,…,N (画像iと画像i+1との間の領域の高さ)であって(但し、Nは画像の個数であり、画像0は画像付文書データの先頭、画像N+1は画像付文書データの最後にあるとする)、
    前記算出する手段は、
    当該評価値のうちいずれか1以上を用いて前記レイアウト評価値を算出することを特徴とする画像付文書検索装置。
  2. 検索要求に該当する画像付文書データを通信ネットワーク上から検索し、検索された画像付文書データを記憶手段に記憶する手段と、
    検索された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、
    前記画像付文書データを前記記憶手段から読み出して、読み出された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、
    前記算出する手段は、
    前記画像データの配置状態を値化する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出し、
    前記プリミティブな評価値は、
    少なくとも、Rt=画像の個数/全文字数、Rl=画像の個数/全行数、Rh=Σ i=1,…,N 画像iの高さ/画像付文書データの表示領域の高さ、Mt=Max i=0,…,N (画像iと画像i+1との間の文字数)、Ml=Max i=0,…,N (画像iと画像i+1との間の行数)、Mh=Max i=0,…,N (画像iと画像i+1との間の領域の高さ)であって(但し、Nは画像の個数であり、画像0は画像付文書データの先頭、画像N+1は画像付文書データの最後にあるとする)、
    前記算出する手段は、
    当該評価値のうちいずれか1以上を用いて前記レイアウト評価値を算出することを特徴とする画像付文書検索装置。
  3. 通信ネットワークをクローリングして画像付文書データを逐次取得する手段と、
    取得された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、
    前記画像付文書データと前記レイアウト評価値とを関連付けて予め記憶しておく手段と、
    検索要求に該当する画像付文書データを前記記憶手段から検索し、検索された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、
    前記算出する手段は、
    前記画像データの配置状態を値化し、且つ前記画像データの配置間隔を反映する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出することを特徴とする画像付文書検索装置。
  4. 検索要求に該当する画像付文書データを通信ネットワーク上から検索し、検索された画像付文書データを記憶手段に記憶する手段と、
    検索された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、
    前記画像付文書データを前記記憶手段から読み出して、読み出された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、を有し、
    前記算出する手段は、
    前記画像データの配置状態を値化し、且つ前記画像データの配置間隔を反映する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出することを特徴とする画像付文書検索装置。
  5. 前記返信する手段は、
    既存の評価方法による前記画像付文書データの評価値と前記レイアウト評価値とを用いて算出された評価値で順位付けることを特徴とする請求項1乃至4のうちいずれかに記載の画像付文書検索装置。
  6. 前記返信する手段は、
    順位付けられた複数の画像付文書データのうちいずれかをフィルタリングして返信することを特徴とする請求項1乃至5のうちいずれかに記載の画像付文書検索装置。
  7. 請求項1乃至6のうちいずれかに記載の画像付文書検索装置における各手段の処理をコンピュータに実行させることを特徴とする画像付文書検索プログラム。
JP2010239806A 2010-10-26 2010-10-26 画像付文書検索装置及び画像付文書検索プログラム Expired - Fee Related JP5466133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010239806A JP5466133B2 (ja) 2010-10-26 2010-10-26 画像付文書検索装置及び画像付文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010239806A JP5466133B2 (ja) 2010-10-26 2010-10-26 画像付文書検索装置及び画像付文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2012093901A JP2012093901A (ja) 2012-05-17
JP5466133B2 true JP5466133B2 (ja) 2014-04-09

Family

ID=46387169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010239806A Expired - Fee Related JP5466133B2 (ja) 2010-10-26 2010-10-26 画像付文書検索装置及び画像付文書検索プログラム

Country Status (1)

Country Link
JP (1) JP5466133B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017143833A1 (zh) * 2016-02-22 2017-08-31 深圳市启德环保科技有限公司 一种耐高压多孔高分子pmma滤膜材料的制备方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194735A (ja) * 2013-09-03 2016-11-17 三菱電機株式会社 情報取得装置
WO2023234546A1 (ko) * 2022-05-29 2023-12-07 삼성전자 주식회사 사용자 인터페이스의 텍스트 입력 부분 내에 포함되는 텍스트를 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체
CN116431799B (zh) * 2023-06-14 2023-08-18 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153117A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書検索装置及び方法
JP2004220267A (ja) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 画像検索方法および装置と画像検索プログラムおよび該プログラムを記録した記録媒体
US7092552B2 (en) * 2003-07-30 2006-08-15 Xerox Corporation System and method for measuring and quantizing document quality
JP2006004062A (ja) * 2004-06-16 2006-01-05 Canon Inc 画像データベース作成装置および画像検索方法
JP2007072998A (ja) * 2005-09-09 2007-03-22 Canon Inc 情報検索装置、情報処理システム、情報処理装置の制御方法、及び制御プログラム
JP2009201758A (ja) * 2008-02-28 2009-09-10 Namco Bandai Games Inc プログラム、情報記憶媒体、ゲーム機

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017143833A1 (zh) * 2016-02-22 2017-08-31 深圳市启德环保科技有限公司 一种耐高压多孔高分子pmma滤膜材料的制备方法

Also Published As

Publication number Publication date
JP2012093901A (ja) 2012-05-17

Similar Documents

Publication Publication Date Title
US7607082B2 (en) Categorizing page block functionality to improve document layout for browsing
US8812505B2 (en) Method for recommending best information in real time by appropriately obtaining gist of web page and user&#39;s preference
US7660783B2 (en) System and method of ad-hoc analysis of data
JP5608286B2 (ja) 無限ブラウズ
US20060123042A1 (en) Block importance analysis to enhance browsing of web page search results
US7631263B2 (en) Methods, systems, and computer program products for characterizing links to resources not activated
US20110191328A1 (en) System and method for extracting representative media content from an online document
JP5040396B2 (ja) Webページ検索プログラム、方法、及び装置
KR20110085995A (ko) 검색 결과들의 제공
US7421416B2 (en) Method of managing web sites registered in search engine and a system thereof
JP2007334502A (ja) 検索装置、方法およびプログラム
JP4875911B2 (ja) コンテンツ特定方法及び装置
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
JP2007280011A (ja) Webページ閲覧履歴の提示方法および装置
JP2010049384A (ja) 動画評価方法、装置及びプログラム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2009295104A (ja) ウェブサイト検索装置、画像情報収集サーバ、及びウェブサイト検索方法
JP2006236221A (ja) ウエブページ検索のための管理サーバ装置
JP2006309631A (ja) ウェブページデータの検索
JP2006209598A (ja) サイト情報収集システム
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5396869B2 (ja) 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体
JP4715031B2 (ja) 構造化文書変換システム及び構造化文書変換プログラム
JP4238813B2 (ja) 話題情報提示方法及び装置及びプログラム
JP7479023B1 (ja) コンテンツの生成方法、そのプログラムおよび情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140123

R150 Certificate of patent or registration of utility model

Ref document number: 5466133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees