JP2013015920A - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents

情報処理装置、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
JP2013015920A
JP2013015920A JP2011146736A JP2011146736A JP2013015920A JP 2013015920 A JP2013015920 A JP 2013015920A JP 2011146736 A JP2011146736 A JP 2011146736A JP 2011146736 A JP2011146736 A JP 2011146736A JP 2013015920 A JP2013015920 A JP 2013015920A
Authority
JP
Japan
Prior art keywords
target page
search keyword
importance
text area
browsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011146736A
Other languages
English (en)
Other versions
JP5682480B2 (ja
Inventor
Masahiko Sugimura
昌彦 杉村
Shugo Nakamura
秋吾 中村
Masaki Ishihara
正樹 石原
Takayuki Baba
孝之 馬場
Susumu Endo
進 遠藤
Yusuke Uehara
祐介 上原
Daiki Masumoto
大器 増本
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011146736A priority Critical patent/JP5682480B2/ja
Publication of JP2013015920A publication Critical patent/JP2013015920A/ja
Application granted granted Critical
Publication of JP5682480B2 publication Critical patent/JP5682480B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ウェブページへのアクセス状況を考慮して概要情報を決定すること。
【解決手段】情報処理装置は、ウェブページの中の多くの閲覧者が関心を持つテキスト領域を当該ウェブページの概要情報に決定する。そのために、まず、情報処理装置は、閲覧者がウェブページにたどり着いたときの検索キーワードと当該ウェブページへの滞在時間とを取得する。次に、情報処理装置は、当該ウェブページにおける当該検索キーワードへの閲覧者の関心の強さを示す重要度を算出する。そして、情報処理装置は、当該ウェブページ内において、より重要度の高い検索キーワードをより多く含むテキスト領域を、閲覧者の関心の強いテキスト領域であるとして、当該ウェブページの概要情報に決定する。結果として、当該ウェブページの閲覧者は、多くの閲覧者が関心を持つ概要情報を参照することができ、自らが探している情報が当該ウェブページにあるかを判断しやすくなる。
【選択図】図1

Description

本発明は、情報を処理する情報処理装置、情報処理方法、および情報処理プログラムに関する。
近年の情報化社会において、ネットワーク上のウェブサイトからの情報収集が盛んである。ウェブサイトには、複数のウェブページが含まれ、各ウェブページがリンクによって繋がっている。このとき、情報収集をおこなう者は、ウェブサイト内の最上位層のウェブページから、リンク先のウェブページにアクセスして、内容を一つ一つ確認し、自分が探している情報があるか否かを判断する必要がある。
従来、情報収集の効率化のために、ウェブページにアクセスする前に、ウェブページの概要情報をポップアップとして出力する技術がある。そして、利用者が表示された概要情報から自分が探していた情報であるか否かを判断できるようにしている(例えば、下記特許文献1参照)。
また、文書における単語の出現頻度を算出する技術がある(例えば、下記特許文献2参照)。また、アクセスされた情報の表示時間に基づいて情報に重要度を設定する技術がある(例えば、下記特許文献3参照)。また、検索キーと関連性が大きい文書内のブロックを特定する技術がある(例えば、下記特許文献4参照)。
特開2003−281093号公報 特開2000−112990号公報 特開2009−151627号公報 特開2008−269069号公報
しかしながら、上述した従来技術では、ウェブページの概要情報として、ウェブページの制作者が予め作成した情報、ウェブページの最上部などの特定箇所の情報、またはウェブページのスナップショットが採用されていた。結果として、閲覧者のニーズに適さない情報が概要情報になっている場合があるといった問題があった。また、閲覧者のニーズの変化に対応して、概要情報を決定することができないといった問題があった。
本発明は、上述した従来技術による問題点を解消するため、ウェブページへのアクセス状況を考慮して概要情報を決定できる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明の一側面によれば、閲覧対象ページについてのアクセス元で閲覧対象ページに遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得し、取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出し、検索キーワードごとに算出された検索キーワードの閲覧対象ページにおける重要度と、閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページにおける重要度を、テキスト領域ごとに算出し、テキスト領域ごとに算出されたテキスト領域の閲覧対象ページにおける重要度に基づいて、閲覧対象ページの概要情報となる特定のテキスト領域を決定する情報処理装置、情報処理方法、および情報処理プログラムが提案される。
また、上述した課題を解決し、目的を達成するため、本発明の一側面によれば、閲覧対象ページ群についてのアクセス元で閲覧対象ページ群に遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページ群を閲覧していた時間を閲覧対象ページ群へのアクセスごとに取得し、取得された検索キーワードでたどり着いた閲覧対象ページ群についてのアクセス元で閲覧対象ページ群を閲覧していた時間に基づいて、検索キーワードの閲覧対象ページ群における重要度を、検索キーワードごとに算出し、検索キーワードごとに算出された検索キーワードの閲覧対象ページ群における重要度と、閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページ群における重要度を、テキスト領域ごとに算出し、テキスト領域ごとに算出されたテキスト領域の閲覧対象ページ群における重要度に基づいて、閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する情報処理装置、情報処理方法、および情報処理プログラムが提案される。
本発明の一側面によれば、ウェブページへのアクセス状況を考慮して概要情報を決定できるという効果を奏する。
図1は、情報処理装置によるウェブページの概要情報の決定の内容を示す説明図である。 図2は、システムの構成例を示す説明図である。 図3は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。 図4は、アクセスログDB201の記憶内容を示す説明図である。 図5は、検索キーワードDB202の記憶内容を示す説明図である。 図6は、領域重要度DB203の記憶内容を示す説明図である。 図7は、情報処理装置100の機能的構成を示すブロック図である。 図8は、情報処理装置100による検索キーワードと滞在時間の取得の具体例を示す説明図である。 図9は、情報処理装置100による検索キーワードごとの重要度の算出の具体例を示す説明図である。 図10は、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例を示す説明図である。 図11は、情報処理装置100による概要情報の提供の具体例を示す説明図である。 図12は、検索キーワード抽出処理の処理内容の詳細を示すフローチャートである。 図13は、領域重要度算出処理の処理内容の詳細を示すフローチャートである。
以下に添付図面を参照して、この発明にかかる情報処理装置、情報処理方法、および情報処理プログラムの実施の形態を詳細に説明する。情報処理装置は、ウェブページ内で多くの閲覧者が関心を持つテキスト領域を当該ウェブページの概要情報に決定する。そのために、まず、情報処理装置は、閲覧者がウェブページにたどり着く過程で使用した検索キーワードと閲覧端末で当該ウェブページが表示されていた時間(以下、「滞在時間」という)とを取得する。
次に、情報処理装置は、当該ウェブページにおける当該検索キーワードへの閲覧者の関心の強さを示す重要度を算出する。そして、情報処理装置は、当該ウェブページ内において、より重要度の高い検索キーワードをより多く含むテキスト領域を、閲覧者の関心の強いテキスト領域であるとして、当該ウェブページの概要情報に決定する。
結果として、情報処理装置は、当該ウェブページの閲覧者に対して、多くの閲覧者が関心を持った概要情報を提供することができるようになる。そして、当該ウェブページの閲覧者は、多くの閲覧者が関心を持つ概要情報を参照することができるため、自らが探している情報が当該ウェブページにあるかを判断しやすくなる。
(情報処理装置によるウェブページの概要情報の決定の内容)
まず、図1を用いて、情報処理装置によるウェブページの概要情報の決定の内容について説明する。
図1は、情報処理装置によるウェブページの概要情報の決定の内容を示す説明図である。図1において、情報処理装置100は、ウェブページWP内で、多くの閲覧者Sが関心を持つテキスト領域をウェブページWPの概要情報に決定する。
そのために、まず、図1の(a)に示すように、情報処理装置100は、検索キーワードへのウェブページWPにおける閲覧者Sの関心の強さを示す重要度を算出する。ここで、情報処理装置100は、ウェブページWPへのアクセスに関する情報をアクセスログとして記憶している。ウェブページWPは、複数の閲覧者Sから閲覧されている。各閲覧者Sは、閲覧端末を使用して、検索キーワードを検索サイトに入力し、検索サイトの検索結果ページからウェブページWPにたどり着き、ウェブページWPを閲覧したとする。
例えば、閲覧者S(甲)は、検索キーワード「干渉」を用いてウェブページWPにたどり着き、90秒閲覧したとする。また、閲覧者S(乙)は、検索キーワード「干渉」を用いてウェブページWPにたどり着き、120秒閲覧したとする。また、閲覧者S(丙)は、検索キーワード「シミュレーション」を用いてウェブページWPにたどり着き、60秒閲覧したとする。
(1)ここで、情報処理装置100は、ウェブページWPのアクセスログを参照し、ウェブページWPへのアクセスごとに、閲覧者Sが使用した検索キーワードとウェブページWPへの滞在時間とを取得する。
(2)次に、情報処理装置100は、ウェブページWPにおける検索キーワードごとの重要度を算出する。ここでは、情報処理装置100は、閲覧者Sの滞在時間の和が大きい検索キーワードが、多くの閲覧者Sから関心を持たれている検索キーワードであるとして、重要度を高くする。具体的には、例えば、情報処理装置100は、滞在時間の和を重要度にする。
次に、図1の(b)に示すように、情報処理装置100は、ウェブページWP内のテキスト領域(ここでは、3箇所のテキスト領域F1〜F3)ごとに、各テキスト領域に対する閲覧者Sの関心の強さを示す領域重要度を算出し、概要情報を決定する。
(1)ここで、情報処理装置100は、ウェブページWP内の各テキスト領域のデータを取得する。ここでは、情報処理装置100は、各テキスト領域F1〜F3のデータを取得する。
(2)次に、情報処理装置100は、取得した各テキスト領域F1〜F3のデータに基づいて、テキスト領域ごとに閲覧者Sの関心の強さを示す領域重要度を算出する。ここでは、領域重要度は、テキスト領域内に含まれる検索キーワードの重要度の和である。具体的には、例えば、テキスト領域F2には、重要度「210」の検索キーワード「干渉」が2つ含まれ、重要度「60」の検索キーワード「シミュレーション」が1つ含まれているため、テキスト領域F2の領域重要度は、「210+210+60」になる。
これにより、情報処理装置100は、算出した領域重要度に基づいて、閲覧者Sが関心を持っているテキスト領域のデータを特定して、特定したデータを概要情報に決定できる。ここでは、領域重要度が最も高いテキスト領域F2のデータがウェブページWPの概要情報になる。
結果として、図1の(c)に示すように、ウェブページWPのリンク元ページLPにおいて、ウェブページWPにたどり着いた多くの閲覧者Sが関心を持っていた概要情報を表示できるようになる。具体的には、例えば、情報処理装置100は、閲覧端末においてウェブページWPへのリンクLにマウスポインタPを重ねた場合に、概要情報に決定されたテキスト領域F2のデータがポップアップPUとして表示されるように、HTML(HyperText Markup Language)文書にJava(登録商標)Scriptを用いて埋め込んでおく。
そのため、あらたにウェブページWPを閲覧しようとする閲覧者Sは、多くの閲覧者Sが関心を持っていた概要情報に基づいて、ウェブページWPにアクセスする前に、ウェブページWPの内容を判断できるようになる。結果として、閲覧者Sは、ウェブページWPの内容を精査せずに、ウェブページWPに自らが求めている情報が記載されているかを判断できるようになり、情報収集を効率化できる。また、ウェブページWPの制作者は、多くの閲覧者Sが関心を持っていた概要情報を自動的に決定できるため、閲覧者Sの関心を予測して概要情報を設定する手間をかけずに済む。
(システムの構成例)
次に、図2を用いて、図1に示した情報処理装置100と、ウェブページWPの閲覧者Sが使用する閲覧端末と、検索サーバと、を含むシステムの構成例について説明する。
図2は、システムの構成例を示す説明図である。図2に示すように、システムは、情報処理装置100と、閲覧端末210と、検索サーバ220と、を含む。なお、図2では、閲覧端末210は1つであるが、閲覧端末210は複数含まれていてもよい。
情報処理装置100は、ウェブサイト内の各ウェブページWPのデータを記憶している。ウェブページWPのデータとは、ネットワークN上で公開される文書であり、例えば、HTML文書やXML(Extensible Markup Language)文書である。また、情報処理装置100は、閲覧端末210からのアクセスに関する情報を記憶するアクセスログDB(DataBase)201を有する。また、情報処理装置100は、ウェブサイト内の各ウェブページWPに対する検索キーワードの重要度を記憶する検索キーワードDB202を有する。また、情報処理装置100は、ウェブページWP内の各テキスト領域の領域重要度を記憶する領域重要度DB203を有する。
閲覧端末210は、閲覧者Sの操作を受けて、検索サーバ220にアクセスし、ウェブページWPを検索する端末である。また、閲覧端末210は、閲覧者Sの操作を受けて、検索サーバ220による検索結果ページに表示されるリンクLを介して、情報処理装置100が記憶するウェブページWPのデータにアクセスをおこなう端末である。検索サーバ220は、閲覧端末210で閲覧者Sにより入力された検索キーワードに基づいて、ネットワークN上のウェブページWPを検索するサーバである。
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、図1および図2に示した情報処理装置100のハードウェア構成例について説明する。
図3は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、ROM(Read‐Only Memory)302と、RAM(Random Access Memory)303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、ディスプレイ308と、I/F(Interface)309と、キーボード310と、マウス311と、スキャナ312と、プリンタ313と、を備えている。また、各構成部はバス320によってそれぞれ接続されている。
ここで、CPU301は、情報処理装置100の全体の制御を司る。ROM302は、ブートプログラムなどのプログラムを記憶している。また、ROM302は、ウェブサイト内のウェブページWPのデータを記憶している。RAM303は、CPU301のワークエリアとして使用される。また、RAM303は、アクセスログDB201と、検索キーワードDB202と、領域重要度DB203と、を記憶する。
磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータのリード/ライトを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記憶する。
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータのリード/ライトを制御する。光ディスク307は、光ディスクドライブ306の制御で書き込まれたデータを記憶したり、光ディスク307に記憶されたデータをコンピュータに読み取らせたりする。
ディスプレイ308は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ308は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
インターフェース(以下、「I/F」と略する。)309は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワークNに接続され、このネットワークNを介して他の装置に接続される。そして、I/F309は、ネットワークNと内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F309には、例えばモデムやLANアダプタなどを採用することができる。
キーボード310は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス311は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ312は、画像を光学的に読み取り、情報処理装置100内に画像データを取り込む。なお、スキャナ312は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ313は、画像データや文書データを印刷する。プリンタ313には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。
(アクセスログDB201の記憶内容)
次に、図4を用いて、RAM303に記憶されているアクセスログDB201の記憶内容について説明する。
図4は、アクセスログDB201の記憶内容を示す説明図である。図4に示すように、アクセスログDB201は、ホスト項目のそれぞれに対応付けて、日時項目と、URL項目と、リファラ項目と、を有し、アクセスごとにレコードを構成する。
ホスト項目には、ウェブページWPにアクセスした閲覧端末210を識別する識別子が記憶されている。具体的には、例えば、識別子は、IPアドレスである。日時項目には、ウェブページWPにアクセスされた日時が記憶されている。URL項目には、ウェブページWPを識別する識別子が記憶されている。リファラ項目には、URL項目の識別子により識別されるウェブページWPのリンク元ページLPが記憶されている。
なお、一般的に、ウェブサーバで記憶されるアクセスログには、データの転送量、閲覧に使用された通信プロトコル、閲覧に使用されたウェブブラウザ、および閲覧端末210のOSなどの情報が含まれるが、ここでは、簡単のため省略する。
(検索キーワードDB202の記憶内容)
次に、図5を用いて、RAM303に記憶されている検索キーワードDB202の記憶内容について説明する。
図5は、検索キーワードDB202の記憶内容を示す説明図である。図5に示すように、検索キーワードDB202は、ページ名項目のそれぞれに対応付けて、検索キーワード項目を有し、ウェブページWPごとにレコードを構成する。
ページ名項目には、ウェブページWPの名称が記憶されている。検索キーワード項目には、検索キーワードごとに、ページ名項目が示すウェブページWPへの閲覧者Sの関心の強さを示す重要度が記憶されている。例えば、重要度として、ページ名項目が示すウェブページWPでの閲覧者Sの滞在時間の和が記憶されている。なお、重要度として、ページ名項目が示すウェブページWPへのアクセス数を採用してもよい。
(領域重要度DB203の記憶内容)
次に、図6を用いて、RAM303に記憶されている領域重要度DB203の記憶内容について説明する。
図6は、領域重要度DB203の記憶内容を示す説明図である。図6に示すように、領域重要度DB203は、領域項目のそれぞれに対応付けて、領域重要度項目を有し、ウェブページWP内のテキスト領域ごとにレコードを構成する。
領域項目には、ウェブページWP内のテキスト領域を識別する識別子が記憶されている。領域重要度項目には、領域項目の識別子により識別されるテキスト領域への閲覧者Sの関心の強さを示す領域重要度が記憶されている。例えば、領域重要度として、テキスト領域に含まれる検索キーワードの重要度の和が記憶されている。なお、領域重要度の算出の際は、隣接するテキスト領域に含まれる検索キーワードをさらに参照してもよい。
(情報処理装置100の機能的構成例)
次に、図7を用いて、情報処理装置100の機能的構成例について説明する。
図7は、情報処理装置100の機能的構成を示すブロック図である。情報処理装置100は、取得部701と、第1の算出部702と、第2の算出部703と、決定部704と、埋込部705と、出力部706と、を含む構成である。この制御部となる機能(取得部701〜出力部706)は、具体的には、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F309により、その機能を実現する。
取得部701は、閲覧対象ページについてのアクセス元で閲覧対象ページに遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得する機能を有する。ここで、閲覧対象ページとは、上述したウェブページWPである。アクセス元とは、上述した閲覧端末210である。検索キーワードとは、閲覧対象ページにたどり着くまでに閲覧端末210で入力された検索キーワードであり、例えば、閲覧端末210で入力されて検索サーバ220に送信された検索キーワードである。閲覧対象ページを閲覧していた時間とは、閲覧端末210が閲覧対象ページを表示していた時間であり、上述した滞在時間である。
具体的には、例えば、取得部701は、アクセスログDB201を参照することにより、ウェブページWPにアクセスした閲覧端末210で入力された検索キーワードおよび閲覧端末210がウェブページWPを表示していた時間を取得する。これにより、情報処理装置100は、ウェブページWPへの閲覧者Sの関心の強さの指標となるアクセスに使用された検索キーワードや滞在時間を取得することができる。
また、取得部701は、閲覧対象ページについてのアクセス元で閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得する機能を有する。具体的には、例えば、取得部701は、検索サイトからウェブページWPにたどり着くまでのページ数が規定数以下である場合の検索キーワードと滞在時間とを重要度の算出に使用する。
これにより、ウェブページWPと関連の深い検索キーワードと滞在時間とを重要度の算出に使用するため、精度よく重要度を算出できるようになる。なお、取得されたデータは、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶される。
第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、検索キーワードごとのウェブページWPへの滞在時間の和を、検索キーワードの重要度として算出する。これにより、情報処理装置100は、ウェブページWPにおける検索キーワードへの閲覧者Sの関心の強さを示す重要度を算出することができる。
また、第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間のうち、閾値以下であるアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、1回のアクセスにおける閲覧時間が閾値以上であった場合、当該閲覧時間を重要度の算出に使用しない。
これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されているものの、閲覧者SがウェブページWPを閲覧していない状況(例えば、閲覧者Sが離席中、または食事中など)における閲覧時間は重要度の算出に使用しない。そのため、情報処理装置100は、精度よく重要度を算出できるようになる。
また、第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間のうち、閾値以上であるアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、1回のアクセスにおける閲覧時間が閾値以下であった場合、当該閲覧時間を重要度の算出に使用しない。
これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されたものの、閲覧者SがウェブページWPに関心がない状況(例えば、閲覧者Sが流し読みをした場合など)における閲覧時間は重要度の算出に使用しない。そのため、精度よく重要度を算出できるようになる。なお、算出結果は、検索キーワードDB202に記憶される。
第2の算出部703は、第1の算出部702によって検索キーワードごとに算出された検索キーワードの閲覧対象ページにおける重要度と、閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページにおける重要度を、テキスト領域ごとに算出する機能を有する。ここで、テキスト領域の閲覧対象ページにおける重要度とは、上述した領域重要度である。
具体的には、例えば、第2の算出部703は、テキスト領域に含まれる検索キーワードの重要度の和を、領域重要度として算出する。また、第2の算出部は、さらに、隣接するテキスト領域に含まれる検索キーワードの重要度の和を参照して、領域重要度を算出してもよい。なお、算出結果は、領域重要度DB203に記憶される。これにより、情報処理装置100は、ウェブページWP内の各テキスト領域への閲覧者Sの関心の強さを示す領域重要度を算出することができる。
決定部704は、第2の算出部703によってテキスト領域ごとに算出されたテキスト領域の閲覧対象ページにおける重要度に基づいて、閲覧対象ページの概要情報となる特定のテキスト領域を決定する機能を有する。具体的には、例えば、決定部704は、ウェブページWP内で最も領域重要度の高いテキスト領域を、ウェブページWPの概要情報となるテキスト領域に決定する。
これにより、ウェブサイトの制作者は、閲覧者Sが関心を持つテキスト領域を調査して概要情報を決定するといった手間を削減できる。また、ウェブサイトの制作者は、ウェブサイトの閲覧者Sのニーズが変化し閲覧者Sが関心を持つテキスト領域が変化した場合にも、変化したニーズに対応した概要情報になるテキスト領域を容易に決定できる。なお、決定結果は、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶される。
埋込部705は、決定部704によって決定された特定のテキスト領域内のデータを、閲覧対象ページのリンク元ページLPから呼び出し可能な形式で、リンク元ページLPに埋め込む機能を有する。具体的には、例えば、埋込部705は、ウェブページWPのリンク元ページLPにおいて、ウェブページWPへのリンクLがマウスオーバされたときに、概要情報がポップアップPUに表示されるように、リンク元ページLPのHTML文書内にJavaScriptを用いて埋め込む。
これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPにアクセスする前に、リンク先のウェブページWPの概要情報を知ることができる。そのため、ウェブサイトの閲覧者Sにとって、情報の取捨選択が容易になり、ウェブサイトの利便性を向上できる。
また、埋込部705は、決定部704によって決定された特定のテキスト領域内のデータを、閲覧対象ページ内のテキスト領域より上の領域に埋め込む機能を有する。具体的には、例えば、埋込部705は、ウェブページWP内の概要情報になるテキスト領域より上の領域に、当該ウェブページWPの概要情報を埋め込む。
これにより、ウェブページWPの閲覧者Sは、ウェブページWP全体を読むことなく、ウェブページWPの概要情報を知ることができるようになる。また、ウェブページWPのHTML文書内に「meta descriptionタグ」を用いて埋め込むことで、検索サイトのスニペットへ概要情報が表示されるようにしてもよい。
出力部706は、決定部704によって決定された閲覧対象ページの概要情報となる特定のテキスト領域を出力する機能を有する。具体的には、例えば、出力部706は、閲覧端末210に対して概要情報を送信する。出力形式としては、例えば、ディスプレイ308への表示、プリンタ313への印刷出力、I/F309による外部装置への送信がある。また、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶することとしてもよい。
これにより、情報処理装置100は、閲覧端末210からの要求を受けてから概要情報を出力することができる。また、情報処理装置100は、情報処理装置100のユーザに、閲覧情報を通知することができる。
また、取得部701〜出力部706は、閲覧対象ページとして、ウェブページWPの集合を採用してもよい。具体的には、例えば、取得部701〜決定部704は、ウェブページWPの集合を一つのウェブページWPとして扱い、ウェブページWPの集合の中から、多くの閲覧者Sが興味を持っているテキスト領域のデータを特定し、ウェブページWPの集合の概要情報に決定する。これにより、複数のウェブページWPにまたがった記事があった場合に、複数のウェブページWP全体(当該記事全体)での概要情報を決定することができるようになる。
また、具体的には、例えば、埋込部705は、ウェブページWPの集合のいずれかのウェブページWPへのリンク元ページLPにおいて、ウェブページWPへのリンクLがマウスオーバされたときに、概要情報がポップアップPUに表示されるように埋め込む。これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPの集合にアクセスする前に、リンク先のウェブページWPの集合の概要情報を知ることができる。
また、具体的には、例えば、埋込部705は、ウェブページWPの集合のうちの最上位層のウェブページWPに概要情報を埋め込む。これにより、ウェブページWPの集合の閲覧者Sは、ウェブページWPの集合全体を読むことなく、ウェブページWPの集合の概要情報を知ることができる。
また、具体的には、例えば、出力部706は、ウェブページWPの集合の概要情報を出力する。これにより、情報処理装置100は、閲覧端末210からの概要情報の要求を受けてからウェブページWPの集合の概要情報を出力することができる。また、情報処理装置100は、情報処理装置100のユーザに、ウェブページWPの集合の閲覧情報を通知することができる。
(情報処理装置100による概要情報の決定の具体例)
次に、図8〜11を用いて、情報処理装置100による概要情報の決定の具体例について説明する。
(情報処理装置100による検索キーワードと滞在時間の取得の具体例)
まず、図8を用いて、情報処理装置100による検索キーワードと滞在時間の取得の具体例について説明する。
図8は、情報処理装置100による検索キーワードと滞在時間の取得の具体例を示す説明図である。ここで、情報処理装置100は、アクセスログDB201を参照して、検索キーワードと滞在時間を取得する。
(1)具体的には、まず、アクセスログDB201のホスト項目の記憶内容が同一の複数のレコードを参照し、1回のアクセスにおける経路を取得する。ここで、情報処理装置100は、「aa.bb.ne.jp」で識別される閲覧端末210が、「http://xxx.co.jp/search=”干渉”」の検索サイトから、「index.html」のウェブページWPにアクセスした経路を取得する。また、情報処理装置100は、「aa.bb.ne.jp」で識別される閲覧端末210が、「index.html」のウェブページWPから、「mokuji.html」のウェブページWPにアクセスした経路を取得する。
(2)そして、情報処理装置100は、取得した経路上の各ウェブページWPへアクセスされた時刻に基づいて、滞在時間を取得する。例えば、「index.html」のウェブページWPへの滞在時間は、「mokuji.html」のウェブページWPへアクセスされた時刻から「index.html」のウェブページWPへアクセスされた時刻を引いた値になる。また、最後にアクセスされた「mokuji.html」のウェブページWPの滞在時間は、例えば、閲覧端末210でウェブページWPが閉じられた時刻から、「mokuji.html」のウェブページWPへアクセスされた時刻を引いた値になる。
(3)また、検索サイトのアドレスには、例えば、「http://xxx.co.jp/search=”干渉”」のように、検索に使用された検索キーワードが含まれている。ここでは、簡単のため、URLに検索キーワードがそのまま含まれているように表したが、実際には、URLには検索キーワードを示すコードが含まれる。情報処理装置100は、検索サイトのURLに含まれる検索キーワードを参照することで、取得した経路上の各ウェブページWPについての閲覧端末210での検索キーワードを取得する。
情報処理装置100は、1回のアクセスにおける検索キーワードが「干渉」と「シミュレーション」の2つである場合、それぞれについて滞在時間を取得してもよいし、それぞれの検索キーワードに滞在時間を分けてもよい。また、情報処理装置100は、検索キーワードが複合語である「干渉シミュレーション」の場合、1つの検索キーワードとして「干渉シミュレーション」を取得してもよいし、2つの検索キーワードとして「干渉」と「シミュレーション」に分けて取得してもよい。
(情報処理装置100による検索キーワードごとの重要度の算出の具体例)
次に、図9を用いて、情報処理装置100による検索キーワードごとの重要度の算出の具体例について説明する。
図9は、情報処理装置100による検索キーワードごとの重要度の算出の具体例を示す説明図である。ここで、情報処理装置100は、ウェブサイト内のウェブページWPごとに、図8において取得した各検索キーワードについて重要度を算出する。なお、以下では、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして、対象ページでの検索キーワードの重要度を算出する場合について説明する。
図9の(a)は、図8と同様にして、情報処理装置100が取得した、閲覧端末210からのアクセスの経路と、閲覧端末210が使用した検索キーワードと、各ウェブページWPでの閲覧端末210の滞在時間と、を表している。
図9の(a)に示すように、対象ページは、経路1では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に90秒表示されている。また、対象ページは、経路2では、検索キーワード「シミュレーション」を使用してたどり着いた閲覧端末210に60秒表示されている。また、対象ページは、経路3では、検索キーワード「バーチャル」を使用してたどり着いた閲覧端末210に90秒表示されている。また、対象ページは、経路4では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に60秒表示されている。また、対象ページは、経路5では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に40秒表示されている。
図9の(b)に示すように、情報処理装置100は、検索キーワードの重要度を算出する。例えば、検索キーワードの重要度として、ウェブページWPにおける滞在時間の和を採用できる。この場合、検索キーワード「干渉」の重要度は「190」になり、検索キーワード「シミュレーション」の重要度は「60」になり、検索キーワード「バーチャル」の重要度は「90」になる。
ここでは、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして説明したが、全ウェブページWPのそれぞれを対象ページとして同様の処理をおこなってもよい。なお、算出した重要度は、検索キーワードDB202に記憶される。
(情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例)
次に、図10を用いて、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例について説明する。
図10は、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例を示す説明図である。ここで、情報処理装置100は、図9において算出した検索キーワードの重要度に基づいて、ウェブページWPのテキスト領域ごとに領域重要度を算出する。なお、以下では、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして、対象ページでのテキスト領域ごとの領域重要度を算出する場合について説明する。
(1)まず、情報処理装置100は、対象ページ内のテキスト領域を特定し、各テキスト領域のデータを取得する。具体的には、情報処理装置100は、HTML文書内の改行コードから、段落ごとのテキスト領域F1〜F12を特定し、各テキスト領域F1〜F12のデータを取得する。
(2)そして、情報処理装置100は、各テキスト領域F1〜F12に含まれる検索キーワードの出現回数と検索キーワードの重要度に基づいて、テキスト領域ごとに領域重要度を算出する。例えば、情報処理装置100は、領域重要度として、各テキスト領域F1〜F12に含まれる検索キーワードごとに出現回数と重要度との積を算出し、算出した積の和をとった値を採用する。この場合、例えば、テキスト領域F12の領域重要度は「340」になる。
また、例えば、情報処理装置100は、各テキスト領域F1〜F12に含まれる検索キーワードごとに出現回数と重要度との積を算出し、算出した積の和をとった値を算出する。そして、情報処理装置100は、領域重要度として、各テキスト領域F1〜F12ごとに、各テキスト領域F1〜F12について算出された値と、隣接するテキスト領域について算出された和の何割か(例えば、8割)と、の和をとった値を採用する。この場合、例えば、領域F11の領域重要度は、領域F11について算出された値「0」と、領域F10について算出された値「90」の8割「72」と、領域F12について算出された値「340」の8割「242」と、の和「314」になる。
これにより、情報処理装置100は、算出した重要度に基づいて、対象ページにおいて閲覧者Sの関心が強いテキスト領域を特定することができ、特定したテキスト領域のデータを概要情報に決定することができる。
ここでは、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして説明したが、全ウェブページWPのそれぞれを対象ページとして同様の処理をおこなってもよい。なお、算出した領域重要度は、領域重要度DB203に記憶される。
(情報処理装置100による概要情報の提供の具体例)
次に、図11を用いて、情報処理装置100による概要情報の提供の具体例について説明する。
図11は、情報処理装置100による概要情報の提供の具体例を示す説明図である。情報処理装置100は、図10において決定された概要情報を、ウェブサイトの閲覧者Sに提供する。
図10に示すように、例えば、情報処理装置100は、ウェブページWPのリンク元ページLPにおいて、ウェブページWPにたどり着いた多くの閲覧者Sが関心を持っていた概要情報(概要情報の周辺のデータを含む)を表示する。具体的には、情報処理装置100は、閲覧端末210においてウェブページWPへのリンクLにマウスポインタPを重ねた場合に概要情報がポップアップPUとして表示されるように、HTML文書にJavaScriptを用いて埋め込んでおく。
これにより、リンク先のウェブページWPを閲覧しようとする閲覧者Sは、多くの閲覧者Sが関心を持っていた概要情報に基づいて、ウェブページWPの内容を判断できるようになる。また、ウェブページWPの制作者は、多くの閲覧者Sが関心を持っていた概要情報が自動的に決定されるため、閲覧者Sの関心を予測して概要情報を設定する手間をかけずに済む。
また、情報処理装置100は、ウェブページWP内に当該ウェブページWPの概要情報を埋め込んでもよい。これにより、ウェブページWPにアクセスした閲覧者Sは、ウェブページWP全体を閲覧せずとも、ウェブページWPの概要を把握できるようになる。また、情報処理装置100は、HTML文書に「meta descriptionタグ」を使用して、概要情報を埋め込んでおき、検索サイトでのスニペットへ表示されるようにしてもよい。
(検索キーワード抽出処理の処理内容)
次に、図12を用いて、検索キーワード抽出処理の処理内容の詳細について説明する。検索キーワード抽出処理は、図8および図9に示した情報処理装置100がおこなった処理である。
図12は、検索キーワード抽出処理の処理内容の詳細を示すフローチャートである。まず、CPU301は、アクセスログDB201からアクセスの経路を抽出する(ステップS1201)。次に、CPU301は、未処理のウェブページWPを対象ページに選択する(ステップS1202)。そして、CPU301は、対象ページを通過するアクセスの経路を選択する(ステップS1203)。
次に、CPU301は、選択した経路に基づいて、対象ページにおける検索キーワードごとの重要度を算出する(ステップS1204)。そして、CPU301は、未処理のウェブページWPがあるか否かを判定する(ステップS1205)。
ここで、未処理のウェブページWPがある場合(ステップS1205:Yes)、CPU301は、ステップS1202に戻る。一方、未処理のウェブページWPがない場合(ステップS1205:No)、CPU301は、処理結果を検索キーワードDB202に記憶し(ステップS1206)、検索キーワード抽出処理を終了する。
これにより、情報処理装置100は、ウェブサイト内の各ウェブページWPについて、検索キーワードごとに重要度を算出することができる。また、検索キーワード抽出処理では、ウェブページWPの集合を一つのウェブページWPとして扱って、ウェブページWPの集合全体における検索キーワードごとの重要度を算出してもよい。
(領域重要度算出処理の処理内容)
次に、図13を用いて、領域重要度算出処理の処理内容の詳細について説明する。領域重要度算出処理は、図10に示した情報処理装置100がおこなった処理である。
図13は、領域重要度算出処理の処理内容の詳細を示すフローチャートである。まず、CPU301は、未処理のウェブページWPを対象ページに選択する(ステップS1301)。そして、CPU301は、対象ページに含まれる全テキスト領域を特定する(ステップS1302)。
次に、CPU301は、検索キーワードDB202と特定されたテキスト領域のデータとを参照して、特定されたテキスト領域ごとの領域重要度を算出する(ステップS1303)。そして、CPU301は、未処理のウェブページWPがあるか否かを判定する(ステップS1304)。
ここで、未処理のウェブページWPがある場合(ステップS1304:Yes)、CPU301は、ステップS1301に戻る。一方、未処理のウェブページWPがない場合(ステップS1304:No)、CPU301は、処理結果を領域重要度DB203に記憶し(ステップS1305)、領域重要度算出処理を終了する。
これにより、情報処理装置100は、ウェブサイト内の各ウェブページWPについて、テキスト領域ごとに重要度を算出することができる。また、領域重要度算出処理では、ウェブページWPの集合を一つのウェブページWPとして扱って、ウェブページWPの集合全体におけるテキスト領域ごとの領域重要度を算出してもよい。
以上説明したように、情報処理装置は、ウェブページWPにたどり着いた際の検索キーワードとウェブページWPでの滞在時間とからウェブページWP内で多くの閲覧者Sが興味を持っているテキスト領域を特定する。そして、情報処理装置100は、特定された多くの閲覧者Sが興味を持っているテキスト領域のデータを、ウェブページWPの概要情報に決定する。
これにより、ウェブサイトの制作者は、閲覧者Sが関心を持つテキスト領域を調査して概要情報を決定するといった手間を削減できる。また、ウェブサイトの制作者は、ウェブサイトの閲覧者Sのニーズが変化し閲覧者Sが関心を持つテキスト領域が変化した場合にも、変化したニーズに対応した概要情報になるテキスト領域を容易に決定できる。
また、情報処理装置100は、決定された概要情報を、ウェブページWPのリンク元ページLPに埋め込んでおく。これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPにアクセスする前に、リンク先のウェブページWPの概要情報を知ることができる。そのため、ウェブサイトの閲覧者Sにとって、情報収集が容易になり、ウェブサイトの利便性を向上できる。
また、情報処理装置100は、ウェブページWPに、当該ウェブページWPの概要情報を埋め込んでおく。これにより、ウェブページWPの閲覧者Sは、ウェブページWP全体を読むことなく、ウェブページWPの概要情報を知ることができるようになり、情報収集の効率化を図ることができる。また、ウェブページWPのHTML文書内に「meta descriptionタグ」を用いて概要情報を埋め込むことで、検索サイトのスニペットへ概要情報が表示されるようにし、検索サイトでの閲覧者Sの情報収集の効率化を図ることができる。
また、情報処理装置100は、1回のアクセスにおける閲覧時間が閾値以上であった場合、当該閲覧時間を重要度の算出に使用しない。これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されているものの、閲覧者SがウェブページWPを閲覧していない状況(例えば、閲覧者Sが離席中、または食事中など)における閲覧時間は重要度の算出に使用しない。そのため、情報処理装置100は、精度よく重要度を算出できるようになる。
また、情報処理装置100は、1回のアクセスにおける閲覧時間が閾値以下であった場合、当該閲覧時間を重要度の算出に使用しない。これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されたものの、閲覧者SがウェブページWPに関心がない状況(例えば、閲覧者Sが流し読みをした場合など)における閲覧時間は重要度の算出に使用しない。そのため、精度よく重要度を算出できるようになる。
また、情報処理装置100は、検索サイトからウェブページWPにたどり着くまでのページ数が規定数以下である場合の検索キーワードと滞在時間とを重要度の算出に使用する。これにより、ウェブページWPと関連の深い検索キーワードと滞在時間とを重要度の算出に使用するため、精度よく重要度を算出できるようになる。
また、情報処理装置100は、ウェブページWPの集合を一つのウェブページWPとして、ウェブページWPの集合の中から、多くの閲覧者Sが興味を持っているテキスト領域のデータを、ウェブページWPの集合の概要情報に決定する。これにより、複数のウェブページWPにまたがった記事があった場合に、複数のウェブページWP全体での概要情報を決定することができるようになる。
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本情報処理プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
(付記2)前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページのリンク元ページから呼び出し可能な形式で、前記リンク元ページに埋め込む埋込手段を備えることを特徴とする付記1に記載の情報処理装置。
(付記3)前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページ内の前記テキスト領域より上の領域に埋め込む埋込手段を備えることを特徴とする付記1に記載の情報処理装置。
(付記4)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、閾値以下である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
(付記5)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、閾値以上である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
(付記6)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、第1の閾値以上かつ第2の閾値以下である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
(付記7)前記取得手段は、
前記閲覧対象ページについてのアクセス元で前記閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得することを特徴とする付記1〜6のいずれか一つに記載の情報処理装置。
(付記8)閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
(付記9)コンピュータが、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
(付記10)コンピュータが、
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
(付記11)コンピュータに、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
(付記12)コンピュータに、
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
100 情報処理装置
S 閲覧者
210 閲覧端末
701 取得部
702 第1の算出部
703 第2の算出部
704 決定部
705 埋込部

Claims (7)

  1. 閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得する取得手段と、
    前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出する第1の算出手段と、
    前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
    前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する決定手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページのリンク元ページから呼び出し可能な形式で、前記リンク元ページ内に埋め込む埋込手段を備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページ内の前記テキスト領域より上の領域に埋め込む埋込手段を備えることを特徴とする請求項1に記載の情報処理装置。
  4. 前記取得手段は、
    前記閲覧対象ページについてのアクセス元で前記閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得することを特徴とする請求項1〜3のいずれか一つに記載の情報処理装置。
  5. 閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得する取得手段と、
    前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出する第1の算出手段と、
    前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
    前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する決定手段と、
    を備えることを特徴とする情報処理装置。
  6. コンピュータが、
    閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
    取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
    前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
    前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
    処理を実行することを特徴とする情報処理方法。
  7. コンピュータに、
    閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
    取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
    前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
    前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
    処理を実行させることを特徴とする情報処理プログラム。
JP2011146736A 2011-06-30 2011-06-30 情報処理装置、情報処理方法、および情報処理プログラム Active JP5682480B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011146736A JP5682480B2 (ja) 2011-06-30 2011-06-30 情報処理装置、情報処理方法、および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011146736A JP5682480B2 (ja) 2011-06-30 2011-06-30 情報処理装置、情報処理方法、および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2013015920A true JP2013015920A (ja) 2013-01-24
JP5682480B2 JP5682480B2 (ja) 2015-03-11

Family

ID=47688579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011146736A Active JP5682480B2 (ja) 2011-06-30 2011-06-30 情報処理装置、情報処理方法、および情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5682480B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311870A (ja) * 1996-05-22 1997-12-02 Matsushita Electric Ind Co Ltd ハイパーテキスト検索装置
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US20030101415A1 (en) * 2001-11-23 2003-05-29 Eun Yeung Chang Method of summarizing markup-type documents automatically
JP2004252911A (ja) * 2002-08-23 2004-09-09 Toshiba Corp 検索キーワード分析プログラム及びシステム並びに方法
JP2008511057A (ja) * 2004-08-19 2008-04-10 クラリア コーポレイション エンドユーザの情報要求に応答するための方法及び装置
JP2010231525A (ja) * 2009-03-27 2010-10-14 Mitsubishi Space Software Kk 検索リスト提供サーバ及び検索リスト提供方法及びプログラム
JP2011100350A (ja) * 2009-11-06 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> 要約生成装置、要約生成方法および要約生成プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311870A (ja) * 1996-05-22 1997-12-02 Matsushita Electric Ind Co Ltd ハイパーテキスト検索装置
US5848407A (en) * 1996-05-22 1998-12-08 Matsushita Electric Industrial Co., Ltd. Hypertext document retrieving apparatus for retrieving hypertext documents relating to each other
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US20030101415A1 (en) * 2001-11-23 2003-05-29 Eun Yeung Chang Method of summarizing markup-type documents automatically
JP2004252911A (ja) * 2002-08-23 2004-09-09 Toshiba Corp 検索キーワード分析プログラム及びシステム並びに方法
JP2008511057A (ja) * 2004-08-19 2008-04-10 クラリア コーポレイション エンドユーザの情報要求に応答するための方法及び装置
JP2010231525A (ja) * 2009-03-27 2010-10-14 Mitsubishi Space Software Kk 検索リスト提供サーバ及び検索リスト提供方法及びプログラム
JP2011100350A (ja) * 2009-11-06 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> 要約生成装置、要約生成方法および要約生成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中谷 圭吾、外2名: "利用者の要求に応じたWebリンク自動生成手法", DEWS2005論文集 [ONLINE], JPN6014039760, 10 August 2009 (2009-08-10), JP, pages 1 - 8, ISSN: 0002967957 *

Also Published As

Publication number Publication date
JP5682480B2 (ja) 2015-03-11

Similar Documents

Publication Publication Date Title
US10607235B2 (en) Systems and methods for curating content
US9262766B2 (en) Systems and methods for contextualizing services for inline mobile banner advertising
US9396485B2 (en) Systems and methods for presenting content
US9569541B2 (en) Evaluating preferences of content on a webpage
US8131734B2 (en) Image based annotation and metadata generation system with experience based learning
US20120296918A1 (en) Credibility Information in Returned Web Results
US8386470B2 (en) Information searching method, information searching apparatus, information searching system, and computer-readable information searching program
JP5793601B2 (ja) 自動スクロール実行システムおよび方法
JP4991948B1 (ja) 情報処理装置及び情報処理方法
Levering et al. The portrait of a common HTML web page
CN104142923A (zh) 用于获取以及分享网页的部分内容的方法和设备
JP5103051B2 (ja) 情報処理システム及び情報処理方法
US20090300473A1 (en) Systems and Methods for Displaying Albums Having Links to Documents
KR101350525B1 (ko) 질의에 대응하는 탭을 사용하여 추가적인 정보를 제공하는방법 및 그 장치
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
US20100211562A1 (en) Multi-part record searches
JP2010072763A (ja) デジタルコンテンツ閲覧装置及びデジタルコンテンツ閲覧管理システム
US20120072492A1 (en) Browsing information gathering system, browsing information gathering method, server, and recording medium
JP5682480B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
Wei et al. Assisted human-in-the-loop adaptation of Web pages for mobile devices
JP2012212398A (ja) 情報処理装置及び情報処理方法
JP4986982B2 (ja) 注目範囲を表示する電子紙面表示装置及び方法
WO2013033445A2 (en) Systems and methods for contextualizing a toolbar, an image and inline mobile banner advertising
JP5108707B2 (ja) 検索サーバ装置、検索方法及びプログラム
JP5414829B2 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141229

R150 Certificate of patent or registration of utility model

Ref document number: 5682480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150