JP5514486B2 - Webページの関連性抽出方法、装置、及びプログラム - Google Patents

Webページの関連性抽出方法、装置、及びプログラム Download PDF

Info

Publication number
JP5514486B2
JP5514486B2 JP2009180735A JP2009180735A JP5514486B2 JP 5514486 B2 JP5514486 B2 JP 5514486B2 JP 2009180735 A JP2009180735 A JP 2009180735A JP 2009180735 A JP2009180735 A JP 2009180735A JP 5514486 B2 JP5514486 B2 JP 5514486B2
Authority
JP
Japan
Prior art keywords
web page
relevance
web
search
pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009180735A
Other languages
English (en)
Other versions
JP2011034399A (ja
Inventor
克朗 菊地
慶祐 松原
克志 八高
健 直野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009180735A priority Critical patent/JP5514486B2/ja
Priority to US12/711,708 priority patent/US20110029559A1/en
Publication of JP2011034399A publication Critical patent/JP2011034399A/ja
Application granted granted Critical
Publication of JP5514486B2 publication Critical patent/JP5514486B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、ある事案に対して一つ以上のWebページを参照しながら調査を行う業務において、参照したWebページ間の暗黙的な関連性を抽出、更に抽出した関連性を基にWebページをレコメンドし、Webページ参照のためのナビゲーション情報を提供する技術に関する。
昨今、多様な情報がWeb(World Wide Web)を通じて簡単に入手できるようになってきている。一方でWeb上には大量の情報が公開されているため、必要な情報に効率良く辿りつく事が難しくなってきている。
企業内においても必要な情報に効率良く辿りつく事が重要である。顧客からの問合せ内容対して、複数のリファレンス情報を基に調査、回答を行うテクニカルサポートセンタやヘルプデスク業務では、問合せ内容に関係するリファレンス情報を如何に効率良く見つけられるかが重要である。このようなニーズに対して、Webページ参照時に、そのWebページに関連する情報をレコメンドし、必要とする情報に素早く辿り着けるよう支援するシステムが提供されてきている。
従来技術として、検索キーワードの入力とWebページの遷移を捕捉しておくことにより、同様なページ遷移を経たユーザに対して、Webページ間遷移情報を基に次に参照すべきWebページをレコメンドする技術(例えば特許文献1)、検索目的とレコメンドする検索キーワードの組を格納したデータベースを事前に準備し、ユーザの検索キーワードから検索目的を推定し、前記データベースからレコメンドする検索キーワードを取得し、検索キーワードをレコメンドする技術(例えば特許文献2)や、情報の整理体系化を支援する技術(例えば特許文献3)がなどある。
特開2007−102767号公報 特開2009−003515号公報 特開2008−225936号公報
特許文献1記載の従来技術は、Webページの表示とWebページの検索を実行できるUI(User Interface)手段によりWebページ参照やWebページ検索の履歴を記録する。本UI手段は、Webページ内に含まれる他のWebページへのリンクをクリックした場合にWebページの遷移を記録する。また、本UI手段は、Webページ内の特定のキーワードを選択し、選択したキーワードによりWebページの検索が可能である。本UI手段には、検索結果一覧が表示され、更にユーザがその一覧中からWebページを選択して表示した場合、Webページ間の遷移情報と共に、どんな、検索キーワードで遷移したかも合わせて捕捉することが出来る。このように、本従来技術では、Webページ内のリンクをクリックして別のWebページを参照する、Webページ内キーワードを検索して、キーワードに関連するWebページ参照するなど、Webページの遷移や検索が連続的、明示的に行われる場合、Webページ間の関連を把握することが可能である。
しかしながら、情報検索は試行錯誤の繰り返しを行うことが多い。例えば、テクニカルサポートセンタにおいて、「IME(Input Method Editor)辞書のドメイン内一括登録の方法はありますか?」など、複雑不明確な問合せの場合について考えてみる。この場合、(ステップ1)問い合わせ内容に関係するキーワードで検索を実行し、得られた検索結果から幾つかWebページを参照し、有用そうなWebページやWebページ内の情報を洗い出す。(ステップ2)洗い出したWebページやWebページ内の情報と、問い合わせ内容を比較検討し、より問い合わせ内容に関連しそうなWebページや、Webページ内の情報について更に深く掘り下げて調査する。このように、ステップ1として広く浅い探索、ステップ2として狭く深い探索、の2つの作業を繰り返すことが多い。ここで、ステップ1では、ステップ2での深堀調査の候補となる情報をメモ書きやユーザ自身の記憶に記録しておき、ステップ2では、前記記録した情報の内、より本命と思われる情報について、新規に検索作業を開始する。
上記のような試行錯誤による情報検索を行った場合、ステップ1とステップ2の間のWebブラウザの操作が、不連続、暗黙的となってしまい、本従来技術では、Webページ間の関連性を捕捉することが出来なくなるという課題があった。
一方、特許文献2記載の従来技術は、検索目的とレコメンドする検索キーワードの整備を行う必要がある。また、特許文献3記載の従来技術は、情報(知識)の整理体系化を支援する技術であるが、情報群の上下関係(抽象度など)を人手で判断する必要があり、特定の環境では有効であるが、一般的にはコストの問題が発生する。
これら従来技術のようにある程度高度なレコメンドや体系化を行う場合、捕捉する情報の管理の手間が発生する。この手間が効果より小さい業務では有効だが、大きい業務では適用が困難という課題があった。
本発明は、上述した2つの課題を考慮したものであって、情報検索による業務を行うユーザに対して、不連続、暗黙的なWebページの参照の場合においても、Webページ間の関連性を抽出し、抽出した関連性を基にWebページのレコメンドを行うなど、情報検索の効率化を支援するシステムを提供することを目的とする。この際、人手でのメンテナンス作業を排除することで、様々な業務に適用可能とする。
先に説明した2つの情報探索ステップは、ステップ1で下調べした情報を、ステップ2で深く調査する、という特徴がある。従って、ステップ2で参照した第1のWebページに関連する検索キーワードが、ステップ1中のある第2のWebページに含まれていた場合、第2のWebページ中の情報(検索キーワード)を、第1のWebページで詳細調査を行っている、と考えることができる。
そこで本発明は、上記の情報探索の特徴に基づき、検索キーワードを軸にWebページ間の関連性を抽出し、更にWebページ間のアクセス過程を基に、ユーザの情報探索モデルを考慮し、関連性の強さを表す関連度を定量的に評価することで、Webページ間の関連性を抽出する。
より具体的には、調査担当者の調査案件の開始、終了の範囲(事案の範囲)を捕捉する手段と、Web検索サーバに対する検索キーワードとWebページのアクセス過程を記録する手段と、調査案件の範囲で参照した第1のWebページがWeb検索サーバの検索結果から遷移したWebページであり、その検索キーワードが、事案の範囲で参照した第2のWebページに含まれているかを検出する手段と、含まれている場合に、Webページ間の関連性があると仮定し、更に第1のWebページと第2のWebページ間のアクセス過程を基にWebページ間の関連性の強さを示す関連度を定量的に評価する手段により、関連性を抽出する。
すなわち、上記の目的を達成するため、本発明においては、ある事案に対して一つ以上のWebページを参照しながら調査を行う際のWebページ間の関連性を抽出する、処理部によるWebページの関連性抽出方法であって、この処理部は、調査案件の開始、終了の範囲である事案の範囲を捕捉する手順と、Web検索サーバに対する検索キーワードとWebページのアクセス過程を記録する手順と、事案の範囲で参照した第1のWebページがWeb検索サーバの検索結果から遷移したものであり、その検索キーワードが、事案の範囲で参照した第2のWebページに含まれているかを検出する手順と、検索キーワードが第2のWebページに含まれている場合に、これら第1、第2のWebページ間の関連性があるとし、第1、第2のWebページ間のアクセス過程を基に、第1、第2のWebページ間の関連性の強さを示す関連度を評価する関連性抽出手順とを実行することを特徴とするWebページの関連性抽出方法、装置、及びプログラムを提供する。
本発明によれば、従来、関連性を見出すことが困難であった、Webページの遷移が不連続、暗黙的なケースにおいても、Webページ間の関連性を見出すことで、より実用的なレコメンドを提供可能とする。関連する情報を的確に提供することによって情報検索の効率を改善させることが可能となる。また、関連性を元にした情報の整理体系化により社内に存在する資産の活用、共有を実現することが可能となる。更に、ユーザの通常業務を基にWebページの関連性を抽出するので、人手によるメンテナンス作業も必要としない。
第1の実施例の計算機システムの構成の一例を示すブロック図である。 第1の実施例に係わる、レコメンド装置の機能構成の一例を示すブロック図である。 第1の実施例が想定する業務の一例の説明図である。 第1の実施例に係わる、レコメンド装置のProxy部の処理の一例を説明するフローチャートを示す図である。 第1の実施例に係わる、レコメンド装置が具備する案件セッション管理テーブルの一例を示す構成図である。 本第1の実施例に係わる、レコメンド装置の案件セッション管理部の処理の一例を説明するフローチャートを示す図である。 第1の実施例に係わる、レコメンド装置の案件管理画面の入力画面の一例を示す説明図である。 第1の実施例に係わる、Webページ検索時に表示される案件情報の一例を示す説明図である。 第1の実施例に係わる、Webページ参照時に表示されるレコメンド情報、案件情報の一例を示す説明図である。 第1の実施例に係わる、レコメンド装置のWebアクセス記録部の処理の一例を説明するフローチャートを示す図である。 第1の実施例に係わる、レコメンド装置が具備する検索エンジン定義テーブルの一例を示す構成図である。 第1の実施例に係わる、ある案件調査におけるWeb検索、Webページ参照の一連の過程の一例を示したシーケンス図である。 第1の実施例に係わる、レコメンド装置が具備するアクセス履歴管理テーブルの一例を示す構成図である。 第1の実施例に係わる、レコメンド装置の有用Webページ捕捉モジュールの処理の一例を説明するフローチャートを示す図である。 第1の実施例に係わる、レコメンド装置のWebページ有用度計算部の処理の一例を説明するフローチャートを示す図である。 第1の実施例に係わる、レコメンド装置のWebページ関連性抽出部のWebページのアクセス過程情報を生成する処理の一例を示すフローチャート図である。 第1の実施例に係わる、レコメンド装置が具備するアクセス過程管理テーブル一例を示す構成図である。 第1の実施例に係わる、レコメンド装置のWebページ関連性抽出部の関連性抽出処理の一例を示すフローチャート図である。 第1の実施例に係わる、レコメンド装置のWebページ関連性抽出部の関連性抽出処理の関連度計算の詳細処理の一例を示すフローチャート図である。 第1の実施例に係わる、レコメンド装置のWebページ関連性抽出部の関連性抽出処理の関連度計算において各評価要素と関連度の一例を示す説明図である。 第1の実施例に係わる、レコメンド装置のWebページ関連性抽出部の関連性抽出処理の関連度計算において評価要素のバリエーション例を示す説明図である。 第1の実施例に係わる、レコメンド装置が具備するWebページ関連テーブルの一例を示す構成図である 第1の実施例に係わる、レコメンド装置の関連度調整部の入力画面の一例を示す説明図である。 第1の実施例に係わる、レコメンド装置のWebページレコメンド部の処理の一例を示すフローチャートである。 第1の実施例に係わる、レコメンド装置が生成したレコメンド情報の一例を示す説明図である。 第2の実施例に係わる、整理体系化装置の機能構成の一例を示すブロック図である 第2の実施例に係わる、Webページの関連性を有効グラフとして表現した場合の一例を示す説明図である。 第2の実施例に係わる、整理体系化装置のナビゲーション生成部の処理の一例を示すフローチャート図である。 第2の実施例に係わる、整理体系化装置が生成したコンテンツナビゲーション情報の一例を示す説明図である。
以下、本発明の実施の形態について図面を参照して説明する。なお、本明細書において、計算機(コンピュータ)システムの処理部で実行される各プログラムを「部」、「手段」、「手順」、あるいは「機能」等と表現する場合がある点、留意されたい。
第1の実施例は、テクニカルサポートセンタ内での情報検索業務に本レコメンドシステムを適用したものである。
初めに図3を参照して、テクニカルサポートセンタにおけるサポート業務の大まかな流れについて説明する。テクニカルサポートセンタでは、顧客から問い合わせを受け付け(問合せ受付300)、問い合わせ内容に対する調査301を行いつつ、定期的に顧客に対する中間回答302を実施し、最終的に、最終回答303として問い合わせに対する回答を顧客に対して行う。この一連の流れを案件305と呼ぶ単位で管理し、担当者は同時に複数の案件を対応する。調査301の作業では、製品ベンダがWebで公開しているナレッジデータベースやテクニカルサポートセンタで蓄積した事例を検索、参照する。本発明ではこの調査301の調査作業の効率化を狙ったものである。
以下、図1から図25を参照して本実施例について説明する。
≪全体構成≫
図1は、本実施例のレコメンドシステムの全体構成である。本システムは、一つ以上の業務PC(Personal Computer)100、一つ以上のWeb検索サーバ120、一つ以上のWebコンテンツサーバ130、CRM(Customer Relationship Management)システム140、レコメンド装置110および前記計算機システムを相互に接続するネットワーク150を含む。
業務PC100は、テクニカルサポートセンタの担当者によって操作され、Web検索サーバ120やWebコンテンツサーバ130を用いた情報の調査に利用される。業務PC100は、処理部であるCPU(Central Processing Unit)102、記憶部であるメモリ101、インターフェイス(I/F)103、ディスプレイ104、入力装置105を備える。CPU102は、内部のバス等で接続されたメモリ101に記憶されるプログラムを実行する。メモリ101は、CPU102によって実行されるプログラムや必要となるデータを一時的に記憶する。プログラムは具体的には、オペレーティングシステム(OS)やWebブラウザなどである。内部のバス等でCPU102に接続されたインターフェイス103は、ディスプレイ104、入力装置105やネットワーク150などの外部機器とのデータ入出力を行う。ディスプレイ104はCPU102によって計算された情報を表示する。入力装置105はキーボードやマウスなど担当者からの入力を受け付ける。本図には記載していないが、業務用PC100には更に外部記憶装置などを含んでも良い。
Webコンテンツサーバ130は、業務PC100やWeb検索サーバ120に情報(以下Webページ)を公開するためのサーバである。Webコンテンツサーバ130は、業務PC100と同様にCPU132、メモリ131、インターフェイス133、外部記憶装置134などから構成される。外部記憶装置134には公開するWebページが格納されている。WebページはHTML(Hyper Text Markup Language)言語など、業務PC100やWeb検索サーバ120上で動くWebクライアントプログラムが解釈可能な言語で記述されている。また、Webページを特定するための識別子としてURL(Uniform Resource Locator)が関連付けられている。
Webコンテンツサーバ130は、WebクライアントプログラムからURLを含むHTTP(Hyper Text Transfer Protocol)リクエストを受信する。Webコンテンツサーバ130は、前記URLに関連付いているWebページを外部記憶装置134から取得し、WebクライアントプルグラムにHTTPレスポンスとして送信する。Webページの送受信は、HTTPなどの通信プロトコルを用いて、ネットワーク150を介して実行される。Webコンテンツサーバ130は、外部記憶装置124に格納された静的なWebページの提供以外に、Webアプリケーションサーバ、CGI(Common Gateway Interface)システムやデータベースシステムなどを用いて動的にWebページを生成して提供する場合もある。
Web検索サーバ120は、Webコンテンツサーバ130が公開するWebページに対する検索サービスを提供するサーバである。業務PC100と同様にCPU122、メモリ121、インターフェイス123、外部記憶装置124などから構成される。Web検索サーバ120は、クローラ(Crawler)と呼ばれるWebクライアントプログラムによりネットワーク150に接続されるWebコンテンツサーバ130が公開しているWebページを周期的に取得し、検索のためのデータベースを構築する。Web検索サーバ120は、業務PC100から検索要求を受け付け、検索要求に適合したWebページのURLを含むリストを応答する。
CRMシステム140は、顧客からの問い合わせ案件を管理するサーバである。業務PC100と同様にCPU142、メモリ141、インターフェイス143、外部記憶装置144などから構成される。
レコメンド装置110は、本実施例が提供する関連性の抽出、情報のレコメンドを行う装置である。業務PC100と同様にCPU112、メモリ111、インターフェイス113、外部記憶装置114などから構成されるコンピュータシステムである。レコメンド装置で動作するプログラムの詳細について、図2から図25を参照して説明する。
ネットワーク150は、上記の計算機システムを相互に接続する。ネットワーク150は、企業内のLAN(Local Area Network)や、LAN間を接続するWAN(Wide Area Network)、ISP(Internet Service Provider)が提供するネットワークである。
≪レコメンドシステムの概要≫
図2は、図1に示したシステム全体のうち本実施例の特徴に関する業務PC100、レコメンド装置110内の処理部、即ちCPUで動作するプログラムの機能要素を示すブロック図である。図2を用いて本実施例の処理の概要を説明する。
業務PC100のCPU102上では、WebクライアントプログラムとしてWebブラウザ210が動作する。これらプログラムはメモリ101等の記憶部に記憶されている。担当者の情報検索はこのWebブラウザ210を用いて実施される。Webブラウザ210は、ユーザ操作受付部211、HTTP通信部212、Webページ表示部213、更には有用Webページ捕捉モジュールなどから構成される。操作受付部211は、担当者からURLの入力を受け付け、HTTP通信部212にWebページの取得を要求する。HTTP通信部212は、URLを解析し、Web検索サーバ120またはWebコンテンツサーバ130にHTTPリクエストを送信する。HTTP通信部212は、Webページを含むHTTPレスポンスを受信すると、Webページ表示部213にWebページの表示を要求する。Webページ表示部213は、Webページを解析し、Webブラウザの表示領域に表示する。上記ではWebブラウザ210のプログラム構成の一例を示したが、Webクライアントとして動作できれば、どのようなプログラム構成になっていても良い。
レコメンド装置110のCPU112上で実行されるプログラムは、プロキシ(Proxy)部200、Webアクセス記録部201、Webページレコメンド部202、案件セッション管理部203、Webページ関連性抽出部204、関連度調整部215、Webページ有用度計算部214からなる。これらは、メモリ111や外部記憶装置114などの記憶部に記憶される。メモリ111や外部記憶装置114などの記憶部には、アクセス過程管理テーブル205、Webページ関連テーブル206、案件セッション管理テーブル207、アクセス履歴管理テーブル208が形成される。
Proxy部200は、一般的なProxyサーバと同様にWebブラウザ210と、Web検索サーバ120やWebコンテンツサーバ130との間のHTTP通信を仲介すると共に、レコメンド装置110内の各種機能を呼び出す。Webアクセス記録部201は、HTTP通信の仲介中にProxy部200から呼び出され、Webブラウザ210のWeb検索、Webページ参照の履歴を記録する。案件セッション管理部203は、担当者によるWeb検索、Webページ参照が、どの問い合わせ案件に対応する調査作業なのかを把握する。有用Webページ捕捉モジュール209は、担当者の業務PC100上のWebブラウザ210または図示を省略した業務PC100のOS(Operating System)上で動作し、Webブラウザ210を利用したWebページの参照状況を捕捉する。
Webページ有用度計算部214は、有用Webページ捕捉モジュール209が捕捉したWebページの参照状況を基に、該Webページの有用度を計算する。Webページ関連性抽出部204は、Webアクセス記録部201が記録したWeb検索、Webページ参照の履歴を基に、参照したWebページにヒットした検索キーワードを軸にWebページ間の関連性を抽出する。関連性の抽出にあたっては、Webページ間の参照過程における様々な要素を基に関連度を定量的に評価する。関連度調整部215は、Webページ関連性抽出部204における関連度評価で用いる各種要素の重みを調整する。重み付けは業務によって異なるため、業務に合わせたチューニングを可能とする。Webページレコメンド部202は、Webページ関連性抽出部204が抽出したWebページの関連性を基に、Webページのレコメンド情報を生成し、Webページ中にレコメンド情報を追加する。
なお、本実施例では、レコメンド装置110、Web検索サーバ120、Webコンテンツサーバ130が、それぞれ別の装置として提供しているが、Web検索サーバ120がレコメンド装置110を兼ねても良い。また、レコメンド装置110は業務PC100にアプリケーションとしてインストールされる形態もでも良い。また、Webブラウザ210のアドオンソフトウェアとして動作しても良い。また、レコメンド装置110は、Proxy動作としているが、リバースProxy型の検索ポータルサービスとして外部のWebシステムを画面ラッピングしても良い。
次にレコメンド装置110のプログラムである各部について詳細に説明する。
≪Proxy部≫
Proxy部200は、Webブラウザ210とWeb検索サーバ120、Webコンテンツサーバ130の間のHTTP通信を仲介しつつ、必要に応じてレコメンド装置内の機能を呼び出す。図4は、Proxy部200の処理を示すフローチャートである。
Proxy部200は、WebブラウザからのHTTPリクエストを受信400する(S400)。次いで、案件セッション管理部203を呼び出す(S401)。次いで、受信したリクエスト中のURLを参照し、HTTPリクエストがレコメンド装置内機能に対するリクエストか否かを判定する(S402)。HTTPリクエストがレコメンド装置内機能に対する要求であった場合、HTTPリクエスト中のURLを参照し、該当する内部機能を呼び出す(S408)。次いで、呼び出した内部機能の処理結果HTMLを取得する(S409)。その後、ステップ410に遷移する。
HTTPリクエストがWeb検索サーバまたはWebコンテンツサーバに対する要求であった場合(S402のNo)、Web検索サーバまたはWebコンテンツサーバにHTTPリクエストを代理送信する(S403)。次いで、前記送信したサーバからのHTTPレスポンスを受信する(S404)。次いで、Webアクセス記録部201を呼び出す(S405)。次いで、Webページレコメンド部202を呼び出す(S406)。次いで、HTTPレスポンス中のHTMLにレコメンド情報などを表示するレコメンドパネル800のHTML断片、有用Webページ捕捉モジュール209を追加する(S407)。最後にWebブラウザ210にHTTPレスポンスを送信する(S410)。
≪案件セッション管理部≫
案件セッション管理部203は、Webブラウザ210を用いたWeb検索、Webページ参照がどの問い合わせ案件に対する調査作業なのかを捕捉する。図5は、案件の管理情報を格納する案件セッション管理テーブル207の構成を示した図である。案件セッション管理テーブル207は、案件の担当者を識別する担当者ID502、案件を識別する案件ID503、および、担当者がどの案件の調査を行っているかを示す案件状態504から構成される。図5に示すように担当者は複数の案件を受け持つが、任意の時刻においては、任意の1件の案件を対応している。
図6は、案件セッション管理部203の処理を示すフローチャートである。案件セッション管理部203の処理は大きく分けて3つある。第1にCRMシステムから案件情報を取得する処理(S602からS605)。第2に対応案件を明示的に受け付けるための案件管理画面700を生成する処理(S607)。第3に第2の処理で生成した案件管理画面700を用いて担当者が選択した案件を受け付ける処理(S609)である。以下、図6を参照して各処理を説明する。
案件セッション管理部203は、初めに、Webブラウザ210からのHTTPリクエスト情報を基にWebブラウザ210を利用して調査している担当者の担当者IDを取得し、一時変数useridに代入する(S600)。ここで、担当者IDの取得は、例えば、業務PC100のIPアドレスと担当者IDの対応テーブルを用意することで実現することができる。また、本レコメンドシステムが、HTTP Basic認証やHTML From認証など、Webアプリケーションで一般的に用いられるユーザ管理機能を備えていても良く、その場合、ユーザ管理機能から担当者IDを取得すれば良い。
次いで、案件セッション管理テーブル207について、担当者IDがuseridの案件IDの一覧が、CRMシステム140の情報と比較して最新か否かを判定する(S601)。この判定は、CRMシステム140が提供する外部連携用のAPI(Application Program Interface)の利用、または、CRMシステム140のデータベースを直接参照することで実現すれば良い。
案件ID一覧が最新でない場合、ステップS602からステップS605の処理により案件情報を更新する。まず初めに、案件セッション管理テーブル207から担当者IDがuseridで案件状態が"対応中"の案件IDを取得し、一時変数taskidに代入する(S602)。次いで、CRMシステム140から担当者IDがuseridである対応中案件の案件ID一覧を取得し、一時変数tasklistに代入する(S603)。案件ID一覧の取得は、前述したとおり、連携用APIを利用、または、データベースの参照により実現すれば良い。次いで、取得した案件一覧(tasklist)を基にセッション管理テーブル207を更新する(S604)。この際、終了した案件があれば、Webページ関連性抽出部204を呼び出す。次いで、担当者IDがuserid、案件IDがtaskidの案件状態を"対応中"に設定し(S605)、ステップS606に遷移する。
前記処理ブロック終了後、HTTPリクエストが案件管理画面700の呼び出し要求か否か判定する(S606)。案件管理画面700の呼び出し要求の場合、案件管理画面HTMLを生成し、Webブラウザ210にHTTPレスポンスを送信し、Proxy部200の処理を終了する(S607)。
前記処理ブロック終了後、HTTPリクエストが"対応案件選択"要求か否か判定する(S608)。"対応案件選択"要求の場合、案件セッション管理テーブル207中の担当者IDがuseridの案件状態をリセットし、新たに選択された案件の案件状態を"対応中"に設定する(S609)。ここで、選択されている案件はHTTPリクエスト中から取得する。
図7は案件管理画面の一例である。案件管理画面700は担当者が対応中の案件一覧(701)と案件選択のためのインターフェイス(702)を少なくとも含む。案件の一覧は、案件セッション管理テーブル207から担当者の情報を選択することで実現できる。担当者が別の案件の調査に入る場合、担当者は、案件管理画面700で、案件一覧701から調査を行う案件を選択し、対応案件選択ボタン702を押下する。Webブラウザ210は、対応案件選択ボタン702の押下された場合、Proxy部200に選択された案件IDを含むHTTPリクエストを送信する。案件セッション管理部203は、上記で説明した図4、図6のフローチャートに沿って、ステップS609に遷移し、案件変更の情報を捕捉する。
図8は、Web検索画面の一例である。通常のWeb検索画面802に、レレコメンド情報表示エリア800が追加される。Web検索画面において、レコメンド情報表示エリア800には、現在対応中の案件801、案件管理画面700へのリンクが含まれる。図9は、Webページ表示画面の一例である。通常のWebページ901に、レコメンド情報表示エリア800が追加される。Webページ表示画面において、レコメンド情報表示エリア800には、現在対応中の案件801、案件冠画面へのリンク、および、各種レコメンド情報900が含まれる。レコメンド情報表示エリア800は図4、図6のフローチャートに沿って、ステップS407でHTTPレスポンスに挿入される。
本実施例では、レコメンド情報表示エリア800をWeb検索画面802やWebページ901に埋め込む形で例示しているが、レコメンド情報表示エリア800を別ウインドウとして表示したり、Webブラウザのアドオンプログラムを別途用意して表示したりするなど、上記表示項目が含まれて入ればどのような表示手段を用いても良い。
≪Webアクセス記録部≫
図10はWebアクセス記録部201の処理を示すフローチャートである。Webアクセス記録部は、Proxy部200から呼び出され、Webページ参照、Web検索の履歴を記録する。初めに、現在時刻を取得し一時変数timeに代入する(S1000)。次いで、案件セッション管理部203から案件IDを取得し、一時変数taskidに代入する(S1001)。次いで、HTTPリクエストに含まれるURL、すなわちアクセス先がWeb検索サーバ120宛か否かを判定する(S1002)。アクセス先の判定は、図11に示す検索エンジン定義テーブル1100を参照して行う。検索エンジン定義テーブル1100は、Web検索サーバのベースURL1101、検索キーワードの変数名1102、検索キーワードの文字コード1103を定義している。HTTPリクエスト中のURLがベースURL1101に含まれる場合、Web検索サーバへのアクセスと判定する。なお、検索エンジン定義テーブル1100は、データベースやファイルなどWebアクセス記録部201が参照できる形式であればどのような形式でも良い。また、予め判定のためのロジックをプログラムに組み込んでおく形でも良い。
アクセス先がWeb検索サーバ120の場合、HTTPリクエストからアクセス先URL、検索キーワードを取得し、それぞれ一時変数url、keywordに代入する(S1003)。検索キーワードは検索エンジン定義テーブル1100の変数名1102、文字コード1103の定義を基にリクエストパラメータまたはPOSTデータから抽出する。次いで、時刻(time)、案件ID(taskid)、アクセス先URL(url)、検索キーワード(keyword)をアクセス履歴管理テーブル208に記録する(S1004)。
アクセス先がWeb検索サーバ120以外、すなわち、Webコンテンツサーバ130の場合、HTTPリクエストからアクセス先URL、Refererヘッダ値を取得し、それぞれ一時変数url、refに代入する(S1005)。次いで、時刻(time)、案件ID(taskid)、アクセス先URL(url)、Refererヘッダ値(ref)をアクセス履歴管理テーブル208に記録する(S1006)。
図12は、案件調査におけるWeb検索、Webページ参照の一連の過程の一例を示したシーケンス図である。
本例では、まず、担当者は、検索キーワードとして"K1 K2"の観点で調査を進めている(ステップS1201からステップS1208)。担当者は、検索結果の一覧表示から始まり、info1.htmlの表示(S1204)、検索結果の一覧再表示(S1205)、info2.htmlの表示(S1206)、検索結果の一覧再表示(S1207)、info3.htmlの表示(S1208)と、検索結果とWebページの参照を繰り返しつつ、3つのWebページを参照している。ここで、Webブラウザ210の戻るボタンを押して、検索結果の一覧を再表示するケースでは、Webブラウザ210のキャッシュが利用され、Web検索サーバ120に検索要求が再度送信されないと仮定している。
次いで、Webページinfo1中に含まれていたキーワードK3について、詳細調査を行っている(ステップS1209からステップS1213)。担当者は、検索キーワード"K3"で検索を実施し(ステップS1210)、Webページinfo4.htmlを参照し(S1212)、次いで、info4.htmlに含まれるリンクをクリックしてWebページinfo5.htmlを参照している。
図13は、図12に示したWeb検索、Webページ参照の一連の過程を行った場合の、アクセス履歴管理テーブル208の結果である。アクセス履歴管理テーブル208は、時刻1301、案件ID1302、アクセスURL1303、Referer1304、検索キーワード1305、Webページ有用度1305から構成される。ここで、Webページ有用度1305は、下記で説明する有用Webページ捕捉モジュール209、Webページ有用度計算部214により計算する。
≪有用Webページ捕捉モジュール、Webページ有用度計算部≫
有用Webページ捕捉モジュール209は、担当者のWebブラウザ210または業務PC100のOSの上で動作し、Webブラウザ210を利用したWebページの参照状況を捕捉する。有用Webページ捕捉モジュール209が捕捉したWebページの参照状況を基に、レコメンド装置110のCPU112で動作するWebページ有用度計算部214が、該Webページの有用度を計算する。
図14は、有用Webページ捕捉モジュール209の処理フローの概要を示した図である。有用Webページ捕捉モジュール209は、Webブラウザ210やOS(例えばMicrosoft社のWindows(登録商標)OS)のイベントハンドラとして動作する。本イベントハンドラはイベント種別に応じて各種処理を行う(S1400)。Webブラウザ210上に表示されているWebページ中のテキストに対するコピー操作を検出した場合、テキストコピーの回数を積算する(S1402)。Webブラウザ210上に表示されているWebページ中のテキストに対する選択操作を検出した場合、テキスト選択の回数を積算する(S1403)。Webページがアクティブになった場合、その回数を積算する(S1404)。
Webページのアンロードイベントを検出した場合、上記で取得したイベントログをProxy部200に送信する(S1401)。上記Proxy部200は、ステップS402で、内部機能の呼び出しと判断し、ステップS408でWebページ有用度計算部214を呼び出す。
図15はWebページ有用度計算部214の処理を示すフローチャートである。Webページの有用度は、有用Webページ捕捉モジュール209が捕捉した担当者のWebブラウザ210の各種操作について、テーブル1501に示す操作有用度係数を用いて重み付けを行い計算する(S1500)。
本例では、担当者はinfo1.html、info3.html、info4.html、info5.htmlについて、有用な箇所を選択してコピー、メモ帳アプリケーションにペーストしたと想定する。従って、該4つのWebページは、コピー回数1回、選択回数1回、アクティブ回数1回となり、有用度は25となる。また、info2.htmlは、アクティブ回数1回であり、有用度は5となる。
上記図14、図15による有用度の計算は、単純にWebページの閲覧時間や、Webページ上でのマウスの移動量、スクロール量、Webブラウザウインドウの複製操作などのWebブラウザの操作状況を反映してもよい。また、他のシステムの情報を参照してWebページの有用度を判断してもよい。例えば、Webページに対するWeb付箋紙(アノテーションツール)の貼り付けを検知した場合、調査過程における補足情報を入力している可能性が高いので、有用度が高いと判断しても良い。Web付箋紙の貼り付けの状態は、アノテーションツールの管理インターフェイスと連携することでWebページへの貼り付け状態を取得する実現できる。同様にブックマークに当該Webページの追加を検知した場合、担当者が価値ある情報と判断している可能性が高いので、有用度が高いと判断しても良い。ブックマークの状態は、ブックマークツールの管理インターフェイスと連携することでWebページがブックマークされたか否かを取得することができる。
また、処理経過を記録しているCRMシステム140に当該WebページのURLや当該Webページのテキストのコピーされた場合、有用度が高いと判断しても良い。CRMシステム140に情報が記載されているか否かは、WebページのURL、テキストと、CRMシステム140中の当該案件の内容の文字列マッチングを取ることで実現できる。
上記他システムとの連携は、操作ログ取得ツール(株式会社日立システムアンドサービス、PC業務効率分析システム BM1(http://www.hitachi-system.co.jp/bm1/)など)と連携して実現しても良い。
≪Webページ関連性抽出部≫
Webページ関連性抽出部204は、前述のステップS604から問い合わせ案件の処理が終了したタイミングで呼び出される。Webページ関連性抽出部は、まず前処理として、アクセス履歴管理テーブル208に記録されている履歴情報を基に、Webページのアクセス過程情報を生成し、アクセス過程管理テーブル205に一時記録する。次いで、前記Webページのアクセス過程管理テーブル205を基に、Webページの関連性を抽出し、Webページ関連テーブル206に記録する。
図16は、Webページのアクセス過程情報を格納するアクセス過程管理テーブル205を生成するためのフローチャートである。Webページのアクセス過程情報とは、(1)Webページの遷移元のWebページ、(2)遷移元Webページが検索結果だった場合、その検索キーワード、である。特に検索キーワードは、対応中の案件において、Webページの特徴を最も表しているキーワードとも言える。アクセス過程は、基本的にはWebページのReferer情報を基に生成する。以下、図16を参照して詳細を説明する。
初めに、Webページ関連性抽出対象となる案件の案件IDを取得し、一時変数taskidに代入する(S1600)。次いで、アクセス履歴管理テーブル208から案件IDがtaskidの値と一致するレコードを全て取得し、一時変数recordsに代入する(S1601)。前記取得したrecordsについて、以下の処理を行う(S1602)。その際、カレントの処理レコードは一時変数r1に代入する。
レコードr1のURLがWeb検索サーバ以外の場合、以下の処理を行う(S1603)。レコードr1のRefererを一時変数refに代入する(S1604)。次いで、refの有無により処理を分岐する(S1605)。refが空の場合、r1より前の履歴、かつ、最もr1の時刻に近い、Web検索サーバの履歴レコードを検索し、一時変数r2に代入する(S1606)。refが空以外の場合、r1より前の履歴、かつ、最もr1の時刻に近い、かつ、refと一致するURLを持つレコードを検索し、一時変数r2に代入する(S1607)。
次いで、レコードr2のURLがWeb検索サーバか否かで処理を分岐する(S1608)。レコードr2がWeb検索サーバの場合、アクセス過程管理テーブル205に、(時刻=r1の時刻、URL=r1のURL、遷移元=“検索結果”、検索キーワード=r2の検索キーワード、Webページ有用度=r1のWebページ有用度)の値からなるレコードを追加する(S1609)。レコードr2がWeb検索サーバ以外の場合、アクセス過程管理テーブル205に、(時刻=r1の時刻、URL=r1のURL、遷移元=ref、検索キーワード=空文字、Webページ有用度=r1のWebページ有用度)の値からなるレコードを追加する(S1610)。
図17は、図13で示したアクセス履歴管理テーブル208について、上記処理を実施した後の、アクセス過程管理テーブル205の内容を示した図である。アクセス過程管理テーブル205は、参照したWebページについて、参照時刻1700、URL1701、遷移元1702、検索キーワード1703、Webページ有用度1704から構成される。ここで、検索キーワード1703は上記で説明した通り、本Webページに辿り着くきっかけとなったキーワードである。
図16のフローチャートでは同一のURLに対して複数回のアクセスがあった場合に、複数個のレコードが生成されるが、単一のレコードとして集計しても良い。集計は最も古いアクセス時刻のレコードに集計しても良いし、最も新しいアクセス時刻のレコードに集計しても良い。
次いで、アクセス過程管理テーブル205に格納されているWebページのアクセス過程情報を基に、Webページの関連性を抽出する。図18は、Webページ関連性抽出部204の処理を示したフローチャートである。関連性抽出の際には、有用度が一定値以上のWebページについて、関連性抽出の対象とする。これによりWebページレコメンドのノイズを減らすことができる。本実施例においては、この閾値をステップS1800で15に設定しているが、後述の関連度調整部により、この値は調整することが可能である。
初めに、Webページ有用度の閾値RMに15を代入する(S1800)。このRMは、関連性抽出対象とするWebページの有用度の閾値を示す。次いで、アクセス過程管理テーブル205の全てのレコードについて順に以下の処理を行う(S1801)。その際、カレントの処理レコードは一時変数r1に代入する。次いで、r1の検索キーワードを一時変数kに代入する(S1802)。次いで、kが空以外、かつ、r1の有用度がRM以上の場合、ステップS1804からステップS1808の処理を行い、それ以外の場合は次のレコードの処理に移る(S1803)。
kが空以外、かつ、r1の有用度がRM以上の場合、r1以外の全てのレコードについて順に処理を実施する(S1804)。ここで、カレントの処理レコードを一時変数r2に代入する。次いで、r2の有用度がRM以上、かつ、r2のURLに対応するWebページ中にキーワードkが含まれる場合、r1とr2のWebページ同士に関連があると仮定して、ステップS1806に遷移、本条件を満たしていない場合は、次のレコードの処理に移る(S1805)。
ここで、Webページ中にキーワードが含まれるかの処理は、該WebページをHTTP通信により取得し、Webページに全文検索を実施することで実現できる。あるいはWebページのアクセス過程を記録するタイミングで、キーワードのインデックスを作成しておき、このインデックスに検索を行うことで、実施することも可能である。検索キーワードが複数のキーワードからなる場合、それぞれのキーワードについて検索処理を行って、ひとつでもキーワードが見つかれば含まれるとして判断しても良い。あるいは、複数キーワードをまとめた検索式として検索処理を行って、検索式に一致した場合、すなわち全てのキーワードが見つかれば含まれると判断しても良い。また、上記の検索処理は、キーワードの一致によらず、類似なキーワードを検索しても良い。類似なキーワードの検索は類義語辞書などを組み合わせることで実現できる。
r2の有用度がRM以上、かつ、r2のURLに対応するWebページ中にキーワードkが含まれる場合、アクセス過程情報を基に関連度を計算し、一時変数rankに代入する(S1806)。関連度計算の詳細については、本フローチャートの説明の後に説明する。次いで、Webページ関連テーブル206に(関連元=r1のURL、関連先=r2のURL、検索キーワード=k、関連度=rank)の値からなるレコードを追加する(S1807)。以上によりWebページの関連性を抽出できる。
図19は上記ステップ1806で示した関連度計算の詳細を示したフローチャートである。関連度はr1とr2の参照過程を基に計算する。r1の検索キーワードがr2のページ内の情報についての詳細調査と想定できる場合、関連度をより高く設定する。
図20に評価要素と関連度の一例を示す。#1は、Webページに辿り着いた際の検索キーワードが完全一致の場合、Webページ間の関連性が高いと想定できる。#1のバリエーションとして、キーワードの完全一致ではなく、キーワードの類似性に基づいて関連度を算出する方法でも良い。類似なキーワードの検索は類義語辞書などを組み合わせることで実現できる。#2は、r2がr1以前に参照している、すなわち、r2内に含まれる内容(r1の検索キーワード)をr1で詳細調査していると考えられ、r1とr2の関連度が高いと想定できる。#3は、末端Webページは、別途r1の検索キーワードの詳細を行うために一端調査を打ち切ったページと考えられ、r1とr2の関連度が高いと想定できる。#は、Webページのアクセス過程中の位置関係を基に関連度を算出している。末端の関連度を高くするだけでなく、末端に近いほど高くするなど、末端からの位置関係で関連度を高くしてもよい。
上記以外に、図21に示すような観点も考えられる。例えば、操作履歴に着目して、(1)有用Webページ捕捉モジュール209により、Webページ(r2)のテキストコピーイベントを検出した際に、コピーしたテキスト内容を保存しておき、r1の検索キーワードが含まれる場合、関連度を加算、(2)r1とr2を同時に開いている場合、関連度を加算、といった関連度を加算しても良い。(1)(2)はWebページ参照時のユーザのWebブラウザの捜査状況を基に関連度の評価を行っている。また、担当者の属性に着目して、(3)担当者の属性により関連度の寄与率を修正(ベテランほど重みを高くするなど)、といった関連度を加算しても良い。また、それ以外に、(4)r1→r2の関係があった場合に、r2→r1に逆の関係があると仮定して、この逆の関係をWebページ関連テーブル206にレコードとして追加しても良い。関連度はr1→r2の関連度を基に計算することができる(例えば半分を設定するなど)。(5)リンクをクリックして辿り着いたWebページについては、遷移元のWebページの何れかに関連性があった場合、同様な関連があると仮定して、Webページ関連テーブル206にレコードを追加しても良い。関連度は、ホップ数に応じて減算するなどして計算することができる(例えば0.7倍/ホップ)。
図22は、上記処理の結果、生成したWebページ関連テーブル206を示すテーブルである。本例では、図20に示す関連度計算のみ反映したものである。
≪関連度調整部≫
図23は関連度調整部のインターフェイスの一例を示した図である。図20や図21で示した関連度計算のための評価要素と関連度は、対象業務や対象とするWebページのセットによって、評価要素の重点の置き方が異なる。評価要素の関連度を、本インターフェイスを用いて変更可能とすることで、多様な環境への対応が可能となる。関連度調整部215は、Proxy部200経由でWebブラウザ210から呼び出されると、図23に示す調整インターフェイスを生成する。本画面は、評価要素2300と関連度2301のリストからなる。関連度の値を修正して、完了ボタンを押した場合、Proxy部200経由で関連度調整部215が呼び出される。関連度調整部215では、関連度の変更分を取得し、Webページ関連性抽出部204の関連度計算部分(図18)に反映する。
上記では、Webインターフェイスによる関連度調整のインターフェイスの一例を示したが、評価要素2300の関連度2301の設定が変更できれば、設定ファイルの修正や、RDB更新など、どのようなインターフェイスを用いても良い。
関連度調整は、システムで単一の値を設定したり、ユーザごとに設定したりしても良い。また、複数ユーザをグループとして管理し、グループ単位で設定しても良い。
≪Webページレコメンド部≫
図24は、Webページレコメンド部202の処理を示すフローチャートである。Webページレコメンド部202は、Webページ関連性抽出部204により抽出したWebページ関連テーブル206を参照して、Webページ参照時に関連するWebページをレコメンドする。Webページレコメンド部202は、図4を参照して説明したとおり、Proxy部200の処理の延長(S406)で呼び出される。
初めに、HTTPリクエストからURLを取得し、一時変数urlに代入する(S2400)。次いで、HTTPリクエストからRefererヘッダ値を取得し、一時変数refに代入する(S2401)。次いで、refがWeb検索サーバ120に対するリクエストか判断する(S2402)。refがWeb検索サーバの場合、ステップS2403からステップS2405の処理を行う。まず、refから検索キーワードを取得し、一時変数kに代入する(S2403)。次いで、Webページ関連テーブル206から、対象Webページ2200がurl、関連キーワード2202がkと一致するレコードを全て取得し、一時変数recordsに代入する(S2404)。次いで、全recordsについて、関連度2203の降順で、(関連Webページ2201、関連キーワード2202)の組をレコメンド情報として持つレコメンドパネル900用HTMLを生成する(S2405)。
上記で生成したレコメンドパネル900用HTMLは、図4のステップS407でHTTPレスポンスに埋め込まれ、Proxy部200によりWebブラウザ210に送信される。
図25は、Webページレコメンド部202により生成されたレコメンド情報の一例を示す図である。本例では、Web検索サーバで、キーワード"K1 K2"で検索し、その検索結果一覧からhttp://content/info1.htmlをクリックし、info1.htmlを参照した場合のレコメンドの結果を示している。本例で示すように、info1.htmlに関連するWebページとして、info3.html、info4.htmlをレコメンドしている。レコメンドの際には、単に関連のあるWebページをレコメンドするのではなく、関連の基情報となった検索キーワードを、レコメンドの観点として同時に表示することで、レコメンドの情報の有用性を高めている。担当者は、観点情報(検索キーワード)を参照することで、現在の対応案件に関連性の高いレコメンド情報か事前にある程度予測することが可能となる。
なお、上記処理においては、キーワードの完全一致を前提して説明していたが、辞書などを用いてキーワードの類似度を判定し、類似なキーワードについても同様な処理を行っても良い。
上記実施例では、案件の範囲捕捉のために、Webインターフェイスを用いて案件の開始、終了の情報を担当者から取得しているが、Webブラウザのアドオンソフトウェアや専用のクライアントアプリケーションなど、Web以外のインターフェイスにより開始、終了を捕捉しても良い。また、CRMなど他のシステムの情報を利用して案件の範囲を捕捉しても良い。また、厳密に案件を管理するのではなく、単位時間内(例えば1日単位など)の調査を一つの案件に対する調査と見なしてもよい。また、ブラウザの起動、終了と連動して案件の調査と判断しても良い。ここで、ブラウザの起動、終了の捕捉は業務PCにPCの稼動をモニタリングするソフトウェアを別途導入することで実現できる。
以上が第一の実施例の処理の一例である。
第2の実施例は、社内外に存在する情報の整理体系化に適用したものである。図26は整理体系化装置2600で動作するプログラムの機能要素を示すブロック図である。整理体系化装置2600は、上記第1の実施例のレコメンド装置110と同様にWebページの関連性を抽出する。よって、この整理体系化装置2600は、図1に示したレコメンド装置110と同様のコンピュータシステムで構成され、図示を省略したCPU、メモリ、I/F、外部記憶装置からなる。ここで、CPUで実行されるプログラムの内、Webページレコメンド部202に変え、ナビゲーション生成部2601が用いられる。
本実施例においては、抽出したWebページの関連性は、有効グラフの構造をしている。例えば、図22で示したWebページ関連テーブル206は、図27で示した有効グラフと考えることが出来る。この有効グラフの形を利用し、社内外に存在する情報を仮想的に整理体系化し、情報のナビゲーション用の機能を提供する。情報ナビゲーション用の有効グラフは、ナビゲーション生成部2601が生成する。
図28は、ナビゲーション生成部2601によるコンテンツナビゲーション用のビューを生成するためのフローチャートである。本処理は、図24で示したWebページレコメンド部202の処理フローを拡張したものである。
ナビゲーション生成部2601は、Webページ関連性抽出部204により抽出したWebページ関連テーブル206を参照して、Webページ参照時に関連する参照したWebページを基点とするWebページのナビゲーション情報を表示する。ナビゲーション生成部2601は、第1の実施例と同様に、Proxy部200の処理の延長(S406)で呼び出される。
初めに、HTTPリクエストからURLを取得し、一時変数urlに代入する(S2800)。次いで、HTTPリクエストからRefererヘッダ値を取得し、一時変数refに代入する(S2801)。次いで、refがWeb検索サーバ120に対するリクエストか判断する(S2802)。refがWeb検索サーバの場合、ステップS2803からステップS2806の処理を行う。まず、refから検索キーワードを取得し、一時変数kに代入する(S2803)。次いで、Webページ関連テーブル206から、対象Webページ2200がurl、関連キーワード2202がkと一致するレコードを全て取得し、一時変数recordsに代入する(S2804)。次いで、全recordsについて、再帰的に、関連Webページ2201が、対象Webページ2000となっているレコードをWebページ関連テーブル206から取得する(S2805)。次いで、ステップS2805で取得した全てのレコードから、ノードがWebページ、アークに検索キーワードを関連付けた有効グラフ図を生成する(S2806)。
上記で生成した有効グラフ図は、第1の実施例と同様に、Proxy部により、HTTPレスポンスに埋め込まれ、Webブラウザ210に送信される。
図29は、ナビゲーション生成部2601により生成されたコンテンツナビゲーション情報の一例を示す図である。本例では、Web検索サーバで、キーワード"K1 K2"で検索し、その検索結果一覧からhttp://content/info1.htmlをクリックし、info1.htmlを参照した場合のコンテンツナビゲーション情報の結果を示している。本例で示すように、info1.htmlを基点としがWebページの有効グラフによるコンテンツナビゲーション情報を提示可能となる。本ナビゲーション情報により、コンテンツ全体を体系的に見渡すことが可能となり、無駄な情報の探索が削減でき、また、有効な情報への探索をより効率良く行うことが可能になる。
以上詳述した本発明は、Webページを参照しながら調査を行う業務において、参照したWebページ間の暗黙的な関連性を抽出し、抽出した関連性を基にWebページをレコメンド、或いはWebページ参照のためのナビゲーション情報を提供する際に有用である。
100…業務PC
110…レコメンド装置
120…Web検索サーバ
130…Webコンテンツサーバ
140…CRMシステム
200…Proxy部
201…Webアクセス記録部
202…Webページレコメンド部
203…案件セッション管理部
204…Webページ有用度計算部
205…アクセス過程管理テーブル
206…Webページ関連テーブル
207…案件セッション管理テーブル
208…アクセス履歴管理テーブル
209…有用Webページ捕捉モジュール
210…Webブラウザ
211…ユーザ操作受付部
212…HTTP通信部
213…Webページ表示部
214…Webページ有用度計算部
215…関連度調整部
2600…整理体系化装置
2601…ナビゲーション生成部。

Claims (15)

  1. ある事案に対して一つ以上のWebページを参照しながら調査を行う際、処理部により前記Webページ間の関連性を抽出するWebページの関連性抽出方法であって、
    前記処理部は、
    Web検索サーバに対する検索キーワードとWebページのアクセス過程を記録する手順と、
    前記記録したWebページの範囲で参照した第1のWebページが前記Web検索サーバの第1の検索キーワードによる検索結果から遷移したものであり、前記第1の検索キーワードが、前記記録したWebページの範囲で参照したWebページであって、前記Web検索サーバの第2の検索キーワードによる検索結果から遷移した第2のWebページに含まれているかを前記第1の検索キーワードで検索して検出する検出手順と、
    前記第1の検索キーワードが前記第2のWebページに含まれている場合に、前記第1、第2のWebページ間の関連性があるとし、前記第1、第2のWebページ間のアクセス過程を基に、前記第1、第2のWebページ間の関連性の強さを示す関連度を評価する関連性抽出手順とを実行することを特徴とするWebページの関連性抽出方法。
  2. 請求項1記載のWebページの関連性抽出方法であって、
    前記処理部は、
    参照しているWebページを有用と判断するユーザの行動を捕捉し、前記Webページの有用度を評価する有用度評価手順を更に実行し、
    前記関連性抽出手順は、評価した前記有用度を基に前記関連度を抽出することを特徴するWebページの関連性抽出方法。
  3. 請求項2記載のWebページの関連性抽出方法であって、
    前記関連性抽出手順は、前記有用度の高い前記Webページ参照時のユーザのWebブラウザ操作状況を基に前記関連度を評価することを特徴とするWebページの関連性抽出方法。
  4. 請求項1記載のWebページの関連性抽出方法であって、
    前記関連性抽出手順は、一連のWebページのアクセス過程中の位置関係を基に前記関連度の評価を行うことを特徴とするWebページの関連性抽出方法。
  5. 請求項1記載のWebページの関連性抽出方法であって、
    前記関連性抽出手順は、Webページ間の参照時間の関係を基に前記関連度の評価を行うことを特徴とするWebページの関連性抽出方法。
  6. 請求項1記載のWebページの関連性抽出方法であって、
    前記処理部は、ユーザの識別と属性を管理する手順を更に含み、前記関連性抽出手順は、前記ユーザの属性により前記関連度の評価を行うことを特徴とするWebページの関連性抽出方法。
  7. 請求項1記載のWebページの関連性抽出方法であって、
    前記処理部は、事案の範囲を捕捉する手順を更に含み、
    前記関連性抽出手順は、前記捕捉した事案の範囲のWebページ間について関連性抽出を行うことを特徴とするWebページの関連性抽出方法。
  8. 請求項3記載のWebページの関連性抽出方法であって、
    前記処理部は、ユーザが設定する前記関連度の評価項目の重み付けに従い、
    前記関連度の評価を行うことを特徴とするWebページの関連性抽出方法。
  9. 請求項1記載のWebページの関連性抽出方法であって、
    前記処理部は、前記関連性抽出手順により評価した前記関連度に基づき、Webページをレコメンドすることを特徴とするWebページの関連性抽出方法。
  10. 請求項9記載のWebページの関連性抽出方法であって、
    前記処理部は、Webページをレコメンドする際に、レコメンドする前記Webページの検索キーワードをレコメンドの観点情報として、前記Webページと合わせてレコメンドすることを特徴とするWebページの関連性抽出方法。
  11. ある事案に対して一つ以上のWebページを参照しながら調査を行う業務における前記Webページ間の関連性を抽出する、処理部と記憶部とを有するWebページの関連性抽出装置であって、
    前記処理部は、
    Web検索サーバに対する検索キーワードとWebページのアクセス過程を記録するWebアクセス記録部と、
    前記記録したWebページの範囲で参照した第1のWebページが前記Web検索サーバの第1の検索キーワードによる検索結果から遷移したものであり、前記第1の検索キーワードが、前記記録したWebページの範囲で参照したWebページであって、前記Web検索サーバの第2の検索キーワードによる検索結果から遷移した第2のWebページに含まれているかを前記第1の検索キーワードで検索して検出し、
    前記第1の検索キーワードが前記第2のWebページに含まれている場合に、前記第1、第2のWebページ間の関連性があるとし、前記第1のWebページと前記第2のWebページ間のアクセス過程を基に前記第1、第2のWebページ間の関連性の強さを示す関連度を評価するWebページ関連性抽出部とを有し、
    前記記憶部は、
    前記第1、第2のWebページ、関連性のキーとなった前記検索キーワード、及び前記関連度からなるWebページ関連テーブルを有する、
    ことを特徴とするWebページの関連性抽出装置。
  12. 請求項11記載の関連性抽出装置であって、
    前記処理部は、参照しているWebページを有用と判断するユーザの行動を定量的に評価して前記Webページの有用度を得るWebページ有用度計算部を更に備え、
    前記Webページ関連性抽出部は、前記Webページの有用度を基に前記関連度を抽出することを特徴する関連性抽出装置
  13. 請求項11記載の関連性抽出装置であって、
    前記処理部は、前記関連度の評価項目の重み付けをユーザが設定するための関連度調整部を更に備えることを特徴とする関連性抽出装置。
  14. ある事案に対して一つ以上のWebページを参照しながら調査を行う業務における前記Webページ間の関連性を抽出する、処理部と記憶部とを有するWebページの関連性抽出装置の処理部で実行されるWebページの関連性抽出プログラムであって、
    Web検索サーバに対する検索キーワードとWebページのアクセス過程を記録する手順と、
    前記記録したWebページの範囲で参照した第1のWebページが前記Web検索サーバの第1の検索キーワードによる検索結果から遷移したものであり、前記第1の検索キーワードが、前記記録したWebページの範囲で参照したWebページであって、前記Web検索サーバの第2の検索キーワードによる検索結果から遷移した第2のWebページに含まれているかを前記第1の検索キーワードで検索して検出する検出手順と、
    前記第1の検索キーワードが前記第2のWebページに含まれている場合に、前記第1、第2のWebページ間の関連性があるとし、前記第1、第2のWebページ間のアクセス過程を基に、前記第1、第2のWebページ間の関連性の強さを示す関連度を評価する手順と、
    からなることを特徴とするWebページの関連性抽出プログラム。
  15. 請求項14記載のWebページの関連性抽出プログラムであって、
    前記関連性を基にWebページをレコメンドする際に、前記レコメンドするWebページの前記検索キーワードをレコメンドの観点情報として、前記Webページと合わせてレコメンドする手順を更に含むことを特徴とするWebページの関連性抽出プログラム。
JP2009180735A 2009-08-03 2009-08-03 Webページの関連性抽出方法、装置、及びプログラム Expired - Fee Related JP5514486B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009180735A JP5514486B2 (ja) 2009-08-03 2009-08-03 Webページの関連性抽出方法、装置、及びプログラム
US12/711,708 US20110029559A1 (en) 2009-08-03 2010-02-24 Method, apparatus, and program for extracting relativity of web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009180735A JP5514486B2 (ja) 2009-08-03 2009-08-03 Webページの関連性抽出方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2011034399A JP2011034399A (ja) 2011-02-17
JP5514486B2 true JP5514486B2 (ja) 2014-06-04

Family

ID=43763399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009180735A Expired - Fee Related JP5514486B2 (ja) 2009-08-03 2009-08-03 Webページの関連性抽出方法、装置、及びプログラム

Country Status (2)

Country Link
US (1) US20110029559A1 (ja)
JP (1) JP5514486B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086216A1 (en) * 2011-10-04 2013-04-04 Adknowledge, Inc. Method and system for individualized listing placements in web pages
CN102420813B (zh) * 2011-10-27 2015-02-18 北京百度网讯科技有限公司 一种根据用户设备的终端属性提供目标信息的方法与设备
JP5113936B1 (ja) * 2011-11-24 2013-01-09 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
CN103870461B (zh) * 2012-12-10 2019-09-10 腾讯科技(深圳)有限公司 主题推荐方法、装置和服务器
CN104580330A (zh) * 2013-10-29 2015-04-29 镇江睿泰信息科技有限公司 一种基于云计算的数据加工系统
US9275132B2 (en) * 2014-05-12 2016-03-01 Diffeo, Inc. Entity-centric knowledge discovery
JP6638220B2 (ja) * 2015-06-17 2020-01-29 富士通株式会社 Webアクセスプログラム、Webアクセス方法およびWebアクセス装置
US10839021B2 (en) 2017-06-06 2020-11-17 Salesforce.Com, Inc Knowledge operating system
CN116127203B (zh) * 2023-04-17 2023-07-25 杭州实在智能科技有限公司 结合页面信息的rpa业务组件推荐方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173351A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 情報解析、収集、検索方法、装置、プログラム、および記録媒体
JP2003178092A (ja) * 2001-12-10 2003-06-27 Mitsubishi Electric Corp 情報検索システム、情報提供装置及び情報検索方法並びにプログラム
JP3935388B2 (ja) * 2002-03-29 2007-06-20 株式会社東芝 関連情報提供方法、関連情報提供装置、プログラム及び記録媒体
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US7305389B2 (en) * 2004-04-15 2007-12-04 Microsoft Corporation Content propagation for enhanced document retrieval
JP5105802B2 (ja) * 2005-09-07 2012-12-26 株式会社リコー 情報処理装置
JP4976044B2 (ja) * 2006-04-18 2012-07-18 楽天株式会社 検索履歴保存システム
US8166029B2 (en) * 2006-09-07 2012-04-24 Yahoo! Inc. System and method for identifying media content items and related media content items
US7779040B2 (en) * 2007-09-27 2010-08-17 Amazon Technologies, Inc. System for detecting associations between items
US9400843B2 (en) * 2007-12-04 2016-07-26 Yahoo! Inc. Adjusting stored query relevance data based on query term similarity

Also Published As

Publication number Publication date
JP2011034399A (ja) 2011-02-17
US20110029559A1 (en) 2011-02-03

Similar Documents

Publication Publication Date Title
JP5514486B2 (ja) Webページの関連性抽出方法、装置、及びプログラム
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
JP4350744B2 (ja) 地域情報検索結果の提供方法およびシステム
Sisodia et al. Web usage pattern analysis through web logs: A review
CN102722498B (zh) 搜索引擎及其实现方法
US8838643B2 (en) Context-aware parameterized action links for search results
CN102722501B (zh) 搜索引擎及其实现方法
US9411895B2 (en) Personalized deeplinks for search results
CN102737021B (zh) 搜索引擎及其实现方法
US7216122B2 (en) Information processing device and method, recording medium, and program
CN102722499B (zh) 搜索引擎及其实现方法
CN101178728A (zh) 一种网址导航的方法和系统
US20110238653A1 (en) Parsing and indexing dynamic reports
KR20020025142A (ko) 키워드 광고 서비스를 위한 키워드 추천 시스템 및 방법
JP5511782B2 (ja) 新規広告可能なurl提供システムおよび新規広告可能なurl提供方法を実行するためのプログラム
JP2010128928A (ja) 検索システム及び検索方法
US20130031075A1 (en) Action-based deeplinks for search results
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
US20110022563A1 (en) Document display system, related document display method, and program
JP4649036B2 (ja) 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置
JP2005010899A (ja) ウェブサイト診断・支援装置、該方法及び該プログラム
KR100931772B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP4259858B2 (ja) Wwwサイト履歴検索装置及び方法並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140331

R150 Certificate of patent or registration of utility model

Ref document number: 5514486

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees