JP2005071062A

JP2005071062A - 検索結果分析出力装置、検索結果分析出力方法およびコンピュータプログラム

Info

Publication number: JP2005071062A
Application number: JP2003299423A
Authority: JP
Inventors: Shukichi Tanaka; 修吉田中
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-08-25
Filing date: 2003-08-25
Publication date: 2005-03-17

Abstract

【課題】中長期的な調査を時系列で可視化することができ、経時的な条件を必要に応じて加味あるいは除外することができる検索結果の出力技術を提供する。
【解決手段】インターネット上からキーワードに基づいて所定のコンテンツを検索し、当該コンテンツを評価するコンテンツ評価手段と、所望する検索期間の始点および終点データの入力を行わせる始点および終点データ入力手段とを備える。中長期的な調査を時系列で可視化することができ、経時的な条件を必要に応じて加味あるいは除外することができる検索結果の出力を得ることができる。
【選択図】図１

Description

本発明は、インターネット上に氾濫する情報の中から所望する情報を的確に収集する技術に関し、また、ユーザの利便性を向上させる技術に関する。

近年、インターネットのユーザが急増しており、閲覧できるウェブページも毎日増加している。
インターネットユーザが欲する情報へアクセスする手段としては、まず、情報検索を行わなければならない。一般的には、検索サイトへアクセスし、自分が望む情報に関連するキーワードを入力する。キーワードを入力された検索サイトにおいては、そのキーワードをテキストデータとして含むサイトを抽出するという直接的かつ単純な方法が、主だった検索サイトでは採用されている。

現在のウェブサイトは鼠算式に増えており、全世界で少なくとも１００億以上存在している。このため、自分が望む情報を的確に閲覧するためには、ＡＮＤ検索、ＯＲ検索、ＮＯＴ検索およびこれらの組み合わせ等の検索アルゴリズムが活用されている。また、ある特定の分野に対して関連性の深いサイトのみを効率よく高精度で収集する技術として、例えば、特許文献１に開示されている。

特開２００１−２８２８３７号公報

例えば、ある会社があるブランド名のイメージ調査をしようという場合、中長期的な調査が必要となる。そのような調査をするに際しては、一時的な流行を除外した分析結果が欲しい場合や、テレビコマーシャル直後の影響という一時的な効果に関する調査が欲しい場合などがある。

しかしながら、ウェブサイトは、ウェブ管理者によって管理、更新されているため、管理者都合により削除あるいは消滅してしまう可能性もある。削除あるいは消滅してしまったウェブサイトの中には、有益な情報が掲載されていた場合もあるが、通常の手段ではそれらのウェブサイトは見ることができない。上述の例では、テレビコマーシャル直後の影響という一時的な効果に関して、所定期間を経過した後に検証したくても、欲するデータとしては信憑性に欠けるという判断もあり得ることとなる。
一方、一時的な流行やいわゆる風説を除外したい場合もある。

いずれの場合も中長期的に調査を継続する必要があるが、その調査経過を含めた調査結果を出力するには、時系列の調査結果を出力したいという要望がある。しかし、そのような要望にかなう適切な技術が提供されていなかった。
そこで、本発明が解決しようとする課題は、中長期的な調査を時系列で可視化することができ、経時的な条件を必要に応じて加味あるいは除外することができる検索結果の出力技術を提供することにある。

上記課題を解決するため、以下のような発明を提供する。
（請求項１）
請求項１記載の発明は、キーワードに基づきインターネット上から所定のコンテンツを検索し、前記キーワードと当該コンテンツとの関連性を評価するコンテンツ評価手段と、
所望する検索期間の始点および終点データの入力を行わせる始点および終点データ入力手段と、
前記コンテンツ評価手段により評価されたコンテンツについて、前記始点および終点データを用いて加工し、所定様式にて出力する出力手段とを備えたことを特徴とする検索結果分析出力装置を提供する。

（用語説明）
「キーワード」は、ユーザが指定する場合、ユーザの指定を参考にして検索サイト運営者側で再設定する場合、あるいは、後述の予測分析型検索エンジンのように検索結果を参照して自動設定する場合などがある。

（作用）
例えば、コンテンツ検索のためのキーワード入力をキーワード入力手段が受け付ける。そのキーワードを用いて、コンテンツ評価手段がインターネット上から所定のコンテンツを検索し、そのコンテンツ中におけるテキストデータを前記キーワードに応じて当該コンテンツを得点化するなどして評価する。
また、ユーザが所望する検索期間の始点および終点データの入力を、ユーザに対して始点および終点データ入力手段が行わせる。
前記コンテンツ評価手段が評価したコンテンツについて、出力手段が、始点および終点データを用いて加工し、所定様式にて出力する。

（請求項２）
請求項２記載の発明は、請求項１記載の検索結果分析出力装置を限定したものであり、
前記コンテンツ評価手段は、キーワードによってインターネット上から所定のコンテンツを検索し、そのコンテンツ中におけるテキストデータを前記キーワードに応じて当該コンテンツを得点化するコンテンツ得点化手段を備えることを特徴とする検索結果分析出力装置を提供する。

（請求項３）
請求項３記載の発明は、請求項２記載の検索結果分析出力装置を限定したものであり、
前記コンテンツ評価手段は、さらに、前記コンテンツ得点化手段によって得点化されたコンテンツと前記キーワードとを対比して、キーワードの重要度を得点化するキーワード得点化手段を備えることを特徴とする検索結果分析出力装置を提供する。

（用語説明）
コンテンツ得点化手段及びキーワード得点化手段にいう「得点化」の手法としては、得点化関数を予め複数種類用意しておき、ユーザの検索目的に応じて適切な得点化関数を選択し、その得点化関数によって算出する。
得点化関数としては、例えば、ユーザが法人である場合における当該法人の株価への影響がありそうな風説を収集したい場合、「風説」に該当すると判断されるコンテンツ又はキーワードには高得点を付与することとなる関数（あるいは係数）が採用される。

（作用）
例えば、コンテンツ検索のためのキーワード入力をキーワード入力手段が受け付ける。そのキーワードを用いて、コンテンツ評価手段がインターネット上から所定のコンテンツを検索し、そのコンテンツ中におけるテキストデータを前記キーワードに応じて当該コンテンツを得点化する。
また、ユーザが所望する検索期間の始点および終点データの入力を、ユーザに対して始点および終点データ入力手段が行わせる。
前記コンテンツ得点化手段が得点化したコンテンツまたはキーワード得点化手段が得点化した前記キーワードについて、前記始点および終点データを用いて加工し、所定様式にて出力手段が出力する。

（請求項４）
請求項４記載の発明は、請求項１記載の検索結果分析出力装置を限定したものであり、
検索結果のコンテンツを所定期間毎に検索日時データとともに蓄積することにコンテンツデータ蓄積手段を備えることを特徴とする検索結果分析出力装置を提供する。

（用語説明）
「コンテンツデータ蓄積手段」とは、データを記録するいわゆるキャッシュ化を行う手段である。すなわち、ある時点での検索結果のコンテンツのＵＲＬを参照してページ内のテキストデータおよび日時データを取得し、コンテンツデータベースに蓄積する。
ここで「所定期間毎」とは、例えば、１週間に１回、１か月に１回、３ヶ月に１回等、定期的である場合のほか、不定期である場合も含む。これは管理者が任意に設定することができる。たとえば「現政権の評価」といった調査においては、「首相の発言」といった一時的な現象の影響も検証したいという要望があるが、コンテンツデータベースの存在により、そのような要望にも対応できる。

（作用）
これにより、削除あるいは消滅したウェブサイト内の情報をコンテンツデータベース内に保存しておくことができるため、過去の情報を時系列にて出力させる際に、ユーザが所望するデータの入手や、必要な情報加工が可能となる。

（請求項５）
請求項５記載の発明は、キーワードに基づきインターネット上から所定のコンテンツを検索し、前記キーワードと当該コンテンツとの関連性を評価するコンテンツ評価手順と、
所望する検索期間の始点および終点データの入力を行わせる始点および終点データ入力手順と、
前記コンテンツ評価手順により評価されたコンテンツについて、前記始点および終点データを用いて加工し、所定様式にて出力する出力手順とを備えたことを特徴とする検索結果分析出力方法を提供する。

（請求項６）
請求項６記載の発明は、検索結果分析出力方法をコンピュータに実現させるためのコンピュータプログラムである。
すなわち、そのプログラムは、キーワードに基づきインターネット上から所定のコンテンツを検索し、前記キーワードと当該コンテンツとの関連性を評価するコンテンツ評価手順と、
前記コンテンツ評価手順により評価されたコンテンツについて、所望する検索期間の始点および終点データを用いて加工し、所定様式にて出力する出力手順とをコンピュータに実行させるためのコンピュータプログラムである。

（請求項７）
請求項７記載の発明は、請求項６記載のコンピュータプログラムを限定したものである。
すなわち、前記コンテンツ評価手順は、キーワードによってインターネット上から所定のコンテンツを検索し、そのコンテンツ中におけるテキストデータを前記キーワードに応じて当該コンテンツを得点化するコンテンツ得点化手順を備えることを特徴とする。

（請求項８）
請求項８記載の発明は、請求項７記載のコンピュータプログラムを限定したものである。
すなわち、前記コンテンツ評価手順は、さらに、前記コンテンツ得点化手順によって得点化されたコンテンツと前記キーワードとを対比して、キーワードの重要度を得点化するキーワード得点化手順を備えることを特徴とする。

請求項１から請求項４に記載の発明によれば、中長期的な調査を時系列で可視化することができ、経時的な条件を必要に応じて加味あるいは除外することができる検索結果の出力可能なシステムを提供することができた。
また、請求項５記載の発明によれば、中長期的な調査を時系列で可視化することができ、経時的な条件を必要に応じて加味あるいは除外することができる検索結果の出力プロセスを提供することができた。
また、請求項６から請求項８記載の発明によれば、中長期的な調査を時系列で可視化することができ、経時的な条件を必要に応じて加味あるいは除外することができる検索結果の出力プロセスを実行するコンピュータプログラムを提供することができた。

以下、図面に示した本発明の実施形態に基づき、本発明をさらに詳細に説明する。
なお、図および以下の説明において「ユーザ」とは、本実施形態に係る検索結果分析出力装置を利用する者（法人の場合もある）をいう。

（全体構成）
実施形態に係る検索結果分析出力装置の全体的な構成は、バックグラウンドで動作し、インターネット上から情報を取得する「予測分析型検索エンジン（SEIP、Search Engine with Intelligent Predictions）」と、予測分析型検索エンジンで取得したコンテンツを加工し、出力するための「始点及び終点データ入力手段」及び「出力手段」の３つの基本システムから構成されている。

本実施形態における予測分析型検索エンジンは、各請求項に記載したコンテンツ評価手段（又はコンテンツ評価手順）を備えており、特開２００３−６２２１号公報に開示されたものである。もちろん、各請求項におけるコンテンツ評価手段（又はコンテンツ評価手順）は、コンテンツを何らかの形式で評価できるものであればよく、この予測分析型検索エンジンを必ずしも利用する必要はない。但し、かかる予測分析型検索エンジンによれば、コンテンツ得点化手段及びキーワード得点化手段を備えており、より適切な検索を行うことができる。

より詳細には、キーワード入力手段を用いて入力されたキーワードに応じて抽出したインターネット上のコンテンツの内容を吟味して得点化し、コンテンツ評価手段を構成する「コンテンツ得点化手段」を備えている。また、コンテンツ評価手段は、コンピュータに記憶されたユーザの嗜好を分析し、次の検索のシーズとなる新たなキーワードを自動的に作成すると共に、そのキーワードの重要度の得点化を行う「キーワード得点化手段」と、さらには、検索した結果およびユーザの嗜好の分析によって、ユーザが希望するコンテンツが現れるであろうと予測できるＵＲＬを収集する「ＵＲＬ収集部」とを備えている。なお、キーワード得点化手段においてキーワードを自動的に作成する機能は、コンテンツ得点化手段による結果を踏まえて、ユーザが関心を示したコンテンツの情報に基づき、当該情報で使用されている文言や文脈等から、新たなキーワードを自動的に再生成するものである。これにより、検索用のキーワードが当初入力されたキーワードから次第に適切化されていく。

（予測分析型検索エンジン）
予測分析型検索エンジンは、以下の機能を備えており、これらの処理部はインタープリタ言語(Perl)によって記述されている。

第一に、検索対象となるＵＲＬの追加、削除や、ＵＲＬ情報の更新を行うＵＲＬデータベース処理手段（ＵＲＬ収集部）である。第二に、ヘッダ情報を取得したり、ページの更新時間をチェックしたり、ページ本体の取得を行うページ取得手段である。第三に、タグを除去したり、リンク情報を取得するタグ情報解析手段である。第四に、キーワードおよび文脈を利用したパターンマッチング処理を行い、その処理の結果に基づいて取得したページを得点化するページ内容解析手段（コンテンツ得点化手段）である。第五に、コンテンツ評価による新たなキーワードを作成したり抽出したり、キーワードを再評価して得点を見直したりするキーワード得点化手段である。

（ＵＲＬデータベース処理手段（ＵＲＬ収集部））
本実施形態の予測分析型検索システムは、ページのリンクをたどることによって、ＵＲＬを収集し、そのＵＲＬで指定される情報の関連性を吟味することによって検索範囲を拡大していく。情報の関連性に基づいて検索範囲を拡大することは嗜好度を吟味することになり、同時にそのＵＲＬにおいて更新される「情報の期待度」も計算する。その期待度によって、ＵＲＬの収集を行う。収集されたＵＲＬを元に新たな検索を行うことになる。情報の期待度は「ページ内容解析手段」で計算される。本手段では、この期待度を元に、ＵＲＬの収集および削除、ならびに順序付けを、以下のようにして行う。

・連想配列の記述
ＵＲＬの管理には、連想配列という手法を採用する。図２には、連想配列の構造を示す。この実施形態では、UNIX（登録商標）の世界で古くから標準的に用いられているdbmデータベースを使用した。「key 」へはＵＲＬを代入し、「value」へはページの得点と検索回数とを代入する。
連想配列を用いた場合、一つのkeyに対して一つのvalueしか保存することができない。しかし、1つのＵＲＬに対して、得点と検索回数の情報を保存する必要があるため、“:”を区切りとして二つの値を代入することとする。
例えば、
value値＝１２．５:５の場合
ページの得点が１２．５点、検索回数が５回、であることを表す。

・ＵＲＬの追加、削除
ＵＲＬを新たに追加する場合は、keyにＵＲＬ、value値は０:０にセットする。登録されているＵＲＬを削除するのは、そのvalueがある条件を満たした時のみ行うようにした。例えば、検索回数が１０回以上かつ得点が０点の時を削除条件とする。但し、この条件は初期設定として仮に設定するものであり、変更可能である。

・ＵＲＬ情報の更新
検索を行うと、そのＵＲＬに対して得点が得られる。この得点をＵＲＬの情報として付加する必要がある。また検索回数を表す数値の更新も行わなければならない。その際には、ＵＲＬをkeyにして、そのvalueの値を変更する。
(例) 得られた得点＝10点、value値＝０：４の場合
この場合、これまでに4回検索が行われ、いずれの場合も得点が０点だったことを表している。しかし、今回10点を得ることができたので、更新後のvalue値＝１０：５となる。

（ページ取得手段（ページ取得部））
図３には、ページ取得部の概念を示している。
ページ取得部は、ＵＲＬの指示するページの情報を取得する。また、取得する際に、ページ取得部は、ページの更新日時をチェックし、所定期間内（例えば過去一ヶ月間、過去一年間等）に更新された情報のみを取得する。すなわち情報の有効期限を仮定するのである。通常、情報において、その一つの価値は「新鮮さ」にある。資料としての検索等を除き、ある一定期間を過ぎた情報の価値はゼロとなることが多い。したがって本システムでは、情報の有効期間に着目し、その有効期間を設定することとした。なお、この有効期限は任意に設定可能としている。

具体的には、ページ取得手段が取得したヘッダ情報に基づき、更新日時をチェックする。ヘッダ内のLast-Modifiedは、ページの最終更新日時を示しており、これを用いる。所定期間内であればページ全体を取り込むこととするのである。このことによって、検索時間、ページ取得時間を短縮する。
なお、ヘッダに更新日時の記述がない場合が存在する。その場合はHTMLで記述された本文の最初の一定文字数（数百バイトから数キロバイト）を読み取り、更新日時が記述されている項目を探索し、更新日時を推定することによって、そのページの取得可否を決定することとする。文書データの書き出し部分には日時データが含まれることが多いということが、経験的に把握されているからである。

（タグ情報解析手段（ＨＴＭＬ解析手段））
図４には、ＨＴＭＬの解析手段の概念を示している。
HTTPリクエストによって取得されたページは、HTMLタグを含んだ状態であり、リンクやレイアウト情報といった、内容には無関係な情報も含まれている。これをPerlの正規表現を用いて取り除き、キーワードによるマッチング処理を行うのに適した形にする。一方、タグが表記された状態から得ることのできる有益な情報もある。例えば、ページのタイトルや、そのページから張られているリンク情報などである。HTML解析手段では、有益なタグ情報を取得するとともに、無益なタグ情報を取り除くことによってキーワードによるマッチング処理を行うのに適したフォーマット（例えばプレーンテキスト）へ変換する。
リンク情報は、例えば以下のようにして扱う。まず、該当ページの得点が閾値以上の時、正規表現を用いて、そのページ内から張られているリンクのＵＲＬを取得する。取得したＵＲＬは、ＵＲＬデータベース処理部に引き渡し、データベースに保存する。そのＵＲＬの内容を調べれば、より価値ある情報を得る可能性があるからである。

（ページ内容解析手段（コンテンツ得点化手段））
このページ内容解析手段（コンテンツ得点化手段）は、検索に使用したキーワードおよびテキストデータの文脈を基に、パターンマッチング処理をし、例えば、以下のようにして内容を採点する。
HTML解析手段によってタグを除去されてプレーンテキストとなった情報に対し、キーワードや文脈を用いたマッチング処理を行う。キーワードや文脈は、後述のキーワード得点化手段で得点化が行われる。

なお、デフォルト（初期設定）のキーワード、および文脈はユーザが入力する場合と、システム設計者があらかじめ用途（例えば、誹謗中傷発言の検索用、株価に対する風説の流布用、特定商品の話題用等）別に入力しておく場合とがある。本実施形態では、ある企業（Ａ社）の広報担当者が、当該企業に関する不当な発言、誹謗中傷などがないかどうかチェックする場合を想定して説明する。

ページの文章（コンテンツ）内に出現するキーワードや文脈を検出し、それぞれの点数(重み)を加算し、ページの持つ総得点を求める。点数が高いほど、目的に合った情報である可能性が高いと仮定する。なお、加算に関して、単純加算とキーワードや文脈の出現する位置、個数等で加重配点を行う場合もある。
この場合、ページにリンクが貼られている場合には、取得したリンク情報の重要度を判断し加重配点する構成とすることが好ましい。すなわち、ページのリンク構造の重要度を判定する構成である。重要度の高いページ（又はＵＲＬ）をリンク（引用）しているページは、それなりに重要度が高く、また、重要度の高いページにリンク（引用）されているページ（又はＵＲＬ）も、それに準じて重要度が高いと考えられ、ページの重要度（得点）評価の指標に用いるのに適切だからである。

図５には、ページ内容解析の機能を概念的に示している。
例えば、以下のような文章が掲載されたページがあったとする。
企業倫理に厳しいＡ国で、20年以上も「欠陥」の事実を隠していた。
この「欠陥」隠しに対する「責任」は重大であり、
Ａ社が大きく信用を落としたのは確かなようだ。
上記文章（コンテンツ）のキーワードとして、「欠陥」、「責任」を設定し、この文章の得点を求める。これらキーワードの重みは「欠陥=５点」、「責任=２点」である。よって、この文章の得点は１２点（５点×２＋２点）となる。

（キーワード得点化手段）
前述のように、個々のキーワードおよび文脈には「重み」を設定する。「重み」は、文章を意味付ける上で情報量の差を反映させるためである。この「重み」は、デフォルト（初期設定）においては、ユーザが重み付けを行う場合と、上記したようにシステム設計者がキーワードや文脈とともにその重み付けを与える場合とがある。しかし、本検索システムを利用するユーザの嗜好に合致しているとは言いがたい場合もある。それはユーザがデフォルトでキーワードや文脈、およびそれらの重み付けを与える場合も例外ではない。

そこで、ユーザの着目しているキーワードを分析し、その出現回数によって得点を計算する。これをユーザポイントとし、通常で得られた得点に加算する。その方法は、まず、検索結果のタイトルをクリックし、ページ全文が表示され、それと同時にキーワードを検出し、キーワードに対して、“０．１×出現回数”で得られる得点を与える、という方法である。

以上の方法で得たキーワード別の得点は、次回、同じ検索を行う場合に利用する。すなわち、最初の検索時、ページ本文のキーワードをリアルタイムで解析し、ユーザの着目しているキーワードが検出されたら、先程得たキーワード別の得点を通常の得点に加算する。次回の検索はこの加算された値を元にして行うのである。

この機能によって、ユーザの着目しているキーワードを含む情報ほど高得点となり、ユーザは得たい情報をいち早くデータベースから見つけることができる。また、「この情報はあなたにとって上記のメッセージは有益な情報でしたか?」の問に対してYESを選択すると、同様の方法でさらに、０．５ポイント加算されることとしている。図６はユーザ別に得点が加えられた様子を表す。

図中、得点を表示している部分の、「１３．３３」が通常で得られた得点を表し、「２．５」がユーザ別で得られた得点を表している。ユーザ別に得られた得点は、使用を繰り返すことで絶えず変化し、よりユーザの意図に沿った検索を可能とする。

また、同一ページ内に同じ単語が複数出現する場合、無意味にページの得点が高いものになってしまう。これを回避し、正当な得点とするために、単語の出現回数によって加算する得点に変化をつける。さまざまな評価式が考えられるが、ここでは、次の関数を利用する。
加算するキーワードの点数＝キーワードの通常点／（単語の出現回数×２）
例えば、キーワードの通常の持ち点(重み)を「４点」とすると、最初の出現には４点、次は２点、最後は１点というように、加算する点数は半減されるものとする。

また、例えば、ユーザの呼び名が「Ｘ自動車、Ｘ工業」というように、複数種類存在する場合、これらを事前に調べ、あるいはユーザから別の呼び名を募っておき、予め登録しておく。そして、それらは同じキーワードとして扱う。登録企業名の検出方法は、先程のキーワードによるマッチング処理と同様の手段を用いる。ページ内に登録されている企業名が出現した場合、そのページの情報はデータベースに保存するのである。

なお、ユーザが検索内容を細分化したい場合、より精度を高めたい場合などに対応するため、ユーザが任意でキーワードを追加することができるようにすることが好ましい。ただし、キーワードの追加はシステムに対する負担が大きいので、システムの性能に応じて追加できるワード数を制限することが好ましい。

本実施形態で用いた予測分析型検索エンジンは、また、検索してきた情報に対してユーザが評価する際、または本システムがユーザの振る舞いを解析してその解析結果を評価する際には、その時点で登録されているキーワードや文脈の重みを更新するだけでなく、評価や解析結果の評価が高いと判断された場合、それらの情報の中から新たなキーワードや文脈を抽出し、改めてキーワード等のデータベースに登録する機能も備える。

また、上記したページ内容解析手段（コンテンツ得点化手段）においては、キーワードに対して、その関連用語がどの程度掲載されているかを分析する機能を有することが好ましい。これは、例えば、キーワードが化粧品なら関連用語が美白や美肌などが考えられる。よって、コンテンツ内に美白や美肌などのテキストデータがより多く含まれているコンテンツを抽出する。なお、関連用語には、美白、美肌などのポジティブワードのほか、肌荒れ、アレルギーなどのネガティブワードも考えられる。

また、このような関連用語は、あるキーワードに対し、自動的に生成して検索してくる仕組みとすることもできるが、キーワード入力手段において、例えば、「化粧品名」というメインキーワードのほかに、美白、美肌、肌荒れ、アレルギーなどを関連キーワードとしてマニュアルで入力可能とし、関連用語もキーワードの一種として上記予測分析型エンジンにおいて同等に扱うこともできる。もちろん、これらのキーワードはいずれも、検索結果を参照して、追加、削除、変更可能とすることが好ましい。

ここで、上記予測分析型検索エンジンにより得られたインターネット上のページの情報、すなわち、タイトル、本文、ＵＲＬ、取得時刻、リンク情報、検出されたキーワード、得点は、コンピュータからなる本実施形態の検索結果分析出力装置の記憶部にデータベースとして記憶される。このうち、予測分析型検索エンジンのページ取得部により取得された情報（コンテンツ）は、コンテンツデータ蓄積手段により記憶部に蓄積される。蓄積とは、いわゆるキャッシュ化であり、取得したコンテンツのＵＲＬを参照してページ内のテキストデータおよび日時データを所定期間毎に蓄積する。所定期間毎とは、例えば、１週間に１回、１か月に１回、３ヶ月に１回等、定期的な期間を設定できる。または、不定期に（例えばインターネットへの接続時毎）蓄積することとしても良い。

次に、予測分析型検索エンジンにより得られた情報を加工処理し、出力するための「始点及び終点データ入力手段」及び「出力手段」について説明する。

（始点および終点データ入力手段）
まず、上記予測分析型検索エンジンのコンテンツ評価手段（コンテンツ得点化手段、キーワード得点化手段）が得点化したコンテンツに対し、ユーザが所望する検索期間を設定する、始点および終点データ入力を行う。始点とは、コンテンツの検索結果を欲する最初の年月日のことであり、終点とはコンテンツの検索結果を欲する最後の年月日を指している。

例えば、始点および終点データとして２００２年１月１日から２００２年１２月３１日までを設定すれば、１２ヶ月分のデータを検索することになる。具体的には、２００２年６月１日に企業Ｃ社が製造する商品にある事象が発覚したとする。ユーザはこの事象についての影響を調査するために事象の発覚以前と、それ以後とを分けて検索することなどが考えられる。したがって、膨大な量のコンテンツが検索されても、検索期間を設定することで、検索時間の短縮および検索精度の向上が図られる。

この始点及び終点データ入力手段を有することにより、例えば、テレビコマーシャルや新聞広告の影響がインターネット上にどの程度現れているかについてを有効に分析することができる。例えば、Ｄ社が新規に販売を開始する携帯電話があるとする。キーワードにその携帯電話を入力し、検索期間をテレビコマーシャルや新聞広告を開始した日以降に設定する。これにより、まず、予測分析型検索エンジンが、キーワードに基づき、Ｄ社の携帯電話の情報が掲載されたコンテンツを検索し、コンテンツデータ蓄積手段に蓄積していく。そして、始点及び終点データを入力することにより、コンテンツデータ蓄積手段を含む記憶部にアクセスし、テレビコマーシャルや新聞広告を開始する以前の情報と、それ以降の情報とを比較することが可能となる。つまり、テレビコマーシャルや新聞広告を行うことによって、該当する商品の注目度がどの程度変化したのかを調べることができる。なお、分析する対象は商品に限定されることはない。

なお、始点および終点データ入力手段は、予測分析型検索エンジンにおいて、キーワード入力手段を用いてキーワードを入力する際に同時に設定することもできる。この場合、キーワードを入力した後、自動的に「検索期間を設定しますか？」と表示し、ユーザにＹｅｓまたはＮｏで選択させ、「Ｙｅｓ」を選択した場合に設定させることになる。

（出力手段）
出力手段は、上記始点及び終点データ入力手段により入力された始点及び終点データに基づき抽出された情報を加工し、所定様式で出力する。ここで、出力とはウェブブラウザに表示することも含まれるが、本実施形態ではグラフまたは表として出力することを採用している。図７に示すように、縦軸に得点を、横軸に日付を並べて出力する方法や、図８に示すように、図７のグラフを表にして出力する方法や、図９に示すように、キーワードに対し、ヒットした件数をサイト別に表にして出力する方法などがある。以下にこれらの詳細を説明する。

図７のグラフは、入力されたキーワードを、ある液晶モニタを製作しているＥ社の「ワイド液晶モニタＱ」とし、始点および終点データを２００２年１月１日から同年１２月３１日に設定する。出力されたグラフにはキーワード（関連キーワード）として設定した、きれい、広視野、安い、などのユーザにとってのポジティブワードと、見にくい、重い、高い、などのネガティブワードとのそれぞれのキーワードの累積点がグラフ化されて表示される。なお、このグラフには、ハイパーリンクが設定されており、グラフをマウス等でクリックすると、情報元となる製作者のウェブサイトへ移動することができる。

また、図８に示すように上記のグラフを数値化し、日付ごとにキーワードの得点を累積した表として出力することもできる。なお、図８の表は、図７のグラフと併用して出力することも可能である。

また、図９に示したものは、キーワード（メインキーワード）、キーワードに関連する用語（関連キーワード）、コンテンツの情報元となるウェブサイト名、該当する件数を表示している。この表では、抽出された情報を、キーワードの重要語順で並べたり、ポジティブワード、ネガティブワードのみと関連付けて並べたりすることができる。

件数の表示部分にはハイパーリンクが設定されており、「件数」の表示にポインタを合わせてクリックすると、キーワードの情報元となるウェブサイトに移動する。この表は、上記の図７と併用して出力することも可能であり、例えば、ユーザがポジティブワードのみを表示した場合、それに応じてグラフも変更される。

通常、検索エンジンを使用すると、膨大なウェブサイトから目的の情報を個々に調査していくなどの手間が掛かる。しかし、本システムの出力手段によれば、予測分析型検索エンジンが、データベースに記録されたＵＲＬに基づき、その重要度に応じて順序つけられて巡回し、検索している。従って、予測分析型検索エンジンにより収集し蓄積された有益な情報を、始点及び終点データを入力することにより、無駄なく短時間で、様々な形態で表示させることができる。また、本実施形態によれば、コンテンツデータ蓄積手段により、予測分析型検索エンジンにより収集した情報が蓄積されているため、ウェブサイトが削除あるいは消滅した場合でも掲載されていたデータの閲覧が可能となる。

次に、本発明の作用を図１に基づき説明する。まず、ユーザは検索結果分析出力装置のサービスが行われるウェブサイトにウェブブラウザを用いてアクセスする。表示されたウェブサイトの検索スペースに、ユーザが所望するキーワードおよび検索期間を入力する（キーワード入力手段）。予測分析型検索エンジンは、キーワードを受信すると、そのキーワードに応じて、インターネット上からキーワードに適合するコンテンツおよびＵＲＬを、コンテンツ評価手段が得点化して収集する。また、キーワード得点化手段がユーザの嗜好を分析し、次の検索のシーズとなる新たなキーワードの自動作成、そのキーワードの重要度の得点化を行う（得点化機能）。さらに、ＵＲＬ収集部が、検索した結果およびユーザの嗜好の分析によって、ユーザが希望するコンテンツが現れるであろうと予測できるＵＲＬを収集する。

そして、始点および終点データ入力手段によって、ユーザが所望する検索期間を設定する。その検索期間、キーワードおよび得点化されたコンテンツに基づいて、蓄積されたデータを検索する。検索されたデータは、出力手段が加工処理し、所望のグラフおよび表として出力する。ユーザは、表示されたグラフまたは表に対し、所望するキーワードや検索期間を変更して再表示することができる。また、グラフや表をマウス等でクリックすると、該当ページへと移動して情報元のデータを閲覧できる。

一方、コンテンツデータ蓄積手段が、データの蓄積作業を行い、検索日時データと共にキャッシュとしてコンテンツデータベースに蓄積する。これにより、該当するウェブサイトが既に削除あるいは消滅していた場合、データベース内に保存されたキャッシュが参照されてウェブブラウザ等に表示される。

したがって、過去や現在などの時間的な動向に左右されず、ユーザが所望する情報を的確に収集することができる。また、検索におけるユーザの操作を簡略化することで、所望する情報を種々の様式で簡単に閲覧可能となる。

本発明の実施形態の概念図である。連想配列の構造を示す図である。ページ取得部の概念を示した図である。ＨＴＭＬの解析手段の概念を示した図である。ページ内容解析の機能を概念的に示した図である。本実施形態による得点およびユーザの評価選択が可能な画面表示を示した図である。キーワードおよび日付別にグラフとして出力した図である。キーワードおよび日付別に表として出力した図である。キーワードおよびサイト別に表として出力した図である。

Claims

キーワードに基づきインターネット上から所定のコンテンツを検索し、前記キーワードと当該コンテンツとの関連性を評価するコンテンツ評価手段と、
所望する検索期間の始点および終点データの入力を行わせる始点および終点データ入力手段と、
前記コンテンツ評価手段により評価されたコンテンツについて、前記始点および終点データを用いて加工し、所定様式にて出力する出力手段とを備えたことを特徴とする検索結果分析出力装置。
前記コンテンツ評価手段は、キーワードによってインターネット上から所定のコンテンツを検索し、そのコンテンツ中におけるテキストデータを前記キーワードに応じて当該コンテンツを得点化するコンテンツ得点化手段を備えることを特徴とする請求項１記載の検索結果分析出力装置。
前記コンテンツ評価手段は、さらに、前記コンテンツ得点化手段によって得点化されたコンテンツと前記キーワードとを対比して、キーワードの重要度を得点化するキーワード得点化手段を備えることを特徴とする請求項２記載の検索結果分析出力装置。
検索結果のコンテンツを所定期間毎に検索日時データとともに蓄積することにコンテンツデータ蓄積手段を備えることを特徴とする請求項１記載の検索結果分析出力装置。
キーワードに基づきインターネット上から所定のコンテンツを検索し、前記キーワードと当該コンテンツとの関連性を評価するコンテンツ評価手順と、
所望する検索期間の始点および終点データの入力を行わせる始点および終点データ入力手順と、
前記コンテンツ評価手順により評価されたコンテンツについて、前記始点および終点データを用いて加工し、所定様式にて出力する出力手順とを備えたことを特徴とする検索結果分析出力方法。
検索結果分析出力方法をコンピュータに実現させるためのコンピュータプログラムであって、
そのプログラムは、キーワードに基づきインターネット上から所定のコンテンツを検索し、前記キーワードと当該コンテンツとの関連性を評価するコンテンツ評価手順と、
前記コンテンツ評価手順により評価されたコンテンツについて、所望する検索期間の始点および終点データを用いて加工し、所定様式にて出力する出力手順とをコンピュータに実行させるためのコンピュータプログラム。
前記コンテンツ評価手順は、キーワードによってインターネット上から所定のコンテンツを検索し、そのコンテンツ中におけるテキストデータを前記キーワードに応じて当該コンテンツを得点化するコンテンツ得点化手順を備えることを特徴とする請求項６記載のコンピュータプログラム。
前記コンテンツ評価手順は、さらに、前記コンテンツ得点化手順によって得点化されたコンテンツと前記キーワードとを対比して、キーワードの重要度を得点化するキーワード得点化手順を備えることを特徴とする請求項７記載のコンピュータプログラム。