JP4417497B2 - Information retrieval apparatus and storage medium storing program - Google Patents

Information retrieval apparatus and storage medium storing program Download PDF

Info

Publication number
JP4417497B2
JP4417497B2 JP33460099A JP33460099A JP4417497B2 JP 4417497 B2 JP4417497 B2 JP 4417497B2 JP 33460099 A JP33460099 A JP 33460099A JP 33460099 A JP33460099 A JP 33460099A JP 4417497 B2 JP4417497 B2 JP 4417497B2
Authority
JP
Japan
Prior art keywords
electronic information
page
information
similarity
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33460099A
Other languages
Japanese (ja)
Other versions
JP2001155021A (en
Inventor
宏康 野上
勉 河田
節 鈴岡
明子 奥村
一男 住田
Original Assignee
株式会社ニューズウォッチ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ニューズウォッチ filed Critical 株式会社ニューズウォッチ
Priority to JP33460099A priority Critical patent/JP4417497B2/en
Publication of JP2001155021A publication Critical patent/JP2001155021A/en
Application granted granted Critical
Publication of JP4417497B2 publication Critical patent/JP4417497B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、膨大な量の電子情報からユーザが指定したテーマに関する電子情報を検索して該当ユーザに提供する情報検索技術に係わり、特に当該テーマに対する批評が記述された電子情報を検索する情報検索装置及びプログラムを記憶した記憶媒体に関する。
【0002】
【従来の技術】
近年、ワードプロセッサーや電子計算機の普及、インターネットなどの計算機ネットワークを介したWebページ、電予メール、電予ニュースの普及に伴い、文書の電子化が加速的に進みつつある。電予出版という言葉が示すように、今後は新聞、雑誌や本の情報も電子的に提供されることが一般的になると考えられる。
【0003】
これにより、個人にとってリアルタイムで入手可能となる前述したWebページ、電予メール、電予ニュースや電予出版物等の電子情報の量は膨大になっていくと予測される。これに伴い、Webページ、新聞、雑誌などの膨大な電子情報からユーザの要求・興味にあったものを選出してユーザに提供する検索サービス、また検索した結果を定期的にユーザに提供する情報フィルタリングサービスなどの霞要が高まりつつある。以降、本明細書では、情報検索という用語は、情報フィルタも含んだ意味で使用する。
【0004】
これまで、テキスト記事を対象とした情報フィルタリングシステムがすでに開発されており、そのシステムを用いたサービスを提供している例がある(特開平11―53392号公報)。
【0005】
このシステムでは、当日発生した記事の配信を複数のニュースソースから受け、予めユーザが指定した検索条件に適合するテキスト記事のみを利用者に送信するものである。この検索条件とは、ユーザがある特定のテーマに対して記述した電子情報を得たいと希望した場合、このテーマをキーワードとして、各電子情報を検索するための検索条件である。
【0006】
そして、検索条件と配信された電子情報との間で、その検索条件に対してどのくらい適合しているかを示す類似度を算出する。具体的には、類似度は例えば前述したテーマの発生回数や発生の重要度を示す。そして、類似度を求め、類似度の高い電子情報の順にソートし、類似度の高い電子情報のみをユーザに提供する。
【0007】
【発明が解決しようとする課題】
しかしながら、上述したシステムにおいてもまだ解消すべき次のような課題があった。
【0008】
すなわち、上述したように、上述したシステムにおいては、ユーザが指定したテーマに関連する電子情報を該当ユーザに提供することが可能である。しかし、そのテーマに関する評価や批判等の批評に関して記述した電子情報のみを抽出してユーザに提供することはできなかった。
【0009】
本発明はこのような事情に鑑みてなされたものであり、ユーザが指定したテーマに関する情報が記載された電子情報の中から該当テーマに対する批評が記載された電子情報のみを確実に検索できる情報検索装置及びプログラムを記憶した記憶媒体を提供することを目的とする。
【0010】
さらに、該当テーマに対する批評が記載された電子情報を参照すべきと記載した電子情報をも検索することにより、該当テーマに対する世間の批評をより正確に定量的に把握できる情報検索装置及びプログラムを記憶した記憶媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために、本発明は、収集した多数の電子情報の中から指定された評価対象のテーマに関係する情報が記載された複数の電子情報を検索して、検索結果を表示出力する情報検索装置において、
収集した多数の電子情報のうち批評表現が記載された1つ以上の電子情報を抽出する電子情報抽出手段と、この電子情報抽出手段で抽出された批評表現が記載された各電子情報のテーマに対する類似度を、当該電子情報における当該テーマの記載頻度に基づいて算出する類似度算出手段と、収集した多数の電子情報毎に当該電子情報内で引用された参照電子情報を記憶する参照電子情報データベースを作成する参照電子情報データベース作成手段と、類似度算出手段で高い類似度が算出された電子情報を参照すべきと記載した内容を有する参照電子情報を参照電子情報データベースから検索する参照電子情報検索手段と、類似度算出手段で高い類似度が算出された電子情報の内容を抽出する内容抽出手段と、テーマ、当該テーマに対する類似度が高い各電子情報の内容、及び当該各電子情報毎に設けられた参照リンクを表示する第1の検索結果表示手段と、参照リンクのリンク操作に応じて、当該参照リンクを付された電子情報を参照すべきと記載した参照電子情報を表示する第2の検索結果表示手段とを備えている。
【0012】
このように構成された情報検索装置においては、収集した多数の電子情報の中から批評表現を含む電子情報が抽出されて、この抽出された各電子情報の中から、例えばこの装置のユーザが指定するテーマに対する類似度が高い電子情報が該当テーマと共に編集されて出力される。
【0013】
したがって、この装置のユーザとしては、自己が指定したテーマに対する批評及び該当批評を載せた電子情報の名称やアドレスを確実に把握できる。
また、類似度が高い電子情報を参照すべきと記載した内容を有する参照電子情報を検索する参照電子情報検索手段を付加している。
すなわち、電子情報の記述内容には参照すべき電子情報の名称又はアドレスが記載されていることがしばしばある。このように、自己以外の他の電子情報に参照すべきと記載された電子情報はより多くの注目が注がれることになる。
例えば、販売開始した新商品の反響を評価する場合、該当新商品(テーマ)を直接批評した電子情報の他に、「この新商品の批評がxxxの電子情報に載っているよ」と記載した電子情報が存在する。
したがって、このテーマを批評する電子情報を参照すべきと記述した電子情報、すなわち参照電子情報の名称又はアドレスやその参照電子情報数を把握することはユーザが指定するテーマに対する世間の反響を高い精度で得る上で重要なことである。
【0014】
また、別の発明は、上述した発明の情報検索装置に対して、さらに、テーマ、当該テーマに対する類似度が高い各電子情報の内容、及び当該各電子情報を参照すべきと記載した参照電子情報の数を表示する第3の検索結果出力手段を備えている。
【0016】
したがって、ユーザが指定したテーマに対する批評が記載されている電子情報をより効率的に検索できる。
【0032】
また、別の発明は、収集した多数の電子情報の中から指定された評価対象のテーマに関係する情報が記載された複数の電子情報を検索して、検索結果を表示出力する情報検索装置に組み込まれたプログラムを記憶する記憶媒体であって、プログラムはコンピュータに対して、収集した多数の電子情報のうち批評表現が記載された1つ以上の電子情報を抽出する電子情報抽出ステップと、この電子情報抽出ステップで抽出された批評表現が記載された各電子情報の前記テーマに対する類似度を、当該電子情報における当該テーマの記載頻度に基づいて算出する類似度算出ステップと、収集した多数の電子情報毎、当該電子情報内で引用された参照電子情報を記憶する参照電子情報データベースを作成する参照電子情報データベース作成ステップと、類似度算出ステップで高い類似度が算出された電子情報を参照すべきと記載した内容を有する参照電子情報を参照電子情報データベースから検索する参照電子情報検索ステップと、類似度算出ステップで高い類似度が算出された電子情報の内容を抽出する内容抽出ステップと、テーマ、当該テーマに対する類似度が高い各電子情報の内容、及び当該各電子情報毎に設けられた参照リンクを表示する第1の検索結果表示ステップと、参照リンクのリンク操作に応じて、当該参照リンクを付された電子情報を参照すべきと記載した参照電子情報を表示する第2の検索結果表示ステップとを実現させる。
【0035】
このように構成されたプログラムを記憶した記憶媒体を用いることによって、例えば、汎用のパーソナルコンピユータを簡単に上述した機能を有した情報検索装置とすることが可能である。
【0036】
【発明の実施の形態】
以下、本発明の各実施形態を図面を用いて説明する。
(第1実施形態)
図1は本発明の第1実施形態に係る情報検索装置のハード構成図であり、図2は同第1実施形態の情報検索装置のソフト構成図である。
【0037】
図1に示すように、この第1実施形態の情報検索装置は、オペレーティングシステム(OS)やユーティリティを含む各種アプリケーションプログラム(検索処埋を行なう各種プログラムもこれらに含まれる)を実行制御するCPUIと、このCPUIに対して、システムバス2を介して接続された、アプリケーシヨンプログラムや各種データを格納する記億装置3、通信ネットワーク4を介して多数のWebサイト(Webサーバ)から各種電子情報(Webページ)を読込むための回線入出力装置5からなる。
【0038】
図2に示す第1実施形態の情報検索装置のソフト構成図において、各部の動作を制御する制御部11に対して、通信ネットワーク4を介して多数のWebサイト(Webサーバ)から各種電子情報(Webページ)を取込む情報取得部12、書式解析部13、批評表現辞書14を有する電子情報抽出手段としての批評表現抽出部15、検索対象テーマメモリ16に記憶されたテーマの検索式17を用いて各電子情報(Webページ)の類似度を算出する類似度算出部18、検索結果編集部19、編集された検索結果を例えばユーザに送信したり、表示器に表示出力する出力部20が接続されている。
【0039】
次に各部12〜20の動作を説明する。
【0040】
情報取得部12は、自己に内蔵したホームページ検索ソフトに従って無作為に又は一定の方式に従って、通信ネットワーク4を介して各Webサイト(Webサーバ)から電子情報としてのHTML形式の文書が記載されたページ(Webページ)を順次取込んで制御部11へ送出する。
【0041】
書式解析部13は、ページにおけるHTML形式の文書のデータに付与されている各タグに基づいて、該当ページの情報を通常の内部構造の文書に変換する。HTMLは、SGMLのサブセットであり、一般に、開始タグと終了タグによって論理的な構造を規定している。
【0042】
例えば、HTMLでは、開始タグ<TITLE>と終了タグ</TITLE>とに囲まれた部分が夕イトルであり、また、開始タグ<UL>と終了タグ</UL>とに囲まれた部分が箇条書きと定義されている。また、段落を規定する<P>や、箇条書きの各項目を表現する<LI>のように、終了タグを省略してよいタグも存在する。これらのタグについては、同じ開始タグが出現した時点で終了タグが存在したものと見なされる。
【0043】
書式解析部13では、入力されたページの文字列をスキャンしてHTMLの開始タグを検出する。そして、その開始夕グに対応する終了タグを検出することにより、各タグに対応する情報を取り出す。
【0044】
電子情報抽出手段としての批評表現抽出部15の処理は批評表現辞書14を使用する。批評表現辞書14内には、図3に示すように、批判や評価等の多数の批評表現(ワード)が登録されている。
【0045】
批評表現抽出部13の処理手順を図4の流れ図を用いて説明する。
制御部11から1つのページが入力すると(ステップA1)、該当ページを批評表現辞書14に登録されている各表現(ワード)で検索する(A2)。そして、批評表現の有無を判定する(A3)。その有無判定結果を制御部11へ返信する。
【0046】
次に、類似度算出部18の処理を説明する。検索対象テーマメモリ16内には、この情報検索装置のユーザや検索依頼者が指定する消費者や世間の批評を調査する対象となる各テーマが記憶されている。例えば、このテーマとして、業界名、商品ジャンル名、商品名、サービス名、会社名、社長名、役員名等がある。
【0047】
そして、この検索対象テーマメモリ16内からユーザが指定した1個または複数のテーマをそれぞれ各検索式17に組込む。
【0048】
そして、類似度算出部18においては、制御部11から入力された各ページに対して各検索式17のテーマの発生数や発生の重要度を示す類似度を算出して制御部11へ返信する。具体的には、例えば検索式17に格納されたテーマを含む検索条件と処理対象となるページとをそれぞれ単語頻度のベクトルとして表現し、これらベクトル間の内積をとることによって類似度を求めるといった従来公知の算出方法を流用する。
【0049】
次に、検索結果編集部19の編集処理動作を図5の流れ図を参照して説明する。
制御部11から類似度が付された各ページが入力されると、この各ページを類似度順にソートする(B1)。次に、このソーティング結果の順に、各ページの見出しを箇条書きの形式で編集する(B2)。さらに、ページの地の文(本文)から要約を生成して編集する(B3).要約の生成としては、例えば、ページの前方から数文を取り出すといった簡単な処理でもよい。最後に、編集結果を制御部11へ返信する(B4)。
【0050】
出力部20は、制御部11からの指示に従って編集済みの検索結果を例えばユーザにメールで送信したり、表示器に表示出力する。図6及び図7は、表示器に表示出力された検索結果を示す図である。図6は検索結果の目次画面であり、この目次画面に表示された「A社」、「OO製品」、「ΔΔサービス」等のテーマをマウスで選択すると、図7に示す検索結果が表示される。
【0051】
なお、図7においては、「ノートパソコンNI」のテーマ21を選択した例を示す。図示するように、テーマ21と、検索された各ページの見出し22と、ページを特定するアドレス23と、本文の要約24が表示される。
【0052】
なお、本実施形態では、表示器の表示画面に対してHTMLブラウザで表示することを想定しているため、HTML形式で検索結果を出力している。これは、検索処理で検索された文書のオリジナルをアクセスする場合に、その文書形式との統一性を図るためである。したがって、必ずしもHTMLブラウザに限定するものでなく、特殊なブラウザで取込める形式のデータに変換するように変形することはごく容易である。
【0053】
次に、上述した各部12〜20を制御する制御部11の処理動作を図8の流れ図を用いて説明する。
先ず、情報取得部12へアクセスして(C1)、情報取得部12から1つの電子情報としてのページ(Webページ)が入力されると(C2)、このページ(Webページ)を書式解析部13へ送出して通常の文書のページに変換した後(C3)、批評表現抽出部15へ送出する(C4)。該当ページに批評表現が存在しなければ(C5)、このページを破棄して、C1に戻り、次のページの取得を開始する。
【0054】
該当ページに批評表現が存在すれば(C5)、このページを類似度算出部18へ送出して(C6)、類似度を得る。そして、該当ページと類似度とを記憶保持する(C7)。
【0055】
C2において、取得対象の全部のページに対する批評表現無判定処理、及び批評表現が含まれるページの類似度算出処理が終了すると、記憶した全てのページと類似度とを検索結果編集部19へ送出する(C8)。そして、その編集された検索結果を出力部20へ送出する(C9)。
【0056】
このように構成された第1実施形態の情報検索装置においては、情報取得部12で取得された各ページのうちその内容に批評表現を含むページのみが批評表現抽出部15で抽出される。そして、この抽出された各ページの中から、類似度算出部18において、例えばこの情報検索装置のユーザや調査依頼者が指定する業界名、商品ジャンル名、商品名、サービス名、会社名、社長名、役員名等のテーマの発生数や発生の重要度を示す類似度が算出される。
【0057】
そして、検索結果編集部19にて、高い類似度のページが該当テーマと共に編集されて出力部20にて例えば図6、図7に示すように出力される。
【0058】
したがって、この情報検索装置のユーザや調査依頼者は、自己が指定したテーマに対する批評及び該当批評を載せたページの名称やアドレスを確実に把握できる。
【0059】
(第2実施形態)
図9は本発明の第2実施形態に係わる情報検索装置の概略構成を示すブロック図である。図2に示す第1実施形態の情報検索装置と同一部分には同一符号を付して重複する部分の詳細説明を省略する。
この第2実施形態の情報検索装置においては、第1実施形態の情報検索装置の情報取得部12を図示する新たな情報取得部12aに置き換えている。その他の構成は第1実施形態の情報検索装置とほぼ同一である。
【0060】
この第2実施形態の情報検索装置における情報取得部12a内には、通信ネットワーク4を介して指定された各Webサイトからページ(Webページ)を取得するページアクセス部25、監視ページリスト26、更新判定部27、及び前回ページメモリ28が設けられている。
【0061】
監視ページリスト26内には、図10に示すように、検索対象テーマメモリ16内に記憶された各テーマに対して比較的頻繁に批評を載せるページの各アドレス(Webサイト)が記憶されている。例えば、BBSサイト、チャットサイト、特定の個人ホームページサイト、フォームサイト等がある。また、ネットワークニュース(USENET)、メールマガジン、フォーラムなどがある。
【0062】
前回ページメモリ28内には、監視ページリスト26に記憶された各アドレスの1回分のページの内容(テキストデータ)が記憶されている。更新判定部27は、今回の周期で取得したページの内容が前回の周期で取得したページの内容と異なったか否かを判定する。
【0063】
このような構成の情報取得部12aは、例えば1日24時間等の一定周期毎に、図11の流れ図に従ってページの取得処理を実施する。又は、検索処理を実行する直前に取得することも可能である、
監視ページリスト26に未アクセスのアドレスがあれば(D1)、この監視ページリスト26から未アクセスのアドレスのホームページをアクセスして、該当ページを取得する(D2)。そして、この取得した今回ページの内容と前回ページメモリ28に記憶されている1周期前の同一アドレスの前回ページの内容とを比較する(D3)。前回ページの内容に対して更新されていれば(D4)、今回のページを制御部11へ送信する(D5)、そして、前回ページメモリ28の前回ページの内容を今回ページの内容に更新する(D6)。そして、D1へ戻り、監視ページリスト26における未アクセスのアドレスに対するアクセスを開始する。
また、D4にて、更新されていなければ、なにもせずに、D1へ戻り、監視ページリスト26における未アクセスのアドレスに対するアクセスを開始する。
【0064】
そして、D1にて、監視ページリスト26に未アクセスのアドレスがなくなると、今回の周期に対する全アクセスが終了したことを制御部11へ返信する(D7)。
【0065】
このように、情報取得部12aは、監視ページリスト26に登録された各アドレスを一定周期でアクセスして、変更(更新)のあったページのみを制御部11へ送信している。
【0066】
また、制御部11の処理動作を図12の流れ図を用いて説明する。
先ず、情報取得部12aへ起動指令を送出する(E1)、情報取得部12aから1つのページが入力されると(E2)、このページを書式解析部13へ送出して通常の文書のページに変換した後(E3)、批評表現抽出部15へ送出する(E4)。該当ページに批評表現が存在しなければ(E5)、このページを破棄して、E2へ戻り、次のページの入力を待つ。
【0067】
該当ページに批評表現が存在すれば(E5)、このページを類似度算出部18へ送出して(E6)、類似度を得る。そして、該当ページと類似度とを記憶保持する(E7)。
【0068】
E8において、情報取得部12aから今回の周期におけるページのアクセス終了通知が入力すると、記憶した全てのページと類似度とを検索結果編集部19へ送出する(E9)。そして、その編集された検索結果を出力部20へ送出する(E10)。
【0069】
このように構成された第2実施形態の情報検索装置においては、ユーザが指定した各テーマに対して頻繁に批評を行うWebサイト(ホームページ)のアドレスが予め選択されており、この選択された複数のページの内容が周期的に読取られ、内容が更新されたページに対してのみ、批評表現抽出処理及び類似度算出処理が実施される。
したがって、ユーザが指定したテーマに対する批評が記載されているページをより効率的に検索できる。また、監視することが可能となる。
【0070】
(第3実施形態)
図13は本発明の第3実施形態に係わる情報検索装置の概略構成を示すブロック図である。図9に示す第2実施形態の情報検索装置と同一部分には同一符号を付して重複する部分の詳細説明を省略する。
【0071】
この第3実施形態の情報検索装置においては、第2実施形態の情報検索装置の検索結果編集部19を図示する新たな検索結果編集部19aに置き換え、さらに、検索結果編集部19aに参照ページ(参照電子情報)検索部29が接続され、参照ページデータベース30及び参照ページデータベース作成部31が設けられている。その他の構成は図9に示す第2実施形態の情報検索装置とほぼ同一である。
【0072】
参照ページデータベース30内には、図14に示すように、例えば、情報取得部12aにて取得した各ページを特定するアドレスと、該当アドレスのページの本文内に参照すべきと記載(引用)されたアドレスとが記憶されている。図15は、1つのページ内における「ページのアドレス」と「ページ内で引用されたアドレス」との関係を示す図である。
【0073】
例えば、2番目の「def.ne.jp/def.html」のアドレスを有するページには、「ccc.co.jp/xxx/pc.html」と「abc.ne.jp/~xxx/pcn1.html」との2つのアドレスが記載(引用)されていることを示す。
【0074】
この参照ページデータベース30に対する「ページのアドレス」と「ページ内で引用されたアドレス」の登録は、係員が手作業で実施してもよいが、参照ページデータベース作成部31が自動で登録することも可能である。この場合、参照ページデータベース作成部31は、図19の流れ図に従って、作成処理を実施する。
【0075】
情報取得部12aにて取得した各ページから1個又は複数の引用アドレスを抽出する(H1)。そして、ページのアドレスと引用アドレスとの関係を参照ページデータベース30へ登録する(H2)。
【0076】
具体的には、図16において、変数「*A*」には「abc.ne.jp/~xxx/pcnl.html」などが、参照ページとして認識されることになる。
【0077】
参照ページ検索部29は、検索結果編集部19aから指定された、テーマに対して類似度が高いページのアドレスを本文中(ページ内)に記載(引用)したページを示す参照ページを、参照ページデータベース30を用いて検索する。したがって、参照ページデータベース30における「ページのアドレス」が参照ページとなる。
【0078】
そして、検索結果編集部19aは図17の流れ図に従って制御部11から入力された各ページに対する編集処理を実施する。
【0079】
制御部11から類似度が付された各ページが入力されると、この各ページを類似度順にソートする(F1)。次に、このソーティング結果の順に、各ページの見出しを箇条書きの形式で編集する(F2)。次に、各ページ毎に、該当ページのアドレスを本文中に引用する他のページ、すなわち参照ページを検索するための図20、図21に示す参照ページボタン32を付加する。
【0080】
次に、参照ページ検索部29に対して、入力された各ページに対する参照ページの検索指令を送出して、各ページに対する参照ページの各アドレス(参照アドレス)を得る(F4)。このアドレスに基づいて、参照ページ検索画面を作成し(F5)、前記参照ページボタン32からこのページへリンクする。
【0081】
さらに、ページの地の文(本文)から要約を生成して編集する(F6).要約の生成としては、たとえば、ページの前方から数文を取り出すといった簡単な処理でもよい。最後に、各ページの編集結果及び各ページの参照ページ(参照アドレス)の検索結果を制御部11へ返信する(F7)。
【0082】
参照ページ検索部29は、図18に示す流れ図に従って、各ページに対する参照ページの検索処理を実行する。
【0083】
制御部11から入力されたページのアドレスが、図18に示す流れ図に従って、参照ページ検索結果画面を作成する。例えば、入力されたページのアドレスが「http://abc.ne.jp/~xxx/pcnl.html」の場合、「abc.ne.jp/~xxx/pcnl.html」というページを本文中に引用(記載)しているページ(参照ページ)を検索する(G1)。「abc.ne.jp/~xxx/pcnl.html」は、参照ページデータベース30内の2番目の右欄に記載されているので、2番目の左欄に記載されているページのアドレスである「def.ne.jp/def.html」が参照ページのアドレスとなる。
【0084】
参照ページのアドレスが検索されると(G2)、この参照ページのアドレスを検索結果編集部19aへ返信する(G3)。参照ページのアドレスが検索されないと(G3)、参照ページ無しを検索結果編集部19aへ返信する(G4)。
【0085】
出力部20は、制御部11から入力された検索結果編集部19aで編集された各ぺージ及び各ページの参照ページを例えば表示器に表示出力する。
【0086】
上記の説明では、参照ページの検索結果画面に対するアクセスでは、参照ページボタン32からそのページへのリンクとしたが、直接参照ページ検索装置への検索式としてもよい。その例を図23に示す。
【0087】
ここで、検索式、「../cig-bin/kensaku./cig/?kw=abc.ne.jp/~xxx/pcnl.html」は、参照ページ検索装置(kensaku.cgi)に対して、「abc.ne.jp/~xxx/pcnl.html」というページを検索するように指示することを意味している。
【0088】
図20〜図27にその表示出力例を示す。
【0089】
図20の例においては、1,2,3の各ページが類似度順に配列されているが、各ページは、見出し22と、アドレス23と、要約24と、参照ページボタン32とが表示される。図21の例においては、図20の例に対して参照ページボタン32の位置が異なるのみである。
【0090】
図22の例においては、図20、図21における類似度が最も高い1番のページの参照ページボタン32をクリックした場合における該当ページを本文中に参照すべきと引用されたページ(参照ページ)の一覧を示す。
【0091】
図23は、図20をHTML形式で記載した例である。さらに、図24は、参照ページ数を表示した例である。また、図25は、各ページを参照ページ数順に並べ替えた例である。
【0092】
図26は、各ページにおける参照ページ数が前回の周期に比較して増加したか減少したかを示した例である。さらに、図27は、1つのページにおける参照ページ数の時間経緯を示す図である。
【0093】
このように構成された第3実施形態の情報検索装置においては、ユーザが指定したテーマを批評するページを本文中に参照すべきとき記述したページ、すなわち参照ページのアドレスやその参照ページ数が検索される。
【0094】
したがって、ユーザは、自己が指定するテーマに対する世間の批評を高い精度で得ることが可能である。
【0095】
なお、本発明は上述した各実施形態に限定されるものではない。例えば、図13の第3実施形態の情報検索装置において、批評表現抽出部15及び批評表現辞書14を除去することが可能である。また、情報所得部12aに代えて図2に示す第1実施形態の情報検索装置における情報所得部12を採用することが可能である。
【0096】
このように構成された情報検索装置においては、ユーザは、自己が指定したテーマに対して、その批判や評価の批評はともかく、該当テーマにおける世間の注目度を定量的に把握できる。
【0097】
また、上記の例では、Webページについて説明したが、電子メール、ニュース、そのほか種々の電子情報に対しても応用することはもちろん可能である。また、あるページを参照しているページ情報の提供は、今回の実施形態の情報検索装置のように、ページの文書を検索する装置のみに限らない。一定の文書を提供する情報提供装置の場合に関しても、文書格納表現の抽出及びそれから得られた文書格納位置をキーとした参照文書(参照ページ)の検索を行なうことにより、参照文書(参照ページ)を提供することは可能である。
【0098】
また、この発明の手法をサーバ側で実現し、関連情報を付与した文書を電子メールで送付することも可能であるし、ユーザ側のクライアントがHTTPのプロトコルに従って読み出すように実現することも可能である。また、単純のシステムとして実現した場合には、個人のパーソナルコンピュータやワークステーション上などで動作させて、ハイパーテキストを表示するためのブラウザで読み出させることでも実現可能である。
【0099】
なお、各実施形態に説明した各情報検索装置は、記憶媒体に格納したプログラムをコンピュータに読み込ませることで実現させることができる。
【0100】
ここで本発明における記憶媒体としては、磁気ディスク、フロッピーディスク、ハードディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0101】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
【0102】
さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶又は一時記憶した記憶媒体も含まれる。
【0103】
また、記憶媒体は1つに限らず、複数の媒体から本実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何らの構成であってもよい。
【0104】
なお、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【0105】
また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0106】
【発明の効果】
以上説明したように、本発明の情報検索装置及びプログラムを記憶した記憶媒体においては、ユーザが指定したテーマに関する情報が記載されたWebページ等の電子情報の中から該当テーマに対する批評が記載された電子情報のみを確実に検索できる。
【0107】
さらに、該当テーマに対する批評が記載された電子情報を参照すべきと記載した電子情報をも検索している。したがって、該当テーマに対する世間の批評をより正確に定量的に把握できる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係わる情報検索装置のハード構成図
【図2】同第1実施形態に係わる情報検索装置の概略構成を示すブロック図
【図3】同第1実施形態に係わる情報検索装置に組込まれた批評表現辞書の記憶内容を示す図
【図4】同第1実施形態に係わる情報検索装置に組込まれた批評表現抽出部の処理内容を示す流れ図
【図5】同第1実施形態に係わる情報検索装置に組込まれた検出結果編集部の処理内容を示す流れ図
【図6】同第1実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図7】同第1実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図8】同第1実施形態に係わる情報検索装置に組込まれた制御部の処理内容を示す流れ図
【図9】本発明の第2実施形態に係わる情報検索装置の概略構成を示すブロック図
【図10】同第2実施形態に係わる情報検索装置に組込まれた監視ページリストの記憶内容を示す図
【図11】同第2実施形態に係わる情報検索装置に組込まれた情報取得部の処理内容を示す流れ図
【図12】同第2実施形態に係わる情報検索装置に組込まれた制御部の処理内容を示す流れ図
【図13】本発明の第3実施形態に係わる情報検索装置の概略構成を示すブロック図
【図14】同第3実施形態に係わる情報検索装置に組込まれた参照ページデータベースの記憶内容を示す図
【図15】ページのアドレスとページ内で引用されたアドレスとの関係を説明するための図
【図16】ページ参照表現パターンと参照ページとの関係を示す図
【図17】同第3実施形態に係わる情報検索装置に組込まれた検索結果編集部の処理内容を示す流れ図
【図18】同第3実施形態に係わる情報検索装置に組込まれた参照ページ検索部の処理内容を示す流れ図
【図19】同第3実施形態に係わる情報検索装置に組込まれた参照ページデータベース作成部の処理内容を示す流れ図
【図20】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図21】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図22】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図23】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図24】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図25】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図26】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【図27】同第3実施形態に係わる情報検索装置に組込まれた出力部にて出力された検索結果を示す図
【符号の説明】
11…制御部
12,12a…情報取得部
13…書式解析部
14…批評表現辞書
15…批評表現抽出部
16…検索対象テーマメモリ
17…検索式
18…類似度算出部
19,19a…検索結果編集部
20…出力部
21…テーマ
25…ページアクセス部
26…監視ページリスト
27…更新判定部
28…前回ページメモリ
29…参照ページ検索部
30…参照ページデータベース
31…参照ページデータベース作成部
32…参照ページボタン
[0001]
BACKGROUND OF THE INVENTION
  The present invention relates to an information retrieval technique for retrieving electronic information related to a theme designated by a user from a vast amount of electronic information and providing the information to a corresponding user, and in particular, information retrieval for retrieving electronic information in which a critique of the theme is described. apparatusas well asThe present invention relates to a storage medium storing a program.
[0002]
[Prior art]
In recent years, with the spread of word processors and computers, and the spread of Web pages, e-mails and e-news via computer networks such as the Internet, the digitization of documents is accelerating. As the term “Denyo Publishing” suggests, it will be common to provide information on newspapers, magazines and books electronically in the future.
[0003]
As a result, it is predicted that the amount of electronic information such as the above-described Web pages, electronic mail, electronic news, electronic publications, and the like that can be obtained in real time for individuals will be enormous. Along with this, a search service that provides users with a selection of items that meet the user's request / interest from a vast amount of electronic information such as web pages, newspapers, magazines, etc., and information that periodically provides the users with the search results The need for filtering services is increasing. Hereinafter, in this specification, the term “information search” is used to include an information filter.
[0004]
Until now, an information filtering system for text articles has been developed, and there is an example in which a service using the system is provided (Japanese Patent Laid-Open No. 11-53392).
[0005]
In this system, distribution of articles that occurred on the day is received from a plurality of news sources, and only text articles that meet the search conditions specified in advance by the user are transmitted to the user. The search condition is a search condition for searching for each piece of electronic information using the theme as a keyword when the user desires to obtain electronic information described for a specific theme.
[0006]
Then, the degree of similarity indicating how much the search condition and the distributed electronic information are matched with the search condition is calculated. Specifically, the similarity indicates, for example, the number of occurrences of the above-described theme and the importance of the occurrence. Then, the degree of similarity is obtained and sorted in the order of electronic information having a high degree of similarity, and only the electronic information having a high degree of similarity is provided to the user.
[0007]
[Problems to be solved by the invention]
However, the above-described system still has the following problems to be solved.
[0008]
That is, as described above, in the system described above, it is possible to provide electronic information related to the theme designated by the user to the corresponding user. However, it was not possible to extract and provide only the electronic information described regarding the evaluation and criticism of the criticism to the user.
[0009]
  The present invention has been made in view of such circumstances, and is an information search capable of reliably searching only electronic information in which a criticism of the subject is described from electronic information in which information on the theme specified by the user is described. apparatusas well asIt is an object to provide a storage medium storing a program.
[0010]
  In addition, an information retrieval device that can more accurately and quantitatively grasp public criticism of the subject by searching for electronic information that states that the criticism of the subject should be referred to.as well asIt is an object to provide a storage medium storing a program.
[0011]
[Means for Solving the Problems]
  In order to solve the above problems, the present invention provides:In an information search apparatus for searching a plurality of electronic information in which information related to a specified evaluation target theme is described from a large number of collected electronic information and displaying and outputting a search result,
  Many collectedA critical expression of electronic informationOne or more of the listedElectronic information extracting means for extracting electronic information, and each electronic information in which the critical expression extracted by the electronic information extracting means is described.Similarity calculation means for calculating similarity to a theme based on the frequency of description of the theme in the electronic information, and a reference electron that stores reference electronic information cited in the electronic information for each of a large number of collected electronic information Reference electronic information database creating means for creating an information database, and reference electronic information for retrieving reference electronic information from the reference electronic information database having contents describing that electronic information having a high similarity calculated by the similarity calculating means should be referred to Information retrieval means, contents extraction means for extracting contents of electronic information whose similarity is calculated by similarity calculation means, a theme, contents of each electronic information having high similarity to the theme, and each electronic information The first search result display means for displaying the reference link provided in the reference link, and the reference link is attached according to the link operation of the reference link And a second search result display means for displaying the reference electronic information described with reference should be child information.
[0012]
  In the information retrieval apparatus configured as described above,Many collectedElectronic information including a critical expression is extracted from the electronic information, and from the extracted electronic information, for example, electronic information having a high similarity to the theme designated by the user of the device is edited together with the corresponding theme. Is output.
[0013]
  Therefore, the user of this apparatus can surely grasp the name and address of the electronic information carrying the critique of the theme designated by the user and the critique.
  Further, a reference electronic information search means for searching for reference electronic information having a content that it should be referred to electronic information with a high degree of similarity is added.
That is, the description or description of electronic information often includes the name or address of electronic information to be referred to. In this way, more attention is paid to electronic information described as being referred to electronic information other than self.
For example, when evaluating the response of a new product that has started to be sold, in addition to electronic information that directly critiqued the new product (theme), it was stated that “the critique of this new product is in the electronic information of xxx” Electronic information exists.
Therefore, grasping the electronic information describing that the electronic information that criticizes this theme should be referred to, that is, the name or address of the reference electronic information and the number of the reference electronic information, is highly accurate in the public response to the theme specified by the user. It is important to get in.
[0014]
  In another invention, the information retrieval apparatus of the above-described invention further includes a theme, the contents of each electronic information having a high degree of similarity to the theme, and reference electronic information describing that each electronic information should be referred to. There is provided a third search result output means for displaying the number of.
[0016]
Accordingly, it is possible to more efficiently search for electronic information in which a critique of a theme designated by the user is described.
[0032]
  Another invention is:A plurality of pieces of electronic information collected are searched for a plurality of pieces of electronic information in which information related to a designated evaluation target theme is described, and a program incorporated in an information search apparatus that displays and outputs a search result is stored. An electronic information extraction step for extracting one or more pieces of electronic information in which a critical expression is described from a large number of collected electronic information, and a program extracted by the electronic information extraction step. A similarity calculation step for calculating the similarity of each electronic information in which the critical expression is described based on the frequency of description of the theme in the electronic information, and for each of a large number of collected electronic information, A reference electronic information database creation step for creating a reference electronic information database for storing the reference electronic information quoted in step 1, and a similarity calculation step. The reference electronic information search step for searching the reference electronic information database having the content that it should be referred to the electronic information for which the high similarity is calculated in the group from the reference electronic information database, and the similarity calculation step calculates the high similarity. Content extraction step for extracting the content of the electronic information, a first search result display step for displaying the theme, the content of each electronic information having a high degree of similarity to the theme, and the reference link provided for each electronic information And a second search result display step for displaying the reference electronic information indicating that the electronic information to which the reference link is attached should be referred to according to the link operation of the reference link;Is realized.
[0035]
By using the storage medium storing the program configured as described above, for example, a general-purpose personal computer can be simply used as an information search apparatus having the above-described functions.
[0036]
DETAILED DESCRIPTION OF THE INVENTION
  Hereinafter, embodiments of the present invention will be described with reference to the drawings.
    (First embodiment)
  FIG. 1 shows a first embodiment of the present invention.Pertaining toFIG. 2 is a hardware configuration diagram of the information search device, and FIG. 2 is a software configuration diagram of the information search device of the first embodiment.
[0037]
As shown in FIG. 1, the information retrieval apparatus according to the first embodiment includes a CPU I that executes and controls various application programs (including various programs for performing search processing) including an operating system (OS) and utilities. Various electronic information (from a large number of websites (Web servers) via a communication network 4 and a storage device 3 for storing application programs and various data connected to the CPU I via the system bus 2 ( It consists of a line input / output device 5 for reading a (Web page).
[0038]
In the software configuration diagram of the information search apparatus according to the first embodiment shown in FIG. 2, various electronic information (from a large number of websites (Web servers) via a communication network 4 to a control unit 11 that controls the operation of each unit ( Web page) information acquisition unit 12, format analysis unit 13, critical expression extraction unit 15 as electronic information extraction means having critical expression dictionary 14, and theme search formula 17 stored in search target memory 16. The similarity calculation unit 18 that calculates the similarity of each electronic information (Web page), the search result editing unit 19, and an output unit 20 that transmits the edited search result to, for example, a user or displays it on a display device are connected. Has been.
[0039]
Next, the operation of each unit 12 to 20 will be described.
[0040]
The information acquisition unit 12 is a page in which HTML documents as electronic information are described from each Web site (Web server) via the communication network 4 at random or according to a certain method according to the homepage search software built in the information acquisition unit 12 (Web pages) are sequentially fetched and sent to the control unit 11.
[0041]
The format analysis unit 13 converts the information on the corresponding page into a document having a normal internal structure based on each tag attached to the HTML document data in the page. HTML is a subset of SGML, and generally defines a logical structure by a start tag and an end tag.
[0042]
For example, in HTML, a portion surrounded by a start tag <TITLE> and an end tag </ TITLE> is an evening title, and a portion surrounded by a start tag <UL> and an end tag </ UL> It is defined as a bulleted list. There are also tags that can omit the end tag, such as <P> that defines a paragraph and <LI> that represents each item in a bulleted list. For these tags, it is assumed that the end tag was present when the same start tag appeared.
[0043]
The format analysis unit 13 scans the character string of the input page and detects an HTML start tag. And the information corresponding to each tag is taken out by detecting the end tag corresponding to the start evening.
[0044]
A critical expression dictionary 14 is used for processing of the critical expression extracting unit 15 as electronic information extracting means. In the critical expression dictionary 14, as shown in FIG. 3, many critical expressions (words) such as criticism and evaluation are registered.
[0045]
The processing procedure of the critical expression extraction unit 13 will be described with reference to the flowchart of FIG.
When one page is input from the control unit 11 (step A1), the corresponding page is searched with each expression (word) registered in the critical expression dictionary 14 (A2). Then, it is determined whether or not there is a critical expression (A3). The presence / absence determination result is returned to the control unit 11.
[0046]
Next, the process of the similarity calculation unit 18 will be described. The search target theme memory 16 stores each theme that is a target for investigating consumer and public reviews specified by the user or search requester of the information search apparatus. For example, the theme includes an industry name, a product genre name, a product name, a service name, a company name, a president name, an officer name, and the like.
[0047]
Then, one or a plurality of themes specified by the user from the search target theme memory 16 are incorporated in each search expression 17.
[0048]
Then, the similarity calculation unit 18 calculates a similarity indicating the number of occurrences and the importance of the occurrence of each search formula 17 for each page input from the control unit 11, and returns the similarity to the control unit 11. . Specifically, for example, a search condition including a theme stored in the search expression 17 and a page to be processed are each expressed as a vector of word frequencies, and a similarity is obtained by taking an inner product between these vectors. A known calculation method is used.
[0049]
Next, the editing processing operation of the search result editing unit 19 will be described with reference to the flowchart of FIG.
When pages with similarities are input from the control unit 11, the pages are sorted in order of similarity (B1). Next, the headings of each page are edited in the form of bullets in the order of the sorting result (B2). Further, a summary is generated and edited from the text (text) of the page (B3). As the generation of the summary, for example, a simple process of extracting several sentences from the front of the page may be used. Finally, the editing result is returned to the control unit 11 (B4).
[0050]
The output unit 20 transmits the edited search result to the user by e-mail, for example, according to the instruction from the control unit 11, or displays it on the display. 6 and 7 are diagrams showing search results displayed on the display. FIG. 6 is a table of contents of the search results. When a theme such as “Company A”, “OO product”, “ΔΔ service”, etc. displayed on this table of contents is selected with the mouse, the search results shown in FIG. 7 are displayed. The
[0051]
FIG. 7 shows an example in which the theme 21 of “notebook computer NI” is selected. As shown in the figure, a theme 21, a heading 22 of each searched page, an address 23 for specifying the page, and a text summary 24 are displayed.
[0052]
In this embodiment, since it is assumed that the display screen of the display device is displayed on the HTML browser, the search result is output in the HTML format. This is for the purpose of unification with the document format when accessing the original of the document searched in the search process. Therefore, it is not necessarily limited to the HTML browser, and it is very easy to modify the data so that it is converted into data in a format that can be captured by a special browser.
[0053]
Next, the processing operation of the control unit 11 that controls the above-described units 12 to 20 will be described with reference to the flowchart of FIG.
First, the information acquisition unit 12 is accessed (C1), and when a page (Web page) as one piece of electronic information is input from the information acquisition unit 12 (C2), the page (Web page) is converted into a format analysis unit 13. And converted into a normal document page (C3), and then sent to the critical expression extraction unit 15 (C4). If there is no critical expression in the corresponding page (C5), the page is discarded, and the process returns to C1 to start acquiring the next page.
[0054]
If there is a critical expression on the corresponding page (C5), this page is sent to the similarity calculation unit 18 (C6) to obtain the similarity. Then, the corresponding page and the similarity are stored and held (C7).
[0055]
In C2, when the critical expression non-determination process for all pages to be acquired and the similarity calculation process for pages including the critical expression are completed, all stored pages and similarities are sent to the search result editing unit 19. (C8). Then, the edited search result is sent to the output unit 20 (C9).
[0056]
In the information search apparatus according to the first embodiment configured as described above, only the pages whose contents include a critical expression among the pages acquired by the information acquiring unit 12 are extracted by the critical expression extracting unit 15. Then, from the extracted pages, the similarity calculation unit 18 uses, for example, an industry name, a product genre name, a product name, a service name, a company name, a president specified by the user of the information search device or the survey requester. A similarity indicating the number of occurrences of themes such as names and officer names and the importance of the occurrence is calculated.
[0057]
Then, the search result editing unit 19 edits a page with a high degree of similarity together with the corresponding theme, and the output unit 20 outputs the page as shown in FIGS. 6 and 7, for example.
[0058]
Therefore, the user of this information search apparatus and the survey requester can surely grasp the name and address of the page on which the critique of the theme designated by the user and the corresponding critique are placed.
[0059]
(Second Embodiment)
FIG. 9 is a block diagram showing a schematic configuration of an information search apparatus according to the second embodiment of the present invention. The same parts as those of the information search apparatus of the first embodiment shown in FIG. 2 are denoted by the same reference numerals, and detailed description of the overlapping parts is omitted.
In the information search device of the second embodiment, the information acquisition unit 12 of the information search device of the first embodiment is replaced with a new information acquisition unit 12a illustrated. Other configurations are almost the same as those of the information search apparatus of the first embodiment.
[0060]
In the information acquisition unit 12a in the information search apparatus of the second embodiment, a page access unit 25 that acquires a page (Web page) from each Web site specified via the communication network 4, a monitoring page list 26, and an update A determination unit 27 and a previous page memory 28 are provided.
[0061]
In the monitoring page list 26, as shown in FIG. 10, each address (Web site) of a page on which a review is relatively frequently given to each theme stored in the search target theme memory 16 is stored. . For example, there are BBS sites, chat sites, specific personal homepage sites, form sites, and the like. There are also network news (USENET), e-mail magazines, forums and so on.
[0062]
In the previous page memory 28, the contents (text data) of one page of each address stored in the monitoring page list 26 are stored. The update determination unit 27 determines whether the content of the page acquired in the current cycle is different from the content of the page acquired in the previous cycle.
[0063]
The information acquisition unit 12a configured as described above performs page acquisition processing according to the flowchart of FIG. 11 at regular intervals such as 24 hours a day. Alternatively, it can be acquired immediately before executing the search process.
If there is an unaccessed address in the monitoring page list 26 (D1), the home page of the unaccessed address is accessed from the monitoring page list 26 and the corresponding page is acquired (D2). Then, the acquired contents of the current page are compared with the contents of the previous page of the same address one cycle before stored in the previous page memory 28 (D3). If the content of the previous page has been updated (D4), the current page is transmitted to the control unit 11 (D5), and the content of the previous page in the previous page memory 28 is updated to the content of the current page ( D6). Then, the process returns to D1, and access to an unaccessed address in the monitoring page list 26 is started.
If it has not been updated at D4, the process returns to D1 without doing anything, and access to an unaccessed address in the monitoring page list 26 is started.
[0064]
When there is no unaccessed address in the monitoring page list 26 at D1, it returns to the control unit 11 that all accesses for the current cycle have been completed (D7).
[0065]
As described above, the information acquisition unit 12a accesses each address registered in the monitoring page list 26 at a constant period and transmits only the changed (updated) page to the control unit 11.
[0066]
The processing operation of the control unit 11 will be described with reference to the flowchart of FIG.
First, an activation command is sent to the information acquisition unit 12a (E1). When one page is input from the information acquisition unit 12a (E2), this page is sent to the format analysis unit 13 to be a normal document page. After conversion (E3), it is sent to the critical expression extraction unit 15 (E4). If there is no critical expression on the corresponding page (E5), the page is discarded, the process returns to E2, and the next page is awaited.
[0067]
If there is a critical expression on the corresponding page (E5), this page is sent to the similarity calculation unit 18 (E6) to obtain the similarity. Then, the corresponding page and the similarity are stored and held (E7).
[0068]
In E8, when a page access end notification in this cycle is input from the information acquisition unit 12a, all the stored pages and similarities are sent to the search result editing unit 19 (E9). Then, the edited search result is sent to the output unit 20 (E10).
[0069]
In the information search apparatus according to the second embodiment configured as described above, addresses of websites (homepages) that frequently review each theme specified by the user are selected in advance, and the plurality of selected plural addresses are selected. The criticism expression extraction process and the similarity calculation process are performed only on the page whose contents are periodically read and the contents are updated.
Therefore, it is possible to more efficiently search a page on which a critique for a theme designated by the user is described. Moreover, it becomes possible to monitor.
[0070]
(Third embodiment)
FIG. 13 is a block diagram showing a schematic configuration of an information search apparatus according to the third embodiment of the present invention. The same parts as those of the information search apparatus of the second embodiment shown in FIG. 9 are denoted by the same reference numerals, and detailed description of the overlapping parts is omitted.
[0071]
In the information search device of the third embodiment, the search result editing unit 19 of the information search device of the second embodiment is replaced with a new search result editing unit 19a shown in the figure, and the reference page ( A reference electronic information) search unit 29 is connected, and a reference page database 30 and a reference page database creation unit 31 are provided. Other configurations are almost the same as those of the information search apparatus of the second embodiment shown in FIG.
[0072]
In the reference page database 30, as shown in FIG. 14, for example, an address specifying each page acquired by the information acquisition unit 12 a and a description (quotation) that should be referred to in the text of the page of the corresponding address are described. Address is stored. FIG. 15 is a diagram illustrating a relationship between “page address” and “address quoted in a page” in one page.
[0073]
For example, the second page with the address “def.ne.jp/def.html” contains “ccc.co.jp/xxx/pc.html” and “abc.ne.jp/~xxx / pcn1.html ”is indicated (quoted).
[0074]
Registration of the “page address” and “address quoted in the page” with respect to the reference page database 30 may be performed manually by an attendant, or may be automatically registered by the reference page database creation unit 31. Is possible. In this case, the reference page database creation unit 31 performs the creation process according to the flowchart of FIG.
[0075]
One or a plurality of citation addresses are extracted from each page acquired by the information acquisition unit 12a (H1). Then, the relationship between the page address and the quote address is registered in the reference page database 30 (H2).
[0076]
Specifically, in FIG. 16, the variable “* A *” has “abc.ne.jp/~xxx / pcnl.html "is recognized as a reference page.
[0077]
The reference page search unit 29 designates a reference page designated by the search result editing unit 19a as a reference page indicating a page in which the address of a page having a high similarity to the theme is described (quoted) in the text (in the page). Search using the database 30. Therefore, the “page address” in the reference page database 30 is the reference page.
[0078]
Then, the search result editing unit 19a performs an editing process on each page input from the control unit 11 according to the flowchart of FIG.
[0079]
When pages with similarities are input from the control unit 11, the pages are sorted in order of similarity (F1). Next, the headings of each page are edited in the form of bullets in the order of the sorting results (F2). Next, for each page, a reference page button 32 shown in FIGS. 20 and 21 for searching for another page that quotes the address of the corresponding page in the text, that is, a reference page is added.
[0080]
Next, a reference page search command for each input page is sent to the reference page search unit 29 to obtain each address (reference address) of the reference page for each page (F4). Based on this address, a reference page search screen is created (F5), and the page is linked from the reference page button 32.
[0081]
Further, a summary is generated and edited from the text (text) on the page (F6). As a summary generation, for example, a simple process of extracting several sentences from the front of a page may be used. Finally, the editing result of each page and the search result of the reference page (reference address) of each page are returned to the control unit 11 (F7).
[0082]
The reference page search unit 29 executes reference page search processing for each page according to the flowchart shown in FIG.
[0083]
The page address input from the control unit 11 creates a reference page search result screen according to the flowchart shown in FIG. For example, if the address of the entered page is “http://abc.ne.jp/~For "xxx / pcnl.html", "abc.ne.jp/~A page (reference page) in which the page “xxx / pcnl.html” is cited (described) in the text is searched (G1). `` Abc.ne.jp/~Since “xxx / pcnl.html” is described in the second right column in the reference page database 30, “def.ne.jp/def.” is the address of the page described in the second left column. “html” is the address of the reference page.
[0084]
When the address of the reference page is searched (G2), the address of this reference page is returned to the search result editing unit 19a (G3). If the address of the reference page is not searched (G3), “no reference page” is returned to the search result editing unit 19a (G4).
[0085]
The output unit 20 displays and outputs each page and the reference page of each page edited by the search result editing unit 19a input from the control unit 11 on a display, for example.
[0086]
In the above description, the access to the reference page search result screen is a link from the reference page button 32 to the page, but it may be a search expression directly to the reference page search device. An example is shown in FIG.
[0087]
Here, the search expression "../cig-bin/kensaku./cig/?kw=abc.ne.jp/~xxx / pcnl.html ”is the same as“ abc.ne.jp/ ”for the reference page search device (kensaku.cgi).~This means instructing to search the page "xxx / pcnl.html".
[0088]
20 to 27 show examples of display output.
[0089]
In the example of FIG. 20, pages 1, 2, and 3 are arranged in order of similarity, but for each page, a heading 22, an address 23, a summary 24, and a reference page button 32 are displayed. . In the example of FIG. 21, only the position of the reference page button 32 is different from the example of FIG.
[0090]
In the example of FIG. 22, when the reference page button 32 of the first page having the highest degree of similarity in FIGS. 20 and 21 is clicked, a page (reference page) that is referred to in the text to refer to the corresponding page. A list of
[0091]
FIG. 23 is an example in which FIG. 20 is described in the HTML format. Furthermore, FIG. 24 is an example in which the number of reference pages is displayed. FIG. 25 shows an example in which each page is rearranged in the order of the number of reference pages.
[0092]
FIG. 26 is an example showing whether the number of reference pages in each page has increased or decreased compared to the previous cycle. Furthermore, FIG. 27 is a diagram illustrating the time history of the number of reference pages in one page.
[0093]
In the information search apparatus of the third embodiment configured as described above, the page described when the page that reviews the theme specified by the user should be referred to in the text, that is, the address of the reference page and the number of the reference pages are searched. Is done.
[0094]
Therefore, the user can obtain a critique of the public with respect to the theme specified by the user with high accuracy.
[0095]
In addition, this invention is not limited to each embodiment mentioned above. For example, the critical expression extraction unit 15 and the critical expression dictionary 14 can be removed in the information search apparatus of the third embodiment shown in FIG. Moreover, it is possible to employ the information income section 12 in the information search apparatus of the first embodiment shown in FIG. 2 instead of the information income section 12a.
[0096]
In the information search apparatus configured as described above, the user can quantitatively grasp the degree of attention of the public in the subject, regardless of the criticism or evaluation of the theme specified by the user.
[0097]
In the above example, the Web page has been described. However, it is of course possible to apply it to electronic mail, news, and other various electronic information. Also, the provision of page information referring to a certain page is not limited to an apparatus that retrieves a document on a page, such as the information retrieval apparatus of the present embodiment. Even in the case of an information providing apparatus that provides a certain document, a reference document (reference page) is extracted by extracting a document storage expression and searching for a reference document (reference page) using the document storage position obtained therefrom as a key. It is possible to provide
[0098]
In addition, the method of the present invention can be realized on the server side, and a document to which related information is added can be sent by e-mail, or can be realized so that a client on the user side reads it according to the HTTP protocol. is there. Further, when realized as a simple system, it can also be realized by operating on a personal computer or workstation and reading it with a browser for displaying hypertext.
[0099]
Each information search device described in each embodiment can be realized by causing a computer to read a program stored in a storage medium.
[0100]
Here, the storage medium in the present invention can store programs such as a magnetic disk, floppy disk, hard disk, optical disk (CD-ROM, CD-R, DVD, etc.), magneto-optical disk (MO, etc.), semiconductor memory, etc. As long as it is a computer-readable storage medium, the storage format may be any form.
[0101]
In addition, an OS (operating system) operating on the computer based on an instruction of a program installed in the computer from the storage medium, MW (middleware) such as database management software, network software, and the like implement the present embodiment. A part of each process may be executed.
[0102]
Furthermore, the storage medium in the present invention is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN or the Internet is downloaded and stored or temporarily stored.
[0103]
Also, the number of storage media is not limited to one, and the case where the processing in the present embodiment is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.
[0104]
The computer according to the present invention executes each process according to the present embodiment based on a program stored in a storage medium, and includes a single device such as a personal computer or a system in which a plurality of devices are connected to a network. Any configuration may be used.
[0105]
In addition, the computer in the present invention is not limited to a personal computer, but includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program. .
[0106]
【The invention's effect】
  As described above, the information retrieval apparatus of the present inventionas well asIn the storage medium storing the program, it is possible to reliably search only the electronic information in which the criticism of the subject is described from the electronic information such as a Web page in which information on the theme designated by the user is described.
[0107]
In addition, the electronic information indicating that the electronic information describing the criticism of the subject should be referred to is also searched. Therefore, it is possible to more accurately and quantitatively grasp the critique of the public about the subject.
[Brief description of the drawings]
FIG. 1 is a hardware configuration diagram of an information search apparatus according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a schematic configuration of the information search apparatus according to the first embodiment.
FIG. 3 is a view showing stored contents of a critical expression dictionary incorporated in the information search apparatus according to the first embodiment;
FIG. 4 is a flowchart showing processing contents of a critique expression extraction unit incorporated in the information search apparatus according to the first embodiment;
FIG. 5 is a flowchart showing processing contents of a detection result editing unit incorporated in the information search apparatus according to the first embodiment;
FIG. 6 is a view showing a search result output by an output unit incorporated in the information search apparatus according to the first embodiment.
FIG. 7 is a view showing a search result output by an output unit incorporated in the information search apparatus according to the first embodiment.
FIG. 8 is a flowchart showing processing contents of a control unit incorporated in the information search apparatus according to the first embodiment;
FIG. 9 is a block diagram showing a schematic configuration of an information search apparatus according to the second embodiment of the present invention.
FIG. 10 is a view showing the stored contents of a monitoring page list incorporated in the information search apparatus according to the second embodiment.
FIG. 11 is a flowchart showing processing contents of an information acquisition unit incorporated in the information search apparatus according to the second embodiment;
FIG. 12 is a flowchart showing processing contents of a control unit incorporated in the information search apparatus according to the second embodiment;
FIG. 13 is a block diagram showing a schematic configuration of an information search apparatus according to a third embodiment of the present invention.
FIG. 14 is a view showing the stored contents of a reference page database incorporated in the information search apparatus according to the third embodiment.
FIG. 15 is a diagram for explaining a relationship between a page address and an address quoted in the page;
FIG. 16 is a diagram illustrating a relationship between a page reference expression pattern and a reference page.
FIG. 17 is a flowchart showing processing contents of a search result editing unit incorporated in the information search apparatus according to the third embodiment;
FIG. 18 is a flowchart showing processing contents of a reference page search unit incorporated in the information search apparatus according to the third embodiment;
FIG. 19 is a flowchart showing processing contents of a reference page database creation unit incorporated in the information search apparatus according to the third embodiment;
FIG. 20 is a view showing a search result output by an output unit incorporated in the information search apparatus according to the third embodiment.
FIG. 21 is a view showing a search result output by an output unit incorporated in the information search apparatus according to the third embodiment.
FIG. 22 is a view showing a search result output by the output unit incorporated in the information search apparatus according to the third embodiment.
FIG. 23 is a view showing a search result output by the output unit incorporated in the information search apparatus according to the third embodiment.
FIG. 24 is a view showing a search result output by the output unit incorporated in the information search apparatus according to the third embodiment.
FIG. 25 is a view showing a search result output by the output unit incorporated in the information search apparatus according to the third embodiment.
FIG. 26 is a diagram showing a search result output by the output unit incorporated in the information search apparatus according to the third embodiment.
FIG. 27 is a view showing a search result output by an output unit incorporated in the information search apparatus according to the third embodiment.
[Explanation of symbols]
11. Control unit
12, 12a ... Information acquisition unit
13 ... Format analysis section
14 ... Criticism expression dictionary
15 ... Critical expression extraction unit
16 ... Search target theme memory
17 ... Search formula
18 ... Similarity calculation unit
19, 19a ... Search result editing section
20 ... Output unit
21 ... Theme
25 ... Page access part
26 ... Monitor page list
27. Update determination unit
28 ... Previous page memory
29 ... Reference page search part
30 ... Reference page database
31 ... Reference page database creation part
32 ... Reference page button

Claims (3)

収集した多数の電子情報の中から指定された評価対象のテーマに関係する情報が記載された複数の電子情報を検索して、検索結果を表示出力する情報検索装置において、
前記収集した多数の電子情報のうち批評表現が記載された1つ以上の電子情報を抽出する電子情報抽出手段と、
この電子情報抽出手段で抽出された批評表現が記載された各電子情報の前記テーマに対する類似度を、当該電子情報における当該テーマの記載頻度に基づいて算出する類似度算出手段と、
前記収集した多数の電子情報毎に当該電子情報内で引用された参照電子情報を記憶する参照電子情報データベースを作成する参照電子情報データベース作成手段と、
前記類似度算出手段で高い類似度が算出された電子情報を参照すべきと記載した内容を有する参照電子情報を前記参照電子情報データベースから検索する参照電子情報検索手段と、
前記類似度算出手段で高い類似度が算出された電子情報の内容を抽出する内容抽出手段と、
前記テーマ、当該テーマに対する類似度が高い各電子情報の内容、及び当該各電子情報毎に設けられた参照リンクを表示する第1の検索結果表示手段と、
前記参照リンクのリンク操作に応じて、当該参照リンクを付された電子情報を参照すべきと記載した参照電子情報を表示する第2の検索結果表示手段と
を備えたことを特徴とする情報検索装置。
In an information search apparatus for searching a plurality of electronic information in which information related to a specified evaluation target theme is described from a large number of collected electronic information and displaying and outputting a search result,
An electronic information extracting means for extracting one or more electronic information in which a critical expression is described from the collected electronic information;
Similarity calculating means for calculating the similarity of each electronic information in which the critical expression extracted by the electronic information extracting means is described based on the description frequency of the theme in the electronic information;
Reference electronic information database creation means for creating a reference electronic information database for storing the reference electronic information quoted in the electronic information for each of the collected electronic information,
A reference electronic information search means for searching the reference electronic information database for reference electronic information having a content that it should be referred to electronic information whose high similarity is calculated by the similarity calculation means;
Content extracting means for extracting the contents of the electronic information whose high similarity is calculated by the similarity calculating means;
First search result display means for displaying the theme, the content of each electronic information having a high degree of similarity to the theme, and a reference link provided for each electronic information;
An information search comprising: a second search result display means for displaying reference electronic information indicating that electronic information to which the reference link is attached should be referred to in accordance with a link operation of the reference link. apparatus.
前記テーマ、当該テーマに対する類似度が高い各電子情報の内容、及び当該各電子情報を参照すべきと記載した参照電子情報の数を表示する第3の検索結果出力手段をThird search result output means for displaying the theme, the contents of each electronic information having a high degree of similarity to the theme, and the number of reference electronic information indicating that the electronic information should be referred to
備えたことを特徴とする請求項1記載の情報検索装置。The information retrieval apparatus according to claim 1, further comprising:
収集した多数の電子情報の中から指定された評価対象のテーマに関係する情報が記載された複数の電子情報を検索して、検索結果を表示出力する情報検索装置に組込まれたプログラムを記憶する記憶媒体であって、前記プログラムはコンピュータに対して、
前記収集した多数の電子情報のうち批評表現が記載された1つ以上の電子情報を抽出する電子情報抽出ステップと、
この電子情報抽出ステップで抽出された批評表現が記載された各電子情報の前記テーマに対する類似度を、当該電子情報における当該テーマの記載頻度に基づいて算出する類似度算出ステップと、
前記収集した多数の電子情報毎に、当該電子情報内で引用された参照電子情報を記憶する参照電子情報データベースを作成する参照電子情報データベース作成ステップと、
前記類似度算出ステップで高い類似度が算出された電子情報を参照すべきと記載した内容を有する参照電子情報を前記参照電子情報データベースから検索する参照電子情報検索ステップと、
前記類似度算出ステップで高い類似度が算出された電子情報の内容を抽出する内容抽出ステップと、
前記テーマ、当該テーマに対する類似度が高い各電子情報の内容、及び当該各電子情報毎に設けられた参照リンクを表示する第1の検索結果表示ステップと、
前記参照リンクのリンク操作に応じて、当該参照リンクを付された電子情報を参照すべきと記載した参照電子情報を表示する第2の検索結果表示ステップと
を実現させるためのコンピュータ読取可能なプログラムを記憶した記憶媒体。
A plurality of pieces of electronic information collected are searched for a plurality of pieces of electronic information in which information related to a specified theme to be evaluated is stored, and a program incorporated in an information search device that displays and outputs a search result is stored. A storage medium, wherein the program is for a computer,
An electronic information extracting step of extracting one or more electronic information in which a critical expression is described from the collected electronic information;
A similarity calculation step for calculating the similarity of each electronic information in which the critical expression extracted in this electronic information extraction step is described based on the description frequency of the theme in the electronic information;
A reference electronic information database creation step for creating a reference electronic information database for storing the reference electronic information cited in the electronic information for each of the collected electronic information,
A reference electronic information search step of searching the reference electronic information database for reference electronic information having a content that it should be referred to the electronic information whose high similarity is calculated in the similarity calculation step;
A content extraction step of extracting the content of the electronic information for which the high similarity was calculated in the similarity calculation step;
A first search result display step for displaying the theme, the content of each electronic information having a high similarity to the theme, and a reference link provided for each electronic information;
A second search result display step for displaying reference electronic information indicating that electronic information to which the reference link is attached should be referred to in accordance with a link operation of the reference link; A storage medium storing a readable program.
JP33460099A 1999-11-25 1999-11-25 Information retrieval apparatus and storage medium storing program Expired - Fee Related JP4417497B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33460099A JP4417497B2 (en) 1999-11-25 1999-11-25 Information retrieval apparatus and storage medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33460099A JP4417497B2 (en) 1999-11-25 1999-11-25 Information retrieval apparatus and storage medium storing program

Publications (2)

Publication Number Publication Date
JP2001155021A JP2001155021A (en) 2001-06-08
JP4417497B2 true JP4417497B2 (en) 2010-02-17

Family

ID=18279214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33460099A Expired - Fee Related JP4417497B2 (en) 1999-11-25 1999-11-25 Information retrieval apparatus and storage medium storing program

Country Status (1)

Country Link
JP (1) JP4417497B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4498892B2 (en) * 2004-11-10 2010-07-07 株式会社デンソーアイティーラボラトリ Information browsing apparatus and information browsing method
JP2007219880A (en) 2006-02-17 2007-08-30 Fujitsu Ltd Reputation information processing program, method, and apparatus
KR100892847B1 (en) * 2007-05-29 2009-04-10 엔에이치엔(주) Method and system supporting public opinion according to advertisement performance
JPWO2010024184A1 (en) * 2008-08-26 2012-01-26 日本電気株式会社 Reputation information detection system, reputation information detection method and program
JP4720884B2 (en) 2008-09-19 2011-07-13 コニカミノルタビジネステクノロジーズ株式会社 Image processing apparatus, image forming apparatus, index generation method, and index generation program
JP2010108517A (en) * 2010-01-13 2010-05-13 Fujitsu Ltd Content retrieval program, content retrieval method, and content retrieval device

Also Published As

Publication number Publication date
JP2001155021A (en) 2001-06-08

Similar Documents

Publication Publication Date Title
US7809710B2 (en) System and method for extracting content for submission to a search engine
US7783644B1 (en) Query-independent entity importance in books
US20090235150A1 (en) Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
US7765209B1 (en) Indexing and retrieval of blogs
EP1457898A2 (en) Data search system and method
JP2007122513A (en) Content retrieval method, and content retrieval server
WO2011080899A1 (en) Information recommendation method
KR20070043974A (en) Enhanced document browsing with automatically generated links based on user information and context
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
CA2401653A1 (en) Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers
CA2637239A1 (en) System for searching
JP2010128928A (en) Retrieval system and retrieval method
KR100455439B1 (en) Internet resource retrieval and browsing method based on expanded web site map and expanded natural domain names assigned to all web resources
JP2003271609A (en) Information monitoring device and information monitoring method
JP4417497B2 (en) Information retrieval apparatus and storage medium storing program
JP2009086944A (en) Information processor and information processing program
JP2001209655A (en) Information providing device, information updating method, recording medium having information providing program recorded thereon and information providing system
JP2008117134A (en) Period extraction device, period extraction method, period extraction program implementing the method, and recording medium storing its program
JP3683687B2 (en) Information filtering apparatus and information filtering method
JP4853915B2 (en) Search system
US20080114786A1 (en) Breaking documents
JPH11143885A (en) Method and device for information retrieval, storage medium for storing information retrieval program, method and device for information transmission, and storage medium for storing information transmission program
JP2006277061A (en) Knowledge retrieval system, method and program
KR100371805B1 (en) Method and system for providing related web sites for the current visitting of client
JP2000105769A (en) Document display method

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060620

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070320

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070518

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091126

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees