JP3655495B2 - Information retrieval method and apparatus and recording medium on which information retrieval program is recorded - Google Patents

Information retrieval method and apparatus and recording medium on which information retrieval program is recorded Download PDF

Info

Publication number
JP3655495B2
JP3655495B2 JP14526799A JP14526799A JP3655495B2 JP 3655495 B2 JP3655495 B2 JP 3655495B2 JP 14526799 A JP14526799 A JP 14526799A JP 14526799 A JP14526799 A JP 14526799A JP 3655495 B2 JP3655495 B2 JP 3655495B2
Authority
JP
Japan
Prior art keywords
information
search
character string
electronic information
reference history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14526799A
Other languages
Japanese (ja)
Other versions
JP2000339320A (en
Inventor
誠司 鷲▲崎▼
達也 村本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP14526799A priority Critical patent/JP3655495B2/en
Publication of JP2000339320A publication Critical patent/JP2000339320A/en
Application granted granted Critical
Publication of JP3655495B2 publication Critical patent/JP3655495B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、互いに関連づけられている膨大なハイパーテキスト情報の中から利用者の目的とする情報を参照する際に、他の利用者の参照履歴を利用して情報検索を効率良く行う情報検索方法および装置に関し、特にある目的を持って情報を検索している利用者に対して過去の情報参照履歴を用いて情報を効率的に検索する情報検索方法および装置と情報検索プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
現在、WWW(World Wide Web)上では、情報が爆発的に増加している。このような情報は知識の集合体であるとみなすことが可能であり、このような情報を効率よく利用するための方法がいくつも提案されている。このような方法のうち、ディレクトリ型検索サービスおよびロボット型検索サービスについて説明する。
【0003】
ディレクトリ型検索サービスは、情報を主観的な観点で分類し、それを効率良く参照できるようにしたシステムである。スポーツ情報を例に取ると、スポーツという概念の下には、様々なスポーツの種類が分類されている。サッカー、野球、ラグビーなどの情報は、スポーツ情報配下の階層に存在するという一般的な常識と一致するため、利用者は戸惑うことなく、これらの情報にアクセスできると考えられる。このように様々な情報を適当な概念にまとめて、それらを階層的に整理したのが、このサービスのポイントである。NTT Directory(http://navi.ntt.co.jp) ,Yahoo(http://www.yahoo.co.jp/)などが代表例である。
【0004】
次に、ロボット型検索サービスに関しての説明を行う。WWW上には、現在数億の情報が存在すると言われている。これらの情報を上記のディレクトリ型サービスで実現することは、その分類方法が自動化できないために、かなり難しいと言われている。そこで、WWW上の雑多な情報を検索するために、WWW情報の記述形式であるHTML(Hyper Text Markup Language)のハイパーリンクを自動的に辿ることで、予めWWW上の情報を可能な限り収集しておき、そうして収集した情報を全文検索機能などを用いて検索可能にすることで、WWW上の情報の検索を仮想的に実現したものである。TITAN(http://titan.mcnet.ne.jp/) ,Goo(http://www.goo.ne.jp)が代表例である。
【0005】
すなわち、ロボット型検索サービスでは、インターネットロボットと呼ばれるソフトウェアにより、HTMLが持つハイパーリンクを再帰的に辿ることにより情報の収集を行うものであり、ディレクトリ型検索サービスと比較してかなり大量な情報を収集することが可能であり、それに合わせた検索サービスを行うことにより、WWWのかなりの部分の情報を仮想的に検索することが可能になる。
【0006】
【発明が解決しようとする課題】
上述した従来の方法のうち、ディレクトリ型検索サービスでは、情報を主観的に分類するというディレクトリ型サービスの特徴から、情報の精度は高いが、情報量が少ないという問題点がある。現在サービスされているものでは、数10万件程度の情報を収集しているに過ぎない。これでは、WWW上の全情報に対する割合が、数パーセントにしか達せず、情報の取りこぼしや、本当に必要な情報に辿りつけないことがある。
【0007】
また、ロボット型検索サービスでは、上述したように、ディレクトリ型検索サービスと比較してかなり大量な情報を収集することが可能であり、WWWのかなりの部分の情報を仮想的に検索することが可能になるが、利用者が探索目的を検索語句で表現し、その検索語句に対して最も近いものから順に出力することになるため、検索語句を慎重に選択しないと、膨大な数の結果が返却され、結局その膨大な情報の中から必要な情報を探索しなければならないという新たな問題が発生する。
【0008】
本発明は、上記に鑑みてなされたもので、その目的とするところは、WWW上で増加している膨大な情報から目的とする情報を適確かつ効率的に検索し得る情報検索方法および装置と情報検索プログラムを記録した記録媒体を提供することにある。
【0009】
【課題を解決するための手段】
上記目的を達成するため、請求項1記載の本発明は、互いに関連づけられている膨大なハイパーテキスト情報の中から利用者の目的とする情報を参照する際に、他の利用者の参照履歴を利用して情報検索を行う情報検索方法であって、利用者のハイパーリンク情報の参照履歴を記録し、利用者が参照した情報を該情報の意味内容に基づき複数の部分に分割し、この分割した情報の各部分を示していて、かつハイパーリンクとして関係づけられている情報を探索し、この探索して検出した情報から当該情報を示している文字列を抽出し、当該情報の分割した各部分に対して各部分を示している文字列をまとめて蓄積しておき、利用者からの検索要求に対して、前記蓄積した文字列を検索することを要旨とする。
【0010】
請求項1記載の本発明にあっては、利用者のハイパーリンク情報の参照履歴を記録し、利用者が参照した情報を複数の部分に分割し、この分割した情報の各部分を示している情報を探索し、この探索した情報から当該情報を示している文字列を抽出し、当該情報の分割した各部分に対して各部分を示している文字列をまとめて蓄積しておき、利用者からの検索要求に対して、蓄積した文字列を検索するため、他の利用者の情報参照履歴から目次的な情報を予め作成し、この情報を検索することで、より抽象化された情報の検索が可能となり、利用者が求める情報に容易に辿りつくことができる。
【0011】
また、請求項2記載の本発明は、請求項1記載の発明において、当該情報の分割したある部分を示している文字列が複数存在する場合、この複数の文字列から当該部分に最も関連深い文字列を選択することを要旨とする。
【0012】
請求項2記載の本発明にあっては、当該情報の分割したある部分を示している文字列が複数存在する場合、この複数の文字列から当該部分に最も関連深い文字列を選択するため、最適な情報を検索することができる。
【0013】
更に、請求項3記載の本発明は、請求項1記載の発明において、前記蓄積した文字列を検索する処理が、利用者の検索要求に対して情報を検索するだけでなく、検索結果として得られる情報を分割した各部分に相当する文字列を当該情報の抽象化された目次情報として提示することを要旨とする。
【0014】
請求項3記載の本発明にあっては、利用者の検索要求に対して情報を検索するだけでなく、検索結果として得られる情報を分割した各部分に相当する文字列を当該情報の抽象化された目次情報として提示するため、その情報の構造を明確にすることができる。
【0015】
請求項4記載の本発明は、互いに関連づけられている膨大なハイパーテキスト情報の中から利用者の目的とする情報を参照する際に、他の利用者の参照履歴を利用して情報検索を行う情報検索装置であって、利用者のハイパーリンク情報の参照履歴を記録する参照履歴記録手段と、利用者が参照した情報を該情報の意味内容に基づき複数の部分に分割する情報分割手段と、この分割した情報の各部分を示していて、かつハイパーリンクとして関係づけられている情報を前記参照履歴記録手段から探索する情報探索手段と、この探索して検出した情報から当該情報を示している文字列を抽出する文字列抽出手段と、当該情報の分割された各部分に対して各部分を示している文字列をまとめて蓄積する文字列蓄積手段と、利用者からの検索要求に対して、前記蓄積した文字列を前記文字列蓄積手段から検索する検索手段とを有することを要旨とする。
【0016】
請求項4記載の本発明にあっては、利用者のハイパーリンク情報の参照履歴を記録し、利用者が参照した情報を複数の部分に分割し、この分割した情報の各部分を示している情報を探索し、この探索した情報から当該情報を示している文字列を抽出し、当該情報の分割した各部分に対して各部分を示している文字列をまとめて蓄積しておき、利用者からの検索要求に対して、蓄積した文字列を検索するため、他の利用者の情報参照履歴から目次的な情報を予め作成し、この情報を検索することで、より抽象化された情報の検索が可能となり、利用者が求める情報に容易に辿りつくことができる。
【0017】
また、請求項5記載の本発明は、請求項4記載の発明において、当該情報のある部分を示している文字列が複数存在する場合、この複数の文字列から当該部分に最も関連深い文字列を選択する選択手段を有することを要旨とする。
【0018】
請求項5記載の本発明にあっては、当該情報の分割したある部分を示している文字列が複数存在する場合、この複数の文字列から当該部分に最も関連深い文字列を選択するため、最適な情報を検索することができる。
【0019】
更に、請求項6記載の本発明は、請求項4記載の発明において、前記検索手段が、利用者の検索要求に対して情報を検索するだけでなく、検索結果として得られる情報を分割した各部分に相当する文字列を当該情報の抽象化された目次情報として提示する手段を有することを要旨とする。
【0020】
請求項6記載の本発明にあっては、利用者の検索要求に対して情報を検索するだけでなく、検索結果として得られる情報を分割した各部分に相当する文字列を当該情報の抽象化された目次情報として提示するため、その情報の構造を明確にすることができる。
【0021】
請求項7記載の本発明は、互いに関連づけられている膨大なハイパーテキスト情報の中から利用者の目的とする情報を参照する際に、他の利用者の参照履歴を利用して情報検索を行う情報検索プログラムを記録した記録媒体であって、利用者のハイパーリンク情報の参照履歴を記録し、利用者が参照した情報を該情報の意味内容に基づき複数の部分に分割し、この分割した情報の各部分を示していて、かつハイパーリンクとして関係づけられている情報を探索し、この探索して検出した情報から当該情報を示している文字列を抽出し、当該情報の分割した各部分に対して、各部分を示している文字列をまとめて蓄積し、利用者からの検索要求に対して、前記蓄積した文字列を検索する情報検索プログラムを記録媒体に記録することを要旨とする。
【0022】
請求項7記載の本発明にあっては、利用者のハイパーリンク情報の参照履歴を記録し、利用者が参照した情報を複数の部分に分割し、この分割した情報の各部分を示している情報を探索し、この探索した情報から当該情報を示している文字列を抽出し、当該情報の分割した各部分に対して各部分を示している文字列をまとめて蓄積しておき、利用者からの検索要求に対して、蓄積した文字列を検索する情報検索プログラムを記録媒体に記録しているため、該記録媒体を用いて、その流通性を高めることができる。
【0023】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態を説明する。図1は、本発明の一実施形態に係る情報検索装置の構成を示すブロック図である。同図に示す情報検索装置は、互いに関連づけられている膨大なハイパーテキスト情報の中から利用者の目的とする情報を参照しようとする際に他の利用者の参照履歴を利用して情報検索を効率的に行うものである。なお、ハイパーテキストを実現しているものは、Apple社のハイパーテキスト、インターネット上のWWW(World Wide Web),XML(eXtensible Markup Language)などの様々なものがあるが、本実施形態では説明をわかりやすくするために、WWWを一例として説明するが、他のハイパーテキストシステムに対しても同様の方法で適用可能である。
【0024】
図1において、1はWWW情報を参照する利用者であるクライアント、2は検索部、3は中継サーバ、4は履歴記録部、5はアクセス履歴データベース(DB)、6は情報分割部、7は文字列抽出部、8は文字列蓄積部、9は目次データベース(DB)、11はWWW、10はWWW11上の情報である。
【0025】
次に、図2に示すフローチャートおよび図3乃至図7を参照して、図1に示す実施形態の作用を説明する。
【0026】
WWW11上のWWW情報10を参照している利用者であるクライアント1は、セキュリティ上、中継サーバ3を介してインターネット上のWWW情報10にアクセスしていることが多く、中継サーバ3は各クライアント1からの参照要求を実際のWWWサーバに問いかけると同時に、その参照履歴を履歴記録部4を介してアクセス履歴データベース5に蓄積している。なお、このような中継サーバ3を利用していない場合でも、各情報10に対する参照履歴は、各情報サーバに蓄積されており、それを利用することにより多くの履歴情報の利用が可能である。このような参照履歴はハイパーリンクが指し示している有向グラフとして蓄積されていると考えてよい。
【0027】
上述したようにアクセス履歴データベース5に参照履歴が蓄積されると、この蓄積された参照履歴の中のある情報が抽出され(図2のステップS101)、この抽出した情報をその意味内容に基づいて情報分割部6で分割する(ステップS102)。なお、分割方法は様々なものがあるが、例えば text tiling手法(Marti A.Hearst,a quantitative approach to discourse segmentation,1993 )や、HTML(Hyper Text Markup Language)の構造などを用いることにより、その意味内容に基づく分割が可能である。
【0028】
上述した参照情報の抽出および分割処理について図3、図4を参照して詳細に説明する。参照履歴は、ある情報を基にして考えると、それを指している情報とそれが示している情報に分類することができる。すなわち、図3において、ある情報はターゲット情報であり、HTML−1〜3は「それを指している情報」であり、HTML−A〜Cは「それが指している情報」である。このように過去に複数の利用者により辿られた履歴に基づき、リンク上の関係が存在するので、それを抽出する。すなわち、参照履歴から訪問したURLを抽出するのである。
【0029】
また、このように抽出された情報、すなわち図3に示すターゲット情報をその意味内容に基づき分割すると、図4に示すように、Part1,Part2,Part3,Part4のように複数の部分に分割される。このように意味内容に基づいてターゲット情報を分割した各部分情報のうち、Part1で示す部分情報はHTML−1に含まれる文字列であるアンカー(Anchor)で指し示され、またターゲット情報のPart1で示す部分情報に含まれる文字列であるアンカー(Anchor)でHTML−Aが指し示されるというようにリンク上の関係が存在する。また、同様にターゲット情報を分割した各部分情報のうち、Part2で示す部分情報はHTML−3に含まれる文字列であるアンカー(Anchor)で指し示され、このPart2で示す部分情報に含まれる文字列であるアンカー(Anchor)でHTML−Bが指し示されている。更に同様にターゲット情報を分割した各部分情報のうち、Part4で示す部分情報はHTML−2に含まれる文字列であるアンカー(Anchor)で指し示され、このPart4で示す部分情報に含まれる文字列であるアンカー(Anchor)でHTML−Cが指し示されている。
【0030】
上述したように、情報の分割が終了すると、当該情報の一部が抽出される(ステップS103)。具体的には、図4に示す例では、Part1などのような情報の一部が抽出される。それから、この部分情報を探索して、該部分情報を指している参照元の情報が検出できないか否か、すなわち発見できたか否かをチェックする(ステップS104)。
【0031】
この参照元の探索は、具体的には例えば図4においてPart1という部分情報の中に存在するハイパーリンク情報を探索し、このハイパーリンク情報が参照履歴の中に存在しているかどうかを確認する。これは例えばHTML−Aのようなものである。このハイパーリンク情報が参照履歴として存在する場合には、Part1の情報、すなわち履歴上ではターゲット情報のURLに相当する情報とHTML−Aを含む参照履歴の列をアクセス履歴データベース5から探索し、それが存在する場合には、その前の履歴としての参照元を特定する。図4では、HTML−1が参照元として特定できる。同様に、図4ではPart2にはHTML−3、Part4にはHTML−2が参照元として特定できる。すなわち、上記処理では、ターゲット情報をその内容により分割し、その中からリンクの状況を基にどこから参照されているかを同定する。
【0032】
上述したように、当該部分情報を示している情報を検出できた場合には、当該部分情報を示しているハイパーリンクを文字列抽出部7で探索して抽出する(ステップS105)。具体的には、図5に示す例では、Anchor1のような文字列である。実際には、この文字列を辿ると、ターゲット情報が参照できるような仕組みになっており、このような文字列のことをアンカー(Anchor)文字列と呼ばれているものである。例えば、図5では、ターゲットとなる情報がPart1〜4の4つに分割され、各々はいくつかの情報から指し示され(いわゆるリンクされ)各々のアンカー文字列としてAnchor1〜8が抽出されている。このような文字列のAnchorと各ブロックである部分情報Part1〜4を対応づけて、目次データベース9に蓄積しておくのである。なお、図5に示すように、ターゲット情報の分割したPart1〜4で示す各部分情報を示している文字列であるAnchorが1つの部分情報に対して複数存在する場合、この複数の文字列であるアンカー(Anchor)から当該部分情報に最も関連深い文字列を選択するようになっている。
【0033】
具体的には、図7のような各参照先とその各部分に対して、参照元文字列すなわちアンカー文字列が存在する。参照先のhttp://www.foo.co.jp/ のPart1には、「プロ野球」「メジャーリーグ」などのような文字列が対応づけられていることを示している。このように対応づけられた文字列と情報を文字列蓄積部8を介して目次データベース9に蓄積する(ステップS106)。なお、目次データベースと呼んでいるのは、各文字列が該当する情報に対して目次のような働きをするからである。
【0034】
上述したように、目次データベース9が構築されてから、図6に示すように、利用者であるクライアント1から情報の検索要求(Query) が出されると、検索エンジンである検索部2は実際のWWW11を検索するのではなく、目次データベース9を検索する。目次情報は元の情報の抽象化された情報と考えることができ、より効果的な検索が可能になる。この検索の結果として得られた情報を利用者に返却し、利用者は実際の情報へアクセスすることができる。検索部2による文字列の検索処理は、利用者の検索要求に対して情報を検索するだけでなく、検索結果として得られる情報を分割した各部分に相当する文字列を当該情報の抽象化された目次情報として提示するようになっている。
【0035】
また、利用者は検索で発見された情報の意味的な構造を、各々の部分毎に付与されている文字列を目次とみなすことにより、容易に把握することができ、今まではその構造が意識されていなかったところに、具体的な構造を導入することが可能になる。この場合、利用者への提示方法としては、まず目次情報に相当する文字列を出力しておき、それに該当する情報をハイパーリンクとして辿ることができるようにしておくと、その構造を生かして情報獲得が可能になる。
【0036】
上述したように、本実施形態の情報検索装置では、他の利用者の情報参照の一連の流れを利用することにより、情報への効率的なアクセスを実現している。すなわち、情報検索の目的に対して過去に同じような検索が行われている場合には、その参照履歴を取得し、それを元に当該情報の各部分が指されている情報の文字列から、当該情報の目次に相当する情報として取り扱うことで、この目次に相当すると考えられる文字列を検索し、これにより更に精度が高く、無駄のない情報検索が可能になる。また、目次に相当する情報を利用者に提示することにより、その情報の構造を明確にすることができる。
【0037】
なお、上記実施形態の処理をプログラムとして記録媒体に記録することにより該記録媒体を用いて、その流通性を高めることができる。
【0038】
【発明の効果】
以上説明したように、本発明によれば、利用者のハイパーリンク情報の参照履歴を記録し、利用者が参照した情報を複数の部分に分割し、この分割情報の各部分を示している情報を探索し、この探索した情報から当該情報を示している文字列を抽出し、当該情報の分割した各部分に対して各部分を示している文字列をまとめて蓄積しておき、利用者からの検索要求に対して、蓄積した文字列を検索するので、他の利用者の情報参照履歴から目次的な情報を予め作成し、この情報を検索することで、より抽象化された情報の検索が可能となり、利用者が求める情報に容易に辿りつくことができる。
【0039】
また、本発明によれば、利用者の検索要求に対して情報を検索するだけでなく、検索結果として得られる情報を分割した各部分に相当する文字列を当該情報の抽象化された目次情報として提示するので、情報の構造を抽象化された目次で容易に把握することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報検索装置の構成を示すブロック図である。
【図2】図1に示す情報検索装置の作用を示すフローチャートである。
【図3】図1に示す情報検索装置における参照情報の収集処理を示す説明図である。
【図4】図1に示す情報検索装置における参照元の同定処理を示す説明図である。
【図5】図1に示す情報検索装置におけるアンカー(Anchor)とそれに対する情報の蓄積処理を示す説明図である。
【図6】図1に示す情報検索装置における利用者の検索要求に適合する情報集合の抽出処理を示す説明図である。
【図7】図1に示す情報検索装置において抽出したアンカー文字列と情報の例を示す図である。
【符号の説明】
3 中継サーバ
4 履歴記録部
5 アクセス履歴データベース
6 情報分割部
7 文字列抽出部
8 文字列蓄積部
9 目次データベース
10 情報
11 WWW
[0001]
BACKGROUND OF THE INVENTION
The present invention provides an information retrieval method for efficiently performing information retrieval using a reference history of another user when referring to information intended by a user from among a large amount of hypertext information associated with each other. Information retrieval method and apparatus for efficiently retrieving information using past information reference history for a user who is retrieving information with a certain purpose, and a recording medium on which the information retrieval program is recorded About.
[0002]
[Prior art]
Currently, information is exploding on the World Wide Web (WWW). Such information can be regarded as a collection of knowledge, and a number of methods for efficiently using such information have been proposed. Among such methods, a directory type search service and a robot type search service will be described.
[0003]
The directory-type search service is a system that classifies information from a subjective point of view and makes it possible to refer to it efficiently. Taking sports information as an example, various types of sports are classified under the concept of sports. Since information such as soccer, baseball, and rugby is in common with the common sense that it exists in a hierarchy under sports information, it is considered that users can access such information without being confused. The point of this service is to collect various information in an appropriate concept and organize them hierarchically. Representative examples are NTT Directory (http://navi.ntt.co.jp) and Yahoo (http://www.yahoo.co.jp/).
[0004]
Next, the robot type search service will be described. It is said that hundreds of millions of information currently exists on the WWW. It is said that it is quite difficult to realize such information by the above-mentioned directory type service because the classification method cannot be automated. Therefore, in order to search for miscellaneous information on the WWW, information on the WWW is collected in advance as much as possible by automatically following hyperlinks of HTML (Hyper Text Markup Language), which is the WWW information description format. By making it possible to search the collected information using a full-text search function or the like, information search on the WWW is virtually realized. Typical examples are TITA (http://titan.mcnet.ne.jp/) and Goo (http://www.goo.ne.jp).
[0005]
In other words, the robot-type search service collects information by recursively following hyperlinks of HTML using software called Internet robots, and collects a considerably larger amount of information than the directory-type search service. It is possible to virtually search information on a substantial part of the WWW by performing a search service according to the search service.
[0006]
[Problems to be solved by the invention]
Among the conventional methods described above, the directory type search service has a problem that the information accuracy is high but the amount of information is small because of the characteristic of the directory type service that the information is classified subjectively. What is currently being serviced is collecting only about 100,000 information. In this case, the ratio to the total information on the WWW reaches only a few percent, and there are cases where information is missed or information that is really necessary cannot be reached.
[0007]
In addition, as described above, the robot-type search service can collect a considerably large amount of information as compared with the directory-type search service, and can virtually search information on a considerable part of the WWW. However, since the user expresses the search purpose as a search term and outputs it in order from the closest search term, if a search term is not carefully selected, a huge number of results are returned. As a result, there arises a new problem that necessary information must be searched from the enormous amount of information.
[0008]
The present invention has been made in view of the above, and an object of the present invention is to provide an information search method and apparatus capable of accurately and efficiently searching for target information from a huge amount of information increasing on the WWW. And providing a recording medium in which an information retrieval program is recorded.
[0009]
[Means for Solving the Problems]
To achieve the above object, according to the present invention, when referring to information intended by a user from among a large amount of hypertext information associated with each other, the reference history of other users is recorded. An information search method that uses information search to record a reference history of a user's hyperlink information, and divides the information referred to by the user into a plurality of parts based on the semantic content of the information. Search for information related to each of the information and as a hyperlink, extract a character string indicating the information from the information detected by the search, The gist of the present invention is that character strings indicating the respective parts are stored together and the stored character strings are searched in response to a search request from a user.
[0010]
In the present invention described in claim 1, the reference history of the hyperlink information of the user is recorded, the information referred to by the user is divided into a plurality of parts, and each part of the divided information is shown. Search for information, extract a character string indicating the information from the searched information, accumulate the character strings indicating each part for each divided part of the information, and In order to search the stored character string in response to a search request from, the table of contents information is created in advance from the information reference history of other users, and by searching this information, more abstract information Searching is possible, and information required by the user can be easily reached.
[0011]
Further, in the present invention described in claim 2, in the invention described in claim 1, when there are a plurality of character strings indicating a certain divided part of the information, the plurality of character strings are most closely related to the part. The main point is to select a character string.
[0012]
In the present invention according to claim 2, when there are a plurality of character strings indicating a certain portion of the information divided, in order to select a character string most relevant to the portion from the plurality of character strings, The most suitable information can be searched.
[0013]
Further, according to the present invention described in claim 3, in the invention described in claim 1, the process of searching for the stored character string is obtained not only by searching for information in response to a user search request but also as a search result. The gist of the present invention is to present a character string corresponding to each portion obtained by dividing the information to be obtained as abstracted table of contents information.
[0014]
According to the third aspect of the present invention, not only information is retrieved in response to a user's retrieval request, but also a character string corresponding to each portion obtained by dividing the information obtained as a retrieval result is abstracted from the information. Since the information is presented as the table of contents information, the structure of the information can be clarified.
[0015]
According to the present invention, when referring to information intended by a user from among a large amount of hypertext information associated with each other, information search is performed using a reference history of another user. A reference history recording means for recording a reference history of a user's hyperlink information, and an information dividing means for dividing the information referred to by the user into a plurality of parts based on the semantic content of the information; Each part of this divided information is shown, and information search means for searching for information related as a hyperlink from the reference history recording means, and the information from the information detected by this search. A character string extracting means for extracting a character string, a character string accumulating means for accumulating a character string indicating each part for each divided part of the information, and a search request from a user And, and summarized in that and a retrieval means for retrieving a string the storage from the character string storage means.
[0016]
In this invention of Claim 4, the reference log | history of a user's hyperlink information is recorded, the information which the user referred is divided | segmented into several parts, and each part of this divided | segmented information is shown Search for information, extract a character string indicating the information from the searched information, accumulate the character strings indicating each part for each divided part of the information, and In order to search the stored character string in response to a search request from, the table of contents information is created in advance from the information reference history of other users, and by searching this information, more abstract information Searching is possible, and information required by the user can be easily reached.
[0017]
Further, in the present invention described in claim 5, in the invention described in claim 4, when there are a plurality of character strings indicating a certain portion of the information, the character string most closely related to the portion from the plurality of character strings. The gist of the present invention is to have a selection means for selecting.
[0018]
In the present invention according to claim 5, when there are a plurality of character strings indicating a certain part of the information, in order to select a character string most relevant to the part from the plurality of character strings, The most suitable information can be searched.
[0019]
Further, according to the present invention described in claim 6, in the invention described in claim 4, the search means not only searches for information in response to a user search request but also divides information obtained as a search result. The gist is to have means for presenting a character string corresponding to a part as abstract table of contents information.
[0020]
In the present invention described in claim 6, in addition to searching for information in response to a user search request, a character string corresponding to each portion obtained by dividing the information obtained as a search result is abstracted. Since the information is presented as the table of contents information, the structure of the information can be clarified.
[0021]
According to the seventh aspect of the present invention, when referring to information intended by a user from among a large amount of hypertext information associated with each other, information search is performed using a reference history of another user. A recording medium on which an information retrieval program is recorded, which records a reference history of a user's hyperlink information, divides the information referred to by the user into a plurality of parts based on the semantic content of the information, and the divided information Is searched for information related to the hyperlink, and a character string indicating the information is extracted from the information detected by the search, and the information is divided into the divided parts of the information. On the other hand, the gist is that character strings indicating the respective parts are stored together and an information search program for searching the stored character strings is recorded on a recording medium in response to a search request from a user. .
[0022]
In this invention of Claim 7, the reference log | history of a user's hyperlink information is recorded, the information which the user referred is divided | segmented into several parts, and each part of this divided | segmented information is shown Search for information, extract a character string indicating the information from the searched information, accumulate the character strings indicating each part for each divided part of the information, and Since the information search program for searching the stored character string is recorded on the recording medium in response to the search request from, the distribution can be improved by using the recording medium.
[0023]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of an information search apparatus according to an embodiment of the present invention. The information search apparatus shown in FIG. 6 searches for information using the reference history of other users when trying to refer to information intended by a user from among a large amount of hypertext information associated with each other. It is efficient. There are various types of hypertext, such as Apple's hypertext, WWW (World Wide Web) on the Internet, and XML (eXtensible Markup Language). For ease of explanation, WWW will be described as an example, but the present invention can be applied to other hypertext systems in the same manner.
[0024]
In FIG. 1, 1 is a client who is a user who refers to WWW information, 2 is a search unit, 3 is a relay server, 4 is a history recording unit, 5 is an access history database (DB), 6 is an information dividing unit, and 7 is A character string extraction unit, 8 is a character string storage unit, 9 is a table of contents database (DB), 11 is WWW, and 10 is information on the WWW 11.
[0025]
Next, the operation of the embodiment shown in FIG. 1 will be described with reference to the flowchart shown in FIG. 2 and FIGS. 3 to 7.
[0026]
For security reasons, the client 1 that is a user referring to the WWW information 10 on the WWW 11 often accesses the WWW information 10 on the Internet via the relay server 3. The reference history is stored in the access history database 5 via the history recording unit 4 at the same time as an inquiry to the actual WWW server. Even when such a relay server 3 is not used, the reference history for each information 10 is stored in each information server, and a large amount of history information can be used by using it. Such a reference history may be considered to be accumulated as a directed graph indicated by a hyperlink.
[0027]
When the reference history is accumulated in the access history database 5 as described above, certain information in the accumulated reference history is extracted (step S101 in FIG. 2), and the extracted information is based on the meaning content. The information is divided by the information dividing unit 6 (step S102). There are various segmentation methods. For example, the text tiling method (Marti A. Hearst, a quantitative approach to discourse segmentation, 1993) or the structure of HTML (Hyper Text Markup Language) is used. Division based on content is possible.
[0028]
The reference information extraction and division processing described above will be described in detail with reference to FIGS. When the reference history is considered based on certain information, it can be classified into information indicating it and information indicated by it. That is, in FIG. 3, certain information is target information, HTML-1 to HTML-3 are “information pointing to it”, and HTML-A to C are “information pointing to it”. Thus, since there is a relation on the link based on the history traced by a plurality of users in the past, it is extracted. That is, the visited URL is extracted from the reference history.
[0029]
Further, when the information extracted in this way, that is, the target information shown in FIG. 3 is divided based on the meaning contents, as shown in FIG. 4, it is divided into a plurality of parts such as Part1, Part2, Part3, and Part4. . Among the pieces of partial information obtained by dividing the target information based on the semantic content in this way, the partial information indicated by Part1 is indicated by an anchor that is a character string included in HTML-1, and is also indicated by Part1 of the target information. There is a link relationship such that HTML-A is indicated by an anchor that is a character string included in the partial information to be indicated. Similarly, among the pieces of partial information obtained by dividing the target information, the partial information indicated by Part2 is indicated by an anchor that is a character string included in HTML-3, and the characters included in the partial information indicated by Part2 HTML-B is pointed by the anchor which is a column. Further, among the pieces of partial information obtained by dividing the target information, the partial information indicated by Part4 is indicated by an anchor that is a character string included in HTML-2, and the character string included in the partial information indicated by Part4. HTML-C is indicated by an anchor.
[0030]
As described above, when the division of information ends, a part of the information is extracted (step S103). Specifically, in the example shown in FIG. 4, a part of information such as Part1 is extracted. Then, the partial information is searched and it is checked whether or not the information of the reference source pointing to the partial information cannot be detected, that is, whether or not it has been found (step S104).
[0031]
Specifically, the search of the reference source is performed, for example, by searching for hyperlink information existing in the partial information “Part1” in FIG. 4 and confirming whether or not this hyperlink information exists in the reference history. This is, for example, HTML-A. If this hyperlink information exists as a reference history, the search history database 5 is searched for a part of the reference history including Part 1 information, that is, information corresponding to the URL of the target information and HTML-A on the history, If there is, the reference source as the previous history is specified. In FIG. 4, HTML-1 can be specified as a reference source. Similarly, in FIG. 4, HTML-3 can be specified as a reference source for Part 2 and HTML-2 can be specified as a reference source for Part 4. In other words, in the above processing, the target information is divided according to the contents, and where the target information is referenced is identified based on the link status.
[0032]
As described above, when the information indicating the partial information can be detected, the character string extraction unit 7 searches for and extracts the hyperlink indicating the partial information (step S105). Specifically, in the example shown in FIG. 5, it is a character string such as Anchor1. Actually, when this character string is traced, the target information can be referred to, and such a character string is called an anchor character string. For example, in FIG. 5, target information is divided into four parts 1 to 4, each of which is pointed out from some information (so-called linked), and Anchors 1 to 8 are extracted as respective anchor character strings. . Such Anchors of character strings and partial information Part 1 to 4 that are each block are associated with each other and stored in the table of contents database 9. As shown in FIG. 5, when there are a plurality of Anchors, which are character strings indicating each piece of partial information indicated by Parts 1 to 4 of the target information, for each piece of partial information, A character string most closely related to the partial information is selected from a certain anchor (Anchor).
[0033]
Specifically, a reference character string, that is, an anchor character string exists for each reference destination and each part thereof as shown in FIG. Part 1 of the reference destination http://www.foo.co.jp/ indicates that character strings such as “professional baseball” and “major league” are associated with each other. The character string and information thus associated are stored in the table of contents database 9 via the character string storage unit 8 (step S106). The reason why it is called a table of contents database is that each character string functions like a table of contents for the corresponding information.
[0034]
As described above, when the information search request (Query) is issued from the client 1 as a user after the table of contents database 9 is constructed, as shown in FIG. The table of contents database 9 is searched instead of searching the WWW 11. The table of contents information can be considered as an abstraction of the original information, enabling more effective retrieval. The information obtained as a result of this search is returned to the user, and the user can access the actual information. The search process of the character string by the search unit 2 not only searches for information in response to a user search request, but also abstracts the character string corresponding to each part obtained by dividing the information obtained as a search result. It is presented as table of contents information.
[0035]
In addition, the user can easily grasp the semantic structure of the information found in the search by considering the character strings assigned to each part as the table of contents. It becomes possible to introduce a specific structure where it was not conscious. In this case, as a presentation method to the user, first, a character string corresponding to the table of contents information is output, and the corresponding information can be traced as a hyperlink. Can be acquired.
[0036]
As described above, the information search apparatus according to the present embodiment achieves efficient access to information by using a series of information reference flows of other users. In other words, if a similar search has been performed in the past for the purpose of information search, the reference history is acquired, and based on the character string of the information to which each part of the information is pointed By treating it as information corresponding to the table of contents of the information, a character string that is considered to correspond to this table of contents is searched, and thereby, it is possible to search for information with higher accuracy and less waste. Also, by presenting information corresponding to the table of contents to the user, the structure of the information can be clarified.
[0037]
In addition, by recording the processing of the above-described embodiment as a program on a recording medium, it is possible to improve the circulation by using the recording medium.
[0038]
【The invention's effect】
As described above, according to the present invention, the reference history of the hyperlink information of the user is recorded, the information referred to by the user is divided into a plurality of parts, and information indicating each part of the division information The character string indicating the information is extracted from the searched information, and the character string indicating each part is accumulated and stored for each divided part of the information. In response to this search request, the stored character string is searched, so that the table of contents is created in advance from the information reference history of other users, and this information is searched to search for more abstract information. It is possible to easily reach the information requested by the user.
[0039]
In addition, according to the present invention, not only information is retrieved in response to a user's retrieval request, but also a character string corresponding to each portion obtained by dividing the information obtained as a retrieval result is abstracted table of contents information. Therefore, the structure of information can be easily grasped with an abstract table of contents.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an information search apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart showing the operation of the information search apparatus shown in FIG.
FIG. 3 is an explanatory diagram showing reference information collection processing in the information search apparatus shown in FIG. 1;
FIG. 4 is an explanatory diagram showing reference source identification processing in the information search apparatus shown in FIG. 1;
FIG. 5 is an explanatory diagram showing an anchor and information storage processing for the anchor in the information search apparatus shown in FIG. 1;
6 is an explanatory diagram showing an information set extraction process that matches a user search request in the information search apparatus shown in FIG. 1; FIG.
7 is a diagram showing an example of an anchor character string and information extracted by the information search apparatus shown in FIG.
[Explanation of symbols]
3 relay server 4 history recording unit 5 access history database 6 information dividing unit 7 character string extracting unit 8 character string accumulating unit 9 table of contents database 10 information 11 WWW

Claims (14)

サーバが参照要求を送信して、情報空間上でリンク情報により互いに関連づけられている膨大な電子情報の中から利用者の目的とする情報を参照する際に、参照履歴記録手段にデータとして記録された他の利用者の参照履歴を利用して、検索手段が情報検索を行う情報検索方法であって、
前記参照履歴記録手段が、前記サーバが参照したリンク情報の参照履歴を、データとして記録し、
情報分割手段が、前記サーバが参照した電子情報を、該情報の意味内容に基づき複数の部分に分割し、
情報探索手段が、この分割された電子情報の各部分と、前記リンク情報により情報空間上で関係づけられている電子情報を前記参照履歴記録手段から探索し、
文字列抽出手段が、この探索して検出した電子情報から、前記分割された電子情報の前記意味内容に関連する文字列を抽出し、
文字列蓄積手段が、前記分割された電子情報の各部分に対して、前記文字列をまとめて、データとして蓄積しておき、
検索手段が、クライアントからの検索要求の送信に対して、データとして蓄積した前記文字列を前記文字列蓄積手段から検索すること
を特徴とする情報検索方法。
When the server sends a reference request and refers to the information intended by the user from the enormous amount of electronic information linked to each other by link information in the information space, it is recorded as data in the reference history recording means. An information search method in which the search means searches for information using other user's reference history,
The reference history recording means records the reference history of the link information referred to by the server as data,
The information dividing means divides the electronic information referred to by the server into a plurality of parts based on the semantic content of the information,
Information search means searches and the respective divided parts of the electronic information, the electronic information are related on information space by the link information from the reference history recording means,
A character string extraction unit extracts a character string related to the semantic content of the divided electronic information from the electronic information detected by the search,
String storage means, with respect to the respective divided parts of the electronic information, collectively the string, leave accumulated as data,
An information search method, wherein the search means searches the character string storage means for the character string stored as data in response to transmission of a search request from a client.
前記電子情報の分割したある部分の意味内容に関連する文字列が複数存在する場合、選択手段が、この複数の文字列から当該部分に最も関連深い文字列を選択することを特徴とする請求項1記載の情報検索方法。The selection means, when there are a plurality of character strings related to the semantic content of a certain part of the electronic information, the selecting means selects a character string most closely related to the part from the plurality of character strings. 1. The information search method according to 1. 前記検索手段が前記蓄積した文字列を検索する処理は、クライアントの検索要求の送信に対して電子情報を検索するだけでなく、検索結果として得られる前記電子情報を分割した各部分に相当する文字列を、当該電子情報の抽象化された目次情報として前記クライアントへ出力することを特徴とする請求項1記載の情報検索方法。  The process of searching for the stored character string by the search means not only searches for electronic information in response to transmission of a client search request, but also characters corresponding to parts obtained by dividing the electronic information obtained as a search result. The information search method according to claim 1, wherein the column is output to the client as abstracted table of contents information of the electronic information. サーバが参照要求を送信して、情報空間上でリンク情報により互いに関連づけられている膨大な電子情報の中から利用者の目的とする情報を参照する際に、参照履歴記録手段にデータとして記録された、他の利用者の参照履歴を利用して、検索手段が情報検索を行う情報検索装置であって、
前記サーバが参照したリンク情報の参照履歴を、データとして記録する参照履歴記録手段と、
前記サーバが参照した電子情報を、該情報の意味内容に基づき複数の部分に分割する情報分割手段と、
この分割された電子情報の各部分と、前記リンク情報により情報空間上で関係づけられている電子情報を前記参照履歴記録手段から探索する情報探索手段と、
この探索して検出した電子情報から、前記分割された電子情報の前記意味内容に関連する文字列を抽出する文字列抽出手段と、
前記分割された電子情報の各部分に対して、前記文字列をまとめて、データとして蓄積する文字列蓄積手段と、
クライアントからの検索要求の送信に対して、データとして蓄積された前記文字列を前記文字列蓄積手段から検索する検索手段と
を有することを特徴とする情報検索装置。
When the server sends a reference request and refers to the information intended by the user from the enormous amount of electronic information linked to each other by link information in the information space, it is recorded as data in the reference history recording means. In addition, an information search device in which the search means searches for information using the reference history of other users,
A reference history recording means for recording a reference history of link information referred to by the server as data;
Information dividing means for dividing the electronic information referred to by the server into a plurality of parts based on the semantic content of the information;
And the respective divided parts of the electronic information, the information search means for searching electronic information are related on information space from the reference history recording means by the link information,
Character string extraction means for extracting a character string related to the semantic content of the divided electronic information from the electronic information detected by searching,
With respect to the respective divided parts of the electronic information, collectively the character string, a character string storing means for storing as data,
An information search apparatus comprising: search means for searching the character string stored as data from the character string storage means in response to transmission of a search request from a client.
前記電子情報のある部分の意味内容に関連する文字列が複数存在する場合、この複数の文字列から当該部分に最も関連深い文字列を選択する選択手段を有することを特徴とする請求項4記載の情報検索装置。5. The apparatus according to claim 4, further comprising: a selecting unit that selects a character string most relevant to the part from the plurality of character strings when there are a plurality of character strings related to the semantic content of a part of the electronic information. Information retrieval device. 前記検索手段は、前記クライアントの検索要求の送信に対して電子情報を検索するだけでなく、検索結果として得られる前記電子情報を分割した各部分に相当する文字列を、当該電子情報の抽象化された目次情報として前記クライアントへ出力する手段を有することを特徴とする請求項4記載の情報検索装置。  The search means not only searches for electronic information in response to the transmission of a search request from the client, but also abstracts a character string corresponding to each portion obtained by dividing the electronic information obtained as a search result. 5. The information retrieval apparatus according to claim 4, further comprising means for outputting the table of contents information to the client. サーバが参照要求を送信して、情報空間上でリンク情報により互いに関連づけられている膨大な電子情報の中から利用者の目的とする情報を参照する際に、参照履歴記録手段にデータとして記録された、他の利用者の参照履歴を利用して情報検索を行う情報検索プログラムを記録した記録媒体であって、
前記参照履歴記録手段に、前記サーバが参照したリンク情報の参照履歴を、データとして記録させる命令と、
情報分割手段に、前記サーバが参照した電子情報を、該情報の意味内容に基づき複数の部分に分割させる命令と、
情報探索手段に、この分割された電子情報の各部分と、前記リンク情報により情報空間上で関係づけられている電子情報を前記参照履歴記録手段から探索させる命令と、
文字列抽出手段に、この探索して検出した電子情報から、前記分割された電子情報の前記意味内容に関連する文字列を抽出させる命令と、
文字列蓄積手段に、前記分割された電子情報の各部分に対して、前記文字列をまとめて、データとして蓄積させる命令と、 検索手段に、クライアントからの検索要求の送信に対して、データとして蓄積した前記文字列を前記文字列蓄積手段から検索させる命令
とを備えることを特徴とする情報検索プログラムを記録した記録媒体。
When the server sends a reference request and refers to the information intended by the user from the enormous amount of electronic information linked to each other by link information in the information space, it is recorded as data in the reference history recording means. In addition, a recording medium recording an information search program for performing information search using a reference history of another user,
A command for recording the reference history of the link information referred to by the server as data in the reference history recording means;
An instruction for causing the information dividing means to divide the electronic information referred to by the server into a plurality of parts based on the semantic content of the information;
The information searching means, and instructions for searching and the respective divided parts of the electronic information, the electronic information are related on information space by the link information from the reference history recording means,
A command for causing the character string extraction means to extract a character string related to the semantic content of the divided electronic information from the electronic information detected by the search;
A string storage means, with respect to the respective divided parts of the electronic information, collectively the character string, and instructions for storing the data, the retrieval means for transmission of the search request from the client, as data And a command for searching the stored character string from the character string storage means.
サーバが参照要求を送信して、情報空間上でリンク情報により互いに関連づけられている膨大な電子情報の中から利用者の目的とする情報を参照する際に、参照履歴記録手段にデータとして記録された他の利用者の参照履歴を利用して、検索手段が情報検索を行う情報検索方法であって、When the server sends a reference request and refers to the information intended by the user from the enormous amount of electronic information linked to each other by link information in the information space, it is recorded as data in the reference history recording means. An information search method in which the search means searches for information using other user's reference history,
前記参照履歴記録手段が、前記サーバが参照したリンク情報の参照履歴を、データとして記録し、  The reference history recording means records the reference history of the link information referred to by the server as data,
情報分割手段が、前記サーバが参照した電子情報を、該情報の意味内容に基づき複数の部分に分割し、  The information dividing means divides the electronic information referred to by the server into a plurality of parts based on the semantic content of the information,
情報探索手段が、この分割された電子情報の各部分と、前記リンク情報により情報空間上で関係づけられている電子情報を前記参照履歴記録手段から探索し、  The information search means searches the reference history recording means for each piece of the divided electronic information and the electronic information related in the information space by the link information,
文字列抽出手段が、この探索して検出した電子情報から、前記分割された電子情報と、前記リンク情報により情報空間上で関係づけられているアンカー文字列を抽出し、  The character string extraction means extracts the divided electronic information and the anchor character string related on the information space by the link information from the electronic information detected by the search,
文字列蓄積手段が、前記分割された電子情報の各部分に対して、前記文字列をまとめて、データとして蓄積しておき、  The character string storage means collects the character strings for each part of the divided electronic information and stores them as data,
検索手段が、クライアントからの検索要求の送信に対して、データとして蓄積した前記文字列を前記文字列蓄積手段から検索すること  The search means searches the character string stored as data from the character string storage means in response to the transmission of the search request from the client.
を特徴とする情報検索方法。  Information search method characterized by
前記電子情報の分割したある部分の意味内容に関連する文字列が複数存在する場合、選択手段が、この複数の文字列から当該部分に最も関連深い文字列を選択することを特徴とする請求項8記載の情報検索方法。The selection means, when there are a plurality of character strings related to the semantic content of a certain part of the electronic information, the selecting means selects a character string most closely related to the part from the plurality of character strings. 8. The information search method according to 8. 前記検索手段が前記蓄積した文字列を検索する処理は、クライアントの検索要求の送信に対して電子情報を検索するだけでなく、検索結果として得られる前記電子情報を分割した各部分に相当する文字列を、当該電子情報の抽象化された目次情報として前記クライアントへ出力することを特徴とする請求項8記載の情報検索方法。The process of searching for the stored character string by the search means not only searches for electronic information in response to transmission of a client search request, but also characters corresponding to parts obtained by dividing the electronic information obtained as a search result. 9. The information search method according to claim 8, wherein the column is output to the client as abstracted table of contents information of the electronic information. サーバが参照要求を送信して、情報空間上でリンク情報により互いに関連づけられている膨大な電子情報の中から利用者の目的とする情報を参照する際に、参照履歴記録手段にデータとして記録された、他の利用者の参照履歴を利用して、検索手段が情報検索を行う情報検索装置であって、When the server sends a reference request and refers to the information intended by the user from the enormous amount of electronic information linked to each other by link information in the information space, it is recorded as data in the reference history recording means. In addition, an information search device in which the search means searches for information using the reference history of other users,
前記サーバが参照したリンク情報の参照履歴を、データとして記録する参照履歴記録手段と、  A reference history recording means for recording a reference history of link information referred to by the server as data;
前記サーバが参照した電子情報を、該情報の意味内容に基づき複数の部分に分割する情報分割手段と、  Information dividing means for dividing the electronic information referred to by the server into a plurality of parts based on the semantic content of the information;
この分割された電子情報の各部分と、前記リンク情報により情報空間上で関係づけられている電子情報を前記参照履歴記録手段から探索する情報探索手段と、  Information search means for searching each part of the divided electronic information and the electronic information related on the information space by the link information from the reference history recording means,
この探索して検出した電子情報から、前記分割された電子情報と、前記リンク情報によ  From the electronic information detected by the search, the divided electronic information and the link information are used. り情報空間上で関係づけられているアンカー文字列を抽出する文字列抽出手段と、A character string extracting means for extracting anchor character strings related in the information space;
前記分割された電子情報の各部分に対して、前記文字列をまとめて、データとして蓄積する文字列蓄積手段と、  For each part of the divided electronic information, the character strings are collected together and stored as data.
クライアントからの検索要求の送信に対して、データとして蓄積された前記文字列を前記文字列蓄積手段から検索する検索手段と  Search means for searching the character string storage means for the character string stored as data in response to transmission of a search request from a client;
を有することを特徴とする情報検索装置。  An information retrieval apparatus comprising:
前記電子情報のある部分の意味内容に関連する文字列が複数存在する場合、この複数の文字列から当該部分に最も関連深い文字列を選択する選択手段を有することを特徴とする請求項11記載の情報検索装置。12. The apparatus according to claim 11, further comprising: a selecting unit configured to select a character string most relevant to the part from the plurality of character strings when there are a plurality of character strings related to the semantic content of a part of the electronic information. Information retrieval device. 前記検索手段は、前記クライアントの検索要求の送信に対して電子情報を検索するだけでなく、検索結果として得られる前記電子情報を分割した各部分に相当する文字列を、当該電子情報の抽象化された目次情報として前記クライアントへ出力する手段を有することを特徴とする請求項11記載の情報検索装置。The retrieval means not only retrieves electronic information in response to transmission of a retrieval request from the client, but also abstracts a character string corresponding to each part obtained by dividing the electronic information obtained as a retrieval result. 12. The information search apparatus according to claim 11, further comprising means for outputting the table of contents information to the client. サーバが参照要求を送信して、情報空間上でリンク情報により互いに関連づけられている膨大な電子情報の中から利用者の目的とする情報を参照する際に、参照履歴記録手段にデータとして記録された、他の利用者の参照履歴を利用して情報検索を行う情報検索プログラムを記録した記録媒体であって、When the server sends a reference request and refers to the information intended by the user from the enormous amount of electronic information linked to each other by link information in the information space, it is recorded as data in the reference history recording means. In addition, a recording medium recording an information search program for performing information search using a reference history of another user,
前記参照履歴記録手段に、前記サーバが参照したリンク情報の参照履歴を、データとして記録させる命令と、  A command for recording the reference history of the link information referred to by the server as data in the reference history recording means;
情報分割手段に、前記サーバが参照した電子情報を、該情報の意味内容に基づき複数の部分に分割させる命令と、  An instruction for causing the information dividing means to divide the electronic information referred to by the server into a plurality of parts based on the semantic content of the information;
情報探索手段に、この分割された電子情報の各部分と、前記リンク情報により情報空間上で関係づけられている電子情報を前記参照履歴記録手段から探索させる命令と、  An instruction for causing the information search means to search each part of the divided electronic information and the electronic information related in the information space by the link information from the reference history recording means,
文字列抽出手段に、この探索して検出した電子情報から、前記分割された電子情報と、前記リンク情報により情報空間上で関係づけられているアンカー文字列を抽出させる命令と、  A command for causing the character string extraction means to extract the divided electronic information and the anchor character string related in the information space by the link information from the electronic information detected by the search,
文字列蓄積手段に、前記分割された電子情報の各部分に対して、前記文字列をまとめて、データとして蓄積させる命令と、 検索手段に、クライアントからの検索要求の送信に対して、データとして蓄積した前記文字列を前記文字列蓄積手段から検索させる命令  A command for storing the character strings together as data for each portion of the divided electronic information in the character string storage means, and as data for transmission of a search request from the client to the search means A command for retrieving the stored character string from the character string storage means
とを備えることを特徴とする情報検索プログラムを記録した記録媒体。  A recording medium on which an information search program is recorded.
JP14526799A 1999-05-25 1999-05-25 Information retrieval method and apparatus and recording medium on which information retrieval program is recorded Expired - Fee Related JP3655495B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14526799A JP3655495B2 (en) 1999-05-25 1999-05-25 Information retrieval method and apparatus and recording medium on which information retrieval program is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14526799A JP3655495B2 (en) 1999-05-25 1999-05-25 Information retrieval method and apparatus and recording medium on which information retrieval program is recorded

Publications (2)

Publication Number Publication Date
JP2000339320A JP2000339320A (en) 2000-12-08
JP3655495B2 true JP3655495B2 (en) 2005-06-02

Family

ID=15381188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14526799A Expired - Fee Related JP3655495B2 (en) 1999-05-25 1999-05-25 Information retrieval method and apparatus and recording medium on which information retrieval program is recorded

Country Status (1)

Country Link
JP (1) JP3655495B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776886A (en) * 2016-11-29 2017-05-31 中国农业银行股份有限公司 A kind of Webpage body matter abstracting method and device

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10115895C1 (en) * 2001-03-30 2002-12-19 Siemens Ag Method for generating a representation for the retrieval of an information page that has already been called up
JP3730878B2 (en) * 2001-04-06 2006-01-05 Necフィールディング株式会社 Information search distribution system, information search method, and program
JPWO2005121982A1 (en) * 2004-06-14 2008-04-10 日本電気株式会社 Information providing system, method, program, information communication terminal, and information display switching program
JP4826622B2 (en) * 2008-11-10 2011-11-30 日本電気株式会社 Document search apparatus, search method and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113356A (en) * 1997-06-13 1999-01-06 Nippon Telegr & Teleph Corp <Ntt> Information co-helping method, its system and recording medium storing information co-helping program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776886A (en) * 2016-11-29 2017-05-31 中国农业银行股份有限公司 A kind of Webpage body matter abstracting method and device
CN106776886B (en) * 2016-11-29 2019-09-24 中国农业银行股份有限公司 A kind of Webpage body matter abstracting method and device

Also Published As

Publication number Publication date
JP2000339320A (en) 2000-12-08

Similar Documents

Publication Publication Date Title
US20220164401A1 (en) Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
KR100505848B1 (en) Search System
US6665658B1 (en) System and method for automatically gathering dynamic content and resources on the world wide web by stimulating user interaction and managing session information
US7949648B2 (en) Compiling and accessing subject-specific information from a computer network
US20020055919A1 (en) Method and system for gathering, organizing, and displaying information from data searches
US20060288001A1 (en) System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant
EP0981097A1 (en) Search system and method for providing a fulltext search over web pages of world wide web servers
US20070033229A1 (en) System and method for indexing structured and unstructured audio content
US7849070B2 (en) System and method for dynamically ranking items of audio content
KR20040053369A (en) Information analysis method and apparatus
JP3803961B2 (en) Database generation apparatus, database generation processing method, and database generation program
US20040015485A1 (en) Method and apparatus for improved internet searching
JP2010128928A (en) Retrieval system and retrieval method
KR100283103B1 (en) Method and system of automatic indexing of product information in online store
JP2001060165A (en) System and method for deciding importance degree of information set and recording medium recording information set importance degree discrimination program
US8005827B2 (en) System and method for accessing preferred provider of audio content
JP3655495B2 (en) Information retrieval method and apparatus and recording medium on which information retrieval program is recorded
KR100557874B1 (en) Method of scientific information analysis and media that can record computer program thereof
JP2000331020A (en) Method and device for information reference and storage medium with information reference program stored
JP4010058B2 (en) Document association apparatus, document browsing apparatus, computer-readable recording medium recording a document association program, and computer-readable recording medium recording a document browsing program
Ayan et al. Automating extraction of logical domains in a web site
KR100667917B1 (en) A method of providing website searching service and a system thereof
US20070255670A1 (en) Method and System for Automatically Producing Computer-Aided Control and Analysis Apparatuses
KR100931772B1 (en) A method of providing website searching service and a system thereof
JP2003173351A (en) Method, device, program and storage medium for analysis, collection and retrieval of information

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041005

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050303

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080311

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090311

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090311

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100311

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110311

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees