JP2004054588A - Document retrieval device and method and program for making computer execute the same method - Google Patents

Document retrieval device and method and program for making computer execute the same method Download PDF

Info

Publication number
JP2004054588A
JP2004054588A JP2002211112A JP2002211112A JP2004054588A JP 2004054588 A JP2004054588 A JP 2004054588A JP 2002211112 A JP2002211112 A JP 2002211112A JP 2002211112 A JP2002211112 A JP 2002211112A JP 2004054588 A JP2004054588 A JP 2004054588A
Authority
JP
Japan
Prior art keywords
document
matching degree
attribute information
search
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002211112A
Other languages
Japanese (ja)
Inventor
Tatsuo Kato
加藤 竜雄
Sumio Fujita
藤田 澄男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2002211112A priority Critical patent/JP2004054588A/en
Publication of JP2004054588A publication Critical patent/JP2004054588A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To preferentially provide a document which is likely to be significant to a retriever to the retriever. <P>SOLUTION: A matching level calculating part 204a in a retrieval executing part 204 calculates the matching level of each document(home page) stored in a collected document storing part 202 with a retrieval condition inputted from a request input accepting part 203 by a vector space method. Then, the matching level correcting part 204b corrects the matching level calculated by the matching level calculating part 204a by taking into consideration various attributes such as the URL of each document, its positioned hierarchy, emphasized character strings in the title or text, referenced frequency from an external page or reference frequency to an internal page, and an anchor text being the reference origin. For example, concerning a document which is much more likely linked to the other documents in the same server or a document including a keyword which is the same or similar to the retrieval condition in the anchor text being the link origin, the calculated matching level is increased with a much higher rate. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
この発明は、複数の電子文書を各文書の検索条件に対する合致度にもとづいて順位づけする文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラムに関する。
【0002】
【従来の技術】
インターネットに存在する大量の文書の中から、何らかのテーマに関連する文書を取り出したい場合、検索者は「Yahoo!」「Google」などといった汎用のサーチエンジン、あるいは特定のテーマに特化した専門のサーチエンジンなどを利用するのが通例であった。これらのサーチエンジンにアクセスして、任意のキーワードを入力すると、当該キーワードを含む文書のタイトルなどを漏れなく画面表示させることができる。
【0003】
【発明が解決しようとする課題】
しかしながら、上記のようにして得られる検索結果一覧は非常に網羅的であるため、ヒットした文書数が多いと、一覧中から目的の文書を検索するにも時間や労力を要してしまうという問題点があった。結果一覧中での文書の配列(順序)が検索者にとっての各文書の重要度を反映していないために、目的の文書に到達するのに手間がかかってしまうと言ってもよい。
【0004】
この発明は上記従来技術による問題を解決するため、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
【0005】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項1に記載の発明にかかる文書検索装置は、複数の電子文書を各文書の検索条件に対する合致度にもとづいて順位づけする文書検索装置において、前記各文書の属性情報を抽出する属性情報抽出手段と、前記各文書の本文の前記検索条件に対する合致度を算出する合致度算出手段と、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された各文書の属性情報にもとづいて補正する合致度補正手段と、を備えたことを特徴とする。
【0006】
この請求項1に記載の発明によれば、本文だけでは優劣のつかない文書でも、その属性情報にもとづいていずれかが相対的に上位、いずれかが相対的に下位に順位づけされる。
【0007】
また、請求項2に記載の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書のURLを抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書のURLの前記検索条件に対する合致度にもとづいて補正することを特徴とする。
【0008】
この請求項2に記載の発明によれば、本文だけでは優劣のつかない文書でも、そのURLがより検索条件に類似する文書のほうが、相対的に上位に順位づけされる。
【0009】
また、請求項3に記載の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書を保持する情報処理装置内での当該文書の位置する階層を抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書の位置する階層にもとづいて補正することを特徴とする。
【0010】
この請求項3に記載の発明によれば、本文だけでは優劣のつかない文書でも、サーバ上で位置する階層のより浅い(ルートに近い)文書のほうが、相対的に上位に順位づけされる。
【0011】
また、請求項4に記載の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書のタイトルまたは前記各文書中の強調文字列を抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書のタイトルまたは当該文書中の強調文字列の前記検索条件に対する合致度にもとづいて補正することを特徴とする。
【0012】
この請求項4に記載の発明によれば、本文だけでは優劣のつかない文書でも、そのタイトルまたは文中の強調文字列がより検索条件に類似する文書のほうが、相対的に上位に順位づけされる。
【0013】
また、請求項5に記載の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書が当該文書を保持する情報処理装置内の他の文書にリンクする頻度を抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された頻度にもとづいて補正することを特徴とする。
【0014】
この請求項5に記載の発明によれば、本文だけでは優劣のつかない文書でも、同一サーバ内の他の文書により多くリンクする文書のほうが、相対的に上位に順位づけされる。
【0015】
また、請求項6に記載の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記属性情報抽出手段は、前記各文書にリンクする他の文書中で当該リンクが埋め込まれている文字列を抽出するとともに、前記合致度補正手段は、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された文字列の前記検索条件に対する合致度にもとづいて補正することを特徴とする。
【0016】
この請求項6に記載の発明によれば、本文だけでは優劣のつかない文書でも、他の文書に埋め込まれているアンカーテキストがより検索条件に類似する文書のほうが、相対的に上位に順位づけされる。
【0017】
また、請求項7に記載の発明にかかる文書検索方法は、複数の電子文書を各文書の検索条件に対する合致度にもとづいて順位づけする文書検索方法において、前記各文書の属性情報を抽出する属性情報抽出工程と、前記各文書の本文の前記検索条件に対する合致度を算出する合致度算出工程と、前記合致度算出工程で算出された合致度を、前記属性情報抽出工程で抽出された各文書の属性情報にもとづいて補正する合致度補正工程と、を含んだことを特徴とする。
【0018】
この請求項7に記載の発明によれば、本文だけでは優劣のつかない文書でも、その属性情報にもとづいていずれかが相対的に上位、いずれかが相対的に下位に順位づけされる。
【0019】
また、請求項8に記載の発明にかかるプログラムによれば、前記請求項7に記載された方法がコンピュータによって実行される。
【0020】
【発明の実施の形態】
以下に添付図面を参照して、この発明による文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラムの好適な実施の形態を詳細に説明する。
【0021】
図1は、この発明の実施の形態による文書検索装置のハードウエア構成を示す説明図である。同図において、101は装置全体を制御するCPUを、102は基本入出力プログラムを記憶したROMを、103はCPU101のワークエリアとして使用されるRAMを、それぞれ示している。
【0022】
また、104はCPU101の制御にしたがってHD(ハードディスク)105に対するデータのリード/ライトを制御するHDD(ハードディスクドライブ)を、105はHDD104の制御にしたがって書き込まれたデータを記憶するHDを、それぞれ示している。
【0023】
また、106はCPU101の制御にしたがってFD(フレキシブルディスク)107に対するデータのリード/ライトを制御するFDD(フレキシブルディスクドライブ)を、107はFDD106の制御にしたがって書き込まれたデータを記憶する着脱自在のFDを、それぞれ示している。
【0024】
また、108はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示するディスプレイを、109は通信回線110を介してインターネットに接続され、当該ネットワークとCPU101とのインターフェースとして機能するネットワークI/Fを、それぞれ示している。
【0025】
また、111は文字、数値、各種指示などの入力のための複数のキーを備えたキーボードを、112は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などをおこなうマウスを、それぞれ示している。また、113は着脱可能な記録媒体であるCD−RWを、114はCD−RW113に対するデータのリードを制御するCD−RWドライブを、100は上記各部を接続するためのバスまたはケーブルを、それぞれ示している。
【0026】
つぎに、図2はこの発明の実施の形態による文書検索装置の構成を機能的に示す説明図である。まず、200は文書収集部であり、インターネットを定期的に巡回して、そこで公開されているホームページ(厳密にはホームページを構成する、HTMLファイルやGIFファイルなどの各種ファイル)を収集する。そして、収集した文書を後述する収集文書解析部201に引き渡す。
【0027】
201は収集文書解析部であり、文書収集部200から引き渡された個々の文書を解析して、まず、キーワードから文書を検索するための転置ファイルを作成する。この転置ファイルとは、概念的には収集された全文書を行、当該文書群に出現する全キーワードを列とし、行と列の交点に各文書における各キーワードの出現有無あるいは出現頻度などを記録したテーブルである。
【0028】
また、収集文書解析部201は転置ファイルの作成とともに、個々の文書につき以下に掲げるような属性情報を抽出して、後述する収集文書保存部202に引き渡す。
【0029】
(1)URLText
文書を一意に特定するURL、たとえば「http://www.justsystem.co.jp/index.html」などである。
【0030】
(2)URLLength
文書がサーバ上で位置する階層の深さである(階層の深さはURLの長さとして表れる)。たとえばURLが「http://www.justsystem.co.jp/index.html」である文書AのURLLength=0(ルート)、「http://www.justsystem.co.jp/news/20020601.html」である文書BのURLLength=1である。
【0031】
(3)Title
文書のタイトル、すなわちその<title>タグ内に記述された全文字列である。
【0032】
(4)LargeFonts
文書内で強調されているすべての文字列である。どのような態様を「強調」とみなすかは任意であるが、たとえば文書内の他の文字列より大きい文字列(<font size=”+1”>タグ内などに記述された文字列)、他の文字列と色の異なる文字列(<font color=”#FF0000”>タグ内などの文字列)、太字や斜字など他の文字列と字体の異なる文字列(<b>タグ内や<i>タグ内の文字列)などを強調文字列とみなして、LargeFonts内に格納する。
【0033】
なお、LargeFontsには文字列そのものでなく、文書内の何文字目から何文字目までというような強調文字列の位置情報を格納するようにしてもよい。
【0034】
(5)InterServerLinked
文書が、当該文書の存在するサーバ以外の他のサーバの文書(外部ページ)からリンク(参照)されている頻度である。たとえば図3に示すように、サーバ1上の文書Aへジャンプするハイパーリンクがサーバ1上の文書B、サーバ2上の文書Cおよびサーバ3上の文書Dにそれぞれ埋め込まれており、文書B〜D以外に文書Aを参照する文書がなかったとすると、文書AのInterServerLinked=2(=1+1)である。
【0035】
(6)InnerServerLinker
文書が、当該文書の存在するサーバ内の他の文書(内部ページ)にリンクしている頻度である。たとえば図3に示すように、サーバ1上の文書Aがサーバ1上の文書B、サーバ2上の文書Cにジャンプするハイパーリンクをそれぞれ一つずつ含んでいたとすると、文書AのInnerServerLinker=1である。
【0036】
(7)InterServerAnchor
文書が、当該文書の存在するサーバ以外の他のサーバの文書からリンクされている場合に、当該リンクの埋め込まれている文字列である。たとえばサーバ1上の文書Aに対するハイパーリンクが、サーバ2上の文書Cに「<a href=”http://www.justsystem.co.jp/index.html”>株式会社ジャストシステムのホームページへ</a>」のような形で埋め込まれ、またサーバ3上の文書Dに「<a href=”http://www.justsystem.co.jp/index.html”>一太郎についてはこちら</a>」のような形で埋め込まれており、文書C・D以外に文書Aを参照する外部ページがない場合に、文書A(文書C・Dではない)のInterServerAnchor=”株式会社ジャストシステムのホームページへ””一太郎についてはこちら”、である。
【0037】
(8)InnerServerAnchor
文書が、当該文書の存在するサーバ内の他の文書からリンクされている場合に、当該リンクの埋め込まれている文字列である。たとえばサーバ1上の文書Aに対するハイパーリンクが、同じサーバ1上の文書Bに「<a href=”http://www.justsystem.co.jp/index.html”>ホームへ戻る</a>」のような形で埋め込まれており、サーバ1上に文書B以外に文書Aを参照する文書がない場合に、文書A(文書Bではない)のInnerServerAnchor=”ホームへ戻る”、である。
【0038】
図2の機能部の説明に戻り、つぎに202は収集文書保存部であり、収集文書解析部201から引き渡された各文書の本体と、各文書の属性情報(上述の(1)〜(8)の属性値)および上述の転置ファイルを保持している。
【0039】
203は要求入力受付部であり、操作者からの検索要求の入力を受け付けて、後述する検索実行部204に引き渡す機能部である。検索要求には少なくとも一つのキーワードと、キーワード間を結合するANDやORなどの検索条件が含まれている。なお、自然文により検索要求を入力させ、そこから形態素解析や構文解析によりキーワードを抽出して検索実行部204に引き渡すようにしてもよい。
【0040】
204は検索実行部であり、要求入力受付部203から引き渡された検索条件に対する、収集文書保存部202内の各文書の合致度(検索条件と各文書との類似度、と言ってもよい)を順次算出する合致度算出部204a、および合致度算出部204aにより算出された合致度を、上述した各文書の属性情報に鑑みて補正する合致度補正部204bを含む構成である。
【0041】
合致度算出部204aは、一般に「ベクトル空間法」と呼ばれる手法により各文書の合致度を算出する。ベクトル空間法では、検索条件中に含まれるキーワードの出現有無あるいは出現頻度などを要素値とするベクトル(クエリーベクトル)を作成するとともに、上述の転置ファイル中の各レコードにより各文書の文書ベクトルを作成する。そして、クエリーベクトルと各文書の文書ベクトルとの距離(コサイン距離)を順次算出し、当該距離が小さいほど大きく、当該距離が大きいほど小さくなるように合致度のスコアを算出する。このスコアにより、各文書を検索条件との合致度の順に順位づけすることができる。
【0042】
ただし、本発明では上記のようにして算出された各文書の合致度を、各文書について抽出された属性情報にもとづいて補正する。具体的には下記の通りである。
【0043】
(1)「URLText」すなわちURLの検索条件に対する合致度が高い文書ほど、検索条件に対するその合致度を高い割合で水増しする。URLはそのホームページに関係する企業その他の団体の名称、ページの主題などを含むことが多く、これらのキーワードは検索条件としても使用される頻度が高い。そこで、たとえばURLの合致度が80%である文書Aの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の180%(80%を加算)、URLの合致度が20%である文書Bの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の120%(20%を加算)、というように、URLの合致度に応じた補正をおこなう。
【0044】
なお、ここでは一例として「補正後の合致度=補正前の合致度+(補正前の合致度×URLの合致度)」という計算式を使用したが、URLに検索条件と同一または類似の文字列が多く含まれるほど文書の合致度が高めに補正されるのであれば、計算式は任意のものであってよい。
【0045】
(2)「URLLength」すなわち文書の位置する階層によって、より上位の階層(よりルートに近い階層)の文書ほど、検索条件に対するその合致度を高い割合で水増しする。検索者が探しているのはトップページや、トップページに近いページであることが多く、これらのページは通常は上位の階層に置かれている。そこで、たとえばURLLength=0の文書Aの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の200%、URLLength=1の文書Bの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の190%、というように、文書の位置する階層に応じた補正をおこなう。
【0046】
なお、ここでは一例として「補正後の合致度=補正前の合致度+{補正前の合致度×(1−URLLength×0.1)}」という計算式を使用したが、位置する階層の浅い文書ほどその合致度が高めに補正されるのであれば、計算式は任意のものであってよい。
【0047】
(3)「Title」すなわち文書のタイトルの、検索条件に対する合致度が高い文書ほど、検索条件に対するその合致度を高い割合で水増しする。タイトルはURLと同じく、検索条件として使用されるキーワードを含む可能性が高い。そこで、たとえばタイトルの検索条件に対する合致度が80%である文書Aの、検索条件に対する合致度は、合致度算出部204aにより算出された合致度の180%、タイトルの合致度が20%である文書Bの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の120%、というように、タイトルの合致度に応じた補正をおこなう。
【0048】
なお、ここでは一例として「補正後の合致度=補正前の合致度+(補正前の合致度×タイトルの合致度)」という計算式を使用したが、タイトルに検索条件と同一または類似の文字列が多く含まれるほど文書の合致度が高めに補正されるのであれば、計算式は任意のものであってよい。また、上述のURLによる補正と同一の計算式である必要もない。
【0049】
(4)「LargeFonts」すなわち文書内の強調文字列の、検索条件に対する合致度が高い文書ほど、検索条件に対するその合致度を高い割合で水増しする。強調文字列はURLやタイトルと同じく、検索条件として使用されるキーワードを含む可能性が高い。そこで、たとえば強調文字列部分の検索条件に対する合致度が80%である文書Aの、検索条件に対する合致度は、合致度算出部204aにより算出された合致度の180%、強調文字列部分の合致度が20%である文書Bの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の120%、というように、強調文字列の合致度に応じた補正をおこなう。
【0050】
なお、ここでは一例として「補正後の合致度=補正前の合致度+(補正前の合致度×強調文字列の合致度)」という計算式を使用したが、強調部分に検索条件と同一または類似の文字列が多く含まれるほど文書の合致度が高めに補正されるのであれば、計算式は任意のものであってよい。また、上述のURLやタイトルによる補正と同一の計算式である必要もない。
【0051】
(5)「InterServerLinked」すなわち他のサーバの文書からリンクされる頻度が高い文書ほど、検索条件に対するその合致度を高い割合で水増しする。多くの外部ページからリンクされている文書はそれだけ内容の充実した、客観的な評価の高い文書であって、検索者にとっても相対的に重要なものである可能性が高い。そこで、たとえばInterServerLinked=2の文書Aの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の120%というように、他文書からのリンク回数に応じた補正をおこなう。
【0052】
なお、ここでは一例として「補正後の合致度=補正前の合致度+(補正前の合致度×被参照頻度×0.1)」という計算式を使用したが、多くの文書からリンクされるほど文書の合致度が高めに補正されるのであれば、計算式は任意のものであってよい。
【0053】
(6)「InnerServerLinker」すなわち同一サーバ内の他の文書にリンクする頻度が高い文書ほど、検索条件に対するその合致度を高い割合で水増しする。多くの内部ページにリンクする文書はトップページや、少なくとも飛び先の内容を束ねたようなページであって、検索者にとっても相対的に重要なものである可能性が高い。そこで、たとえばInnerServerLinker=1の文書Aの検索条件に対する合致度は、合致度算出部204aにより算出された合致度の110%というように、他文書へのリンク頻度に応じた補正をおこなう。
【0054】
なお、ここでは一例として「補正後の合致度=補正前の合致度+(補正前の合致度×参照頻度×0.1)」という計算式を使用したが、同一サーバ内の多くの文書にリンクするほど文書の合致度が高めに補正されるのであれば、計算式は任意のものであってよい。
【0055】
(7)「InterServerAnchor」すなわちその文書へのリンクが埋め込まれた外部ページ中の文字列の、検索条件に対する合致度が高い文書ほど、検索条件に対するその合致度を高い割合で水増しする。飛び先のページの内容や性質を端的に表現するアンカーテキストは、上述のURL、タイトルおよび強調文字列と同じく、検索条件として使用されるキーワードを含む可能性が高い。
そこで、たとえば外部ページ中のアンカーテキストの検索条件に対する合致度が80%である文書Aの、検索条件に対する合致度は、合致度算出部204aにより算出された合致度の180%というように、アンカーテキストの合致度に応じた補正をおこなう。
【0056】
なお、ここでは一例として「補正後の合致度=補正前の合致度+(補正前の合致度×InterServerAnchorの合致度)」という計算式を使用したが、アンカーテキストに検索条件と同一または類似の文字列が多く含まれるほど文書の合致度が高めに補正されるのであれば、計算式は任意のものであってよい。また、上述のURLやタイトル、あるいは強調文字列による補正と同一の計算式である必要もない。
【0057】
(8)「InnerServerAnchor」すなわちその文書へのリンクが埋め込まれた内部ページ中の文字列の、検索条件に対する合致度が高い文書ほど、検索条件に対するその合致度を高い割合で水増しする。その理由と手順は上述のInterServerAnchorと同様であって、たとえば内部ページ中のアンカーテキストの検索条件に対する合致度が80%である文書Aの、検索条件に対する合致度は、合致度算出部204aにより算出された合致度の180%というように、アンカーテキストの合致度に応じた補正をおこなう。
【0058】
なお、ここでは一例として「補正後の合致度=補正前の合致度+(補正前の合致度×InnerServerAnchorの合致度)」という計算式を使用したが、アンカーテキストに検索条件と同一または類似の文字列が多く含まれるほど文書の合致度が高めに補正されるのであれば、計算式は任意のものであってよい。また、上述のURL、タイトル、強調文字列あるいはInterServerAnchorによる補正と同一の計算式である必要もない。
【0059】
合致度補正部204bは各文書につき、上記各属性を勘案した補正後の合致度を算出し、たとえばその平均値(単純平均あるいは加重平均)を取ることで、各文書の補正後の合致度を算出する。または、各属性による補正後の合致度を単純に、あるいは所定の重み付けのもとに合計して、各文書の補正後の合致度とするのであってもよい。その後、合致度補正部204bは合致度の順に文書を順位づけするとともに、合致度が閾値を超えた文書のタイトルおよび当該文書の合致度を後述する結果出力部205に引き渡す。
【0060】
図2に戻り、つぎに205は結果出力部であり、検索実行部204から引き渡された文書、すなわち検索結果を検索結果一覧などとしてディスプレイ108に表示する。
【0061】
つぎに、図4はこの発明の実施の形態による文書検索装置における、属性情報抽出処理の手順を示すフローチャートである。この処理は後述する文書検索処理の前準備として、あらかじめ指定された時期に定期的に実行されるものである。
【0062】
文書収集部200は指定された時期になると、インターネットを巡回して文書収集をおこない(ステップS401)、所定の終了条件、たとえばN個先のリンクまで辿り切ったなどの条件が満たされると(ステップS402:Yes)、収集した文書を収集文書解析部201に引き渡す。
【0063】
収集文書解析部201は引き渡された文書から、上述の各属性情報を抽出のうえ(ステップS403)、文書と各属性情報との対応表、および文書とキーワードとの対応表である転置ファイルなどの各種データベースを作成する(ステップS404)。
【0064】
つぎに、図5はこの発明の実施の形態による文書検索装置における、文書検索処理の手順を示すフローチャートである。
【0065】
要求入力受付部203は、検索者による検索要求の入力を待ち受けて(ステップS501)、その入力があると(ステップS502:Yes)、当該検索要求を検索実行部204に引き渡す。
【0066】
検索実行部204はまず入力した検索要求中で、絞り込み検索が指定されているかどうかを判定する(ステップS503)。絞り込み検索とは上述したベクトル空間法による文書検索の前に、検索対象となる文書をあらかじめ絞り込む処理であって、たとえば収集文書保存部202内の文書のうちある一定期間内に作成・更新された文書や、ある特定の筆者により作成された文書などに限って、合致度算出部204aや合致度補正部204bによる合致度の計算をおこなわせることができる(それ以外の文書について計算を省略できるので処理速度が向上する)。
【0067】
そして、絞り込み検索が指定されている場合は(ステップS503:Yes)、収集文書保存部202内の文書から指定された文書だけを抽出(絞り込み検索)のうえ(ステップS504)、それらの文書について合致度の算出および補正をおこなう(ステップS505)。一方、絞り込み検索が指定されていなければ(ステップS503:No)、収集文書保存部202内の全文書につき合致度の算出および補正をおこなう(ステップS505)。
【0068】
その後、検索結果を引き渡された結果出力部205が検索結果一覧の表示をおこない(ステップS506)、検索者から検索終了が指示されない限り(ステップS507:No)、ステップS501に戻ってつぎの検索条件の入力を受け付ける。
【0069】
以上説明した実施の形態によれば、検索対象文書の順位づけはその本文と検索条件との類似度だけでなく、URL、位置する階層、タイトルや本文中の強調文字列、外部ページからの被参照頻度や内部ページへの参照頻度、参照元のアンカーテキストなどといった種々の属性に鑑みて総合的に実施される。
【0070】
実際には、上記で示した属性情報を基礎に上記のような方針で合致度の水増しをおこなうと、一つのサイトを構成する複数のホームページのうち、入り口ページあるいは代表ページとして機能する中核のホームページが、相対的に検索結果中の上位に現れやすくなる。そして、検索者が探しているのはサイト内のマイナーなページではなく、こうした中心的なページであることが多いので、上述のような合致度の補正により、本文だけでは合致度に優劣のつかない類似文書の中から、検索者にとって相対的に重要である可能性の高い文書を上位に抽出することができる。
【0071】
なお、上述した文書収集部200、収集文書解析部201、要求入力受付部203、検索実行部204および結果出力部205は、具体的にはHD105からRAM103に読み出されたプログラムをCPU101が実行することにより実現されるものである。このプログラムはHD105のほか、FD107、CD−RW113、MOなどの各種の記録媒体に格納して配布することができ、ネットワークを介して配布することも可能である。また、収集文書保存部202はHD105により実現される。
【0072】
【発明の効果】
以上説明したように請求項1に記載の発明は、複数の電子文書を各文書の検索条件に対する合致度にもとづいて順位づけする文書検索装置において、前記各文書の属性情報を抽出する属性情報抽出手段と、前記各文書の本文の前記検索条件に対する合致度を算出する合致度算出手段と、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された各文書の属性情報にもとづいて補正する合致度補正手段と、を備えたので、本文だけでは優劣のつかない文書でも、その属性情報にもとづいていずれかが相対的に上位、いずれかが相対的に下位に順位づけされ、これによって、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索装置が得られるという効果を奏する。
【0073】
また、請求項2に記載の発明は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書のURLを抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書のURLの前記検索条件に対する合致度にもとづいて補正するので、本文だけでは優劣のつかない文書でも、そのURLがより検索条件に類似する文書のほうが、相対的に上位に順位づけされ、これによって、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索装置が得られるという効果を奏する。
【0074】
また、請求項3に記載の発明は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書を保持する情報処理装置内での当該文書の位置する階層を抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書の位置する階層にもとづいて補正するので、本文だけでは優劣のつかない文書でも、サーバ上で位置する階層のより浅い(ルートに近い)文書のほうが、相対的に上位に順位づけされ、これによって、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索装置が得られるという効果を奏する。
【0075】
また、請求項4に記載の発明は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書のタイトルまたは前記各文書中の強調文字列を抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書のタイトルまたは当該文書中の強調文字列の前記検索条件に対する合致度にもとづいて補正するので、本文だけでは優劣のつかない文書でも、そのタイトルまたは文中の強調文字列がより検索条件に類似する文書のほうが、相対的に上位に順位づけされ、これによって、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索装置が得られるという効果を奏する。
【0076】
また、請求項5に記載の発明は、前記請求項1に記載の発明において、前記属性情報抽出手段が、前記各文書が当該文書を保持する情報処理装置内の他の文書にリンクする頻度を抽出するとともに、前記合致度補正手段が、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された頻度にもとづいて補正するので、本文だけでは優劣のつかない文書でも、同一サーバ内の他の文書により多くリンクする文書のほうが、相対的に上位に順位づけされ、これによって、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索装置が得られるという効果を奏する。
【0077】
また、請求項6に記載の発明は、前記請求項1に記載の発明において、前記属性情報抽出手段は、前記各文書にリンクする他の文書中で当該リンクが埋め込まれている文字列を抽出するとともに、前記合致度補正手段は、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された文字列の前記検索条件に対する合致度にもとづいて補正するので、本文だけでは優劣のつかない文書でも、他の文書に埋め込まれているアンカーテキストがより検索条件に類似する文書のほうが、相対的に上位に順位づけされ、これによって、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索装置が得られるという効果を奏する。
【0078】
また、請求項7に記載の発明は、複数の電子文書を各文書の検索条件に対する合致度にもとづいて順位づけする文書検索方法において、前記各文書の属性情報を抽出する属性情報抽出工程と、前記各文書の本文の前記検索条件に対する合致度を算出する合致度算出工程と、前記合致度算出工程で算出された合致度を、前記属性情報抽出工程で抽出された各文書の属性情報にもとづいて補正する合致度補正工程と、を含んだので、本文だけでは優劣のつかない文書でも、その属性情報にもとづいていずれかが相対的に上位、いずれかが相対的に下位に順位づけされ、これによって、検索者にとって重要である可能性の高い文書を優先的に検索者に提示することが可能な文書検索方法が得られるという効果を奏する。
【0079】
また、請求項8に記載の発明によれば、前記請求項7に記載された方法をコンピュータに実行させることが可能なプログラムが得られるという効果を奏する。
【図面の簡単な説明】
【図1】この発明の実施の形態による文書検索装置のハードウエア構成を示す説明図である。
【図2】この発明の実施の形態による文書検索装置の機能的構成を示す説明図である。
【図3】この発明の実施の形態による文書検索装置により収集された、複数の文書間の参照関係の一例を示す説明図である。
【図4】この発明の実施の形態による文書検索装置における、属性情報抽出処理の手順を示すフローチャートである。
【図5】この発明の実施の形態による文書検索装置における、文書検索処理の手順を示すフローチャートである。
【符号の説明】
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 ディスプレイ
109 ネットワークI/F
110 通信回線
111 キーボード
112 マウス
113 CD−RW
114 CD−RWドライブ
200 文書収集部
201 収集文書解析部
202 収集文書保存部
203 要求入力受付部
204 検索実行部
205 結果出力部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document search device, a document search method, and a program for causing a computer to execute a method for ranking a plurality of electronic documents based on the degree of matching of each document with search conditions.
[0002]
[Prior art]
If you want to retrieve documents related to a certain theme from a large number of documents existing on the Internet, searchers can use a general-purpose search engine such as "Yahoo!" or "Google", or a specialized search specialized for a particular theme. It was customary to use an engine or the like. When the user accesses these search engines and inputs an arbitrary keyword, the title of a document including the keyword can be displayed on the screen without omission.
[0003]
[Problems to be solved by the invention]
However, since the search result list obtained as described above is very comprehensive, if the number of hit documents is large, it takes time and effort to search for the target document from the list. There was a point. Since the arrangement (order) of the documents in the result list does not reflect the importance of each document to the searcher, it can be said that it takes time to reach the target document.
[0004]
SUMMARY OF THE INVENTION The present invention solves the above-described problem of the prior art, and provides a document search apparatus, a document search method, and a computer-readable storage medium capable of preferentially presenting a document likely to be important to a searcher to the searcher. The purpose is to provide a program to be executed.
[0005]
[Means for Solving the Problems]
In order to solve the above-described problem and achieve the object, a document search device according to the first aspect of the present invention is a document search device that ranks a plurality of electronic documents based on the degree of matching of each document with search conditions. Attribute information extracting means for extracting attribute information of each document, matching degree calculating means for calculating a matching degree of the text of each document with respect to the search condition, and a matching degree calculated by the matching degree calculating means, Matching degree correction means for correcting based on the attribute information of each document extracted by the attribute information extraction means.
[0006]
According to the first aspect of the present invention, even in a document which is not superior or inferior in terms of the text alone, one of the documents is ranked relatively higher and the other is relatively ranked lower based on the attribute information.
[0007]
Also, in the document search device according to the second aspect of the present invention, in the invention according to the first aspect, the attribute information extracting unit extracts a URL of each of the documents, and the matching degree correction unit includes The matching degree calculated by the matching degree calculating means is corrected based on the matching degree of the URL of the document extracted by the attribute information extracting means with the search condition.
[0008]
According to the second aspect of the present invention, even for a document which is not superior or inferior only by the text, a document whose URL is more similar to the search condition is ranked relatively higher.
[0009]
According to a third aspect of the present invention, in the document search device according to the first aspect, the attribute information extracting unit locates the document in an information processing apparatus holding each of the documents. Extracting a hierarchy and correcting the matching degree calculated by the matching degree calculation means based on the hierarchy in which the document is extracted by the attribute information extraction means. I do.
[0010]
According to the third aspect of the present invention, even a document that is not superior or inferior in terms of the text alone, a document located on the server and having a shallower hierarchy (closer to the root) is ranked relatively higher.
[0011]
According to a fourth aspect of the present invention, in the document search apparatus according to the first aspect, the attribute information extracting unit extracts a title of each document or an emphasized character string in each document. And the matching degree correcting means calculates the matching degree calculated by the matching degree calculating means, by the matching degree of the title of the document extracted by the attribute information extracting means or the emphasized character string in the document with respect to the search condition. The correction is performed based on
[0012]
According to the fourth aspect of the present invention, even in a document which is not superior or inferior in terms of the text alone, a document whose title or emphasized character string in the sentence is more similar to the search condition is ranked relatively higher. .
[0013]
According to a fifth aspect of the present invention, in the document search device according to the first aspect, the attribute information extracting means is configured to determine that each of the documents has another document in the information processing apparatus that holds the document. In addition, the frequency of linking to the attribute information is extracted, and the degree-of-match correction means corrects the degree of match calculated by the degree-of-match calculation means based on the frequency extracted by the attribute information extraction means.
[0014]
According to the fifth aspect of the present invention, a document which is linked to more documents in the same server than other documents in the same server is ranked relatively higher even if the document is not determined by the text alone.
[0015]
According to a sixth aspect of the present invention, in the document search device according to the first aspect, the attribute information extracting unit includes the link information embedded in another document linked to each of the documents. And the matching degree correcting means corrects the matching degree calculated by the matching degree calculating means on the basis of the matching degree of the character string extracted by the attribute information extracting means with the search condition. It is characterized by doing.
[0016]
According to the sixth aspect of the present invention, even in a document that is not superior or inferior in terms of the text alone, a document whose anchor text embedded in another document is more similar to the search condition is ranked relatively higher. Is done.
[0017]
According to a seventh aspect of the present invention, in the document search method for ranking a plurality of electronic documents based on the degree of matching of each document with a search condition, an attribute for extracting attribute information of each document is provided. An information extracting step, a matching degree calculating step of calculating a matching degree of the text of each document with respect to the search condition, and a matching degree calculated in the matching degree calculating step, wherein each of the documents extracted in the attribute information extracting step And a matching degree correcting step of correcting based on the attribute information of the above.
[0018]
According to the seventh aspect of the present invention, even in a document in which superiority is inferior only by the text alone, one of the documents is ranked relatively higher and the other is ranked relatively lower based on the attribute information.
[0019]
According to a program according to an eighth aspect of the present invention, the method according to the seventh aspect is executed by a computer.
[0020]
BEST MODE FOR CARRYING OUT THE INVENTION
Preferred embodiments of a document search device, a document search method, and a program for causing a computer to execute the method according to the present invention will be described in detail below with reference to the accompanying drawings.
[0021]
FIG. 1 is an explanatory diagram showing a hardware configuration of a document search device according to an embodiment of the present invention. In FIG. 1, reference numeral 101 denotes a CPU for controlling the entire apparatus, 102 denotes a ROM storing a basic input / output program, and 103 denotes a RAM used as a work area of the CPU 101.
[0022]
An HDD (hard disk drive) 104 controls reading / writing of data from / to an HD (hard disk) 105 under the control of the CPU 101, and an HD 105 stores data written under the control of the HDD 104. I have.
[0023]
An FDD (Flexible Disk Drive) 106 controls reading / writing of data from / to an FD (Flexible Disk) 107 under the control of the CPU 101, and a detachable FD 107 stores data written under the control of the FDD 106. Are shown respectively.
[0024]
Reference numeral 108 denotes a display for displaying various data such as cursors, menus, windows, and characters and images. Reference numeral 109 denotes a network I / O connected to the Internet via a communication line 110 and functioning as an interface between the network and the CPU 101. F are shown respectively.
[0025]
Reference numeral 111 denotes a keyboard having a plurality of keys for inputting characters, numerical values, various instructions, and the like. 112 denotes a mouse for selecting and executing various instructions, selecting a processing target, moving a mouse pointer, and the like. Is shown. Reference numeral 113 denotes a CD-RW which is a removable recording medium, 114 denotes a CD-RW drive for controlling reading of data from / to the CD-RW 113, and 100 denotes a bus or a cable for connecting each of the above units. ing.
[0026]
Next, FIG. 2 is an explanatory diagram functionally showing the configuration of the document search device according to the embodiment of the present invention. First, reference numeral 200 denotes a document collection unit which periodically circulates the Internet and collects homepages published there (strictly, various files such as HTML files and GIF files that constitute the homepage). Then, the collected document is delivered to a collected document analysis unit 201 described later.
[0027]
Reference numeral 201 denotes a collected document analysis unit that analyzes each document delivered from the document collection unit 200 and first creates an inverted file for searching for a document from a keyword. This transposed file is conceptually a line of all collected documents, a column of all keywords appearing in the document group, and the presence or absence or frequency of each keyword in each document is recorded at the intersection of rows and columns. It is a table.
[0028]
In addition, together with the creation of the transposed file, the collection document analysis unit 201 extracts the following attribute information for each document and transfers the attribute information to the collection document storage unit 202 described later.
[0029]
(1) URLText
A URL that uniquely specifies the document, for example, “http://www.justsystem.co.jp/index.html” or the like.
[0030]
(2) URL Length
The depth of the hierarchy where the document is located on the server (the depth of the hierarchy is expressed as the length of the URL). For example, the URL of the document A whose URL is “http://www.justsystem.co.jp/index.html”=0 (root), and“ http://www.justsystem.co.jp/news/20020601.html ”. , The URL length of the document B is “1”.
[0031]
(3) Title
This is the title of the document, that is, the entire character string described in the <title> tag.
[0032]
(4) LargeFonts
All strings highlighted in the document. What kind of aspect is regarded as “emphasis” is arbitrary, for example, a character string larger than other character strings in the document (a character string described in a <font size = “+ 1”> tag, etc.), Character string (character string in <font color = "# FF0000"> tag or the like) with a color different from that of other character strings such as bold or italic characters (characters in the <b> tag or <b (i> character string in tag) is regarded as an emphasized character string and stored in LargeFonts.
[0033]
Note that the LargeFonts may store not only the character string itself but also the position information of the emphasized character string such as from what character to what character in the document.
[0034]
(5) InterServerLinked
This is the frequency at which the document is linked (referenced) from a document (external page) on a server other than the server where the document exists. For example, as shown in FIG. 3, hyperlinks for jumping to document A on server 1 are embedded in document B on server 1, document C on server 2, and document D on server 3, respectively. If there is no document other than D that references document A, then InterServerLinked of document A = 2 (= 1 + 1).
[0035]
(6) InnerServerLinker
This is the frequency at which the document is linked to another document (internal page) in the server where the document exists. For example, as shown in FIG. 3, assuming that document A on server 1 includes one hyperlink that jumps to document B on server 1 and one hyperlink that jumps to document C on server 2, InnerServerLinker = 1 of document A It is.
[0036]
(7) InterServerAnchor
When the document is linked from a document on a server other than the server where the document is located, this is a character string in which the link is embedded. For example, when a hyperlink to document A on server 1 is added to document C on server 2 as “<a href =" http: // www. justsystem. co. jp / index. http://www.justsystem.co.jp "in the form of </a>, and in the document D on the server 3,"<a href = "http: // www. justsystem. co. jp / index. html "> Ichitaro is embedded in the form like here </a>, and if there is no external page referring to document A other than document C / D, document A (not document C / D) InterServerAnchor = “JustSystems Inc. homepage” “Click here for Ichitaro”.
[0037]
(8) InnerServerAnchor
When the document is linked from another document in the server where the document exists, the character string in which the link is embedded. For example, when a hyperlink to document A on server 1 is added to document B on the same server 1 as “<a href =" http: // www. justsystem. co. jp / index. html "> return to home </a>", and if there is no document that refers to document A other than document B on server 1, InnerServerAnchor of document A (not document B) = "Return to home".
[0038]
Returning to the description of the functional units in FIG. 2, reference numeral 202 denotes a collected document storage unit, and the main body of each document passed from the collected document analysis unit 201 and the attribute information of each document ((1) to (8) ) Is stored.
[0039]
A request input receiving unit 203 is a functional unit that receives an input of a search request from an operator and passes it to a search execution unit 204 described later. The search request includes at least one keyword and search conditions such as AND and OR for combining the keywords. Note that a search request may be input using a natural sentence, and keywords may be extracted from the search request by morphological analysis or syntax analysis and delivered to the search execution unit 204.
[0040]
Reference numeral 204 denotes a search execution unit that matches each document in the collected document storage unit 202 with the search condition passed from the request input reception unit 203 (it may be called similarity between the search condition and each document). Are sequentially calculated, and a matching degree correction unit 204b that corrects the matching degree calculated by the matching degree calculation unit 204a in view of the attribute information of each document described above.
[0041]
The matching degree calculation unit 204a calculates the matching degree of each document by a method generally called a “vector space method”. In the vector space method, a vector (query vector) having element values such as the presence / absence or appearance frequency of a keyword included in a search condition is created, and a document vector of each document is created from each record in the above-described transposed file. I do. Then, the distance (cosine distance) between the query vector and the document vector of each document is sequentially calculated, and a score of the matching degree is calculated such that the smaller the distance is, the larger the distance is, and the larger the distance is, the smaller the matching score is. With this score, each document can be ranked in the order of the degree of matching with the search condition.
[0042]
However, in the present invention, the matching degree of each document calculated as described above is corrected based on the attribute information extracted for each document. Specifically, it is as follows.
[0043]
(1) “URLText”, that is, a document having a higher matching degree with respect to a URL search condition, inflates the matching degree with the search condition at a higher rate. The URL often includes the names of companies and other organizations related to the home page, the subject of the page, and the like, and these keywords are frequently used as search conditions. Therefore, for example, the matching degree for the search condition of the document A whose URL matching degree is 80% is 180% (adding 80%) of the matching degree calculated by the matching degree calculating unit 204a, and the URL matching degree is 20%. The matching degree with respect to the search condition of document B is corrected according to the matching degree of the URL, such as 120% (addition of 20%) of the matching degree calculated by the matching degree calculation unit 204a.
[0044]
Here, as an example, a calculation formula of “matching degree after correction = matching degree before correction + (matching degree before correction × matching degree of URL)” is used, but the URL has the same or similar character as the search condition. As long as the number of columns is increased, the matching degree of the document is corrected to be higher, and the calculation formula may be arbitrary.
[0045]
(2) "URL Length", that is, the higher the level of the document (the level closer to the root), the higher the level of matching of the document with the search condition is increased. Searchers are often looking for the top page or pages that are close to the top page, and these pages are usually located at higher levels. Therefore, for example, the matching degree for the search condition of the document A with URL Length = 0 is 200% of the matching degree calculated by the matching degree calculation unit 204a, and the matching degree for the search condition of the document B with URL Length = 1 is the matching degree calculation unit. Correction is performed according to the hierarchy in which the document is located, for example, 190% of the degree of matching calculated by 204a.
[0046]
Here, as an example, a calculation formula of “the degree of matching after correction = the degree of matching before correction + {the degree of matching before correction × (1−URLLength × 0.1)}} is used. The calculation formula may be arbitrary as long as the matching degree of the document is corrected to be higher.
[0047]
(3) The higher the degree of matching of the “Title”, that is, the title of the document with the search condition, the higher the proportion of the match with the search condition. Like the URL, the title is likely to include a keyword used as a search condition. Therefore, for example, the matching degree of the document A whose matching degree with the search condition of the title is 80% is 180% of the matching degree calculated by the matching degree calculating unit 204a, and the matching degree of the title is 20%. The degree of matching of the document B with the search condition is corrected according to the degree of matching of the title, such as 120% of the degree of matching calculated by the degree of matching calculating unit 204a.
[0048]
Here, as an example, a calculation formula of “matching degree after correction = matching degree before correction + (matching degree before correction × matching degree of title)” is used, but the title has the same or similar character as the search condition. As long as the number of columns is increased, the matching degree of the document is corrected to be higher, and the calculation formula may be arbitrary. Further, it is not necessary to use the same calculation formula as the above-described correction based on the URL.
[0049]
(4) The higher the degree of matching of the “LargeFonts”, that is, the emphasized character string in the document with the search condition, the higher the degree of matching with the search condition. Like the URL and the title, the emphasized character string is likely to include a keyword used as a search condition. Therefore, for example, the matching degree of the document A in which the matching degree of the emphasized character string portion with the search condition is 80% is 180% of the matching degree calculated by the matching degree calculating unit 204a, and the matching degree of the emphasized character string part is Correction according to the matching degree of the emphasized character string is performed such that the matching degree for the search condition of the document B having the degree of 20% is 120% of the matching degree calculated by the matching degree calculation unit 204a.
[0050]
Here, as an example, the calculation formula “matching degree after correction = matching degree before correction + (matching degree before correction × matching degree of emphasized character string)” is used. The calculation formula may be arbitrary as long as the matching degree of the document is corrected to be higher as more similar character strings are included. Further, it is not necessary to use the same calculation formula as the correction based on the URL or the title described above.
[0051]
(5) “InterServerLinked”, that is, a document that is frequently linked from a document of another server, inflates the matching degree with the search condition at a high rate. Documents linked from many external pages are rich in content and highly evaluated objectively, and are likely to be relatively important for searchers. Therefore, for example, the degree of matching with respect to the search condition of the document A of InterServerLinked = 2 is corrected according to the number of links from other documents, such as 120% of the degree of matching calculated by the degree-of-match calculating unit 204a.
[0052]
Here, as an example, a calculation formula “matching degree after correction = matching degree before correction + (matching degree before correction × referenced frequency × 0.1)” is used, but links are made from many documents. As long as the matching degree of the document is corrected to be higher, the calculation formula may be arbitrary.
[0053]
(6) “InnerServerLinker”, that is, a document that has a higher frequency of linking to another document in the same server, inflates the matching degree with the search condition at a higher rate. A document linked to many internal pages is a top page, or at least a page that bundles the contents of a jump destination, and is likely to be relatively important for a searcher. Therefore, for example, the matching degree with respect to the search condition of the document A of InnerServerLinker = 1 is corrected according to the link frequency to another document, such as 110% of the matching degree calculated by the matching degree calculation unit 204a.
[0054]
Here, as an example, a calculation formula of “matching degree after correction = matching degree before correction + (matching degree before correction × reference frequency × 0.1)” is used, but many documents in the same server are used. The calculation formula may be arbitrary as long as the degree of matching of the document is corrected to be higher as the link is made.
[0055]
(7) The higher the degree of matching of the "InterServerAnchor", that is, the character string in the external page in which the link to the document is embedded with the search condition, to the search condition, the higher the degree of matching with the search condition is increased. Like the URL, title, and emphasized character string described above, the anchor text that simply expresses the contents and properties of the destination page is likely to include a keyword used as a search condition.
Therefore, for example, the matching degree of the document A in which the matching degree of the anchor text in the external page with the search condition is 80% is 180% of the matching degree calculated by the matching degree calculation unit 204a. Performs correction according to the degree of matching of text.
[0056]
Here, as an example, a calculation formula “matching degree after correction = matching degree before correction + (matching degree before correction × matching degree of InterServerAnchor)” is used, but the anchor text has the same or similar search condition as the search condition. The calculation formula may be arbitrary as long as the matching degree of the document is corrected to be higher as the number of character strings is increased. Further, it is not necessary to use the same calculation formula as the correction by the URL, the title, or the emphasized character string.
[0057]
(8) The higher the degree of matching of the character string in the inner page embedded with the link to the document to the search condition with respect to the search condition, the higher the degree of matching of the character string in the internal page with the search condition. The reason and the procedure are the same as those of the above-mentioned InterServerAnchor. For example, the matching degree with respect to the search condition of the document A whose matching degree with the search condition of the anchor text in the internal page is 80% is calculated by the matching degree calculation unit 204a. Correction is performed according to the degree of matching of the anchor text, such as 180% of the degree of matching.
[0058]
Here, as an example, a calculation formula of “matching degree after correction = matching degree before correction + (matching degree before correction × matching degree of InnerServerAnchor)” is used, but the anchor text has the same or similar search condition as the search condition. The calculation formula may be arbitrary as long as the matching degree of the document is corrected to be higher as the number of character strings is increased. Further, it is not necessary to use the same calculation formula as the correction by the above URL, title, emphasized character string, or InterServerAnchor.
[0059]
The matching degree correction unit 204b calculates the corrected matching degree for each document in consideration of the above attributes, and calculates the average value (simple average or weighted average), for example, to determine the corrected matching degree of each document. calculate. Alternatively, the degree of matching after correction by each attribute may be simply or summed under a predetermined weight to obtain the degree of matching after correction of each document. Thereafter, the matching degree correction unit 204b ranks the documents in order of the matching degree, and passes the title of the document whose matching degree exceeds the threshold value and the matching degree of the document to the result output unit 205 described later.
[0060]
Referring back to FIG. 2, reference numeral 205 denotes a result output unit which displays the document delivered from the search execution unit 204, that is, the search result, on the display 108 as a search result list or the like.
[0061]
FIG. 4 is a flowchart showing a procedure of attribute information extraction processing in the document search device according to the embodiment of the present invention. This process is periodically executed at a time designated in advance as preparation for a document search process described later.
[0062]
At a designated time, the document collection unit 200 performs document collection by circulating the Internet (step S401), and when a predetermined end condition, for example, a condition such as tracing up to N links ahead is satisfied (step S401). S402: Yes), the collected document is delivered to the collected document analysis unit 201.
[0063]
The collected document analysis unit 201 extracts each of the above-described attribute information from the delivered document (step S403), and stores a correspondence table between the document and each attribute information and an inverted file which is a correspondence table between the document and the keyword. Various databases are created (step S404).
[0064]
FIG. 5 is a flowchart showing a procedure of a document search process in the document search device according to the embodiment of the present invention.
[0065]
The request input receiving unit 203 waits for an input of a search request by the searcher (step S501), and when there is an input (step S502: Yes), passes the search request to the search execution unit 204.
[0066]
The search execution unit 204 first determines whether or not a narrow search is specified in the input search request (step S503). The narrowing-down search is a process of narrowing down documents to be searched in advance before the above-described document search by the vector space method. For example, the documents in the collected document storage unit 202 that have been created and updated within a certain period of time. Only for a document or a document created by a specific writer, the matching degree can be calculated by the matching degree calculation unit 204a and the matching degree correction unit 204b (the calculation can be omitted for other documents. Processing speed is improved).
[0067]
If the narrow search is specified (step S503: Yes), only the specified document is extracted (narrow search) from the documents in the collected document storage unit 202 (step S504), and the documents are matched. The degree is calculated and corrected (step S505). On the other hand, if the refinement search is not specified (step S503: No), the matching degree is calculated and corrected for all the documents in the collected document storage unit 202 (step S505).
[0068]
After that, the result output unit 205 to which the search result has been delivered displays the search result list (step S506). Unless the searcher instructs to end the search (step S507: No), the process returns to step S501 to return to the next search condition. Accept the input of.
[0069]
According to the embodiment described above, the ranking of the search target document is determined not only by the similarity between the text and the search condition, but also by the URL, the hierarchy to be located, the title and the emphasized character string in the text, and the search from the external page. This is performed comprehensively in view of various attributes such as the reference frequency, the reference frequency to the internal page, and the anchor text of the reference source.
[0070]
Actually, if the matching level is increased based on the above-mentioned attribute information based on the above-mentioned attribute information, the core home page functioning as an entrance page or a representative page among a plurality of home pages constituting one site. Are relatively likely to appear higher in the search results. And since searchers are often looking for these core pages rather than the minor pages in the site, the above-mentioned correction of the degree of matching can be used to determine whether the degree of matching is superior or inferior to the text alone. Documents that are likely to be relatively important for the searcher can be extracted from among similar documents that are not present.
[0071]
The above-described document collection unit 200, collection document analysis unit 201, request input reception unit 203, search execution unit 204, and result output unit 205, specifically, the CPU 101 executes a program read from the HD 105 to the RAM 103. This is achieved by: This program can be stored and distributed on various recording media such as the FD 107, the CD-RW 113, and the MO in addition to the HD 105, and can also be distributed via a network. The collected document storage unit 202 is realized by the HD 105.
[0072]
【The invention's effect】
As described above, according to the first aspect of the present invention, in a document search apparatus for ranking a plurality of electronic documents based on the degree of matching of each document with a search condition, attribute information extraction for extracting attribute information of each document Means, a matching degree calculating means for calculating a matching degree of the text of each document with respect to the search condition, and an attribute of each document extracted by the attribute information extracting means, the matching degree calculated by the matching degree calculating means. And a matching level correction unit that corrects based on the information, so that even for documents that are not superior or inferior based on the text alone, based on the attribute information, one of them is ranked relatively higher and the other is ranked relatively lower. As a result, an effect is obtained that a document search device capable of preferentially presenting a document that is likely to be important to the searcher to the searcher can be obtained.
[0073]
According to a second aspect of the present invention, in the first aspect of the present invention, the attribute information extracting unit extracts a URL of each of the documents, and the matching degree correcting unit includes a matching degree calculating unit. Is corrected based on the degree of matching of the URL of the document extracted by the attribute information extracting means with the search condition. Therefore, even in a document that is not superior or inferior in text alone, the URL can be further searched. Documents having similar conditions are ranked relatively higher, thereby providing a document search apparatus capable of preferentially presenting a searcher a document that is likely to be important to the searcher. This has the effect.
[0074]
According to a third aspect of the present invention, in the first aspect of the present invention, the attribute information extracting means extracts a hierarchy in which the document is located in an information processing apparatus holding each of the documents. Since the matching degree correcting means corrects the matching degree calculated by the matching degree calculating means on the basis of the hierarchy in which the document is extracted by the attribute information extracting means, there is no difference in the text alone. Documents shallower (closer to the root) in the hierarchy located on the server are ranked relatively higher, so that documents that are likely to be important to the searcher are given priority over the searcher. And a document search device capable of presenting the document to the user can be obtained.
[0075]
According to a fourth aspect of the present invention, in the first aspect of the present invention, the attribute information extracting means extracts a title of each of the documents or an emphasized character string in each of the documents, A correcting unit that corrects the matching degree calculated by the matching degree calculating unit based on the matching degree of the title of the document or the emphasized character string in the document extracted by the attribute information extracting unit with the search condition. Therefore, even if the text alone is not superior, documents whose title or emphasized character string in the text is more similar to the search condition are ranked relatively higher, which may be important for the searcher. There is an effect that a document search device capable of preferentially presenting a highly-relevant document to a searcher is obtained.
[0076]
According to a fifth aspect of the present invention, in the first aspect of the present invention, the attribute information extracting means determines a frequency at which each document is linked to another document in the information processing apparatus holding the document. At the same time as extracting, the matching degree correcting means corrects the matching degree calculated by the matching degree calculating means on the basis of the frequency extracted by the attribute information extracting means. Documents that link more to other documents on the same server are ranked relatively higher, so that documents that are likely to be important to the searcher can be preferentially presented to the searcher. There is an effect that a possible document search device can be obtained.
[0077]
According to a sixth aspect of the present invention, in the first aspect of the invention, the attribute information extracting means extracts a character string in which the link is embedded in another document linked to each of the documents. And the matching degree correcting means corrects the matching degree calculated by the matching degree calculating means based on the matching degree of the character string extracted by the attribute information extracting means with the search condition. Therefore, even if a document does not compare favorably, a document whose anchor text embedded in another document is more similar to the search condition is ranked relatively higher, which may be important for the searcher. There is an effect that a document search device capable of preferentially presenting a high document to a searcher is obtained.
[0078]
Further, according to a seventh aspect of the present invention, in the document search method for ranking a plurality of electronic documents based on the degree of matching of each document with search conditions, an attribute information extracting step of extracting attribute information of each document; A matching degree calculating step of calculating a matching degree of the text of each document with respect to the search condition; and a matching degree calculated in the matching degree calculating step based on the attribute information of each document extracted in the attribute information extracting step. And a matching degree correction step of correcting the document based on the attribute information. As a result, there is an effect that a document search method capable of preferentially presenting a document likely to be important to the searcher to the searcher is obtained.
[0079]
According to the invention described in claim 8, there is an effect that a program capable of causing a computer to execute the method described in claim 7 is obtained.
[Brief description of the drawings]
FIG. 1 is an explanatory diagram showing a hardware configuration of a document search device according to an embodiment of the present invention.
FIG. 2 is an explanatory diagram showing a functional configuration of the document search device according to the embodiment of the present invention;
FIG. 3 is an explanatory diagram showing an example of a reference relationship between a plurality of documents collected by the document search device according to the embodiment of the present invention;
FIG. 4 is a flowchart showing a procedure of attribute information extraction processing in the document search device according to the embodiment of the present invention.
FIG. 5 is a flowchart showing a procedure of a document search process in the document search device according to the embodiment of the present invention.
[Explanation of symbols]
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 Display
109 Network I / F
110 communication line
111 keyboard
112 mouse
113 CD-RW
114 CD-RW drive
200 Document Collection Unit
201 Collected document analysis unit
202 Collected document storage
203 Request input reception unit
204 search execution unit
205 Result output section

Claims (8)

複数の電子文書を各文書の検索条件に対する合致度にもとづいて順位づけする文書検索装置において、
前記各文書の属性情報を抽出する属性情報抽出手段と、
前記各文書の本文の前記検索条件に対する合致度を算出する合致度算出手段と、
前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された各文書の属性情報にもとづいて補正する合致度補正手段と、
を備えたことを特徴とする文書検索装置。
In a document search apparatus that ranks a plurality of electronic documents based on the degree of matching of each document with search conditions,
Attribute information extracting means for extracting attribute information of each document;
A matching degree calculating means for calculating a matching degree of the text of each document with respect to the search condition;
A matching degree correcting unit that corrects the matching degree calculated by the matching degree calculating unit based on the attribute information of each document extracted by the attribute information extracting unit;
A document search device comprising:
前記属性情報抽出手段は、前記各文書のURLを抽出するとともに、
前記合致度補正手段は、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書のURLの前記検索条件に対する合致度にもとづいて補正することを特徴とする前記請求項1に記載の文書検索装置。
The attribute information extracting means extracts a URL of each document,
The matching degree correcting means corrects the matching degree calculated by the matching degree calculating means based on the matching degree of the URL of the document extracted by the attribute information extracting means with the search condition. The document search device according to claim 1.
前記属性情報抽出手段は、前記各文書を保持する情報処理装置内での当該文書の位置する階層を抽出するとともに、
前記合致度補正手段は、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書の位置する階層にもとづいて補正することを特徴とする前記請求項1に記載の文書検索装置。
The attribute information extracting means extracts a hierarchy in which the document is located in the information processing apparatus holding each of the documents,
2. The method according to claim 1, wherein the matching degree correction unit corrects the matching degree calculated by the matching degree calculation unit based on a hierarchy in which the document is extracted by the attribute information extraction unit. Document search device as described.
前記属性情報抽出手段は、前記各文書のタイトルまたは前記各文書中の強調文字列を抽出するとともに、
前記合致度補正手段は、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された当該文書のタイトルまたは当該文書中の強調文字列の前記検索条件に対する合致度にもとづいて補正することを特徴とする前記請求項1に記載の文書検索装置。
The attribute information extracting means extracts a title of each of the documents or an emphasized character string in each of the documents,
The matching degree correcting unit calculates the matching degree calculated by the matching degree calculating unit based on the matching degree of the title of the document or the emphasized character string in the document extracted by the attribute information extracting unit with the search condition. 2. The document search apparatus according to claim 1, wherein the correction is performed by performing a correction.
前記属性情報抽出手段は、前記各文書が当該文書を保持する情報処理装置内の他の文書にリンクする頻度を抽出するとともに、
前記合致度補正手段は、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された頻度にもとづいて補正することを特徴とする前記請求項1に記載の文書検索装置。
The attribute information extracting means extracts a frequency at which each document is linked to another document in the information processing apparatus holding the document,
2. The document search apparatus according to claim 1, wherein the matching degree correction unit corrects the matching degree calculated by the matching degree calculation unit based on the frequency extracted by the attribute information extraction unit. .
前記属性情報抽出手段は、前記各文書にリンクする他の文書中で当該リンクが埋め込まれている文字列を抽出するとともに、
前記合致度補正手段は、前記合致度算出手段により算出された合致度を、前記属性情報抽出手段により抽出された文字列の前記検索条件に対する合致度にもとづいて補正することを特徴とする前記請求項1に記載の文書検索装置。
The attribute information extracting means extracts a character string in which the link is embedded in another document linked to each of the documents,
The claim, wherein the matching degree correcting means corrects the matching degree calculated by the matching degree calculating means based on the matching degree of the character string extracted by the attribute information extracting means with the search condition. Item 2. The document search device according to Item 1.
複数の電子文書を各文書の検索条件に対する合致度にもとづいて順位づけする文書検索方法において、
前記各文書の属性情報を抽出する属性情報抽出工程と、
前記各文書の本文の前記検索条件に対する合致度を算出する合致度算出工程と、
前記合致度算出工程で算出された合致度を、前記属性情報抽出工程で抽出された各文書の属性情報にもとづいて補正する合致度補正工程と、
を含んだことを特徴とする文書検索方法。
In a document search method for ranking a plurality of electronic documents based on the degree of matching of each document with search conditions,
An attribute information extracting step of extracting attribute information of each document;
A matching degree calculating step of calculating a matching degree of the text of each document with respect to the search condition;
A matching degree correcting step of correcting the matching degree calculated in the matching degree calculating step based on the attribute information of each document extracted in the attribute information extracting step;
A document search method comprising:
前記請求項7に記載された方法をコンピュータに実行させるプログラム。A program for causing a computer to execute the method according to claim 7.
JP2002211112A 2002-07-19 2002-07-19 Document retrieval device and method and program for making computer execute the same method Pending JP2004054588A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002211112A JP2004054588A (en) 2002-07-19 2002-07-19 Document retrieval device and method and program for making computer execute the same method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002211112A JP2004054588A (en) 2002-07-19 2002-07-19 Document retrieval device and method and program for making computer execute the same method

Publications (1)

Publication Number Publication Date
JP2004054588A true JP2004054588A (en) 2004-02-19

Family

ID=31934441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002211112A Pending JP2004054588A (en) 2002-07-19 2002-07-19 Document retrieval device and method and program for making computer execute the same method

Country Status (1)

Country Link
JP (1) JP2004054588A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316999A (en) * 2004-04-15 2005-11-10 Microsoft Corp Content propagation for enhanced document retrieval
JP2006031209A (en) * 2004-07-14 2006-02-02 Ricoh Co Ltd Full text retrieval system, full text retrieval method, program and recording medium
JP2006107432A (en) * 2004-09-30 2006-04-20 Microsoft Corp System and method for ranking result of search by using click distance
JP2006127529A (en) * 2004-10-29 2006-05-18 Microsoft Corp Web page ranking with hierarchical consideration
JP2007183864A (en) * 2006-01-10 2007-07-19 Fujitsu Ltd File retrieval method and system therefor
JP2008123095A (en) * 2006-11-09 2008-05-29 Seiko Epson Corp Retrieval terminal device, retrieval system, and program
JP2009054138A (en) * 2007-07-27 2009-03-12 Seiko Epson Corp File search system, device, and method
JP2010140373A (en) * 2008-12-15 2010-06-24 Fujitsu Ltd Method and device for detecting document group
WO2011052116A1 (en) * 2009-10-28 2011-05-05 日本電気株式会社 Web crawling initial point selection system, method, and program
JP2011516989A (en) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション Search result ranking using edit distance and document information
JP2012194961A (en) * 2011-03-16 2012-10-11 Nec (China) Co Ltd Device and method for calculating document significance
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316999A (en) * 2004-04-15 2005-11-10 Microsoft Corp Content propagation for enhanced document retrieval
JP2006031209A (en) * 2004-07-14 2006-02-02 Ricoh Co Ltd Full text retrieval system, full text retrieval method, program and recording medium
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US8082246B2 (en) 2004-09-30 2011-12-20 Microsoft Corporation System and method for ranking search results using click distance
JP2006107432A (en) * 2004-09-30 2006-04-20 Microsoft Corp System and method for ranking result of search by using click distance
JP2011258235A (en) * 2004-09-30 2011-12-22 Microsoft Corp System and method for ranking result of search by using click distance
JP2006127529A (en) * 2004-10-29 2006-05-18 Microsoft Corp Web page ranking with hierarchical consideration
JP2012069171A (en) * 2004-10-29 2012-04-05 Microsoft Corp Web page ranking with hierarchical consideration
JP2007183864A (en) * 2006-01-10 2007-07-19 Fujitsu Ltd File retrieval method and system therefor
JP2008123095A (en) * 2006-11-09 2008-05-29 Seiko Epson Corp Retrieval terminal device, retrieval system, and program
JP2009054138A (en) * 2007-07-27 2009-03-12 Seiko Epson Corp File search system, device, and method
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
JP2011516989A (en) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション Search result ranking using edit distance and document information
JP2010140373A (en) * 2008-12-15 2010-06-24 Fujitsu Ltd Method and device for detecting document group
WO2011052116A1 (en) * 2009-10-28 2011-05-05 日本電気株式会社 Web crawling initial point selection system, method, and program
JP2012194961A (en) * 2011-03-16 2012-10-11 Nec (China) Co Ltd Device and method for calculating document significance
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Similar Documents

Publication Publication Date Title
US7783644B1 (en) Query-independent entity importance in books
US6381593B1 (en) Document information management system
KR101065071B1 (en) Expanded snippets
US7607082B2 (en) Categorizing page block functionality to improve document layout for browsing
US8452766B1 (en) Detecting query-specific duplicate documents
US7266765B2 (en) Detection and processing of annotated anchors
US20060123042A1 (en) Block importance analysis to enhance browsing of web page search results
US20100332325A1 (en) Menu search
US20060190446A1 (en) Web search system and method thereof
JP5187313B2 (en) Document importance calculation system, document importance calculation method, and program
US10282358B2 (en) Methods of furnishing search results to a plurality of client devices via a search engine system
JP2010003015A (en) Document search system
KR20010015368A (en) A method of retrieving data and a data retrieving apparatus
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
JP2004054588A (en) Document retrieval device and method and program for making computer execute the same method
JP2011192102A (en) Device and method for creating summary, and program
CN105808615A (en) Document index generation method and device based on word segment weights
JP2009122940A (en) Document relevance calculation system, document relevance calculation method and document relevance calculation program
JP5151368B2 (en) Information processing apparatus and information processing program
US8612431B2 (en) Multi-part record searches
JP2001265774A (en) Method and device for retrieving information, recording medium with recorded information retrieval program and hypertext information retrieving system
JP2008112310A (en) Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium
JP3779935B2 (en) Document search apparatus, document search method, and program causing computer to execute the method
JP5187064B2 (en) Web resource tracking management program, Web resource tracking management device, and Web resource tracking management method
JP2009199164A (en) Document management device, document management method and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081111