JP3898016B2 - 情報検索装置、情報検索方法及び情報検索プログラム - Google Patents

情報検索装置、情報検索方法及び情報検索プログラム Download PDF

Info

Publication number
JP3898016B2
JP3898016B2 JP2001302623A JP2001302623A JP3898016B2 JP 3898016 B2 JP3898016 B2 JP 3898016B2 JP 2001302623 A JP2001302623 A JP 2001302623A JP 2001302623 A JP2001302623 A JP 2001302623A JP 3898016 B2 JP3898016 B2 JP 3898016B2
Authority
JP
Japan
Prior art keywords
web page
character string
search
score
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001302623A
Other languages
English (en)
Other versions
JP2003108595A (ja
Inventor
優 喜連川
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001302623A priority Critical patent/JP3898016B2/ja
Publication of JP2003108595A publication Critical patent/JP2003108595A/ja
Application granted granted Critical
Publication of JP3898016B2 publication Critical patent/JP3898016B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、検索条件に適合する文書(ウェブページ)を検索する情報検索装置、情報検索方法及び情報検索プログラムに関するものである。
【0002】
【従来の技術】
今日、インターネット上では急速に普及したWWW(ワールド・ワイド・ウェブ)サービスに基づき種々の情報が公開されているが、大量の情報が無秩序に氾濫し、情報洪水とも呼ばれる現象が起こっている。
WWWにおける情報のアドレスはURL(Uniform ResourceLocator)で表されるが、URLは命名方法に規則性がなく、しばしば変更されることから、WWW利用者がURLを直接指定することは稀である。
【0003】
したがって、HTML(Hyper Text Markup Language)で記述された別のウェブページ中のハイパーリンクを辿ったり、指定したキーワードを含むウェブページのURLを回答する検索エンジンを利用することにより、目的とするURLにアクセスするケースが90%近くを占めるとの報告がある(米ジョージア工科大学 GVUセンター 第10回WWWユーザサーベイ 1998年 http://www.cc.gatech.edu/gvu/user_surveys/survey−1998−10/)。
【0004】
図25は従来の情報検索装置を示す構成図であり、図において、1はWWWサーバ、2はインターネット、3は利用者端末、4は検索条件のキーワードに適合するURLのリストを利用者端末3に提供するインターネット検索エンジンである。
5はWWWサーバ1からウェブページを大量に収集するWWW情報収集部、6はWWW情報収集部5により収集されたウェブページのコピーからキーワード検索用のインデックスを生成するインデックス生成部、7はインデックス生成部6により生成されたインデックスを格納するインデックス記憶装置、8は利用者端末3から検索条件を受けると、インデックス記憶装置7に格納されているインデックスを参照して、その検索条件に適合するURLのリストを生成する検索問合せ処理部である。
【0005】
次に動作について説明する。
まず、WWW情報収集部5は、WWWサーバ1からウェブページを大量に収集する。即ち、ウェブページのURLが初期設定されると、そのウェブページをダウンロードする。次に、当該ウェブページに記述されているHTMLのハイパーリンクを取り出すことにより、当該ウェブページにリンクされているウェブページをダウンロードする。この処理を繰り返し実行することにより、ウェブページを辿りながら次々とウェブページのダウンロードを行う。
【0006】
インデックス生成部6は、WWW情報収集部5が大量のウェブページを収集すると、それらのウェブページのコピーからキーワード検索用のインデックスを生成する。
即ち、インデックス生成部6は、WWW情報収集部5により収集されたウェブページに対してHTMLのタグと通常のテキストを分離する処理を実行する。
そして、通常のテキストを構成する文章を単語単位に分割し、その字句要素(単語)のインデックス情報を生成する。ここで、図26はインデックス情報の一例を示す説明図であり、図26の例では、インデックス情報として各単語が出現するウェブページのURLを列挙している。
【0007】
検索問合せ処理部8は、利用者端末3から検索条件を受けると、インデックス記憶装置7に格納されているインデックスのエントリを取得して、その検索条件に適合するURLのリストを生成する。
検索条件が複数のキーワードを全て含むことを指定している場合、対応する複数のエントリ間でURL集合の共通部分を求めてURLのリストを生成する。また、検索条件が複数のキーワードのいずれか1つ以上を含むことを指定している場合、対応する複数のエントリ間でURL集合の合併を求めてURLのリストを生成する。
【0008】
例えば、図26のインデックス情報が生成されたとき、「三菱」と「東京」の両方を含むという条件で検索を実施する場合、その検索結果は{URL1,URL3}と{URL1,URL2,URL4,URL5}の共通部分である{URL1}となる。同様に「三菱」と「東京」のいずれかを含むという条件に対する検索結果は{URL1,URL2,URL3,URL4,URL5}となる。
【0009】
一方、実際に企業のホームページを特定する目的で検索を行う際には、検索漏れを防ぎつつ最も妥当な結果に絞り込むために、何通りかの条件を用いて繰り返し検索を行う必要がある。
具体的には、図27に示すように、第1の条件が企業の電話番号(ハイフンで区切られている電話番号)、第2の条件が企業の電話番号(ハイフンを除いた部分のAND条件)、第3の条件が企業の名称の全体と所在地の一部のAND条件、第4の条件が企業の名称の一部と所在地の一部のAND条件である。
【0010】
ユーザは、第1の条件で検索を行って1件以上の結果が得られれば、その中から最も妥当な結果を選択するか、あるいは、妥当な結果がないと判断し、検索を終了する。
第1の条件で1件も結果が得られなかった場合、次に第2の条件で検索を行って同様の判断を行う。以下、第3の条件、第4の条件に関しても同様であるが、第4の条件による検索の結果が0件であった場合、妥当な結果がないと判断し、検索を終了する。
【0011】
【発明が解決しようとする課題】
従来の情報検索装置は以上のように構成されているので、複数の検索結果が得られた場合、それらの検索結果の順序と検索目的における妥当性とは必ずしも一致しない。そのため、ユーザが各検索結果の妥当性を順次チェックする必要があり、検索結果の数が多くなると作業に長時間を要するなどの課題があった。
また、なるべく少ない検索結果を得ようとすると、複数の検索条件を用いて検索を繰り返す必要があり、作業に長時間を要する課題があった。
【0012】
この発明は上記のような課題を解決するためになされたもので、ユーザによる検索結果の妥当性のチェックを省略することができる情報検索装置、情報検索方法及び情報検索プログラムを得ることを目的とする。
【0013】
【課題を解決するための手段】
この発明に係る情報検索装置は、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段と、その抽出手段により抽出された文字列のうち、その検索キーワードと一致する文字列を検索する検索手段とを設け、順位決定手段が検索手段により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定するようにしたものである。
【0014】
この発明に係る情報検索装置は、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段を設け、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するようにしたものである。
【0015】
この発明に係る情報検索装置は、順位決定手段が順位の高いウェブページのアドレスから順番に出力するようにしたものである。
【0016】
この発明に係る情報検索装置は、順位決定手段が順位の高いウェブページの部分内容から順番に出力するようにしたものである。
【0017】
この発明に係る情報検索装置は、順位決定手段がウェブページのスコアに基づいて当該ウェブページが属するWWWサーバの順位を決定するようにしたものである。
【0018】
この発明に係る情報検索装置は、検索手段が抽出手段により抽出された文字列及び検索キーワードの正規化を実施するようにしたものである。
【0019】
この発明に係る情報検索装置は、検索手段が電話番号を検索キーワードとして用いるようにしたものである。
【0020】
この発明に係る情報検索装置は、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段を設け、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更するようにしたものである。
【0021】
この発明に係る情報検索装置は、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段を設け、検索手段が抽出手段により抽出された文字列のうち、検索キーワードと一致しない文字列を検索するようにしたものである。
【0022】
この発明に係る情報検索方法は、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、検索手段が抽出手段により抽出された文字列のうち、上記検索キーワードと一致する文字列を検索し、順位決定手段が検索手段により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定するようにしたものである。
【0023】
この発明に係る情報検索方法は、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するようにしたものである。
【0024】
この発明に係る情報検索方法は、順位の高いウェブページのアドレスから順番に出力するようにしたものである。
【0025】
この発明に係る情報検索方法は、順位の高いウェブページの部分内容から順番に出力するようにしたものである。
【0026】
この発明に係る情報検索方法は、ウェブページのスコアに基づいて当該ウェブページが属するWWWサーバの順位を決定するようにしたものである。
【0027】
この発明に係る情報検索方法は、抽出した文字列及び検索キーワードの正規化を実施するようにしたものである。
【0028】
この発明に係る情報検索方法は、電話番号を検索キーワードとして用いるようにしたものである。
【0029】
この発明に係る情報検索方法は、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更するようにしたものである。
【0030】
この発明に係る情報検索方法は、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、検索手段が抽出手段により抽出された文字列のうち、上記検索キーワードと一致しない文字列を検索するようにしたものである。
【0031】
この発明に係る情報検索プログラムは、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順と、抽出処理手順により抽出された文字列のうち、その検索キーワードと一致する文字列を検索する検索処理手順とを設け、順位決定処理手順が検索処理手順により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定するようにしたものである。
【0032】
この発明に係る情報検索プログラムは、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順を設け、順位決定処理手順が収集処理手順により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するようにしたものである。
【0033】
この発明に係る情報検索プログラムは、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順を設け、順位決定処理手順が収集処理手順により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更するようにしたものである。
【0034】
この発明に係る情報検索プログラムは、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順を設け、検索処理手順が抽出処理手順により抽出された文字列のうち、検索キーワードと一致しない文字列を検索するようにしたものである。
【0035】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による情報検索装置を示す構成図であり、図において、21はWWWサーバ、22はインターネット、23はインターネット情報検索システム、24はWWWサーバ21にアクセスして、WWWサーバ21からウェブページを収集するWWW情報収集部(収集手段)、25はWWW情報収集部24により収集されたウェブページから検索キーワードと同一属性の文字列(例えば、電話番号、名称、所在地などを示す文字列)及び検索キーワードと異なる属性の文字列を抽出するとともに、そのウェブページに対する当該文字列の記述の程度に応じて当該ウェブページのスコアを設定する情報抽出部(抽出手段)、26は情報抽出部25により抽出された文字列とスコアがウェブページのURLに対応付けられている抽出情報リストを格納する抽出情報記憶装置である。
【0036】
27は検索対象を指定する検索キーワードを含む検索対象情報を格納する検索対象情報記憶装置、28は情報抽出部25により抽出された文字列のうち、検索対象情報記憶装置27に格納されている検索キーワードと一致する文字列を検索する結合演算処理部(検索手段)、29は結合演算処理部28により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定し、順位の高いウェブページのURLから順番に出力するランキング処理部(順位決定手段)、30はランキング処理部29から出力されたウェブページのURLを格納する結果情報記憶装置である。
【0037】
図2はWWW情報収集部24の内部を示す構成図であり、図において、24aは収集すべきウェブページのURLを保持する取得要求URLキュー、24bはWWWサーバ21から取得要求URLキュー24aに保持されているURLに係るウェブページをダウンロードするダウンロード部、24cはダウンロード部24bによる同一ウェブページのダウンロードを防止するために、ダウンロード部24bによりダウンロードされたウェブページのURL一覧を格納する既取得URL記憶装置、24dはダウンロード部24bによりダウンロードされたウェブページを格納するURLコンテンツ記憶装置、24eはURLコンテンツ記憶装置24dに格納されているウェブページからHTMLのハイパーリンクを取り出し、そのリンク先を示すURLを取得要求URLキュー24aに挿入するリンク抽出部である。
【0038】
図3は情報抽出部25の内部を示す構成図であり、図において、25aはURLコンテンツ記憶装置24dに格納されているウェブページに対してHTMLのタグと通常のテキストを分離する処理を実行するHTML解析部、25bはHTML解析部25aにより分離されたテキストを構成する文章を単語単位に分割するとともに、形態素解析を実行して各単語に品詞情報を付加する字句要素解析部、25cは構文ルールを参照して検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を検索する構文解析部、25dはウェブページに対する当該文字列の記述の程度に応じて当該ウェブページのスコアを設定するとともに、その文字列とスコアをウェブページのURLに対応付けた抽出情報リストを生成する抽出情報管理部である。
【0039】
次に動作について説明する。
ここでは、検索対象情報記憶装置27は、図7に示すように、名称、所在地及び電話番号を含む企業情報を検索対象情報として格納しているものとする。即ち、複数の検索条件の指定を可能にするため、1以上の検索対象情報から構成される検索条件を少なくとも1以上リスト形式で格納している。なお、図7では1つの検索条件のみを記述している。
【0040】
まず、WWW情報収集部24のダウンロード部24bは、図4に示すように、既知のWWWサーバ21のURLが取得要求URLキュー24aに初期設定されると(ステップST11)、取得要求URLキュー24aから既知のWWWサーバ21のURLを取得する(ステップST12)。そして、既取得URL記憶装置24cに格納されているURL一覧を参照して、そのURLに係るウェブページを既にダウンロードしているか否かを確認する(ステップST13)。この段階では、ウェブページのダウンロードはまだ行われていないので、そのURLに係るウェブページはダウンロードしていないと判断する。
なお、多くのウェブページをダウンロードするには、多くのWWWサーバ21へのリンクを含むWWWサーバを初期URLに指定することが望ましい。
【0041】
ダウンロード部24bは、そのURLに係るウェブページをダウンロードしていない場合、そのURLに対応するWWWサーバ21のIPアドレスを取得し(ステップST14)、そのWWWサーバ21に対してHTTPのGET要求を発行することにより(ステップST15)、そのWWWサーバ21からウェブページをダウンロードしてURLコンテンツ記憶装置24dに格納する(ステップST16)。
【0042】
リンク抽出部24eは、ダウンロード部24bがウェブページをURLコンテンツ記憶装置24dに格納すると、既取得URL記憶装置24cに格納されているURL一覧に当該ウェブページのURLを追加するとともに(ステップST17)、そのウェブページの内容からリンク情報を抽出し、リンク先のURLを取得要求URLキュー24aに挿入する(ステップST18)。
【0043】
ダウンロード部24bは、取得要求URLキュー24aに新たなURLが挿入されているか否かを判断し、取得要求URLキュー24aが空であれば処理を終了する。一方、新たなURLが挿入されていれば、ステップST12に戻り、ステップST12〜ST18の処理を繰り返し実行する(ステップST19)。
【0044】
情報抽出部25のHTML解析部25aは、ダウンロード部24bがウェブページをURLコンテンツ記憶装置24dに格納すると、各ウェブページに対してHTMLのタグと通常のテキストを分離する処理を実行する。
字句要素解析部25bは、HTML解析部25aがテキストを分離すると、そのテキストを構成する文章を単語単位に分割するとともに、形態素解析を実行して各単語に品詞情報を付加する。なお、品詞情報は「名詞」、「助詞」、「動詞」などの大分類だけでなく、「名詞−固有名詞−地名」といった詳細まで含むものであり、構文解析部25cが参照する構文ルール中で使用される。
【0045】
構文解析部25cは、字句要素解析部25bにより分解された単語と品詞の列から、構文ルール(図9を参照)に指定された認識パターンに合致する部分列を取り出し、合致した認識パターンの名称とともに文字列を出力する。図9では、認識パターンとして、<電話番号>、<名称>、<所在地>が記述されているので、電話番号、名称、または所在地と考えられる文字列に対して、それぞれ「<電話番号>文字列値」、「<名称>文字列値」、「<所在地>文字列値」という形式で出力し、それ以外の文字列に対しては出力を生成しない。認識パターンは文字列の意味を表す「属性」に対応しており、構文解析部25cの出力は一般的には文字列属性と文字列値の組の列となる。
【0046】
ここで、構文ルールは、例えば、RFC2234(http://rfc.net/rfc2234.html)に規定されたABNF(AugmentedBackus−Naur Form、拡張Backus−Naur記法)を用いて記述することができる。構文ルールに従った認識は公知のコンパイラ技術であるLR構文解析を用いて実現することができる。また、構文ルールに記述したパターン以外はエラーとなるが、ここではエラーは無視し、何も出力しない。
【0047】
抽出情報管理部25dは、構文解析部25cの出力に基づき、1つのウェブページに含まれていた文字列属性と文字列値の種類や出現頻度に応じて当該ウェブページのスコアを設定する。
具体的には、図11に示すような対応表(文字列属性と文字列値に応じたスコアを示している)を参照してウェブページのスコアを設定するが、例えば、あるウェブページから検索された属性<電話番号>に対応する文字列値の種類が“1”、属性<名称>に対応する文字列値の種類が“4”、属性<所在地>に対応する文字列値の種類が“2”であれば、ウェブページのスコアは“90”に設定される。
【0048】
なお、図11の例では、各文字列属性に対応する文字列値が存在しないウェブページのスコアを下げているが、これは記述が充実しておらず、正規の連絡先を伝える意図がないと思われるウェブページを除外するためである。一方、ある文字列属性に対応する文字列値の種類が多過ぎるウェブページもスコアを下げるようにしている。これは名簿などのように、第三者によって公開されているウェブページを除くためであり、例えば、4種類以上の電話番号が記述されたウェブページのスコアを下げている。
【0049】
抽出情報管理部25dは、上記のようにして、ウェブページのスコアを設定すると、ウェブページのURL及びスコアと、文字列属性及び文字列値の組の列(図10(a)の1行に相当)とから、ある文字列属性の文字列値をキーとする抽出情報インデックスを生成して抽出情報記憶装置26に格納する(図10(b)を参照)。
【0050】
ここでは、文字列属性として電話番号を用い、その値はハイフン、カッコ、空白などを除き数字のみで表される正規化電話番号としている。正規化電話番号を用いる理由は、名称や所在地などと比較して表記のゆれ(曖昧さ)が少ないと期待されるからである。
一般的には、1つのウェブページに対応して0個から複数個の抽出情報インデックスが生成されるが、それぞれのキー(正規化電話番号)に対し、抽出情報記憶装置26に対応するエントリが存在しない場合は、キーとURLおよびスコアの組が新たなエントリとして挿入され、抽出情報記憶装置26に対応するエントリが既に存在している場合は、当該エントリに対してURLおよびスコアの組を追加した上で抽出情報記憶装置26に書き戻される。
【0051】
結合演算処理部28は、情報抽出部25が全てのウェブページを処理した後に動作を開始する。
結合演算処理部28は、情報抽出部25により抽出された文字列のうち、検索対象情報記憶装置27に格納されている検索キーワードと一致する文字列を検索する。
具体的には図5に示すように、結合演算処理部28は、まず、検索対象情報記憶装置27から検索対象情報(検索キーワード)を1つ取得する(ステップST21)。ここでは、説明の便宜上、検索対象情報記憶装置27から検索キーワードとして電話番号を取得するものとする。結合演算処理部28は、検索キーワードとして電話番号を取得すると、その電話番号の正規化を行う(ステップST22)。
ここで、正規化とは、表記の揺れを吸収するために行う処理であり、ハイフン、括弧や空白など、数字以外の区切り文字を取り除き、数字のみの文字列として電話番号を表す処理である。
【0052】
結合演算処理部28は、検索キーワードである電話番号の正規化を行うと、情報抽出部25により抽出された文字列のうち、正規化後の電話番号と一致する文字列を検索する(ステップST23)。
【0053】
結合演算処理部28は、正規化後の電話番号と一致する文字列が存在する場合には、その文字列(=正規化後の電話番号)と当該文字列が記述されているウェブページのURL及び当該ウェブページのスコアとの対応表である出現URLリスト(図10(b)を参照)をランキング処理部29に出力する(ステップST25)。
なお、結合演算処理部28は、全ての検索対象情報について処理を実施したか否かを判断し、全ての検索対象情報について処理を実施していない場合には、ステップST21に戻り、ステップST21〜ST25の処理を繰り返し実行する(ステップST26)。
【0054】
ランキング処理部29は、結合演算処理部28が文字列の検索処理を完了すると、検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定し、順位の高いウェブページのURLから順番に出力する。図8の例では、上位2つのウェブページのURLが出力されていることを示している。
【0055】
ここでは、ランキング処理部29がウェブページの順位を当該ウェブページのスコアを参照して決定するものについて示したが、ウェブページのスコアに基づいて当該ウェブページが属するWWWサーバ21の順位を決定するようにしてもよい。具体的には図6に示す通りである。
【0056】
ランキング処理部29は、まず、結合演算処理部28の検索結果を1つ取り出し(ステップST31)、出現URLリストにおける複数のURLをサーバ毎にまとめる処理を実行する(ステップST32)。即ち、HTTPにおいては、http://に続く部分がサーバ名であるので、そのサーバ名を参照して、複数のURLをサーバ毎にまとめる処理を実行する。
【0057】
次に、各ウェブページのスコアに基づき、各WWWサーバ21に属するウェブページのスコアの最大値をWWWサーバ21のスコアとして設定する(ステップST33)。
そして、複数のWWWサーバ21の順位を、当該WWWサーバ21のスコアや当該WWWサーバ21に属するウェブページの個数によってランキングする(ステップST34)。
【0058】
ランキング処理部29は、上位にランキングされたWWWサーバ21、例えば、上位3つ以内のWWWサーバ21のURLのみを順番に出力する(ステップST35)。
ランキング処理部29は、全ての検索結果について処理を実行したか否かを判定し、未処理の検索結果があれば、ステップST31に戻り、ステップST31〜ST35の処理を繰り返し実行する(ステップST36)。
【0059】
以上で明らかなように、この実施の形態1によれば、WWW情報収集部24により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出するとともに、そのウェブページに対する当該文字列の記述の程度に応じて当該ウェブページのスコアを設定するように構成したので、ユーザによる検索結果の妥当性のチェックを省略することができる効果を奏する。
【0060】
なお、この実施の形態1では、インターネット情報検索システム23の構成要素をICなどの専用のハードウエアを用いて構成してもよいし、ソフトウエア(情報検索プログラム)を実行するコンピュータを用いて構成してもよい。
図12はコンピュータを用いて構成する場合のハードウエア構成図であり、図において、41は情報検索プログラムを実行するCPUであり、WWW情報収集部24、情報抽出部25、結合演算処理部28及びランキング処理部29の機能を有している。42は情報検索プログラムやプログラムの実行に必要なデータを格納するメモリ、43はコンソール入出力装置44との入出力を行うコンソールインタフェース、44はコンソール入出力装置、45はハードディスク装置46をアクセスするディスクインタフェース、46はハードディスク装置、47はインターネット22に接続するネットワークインタフェースである。
【0061】
実施の形態2.
上記実施の形態1では、順位の高いウェブページのURLから順番に出力するものについて示したが、順位の高いウェブページの部分内容から順番に出力するようにしてもよい。
例えば、検索対象情報として製品名を用いることにより、ウェブページ上で製品と共に記述されている価格を出力するようにする。
これにより、ユーザは実際にウェブページをアクセスすることなく、ウェブページの部分内容、即ち、目的の情報を知ることができる効果を奏する。
【0062】
実施の形態3.
図13はこの発明の実施の形態3による情報検索装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
51は検索キーワードと一致する文字列を含むウェブページのURLを検索する検索エンジン、52は検索キーワードを検索エンジン51に与えて、検索エンジン51から検索結果であるウェブページのURLを取得する検索エンジン問合せ部、53は検索エンジン問合せ部52により取得されたURLを有するウェブページをWWWサーバ21からダウンロードするダウンロード部である。なお、検索エンジン問合せ部52及びダウンロード部53から収集手段が構成されている。
【0063】
54はダウンロード部53によりダウンロードされたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出する属性抽出部、55はダウンロード部53によりダウンロードされたウェブページに対する当該文字列の記述の程度に応じて当該ウェブページのスコアを設定するスコア設定部である。なお、属性抽出部54及びスコア設定部55から抽出手段が構成されている。56はダウンロード部53によりダウンロードされたウェブページの順位を当該ウェブページのスコアを参照して決定するランキング処理部(順位決定手段)である。
【0064】
次に動作について説明する。
検索エンジン問合せ部52は、検索エンジン51に対して検索キーワード(例えば、企業名)を渡して検索を要求することにより、検索エンジン51の検索結果として1以上のウェブページのURLを取得する。検索エンジン51のインタフェースは、HTTPプロトコルやHTMLフォーマットといった標準仕様に基づいており、検索キーワードの指定や結果からのURL抽出は容易に実現できる。
【0065】
ダウンロード部53は、検索エンジン問合せ部52が1以上のウェブページのURLを取得すると、WWWサーバ21からインターネット22を介して、それらのURLに対応するウェブページ(HTMLファイル)をダウンロードし、そのウェブページを属性抽出部54に出力する。
【0066】
属性抽出部54は、ダウンロード部53から1以上のウェブページを受け取ると、まず、情報抽出部25のHTML解析部25aと同様に、各ウェブページに対してHTMLのタグと通常のテキストを分離する処理を実行する。
次に、属性抽出部54は、情報抽出部25の字句要素解析部25bと同様に、その分離したテキストを構成する文章を単語単位に分解し、形態素解析を実行して各単語に品詞情報を付加する。なお、品詞情報は「名詞」、「助詞」、「動詞」などの大分類だけでなく、「名詞−固有名詞−地名」といった詳細まで含むものであり、以下、属性抽出部54が参照する構文ルール中で使用される。
【0067】
次に、属性抽出部54は、情報抽出部25の構文解析部25cと同様に、その分解した単語と品詞の列から、構文ルールに指定された認識パターンに合致する部分列を取り出し、合致した認識パターンの名称とともに文字列を出力する。図9の構文ルールの例では、この実施の形態3の検索目的に合わせて、<電話番号>、<名称>、<所在地>の認識パターンが記述されているので、これらのいずれかと考えられる文字列に対して、それぞれ「<電話番号>文字列値」、「<名称>文字列値」、「<所在地>文字列値」という形式で出力し、それ以外の文字列に対しては出力を生成しない。認識パターンは文字列の意味を表す「属性」に対応しており、属性抽出部54の出力は一般的には文字列属性と文字列値の組の列となる(図14を参照)。
【0068】
ここで、構文ルールは、例えば、RFC2234(http://rfc.net/rfc2234.html)に規定されたABNF(AugmentedBackus−Naur Form、拡張Backus−Naur記法)を用いて記述することができる。構文ルールに従った認識は公知のコンパイラ技術であるLR構文解析を用いて実現することができる。また、構文ルールに記述したパターン以外はエラーとなるが、ここではエラーは無視して何も出力しない。
【0069】
スコア設定部55は、情報抽出部25の抽出情報管理部25dと同様に、属性抽出部54の出力に基づき、1つのウェブページに含まれていた文字列属性と文字列値の種類や出現頻度に応じて当該ウェブページのスコアを設定する。
具体的には、図11に示すような対応表(文字列属性と文字列値に応じたスコアを示している)を参照してウェブページのスコアを設定するが、例えば、あるウェブページから検索された属性<電話番号>に対応する文字列値の種類が“1”、属性<名称>に対応する文字列値の種類が“4”、属性<所在地>に対応する文字列値の種類が“2”であれば、ウェブページのスコアは“90”に設定される。
【0070】
なお、図11の例では、各文字列属性に対応する文字列値が存在しないウェブページのスコアを下げているが、これは記述が充実しておらず、正規の連絡先を伝える意図がないと思われるウェブページを除外するためである。一方、ある文字列属性に対応する文字列値の種類が多過ぎるウェブページもスコアを下げるようにしているが、これは名簿などのように第三者によって公開されているウェブページを除くためであり、例えば4種類以上の電話番号が書かれたウェブページのスコアを下げている。
スコア設定部55は、上記のようにして、ウェブページのスコアを設定すると、当該ウェブページのURLとスコアとを組にしてランキング処理部56に出力する(図15を参照)。
【0071】
ランキング処理部56は、検索エンジン51の全ての検索結果に対応するURLとスコアの組とをスコア設定部55から受け取ると、それらの複数のURLをWWWサーバ21毎にまとめる処理を実行する。即ち、HTTPにおいてはhttp://に続く部分がWWWサーバ名であるので、そのWWWサーバ名を参照して複数のURLをWWWサーバ21毎にまとめる処理を実行する。
次に、各URLのスコアに基づき、各WWWサーバ21に属するURLスコアの最大値をWWWサーバ21のスコアとして設定する。
【0072】
そして、複数のWWWサーバ21の順位を、当該WWWサーバ21のスコアや当該WWWサーバ21に属するURLの個数によってランキングする。
ランキング処理部56は、上位にランキングされたWWWサーバ21、例えば、上位3つ以内のWWWサーバ21について、当該WWWサーバ21内で最大スコアを持つURLのみを順番に出力する(図16を参照)。
【0073】
以上で明らかなように、この実施の形態3によれば、検索エンジン51による検索結果の複数ウェブページに対し、検索キーワード以外の文字列も対象にして文字列属性とその値を取り出し、その記述の程度に応じて設定した当該ウェブページのスコアに基づいて当該ウェブページの順位を決定するように構成したので、検索キーワードの指定だけでは除外できない不適当な結果を除外することができ、ユーザが妥当な結果を選択する作業を省略することができる効果を奏する(図17を参照)。
【0074】
なお、この実施の形態3においても、上記実施の形態1と同様に、インターネット情報検索システム23の構成要素をICなどの専用のハードウエアを用いて構成してもよいし、ソフトウエア(情報検索プログラム)を実行するコンピュータを用いて構成してもよい。
また、この実施の形態3では、URLを返すものについて示したが、抽出した情報(例えば、電話番号から企業名、製品名から価格)を返すようにしてもよい。
【0075】
実施の形態4.
図18はこの発明の実施の形態4による情報検索装置を示す構成図であり、図において、図1及び図13等と同一符号は同一または相当部分を示すので説明を省略する。
61はスコア設定部55から受け取ったウェブページのURL及びスコアと、文字列属性及び文字列値の組の列とから、ある文字列属性の文字列値をキーとする抽出情報インデックスを生成する抽出情報管理部、62はウェブページのURLを上位のウェブページのURLに変更するURL修正部(順位決定手段)である。
図20はURL修正部62の処理内容を示すフローチャートである。
【0076】
次に動作について説明する。
抽出情報管理部61は、上記実施の形態3と同様にしてスコア設定部55がウェブページのスコアを設定すると、スコア設定部55から受け取ったウェブページのURL及びスコアと、文字列属性及び文字列値の組の列(図10(a)の1行に相当)とから、ある文字列属性の文字列値をキーとする抽出情報インデックスを生成して抽出情報記憶装置26に格納する(図19を参照)。
【0077】
ここでは、文字列属性として電話番号を用い、その値はハイフン、カッコ、空白などを除き数字のみで表される正規化電話番号としている。正規化電話番号を用いる理由は、名称や所在地などと比較して表記のゆれ(曖昧さ)が少ないと期待されるからである。
一般的には、1つのウェブページに対応して0個から複数個の抽出情報インデックスが生成されるが、それぞれのキー(正規化電話番号)に対し、抽出情報記憶装置26に対応するエントリが存在しない場合は、キーとURLおよびスコアの組が新たなエントリとして挿入され、抽出情報記憶装置26に対応するエントリが既に存在している場合は、当該エントリに対してURLおよびスコアの組を追加した上で抽出情報記憶装置26に書き戻される。
【0078】
ランキング処理部56は、WWW情報収集部24による情報収集が完了し、収集した全てのウェブページに対応する抽出情報が抽出情報記憶装置26に格納された時点で動作を開始する。
ランキング処理部56は、抽出情報記憶装置26からエントリを1つずつ取り出し、上記実施の形態3と同様の処理を実行して各エントリのキー(正規化電話番号)に対応するURLの内でスコアの高いウェブページおよびWWWサーバ21に関するものを出力する。
【0079】
URL修正部62は、ランキング処理部56からキー(正規化電話番号)とURL(複数)を受け取ると、図20に示すように、既取得URL記憶装置24cとURLコンテンツ記憶装置24dに格納された情報を参照してURL文字列に修正を加え、修正後のURL文字列を結果情報記憶装置30に格納する。
即ち、URLに対応するHTMLファイルをURLコンテンツ記憶装置24dから検索し、内容として上位のURLを指すハイパーリンクが含まれていたら、そのURLで元のURLを置き換える。
【0080】
ここで、上位のURLとは、URL文字列を“/”で区切って最後の要素(ファイル名に対応)を無視した場合、要素数が元のURLより少なく、全ての要素が元のURLに含まれているものを指す。例えば、元のURLがhttp://www.a.co.jp/products/pc.htmlであった場合、http://www.a.co.jp/index.htmlは上位URLであるが、http://www.a.co.jp/products/やhttp://www.a.co.jp/products/index.htmlは上位URLとはみなさない。
【0081】
さらに、URL文字列がファイル名を表している場合(“/”で終わっていない場合)、URL文字列の末尾のファイル名部分を取り除くことでディレクトリのURLを生成し、既取得URL記憶装置24cを検索して当該ディレクトリURLへのアクセス記録が存在したら当該ディレクトリURLが有効であると判断して元のURLをディレクトリURLに置き換える。例えば、元のURLがhttp://www.a.co.jp/gaiyou.htmlである場合、対応するディレクトリURLとしてhttp://www.a.co.jp/を生成し、既取得URL記憶装置24cを検索の上、当該URLの存在が確認できたらURLをhttp://www.a.co.jp/に書き換える。
【0082】
また、既取得URL記憶装置24cに当該ディレクトリURLへのアクセス記録が存在しなかった場合、当該ディレクトリURLが無効であると判断する。この場合、当該ディレクトリ内のファイルURLのうち、ホームページのURLとして最も妥当性が高いものを選択する。例えば、元のURL http://www.a.co.jp/gaiyou.htmlに対し、既取得URL記憶装置24cを検索して得られた同一ディレクトリ内のファイルURLがhttp://www.a.co.jp/gaiyou.html(便宜上元のURL自体も含める)、http://www.a.co.jp/products.html、http://www.a.co.jp/index.htmlであったとすると、ホームページURLとしては一般にindex.htmlの妥当性が高いので、URLをhttp://www.a.co.jp/index.htmlに書き換える。妥当性の優劣が付けられない場合にはURLの書き換えは行なわない。
なお、図21はURL修正部62におけるファイル名の妥当性の設定例を示す説明図である。
【0083】
結果情報記憶装置30から企業ホームページを検索する際には、対象企業の電話番号を正規化(ハイフン、カッコ、空白など非数字文字の除去)した文字列で検索することでURLが得られる。
【0084】
以上で明らかなように、この実施の形態4によれば、WWWサーバ21から収集した情報を元に検索結果としてのウェブページの妥当性を判定し、より妥当なウェブページのURLを結果とするようにしたので、検索キーワードが含まれているとは限らない妥当な結果を返すことができ、ユーザが結果を修正する作業を省略することができる効果を奏する(図22を参照)。
【0085】
なお、この実施の形態4においても、上記実施の形態1と同様に、インターネット情報検索システム23の構成要素をICなどの専用のハードウエアを用いて構成してもよいし、ソフトウエア(情報検索プログラム)を実行するコンピュータを用いて構成してもよい。
【0086】
実施の形態5.
図23はこの発明の実施の形態5による情報検索装置を示す構成図であり、図において、図18と同一符号は同一または相当部分を示すので説明を省略する。71は既知の正規化電話番号(検索キーワード)等を記憶する既知情報記憶装置、72は抽出情報記憶装置26に記憶されている文字列のうち、既知情報記憶装置71に記憶されている検索キーワードと一致しない文字列を検索する反結合演算部(検索手段)、73は反結合演算部72により検索された文字列を記憶する未知情報記憶装置である。
【0087】
次に動作について説明する。
反結合演算部72は、WWW情報収集部24による情報収集が完了し、収集した全てのウェブページに対応する抽出情報が抽出情報記憶装置26に格納された時点で動作を開始する。
反結合演算部72は、抽出情報記憶装置26に格納されたエントリのうち、キー(正規化電話番号)が既知情報記憶装置71に存在しないものを未知情報記憶装置73に格納する。
【0088】
ここで、既知情報記憶装置71には、抽出情報記憶装置26と同様に、予め正規化された形式でキー(電話番号)が格納されているものとする(図24を参照)。
具体的には、反結合演算部72は、抽出情報記憶装置26からエントリのキーを1つ取得し、既知情報記憶装置71を検索して当該キーが存在しなかった場合のみ当該エントリを出力する、という処理を抽出情報記憶装置26の全てのエントリに対して実行する。
【0089】
以上のように、この実施の形態5によれば、WWWサーバ21から収集した情報から検索対象の属性(電話番号)を有する文字列を抽出するようにしたので、具体的に検索対象の値を指定することが不可能な検索を実行することができる効果を奏する。
【0090】
なお、この実施の形態5においても、上記実施の形態1と同様に、インターネット情報検索システム23の構成要素をICなどの専用のハードウエアを用いて構成してもよいし、ソフトウエア(情報検索プログラム)を実行するコンピュータを用いて構成してもよい。
【0091】
【発明の効果】
以上のように、この発明によれば、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段と、その抽出手段により抽出された文字列のうち、その検索キーワードと一致する文字列を検索する検索手段とを設け、順位決定手段が検索手段により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定するように構成したので、ユーザによる検索結果の妥当性のチェックを省略することができる効果がある。
【0092】
この発明によれば、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段を設け、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するように構成したので、検索キーワードの指定だけでは除外できない不適当な結果を除外することができるようになり、その結果、ユーザが妥当な結果を選択する作業を省略することができる効果がある。
【0093】
この発明によれば、順位決定手段が順位の高いウェブページのアドレスから順番に出力するように構成したので、妥当性の高いウェブページからアクセスすることが可能になる効果がある。
【0094】
この発明によれば、順位決定手段が順位の高いウェブページの部分内容から順番に出力するように構成したので、ユーザが実際にウェブページをアクセスすることなく、目的の情報を知ることができる効果がある。
【0095】
この発明によれば、順位決定手段がウェブページのスコアに基づいて当該ウェブページが属するWWWサーバの順位を決定するように構成したので、妥当性の高いウェブページを保有するWWWサーバを認識することができる効果がある。
【0096】
この発明によれば、検索手段が抽出手段により抽出された文字列及び検索キーワードの正規化を実施するように構成したので、表記の揺れを吸収して検索精度を高めることができる効果がある。
【0097】
この発明によれば、検索手段が電話番号を検索キーワードとして用いるように構成したので、企業や団体についての情報を的確に検索することができる効果がある。
【0098】
この発明によれば、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段を設け、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更するように構成したので、検索キーワードが含まれているとは限らない妥当な結果を返すことができるようになり、その結果、ユーザが結果を修正する作業を省略することができる効果がある。
【0099】
この発明によれば、収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段を設け、検索手段が抽出手段により抽出された文字列のうち、検索キーワードと一致しない文字列を検索するように構成したので、具体的に検索対象の値を指定することが不可能な検索を実行することができる効果がある。
【0100】
この発明によれば、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、検索手段が抽出手段により抽出された文字列のうち、上記検索キーワードと一致する文字列を検索し、順位決定手段が検索手段により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定するように構成したので、ユーザによる検索結果の妥当性のチェックを省略することができる効果がある。
【0101】
この発明によれば、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するように構成したので、検索キーワードの指定だけでは除外できない不適当な結果を除外することができるようになり、その結果、ユーザが妥当な結果を選択する作業を省略することができる効果がある。
【0102】
この発明によれば、順位の高いウェブページのアドレスから順番に出力するように構成したので、妥当性の高いウェブページからアクセスすることが可能になる効果がある。
【0103】
この発明によれば、順位の高いウェブページの部分内容から順番に出力するように構成したので、ユーザが実際にウェブページをアクセスすることなく、目的の情報を知ることができる効果がある。
【0104】
この発明によれば、ウェブページのスコアに基づいて当該ウェブページが属するWWWサーバの順位を決定するように構成したので、妥当性の高いウェブページを保有するWWWサーバを認識することができる効果がある。
【0105】
この発明によれば、抽出した文字列及び検索キーワードの正規化を実施するように構成したので、表記の揺れを吸収して検索精度を高めることができる効果がある。
【0106】
この発明によれば、電話番号を検索キーワードとして用いるように構成したので、企業や団体についての情報を的確に検索することができる効果がある。
【0107】
この発明によれば、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、順位決定手段が収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更するように構成したので、検索キーワードが含まれているとは限らない妥当な結果を返すことができるようになり、その結果、ユーザが結果を修正する作業を省略することができる効果がある。
【0108】
この発明によれば、抽出手段が収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、検索手段が抽出手段により抽出された文字列のうち、上記検索キーワードと一致しない文字列を検索するように構成したので、具体的に検索対象の値を指定することが不可能な検索を実行することができる効果がある。
【0109】
この発明によれば、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順と、抽出処理手順により抽出された文字列のうち、その検索キーワードと一致する文字列を検索する検索処理手順とを設け、順位決定処理手順が検索処理手順により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定するように構成したので、ユーザによる検索結果の妥当性のチェックを省略することができる効果がある。
【0110】
この発明によれば、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順を設け、順位決定処理手順が収集処理手順により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するように構成したので、検索キーワードの指定だけでは除外できない不適当な結果を除外することができるようになり、その結果、ユーザが妥当な結果を選択する作業を省略することができる効果がある。
【0111】
この発明によれば、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順を設け、順位決定処理手順が収集処理手順により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更するように構成したので、検索キーワードが含まれているとは限らない妥当な結果を返すことができるようになり、その結果、ユーザが結果を修正する作業を省略することができる効果がある。
【0112】
この発明によれば、収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順を設け、検索処理手順が抽出処理手順により抽出された文字列のうち、検索キーワードと一致しない文字列を検索するように構成したので、具体的に検索対象の値を指定することが不可能な検索を実行することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による情報検索装置を示す構成図である。
【図2】 WWW情報収集部の内部を示す構成図である。
【図3】 情報抽出部の内部を示す構成図である。
【図4】 WWW情報収集部の処理内容を示すフローチャートである。
【図5】 結合演算処理部の処理内容を示すフローチャートである。
【図6】 ランキング処理部の処理内容を示すフローチャートである。
【図7】 検索対象情報を示す説明図である。
【図8】 結果情報を示す説明図である。
【図9】 構文ルールを示す説明図である。
【図10】 抽出情報リストや出現URLリストを示す説明図である。
【図11】 スコアの設定方法を説明するための説明図である。
【図12】 コンピュータ用いて構成する場合のハードウエア構成図である。
【図13】 この発明の実施の形態3による情報検索装置を示す構成図である。
【図14】 属性抽出部の出力情報を示す説明図である。
【図15】 スコア設定部の出力情報を示す説明図である。
【図16】 ランキング処理部の出力情報を示す説明図である。
【図17】 この発明の実施の形態3による情報検索装置の効果を示す説明図である。
【図18】 この発明の実施の形態4による情報検索装置を示す構成図である。
【図19】 抽出情報インデックスを示す説明図である。
【図20】 URL修正部の処理内容を示すフローチャートである。
【図21】 URL修正部におけるファイル名の妥当性の設定例を示す説明図である。
【図22】 この発明の実施の形態4による情報検索装置の効果を示す説明図である。
【図23】 この発明の実施の形態5による情報検索装置を示す構成図である。
【図24】 抽出情報記憶装置及び未知情報記憶装置の記憶内容を示す説明図である。
【図25】 従来の情報検索装置を示す構成図である。
【図26】 インデックス情報の一例を示す説明図である。
【図27】 検索対象情報を示す説明図である。
【符号の説明】
21 WWWサーバ、22 インターネット、23 インターネット情報検索システム、24 WWW情報収集部(収集手段)、24a 取得要求URLキュー、24b ダウンロード部、24c 既取得URL記憶装置、24d URLコンテンツ記憶装置、24e リンク抽出部、25 情報抽出部(抽出手段)、25a HTML解析部、25b 字句要素解析部、25c 構文解析部、25d 抽出情報管理部、26 抽出情報記憶装置、27 検索対象情報記憶装置、28 結合演算処理部(検索手段)、29 ランキング処理部(順位決定手段)、30 結果情報記憶装置、41 CPU、42 メモリ、43 コンソールインタフェース、44 コンソール入出力装置、45 ディスクインタフェース、46 ハードディスク装置、47 ネットワークインタフェース、51 検索エンジン、52 検索エンジン問合せ部(収集手段)、53 ダウンロード部(収集手段)、54 属性抽出部(抽出手段)、55 スコア設定部(抽出手段)、56 ランキング処理部(順位決定手段)、61 抽出情報管理部、62 URL修正部(順位決定手段)、71 既知情報記憶装置、72 反結合演算部(検索手段)、73 未知情報記憶装置。

Claims (22)

  1. WWWサーバからウェブページを収集する収集手段と、上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段と、上記抽出手段により抽出された文字列のうち、上記検索キーワードと一致する文字列を検索する検索手段と、上記検索手段により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定する順位決定手段とを備えた情報検索装置。
  2. WWWサーバから検索キーワードと一致する文字列を含むウェブページを収集する収集手段と、上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段と、上記収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定する順位決定手段とを備えた情報検索装置。
  3. 順位決定手段は、順位の高いウェブページのアドレスから順番に出力することを特徴とする請求項1または請求項2記載の情報検索装置。
  4. 順位決定手段は、順位の高いウェブページの部分内容から順番に出力することを特徴とする請求項1または請求項2記載の情報検索装置。
  5. 順位決定手段は、ウェブページのスコアに基づいて当該ウェブページが属するWWWサーバの順位を決定することを特徴とする請求項1または請求項2記載の情報検索装置。
  6. 検索手段は、抽出手段により抽出された文字列及び検索キーワードの正規化を実施することを特徴とする請求項1記載の情報検索装置。
  7. 検索手段は、電話番号を検索キーワードとして用いることを特徴とする請求項1記載の情報検索装置。
  8. WWWサーバからウェブページを収集する収集手段と、上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段と、上記収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更する順位決定手段とを備えた情報検索装置。
  9. WWWサーバからウェブページを収集する収集手段と、上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出手段と、上記抽出手段により抽出された文字列のうち、上記検索キーワードと一致しない文字列を検索する検索手段とを備えた情報検索装置。
  10. 収集手段がWWWサーバからウェブページを収集すると、抽出手段が上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、検索手段が上記抽出手段により抽出された文字列のうち、上記検索キーワードと一致する文字列を検索し、順位決定手段が上記検索手段により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定する情報検索方法。
  11. 収集手段がWWWサーバから検索キーワードと一致する文字列を含むウェブページを収集すると、抽出手段が上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、順位決定手段が上記収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定する情報検索方法。
  12. 順位決定手段が順位の高いウェブページのアドレスから順番に出力することを特徴とする請求項10または請求項11記載の情報検索方法。
  13. 順位決定手段が順位の高いウェブページの部分内容から順番に出力することを特徴とする請求項10または請求項11記載の情報検索方法。
  14. 順位決定手段がウェブページのスコアに基づいて当該ウェブページが属するWWWサーバの順位を決定することを特徴とする請求項10または請求項11記載の情報検索方法。
  15. 検索手段が抽出手段により抽出された文字列及び検索キーワードの正規化を実施することを特徴とする請求項10記載の情報検索方法。
  16. 検索手段が電話番号を検索キーワードとして用いることを特徴とする請求項10記載の情報検索方法。
  17. 収集手段がWWWサーバからウェブページを収集すると、抽出手段が上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、順位決定手段が上記収集手段により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更する情報検索方法。
  18. 収集手段がWWWサーバからウェブページを収集すると、抽出手段が上記収集手段により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定し、検索手段が上記抽出手段により抽出された文字列のうち、上記検索キーワードと一致しない文字列を検索する情報検索方法。
  19. WWWサーバからウェブページを収集する収集処理手順と、上記収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順と、上記抽出処理手順により抽出された文字列のうち、上記検索キーワードと一致する文字列を検索する検索処理手順と、上記検索処理手順により検索された文字列が記述されているウェブページの順位を当該ウェブページのスコアを参照して決定する順位決定処理手順とをコンピュータに実行させるための情報検索プログラム。
  20. WWWサーバから検索キーワードと一致する文字列を含むウェブページを収集する収集処理手順と、上記収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照し て、そのウェブページのスコアを設定する抽出処理手順と、上記収集処理手順により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定する順位決定処理手順とをコンピュータに実行させるための情報検索プログラム。
  21. WWWサーバからウェブページを収集する収集処理手順と、上記収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順と、上記収集処理手順により収集されたウェブページの順位を当該ウェブページのスコアを参照して決定するとともに、そのウェブページのアドレスを上位のウェブページのアドレスに変更する順位決定処理手順とをコンピュータに実行させるための情報検索プログラム。
  22. WWWサーバからウェブページを収集する収集処理手順と、上記収集処理手順により収集されたウェブページから検索キーワードと同一属性の文字列及び上記検索キーワードと異なる属性の文字列を抽出して、そのウェブページに記述されている同一属性及び異なる属性の文字列毎の種類数を認識し、各属性の文字列毎の種類数の組み合わせとスコアの対応関係を示す対応表を参照して、そのウェブページのスコアを設定する抽出処理手順と、上記抽出処理手順により抽出された文字列のうち、上記検索キーワードと一致しない文字列を検索する検索処理手順とをコンピュータに実行させるための情報検索プログラム。
JP2001302623A 2001-09-28 2001-09-28 情報検索装置、情報検索方法及び情報検索プログラム Expired - Lifetime JP3898016B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001302623A JP3898016B2 (ja) 2001-09-28 2001-09-28 情報検索装置、情報検索方法及び情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001302623A JP3898016B2 (ja) 2001-09-28 2001-09-28 情報検索装置、情報検索方法及び情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2003108595A JP2003108595A (ja) 2003-04-11
JP3898016B2 true JP3898016B2 (ja) 2007-03-28

Family

ID=19122830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001302623A Expired - Lifetime JP3898016B2 (ja) 2001-09-28 2001-09-28 情報検索装置、情報検索方法及び情報検索プログラム

Country Status (1)

Country Link
JP (1) JP3898016B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123918A1 (en) * 2005-05-20 2006-11-23 Nhn Corporation Query matching system and method, and computer readable recording medium recording program for implementing the method
JP2007233856A (ja) * 2006-03-02 2007-09-13 Sony Corp 情報処理装置、情報処理システム、および方法、並びにコンピュータ・プログラム
US7475069B2 (en) 2006-03-29 2009-01-06 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
US20070274300A1 (en) * 2006-05-04 2007-11-29 Microsoft Corporation Hover to call
JP2008146207A (ja) * 2006-12-07 2008-06-26 Yuichiro Matsuda コンテンツ検索方法、コンテンツ検索プログラム、および記録媒体
JP4979643B2 (ja) * 2008-05-27 2012-07-18 ヤフー株式会社 メッセージ判定装置、方法及びプログラム
CN101504673B (zh) * 2009-03-24 2011-09-07 阿里巴巴集团控股有限公司 一种识别疑似仿冒网站的方法与系统

Also Published As

Publication number Publication date
JP2003108595A (ja) 2003-04-11

Similar Documents

Publication Publication Date Title
US8452766B1 (en) Detecting query-specific duplicate documents
US8332422B2 (en) Using text search engine for parametric search
US8255541B2 (en) Method and apparatus for utilizing user feedback to improve signifier mapping
US8812531B2 (en) Concept bridge and method of operating the same
US7020679B2 (en) Two-level internet search service system
US8589387B1 (en) Information extraction from a database
US20050222973A1 (en) Methods and systems for summarizing information
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US8812508B2 (en) Systems and methods for extracting phases from text
US7310633B1 (en) Methods and systems for generating textual information
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
CN109643315A (zh) 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
JP3898016B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
Zhong et al. PyA0: a Python toolkit for accessible math-aware search
JP4649036B2 (ja) 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
KR101117171B1 (ko) 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR100491254B1 (ko) 웹사이트 디렉토리나 웹페이지에 대해 설명하는 단어들에하이퍼링크를 적용하는 검색 시스템 및 방법
KR20030082109A (ko) 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법
JP2000011003A (ja) 公開文書要約装置およびそのためのプログラムを記録した記録媒体
JP2004258832A (ja) 文書検索システムおよび文書検索方法
JP2002007431A (ja) 情報探索装置、情報探索方法および記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061220

R150 Certificate of patent or registration of utility model

Ref document number: 3898016

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250