JP2007188134A - 索引ファイルを用いた文書検索の方法 - Google Patents

索引ファイルを用いた文書検索の方法 Download PDF

Info

Publication number
JP2007188134A
JP2007188134A JP2006003420A JP2006003420A JP2007188134A JP 2007188134 A JP2007188134 A JP 2007188134A JP 2006003420 A JP2006003420 A JP 2006003420A JP 2006003420 A JP2006003420 A JP 2006003420A JP 2007188134 A JP2007188134 A JP 2007188134A
Authority
JP
Japan
Prior art keywords
data
search
search target
attribute data
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006003420A
Other languages
English (en)
Other versions
JP4728125B2 (ja
Inventor
Sumio Fujita
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006003420A priority Critical patent/JP4728125B2/ja
Publication of JP2007188134A publication Critical patent/JP2007188134A/ja
Application granted granted Critical
Publication of JP4728125B2 publication Critical patent/JP4728125B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書ファイルの検索の精度を向上することにより、ユーザの検索効率を向上し得る方法を提供すること。
【解決手段】検索サーバ30は、ユーザ端末20から検索キー文書ファイルを受信し、オリジナル文書管理サーバ10から収集・記憶した検索対象文書ファイルと関連付けて予め記憶した検索対象索引ファイルと、前記検索キー文書ファイルに基づいて生成した検索キー索引ファイルと、を比較する。このとき、検索サーバ30は、内容データ同士の一致のみならず、属性データと内容データの組み合わせ同士の一致や、属性データ同士の一致も評価点としてカウントして、当該評価点に基づいて当該検索対象文書ファイルへのアクセスキー情報を含むデータをソートしてユーザ端末20に送信する。
【選択図】図3

Description

本発明は、索引ファイルを用いて文書を検索する方法、サーバ、及びプログラムに関する。
従来、文書ファイルの検索を効率的に行う方法が提案されてきた。特に、通信ネットワークを介して世界中の文書ファイルにアクセスすることができるWeb環境においては、様々な手法が研究されている。
こうした中で、近年、 Web文書ファイルに含まれる内容のそれぞれに対応する当該内容の属性を表すタグを組み合せて記載し、一般的な文書ファイルを構造化することが可能なXML文書ファイルが急速に普及しつつある。
一方、特許文献1によると、階層データ構造を持つ文書データベースの全文検索を高速化するための技術が開示されている。具体的には、オリジナルデータベースを、抽象度の低い下位階層のデータが、そのデータに対応する2つの同じ抽象度の高い上位階層のデータによって挟まれる形でデータを保持するように作り変える。このことによって、入力検索キーが複数の連続した抽象化データを指定するキーであるような場合には、全文検索を1回実行するだけで、求める検索結果を得ることが可能となり、検索が高速化され得る。
特開2002−132807号公報
しかしながら、上述の特許文献1で開示されている技術は、文書検索の高速化に関して効果が期待され得るものの、膨大な量の文書の中から目的の文書を探し当てる検索精度の向上に関して効果が期待できるわけではない。さらに、検索キーに類似したデータを含む文書の検索には効果が無い。
本発明は、上記の課題に鑑み、文書ファイルの検索の精度を向上することにより、ユーザの検索効率を向上し得る方法を提供することを目的とする。さらに、検索キーと類似度の高い文書ファイルを効率的に検索する方法を提供することを目的とする。
具体的には、以下のようなものを提供する。
(1) 端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データ(XMLタグデータ等)との組合せ、を含んで構成した検索対象文書ファイル(XML文書ファイル等)の検索をさせる方法であって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
前記端末から、検索キー文書ファイル(XML文書ファイル等)として、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報(URL)を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を含む方法。
(1)の発明によれば、当該サーバは、前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出し、抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶し、前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信し、受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出し、抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶し、前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をし、当該比較において一致する回数に応じた評価点を演算して記憶し、予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信する。
このことにより、内容データ同士の一致のみならず、属性データと内容データの組み合わせ同士の一致や、属性データ同士の一致も評価点としてカウントして、当該評価点に基づいて当該ファイルへのアクセスキー情報を含むデータをソートして端末に送信することができる。従って、内容データの一致のみをカウントする方法と比べて、目的の文書を探し当てる検索の精度を向上させることができる。
(2) 前記検索対象索引単位として抽出させるステップにおいて、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる(1)に記載の方法。
(2)の発明によれば、前記サーバは、前記検索対象索引単位として抽出させるステップにおいて、前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出する。
このことにより、前記内容データと組み合わされる属性データの種類が増えるので、前記検索対象索引単位と前記検索キー索引単位とが一致する可能性が高まるため、検索漏れの可能性を減らすことができる。
(3) 前記検索キー索引単位として抽出させるステップにおいて、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる(1)または(2)に記載の方法。
(3)の発明によれば、前記サーバは、前記検索キー索引単位として抽出させるステップにおいて、前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出する。
このことにより、検索キー索引単位の種類が増えるので、前記検索対象索引単位と一致する可能性が高まり、検索漏れの可能性を減らすことができる。
(4) 前記サーバに、前記属性データ(XMLタグデータ等)を含まない第2の検索対象文書ファイル(平文文書ファイル)を形態素に分解させるステップと、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照させて、前記形態素に対応する分類データを選択させるステップと、
前記分類データを前記属性データ(XMLタグデータ等)として、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第2の検索対象文書ファイル(XML文書ファイル等)に関連付けて記憶させるステップと、を含む(1)から(3)のいずれかに記載の方法。
(4)の発明によれば、前記サーバは、前記属性データを含まない第2の検索対象文書ファイル(平文文書ファイル)を形態素に分解し、分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照し、前記形態素に対応する分類データを選択し、前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第2の検索対象文書ファイルに関連付けて記憶する。
このことにより、属性データを含まない平文文書ファイルであっても、本発明に係る検索の対象とすることができる。
(5) 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ(XMLタグデータ等)として、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を含む(1)から(4)のいずれかに記載の方法。
(5)の発明によれば、前記サーバは、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照し、前記属性データに対応する代表語データを選択し、前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶する。
このことにより、複数の類義語による属性データを一つに集約できるので、それぞれが区別されることがなくなり、検索漏れの可能性を減らすことができる。
(6) 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ(XMLタグデータ等)として、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を含む(1)から(5)のいずれかに記載の方法。
(6)の発明によれば、前記サーバは、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照し、前記属性データに対応する代表語データを選択し、前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶する。
このことにより、検索キー文書ファイルに含まれる属性データについても、複数の類義語を一つに集約できるので、それぞれが区別されることがなくなり、検索漏れの可能性を減らすことができる。
(7) 前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を含む(1)から(6)のいずれかに記載の方法。
(7)の発明によれば、前記サーバは、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶し、前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶する。
このことにより、重み係数に基づいて検索対象文書ファイルの評価点を演算できるので、重み係数の大きな検索対象索引単位が一致した場合には、重み係数の小さな検索対象索引単位が一致した場合よりも優先的に当該検索対象文書がソートされる。
その結果、重み係数の大きな、即ち一致した場合の絞込効果が高い索引単位の一致を優先的に取り扱うことができる。
(8) 端末と通信ネットワークを介して接続され、内容データ、あるいは、内容データと当該内容データの属性を示す属性データ(XMLタグデータ等)との組合せ、を含んで構成した検索対象文書ファイル(XML文書ファイル等)の検索をするサーバであって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出する手段と、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶する手段と、
前記端末から、検索キー文書ファイル(XML文書ファイル等)として、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信する手段と、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出する手段と、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶する手段と、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をし、当該比較において一致する回数に応じた評価点を演算して記憶する手段と、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報(URL)を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信する手段と、を備えるサーバ。
(8)の発明によれば、当該サーバを運用することにより、(1)と同様の効果が期待できる。
(9) 前記検索対象索引単位として抽出する手段において、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出する(8)に記載のサーバ。
(9)の発明によれば、当該サーバを運用することにより、(2)と同様の効果が期待できる。
(10) 前記検索キー索引単位として抽出する手段において、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出する(8)または(9)に記載のサーバ。
(10)の発明によれば、当該サーバを運用することにより、(3)と同様の効果が期待できる。
(11) 前記属性データ(XMLタグデータ等)を含まない第2の検索対象文書ファイル(平文文書ファイル)を形態素に分解する手段と、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択する手段と、
前記分類データを前記属性データ(XMLタグデータ等)として、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第2の検索対象文書ファイル(XML文書ファイル等)に関連付けて記憶する手段と、を備える(8)から(10)のいずれかに記載のサーバ。
(11)の発明によれば、当該サーバを運用することにより、(4)と同様の効果が期待できる。
(12) 前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
前記代表語データを属性データ(XMLタグデータ等)として、前記内容データと関連付けて前記検索対象索引ファイルとして記憶する手段と、を備える(8)から(11)のいずれかに記載のサーバ。
(12)の発明によれば、当該サーバを運用することにより、(5)と同様の効果が期待できる。
(13) 前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
前記代表語データを属性データ(XMLタグデータ等)として、前記内容データと関連付けて前記検索キー索引ファイルとして記憶する手段と、を備える(8)から(12)のいずれかに記載のサーバ。
(13)の発明によれば、当該サーバを運用することにより、(6)と同様の効果が期待できる。
(14) 前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶する手段と、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶する手段と、を備える(8)から(13)のいずれかに記載のサーバ。
(14)の発明によれば、当該サーバを運用することにより、(7)と同様の効果が期待できる。
(15) 端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データ(XMLタグデータ等)との組合せ、を含んで構成した検索対象文書ファイル(XML文書ファイル等)の検索を実行させるプログラムであって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
前記端末から、検索キー文書ファイル(XML文書ファイル等)として、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報(URL)を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を実行させるプログラム。
(15)の発明によれば、当該プログラムを実行することにより、(1)と同様の効果が期待できる。
(16) 前記検索対象索引単位として抽出するステップにおいて、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる(15)に記載のプログラム。
(16)の発明によれば、当該プログラムを実行することにより、(2)と同様の効果が期待できる。
(17) 前記検索キー索引単位として抽出するステップにおいて、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる(15)または(16)に記載のプログラム。
(17)の発明によれば、当該プログラムを実行することにより、(3)と同様の効果が期待できる。
(18) 前記サーバに、前記属性データ(XMLタグデータ等)を含まない第2の検索対象文書ファイル(平文文書ファイル)を形態素に分解させるステップと、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択させるステップと、
前記分類データを前記属性データ(XMLタグデータ等)として、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第2の検索対象文書ファイル(XML文書ファイル等)に関連付けて記憶させるステップと、を実行させる(15)から(17)のいずれかに記載のプログラム。
(18)の発明によれば、当該プログラムを実行することにより、(4)と同様の効果が期待できる。
(19) 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ(XMLタグデータ等)として、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を実行させる(15)から(18)のいずれかに記載のプログラム。
(19)の発明によれば、当該プログラムを実行することにより、(5)と同様の効果が期待できる。
(20) 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ(XMLタグデータ等)として、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を実行させる(15)から(19)のいずれかに記載のプログラム。
(20)の発明によれば、当該プログラムを実行することにより、(6)と同様の効果が期待できる。
(21) 前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を実行させる(15)から(20)のいずれかに記載のプログラム。
(21)の発明によれば、当該プログラムを実行することにより、(7)と同様の効果が期待できる。
本発明によれば、第一に、検索対象文書ファイルに対して検索対象索引ファイルを生成し、内容データの比較だけではなく、属性データの比較や、属性データと内容データとの組み合わせの比較もすることにより、目的の文書ファイルを探し当てる検索精度を向上させることができる。
第二に、属性データも含めて検索対象文書ファイルと検索キー文書ファイルとの類似度を評価することにより、類似した文書を効率的に検索することができる。
本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。
[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係る方法を実現するコンピュータシステム1の全体構成図である。
コンピュータシステム1は、検索対象となるオリジナル文書を管理するオリジナル文書管理サーバ10と、検索処理を要求するユーザ端末20と、検索を実行する検索サーバ30と、を備える。オリジナル文書管理サーバ10とユーザ端末20と検索サーバ30とは、通信ネットワーク40を介して接続される。
オリジナル文書管理サーバ10は、オリジナル文書を管理しており、検索サーバ30は定期的に当該オリジナル文書管理サーバ10にアクセスしてオリジナル文書に関する情報を収集して記憶し、ユーザ端末20からの検索要求に応じて、当該収集した情報を検索する。なお、検索対象のオリジナル文書はWebドキュメントであってよい。
オリジナル文書管理サーバ10は、通信ネットワーク40に接続して通信を実現する通信部110と、オリジナル文書管理サーバ10における各種データ処理を行う制御部120と、オリジナル文書管理サーバ10が実行するデータ処理のプログラムやユーザ端末20に送信するための文書データ等を記憶する記憶部130と、当該文書データや制御指示のデータ等の入力を受け付ける入力部140と、各種データを表示する表示部150と、を備える。なお、オリジナル文書管理サーバ10の数はこれに限られない。
ユーザ端末20は、検索サーバ30に文書の検索をさせるための検索キー文書ファイル(1つまたは複数の検索キーワードの組)の入力を受け付け、検索サーバ30に当該検索キー文書ファイルを送信する。そして、検索サーバ30から当該検索の結果を受信し、表示する。
ユーザ端末20は、通信ネットワーク40に接続して通信を実現する通信部210と、ユーザ端末20における各種データ処理を行う制御部220と、ユーザ端末20が実行するデータ処理のプログラム等を記憶する記憶部230と、前記検索キー文書ファイル等の入力を受け付ける入力部240と、前記検索の結果等を表示する表示部250と、を備える。なお、ユーザ端末20の数はこれに限られない。
検索サーバ30は、ユーザ端末20から前記検索キー文書ファイルを受信し、オリジナル文書管理サーバ10が記憶しているオリジナル文書に関する情報から、前記検索キー文書ファイル中のキーワードに関連するものを検索する。そして、当該検索の結果に関するデータをユーザ端末20に送信する。なお、処理の詳細については後述する。
検索サーバ30は、通信ネットワーク40に接続して通信を実現する通信部310と、検索サーバ30における各種データ処理を行う制御部320と、検索サーバ30が実行する各種データ処理のプログラムや、検索対象索引ファイル等の後述する本発明に係る機能を実現するためのデータ等を記憶する記憶部330と、制御指示のデータ等の入力を受け付ける入力部340と、各種データを表示する表示部350と、を備える。
コンピュータ(オリジナル文書管理サーバ10、ユーザ端末20、及び検索サーバ30)の制御部120、220、320は、情報の演算、処理を行う情報演算処理装置(CPU)であり、当該コンピュータ全体の制御を行う。
ここで、制御部120は、情報の演算、処理を行う情報演算処理装置(CPU)であり、検索サーバ30全体の制御を行う。制御部120は、記憶部130に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウエアと協働し、本発明に係る各種機能を実現している。
記憶部130、230、330は、それぞれ制御部120、220、320と組み合わせてプログラムの実行に使用するローカルメモリ、大容量のバルクメモリ、および当該バルクメモリの検索を効率的に行うために使用するキャッシュメモリを含んでよい。記憶部130、230、330を実現するコンピュータ可読媒体としては、電気的、磁気的、光学的、電磁的に実現するものを含んでよい。より具体的には、半導体記憶装置、磁気テープ、フロッピー(登録商標)ディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、CD−ROMとCD−R/WとDVDとを含む光ディスクが含まれる。
入力部140、240、340は、ユーザによる入力の受付を行うものであり、キーボード、ポインティングデバイス等を含んでよい。入力部140、240、340は、直接または介在I/Oコントローラを介してコンピュータと接続することができる。
表示部150、250、350は、ユーザにデータの入力を受け付ける画面を表示したり、データ処理の結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
通信部110、210、310は、当該コンピュータを専用ネットワークまたは公共ネットワークを介して別の演算処理システムまたは記憶装置と接続できるようにするためのネットワーク・アダプタである。通信部110、210、310は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
通信ネットワーク40は、専用線、モデムやターミナルアダプタを介して接続するダイヤルアップネットワーク、ADSL、光ケーブルによるものを含む有線によるネットワークにより実現してもよい。また、無線LAN、携帯電話等の携帯端末向け無線ネットワークを含む無線によるネットワークにより実現してもよい。
また、通信ネットワーク40を実現するための通信プロトコルとしては、TCP/IP等のインターネットプロトコルをはじめとして、本発明を実施するために必要な情報通信を実現する様々な通信プロトコルが採用されてよい。さらに、SOAP(Simple Object Access Protocol)等のWebサービス用のプロトコルを用いて実現してもよい。
[索引作成処理]
図2は、検索サーバ30が実行する索引作成処理を示すフローチャートである。
検索サーバ30は、予め定められたタイミングで定期的に、文書ファイルに対するリンクデータ及び詳しくは後述する検索対象索引ファイルの作成・更新を行う。例えば、検索サーバ30は、オリジナル文書管理サーバ10を巡回(ロボット型検索)して収集・記憶したオリジナル文書ファイル(検索対象文書ファイル)に関するデータに基づいて、当該検索対象索引ファイルを更新し、最新の状態を保つ。ここで、検索対象索引ファイルは、検索対象文書ファイルを特徴付ける索引単位(キーワード)及び当該索引単位の重要度を表す重み係数を含み、後述する検索処理にて使用する。
まず、ステップS105では、検索サーバ30は、オリジナル文書管理サーバ10から検索対象の文書ファイルを受信する。
ステップS110では、検索サーバ30は、前記受信をした検索対象文書ファイルから、検索対象索引単位の抽出をする。具体的には、例えば当該文書ファイルに含まれる文書を形態素に分解することにより、内容データ(例えば、Webページに表示される文章の中の単語)を抽出する。また、XML文書のタグ情報のような属性データが当該内容データと紐付いている場合には、当該属性データに加えて、当該属性データと当該内容データを例えば「#」等の記号で連結した文字列を抽出する。図9の例では、例えば「<色>青」の部分について、「青」、「色#」、「色#青」という検索対象索引単位を抽出する。
ステップS115では、検索サーバ30は、前記検索対象文書ファイルの中の前記属性データの階層構造を判別し、当該階層構造を構成する要素の組合せを前記検索対象索引単位として抽出する。具体的には、例えば内容データAに属性データBが紐付いており、さらに属性データBに属性データCが紐付いている場合に、前記検索対象索引単位として、「A」、「B#」、「C#」、「B#A」、「C#A」、「C#B」、及び「C#B#A」を抽出する。
ステップS120では、検索サーバ30は、前記属性データの変換を行って検索対象索引単位として記憶する。具体的には例えば、図11にあるように、文書中にある内容データ「上等の」を「GOOD#」と変換する。当該変換には、例えば図6に示す代表語テーブル50を使用する。つまり、前記属性データが代表語テーブル50の類義語フィールドに存在する場合、当該属性データを対応する代表語フィールドのデータに変換する。
ステップS125では、検索サーバ30は、前記内容データまたは前記属性データに紐付く属性データを新たに検索対象索引単位として付与する。具体的には例えば、図10にあるように、文書中にある内容データ「六本木」に対して、属性データ「港区#」を付与する。さらに、属性データ「港区#」に対して、属性データ「東京#」を付与する。当該付与には、例えば図7に示す分類テーブル60を使用する。つまり、前記内容データまたは前記属性データが分類テーブルの単語フィールドに存在する場合、対応する分類フィールドの値を属性データとして付与する。検索サーバ30は、これら一連の処理を紐付く属性データがなくなるまで繰り返し実行する。
ステップS130では、検索サーバ30は、索引ファイルの生成を行う。具体的には、上述のステップにおいて抽出・変換・付与した、それぞれの検索対象索引単位の組と、当該検索対象文書ファイルにアクセスするためのリンクデータと、を当該検索対象文書ファイルに関連付けて検索対象索引ファイルとして記憶する。なお、検索対象索引単位それぞれについて、文書中における出現位置や出現回数等をあわせて記憶することとしてよい。これにより、前記検索の結果を表示する際に当該出現位置を強調して示すことができ、また、当該出現回数に応じた前記重み係数を演算するために利用できる。
ステップS135では、検索サーバ30は、検索対象とする文書ファイル群の全てについて、前記検索対象索引ファイルを作成したか否かを判別する。全ての検索対象文書ファイルについて前記検索対象索引ファイルを作成し終えるまで、ステップS105の処理に戻す。
ステップS140では、統計データとして前記重み係数の演算をし、前記検索対象索引単位とあわせて前記検索対象索引ファイルに記憶する。具体的には例えば、前記重み係数はTF−IDFに基づく重み、あるいは情報エントロピーに基づく重みとしてよく、前記検索対象索引単位の前記検索対象文書ファイル中での出現回数と、全文書ファイル群の中での出現文書数に基づいて演算する。
[メイン処理]
図3は、検索サーバ30が実行するメイン処理を示すフローチャートである。
検索サーバ30は、ユーザ端末20からの検索キーワードを含む検索キー文書ファイルの受信に応じて、前記検索対象索引ファイルを検索し、ユーザ端末20に当該検索の結果に関するデータを送信する。
まず、ステップS205では、検索サーバ30は、ユーザ端末20からの検索キー文書ファイルの受信を判別する。当該受信をした場合に、検索サーバ30はステップS210に処理を移す。
ステップS210の検索キー作成処理では、検索サーバ30は、前記検索キー文書ファイルから、検索キー索引単位(検索に用いるキーワード)の組を抽出し、検索キー索引ファイルを作成する(詳細は後述する)。
ステップS215の検索処理では、検索サーバ30は、前記検索キー索引ファイルに基づいて、前記検索対象索引ファイルから前記検索対象文書ファイルを検索し、それぞれの類似度を表す評価点を演算する(詳細は後述する)。
ステップS220では、検索サーバ30は、ステップS215にて検索した結果をユーザ端末20にて表示するためのデータを生成する。具体的には例えば、前記評価点に基づいて前記検索対象文書ファイル対するリンクデータを並べた結果表示データを生成する。ここで、前記検索キー索引単位の出現位置を示すデータ(出現位置前後の文章等)を当該結果表示データに含めることとしてもよい。
ステップS225では、検索サーバ30は、ステップS220にて生成した結果表示データをユーザ端末20に送信する。
[検索キー作成処理]
図4は、検索サーバ30がメイン処理の中で実行する検索キー作成処理を示すフローチャートである。
検索サーバ30は、前述のメイン処理(図3)のステップS205にて受信した検索キー文書ファイルから、検索キー索引単位(検索に用いるキーワード)の組を抽出し、検索キー索引ファイルを作成する。
まず、ステップS305では、検索サーバ30は、前記受信した検索キー文書ファイルから、検索キー索引単位の抽出をする。具体的には、前述の索引作成処理(図2)における検索対象索引単位の抽出と同様であり、属性データ、内容データ、及び属性データと内容データの組合せを抽出する。なお、前記検索キー文書ファイルには、前記検索対象文書ファイルとは異なり、属性データのみを指定できることとしてよい。
ステップS310では、検索サーバ30は、前記検索キー文書ファイルの中の前記属性データの階層構造を判別し、当該階層構造を構成する要素の組合せを前記検索キー索引単位として抽出する。具体的には、前述の索引作成処理(図2)における構造の判別と同様であり、例えば内容データAに属性データBが紐付いており、さらに属性データBに属性データCが紐付いている場合に、前記索引単位として、「A」、「B#」、「C#」、「B#A」、「C#A」、「C#B」、及び「C#B#A」を抽出する。
ステップS315では、検索サーバ30は、前記属性データの変換を行って検索キー索引単位として記憶する。具体的には、前述の索引作成処理(図2)における属性データの変換と同様であり、図11の例によると、例えば「おいしいワイン」という検索キーワードの指定がなされた場合に、検索キー索引単位として、「おいしい#ワイン」を「GOOD#ワイン」に変換する。このような変換を行った結果、検索対象索引単位の「GOOD#ワイン」と一致することになり、オリジナル文書としては検索し得なかった(類似度ゼロ)ものについても、一定の類似度を与えて評価することができる。
ステップS320では、検索サーバ30は、検索キー索引ファイルの生成を行う。具体的には、上述のステップにおいて抽出・変換されたそれぞれの検索キー索引単位の組を、検索キー索引ファイルとして記憶する。
[検索処理]
図5は、検索サーバ30がメイン処理の中で実行する検索処理を示すフローチャートである。
検索サーバ30は、前述のメイン処理(図3)のステップS210にて作成した検索キー索引ファイルに基づいて、前記検索対象索引ファイルから前記検索対象文書ファイルを検索し、それぞれの類似度を表す評価点を演算する。
まず、ステップS405では、検索サーバ30は、前述の検索キー作成処理にて生成した検索キー索引単位(検索要求キーワード)の一つを読み出し、前述の索引作成処理にて生成した検索対象索引単位(検索される文書の索引)と一致するか否かを判別する。一致する場合にはステップS410に処理を移し、一致しない場合にはステップS415に処理を移す。
ステップS410では、検索サーバ30は、前記検索対象文書ファイルにおける検索要求に対する類似度を表す評価点を演算して記憶する。具体的には例えば、図8の類似度評価テーブル70において、前記検索対象文書ファイルを示す文書IDに対応する評価点フィールドの値を更新する。ここで、当該評価点の演算は、前述の索引作成処理(図2)において生成した索引ファイルに含まれる重み係数に応じた演算を行ってよい。
ステップS415では、全ての前記検索キー索引単位についてステップS405の処理をしたか否かを判別する。処理していない前記検索キー索引単位が残っている場合には、ステップS405及びステップS410の処理を繰り返す。
ステップS420では、全ての前記検索対象文書ファイルについてステップS415の処理をしたか否かを判別する。処理していない前記検索対象文書ファイルが残っている場合には、ステップS405からステップS415の処理を繰り返す。
このようにして、検索要求キーワードに対する文書の類似度が、図8の類似度評価テーブル70の評価点により順位付けできる。ここで、例えばユーザ端末20にて表示する結果を上位所定の件数に限る場合には、当該評価点の上位所定の件数のみを抽出して検索結果データとしてよい。
以上の実施形態によれば、検索を要求するユーザは、文章に埋め込まれた属性データを組み合わせた検索キーワードの指定が可能となる。
図9の例では、例えば「色#青、メーカ#ABC自動車」といった検索要求により、単なる内容データの組のみによる「青、ABC自動車」といった検索要求よりも、一致度が高く検索されやすくなる。
図10の例では、「東京#」、「港区#」、といった属性データが索引に付与されたため、例えば「東京の病院」といった検索要求に対して一致度が高くなり、優先的に検索される。
図11の例では、元の文章から属性データ「上等の」が「GOOD#」に変換されている。例えば「おいしいワインの店」といった検索要求により、「おいしい」についても前述の検索キー作成処理(図4)の属性データ変換により「GOOD#」に変換されれば、索引と一致するため、優先的に検索される。
図12の例では、「姓#」、「名#」といった属性データが組み合わされていることにより、「姓#今子」といった検索要求と、「名#今子」といった検索要求とを使い分けることができる。
図13は、例えば「国家機関#、人事、役職#」といった検索要求により優先的に検索される文書の例である。内容データを特定せずに属性データのみを検索キー単位として指定した場合においても、効果的に検索される。
このように、本発明の方法を用いれば、膨大な量の文書の中から目的の文書を探し当てる検索の精度を向上させ、ユーザの検索効率を向上し得る。さらに、検索キーと類似度の高い文書ファイルを効率的に検索できる。
また、本発明の方法は、文書の著者、キーワード、発行日等のプロファイルによるマッチングを行う場合においても、これらの属性データを含んだ索引ファイルを活用することにより好適に適用できる。
さらに、本発明の方法は、クラシファイやクラスタリングといった文書の仕分け・分類を行う場合に、前記評価点を用いることにより、類似度による仕分け・分類が精度良く、効果的に行える可能性がある。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係る方法を実現するコンピュータシステム1の全体構成図である。 検索サーバ30が実行する索引作成処理を示すフローチャートである。 検索サーバ30が実行するメイン処理を示すフローチャートである。 検索サーバ30がメイン処理の中で実行する検索キー作成処理を示すフローチャートである。 検索サーバ30がメイン処理の中で実行する検索処理を示すフローチャートである。 本発明の好適な実施形態の一例に係る代表語テーブル50を示す図である。 本発明の好適な実施形態の一例に係る分類テーブル60を示す図である。 本発明の好適な実施形態の一例に係る類似度評価テーブル70を示す図である。 本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。 本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。 本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。 本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。 本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。
符号の説明
1 コンピュータシステム
10 オリジナル文書管理サーバ
20 ユーザ端末
30 検索サーバ
40 通信ネットワーク
50 代表語テーブル
60 分類テーブル
70 類似度評価テーブル
110 通信部
120 制御部
130 記憶部
140 入力部
150 表示部
210 通信部
220 制御部
230 記憶部
240 入力部
250 表示部
310 通信部
320 制御部
330 記憶部
340 入力部
350 表示部

Claims (21)

  1. 端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データとの組合せ、を含んで構成した検索対象文書ファイルの検索をさせる方法であって、
    前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
    抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
    前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
    受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
    抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
    前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
    予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を含む方法。
  2. 前記検索対象索引単位として抽出させるステップにおいて、
    前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる請求項1に記載の方法。
  3. 前記検索キー索引単位として抽出させるステップにおいて、
    前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる請求項1または請求項2に記載の方法。
  4. 前記サーバに、前記属性データを含まない第2の検索対象文書ファイルを形態素に分解させるステップと、
    分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照させて、前記形態素に対応する分類データを選択させるステップと、
    前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第2の検索対象文書ファイルに関連付けて記憶させるステップと、を含む請求項1から請求項3のいずれかに記載の方法。
  5. 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
    前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を含む請求項1から請求項4のいずれかに記載の方法。
  6. 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
    前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を含む請求項1から請求項5のいずれかに記載の方法。
  7. 前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象文書ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
    前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を含む請求項1から請求項6のいずれかに記載の方法。
  8. 端末と通信ネットワークを介して接続され、内容データ、あるいは、内容データと当該内容データの属性を示す属性データとの組合せ、を含んで構成した検索対象文書ファイルの検索をするサーバであって、
    前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出する手段と、
    抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶する手段と、
    前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信する手段と、
    受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出する手段と、
    抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶する手段と、
    前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をし、当該比較において一致する回数に応じた評価点を演算して記憶する手段と、
    予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信する手段と、を備えるサーバ。
  9. 前記検索対象索引単位として抽出する手段において、
    前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出する請求項8に記載のサーバ。
  10. 前記検索キー索引単位として抽出する手段において、
    前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出する請求項8または請求項9に記載のサーバ。
  11. 前記属性データを含まない第2の検索対象文書ファイルを形態素に分解する手段と、
    分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択する手段と、
    前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第2の検索対象文書ファイルに関連付けて記憶する手段と、を備える請求項8から請求項10のいずれかに記載のサーバ。
  12. 前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
    前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶する手段と、を備える請求項8から請求項11のいずれかに記載のサーバ。
  13. 前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
    前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶する手段と、を備える請求項8から請求項12のいずれかに記載のサーバ。
  14. 前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象文書ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶する手段と、
    前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶する手段と、を備える請求項8から請求項13のいずれかに記載のサーバ。
  15. 端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データとの組合せ、を含んで構成した検索対象文書ファイルの検索を実行させるプログラムであって、
    前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
    抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
    前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
    受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
    抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
    前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
    予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を実行させるプログラム。
  16. 前記検索対象索引単位として抽出するステップにおいて、
    前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる請求項15に記載のプログラム。
  17. 前記検索キー索引単位として抽出するステップにおいて、
    前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる請求項15または請求項16に記載のプログラム。
  18. 前記サーバに、前記属性データを含まない第2の検索対象文書ファイルを形態素に分解させるステップと、
    分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択させるステップと、
    前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第2の検索対象文書ファイルに関連付けて記憶させるステップと、を実行させる請求項15から請求項17のいずれかに記載のプログラム。
  19. 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
    前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を実行させる請求項15から請求項18のいずれかに記載のプログラム。
  20. 前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
    前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を実行させる請求項15から請求項19のいずれかに記載のプログラム。
  21. 前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象文書ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
    前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を実行させる請求項15から請求項20のいずれかに記載のプログラム。
JP2006003420A 2006-01-11 2006-01-11 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム Active JP4728125B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006003420A JP4728125B2 (ja) 2006-01-11 2006-01-11 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006003420A JP4728125B2 (ja) 2006-01-11 2006-01-11 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2007188134A true JP2007188134A (ja) 2007-07-26
JP4728125B2 JP4728125B2 (ja) 2011-07-20

Family

ID=38343287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006003420A Active JP4728125B2 (ja) 2006-01-11 2006-01-11 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム

Country Status (1)

Country Link
JP (1) JP4728125B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048718A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索プログラム
JP2011529600A (ja) * 2008-07-29 2011-12-08 テキストワイズ・リミテッド・ライアビリティ・カンパニー 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2013077150A (ja) * 2011-09-30 2013-04-25 Fujitsu Broad Solution & Consulting Inc ファイル管理プログラム、情報処理装置およびファイル管理方法
JP2013196264A (ja) * 2012-03-19 2013-09-30 Mitsubishi Denki Information Technology Corp 類似検索装置及びコンピュータプログラム及び類似検索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283375A (ja) * 1998-05-18 1998-10-23 Fuji Xerox Co Ltd 全文検索装置および方法
JP2000207409A (ja) * 1999-01-14 2000-07-28 Matsushita Electric Ind Co Ltd 構造化文書管理装置及び構造化文書検索方法
JP2002132807A (ja) * 2000-10-26 2002-05-10 Communication Research Laboratory 階層構造データ検索システム,階層構造データ検索処理方法およびそのプログラム記録媒体
JP2005025525A (ja) * 2003-07-02 2005-01-27 Oki Electric Ind Co Ltd 情報検索システム、情報検索方法及び情報検索プログラム
JP2005165748A (ja) * 2003-12-03 2005-06-23 Canon Inc 情報検索装置およびその方法、コンピュータ可読メモリ

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283375A (ja) * 1998-05-18 1998-10-23 Fuji Xerox Co Ltd 全文検索装置および方法
JP2000207409A (ja) * 1999-01-14 2000-07-28 Matsushita Electric Ind Co Ltd 構造化文書管理装置及び構造化文書検索方法
JP2002132807A (ja) * 2000-10-26 2002-05-10 Communication Research Laboratory 階層構造データ検索システム,階層構造データ検索処理方法およびそのプログラム記録媒体
JP2005025525A (ja) * 2003-07-02 2005-01-27 Oki Electric Ind Co Ltd 情報検索システム、情報検索方法及び情報検索プログラム
JP2005165748A (ja) * 2003-12-03 2005-06-23 Canon Inc 情報検索装置およびその方法、コンピュータ可読メモリ

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011529600A (ja) * 2008-07-29 2011-12-08 テキストワイズ・リミテッド・ライアビリティ・カンパニー 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2011048718A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索プログラム
JP2013077150A (ja) * 2011-09-30 2013-04-25 Fujitsu Broad Solution & Consulting Inc ファイル管理プログラム、情報処理装置およびファイル管理方法
JP2013196264A (ja) * 2012-03-19 2013-09-30 Mitsubishi Denki Information Technology Corp 類似検索装置及びコンピュータプログラム及び類似検索方法

Also Published As

Publication number Publication date
JP4728125B2 (ja) 2011-07-20

Similar Documents

Publication Publication Date Title
US6970863B2 (en) Front-end weight factor search criteria
US9348871B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
KR100898454B1 (ko) 통합 검색 서비스 시스템 및 방법
KR100672277B1 (ko) 개인화 검색 방법 및 검색 서버
US20090287676A1 (en) Search results with word or phrase index
WO2014029173A1 (zh) 一种用于对搜索结果进行排序的方法、装置与设备
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
WO2007024594A2 (en) Providing predictive search results prior to completion of search query
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
KR20100112512A (ko) 검색 장치 및 검색 방법
KR20080024712A (ko) 사용자의 검색 히스토리를 이용한 모바일 정보 검색 방법,분류 방법 및 정보 검색 시스템
JP5269938B2 (ja) 急上昇ワード関連付け装置及び方法
JP4728125B2 (ja) 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム
CN108509449B (zh) 一种信息处理的方法及服务器
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP2003271648A (ja) 検索装置、検索方法、ならびに、プログラム
JP2020042545A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20120119885A (ko) 사용자의 검색 히스토리를 이용한 컨텐츠 분류 방법 및 시스템
JP2013109514A (ja) 関連ワード表示制御装置、関連ワード表示方法、及びプログラム
JP2002140257A (ja) コンテンツ判定方法
JP5843235B2 (ja) Web情報処理装置、web情報処理方法、およびプログラム
KR102309802B1 (ko) Sns 사이트 트렌드 분석방법
JP5445071B2 (ja) 検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110414

R150 Certificate of patent or registration of utility model

Ref document number: 4728125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350