JP2011175453A

JP2011175453A - キーワード検索システム

Info

Publication number: JP2011175453A
Application number: JP2010038917A
Authority: JP
Inventors: Toshio Ikeda; 利夫池田
Original assignee: Kansai Electric Power Co Inc
Current assignee: Kansai Electric Power Co Inc
Priority date: 2010-02-24
Filing date: 2010-02-24
Publication date: 2011-09-08

Abstract

【課題】キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを的確に抽出することができるようにする。
【解決手段】キーワード検索式におけるキーワードの入力位置に応じて、ユーザ毎に、個別重み値を設定して検索インデックスが作成される。特定のユーザが「インフルエンザ」というキーワードが第１ＫＷ位置に、「子供」が第２ＫＷ位置に、及び「治療」が第３ＫＷ位置に設定されたキーワード検索式６１を入力したとする。予めユーザのユーザＩＤに関連付けて、３つのキーワード検索式おけるキーワードの入力位置に応じた個別重み値のテーブル６２が用意されており、このテーブル６２を読み出して、キーワードの入力位置に応じて重みが付与された検索インデックスが作成される。この検索インデックスを用いて文書データベースに対する検索処理が実行される。
【選択図】図１１

Description

本発明は、データベースに蓄積された複数の文書ファイルを、通信ネットワーク上においてキーワード検索させるためのシステムに関する。

インターネットのような通信ネットワーク上において、ポータルサイトを通して多数のコンテンツ（文書ファイル）を蓄積するデータベースに対して検索処理を実行させ、所望の文書ファイルを抽出することを可能とする検索システムが汎用されている。前記検索処理の方式として最も普及しているものは、キーワード検索方式である。

キーワード検索は、ユーザが、自身が得たい情報に関連するキーワードをポータルサイトの検索窓に入力すると、データベースに蓄積された文書ファイルの各々について予め作成されたインデックスと前記キーワードとが、検索システムに備えられている検索アルゴリズムで照合され、類似度の高い文書ファイルがヒット文書として抽出されるものである（例えば特許文献１参照）。

特開２００９−１４６０１３号公報

一般にキーワード検索は、手軽な検索手法ではあるが、検索精度はあまり高くない。これは、主に検索情報の少なさ、検索主題に応じた的確なキーワードの選定の困難さが要因である。すなわち、ほとんどのキーワード検索は、ユーザが直感で思い付いた２〜３個程度のキーワードを検索窓に入力する態様で実行される。このような検索では、検索主題にマッチする検索結果が得られにくく、ユーザはキーワードを何度も変更して検索処理を実行させねばならない。

検索の情報量の増加及び的確さを担保するために、自然文を検索窓に入力させる自然文検索方式も存在する。この自然文検索方式は、上記のキーワード検索方式よりも検索精度を向上させることが可能な方式ではあるが、ユーザに自然文の起案と入力という負荷を掛けるものであり、また検索処理に時間を要するという不都合がある。

本発明は、上記の問題に鑑みて為されたものであって、キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを的確に抽出することができるキーワード検索システムを提供することを目的とする。

上記目的を達成する本発明の一の局面に係るキーワード検索システムは、検索対象となる多数の文書ファイルが記憶されたデータベースと、前記データベースに対して前記文書ファイルの検索処理を行う検索手段と、前記検索処理のためのキーワード検索式の入力を、複数のユーザから受け付ける入力手段と、前記キーワード検索式に用いられた各キーワード、及び、これらキーワードの前記キーワード検索式中における入力位置を、ユーザ情報に関連付けて記憶する記憶手段と、使用されているキーワード数が同一であるキーワード検索式をユーザ毎に抽出し、前記キーワードの入力位置毎に、抽出されたキーワード検索式間におけるキーワードの変化数を求めることで、キーワードの固定度合いを算出する固定度算出手段と、特定のユーザ毎に、前記キーワードの固定度合いに基づいて前記キーワード検索式中における入力位置毎に設定され、前記特定のユーザが前記データベースに対して文書ファイルの検索処理を実行する際に用いられる第１の個別重み値を求める重み算出手段と、を備える（請求項１）。

キーワード検索には、ユーザの癖がしばしば現れる。例えば、３つのキーワードでキーワード検索式を創作し、検索結果に応じてキーワードを次々に変更して新たなキーワード検索式を順次創作するような場合、キーワード検索式中における１番目のキーワード入力位置に、ユーザが最も重視するキーワードを入力し、２番目、３番目の入力位置には変更を予定するキーワードを入力するが如きである。

上記の構成によれば、複数のキーワード検索式間におけるキーワードの固定度合いが、前記キーワードの入力位置毎に求められる。そして、前記固定度合いに基づいた第１の個別重み値が、重み算出手段により求められる。従って、固定度合いが高い入力位置に入力されるキーワードについては、当該ユーザが最も重視しているキーワードであると見なして、高い重み値を設定し、検索処理において当該キーワードが重視されるようにすることが可能となる。

上記構成において、前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス回数を、ユーザ情報に関連付けて記憶するものであって、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段をさらに備え、前記重み算出手段は、前記アクセス回数を参照することで、キーワードが固定化された検索処理における前記アクセス数の多さ度合いに基づく第２の個別重み値をさらに求めることが望ましい（請求項２）。

この構成によれば、キーワードが同一であるキーワード検索式、例えば１番目の入力位置に同一キーワード（固定キーワード）が設定されている複数のキーワード検索式が記憶手段に記憶されている場合に、これら検索処理でヒットした文書ファイル群内の文書ファイルへのアクセス数が求められる。ここで、ユーザが前記固定キーワードを重視しているならば、自ずとアクセス数も増加すると推定される。従って、このアクセス数の多さ度合いもまた、キーワードの入力位置毎に設定する個別重み値となり得る。

上記構成において、前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、前記記憶手段は、さらに、各文書ファイルへのアクセス時間を、ユーザ情報に関連付けて記憶するものであって、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段をさらに備え、前記重み算出手段は、前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第３の個別重み値をさらに求めることが望ましい（請求項３）。

この構成によれば、同一キーワード（固定キーワード）が設定されているキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度が求められる。ここで、ユーザが前記固定キーワードを重視しているならば、文書ファイルへのアクセス時間、すなわち閲覧時間が長くなる傾向が現れ、アクセス密度が増加すると推定される。従って、このアクセス密度もまた、キーワードの入力位置毎に設定する個別重み値となり得る。

上記構成において、前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス回数と、各文書ファイルへのアクセス時間とを、ユーザ情報に関連付けて記憶するものであり、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段と、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段と、をさらに備え、前記重み算出手段は、前記キーワードの入力位置毎に、前記アクセス回数を参照することで、キーワードが固定化された検索処理における前記アクセス回数の多さ度合いに基づく第２の個別重み値と、前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第３の個別重み値と、をさらに求めることが望ましい（請求項４）。

この構成によれば、キーワードの固定度合いに加えて、アクセス数の多さ度合いとアクセス密度との双方が個別重み値の設定要素とされるので、ユーザの癖を一層忠実に反映した個別重み値をキーワードの入力位置毎に設定することができる。

本発明のキーワード検索システムによれば、キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを一層的確に抽出することができる検索処理を実行させることが可能となる。従って、例えばインターネットのポータルサイトにおいて実行されるキーワード検索の精度を向上させ、ユーザの検索ニーズを満足させることができる。

本発明のキーワード検索システムが適用されたネットワークシステムのハードウェア構成を概略的に示す構成図である。本実施形態の文書検索の概要を示す模式的なフローチャートである。検索窓へのキーワード検索式の入力状況を示す模式図である。自然文検索方式を示す模式図である。キーワード検索方式における検索式の設定を説明するための模式図である。データ処理装置の機能構成を示す機能ブロック図である。キーワード検索式の入力履歴の一例を示す図である。キーワードの固定度の算出方法を説明するための模式図である。文書アクセス数の算出方法を説明するための模式図である。文書アクセス密度の算出方法を説明するための模式図である。個別重み値の設定を説明するための模式図である。個別重み値の作成処理を示すフローチャートである。

以下、図面に基づいて本発明の実施形態につき詳細に説明する。図１は、本発明に係るキーワード検索システムが適用されたネットワークシステムＳのハードウェア構成を概略的に示す構成図である。このネットワークシステムＳは、例えばインターネットのようなワールドワイドなネットワークシステム、若しくは社内ネットワークのようなローカルなネットワークシステムであって、このネットワーク上において利用可能な文書データベース（ＤＢ）１０と、ユーザデータベース（ＤＢ）１１と、検索エンジン２０と、データ処理装置３０と、ユーザ（文書ファイルの検索及び閲覧者）が利用する端末装置４０とが、通信ネットワークＮＴを介してデータ通信可能に接続されてなる。

文書データベース１０（多数の文書ファイルが記憶されたデータベース）は、各種のコンテンツが蓄積されたデータベースであり、ＨＴＭＬファイル、テキストファイル、画像ファイル、音楽ファイル及びこれらの複合ファイルなどが記憶されている。なお、本明細書でいう「文書ファイル」は、テキストデータのみのファイルを意味するのではなく、タイトル、属性、説明文などの記述を含む他のファイルを含む。これらの文書ファイルを、ユーザＩＤを有するユーザは、端末装置４０（端末機４１、４２、４３、４４、４５、・・・）からアクセスして閲覧することができる。

ユーザデータベース１１は、ネットワークシステムＳのユーザの各種の情報を管理するデータベースである。ユーザ毎に、例えば、ユーザの氏名、性別、年齢、住所、ユーザＩＤ、電話番号等のユーザ情報が、このユーザデータベース１１によって管理される。さらにユーザデータベース１１には、各ユーザが、検索エンジン２０に実行させた検索式の情報、どの文書ファイルにいつアクセスしたかの情報、及び、文書ファイルにアクセスした時間（ファイル閲覧時間）の情報が格納される。これらの情報については後記で詳述する。

検索エンジン２０は、所定のパラメータを有する検索アルゴリズムが搭載され、文書データベース１０に対し、端末装置４０から与えられた検索条件に対応する文書ファイルの検索処理を行う。具体的には検索エンジン２０は、文書データベース１０に記憶されている文書ファイル毎に作成された検索用の文書インデックスを利用する。また、検索エンジン２０は、ユーザが端末装置４０から入力する検索条件から作成される検索インデックスを利用する。さらに検索エンジン２０は、前記検索アルゴリズムを用いて、前記文書インデックスと前記検索インデックスとの照合処理を行い、合致度合いの高い文書ファイルを文書データベース１０から抽出する。

データ処理装置３０は、文書データベース１０に記憶されている文書ファイル毎にキーワードや属性（メタデータ）を抽出して文書インデックスを作成する。文書インデックスは、文書データベース１０に対して文書ファイルの検索処理を実行する際に用いられるものであって、文書ファイル単位で、各文書ファイルの文書データから単語を抽出して作成される。そして、検索精度を向上させるため、例えばその単語の出現頻度他に基づき、単語毎に重み付けが付与される。

さらに、データ処理装置３０は、ユーザが端末装置４０から入力するクエリ（キーワード検索式）に基づいて、検索インデックスを作成する。本実施形態では、キーワード検索式で与えられたキーワードを同等に扱うのではなく、キーワード検索式におけるキーワードの入力位置に応じて、ユーザ毎に、個別重み値を設定して検索インデックスが作成される点に特徴を有する。この点は、後記で詳述する。

端末装置４０（入力手段）は、ネットワークシステムＳの検索サービスを受ける多数のユーザに保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機４１、４２、４３、４４、４５・・・である。端末装置４０は、インターネット若しくはローカルネット等の通信ネットワークＮＴを介して検索エンジン２０及び文書データベース１０にアクセス可能とされている。各ユーザは、各自の通信端末機４１〜４５から、文書データベース１０中の文書ファイルの検索処理のため、検索エンジン２０にキーワード検索式を入力したり、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルを閲覧したり、さらには、自身が作成した文書ファイルを文書データベース１０に投稿して記憶させたりすることが可能とされている。

図２は、ネットワークシステムＳの、文書データベース１０に対する文書検索処理の概要を示す模式的なフローチャートである。検索エンジン２０に端末装置４０から検索条件が与えられると、データ処理装置３０はその検索条件について文書解析処理を行う（ステップＳ１）。この文書解析処理は、検索条件が自然文の場合は形態素解析等を含むが、キーワード検索式の場合は、専ら各キーワードの入力位置を特定する処理となる。

次にデータ処理装置３０は、検索条件を入力したユーザのユーザＩＤに基づいて、キーワード検索式におけるキーワードの入力位置毎に個別重み値を設定する（ステップＳ２）。この個別重み値は、ユーザ毎に、そのキーワード検索式の入力実績及び文書ファイルの閲覧態様に基づいて個別に設定される重み値である。個別重み値は、検索時ではなく、データ処理装置３０による定期的な処理で予め作成される。

その後、データ処理装置３０は、与えられたキーワード及び個別重み値をベースにして検索インデックスを作成する（ステップＳ３）。そして、検索エンジン２０が、当該検索インデックスを用いて、大量の文書データを含む文書データベース１０に対して文書の検索処理を行う（ステップＳ４）。

一方、文書データベース１０の側においても、データ処理装置３０による定期的な処理で、メタデータの抽出のための文書解析（ステップＳ０１）、及び文書インデックスの作成（ステップＳ０２）が行われている。検索元のステップＳ４における検索処理では、前記検索インデックスと検索先の文書インデックスとを使用し、所定の検索アルゴリズムを適用して検索条件に対して類似度が高い文書ファイルを文書データベース１０から抽出する。ステップＳ４の検索処理で得られた結果（文書ファイルのＵＲＬのリスト等）は、検索条件を入力したユーザの端末装置４に出力される（ステップＳ５）。ユーザは、ＵＲＬのリストから閲覧を望む文書ファイルを選択し、文書データベース１０内に蓄積されている文書ファイルを閲覧する。

上記のステップＳ２において、ユーザ毎に個別重み値を設定する点において、本実施形態は特徴を有する。その理由について説明する。キーワード検索は、ユーザが得たい情報に関連するキーワードを、検索エンジン（ポータルサイト）の検索窓に入力することが起点となる。キーワードが１つのみ入力される場合もあるが、多くの場合は、検索精度を上げるため、複数個のキーワードを用いたａｎｄ検索式（キーワード検索式）が入力される。

図３は、ユーザの端末装置４０の表示画面に表示される検索窓５１へのキーワード検索式の入力状況を示す模式図である。この状態で検索ボタン５２がクリックされることで、検索処理が実行される。ここでは、「インフルエンザ」、「子供」、「治療」というキーワードが検索窓５１に入力され、これら３つのキーワードからなるキーワード検索式（ａｎｄ検索式）が実行される例を示している。ａｎｄ検索の識別子は通常、スペース記号の入力で表現される。本明細書では、検索窓５１の最前に入力されるキーワードの入力位置を「第１ＫＷ（キーワード）位置」（図３の例では「インフルエンザ」が入力されている位置）、ａｎｄ検索の識別子を挟んだ２番目のキーワードの入力位置を「第２ＫＷ位置」、さらにａｎｄ検索の識別子を挟んだ３番目のキーワードの入力位置を「第３ＫＷ位置」という。

このようなキーワード検索方式は、ユーザが想起したキーワードを入力するだけで検索が実行できる手軽さがある反面、入力される情報量が少なく、検索精度を向上させるには限界がある。検索精度を向上させるには、自然文を検索窓に入力させる自然文検索方式が有用である。図４は、自然文検索方式を示す模式図である。この自然文検索方式では、ユーザが求める情報が具体的に表現された文章が検索窓５０１に入力される。文章形式でクエリが入力されるため、入力される情報量が多く、自然文検索方式を採用することで検索精度を向上させることができる。

しかしながら、ユーザに自然文の起案と入力という負荷を掛けるものであり、また自然文が長文になる程、検索処理に時間を要するという不都合がある。そこで、手軽な検索が行えるキーワード検索方式において、少ない入力情報量ながらも、可及的に検索精度を向上する手法が求められるところである。

ここで、キーワード検索方式において、所望の情報（文書ファイル）が得られない場合における、ユーザの検索操作の一例を図５に基づき説明する。「インフルエンザ」、「子供」及び「治療」という１回目のキーワード検索式で所望のヒット文書ファイルが得られなかった場合、ユーザは、キーワード検索式をそっくり変更することは少なく、しばしばキーワード検索式のうちの１つのキーワードを変更する。ここでは、第１ＫＷ位置及び第２ＫＷ位置が変更されることなく固定化され、第３ＫＷ位置の「治療」が、２回目のキーワード検索式で「薬」に、３回目のキーワード検索式で「処方」にそれぞれ変更されている例を示している。

いずれのキーワード入力位置のキーワードが固定化され、いずれのキーワード入力位置のキーワードが変更されるかは、ユーザ毎に有意な傾向が現れることがある。すなわち、ユーザ本人が文書検索において重要と考えている検索キーワードは、再検索の際には無意識に固定される。そして、そのような重要検索キーワードが入力される位置もまた、ユーザ毎に無意識に固定される傾向が出る。図５に例示したユーザならば、第３ＫＷ位置が頻繁に変更されるキーワード入力位置であり、第１ＫＷ位置及び第２ＫＷ位置が変更の少ないキーワード入力位置であるという傾向が表出している。従って、当該ユーザは、第３ＫＷ位置に重要度が低いキーワードを入力する癖があると推定することができる。

このような傾向は、ユーザ毎に、過去に入力したキーワード検索式を解析することで把握することができる。つまり、ユーザ毎に、どのキーワード入力位置の固定性（重要度）が高いかを把握することができる。そして、その固定性に応じて、キーワード入力位置毎にユーザ毎の個別重み値を設定すれば、キーワード検索の精度を向上させることが可能となる。これにより、ユーザが、重要度が高いと潜在的に高いと考えているキーワードについて高い重み値が与えられるようになり、結果として重要キーワードにより関連深い文書ファイルを検索処理で上位にヒットさせることが可能となる。

続いて、データ処理装置３０の機能構成の詳細について、図６に基づいて説明する。データ処理装置３０は、例えば各種の演算処理を実行可能なＣＰＵ（中央演算処理装置）を備えた大型のコンピュータ装置である。前記ＣＰＵは、所定のデータ処理を行うべくプログラミングされたソフトウェアが実行されることで、図６に示す機能部を具備するように動作する。データ処理装置３０は、文書インデックス作成部３１、文書インデックス記憶部３２、検索インデックス作成部３３及び個別重み記憶部３８を備えている。

文書インデックス作成部３１は、文書ファイル毎に単語やメタデータを抽出すると共に、抽出された単語等に重み値を与えて文書インデックスを作成する。この文書インデックス作成のために文書インデックス作成部３１は、文書データベース１０から文書ファイルを抽出すると共に、抽出された各文書ファイルが含む文書データに対して、正規化処理、文書構造解析処理、同義語処理などの文書解析処理を行い、文書データを単語単位に分割する。これにより、自立する単語が導出される。そして、例えば各単語の出現頻度を算出し、頻度が多い単語には高い重みを設定する等して、各々の単語重み値が導出される。

文書インデックス記憶部３２は、文書インデックス作成部３１が作成する文書インデックスを記憶する。この文書インデックスは、検索エンジン２０によりデータベース１０に対して文書ファイルの検索処理が実行される際に用いられる。また、文書インデックスは、所定の文書インデックス更新タイミングで更新される。

検索インデックス作成部３３は、ユーザが端末装置４０から入力するキーワード検索式に基づいて、検索インデックスを作成する。この検索インデックスには、ユーザ毎に設定される個別重み値が付加される。検索インデックス作成部３３は、固定度算出部３４（固定度算出手段）、アクセスカウント部３５（アクセスカウント手段）、アクセス密度算出部３６（アクセス密度算出手段）及び重み算出部３７（重み算出手段）を備えている。

検索インデックス作成部３３の説明の前に、ユーザデータベース１１（記憶手段）に格納されているデータについて説明する。ユーザデータベース１１には、ユーザ情報管理部１１Ａ、検索式情報管理部１１Ｂ、アクセス数データ管理部１１Ｃ及びアクセス時間データ管理部１１Ｄが備えられている。

ユーザ情報管理部１１Ａは、ユーザの氏名、性別、年齢、住所、ユーザＩＤ、電話番号等、ネットワークシステムＳのユーザの基本的なユーザ情報を管理する。

検索式情報管理部１１Ｂは、各ユーザが、検索エンジン２０に実行させたキーワード検索式に用いられた各キーワード、及び、これらキーワードの前記キーワード検索式中における入力位置を、ユーザＩＤ（ユーザ情報）及び検索時刻に関連付けて記憶する。例えば、あるユーザが図３に例示したようなキーワード検索式を検索窓５１に入力し、検索処理を実行させた場合、「インフルエンザ」というキーワードが第１ＫＷ位置に、「子供」が第２ＫＷ位置に、及び「治療」が第３ＫＷ位置に入力されたことが、そのユーザのユーザ情報及び検索時刻に関連付けて記憶される。

図７は、検索式情報管理部１１Ｂで管理される、一のユーザの検索式情報を示す表形式の図である。ここでは、検索時刻を検索回数として表している。図中のアルファベット「Ａ」〜「Ｕ」はキーワードを示し、例えば第１回目の検索処理では、「Ａ」というキーワードが第１ＫＷ位置に、「Ｂ」が第２ＫＷ位置に、及び「Ｃ」が第３ＫＷ位置に入力されたことを示している。つまり、キーワード「Ａ」ａｎｄ「Ｂ」ａｎｄ「Ｃ」というキーワード検索式が実行されたことを示す。

アクセス数データ管理部１１Ｃは、各ユーザが、各検索処理においてヒットした文書ファイル群内中で、実際に閲覧（アクセス）した文書ファイル名を、ユーザＩＤ（ユーザ情報）に関連付けて記憶する。図７の例では、第１回目の「Ａ」ａｎｄ「Ｂ」ａｎｄ「Ｃ」というキーワード検索式の検索処理の後、第２回目の「Ａ」ａｎｄ「Ｂ」ａｎｄ「Ｄ」というキーワード検索式の検索処理の前に、当該ユーザがアクセスした文書ファイル名を記憶する。第２回目〜第１０回目の検索処理についても同様である。

アクセス時間データ管理部１１Ｄは、各ユーザの文書ファイルへのアクセス時間を、ユーザ情報に関連付けて記憶する。アクセス時間は、あるユーザが、自身の端末装置４０でキーワード検索式の検索処理を実行させ、ヒットした文書ファイル群のリストを取得した場合において、そのリスト中の特定の文書ファイルを開く選択指示を与えた時刻から、文書ファイルを閉じる指示を与えた時刻までの時間を計時することで取得される。

文書データベース１０には、各文書ファイルに記述されている文書の文字数を管理する文字数データ管理部１０Ａが備えられている。

検索インデックス作成部３３の固定度算出部３４は、ユーザ毎に、当該ユーザが設定したキーワード検索式におけるキーワードの固定度合いを表現する指標を算出する。キーワードの固定度合いは、使用されているキーワード数が同一であるキーワード検索式をユーザ毎に抽出し、前記キーワードの入力位置毎に、抽出されたキーワード検索式間におけるキーワードの変化数を求めることで数値化される。すなわち、あるユーザについて、図７に示すように、例えば３つのキーワードが用いられているキーワード検索式が抽出され、第１、第２、第３ＫＷ位置毎に、キーワードがどの程度変化しているかが求められる。本実施形態では、キーワードの変化度合いが少ない（キーワードの固定度合いが高い）キーワード入力位置ほど、当該ユーザは、その入力位置に自身が重要と認識しているキーワードを入力しているものと扱う。

固定度算出部３４によるキーワード固定度合いの算出方式の具体例を、図８に基づいて説明する。ここでは、検索回数が進行するに際して、キーワードの設定から変更までを１つのブロックと定義し、キーワード入力位置毎にブロック数が算出される。第１ＫＷ位置に注目すると、第１〜第１０回目の検索処理の間にキーワード「Ａ」、「Ｇ」、「Ｉ」、「Ｌ」及び「Ｒ」が設定された履歴がある。従って、第１ＫＷ位置のブロック数＝５である。このうち、キーワード「Ａ」のブロックＢＬ１１は、第１〜第３回目の検索処理において変更されなかった、固定化ブロックである。キーワード「Ｌ」のブロックＢＬ１２、キーワード「Ｒ」のブロックＢＬ１３も固定化ブロックである。同様に、第２ＫＷ位置のブロック数＝６であり、固定化ブロックは、キーワード「Ｂ」のブロックＢＬ２１、キーワード「Ｅ」のブロックＢＬ２２及びキーワード「Ｎ」のブロックＢＬ２３である。また、第３ＫＷ位置のブロック数＝９であり、固定化ブロックは、キーワード「Ｋ」のブロックＢＬ３１のみである。従って、本実施形態では固定度算出部３４は、第１、第２、第３ＫＷ位置のキーワード固定度合いを、各々「５」、「６」、「９」と算出する。

当然に、第１ＫＷ位置のブッロク数が最も少ないので、固定度が最も高いと評価される。つまり、この例では、当該ユーザは、第１ＫＷ位置に重要視しているキーワード、すなわち固定化されることが多いキーワードを入力する一方で、第３ＫＷ位置には重要視していないキーワード、すなわち頻繁に変更するキーワードを入力する傾向を持つことが判る。従って、当該ユーザにとって、第１ＫＷ位置が最も重要な入力位置であると評価することができる。このようなキーワード固定度合いに基づき、キーワード入力位置毎に重み値を設定することで、検索精度を向上させることが可能である。しかし、本実施形態では、さらなる検索精度の向上のため、文書アクセス数と文書アクセス密度も評価対象とする。

アクセスカウント部３５は、キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求める。つまり、上記の固定化ブロックを含むキーワード検索式でヒットした文書ファイルに、ユーザがどれだけアクセスしたかの評価値を求める。この評価値は、固定化ブロックを含む検索処理でヒットした文書ファイルへのアクセス数が多いほど、そのキーワードの入力位置をユーザが重視しているとの推定に基づき導出されるものである。

図９は、文書アクセス数の算出方法を説明するための模式図である。ここでは、第１ＫＷ位置についての算出方法を示している。第１ＫＷ位置において、固定化ブロックは、ブロックＢＬ１１、ＢＬ１２、ＢＬ１３である。アクセスカウント部３５は、このような固定化ブロックを抽出すると共に、ユーザデータベース１１のアクセス数データ管理部１１Ｃを参照する。図９の最右欄は、第１〜第１０回目の検索処理で各々抽出された文書ファイル群のうち、実際にアクセスした文書ファイルの件数（ヒット文書アクセス数）を表している。そして、アクセスカウント部３５は、キーワードが固定化された状態のアクセス数を評価するために、固定化ブロックにおける２回目以降のアクセス数を抽出して合算することで、各入力位置の文書アクセス数を求める。勿論、固定化ブロックにおける１回目のアクセス数も合算するようにしても良い（以下でも同様である）。

図９に示すように、上記のアクセス数抽出の定義に従うと、キーワード「Ａ」のブロックＢＬ１１では、第２、第３回目の検索処理についてのアクセスブロックＡＣ１が、キーワード「Ｌ」のブロックＢＬ１２では第７、第８回目の検索処理についてのアクセスブロックＡＣ２が、キーワード「Ｒ」のブロックＢＬ１３では第１０回目の検索処理についてのアクセスブロックＡＣ３が合算対象となる。ここでは、第２、第３、第７、第８及び第１０回目の５回の検索処理で、それぞれ１０、３５、５０、３１及び２９個の文書ファイルにユーザがアクセスしている。従って、第１ＫＷ位置の、固定化ブロックを含む検索処理についての文書アクセス数は、これらを合計して、１０＋３５＋５０＋３１＋２９＝１５５となる。

同様な手法に基づき、第２ＫＷ位置、第３ＫＷ位置の文書アクセス数も算出される。第２ＫＷ位置については、固定化ブロックは、キーワード「Ｂ」、「Ｅ」、「Ｎ」のブロックＢＬ２１、ＢＬ２２、ＢＬ２３であり（図８）、第２、第４、第８、第９回目の検索処理についてのアクセス数が合算対象となる。また、第３ＫＷ位置については、固定化ブロックは、キーワード「Ｋ」のブロックＢＬ３１であり、第６回目の検索処理についてのアクセス数のみが対象となる。従って、第２ＫＷ位置の固定化ブロックのアクセス数＝１０＋７＋３１＋２７＝７５、第３ＫＷ位置の固定化ブロックのアクセス数＝８となる。従って、本実施形態ではアクセスカウント部３５は、第１、第２、第３ＫＷ位置の文書アクセス数を、各々「１５５」、「７５」、「８」と算出する。

アクセス密度算出部３６は、キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求める。このアクセス密度は、次式
アクセス密度＝アクセス時間／文書ファイルの文字数
にて算出され、検索処理でヒットした文書ファイルを、どれだけじっくりと読んでいるかの指標である。つまり、上記の固定化ブロックを含むキーワード検索式でヒットした文書ファイルについて、その文字数の割にアクセス時間が長いならば、ユーザは、その文書ファイルを検索主題に関連深いと認識し、時間を費やしてコンテンツを読んだと推定することができる。従って、アクセス密度が高いほど、そのキーワードの入力位置の重要度が高いと評価することができる。

図１０は、文書アクセス密度の算出方法を説明するための模式図である。ここでは、第１ＫＷ位置についての算出方法を示している。第１ＫＷ位置において、固定化ブロックは、上述の通りブロックＢＬ１１、ＢＬ１２、ＢＬ１３である。アクセス密度算出部３６は、このような固定化ブロックを抽出すると共に、ユーザデータベース１１のアクセス時間データ管理部１１Ｄ及び文書データベース１０の文字数データ管理部１０Ａを参照する。図１０の最右欄は、第１〜第１０回目の検索処理で各々抽出された文書ファイル群のうち、実際にアクセスした文書ファイルの閲覧時間の合計と、文字数の合計とを表している。

例えば、第２回目の検索処理に着目すれば、図９に示した通り、アクセスした文書ファイル数は１０である。アクセス密度算出部３６は、これら１０個の文書についてのアクセス時間データをアクセス時間データ管理部１１Ｄから取得して合算すると共に、各文書ファイルの文字数データを文字数データ管理部１０Ａから取得して合算する。そして、アクセス密度算出部３６は、キーワードが固定化された状態のアクセス密度を評価するために、固定化ブロックにおける２回目以降のアクセス時間及び文字数を合算した上で、各入力位置の文書アクセス密度を上式に基づき求める。

図１０に示すように、キーワード「Ａ」のブロックＢＬ１１では、第２、第３回目の検索処理についてのアクセス時間及び文字数のブロックＡＤ１が、キーワード「Ｌ」のブロックＢＬ１２では第７、第８回目の検索処理についてのブロックＡＤ２が、キーワード「Ｒ」のブロックＢＬ１３では第１０回目の検索処理についてのブロックＡＤ３が算出対象となる。ここでは、第２、第３、第７、第８及び第１０回目の検索処理におけるアクセス時間は、それぞれ２００、３５０、１８５、９２及び８０秒であり、文字数は、３５０、６００、２５５、１３３及び５９０文字である。従って、第１ＫＷ位置の、固定化ブロックを含む検索処理についての文書アクセス密度ａｄ１は、
ａｄ１＝（２００＋３５０＋１８５＋９２＋８０）／（３５０＋６００＋２５５＋１３３＋５９０）＝９０７／１９２８＝０．４７
となる。

同様な手法に基づき、第２ＫＷ位置、第３ＫＷ位置の文書アクセス密度も算出される。第２ＫＷ位置については、固定化ブロックは、キーワード「Ｂ」、「Ｅ」、「Ｎ」のブロックＢＬ２１、ＢＬ２２、ＢＬ２３であり（図８）、第２、第４、第８、第９回目の検索処理についてのアクセス時間及び文字数が算出対象となる。また、第３ＫＷ位置については、固定化ブロックは、キーワード「Ｋ」のブロックＢＬ３１であり、第６回目の検索処理についてのアクセス時間及び文字数のみが対象となる。従って、第２ＫＷ位置の、固定化ブロックを含む検索処理についての文書アクセス密度ａｄ２は、
ａｄ２＝（２００＋３０＋９２＋１１０）／（３５０＋３４０＋１３３＋５６０）＝４３２／１３８３＝０．３１
となる。また、第３ＫＷ位置の文書アクセス密度ａｄ３は、
ａｄ３＝１０／６７＝０．１５
となる。従って、本実施形態ではアクセス密度算出部３６は、第１、第２、第３ＫＷ位置の文書アクセス密度を、各々「０．４７」、「０．３１」、「０．１５」と算出する。この数値からも、第１ＫＷ位置が当該ユーザにとって最も重要であることが判る。

重み算出部３７は、特定のユーザ毎に、且つ、前記キーワード検索式中における入力位置毎に、検索処理を実行する際に用いられる個別重み値Ｗを求める。この個別重み値Ｗは、固定度算出部３４により算出されるキーワードの固定度合いに基づいて求められる第１の個別重み値Ｗ１と、アクセスカウント部３５により算出されるアクセス数の多さ度合いに基づく第２の個別重み値Ｗ２と、アクセス密度算出部３６により求められるアクセス密度に基づく第３の個別重み値Ｗ３とを重み要素として含み、第ｎ番目のＫＷ位置の個別重み値Ｗは次式で算出される。
Ｗ＝Ｗ１×Ｗ２×Ｗ３

第１の個別重み値Ｗ１は、固定度算出部３４が求めるブロック数を単純に重み値に採用しても良いが、入力位置相互で極端な差異が出ないよう、本実施形態ではブロック数の逆数を重み値とする。従って、
第１ＫＷ位置の重み値Ｗ１_−１＝１／５＝０．２０
第２ＫＷ位置の重み値Ｗ１_−２＝１／６＝０．１７
第３ＫＷ位置の重み値Ｗ１_−３＝１／９＝０．１１
と、各々の第１の個別重み値Ｗ１が求められる。

第２の個別重み値Ｗ２は、キーワードが固定化された検索処理の１検索あたりの文書アクセス数が、重み値とされる。１検索あたりの文書アクセス数が多いほど、ユーザがその検索を重視したと推定できるからである。従って、
第１ＫＷ位置の重み値Ｗ２_−１＝（１０＋３５＋５０＋３１＋２９）／５＝１５５／５＝３１．０
第２ＫＷ位置の重み値Ｗ２_−２＝（１０＋７＋３１＋２７）／４＝７５／４＝１８．８
第３ＫＷ位置の重み値Ｗ２_−３＝８／１＝８
と、各々の第２の個別重み値Ｗ２が求められる。

第３の個別重み値Ｗ３は、アクセス密度算出部３６により求められるアクセス密度ａｄ−１、ａｄ−２、ａｄ−３が、そのまま重み値として用いられる。従って、
第１ＫＷ位置の重み値Ｗ３_−１＝０．４７
第２ＫＷ位置の重み値Ｗ３_−２＝０．３１
第３ＫＷ位置の重み値Ｗ３_−３＝０．１５
と、各々の第３の個別重み値Ｗ３が求められる。

重み算出部３７は、以上の個別重み値Ｗ１〜Ｗ３を用いて、キーワード数＝３のキーワード検索式における特定のユーザの入力位置毎の重み値Ｗ_３→１（第１ＫＷ位置）、Ｗ_３→２（第２ＫＷ位置）及びＷ_３→３（第３ＫＷ位置）を次のように求める。
Ｗ_３→１＝Ｗ１_−１×Ｗ２_−１×Ｗ３_−１＝０．２×３１．０×０．４７＝２．９１
Ｗ_３→２＝Ｗ１_−２×Ｗ２_−２×Ｗ３_−２＝０．１７×１８．８×０．３１＝０．９９
Ｗ_３→３＝Ｗ１_−３×Ｗ２_−３×Ｗ３_−３＝０．１１×８×０．１５＝０．１３

上記と同様な手法により、検索インデックス作成部３３は、キーワード数＝２、若しくはキーワード数＝４、５・・・のキーワード検索式における特定のユーザの入力位置毎の個別重み値を求める。この個別重み値は、所定の検索インデックス更新タイミングで再計算され、更新される。

個別重み記憶部３８は、ユーザＩＤに関連付けて、検索インデックス作成部３３により求められる上記の個別重み値を記憶する。この個別重み値は、検索エンジン２０によりデータベース１０に対して文書ファイルの検索処理が実行される際に読み出される。

図１１は、個別重み値が用いられた検索処理の概要を説明するための模式図である。例えば、上記図７〜図１０で例示した個別重みがユーザ「Ａさん」の検索履歴に基づき作成されたものとする。いま、Ａさんが、「インフルエンザ」というキーワードが第１ＫＷ位置に、「子供」が第２ＫＷ位置に、及び「治療」が第３ＫＷ位置に設定されたキーワード検索式６１を端末装置４０（図１参照）の検索窓へ入力したとする。このキーワード検索式６１は、ＡさんのユーザＩＤと共に、検索エンジン２０へ送信される。

データ処理装置３０の個別重み記憶部３８には、ＡさんのユーザＩＤに関連付けて、３つのキーワード検索式おけるキーワードの入力位置に応じた個別重み値（ＫＷ位置重みパラメータ）のテーブル６２が記憶されている。検索インデックス作成部３３は、Ａさん用のテーブル６２を読み出して、検索インデックスを作成する。すなわち、第１ＫＷ位置のキーワードである「インフルエンザ」には「２．９１」の重み値を、第２ＫＷ位置の「子供」には「０．９９」の重み値を、第３ＫＷ位置の「治療」には「０．１３」の重み値を付与して検索インデックスを作成する。そして、検索エンジン２０は、この検索インデックスを用いて文書データベース１０に対する検索処理を実行する。

上記のような個別重みが付された検索インデックスが使用されることで、第１ＫＷ位置の「インフルエンザ」の重みが最も大きくされた状態で検索処理が実行され、「インフルエンザ」に関連深い文書ファイルが上位にヒットするようになる。これに対し、上記のような個別重みが適用されない場合、つまり、各キーワード入力位置の重み値＝１．００のテーブル６３が用いられた場合、「風邪」などの、Ａさんが本来望んでいないキーワードを多く含む文書ファイルが上位にヒットする可能性が高くなり、Ａさんにとっての検索精度が低下する。

続いて、以上説明した本実施形態に係るネットワークシステムＳ（データ処理装置３０）による個別重み値の作成処理を、図１２に示すフローチャートに基づいて説明する。所定の個別重み値更新タイミングが到来すると、データ処理装置３０は、個別重み値作成の対象ユーザのカウンタｉを０に設定する（ステップＳ１１）。そして、対象ユーザカウンタｉ＝ｉ＋１として、１番目にナンバリングされているユーザについての処理を開始する（ステップＳ１２）。

次に、検索インデックス作成部３３（図６参照）が、ユーザデータベース１１の検索式情報管理部１１Ｂに格納されている、ユーザｉの検索式情報を取得する（ステップＳ１３）。検索式情報を取得後、検索インデックス作成部３３は、キーワード検索式を使用キーワード数に基づき分類し、例えばキーワード数＝３のグループ、キーワード数＝４のグループというように整理する（ステップＳ１４）。

その後、検索インデックス作成部３３は、ユーザｉについて取得されたキーワード検索式のサンプル数が、個別重み値更新を行うのに十分であるか否かを判定する（ステップＳ１５）。この判定は、サンプル数が所定の閾値を超過しているか否かに基づき実行される。サンプル数が閾値以下である場合（ステップＳ１５でＮＯ）、ユーザｉについてこれ以上の処理は行わずにステップＳ１２へ戻り、ユーザのカウンタｉ＝ｉ＋１として（ステップＳ１２）、次のユーザの処理に移行する。

サンプル数が閾値を超過する場合（ステップＳ１５でＹＥＳ）、固定度算出部３４により、キーワード入力位置毎にブロック数をカウントする処理が実行され（ステップＳ１６：図８参照）、キーワード入力位置毎にキーワードの固定度を示す指標となるブロック数が特定される（ステップＳ１７）。

次に、アクセスカウント部３５により、文書アクセス数が算出される。アクセスカウント部３５は、図８に示すブロックＢＬ１１、ＢＬ１２、ＢＬ１３のような固定化ブロックを、キーワード入力位置毎に抽出する（ステップＳ１８）。そして、アクセスカウント部３５は、ユーザデータベース１１のアクセス数データ管理部１１Ｃから、ユーザｉのアクセス数データを取得し（ステップＳ１９）、各固定化ブロックに対応するアクセス数を求め、キーワード入力位置毎に集計する（ステップＳ２０：図９参照）。

続いて、アクセス密度算出部３６により、文書アクセス密度が算出される。アクセス密度算出部３６は、ユーザデータベース１１のアクセス時間データ管理部１１Ｄから、ユーザｉが実際にアクセスした文書ファイルの閲覧時間のデータと、文書データベース１０の文字数データ管理部１０Ａから、前記文書ファイルの文字数のデータとを取得する（ステップＳ２１）。そして、アクセス密度算出部３６は、各固定化ブロックに対応するアクセス密度を、「アクセス時間／文書ファイルの文字数」の算術式で求め、キーワード入力位置毎に集計する（ステップＳ２２：図１０参照）。

しかる後、重み算出部３７により、ステップＳ１７で求められたキーワード入力位置毎にブロック数、ステップＳ２０で求められた各固定化ブロックに対応するアクセス数、及び、ステップＳ２２で求められた各固定化ブロックに対応するアクセス密度に基づいて、ユーザｉについての個別重み値が算出される（ステップＳ２３）。この個別重み値は、個別重み記憶部３８に、ユーザｉのユーザＩＤに関連付けて格納される（ステップＳ２４）。

そして、対象ユーザｉがラストユーザであるか否かが判定される（ステップＳ２５）。現状のユーザｉがラストユーザでない場合（ステップＳ２５でＮＯ）、ステップＳ１２に戻ってｉが１つインクリメントされ、次のユーザを対象ユーザｉにとして同様な処理が繰り返される。一方、現状のユーザｉがラストユーザである場合（ステップＳ２５でＹＥＳ）、処理を終える。

以上説明した本実施形態に係るネットワークシステムＳによれば、ユーザ毎に、且つ、キーワード検索式のキーワード入力位置毎に、個別重み値が設定された検索インデックスが作成される。このため、キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを一層的確に抽出することができる検索処理を実行させることが可能となる。従って、例えばインターネットのポータルサイトにおいて実行されるキーワード検索の精度を向上させ、ユーザの検索ニーズを満足させることができる。

Ｓネットワークシステム
１０文書データベース
１１ユーザデータベース（記憶手段）
２０検索エンジン
３０データ処理装置
３１文書インデックス作成部
３２文書インデックス記憶部
３３検索インデックス作成部
３４固定度算出部（固定度算出手段）
３５アクセスカウント部（アクセスカウント手段）
３６アクセス密度算出部（アクセス密度算出手段）
３７重み算出部（重み算出手段）
３８個別重み記憶部
４０端末装置（入力手段）

Claims

検索対象となる多数の文書ファイルが記憶されたデータベースと、
前記データベースに対して前記文書ファイルの検索処理を行う検索手段と、
前記検索処理のためのキーワード検索式の入力を、複数のユーザから受け付ける入力手段と、
前記キーワード検索式に用いられた各キーワード、及び、これらキーワードの前記キーワード検索式中における入力位置を、ユーザ情報に関連付けて記憶する記憶手段と、
使用されているキーワード数が同一であるキーワード検索式をユーザ毎に抽出し、前記キーワードの入力位置毎に、抽出されたキーワード検索式間におけるキーワードの変化数を求めることで、キーワードの固定度合いを算出する固定度算出手段と、
特定のユーザ毎に、前記キーワードの固定度合いに基づいて前記キーワード検索式中における入力位置毎に設定され、前記特定のユーザが前記データベースに対して文書ファイルの検索処理を実行する際に用いられる第１の個別重み値を求める重み算出手段と、
を備えるキーワード検索システム。
請求項１に記載のキーワード検索システムにおいて、
前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、
前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス数を、ユーザ情報に関連付けて記憶するものであって、
前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段をさらに備え、
前記重み算出手段は、前記アクセス回数を参照することで、キーワードが固定化された検索処理における前記アクセス数の多さ度合いに基づく第２の個別重み値をさらに求める、キーワード検索システム。
請求項１に記載のキーワード検索システムにおいて、
前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、
前記記憶手段は、さらに、各文書ファイルへのアクセス時間を、ユーザ情報に関連付けて記憶するものであって、
前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段をさらに備え、
前記重み算出手段は、前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第３の個別重み値をさらに求める、キーワード検索システム。
請求項１に記載のキーワード検索システムにおいて、
前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、
前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス数と、各文書ファイルへのアクセス時間とを、ユーザ情報に関連付けて記憶するものであり、
前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段と、
前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段と、をさらに備え、
前記重み算出手段は、前記キーワードの入力位置毎に、
前記アクセス数を参照することで、キーワードが固定化された検索処理における前記アクセス数の多さ度合いに基づく第２の個別重み値と、
前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第３の個別重み値と、をさらに求める、キーワード検索システム。