JP2011175453A - キーワード検索システム - Google Patents

キーワード検索システム Download PDF

Info

Publication number
JP2011175453A
JP2011175453A JP2010038917A JP2010038917A JP2011175453A JP 2011175453 A JP2011175453 A JP 2011175453A JP 2010038917 A JP2010038917 A JP 2010038917A JP 2010038917 A JP2010038917 A JP 2010038917A JP 2011175453 A JP2011175453 A JP 2011175453A
Authority
JP
Japan
Prior art keywords
keyword
search
document file
user
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010038917A
Other languages
English (en)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2010038917A priority Critical patent/JP2011175453A/ja
Publication of JP2011175453A publication Critical patent/JP2011175453A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを的確に抽出することができるようにする。
【解決手段】キーワード検索式におけるキーワードの入力位置に応じて、ユーザ毎に、個別重み値を設定して検索インデックスが作成される。特定のユーザが「インフルエンザ」というキーワードが第1KW位置に、「子供」が第2KW位置に、及び「治療」が第3KW位置に設定されたキーワード検索式61を入力したとする。予めユーザのユーザIDに関連付けて、3つのキーワード検索式おけるキーワードの入力位置に応じた個別重み値のテーブル62が用意されており、このテーブル62を読み出して、キーワードの入力位置に応じて重みが付与された検索インデックスが作成される。この検索インデックスを用いて文書データベースに対する検索処理が実行される。
【選択図】図11

Description

本発明は、データベースに蓄積された複数の文書ファイルを、通信ネットワーク上においてキーワード検索させるためのシステムに関する。
インターネットのような通信ネットワーク上において、ポータルサイトを通して多数のコンテンツ(文書ファイル)を蓄積するデータベースに対して検索処理を実行させ、所望の文書ファイルを抽出することを可能とする検索システムが汎用されている。前記検索処理の方式として最も普及しているものは、キーワード検索方式である。
キーワード検索は、ユーザが、自身が得たい情報に関連するキーワードをポータルサイトの検索窓に入力すると、データベースに蓄積された文書ファイルの各々について予め作成されたインデックスと前記キーワードとが、検索システムに備えられている検索アルゴリズムで照合され、類似度の高い文書ファイルがヒット文書として抽出されるものである(例えば特許文献1参照)。
特開2009−146013号公報
一般にキーワード検索は、手軽な検索手法ではあるが、検索精度はあまり高くない。これは、主に検索情報の少なさ、検索主題に応じた的確なキーワードの選定の困難さが要因である。すなわち、ほとんどのキーワード検索は、ユーザが直感で思い付いた2〜3個程度のキーワードを検索窓に入力する態様で実行される。このような検索では、検索主題にマッチする検索結果が得られにくく、ユーザはキーワードを何度も変更して検索処理を実行させねばならない。
検索の情報量の増加及び的確さを担保するために、自然文を検索窓に入力させる自然文検索方式も存在する。この自然文検索方式は、上記のキーワード検索方式よりも検索精度を向上させることが可能な方式ではあるが、ユーザに自然文の起案と入力という負荷を掛けるものであり、また検索処理に時間を要するという不都合がある。
本発明は、上記の問題に鑑みて為されたものであって、キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを的確に抽出することができるキーワード検索システムを提供することを目的とする。
上記目的を達成する本発明の一の局面に係るキーワード検索システムは、検索対象となる多数の文書ファイルが記憶されたデータベースと、前記データベースに対して前記文書ファイルの検索処理を行う検索手段と、前記検索処理のためのキーワード検索式の入力を、複数のユーザから受け付ける入力手段と、前記キーワード検索式に用いられた各キーワード、及び、これらキーワードの前記キーワード検索式中における入力位置を、ユーザ情報に関連付けて記憶する記憶手段と、使用されているキーワード数が同一であるキーワード検索式をユーザ毎に抽出し、前記キーワードの入力位置毎に、抽出されたキーワード検索式間におけるキーワードの変化数を求めることで、キーワードの固定度合いを算出する固定度算出手段と、特定のユーザ毎に、前記キーワードの固定度合いに基づいて前記キーワード検索式中における入力位置毎に設定され、前記特定のユーザが前記データベースに対して文書ファイルの検索処理を実行する際に用いられる第1の個別重み値を求める重み算出手段と、を備える(請求項1)。
キーワード検索には、ユーザの癖がしばしば現れる。例えば、3つのキーワードでキーワード検索式を創作し、検索結果に応じてキーワードを次々に変更して新たなキーワード検索式を順次創作するような場合、キーワード検索式中における1番目のキーワード入力位置に、ユーザが最も重視するキーワードを入力し、2番目、3番目の入力位置には変更を予定するキーワードを入力するが如きである。
上記の構成によれば、複数のキーワード検索式間におけるキーワードの固定度合いが、前記キーワードの入力位置毎に求められる。そして、前記固定度合いに基づいた第1の個別重み値が、重み算出手段により求められる。従って、固定度合いが高い入力位置に入力されるキーワードについては、当該ユーザが最も重視しているキーワードであると見なして、高い重み値を設定し、検索処理において当該キーワードが重視されるようにすることが可能となる。
上記構成において、前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス回数を、ユーザ情報に関連付けて記憶するものであって、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段をさらに備え、前記重み算出手段は、前記アクセス回数を参照することで、キーワードが固定化された検索処理における前記アクセス数の多さ度合いに基づく第2の個別重み値をさらに求めることが望ましい(請求項2)。
この構成によれば、キーワードが同一であるキーワード検索式、例えば1番目の入力位置に同一キーワード(固定キーワード)が設定されている複数のキーワード検索式が記憶手段に記憶されている場合に、これら検索処理でヒットした文書ファイル群内の文書ファイルへのアクセス数が求められる。ここで、ユーザが前記固定キーワードを重視しているならば、自ずとアクセス数も増加すると推定される。従って、このアクセス数の多さ度合いもまた、キーワードの入力位置毎に設定する個別重み値となり得る。
上記構成において、前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、前記記憶手段は、さらに、各文書ファイルへのアクセス時間を、ユーザ情報に関連付けて記憶するものであって、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段をさらに備え、前記重み算出手段は、前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第3の個別重み値をさらに求めることが望ましい(請求項3)。
この構成によれば、同一キーワード(固定キーワード)が設定されているキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度が求められる。ここで、ユーザが前記固定キーワードを重視しているならば、文書ファイルへのアクセス時間、すなわち閲覧時間が長くなる傾向が現れ、アクセス密度が増加すると推定される。従って、このアクセス密度もまた、キーワードの入力位置毎に設定する個別重み値となり得る。
上記構成において、前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス回数と、各文書ファイルへのアクセス時間とを、ユーザ情報に関連付けて記憶するものであり、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段と、前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段と、をさらに備え、前記重み算出手段は、前記キーワードの入力位置毎に、前記アクセス回数を参照することで、キーワードが固定化された検索処理における前記アクセス回数の多さ度合いに基づく第2の個別重み値と、前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第3の個別重み値と、をさらに求めることが望ましい(請求項4)。
この構成によれば、キーワードの固定度合いに加えて、アクセス数の多さ度合いとアクセス密度との双方が個別重み値の設定要素とされるので、ユーザの癖を一層忠実に反映した個別重み値をキーワードの入力位置毎に設定することができる。
本発明のキーワード検索システムによれば、キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを一層的確に抽出することができる検索処理を実行させることが可能となる。従って、例えばインターネットのポータルサイトにおいて実行されるキーワード検索の精度を向上させ、ユーザの検索ニーズを満足させることができる。
本発明のキーワード検索システムが適用されたネットワークシステムのハードウェア構成を概略的に示す構成図である。 本実施形態の文書検索の概要を示す模式的なフローチャートである。 検索窓へのキーワード検索式の入力状況を示す模式図である。 自然文検索方式を示す模式図である。 キーワード検索方式における検索式の設定を説明するための模式図である。 データ処理装置の機能構成を示す機能ブロック図である。 キーワード検索式の入力履歴の一例を示す図である。 キーワードの固定度の算出方法を説明するための模式図である。 文書アクセス数の算出方法を説明するための模式図である。 文書アクセス密度の算出方法を説明するための模式図である。 個別重み値の設定を説明するための模式図である。 個別重み値の作成処理を示すフローチャートである。
以下、図面に基づいて本発明の実施形態につき詳細に説明する。図1は、本発明に係るキーワード検索システムが適用されたネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、例えばインターネットのようなワールドワイドなネットワークシステム、若しくは社内ネットワークのようなローカルなネットワークシステムであって、このネットワーク上において利用可能な文書データベース(DB)10と、ユーザデータベース(DB)11と、検索エンジン20と、データ処理装置30と、ユーザ(文書ファイルの検索及び閲覧者)が利用する端末装置40とが、通信ネットワークNTを介してデータ通信可能に接続されてなる。
文書データベース10(多数の文書ファイルが記憶されたデータベース)は、各種のコンテンツが蓄積されたデータベースであり、HTMLファイル、テキストファイル、画像ファイル、音楽ファイル及びこれらの複合ファイルなどが記憶されている。なお、本明細書でいう「文書ファイル」は、テキストデータのみのファイルを意味するのではなく、タイトル、属性、説明文などの記述を含む他のファイルを含む。これらの文書ファイルを、ユーザIDを有するユーザは、端末装置40(端末機41、42、43、44、45、・・・)からアクセスして閲覧することができる。
ユーザデータベース11は、ネットワークシステムSのユーザの各種の情報を管理するデータベースである。ユーザ毎に、例えば、ユーザの氏名、性別、年齢、住所、ユーザID、電話番号等のユーザ情報が、このユーザデータベース11によって管理される。さらにユーザデータベース11には、各ユーザが、検索エンジン20に実行させた検索式の情報、どの文書ファイルにいつアクセスしたかの情報、及び、文書ファイルにアクセスした時間(ファイル閲覧時間)の情報が格納される。これらの情報については後記で詳述する。
検索エンジン20は、所定のパラメータを有する検索アルゴリズムが搭載され、文書データベース10に対し、端末装置40から与えられた検索条件に対応する文書ファイルの検索処理を行う。具体的には検索エンジン20は、文書データベース10に記憶されている文書ファイル毎に作成された検索用の文書インデックスを利用する。また、検索エンジン20は、ユーザが端末装置40から入力する検索条件から作成される検索インデックスを利用する。さらに検索エンジン20は、前記検索アルゴリズムを用いて、前記文書インデックスと前記検索インデックスとの照合処理を行い、合致度合いの高い文書ファイルを文書データベース10から抽出する。
データ処理装置30は、文書データベース10に記憶されている文書ファイル毎にキーワードや属性(メタデータ)を抽出して文書インデックスを作成する。文書インデックスは、文書データベース10に対して文書ファイルの検索処理を実行する際に用いられるものであって、文書ファイル単位で、各文書ファイルの文書データから単語を抽出して作成される。そして、検索精度を向上させるため、例えばその単語の出現頻度他に基づき、単語毎に重み付けが付与される。
さらに、データ処理装置30は、ユーザが端末装置40から入力するクエリ(キーワード検索式)に基づいて、検索インデックスを作成する。本実施形態では、キーワード検索式で与えられたキーワードを同等に扱うのではなく、キーワード検索式におけるキーワードの入力位置に応じて、ユーザ毎に、個別重み値を設定して検索インデックスが作成される点に特徴を有する。この点は、後記で詳述する。
端末装置40(入力手段)は、ネットワークシステムSの検索サービスを受ける多数のユーザに保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機41、42、43、44、45・・・である。端末装置40は、インターネット若しくはローカルネット等の通信ネットワークNTを介して検索エンジン20及び文書データベース10にアクセス可能とされている。各ユーザは、各自の通信端末機41〜45から、文書データベース10中の文書ファイルの検索処理のため、検索エンジン20にキーワード検索式を入力したり、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルを閲覧したり、さらには、自身が作成した文書ファイルを文書データベース10に投稿して記憶させたりすることが可能とされている。
図2は、ネットワークシステムSの、文書データベース10に対する文書検索処理の概要を示す模式的なフローチャートである。検索エンジン20に端末装置40から検索条件が与えられると、データ処理装置30はその検索条件について文書解析処理を行う(ステップS1)。この文書解析処理は、検索条件が自然文の場合は形態素解析等を含むが、キーワード検索式の場合は、専ら各キーワードの入力位置を特定する処理となる。
次にデータ処理装置30は、検索条件を入力したユーザのユーザIDに基づいて、キーワード検索式におけるキーワードの入力位置毎に個別重み値を設定する(ステップS2)。この個別重み値は、ユーザ毎に、そのキーワード検索式の入力実績及び文書ファイルの閲覧態様に基づいて個別に設定される重み値である。個別重み値は、検索時ではなく、データ処理装置30による定期的な処理で予め作成される。
その後、データ処理装置30は、与えられたキーワード及び個別重み値をベースにして検索インデックスを作成する(ステップS3)。そして、検索エンジン20が、当該検索インデックスを用いて、大量の文書データを含む文書データベース10に対して文書の検索処理を行う(ステップS4)。
一方、文書データベース10の側においても、データ処理装置30による定期的な処理で、メタデータの抽出のための文書解析(ステップS01)、及び文書インデックスの作成(ステップS02)が行われている。検索元のステップS4における検索処理では、前記検索インデックスと検索先の文書インデックスとを使用し、所定の検索アルゴリズムを適用して検索条件に対して類似度が高い文書ファイルを文書データベース10から抽出する。ステップS4の検索処理で得られた結果(文書ファイルのURLのリスト等)は、検索条件を入力したユーザの端末装置4に出力される(ステップS5)。ユーザは、URLのリストから閲覧を望む文書ファイルを選択し、文書データベース10内に蓄積されている文書ファイルを閲覧する。
上記のステップS2において、ユーザ毎に個別重み値を設定する点において、本実施形態は特徴を有する。その理由について説明する。キーワード検索は、ユーザが得たい情報に関連するキーワードを、検索エンジン(ポータルサイト)の検索窓に入力することが起点となる。キーワードが1つのみ入力される場合もあるが、多くの場合は、検索精度を上げるため、複数個のキーワードを用いたand検索式(キーワード検索式)が入力される。
図3は、ユーザの端末装置40の表示画面に表示される検索窓51へのキーワード検索式の入力状況を示す模式図である。この状態で検索ボタン52がクリックされることで、検索処理が実行される。ここでは、「インフルエンザ」、「子供」、「治療」というキーワードが検索窓51に入力され、これら3つのキーワードからなるキーワード検索式(and検索式)が実行される例を示している。and検索の識別子は通常、スペース記号の入力で表現される。本明細書では、検索窓51の最前に入力されるキーワードの入力位置を「第1KW(キーワード)位置」(図3の例では「インフルエンザ」が入力されている位置)、and検索の識別子を挟んだ2番目のキーワードの入力位置を「第2KW位置」、さらにand検索の識別子を挟んだ3番目のキーワードの入力位置を「第3KW位置」という。
このようなキーワード検索方式は、ユーザが想起したキーワードを入力するだけで検索が実行できる手軽さがある反面、入力される情報量が少なく、検索精度を向上させるには限界がある。検索精度を向上させるには、自然文を検索窓に入力させる自然文検索方式が有用である。図4は、自然文検索方式を示す模式図である。この自然文検索方式では、ユーザが求める情報が具体的に表現された文章が検索窓501に入力される。文章形式でクエリが入力されるため、入力される情報量が多く、自然文検索方式を採用することで検索精度を向上させることができる。
しかしながら、ユーザに自然文の起案と入力という負荷を掛けるものであり、また自然文が長文になる程、検索処理に時間を要するという不都合がある。そこで、手軽な検索が行えるキーワード検索方式において、少ない入力情報量ながらも、可及的に検索精度を向上する手法が求められるところである。
ここで、キーワード検索方式において、所望の情報(文書ファイル)が得られない場合における、ユーザの検索操作の一例を図5に基づき説明する。「インフルエンザ」、「子供」及び「治療」という1回目のキーワード検索式で所望のヒット文書ファイルが得られなかった場合、ユーザは、キーワード検索式をそっくり変更することは少なく、しばしばキーワード検索式のうちの1つのキーワードを変更する。ここでは、第1KW位置及び第2KW位置が変更されることなく固定化され、第3KW位置の「治療」が、2回目のキーワード検索式で「薬」に、3回目のキーワード検索式で「処方」にそれぞれ変更されている例を示している。
いずれのキーワード入力位置のキーワードが固定化され、いずれのキーワード入力位置のキーワードが変更されるかは、ユーザ毎に有意な傾向が現れることがある。すなわち、ユーザ本人が文書検索において重要と考えている検索キーワードは、再検索の際には無意識に固定される。そして、そのような重要検索キーワードが入力される位置もまた、ユーザ毎に無意識に固定される傾向が出る。図5に例示したユーザならば、第3KW位置が頻繁に変更されるキーワード入力位置であり、第1KW位置及び第2KW位置が変更の少ないキーワード入力位置であるという傾向が表出している。従って、当該ユーザは、第3KW位置に重要度が低いキーワードを入力する癖があると推定することができる。
このような傾向は、ユーザ毎に、過去に入力したキーワード検索式を解析することで把握することができる。つまり、ユーザ毎に、どのキーワード入力位置の固定性(重要度)が高いかを把握することができる。そして、その固定性に応じて、キーワード入力位置毎にユーザ毎の個別重み値を設定すれば、キーワード検索の精度を向上させることが可能となる。これにより、ユーザが、重要度が高いと潜在的に高いと考えているキーワードについて高い重み値が与えられるようになり、結果として重要キーワードにより関連深い文書ファイルを検索処理で上位にヒットさせることが可能となる。
続いて、データ処理装置30の機能構成の詳細について、図6に基づいて説明する。データ処理装置30は、例えば各種の演算処理を実行可能なCPU(中央演算処理装置)を備えた大型のコンピュータ装置である。前記CPUは、所定のデータ処理を行うべくプログラミングされたソフトウェアが実行されることで、図6に示す機能部を具備するように動作する。データ処理装置30は、文書インデックス作成部31、文書インデックス記憶部32、検索インデックス作成部33及び個別重み記憶部38を備えている。
文書インデックス作成部31は、文書ファイル毎に単語やメタデータを抽出すると共に、抽出された単語等に重み値を与えて文書インデックスを作成する。この文書インデックス作成のために文書インデックス作成部31は、文書データベース10から文書ファイルを抽出すると共に、抽出された各文書ファイルが含む文書データに対して、正規化処理、文書構造解析処理、同義語処理などの文書解析処理を行い、文書データを単語単位に分割する。これにより、自立する単語が導出される。そして、例えば各単語の出現頻度を算出し、頻度が多い単語には高い重みを設定する等して、各々の単語重み値が導出される。
文書インデックス記憶部32は、文書インデックス作成部31が作成する文書インデックスを記憶する。この文書インデックスは、検索エンジン20によりデータベース10に対して文書ファイルの検索処理が実行される際に用いられる。また、文書インデックスは、所定の文書インデックス更新タイミングで更新される。
検索インデックス作成部33は、ユーザが端末装置40から入力するキーワード検索式に基づいて、検索インデックスを作成する。この検索インデックスには、ユーザ毎に設定される個別重み値が付加される。検索インデックス作成部33は、固定度算出部34(固定度算出手段)、アクセスカウント部35(アクセスカウント手段)、アクセス密度算出部36(アクセス密度算出手段)及び重み算出部37(重み算出手段)を備えている。
検索インデックス作成部33の説明の前に、ユーザデータベース11(記憶手段)に格納されているデータについて説明する。ユーザデータベース11には、ユーザ情報管理部11A、検索式情報管理部11B、アクセス数データ管理部11C及びアクセス時間データ管理部11Dが備えられている。
ユーザ情報管理部11Aは、ユーザの氏名、性別、年齢、住所、ユーザID、電話番号等、ネットワークシステムSのユーザの基本的なユーザ情報を管理する。
検索式情報管理部11Bは、各ユーザが、検索エンジン20に実行させたキーワード検索式に用いられた各キーワード、及び、これらキーワードの前記キーワード検索式中における入力位置を、ユーザID(ユーザ情報)及び検索時刻に関連付けて記憶する。例えば、あるユーザが図3に例示したようなキーワード検索式を検索窓51に入力し、検索処理を実行させた場合、「インフルエンザ」というキーワードが第1KW位置に、「子供」が第2KW位置に、及び「治療」が第3KW位置に入力されたことが、そのユーザのユーザ情報及び検索時刻に関連付けて記憶される。
図7は、検索式情報管理部11Bで管理される、一のユーザの検索式情報を示す表形式の図である。ここでは、検索時刻を検索回数として表している。図中のアルファベット「A」〜「U」はキーワードを示し、例えば第1回目の検索処理では、「A」というキーワードが第1KW位置に、「B」が第2KW位置に、及び「C」が第3KW位置に入力されたことを示している。つまり、キーワード「A」and「B」and「C」というキーワード検索式が実行されたことを示す。
アクセス数データ管理部11Cは、各ユーザが、各検索処理においてヒットした文書ファイル群内中で、実際に閲覧(アクセス)した文書ファイル名を、ユーザID(ユーザ情報)に関連付けて記憶する。図7の例では、第1回目の「A」and「B」and「C」というキーワード検索式の検索処理の後、第2回目の「A」and「B」and「D」というキーワード検索式の検索処理の前に、当該ユーザがアクセスした文書ファイル名を記憶する。第2回目〜第10回目の検索処理についても同様である。
アクセス時間データ管理部11Dは、各ユーザの文書ファイルへのアクセス時間を、ユーザ情報に関連付けて記憶する。アクセス時間は、あるユーザが、自身の端末装置40でキーワード検索式の検索処理を実行させ、ヒットした文書ファイル群のリストを取得した場合において、そのリスト中の特定の文書ファイルを開く選択指示を与えた時刻から、文書ファイルを閉じる指示を与えた時刻までの時間を計時することで取得される。
文書データベース10には、各文書ファイルに記述されている文書の文字数を管理する文字数データ管理部10Aが備えられている。
検索インデックス作成部33の固定度算出部34は、ユーザ毎に、当該ユーザが設定したキーワード検索式におけるキーワードの固定度合いを表現する指標を算出する。キーワードの固定度合いは、使用されているキーワード数が同一であるキーワード検索式をユーザ毎に抽出し、前記キーワードの入力位置毎に、抽出されたキーワード検索式間におけるキーワードの変化数を求めることで数値化される。すなわち、あるユーザについて、図7に示すように、例えば3つのキーワードが用いられているキーワード検索式が抽出され、第1、第2、第3KW位置毎に、キーワードがどの程度変化しているかが求められる。本実施形態では、キーワードの変化度合いが少ない(キーワードの固定度合いが高い)キーワード入力位置ほど、当該ユーザは、その入力位置に自身が重要と認識しているキーワードを入力しているものと扱う。
固定度算出部34によるキーワード固定度合いの算出方式の具体例を、図8に基づいて説明する。ここでは、検索回数が進行するに際して、キーワードの設定から変更までを1つのブロックと定義し、キーワード入力位置毎にブロック数が算出される。第1KW位置に注目すると、第1〜第10回目の検索処理の間にキーワード「A」、「G」、「I」、「L」及び「R」が設定された履歴がある。従って、第1KW位置のブロック数=5である。このうち、キーワード「A」のブロックBL11は、第1〜第3回目の検索処理において変更されなかった、固定化ブロックである。キーワード「L」のブロックBL12、キーワード「R」のブロックBL13も固定化ブロックである。同様に、第2KW位置のブロック数=6であり、固定化ブロックは、キーワード「B」のブロックBL21、キーワード「E」のブロックBL22及びキーワード「N」のブロックBL23である。また、第3KW位置のブロック数=9であり、固定化ブロックは、キーワード「K」のブロックBL31のみである。従って、本実施形態では固定度算出部34は、第1、第2、第3KW位置のキーワード固定度合いを、各々「5」、「6」、「9」と算出する。
当然に、第1KW位置のブッロク数が最も少ないので、固定度が最も高いと評価される。つまり、この例では、当該ユーザは、第1KW位置に重要視しているキーワード、すなわち固定化されることが多いキーワードを入力する一方で、第3KW位置には重要視していないキーワード、すなわち頻繁に変更するキーワードを入力する傾向を持つことが判る。従って、当該ユーザにとって、第1KW位置が最も重要な入力位置であると評価することができる。このようなキーワード固定度合いに基づき、キーワード入力位置毎に重み値を設定することで、検索精度を向上させることが可能である。しかし、本実施形態では、さらなる検索精度の向上のため、文書アクセス数と文書アクセス密度も評価対象とする。
アクセスカウント部35は、キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求める。つまり、上記の固定化ブロックを含むキーワード検索式でヒットした文書ファイルに、ユーザがどれだけアクセスしたかの評価値を求める。この評価値は、固定化ブロックを含む検索処理でヒットした文書ファイルへのアクセス数が多いほど、そのキーワードの入力位置をユーザが重視しているとの推定に基づき導出されるものである。
図9は、文書アクセス数の算出方法を説明するための模式図である。ここでは、第1KW位置についての算出方法を示している。第1KW位置において、固定化ブロックは、ブロックBL11、BL12、BL13である。アクセスカウント部35は、このような固定化ブロックを抽出すると共に、ユーザデータベース11のアクセス数データ管理部11Cを参照する。図9の最右欄は、第1〜第10回目の検索処理で各々抽出された文書ファイル群のうち、実際にアクセスした文書ファイルの件数(ヒット文書アクセス数)を表している。そして、アクセスカウント部35は、キーワードが固定化された状態のアクセス数を評価するために、固定化ブロックにおける2回目以降のアクセス数を抽出して合算することで、各入力位置の文書アクセス数を求める。勿論、固定化ブロックにおける1回目のアクセス数も合算するようにしても良い(以下でも同様である)。
図9に示すように、上記のアクセス数抽出の定義に従うと、キーワード「A」のブロックBL11では、第2、第3回目の検索処理についてのアクセスブロックAC1が、キーワード「L」のブロックBL12では第7、第8回目の検索処理についてのアクセスブロックAC2が、キーワード「R」のブロックBL13では第10回目の検索処理についてのアクセスブロックAC3が合算対象となる。ここでは、第2、第3、第7、第8及び第10回目の5回の検索処理で、それぞれ10、35、50、31及び29個の文書ファイルにユーザがアクセスしている。従って、第1KW位置の、固定化ブロックを含む検索処理についての文書アクセス数は、これらを合計して、10+35+50+31+29=155となる。
同様な手法に基づき、第2KW位置、第3KW位置の文書アクセス数も算出される。第2KW位置については、固定化ブロックは、キーワード「B」、「E」、「N」のブロックBL21、BL22、BL23であり(図8)、第2、第4、第8、第9回目の検索処理についてのアクセス数が合算対象となる。また、第3KW位置については、固定化ブロックは、キーワード「K」のブロックBL31であり、第6回目の検索処理についてのアクセス数のみが対象となる。従って、第2KW位置の固定化ブロックのアクセス数=10+7+31+27=75、第3KW位置の固定化ブロックのアクセス数=8となる。従って、本実施形態ではアクセスカウント部35は、第1、第2、第3KW位置の文書アクセス数を、各々「155」、「75」、「8」と算出する。
アクセス密度算出部36は、キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求める。このアクセス密度は、次式
アクセス密度=アクセス時間/文書ファイルの文字数
にて算出され、検索処理でヒットした文書ファイルを、どれだけじっくりと読んでいるかの指標である。つまり、上記の固定化ブロックを含むキーワード検索式でヒットした文書ファイルについて、その文字数の割にアクセス時間が長いならば、ユーザは、その文書ファイルを検索主題に関連深いと認識し、時間を費やしてコンテンツを読んだと推定することができる。従って、アクセス密度が高いほど、そのキーワードの入力位置の重要度が高いと評価することができる。
図10は、文書アクセス密度の算出方法を説明するための模式図である。ここでは、第1KW位置についての算出方法を示している。第1KW位置において、固定化ブロックは、上述の通りブロックBL11、BL12、BL13である。アクセス密度算出部36は、このような固定化ブロックを抽出すると共に、ユーザデータベース11のアクセス時間データ管理部11D及び文書データベース10の文字数データ管理部10Aを参照する。図10の最右欄は、第1〜第10回目の検索処理で各々抽出された文書ファイル群のうち、実際にアクセスした文書ファイルの閲覧時間の合計と、文字数の合計とを表している。
例えば、第2回目の検索処理に着目すれば、図9に示した通り、アクセスした文書ファイル数は10である。アクセス密度算出部36は、これら10個の文書についてのアクセス時間データをアクセス時間データ管理部11Dから取得して合算すると共に、各文書ファイルの文字数データを文字数データ管理部10Aから取得して合算する。そして、アクセス密度算出部36は、キーワードが固定化された状態のアクセス密度を評価するために、固定化ブロックにおける2回目以降のアクセス時間及び文字数を合算した上で、各入力位置の文書アクセス密度を上式に基づき求める。
図10に示すように、キーワード「A」のブロックBL11では、第2、第3回目の検索処理についてのアクセス時間及び文字数のブロックAD1が、キーワード「L」のブロックBL12では第7、第8回目の検索処理についてのブロックAD2が、キーワード「R」のブロックBL13では第10回目の検索処理についてのブロックAD3が算出対象となる。ここでは、第2、第3、第7、第8及び第10回目の検索処理におけるアクセス時間は、それぞれ200、350、185、92及び80秒であり、文字数は、350、600、255、133及び590文字である。従って、第1KW位置の、固定化ブロックを含む検索処理についての文書アクセス密度ad1は、
ad1=(200+350+185+92+80)/(350+600+255+133+590)=907/1928=0.47
となる。
同様な手法に基づき、第2KW位置、第3KW位置の文書アクセス密度も算出される。第2KW位置については、固定化ブロックは、キーワード「B」、「E」、「N」のブロックBL21、BL22、BL23であり(図8)、第2、第4、第8、第9回目の検索処理についてのアクセス時間及び文字数が算出対象となる。また、第3KW位置については、固定化ブロックは、キーワード「K」のブロックBL31であり、第6回目の検索処理についてのアクセス時間及び文字数のみが対象となる。従って、第2KW位置の、固定化ブロックを含む検索処理についての文書アクセス密度ad2は、
ad2=(200+30+92+110)/(350+340+133+560)=432/1383=0.31
となる。また、第3KW位置の文書アクセス密度ad3は、
ad3=10/67=0.15
となる。従って、本実施形態ではアクセス密度算出部36は、第1、第2、第3KW位置の文書アクセス密度を、各々「0.47」、「0.31」、「0.15」と算出する。この数値からも、第1KW位置が当該ユーザにとって最も重要であることが判る。
重み算出部37は、特定のユーザ毎に、且つ、前記キーワード検索式中における入力位置毎に、検索処理を実行する際に用いられる個別重み値Wを求める。この個別重み値Wは、固定度算出部34により算出されるキーワードの固定度合いに基づいて求められる第1の個別重み値W1と、アクセスカウント部35により算出されるアクセス数の多さ度合いに基づく第2の個別重み値W2と、アクセス密度算出部36により求められるアクセス密度に基づく第3の個別重み値W3とを重み要素として含み、第n番目のKW位置の個別重み値Wは次式で算出される。
W=W1×W2×W3
第1の個別重み値W1は、固定度算出部34が求めるブロック数を単純に重み値に採用しても良いが、入力位置相互で極端な差異が出ないよう、本実施形態ではブロック数の逆数を重み値とする。従って、
第1KW位置の重み値W1−1=1/5=0.20
第2KW位置の重み値W1−2=1/6=0.17
第3KW位置の重み値W1−3=1/9=0.11
と、各々の第1の個別重み値W1が求められる。
第2の個別重み値W2は、キーワードが固定化された検索処理の1検索あたりの文書アクセス数が、重み値とされる。1検索あたりの文書アクセス数が多いほど、ユーザがその検索を重視したと推定できるからである。従って、
第1KW位置の重み値W2−1=(10+35+50+31+29)/5=155/5=31.0
第2KW位置の重み値W2−2=(10+7+31+27)/4=75/4=18.8
第3KW位置の重み値W2−3=8/1=8
と、各々の第2の個別重み値W2が求められる。
第3の個別重み値W3は、アクセス密度算出部36により求められるアクセス密度ad−1、ad−2、ad−3が、そのまま重み値として用いられる。従って、
第1KW位置の重み値W3−1=0.47
第2KW位置の重み値W3−2=0.31
第3KW位置の重み値W3−3=0.15
と、各々の第3の個別重み値W3が求められる。
重み算出部37は、以上の個別重み値W1〜W3を用いて、キーワード数=3のキーワード検索式における特定のユーザの入力位置毎の重み値W3→1(第1KW位置)、W3→2(第2KW位置)及びW3→3(第3KW位置)を次のように求める。
3→1=W1−1×W2−1×W3−1=0.2×31.0×0.47=2.91
3→2=W1−2×W2−2×W3−2=0.17×18.8×0.31=0.99
3→3=W1−3×W2−3×W3−3=0.11×8×0.15=0.13
上記と同様な手法により、検索インデックス作成部33は、キーワード数=2、若しくはキーワード数=4、5・・・のキーワード検索式における特定のユーザの入力位置毎の個別重み値を求める。この個別重み値は、所定の検索インデックス更新タイミングで再計算され、更新される。
個別重み記憶部38は、ユーザIDに関連付けて、検索インデックス作成部33により求められる上記の個別重み値を記憶する。この個別重み値は、検索エンジン20によりデータベース10に対して文書ファイルの検索処理が実行される際に読み出される。
図11は、個別重み値が用いられた検索処理の概要を説明するための模式図である。例えば、上記図7〜図10で例示した個別重みがユーザ「Aさん」の検索履歴に基づき作成されたものとする。いま、Aさんが、「インフルエンザ」というキーワードが第1KW位置に、「子供」が第2KW位置に、及び「治療」が第3KW位置に設定されたキーワード検索式61を端末装置40(図1参照)の検索窓へ入力したとする。このキーワード検索式61は、AさんのユーザIDと共に、検索エンジン20へ送信される。
データ処理装置30の個別重み記憶部38には、AさんのユーザIDに関連付けて、3つのキーワード検索式おけるキーワードの入力位置に応じた個別重み値(KW位置重みパラメータ)のテーブル62が記憶されている。検索インデックス作成部33は、Aさん用のテーブル62を読み出して、検索インデックスを作成する。すなわち、第1KW位置のキーワードである「インフルエンザ」には「2.91」の重み値を、第2KW位置の「子供」には「0.99」の重み値を、第3KW位置の「治療」には「0.13」の重み値を付与して検索インデックスを作成する。そして、検索エンジン20は、この検索インデックスを用いて文書データベース10に対する検索処理を実行する。
上記のような個別重みが付された検索インデックスが使用されることで、第1KW位置の「インフルエンザ」の重みが最も大きくされた状態で検索処理が実行され、「インフルエンザ」に関連深い文書ファイルが上位にヒットするようになる。これに対し、上記のような個別重みが適用されない場合、つまり、各キーワード入力位置の重み値=1.00のテーブル63が用いられた場合、「風邪」などの、Aさんが本来望んでいないキーワードを多く含む文書ファイルが上位にヒットする可能性が高くなり、Aさんにとっての検索精度が低下する。
続いて、以上説明した本実施形態に係るネットワークシステムS(データ処理装置30)による個別重み値の作成処理を、図12に示すフローチャートに基づいて説明する。所定の個別重み値更新タイミングが到来すると、データ処理装置30は、個別重み値作成の対象ユーザのカウンタiを0に設定する(ステップS11)。そして、対象ユーザカウンタi=i+1として、1番目にナンバリングされているユーザについての処理を開始する(ステップS12)。
次に、検索インデックス作成部33(図6参照)が、ユーザデータベース11の検索式情報管理部11Bに格納されている、ユーザiの検索式情報を取得する(ステップS13)。検索式情報を取得後、検索インデックス作成部33は、キーワード検索式を使用キーワード数に基づき分類し、例えばキーワード数=3のグループ、キーワード数=4のグループというように整理する(ステップS14)。
その後、検索インデックス作成部33は、ユーザiについて取得されたキーワード検索式のサンプル数が、個別重み値更新を行うのに十分であるか否かを判定する(ステップS15)。この判定は、サンプル数が所定の閾値を超過しているか否かに基づき実行される。サンプル数が閾値以下である場合(ステップS15でNO)、ユーザiについてこれ以上の処理は行わずにステップS12へ戻り、ユーザのカウンタi=i+1として(ステップS12)、次のユーザの処理に移行する。
サンプル数が閾値を超過する場合(ステップS15でYES)、固定度算出部34により、キーワード入力位置毎にブロック数をカウントする処理が実行され(ステップS16:図8参照)、キーワード入力位置毎にキーワードの固定度を示す指標となるブロック数が特定される(ステップS17)。
次に、アクセスカウント部35により、文書アクセス数が算出される。アクセスカウント部35は、図8に示すブロックBL11、BL12、BL13のような固定化ブロックを、キーワード入力位置毎に抽出する(ステップS18)。そして、アクセスカウント部35は、ユーザデータベース11のアクセス数データ管理部11Cから、ユーザiのアクセス数データを取得し(ステップS19)、各固定化ブロックに対応するアクセス数を求め、キーワード入力位置毎に集計する(ステップS20:図9参照)。
続いて、アクセス密度算出部36により、文書アクセス密度が算出される。アクセス密度算出部36は、ユーザデータベース11のアクセス時間データ管理部11Dから、ユーザiが実際にアクセスした文書ファイルの閲覧時間のデータと、文書データベース10の文字数データ管理部10Aから、前記文書ファイルの文字数のデータとを取得する(ステップS21)。そして、アクセス密度算出部36は、各固定化ブロックに対応するアクセス密度を、「アクセス時間/文書ファイルの文字数」の算術式で求め、キーワード入力位置毎に集計する(ステップS22:図10参照)。
しかる後、重み算出部37により、ステップS17で求められたキーワード入力位置毎にブロック数、ステップS20で求められた各固定化ブロックに対応するアクセス数、及び、ステップS22で求められた各固定化ブロックに対応するアクセス密度に基づいて、ユーザiについての個別重み値が算出される(ステップS23)。この個別重み値は、個別重み記憶部38に、ユーザiのユーザIDに関連付けて格納される(ステップS24)。
そして、対象ユーザiがラストユーザであるか否かが判定される(ステップS25)。現状のユーザiがラストユーザでない場合(ステップS25でNO)、ステップS12に戻ってiが1つインクリメントされ、次のユーザを対象ユーザiにとして同様な処理が繰り返される。一方、現状のユーザiがラストユーザである場合(ステップS25でYES)、処理を終える。
以上説明した本実施形態に係るネットワークシステムSによれば、ユーザ毎に、且つ、キーワード検索式のキーワード入力位置毎に、個別重み値が設定された検索インデックスが作成される。このため、キーワード検索方式による文書ファイルの検索処理において、ユーザが望む文書ファイルを一層的確に抽出することができる検索処理を実行させることが可能となる。従って、例えばインターネットのポータルサイトにおいて実行されるキーワード検索の精度を向上させ、ユーザの検索ニーズを満足させることができる。
S ネットワークシステム
10 文書データベース
11 ユーザデータベース(記憶手段)
20 検索エンジン
30 データ処理装置
31 文書インデックス作成部
32 文書インデックス記憶部
33 検索インデックス作成部
34 固定度算出部(固定度算出手段)
35 アクセスカウント部(アクセスカウント手段)
36 アクセス密度算出部(アクセス密度算出手段)
37 重み算出部(重み算出手段)
38 個別重み記憶部
40 端末装置(入力手段)

Claims (4)

  1. 検索対象となる多数の文書ファイルが記憶されたデータベースと、
    前記データベースに対して前記文書ファイルの検索処理を行う検索手段と、
    前記検索処理のためのキーワード検索式の入力を、複数のユーザから受け付ける入力手段と、
    前記キーワード検索式に用いられた各キーワード、及び、これらキーワードの前記キーワード検索式中における入力位置を、ユーザ情報に関連付けて記憶する記憶手段と、
    使用されているキーワード数が同一であるキーワード検索式をユーザ毎に抽出し、前記キーワードの入力位置毎に、抽出されたキーワード検索式間におけるキーワードの変化数を求めることで、キーワードの固定度合いを算出する固定度算出手段と、
    特定のユーザ毎に、前記キーワードの固定度合いに基づいて前記キーワード検索式中における入力位置毎に設定され、前記特定のユーザが前記データベースに対して文書ファイルの検索処理を実行する際に用いられる第1の個別重み値を求める重み算出手段と、
    を備えるキーワード検索システム。
  2. 請求項1に記載のキーワード検索システムにおいて、
    前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、
    前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス数を、ユーザ情報に関連付けて記憶するものであって、
    前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段をさらに備え、
    前記重み算出手段は、前記アクセス回数を参照することで、キーワードが固定化された検索処理における前記アクセス数の多さ度合いに基づく第2の個別重み値をさらに求める、キーワード検索システム。
  3. 請求項1に記載のキーワード検索システムにおいて、
    前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、
    前記記憶手段は、さらに、各文書ファイルへのアクセス時間を、ユーザ情報に関連付けて記憶するものであって、
    前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段をさらに備え、
    前記重み算出手段は、前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第3の個別重み値をさらに求める、キーワード検索システム。
  4. 請求項1に記載のキーワード検索システムにおいて、
    前記入力手段は、前記検索処理によりヒットした文書ファイルにアクセスし、該文書ファイルをユーザに閲覧させる閲覧機能を備え、
    前記記憶手段は、さらに、一のキーワード検索式を用いた検索処理の単位で、ヒットした文書ファイル群内の文書ファイルへのアクセス数と、各文書ファイルへのアクセス時間とを、ユーザ情報に関連付けて記憶するものであり、
    前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットした文書ファイル群内の文書ファイルへのアクセス数を求めるアクセスカウント手段と、
    前記キーワードの入力位置毎に、キーワードが同一であるキーワード検索式でヒットし且つアクセスした文書ファイルへのアクセス時間と、当該文書ファイルの文字数とから導出されるアクセス密度を求めるアクセス密度算出手段と、をさらに備え、
    前記重み算出手段は、前記キーワードの入力位置毎に、
    前記アクセス数を参照することで、キーワードが固定化された検索処理における前記アクセス数の多さ度合いに基づく第2の個別重み値と、
    前記アクセス密度を参照することで、キーワードが固定化された検索処理における前記アクセス密度に基づく第3の個別重み値と、をさらに求める、キーワード検索システム。
JP2010038917A 2010-02-24 2010-02-24 キーワード検索システム Pending JP2011175453A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010038917A JP2011175453A (ja) 2010-02-24 2010-02-24 キーワード検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010038917A JP2011175453A (ja) 2010-02-24 2010-02-24 キーワード検索システム

Publications (1)

Publication Number Publication Date
JP2011175453A true JP2011175453A (ja) 2011-09-08

Family

ID=44688253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010038917A Pending JP2011175453A (ja) 2010-02-24 2010-02-24 キーワード検索システム

Country Status (1)

Country Link
JP (1) JP2011175453A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785202B2 (en) 2011-11-09 2017-10-10 Samsung Electronics Co., Ltd. Method for controlling rotation of screen and terminal and touch system supporting the same
CN110020082A (zh) * 2017-12-11 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
JP2020035126A (ja) * 2018-08-29 2020-03-05 Zホールディングス株式会社 ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム。
KR20200110880A (ko) * 2019-03-18 2020-09-28 주식회사 한글과컴퓨터 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785202B2 (en) 2011-11-09 2017-10-10 Samsung Electronics Co., Ltd. Method for controlling rotation of screen and terminal and touch system supporting the same
CN110020082A (zh) * 2017-12-11 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
JP2020035126A (ja) * 2018-08-29 2020-03-05 Zホールディングス株式会社 ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム。
KR20200110880A (ko) * 2019-03-18 2020-09-28 주식회사 한글과컴퓨터 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법
KR102215580B1 (ko) 2019-03-18 2021-02-15 주식회사 한글과컴퓨터 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
KR101361182B1 (ko) 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법
US20060190446A1 (en) Web search system and method thereof
WO2016201511A1 (en) Methods and systems for object recognition
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
JP2010129061A (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
JP2007188352A (ja) ページリランキング装置、ページリランキングプログラム
JP2007334502A (ja) 検索装置、方法およびプログラム
JP2008158893A (ja) 情報検索装置、情報検索プログラム、プログラム格納媒体
JP2011103075A (ja) 抜粋文抽出方法
JP2009009461A (ja) キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム
JP2011175453A (ja) キーワード検索システム
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
JP2009145953A (ja) データ検索装置、データ検索方法、コンピュータプログラム、及び記録媒体
JP2011248762A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
JP2009086944A (ja) 情報処理装置および情報処理プログラム
JP5073349B2 (ja) 専門用語抽出装置、方法及びプログラム
JP2012104051A (ja) 文書インデックス作成装置
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP4675986B2 (ja) 情報共有装置及び情報共有プログラム
JP2010282403A (ja) 文書検索方法
JP5937939B2 (ja) サーバ装置及び情報処理方法
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
JP2004295797A (ja) 情報検索装置
JP2008158606A (ja) 知識情報管理システム