JP2000148780A - 文書検索方法、装置および文書検索プログラムを記録した記録媒体 - Google Patents
文書検索方法、装置および文書検索プログラムを記録した記録媒体Info
- Publication number
- JP2000148780A JP2000148780A JP10322245A JP32224598A JP2000148780A JP 2000148780 A JP2000148780 A JP 2000148780A JP 10322245 A JP10322245 A JP 10322245A JP 32224598 A JP32224598 A JP 32224598A JP 2000148780 A JP2000148780 A JP 2000148780A
- Authority
- JP
- Japan
- Prior art keywords
- document
- character string
- user
- input
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
のキーワード入力の負荷を少なくする。 【解決手段】 ユーザが入出力部12からキーワードを
入力すると、入力解析部13はキーワードの論理式とし
て表現される検索式を生成する。全文検索部14は該検
索式にしたがい、文書格納部11に格納された文書につ
いて全文検索を行う。絞り込み文字列生成部16は、生
成された検索結果に含まれる文書からユーザが入力した
キーワードを含み、かつキーワードより長さが長く、か
つユーザに文書の内容を連想しやすい文字列を生成す
る。絞り込み文字列選択部12aは生成された文字列を
ユーザに提示し、提示した文字列をユーザに選択可能と
する。絞り込み検索部15はユーザから選択された文字
列を含む文書を、絞り込み文字列を生成する際利用した
前検索結果に含まれる文書集合から検索する。
Description
れた文書情報から所望の文書を検索する文書検索装置に
関する。
付与されたキーワードを利用するキーワード検索手法
や、人手によるキーワード付けの作業を必要とせず、ユ
ーザが見つけたい文字列を構成要素とする検索式(AN
D,OR,NOTなどの論理演算子を用いた論理式)を
構成し、その検索式に基づき文書全文の文字列照合を行
う全文検索手法、また、ユーザの検索式を文章表現で与
え、検索対象の文書とユーザの入力した文章とを互いに
多次元の特徴ベクトルとして表現し、それらのベクトル
の間の距離によって類似度を計算して、質問文に類似し
た文書ほど検索結果の上位に出力するベクトル空間法を
用いる装置が一般的であった。
置では、大量の検索結果が出力された場合、ユーザはそ
れらの検索結果の中から所望の文書を探し出すために
は、キーワードの追加などを行い、検索結果を絞り込む
必要がある。この際、追加するキーワードはユーザが考
え出さなければならず、ユーザにとって大きな負担とな
るという問題を有していた。また、キーボード操作に不
慣れな初心者にとっては、絞り込み検索のためのキーワ
ードをキーボードを打ってい入力することも負担とな
る。
のキーボードの入力の負荷が少なくユーザが検索を行え
る文書検索方法、装置および文書検索プログラムとを記
録した記録媒体を提供することにある。
方法は、ユーザが、キーワードと論理演算を指定する文
字列を入力する段階と、ユーザが入力した文字列から、
キーワードの論理式として表現される検索式を生成する
段階と、生成された検索式にしたがい、検索対象文書を
格納した文書格納手段の文書について全文検索を行う段
階と、全文検索の検索結果に含まれる文書からユーザが
入力したキーワードを含み、かつ該キーワードより長さ
が長い、かつユーザに文書の内容を連想しやすい絞り込
み文字列を生成する段階と、生成された絞り込み文字列
をユーザに提示し、提示した文字列をユーザに選択可能
とする段階と、ユーザによって選択された文字列を含む
文書を、絞り込み文字列を生成する際に利用した前記検
索結果に含まれる文書集合から検索する段階を有する。
手段に格納されている各文書に出現する単語の頻度を求
める段階と、求められた単語頻度を各文書毎に単語頻度
情報格納手段に格納する段階と、ユーザが文字列を入力
する段階と、ユーザが入力した文字列から単語とその頻
度を抽出する段階と、抽出された単語およびその頻度を
入力単語情報格納手段に格納する段階と、単語頻度情報
格納手段の情報と入力単語情報格納手段の情報を用い
て、文書格納手段に格納されている文書にランキングを
付与した検索結果を生成する段階と、前記検索結果に含
まれる文書からユーザが入力した文字列から抽出された
単語を含み、かつ前記抽出された単語より長さが長く、
かつユーザに文書の内容を連想しやすい絞り込み文字列
を生成する段階と、絞り込み文字列をユーザに提示し、
提示した絞り込み文字列をユーザに選択可能とする段階
と、ユーザによって選択された文字列を含む文書を、絞
り込み文字列を生成する際利用した前検索結果に含まれ
る文書集合から検索する段階とを有する。
文字列を入力する段階と、ユーザが入力した文字列から
抽出された単語を用いた論理式として表現される検索式
の生成、および単語とその頻度の抽出を行う段階と、前
記生成された論理式表現の検索式にしたがい、文書格納
手段に格納された文書について全文検索を行う段階と、
前記抽出されたユーザが入力した文字列中の単語および
その頻度を入力単語情報格納手段に格納する段階と、前
記文書格納手段に格納されている各文書に出現する単語
の頻度を求める段階と、前記求められた単語頻度を各文
書毎に単語頻度情報格納手段に格納する段階と、単語頻
度情報格納手段の情報と入力単語情報格納手段の情報を
用いて、全文検索の結果出力される文書集合中の文書に
ランキングを付与した検索結果を生成する段階と、検索
結果に含まれる文書から、ユーザが入力した文字列から
抽出された単語を含み、かつ抽出された単語より長さが
長く、かつユーザに文書の内容を連想しやすい絞り込み
文字列を生成する段階と、生成された絞り込み文字列を
ユーザに提示し、提示した絞り込み文字列をユーザに選
択可能とする段階と、ユーザによって選択された文字列
を含む文書を、絞り込み文字列を生成する際利用した前
検索結果に含まれる文書集合から検索する段階とを有す
る。
際、検索結果に含まれる文書からユーザが入力した単語
を含み、かつ入力された単語より長さが長く、かつユー
ザに文書の内容を連想しやすい文字列を生成する絞り込
み文字列生成手段により生成された絞り込み文字列を、
絞り込み文字列選択手段を利用してユーザに提示し、ユ
ーザに所望の情報を表す文字列を選択させ、絞り込み文
字列を生成する際利用した前検索結果に含まれる文書集
合からユーザから選択された文字列を含む文書を絞り込
み検索手段を利用することによって検索し、ユーザの所
望する文書に絞り込まれた検索結果を出力することによ
り、検索結果を絞り込むためのキーワードの入力の負荷
が少なくユーザが検索を行える文書検索装置を実現す
る。
て図面を参照して説明する。
態の文書検索装置は文書格納部11と入出力部12と入
力解析部13と全文検索部14と絞り込み検索部15と
絞り込み文字列生成部16で構成されている。
る。
け、また検索結果をユーザへ出力する。入出力部12は
例えばディスプレイとキーボードやマウスの利用により
実現できる。
が入力した、キーワードと論理演算を指定する文字列か
ら、キーワードの論理式として表現される検索式を生成
する。
て生成された検索式にしたがい、文書格納部11に格納
された文書について全文検索を行い、検索式に適合する
文書集合を出力する。
前回出力した検索結果を格納する前検索結果格納部15
aと、全文検索部14から出力された文書集合と前検索
結果格納部15aに格納されている文書集合に共通する
文書の集合を出力する検索結果絞り込み部15bから構
成され、全文検索部14が前回出力した文書集合から後
述する絞り込み文字列選択部12aによってユーザから
選択された文字列を含む文書の検索を行い、入出力部1
2に絞り込んだ検索結果を出力する。
納部11に格納されている文書から、ユーザに文書の内
容を連想しやすい文字列を生成し、その文字列が各文書
に出現する回数を算出する文字列単位抽出部16aと、
各文書毎に、文字列単位抽出部16aで生成された文字
列のうち、その文書の内容をよく表しているものを求め
る絞り込み文字列単位抽出部16bと、各文書毎に絞り
込み文字列単位抽出部16bによって求められた文字列
および文字列単位抽出部16aで算出されたその文字列
がその文書に出現する回数情報を格納する絞り込み単位
格納部16cと、入力解析部13が生成した検索式に含
まれるキーワードの集合を格納する入力文字列集合格納
部16dと、検索結果絞り込み部15bから出力された
文書集合情報と入力文字列集合格納部16dの情報と絞
り込み単位格納部16cの情報を用いて、検索のための
絞り込みのための文字列としてユーザに提示する文字列
の集合を決定する絞り込み文字列候補決定部16eから
構成され、全文検索部14が出力した文書集合からユー
ザが入力したキーワードを含み、かつこのキーワードよ
り長さが長く、かつユーザに文書の内容を連想しやすい
文字列を生成する。
文字列候補決定部16eによって生成された文字列の集
合をユーザに提示し、提示した文字列をユーザが選択で
きる機能を有する。絞り込み文字列選択部12aとし
て、例えばディスプレイとキーボードやマウスの利用が
可能である。
ーチャートにより、表1は、文書格納部11に格納され
る情報の例である。
出現回数以上の文字列を最長一致の原則で抽出するアル
ゴリズムを用いて文書検索格納部11に格納されている
文書から、ユーザに文書の内容を連想しやすい文字列を
生成し、その文字列が各文書に出現する回数を算出す
る。この際、ユーザに文書の内容を連想しやすい文字列
が生成されるようにするため、断片的な文字列でなく言
語の共起表現を抽出する特徴をもつものを利用する。例
えば、任意の長さ以上で、任意の出現回数以上の部分的
に重複のない文字列を抽出する「大規模日本語コーパス
からの連鎖型および離散型の共起表現の自動抽出手法」
の利用が可能である。前記「大規模日本語コーパスから
の連鎖型および離散型の共起表現の自動抽出手法」につ
いては、情報処理学会論文誌Vol.36 No.11 pp.2548-259
6 (1995)を参照されたい。表1の文書に対して、前記
「大規模日本語コーパスからの連鎖型および離散型の共
起表現の自動抽出手法」を適用し、抽出された部分的に
重複のない文字列とその出現回数に関する情報を各文書
1,2,60,99毎に表2に示す。
単位抽出部16aで生成された文字列のうち、その文書
の内容をよく表しているものを求め、絞り込み単位格納
部16cに格納する。文書の内容をよく表す文字列の選
出は絞り込み文字列単位抽出部16bによって抽出され
た文字列の中から、例えば出現回数がある回数以上であ
り、文字列の長さが2以上の文字列のみを各文書毎に残
すことにより可能である。ここでは、出現回数が2以上
のものを残すこととする。
報の例を表3に示す。
るとする。空き瓶や空き缶を役立てる方法を探すため、
入出力部12に「リサイクル」と入力したとする(ステ
ップ21)。ここで、入力解析部13は、検索式として
例えばand(リサイクル)を生成したとする(ステッ
プ22)。今、検索は初期検索であるため、入力解析部
13は前検索結果格納部15aを初期化する。図3に初
期化された前検索結果格納部15aの例を示す。{*}
は前検索結果格納部15aが初期化状態にあることを示
す。また入力解析部13は生成された検索式に含まれる
キーワードの場合{リサイクル}を入力文字列集合格納
部16dに格納する。
nd(リサイクル)にしたがい、文書格納部11を検索
し、文書格納部11に格納されている文書の中から、
「リサイクル」を含む文書番号の集合を作成し、検索結
果絞り込み部15bに送信する(ステップ23)。図4
に送信されるデータの例を示す。今、文番号1,2の他
に「リサイクル」を含む文書が300件あると仮定す
る。
納部15aを参照し、共通する文書の集合を求め、前検
索結果格納部15aの内容を求めた集合に書き換える
(ステップ24)。前検索結果格納部15aが初期状態
にある場合は求められる文書集合は全文検索部14が出
力した文書集合となる。そして、求めた文書集合を入出
力部12および絞り込み文字列候補決定部16eに送信
する。
文字列集合格納部16dに格納されている「リサイク
ル」を部分文字列に含み、かつ「リサイクル」より長さ
が長い文字列を絞り込み単位格納部16cから抽出し、
絞り込み文字列選択部12aに送信する(ステップ2
5)。この際、絞り込み文字列候補決定部16eは、絞
り込み単位格納部16cに格納されている情報から抽出
した文字列に対して、各文書における出現頻度、文字列
に含まれるユーザが入力したキーワードの数などに基づ
いて、順位づけを行い、順位の高い方から予め決められ
た数だけ絞り込み用の文字列を送信してもよい。また、
絞り込み文字列候補決定部16eは抽出される文字列が
存在しない場合は検索処理を終了させる(ステップ2
6)。この際、入出力部12には検索結果絞り込み部1
5から送信された文書集合を表示する。
文字列候補決定部16eから送信された文字列の集合を
ユーザに提示する(ステップ27)。また、入出力部1
2は検索結果絞り込み部15bから送信された文書集合
を表示する。図5にこのときの入出力部12および絞り
込み文字列選択部12aの例を示す。
検索結果をさらに絞り込む必要がある。ここで、ユーザ
は絞り込み文字列選択部12aに提示されている文字列
の中から自分が知りたい情報に関係ありそうであると思
われる文字列を絞り込みのキーワードとして選択するこ
とにより、絞り込みキーワードを自分で考える負担が少
なくなるのは明らかである。また、文字列をマウスなど
を用いて選択することにより、キーワードをキーボード
を打って入力する必要はなく、入力の負荷が軽減される
ことは明らかである。
分に関係ありそうに思われる文字列「アルミ缶のリサイ
クル」を絞り込み選択部12aを通じて選択したとする
(ステップ28)。
から送信された文字列「アルミ缶のリサイクル」から検
索式として“and(アルミ缶のリサイクル)”を生成
する(ステップ22)。そして、{アルミ缶のリサイク
ル}をキーワードとして入力文字列集合格納部16dに
格納する。
れている文書の中から、「アルミ缶のリサイクル」を含
む文書番号の集合を作成し、検索結果絞り込み部15b
に送信する(ステップ23)。図6に送信されるデータ
の例を示す。この例では、「アルミ缶のリサイクル」を
含む文書は文番号2と文番号99にあることがわかる。
納部15aを参照し、共通する文書の集合{2,99}
を求め、前検索結果格納部15aの内容を求めた集合に
書き換え、求めた文書集合を絞り込み文字列候補決定部
16eに送信する(ステップ24)。
文字列集合格納部16dに格納されている“アルミ缶の
リサイクル”より長い文字列を絞り込み単位格納部16
cから探し、絞り込み文字列選択部12aに送信する
(ステップ24)。
文字列候補決定部16eから送信された文字列の集合を
ユーザに提示する(ステップ26)。また、入出力部1
2は検索結果絞り込み部15bから送信された文書集合
を表示する。図7にこのときの入出力部12および絞り
込み文字列選択部12aの例を示す。以上より、少ない
入力負荷で検索結果の取り込みが可能であることは明ら
かである。
態の文書検索装置は文書格納部31と入出力部32と入
力解析部33と単語頻度算出部34と単語頻度情報格納
部35と入力単語情報格納部36と文書順位決定部37
と絞り込み検索部38と絞り込み文字列生成部39で構
成されている。
チャートを参照して説明する。
る。単語頻度算出部34は形態素解析などを行い、文書
格納部31に格納されている各文書を単語列に分割し、
各文書に各単語がどれだけの頻度で出現するかを計算
し、結果を単語頻度情報格納部35に記録する(ステッ
プ40,41)。表4に単語頻度情報格納部35に格納
される単語頻度情報の例を示す。
プ42)。入出力部32は例えばディスプレイとキーボ
ードやマウスにより実現できる。
が入力した入力文を必要であれば形態素解析などを行い
単語列に分割し、検索対象となる単語を抽出し、各単語
の重要度を示す重みを計算する(ステップ43)。単語
の重みは、通常は入力文中のその単語の出現頻度などに
基づき計算される。図9に入力文の例を示す。入力解析
部33の出力は入力単語情報格納部36に格納される
(ステップ44)。表5に格納される情報の例を示す。
に格納されている情報と単語頻度情報格納部35に格納
されている各検索対象文書の単語頻度情報と比較して、
文書の順位を決定する(ステップ45)。その際、各文
書に出現する各単語の重みを計算して、各文書の各単語
とその重みの組からなる多次元ベクトルとして表現し、
入力単語情報格納部36に格納されている情報に対して
も、同様に同次元のベクトルとして表現し、それらのベ
クトルの内積やベクトルのなす角度を計算して順位付け
を行った文書集合を出力する。各文書に出現する各単語
の重みの計算には、その文書中に出現頻度が大きい単語
ほど重く、また、出現する文書数の少ない単語ほど重く
なるような評価関数が用いられることが多い。
定部37により出力された文書順位情報を含む文書集合
と、前検索結果格納部38bに格納されている文書集合
に共通して含まれる文書から構成される共通文書集合を
求め、共通文書集合を入出力部32および絞り込み文字
列候補決定部39aへ送信し、また、前検索結果格納部
38bの情報を求めた共通集合に更新する(ステップ4
6)。なお、前検索結果格納部38bは、初期検索にお
いて第1の実施形態と同様に初期化されている。
単語情報格納部36に格納されている入力文を構成する
単語集合情報と検索結果絞り込み部38aから出力され
る文書集合情報および絞り込み要素格納部39bに格納
されている文字列情報から、ユーザに提示する絞り込み
文字列を決定し、絞り込み文字列選択部32aへ出力す
る(ステップ47)。なお、文字列単位抽出部39dの
実現法および絞り込み文字列単位抽出部39cの実現
法、絞り込み要素格納部39bに格納される情報の構造
は第1の実施形態の各々と同様のものを利用可能であ
る。また、絞り込み文字候補決定部39aは、ユーザに
提示する絞り込み文字列が存在しない場合は、検索処理
を終了させる(ステップ48)。この際入出力部32
は、検索結果絞り込み部38aから送信された文書集合
を提示する。
文字列候補決定部39aから送信された文字列の集合を
ユーザに提示する(ステップ49)。また、入出力部3
2は検索結果絞り込み部38aから送信された文書集合
を表示する。
り込みの文字列を選択する(ステップ50)。入力解析
部33は入力単語情報格納部36を絞り込み文字列選択
部32aからの出力に更新する。
格納部36を参照し、ユーザの選択した文字列情報が登
録されている文書の集合を、絞り込み要素格納部39b
を参照することにより生成する(ステップ5A)。そし
て前検索結果格納部38bに格納されている文書集合
と、前記生成した文書集合の共通文書集合を求めること
により、前の検索結果をユーザが選択した文字列で絞り
込み、その絞り込まれた検索結果を入出力部32へ出力
するとともに、前検索結果格納部38bの情報を前記求
めた共通文書集合に更新する(ステップ46)。そして
絞り込み文字列候補決定部39aへ前記生成した共通文
書集合を出力する。共通文書集合中の文書の順位に関し
ては、前の検索結果中の順序関係を反映したものやユー
ザが選択した絞り込み文字列の出現頻度を求めることに
より、ユーザが選択した絞り込み文字列の出現頻度の大
きいものほど高い順位とする順序を与えることも可能で
ある。
果絞り込み部38aから前記出力された文書集合と入力
単語情報格納部36の情報および絞り込み要素格納部3
8bの情報を用いて、絞り込み検索用の文字列を決定
し、絞り込み文字列選択部32aに出力する(ステップ
50)。
形態の文書検索装置は文書格納部51と入出力部52と
入力解析部53と単語頻度算出部54と単語頻度情報格
納部55と入力単語情報格納部56と文書順位決定部5
7と絞り込み検索部58と絞り込み文字列生成部59と
全文検索部60で構成されている。本実施形態の各構成
要素は第3の実施形態の参照番号の1位の桁が同じ番号
のものと対応している。
ユーザが入力した文から抽出された単語から構成される
論理式表現の検索式を生成する機能を有する入力解析部
53を有すること、全文検索部60が前記生成された検
索式にしたがい文書格納部51を検索し、検索式に適合
した文書集合を文書順位決定部57に出力すること、文
書順位決定部57が全文検索部60から出力された文書
に対してのみ順位づけを行うことを除いて同じである。
チャートを参照して説明する。
力する(ステップ60)。入力解析部53はユーザが入
力した文字列から抽出された単語を用いた論理式として
表現される検索式の生成、および単語とその頻度の抽出
を行い、抽出されたユーザが入力した文字列中の単語お
よびその頻度を入力単語情報格納部56に格納する(ス
テップ61,62)。全文検索部60は、前記生成され
た論理式表現の検索式にしたがい、文書格納部51に格
納されている文書について全文検索を行う(ステップ6
3)。単語頻度算出部54は、文書格納部51に格納さ
れている各文書に出現する単語頻度を求め、求められた
単語頻度を各文書毎に単語頻度情報格納部55に格納す
る(ステップ64)。文書順位決定部57は単語頻度情
報格納部55の情報と入力単語情報格納部56の情報を
用いて、全文検索部60から出力される文書集合中の文
書にランキングを付与した検索結果を生成する(ステッ
プ65)。以降のステップ66〜7Aの処理は図10中
のステップ46から5Aの処理と同じである。
て、ユーザの文書の内容を連想しやすい文字列を生成す
るために、文字列単位抽出部が利用するアルゴリズム
は、文書格納部に格納されている文書の形態素解析を行
い、文書を構成する単語の品詞情報を用いたパターンに
マッチする文字列を抽出するものでもよい。例えば、名
詞が連続するパターン、形容詞の連続の後に名詞が連続
するパターン、名詞と名詞が「の」で連結されたパター
ンに最長マッチする文字列を抽出するアルゴリズムの利
用が可能である。表6に品詞情報を用いたパターンとの
マッチに表1に示されている文書から抽出された文字列
とその出現回数に関する情報の例を示す。また、絞り込
み文字列単位抽出部39c、59cは、文字列の出現頻
度や文字列の長さ、文書の構造を規定するタグ情報(表
題など)を利用して、文書の内容をよく表す文字列を抽
出してもよい。
装置は入力装置71と記憶装置72〜76と出力装置7
7と記録媒体78とデータ処理装置79で構成されてい
る。
ける、キーボード、マウスなどである。記憶装置72,
73,74,75はそれぞれ図1中の文書格納部11、
前検索結果格納部15a、絞り込み単位格納部16c、
入力文字列集合格納部16dに相当する。記憶装置76
はハードディスクである。出力装置77は検索結果をユ
ーザへ提示するための、ディスプレイなどである。記憶
媒体78は、図1中の入力解析部13、全文検索部1
4、検索結果絞り込み部15b、文字列単位抽出部16
a、絞り込み文字列単位抽出部16b、絞り込み文字列
候補決定部16eの各処理からなる文書検索プログラム
が記録されている、フロッピィ・ディスク、記録媒体7
8から文書検索プログラムを記憶装置76に読み込ん
で、これを実行するCPUである。
形態の文書検索装置は入力装置81と記憶装置82〜8
7と出力装置88と記録媒体89とデータ処理装置90
で構成されている。
ける、キーボード、マウスなどである。記憶装置82,
83,84,85,86はそれぞれ図8中の文書格納部
31、、絞り込み要素格納部39bまたは図11中の文
書格納部51、単語頻度情報格納部55、入力単語情報
格納部56、前検索結果格納部58a、絞り込み要素格
納部59bに相当する。記憶装置87はハードディスク
である。出力装置88は検索結果をユーザに呈示するた
めのディスプレイなどである。記録媒体89は、図8中
の入力解析部33、単語頻度算出部34、文書順位決定
部37、文字列単位抽出部39d、絞り込み文字列単位
抽出部39c、絞り込み文字列候補決定部39a、検索
結果絞り込み部38aの各処理からなる文字検索プログ
ラムまたは図11中の入力解析部53、単語頻度算出部
54、文書順位決定部57、文字列単位抽出部59d、
絞り込み文字列単位抽出部59c、絞り込み文字列候補
決定部59a、検索結果絞り込み部58aの各処理から
なる文字検索プログラムが記録されている、フロッピィ
・ディスク、CD−ROM、光磁気ディスクなどの記録
媒体である。データ処理装置90は記録媒体89から文
書検索プログラムを記憶装置87に読み込んで、これを
実行するCPUである。
検索結果を絞り込むためのキーワードの入力の負荷少な
くユーザが検索を行える効果がある。
図である。
流れを示すフローチャートである。
示す図である。
に送信されるデータの例を示す図である。
の表示例を示す図である。
字列で検索を行ったときに検索結果絞り込み部15bに
送信されるデータの例を示す図である。
したときの入出力部12および絞り込み文字列選択部1
2aの例を示す図である。
図である。
例を示す図である。
の流れを示すフローチャートである。
成図である。
の流れを示すフローチャートである。
成図である。
成図である。
Claims (16)
- 【請求項1】 ユーザが、キーワードと論理演算を指定
する文字列を入力する段階と、 ユーザが入力した文字列から、キーワードの論理式とし
て表現される検索式を生成する段階と、 生成された検索式にしたがい、検索対象文書を格納した
文書格納手段の文書について全文検索を行う段階と、 前記全文検索の検索結果に含まれる文書からユーザが入
力したキーワードを含み、かつ該キーワードより長さが
長い、かつユーザに文書の内容を連想しやすい絞り込み
文字列を生成する段階と、 前記生成された絞り込み文字列をユーザに提示し、提示
した文字列をユーザに選択可能とする段階と、 ユーザによって選択された文字列を含む文書を、前記絞
り込み文字列を生成する際に利用した前記検索結果に含
まれる文書集合から検索する段階を有する文書検索方
法。 - 【請求項2】 文書格納手段に格納されている各文書に
出現する単語の頻度を求める段階と、 求められた単語頻度を各文書毎に単語頻度情報格納手段
に格納する段階と、 ユーザが文字列を入力する段階と、 ユーザが入力した文字列から単語とその頻度を抽出する
段階と、 抽出された単語およびその頻度を入力単語情報格納手段
に格納する段階と、 前記単語頻度情報格納手段の情報と前記入力単語情報格
納手段の情報を用いて、前記文書格納手段に格納されて
いる文書にランキングを付与した検索結果を生成する段
階と、 前記検索結果に含まれる文書からユーザが入力した文字
列から抽出された単語を含み、かつ前記抽出された単語
より長さが長く、かつユーザに文書の内容を連想しやす
い絞り込み文字列を生成する段階と、 前記絞り込み文字列をユーザに提示し、提示した文字列
をユーザに選択可能とする段階と、 ユーザによって選択された文字列を含む文書を、前記絞
り込み文字列を生成する際利用した前検索結果に含まれ
る文書集合から検索する段階と、を有する文書検索方
法。 - 【請求項3】 ユーザが文字列を入力する段階と、 ユーザが入力した文字列から抽出された単語を用いた論
理式として表現される検索式の生成、および単語とその
頻度の抽出を行う段階と、 前記生成された論理式表現の検索式にしたがい、文書格
納手段に格納された文書について全文検索を行う段階
と、 前記抽出されたユーザが入力した文字列中の単語および
その頻度を入力単語情報格納手段に格納する段階と、 前記文書格納手段に格納されている各文書に出現する単
語の頻度を求める段階と、 前記求められた単語頻度を各文書毎に単語頻度情報格納
手段に格納する段階と、 前記単語頻度格納手段の情報と前記入力単語情報格納手
段の情報を用いて、前記全文検索の結果出力される文書
集合中の文書にランキングを付与した検索結果を生成す
る段階と、 前記検索結果に含まれる文書から、ユーザが入力した文
字列から抽出された単語を含み、かつ前記抽出された単
語より長さが長く、かつユーザに文書の内容を連想しや
すい絞り込み文字列を生成する段階と、 前記生成された絞り込み文字列をユーザに提示し、提示
した文字列をユーザに選択可能とする段階と、 ユーザによって選択された文字列を含む文書を、前記絞
り込み文字列を生成する際利用した前検索結果に含まれ
る文書集合から検索する段階と、を有する文書検索方
法。 - 【請求項4】 前記絞り込み文字列をユーザに提示する
段階と、ユーザによって選択された文字列を含む文書を
検索する段階を繰り返す、請求項1から3のいずれか記
載の方法。 - 【請求項5】 前記絞り込み文字列の生成に際して、文
字列の出現頻度情報を利用する請求項1から4のいずれ
か1項記載の文書検索方法。 - 【請求項6】 前記絞り込み文字列の生成に際して、文
字列の出現頻度情報、または品詞情報などの言語上の情
報、または文書構造を表すタグ情報、または文書の内容
を表すキーワード情報を利用する請求項1から4のいず
れか1項記載の文書検索方法。 - 【請求項7】 検索対象文書を格納する文書格納手段
と、 ユーザから入力を受け付け、また検索結果をユーザへ出
力する入出力手段と、 前記入出力手段にユーザが入力したキーワードと論理演
算を指定する文字列から、キーワードの論理式として表
現される検索式を生成する入力解析手段と、 前記入力解析手段によって生成された検索式にしたが
い、前記文書格納手段に格納された文書について全文検
索を行う全文検索手段と、 前記全文検索手段が生成した検索結果に含まれる文書か
らユーザが入力したキーワードを含み、かつキーワード
より長さが長く、かつユーザに文書の内容を連想しやす
い絞り込み文字列を生成する絞り込み文字列生成手段
と、 前記絞り込み文字列生成手段によって生成された絞り込
み文字列をユーザに提示し、提示した絞り込み文字列を
ユーザに選択可能とする絞り込み文字列選択手段と、 前記絞り込み文字列選択手段によってユーザから選択さ
れた文字列を含む文書を、前記絞り込み文字列を生成す
る際利用した前検索結果に含まれる文書集合から検索す
る絞り込み検索手段を有する文書検索装置。 - 【請求項8】 検索対象文書を格納する文書格納手段
と、 前記文書格納手段に格納されている各文書に出現する単
語頻度を求める単語頻度算出手段と、 前記単語頻度算出手段によって求められた単語頻度を各
文書毎に格納する単語頻度情報格納手段と、 ユーザから入力を受け付け、また検索結果をユーザへ出
力する入出力手段と、 前記入出力手段にユーザが入力した文字列から単語とそ
の頻度などを抽出する入力解析手段と、 前記入力解析手段によって抽出されたユーザが入力した
文字列中の単語およびその頻度を格納する入力単語情報
格納手段と、 前記単語頻度情報格納手段の情報と前記入力単語情報格
納手段の情報を用いて、前記文書格納手段に格納されて
いる文書にランキングを付与した検索結果を生成する文
書順位決定手段と、 前記文書順位決定手段が生成した検索結果に含まれる文
書からユーザが入力した文字列から抽出された単語を含
み、かつ前記抽出された単語より長さが長く、かつユー
ザに文書の内容を連想しやすい絞り込み文字列を生成す
る絞り込み文字列生成手段と、 前記絞り込み文字列生成手段によって生成された絞り込
み文字列をユーザに提示し、提示した絞り込み文字列を
ユーザに選択可能とする絞り込み文字列選択手段と、 前記絞り込み文字列選択手段によってユーザから選択さ
れた文字列を含む文書を、前記絞り込み文字列を生成す
る際利用した前検索結果に含まれる文書集合から検索す
る絞り込み検索手段と、を有する文書検索装置。 - 【請求項9】 ユーザから入力を受け付け、また検索結
果をユーザへ出力する入出力手段と、 前記入出力手段にユーザが入力した文字列から抽出され
た単語を用いた論理式として表現される検索式の生成、
および単語とその頻度の抽出を行う入力解析手段と、 検索対象文書を格納する文書格納手段と、 前記入力解析手段によって生成された論理式表現の検索
式にしたがい、前記文書格納手段に格納された文書につ
いて全文検索を行う全文検索手段と、 前記入力解析手段によって抽出されたユーザが入力した
文字列中の単語およびその頻度を格納する入力単語情報
格納手段と、 前記文書格納手段に格納されている各文書に出現する単
語の頻度を求める単語頻度算出手段と、 前記単語頻度算出手段によって求められた単語頻度を各
文書毎に格納する単語頻度情報格納手段と、 前記単語頻度情報格納手段の情報と前記入力単語情報格
納手段の情報を用いて、前記全文検索手段が出力する文
書集合中の文書にランキングを付与した検索結果を生成
する文書順位決定手段と、 前記文書順位決定手段が生成した検索結果に含まれる文
書から、ユーザが入力した文字列から抽出された単語を
含み、かつ前記抽出された単語より長さが長く、かつユ
ーザに文書の内容を連想しやすい絞り込み文字列を生成
する絞り込み文字列生成手段と、 前記絞り込み文字列生成手段によって生成された絞り込
み文字列をユーザに提示し、提示した絞り込み文字列を
ユーザに選択可能とする絞り込み文字列選択手段と、 前記絞り込み文字列選択手段によってユーザから選択さ
れた文字列を含む文書を、前記絞り込み文字列を生成す
る際利用した前検索結果に含まれる文書集合から検索す
る絞り込み検索手段と、を有する文書検索装置。 - 【請求項10】 前記絞り込み文字列生成手段が、文字
列の出現頻度情報を利用する請求項7から9のいずれか
1項記載の文書検索装置。 - 【請求項11】 前記絞り込み文字列生成手段が、文字
列の出現頻度情報、または品詞情報などの言語上の情
報、または文書構造を表すタグ情報、または、文書の内
容を表すキーワード情報、を利用する請求項7から9の
いずれか1項記載の文書検索装置。 - 【請求項12】 ユーザが入力したキーワードと論理演
算を指定する文字列から、キーワードの論理式として表
現される検索式を生成する処理と、 生成された検索式にしたがい、検索対象文書を格納した
文書格納手段の文書について全文検索を行う処理と、 前記全文検索の検索結果に含まれる文書からユーザが入
力したキーワードを含み、かつ該キーワードより長さが
長く、かつユーザに文書の内容を連想しやすい絞り込み
文字列を生成する処理と、 前記の生成された絞り込み文字列をユーザに提示し、提
示した絞り込み文字列をユーザに選択可能とする処理
と、 ユーザによって選択された文字列を含む文書を、前記絞
り込み文字列を生成する際に利用した前記検索結果に含
まれる文書集合から検索する処理をコンピュータに実行
させるための文書検索プログラムを記録した記録媒体。 - 【請求項13】 文書格納手段に格納されている各文書
に出現する単語頻度を求める処理と、 求められた単語頻度を各文書毎に単語頻度情報格納手段
に格納する処理と、 ユーザが入力した文字列から単語とその頻度を抽出する
処理と、 抽出された単語およびその頻度を入力単語情報格納手段
に格納する処理と、 前記単語頻度情報格納手段の情報と前記入力単語情報格
納手段の情報を用いて、前記文書格納手段に格納されて
いる文書にランキングを付与した検索結果を生成する処
理と、 前記検索結果に含まれる文書からユーザが入力した文字
列から抽出された単語を含み、かつ前記抽出された単語
より長さが長く、かつユーザに文書の内容を連想しやす
い絞り込み文字列を生成する処理と、 前記絞り込み文字列をユーザに提示し、提示した絞り込
み文字列をユーザに選択可能とする処理と、 ユーザによって選択された文字列を含む文書を、前記絞
り込み文字列を生成する際利用した前検索結果に含まれ
る文書集合から検索する処理とをコンピュータに実行さ
せるためのプログラムを記録した記録媒体。 - 【請求項14】 ユーザが入力した文字列から抽出され
た単語を用いた論理式として表現される検索式の生成、
および単語とその頻度の抽出を行う処理と、 前記生成された論理式表現の検索式にしたがい、文書格
納手段に格納された文書について全文検索を行う処理
と、 前記抽出されたユーザが入力した文字列中の単語および
その頻度を入力単語情報格納手段に格納する処理と、 前記文書格納手段に格納されている各文書に出現する単
語の頻度を求める処理と、 前記求められた単語頻度を各文書毎に単語頻度情報格納
手段に格納する処理と、 前記単語頻度情報格納手段の情報と前記入力単語情報格
納手段の情報を用いて、前記全文検索の結果出力される
文書集合中の文書にランキングを付与した検索結果を生
成する処理と、 前記検索結果に含まれる文書から、ユーザが入力した文
字列から抽出された単語を含み、かつ前記抽出された単
語より長さが長く、かつユーザに文書の内容を連想しや
すい絞り込み文字列を生成する処理と、 前記生成された絞り込み文字列をユーザに提示し、提示
した絞り込み文字列をユーザに選択可能とする処理と、 ユーザによって選択された文字列を含む文書を、前記絞
り込み文字列を生成する際利用した前検索結果に含まれ
る文書集合から検索する処理をコンピュータに実行させ
るためのプログラムを記録した記録媒体。 - 【請求項15】 前記絞り込み文字列の生成に際して、
文字列の出現頻度情報を利用する請求項11から13の
いずれか1項記載の記録媒体。 - 【請求項16】 前記絞り込み文字列の生成に際して、
文字列の出現頻度情報、または品詞情報などの言語上の
情報、または、文書構造を表すタグ情報、または、文書
の内容を表すキーワード情報を利用する請求項11から
13のいずれか1項記載の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32224598A JP3930168B2 (ja) | 1998-11-12 | 1998-11-12 | 文書検索方法、装置および文書検索プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32224598A JP3930168B2 (ja) | 1998-11-12 | 1998-11-12 | 文書検索方法、装置および文書検索プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000148780A true JP2000148780A (ja) | 2000-05-30 |
JP3930168B2 JP3930168B2 (ja) | 2007-06-13 |
Family
ID=18141533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32224598A Expired - Fee Related JP3930168B2 (ja) | 1998-11-12 | 1998-11-12 | 文書検索方法、装置および文書検索プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3930168B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002157278A (ja) * | 2000-11-17 | 2002-05-31 | Nec Corp | ディレクトリ編集型情報検索装置、情報検索方法及びディレクトリ編集型情報検索プログラムを格納した記録媒体 |
JP2002215672A (ja) * | 2001-01-22 | 2002-08-02 | Kddi Corp | 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム |
JP2002222210A (ja) * | 2001-01-25 | 2002-08-09 | Hitachi Ltd | 文書検索システム、文書検索方法及び検索サーバ |
JP2002342373A (ja) * | 2001-05-21 | 2002-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体 |
JP2005169897A (ja) * | 2003-12-12 | 2005-06-30 | Sato Corp | 製品特性マーク印字用プリンターおよび製品特性マーク選択方法 |
JP2005169898A (ja) * | 2003-12-12 | 2005-06-30 | Sato Corp | 製品特性マーク印字用プリンターおよび製品特性マーク選択方法 |
JP2006163645A (ja) * | 2004-12-03 | 2006-06-22 | Kenji Kita | 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器 |
JP4825216B2 (ja) * | 2004-10-20 | 2011-11-30 | オラクル・インターナショナル・コーポレイション | 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム |
JP2018156328A (ja) * | 2017-03-16 | 2018-10-04 | 富士通株式会社 | 検索支援プログラム、検索支援装置および検索支援方法 |
CN113722470A (zh) * | 2021-09-06 | 2021-11-30 | 杭州安恒信息技术股份有限公司 | 一种信息提示方法、装置、设备及存储介质 |
-
1998
- 1998-11-12 JP JP32224598A patent/JP3930168B2/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002157278A (ja) * | 2000-11-17 | 2002-05-31 | Nec Corp | ディレクトリ編集型情報検索装置、情報検索方法及びディレクトリ編集型情報検索プログラムを格納した記録媒体 |
JP2002215672A (ja) * | 2001-01-22 | 2002-08-02 | Kddi Corp | 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム |
JP2002222210A (ja) * | 2001-01-25 | 2002-08-09 | Hitachi Ltd | 文書検索システム、文書検索方法及び検索サーバ |
JP2002342373A (ja) * | 2001-05-21 | 2002-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体 |
JP4559726B2 (ja) * | 2003-12-12 | 2010-10-13 | 株式会社サトー | 製品特性マーク印字用プリンターおよび製品特性マーク選択方法 |
JP2005169897A (ja) * | 2003-12-12 | 2005-06-30 | Sato Corp | 製品特性マーク印字用プリンターおよび製品特性マーク選択方法 |
JP2005169898A (ja) * | 2003-12-12 | 2005-06-30 | Sato Corp | 製品特性マーク印字用プリンターおよび製品特性マーク選択方法 |
JP4512355B2 (ja) * | 2003-12-12 | 2010-07-28 | 株式会社サトー | 製品特性マーク印字用プリンターおよび製品特性マーク選択方法 |
JP4825216B2 (ja) * | 2004-10-20 | 2011-11-30 | オラクル・インターナショナル・コーポレイション | 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム |
JP2012038320A (ja) * | 2004-10-20 | 2012-02-23 | Oracle Internatl Corp | 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム |
JP2006163645A (ja) * | 2004-12-03 | 2006-06-22 | Kenji Kita | 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器 |
JP2018156328A (ja) * | 2017-03-16 | 2018-10-04 | 富士通株式会社 | 検索支援プログラム、検索支援装置および検索支援方法 |
CN113722470A (zh) * | 2021-09-06 | 2021-11-30 | 杭州安恒信息技术股份有限公司 | 一种信息提示方法、装置、设备及存储介质 |
CN113722470B (zh) * | 2021-09-06 | 2024-03-08 | 杭州安恒信息技术股份有限公司 | 一种信息提示方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3930168B2 (ja) | 2007-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7676452B2 (en) | Method and apparatus for search optimization based on generation of context focused queries | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
US7509314B2 (en) | Document retrieval system recognizing types and values of numeric search conditions | |
JP2010287020A (ja) | 同義語展開システム及び同義語展開方法 | |
JP7388256B2 (ja) | 情報処理装置及び情報処理方法 | |
JP3930168B2 (ja) | 文書検索方法、装置および文書検索プログラムを記録した記録媒体 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP3198932B2 (ja) | 文書検索装置 | |
US20100121832A1 (en) | System for retrieving information units | |
JPH09198395A (ja) | 文書検索装置 | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JPH0844771A (ja) | 情報検索装置 | |
JPH1055372A (ja) | オンデマンド・インターフェース装置及びコンピュータ読み取り可能な記録媒体 | |
JP2970443B2 (ja) | 文書検索装置 | |
JP2002342373A (ja) | 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体 | |
JP3177593B2 (ja) | 語句の絞込検索方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2001249935A (ja) | 文書ダイジェスト作成方法、文書検索装置および記録媒体 | |
JP2004220226A (ja) | 検索文書のための文書分類方法及び装置 | |
JP3006526B2 (ja) | 類似文書検索方法および類似文書検索装置 | |
JPH07334512A (ja) | 文書データ検索装置 | |
JP2773667B2 (ja) | 関連情報検索装置 | |
JPH0683870A (ja) | 検索装置 | |
JPH10198690A (ja) | 類似文書検索方法および類似文書検索装置 | |
JP2005234732A (ja) | 文書管理装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040121 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040121 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040121 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060830 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070308 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |