JP3627446B2 - Search formula creation device and search formula creation method - Google Patents

Search formula creation device and search formula creation method Download PDF

Info

Publication number
JP3627446B2
JP3627446B2 JP14625997A JP14625997A JP3627446B2 JP 3627446 B2 JP3627446 B2 JP 3627446B2 JP 14625997 A JP14625997 A JP 14625997A JP 14625997 A JP14625997 A JP 14625997A JP 3627446 B2 JP3627446 B2 JP 3627446B2
Authority
JP
Japan
Prior art keywords
search
neighborhood
search keyword
words
neighborhood word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14625997A
Other languages
Japanese (ja)
Other versions
JPH10334115A (en
Inventor
勉 倉持
政之 倉橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP14625997A priority Critical patent/JP3627446B2/en
Publication of JPH10334115A publication Critical patent/JPH10334115A/en
Application granted granted Critical
Publication of JP3627446B2 publication Critical patent/JP3627446B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は検索式作成装置及び検索式作成方法に関し、特に文書検索のための検索式を作成する検索式作成装置及び検索式作成方法に関する。
【0002】
【従来の技術】
多量の文書データから必要に応じて文書データを検索する方法には、シソーラスに基づいて統制されたキーワードや分類コード等の情報を利用する方法のほかに、文書全文を直接参照して検索する全文検索(フルテキストサーチ)方法がある。前者の方法に比べて後者の方法では検索もれが少ない。
【0003】
しかし、全文検索方法では検索もれが少ない代わりに多量の文書がヒットとなってしまい、この内容を逐一チェックするのには大変な労力を要する。例えば、「有害物質の輸出入の規制」に関する内容の文書を検索する場合に、「”有害物質”、”輸出入”、”規制”という単語を含む」ことを検索条件としてしまうと、これらの単語が散在した文書もヒットとなってしまう場合がある。
【0004】
そこで、この全文検索方法で情報をより正確に絞り込むために、ユーザが指定した検索語(検索キーワード)の近傍のテキスト情報を利用する方法が提案されている。
【0005】
例えば、検索者が2つの検索キーワード及びその位置関係を指定すると、その検索条件に合致する検索結果を出力する「文書検索方法および装置」が、特開平4−293161号公報に示されている。
【0006】
この方法では、上記で例とした「有害物質の輸出入の規制」に関する内容の文書を抽出する場合、「”有害物質”という単語と”輸出入”という単語とを含み、その間隔は2語以内であり、かつ、”輸出入”という単語と”規制”という単語とを含み、その間隔は2語以内である」ことを検索条件とすることができる。よって、検索キーワードが散在した文書のヒットを防止することができる。
【0007】
この方法は、検索要求が「有害物質の輸出入の規制」というように明確である場合には有効である。しかし、例えばユーザの検索要求で明らかになっているのが、検索キーワード「規制」のみ、という場合もある。
【0008】
このように、検索要求が定かでない場合に、ユーザが1つの検索キーワードを指定すると、その検索キーワードが出現する箇所の前後のテキストを抜き出してユーザに提示する「対話式データベース探索方法および装置」が特開平5−189487号公報に示されている。
【0009】
この方法では、例えば「規制」という検索キーワードを指定すると「有害物質の輸出入の規制」を始め、「〜の規制」、「〜に関する規制」といったテキストが列挙され、ユーザはその中から必要な情報を選択的に得ることができる。
【0010】
【発明が解決しようとする課題】
しかし、上記の方法では提示されるテキストが大量となり、ユーザの選択作業にかかる負担が増大してしまうという問題点があった。なお、この原因の1つは、意味が殆ど同じであっても言い回しの異なるテキストは、すべて区別して提示してしまうことにある。例えば、「排気ガスの規制」と「排気ガスに関する規制」などがこれにあたる。
【0011】
本発明は以上のような点に鑑みてなされたものであり、文書の検索要求を絞り込むための情報提示を効率良く行い、検索式作成にかかるユーザの負担を軽減した検索式作成装置及び検索式作成方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明では上記課題を解決するために、文書検索のための検索式を作成する検索式作成装置において、複数の文書データを保持する文書データ保持手段と、入力される検索キーワードを保持する検索キーワード保持手段と、前記検索キーワードの近傍に位置する近傍語のうち、前記検索キーワードの前方から抽出する前方単語数と後方から抽出する後方単語数とが個別に指定された近傍語抽出条件を保持する近傍語抽出条件保持手段と、前記検索キーワード及び前記近傍語抽出条件に基づいて、前記複数の文書データから、前記検索キーワードから前方に数えて前記前方単語数内に位置する前記近傍語と、前記検索キーワードから後方に数えて前記後方単語数内に位置する前記近傍語とを抽出する近傍語抽出手段と、前記近傍語から近傍語リストを生成する近傍語リスト生成手段と、前記近傍語リストを保持する近傍語リスト保持手段と、表示された前記近傍語リストに含まれた近傍語への選択を受け付けて、選択された近傍語を検索キーワードとして追加するキーワード追加手段と、前記検索キーワードから検索式を作成する検索式作成手段と、を有することを特徴とする検索式作成装置が提供される。
【0013】
このような検索式作成装置にて文書検索のための検索式を作成する場合、文書データ保持手段が複数の文書データを保持する。また、検索キーワード保持手段が入力される検索キーワードを保持する。近傍語抽出条件保持手段は入力される近傍語抽出条件を保持する。近傍語抽出手段は検索キーワード及び近傍語抽出条件に基づいて、複数の文書データから近傍語を抽出する。近傍語リスト生成手段は近傍語から近傍語リストを生成する。近傍語リスト保持手段は、生成された近傍語リストを保持する。キーワード追加手段は表示された前記近傍語リストに含まれた近傍語への選択を受け付けて、選択された近傍語を検索キーワードとして追加する。そして検索式作成手段は検索キーワードから検索式を作成する。
【0014】
このようにして文書検索のための検索式を作成すると、検索要求を絞り込むための情報、すなわち検索キーワード及び近傍語抽出条件に基づいて抽出される近傍語の提示が効率良く行われ、この近傍語を検索式を作成するための検索キーワードとして追加できるので、検索式作成にかかるユーザの負担を軽減することが可能となる。
【0015】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図1は本発明の検索式作成装置の原理構成を示したブロック図である。
【0016】
本発明の検索式作成装置は、文書データ保持手段1と、検索キーワード保持手段2と、近傍語抽出条件保持手段3と、近傍語抽出手段4と、近傍語リスト生成手段5と、近傍語リスト保持手段6と、キーワード追加手段7と、検索式作成手段8と、から構成される。
【0017】
ここで、文書データ保持手段1は、複数の文書データを保持する。また、検索キーワード保持手段2は、入力される検索キーワードを保持する。近傍語抽出条件保持手段3は、入力される近傍語抽出条件を保持する。近傍語抽出手段4は、検索キーワード及び近傍語抽出条件に基づいて、文書データから近傍語を抽出する。近傍語リスト生成手段5は、近傍語リストを生成する。近傍語リスト保持手段6は、生成された近傍語リストを保持する。キーワード追加手段7は、近傍語リストから選択された近傍語を検索キーワードとして追加する。そして検索式作成手段8は、検索キーワードから検索式を作成する。
【0018】
このような検索式作成装置にて文書検索のための検索式を作成する場合、ユーザが入力する検索キーワードは、検索キーワード保持手段2に保持される。すなわち、検索キーワード保持手段2は、入力される検索キーワードが「aaaa」ならば、これを保持する。また同様に、ユーザが入力する近傍語抽出条件は、近傍語抽出条件保持手段3に保持される。
【0019】
そして近傍語抽出手段4は、ユーザの指示を受けると、検索キーワード及び近傍語抽出条件に基づいて、文書データ保持手段1に保持された文書データから、近傍語を抽出する。例えば検索キーワード「aaaa」を含む文書データとして「aaaa、bbbb、・・・」及び「aaaa、cccc、・・・」が保持されている場合、近傍語抽出条件に合致することを確認してから、「bbbb」や「cccc」を近傍語として抽出する。
【0020】
この際、抽出元となる文書データのID等を抽出された近傍語に関連付けておくが、複数の文書データから同じ近傍語が抽出される場合もあり、近傍語と抽出元文書データとの関係は1:1とは限らない。なお、本明細書中における近傍語とは、検索キーワードの近傍(範囲は近傍語抽出条件にて定められる)に存在し、単独で意味をなす自立語を指す。
【0021】
近傍語リスト生成手段5は、抽出された近傍語にて近傍語リストを生成する。すなわち、抽出された近傍語が「bbbb」と「cccc」であれば、これらをリストアップする。近傍語リスト保持手段6は、生成された近傍語リストを保持する。表示される近傍語リストを見たユーザが、リスト中の任意の近傍語を選択すると、キーワード追加手段7はこの選択を受け付け、選択された近傍語を、検索キーワード保持手段2に検索キーワードとして追加する。ここでユーザが近傍語「bbbb」を選択すれば、この単語が新たな検索キーワードとして追加される。
【0022】
そして検索式作成手段8は、ユーザの指示を受けると、検索キーワード保持手段2に保持された検索キーワードから検索式を作成する。すなわち、この時点で検索キーワードとして保持されているのが「aaaa」と「bbbb」であれば、これらの単語から検索式を作成する。
【0023】
このようにして検索式を作成すると、検索要求を絞り込むための情報、すなわち近傍語の提示が効率良く行われ、この近傍語を検索式を作成するための検索キーワードとして追加できるので、検索式作成にかかるユーザの負担を軽減することが可能となる。
【0024】
ここで、本発明の検索式作成装置を文書検索装置と組み合わせて実施する場合の構成及び動作について説明する。
図2は、本発明の検索式作成装置を適用した文書検索装置のハードウェア構成図である。
【0025】
本発明の検索式作成装置を適用した文書検索装置10は文書情報記憶部20を持ち、入力装置30を介してユーザからの入力を受け付け、出力装置40を介してユーザに情報を出力する。ここで、入力装置30としてはマウス等のポインティングデバイスやキーボード等が適用可能である。また、出力装置40としてはモニタやプリンタ等が適用可能である。
【0026】
文書検索装置10は、テキスト検索処理部11と、検索結果記憶部12と、近傍語抽出処理部13と、近傍語記憶部14と、同一文内近傍語検出処理部15と、品詞分類処理部16と、から構成されている。
【0027】
ここで、テキスト検索処理部11はCPU等で構成され、入力装置30を介して入力される検索キーワードや検索式に基づいて、文書情報記憶部20から文書情報を検索する。検索にあたっては全文検索等の公知技術が適用される。
【0028】
検索結果記憶部12はメモリ等で構成され、テキスト検索処理部11の検索結果を記憶する。すなわち、検索キーワードや検索式と合致した文章の文番号及びその文章を含む文書のID等を関連付けて記憶する。また、ここに記憶される検索結果は、出力装置40を介して出力される。
【0029】
近傍語抽出処理部13はCPU等で構成され、入力装置30を介して入力される近傍語抽出条件に基づいて、検索結果記憶部12に記憶されている検索結果の文書データから近傍語を抽出する。近傍語を抽出するには、検索キーワードや検索式と合致した文章を形態素解析し、近傍語抽出条件に合った単語を検出すればよい。
【0030】
なお、近傍語抽出条件は「[m]検索キーワード[n]」といった形式で入力される。これは、検索キーワードの前方に位置し、単独で意味を持つ自立語m個と、検索キーワードの後方に位置し、単独で意味を持つ自立語n個とを、近傍語として抽出することを示す。また、「検索キーワード1*[m]検索キーワード2[n]」(*は論理積)と入力された場合には、検索キーワード1と検索キーワード2との両方を含む文書を対象として、「[m]検索キーワード2[n]」を満たす近傍語を抽出すればよい。
【0031】
また、この際行われる形態素解析は自然言語処理の基本技術として広く知られる技術で、「自然言語処理の基礎技術」(野村浩郷著、社団法人電子情報通信学会、1988)等に詳しい。
【0032】
近傍語記憶部14はメモリ等で構成され、近傍語抽出処理部13にて抽出される近傍語を記憶する。なお、近傍語は、その近傍語を抽出した元の文章の文番号及び文書のID等と関連付けて記憶する。また、ここに記憶された近傍語は品詞分類処理部16に入力される。
【0033】
同一文内近傍語検出処理部15は、出力装置40を介して出力された近傍語のリストからユーザが任意の近傍語を選択して検索キーワードを追加した場合に、追加された検索キーワードを含む文を近傍語記憶部14で検索し、この文に含まれる近傍語を検出する。検出した近傍語は品詞分類処理部16に入力される。
【0034】
品詞分類処理部16は、入力された近傍語を品詞、すなわち、名詞、動詞・・・等に分類して近傍語リストを生成する。生成した近傍語リストは出力装置40を介して出力する。
【0035】
次に、この文書検索装置10にて文書検索を行う手順を説明する。
図3は、本発明の検索式作成装置を適用した文書検索装置にて文書を検索する手順を示したフローチャートである。以下、ステップ番号に沿って説明する。
[S1]テキスト検索処理部11は、入力装置30を介して入力される検索キーワードを受け付ける。
[S2]テキスト検索処理部11は、受け付けた検索キーワードにて文書情報記憶部20を検索し、検索キーワードを含んだ文章の文番号及びその文章を含む文書データのID等を検索結果として検索結果記憶部12に記憶させる。
[S3]近傍語抽出処理部13は、入力装置30を介して入力される近傍語抽出条件を受け付ける。
[S4]近傍語抽出処理部13は、入力された検索キーワードもしくは検索式を含んだ文章を1つ選択し、この文章を形態素解析する。なお、この形態素解析の際、名詞が連続して出現した場合には、その部分を単独の複合語として扱うこととする。よって、例えば「形態素」という単語と「解析」という単語とが連続して出現した場合には、「形態素解析」という単語が出現したものとして扱う。
[S5]近傍語抽出処理部13は、検索キーワード及び近傍語抽出条件に基づいて、形態素解析した文章から近傍語を抽出し、その文章の文番号及びその文章を含む文書のID等を、近傍語と関連付けて近傍語記憶部14に記憶させる。
[S6]近傍語抽出処理部13は、検索結果記憶部12にステップS4〜S5の処理の済んでいない文書データがあるか否か判断する。未処理の文書データがあればステップS4へ再度進み、未処理の文章を選択する。また、未処理の文書データがない場合はステップS7へ進む。
[S7]近傍語記憶部14は、記憶した近傍語をすべて品詞分類処理部16に入力する。品詞分類処理部16は、この近傍語を品詞分類して近傍語リストを生成する。
[S8]品詞分類処理部16は、生成した近傍語リストを出力装置40を介して出力する。
[S9]同一文内近傍語検出処理部15は、入力装置30を介してユーザから、追加する検索キーワードが選択されたか否か判断する。ここで選択されるのは、ステップS8で表示した近傍語リストに含まれた近傍語の1つである。追加する検索キーワードが選択された場合はステップS10に進む。また、追加する検索キーワードが選択されない場合はステップS11に進む。
[S10]検索キーワードが複数存在するので、検索式を作成する。この詳細については後に説明する。検索式が作成した後、ステップS4に再度進む。
[S11]ここまでの処理で作成された検索式があれば、その検索式はテキスト検索処理部11に入力される。テキスト検索処理部11は、その検索式に基づいて文書情報記憶部20を検索する。検索結果は検索結果記憶部12に記憶される。なお、検索式が作成されていない場合には、この処理を省いてもよい。
[S12]検索結果記憶部12は、記憶した検索結果を出力装置40を介して出力する。
【0036】
ここで、ステップS10で行う検索式の作成について説明する。出力装置40としてモニタ等の表示装置が適用されている場合、この時点でこの表示装置には近傍語のリストが表示されている。
【0037】
図4は、近傍語リストの表示画面例を示す図である。
表示画面50には、近傍語リスト51と、開始ボタン56と、終了ボタン57とが表示されている。
【0038】
ユーザは、検索キーワードを追加して同一文内の近傍語を検出したい場合に、マウス等のポインティングデバイスで開始ボタン56を選択する。また、検索キーワードの追加の必要がない場合に、終了ボタン57を選択する。
【0039】
近傍語リスト51は、近傍語抽出条件表示欄52と、近傍語<名詞>表示欄53と、近傍語<動詞>表示欄54と、近傍語<その他>表示欄55と、から構成されている。また、近傍語<名詞>表示欄53及び近傍語<動詞>表示欄54には、それぞれスクロールバーが付随している。
【0040】
近傍語抽出条件表示欄52には、入力された近傍語抽出条件が表示される。また、近傍語<名詞>表示欄53には、抽出された近傍語のうち、名詞が表示される。近傍語<動詞>表示欄54には、抽出された近傍語のうち、動詞が表示される。そして、近傍語<その他>表示欄54には、抽出された近傍語のうち、名詞でも動詞でもないものが表示される。
【0041】
なお、ここでは検索キーワードを「規制」、近傍語抽出条件を「[2]規制」として文書検索を行った場合の例を示している。これは、近傍語抽出条件「[2]規制[0]」と等価である。
【0042】
検索キーワード「規制」を図2に示した入力装置30を介して入力した場合、テキスト検索処理部11は、文書情報記憶部20に記憶されている文書データに対し、この検索キーワード「規制」に基づいた文書検索を行う。この検索結果は検索結果記憶部12に記憶される。
【0043】
近傍語抽出条件「[2]規制」を入力装置30を介して入力された近傍語抽出処理部13は、検索結果記憶部12に記憶された検索結果の文書データを形態素解析する。そして、検索キーワード「規制」の出現の度に、この検索キーワード「規制」より前方に出現し、単独で意味を持つ単語を2つ抽出し、近傍語とする。抽出した近傍語は近傍語記憶部14に記憶され、品詞分類処理部16にて品詞分類されて近傍語リスト51が生成される。
【0044】
このように、抽出される近傍語を品詞別に分類することで、ユーザは検索キーワードを追加するにあたって、適当な単語を探しやすくなる。
なお、ここでは検索キーワードの前方に出現する単語のみを近傍語とする場合を説明したが、近傍語抽出条件によって検索キーワードの後方に出現する単語を近傍語として抽出する場合もある。その場合には、前方に出現した近傍語と後方に出現した近傍語とを区別して表示させてもよい。
【0045】
また、ここでは近傍語を品詞別に分けて表示したが、これを分けずに表示することも可能である。
次に、ユーザが検索キーワードを追加する場合を説明する。
【0046】
「譲渡、取引、輸出入に関する規制」に関心を持った場合、ユーザはマウス等のポインティングデバイスで近傍語「譲渡」、「取引」、「輸出入」を指定してから、開始ボタン56を選択する。
【0047】
図5は、追加する検索キーワードを指定し、同一文内の近傍語を検出した様子を示す図である。
表示画面50aには、近傍語リスト51aが表示される。
【0048】
近傍語記憶部14では先に近傍語抽出条件「[2]規制」に基づいて近傍語を抽出した際に、各近傍語と、その近傍語を抽出した元文書のID等とを対応付けて記憶しているので、検索キーワードを追加されると同一文内近傍語検出処理部15は、近傍語記憶部14から同一文内に存在する近傍語を検出する。
【0049】
従って検索キーワードとして「譲渡」、「取引」、「輸出入」が追加指定されると、「規制」という単語を含み、なおかつ「譲渡」もしくは「取引」もしくは「輸出入」という単語を含む文書から、「規制」という単語の前方に出現し、単独で意味を持つ単語2つが近傍語として検出され、近傍語リスト51aに表示される。近傍語リスト51aに提示されている近傍語の数は、近傍語リスト51に提示されている近傍語の数と比較すると少なくなっている。
【0050】
ここでユーザがさらに「野生生物、希少野生動物の譲渡、取引、輸出入に関する規則」に関心を持った場合、ユーザは近傍語「野生生物」、「希少野生動物」を指定してから、開始ボタン56を選択する。
【0051】
図6は、追加する検索キーワードを指定し、同一文内の近傍語を検出した様子を示す図である。
表示画面50bには、近傍語リスト51bが表示される。
【0052】
検索キーワードとして「野生生物」、「希少野生動物」が追加指定されると、「規制」という単語を含み、「譲渡」もしくは「取引」もしくは「輸出入」という単語を含み、なおかつ「野生生物」もしくは「希少野生動物」という単語を含む文書から、「規制」という単語の前方に出現し、単独で意味を持つ単語2つが近傍語として検出され、近傍語リスト51bに表示される。近傍語リスト51bに提示されている近傍語の数は、近傍語リスト51aに提示されている近傍語の数と比較するとさらに少なくなっている。
【0053】
従って、この時点で、文書情報記憶部20には検索式「規制*(譲渡+取引+輸出入)*(野生生物+希少野生動物)」(*は論理積を、+は論理和を示す)を満たす文書が記憶されていることが判る。ユーザは、このように近傍語の数が十分に減ったと判断した時点で、表示されている近傍語抽出条件から検索式を作成すればよい。
【0054】
この検索式は、近傍語抽出条件表示欄52、52a、52b・・・に表示されている文字列の[m]及び[n]を削除し、「:」を「*」に、「、」を「+」に変換すれば作成できるので、CPU等に処理させてもよいし、ユーザが入力してもよい。
【0055】
このように、本発明の検索式作成装置を適用した文書検索装置10では、検索キーワードに対し近傍語が抽出、表示され、ユーザが関心のある近傍語を次々に絞り込んで指定することができるので、繁雑な操作を必要とせずに適切な検索式を作成することが可能である。
【0056】
また、上記で説明したように、近傍語を段階的に選択していくことができるので、入力する検索キーワードは、広い概念を持つものから順次、狭い概念を持つものに絞り込んでいくことができるので、ユーザ自身が検索意図を掴めていないような場合にも、必要な文書の検索が可能となる。
【0057】
なお、図4〜図6で示した例では、図5から図6へ移った時点で、「輸出入」という近傍語が消えている。このことから、「輸出入」という単語が、「野生生物」や「希少野生動物」という単語と、近傍語として両立している文書が存在しないことが判る。よって、この場合の検索式は「規制*(譲渡+取引)*(野生生物+希少野生動物)」でもよい。
【0058】
【発明の効果】
以上説明したように本発明の検索式作成装置は、検索要求を絞り込むための情報、すなわち検索キーワード及び近傍語抽出条件に基づいて抽出される近傍語の提示を効率良く行い、この近傍語を検索式を作成するための検索キーワードとして追加できる構成としたので、検索式作成にかかるユーザの負担を軽減することが可能となる。
【図面の簡単な説明】
【図1】本発明の検索式作成装置の原理構成を示したブロック図である。
【図2】本発明の検索式作成装置を適用した文書検索装置のハードウェア構成図である。
【図3】本発明の検索式作成装置を適用した文書検索装置にて文書を検索する手順を示したフローチャートである。
【図4】近傍語リストの表示画面例を示す図である。
【図5】追加する検索キーワードを指定し、同一文内の近傍語を検出した様子を示す図(その1)である。
【図6】追加する検索キーワードを指定し、同一文内の近傍語を検出した様子を示す図(その2)である。
【符号の説明】
1 文書データ保持手段
2 検索キーワード保持手段
3 近傍語抽出条件保持手段
4 近傍語抽出手段
5 近傍語リスト生成手段
6 近傍語リスト保持手段
7 キーワード追加手段
8 検索式作成手段
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a search formula creation apparatus and a search formula creation method , and more particularly to a search formula creation apparatus and a search formula creation method for creating a search formula for document search.
[0002]
[Prior art]
In addition to using information such as keywords and classification codes controlled based on a thesaurus, the method for searching document data as needed from a large amount of document data is also a full text search that directly references the full text of the document. There is a search (full text search) method. Compared to the former method, the latter method has fewer search leaks.
[0003]
However, in the full-text search method, a large amount of documents become hits instead of few search leaks, and it takes a lot of labor to check the contents one by one. For example, when searching for documents with content related to “regulation of import / export of hazardous substances”, if the search condition is “includes the words“ toxic substances ”,“ import / export ”, and“ regulation ””, Documents with scattered words may also become hits.
[0004]
Therefore, in order to narrow down information more accurately by this full-text search method, a method using text information in the vicinity of a search term (search keyword) designated by a user has been proposed.
[0005]
For example, Japanese Patent Laid-Open No. 4-293161 discloses a “document search method and apparatus” that outputs a search result that matches a search condition when a searcher specifies two search keywords and their positional relationship.
[0006]
In this method, when extracting the document regarding the “regulation of import / export of hazardous substances” as shown in the above example, the word “hazardous substances” and the word “import / export” are included, and the interval is two words. The search condition can be “within and includes the word“ import / export ”and the word“ regulation ”, and the interval is within two words”. Therefore, it is possible to prevent hits of documents in which search keywords are scattered.
[0007]
This method is effective when the search request is clear, such as “regulation of import / export of hazardous substances”. However, in some cases, for example, only the search keyword “regulation” is revealed in the user's search request.
[0008]
Thus, when the search request is not clear and the user designates one search keyword, an “interactive database search method and apparatus” that extracts and presents text before and after the location where the search keyword appears is presented to the user. It is shown in Japanese Patent Laid-Open No. 5-189487.
[0009]
In this method, for example, if the search keyword “regulation” is specified, texts such as “regulation of import / export of hazardous substances”, “regulation of ~”, and “regulation related to” are enumerated, and the user is required among them. Information can be obtained selectively.
[0010]
[Problems to be solved by the invention]
However, the above method has a problem that a large amount of text is presented and the burden on the user's selection work increases. One reason for this is that even if the meaning is almost the same, all texts with different wordings are presented separately. For example, “exhaust gas regulations” and “exhaust gas regulations” correspond to this.
[0011]
The present invention has been made in view of the above points, and provides a search formula creation device and a search formula that efficiently perform information presentation for narrowing down a search request for a document and reduce a user's burden for creating the search formula. The purpose is to provide a creation method .
[0012]
[Means for Solving the Problems]
In the present invention, in order to solve the above-mentioned problem, in a search expression creating apparatus for creating a search expression for document search, document data holding means for holding a plurality of document data, and a search keyword for holding an input search keyword A holding means and a neighborhood word extraction condition in which the number of forward words extracted from the front of the search keyword and the number of backward words extracted from the back among the neighborhood words located in the vicinity of the search keyword are held. Based on the neighborhood word extraction condition holding means, the search keyword and the neighborhood word extraction condition, from the plurality of document data, the neighborhood word positioned within the number of forward words counted from the search keyword, and neighborhood word extraction means from the search keyword counting backwards for extracting said neighboring word positioned in the rear word in number, neighborhood word Li from the vicinity word A neighborhood word list generating means for generating a neighborhood word, a neighborhood word list holding means for holding the neighborhood word list, and a selection of neighborhood words included in the displayed neighborhood word list and receiving the selected neighborhood words There is provided a search expression creating apparatus comprising: a keyword adding means for adding as a search keyword; and a search expression creating means for creating a search expression from the search keyword.
[0013]
When a search formula for document search is created by such a search formula creation device, the document data holding means holds a plurality of document data. Further, the search keyword holding means holds the search keyword to be input. The neighborhood word extraction condition holding means holds an inputted neighborhood word extraction condition. The neighborhood word extraction means extracts neighborhood words from a plurality of document data based on the search keyword and the neighborhood word extraction condition. The neighborhood word list generation means generates a neighborhood word list from the neighborhood words. The neighborhood word list holding unit holds the generated neighborhood word list. The keyword adding means accepts selection of a neighborhood word included in the displayed neighborhood word list, and adds the selected neighborhood word as a search keyword. Then, the search formula creating means creates a search formula from the search keyword.
[0014]
When a search expression for document search is created in this way, information for narrowing down the search request, that is, the neighborhood word extracted based on the search keyword and the neighborhood word extraction condition is efficiently presented. Can be added as a search keyword for creating a search expression, so that the burden on the user for creating the search expression can be reduced.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the principle configuration of a retrieval formula creation apparatus according to the present invention.
[0016]
The search expression creation apparatus of the present invention includes document data holding means 1, search keyword holding means 2, neighborhood word extraction condition holding means 3, neighborhood word extraction means 4, neighborhood word list generation means 5, and neighborhood word list. The holding unit 6, the keyword adding unit 7, and the search expression creating unit 8 are configured.
[0017]
Here, the document data holding means 1 holds a plurality of document data. The search keyword holding unit 2 holds the input search keyword. The neighborhood word extraction condition holding unit 3 holds an inputted neighborhood word extraction condition. The neighborhood word extraction unit 4 extracts neighborhood words from the document data based on the search keyword and the neighborhood word extraction condition. The neighborhood word list generation means 5 generates a neighborhood word list. The neighborhood word list holding unit 6 holds the generated neighborhood word list. The keyword adding means 7 adds a neighborhood word selected from the neighborhood word list as a search keyword. Then, the search formula creating means 8 creates a search formula from the search keyword.
[0018]
When a search formula for document search is created by such a search formula creation device, the search keyword input by the user is held in the search keyword holding means 2. That is, if the input search keyword is “aaaa”, the search keyword holding means 2 holds this. Similarly, the neighborhood word extraction condition input by the user is held in the neighborhood word extraction condition holding means 3.
[0019]
When the neighborhood word extraction unit 4 receives an instruction from the user, the neighborhood word extraction unit 4 extracts a neighborhood word from the document data held in the document data holding unit 1 based on the search keyword and the neighborhood word extraction condition. For example, when “aaaa, bbbb,...” And “aaaa, cccc,...” Are stored as document data including the search keyword “aaaa”, it is confirmed that the neighborhood word extraction condition is met. , “Bbbb” and “cccc” are extracted as neighborhood words.
[0020]
At this time, the ID or the like of the document data as the extraction source is associated with the extracted neighboring word, but the same neighboring word may be extracted from a plurality of document data, and the relationship between the neighboring word and the extracting source document data Is not necessarily 1: 1. Note that the neighborhood word in this specification refers to an independent word that exists in the vicinity of the search keyword (the range is determined by the neighborhood word extraction condition) and has meaning alone.
[0021]
The neighborhood word list generation means 5 generates a neighborhood word list with the extracted neighborhood words. That is, if the extracted neighborhood words are “bbbb” and “cccc”, they are listed. The neighborhood word list holding unit 6 holds the generated neighborhood word list. When the user who sees the displayed neighborhood word list selects an arbitrary neighborhood word in the list, the keyword adding means 7 accepts this selection and adds the selected neighborhood word as a search keyword to the search keyword holding means 2. To do. If the user selects the neighborhood word “bbbb”, this word is added as a new search keyword.
[0022]
Then, upon receiving a user instruction, the search formula creation unit 8 creates a search formula from the search keyword held in the search keyword holding unit 2. That is, if “aaa” and “bbbb” are held as search keywords at this time, a search expression is created from these words.
[0023]
When a search expression is created in this way, information for narrowing down the search request, that is, neighboring words are efficiently presented, and this neighboring word can be added as a search keyword for creating a search expression. It is possible to reduce the burden on the user.
[0024]
Here, the configuration and operation in the case where the retrieval formula creation apparatus of the present invention is implemented in combination with a document retrieval apparatus will be described.
FIG. 2 is a hardware configuration diagram of a document search apparatus to which the search expression creation apparatus of the present invention is applied.
[0025]
The document search apparatus 10 to which the search expression creation apparatus of the present invention is applied has a document information storage unit 20, receives input from the user via the input device 30, and outputs information to the user via the output device 40. Here, as the input device 30, a pointing device such as a mouse, a keyboard, or the like is applicable. As the output device 40, a monitor, a printer or the like can be applied.
[0026]
The document search apparatus 10 includes a text search processing unit 11, a search result storage unit 12, a neighborhood word extraction processing unit 13, a neighborhood word storage unit 14, a neighborhood word detection processing unit 15 in the same sentence, and a part of speech classification processing unit. 16.
[0027]
Here, the text search processing unit 11 is configured by a CPU or the like, and searches for document information from the document information storage unit 20 based on a search keyword or a search expression input via the input device 30. In the search, a known technique such as a full text search is applied.
[0028]
The search result storage unit 12 includes a memory or the like, and stores the search result of the text search processing unit 11. That is, the sentence number of the sentence that matches the search keyword and the search expression, the ID of the document including the sentence, and the like are stored in association with each other. The search result stored here is output via the output device 40.
[0029]
The neighborhood word extraction processing unit 13 is composed of a CPU or the like, and extracts neighborhood words from the search result document data stored in the search result storage unit 12 based on the neighborhood word extraction conditions input via the input device 30. To do. In order to extract a neighborhood word, a morphological analysis is performed on a sentence that matches a search keyword or a search expression, and a word that meets the neighborhood word extraction condition may be detected.
[0030]
The neighborhood word extraction condition is input in a format such as “[m] search keyword [n]”. This indicates that m independent words that have a meaning independently and n independent words that have a meaning alone and that are located behind the search keyword are extracted as neighborhood words. . When “search keyword 1 * [m] search keyword 2 [n]” (* is a logical product) is input, a document including both search keyword 1 and search keyword 2 is targeted as “[ m] Neighboring words satisfying the search keyword 2 [n] ”may be extracted.
[0031]
The morphological analysis performed at this time is a technique widely known as a basic technique of natural language processing, and is detailed in “Basic techniques of natural language processing” (written by Hirogo Nomura, The Institute of Electronics, Information and Communication Engineers, 1988) and the like.
[0032]
The neighborhood word storage unit 14 includes a memory or the like, and stores the neighborhood words extracted by the neighborhood word extraction processing unit 13. The neighborhood word is stored in association with the sentence number of the original sentence from which the neighborhood word is extracted, the document ID, and the like. Further, the neighborhood words stored here are input to the part of speech classification processing unit 16.
[0033]
The same sentence neighboring word detection processing unit 15 includes the added search keyword when the user selects an arbitrary neighboring word from the list of neighboring words output via the output device 40 and adds the search keyword. A sentence is searched in the neighborhood word storage unit 14, and a neighborhood word included in the sentence is detected. The detected neighborhood word is input to the part-of-speech classification processing unit 16.
[0034]
The part-of-speech classification processing unit 16 classifies the input neighborhood words into parts of speech, that is, nouns, verbs, etc., and generates a neighborhood word list. The generated neighborhood word list is output via the output device 40.
[0035]
Next, a procedure for performing a document search with the document search apparatus 10 will be described.
FIG. 3 is a flowchart showing a procedure for searching for a document by a document search apparatus to which the search expression creation apparatus of the present invention is applied. Hereinafter, it demonstrates along a step number.
[S1] The text search processing unit 11 receives a search keyword input via the input device 30.
[S2] The text search processing unit 11 searches the document information storage unit 20 with the received search keyword, and uses the sentence number of the sentence including the search keyword and the ID of the document data including the sentence as a search result. The data is stored in the storage unit 12.
[S3] The neighborhood word extraction processing unit 13 receives a neighborhood word extraction condition input via the input device 30.
[S4] The neighborhood word extraction processing unit 13 selects one sentence including the input search keyword or search expression, and morphologically analyzes the sentence. In this morphological analysis, if nouns appear continuously, that part is treated as a single compound word. Thus, for example, when the word “morpheme” and the word “analysis” appear in succession, the word “morpheme analysis” appears.
[S5] The neighborhood word extraction processing unit 13 extracts neighborhood words from the morphological-analyzed sentence based on the search keyword and the neighborhood word extraction condition, and determines the sentence number of the sentence and the ID of the document including the sentence It is stored in the neighborhood word storage unit 14 in association with the word.
[S6] The neighborhood word extraction processing unit 13 determines whether there is document data in the search result storage unit 12 that has not undergone the processing of steps S4 to S5. If there is unprocessed document data, the process proceeds to step S4 again to select an unprocessed sentence. If there is no unprocessed document data, the process proceeds to step S7.
[S7] The neighborhood word storage unit 14 inputs all the stored neighborhood words to the part of speech classification processing unit 16. The part-of-speech classification processing unit 16 classifies the neighborhood words and generates a neighborhood word list.
[S8] The part of speech classification processing unit 16 outputs the generated neighborhood word list via the output device 40.
[S9] The neighborhood word detection processing unit 15 in the same sentence determines whether or not a search keyword to be added has been selected from the user via the input device 30. Here, one of the neighborhood words included in the neighborhood word list displayed in step S8 is selected. If the search keyword to be added is selected, the process proceeds to step S10. If no additional search keyword is selected, the process proceeds to step S11.
[S10] Since there are a plurality of search keywords, a search expression is created. Details of this will be described later. After the search expression is created, the process proceeds again to step S4.
[S11] If there is a search expression created by the processes so far, the search expression is input to the text search processing unit 11. The text search processing unit 11 searches the document information storage unit 20 based on the search formula. The search result is stored in the search result storage unit 12. Note that this processing may be omitted when a search expression is not created.
[S12] The search result storage unit 12 outputs the stored search results via the output device 40.
[0036]
Here, the creation of the search expression performed in step S10 will be described. When a display device such as a monitor is applied as the output device 40, a list of neighboring words is displayed on this display device at this time.
[0037]
FIG. 4 is a diagram illustrating a display screen example of the neighborhood word list.
On the display screen 50, a neighborhood word list 51, a start button 56, and an end button 57 are displayed.
[0038]
The user selects the start button 56 with a pointing device such as a mouse when adding a search keyword and detecting a nearby word in the same sentence. Further, when there is no need to add a search keyword, the end button 57 is selected.
[0039]
The neighborhood word list 51 includes a neighborhood word extraction condition display field 52, a neighborhood word <noun> display field 53, a neighborhood word <verb> display field 54, and a neighborhood word <other> display field 55. . The neighborhood word <noun> display field 53 and the neighborhood word <verb> display field 54 are each accompanied by a scroll bar.
[0040]
In the neighborhood word extraction condition display field 52, the inputted neighborhood word extraction condition is displayed. In the neighborhood word <noun> display field 53, nouns are displayed among the extracted neighborhood words. Of the extracted neighborhood words, verbs are displayed in the neighborhood word <verb> display field 54. In the neighborhood word <other> display field 54, the extracted neighborhood words that are neither noun nor verb are displayed.
[0041]
Here, an example is shown in which a document search is performed with the search keyword as “restriction” and the neighborhood word extraction condition as “[2] restriction”. This is equivalent to the neighborhood word extraction condition “[2] restriction [0]”.
[0042]
When the search keyword “restriction” is input via the input device 30 shown in FIG. 2, the text search processing unit 11 sets the search keyword “restriction” for the document data stored in the document information storage unit 20. Based on the document search. This search result is stored in the search result storage unit 12.
[0043]
The neighborhood word extraction processing unit 13 that has received the neighborhood word extraction condition “[2] restriction” via the input device 30 performs morphological analysis on the document data of the search result stored in the search result storage unit 12. Each time the search keyword “regulation” appears, two words that appear in front of the search keyword “regulation” and have meaning alone are extracted and set as neighborhood words. The extracted neighborhood words are stored in the neighborhood word storage unit 14 and are classified by the part of speech classification processing unit 16 to generate a neighborhood word list 51.
[0044]
Thus, by classifying the extracted neighborhood words by part of speech, the user can easily find an appropriate word when adding a search keyword.
Although the case where only the word that appears in front of the search keyword is used as the neighborhood word has been described here, the word that appears behind the search keyword may be extracted as the neighborhood word depending on the neighborhood word extraction condition. In that case, the neighborhood word that appears in the front and the neighborhood word that appears in the back may be displayed separately.
[0045]
Although the neighborhood words are displayed separately for each part of speech here, they can be displayed without being divided.
Next, a case where the user adds a search keyword will be described.
[0046]
If the user is interested in “regulations on transfer, transaction, import / export”, the user designates the neighborhood words “transfer”, “transaction”, “import / export” with a pointing device such as a mouse, and then selects the start button 56. To do.
[0047]
FIG. 5 is a diagram illustrating a state in which a search keyword to be added is designated and a nearby word in the same sentence is detected.
A neighborhood word list 51a is displayed on the display screen 50a.
[0048]
When the neighborhood word storage unit 14 previously extracts neighborhood words based on the neighborhood word extraction condition “[2] restriction”, each neighborhood word is associated with the ID of the original document from which the neighborhood word is extracted. Since it is stored, when a search keyword is added, the neighborhood word detection processing unit 15 in the same sentence detects the neighborhood word existing in the same sentence from the neighborhood word storage unit 14.
[0049]
Therefore, if "transfer", "transaction", and "import / export" are additionally specified as search keywords, documents that contain the word "regulation" and also contain the words "transfer" or "transaction" or "import / export". , Two words that appear in front of the word “regulation” and have meaning alone are detected as neighboring words and displayed in the neighboring word list 51a. The number of neighboring words presented in the neighboring word list 51 a is smaller than the number of neighboring words presented in the neighboring word list 51.
[0050]
If the user is further interested in the “Rules for Transfer, Trading, Import / Export of Wildlife and Rare Wild Animals”, the user specifies the neighborhood words “wildlife” and “rare wildlife” and then starts. Button 56 is selected.
[0051]
FIG. 6 is a diagram illustrating a state in which a search keyword to be added is designated and a nearby word in the same sentence is detected.
A neighborhood word list 51b is displayed on the display screen 50b.
[0052]
If "wildlife" or "rare wildlife" is additionally specified as a search keyword, it will contain the word "regulation", the word "transfer" or "transaction" or "import / export", and "wildlife" Alternatively, from a document including the word “rare wildlife”, two words that appear before the word “regulation” and have meaning alone are detected as neighboring words and displayed in the neighboring word list 51b. The number of neighboring words presented in the neighboring word list 51b is further smaller than the number of neighboring words presented in the neighboring word list 51a.
[0053]
Therefore, at this time, the document information storage unit 20 stores the search expression “regulation * (transfer + transaction + import / export) * (wildlife + rare wildlife)” (* indicates a logical product and + indicates a logical sum). It can be seen that documents satisfying the above are stored. When the user determines that the number of neighboring words has sufficiently decreased in this way, the user may create a search expression from the displayed neighboring word extraction conditions.
[0054]
This search formula deletes [m] and [n] of the character string displayed in the neighborhood word extraction condition display fields 52, 52a, 52b..., “:” Is changed to “*”, “,” Can be created by converting the symbol to “+”, the CPU or the like may process it, or the user may input it.
[0055]
As described above, in the document search apparatus 10 to which the search expression creation apparatus of the present invention is applied, the neighborhood words are extracted and displayed for the search keyword, and the neighborhood words that the user is interested in can be narrowed down and specified one after another. It is possible to create an appropriate search expression without requiring complicated operations.
[0056]
In addition, as described above, neighboring words can be selected step by step, so that the search keywords to be input can be narrowed down from those having a broad concept to those having a narrow concept sequentially. Therefore, even when the user himself does not grasp the search intention, the required document can be searched.
[0057]
In the example shown in FIG. 4 to FIG. 6, the neighborhood word “import / export” disappears when moving from FIG. 5 to FIG. 6. This indicates that there is no document in which the word “import / export” is compatible with the words “wildlife” or “rare wildlife” as a neighborhood word. Therefore, the search formula in this case may be “regulation * (transfer + transaction) * (wildlife + rare wildlife)”.
[0058]
【The invention's effect】
As described above, the search expression creating apparatus of the present invention efficiently presents information for narrowing a search request, that is, a neighborhood word extracted based on a search keyword and a neighborhood word extraction condition, and searches for this neighborhood word. Since it can be added as a search keyword for creating a formula, it is possible to reduce the burden on the user for creating the search formula.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the principle configuration of a retrieval formula creation apparatus of the present invention.
FIG. 2 is a hardware configuration diagram of a document search apparatus to which the search expression creation apparatus of the present invention is applied.
FIG. 3 is a flowchart showing a procedure for searching for a document by a document search apparatus to which the search expression creation apparatus of the present invention is applied.
FIG. 4 is a diagram illustrating a display screen example of a neighborhood word list.
FIG. 5 is a diagram (No. 1) showing a state in which a search keyword to be added is designated and a neighborhood word in the same sentence is detected.
FIG. 6 is a diagram (part 2) illustrating a state in which a search keyword to be added is specified and a nearby word in the same sentence is detected.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Document data holding means 2 Search keyword holding means 3 Neighborhood word extraction condition holding means 4 Neighborhood word extraction means 5 Neighborhood word list generation means 6 Neighborhood word list holding means 7 Keyword addition means 8 Search expression creation means

Claims (4)

文書検索のための検索式を作成する検索式作成装置において、
複数の文書データを保持する文書データ保持手段と、
入力される検索キーワードを保持する検索キーワード保持手段と、
前記検索キーワードの近傍に位置する近傍語のうち、前記検索キーワードの前方から抽出する前方単語数と後方から抽出する後方単語数とが個別に指定された近傍語抽出条件を保持する近傍語抽出条件保持手段と、
前記検索キーワード及び前記近傍語抽出条件に基づいて、前記複数の文書データから、前記検索キーワードから前方に数えて前記前方単語数内に位置する前記近傍語と、前記検索キーワードから後方に数えて前記後方単語数内に位置する前記近傍語とを抽出する近傍語抽出手段と、
前記近傍語から近傍語リストを生成する近傍語リスト生成手段と、
前記近傍語リストを保持する近傍語リスト保持手段と、
表示された前記近傍語リストに含まれた近傍語への選択を受け付けて、選択された近傍語を前記検索キーワードとして追加するキーワード追加手段と、
前記検索キーワードから検索式を作成する検索式作成手段と、
を有することを特徴とする検索式作成装置。
In a search expression creation device for creating a search expression for document search,
Document data holding means for holding a plurality of document data;
Search keyword holding means for holding the input search keyword,
Among the neighborhood words located in the vicinity of the search keyword, the neighborhood word extraction condition that holds the neighborhood word extraction condition in which the number of forward words extracted from the front of the search keyword and the number of backward words extracted from the back are individually specified Holding means;
Based on the search keyword and the neighborhood word extraction condition, from the plurality of document data, the neighborhood word positioned within the number of forward words counted forward from the search keyword, and counted backward from the search keyword Neighboring word extraction means for extracting the neighboring words located within the number of backward words ;
Neighborhood word list generating means for generating a neighborhood word list from the neighborhood words;
Neighborhood word list holding means for holding the neighborhood word list;
A keyword adding means for accepting selection of a neighboring word included in the displayed neighboring word list and adding the selected neighboring word as the search keyword;
Search expression creating means for creating a search expression from the search keyword;
A search expression creation device characterized by comprising:
複数の文書データから文書を検索する文書検索装置において、In a document search device that searches a document from a plurality of document data,
前記複数の文書データを保持する文書データ保持手段と、  Document data holding means for holding the plurality of document data;
入力される検索キーワードを保持する検索キーワード保持手段と、  Search keyword holding means for holding the input search keyword,
前記検索キーワードの近傍に位置する近傍語のうち、前記検索キーワードの前方から抽出する前方単語数と後方から抽出する後方単語数とが個別に指定された近傍語抽出条件を保持する近傍語抽出条件保持手段と、  Among neighboring words located in the vicinity of the search keyword, a neighboring word extraction condition that holds a neighboring word extraction condition in which the number of forward words extracted from the front of the search keyword and the number of backward words extracted from the back are individually specified. Holding means;
前記検索キーワード及び前記近傍語抽出条件に基づいて、前記複数の文書データから、前記検索キーワードから前方に数えて前記前方単語数内に位置する前記近傍語と、前記検索キーワードから後方に数えて前記後方単語数内に位置する前記近傍語とを抽出する近傍語抽出手段と、  Based on the search keyword and the neighborhood word extraction condition, from the plurality of document data, the neighborhood word positioned within the number of forward words counted forward from the search keyword, and counted backward from the search keyword Neighboring word extraction means for extracting the neighboring words located within the number of backward words;
前記近傍語から近傍語リストを生成する近傍語リスト生成手段と、  Neighborhood word list generating means for generating a neighborhood word list from the neighborhood words;
前記近傍語リストを保持する近傍語リスト保持手段と、  Neighborhood word list holding means for holding the neighborhood word list;
表示された前記近傍語リストに含まれた近傍語への選択を受け付けて、選択された近傍語を前記検索キーワードとして追加するキーワード追加手段と、  A keyword adding means for accepting selection of a neighborhood word included in the displayed neighborhood word list and adding the selected neighborhood word as the search keyword;
前記検索キーワードから検索式を作成する検索式作成手段と、  Search expression creating means for creating a search expression from the search keyword;
前記検索式にて前記複数の文書データから文書を検索する検索手段と、  Search means for searching for a document from the plurality of document data using the search formula;
を有することを特徴とする文書検索装置。  A document search apparatus characterized by comprising:
文書検索のための検索式を作成する検索式作成方法において、In a search expression creation method for creating a search expression for document search,
文書データ保持手段が、複数の文書データを保持するステップと、  A document data holding unit holding a plurality of document data;
検索キーワード保持手段が、入力される検索キーワードを保持するステップと、  A search keyword holding means for holding the input search keyword;
近傍語抽出条件保持手段が、前記検索キーワードの近傍に位置する近傍語のうち、前記検索キーワードの前方から抽出する前方単語数と後方から抽出する後方単語数とが個別に指定された近傍語抽出条件を保持するステップと、  The neighborhood word extraction condition holding means is a neighborhood word extraction in which the number of forward words extracted from the front of the search keyword and the number of backward words extracted from the back are individually specified from the neighborhood words located in the vicinity of the search keyword Maintaining a condition;
近傍語抽出手段が、前記検索キーワード及び前記近傍語抽出条件に基づいて、前記複数の文書データから、前記検索キーワードから前方に数えて前記前方単語数内に位置する前記近傍語と、前記検索キーワードから後方に数えて前記後方単語数内に位置する前記近傍語とを抽出するステップと、  Based on the search keyword and the neighborhood word extraction condition, a neighborhood word extraction unit counts the neighborhood words that are located within the number of forward words from the plurality of document data, counting forward from the search keyword, and the search keyword Extracting the neighborhood words located in the backward word count counting backward from
近傍語リスト生成手段が、前記近傍語から近傍語リストを生成するステップと、  A neighborhood word list generating means generating a neighborhood word list from the neighborhood words;
近傍語リスト保持手段が、前記近傍語リストを保持するステップと、  A neighborhood word list holding means holding the neighborhood word list;
キーワード追加手段が、表示された前記近傍語リストに含まれた近傍語への選択を受け付けて、選択された近傍語を前記検索キーワードとして追加するステップと、  A keyword adding unit that accepts selection of a nearby word included in the displayed neighboring word list and adds the selected neighboring word as the search keyword;
検索式作成手段が、前記検索キーワードから検索式を作成するステップと、  A search formula creating means creating a search formula from the search keyword;
を有することを特徴とする検索式作成方法。  A search expression creating method characterized by comprising:
複数の文書データから文書を検索する文書検索方法において、In a document retrieval method for retrieving a document from a plurality of document data,
文書データ保持手段が、前記複数の文書データを保持するステップと、  Document data holding means holding the plurality of document data;
検索キーワード保持手段が、入力される検索キーワードを保持するステップと、  A search keyword holding means for holding the input search keyword;
近傍語抽出条件保持手段が、前記検索キーワードの近傍に位置する近傍語のうち、前記検索キーワードの前方から抽出する前方単語数と後方から抽出する後方単語数とが個別に指定された近傍語抽出条件を保持するステップと、  The neighborhood word extraction condition holding means is a neighborhood word extraction in which the number of forward words extracted from the front of the search keyword and the number of backward words extracted from the back are individually specified from the neighborhood words located in the vicinity of the search keyword Maintaining a condition;
近傍語抽出手段が、前記検索キーワード及び前記近傍語抽出条件に基づいて、前記複数の文書データから、前記検索キーワードから前方に数えて前記前方単語数内に位置する前記近傍語と、前記検索キーワードから後方に数えて前記後方単語数内に位置する前記近傍語とを抽出するステップと、  Based on the search keyword and the neighborhood word extraction condition, a neighborhood word extraction unit counts the neighborhood words that are located within the number of forward words from the plurality of document data, counting forward from the search keyword, and the search keyword Extracting the neighborhood words located in the backward word count counting backward from
近傍語リスト生成手段が、前記近傍語から近傍語リストを生成するステップと、  A neighborhood word list generating means generating a neighborhood word list from the neighborhood words;
近傍語リスト保持手段が、前記近傍語リストを保持するステップと、  A neighborhood word list holding unit holding the neighborhood word list;
キーワード追加手段が、表示された前記近傍語リストに含まれた近傍語への選択を受け付けて、選択された近傍語を前記検索キーワードとして追加するステップと、  A keyword adding unit that accepts selection of a nearby word included in the displayed neighboring word list and adds the selected neighboring word as the search keyword;
検索式作成手段が、前記検索キーワードから検索式を作成するステップと、  A search expression creating means creating a search expression from the search keyword;
検索手段が、前記検索式にて前記文書データから文書を検索するステップと、  A search means for searching for a document from the document data using the search formula;
を有することを特徴とする文書検索方法。  A document search method characterized by comprising:
JP14625997A 1997-06-04 1997-06-04 Search formula creation device and search formula creation method Expired - Fee Related JP3627446B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14625997A JP3627446B2 (en) 1997-06-04 1997-06-04 Search formula creation device and search formula creation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14625997A JP3627446B2 (en) 1997-06-04 1997-06-04 Search formula creation device and search formula creation method

Publications (2)

Publication Number Publication Date
JPH10334115A JPH10334115A (en) 1998-12-18
JP3627446B2 true JP3627446B2 (en) 2005-03-09

Family

ID=15403703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14625997A Expired - Fee Related JP3627446B2 (en) 1997-06-04 1997-06-04 Search formula creation device and search formula creation method

Country Status (1)

Country Link
JP (1) JP3627446B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1176432C (en) 1999-07-28 2004-11-17 国际商业机器公司 Method and system for providing national language inquiry service
JP4734048B2 (en) * 2005-07-05 2011-07-27 株式会社東芝 Information search device, information search method, and information search program
JP5232449B2 (en) 2007-11-21 2013-07-10 Kddi株式会社 Information retrieval apparatus and computer program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
JPH08212228A (en) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd Summarized sentence generation device and summarized voice generation device
JPH09101969A (en) * 1995-10-06 1997-04-15 Nippon Telegr & Teleph Corp <Ntt> Method and device for retrieving all sentences by using suitable feedback

Also Published As

Publication number Publication date
JPH10334115A (en) 1998-12-18

Similar Documents

Publication Publication Date Title
EP0530993B1 (en) An iterative technique for phrase query formation and an information retrieval system employing same
US6876998B2 (en) Method for cross-linguistic document retrieval
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US6594658B2 (en) Method and apparatus for generating query responses in a computer-based document retrieval system
US20040029085A1 (en) Summarisation representation apparatus
US20180004838A1 (en) System and method for language sensitive contextual searching
JP2002197104A (en) Device and method for data retrieval processing, and recording medium recording data retrieval processing program
JP3584848B2 (en) Document processing device, item search device, and item search method
Leuski et al. Cross-lingual c* st* rd: English access to hindi information
Magnini et al. Mining Knowledge from Repeated Co-Occurrences: DIOGENE at TREC 2002.
JP3594701B2 (en) Key sentence extraction device
Pedersen et al. Snippet search: A single phrase approach to text access
JP3627446B2 (en) Search formula creation device and search formula creation method
Kim et al. Korean text summarization using an aggregate similarity
JPH0944523A (en) Relative word display device
JP4378106B2 (en) Document search apparatus, document search method and program
JP2529418B2 (en) Document search device
JP2005234772A (en) Documentation management system and method
Kermani et al. Extractive persian summarizer for news websites
JP2005228033A (en) Document search device and method
JP3578618B2 (en) Document splitting device
JP2001142897A (en) Device, method and system for retrieving document and computer-readable recording medium having program for executing the method recorded thereon
Antoniadis et al. A french text recognition model for information retrieval system
JPH09198400A (en) Information retrieval device
JPH09138801A (en) Character string extracting method and its system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040712

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040929

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees