JPH11203312A - キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体 - Google Patents
キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体Info
- Publication number
- JPH11203312A JPH11203312A JP10005499A JP549998A JPH11203312A JP H11203312 A JPH11203312 A JP H11203312A JP 10005499 A JP10005499 A JP 10005499A JP 549998 A JP549998 A JP 549998A JP H11203312 A JPH11203312 A JP H11203312A
- Authority
- JP
- Japan
- Prior art keywords
- word
- compound
- keyword
- search
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
るようにする。 【解決手段】 単語格納手段1には単語が格納されてい
る。複合語格納手段2には、キーワードとして用いられ
る複合語の集合が、構成要素である単語が単語格納手段
1内における位置情報を示す数値に置き換えられた状態
で格納されている。キーワード変換手段3は、複合語の
検索キーワードが入力されると、複合語を複数の単語か
らなる単語リストに変換し、複合語検索手段5へ出力す
る。複合語検索手段5は、キーワード変換手段3の出力
した単語リストに含まれる各単語を単語格納手段1にお
ける位置情報に変換する。そして、位置情報に数値化さ
れた単語リストに基づいて、数値化されて複合語格納手
段2に格納されている複合語を検索する。このように、
複合語を構成している各単語を位置情報に変換して格納
したことにより、複合語を少ない記憶容量で格納するこ
とができる。
Description
ードの中から特定のキーワードを検索するキーワード検
索装置、複合語を含むキーワードを用いて高い適合率で
文書を検索する文書検索装置、複合語を含むキーワード
の中から特定のキーワードを検索する処理をコンピュー
タに行わせるためのキーワード検索プログラムを記録し
たコンピュータ読み取り可能な記録媒体、及び複合語を
含むキーワードを用いて高い適合率で文書を検索する処
理をコンピュータに行わせるための文書検索プログラム
を記録したコンピュータ読み取り可能な記録媒体に関
し、特に複合語、または複合語を含むキーワードに対応
している文書を、高速かつ少ない容量のインデックスか
ら検索することができる文書検索システムに関する。
対応する文書集合へのポインタをインデックスに登録し
ておき、そのインデックスを用いて高速に検索する手法
が利用されている。文書の索引となるキーワードを抽出
するとき、テキストに形態素解析などの自然言語処理を
施すことによって、大量の文書から高速に、重要と予想
される語をキーワードとして抽出することができる。こ
の方法を第1の従来技術とよぶことにする。
術として、特開平4−293161号公報に開示された
発明がある。この発明は、検索時に複数の検索語と、そ
れらの位置関係を入力とし、文書中において検索語が指
定された位置関係にある文書を検索する。これにより、
複合語の検索が可能となる。すなわち、文書中の位置が
連続している複数の単語を複合語とみなすことで、適合
率を向上させることができる。この技術を第2の従来技
術とよぶこととする。
術には、それぞれ以下のような問題点があった。第1の
従来技術では、文書からキーワードを抽出するときに自
然言語処理に用いた辞書に無い語はキーワードとして抽
出されないという問題があった。そのため、名詞と名詞
が結合して構成される複合語が、辞書にないためにキー
ワードとしてインデックスに登録されず、直接その複合
語を用いて検索できない。
い、検索者が意図しているキーワードを直接入力して検
索できないことによって、検索の適合率(検出された情
報の中でユーザの検索意図に合致した情報の割合)が下
がるという問題もあった。例えば、「デジタル図書館」
という複合語がインデックスに登録されていない場合、
「デジタル」と「図書館」という2語のAND検索によ
って「デジタル図書館」という語を含んだ文書を検索す
ることはできる。しかし、「デジタル」と「図書館」が
離れて出現する文書も多く得られてしまい、結果として
適合率が下がってしまう。なお、考えられる複合語をイ
ンデックスに登録することで検索結果の適合率を上げる
ことができるが、その場合、単語のみをインデックスに
登録する場合に比べて単語を格納しているインデックス
の容量が遥かに大きくなってしまう。
書中に出現する語を、各文書内の位置情報とともに保持
した情報を準備する必要がある。この場合、同じ語であ
っても複数の場所に出現すれば全ての位置情報が必要と
なり、情報量が膨大となる。また、第2の従来技術で
は、検索の際に複数の語の並びを確認する必要があり、
処理内容が複雑化する。その結果、高速に検索するため
には特殊なハードウェアが必要となり、高コストの装置
になってしまう。
のであり、少ないインデックス容量で複合語を検索でき
るキーワード検索装置を提供することを目的とする。ま
た、本発明の他の目的は、少ないインデックス容量で、
複合語を検索キーワードとした文書検索を行うことがで
きる文書検索装置を提供することである。
ックス容量で複合語を検索できるようなキーワード検索
プログラムを記録したコンピュータ読み取り可能な記録
媒体を提供することである。
ックス容量で、複合語を検索キーワードとした文書検索
を行うことができるような文書検索プログラムを記録し
たコンピュータ読み取り可能な記録媒体を提供すること
である。
決するために、複合語の集合の中から、検索条件に合致
した複合語を検索するキーワード検索装置において、複
合語を構成している単語を格納している単語格納手段
と、複合語を構成している単語を、前記単語格納手段内
で一意に識別可能な数値に置き換えて、各複合語を格納
している複合語格納手段と、複合語による検索キーワー
ドが入力されると、前記検索キーワードを複数の単語に
変換し、単語リストとして出力するキーワード変換手段
と、前記キーワード変換手段の出力した単語リストに含
まれる単語を前記単語格納手段から検索することによ
り、各単語を一意に識別可能な数値に変換し、数値に変
換された単語リストにより、前記複合語格納手段から複
合語を検索する複合語検索手段と、を有することを特徴
とするキーワード検索装置が提供される。
検索キーワードとして複合語を入力すると、複合語がキ
ーワード変換手段により複数の単語に変換され、単語リ
ストとして出力される。すると、複合語検索手段によ
り、単語リストが数値化され、その数値化された単語リ
ストにより、複合語格納手段内に数値化された格納され
ている複合語の検索が行われる。
合語を含む文書を検索する文書検索装置において、複合
語を構成している単語が格納されている単語格納手段
と、複合語を構成している単語が、前記単語格納手段に
格納されている単語を一意に識別可能な数値に置き換え
られ、各複合語を含む文書の集合を示す文書集合ポイン
タと各複合語とが対応づけて格納されている複合語格納
手段と、複合語による検索キーワードが入力されると、
前記検索キーワードを複数の単語に変換し、単語リスト
として出力するキーワード変換手段と、前記キーワード
変換手段の出力した単語リストに含まれる単語を前記単
語格納手段から検索することにより各単語を一意に識別
可能な数値に変換し、数値に変換された単語リストによ
り、前記複合語格納手段から複合語を検索し、該当する
複合語に対応づけられた文書集合ポインタを出力する複
合語検索手段と、を有することを特徴とする文書検索装
置が提供される。
ーワードとして複合語を入力すると、複合語がキーワー
ド変換手段により複数の単語に変換され、単語リストと
して出力される。すると、複合語検索手段により、単語
リストが数値化され、その数値化された単語リストによ
り、複合語格納手段内に数値化された格納されている複
合語の検索が行われる。そして、該当する複合語に対応
づけられた文書集合ポインタが出力される。
合致した複合語を検索するためのキーワード検索プログ
ラムを記録したコンピュータ読み取り可能な記録媒体に
おいて、複合語を構成している単語を格納している単語
格納手段、複合語を構成している単語を、前記単語格納
手段内で一意に識別可能な数値に置き換えて、各複合語
を格納している複合語格納手段、複合語による検索キー
ワードが入力されると、前記検索キーワードを複数の単
語に変換し、単語リストとして出力するキーワード変換
手段、前記キーワード変換手段の出力した単語リストに
含まれる単語を前記単語格納手段から検索することによ
り、各単語を一意に識別可能な数値に変換し、数値に変
換された単語リストにより、前記複合語格納手段から複
合語を検索する複合語検索手段、としてコンピュータを
機能させることを特徴とするキーワード検索プログラム
を記録したコンピュータ読み取り可能な記録媒体が提供
される。
ド検索プログラムをコンピュータに実行させれば、上記
本発明のキーワード検索装置の構成をコンピュータによ
って構築することができる。
合語を含む文書を検索するための文書検索プログラムを
記録したコンピュータ読み取り可能な記録媒体におい
て、複合語を構成している単語が格納されている単語格
納手段、複合語を構成している単語が、前記単語格納手
段に格納されている単語を一意に識別可能な数値に置き
換えられ、各複合語を含む文書の集合を示す文書集合ポ
インタと各複合語とが対応づけて格納されている複合語
格納手段、複合語による検索キーワードが入力される
と、前記検索キーワードを複数の単語に変換し、単語リ
ストとして出力するキーワード変換手段、前記キーワー
ド変換手段の出力した単語リストに含まれる単語を前記
単語格納手段から検索することにより各単語を一意に識
別可能な数値に変換し、数値に変換された単語リストに
より、前記複合語格納手段から複合語を検索し、該当す
る複合語に対応づけられた文書集合ポインタを出力する
複合語検索手段、としてコンピュータを機能させること
を特徴とする文書検索プログラムを記録したコンピュー
タ読み取り可能な記録媒体が提供される。
プログラムをコンピュータに実行させれば、上記本発明
の文書検索装置の構成をコンピュータによって構築する
ことができる。
を参照して説明する。図1は、本発明の原理構成図であ
る。本発明のキーワード検索装置は、以下の要素で構成
されている。
いられる単語と、キーワードとして用いられる複合語を
構成している単語とが格納されている。複合語格納手段
2には、キーワードとして用いられる複合語の集合が、
構成要素である単語が単語格納手段1内における位置情
報を示す数値に置き換えられた状態で格納されている。
キーワード変換手段3は、1つの単語の検索キーワード
が入力されると、単語をそのまま単語検索手段4へ出力
する。また、複合語の検索キーワードが入力されると、
複合語を複数の単語からなる単語リストに変換し、複合
語検索手段5へ出力する。単語検索手段4は、キーワー
ド変換手段3が出力した単語に該当する単語を、単語格
納手段1から検索する。また、複合語検索手段5は、キ
ーワード変換手段3の出力した単語リストに含まれる各
単語を単語格納手段1における位置情報に変換する。そ
して、位置情報に数値化された単語リストに基づいて、
数値化されて複合語格納手段2に格納されている複合語
を検索する。
索キーワードを入力すれば、単語検索手段4により、そ
の単語に該当する単語が検索される。また、複合語を検
索キーワードとして入力すれば、キーワード変換手段3
により、複合語が単語リストに変換される。次に、複合
語検索手段5により、単語リスト内の各単語が、単語格
納手段1内における位置情報に数値化され、数値化され
た単語リストによって、数値化されて複合語格納手段2
に格納されている複合語が検索される。
能となり、高い適合率を得ることができる。しかも、複
合語を構成している各単語を、その単語が単語格納手段
1に占める位置情報に変換して複合語格納手段2に格納
したことにより、複合語を文字列として表現するよりも
少ない記憶容量で格納することができる。また、複合語
を検索するとき、複合語を構成している単語の並びを確
認する必要がないため、高速な処理が可能である。
明する。図2は、本発明の第1の実施の形態を示すブロ
ック図である。これは、予め作成されているキーワード
集合11の中に、ユーザが入力した検索キーワードが含
まれるか否かについての検索を行うキーワード検索装置
の構成である。このキーワード検索装置は、以下のよう
な要素で構成される。
ード集合11に形態素解析処理を施し、各キーワードを
単語もしくは単語のリストに変換する。具体的には、キ
ーワードが1つの単語で形成されていれば、その単語を
取り出し、キーワードが複合語で形成されていれば、複
合語を複数の単語に分割し、それらの単語のリスト(単
語リスト)に変換する。単語トライ作成部13は、単語
分割部12の生成した単語、及び単語リストから単語ト
ライを生成する。単語格納部14は、単語トライ作成部
13が生成した単語トライを格納する。数値変換部15
は、単語リストの各単語を、単語格納部14内の単語ト
ライにおける、その単語を表すノードのアドレス値に置
き換える。複合語トライ作成部16は、数値変換部15
により変換されたアドレス値リストから複合語トライを
作成する。複合語格納部17は、複合語トライ作成部1
6の作成した複合語トライを格納する。
キーワードを、形態素解析処理することによって、単語
または単語リストに変換する。単語または単語リストへ
の変換は、単語分割部12が行った処理と同じである。
単語検索部19は、キーワード変換部18で検索キーワ
ードが単語に変換されたとき、この単語を単語格納部1
4の単語トライから検索する。複合語検索部20は、キ
ーワード変換部18で検索キーワードが単語リストに変
換されたとき、この単語リストの各単語から単語格納部
14の単語トライをたどり、その単語トライにおける各
単語を表すノードのアドレス値を求める。そして、得ら
れたアドレス値リストを複合語格納部17の複合語トラ
イから検索する。
ける検索動作について、具体例を用いて説明する。図3
は、検索対象となるキーワード集合の例を示す図であ
る。この例では、「文書」、「文書構造」、「文書構造
変換装置」、「変換」、及び「変換規則」の5つのキー
ワードがある。このキーワード集合11が単語分割部1
2に渡されると、単語分割部12が、形態素解析処理を
行い、各キーワードを単語もしくは単語リストに変換す
る。単語リストに変換されるのは、複数の単語で構成さ
れたキーワードである。
である。図の変換されたキーワード集合11aでは、単
語の区切れ位置をスラッシュ記号" /" で示している。
この例では、「文書構造」は「文書/構造」の単語リス
トに変換されている。「文書構造変換装置」は「文書/
構造/変換/装置」の単語リストに変換されている。
「変換規則」は「変換/規則」に変換されている。その
他の、「文書」と「変換」とは、複合語ではないため変
換されない。
単語トライ作成部13に渡される。すると、単語トライ
作成部13が変換された単語および単語リスト内の各単
語からトライ(単語トライ)を構成する。構成された単
語トライは、単語格納部14に格納される。
を示す図である。これは、単語トライを木構造で模式的
に表したものである。図中、丸印若しくは2重丸で表し
ているのがノード30〜40である。2重丸は終了状態
のノード(対応する単語が存在するノード)を表してい
る。根であるノード30が単語検索時の「開始ノード」
となる。なお、図中の開始ノード以外の各ノード31〜
40の近傍に表示しているのが、それぞれのノードのア
ドレス(位置)である。また、各ノード31〜40を接
続している矢印がアーク51〜60である。各アーク5
1〜60の上にある文字(ここでは漢字1文字)はラベ
ルである。なお、実際には、図5と等価なトライ・イン
デックスが単語格納部14に格納される。
インデックスの例を示す図である。この図には、辺節
(1つのノードと、そのノードに遷移するアークとの
組)の情報が格納されたアドレス、その辺節の直下の弟
ノードのアドレス、その辺節に対応するラベル、ノード
の状態及び対応する文書集合へのリンク情報を示してい
る。ノードの状態は、「終了」「継続」のいずれか一
方、若しくは双方が設定されている。「終了」は、その
ノードに対応する単語が存在することを示し、「継続」
は、そのノードが子供を有していることを示す。
4に格納されると、数値変換部15が図4に示したキー
ワード集合11aから単語リストのみを抽出する。次
に、抽出した各単語リストに含まれる単語トライ中のア
ドレス値を取得する。そして、そのアドレス値リストを
生成する。
リストを示す図である。この例では、3つの単語リスト
に対する変換が行われている。「文書/構造」の単語リ
ストは、「35/15」のアドレス値リストに変換され
ている。「文書/構造/変換/装置」の単語リストは、
「35/15/45/25」のアドレス値リストに変換
されている。「変換/規則」の単語リストは、「45/
5」のアドレス値リストに変換されている。
トは、複合語トライ作成部16に渡される。複合語トラ
イ作成部16は、受け取ったアドレス値リストに基づい
て複合語のトライ(複合語トライ)を作成する。
合語のトライ70は、各辺節のラベルとして、単語トラ
イの対応するノードのアドレスが設定されている。この
ような複合語トライ70が複合語格納部17に格納され
る。
ンデックスの形式で複合語格納部17に格納される。図
9は、複合語のトライ・インデックスを示す図である。
このトライ・インデックスでは、ラベルとしてアドレス
値が設定されているため、単語の文字列をラベルとして
用いた場合と比較して情報量が少なくてすむ。
対応する単語トライと複合語トライとが格納されたら、
キーワード変換部18に対して、検索キーワードを入力
する。この例では、「文書」と「変換規則」が検索キー
ワードとして入力されたものとする。
析処理を行い、検索キーワードが単語または単語リスト
に変換される。その結果、「文書」と「変換規則」とい
う検索キーワードは、「文書」と「変換/規則」とな
る。
め、単語検索部19がこの単語を単語格納部14のトラ
イから検索する。「文書」という単語を図6に示すトラ
イから検索すると、根のノードから「文」、「書」の順
の遷移が存在していることが分かる。そして、「書」の
ノードが終了状態であるため、この単語が単語格納部1
4に格納されていることが分かる。
語リスト「変換/規則」に変換されたため、複合語検索
部20が単語リストの各単語から単語格納部14のトラ
イをたどり、そのトライにおける各単語を表すノードの
アドレス値を求める。その結果、「変換」のアドレス値
「45」と、「規則」のアドレス値「5」が得られる。
そして、単語リスト「変換/規則」の各単語をアドレス
値に置き換えて、単語リストをアドレス値リスト「45
/5」というノードのアドレス値リストに置き換える。
このアドレス値リストを用い、図9の複合語トライ・イ
ンデックスから検索すると、この単語リストが複合語格
納部17に格納されていることが分かる。すなわち、
「変換規則」という複合語が複合語格納部17に格納さ
れていることになる。 このキーワード検索装置では、
複合語を文字列の形で格納しないで、単語格納部14に
おける位置のリストとして格納している。一般的には、
固定長の文字コードによって単語を表現できるが、文字
コードによって表現するよりも、単語格納部における一
つの位置によって表現するほうが必要な記憶容量が少な
くてすむ。すなわち、前述の第1の従来技術では、複合
語の検索を行うには、単語の場合と同様に、全ての複合
語を文字列の形でインデックスに登録する必要があるた
め、複合語を含むキーワードを格納するインデックスの
容量が大きくなったが、本発明では第1の従来技術より
も遥かに少ない容量で複合語を格納することができる。
キーワードを検索するときは、検索時に語の位置情報を
用いて語の並びを確認する処理が必要になるが、本発明
では複合語格納部17を検索すればよいため、位置情報
による並びの比較という煩雑な処理は不要である。その
結果、複合語を高速に検索することができる。
第2の実施の形態は、第1の実施の形態に示したキーワ
ード検索装置の技術を用いて、文書検索装置を構成した
ものである。
すブロック図である。第2の実施の形態の文書検索装置
は、第1の実施の形態と同様の構成に加えて、文書格納
部101と文書索引生成部102とを有する。
の文書を格納している。文書索引生成部102は、文書
格納部101に格納されている各文書に対して形態素解
析処理を施す。そして、名詞や動詞などの自立語単語
と、名詞単語の連続からなる複合語を文書の索引として
抽出する。そして、文書毎に抽出された文書索引を単語
分割部103に渡す。単語分割部103は、文書索引生
成部102から受け取った文書毎の文書索引に形態素解
析処理を施し、文書索引内の各キーワードを単語もしく
は単語リストに変換する。単語トライ作成部104は、
単語分割部103の生成した単語、及び単語リストから
単語トライを生成する。その際、抽出された単語と、そ
の単語に対応する文書集合ポインタとを対にして単語ト
ライを構成する。なお、文章集合ポインタは、そのノー
ドに対応する単語を含んでいる文書の識別子の集合を指
し示している。単語格納部105は、単語トライ作成部
104が生成した単語トライを格納する。数値変換部1
06は、単語リストの各単語を、単語格納部105内の
単語トライにおける、その単語を表すノードのアドレス
値に置き換える。複合語トライ作成部107は、数値変
換部106により変換されたアドレス値リストから複合
語トライを構成する。この際、アドレス値リストと対応
する文書集合ポインタとを対にして複合語トライを構成
する。複合語格納部108は、複合語トライ作成部10
7の作成した複合語トライを格納する。
索キーワードに対して形態素解析処理を施すことによっ
て、検索キーワードを単語または単語リストに変換す
る。単語検索部110は、キーワード変換部109で検
索キーワードが単語に変換されたとき、この単語を単語
格納部105の単語トライから検索する。その結果、対
応する文書集合ポインタを出力する。複合語格納部10
8は、キーワード変換部109で検索キーワードが単語
リストに変換されたとき、この単語リストの各単語から
単語格納部105の単語トライをたどり、その単語トラ
イにおける各単語を表すノードのアドレス値を求める。
得られたアドレス値リストを複合語格納部108のトラ
イから検索する。そして、アドレス値リストに対応する
文書集合ポインタを出力する。
納部101に文書集合を格納すると、文書索引生成部1
02により、各文書毎の文書索引(内容はキーワード集
合である)が生成される。
る。この例では、「複合語インデックスファイルを用い
た文書検索装置。」という文章を、対象文としている。
この文に形態素解析処理を施すと、対象文が語句毎に分
割され、各語句の品詞の判別が行われる。次に、助詞、
助動詞、区点などが除外され、そして、個別の単語と、
複合語とからなる文書索引が生成されている。
われ、文書毎の文書索引が単語トライ作成部104に入
力される。すると、単語トライ作成部104により、単
語トライが作成され、単語格納部105に格納される。
単語トライには、終了状態のノードに対応して、文書集
合ポインタが設定される。次に、数値変換部106が単
語リストをアドレス値リストに置き換え、複合後トライ
作成部107が複合語トライを作成する。この複合語ト
ライも、終了状態のノードに対応して文書集合ポインタ
が設定される。
ると、キーワード変換部109が、その検索キーワード
を単語、または単語リストに変換する。すると、単語に
変換された場合には、単語検索部110が単語格納部1
05内の単語トライに基づいて、該当する単語を検索す
る。該当する単語が存在していれば、その単語に対応す
る文章集合ポインタが抽出される。その文書集合ポイン
タにより、その単語を含む全ての文書の識別子を取得で
きる。
ドが単語リストに変換された場合には、複合語検索部1
11により、単語リストが単語トライの位置を示す情報
に数値化され、数値化された単語リストに基づいて、複
合語格納部108内の複合語トライから該当するアドレ
ス値リストが検索される。そのアドレス値リストに対応
する文書集合ポインタ出力される。その文書集合ポイン
タにより、その単語リストの元となった複合語を含む全
ての文書の識別子を取得できる。
た文書検索が、少ない記憶容量で可能となる。次に第3
の実施の形態について説明する。第3の実施の形態は、
定型文書の項目名などを含めて検索対象とするものであ
る。この実施の形態に必要な構成要素は、第2の実施の
形態と同様であるため、図10に示した構成の各要素の
符号を用いて、本実施の形態を説明する。
は、定型文書が格納されている。文書索引生成部102
が定型文書に対する形態素解析処理を行う際には、定型
文書内のフィールドごとにタグを割り当てる。具体例と
して、公開特許公報を検索対象文書と考えることにす
る。まず、公開特許公報を大きく4つのフィールドに分
類する。4つのフィールドとして、「書誌事項」、「要
約」、「請求項」、「詳細な説明」を考え、それぞれ、
[書誌事項]、[要約]、[請求項]、[詳細な説明]
というタグを割り当てる。つぎに、それぞれのフィール
ドに含まれるサブフィールドにも同様にしてタグを割り
当てる。例えば、「書誌事項」のフィールドについてみ
ると、「発明の名称」、「発明者」のサブフィールドが
存在し、それぞれに、[発明の名称]、[発明者]とい
うタグを割り当てる。次に、文書索引生成部102は、
検索対象の文書集合からキーワードを抽出する。抽出し
たキーワードには、そのキーワードが出現したフィール
ドに割り当てられたタグを、上位の階層のタグから順番
にキーワードの後ろに付与しておく。例えば、「検索装
置」というキーワードが、公開特許公報の「書誌事項」
というフィールド内の「発明の名称」というサブフィー
ルドに現れたとすると、このキーワードには「[書誌事
項][発明の名称]」というタグが付与される。その結
果として「検索装置[書誌事項][発明の名称]」とい
うキーワードが得られる。
2が生成した文書索引(内容はキーワード集合である)
に形態素解析を施し、各キーワードを単語もしくは単語
リストに変換する。変換後の単語もしくは単語リストに
も、その単語等が出現したフィールドを示すタグが付加
される。
を示す図である。図に示すように、キーワードが出現し
たフィールドを示すタグが、そのキーワードに付与され
ている。
づいて、単語トライ作成部104が単語トライを生成
し、そのトライ・インデックスを単語格納部105に格
納する。
クスを示す図である。本実施の形態では、キーワードが
出現するフィールドの名称も1つの辺節のラベルとな
る。このような単語トライが作成されると、数値変換部
106が単語リストに含まれる単語を、単語トライ中の
アドレスに置き換え、複合語トライ作成部107が複合
語トライを作成する。
ックスを示す図である。前述の実施の形態と同様に、ラ
ベルとして単語トライ上でのアドレス値が設定されてい
る。このような、単語トライと複合語トライとが格納さ
れた状態で、ユーザがキーワードと、そのキーワードが
出現する定型文書内のフィールドの指定を入力する。す
ると、キーワード変換部109が、入力されたキーワー
ドおよびキーワードが出現する定型文書内のフィールド
の指定を受け取る。そして、キーワード変換部109に
より、入力キーワードが単語または単語リストに変換さ
れ、指定された文書内のフィールドに対応したタグが、
変換された単語または単語リストに付与される。その他
の点に関しては、第2の実施の形態の場合と同様であ
る。例えば、入力として、「書誌事項」の「発明の名
称」に現れる「検索装置」というキーワードが与えられ
たとき、キーワード変換部109によって「検索[書誌
事項][発明の名称]/装置[書誌事項][発明の名
称]」というタグ付き単語リストが得られる。
検索部110が単語格納部105の単語トライから、同
じタグが付加された単語を検索し、対応する文書集合ポ
インタを出力する。また、複合語検索部111が複合語
格納部108の複合語トライから、同じタグが付加され
た複合語を、数値化された単語リストにより検索し、対
応する文書集合ポインタを出力する。
び複合語の出現するフィールドを特定して文書検索を行
うことができ、より高い検索適合率を得ることができ
る。しかも、キーワードにタグ付けした場合でも、複合
語であるキーワードを格納する記憶容量は、タグ付けさ
れない場合と同等ですむ。
第4の実施の形態は、複合語トライの辺節のラベルとし
て、単語トライにおける各単語の文書集合ポインタの値
を用いたものである。すなわち、単語に対応している文
書集合ポインタをすべて異なる値とすると、文書集合ポ
インタの値によって単語を一意に識別することができる
ため、この情報を用いることが可能となる。
の形態と同様であるため、図10に示した構成を用いて
本実施の形態を説明する。なお、数値変換部106、複
合語トライ作成部107、複合語格納部108、及び複
合語検索部111の機能以外は、第2の実施の形態や第
3の実施の形態と同じである。
を、単語トライ内の該当する単語の文書集合ポインタに
置き換える。複合語トライ作成部107は、数値変換部
106より置き換えられた文書集合ポインタの値をラベ
ルとして、複合語トライを作成する。作成された複合語
トライは、トライ・インデックスとして複合語格納部1
08に格納される。例えば、図13の単語トライに基づ
いて複合語トライを作成すると、以下のようになる。
を用いた複合語のトライ・インデックスを示す図であ
る。これは、複合語を構成する各単語が、その単語が単
語格納部105内の単語トライにおいて対応づけられて
いる文書集合へのポインタの値によって置き換えられて
いる。例えば、「検索[書誌事項][発明の名称]」に
遷移する辺節のラベルは、「0」であり、「装置[書誌
事項][発明の名称]」に遷移する辺節のラベルは、
「2」である。この複合語トライの内容は、図14に示
したものと同等である。
索する際には、単語格納部105内の単語トライから、
単語リスト内の各単語に対応する文書集合ポインタの値
を取得する。そして、文書集合ポインタに置き換えられ
た単語リストに該当する複合語(文書集合ポインタの値
のリストに数値化されて格納されている)を、複合語ト
ライから検索し、該当した複合語に対応する文書集合ポ
インタを出力する。
ポインタをすべて異なる値とすれば、文書集合ポインタ
を用いて複合語トライを作成することが可能である。以
下に、本発明と従来技術との索引容量(単語格納部と複
合語格納部とに必要な記憶容量)の比較結果を示す。対
象とした文書集合は、「1997年最初に発行された特
許公開公報CD−ROM1枚」である。この文書集合に
は、4800件の文書が含まれており、それらの総容量
は約107MB(メガバイト)である。
技術を用い、単語と複合語との双方をキーワードとして
インデックスに登録した場合と、本発明の第2の実施の
形態を用いた場合とで索引容量を比較した。その結果、
従来技術の48.6%の索引容量で、本発明の実施の形
態における単語トライと複合語トライとを作成すること
ができた。また、複合語の語数は、単語の語数の4倍で
あったにもかかわらず、複合語トライの容量は、単語ト
ライの容量の77%であった。
よって実現することができる。その場合、キーワード検
索装置及び文書検索装置が有すべき機能の処理内容は、
コンピュータで読み取り可能な記録媒体に記録されたプ
ログラムに記述されており、このプログラムをコンピュ
ータで実行することにより、上記処理がコンピュータで
実現される。コンピュータで読み取り可能な記録媒体と
しては、磁気記録装置や半導体メモリ等がある。市場を
流通させる場合には、CD−ROM(Compact Disk Read
Only Memory) やフロッピーディスク等の可搬型記録媒
体にプログラムを格納して流通させたり、ネットワーク
を介して接続されたコンピュータの記憶装置に格納して
おき、ネットワークを通じて他のコンピュータに転送す
ることもできる。コンピュータで実行する際には、コン
ピュータ内のハードディスク装置等にプログラムを格納
しておき、メインメモリにロードして実行する。
検索装置では、複合語を数値化して複合語格納手段に格
納し、検索する際にも、複合語を数値化した単語リスト
を用いて複合語の検索を行うようにしたため、複合語を
格納するのに必要な記憶容量が少なくなる。
を数値化し、その複合語を含む文書の集合を示す文書集
合ポインタとともに複合語格納手段に格納し、検索する
際にも、複合語を数値化した単語リストを用いて複合語
の検索を行うようにしたため、少ない記憶容量で、複合
語をキーワードとした文書検索が可能となる。
を記録したコンピュータ読み取り可能な記録媒体では、
記録されたキーワード検索プログラムをコンピュータで
実行させることにより、複合語を数値化して複合語格納
手段に格納し、検索する際にも、複合語を数値化した単
語リストを用いて複合語の検索を行うような処理をコン
ピュータに行わせることが可能となる。
したコンピュータ読み取り可能な記録媒体では、記録さ
れた文書検索プログラムをコンピュータで実行させるこ
とにより、複合語を数値化し、その複合語を含む文書の
集合を示す文書集合ポインタとともに複合語格納手段に
格納し、検索する際にも、複合語を数値化した単語リス
トを用いて複合語の検索を行うような処理をコンピュー
タに行わせることが可能となる。
ある。
ある。
の例を示す図である。
図である。
る。
である。
る。
である。
図である。
語のトライ・インデックスを示す図である。
Claims (13)
- 【請求項1】 複合語の集合の中から、検索条件に合致
した複合語を検索するキーワード検索装置において、 複合語を構成している単語を格納している単語格納手段
と、 複合語を構成している単語を、前記単語格納手段内で一
意に識別可能な数値に置き換えて、各複合語を格納して
いる複合語格納手段と、 複合語による検索キーワードが入力されると、前記検索
キーワードを複数の単語に変換し、単語リストとして出
力するキーワード変換手段と、 前記キーワード変換手段の出力した単語リストに含まれ
る単語を前記単語格納手段から検索することにより、各
単語を一意に識別可能な数値に変換し、数値に変換され
た単語リストにより、前記複合語格納手段から複合語を
検索する複合語検索手段と、 を有することを特徴とするキーワード検索装置。 - 【請求項2】 前記単語格納手段は、複合語を構成して
いる単語に加え、個別のキーワードとして用いられる単
語も格納しており、 単語の検索キーワードが入力された場合には、入力され
た単語を前記単語格納手段から検索する単語検索手段を
更に有することを特徴とする請求項1記載のキーワード
検索装置。 - 【請求項3】 前記複合語格納手段は、各単語を一意に
識別可能な数値として、前記単語格納手段に格納されて
いる単語の位置情報が用いられており、 前記複合語検索手段は、各単語を一意に識別可能な数値
に変換する際には、各単語の前記単語格納手段内におけ
る位置情報に変換することを特徴とする請求項1記載の
キーワード検索装置。 - 【請求項4】 前記複合語格納手段は、各単語を一意に
識別可能な数値として、前記単語格納手段に格納されて
いる単語を含む文書の集合を示す文書集合ポインタが用
いられており、 前記複合語検索手段は、各単語を一意に識別可能な数値
に変換する際には、各単語を、それぞれの単語を含む文
書の集合を示す文書集合ポインタに変換することを特徴
とする請求項1記載のキーワード検索装置。 - 【請求項5】 キーワード集合が入力されると、入力さ
れたキーワード集合に含まれる複合語を分割し、単語リ
ストとして出力する単語分割手段と、 前記キーワード集合に含まれる単語と、前記単語分割手
段が出力した単語リストに含まれる単語とを含む単語ト
ライを作成し、前記単語格納部に格納する単語トライ作
成手段と、 前記単語分割手段により生成された単語リスト内の単語
を、前記単語格納手段内の単語トライにおける位置情報
に置き換える数値変換手段と、 前記数値変換手段により数値化された単語リストを用い
て複合語トライを作成し、前記複合語格納手段に格納す
る複合語トライ作成手段と、 を更に有することを特徴とする請求項1記載のキーワー
ド検索装置。 - 【請求項6】 文書の集合の中から、入力された複合語
を含む文書を検索する文書検索装置において、 複合語を構成している単語が格納されている単語格納手
段と、 複合語を構成している単語が、前記単語格納手段に格納
されている単語を一意に識別可能な数値に置き換えら
れ、各複合語を含む文書の集合を示す文書集合ポインタ
と各複合語とが対応づけて格納されている複合語格納手
段と、 複合語による検索キーワードが入力されると、前記検索
キーワードを複数の単語に変換し、単語リストとして出
力するキーワード変換手段と、 前記キーワード変換手段の出力した単語リストに含まれ
る単語を前記単語格納手段から検索することにより各単
語を一意に識別可能な数値に変換し、数値に変換された
単語リストにより、前記複合語格納手段から複合語を検
索し、該当する複合語に対応づけられた文書集合ポイン
タを出力する複合語検索手段と、 を有することを特徴とする文書検索装置。 - 【請求項7】 前記単語格納手段は、個別に検索のキー
ワードとなる単語と、複合語を構成している単語とを、
各単語を含む文書の集合を示す文書集合ポインタと対応
づけて格納しており、 単語の検索キーワードが入力された場合には、入力され
た単語を前記単語格納手段から検索し、検出された単語
に対応する文書集合ポインタを出力する単語検索手段を
更に有することを特徴とする請求項6記載の文書検索装
置。 - 【請求項8】 前記複合語格納手段は、各単語を一意に
識別可能な数値として、前記単語格納手段に格納されて
いる単語の位置情報が用いられており、 前記複合語検索手段は、各単語を一意に識別可能な数値
に変換する際には、各単語の前記単語格納手段内におけ
る位置情報に変換することを特徴とする請求項6記載の
文書検索装置。 - 【請求項9】 前記複合語格納手段は、各単語を一意に
識別可能な数値として、前記単語格納手段に格納されて
いる単語を含む文書の集合を示す文書集合ポインタが用
いられており、 前記複合語検索手段は、各単語を一意に識別可能な数値
に変換する際には、各単語を、それぞれの単語を含む文
書の集合を示す文書集合ポインタに変換することを特徴
とする請求項6記載の文書検索装置。 - 【請求項10】 文書に含まれるキーワードの集合から
文書索引を生成する文書索引生成手段と、 前記文書索引生成手段により生成された文書索引内のキ
ーワードに含まれる複合語を分割し、単語リストとして
出力する単語分割手段と、 前記文書索引内のキーワードに含まれる単語と、前記単
語分割手段が出力した単語リストに含まれる単語とを含
む単語トライを作成し、前記単語格納部に格納する単語
トライ作成手段と、 前記単語分割手段により生成された単語リスト内の単語
を、前記単語格納手段内の単語トライにおける位置情報
に置き換える数値変換手段と、 前記数値変換手段により数値化された単語リストを用い
て複合語トライを作成し、前記複合語格納手段に格納す
る複合語トライ作成手段と、 を更に有することを特徴とする請求項6記載の文書検索
装置。 - 【請求項11】 前記単語格納手段は、複数のフィール
ドからなる定型文書内の単語に対して、単語が出現する
フィールドを示すタグを付加しており、 前記複合語格納手段は、複数のフィールドからなる定型
文書内の複合語に対して、複合語が出現するフィールド
を示すタグを付加しており、 前記キーワード変換手段は、複合語による検索キーワー
ドと、前記検索キーワードが出現しているフィールドの
指定とが入力された場合には、前記検索キーワードを変
換後の単語リストに対して、指定されたフィールドに応
じたタグを付加し、 前記複合語検索手段は、数値に変換された単語リストと
タグとにより、タグで示されたフィールドに存在する複
合語を検索することを特徴とする請求項6記載のキーワ
ード検索装置。 - 【請求項12】 複合語の集合の中から、検索条件に合
致した複合語を検索するためのキーワード検索プログラ
ムを記録したコンピュータ読み取り可能な記録媒体にお
いて、 複合語を構成している単語を格納している単語格納手
段、 複合語を構成している単語を、前記単語格納手段内で一
意に識別可能な数値に置き換えて、各複合語を格納して
いる複合語格納手段、 複合語による検索キーワードが入力されると、前記検索
キーワードを複数の単語に変換し、単語リストとして出
力するキーワード変換手段、 前記キーワード変換手段の出力した単語リストに含まれ
る単語を前記単語格納手段から検索することにより、各
単語を一意に識別可能な数値に変換し、数値に変換され
た単語リストにより、前記複合語格納手段から複合語を
検索する複合語検索手段、 としてコンピュータを機能させることを特徴とするキー
ワード検索プログラムを記録したコンピュータ読み取り
可能な記録媒体。 - 【請求項13】 文書の集合の中から、入力された複合
語を含む文書を検索するための文書検索プログラムを記
録したコンピュータ読み取り可能な記録媒体において、 複合語を構成している単語が格納されている単語格納手
段、 複合語を構成している単語が、前記単語格納手段に格納
されている単語を一意に識別可能な数値に置き換えら
れ、各複合語を含む文書の集合を示す文書集合ポインタ
と各複合語とが対応づけて格納されている複合語格納手
段、 複合語による検索キーワードが入力されると、前記検索
キーワードを複数の単語に変換し、単語リストとして出
力するキーワード変換手段、 前記キーワード変換手段の出力した単語リストに含まれ
る単語を前記単語格納手段から検索することにより各単
語を一意に識別可能な数値に変換し、数値に変換された
単語リストにより、前記複合語格納手段から複合語を検
索し、該当する複合語に対応づけられた文書集合ポイン
タを出力する複合語検索手段、 としてコンピュータを機能させることを特徴とする文書
検索プログラムを記録したコンピュータ読み取り可能な
記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10005499A JPH11203312A (ja) | 1998-01-14 | 1998-01-14 | キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10005499A JPH11203312A (ja) | 1998-01-14 | 1998-01-14 | キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11203312A true JPH11203312A (ja) | 1999-07-30 |
Family
ID=11612924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10005499A Pending JPH11203312A (ja) | 1998-01-14 | 1998-01-14 | キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11203312A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249947A (ja) * | 2000-03-06 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法、装置、および文書検索プログラムを記録した記録媒体 |
JP2009093556A (ja) * | 2007-10-11 | 2009-04-30 | Hitachi Ltd | インデクス構築方法、文書検索装置及びインデクス構築プログラム |
US11556706B2 (en) | 2018-06-04 | 2023-01-17 | Fujitsu Limited | Effective retrieval of text data based on semantic attributes between morphemes |
-
1998
- 1998-01-14 JP JP10005499A patent/JPH11203312A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249947A (ja) * | 2000-03-06 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法、装置、および文書検索プログラムを記録した記録媒体 |
JP2009093556A (ja) * | 2007-10-11 | 2009-04-30 | Hitachi Ltd | インデクス構築方法、文書検索装置及びインデクス構築プログラム |
US11556706B2 (en) | 2018-06-04 | 2023-01-17 | Fujitsu Limited | Effective retrieval of text data based on semantic attributes between morphemes |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2896634B2 (ja) | 全文登録語検索装置および全文登録語検索方法 | |
JP5376163B2 (ja) | 文書管理・検索システムおよび文書の管理・検索方法 | |
JP3300866B2 (ja) | テキスト処理システムにより使用されるテキストを準備する方法及び装置 | |
JP3143079B2 (ja) | 辞書索引作成装置と文書検索装置 | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
Mahmood et al. | Query based information retrieval and knowledge extraction using Hadith datasets | |
JP2010262577A (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP3022539B1 (ja) | 文書検索装置 | |
EP3432161A1 (en) | Information processing system and information processing method | |
JPH1196177A (ja) | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 | |
JP5169456B2 (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JPH11203312A (ja) | キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体 | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2000194721A (ja) | 文書群分類装置および文書群分類方法 | |
JP3879330B2 (ja) | 文書要約装置、文書要約方法及び記録媒体 | |
JP3923961B2 (ja) | Xml異体字検索システムおよびxml異体字検索方法 | |
JP3376996B2 (ja) | フルテキストサーチ方法 | |
JP3879329B2 (ja) | 文書要約装置、文書要約方法及び記録媒体 | |
JPH02253474A (ja) | テキストベース検索方法 | |
JPH03229367A (ja) | テキストベース検索方式 | |
JP4248828B2 (ja) | 文書処理装置、文書処理方法及び記録媒体 | |
JPH07325837A (ja) | 抽象単語による通信文検索装置及び抽象単語による通信文検索方法 | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム | |
JP2654533B2 (ja) | データベース日本語表記候補生成方式 | |
JP2001325293A (ja) | 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20060309 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20080423 |
|
RD05 | Notification of revocation of power of attorney |
Effective date: 20080528 Free format text: JAPANESE INTERMEDIATE CODE: A7425 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080613 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081001 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111010 Year of fee payment: 3 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 4 Free format text: PAYMENT UNTIL: 20121010 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 5 Free format text: PAYMENT UNTIL: 20131010 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |