JPH0944521A - インデックス作成装置および文書検索装置 - Google Patents

インデックス作成装置および文書検索装置

Info

Publication number
JPH0944521A
JPH0944521A JP7208555A JP20855595A JPH0944521A JP H0944521 A JPH0944521 A JP H0944521A JP 7208555 A JP7208555 A JP 7208555A JP 20855595 A JP20855595 A JP 20855595A JP H0944521 A JPH0944521 A JP H0944521A
Authority
JP
Japan
Prior art keywords
keyword
identifier
index
document
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7208555A
Other languages
English (en)
Inventor
Hiroshi Yamaguchi
浩 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7208555A priority Critical patent/JPH0944521A/ja
Publication of JPH0944521A publication Critical patent/JPH0944521A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 表記方法が複数存在するような語がある場合
にも、表記を気にせずに漏れなく検索できる。 【解決手段】 文書を登録するときに、その文書からキ
ーワード抽出手段によりキーワードを抽出するがそれ等
の語には複数の異なる表記がなされる場合がある。複数
の異なる表記が用いられる語に対しては、それらの異な
る表記の語に共通する一つの識別子を対応させ、1つの
表記が用いられる語には1つの識別子を対応させた辞書
を用意する。キーワード識別子付与手段は、その辞書を
用いて、キーワード抽出手段の抽出したキーワードに識
別子を付与する。インデックス登録手段は、識別子と文
書とを対応づけてインデックス記憶手段に登録する。検
索を行う際には、入力された検索用の文字列からキーワ
ードを抽出しキーワード識別子を付与する。その識別子
により前記インデックス記憶手段を探索し、対応する文
書情報を取り出す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書データベースに登
録する文書を検索するためのインデックスを予め作成
し、検索時はそのインデックスを利用して、入力された
キーワードとインデックスを比較して、文書を特定する
文書検索装置に関する。
【0002】
【従来の技術】文書検索装置において、ユーザの意図す
る検索結果が容易に得られるようなキーワードの設定や
登録の方法が従来から種々提案されている。例えば、特
開昭60−57432号公報に記載の情報検索装置で
は、情報検索のキーワードの登録において、かな漢字変
換手段またはローマ字漢字変換手段を用いて漢字の読み
方から実際の漢字コードを作って登録する際に、同時に
その漢字の読みの仮名コードまたはローマ字コードをも
作成した漢字コードに付加して登録することにより、仮
名コードまたはローマ字コードからも検索を行うことが
できるようにしている。また、例えば、特開昭60−2
4632号公報記載の情報の登録、検索方式では、仮名
文字およびローマ字が仮名コードにより、また漢字が仮
名コードと漢字コードにより登録が行われ、検索は仮名
文字及びローマ字検索が仮名コードにより、また漢字検
索が漢字コードまたは仮名コードにより行われるので、
入力文字コードを意識して検索しなくていい。
【0003】また、公知の技術ではないが、本発明者ら
は文書検索装置において、検索用の1つのカタカナのキ
ーワードに複数の表記がある場合に、それを表記変更ル
ールを適用して1つの標準の表記に変換してインデック
スに登録し、あるいは検索の際のキーワードを生成する
ことにより、キーワードの表記の揺れによる検索漏れを
解消し、インデックスを小型化して迅速な検索処理を行
う発明をなし、本出願人により特許出願をなした(特願
平6−136571号の発明)。
【0004】
【発明が解決しようとする課題】特開昭60−5743
2号公報では入力された語を漢字変換して漢字に直して
登録しているが、同音異議語が存在する語については漢
字変換が正しくなされているかいちいちユーザがチェッ
クを行わなければならず、登録の効率が悪く、またイン
デックスのサイズも大きくなってしまう。また、特開昭
60−24632号公報記載の技術においても、すべて
の漢字の読みをインデックスに登録してしまうと、イン
デックスサイズは膨大になってしまうという問題があ
る。また、この従来技術では仮名と漢字で構成される語
が検索できない。
【0005】本発明者らによる前記出願の発明は、カタ
カナに特化して、カタカナ表記に対して表記変更ルール
を適用して表記が複数あってもそれらを一意に認識する
ことを提案していたが、ルールが定義できないカタカナ
以外の表記に対しては効果がなかった。
【0006】本発明は、前記従来技術の問題点を解消す
るとともに、前記出願の発明の問題点をも解消すること
を目的とする。即ち、本発明は、表記方法が複数存在す
るような語がある場合にも、表記を気にせずに検索を行
うことのできるインデックスの作成装置およびそのイン
デックスを利用した文書検索装置を提供することを目的
とする。また、本発明は、検索のためのインデックスの
サイズが小さく、登録が簡単なインデックス作成装置を
提供することを目的とする。
【0007】
【課題を解決するための手段】本発明(請求項1)は、
文書からキーワードを抽出するキーワード抽出手段と、
一つの表記が用いられる語に対してはそれぞれ一つの識
別子を定義し、複数の異なる表記が用いられる語に対し
ては、それらの異なる表記の語に共通する一つの識別子
を定義した辞書と、前記辞書を参照して、前記キーワー
ド抽出手段により抽出したキーワードに識別子を付与す
るキーワード識別子付与手段と、前記キーワード識別子
付与手段によりキーワードに付与された識別子と前記文
書とを対応づけたインデックスを記憶するインデックス
記憶手段と、前記キーワード識別子付与手段によりキー
ワードに付与された識別子と前記文書とを対応づけて前
記インデックス記憶手段に登録するインデックス登録手
段とを備えたインデックス作成装置である。
【0008】また、本発明(請求項2)は、検索用の文
字列を入力する入力手段と、前記入力手段により入力さ
れた検索用の文字列からキーワードを抽出するキーワー
ド抽出手段と、一つの表記が用いられる語に対してはそ
れぞれ一つの識別子を定義し、複数の異なる表記が用い
られる語に対しては、それらの異なる表記の語に共通す
る一つの識別子を定義した辞書と、前記辞書を参照し
て、前記入力手段により入力したキーワードに識別子を
付与するキーワード識別子付与手段と、キーワードの識
別子と文書とを対応づけたインデックスを記憶するイン
デックス記憶手段と、前記キーワード識別子付与手段に
より付与された識別子により前記インデックスを参照し
て文書を検索する検索手段とを備えた文書検索装置であ
る。
【0009】
【作用】文書を登録するときに、その文書からキーワー
ド抽出手段によりキーワードを抽出する。キーワードと
なる語には複数の異なる表記がなされる場合がある。例
えば、「ゆううつ」「憂うつ」「憂鬱」等は、異なる表
記ではあるが同一の語である。複数の異なる表記が用い
られる語に対しては、それらの異なる表記の語に共通す
る一つの識別子を対応させ、1つの表記が用いられる語
には1つの識別子を対応させた辞書を用意する。キーワ
ード抽出手段のキーワード抽出に形態素解析を行う場合
には、形態素解析用辞書に前記表記の識別子のフィール
ドを付加する構成により、前記辞書としてもよい。キー
ワード識別子付与手段は、その辞書を用いて、キーワー
ド抽出手段の抽出したキーワードに識別子を付与する。
インデックス登録手段は、識別子と前記文書とを対応づ
けて前記インデックス記憶手段に登録する。以上のよう
に作成したインデックスを用いて検索を行う際には、入
力手段により入力された検索用の文字列からキーワード
抽出手段によりキーワードを抽出しキーワード識別子付
与手段により、識別子を付与する。その識別子により前
記インデックス記憶手段を探索し、対応する文書情報を
取り出す。
【0010】本発明によれば、複数の異なる表記のある
語をそれらに共通の1つの識別子で、インデックスに登
録するようにしたので、インデックスサイズを大きなも
のとすることなく、複数の異なる表記の語の検索に対処
することのできるインデックスを簡単に作成することが
できる。また、そのようなインデックスを用いた検索処
理においては、複数の異なる表記のある語を検索用のキ
ーワードとするときに、そのいずれか1つの表記を入力
すれば、それを共通の識別子に直してインデックス検索
がなされるので、利用者は表記を気にせずに検索作業を
行うことができ、また、検索の漏れもなくなる。
【0011】
【実施例】図1および図2は、本発明の一実施例にかか
る装置の構成を示すブロック図であり、図1は文書を登
録保存するときに、その文書に関するインデックスを作
成し記憶するためのインデックス作成登録部分の構成を
示すものであり、図2は図1の構成により作成されたイ
ンデックスの検索を行うための検索部分の構成を示すも
のである。
【0012】図1に示すインデックス作成登録部分の構
成は、登録の対象となる文書を格納する文書記憶手段1
と、登録する文書に一意に識別子(ID)を付与する文
書ID付与手段2と、登録する文書のテキストに形態素
解析を施してキーワードを抽出するキーワード抽出手段
3と、形態素解析に用いる辞書であって異表記フィール
ドを付加した形態素解析辞書4と、キーワード抽出手段
3により抽出したキーワードに識別子を付与するキーワ
ードID付与手段5と、キーワードの識別子とそのキー
ワードを含む文書の識別子とを対応づけたインデックス
を作成し、インデックス記憶手段7に登録処理するイン
デックス登録手段6と、インデックス登録手段6で作成
されたキーワードの識別子とそのキーワードを含む文書
の識別子とを対応づけたインデックスを記憶するインデ
ックス記憶手段7とを備えてなるものである。
【0013】図2に示す検索部分の構成は、検索に用い
る検索文字列を入力する入力手段8と、入力手段8で入
力された検索文字列からキーワードを抽出するキーワー
ド抽出手段3と、抽出したキーワードに形態素解析辞書
4を参照して、識別子を付与するキーワードID付与手
段5と、インデックスが登録されているインデックス記
憶手段7と、キーワードID付与手段5により得られた
キーワードIDによりインデックス記憶手段7から対応
する文書IDを検索する検索手段9と、検索結果を表示
する表示手段10を備えている。なお、キーワード抽出
手段3、形態素解析辞書4、キーワードID付与手段
5、インデックス記憶手段7は図1に示したものと同じ
ものであり、そのインデックス記憶記憶手段7は図1の
インデックス作成登録部分によりインデックスが既に登
録されているものである。
【0014】以上のように構成された本実施例の文書検
索装置の動作を説明する。図3はインデックス登録の際
の処理フローである。文書記憶手段1にはインデックス
登録の対象となる文書が格納されている(ステップS3
1)。まず、文書ID付与手段2により図6(a)のよ
うな文書名61と文書ID62を対応させたテーブルを
用いて、文書名に対応する文書IDを求める(ステップ
S32)。この得られた文書IDは文書記憶手段1に保
持される。次に、文書からテキストが抽出され、キーワ
ード 抽出手段3に送られる。図6(b)は登録する文
書からテキストを抽出した一例を示すものである。キー
ワードID抽出手段3では、抽出されたテキストに対し
て形態素解析辞書4を参照しながら形態素解析が行わ
れ、キーワードが抽出される(ステップS33)。
【0015】図5は本実施例のキーワード抽出時に用い
る形態素解析辞書の内容の一例を示す図である。各エン
トリーには、通常の形態素解析辞書と同様に、見出し語
51、品詞52、entryID53を対応させたテー
ブルとして構成されるのに加え、本実施例では特に、異
表記フィールド54を設けた点に特徴がある。見出し語
に複数の表記があるときには、その中の1つを標準表記
とし、残りを異表記として異表記フィールド54にその
情報を保持させる。具体的には、標準表記の見出し語に
ついては、その属するエントリーの異表記フィールドに
0を設定し、異表記の見出し語については、そのの属す
るエントリーの異表記フィールドには対応する標準表記
の見出し語のエントリーのentryIDを設定してお
く。例えば、図5の形態素解析辞書において、「ゆうう
つ」「憂うつ」「憂鬱」は同一の語に対する複数の表記
が存在する場合であるが、形態素解析辞書には、「ゆう
うつ」の見出し語のエントリーでは異表記フィールドに
はその見出し語が標準表記であるこを示す0が設定さ
れ、一方、「憂うつ」「憂鬱」の異表記フィールドには
対応する標準表記「ゆううつ」のeytryIDが設定
されて、それにより異表記であることが示されている。
【0016】このような形態素解析辞書を用いた形態素
解析の結果、名詞等がキーワードとして抽出される。図
7は抽出されたキーワードの情報の一例を示すもので、
キーワードの表記71のほかに、対応する品詞72、e
ntryID73、異表記74等の情報が形態素解析辞
書から抽出されている。キーワードID付与手段5は、
抽出されたキーワードの情報から表記とIDとの対応付
けを行う。そのために、キーワードID付与手段5は、
図7の抽出キーワード情報の異表記フィールドにより、
IDが付与されているか否かで異表記を持つか否かの判
別を行う(ステップS34)。図7の異表記フィールド
にIDが有るときには、そのIDをキーワードIDとし
てキーワードの表記と対応づける(ステップS35)。
異表記フィールドにIDがないとき、即ち、値が0のと
きは、対応するentryIDをキーワードIDとする
(ステップS36)。このようにしてキーワードID付
与手段5により、図8に示すようにキーワード81に対
して一意にキーワードID82が付与される。キーワー
ドID付与手段5によりキーワードIDを付与されたキ
ーワードは、インデックス登録手段6により、そのID
が文書IDとともにインデックス記憶手段7に登録され
る(ステップS37)。図9(a)は、インデックスの
例をしめすもので、キーワードID91と文書ID92
を対応させたテーブルとして構成されている。すべての
キーワードについて抽出とインデックス登録の処理がな
されたら、抽出を終了する(ステップ38)
【0017】図4は検索の際の処理フローである。検索
処理においては、入力手段8により検索キーが入力され
ると(ステップS41)、前述のインデックス登録のキ
ーワード抽出と同様な処理によりキーワードが抽出され
(ステップS42)、キーワードID付与手段5により
キーワードIDが付与される(ステップS43〜S4
5)。例えば、検索キーとして「憂鬱」と入力されたと
すると、上記のインデックス登録のキーワード抽出と同
様な処理が行われ、(憂鬱,100)のようにIDが付
与される。このIDにより図9(a)に示すようなキー
ワードIDと文書IDとを対応させたインデックスにア
クセスし、キーワードID”100”に対応する文書I
D”1、2”を抽出する(ステップS46)。その文書
IDを基に文書名が識別され、表示手段10に、図9
(b)のように、検索キーとそれを含む文書名が表示手
段10の表示面92に表示される(ステップS47)。
【0018】以上に説明した実施例によれば、複数の表
記パターンがあってもインデックス登録されている標準
表記のキーワードIDで検索を行うので、難しい漢字表
現を含む語や、複数の表記表現を取る語について特に意
識しないで検索を行うことができる。また、表記の違い
による検索漏れがなくなるので、ユーザは望む文書を漏
れなく検索することができる。さらに、本実施例によれ
ば、キーワード抽出に使用する形態素解析辞書内に異表
記フィールドを設けて標準表記のIDを格納し、異表記
の語に対応する標準表記を求めるようにしているので、
別に標準表記変換用の辞書を持たなくても済む。そのた
めキーワード抽出をするときに異表記の判別からIDの
付与までの処理を効率よく行うことができる。
【0019】本発明は、以上に説明した実施例の一部を
次のように変形もしくは置換して実施することもでき
る。
【0020】(1) 前記実施例では、解析辞書内に異
表記フィールドを設けているが、ユーザが標準表記のカ
スタマイズができるような標準表記辞書を別途用意する
ような構成に変更実施してもよい。その際、標準表記辞
書の見出し語に対して少なくとも標準表記のIDが対応
するようになっていればよい。この実施例は、解析辞書
のほかに標準表記辞書を設けるのでスペース効率は落ち
ることになるが、この標準表記辞書があることにより、
より柔軟な検索ができるようになる。
【0021】(2) 前述の実施例においては、すべて
キーワードを標準表記に直してIDで登録しているが、
登録時に標準表記だけを登録するのではなく、元の表記
と共に登録しておくように構成することができる。これ
により、検索時に異表記の検索とは別に、検索キーと同
じ表記のみによる検索も行うことができる。サイズの面
では標準表記のみの登録よりも効率は悪くなるが、ID
で管理しているのでそれほど大きな問題ではない。ま
た、自分で作成した文書等を検索する場合などのよう
に、予め検索する表記が分かっている場合には、指定し
た表記のみによる検索を行うことができる。これにより
ユーザは検索キーの表記がはっきりしている場合は効率
的に、表記がはっきりしない場合は漏れなく検索を行う
ことができる。
【0022】(3) 検索結果の表示においては、前記
実施例のように文書名のリストを表示するだけではな
く、リストの先頭にある文書の内容をリストとともに表
示するなどしてもよく、特に表示方法に関して限定され
るものではない。
【0023】
【発明の効果】複数の表記パターンがあってもインデッ
クス登録されている共通の識別子に変換し、その変換し
た識別子を用いて検索を行うので、難しい漢字表現を含
む語や、複数の表記表現を取る語について特に意識しな
いで検索を行うことができる。また、表記の違いによる
検索漏れがなくなるので、ユーザは望む文書を漏れなく
検索することができる。さらに、キーワードを識別子で
管理し、複数の表記の語でも1つの識別子で管理するの
で、インデックスサイズも小さくなる。
【図面の簡単な説明】
【図1】 本発明に係る文書作成装置のインデックス作
成登録部の概略構成を示す機能ブロック図。
【図2】 本発明に係る文書作成装置の検索部の概略構
成を示す機能ブロック図。
【図3】 本発明の文書作成装置のインデックス作成登
録部の動作を示すフローチャート。
【図4】 本発明の文書作成装置の検索動作を示すフロ
ーチャート。
【図5】 キーワード抽出時に用いる解析辞書の内容の
一例を示す説明図。
【図6】 (a)は、文書に対して文書IDを付与した
一例を示す説明図、(b)は、登録する文書からテキス
トを抽出した一例を示す説明図。
【図7】 テキストからキーワードを抽出した一例を示
す説明図。
【図8】 異表記を持つ語のキーワードIDをその標準
表記のキーワードIDと同じIDを付与した一例を示す
説明図。
【図9】 (a)は、インデックスの内部の一例を示す
説明図、(b)は、検索結果を表示した一例を示す説明
図。
【符号の説明】
1…文書記憶手段、2…文書ID付与手段、3…キーワ
ード抽出手段、4…形態素解析辞書、5…キーワードI
D付与手段、6…インデックス登録手段、7…インデッ
クス記憶手段、8…入力手段、9…検索手段、10…表
示手段。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】文書からキーワードを抽出するキーワード
    抽出手段と、 一つの表記が用いられる語に対してはそれぞれ一つの識
    別子を定義し、複数の異なる表記が用いられる語に対し
    ては、それらの異なる表記の語に共通する一つの識別子
    を定義した辞書と、 前記辞書を参照して、前記キーワード抽出手段により抽
    出したキーワードに識別子を付与するキーワード識別子
    付与手段と、 キーワードの識別子と文書を対応づけたインデックスを
    記憶するインデックス記憶手段と、 前記語識別子付与手段によりキーワードに付与された識
    別子と前記文書とを対応づけて前記インデックス記憶手
    段に登録するインデックス登録手段とを備えたインデッ
    クス作成装置。
  2. 【請求項2】 検索用の文字列を入力する入力手段と、 前記入力手段により入力された検索用の文字列からキー
    ワードを抽出するキーワード抽出手段と、 一つの表記が用いられる語に対してはそれぞれ一つの識
    別子を定義し、複数の異なる表記が用いられる語に対し
    ては、それらの異なる表記の語に共通する一つの識別子
    を定義した辞書と、 前記辞書を参照して、前記キーワード抽出手段により抽
    出されたキーワードに識別子を付与するキーワード識別
    子付与手段と、 キーワードの識別子と文書を対応づけたインデックスを
    記憶するインデックス記憶手段と、 前記語識別子付与手段により付与された識別子により、
    前記インデックスを検索する検索手段とを備えた文書検
    索装置。
JP7208555A 1995-07-25 1995-07-25 インデックス作成装置および文書検索装置 Pending JPH0944521A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7208555A JPH0944521A (ja) 1995-07-25 1995-07-25 インデックス作成装置および文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7208555A JPH0944521A (ja) 1995-07-25 1995-07-25 インデックス作成装置および文書検索装置

Publications (1)

Publication Number Publication Date
JPH0944521A true JPH0944521A (ja) 1997-02-14

Family

ID=16558127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7208555A Pending JPH0944521A (ja) 1995-07-25 1995-07-25 インデックス作成装置および文書検索装置

Country Status (1)

Country Link
JP (1) JPH0944521A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622248B1 (en) 1998-06-25 2003-09-16 Sharp Kabushiki Kaisha File data retrieving device and recording medium containing computer program for controlling the same
KR20040039691A (ko) * 2002-11-04 2004-05-12 엘지전자 주식회사 정보 검색 시스템의 인덱싱 방법
JP2010266949A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 文字列入力装置、文字列入力方法、およびプログラム
JP2014096164A (ja) * 2010-12-30 2014-05-22 Facebook Inc グラフ・データのコンポジットタームインデックス方法、コンピュータ可読媒体、およびシステム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622248B1 (en) 1998-06-25 2003-09-16 Sharp Kabushiki Kaisha File data retrieving device and recording medium containing computer program for controlling the same
KR20040039691A (ko) * 2002-11-04 2004-05-12 엘지전자 주식회사 정보 검색 시스템의 인덱싱 방법
JP2010266949A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 文字列入力装置、文字列入力方法、およびプログラム
JP2014096164A (ja) * 2010-12-30 2014-05-22 Facebook Inc グラフ・データのコンポジットタームインデックス方法、コンピュータ可読媒体、およびシステム
US9576060B2 (en) 2010-12-30 2017-02-21 Facebook, Inc. Composite term index for graph data

Similar Documents

Publication Publication Date Title
US20050119875A1 (en) Identifying related names
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JPS60176169A (ja) 文章処理装置
JPH1011431A (ja) 漢字検索装置および方法
JPH06195371A (ja) 未登録語獲得方式
JPS61248160A (ja) 文書情報登録方式
JPH08115330A (ja) 類似文書検索方法および装置
JP2011095802A (ja) 機械翻訳装置及びプログラム
JP2004234078A (ja) 情報検索装置
JPS63175965A (ja) 文書処理装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH01106263A (ja) 文書の格納検索装置
JPH01259448A (ja) 漢字入力方式
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH09269952A (ja) 文書検索装置及びその方法
JPH0721212A (ja) 文書処理装置
JP2000348055A (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2000259675A (ja) 検索装置
JPH03161865A (ja) 文章の検索方法
JP2000112970A (ja) 情報検索装置
JPH09218868A (ja) 漢字指定方法及び装置