JPH11120186A - データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体 - Google Patents

データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体

Info

Publication number
JPH11120186A
JPH11120186A JP9277349A JP27734997A JPH11120186A JP H11120186 A JPH11120186 A JP H11120186A JP 9277349 A JP9277349 A JP 9277349A JP 27734997 A JP27734997 A JP 27734997A JP H11120186 A JPH11120186 A JP H11120186A
Authority
JP
Japan
Prior art keywords
search
database
position information
term
delimiter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9277349A
Other languages
English (en)
Inventor
Yoshifumi Nagai
良史 永井
Masahiro Oku
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9277349A priority Critical patent/JPH11120186A/ja
Publication of JPH11120186A publication Critical patent/JPH11120186A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 単語として区切る位置により意味が変わる検
索候補に対する無駄な絞り込み作業を不要とし、高速検
索を可能とするデータベースの作成並びに検索方法とそ
れらの装置及びそれらのプログラムを記録した媒体を提
供すること。 【解決手段】 形態素解析部22で原データベース10
の各レコードに検索用インデックスとして付与されてい
る検索用語を単語単位に区切り、区切り位置付与部24
において前記得られた単語単位の各区切り位置が検索用
語の始まりから何文字目にあるのかをそれぞれ数えて区
切り位置情報とし、これをインデックス化部27で該当
するレコードの新たな検索用インデックスとして追加す
ることにより、検索対象データベース30とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索用インデック
スの一部を検索条件として許容するデータベースの作成
方法とその装置及びそのプログラムを記録した媒体並び
にデータベースの検索方法とその装置及びそのプログラ
ムを記録した媒体に関するものである。
【0002】
【従来の技術】従来の検索用インデックスの単語区切り
が付与されていないデータベースでは、その検索方法と
して、検索用インデックスだけを用いて検索を行ってい
た。つまり、ユーザが検索条件として与えたキーワード
を検索用インデックスに含むもの全てを候補とする方法
が取られていた。
【0003】例えば、正式な検索用インデックスが「福
岡海上火災」である情報に対し、ユーザが曖昧な記憶に
基づいて「福岡海上」と入力した場合、候補として「福
岡会城南支部(この例では「福岡」「会」「城南」「支
部」という単語から成り、「福岡会城」と「南支部」と
に区切ることはできない。)」や「福岡海上」が検索候
補となる。
【0004】
【発明が解決しようとする課題】しかしながら、このよ
うな従来のデータベースでは、(1)検索候補となった
「福岡会城南支部」は、「福岡」「会」「城南」「支
部」という複数の単語から構成されており、単語として
区切ることができない部分(「福岡会城」と「南支部」
で分けたこと。このため日本語としての意味が変わって
しまう。)で区切られたものも候補となることから、ユ
ーザが希望する候補ではないものも抽出される、(2)
ユーザが希望する候補でないものまでが候補となるた
め、候補数が膨らみ、絞り込み作業が煩雑になるととも
に、絞り込み作業を行うための負担や絞り込み作業を行
うための時間が増大する、という問題点があった。
【0005】本発明の目的は、単語として区切る位置に
より日本語としての意味が変わってしまう検索候補を省
き、無駄な絞り込み作業を不要とすることで、高速な検
索を可能とすることができるデータベースの作成方法と
その装置及びそのプログラムを記録した媒体並びにデー
タベースの検索方法とその装置及びそのプログラムを記
録した媒体を提供することにある。
【0006】
【課題を解決するための手段】本発明では、前記課題を
解決するため、1レコードに対し1つの用語(検索用
語)が検索用インデックスとして付与されているデータ
ベース(原データベース)を再構成して、検索対象デー
タベースを作成するデータベース作成方法において、原
データベースの各レコードに検索用インデックスとして
付与されている検索用語を単語単位に区切る形態素解析
を行い、得られた単語単位の各区切り位置が、検索用語
の始まりから何文字目にあるのかを数えて、これを区切
り位置情報として作成し、前記作成された区切り位置情
報を該当するレコードの新たな検索用インデックスとし
て追加することを特徴とするデータベース作成方法とそ
の装置及びそのプログラムを記録した媒体を提案する。
【0007】また、本発明では、1レコードに対し検索
用語とともに区切り位置情報が検索用インデックスとし
て付与されているデータベースを検索する際、ユーザが
入力した検索キーと検索用インデックスの初めの1文字
目以降が一致することを条件として検索(前方一致検
索)を行うデータベース検索方法において、検索キーの
文字長を数え、得られた検索キーの文字長が、該検索キ
ーと一致する前記データベース中の検索用語の区切り位
置情報と一致することを条件として検索することを特徴
とするデータベース検索方法とその装置及びそのプログ
ラムを記録した媒体を提案する。
【0008】本発明によれば、形態素解析された結果、
複数の単語からなる検索用語の各単語の区切り位置まで
の長さを数値に変換したものが得られ、この数値を新た
に検索用インデックスとして作成して検索を行うことに
より、無駄な検索候補を削減でき、高速な検索を可能に
する検索対象データベースを作成及び検索することがで
きる。
【0009】
【発明の実施の形態】まず、データベース作成方法とそ
の装置及びそのプログラムを記録した媒体について説明
する。
【0010】図1は本発明のデータベース作成装置の実
施の形態の一例を示すもので、図中、10は原データベ
ース、20はデータベース作成装置、30は検索対象デ
ータベースである。
【0011】原データベース10は、1レコードに対し
て1つの用語(検索用語)が検索用インデックスとして
付与されている、処理対象のデータベースである。
【0012】データベース作成装置20は、情報入力部
21、形態素解析部22、階段状レコード派生部23、
区切り位置付与部24、階段状区切り位置付与部25、
規定外位置情報破棄部26、インデックス化部27、出
力部28及び日本語辞書29から構成されている。
【0013】情報入力部21は、原データベース10に
格納されている情報を1レコードずつ取得し、形態素解
析部22に転送する。形態素解析部22は、日本語辞書
29を参照しながら情報入力部21で得られた情報、即
ち原データベース10の各レコードに検索用インデック
スとして付与されている検索用語を単語単位に分割す
る。なお、形態素解析部22における形態素解析の手法
については任意であり、特に定めない。
【0014】階段状レコード派生部23は、形態素解析
部22で得られた検索用語に対する単語単位の区切り位
置を元に、各区切り位置以降の文字列をそれぞれ新たな
検索用語として生成する。
【0015】区切り位置付与部24は、単語単位の各区
切り位置が、階段状レコード派生部23で得られた用語
の始まりから何文字目にあるのかを数えて、これを区切
り位置情報として作成する。
【0016】階段状区切り位置付与部25は、階段状レ
コード派生部23で新たに生成された検索用語を含む検
索用インデックス中の検索用語(最も短い文字列からな
る検索用語を除く)毎に、より短い文字列からなる全て
の検索用語における区切り位置情報をコピーし、これを
階段状区切り位置情報として蓄積する。
【0017】規定外位置情報破棄部26は、予め規定し
た値を超えた区切り位置情報を、階段状区切り位置付与
部25で得られた区切り位置情報から破棄する。
【0018】インデックス化部27は、区切り位置付与
部24と階段状区切り位置付与部25で得られた区切り
位置の数値情報をインデックスとして出力部28へ転送
する。出力部28は、検索用インデックスとして区切り
位置情報を、検索対象データベース30に対して出力す
る。
【0019】日本語辞書29は、用語を形態素解析する
ための日本語の辞書である。
【0020】このデータベース作成装置20は、CP
U、メモリ、外部記憶装置などのハードウェアととも
に、図2の動作フローチャートに示される手順を備えた
ソフトウェア(プログラム)で実現される。
【0021】検索対象データベース30は、原データベ
ース10中の検索用インデックスを出力部28からの検
索用インデックスに置き換えた、目的のデータベースで
ある。
【0022】以下、本装置の動作を説明する。
【0023】<ステップs1>情報入力部21では、原
データベース10から1レコードを読み出し、形態素解
析部22へ送る。
【0024】<ステップs2>形態素解析部22では、
情報入力部21から送られた検索用語に対して形態素解
析を行い、単語単位に区切り情報を与え、その結果を階
段状レコード派生部23へ送る。
【0025】<ステップs3>階段状レコード派生部2
3では、検索用語の単語数を、形態素解析部22で得ら
れた区切り位置情報を元に数え、nに代入する。
【0026】<ステップs4>階段状レコード派生部2
3では、削除単語数kに0を代入する。
【0027】<ステップs5>階段状レコード派生部2
3では、形態素解析部22で得られた複数の単語の先頭
からk個の単語を除いた残りの単語から構成される用語
を生成し、蓄積した後、この用語を持つ派生レコードを
区切り位置付与部24へ送る。
【0028】<ステップs6>区切り位置付与部24で
は、区切り位置情報を、階段状レコード派生部23で得
られた用語の始まりから数えて何文字目にあったのかを
区切り位置として蓄積し、ステップs7へ進む。
【0029】<ステップs7>kとn−1が等しくなけ
ればステップs8へ、等しければステップs9へ進む。
【0030】<ステップs8>kに1を加算する。
【0031】<ステップs9>階段状区切り位置付与部
25では、階段状区切り位置を付与する派生レコード項
番aに1を代入する。
【0032】<ステップs10>階段状区切り位置付与
部25では、区切り位置をコピーする派生レコード項番
bに1を代入する。
【0033】<ステップs11>階段状区切り位置付与
部25では、a+b番目の区切り位置をa番目に派生し
たレコードの検索用語の階段状区切り位置に追加コピー
する。
【0034】<ステップs12>nとa+bが等しくな
ければステップs13へ進み、等しければステップs1
4へ進む。
【0035】<ステップs13>bに1を加算する。
【0036】<ステップs14>規定外位置情報破棄部
26では、予め規定した値に従って、規定値を超えた階
段状区切り位置を破棄し、a番目に派生したレコードの
検索用語の階段状区切り位置として蓄積する。
【0037】<ステップs15>nがa+1と等しくな
ければステップs16へ進み、等しければステップs1
7へ進む。
【0038】<ステップs16>aに1を加算し、ステ
ップs10へ進む。
【0039】<ステップs17>ステップs6で蓄積し
た区切り位置とステップs14で蓄積した階段状区切り
位置とをインデックス化する。
【0040】<ステップs18>出力部28では、処理
結果を出力し、原データベース10に格納されている情
報全てについて前記の派生処理が終了したか否かを確認
し、処理を終えていないレコードが存在すればステップ
s18へ進み、終了していれば処理を終了する。<ステ
ップs19>情報入力部21では、原データベースから
次の情報を1レコード分抽出し、形態素解析部22へ送
る(ステップs2へ進む)。
【0041】以上の処理によって、予め原データベース
10に蓄積されている検索用語を形態素解析し、形態素
解析された結果、複数の単語からなる検索用インデック
スの各単語の区切り位置までの長さを数値に変換したも
のが得られ、この数値を新たに検索用インデックスとす
ることで高速な検索を可能にする検索対象データベース
30を作成し、無駄な検索候補を削減することで高速な
検索を行うことができる。
【0042】なお、階段状区切り位置付与部25では、
形態素解析部22で得られた検索用語に対する単語単位
の各区切り位置のうちの2番目以降の各区切り位置を起
点として、単語単位の各区切り位置が、各単語の始まり
から何文字目にあるのかを数えて、これを階段状区切り
位置情報として蓄積するようにしても良い。この場合の
動作フローチャートを図3に示す。
【0043】この場合の動作はステップs10、s1
1、s12が以下のようなステップs10’、s1
1’、s12’に変わる点を除いて前記と同様である。
【0044】<ステップs10’>階段状区切り位置付
与部25では、処理する単語bに1を代入する。
【0045】<ステップs11’>階段状区切り位置付
与部25では、a番目の派生レコードの階段状区切り位
置としてa番目の派生レコードのb番目にある単語を先
頭として区切り位置を数値化する。
【0046】<ステップs12’>nとbが等しくなけ
ればステップs13へ進み、等しければステップs14
へ進む。
【0047】以下、図1、図2とともに図4乃至図6を
用いてデータベース作成の動作を具体的に説明する。図
4は原データベースの一例を、図5は実際の処理のよう
すを、図6は検索用インデックスの一例をそれぞれ示す
ものである。
【0048】情報入力部21で、まず原データベース1
0に格納されている、検索用語が「福岡海上火災」のレ
コードを取得し、形態素解析部22に転送する(ステッ
プs1)(図5(a))。
【0049】形態素解析部22は、日本語辞書29を参
照しながら「福岡海上火災」に対して形態素解析を行
い、その結果として「福岡+海上+火災」(但し、
「+」は単語区切り情報を表すものとする。)を得て、
階段状レコード派生部23へ送る(ステップs2)(図
5(b))。
【0050】階段状レコード派生部23では、検索用語
「福岡+海上+火災」の単語数として3をnに代入する
(ステップs3)。
【0051】階段状レコード派生部23では、削除単語
数kに0を代入する(ステップs4)。
【0052】階段状レコード派生部23では、「福岡+
海上+火災」の単語の先頭からk(=0)個の単語を除
いた残りの単語から構成される「福岡+海上+火災」を
生成し、この用語を派生レコードの検索用語として持つ
レコードを生成し蓄積後、区切り位置付与部24へ送る
(ステップs5)。
【0053】区切り位置付与部24では、階段状レコー
ド派生部23で得られた「福岡+海上+火災」の用語を
その始まりから数え、区切り位置が”2,4,
6”(””で囲まれた数字は区切り位置を表すものとす
る。)番目にあるとして、これを区切り位置情報として
蓄積する(ステップs6)(図5(c))。
【0054】k(=0)とn−1(=2)では等しくな
いのでステップs8へ進む(ステップs7)。
【0055】k(=0)に1を加算し、k=1とした
後、ステップs5へ進む(ステップs8)。
【0056】階段状レコード派生部23では、「福岡+
海上+火災」の単語の先頭からk(=1)個の単語を除
いた残りの単語から構成される「海上+火災」を生成
し、この用語を派生レコードの検索用語として持つレコ
ードを生成し蓄積後、区切り位置付与部24へ送る(ス
テップs5)(図5(d))。
【0057】区切り位置付与部24では、、階段状レコ
ード派生部23で得られた「海上+火災」の用語をその
始まりから数えて区切り位置が”2,4”番目にあると
して、これを区切り位置情報として蓄積する(ステップ
s6)(図5(e))。
【0058】k(=1)とn−1(=2)では等しくな
いのでステップs8へ進む(ステップs7)。
【0059】k(=1)に1を加算し、k=2とした
後、ステップs5へ進む(ステップs8)。
【0060】階段状レコード派生部23では、「福岡+
海上+火災」の単語の先頭からk(=2)個の単語を除
いた残りの単語から構成される「火災」を生成し、この
用語を派生レコードの検索用語として持つレコードを生
成し蓄積後、区切り位置付与部24へ送る(ステップs
5)(図5(f))。
【0061】区切り位置付与部24では、階段状レコー
ド派生部23で得られた「火災」の用語をその始まりか
ら数えて区切り位置が”2”番目にあるとして、これを
区切り位置情報として蓄積する(ステップs6)(図5
(g))。
【0062】k(=2)とn−1(=2)では等しくな
るためステップs9へ進む(ステップs7)。
【0063】階段状区切り位置付与部25では、階段状
区切り位置を付与しようとする派生レコード項番aに1
を代入する(ステップs9)。
【0064】階段状区切り位置付与部25では、区切り
位置のコピー元となる派生レコード項番bに1を代入す
る(ステップs10)。
【0065】階段状区切り位置付与部25では、a+b
(=2)番目の派生レコードの区切り位置”2,4”を
a(=1)番目に派生したレコードの検索用語の階段状
区切り位置にコピーする(ステップs11)。
【0066】n(=3)とa+b(=2)では等しくな
いのでステップs13へ進む(ステップs12)。
【0067】b(=1)に1を加算し、b=2とする
(ステップs13)。
【0068】階段状区切り位置付与部25では、a+b
(=3)番目の派生レコードの区切り位置”2”をa
(=1)番目に派生したレコードの検索用語の階段状区
切り位置に追加コピーし、”2,4,2”とする(ステ
ップs11)。
【0069】n(=3)とa+b(=3)では等しくな
るためステップs14へ進む(ステップs12)。
【0070】規定外位置情報破棄部26では、予め規定
した値(ここでは「4」)に従って、階段状区切り位
置”2,4,2”から規定値を超えた階段状区切り位
置”4”を破棄し、a(=1)番目に派生したレコード
の検索用語の階段状区切り位置として”2,2”を蓄積
する(ステップs14)(図5(h))。
【0071】n(=3)とa+1(=2)では等しくな
いのでステップs16へ進む(ステップs15)。
【0072】a(=1)に1を加算し、a=2とした
後、ステップs10へ進む(ステップs16)。
【0073】階段状区切り位置付与部25では、区切り
位置をコピーする派生レコード項番bに1を代入する
(ステップs10)。
【0074】階段状区切り位置付与部25では、a+b
(=3)番目の派生レコードの区切り位置”2”をa
(=2)番目に派生したレコードの検索用語の階段状区
切り位置にコピーする(ステップs11)。
【0075】n(=3)とa+b(=3)では等しくな
るためステップs14へ進む(ステップs12)。
【0076】規定外位置情報破棄部26では、予め規定
した値(ここでは「4」)に従って、階段状区切り位
置”2”から規定値を超えた階段状区切り位置を破棄し
(但し、ここでは該当なし)、a(=2)番目に派生し
たレコードの検索用語の階段状区切り位置として”2”
を蓄積する(ステップs14)(図5(i))。
【0077】n(=3)とa+1(=3)では等しくな
るためステップs17へ進む(ステップs15)。
【0078】ステップs6とステップs14で蓄積され
た「福岡+海上+火災」の区切り位置”2,4,6”と
階段状区切り位置”2,2”、「海上+火災」の区切り
位置”2,4”と階段状区切り位置”2”、「火災」の
区切り位置”2”をインデックス化する(ステップs1
7)。
【0079】出力部8では、処理結果を出力し、原デー
タベースに格納されている情報全てについて前記の派生
処理が終了しているかを確認する。ここでは、まだ、処
理を終えていない「福岡会城南支部」のレコードが存在
するので、ステップs19へ進む。もし全てのレコード
について処理が完了していれば終了する(ステップs1
8)。
【0080】情報入力部21では、原データベース10
から次の「福岡会城南支部」を読み込み(ステップs1
9)、形態素解析部22へ送る(ステップs2)。
【0081】以上の処理の概要を図5に実際の処理のよ
うすとして示す(なお、図5中の[]内の記述は処理の
内容を示し、また、太線枠で囲まれた項目は[]の処理
による結果を示す。)。これによって、予め図4のよう
な原データベースに蓄積されている「福岡海上火災」の
レコードは図6の項番1から項番3のような検索用語3
1、区切り位置32及び階段状区切り位置33を得る。
【0082】このようにして生成された検索用インデッ
クスを有する検索対象データベース30に対し、ユーザ
が検索を行うための用語(検索キー)を1つだけ入力し
て検索を行う場合、データベースに登録されている検索
用インデックスと全く(完全に)一致することを条件と
する検索方法でも構わないし、検索用インデックスの1
文字以降が検索キーと同じになることを条件とする検索
方法でも良い。
【0083】データベースに登録されている検索用イン
デックスと全く一致することを条件とする場合は、検索
用語31だけを用いて検索を行うため、従来の方法と本
発明の方法に差異はない。
【0084】データベースに登録されている検索用イン
デックスの初めの1文字目以降が検索キーと同じになる
ことを条件とする場合には、検索用語31に加えて、区
切り位置32を用いることで高速な検索が期待できる。
【0085】例えば、ユーザが「福岡海上」と入力した
場合には、検索用語31の検索対象は「福岡海上%」
(%はインデックス側に単数もしくは複数の文字があっ
てもなくても良いことを表す。)、区切り位置32の検
索対象は”%4%”となり、項番1の派生レコードのみ
が検索候補となる。
【0086】この方法では漢字を元にした検索用インデ
ックスに対して検索を行っても、読み仮名を元にした検
索用インデックスに対して検索を行っても変わらない
が、従来の方法で読み仮名を元にした検索用インデック
スに対して「ふくおかかいじょう%」を検索キーとして
検索すると、項番4の「ふくおかかいじょうなんしぶ
(「ふくおかかいじょう」の部分が同一)」も候補とな
ってしまう。
【0087】次に、ユーザが複数の検索キーを入力して
検索を行う場合の例を説明する。ユーザが「福岡」、
「火災」というような複数の検索キーを入力した場合、
検索用語31、区切り位置32及び階段状区切り位置3
3を用いることで高速な検索が期待できる。
【0088】この場合は、検索用語31の検索対象とし
て「福岡%」と「%火災%」、区切り位置32の検索対
象として「福岡」の2文字目に区切りがあることを表
す”%2%”、階段状区切り位置33の検索対象として
「火災」の2文字目に区切りがあることを表す”%2
%”とすることで、これらの区切り位置を含まない候補
は検索されなくなり、無駄な候補を除くことができる。
【0089】このように用語の区切り位置を新たに検索
用インデックスとして作成することで高速な検索を可能
にする検索対象データベースを作成し、無駄な検索候補
を削減することで高速な検索を可能にすることができ
る。
【0090】次に、前述したデータベースの検索方法と
その装置及びそのプログラムを記録した媒体について説
明する。
【0091】図7は本発明のデータベース検索装置の実
施の形態の一例を示すもので、図中、30は前述した検
索対象データベース、40はデータベース検索装置であ
る。
【0092】データベース検索装置40は、情報入力部
41、文字長計算部42、区切り位置検索部43及び候
補出力部44から構成されている。
【0093】情報入力部41は、キーボードなどより利
用者が入力した検索キーを文字長計算部42に転送す
る。
【0094】文字長計算部42は、検索キーが単数か複
数かを判定するとともに、検索キーの文字数(文字長)
を計測(検索キーが複数の場合は各検索キー毎に)す
る。
【0095】区切り位置検索部43は、得られた検索キ
ーの文字数が、該検索キーと一致した前記データベース
30中の検索用語の持つ区切り位置情報と一致すること
を条件にして検索する。
【0096】候補出力部44は、得られた検索結果の候
補を出力する。
【0097】このデータベース検索装置40は、CP
U、メモリ、外部記憶装置などのハードウェアととも
に、図8の動作フローチャートに示される手順を備えた
ソフトウェア(プログラム)で実現される。
【0098】以下、本装置の動作を説明する。
【0099】<ステップss1>情報入力部41では、
利用者が入力した検索キーを文字長計算部42へ送る。
【0100】<ステップss2>文字長計算部42で
は、情報入力部41から送られた検索キーが単数か複数
かを判定し、単数であればステップss3へ進み、複数
であればステップss7へ進む。
【0101】<ステップss3>文字長計算部42で
は、検索キーが検索用語と完全に一致することを条件と
するか否かを判定し、完全に一致することを条件とする
場合はステップss4へ進み、部分的な一致を許容する
場合はステップss5へ進む。
【0102】<ステップss4>区切り位置検索部43
では、データベース30中で検索用語が検索キーと完全
に一致するものを検索し、候補として情報出力部44へ
送る。
【0103】<ステップss5>区切り位置検索部43
では、検索キーの文字数aを計数する。
【0104】<ステップss6>区切り位置検索部43
では、データベース30中で検索用語が検索キーと部分
的に一致し、かつ区切り位置情報に前記文字数aを含む
ものを検索し、候補として情報出力部44へ送る。
【0105】<ステップss7>文字長計算部42で
は、検索キーの数bを計数する。
【0106】<ステップss8>文字長計算部42で
は、c=1とおく。
【0107】<ステップss9>文字長計算部42で
は、c番目の検索キーの文字数を計数して蓄積する。
【0108】<ステップss10>文字長計算部42で
は、b=cでなければステップss11へ進み、b=c
であればステップss12へ進む。
【0109】<ステップss11>文字長計算部42で
は、cに1を加算する。
【0110】<ステップss12>区切り位置検索部4
3では、データベース30中で検索用語が検索キーと部
分的に一致し、かつ区切り位置情報に前記ステップss
9で蓄積した文字数を含むものを検索し、候補として情
報出力部44へ送る。
【0111】<ステップss13>情報出力部44で
は、得られた検索結果の候補をディスプレイ、プリンタ
などにより利用者に出力する。
【0112】以上の処理によって、検索用語とともにそ
の区切り位置情報を検索用インデックスとして使用する
ことにより検索対象データベース30を検索する時点で
無駄な検索候補を削減することができ、高速な検索を行
うことができる。
【0113】
【発明の効果】以上の説明から明らかなように、本発明
によれば、形態素解析された結果、複数の単語からなる
用語(検索用語)の各単語の区切り位置までの長さを数
値に変換したものが得られ、この数値を新たに検索用イ
ンデックスとして作成して検索を行うことにより、無駄
な検索候補を削減でき、高速な検索を可能にすることが
できる。つまり、(1)形態素解析された結果の区切り
位置を検索用インデックスとして用いることができるた
め、意味のない不要な候補を検索の時点で削減でき、ユ
ーザが要求している検索結果を返すことができ、(2)
意味のない候補が検索時点で削減できることから、シス
テムにかかる負担を軽減でき、高速な検索が実現でき
る。
【図面の簡単な説明】
【図1】本発明のデータベース作成装置の実施の形態の
一例を示す構成図
【図2】図1のデータベース作成装置の動作フローチャ
ート
【図3】データベース作成装置の他の動作フローチャー
【図4】原データベースの一例を示す説明図
【図5】実際のデータベース作成処理のようすを示す説
明図
【図6】検索用インデックスの一例を示す説明図
【図7】本発明のデータベース検索装置の実施の形態の
一例を示す構成図
【図8】図7のデータベース検索装置の動作フローチャ
ート
【符号の説明】
10:原データベース、20:データベース作成装置、
21:情報入力部、22:形態素解析部、23:階段状
レコード派生部、24:区切り位置付与部、25:階段
状区切り位置付与部、26:規定外位置情報破棄部、2
7:インデックス化部、28:出力部、29:日本語辞
書、30:検索対象データベース、31:検索用語、3
2:区切り位置、33:階段状区切り位置、40:デー
タベース検索装置、41:情報入力部、42:文字長計
算部、43:区切り位置検索部、44:情報出力部。

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 1レコードに対し1つの用語(検索用
    語)が検索用インデックスとして付与されているデータ
    ベース(原データベース)を再構成して、検索対象デー
    タベースを作成するデータベース作成方法において、 原データベースの各レコードに検索用インデックスとし
    て付与されている検索用語を単語単位に区切る形態素解
    析を行い、 得られた単語単位の各区切り位置が、検索用語の始まり
    から何文字目にあるのかを数えて、これを区切り位置情
    報として作成し、 前記作成された区切り位置情報を該当するレコードの新
    たな検索用インデックスとして追加することを特徴とす
    るデータベース作成方法。
  2. 【請求項2】 形態素解析の結果、得られた単語単位の
    各区切り位置の単語を始まりとし、検索用語中の各区切
    り位置以降の文字列を新たな検索用語として生成し、 前記生成された少なくとも1つの検索用語を検索用イン
    デックスとするレコードを蓄積することを特徴とする請
    求項1記載のデータベース作成方法。
  3. 【請求項3】 新たに生成された検索用語を含む検索用
    インデックス中の検索用語(最も短い文字列からなる検
    索用語を除く)毎に、より短い文字列からなる全ての検
    索用語における区切り位置情報をコピーし、これを階段
    状区切り位置情報として作成し、 前記作成された階段状区切り位置情報を該当するレコー
    ドの新たな検索用インデックスとして追加することを特
    徴とする請求項2記載のデータベース作成方法。
  4. 【請求項4】 形態素解析の結果、得られた単語単位の
    各区切り位置のうちの2番目以降の各区切り位置を起点
    として、単語単位の各区切り位置が、各単語の始まりか
    ら何文字目にあるのかを数えて、これを階段状区切り位
    置情報として作成し、 前記作成された階段状区切り位置情報を該当するレコー
    ドの新たな検索用インデックスとして追加することを特
    徴とする請求項1又は2記載のデータベース作成方法。
  5. 【請求項5】 階段状区切り位置情報としてインデック
    ス化する数字の大きさに規定値を設け、規定値を超えた
    区切り位置情報を破棄することを特徴とする請求項3又
    は4記載のデータベース作成方法。
  6. 【請求項6】 1レコードに対し1つの用語(検索用
    語)が検索用インデックスとして付与されているデータ
    ベース(原データベース)を再構成して、検索対象デー
    タベースを作成するデータベース作成装置において、 原データベースの各レコードに検索用インデックスとし
    て付与されている検索用語を単語単位に区切る形態素解
    析を行う形態素解析手段と、 前記解析の結果、得られた単語単位の各区切り位置が、
    検索用語の始まりから何文字目にあるのかを数えて、こ
    れを区切り位置情報として作成する区切り位置付与手段
    と、 前記作成された区切り位置情報を該当するレコードの新
    たな検索用インデックスとして追加するインデックス化
    手段とを備えたことを特徴とするデータベース作成装
    置。
  7. 【請求項7】 形態素解析の結果、得られた単語単位の
    各区切り位置の単語を始まりとし、検索用語中の各区切
    り位置以降の文字列を新たな検索用語として生成する用
    語生成手段と、 前記生成された少なくとも1つの検索用語を検索用イン
    デックスとするレコードを蓄積するレコード蓄積手段と
    を備えたことを特徴とする請求項6記載のデータベース
    作成装置。
  8. 【請求項8】 新たに生成された検索用語を含む検索用
    インデックス中の検索用語(最も短い文字列からなる検
    索用語を除く)毎に、より短い文字列からなる全ての検
    索用語における区切り位置情報をコピーし、これを階段
    状区切り位置情報として作成する階段状区切り位置付与
    手段を備え、 前記作成された階段状区切り位置情報を該当するレコー
    ドの新たな検索用インデックスとして追加することを特
    徴とする請求項7記載のデータベース作成装置。
  9. 【請求項9】 形態素解析の結果、得られた単語単位の
    各区切り位置のうちの2番目以降の各区切り位置を起点
    として、単語単位の各区切り位置が、各単語の始まりか
    ら何文字目にあるのかを数えて、これを階段状区切り位
    置情報として作成する階段状区切り位置付与手段を備
    え、 前記作成された階段状区切り位置情報を該当するレコー
    ドの新たな検索用インデックスとして追加することを特
    徴とする請求項6又は7記載のデータベース作成装置。
  10. 【請求項10】 階段状区切り位置情報としてインデッ
    クス化する数字の大きさに規定値を設け、規定値を超え
    た区切り位置情報を破棄する規定外位置情報破棄手段を
    備えたことを特徴とする請求項8又は9記載のデータベ
    ース作成装置。
  11. 【請求項11】 1レコードに対し1つの用語(検索用
    語)が検索用インデックスとして付与されているデータ
    ベース(原データベース)を再構成して、検索対象デー
    タベースを作成するデータベース作成プログラムを記録
    した媒体において、 原データベースの各レコードに検索用インデックスとし
    て付与されている検索用語を単語単位に区切る形態素解
    析を行う形態素解析過程と、 前記解析の結果、得られた単語単位の各区切り位置が、
    検索用語の始まりから何文字目にあるのかを数えて、こ
    れを区切り位置情報として作成する区切り位置付与過程
    と、 前記作成された区切り位置情報を該当するレコードの新
    たな検索用インデックスとして追加するインデックス化
    過程とを備えたことを特徴とするデータベース作成プロ
    グラムを記録した媒体。
  12. 【請求項12】 形態素解析の結果、得られた単語単位
    の各区切り位置の単語を始まりとし、検索用語中の各区
    切り位置以降の文字列を新たな検索用語として生成する
    用語生成過程と、 前記生成された少なくとも1つの検索用語を検索用イン
    デックスとするレコードを蓄積するレコード蓄積過程と
    を備えたことを特徴とする請求項11記載のデータベー
    ス作成プログラムを記録した媒体。
  13. 【請求項13】 新たに生成された検索用語を含む検索
    用インデックス中の検索用語(最も短い文字列からなる
    検索用語を除く)毎に、より短い文字列からなる全ての
    検索用語における区切り位置情報をコピーし、これを階
    段状区切り位置情報として作成する階段状区切り位置付
    与過程と、 前記作成された階段状区切り位置情報を該当するレコー
    ドの新たな検索用インデックスとして追加するインデッ
    クス化過程とを備えたことを特徴とする請求項12記載
    のデータベース作成プログラムを記録した媒体。
  14. 【請求項14】 形態素解析の結果、得られた単語単位
    の各区切り位置のうちの2番目以降の各区切り位置を起
    点として、単語単位の各区切り位置が、各単語の始まり
    から何文字目にあるのかを数えて、これを階段状区切り
    位置情報として作成する階段状区切り位置付与過程と、 前記作成された階段状区切り位置情報を該当するレコー
    ドの新たな検索用インデックスとして追加するインデッ
    クス化過程とを備えたことを特徴とする請求項11又は
    12記載のデータベース作成プログラムを記録した媒
    体。
  15. 【請求項15】 階段状区切り位置情報としてインデッ
    クス化する数字の大きさに規定値を設け、規定値を超え
    た区切り位置情報を破棄する規定外位置情報破棄過程を
    備えたことを特徴とする請求項13又は14記載のデー
    タベース作成プログラムを記録した媒体。
  16. 【請求項16】 1レコードに対し検索用語とともに区
    切り位置情報が検索用インデックスとして付与されてい
    るデータベースを検索する際、ユーザが入力した検索キ
    ーと検索用インデックスの初めの1文字目以降が一致す
    ることを条件として検索(前方一致検索)を行うデータ
    ベース検索方法において、 検索キーの文字長を数え、 得られた検索キーの文字長が、該検索キーと一致する前
    記データベース中の検索用語の区切り位置情報と一致す
    ることを条件として検索することを特徴とするデータベ
    ース検索方法。
  17. 【請求項17】 1レコードに対し検索用語とともに区
    切り位置情報が検索用インデックスとして付与されてい
    るデータベースを検索する際、ユーザが入力した第1番
    目の検索キーと検索用インデックスの初めの1文字目以
    降が一致することを条件として検索(前方一致検索)を
    行い、ユーザが入力した第2番目、……第n番目の検索
    キーと検索用インデックスが部分一致することを条件と
    して検索するデータベース検索方法において、 第1番目、第2番目、……第n番目の検索キーの文字長
    を数え、 得られた第1番目、第2番目、……第n番目の検索キー
    の文字長が、該検索キーと一致する前記データベース中
    の検索用語の区切り位置情報と一致することを条件とし
    て検索することを特徴とするデータベース検索方法。
  18. 【請求項18】 1レコードに対し検索用語とともに区
    切り位置情報が検索用インデックスとして付与されてい
    るデータベースを検索する際、ユーザが入力した検索キ
    ーと検索用インデックスの初めの1文字目以降が一致す
    ることを条件として検索(前方一致検索)を行うデータ
    ベース検索装置において、 検索キーの文字長を数える文字長計算手段と、 得られた検索キーの文字長が、該検索キーと一致する前
    記データベース中の検索用語の区切り位置情報と一致す
    ることを条件として検索する区切り位置検索手段と備え
    たことを特徴とするデータベース検索装置。
  19. 【請求項19】 1レコードに対し検索用語とともに区
    切り位置情報が検索用インデックスとして付与されてい
    るデータベースを検索する際、ユーザが入力した第1番
    目の検索キーと検索用インデックスの初めの1文字目以
    降が一致することを条件として検索(前方一致検索)を
    行い、ユーザが入力した第2番目、……第n番目の検索
    キーと検索用インデックスが部分一致することを条件と
    して検索するデータベース検索装置において、 第1番目、第2番目、……第n番目の検索キーの文字長
    を数える文字長計算手段と、 得られた第1番目、第2番目、……第n番目の検索キー
    の文字長が、該検索キーと一致した前記データベース中
    の検索用語の区切り位置情報と一致することを条件とし
    て検索する区切り位置検索手段とを備えたことを特徴と
    するデータベース検索装置。
  20. 【請求項20】 1レコードに対し検索用語とともに区
    切り位置情報が検索用インデックスとして付与されてい
    るデータベースを検索する際、ユーザが入力した検索キ
    ーと検索用インデックスの初めの1文字目以降が一致す
    ることを条件として検索(前方一致検索)を行うデータ
    ベース検索プログラムを記録した媒体において、 検索キーの文字長を数える文字長計算過程と、 得られた検索キーの文字長が、該検索キーと一致する前
    記データベース中の検索用語の区切り位置情報と一致す
    ることを条件として検索する区切り位置検索過程と備え
    たことを特徴とするデータベース検索プログラムを記録
    した媒体。
  21. 【請求項21】 1レコードに対し検索用語とともに区
    切り位置情報が検索用インデックスとして付与されてい
    るデータベースを検索する際、ユーザが入力した第1番
    目の検索キーと検索用インデックスの初めの1文字目以
    降が一致することを条件として検索(前方一致検索)を
    行い、ユーザが入力した第2番目、……第n番目の検索
    キーと検索用インデックスが部分一致することを条件と
    して検索するデータベース検索プログラムを記録した媒
    体において、 第1番目、第2番目、……第n番目の検索キーの文字長
    を数える文字長計算過程と、 得られた第1番目、第2番目、……第n番目の検索キー
    の文字長が、該検索キーと一致した前記データベース中
    の検索用語の区切り位置情報と一致することを条件とし
    て検索する区切り位置検索過程とを備えたことを特徴と
    するデータベース検索検索プログラムを記録した媒体。
JP9277349A 1997-10-09 1997-10-09 データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体 Pending JPH11120186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9277349A JPH11120186A (ja) 1997-10-09 1997-10-09 データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9277349A JPH11120186A (ja) 1997-10-09 1997-10-09 データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体

Publications (1)

Publication Number Publication Date
JPH11120186A true JPH11120186A (ja) 1999-04-30

Family

ID=17582297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9277349A Pending JPH11120186A (ja) 1997-10-09 1997-10-09 データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体

Country Status (1)

Country Link
JP (1) JPH11120186A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005158044A (ja) * 2003-10-30 2005-06-16 Fujitsu Ltd 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JP2015007943A (ja) * 2013-06-26 2015-01-15 日本電気株式会社 形態素解析装置、形態素解析方法、及び、形態素解析プログラム
JP2015146171A (ja) * 2014-02-04 2015-08-13 有限会社ティ辞書企画 検索装置、検索方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005158044A (ja) * 2003-10-30 2005-06-16 Fujitsu Ltd 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JP2015007943A (ja) * 2013-06-26 2015-01-15 日本電気株式会社 形態素解析装置、形態素解析方法、及び、形態素解析プログラム
JP2015146171A (ja) * 2014-02-04 2015-08-13 有限会社ティ辞書企画 検索装置、検索方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
JP5376163B2 (ja) 文書管理・検索システムおよび文書の管理・検索方法
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JPH0844771A (ja) 情報検索装置
JPH11120186A (ja) データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体
JPS63244259A (ja) キ−ワ−ド抽出装置
JPH056398A (ja) 文書登録装置及び文書検索装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JPH10149370A (ja) 文脈情報を用いた文書検索方法および装置
JPH08190571A (ja) 文書検索方法
JPH06124305A (ja) 文書検索方法
JPH0827803B2 (ja) テキストベース検索方法
JPH09212523A (ja) 全文検索方法
JPH09120401A (ja) シソーラス作成装置
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JP2003288366A (ja) 類似テキスト検索装置
JPH11143904A (ja) データベース検索方法,装置およびデータベース検索プログラムを記録した記録媒体
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JPH03229367A (ja) テキストベース検索方式
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JP2002342373A (ja) 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体