JP3104893B2 - 情報検索方式 - Google Patents

情報検索方式

Info

Publication number
JP3104893B2
JP3104893B2 JP04330126A JP33012692A JP3104893B2 JP 3104893 B2 JP3104893 B2 JP 3104893B2 JP 04330126 A JP04330126 A JP 04330126A JP 33012692 A JP33012692 A JP 33012692A JP 3104893 B2 JP3104893 B2 JP 3104893B2
Authority
JP
Japan
Prior art keywords
code
collation
target data
length
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04330126A
Other languages
English (en)
Other versions
JPH06176071A (ja
Inventor
信夫 武藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP04330126A priority Critical patent/JP3104893B2/ja
Publication of JPH06176071A publication Critical patent/JPH06176071A/ja
Application granted granted Critical
Publication of JP3104893B2 publication Critical patent/JP3104893B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードによる前方
一致論理(条件として指定したキーワードの長さ分を先
頭から比較して検索する論理)で検索を行う情報検索方
式に関する。
【0002】
【従来の技術】辞書等の検索では、1つの検索対象デー
タに別名等の複数のキーワードを付与して、曖昧な条件
でも検索できる方式がとられている。
【0003】
【発明が解決しようとする課題】しかし、検索条件とす
る文字列と前方一致論理で検索対象データを検索する場
合、以下のような問題がある。
【0004】図6に示すように、検索対象データ451
「天宮」に対して検索キーワード(照合符号列)251
「あまみや」が設定され、検索対象データ452「雨
宮」に対して検索キーワード252「あまみや」と25
3「あめみや」が設定されているとする。「あ」で始ま
る名前を検索する場合、検索キーワード251と252
と253の3つが該当する。検索キーワード252と2
53は検索対象データ452「雨宮」に付与されたキー
ワードであるので、検索対象データ452「雨宮」のみ
を検索結果とする処理が必要である。
【0005】これに対し、従来は、図7に示すように、
検索キーワード252と253が同一の検索対象データ
452を指すことを保証するため、検索対象データ45
1,452にユニークなコード521,522を付与し
て、検索結果を該コードでソートして、マージ処理によ
り同一の検索対象データの重複を削除する方式等が使用
されている。そのため、検索の度に、検索した結果全体
を対象に、ソート処理やマージ処理等が必要となり、検
索が頻繁に行われるオンライン処理では大きな負荷とな
る。
【0006】本発明の目的は、指定した検索キーワード
で始まる情報を検索する前方一致論理で情報検索する場
合に、同等な意味をもつデータが重複して検索されるの
を避け、必要なデータのみを、簡単な処理でかつ高速に
取り出す情報検索方式を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明の情報検索方式は、検索対象データが格納さ
れる検索対象データ記憶手段と、検索対象データに付与
された照合符号列および該照合符号列の符号一致長が格
納される照合符号列・符号一致長記憶手段と、各検索対
象データに対する照合符号列に優先順位をつけ、優先順
位が最も高い照合符号列M1 の符号一致長L1 を0と
し、優先順位iの高い順に照合符号列Mi(i≧2)を
照合符号列M1 からMi-1 と先頭の符号から逐次比較
し、連続して一致する符号の数のうちの最大値を照合符
号列Miの符号一致長Liとし、これら符号長Li(i
=1,2,・・・)を照合符号列・符号一致長記憶手段
に格納する符号一致長算出手段と、指定された、L0
の符号からなるキー符号列K0 を照合符号列・符号一致
長記憶手段に格納されている照合符号列Mi(i=1,
2,・・・)と比較し、先頭からL0 個の符号が一致
し、かつ符号一致長がL0 よりも小さい照合符号列を見
い出し、それに対応する検索対象データを検索対象デー
タ記憶手段から取り出す検索対象データ取り出し手段と
を有する。
【0008】
【作用】本発明では、まず、複数の検索対象データ(し
たがって、照合符号列も)に、それらの同一性、包含関
係、階層関係により単純な優先順位をつける。次に、照
合符号列を優先順位の高い順に、自分よりも優先順位の
高い照合符号列と先頭から比較して連続して一致する符
号の数のうちの最大値を、その照合符号列の符号一致長
とする。ただし、優先順位が1番高い照合符号列は比較
する照合符号列がないので、符号一致長を0とする。最
後に、指定されたキー符号列が与えられると、先頭から
0 個の符号が一致し、かつ符号一致長がキー符号列の
符号の個数よりも小さい照合符号列に対する検索対象デ
ータが取り出される。したがって、指定されたキー符号
列に対して同じ符号を含む符号列が複数あった場合、そ
の中で優先順位が最も高い照合符号列に対する検索対象
データが取り出される。
【0009】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0010】図1は本発明の一実施例の情報検索方式の
構成図である。
【0011】本実施例の情報検索方式は、検索対象デー
タが格納される検索対象データ記憶手段1と、検索対象
データに付与された照合符号列および該照合符号列の符
号一致長が格納される照合符号列・符号一致長記憶手段
2と、検索対象データに対する照合符号列Mに優先順位
をつけ、優先順位が最も高い照合符号列M1 の符号一致
長L1 を0とし、優先順位iの高い順に、照合符号列M
i(i≧2)を照合符号列M1 からMi-1 と先頭の符号
から逐次比較し、連続して一致する符号の数のうちの最
大値を照合符号列Miの符号一致長Liとし、これら符
号一致長Li(i=1,2,・・・)を照合符号列・符
号一致長記憶手段2に格納する符号一致長算出手段3
と、指定された、L0 個の符号からなるキー符号列K0
を照合符号列・符号一致長記憶手段2に格納されている
照合符号列Mi(i=1,2,・・・)と比較し、先頭
からL0 個の符号が一致し、かつ符号一致長がL0 より
も小さい照合符号列を見い出し、それに対応する検索対
象データを検索対象データ記憶手段1から取り出す検索
対象データ取り出し手段4とから構成されている。
【0012】図2は符号一致長算出手段3の処理を示す
流れ図である。まず、検索対象データを1つ検索対象デ
ータ記憶手段1から取り出す(ステップ11)。全ての
検索対象データについて処理が終了すれば、処理を終了
する(ステップ12)。該検索対象データに対するm個
の照合符号列に優先順位i=1,2,・・・,m(1が
最も高く、mが最も低い)をつける(ステップ13)。
照合符号列M1 の符号一致長L1 を0とし、i=1とす
る(ステップ14)。iを+1する(ステップ15)。
iをmと比較し(ステップ16)、iがmより大きけれ
ば、次の検索対象データを検索対象データ記憶手段1か
ら取り出し、前述の処理を繰り返す(ステップ11〜1
6)。iがm以下であれば、照合符号列Mi を照合符号
列Mj(1≦j≦i−1)と先頭より逐次比較し、連続
して一致する符号の数のうちの最大値を照合符号列Mi
の符号一致長Liとして照合符号列・符号一致長記憶手
段2に格納し(ステップ17)、ステップ15に戻る。
【0013】図3は本実施例による情報検索の第1の具
体例を示す図である。本具体例は、検索対象データ45
2「雨宮」に対する読みとして照合符号列252「あま
みや」、253「あめみや」があり、優先順位を「あめ
みや」→「あまみや」とした例である。
【0014】図2にしたがって、本具体例における符号
一致長算出処理を説明する。検索対象データ452「雨
宮」が取り出され(ステップ11)、優先順位からM1
=「あめみや」、M2 =「あまみや」、m=2となる
(ステップ13)。L1 =0,i=1となり(ステップ
14)、i=2に歩進される(ステップ15)。照合符
号列M2 を照合符号列M1 と比較すると、1文字目
「あ」では両者は一致し、2文字目は「め」「ま」で両
者は不一致となるので、照合符号列M2 の符号一致長L
2 =1が求まる(ステップ17)。次に、i=3となり
(ステップ13)、i>m=2であるのでステップ11
に戻る(ステップ16)。以降、他の検索対象データ4
51「天宮」、453「飯田」に対して上記の処理が繰
り返され、照合符号列251〜254に対する符号一致
長351〜354が図3のように求まる。
【0015】ここで、検索条件151としてキー符号列
「あ」が指定された場合、照合符号列251〜253先
頭の「あ」が一致するが、L0=1から符号一致長Li
<L0の条件を満たす符号一致長は照合符号列351と
353となり、目的とする検索対象データ「天宮」と
「雨宮」を得ることができる。
【0016】図4は本実施例による情報検索の第2の具
体例を示す図である。本具体例は、職業分類をかな読み
により検索するシステムへの適用例である。思いつく見
出し語から該当の職業分類を得ようとする場合、見出し
語には、次のような包含関係がある。
【0017】「健康食品」「自然食品」等をまとめて
「健康・自然食品」と扱う場合、「健康食品」「自然食
品」は、「健康・自然食品」と包含関係にある。このと
き、「けんこう」の検索キーで、まとめて「健康・自然
食品」のみを検索結果としたい場合に適用した例であ
る。
【0018】本具体例では、検索対象データ461「健
康・自然食品」が検索対象データ462「健康食品」、
検索対象データ463「自然食品」を包含するので、照
合符号列261〜263の優先順位を261「けんこう
しぜんしょくひん」→262「けんこうしょくひん」→
263「しぜんしょくひん」と設定して、図2から符号
一致長361〜363を算出している。
【0019】まず、ステップ13で、M1 =「けんこう
しぜんしょくひん」、M2 =「けんこうしょくひん」、
3 =「しぜんしょくひん」、m=3となる。1巡目の
ステップ17では、M1 とM2 からL2 =4が求まり、
2巡目のステップ17で、M 1 とM3 の一致長とM2
3 の一致長の最大値からL3 =0が求まる。
【0020】検索条件のキー符号列161として「けん
こう」が指定された場合、前方一致による検索では照合
符号列261と262が検索されるが、キー符号列16
1の長さL0 =4であるので、符号一致長がLi=4の
「けんこうしょくひん」262を包含する「けんこうし
ぜんしょくひん」261に対応する検索対象データ46
1「健康・自然食品」のみが検索される。
【0021】図5は本実施例による情報検索の第3の具
体例を示す図である。本例は、符号列として、文字列で
だけではなく「都道府県」「市区郡」「町村」等の単位
で1符号(例えば都道府県コード、市区町村コード等)
として扱い、住所をキーとして会社等を検索するシステ
ムに適用した例である。
【0022】本具体例は、検索対象データを471「A
本社」、472「本社」、473「AA部」、474
「BB部」、475「B支店」、476「BB部」、4
77「CC部」、478「DD部」とし、各検索対象デ
ータ471,472,473,474,475,47
6,477に対する照合符号列を271「東京都千代田
区内幸町」、272「東京都千代田区内幸町」、273
「東京都千代田区内幸町」、274「東京都千代田区大
手町」、275「東京都中央区銀座」、276「東京都
中央区銀座」、277「東京都中央区日本橋」、278
「東京都台東区上野公園」とし、検索対象データ471
〜478の優先順位を、471→472→475→47
3→474→476→477→478とした例である。
各照合符号列271〜278の符号一致長371〜37
8は、前記実施例と同様に、図2の流れ図にしたがって
算出される。
【0023】キー符号列171「東京都台東区上野公
園」(L0 =3)、172「東京都中央区」(L0
2)、173「東京都千代田区大手町」(L0 =3)、
174「東京都千代田区」(L0 =2)、175「東京
都」(L0 =1)に対して検索対象データ478,47
5,474,471,471がそれぞれ検索される。
【0024】
【発明の効果】以上説明したように本発明は、複数の検
索対象データを、それらの同一性、包含関係、階層関係
等により単純な優先順位に置き換え、優先順位の高い順
にそれらの照合符号列を自分より優先順位の高い照合符
号列と比較し、先頭の符号から連続して一致する符号の
数のうちの最大値である符号一致長を算出し、L0 個の
符号からなる、与えられたキー符号列の、先頭からL0
個の符号が一致し、かつ符号一致長がL0 よりも小さい
照合符号列に対応する検索対象データを選択することに
より、同等な意味をもつデータが重複して検索されるの
を避け、必要なデータのみを簡単な処理で、高速に取り
出すことができ、一般のデータベース管理システム(D
BMS)のもつ問い合わせ言語の大小比較の述語を用い
て簡単に実現できるため、検索プログラムが簡単化さ
れ、検索性能が向上する効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例の情報検索方式の構成図であ
る。
【図2】符号一致長算出手段3の処理の流れ図である。
【図3】図1の実施例による情報検索の第1の具体例を
示す図である。
【図4】図1の実施例による情報検索の第2の具体例を
示す図である。
【図5】図1の実施例による情報検索の第3の具体例を
示す図である。
【図6】検索対象データと検索キーワードの一例を示す
図である。
【図7】図6の検索対象データに対する従来の方式を示
す図である。
【符号の説明】
1 検索対象データ記憶手段 2 照合符号列・符号一致長記憶手段 3 符号一致長算出手段 4 検索対象データ取り出し手段 11〜17 ステップ 151,161,171〜175 キー符号列 251〜254,261〜263,271〜278
照合符号列 351〜354,361〜363,371〜378
符号一致長 451〜453,461〜463,471〜478
検索対象データ

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 検索対象データが格納される検索対象デ
    ータ記憶手段と、 各検索対象データに付与された照合符号列および該照合
    符号列の符号一致長が格納される照合符号列・符号一致
    長記憶手段と、 各検索対象データに対する照合符号列に優先順位をつ
    け、優先順位が最も高い照合符号列M1 の符号一致長L
    1 を0とし、優先順位iの高い順に照合符号列Mi(i
    ≧2)を照合符号列M1 からMi-1 と先頭の符号から逐
    次比較し、連続して一致する符号の数のうちの最大値を
    照合符号列Miの符号一致長Liとし、これら符号長L
    i(i=1,2,・・・)を前記照合符号列・符号一致
    長記憶手段に格納する符号一致長算出手段と、 指定された、L0 個の符号からなるキー符号列K0 を前
    記照合符号列・符号一致長記憶手段に格納されている照
    合符号列Mi(i=1,2,・・・)と比較し、先頭か
    らL0 個の符号が一致し、かつ符号一致長がL0 よりも
    小さい照合符号列を見い出し、それに対応する検索対象
    データを前記検索対象データ記憶手段から取り出す検索
    対象データ取り出し手段とを有する情報検索方式。
JP04330126A 1992-12-10 1992-12-10 情報検索方式 Expired - Fee Related JP3104893B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04330126A JP3104893B2 (ja) 1992-12-10 1992-12-10 情報検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04330126A JP3104893B2 (ja) 1992-12-10 1992-12-10 情報検索方式

Publications (2)

Publication Number Publication Date
JPH06176071A JPH06176071A (ja) 1994-06-24
JP3104893B2 true JP3104893B2 (ja) 2000-10-30

Family

ID=18229100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04330126A Expired - Fee Related JP3104893B2 (ja) 1992-12-10 1992-12-10 情報検索方式

Country Status (1)

Country Link
JP (1) JP3104893B2 (ja)

Also Published As

Publication number Publication date
JPH06176071A (ja) 1994-06-24

Similar Documents

Publication Publication Date Title
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US5544049A (en) Method for performing a search of a plurality of documents for similarity to a plurality of query words
CN102142038B (zh) 用于记号空间资料库的多级查询处理系统与方法
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
CN105843960B (zh) 基于语义树的索引方法和系统
US6691103B1 (en) Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
JPH08147320A (ja) 情報検索方法及びシステム
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JPH05225238A (ja) データベース検索システム
JPH0869476A (ja) 検索システム
CN114064820B (zh) 一种基于混合架构的表格语义查询粗排方法
JP3104893B2 (ja) 情報検索方式
JPH09319767A (ja) 類義語辞書登録方法
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
US20120136872A1 (en) Fast Database Matching
JPH0869474A (ja) 類似文字列検索装置
CN117453851B (zh) 基于知识图谱的文本索引增强问答方法及系统
JPH10177582A (ja) 最長一致検索方法及び装置
JPH08221254A (ja) マージソート方法及びマージソート装置
Gross Getty synoname: The development of software for personal name pattern matching
JPH02287876A (ja) テキスト型データベース装置
JPH04232570A (ja) キーワード検索方法
JPH05225248A (ja) データベース検索システム
JPH06274701A (ja) 単語照合装置
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees