JPH05250412A - 類似データ検索方法 - Google Patents

類似データ検索方法

Info

Publication number
JPH05250412A
JPH05250412A JP4083043A JP8304392A JPH05250412A JP H05250412 A JPH05250412 A JP H05250412A JP 4083043 A JP4083043 A JP 4083043A JP 8304392 A JP8304392 A JP 8304392A JP H05250412 A JPH05250412 A JP H05250412A
Authority
JP
Japan
Prior art keywords
key vector
data
key
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4083043A
Other languages
English (en)
Inventor
Eiichi Uozumi
栄市 魚住
Ichigaku Asano
一学 浅野
Kotomori Kitamura
士守 北村
Haruo Hayamizu
治夫 速水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4083043A priority Critical patent/JPH05250412A/ja
Publication of JPH05250412A publication Critical patent/JPH05250412A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 データベースをキーワードにより検索する際
の計算量及び計算時間を削減することを目的とする。 【構成】 データベースを構成するキーワードに、キー
ワード番号(32,34)と、その重みが0でないもの
について、2-WのWを重み(33,35)を対として記
憶するキーベクトルを作成し、データベースのキーベク
トルと検索キーベクトルを比較して類似度を求める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は画像データベース等の類
似データの検索方法に関するものであり、特に与えられ
た検索のための条件キーベクトルとデータベースの各々
のデータに付けられたキーベクトルの類似性からの検索
を高速に行うための類似データ検索方法に関するもので
ある。
【0002】
【従来の技術】画像データベース等の類似データを検索
するシステムでは、画像の内容や特長を表す統制キーワ
ードを設けて、各画像データ毎にその特長を表すキーワ
ードをこの中から選択し、そのキーワード毎に重み付け
を行い、これをキーワード順に並べたキーベクトルを定
義して、類似データの検索に備えている。
【0003】データの類似度の表現方法としては、検索
の条件を表す条件キーベクトルとデータベースの各デー
タのキーベクトルとの間の関係から求めるのが一般的で
あり、具体的には、これらのキーベクトル間の内積を条
件キーベクトルの絶対値とデータベースの各データのキ
ーべクトルの絶対値の積でノーマライズしたもので表現
し、これが1に近い程、類似度が高く、0に近いほど類
似度が低い。
【0004】統制キーワード全体の配列を以下のように
定義すると、 Tk=(k1,k2,k3,・・・,kt) あるデータnのキーベクトルKnは以下のように表現さ
れる。 Kn=(wn1,wn2,・・・・,wnt) ただし、 wni:データnの統制キーワードiに対する重みを表
す。
【0005】従来のキーベクトルの例を図3に示す。
【0006】キーベクトルの総記憶容量Bkは以下の式
で表され、一般的にt、Nは大きいのでキーベクトルが
長くなり、キーベクトル数も多いのでBkが非常に大き
くなる問題がある。従来、この問題に対してはキーベク
トルの中から上位語を除き、検索時に図4に示すキーワ
ード辞書から上位語を求め、各データのキーベクトル長
を短縮する方法が採られているが、検索時間が長くなる
問題がある。また、データベースの総データ数Nは時間
の経過とともに新しいデータが追加されることから検索
時間は増加する傾向にある。 Bk=b×t×N b:重みを記憶するためのビット数 t:統制キーワードの総数 N:データベースの総データ数
【0007】また、重みを1以下の小数点表現とすると
記憶するためのビット数が多くなること、および、後で
述べる類似度計算に乗算が必要となり計算時間が長くな
る問題がある。なお、条件キーベクトルKrとデータi
のキーベクトルKiとの類似度Sriは以下の式により
求められる。 Sri=Kr・Ki/|Kr|・|Ki| これをi=1からi=Nまで計算して、Sriの大きい
順にソートすると、類似度の高い順に並べられる。この
類似データの検索処理の従来の流れを図5に示す。
【0008】条件キーベクトルとの類似度の計算は、
各データのキーベクトルの絶対値の計算、条件キーベ
クトルと一つのデータのキーベクトルとの内積の計算、
とからの類似度の計算のフェーズに分けられる。
ここで、およびの計算は乗算であり、しかも、統制
キーワードの総数回の計算を繰り返して行う必要があ
る。さらに、このからの計算を、データベースの総
データ数回(N回)実施する必要がある。以上より計算
時間Tは、 T=(キーベクトルの絶対値計算時間Ti+キーベクト
ルの内積計算時間Tri+類似度計算時間Ts)×総デ
ータ数No Ti=(キーの重みの積の計算時間Tm+積累積時間T
a)×総キーワード数t Tri=(キーの重みの積の計算時間Tm+積累積時間
Ta)×総キーワード数t Ts=絶対値積計算時間+ノーマライズ時間 であり、非常に大きくなる問題がある。
【0009】
【発明が解決しようとする課題】本発明は、キーベクト
ルの記憶方法、重み付け方法、キーベクトルのグループ
分け方法を工夫することで、キーベクトル記憶容量の削
減、類似度計算時間の短縮、および、計算回数の削減を
図り、高速な類似データ検索を短時間に提供することを
目的とする。
【0010】
【課題を解決するための手段】本発明の特徴は、データ
ベースをキーベクトルにより検索する情報処理システム
において、データベースを構成する各データに対するキ
ーワードをキーワード番号に変換する手段と、データ毎
に重みが0でない各キーワード番号とその重み付け2-W
の指数Wの対をキーワード番号の若番順に配列したキー
ベクトルを記憶する手段と、操作者から与えられる検索
条件を検索キーベクトルに変換する手段と、データベー
スのキーベクトルと検索キーベクトルの間の類似度を、
2つのベクトルの内積を2つのベクトルの絶対値の積で
割って求める手段と、データを類似度の大きい順にソー
トする手段とを有する類似データ検索方法にある。
【0011】
【作用】本発明の類似データ検索方法は、データnのキ
ーベクトルの統制キーワード番号i対応の重み付けを重
みがゼロでないものに対してWni=2-Wniで表現しキ
ーベクトルに幾つ上位のキーワードであるかを示すゼロ
または整数のWniを統制キーワード番号と対にして記
憶すること、キーベクトルに該キーベクトルの絶対値を
記憶すること、キーベクトルの統制キーワード番号をグ
ループ番号とグループ内一連番号から構成すること、統
制キーワード番号と重みの対を統制キーワード番号の若
番順に配列すること、および、先頭の統制キーワード番
号のグループ番号別にデータベースのキーベクトルを分
割して記憶し、類似データを高速に検索できることを特
徴とする。
【0012】
【実施例】図1は本発明のキーベクトル構成例を説明す
る図であって、31はデータの登録番号、32,34は
データnの各キーワードのキーワード番号、33,3
5,36はデータnの各キーワードの重み付け2-WのW
の値、37はキーワードと重みの対の終わりを表すフラ
グ、38は該キーベクトルの絶対値を示す。
【0013】また、図2は本発明の類似データ検索方法
を説明する図であって、50で図1と同様の構成の条件
キーベクトルを操作者から確保し、51で該条件キーベ
クトルから先頭のキーワード番号と重みの対を取り出
す。キーワード番号はグループ番号とグループ内の一連
番号から構成され、52で該グループ番号に属するデー
タのキーベクトルの先頭のベクトルを読み込む。52で
読み込んだキーベクトルは図1の構成である。条件キー
ベクトルとデータのキーベクトルが揃った時点で53に
より類似度計算を実行する。その動作の詳細は531か
ら534で示す。まず、531でデータiのキーベクト
ルKiから該キーベクトルの絶対値を読み込む。次に、
532で条件キーベクトルKrとKiの内積を計算す
る。これは、両ベクトルのキーワード番号の一致するも
ののみの重みの積和を求めればよい。ところが、前で述
べたように重みは2の指数部のみを記憶しているため、
指数部の和を計算すれば積を求めたことになる。次に、
533で532で求めた積和をノーマライズして類似度
を出すため、KrとKiの絶対値の積を求めこれをAr
iとする。534において先ほど532で求めたKrと
Ki間の積和を533で求めた絶対値の積で除算するこ
とにより類似度Sriが求まる。これが、キーベクトル
Kiの条件キーベクトルKrとの類似度となる。次に、
54でこの類似度が検索条件の類似度aを満足している
かどうかテストする。条件を満足する場合は、55にお
いて該データ番号と類似度を対として蓄積する。これ
は、56および57により該グループのキーベクトルが
無くなるまで順次実行する。つぎに、58で条件キーベ
クトルから次の新しいグループ番号を読出し52に戻っ
て、前記処理を繰り返す。56に於いて条件キーベクト
ルの新たなグループ番号が存在しなければ、検索処理は
完了する。次に、60において、55で蓄積したデータ
番号と類似度の対を類似度の大きい順に並べ変えて、類
似度の大きいデータ番号のデータから順にユーザに提示
する。以上の動作により、類似データを高速に検索でき
る。
【0014】以上より計算時間Tは、 T=(キーベクトルの絶対値計算時間Ti+キーベクト
ルの内積計算時間Tri+類似度計算時間Ts)×関連
グループのデータ数Nn Ti=(キーの重みの和の計算時間Tad+累積時間T
a)×データの平均キーワード数Nk Tri=(キーの重みの和の計算時間Tm+累積時間T
a)×データの平均キーワード数Nk s=絶対値積計算時間+ノーマライズ時間 であり、従来方式に比べてTiとTriが1/100以
下に、検索データ数が1/10以下となるので約1/1
000に処理時間が短縮される。
【0015】
【発明の効果】本発明は、キーベクトルのグループ化、
各キーベクトルの絶対値の事前計算、重みの巾乗表示に
より、キーベクトル間の内積の乗算部を指数部の和に変
換でき、関連グループのキーベクトルのみとのベクトル
計算により類似度検索が可能となり、類似度の検索速度
を大幅に向上できる利点がある。
【図面の簡単な説明】
【図1】本発明のキーベクトルの構成図例である。
【図2】本発明の類似データ検索方法例を示す。
【図3】従来のキーベクトルの構成図例である。
【図4】キーワード辞書例である。
【図5】従来の類似データ検索方法例である。
【符号の説明】
32 キーワード番号 33 キーワードの重み 37 キーワードの終わりを示すフラグ 38 該キーワードの絶対値 442、532 キーベクトル間の内積計算
フロントページの続き (72)発明者 速水 治夫 東京都千代田区内幸町一丁目1番6号日本 電信電話株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 データベースをキーベクトルにより検索
    する情報処理システムにおいて、 データベースを構成する各データに対するキーワードを
    キーワード番号に変換する手段と、 データ毎に重みが0でない各キーワード番号とその重み
    付け2-Wの指数Wの対をキーワード番号の若番順に配列
    したキーベクトルを記憶する手段と、 操作者から与えられる検索条件を検索キーベクトルに変
    換する手段と、 データベースのキーベクトルと検索キーベクトルの間の
    類似度を、2つのベクトルの内積を2つのベクトルの絶
    対値の積で割って求める手段と、 データを類似度の大きい順にソートする手段とを有する
    ことを特徴とする類似データ検索方法。
  2. 【請求項2】 各データのキーベクトルが、該キーベク
    トルの絶対値をふくみ、該絶対値を用いて類似度を計算
    する、請求項1記載の類似データ検索方法。
  3. 【請求項3】 キーワード番号をグループ番号とグルー
    プ内番号から構成し、キーベクトルの先頭のグループ番
    号のグループに該キーベクトルを記憶し、検索キーベク
    トルのグループ番号と一致したグループのキーベクトル
    のみを選択して類似度計算を行うことを特徴とする請求
    項1記載の類似データ検索方法。
JP4083043A 1992-03-06 1992-03-06 類似データ検索方法 Withdrawn JPH05250412A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4083043A JPH05250412A (ja) 1992-03-06 1992-03-06 類似データ検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4083043A JPH05250412A (ja) 1992-03-06 1992-03-06 類似データ検索方法

Publications (1)

Publication Number Publication Date
JPH05250412A true JPH05250412A (ja) 1993-09-28

Family

ID=13791179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4083043A Withdrawn JPH05250412A (ja) 1992-03-06 1992-03-06 類似データ検索方法

Country Status (1)

Country Link
JP (1) JPH05250412A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06350546A (ja) * 1993-06-04 1994-12-22 Nippon Hoso Kyokai <Nhk> 関連番組判定装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH057282U (ja) * 1991-07-12 1993-02-02 奥村遊機株式會社 パチンコ機

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH057282U (ja) * 1991-07-12 1993-02-02 奥村遊機株式會社 パチンコ機

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06350546A (ja) * 1993-06-04 1994-12-22 Nippon Hoso Kyokai <Nhk> 関連番組判定装置

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
US5655129A (en) Character-string retrieval system and method
US20050198027A1 (en) Document retrieval system recognizing types and values of numeric search conditions
JPH06243009A (ja) 全テキストインデックスを圧縮する方法
JPH09134363A (ja) データベース検索方法及び装置
JPH10240759A (ja) 検索装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
JP5309354B2 (ja) 高速パターンマッチング装置の探索方法
JP3545007B2 (ja) データベース検索システム
CN105956203B (zh) 一种信息存储方法、信息查询方法、搜索引擎装置
JPH05250412A (ja) 類似データ検索方法
CN111339778A (zh) 文本处理方法、装置、存储介质和处理器
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
JPH064584A (ja) 文章検索装置
CN112418298B (zh) 数据检索方法、装置以及计算机可读存储介质
CN111597432A (zh) 一种基于Hash的快速候选生成推荐方法
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
JP3019286B2 (ja) 文書検索装置
JP2732661B2 (ja) テキスト型データベース装置
JPH11154160A (ja) データ検索システム
EP0649106B1 (en) Compactly stored word groups
JP2000259638A (ja) 記号列処理装置
JP2993539B2 (ja) データベース検索システムおよびその方法
JPH05181913A (ja) 昇順整数列データの圧縮および復号システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990518