JP3127869B2 - 類似データ抽出システム及びその方法 - Google Patents
類似データ抽出システム及びその方法Info
- Publication number
- JP3127869B2 JP3127869B2 JP09331058A JP33105897A JP3127869B2 JP 3127869 B2 JP3127869 B2 JP 3127869B2 JP 09331058 A JP09331058 A JP 09331058A JP 33105897 A JP33105897 A JP 33105897A JP 3127869 B2 JP3127869 B2 JP 3127869B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- comparison source
- search target
- source data
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】本発明は、類似データを抽出
する方式に関し、特に電子化したデータから類似データ
を比較して抽出する類似データ抽出システム及びその方
法に関する。
する方式に関し、特に電子化したデータから類似データ
を比較して抽出する類似データ抽出システム及びその方
法に関する。
【0002】
【従来の技術】従来、例えば新規のシステムやアプリケ
ーションを導入する場合等に、既存データが一元管理さ
れていない場合、データを移行する際にデータを重複し
て保有する可能性が高くなるため、既存のデータどうし
の重複をチェックする必要が生じる。これまで、データ
どうしの重複チェックは、互いのデータを見比べる等の
人手に頼る部分が大きいため、チェックに多くの時間を
要しかつ誤りが発生しやすい。このため、既存データの
移行が遅れて新規システムの導入に時間がかかることに
なる。
ーションを導入する場合等に、既存データが一元管理さ
れていない場合、データを移行する際にデータを重複し
て保有する可能性が高くなるため、既存のデータどうし
の重複をチェックする必要が生じる。これまで、データ
どうしの重複チェックは、互いのデータを見比べる等の
人手に頼る部分が大きいため、チェックに多くの時間を
要しかつ誤りが発生しやすい。このため、既存データの
移行が遅れて新規システムの導入に時間がかかることに
なる。
【0003】また、データベース等の検索において、あ
る対象となるデータから特定のデータ(キーワード)を
抽出する場合、キーワードとして文字列を指定してその
文字列と一致するデータを対象データから抽出してい
る。
る対象となるデータから特定のデータ(キーワード)を
抽出する場合、キーワードとして文字列を指定してその
文字列と一致するデータを対象データから抽出してい
る。
【0004】従来技術として、従来の文字列の入力によ
り対応する情報を抽出するための文字列認識方法が、特
開平5−257982号公報に開示されている。この特
開平5−257982号公報における文字列認識方法で
は、文字列どうしの類似点を抽出することにより、全文
検索等を効率よく行なうためのものであり、文字の位置
や長さ等による特徴量から文字列どうしの類似度を評価
することにより、より曖昧なキーワードの指定を可能と
している。
り対応する情報を抽出するための文字列認識方法が、特
開平5−257982号公報に開示されている。この特
開平5−257982号公報における文字列認識方法で
は、文字列どうしの類似点を抽出することにより、全文
検索等を効率よく行なうためのものであり、文字の位置
や長さ等による特徴量から文字列どうしの類似度を評価
することにより、より曖昧なキーワードの指定を可能と
している。
【0005】また、他の従来技術として、キーワードと
一致するデータだけでなく、キーワードと類似するデー
タを抽出可能としたデータベース検索装置が、特開平6
−325091号公報に開示されている。この特開平6
−325091号公報におけるデータベース検索装置で
は、キーワードと検索対象となるデータの特徴量に基づ
いてキーワードとの類似度を求めて類似データを抽出す
ることにより、曖昧な検索を可能としている。
一致するデータだけでなく、キーワードと類似するデー
タを抽出可能としたデータベース検索装置が、特開平6
−325091号公報に開示されている。この特開平6
−325091号公報におけるデータベース検索装置で
は、キーワードと検索対象となるデータの特徴量に基づ
いてキーワードとの類似度を求めて類似データを抽出す
ることにより、曖昧な検索を可能としている。
【0006】
【発明が解決しようとする課題】上述した従来の技術に
おいては、以下に述べるような問題点があった。
おいては、以下に述べるような問題点があった。
【0007】第1に、従来の技術では、データどうしの
重複をチェックする場合、人手によって互いのデータを
見比べることにより重複するかどうかを判断しているた
め、チェックに多くの時間を要しかつ誤りが発生しやす
いという問題があった。
重複をチェックする場合、人手によって互いのデータを
見比べることにより重複するかどうかを判断しているた
め、チェックに多くの時間を要しかつ誤りが発生しやす
いという問題があった。
【0008】第2に、従来のデータの検索において扱う
ことのできるデータが文字列(例えば、文字コード)に
限定されているため、文字や画像が混在したようなデー
タから文字列以外のデータを検索することができないと
いう問題があった。
ことのできるデータが文字列(例えば、文字コード)に
限定されているため、文字や画像が混在したようなデー
タから文字列以外のデータを検索することができないと
いう問題があった。
【0009】第3に、従来の技術では、データ内の潜在
的な類似データを抽出することが困難であり、類似デー
タの抽出に時間がかかるという問題があった。例えば、
従来の特開平5−257982号公報及び特開平6−3
25091号公報に開示される文字列(キーワード)と
類似するデータを抽出する技術では、何れも類似度を求
めるのに非常に複雑な計算が必要となるためである。
的な類似データを抽出することが困難であり、類似デー
タの抽出に時間がかかるという問題があった。例えば、
従来の特開平5−257982号公報及び特開平6−3
25091号公報に開示される文字列(キーワード)と
類似するデータを抽出する技術では、何れも類似度を求
めるのに非常に複雑な計算が必要となるためである。
【0010】本発明の第1の目的は、対象データから特
定のデータと類似するデータを、高速に抽出することを
可能とする類似データ抽出システム及びその方法を提供
することにある。
定のデータと類似するデータを、高速に抽出することを
可能とする類似データ抽出システム及びその方法を提供
することにある。
【0011】本発明の第2の目的は、文字や画像が混在
するデータを含め、あらゆる対象データから特定のデー
タと類似するデータを抽出することを可能とする類似デ
ータ抽出システム及びその方法を提供することにある。
するデータを含め、あらゆる対象データから特定のデー
タと類似するデータを抽出することを可能とする類似デ
ータ抽出システム及びその方法を提供することにある。
【0012】本発明の第3の目的は、互いに重複するデ
ータのチェックを容易に行なうことができる類似データ
抽出システム及びその方法を提供することにある。
ータのチェックを容易に行なうことができる類似データ
抽出システム及びその方法を提供することにある。
【0013】
【課題を解決するための手段】上記目的を達成する本発
明は、検索対象データから比較元データに類似したデー
タを抽出する類似データ抽出システムにおいて、前記検
索対象データをビット列に変換する検索対象データ変換
手段と、ビット列に変換された前記検索対象データから
指定されたデータ長の前記比較元データを取得する比較
元データ取得手段と、前記比較元データを、前記検索対
象データの先頭ビットから1ビットずつずらして順次比
較し、前記検索対象データのうち前記比較元データと比
較したデータの、前記比較元データと一致するビット数
を検出するデータ比較演算手段と、前記データ比較演算
手段で検出された一致ビット数に基づいて、前記検索対
象データのうち前記比較元データと比較したデータが、
前記比較元データと類似するかどうかを判定する類似判
定手段とを備え、前記比較元データ取得手段は、初期状
態において、前記検索対象データの先頭ビットから指定
されたデータ長分の前記比較元データを取得し、前記比
較元データの前記検索対象データとの比較が終了する毎
に、前記検索対象データの比較元データの取得位置を1
ビットずつずらして次の前記比較元データを取得するこ
とを特徴とする。
明は、検索対象データから比較元データに類似したデー
タを抽出する類似データ抽出システムにおいて、前記検
索対象データをビット列に変換する検索対象データ変換
手段と、ビット列に変換された前記検索対象データから
指定されたデータ長の前記比較元データを取得する比較
元データ取得手段と、前記比較元データを、前記検索対
象データの先頭ビットから1ビットずつずらして順次比
較し、前記検索対象データのうち前記比較元データと比
較したデータの、前記比較元データと一致するビット数
を検出するデータ比較演算手段と、前記データ比較演算
手段で検出された一致ビット数に基づいて、前記検索対
象データのうち前記比較元データと比較したデータが、
前記比較元データと類似するかどうかを判定する類似判
定手段とを備え、前記比較元データ取得手段は、初期状
態において、前記検索対象データの先頭ビットから指定
されたデータ長分の前記比較元データを取得し、前記比
較元データの前記検索対象データとの比較が終了する毎
に、前記検索対象データの比較元データの取得位置を1
ビットずつずらして次の前記比較元データを取得するこ
とを特徴とする。
【0014】請求項2の類似データ抽出システムでは、
前記類似判定手段は、前記一致ビット数の前記比較元デ
ータのデータ長に対する割合を類似割合として算出し、
該算出した類似割合を予め設定された閾値と比較し、前
記類似割合が前記閾値以上の場合に、前記検索対象デー
タのうち前記比較元データと比較したデータを前記比較
元データと類似すると判定することを特徴とする。
前記類似判定手段は、前記一致ビット数の前記比較元デ
ータのデータ長に対する割合を類似割合として算出し、
該算出した類似割合を予め設定された閾値と比較し、前
記類似割合が前記閾値以上の場合に、前記検索対象デー
タのうち前記比較元データと比較したデータを前記比較
元データと類似すると判定することを特徴とする。
【0015】請求項3の類似データ抽出システムでは、
前記類似判定手段は、前記検索対象データのうち前記比
較元データと比較したデータが前記比較元データと類似
する場合、前記検索対象データのうち前記比較元データ
と比較したデータの先頭ビット位置と前記比較元データ
を保存することを特徴とする。
前記類似判定手段は、前記検索対象データのうち前記比
較元データと比較したデータが前記比較元データと類似
する場合、前記検索対象データのうち前記比較元データ
と比較したデータの先頭ビット位置と前記比較元データ
を保存することを特徴とする。
【0016】請求項4の類似データ抽出システムでは、
ビット列に変換した前記検索対象データ及び前記比較元
データの圧縮処理を行なうデータ圧縮手段を備えたこと
を特徴とする。
ビット列に変換した前記検索対象データ及び前記比較元
データの圧縮処理を行なうデータ圧縮手段を備えたこと
を特徴とする。
【0017】請求項5の本発明は、検索対象データから
比較元データに類似したデータを抽出する類似データ抽
出方法において、前記検索対象データをビット列に変換
するステップと、ビット列に変換された前記検索対象デ
ータから指定されたデータ長の前記比較元データを取得
するステップと、前記比較元データを、前記検索対象デ
ータの先頭ビットから1ビットずつずらして順次比較
し、前記検索対象データのうち前記比較元データと比較
したデータの、前記比較元データと一致するビット数を
検出するステップと、検出された一致ビット数に基づい
て、前記検索対象データのうち前記比較元データと比較
したデータが、前記比較元データと類似するかどうかを
判定するステップとを備え、前記比較元データ取得ステ
ップでは、初期状態において、前記検索対象データの先
頭ビットから指定されたデータ長分の前記比較元データ
を取得し、前記比較元データの前記検索対象データとの
比較が終了する毎に、前記検索対象データの比較元デー
タの取得位置を1ビットずつずらして次の前記比較元デ
ータを取得することを特徴とする。
比較元データに類似したデータを抽出する類似データ抽
出方法において、前記検索対象データをビット列に変換
するステップと、ビット列に変換された前記検索対象デ
ータから指定されたデータ長の前記比較元データを取得
するステップと、前記比較元データを、前記検索対象デ
ータの先頭ビットから1ビットずつずらして順次比較
し、前記検索対象データのうち前記比較元データと比較
したデータの、前記比較元データと一致するビット数を
検出するステップと、検出された一致ビット数に基づい
て、前記検索対象データのうち前記比較元データと比較
したデータが、前記比較元データと類似するかどうかを
判定するステップとを備え、前記比較元データ取得ステ
ップでは、初期状態において、前記検索対象データの先
頭ビットから指定されたデータ長分の前記比較元データ
を取得し、前記比較元データの前記検索対象データとの
比較が終了する毎に、前記検索対象データの比較元デー
タの取得位置を1ビットずつずらして次の前記比較元デ
ータを取得することを特徴とする。
【0018】請求項6の類似データ抽出方法では、前記
類似判定ステップでは、前記一致ビット数の前記比較元
データのデータ長に対する割合を類似割合として算出
し、該算出した類似割合を予め設定された閾値と比較
し、前記類似割合が前記閾値以上の場合に、前記検索対
象データのうち前記比較元データと比較したデータを前
記比較元データと類似すると判定することを特徴とす
る。
類似判定ステップでは、前記一致ビット数の前記比較元
データのデータ長に対する割合を類似割合として算出
し、該算出した類似割合を予め設定された閾値と比較
し、前記類似割合が前記閾値以上の場合に、前記検索対
象データのうち前記比較元データと比較したデータを前
記比較元データと類似すると判定することを特徴とす
る。
【0019】請求項7の類似データ抽出方法では、記類
似判定ステップでは、前記検索対象データのうち前記比
較元データと比較したデータが前記比較元データと類似
する場合、前記検索対象データのうち前記比較元データ
と比較したデータの先頭ビット位置と前記比較元データ
を保存することを特徴とする。
似判定ステップでは、前記検索対象データのうち前記比
較元データと比較したデータが前記比較元データと類似
する場合、前記検索対象データのうち前記比較元データ
と比較したデータの先頭ビット位置と前記比較元データ
を保存することを特徴とする。
【0020】
【0021】
【0022】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1は本発明の第1
の実施の形態による類似データ抽出システムの構成を示
すブロック図である。
て図面を参照して詳細に説明する。図1は本発明の第1
の実施の形態による類似データ抽出システムの構成を示
すブロック図である。
【0023】図1において、この類似データ抽出方式
は、検索対象データから比較元データに類似したデータ
を検出するものであり、比較元データのビット変換や比
較元データの取得を行なう比較元データ取得部11と、
検索対象データのビット変換を行なう検索対象データビ
ット変換部12と、比較元データと検索対象データとの
比較を行なうデータ比較演算部13と、比較結果から比
較元データと検索対象データの類似割合を算出する類似
割合演算部14とで構成される。
は、検索対象データから比較元データに類似したデータ
を検出するものであり、比較元データのビット変換や比
較元データの取得を行なう比較元データ取得部11と、
検索対象データのビット変換を行なう検索対象データビ
ット変換部12と、比較元データと検索対象データとの
比較を行なうデータ比較演算部13と、比較結果から比
較元データと検索対象データの類似割合を算出する類似
割合演算部14とで構成される。
【0024】比較元データ取得部11は、比較する元と
なるデータ全体をビット変換(0と1の並んだデータ)
し、そのデータから指定されたデータ長の比較元データ
を取得する。
なるデータ全体をビット変換(0と1の並んだデータ)
し、そのデータから指定されたデータ長の比較元データ
を取得する。
【0025】また、比較元データ取得部11は、検索対
象データから比較元データを取得する場合には、検索対
象データから指定されたビット長分の比較元データを取
得する。検索対象データのどのビット位置から比較元デ
ータを取得するかについては、内蔵した取得ビット位置
を示すポインタに従がう。
象データから比較元データを取得する場合には、検索対
象データから指定されたビット長分の比較元データを取
得する。検索対象データのどのビット位置から比較元デ
ータを取得するかについては、内蔵した取得ビット位置
を示すポインタに従がう。
【0026】検索対象データビット変換部12は、検索
対象データ全体または一部をビット変換する。どこまで
ビット変換するかは作業領域の大きさに依存する。ビッ
ト変換を行なうことにより、比較元データとの比較が可
能となる。
対象データ全体または一部をビット変換する。どこまで
ビット変換するかは作業領域の大きさに依存する。ビッ
ト変換を行なうことにより、比較元データとの比較が可
能となる。
【0027】データ比較演算部13は、比較元データビ
ット長の単位で比較元データと検索対象データを照合す
る。このデータ比較演算部13は、検索対象データとの
比較位置を1ビットずつずらしながら比較元データとの
比較を行ない、比較元データと一致したビット数を取得
する。比較元データと比較する検索対象データの比較デ
ータの先頭ビット位置は、内蔵するポインタによって示
される。
ット長の単位で比較元データと検索対象データを照合す
る。このデータ比較演算部13は、検索対象データとの
比較位置を1ビットずつずらしながら比較元データとの
比較を行ない、比較元データと一致したビット数を取得
する。比較元データと比較する検索対象データの比較デ
ータの先頭ビット位置は、内蔵するポインタによって示
される。
【0028】類似割合演算部14は、データ比較演算部
13で照合したデータがどれだけ一致したかを示す類似
割合を算出し、この算出した類似割合を予め設定された
閾値と比較し、比較元データと類似するデータ(類似デ
ータ)であるかを決定する。類似割合は、以下の式によ
って算出する。
13で照合したデータがどれだけ一致したかを示す類似
割合を算出し、この算出した類似割合を予め設定された
閾値と比較し、比較元データと類似するデータ(類似デ
ータ)であるかを決定する。類似割合は、以下の式によ
って算出する。
【0029】 類似割合=一致ビット数/比較元データビット長 また、類似割合演算部14は、算出した類似割合が、閾
値以上である場合に、類似データとする。
値以上である場合に、類似データとする。
【0030】上記閾値として“1”(100%)を設定
した場合、比較元データと同一のデータが抽出されるこ
とになる。
した場合、比較元データと同一のデータが抽出されるこ
とになる。
【0031】次に、本発明の実施の形態の動作について
説明する。第1に、比較元データと検索対象データがそ
れぞれ別個に用意されている場合の類似データ抽出処理
について図2のフローチャートを参照して説明する。
説明する。第1に、比較元データと検索対象データがそ
れぞれ別個に用意されている場合の類似データ抽出処理
について図2のフローチャートを参照して説明する。
【0032】まず、比較元データ取得部11で、用意さ
れた比較元となるデータのビット化を行ない(ステップ
201)、そのビット化したデータから指定されたデー
タ長の比較元データを取得する(ステップ202)。次
いで、検索対象データビット変換部12で、用意された
検索対象データのビット化を行なう(ステップ20
3)。
れた比較元となるデータのビット化を行ない(ステップ
201)、そのビット化したデータから指定されたデー
タ長の比較元データを取得する(ステップ202)。次
いで、検索対象データビット変換部12で、用意された
検索対象データのビット化を行なう(ステップ20
3)。
【0033】ここで、データ比較演算部13で、検索対
象データのどのビット位置から比較を行なうかを示すポ
インタ(比較ビット位置)に“1”を加算し(ステップ
204)、そのポインタで示される検索対象データのビ
ット位置から比較元データとの比較を行なう(ステップ
205)。上記検索対称データの比較ビット位置を示す
ポインタには、初期値として“0”が設定されている。
この比較により、データ比較演算部13は、比較元デー
タと一致した検索対象データのビット数を類似割合演算
部14に送る。
象データのどのビット位置から比較を行なうかを示すポ
インタ(比較ビット位置)に“1”を加算し(ステップ
204)、そのポインタで示される検索対象データのビ
ット位置から比較元データとの比較を行なう(ステップ
205)。上記検索対称データの比較ビット位置を示す
ポインタには、初期値として“0”が設定されている。
この比較により、データ比較演算部13は、比較元デー
タと一致した検索対象データのビット数を類似割合演算
部14に送る。
【0034】比較元データとの一致ビット数を受け取っ
た類似割合演算部14は、一致ビット数を比較元データ
長で割ることにより、類似割合を算出し(ステップ20
6)、その類似割合を予め設定されている閾値と比較す
る(ステップ207)。
た類似割合演算部14は、一致ビット数を比較元データ
長で割ることにより、類似割合を算出し(ステップ20
6)、その類似割合を予め設定されている閾値と比較す
る(ステップ207)。
【0035】類似割合が閾値以上である場合、比較元デ
ータと比較した検索対象データのデータは類似データで
あると判定し、検索対象データのうち比較元データと比
較した比較データ部分の先頭ビット番号(検索対象デー
タ全体におけるビット位置)と比較元データを保存する
(ステップ208)。
ータと比較した検索対象データのデータは類似データで
あると判定し、検索対象データのうち比較元データと比
較した比較データ部分の先頭ビット番号(検索対象デー
タ全体におけるビット位置)と比較元データを保存する
(ステップ208)。
【0036】類似割合が閾値より小さい場合には、上記
保存処理を行なわず、検索対象データの終わりまで比較
を行なったかどうかを判定する(ステップ209)。
保存処理を行なわず、検索対象データの終わりまで比較
を行なったかどうかを判定する(ステップ209)。
【0037】検索対象データの終わりまで比較を行なっ
ていない場合には、ステップ204でポインタに“1”
を加算して、ポインタで示されるビット位置を先頭ビッ
トとして比較元データと比較を行なうことにより、ステ
ップ205からステップ208の処理を繰り返す。以
下、ポインタで示される比較ビット位置から検索対象デ
ータの最下位ビット位置までのビット数が比較元データ
長と等しくなるまで、ステップ205からステップ20
8の処理を繰り返す。
ていない場合には、ステップ204でポインタに“1”
を加算して、ポインタで示されるビット位置を先頭ビッ
トとして比較元データと比較を行なうことにより、ステ
ップ205からステップ208の処理を繰り返す。以
下、ポインタで示される比較ビット位置から検索対象デ
ータの最下位ビット位置までのビット数が比較元データ
長と等しくなるまで、ステップ205からステップ20
8の処理を繰り返す。
【0038】以上の処理により、検索対象データから、
比較元データとの類似データを抽出することができるも
のである。例えば、ある検索対象データからあるデータ
とそれに類似するデータを不要なデータとして洗い出す
ような場合、あるデータを比較元データとして指定する
ことで、上記処理を行なえば、不要なデータの洗い出し
が極めて高速かつ簡単に行われる。
比較元データとの類似データを抽出することができるも
のである。例えば、ある検索対象データからあるデータ
とそれに類似するデータを不要なデータとして洗い出す
ような場合、あるデータを比較元データとして指定する
ことで、上記処理を行なえば、不要なデータの洗い出し
が極めて高速かつ簡単に行われる。
【0039】上記図2の処理を実際のデータに適用した
実施例を図3に示す。ここでは、ビット化した比較元デ
ータ31が8ビットのデータ「01001110」で、
かつ検索対象データ32が40ビットのデータであり、
類似データとして判定する閾値として0.8(80%)
が設定されているものとする。
実施例を図3に示す。ここでは、ビット化した比較元デ
ータ31が8ビットのデータ「01001110」で、
かつ検索対象データ32が40ビットのデータであり、
類似データとして判定する閾値として0.8(80%)
が設定されているものとする。
【0040】まず、比較元データ31と検索対象データ
32の先頭ビットから8番目のビットまでの「0100
1110」が比較される。この場合、全てのビットが一
致しているので、類似割合が“1”となり、閾値以上で
あるので、検索対象データ32の先頭ビットから8ビッ
トまでのデータは、比較元データ31と類似データであ
ると判定される。そして、比較元データと検索対象デー
タのうちの比較データの先頭ビット番号(=1)が保存
される。
32の先頭ビットから8番目のビットまでの「0100
1110」が比較される。この場合、全てのビットが一
致しているので、類似割合が“1”となり、閾値以上で
あるので、検索対象データ32の先頭ビットから8ビッ
トまでのデータは、比較元データ31と類似データであ
ると判定される。そして、比較元データと検索対象デー
タのうちの比較データの先頭ビット番号(=1)が保存
される。
【0041】次に、比較ビット位置のポインタに“1”
が加算されて“2”となるので、比較元データ31と検
索対象データ32の2番目のビットから9番目のビット
までの「10011100」が比較される。この場合、
一致するビット数は4ビットであるので、類似割合が
“0.5”となり、閾値以下である。従がって、検索対
象データのうちの比較データの先頭ビット番号は保存さ
れない。
が加算されて“2”となるので、比較元データ31と検
索対象データ32の2番目のビットから9番目のビット
までの「10011100」が比較される。この場合、
一致するビット数は4ビットであるので、類似割合が
“0.5”となり、閾値以下である。従がって、検索対
象データのうちの比較データの先頭ビット番号は保存さ
れない。
【0042】以下、同様にして1ビットずつずらして比
較元データとの比較が行なわれる。例えば、比較元デー
タ31と検索対象データ32の26番目のビットから3
3番目のビットまでの「01001111」が比較され
ると、一致するビット数は7ビットであるので、類似割
合が“0.875”となり、閾値以上であるので、検索
対象データ32の26番目のビットから33番目のビッ
トまでのデータは、比較元データ31と類似データであ
ると判定される。そして、比較元データと検索対象デー
タのうちの比較データの先頭ビット番号(=26)が保
存される。
較元データとの比較が行なわれる。例えば、比較元デー
タ31と検索対象データ32の26番目のビットから3
3番目のビットまでの「01001111」が比較され
ると、一致するビット数は7ビットであるので、類似割
合が“0.875”となり、閾値以上であるので、検索
対象データ32の26番目のビットから33番目のビッ
トまでのデータは、比較元データ31と類似データであ
ると判定される。そして、比較元データと検索対象デー
タのうちの比較データの先頭ビット番号(=26)が保
存される。
【0043】そして、検索対象データ32の33番目の
ビットから40番目のビットまでのデータと比較元デー
タの比較が終了した時点で、ポインタで示される比較ビ
ット位置から検索対象データの最下位ビット位置までの
ビット数が比較元データ長と等しくなるので、検索対象
データの終わりと判定され、処理を終了する。
ビットから40番目のビットまでのデータと比較元デー
タの比較が終了した時点で、ポインタで示される比較ビ
ット位置から検索対象データの最下位ビット位置までの
ビット数が比較元データ長と等しくなるので、検索対象
データの終わりと判定され、処理を終了する。
【0044】第2に、比較元データを検索対象データか
ら取得する場合の類似データ抽出処理について図4のフ
ローチャートを参照して説明する。
ら取得する場合の類似データ抽出処理について図4のフ
ローチャートを参照して説明する。
【0045】まず、次いで、検索対象データビット変換
部12で、用意された検索対象データのビット化を行な
う(ステップ401)。比較元データ取得部11で、そ
のビット化した検索対象データのうち比較元データの取
得位置を示すポインタで示されるビット位置を先頭ビッ
トとして、その先頭ビット位置から予め指定されたデー
タ長分の比較元データを取得する(ステップ402)。
この比較元データの取得位置を示すポインタには、初期
値として“1”が設定されている。従がって、最初の比
較元データとしては、検索対象データの先頭ビットを最
上位ビットとして指定されたデータ長が取得される。
部12で、用意された検索対象データのビット化を行な
う(ステップ401)。比較元データ取得部11で、そ
のビット化した検索対象データのうち比較元データの取
得位置を示すポインタで示されるビット位置を先頭ビッ
トとして、その先頭ビット位置から予め指定されたデー
タ長分の比較元データを取得する(ステップ402)。
この比較元データの取得位置を示すポインタには、初期
値として“1”が設定されている。従がって、最初の比
較元データとしては、検索対象データの先頭ビットを最
上位ビットとして指定されたデータ長が取得される。
【0046】ここで、データ比較演算部13で、検索対
象データのどのビット位置から比較を行なうかを示すポ
インタ(比較ビット位置)に“1”を加算し(ステップ
403)、そのポインタで示される検索対象データのビ
ット位置から比較元データとの比較を行なう(ステップ
404)。この比較により、データ比較演算部13は、
比較元データと一致した検索対象データのビット数を類
似割合演算部14に送る。
象データのどのビット位置から比較を行なうかを示すポ
インタ(比較ビット位置)に“1”を加算し(ステップ
403)、そのポインタで示される検索対象データのビ
ット位置から比較元データとの比較を行なう(ステップ
404)。この比較により、データ比較演算部13は、
比較元データと一致した検索対象データのビット数を類
似割合演算部14に送る。
【0047】比較元データとの一致ビット数を受け取っ
た類似割合演算部14は、一致ビット数を比較元データ
長で割ることにより、類似割合を算出し(ステップ40
5)、その類似割合を予め設定されている閾値と比較す
る(ステップ406)。
た類似割合演算部14は、一致ビット数を比較元データ
長で割ることにより、類似割合を算出し(ステップ40
5)、その類似割合を予め設定されている閾値と比較す
る(ステップ406)。
【0048】類似割合が閾値以上である場合、比較元デ
ータと比較した検索対象データのデータは類似データで
あると判定し、検索対象データのうち比較元データと比
較した比較データ部分の先頭ビット番号(検索対象デー
タ全体におけるビット位置)と比較元データを保存する
(ステップ407)。
ータと比較した検索対象データのデータは類似データで
あると判定し、検索対象データのうち比較元データと比
較した比較データ部分の先頭ビット番号(検索対象デー
タ全体におけるビット位置)と比較元データを保存する
(ステップ407)。
【0049】類似割合が閾値より小さい場合には、上記
保存処理を行なわず、検索対象データの終わりまで比較
を行なったかどうかを判定する(ステップ408)。
保存処理を行なわず、検索対象データの終わりまで比較
を行なったかどうかを判定する(ステップ408)。
【0050】検索対象データの終わりまで比較を行なっ
ていない場合には、ステップ403でポインタに“1”
を加算して、ポインタで示されるビット位置を先頭ビッ
トとして比較元データと比較を行なうことにより、ステ
ップ404からステップ407の処理を繰り返す。以
下、ポインタで示される比較ビット位置から検索対象デ
ータの最下位ビット位置までのビット数が比較元データ
長と等しくなるまで、ステップ404からステップ40
7の処理を繰り返す。
ていない場合には、ステップ403でポインタに“1”
を加算して、ポインタで示されるビット位置を先頭ビッ
トとして比較元データと比較を行なうことにより、ステ
ップ404からステップ407の処理を繰り返す。以
下、ポインタで示される比較ビット位置から検索対象デ
ータの最下位ビット位置までのビット数が比較元データ
長と等しくなるまで、ステップ404からステップ40
7の処理を繰り返す。
【0051】比較ビット位置を1ビットずつシフトさせ
て、検索対象データの終わりまで比較元データとの比較
を終了した場合には、取得ビット位置を示すポインタの
値から、比較元データが最後のデータかどうかを判定す
る(ステップ409)。すなわち、取得ビット位置から
検索対象データの最下位ビットまでのビット数が比較元
データと等しい場合に、最後の比較元データと判定して
処理を終了する。
て、検索対象データの終わりまで比較元データとの比較
を終了した場合には、取得ビット位置を示すポインタの
値から、比較元データが最後のデータかどうかを判定す
る(ステップ409)。すなわち、取得ビット位置から
検索対象データの最下位ビットまでのビット数が比較元
データと等しい場合に、最後の比較元データと判定して
処理を終了する。
【0052】最後の比較元データでない場合には、比較
元データの取得ビット位置を示すポインタに“1”を加
算し(ステップ410)、ステップ402に移行する。
元データの取得ビット位置を示すポインタに“1”を加
算し(ステップ410)、ステップ402に移行する。
【0053】そして、取得ビット位置のポインタで示さ
れるビット位置を先頭ビットとして、次の比較元データ
を取得し、上記したステップ403からステップ410
の処理を最後の比較元データまで繰り返す。
れるビット位置を先頭ビットとして、次の比較元データ
を取得し、上記したステップ403からステップ410
の処理を最後の比較元データまで繰り返す。
【0054】以上の処理により、検索対象データから取
得した所定の比較元データと類似するデータを抽出する
ことができるものである。すなわち、検索対象データに
おけるある特定のデータ(比較元データ)とそれに類似
するデータの出現位置を検出することが可能となる。
得した所定の比較元データと類似するデータを抽出する
ことができるものである。すなわち、検索対象データに
おけるある特定のデータ(比較元データ)とそれに類似
するデータの出現位置を検出することが可能となる。
【0055】例えば、重複をチェックすべき2つの検索
対象データについてそれぞれ上記処理を行ない、比較元
データとそれに類似するデータの先頭ビット番号を互い
に比較すれば、2つの検索対象データの重複度を簡単に
チェックすることが可能となる。
対象データについてそれぞれ上記処理を行ない、比較元
データとそれに類似するデータの先頭ビット番号を互い
に比較すれば、2つの検索対象データの重複度を簡単に
チェックすることが可能となる。
【0056】上記図4の処理を実際のデータに適用した
実施例を図5に示す。ここでは、比較元データ31のデ
ータ長が8ビットで、検索対象データ32が図示のよう
な40ビットのデータであり、類似データとして判定す
る閾値として0.8(80%)が設定されているものと
する。
実施例を図5に示す。ここでは、比較元データ31のデ
ータ長が8ビットで、検索対象データ32が図示のよう
な40ビットのデータであり、類似データとして判定す
る閾値として0.8(80%)が設定されているものと
する。
【0057】この場合、最初の比較元データ31とし
て、検索対象データ32の先頭ビットから8番目のビッ
トまでの8ビットのデータ「01001110」がまず
取得される。
て、検索対象データ32の先頭ビットから8番目のビッ
トまでの8ビットのデータ「01001110」がまず
取得される。
【0058】そして、その比較元データ31と検索対象
データ32の先頭ビットから8番目のビットまでの「0
1001110」が比較される。この場合、全てのビッ
トが一致しているので、類似割合が“1”となり、閾値
以上であるので、検索対象データ32の先頭ビットから
8ビットまでのデータは、比較元データ31と類似デー
タであると判定される。そして、比較元データと検索対
象データのうちの比較データの先頭ビット番号(=1)
が保存される。
データ32の先頭ビットから8番目のビットまでの「0
1001110」が比較される。この場合、全てのビッ
トが一致しているので、類似割合が“1”となり、閾値
以上であるので、検索対象データ32の先頭ビットから
8ビットまでのデータは、比較元データ31と類似デー
タであると判定される。そして、比較元データと検索対
象データのうちの比較データの先頭ビット番号(=1)
が保存される。
【0059】次に、比較ビット位置のポインタに“1”
が加算されて“2”となるので、比較元データ31と検
索対象データ32の2番目のビットから9番目のビット
までの「10011100」が比較される。この場合、
一致するビット数は4ビットであるので、類似割合が
“0.5”となり、閾値以下である。従がって、検索対
象データのうちの比較データの先頭ビット番号は保存さ
れない。
が加算されて“2”となるので、比較元データ31と検
索対象データ32の2番目のビットから9番目のビット
までの「10011100」が比較される。この場合、
一致するビット数は4ビットであるので、類似割合が
“0.5”となり、閾値以下である。従がって、検索対
象データのうちの比較データの先頭ビット番号は保存さ
れない。
【0060】以下、同様にして1ビットずつずらして比
較元データとの比較が行なわれる。例えば、比較元デー
タ31と検索対象データ32の26番目のビットから3
3番目のビットまでの「01001111」が比較され
ると、一致するビット数は7ビットであるので、類似割
合が“0.875”となり、閾値以上であるので、検索
対象データ32の26番目のビットから33番目のビッ
トまでのデータは、比較元データ31と類似データであ
ると判定される。そして、比較元データと検索対象デー
タのうちの比較データの先頭ビット番号(=26)が保
存される。
較元データとの比較が行なわれる。例えば、比較元デー
タ31と検索対象データ32の26番目のビットから3
3番目のビットまでの「01001111」が比較され
ると、一致するビット数は7ビットであるので、類似割
合が“0.875”となり、閾値以上であるので、検索
対象データ32の26番目のビットから33番目のビッ
トまでのデータは、比較元データ31と類似データであ
ると判定される。そして、比較元データと検索対象デー
タのうちの比較データの先頭ビット番号(=26)が保
存される。
【0061】そして、検索対象データ32の33番目の
ビットから40番目のビットまでのデータ「10100
011」と比較元データの比較が終了した時点で、ポイ
ンタで示される比較ビット位置から検索対象データの最
下位ビット位置までのビット数が比較元データ長と等し
くなるので、検索対象データの終わりと判定され、取得
ビット位置のポインタに“1”が加算されることによ
り、次の比較元データが取得される。
ビットから40番目のビットまでのデータ「10100
011」と比較元データの比較が終了した時点で、ポイ
ンタで示される比較ビット位置から検索対象データの最
下位ビット位置までのビット数が比較元データ長と等し
くなるので、検索対象データの終わりと判定され、取得
ビット位置のポインタに“1”が加算されることによ
り、次の比較元データが取得される。
【0062】この場合、検索対象データ32の2番目の
ビットから9番目のビットまでの8ビットのデータ「1
0011100」が第2の比較元データ31として取得
される。
ビットから9番目のビットまでの8ビットのデータ「1
0011100」が第2の比較元データ31として取得
される。
【0063】ここで、この比較元データ31と検索対象
データ32の先頭ビットから8番目のビットまでのデー
タ「01001110」から33番目のビットから40
番目のビットまでのデータ「10100011」の比較
が行なわれる。
データ32の先頭ビットから8番目のビットまでのデー
タ「01001110」から33番目のビットから40
番目のビットまでのデータ「10100011」の比較
が行なわれる。
【0064】そして、比較元データ31として検索対象
データ32の33番目のビットから40番目のビットま
でのデータ「10100011」が取得され、この比較
元データ31について検索対象データ32との比較が終
了した時点で、処理が終了する。
データ32の33番目のビットから40番目のビットま
でのデータ「10100011」が取得され、この比較
元データ31について検索対象データ32との比較が終
了した時点で、処理が終了する。
【0065】さらに、本発明の第2の実施の形態を図6
に示す。この第2の実施の形態による類似データ抽出方
式では、第1の実施の形態にデータ圧縮部15を追加し
た構成としている。このデータ圧縮部15によって、ビ
ット化した検索対象データ及び比較元データを圧縮する
ことにより比較するデータ量が減少するため、比較演算
部13における負荷が軽減され比較処理に要する時間を
短縮することが可能となる。
に示す。この第2の実施の形態による類似データ抽出方
式では、第1の実施の形態にデータ圧縮部15を追加し
た構成としている。このデータ圧縮部15によって、ビ
ット化した検索対象データ及び比較元データを圧縮する
ことにより比較するデータ量が減少するため、比較演算
部13における負荷が軽減され比較処理に要する時間を
短縮することが可能となる。
【0066】第2の実施の形態による類似データ抽出処
理については、比較処理の前に上記検索対象データと比
較元データの圧縮処理が追加されるだけであり、その他
の内容については図2及び図4に示す内容と同じであ
る。
理については、比較処理の前に上記検索対象データと比
較元データの圧縮処理が追加されるだけであり、その他
の内容については図2及び図4に示す内容と同じであ
る。
【0067】なお、本発明は上述した実施の形態に限定
されるものではなく、その技術思想の範囲内において様
々に変形して実施することができる。
されるものではなく、その技術思想の範囲内において様
々に変形して実施することができる。
【0068】
【発明の効果】以上説明したように本発明の類似データ
抽出システム及び方法によれば、検索対象データと比較
元データをビット化し、1ビットずつずらして比較する
ことにより、一致したビット数から求めた類似割合に基
づいて類似データを抽出する構成としたので、対象デー
タから特定のデータと類似するデータを、高速に抽出す
ることが可能となる。これにより、対象データから特定
のデータ及びそれに類似するデータの洗い出すといった
処理が極めて簡単に行なえる。
抽出システム及び方法によれば、検索対象データと比較
元データをビット化し、1ビットずつずらして比較する
ことにより、一致したビット数から求めた類似割合に基
づいて類似データを抽出する構成としたので、対象デー
タから特定のデータと類似するデータを、高速に抽出す
ることが可能となる。これにより、対象データから特定
のデータ及びそれに類似するデータの洗い出すといった
処理が極めて簡単に行なえる。
【0069】また、ビット化した検索対象データ及び比
較元データを圧縮して比較処理を行なうことにより、比
較するデータ量が減少して比較処理の時間が短縮され、
より高速な類似データ抽出が可能となる。
較元データを圧縮して比較処理を行なうことにより、比
較するデータ量が減少して比較処理の時間が短縮され、
より高速な類似データ抽出が可能となる。
【0070】また、検索対象データと比較元データをビ
ット化して比較を行なうので、文字や画像が混在するデ
ータを含め、あらゆる対象データから特定のデータと類
似するデータを抽出することが可能となる。
ット化して比較を行なうので、文字や画像が混在するデ
ータを含め、あらゆる対象データから特定のデータと類
似するデータを抽出することが可能となる。
【0071】さらに、重複をチェックすべき2つの検索
対象データについてそれぞれ類似データ抽出処理を行な
うことで、比較元データとそれに類似するデータの出現
位置を互いに比較するだけで、2つの検索対象データの
重複度を簡単にチェックすることが可能となる。
対象データについてそれぞれ類似データ抽出処理を行な
うことで、比較元データとそれに類似するデータの出現
位置を互いに比較するだけで、2つの検索対象データの
重複度を簡単にチェックすることが可能となる。
【図1】 本発明の第1の実施の形態による類似データ
抽出システムの構成を示すブロック図である。
抽出システムの構成を示すブロック図である。
【図2】 比較元データと検索対象データがそれぞれ別
個に用意されている場合の類似データ抽出処理を示すフ
ローチャートである。
個に用意されている場合の類似データ抽出処理を示すフ
ローチャートである。
【図3】 図2の処理を実際のデータに適用した実施例
を示す図である。
を示す図である。
【図4】 比較元データを検索対象データから取得する
場合の類似データ抽出処理を示すフローチャートであ
る。
場合の類似データ抽出処理を示すフローチャートであ
る。
【図5】 図4の処理を実際のデータに適用した実施例
を示す図である。
を示す図である。
【図6】 本発明の第2の実施の形態による類似データ
抽出システムの構成を示すブロック図である。
抽出システムの構成を示すブロック図である。
11 比較元データ取得部 12 検索対象データビット変換部 13 データ比較演算部 14 類似割合演算部 15 データ圧縮部 31 比較元データ 32 検索対象データ
Claims (7)
- 【請求項1】 検索対象データから比較元データに類似
したデータを抽出する類似データ抽出システムにおい
て、 前記検索対象データをビット列に変換する検索対象デー
タ変換手段と、ビット列に変換された前記検索対象データから 指定され
たデータ長の前記比較元データを取得する比較元データ
取得手段と、 前記比較元データを、前記検索対象データの先頭ビット
から1ビットずつずらして順次比較し、前記検索対象デ
ータのうち前記比較元データと比較したデータの、前記
比較元データと一致するビット数を検出するデータ比較
演算手段と、 前記データ比較演算手段で検出された一致ビット数に基
づいて、前記検索対象データのうち前記比較元データと
比較したデータが、前記比較元データと類似するかどう
かを判定する類似判定手段とを備え、前記比較元データ取得手段は、初期状態において、前記
検索対象データの先頭ビットから指定されたデータ長分
の前記比較元データを取得し、前記比較元データの前記
検索対象データとの比較が終了する毎に、前記検索対象
データの比較元データの取得位置を1ビットずつずらし
て次の前記比較元データを取得する ことを特徴とする類
似データ抽出システム。 - 【請求項2】 前記類似判定手段は、前記一致ビット数
の前記比較元データのデータ長に対する割合を類似割合
として算出し、該算出した類似割合を予め設定された閾
値と比較し、前記類似割合が前記閾値以上の場合に、前
記検索対象データのうち前記比較元データと比較したデ
ータを前記比較元データと類似すると判定することを特
徴とする請求項1に記載の類似データ抽出システム。 - 【請求項3】 前記類似判定手段は、前記検索対象デー
タのうち前記比較元データと比較したデータが前記比較
元データと類似する場合、前記検索対象データのうち前
記比較元データと比較したデータの先頭ビット位置と前
記比較元データを保存することを特徴とする請求項1又
は請求項2に記載の類似データ抽出システム。 - 【請求項4】 ビット列に変換した前記検索対象データ
及び前記比較元データの圧縮処理を行なうデータ圧縮手
段を備えたことを特徴とする請求項1から 請求項3の何
れか1つに記載の類似データ抽出システム。 - 【請求項5】 検索対象データから比較元データに類似
したデータを抽出する類似データ抽出方法において、 前記検索対象データをビット列に変換するステップと、 ビット列に変換された前記検索対象データから指定され
たデータ長の前記比較元データを取得するステップと、 前記比較元データを、前記検索対象データの先頭ビット
から1ビットずつずらして順次比較し、前記検索対象デ
ータのうち前記比較元データと比較したデータの、前記
比較元データと一致するビット数を検出するステップ
と、 検出された一致ビット数に基づいて、前記検索対象デー
タのうち前記比較元データと比較したデータが、前記比
較元データと類似するかどうかを判定するステップとを
備え、 前記比較元データ取得ステップでは、初期状態におい
て、前記検索対象データの先頭ビットから指定されたデ
ータ長分の前記比較元データを取得し、前記比較元デー
タの前記検索対象データとの比較が終了する毎に、前記
検索対象データの比較元データの取得位置を1ビットず
つずらして次の前記比較元データを取得する ことを特徴
とする類似データ抽出方法。 - 【請求項6】 前記類似判定ステップでは、 前記一致ビット数の前記比較元データのデータ長に対す
る割合を類似割合として算出し、 該算出した類似割合を予め設定された閾値と比較し、 前記類似割合が前記閾値以上の場合に、前記検索対象デ
ータのうち前記比較元データと比較したデータを前記比
較元データと類似すると判定することを特徴とする請求
項5に記載の 類似データ抽出方法。 - 【請求項7】 前記類似判定ステップでは、 前記検索対象データのうち前記比較元データと比較した
データが前記比較元データと類似する場合、前記検索対
象データのうち前記比較元データと比較したデータの先
頭ビット位置と前記比較元データを保存することを特徴
とする請求項5 又は請求項6に 記載の類似データ抽出方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09331058A JP3127869B2 (ja) | 1997-11-14 | 1997-11-14 | 類似データ抽出システム及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09331058A JP3127869B2 (ja) | 1997-11-14 | 1997-11-14 | 類似データ抽出システム及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11149476A JPH11149476A (ja) | 1999-06-02 |
JP3127869B2 true JP3127869B2 (ja) | 2001-01-29 |
Family
ID=18239392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09331058A Expired - Fee Related JP3127869B2 (ja) | 1997-11-14 | 1997-11-14 | 類似データ抽出システム及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3127869B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014102924A1 (ja) * | 2012-12-26 | 2014-07-03 | 株式会社高速屋 | ビット判定回路、ビット列データ選択回路及びビット列データ選択方法 |
-
1997
- 1997-11-14 JP JP09331058A patent/JP3127869B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11149476A (ja) | 1999-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3889762B2 (ja) | データ圧縮方法、プログラム及び装置 | |
JP2758826B2 (ja) | 文書検索装置 | |
CA2683273A1 (en) | Computer network intrusion detection | |
JPH08194719A (ja) | 検索装置および辞書/テキスト検索方法 | |
JP3127869B2 (ja) | 類似データ抽出システム及びその方法 | |
JP2001319231A (ja) | 画像処理装置及び画像処理方法、記録媒体 | |
JPH05257982A (ja) | 文字列認識方法 | |
KR19990016894A (ko) | 영상 데이터베이스 검색방법 | |
JPH0269887A (ja) | オンライン手書き文字の認識装置 | |
JP2585951B2 (ja) | コードデータ検索装置 | |
JP3955410B2 (ja) | 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体 | |
JPH08272813A (ja) | ファイリング装置 | |
JP3115459B2 (ja) | 文字認識辞書の構成方法及び検索方法 | |
JP3071745B2 (ja) | 文字認識結果の後処理方法 | |
JPH07336696A (ja) | 2次元画像データの圧縮方式および伸長方式 | |
JP2772125B2 (ja) | 辞書検索方式 | |
JPH064600A (ja) | イメージ検索方法およびイメージ検索装置 | |
JP2851865B2 (ja) | 文字認識装置 | |
JPS62169273A (ja) | 言語処理プログラムにおけるラベル情報の登録・参照方式 | |
JP3760040B2 (ja) | 文字認識方法、文字認識装置及び情報記録媒体 | |
JPH0264884A (ja) | 文字認識装置の辞書検索回路 | |
JPH0550024B2 (ja) | ||
JPH0362289A (ja) | 文字認識方法及び装置 | |
JPS6292090A (ja) | パタ−ン認識装置 | |
JPH076213A (ja) | 文字列認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |