JP5499369B2 - 情報検索装置、情報検索方法及び情報検索プログラム - Google Patents

情報検索装置、情報検索方法及び情報検索プログラム Download PDF

Info

Publication number
JP5499369B2
JP5499369B2 JP2011022790A JP2011022790A JP5499369B2 JP 5499369 B2 JP5499369 B2 JP 5499369B2 JP 2011022790 A JP2011022790 A JP 2011022790A JP 2011022790 A JP2011022790 A JP 2011022790A JP 5499369 B2 JP5499369 B2 JP 5499369B2
Authority
JP
Japan
Prior art keywords
numerical data
information search
region
predetermined condition
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011022790A
Other languages
English (en)
Other versions
JP2012164063A (ja
Inventor
武 井上
浩史 佐藤
敬広 山崎
博之 森川
潤一郎 高木
超 高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011022790A priority Critical patent/JP5499369B2/ja
Publication of JP2012164063A publication Critical patent/JP2012164063A/ja
Application granted granted Critical
Publication of JP5499369B2 publication Critical patent/JP5499369B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベースに蓄積された情報を効率よく検索する情報検索装置、情報検索方法及び情報検索プログラムに関する。
近年の計算機の進歩により、数値の検査・比較演算は非常に高速化されている。一方、ハードディスクなどの記憶装置から情報を読み取る読み取り速度は、演算速度に比べると大きく劣るため、データベースシステムにおいては、大量のデータを読み取ることが必須である処理を実行するためには、多大な処理時間を必要とするのが現状である。記憶装置から読み取るデータ量を削減することができれば、大量のデータを読み取る必要があるデータベースシステムにおいて、データ検索の処理時間を短縮することができる。
しかしながら、従来手法には以下に述べる問題がある。例えば、図8に示すような周波数と信号強度の数値データを対象とした無線通信におけるホワイトスペース検索においては、空き周波数帯を再利用するために、信号レベルが閾値以下である周波数帯を検索する必要がある。このような連続した数値列から閾値以下(あるいは以上)の領域を検索する際に、最も単純な方法として、図9に示すように、条件を満たす領域を発見するまで、領域をスライドさせながら繰り返し検査を行う方法がある。この方法では、最悪の場合、すべての数値データを記憶装置から読み取らなければならないため、検索時間は長くなるという問題がある。このような問題を解決するために、事前にデータ変換を行っておくことによって、検索時間を短縮する方法がいくつか提案されている(例えば、非特許文献1、2、3参照)。
Keogh, E., Smyth, P. 1997. A probabilistic approach to fast pattern matching in time series databases. In: Proceedings of the Third International Conference on Knowledge Discovery and Data Mining (KDD), pp. 24-30. Huanmei Wu, Betty Salzberg, Donghui Zhang. Online Event-driven Subsequence Matching over Financial Data Streams. ACM SIGMOD Conference 2004. Popivanov I, Muller RJ. Similarity search over time-series data using wavelets. Proc. of the 18th ICDE 2002.
しかしながら、特許文献1〜3に記載の検索方法にあっては、予め前処理を実行しておる必要があるため、生成されたデータを即時に検索する必要がある場合には適用できないという問題がある。
本発明は、このような事情に鑑みてなされたもので、検索時間を大幅に短縮することができ、リアルタイムの検索を行うことができる情報検索装置、情報検索方法及び情報検索プログラムを提供することを目的とする。
本発明は、検索対象の数値データが記憶された記憶手段と、前記記憶手段から全数値データの一部を抽出する手段と、前記抽出した数値データから最も第1の所定条件を満たす数値データを1つ検出する手段と、前記記憶手段から、前記検出した数値データの近傍領域の数値データの一部を抽出する手段と、前記近傍領域の数値データから最も前記第1の所定条件を満たす数値データを1つ検出する手段と、前記近傍領域より狭い領域を近傍領域に設定し、前記近傍領域が第2の所定条件を満たすまで検出処理を繰り返す手段とを備えたことを特徴とする。
本発明は、前記記憶手段から前記数値データを読み出す際に、近傍の複数の数値データに基づき前記数値データの異常値を取り除いて検出処理を行うことを特徴とする。
本発明は、前記数値データは、連続性を持って変化する特性を有していることを特徴とする。
本発明は、検索対象の数値データが記憶された記憶手段と、演算部とを備えた情報検索装置における情報検索方法であって、前記演算部が、前記記憶手段から全数値データの一部を抽出するステップと、前記抽出した数値データから最も第1の所定条件を満たす数値データを1つ検出するステップと、前記記憶手段から、前記検出した数値データの近傍領域の数値データの一部を抽出するステップと、前記近傍領域の数値データから最も前記第1の所定条件を満たす数値データを1つ検出するステップと、前記近傍領域より狭い領域を近傍領域に設定し、前記近傍領域が第2の所定条件を満たすまで検出処理を繰り返すステップとを有することを特徴とする。
本発明は、検索対象の数値データが記憶された記憶手段を備えた情報検索装置上のコンピュータに情報検索を行わせるコンピュータプログラムであって、前記記憶手段から全数値データの一部を抽出するステップと、前記抽出した数値データから最も第1の所定条件を満たす数値データを1つ検出するステップと、前記記憶手段から、前記検出した数値データの近傍領域の数値データの一部を抽出するステップと、前記近傍領域の数値データから最も前記第1の所定条件を満たす数値データを1つ検出するステップと、前記近傍領域より狭い領域を近傍領域に設定し、前記近傍領域が第2の所定条件を満たすまで検出処理を繰り返すステップとを前記コンピュータ行わせることを特徴とする。
本発明によれば、検索時間が大幅に短縮できるとともに、リアルタイム検索も可能になるという効果が得られる。
本発明の一実施形態の構成を示すブロック図である。 図1に示す装置の動作を示すシーケンス図である。 図1に示す記憶部2から読み出したデータの一例を示す説明図である。 図1に示す記憶部2から読み出したデータの一例を示す説明図である。 一連の検索過程を模式化した説明図である。 図1に示す装置の動作を示すシーケンス図である。 図1に示す記憶部2から読み出したデータの一例を示す説明図である。 検索対象のデータ構造を示す説明図である。 従来技術による検索過程を模式化した説明図である。
以下、図面を参照して、本発明の一実施形態による情報検索装置を説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、コンピュータ装置から構成する情報検索装置である。符号2は、検索対象のデータが記憶された記憶部である。記憶部2は、必ずしも情報検索装置1内に備えている必要はなく、他の装置内に備えられており、通信手段を介して、記憶部2から検索対象のデータを読み出すことができる構成となっていてよい。符号3は、データ検索処理を実行する演算部である。符号4は、ユーザが操作を行ってデータ検索の条件を入力する入力部であり、マウスやキーボード等から構成する。符号5は、検索結果を表示する表示部であり、ディスプレイ装置等から構成する。検索結果は、必ずしも表示部5に表示する必要はなく、他の装置に対して出力する構成であってもよい。
次に、図2を参照して、図1に示す情報検索装置1の動作を説明する。図2は、図1に示す情報検索装置1の動作を示すシーケンス図である。ここでは、図1に示す記憶部2には、図8に示す周波数毎の信号強度の数値データが10000個記憶されており、これらの数値データから、周波数の幅が100以上で、信号強度が50以下の領域を検索するものとする。図8に示す数値データは、図9に示すようにある程度の連続性を持って変化するという特性を有しているため、情報検索装置1は、この特性を利用して、すべてのデータを読み込むことなく、所望の領域を検索する。
まず、ユーザは、入力部4を操作して、検索条件(周波数幅100以上、信号強度50以下)を入力する(ステップS0)。この検索条件を受けて、演算部3は、記憶部2から一部の信号強度データを読み出す(ステップS1)。ここでは100個に1個の割合で数値を読み出すものとする。図8に示す数値データは全部で10000個あるため、図3に示すように100個を読み出すことになる。これは等間隔に読み出してもよいし、図3のようにランダムサンプリング(乱択)を行ってもよい。なお、ランダムサンプリングを行うときには、例えば次のようにして読み取りデータ数を決定する。対象データ数をN個(この例では10000)としたとき、L個から1つのデータを確率pで取得するためには、n=log(1−p)/log(1−L/N)個のデータを読み取ればよい。この結果、周波数7103の信号強度が最小(43)であったとすると、次は周波数7103を中心とする幅1000の領域(6603−7602)から、100個の点を読み出す(10個に1個の割合となる)。
なお、ここでは単純に最小の信号強度を持つ周波数を中心として幅1000の領域を決定したが、いくつかの値の平均値を用いても構わない。例えば、周波数帯を1000ずつに区切り、それぞれの領域で得られている数値の平均を計算し、平均値が最小になる領域を選択してもよい。また、ここでは幅1000の値(全データの1/10)としたが、この値はデータの特性などによって調整してもよい。ここでは唯一の領域のみを選択したが、検索条件(この例では信号強度50以下)を満たす領域が複数あれば、それらすべてを選択し、以下の処理を行ってもよい。これは、条件を満たす領域を一つだけ求めればいい場合と、なるべく多く求めたい場合で異なる。
次に、演算部3は、得られた幅1000の領域から、100個の点を読み出し(ここでは10個に1個の割合となる)、同様にして信号強度(あるいは平均値)の小さな周波数を求める(ステップS2)。この結果、図4に示すように、周波数7084の信号強度が最小(39)であったとすると、ここでも同様に、単純に最小の信号強度をのみを用いて幅100の領域を決定してもよいし、いくつかの値の平均値を用いても構わない。そして、演算部3は、周波数7084を中心とする幅100の領域(ここでは7034−7133)の情報を検索結果として表示部5に表示する(ステップS3)。
一連の検索過程は、図5に示すように、まずは粗い粒度で検索を行い、徐々に範囲を狭めながら粒度を細かくしていくことで、読み取るデータ量を削減する。従来の単純な手法では、最悪の場合10000個のすべての数値を記憶部から読み出さなければならなかったが、前述した手法では100個の数値を2回読み出すだけでよい。この結果、検索時間を大きく短縮することができる。また、検索のための前処理は不要であり、数値データが記憶部2に書き込まれた後に、即時に(リアルタイムに)検索を実行することが可能となる。
次に、図6を参照して、図2に示す処理動作の変形例を説明する。図6は、図1に示す情報検索装置1の動作を示すシーケンス図である。図6に示す処理動作が、図2に示す処理動作と異なる点は、ステップS2とS3の間に新たにステップS4、S5を設けた点である。ステップS0〜S2と、ステップS3は、図2に示す処理動作と同様であるので、ステップS0〜S2と、ステップS3の処理動作は簡単に説明する。
まず、ユーザは、入力部4を操作して、検索条件(周波数幅100以上、信号強度50以下)を入力する(ステップS0)。この検索条件を受けて、演算部3は、記憶部2から一部の信号強度データを読み出す(ステップS1)。次に、演算部3は、得られた幅1000の領域から、100個の点を読み出し(ここでは10個に1個の割合となる)、同様にして信号強度(あるいは平均値)の小さな周波数を求める(ステップS2)。
次に、演算部3は、目的領域の信号強度データすべて(7034−7133)を読み出し(ステップS4)、読み出した信号強度データが検索条件を満たしているか(すべて50以下であるか)否かを判定する(ステップS5)。この判定の結果、検索条件を満たしていれば、演算部3は、周波数7084を中心とする幅100の領域(ここでは7034−7133)の情報を検索結果として表示部5に表示する(ステップS3)。一方、検索条件を満たしていなければ、ステップS1に戻って最初から検索をやり直すか(ランダムサンプリングであれば、異なる結果を得る可能性がある)、またはエラーメッセージを表示部5に表示する。この方法では、図2に示す処理動作と比べて、さらに100個の数値データを読み出すことになるが、それでも10000個に比べれば大幅に少なくすることができる。
信号強度を検出するセンサによっては、大きく外れた誤った異常値を検出することがあり、この異常値が記憶部2に記憶されることがある(図7に示す信号強度999など)。信号強度データを読み出すときにこのような異常値を選択してしまうと、数値データの傾向から大きく外れているため、正しく検索を行うことができない。このような問題を避けるために、近傍の値をいくつか読み出し(図7に示す例では、信号強度163と、信号強度164)、その中央値(図7に示す例では中央値164)、あるいは最大最小を除いた平均値などを代わりに用いるようにしてもよい。図7に示す例では、3つずつの連続した値を取得し、その中央値を用いている。このようにすることで、センサの異常値の影響を抑制することができる。この方法では数倍の数値を読み出すことになるが、それでも10000個に比べれば大幅に少なくすることができる。
無線通信におけるホワイトスペースを検索するような際に、連続した数値列から閾値以下(あるいは以上)の領域を検索する必要があるが、従来は、すべての数値を検査するような効率に劣る手法や、効率を高めるためにデータ変換などの前処理を要する手法が用いられてきた。本発明は、以上説明したように、連続的に変化する数値データを対象とした、ランダムサンプリングによる効率的な検索手法を用いたため、従来手法のようにすべての数値を検査することがなく、検索効率が高い。また、データ変換などの前処理は不要であるため、データ取得後、即時にデータ検索を開始することができる。
なお、図1に示す演算部3の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより情報検索処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
無線通信におけるホワイトスペースを検索するように、検索対象のデータにある程度の連続性を持って変化するという特性を有しているデータから、すべてのデータを読み込むことなく、所望の領域を検索することが不可欠な用途に適用できる。
1・・・情報検索装置、2・・・記憶部、3・・・演算部、4・・・入力部、5・・・表示部

Claims (7)

  1. 検索対象の数値データが記憶された記憶手段と、
    前記記憶手段から全数値データの一部を抽出する手段と、
    前記抽出した数値データから最も第1の所定条件を満たす数値データを1つ検出する手段と、
    前記記憶手段から、前記検出した数値データの近傍領域の数値データの一部を抽出する手段と、
    前記近傍領域の数値データから最も前記第1の所定条件を満たす数値データを1つ検出する手段と、
    前記近傍領域より狭い領域を近傍領域に設定し、前記近傍領域が第2の所定条件を満たすまで検出処理を繰り返す手段と
    を備えたことを特徴とする情報検索装置。
  2. 前記記憶手段から前記数値データを読み出す際に、近傍の複数の数値データに基づき前記数値データの異常値を取り除いて検出処理を行うことを特徴とする請求項1に記載の情報検索装置。
  3. 前記数値データは、連続性を持って変化する特性を有していることを特徴とする請求項1または2に記載の情報検索装置。
  4. 検索対象の数値データが記憶された記憶手段と、演算部とを備えた情報検索装置における情報検索方法であって、
    前記演算部が、
    前記記憶手段から全数値データの一部を抽出するステップと、
    前記抽出した数値データから最も第1の所定条件を満たす数値データを1つ検出するステップと、
    前記記憶手段から、前記検出した数値データの近傍領域の数値データの一部を抽出するステップと、
    前記近傍領域の数値データから最も前記第1の所定条件を満たす数値データを1つ検出するステップと、
    前記近傍領域より狭い領域を近傍領域に設定し、前記近傍領域が第2の所定条件を満たすまで検出処理を繰り返すステップと
    を有することを特徴とする情報検索方法。
  5. 前記記憶手段から前記数値データを読み出す際に、近傍の複数の数値データに基づき前記数値データの異常値を取り除いて検出処理を行うことを特徴とする請求項4に記載の情報検索方法。
  6. 前記数値データは、連続性を持って変化する特性を有していることを特徴とする請求項4または5に記載の情報検索方法。
  7. 検索対象の数値データが記憶された記憶手段を備えた情報検索装置上のコンピュータに情報検索を行わせるコンピュータプログラムであって、
    前記記憶手段から全数値データの一部を抽出するステップと、
    前記抽出した数値データから最も第1の所定条件を満たす数値データを1つ検出するステップと、
    前記記憶手段から、前記検出した数値データの近傍領域の数値データの一部を抽出するステップと、
    前記近傍領域の数値データから最も前記第1の所定条件を満たす数値データを1つ検出するステップと、
    前記近傍領域より狭い領域を近傍領域に設定し、前記近傍領域が第2の所定条件を満たすまで検出処理を繰り返すステップと
    を前記コンピュータ行わせることを特徴とする情報検索プログラム。
JP2011022790A 2011-02-04 2011-02-04 情報検索装置、情報検索方法及び情報検索プログラム Expired - Fee Related JP5499369B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011022790A JP5499369B2 (ja) 2011-02-04 2011-02-04 情報検索装置、情報検索方法及び情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011022790A JP5499369B2 (ja) 2011-02-04 2011-02-04 情報検索装置、情報検索方法及び情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2012164063A JP2012164063A (ja) 2012-08-30
JP5499369B2 true JP5499369B2 (ja) 2014-05-21

Family

ID=46843405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011022790A Expired - Fee Related JP5499369B2 (ja) 2011-02-04 2011-02-04 情報検索装置、情報検索方法及び情報検索プログラム

Country Status (1)

Country Link
JP (1) JP5499369B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548809A (en) * 1992-07-15 1996-08-20 Southwestern Bell Technology Resources, Inc. Spectrum sharing communications system and system for monitoring available spectrum
US20070082687A1 (en) * 2005-10-07 2007-04-12 Microsoft Corporation Station selecting transmitter
JP4528716B2 (ja) * 2005-11-29 2010-08-18 株式会社東芝 基地局および無線通信方法
JP4512143B2 (ja) * 2008-02-21 2010-07-28 株式会社トヨタIt開発センター 移動体無線通信システムおよび無線通信方法

Also Published As

Publication number Publication date
JP2012164063A (ja) 2012-08-30

Similar Documents

Publication Publication Date Title
US11030157B2 (en) Template based data reduction for commercial data mining
US9819689B2 (en) Large scale malicious process detection
US10692007B2 (en) Behavioral rules discovery for intelligent computing environment administration
US20150121136A1 (en) System and method for automatically managing fault events of data center
JP6327234B2 (ja) イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
US11650579B2 (en) Information processing device, production facility monitoring method, and computer-readable recording medium recording production facility monitoring program
US20220075794A1 (en) Similarity analyses in analytics workflows
US8166049B2 (en) Techniques for computing similarity measurements between segments representative of documents
US20160255109A1 (en) Detection method and apparatus
US10824694B1 (en) Distributable feature analysis in model training system
US20120323918A1 (en) Method and system for document clustering
Du et al. Behavioral anomaly detection approach based on log monitoring
CN115269288A (zh) 故障确定方法、装置、设备和存储介质
US11501058B2 (en) Event detection based on text streams
JP5499369B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
US10042686B2 (en) Determination method, selection method, and determination device
CN114416513B (zh) 搜索数据的处理方法、装置、电子设备和存储介质
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
Wang et al. A duplicate code checking algorithm for the programming experiment
EP4242881A1 (en) Online detection of anomalous subsequences in time series
US20240338436A1 (en) Log generation apparatus, abnormality detection system, log generation method, and nontransitory computer readable medium
JP2019101841A (ja) 検索処理プログラム、検索処理方法および検索処理装置
Miura et al. Extraction of frequent association patterns co-occurring across multi-sequence data
Maurya et al. Kalman filter based flexible sliding window algorithm for mining frequent itemset over data stream
JP4398907B2 (ja) 特徴系列パターン発見装置及び特徴系列パターン発見装置の作動方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130514

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130704

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140219

R150 Certificate of patent or registration of utility model

Ref document number: 5499369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140320

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees