JP5953277B2 - データ索引装置、データ索引方法及びプログラム - Google Patents
データ索引装置、データ索引方法及びプログラム Download PDFInfo
- Publication number
- JP5953277B2 JP5953277B2 JP2013188835A JP2013188835A JP5953277B2 JP 5953277 B2 JP5953277 B2 JP 5953277B2 JP 2013188835 A JP2013188835 A JP 2013188835A JP 2013188835 A JP2013188835 A JP 2013188835A JP 5953277 B2 JP5953277 B2 JP 5953277B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- attribute
- search
- node
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
当該ノードが検索される確率=ΣXiYi(全属性集合Aに対しi∈A)
i
…(1)
但し、Xiは属性iで検索された場合に当該ノードが検索される確率、Yiは検索条件に属性iが用いられる確率Yiを示す。
Yi=Σ(1/(2^Dt−1))/M …(2)
t
但し、tはそれまでに挿入された属性iを含むデータ、Dtはデータtが含む属性数、Mはそれまでに挿入されたデータ総数を示す。
Yi=Fdi/(ΣFdj) …(3)
j
但し、Fdiはそれまでに挿入されたデータ内での属性iの出現頻度である。それまでに挿入されたデータ内での出現頻度の高い属性は検索条件に用いられやすいという考察に基づき、Yiを式(3)で見積もっている。
また、この発明の第2の目的は、検索条件に含まれる属性が挿入されたデータの多くに含まれるか否かによって柔軟にペナルティの組み合わせを切り替えることを可能とし、これにより検索効率をさらに高めたデータ索引装置、データ索引方法及びプログラムを提供することにある。
また、この発明の第2の観点によれば、検索条件に含まれる属性が挿入されたデータの多くに含まれるか否かによって柔軟にペナルティの組み合わせを切り替えることが可能となり、これにより検索効率をさらに高めたデータ索引装置、データ索引方法及びプログラムを提供することができる。
[一実施形態]
(構成)
図1は、この発明の一実施形態に係るデータ索引装置の機能構成を示すブロック図である。
本実施形態のデータ索引装置は、例えばデータベースサーバからなり、制御ユニット1と、通信インタフェースユニット2と、記憶ユニット3を備えている。通信インタフェースユニット2は、ネットワークNWで規定される通信プロトコルに従い、例えば図示しないセンサ群との間でその計測データを受信する機能を有する。
直接法有効度記憶部36には、直接法の有効度を表す情報が保存される。図7はその一例を示すもので、ここでは「50」に設定された場合を示している。
挿入データ数記憶部38には、データ集合の挿入データ数を表す情報が保存される。図9はその一例を示すもので、図2に示したデータ集合を挿入した後の状態を示しており、図2に示すデータ集合の数「5」と等しい値となっている。
次に、以上のように構成されたデータ索引装置IUの動作を説明する。
ここでは、記憶ユニット3のデータ集合記憶部31には図2に示すデータ集合が、木構造記憶部32には図3に示すUBI-Tree構造が、属性表記憶部33には図4に示す属性表が、さらに検索履歴記憶部34には図5に示した検索履歴を表す情報がそれぞれ記憶されているものとして説明を行う。
Yi=(Fdi/(ΣFdj))×(100−A)/100
j
+(Fsi/(ΣFsj))×A/100 …(4)
j
但し、Fsiはそれまでに用いられた検索条件内での属性iの出現頻度である。またAは該検索履歴有効度である。
Y(時間)=0+(5/(5+3))×100/100=0.625
Y(温度)=0+(3/(5+3))×100/100=0.375
となる。
本実施形態においては、直接法有効度は50であり、最もYの値が大きなY(時間)が0.625であり、Y(時間)だけで50/100を超えるため、「検索条件に用いられる確率が高い属性集合」には「時間」のみが含まれる。
新規計測データの挿入により、リーフノード305が保持するデータ数は3となる。各ノードが保持する子ノードあるいはデータの上限値は2に設定されているため、ノード分割アルゴリズムによりノード305を分割する。ノードを分割する際にも、挿入先ノード選択アルゴリズムと同様に、該検索履歴有効度と該直接法有効度と該共通キー判定割合と該挿入データ数と該検索履歴と該属性表とを調べ、検索条件に用いられる確率が高い属性集合が共通キー集合であるかどうかを判定する。そして、共通キー集合であると判定された場合には、次元抑制ペナルティを無効化し、また「当該ノードが検索される確率」を算出する際に、(4)式により確率Yiを算出する。
以上詳述したように一実施形態では、記憶ユニット3に検索履歴を記憶しておき、データ挿入部12の制御の下、新規計測データに含まれる属性の各々が検索条件に用いられる確率を上記記憶された検索履歴に含まれる頻度をもとに(4)式によりそれぞれ算出し、この算出された頻度をもとにペナルティを算出するようにしている。したがって、過去に検索条件に用いられてきた属性ほど重要視してUBI-Tree構造内でデータを分類することが可能となる。すなわち、「当該ノードが検索される確率」をそれまでに用いられた検索条件の履歴に基づいて高い精度で予測することが可能となり、これにより検索効率の劣化を防ぐことができる。
前記一実施形態では、各ノードが保持する子ノードあるいはデータの上限値を2に設定した場合を例にとって説明したが、これに限らず、他の正数値に設定してもよい。
また、前記一実施形態では、データとしてセンサにより得られた温度、湿度、照度、音量等の計測データを取り扱う場合を例にとって説明した。しかし、それに限らず電流や電圧値、流体の流量、物質の濃度、明度、騒音レベル、位置、加速度などの計測データを取り扱ってよく、さらにはセンサ以外の例えばWebやインターネットを経由して取得した情報であってもよい。また、それら値に加えて、センサの特性や状態、計測日時等を示すメタデータを含む情報を取り扱ってもよい。その他、データ索引装置の構成やデータ挿入処理の手順と処理内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
Claims (7)
- 属性とその属性値とからなる組を少なくとも1つ含むデータの集合を、UBI-Tree構造により記憶し管理するデータ索引装置であって、
前記データ集合と、前記UBI-Tree構造と、前記データ集合に含まれる属性の各々が検索条件に用いられた頻度を含む検索履歴を少なくとも記憶する記憶手段と、
前記UBI-Tree構造中に新規データを挿入する際に、当該新規データに含まれる属性の各々が検索条件に用いられる確率を、前記記憶手段に記憶された検索履歴に含まれる頻度を考慮して算出し、当該算出された確率に基づいて前記UBI-Tree構造へのデータ挿入アルゴリズムにおけるペナルティを算出して新規データの挿入処理を行うデータ挿入手段と
を具備することを特徴とするデータ索引装置。 - 前記データ挿入手段は、新規データに含まれる属性をXとしたとき、当該属性Xが検索条件に用いられる確率を、前記検索履歴に含まれる全属性の頻度の総数に対する前記検索履歴に含まれる属性Xの頻度の割合として算出することを特徴とする請求項1記載のデータ索引装置。
- 前記記憶手段は、前記データ集合に含まれる属性の各々についてその出現頻度と属性値を関連付けた属性表を、さらに記憶し、
前記データ挿入手段は、前記UBI-Tree構造中に新規データを挿入する際に、前記記憶手段に記憶された検索履歴及び属性表に基づいて、前記検索条件に用いられた頻度が予め定めたしきい値より高い属性が、挿入されたデータのうち所定数以上に含まれているか否かを判定し、含まれている場合には次元抑制ペナルティを無効化して新規データの挿入処理を行うことを特徴とする請求項1又は2記載のデータ索引装置。 - コンピュータ及び記憶手段を備え、属性とその属性値とからなる組を少なくとも1つ含むデータの集合を、UBI-Tree構造により記憶し管理する装置が実行するデータ索引方法であって、
少なくとも、前記データ集合と、前記UBI-Tree構造と、前記データ集合に含まれる属性の各々が検索条件に用いられた頻度を含む検索履歴を、前記記憶手段に記憶させる過程と、
前記UBI-Tree構造中に新規データを挿入する際に、当該新規データに含まれる属性の各々が検索条件に用いられる確率を、前記記憶手段に記憶された検索履歴に含まれる頻度を考慮して算出し、当該算出された確率に基づいて前記UBI-Tree構造へのデータ挿入アルゴリズムにおけるペナルティを算出して新規データの挿入処理を行う過程と
を具備することを特徴とするデータ索引方法。 - 前記新規データの挿入処理を行う過程は、新規データに含まれる属性をXとしたとき、当該属性Xが検索条件に用いられる確率を、前記検索履歴に含まれる全属性の頻度の総数に対する前記検索履歴に含まれる属性Xの頻度の割合として算出することを特徴とする請求項4記載のデータ索引方法。
- 前記データ集合に含まれる属性の各々についてその出現頻度と属性値を関連付けた属性表を前記記憶手段に記憶させる過程を、さらに備え、
前記新規データの挿入処理を行う過程は、前記UBI-Tree構造中に新規データを挿入する際に、前記記憶手段に記憶された検索履歴及び属性表に基づいて、前記検索条件に用いられた頻度が予め定めたしきい値より高い属性が、挿入されたデータのうち所定数以上に含まれているか否かを判定し、含まれている場合には次元抑制ペナルティを無効化して新規データの挿入処理を行うことを特徴とする請求項4又は5記載のデータ索引方法。 - 請求項1乃至3の何れかに記載のデータ索引装置が具備する各手段の処理を、当該データ索引装置が備えるコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013188835A JP5953277B2 (ja) | 2013-09-11 | 2013-09-11 | データ索引装置、データ索引方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013188835A JP5953277B2 (ja) | 2013-09-11 | 2013-09-11 | データ索引装置、データ索引方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015056016A JP2015056016A (ja) | 2015-03-23 |
JP5953277B2 true JP5953277B2 (ja) | 2016-07-20 |
Family
ID=52820379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013188835A Active JP5953277B2 (ja) | 2013-09-11 | 2013-09-11 | データ索引装置、データ索引方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5953277B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5470082B2 (ja) * | 2010-02-16 | 2014-04-16 | 日本電信電話株式会社 | 情報蓄積検索方法及び情報蓄積検索プログラム |
CN102411591A (zh) * | 2010-09-21 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种信息处理的方法及设备 |
JP5678790B2 (ja) * | 2011-05-02 | 2015-03-04 | 富士通株式会社 | インデックス管理方法、インデックス管理プログラムおよびインデックス管理装置 |
-
2013
- 2013-09-11 JP JP2013188835A patent/JP5953277B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015056016A (ja) | 2015-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102266756B1 (ko) | Kvs 트리 | |
TWI702506B (zh) | 用於合併樹廢棄項目指標之系統、機器可讀媒體及機器實施之方法 | |
US9411840B2 (en) | Scalable data structures | |
JP6332264B2 (ja) | 類似データ検索装置、類似データ検索方法、及びプログラム | |
US20160342637A1 (en) | Detecting quasi-identifiers in datasets | |
US8782219B2 (en) | Automated discovery of template patterns based on received server requests | |
CN105989015B (zh) | 一种数据库扩容方法和装置以及访问数据库的方法和装置 | |
WO2018036549A1 (zh) | 分布式数据库查询方法、装置及管理系统 | |
CN106951179B (zh) | 一种数据迁移方法及装置 | |
US20160103858A1 (en) | Data management system comprising a trie data structure, integrated circuits and methods therefor | |
JP2008225575A (ja) | 計算機負荷見積システム、計算機負荷見積方法 | |
US20140229496A1 (en) | Information processing device, information processing method, and computer program product | |
JP6982049B2 (ja) | インデックスを管理するための方法、装置、設備及び記憶媒体 | |
KR20160011212A (ko) | 데이터 운영을 위한 메모리 및 스토리지 공간 관리 | |
JP5731015B2 (ja) | データベースシステム及びデータベース管理方法 | |
US8392393B2 (en) | Graph searching | |
Firth et al. | TAPER: query-aware, partition-enhancement for large, heterogenous graphs | |
CN111666302A (zh) | 用户排名的查询方法、装置、设备及存储介质 | |
CN117171161A (zh) | 数据查询方法及装置 | |
JP6189266B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP5953277B2 (ja) | データ索引装置、データ索引方法及びプログラム | |
CN106709045B (zh) | 分布式文件系统中节点选择方法及装置 | |
JP5953262B2 (ja) | データ索引装置、データ索引方法及びプログラム | |
US11435926B2 (en) | Method, device, and computer program product for managing storage system | |
CN110019783A (zh) | 属性词聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5953277 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |