JP5687219B2 - データ検索システム、データ検索方法及びデータ検索プログラム - Google Patents
データ検索システム、データ検索方法及びデータ検索プログラム Download PDFInfo
- Publication number
- JP5687219B2 JP5687219B2 JP2012009774A JP2012009774A JP5687219B2 JP 5687219 B2 JP5687219 B2 JP 5687219B2 JP 2012009774 A JP2012009774 A JP 2012009774A JP 2012009774 A JP2012009774 A JP 2012009774A JP 5687219 B2 JP5687219 B2 JP 5687219B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- search
- load data
- column
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
特許文献1によれば、メタデータ内の構造化データの各項目に対して、インデックスを構築してインデックステーブルを生成すると共に、各項目において頻出する値をその項目名とペアで1つの要素として集合インデックスを構築しておく技術が開示されている。
非特許文献1によれば、構造化データ内における複数のデータ項目を纏めたテーブルを主記憶装置であるメモリに格納し(オンメモリ化)、高速にコンテンツを検索する技術が開示されている。
請求項3に記載のデータ検索システムは、請求項1又は2に記載のデータ検索システムにおいて、前記ロードデータ生成装置は、前記生成したロードデータを分割して複数の前記オンメモリ検索装置に送信し、前記複数のオンメモリ検索装置の各検索結果をデータ検索要求に合うように整えるコンセントレータ装置を更に有し、当該コンセントレータ装置は、前記データ検索要求に並び替え要求が含まれている場合、前記データ検索要求を書き換えることを特徴とする。
請求項4に記載のデータ検索システムは、請求項2に従属する請求項3に記載のデータ検索システムにおいて、前記コンセントレータ装置は、前記複数のオンメモリ検索装置の各検索結果に含まれる検索結果データを並び替え要求順にキューに格納する手段と、前記キューの先頭から順番に返却範囲内の検索結果データをデータ検索要求元へ順次送信する手段と、を有することを特徴とする。
請求項7に記載のデータ検索方法は、請求項5又は6に記載のデータ検索方法において、前記ロードデータ生成装置は、前記生成したロードデータを分割して複数の前記オンメモリ検索装置に送信し、コンセントレータ装置は、前記オンメモリ検索装置へのデータ検索要求に並び替え要求が含まれている場合、前記データ検索要求を書き換えるステップと、前記複数のオンメモリ検索装置の各検索結果を前記データ検索要求に合うように整えるステップと、を有することを特徴とする。
請求項8に記載のデータ検索方法は、請求項6に従属する請求項7に記載のデータ検索方法において、前記コンセントレータ装置は、前記複数のオンメモリ検索装置の各検索結果に含まれる検索結果データを並び替え要求順にキューに格納するステップと、前記キューの先頭から順番に返却範囲内の検索結果データをデータ検索要求元へ順次送信するステップと、を有することを特徴とする。
図1は、第1の実施の形態に係るデータ検索システムの全体構成を示す図である。このデータ検索システム1は、ロードデータ生成装置100とオンメモリ検索装置200とで主に構成され、それら各装置は相互に通信可能である。
ロードデータ生成装置100は、まず、構造化文書データ取得部11により、構造化文書データベース2から構造化文書データを取得して、次に、ロードデータ生成部12により、予め定義された属性分解定義ファイルに従って、構造化文書データ内の要素内容や属性値等を抽出して、テーブル構造に整理する。
次に、オンメモリ検索装置200の機能及び動作について、データ検索要求を受ける前と受けた後とに分けて以下説明する。
オンメモリ検索装置200は、ロードデータ処理部21により、ロードデータ生成装置100から送られたロードデータを受信して、メモリ22に格納する。
ここで、図17を参照しながら、メモリ22の有する切り替え機能について説明する。オンメモリ検索装置200は、メモリ22を、論理的に、フロントエンドメモリとバックエンドメモリとの2つに分けて利用する機能を備えている。
引き続き、データ検索要求を受けた場合の処理について説明する。オンメモリ検索装置200は、オンメモリ検索部23により、クライアント端末4から送信されたデータ検索要求を受け付けて、カラムポインタリストを利用して、ロードデータから当該データ検索要求に該当するデータを検索し、返信する。
ロードデータ生成装置100で生成されるロードデータのサイズが、オンメモリ検索装置200のメモリ22の容量の例えば半分未満であって、そのメモリ22の空き容量に余裕があれば、第1の実施の形態で説明したように、オンメモリ検索装置200が1台の構成でデータ検索サービスを提供することができる。
検索クエリに返却範囲が指定されている場合、オンメモリ検索装置200が1台の構成であれば、第1の実施の形態で説明したように、その返却範囲に指定されている開始行位置Xから返却行数Yまでを単に検索・取得をすることで、期待される検索結果を返却できる。全てのロードデータが1つのメモリ22に格納されているので、検索する前に検索クエリを書き換える必要はない。
オンメモリ検索装置200が複数で構成されている場合、各オンメモリ検索装置200からのそれぞれの検索結果が並び替えられていても、コンセントレータ装置300で検索結果を結合したときに並び替え順序が崩れてしまう。そのため、コンセントレータ装置300でも、並び替えカラムを基に並び替え処理を実行しなければならない。
以下、図22、図23を参照しながら、並び替えや返却範囲指定がなされた場合の検索結果返却処理について説明する。なお、返却処理開始時に、並べ替え指定の有無に応じて、事前に設けたソート用キューを初期化しておく。並び替え指定がある場合は、ソート用キューへの登録時に並び替え条件に従った順序で登録するように設定するものとする。並び替え指定がない場合は、ソート用キューに登録した順にそのままに並べるように設定するものとする。図23では「Axxxx」(但し、xは数字)のカラムが並び替えカラムになっている。
100…ロードデータ生成装置
11…構造化文書データ取得部
12…ロードデータ生成部
200…オンメモリ検索装置
21…ロードデータ処理部
22…メモリ
22a…バックエンドメモリ
22b…フロントエンドメモリ
23…オンメモリ検索部
300…コンセントレータ装置
3…通信ネットワーク
4…クライアント端末
S1〜S8…処理ステップ
Claims (9)
- ロードデータを生成するロードデータ生成装置と、前記ロードデータを用いてデータを検索するオンメモリ検索装置と、を備えたデータ検索システムにおいて、
前記ロードデータ生成装置は、
構造化文書記憶手段から構造化文書データを取得する構造化文書データ取得手段と、
前記構造化文書データに含まれる複数の属性データをバイナリ化して複数のカラムにそれぞれ格納して連続させたロードデータを生成し、前記生成する際に、少なくとも2つのロードデータにおいて同じバイナリ化された属性データが格納される場合、一方のロードデータのカラムに当該属性データのバイナリ化値を格納し、他方のロードデータのカラムに前記一方のロードデータのカラムの前記一方のロードデータ内での位置を示すインデックス値を格納するロードデータ生成手段と、を有し、
前記オンメモリ検索装置は、
前記他方のロードデータのカラムを前記一方のロードデータのカラムにリンク付けたカラムポインタリストを生成して非稼働中の記憶手段へ格納するロードデータ処理手段と、
参照先の記憶手段を稼働中の記憶手段から前記非稼働中の記憶手段に切り替え、切り替え先の記憶手段のカラムポインタリストから所望のデータを検索するオンメモリ検索手段と、を有し、
前記ロードデータ生成手段は、
前記一方のロードデータのカラムがリスト型カラムの場合、前記一方のロードデータ内での当該カラムの位置を示す第1のインデックス値と、前記リスト型カラム内の要素への位置を示す第2のインデックス値とを前記他方のロードデータのカラムに格納し、前記一方のロードデータのカラムがリスト型カラム以外の場合、前記第1のインデックス値のみを前記他方のロードデータのカラムに格納することを特徴とするデータ検索システム。 - 前記ロードデータ生成装置は、前記生成したロードデータを分割して複数の前記オンメモリ検索装置に送信し、
前記複数のオンメモリ検索装置の各検索結果をデータ検索要求に合うように整えるコンセントレータ装置を更に有し、
前記コンセントレータ装置は、
前記データ検索要求に返却範囲が含まれている場合、前記データ検索要求を書き換えることを特徴とする請求項1に記載のデータ検索システム。 - 前記ロードデータ生成装置は、前記生成したロードデータを分割して複数の前記オンメモリ検索装置に送信し、
前記複数のオンメモリ検索装置の各検索結果をデータ検索要求に合うように整えるコンセントレータ装置を更に有し、
当該コンセントレータ装置は、
前記データ検索要求に並び替え要求が含まれている場合、前記データ検索要求を書き換えることを特徴とする請求項1又は2に記載のデータ検索システム。 - 前記コンセントレータ装置は、
前記複数のオンメモリ検索装置の各検索結果に含まれる検索結果データを並び替え要求順にキューに格納する手段と、
前記キューの先頭から順番に返却範囲内の検索結果データをデータ検索要求元へ順次送信する手段と、
を有することを特徴とする請求項2に従属する請求項3に記載のデータ検索システム。 - ロードデータを生成するロードデータ生成装置と、前記ロードデータを用いてデータを検索するオンメモリ検索装置と、で行うデータ検索方法において、
前記ロードデータ生成装置は、
構造化文書記憶手段から構造化文書データを取得する構造化文書データ取得ステップと、
前記構造化文書データに含まれる複数の属性データをバイナリ化して複数のカラムにそれぞれ格納して連続させたロードデータを生成し、前記生成する際に、少なくとも2つのロードデータにおいて同じバイナリ化された属性データが格納される場合、一方のロードデータのカラムに当該属性データのバイナリ化値を格納し、他方のロードデータのカラムに前記一方のロードデータのカラムの前記一方のロードデータ内での位置を示すインデックス値を格納するロードデータ生成ステップと、を有し、
前記オンメモリ検索装置は、
前記他方のロードデータのカラムを前記一方のロードデータのカラムにリンク付けたカラムポインタリストを生成して非稼働中の記憶手段へ格納するロードデータ処理ステップと、
参照先の記憶手段を稼働中の記憶手段から前記非稼働中の記憶手段に切り替え、切り替え先の記憶手段のカラムポインタリストから所望のデータを検索するオンメモリ検索ステップと、を有し、
前記ロードデータ生成ステップでは、
前記一方のロードデータのカラムがリスト型カラムの場合、前記一方のロードデータ内での当該カラムの位置を示す第1のインデックス値と、前記リスト型カラム内の要素への位置を示す第2のインデックス値とを前記他方のロードデータのカラムに格納し、前記一方のロードデータのカラムがリスト型カラム以外の場合、前記第1のインデックス値のみを前記他方のロードデータのカラムに格納することを特徴とするデータ検索方法。 - 前記ロードデータ生成装置は、前記生成したロードデータを分割して複数の前記オンメモリ検索装置に送信し、
コンセントレータ装置は、
前記オンメモリ検索装置へのデータ検索要求に返却範囲が含まれている場合、前記データ検索要求を書き換えるステップと、
前記複数のオンメモリ検索装置の各検索結果を前記データ検索要求に合うように整えるステップと、
を有することを特徴とする請求項5に記載のデータ検索方法。 - 前記ロードデータ生成装置は、前記生成したロードデータを分割して複数の前記オンメモリ検索装置に送信し、
コンセントレータ装置は、
前記オンメモリ検索装置へのデータ検索要求に並び替え要求が含まれている場合、前記データ検索要求を書き換えるステップと、
前記複数のオンメモリ検索装置の各検索結果を前記データ検索要求に合うように整えるステップと、
を有することを特徴とする請求項5又は6に記載のデータ検索方法。 - 前記コンセントレータ装置は、
前記複数のオンメモリ検索装置の各検索結果に含まれる検索結果データを並び替え要求順にキューに格納するステップと、
前記キューの先頭から順番に返却範囲内の検索結果データをデータ検索要求元へ順次送信するステップと、
を有することを特徴とする請求項6に従属する請求項7に記載のデータ検索方法。 - 請求項5乃至8のいずれかに記載のデータ検索方法をコンピュータに実行させることを特徴とするデータ検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012009774A JP5687219B2 (ja) | 2012-01-20 | 2012-01-20 | データ検索システム、データ検索方法及びデータ検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012009774A JP5687219B2 (ja) | 2012-01-20 | 2012-01-20 | データ検索システム、データ検索方法及びデータ検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013149121A JP2013149121A (ja) | 2013-08-01 |
JP5687219B2 true JP5687219B2 (ja) | 2015-03-18 |
Family
ID=49046552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012009774A Active JP5687219B2 (ja) | 2012-01-20 | 2012-01-20 | データ検索システム、データ検索方法及びデータ検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5687219B2 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4165086B2 (ja) * | 2002-02-25 | 2008-10-15 | 日本電気株式会社 | Xmlデータのrdbへの格納装置及び方法、rdbからのxmlデータの取得装置及び方法並びにプログラム |
US7882146B2 (en) * | 2003-12-01 | 2011-02-01 | Microsoft Corporation | XML schema collection objects and corresponding systems and methods |
EP1821221A1 (en) * | 2004-11-12 | 2007-08-22 | JustSystems Corporation | Document processing device and document processing method |
JP4722944B2 (ja) * | 2005-01-07 | 2011-07-13 | トムソン ルーターズ グローバル リソーシーズ | データベースの分散ロードのためのシステム、方法およびソフトウェア |
AU2005220268A1 (en) * | 2005-10-10 | 2007-04-26 | Canon Kabushiki Kaisha | A method of applying a function to a set of data |
JP5208117B2 (ja) * | 2007-08-28 | 2013-06-12 | 株式会社ターボデータラボラトリー | 表形式データを操作するマルチコア対応データ処理方法、マルチコア型処理装置、及び、プログラム |
JP5142638B2 (ja) * | 2007-09-03 | 2013-02-13 | キヤノン株式会社 | 文書変換装置、文書変換方法 |
JP5090481B2 (ja) * | 2010-01-28 | 2012-12-05 | 日本電信電話株式会社 | データモデリング方法及び装置及びプログラム |
-
2012
- 2012-01-20 JP JP2012009774A patent/JP5687219B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013149121A (ja) | 2013-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475034B2 (en) | Schemaless to relational representation conversion | |
CN106484877B (zh) | 一种基于hdfs的文件检索系统 | |
US20220405277A1 (en) | Joining large database tables | |
US9805079B2 (en) | Executing constant time relational queries against structured and semi-structured data | |
US9582541B2 (en) | Systems, methods, and computer program products to ingest, process, and output large data | |
US10565208B2 (en) | Analyzing multiple data streams as a single data object | |
JP4045399B2 (ja) | 構造化文書管理装置及び構造化文書管理方法 | |
WO2014010082A1 (ja) | 検索装置、検索装置の制御方法及び記録媒体 | |
CN101154239B (zh) | 将表状数据变换成结构化文档的系统及方法 | |
CN100458784C (zh) | 在数字图书馆中所采用的检索系统和检索方法 | |
CN106462575A (zh) | 群集内存数据库的设计及实现 | |
CN102521416A (zh) | 数据关联查询方法和数据关联查询装置 | |
Tang et al. | Deferred lightweight indexing for log-structured key-value stores | |
CN102122285A (zh) | 一种数据缓存系统和数据查询方法 | |
KR20160124744A (ko) | 인-메모리 데이터베이스를 호스팅하는 시스템 및 방법 | |
US9229961B2 (en) | Database management delete efficiency | |
US11461333B2 (en) | Vertical union of feature-based datasets | |
CN103631922A (zh) | 基于Hadoop集群的大规模Web信息提取方法及系统 | |
KR101892067B1 (ko) | 관계형 데이터베이스 기반의 텍스트 로그데이터 저장 및 검색 방법 | |
JP2012048332A (ja) | データベース処理方法、データベース処理システム及びデータベースサーバ | |
JPWO2010084754A1 (ja) | データベースシステム、データベース管理方法、及びデータベース構造 | |
CN110245037A (zh) | 一种基于日志的Hive用户操作行为还原方法 | |
CN114443599A (zh) | 数据同步方法、装置、电子设备及存储介质 | |
JP5687219B2 (ja) | データ検索システム、データ検索方法及びデータ検索プログラム | |
CN102597969A (zh) | 带属性的键值存储的数据库管理装置及其键值存储结构的高速缓存装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140610 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5687219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |