JP2014119846A - データ管理装置及びデータ管理プログラム - Google Patents

データ管理装置及びデータ管理プログラム Download PDF

Info

Publication number
JP2014119846A
JP2014119846A JP2012273029A JP2012273029A JP2014119846A JP 2014119846 A JP2014119846 A JP 2014119846A JP 2012273029 A JP2012273029 A JP 2012273029A JP 2012273029 A JP2012273029 A JP 2012273029A JP 2014119846 A JP2014119846 A JP 2014119846A
Authority
JP
Japan
Prior art keywords
data
storage device
processing
index
browsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012273029A
Other languages
English (en)
Other versions
JP6033070B2 (ja
Inventor
Daisuke Sugimori
大輔 杉森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exa Corp
Original Assignee
Exa Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exa Corp filed Critical Exa Corp
Priority to JP2012273029A priority Critical patent/JP6033070B2/ja
Publication of JP2014119846A publication Critical patent/JP2014119846A/ja
Application granted granted Critical
Publication of JP6033070B2 publication Critical patent/JP6033070B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】新しいデータができるだけはやく閲覧に供することができるような処理を行うデータ管理装置等を実現する。
【解決手段】文書データを記録する複数の書き込み用記憶装置10と、処理を行う文書データと文書データを処理することで作成された索引データを記憶するスワップ用記憶装置20と、文書データ及び文書データを閲覧可能にする索引データを各々記憶する複数の閲覧用記憶装置と、文書データを収集処理して、1の書き込み用記憶装置に記録させ、所定単位毎にスワップ用記憶装置20に複製する処理を行う収集処理手段51と、スワップ用記憶装置20に記憶された文書データに基づいて索引データを作成し、スワップ用記憶装置20に記憶させる処理を行うインデックス処理手段52と、スワップ用記憶装置20に記憶された文書データを閲覧可能にする処理を行う利用可能処理手段53とを備える。
【選択図】図1

Description

本発明は、例えば収集して記録したデータを管理する装置等に関するものである。
例えば、何らかの目的のために、データを収集して記録しておき、人、他の装置等が記録したデータを利用することがある。このような利用において、データの検索、参照、閲覧等(以下、閲覧という)をするための速度を向上させ、効率化をはかるため、インデックス処理等を行うことがある(例えば特許文献1参照)。インデックス処理とは、例えば記録したデータの内容に基づいて、閲覧の際に用いる索引データ(インデックス)を作成する処理である。
特開2012−079044号公報(図1)
ここで、収集したデータに対してインデックス処理等を行っている間、例えば索引データを利用することができず、記録したデータの閲覧を行うことができない。このようなとき、例えば稼働時間(閲覧時間)が定まっているシステムにおいては、例えばバッチ処理等にて稼働時間以外の時間にインデックス処理を行っておけば、データの閲覧を行うにあたっては支障がない。
しかし、例えば電気通信回線網(ネットワーク)を流れる信号から、SNS(Social Networking Service )等においてなされたドキュメント(文章、文字)等による発言(情報発信)内容をデータとして収集するような場合がある。このとき、ネットワークに常時流れる信号からデータを収集して記録することになる。収集により記録するデータ量が多くなるとインデックス処理に時間がかかるため、閲覧する際に支障がある可能性がある。また、インデックス処理を行っている間に収集したデータについては、索引データに反映されないため、処理に時間がかかると、新たに収集等したデータを閲覧できるまでの時間がますます長くなることになる。
そこで、例えば常に新たなデータを収集するような場合でも、新しいデータができるだけはやく閲覧に供することができるような処理を行うデータ管理装置等の実現が望まれていた。
上述の課題を解決するため、本発明に係るデータ管理装置は、収集した収集データを処理して閲覧可能に管理するデータ管理装置において、収集データを記録する複数の書き込み用記憶装置と、処理を行う収集データと収集データを処理することで作成された索引データを記憶する処理用記憶装置と、収集データ及び収集データを閲覧可能にする索引データを各々記憶する1又は複数の閲覧用記憶装置と、収集データを収集処理して、1の書き込み用記憶装置に記録させ、所定単位毎に処理用記憶装置に複製する処理を行う収集処理手段と、処理用記憶装置に記憶された収集データに基づいて索引データを作成し、収集データと共に処理用記憶装置に記憶させる処理を行うインデックス処理手段と、処理用記憶装置に記憶された収集データを閲覧可能にする処理を行う利用可能処理手段とを備えるものである。
本発明によれば、収集処理手段が、収集した収集データを書き込み用記憶装置に記録させていき、所定時間毎に複製処理をし、インデックス処理手段は、処理用記憶装置に記憶された複製に係る収集データに基づいてインデックス処理を行って索引データを作成して処理用記憶装置に記憶させ、利用可能処理手段により収集データを閲覧可能にするようにしたので、索引データの作成時間を短くし、収集データが閲覧に供されるまでの時間を短くすることができる。
本発明の実施の形態1に係るデータ管理装置100を中心とするシステムの構成を示す図である。 本発明の実施の形態1に係るデータ管理装置100の文書データが閲覧できるようになるまでの流れを説明する図である。
実施の形態1.
図1は本発明の実施の形態1に係るデータ管理装置100を中心とするシステムの構成を示す図である。ここで、同様の機能を有する複数の機器において、特に区別する必要がない場合には、添字を省略することがある。
本実施の形態のシステムにおいては、データ管理装置100は例えばインターネット等の電気通信回線200に接続して、通信を行うことができる。ここで、本実施の形態のデータ管理装置100が収集して管理するデータ(収集データ)としては、電気通信回線200を流れる信号を受信して発言に係る文書データ(以下、文書データという)を収集し、閲覧できるように管理する。図1に示すように、本実施の形態のデータ管理装置100は、その用途に応じて各種記憶装置を有している。ここで、本実施の形態における記憶装置については、記憶可能なデータの容量は同じであるものとする。また、特に限定するものではないが、すぐに記憶装置の記録上限を超えない程度(例えば、後述する複製処理を約100回行える程度)の記憶容量にしておくことが望ましい。
書き込み用記憶装置10A、10Bは、管理処理装置50が収集した文書データを一時的に記憶する。管理処理装置50は、いずれか一方の書き込み用記憶装置10に収集した文書データを時系列に記録させ、記録の上限に達したものと判断すると、他方の書き込み用記憶装置10に収集した文書データを記録させるようにする。
スワップ用記憶装置20は、主として管理処理装置50がインデックス処理等によるデータ加工をするためのデータ、処理されたデータ等を記憶するための加工処理用記憶装置となる。このため、書き込み用記憶装置10の文書データが複製(コピー)される。また、管理処理装置50がインデックス処理等を行って作成した索引データを複製した文書データとともに記憶する。索引データを記憶したスワップ用記憶装置20については、交換処理により、1台の閲覧用記憶装置30と交換されて新たに閲覧用記憶装置30となって閲覧利用に供される。そして、交換された閲覧用記憶装置30は新たにスワップ用記憶装置20となる。
閲覧用記憶装置30A、30B、30C、30Dは、索引データが作成され、閲覧を行えるようにした文書データが記憶される。索引データは、各閲覧用記憶装置30が有しており、交換に係る閲覧用記憶装置30以外は、索引データの再構築等は行われない。ここで、本実施の形態では、4台の閲覧用記憶装置30を有しているが、閲覧できるデータの数量に応じて台数を増減することができる。
管理処理装置50はデータの管理処理を行う装置である。管理処理装置50は信号に含まれる文書データを収集して書き込み用記憶装置10に記録させる収集処理を行い、所定単位毎に複製処理、インデックス処理、交換処理を行って、閲覧利用できるようにする。また、閲覧用端末300からの要求に基づいて文書データを含む信号を閲覧用端末300に送る閲覧処理を行う。以上の処理を行うため、収集処理手段51、インデックス処理手段52、利用可能処理手段53及び閲覧処理手段54を有している。
収集処理手段51は、電気通信回線200を流れる信号を受信して文書データを収集し、書き込み用記憶装置10に記録させる記録処理を行う。そして、記録したスワップ用記憶装置20に複製(コピー)する複製処理を行う。ここで、本実施の形態の収集処理手段51は、計時するためのタイマ(図示せず)を有している。また、収集した文書データ数をカウントするためのカウンタ(図示せず)を有している。本実施の形態では、書き込み用記憶装置10の記録できる文書データの上限を文書データ数により管理する。文書データ数の方が記憶容量よりも簡単にデータを得ることができるからである。他の記憶装置も同様となる。
インデックス処理手段52は、書き込み用記憶装置10の文書データがスワップ用記憶装置20に複製されると、複製された文書データに基づいてインデックス処理を行い、スワップ用記憶装置20に文書データと共に索引データを記憶させる。インデックス処理とは、文書データを分類分け等し、索引データを作成する処理である。他にも、例えば、文書データのソート等の最適化に関する処理を行うことにより、閲覧の要求に対して応答を速くし、高速な閲覧を行うことができるように最適化する処理を行うようにしてもよい。
利用可能処理手段53は、スワップ用記憶装置20に記憶されたデータを閲覧に供することができるように処理を行う。本実施の形態では、交換処理手段となり、索引データが記憶されたスワップ用記憶装置20を、ある1台の閲覧用記憶装置30と交換処理する。ここで、交換は物理的な交換を意味するものではない。閲覧処理手段54は、閲覧用端末300からの要求に基づいて文書データを検索し、検索に係る文書データを含む信号を閲覧用端末300に送る閲覧処理を行う。
ここで、管理処理装置50の各処理手段について、それぞれ異なる専用機器(ハードウェア)で構成することもできるが、例えば、CPU(Central Processing Unit )を中心とする演算制御手段(コンピュータ)でハードウェアを構成し、各部が行う処理の処理手順をあらかじめプログラム化し、ソフトウェア、ファームウェア等で構成しておいてもよい。そして、プログラムを実行により処理を行うことにより、上記の各部が行う処理を実現するようにしてもよい。これらのプログラムに係るデータは、例えば上述した記憶装置とは別の記憶手段(図示せず)に記憶しておくようにする。
図2は本発明の実施の形態1に係るデータ管理装置100の文書データが閲覧できるようになるまでの流れを説明する図である。図2に基づいて、さらに詳細に説明する。収集処理手段51は、電気通信回線200を流れる信号を受信して文書データを収集し、書き込み用記憶装置10に記録させる処理を行う(図2(1))。ここで、収集処理手段51は、書き込み用記憶装置10A、10Bのいずれに記録させるかを決定し、記録の上限に達するまで一方の書き込み用記憶装置10に収集した文書データを記録させるようにする。記録上限に達すると他方の書き込み用記憶装置10に収集した文書データを記録させる。また、所定時間(例えば1時間)毎に書き込み用記憶装置10に記録したデータをスワップ用記憶装置20に複製する(図2(2))。ここで、複製処理した後も書き込み用記憶装置10に記録した文書データは削除せず、記録上限に達するまで蓄積していく。
インデックス処理手段52は、書き込み用記憶装置10の文書データがスワップ用記憶装置20に複製されると、複製された文書データに基づいて索引データを作成し、作成した索引データを複製した文書データとともにスワップ用記憶装置20に記憶する(図2(3))。したがって、所定時間の間に増えた文書データを加味して再構築した索引データが作成されることになる。
利用可能処理手段53は、索引データが記憶されたスワップ用記憶装置20を、例えば記録上限に達していない閲覧用記憶装置30と交換する処理を行う(図2(4))。図2では閲覧用記憶装置30Aと交換している。これにより、スワップ用記憶装置20が新たに閲覧用記憶装置30となり、すぐに閲覧に供することができる。そして、交換に係る閲覧用記憶装置30が次のスワップ用記憶装置20となる。ここで、すべての閲覧用記憶装置30がデータの上限まで記憶している場合には、時間的に古い文書データを記憶している閲覧用記憶装置30と交換処理を行う。そして、閲覧処理手段54は、閲覧用端末300からの要求に基づいて閲覧処理を行う(図2(5))。
ここで、処理時間内に記録上限に達すると、2つの書き込み用記憶装置10に跨がって記録処理が行われる。このような場合には、時系列的に古い方の文書データを記録する書き込み用記憶装置10から複製処理、インデックス処理、交換処理を行った後、新しい方の文書データを記録する書き込み用記憶装置10の処理を行うようにする。
以上のように本実施の形態のデータ管理装置100によれば、収集処理手段51は、収集した文書データを書き込み用記憶装置10に記録させていき、所定時間毎に複製処理をし、インデックス処理手段52は、複製に係る文書データに基づいてインデックス処理を行って索引データを作成し、利用可能処理手段53は、索引データが記憶されたスワップ用記憶装置20と閲覧用記憶装置30と交換処理して閲覧できるようにしたので、収集しながらもインデックス処理を行えないことにより閲覧利用に供することができない文書データを少なくすることができる。そして、新たに収集した文書データを反映することができるまでのタイムラグを短くすることができる。そして、索引データは閲覧用記憶装置30毎に作成されることになる。本構成では、閲覧用のすべての文書データに対して、1つの索引データを作成することはないため、インデックス処理の時間を短縮することができる。また、全体として検索データのデータ量を少なくすることができる。時系列にデータを蓄積する場合において、古い文書データのために索引データを新たに再構築する必要がなく、時間的に新しいデータほど閲覧価値があるデータにおいては特に有効である。また、時系列的に新しいデータについてインデックス処理等を行って、古いデータはあらためて処理を行わないような構成であるため、新しい閲覧用の文書データを記憶する閲覧用記憶装置30を追加するだけで、閲覧用端末300が閲覧可能な文書データ数を増やすことができる。
実施の形態2.
上述の実施の形態1においては、文書データを収集するようにしたが、データ内容については特に限定するものではない。また、記憶装置に記憶可能な上限を文書データ数により管理したが、これに限定するものではない。例えば文書データとは異なるデータのような場合には記憶容量に基づいて行うようにしてもよい。また、上述の実施の形態では、所定時間毎に複製処理を行うようにしたが、例えば所定データ数毎に複製処理をし、インデックス処理、交換処理を行うようにしてもよい。
また、上述の実施の形態では、利用可能処理手段53は、索引データが記憶されたスワップ用記憶装置20と閲覧用記憶装置30とを交換処理することで、閲覧に供することができる交換処理手段とした。交換処理を行う方が速く閲覧に供することができるが、例えば索引データが記憶されたスワップ用記憶装置20のデータ内容を、閲覧用記憶装置30に複製処理(データの移動も含む)する複製処理手段としてもよい。
10,10A,10B 書き込み用記憶装置
20 スワップ用記憶装置
30,30A,30B,30C,30D 閲覧用記憶装置
50 管理処理装置
51 収集処理手段
52 インデックス処理手段
53 利用可能処理手段
54 閲覧処理手段
100 データ管理装置
200 電気通信回線
300 閲覧用端末

Claims (6)

  1. 収集した収集データを処理して閲覧可能に管理するデータ管理装置において、
    前記収集データを記録する複数の書き込み用記憶装置と、
    処理を行う前記収集データと該収集データを処理することで作成された索引データを記憶する処理用記憶装置と、
    前記収集データ及び前記収集データを閲覧可能にする索引データを各々記憶する1又は複数の閲覧用記憶装置と、
    前記収集データを収集処理して、1の前記書き込み用記憶装置に記録させ、所定単位毎に前記処理用記憶装置に複製する処理を行う収集処理手段と、
    前記処理用記憶装置に記憶された前記収集データに基づいて索引データを作成し、前記収集データと共に前記処理用記憶装置に記憶させる処理を行うインデックス処理手段と、
    前記処理用記憶装置に記憶された前記収集データを閲覧可能にする処理を行う利用可能処理手段と
    を備えることを特徴とするデータ管理装置。
  2. 前記利用可能処理手段は、前記処理用記憶装置と1の前記閲覧用記憶装置とを交換処理する交換処理手段であることを特徴とする請求項1に記載のデータ管理装置。
  3. 前記利用可能処理手段は、前記処理用記憶装置と1の前記閲覧用記憶装置に複製処理する複製処理手段であることを特徴とする請求項1に記載のデータ管理装置。
  4. 前記書き込み用記憶装置、処理用記憶装置及び前記閲覧用記憶装置における前記収集データの記憶量を同じにすることを特徴とする請求項1〜3のいずれか一項に記載のデータ管理装置。
  5. 前記収集処理手段は、ツイッター、ソーシャルネットワークサービス及び掲示板の少なくとも1つのサービスにて行われた、電気通信回線を介して流布される文書に係るデータを、前記収集データとして収集処理することを特徴とする請求項1〜4のいずれか一項に記載のデータ管理装置。
  6. 収集データを収集処理して、書き込み用記憶装置に記録させ、所定時間毎に処理用記憶装置に複製する処理を行う工程と、
    前記処理用記憶装置に複製された収集データに基づいて索引データを作成し、該索引データを前記処理用記憶装置に記憶する工程と、
    前記処理用記憶装置に記憶された前記収集データを閲覧可能に処理する工程と
    をコンピュータに行わせることを特徴とするデータ管理プログラム。
JP2012273029A 2012-12-14 2012-12-14 データ管理装置及びデータ管理プログラム Active JP6033070B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012273029A JP6033070B2 (ja) 2012-12-14 2012-12-14 データ管理装置及びデータ管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012273029A JP6033070B2 (ja) 2012-12-14 2012-12-14 データ管理装置及びデータ管理プログラム

Publications (2)

Publication Number Publication Date
JP2014119846A true JP2014119846A (ja) 2014-06-30
JP6033070B2 JP6033070B2 (ja) 2016-11-30

Family

ID=51174654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012273029A Active JP6033070B2 (ja) 2012-12-14 2012-12-14 データ管理装置及びデータ管理プログラム

Country Status (1)

Country Link
JP (1) JP6033070B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245039A (ja) * 2001-02-15 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体
JP2003296349A (ja) * 2002-04-03 2003-10-17 Mitsubishi Electric Corp データ検索装置及びサーバ更新方法
JP2007299021A (ja) * 2006-04-27 2007-11-15 Hitachi Ltd インデクス更新方法及びそのシステム
JP2008191877A (ja) * 2007-02-02 2008-08-21 Yahoo Japan Corp コミュニティ抽出による検索用インデックス作成方法およびその装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245039A (ja) * 2001-02-15 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体
JP2003296349A (ja) * 2002-04-03 2003-10-17 Mitsubishi Electric Corp データ検索装置及びサーバ更新方法
JP2007299021A (ja) * 2006-04-27 2007-11-15 Hitachi Ltd インデクス更新方法及びそのシステム
JP2008191877A (ja) * 2007-02-02 2008-08-21 Yahoo Japan Corp コミュニティ抽出による検索用インデックス作成方法およびその装置

Also Published As

Publication number Publication date
JP6033070B2 (ja) 2016-11-30

Similar Documents

Publication Publication Date Title
US10795905B2 (en) Data stream ingestion and persistence techniques
US10691716B2 (en) Dynamic partitioning techniques for data streams
US20200012568A1 (en) Scalable log-based continuous data protection for distributed databases
US9276959B2 (en) Client-configurable security options for data streams
CN107247778B (zh) 用于实施可扩展数据存储服务的系统和方法
CN106446159B (zh) 一种存储文件的方法、第一虚拟机及名称节点
CN103116661B (zh) 一种数据库的数据处理方法
CN104978362B (zh) 分布式文件系统的数据迁移方法、装置及元数据服务器
CN104156361B (zh) 一种实现数据同步的方法及系统
US20150134797A1 (en) Managed service for acquisition, storage and consumption of large-scale data streams
CN102214205A (zh) 带有自适应克隆的经聚类的数据库系统中的逻辑复制
WO2013078583A1 (zh) 优化数据访问的方法及装置、优化数据存储的方法及装置
CN104182898A (zh) 银行系统对夜模式期间发生的联机交易进行补录的方法
US9984139B1 (en) Publish session framework for datastore operation records
US20230020268A1 (en) Evaluating Recommended Changes To A Storage System
US20200409566A1 (en) Key Value Store Using Progress Verification
CN110147203A (zh) 一种文件管理方法、装置、电子设备及存储介质
CN105095392B (zh) 一种数据集市间共享数据的方法及装置
US20170270147A1 (en) Method and apparatus for storing data
CN107798063A (zh) 快照处理方法和快照处理装置
CN106570151A (zh) 一种海量文件的数据收集处理方法及系统
CN103761156B (zh) 一种针对文件系统的在线修复方法
CN108696559A (zh) 流处理方法及装置
CN106506647A (zh) 一种客户端具有数据备份装置的智慧社区云存储系统
CN108205559A (zh) 一种数据管理方法及其设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161025

R150 Certificate of patent or registration of utility model

Ref document number: 6033070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250