JP2018181234A - Data management apparatus, data management method, and program - Google Patents
Data management apparatus, data management method, and program Download PDFInfo
- Publication number
- JP2018181234A JP2018181234A JP2017084326A JP2017084326A JP2018181234A JP 2018181234 A JP2018181234 A JP 2018181234A JP 2017084326 A JP2017084326 A JP 2017084326A JP 2017084326 A JP2017084326 A JP 2017084326A JP 2018181234 A JP2018181234 A JP 2018181234A
- Authority
- JP
- Japan
- Prior art keywords
- data
- log
- sampling
- editing
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013523 data management Methods 0.000 title claims abstract description 46
- 238000005070 sampling Methods 0.000 claims abstract description 167
- 230000008569 process Effects 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims 1
- 238000013500 data storage Methods 0.000 description 17
- 230000002354 daily effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 240000001973 Ficus microcarpa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Abstract
Description
本発明は、データ管理装置、データ管理方法、およびプログラムに関する。 The present invention relates to a data management device, a data management method, and a program.
従来、ウェブページを提供するシステムにおいては、ユーザが端末装置を用いてウェブページにアクセスした履歴を示すアクセスログを取得して記憶装置に保管する運用が行われている。また、この保管されたアクセスログを解析することで、ウェブページのアクセス回数やウェブページにアクセスしたユーザの情報などを把握する方法が提案されている(例えば、特許文献1参照)。 2. Description of the Related Art Conventionally, in a system for providing a web page, an operation is performed in which an access log indicating a history of access to a web page by a user using a terminal device is acquired and stored in a storage device. Further, there has been proposed a method of grasping the access count of a web page, the information of the user who accessed the web page, and the like by analyzing the stored access log (see, for example, Patent Document 1).
上述のアクセスログが長期間にわたって保管される場合、このアクセスログを記憶する記憶装置の容量が逼迫してしまう場合がある。この対策として、アクセスログを定期的に削除する運用が行われている。しかしながら、削除時には不要と判断されたアクセスログであっても、将来的に実施される解析処理において必要となる場合がある。このため、容量を抑えつつ解析に必要なアクセスログを保管する方法が求められている。 If the above access log is stored for a long time, the capacity of the storage device storing the access log may be exhausted. As a countermeasure against this, an operation to delete access logs regularly is performed. However, even an access log determined to be unnecessary at the time of deletion may be required in analysis processing to be performed in the future. Therefore, there is a need for a method of storing access logs necessary for analysis while suppressing the capacity.
また、従来のアクセスログの解析処理では、アクセスログそのものを処理対象としている。しかしながら、容量が大きなアクセスログを処理した場合、処理装置の負荷が増大し、解析処理に時間を要する場合がある。このため、解析が容易な形式でアクセスログを保管する方法が求められている。 Further, in the conventional access log analysis processing, the access log itself is a processing target. However, when an access log with a large capacity is processed, the load on the processing apparatus may increase, which may require time for analysis processing. Therefore, there is a need for a method of storing access logs in a format that is easy to analyze.
本発明は、このような事情を考慮してなされたものであり、容量を抑えつつ解析処理に適した形式でログデータを保管することが可能なデータ管理装置、データ管理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and provides a data management apparatus, data management method, and program capable of storing log data in a format suitable for analysis processing while suppressing the capacity. One of the goals.
本発明の一態様は、端末装置によるアクセスに応じて取得されるログデータを取得する取得部と、前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成するサンプリング部と、前記取得部によって取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記サンプリング部によって生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化する無効化部とを備えるデータ管理装置である。 One aspect of the present invention is an acquisition unit that acquires log data acquired according to an access by a terminal device, and data in which a first period has elapsed among data included in the log data acquired by the acquisition unit. And a first sampling process focusing on the first item included in the log data to generate a first sampling log and a second focusing on the second item included in the log data. A sampling unit that performs sampling processing to generate a second sampling log, invalidates data of which the first period has elapsed among data included in the log data acquired by the acquisition unit, and the sampling unit A second of the first sampling log and the second sampling log generated by During a data management device and a disabling unit for disabling the first sampling logs and second sampling log has passed.
本発明の一態様によれば、容量を抑えつつ解析処理に適した形式でログデータを管理することが可能である。 According to one aspect of the present invention, it is possible to manage log data in a format suitable for analysis processing while suppressing the capacity.
以下、図面を参照し、本発明のデータ管理装置、データ管理方法、およびプログラムの実施形態について説明する。本発明のデータ管理装置は、例えば、ウェブページなどの電子ページへのアクセスに応じて取得されるログデータに対してサンプリング処理、編集処理、無効化処理などを行うことで、データの保管期間、保管するデータの内容などを適宜設定し、ログデータの管理を行う。電子ページには、ブラウザによって参照されるウェブページの他、アプリケーションプログラムによって参照されるアプリページが含まれてよい。以下の説明では、ウェブページに着目して説明を行う。 Hereinafter, embodiments of a data management apparatus, a data management method, and a program of the present invention will be described with reference to the drawings. The data management apparatus according to the present invention performs, for example, sampling processing, editing processing, invalidation processing, and the like on log data acquired in response to access to an electronic page such as a web page, whereby the data storage period, Set the contents of stored data, etc. as appropriate, and manage log data. The electronic page may include, in addition to the web page referenced by the browser, the application page referenced by the application program. The following description focuses on web pages.
[全体構成]
図1は、データ管理システム1の一例を示す構成図である。データ管理システム1は、例えば、一以上の端末装置3と、一以上のサービス提供装置5と、一以上のデータ管理装置7とを備える。端末装置3と、サービス提供装置5と、データ管理装置7とは、ネットワークNWによって互いに接続されており、このネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
[overall structure]
FIG. 1 is a block diagram showing an example of the
[端末装置]
端末装置3は、サービス提供装置5が提供するサービスを利用するユーザによって操作される。端末装置3は、例えば、パーソナルコンピュータ、スマートフォンなどの携帯電話やタブレット端末、PDA(Personal Digital Assistant)などのコンピュータ装置である。
[Terminal device]
The
端末装置3は、ユーザから所定の操作を受け付けると、予めインストールされたブラウザを介してサービス提供装置5が提供するウェブページにアクセスする。例えば、サービス提供装置5が提供するウェブページは、ニュースサイト、ショッピングサイト、検索サイト、オークションサイト、SNS(Social Networking Service)サイトなどを構成するページである。
When the
[サービス提供装置]
サービス提供装置5は、インターネット上において、上述したニュースサイトやショッピングサイトなどのウェブページを提供するウェブサーバ装置であってよいし、アプリケーションが起動された端末装置3と通信を行って、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよい。サービス提供装置5は、自身が提供するウェブページへの端末装置3によるアクセスに応じて取得されるログデータLを出力する。
[Service Providing Device]
The
図2は、ログデータLの一例を示す図である。ログデータLには、例えば、端末装置3を利用するユーザを識別する「ユーザID10」、ウェブページに関連付けされたコンテンツを識別する「コンテンツID11」、端末装置3からのアクセスを処理した日付を示す「日付12」、端末装置3からのアクセスを受けたウェブページのURL(Uniform Resource Locator)を示す「対象URL13」、対象URLへの遷移元のウェブページのURLを示す「遷移元URL14」などが含まれる。
FIG. 2 is a diagram showing an example of the log data L. As shown in FIG. The log data L indicates, for example, "
「ユーザID10」は、例えば、ユーザが端末装置3を用いてサービス提供装置5にアクセスする際にログインを行っている場合におけるログインIDを含む。あるいは、「ユーザID10」は、端末装置3に備えられたウェブブラウザごとに管理されるクッキー(HTTP cookie)に関する情報や、端末装置3のIPアドレスなどを含む。
The “
「コンテンツID11」は、例えば、ウェブページに関連付けされたコンテンツである商品、サービスなどを識別する識別子である。例えば、ウェブページが「商品A」を購入するショッピングサイトである場合、このウェブページには、「商品A」を示すコンテンツIDが関連付けされている。また、例えば、ウェブページが「スポーツA」のニュースを提供するニュースサイトである場合、このウェブページには、「スポーツA」を示すコンテンツIDが関連付けされている。ウェブページとコンテンツとの関連付けを示すデータは、例えば、サービス提供装置5または外部の記憶装置に記憶される各種マスタに記憶されていてよい。
The “
ログデータLには、例えば、端末装置3がウェブページにアクセスする度に、一行のデータが追加される。ログデータLは、例えば、日毎、週毎などの任意のタイミングで作成されるテキストデータである。
For example, one line of data is added to the log data L each time the
[データ管理装置]
データ管理装置7は、例えば、サービス提供装置5が提供するウェブページまたはアプリケーションプログラムによって参照されるアプリページのログデータLを取得し、取得したログデータLの管理を行う。
[Data management device]
The
図3は、データ管理装置7によるデータ管理の概念を示す図である。データ管理装置7では、ログデータLに含まれるデータを3つの段階に分けて管理する。この3つの段階には、例えば、短期保管段階、長期保管段階、および無期限保管段階が含まれる。
FIG. 3 is a view showing the concept of data management by the
短期保管段階は、ログデータLそのものを保管する段階である。この短期保管段階では、例えば、過去1年間のログデータLが保管される。 The short-term storage phase is a phase where the log data L itself is stored. At this short-term storage stage, for example, log data L of the past one year is stored.
長期保管段階は、ログデータLに対して所定のサンプリング処理を行ったサンプリングログSLを保管する段階である。この長期保管段階では、例えば、上述の短期保管段階よりも長い過去3年間のサンプリングログSLが保管される。このサンプリングログSLには、例えば、ログデータLに含まれるデータに対して、「ユーザ」に関連する項目に着目してサンプリング処理を行った結果得られた「行動ログAL」と、「コンテンツ」に関連する項目に着目してサンプリング処理を行った結果得られた「コンテンツログCL」とが含まれる。 The long-term storage step is a step of storing a sampling log SL obtained by performing predetermined sampling processing on the log data L. In this long-term storage phase, for example, sampling logs SL of the past three years longer than the above-mentioned short-term storage phase are stored. In this sampling log SL, for example, “action log AL” obtained as a result of performing sampling processing on data included in the log data L, focusing on items related to “user”, “content” And “content log CL” obtained as a result of performing sampling processing focusing on items related to
無期限期保管段階は、ログデータLに対して所定の編集処理を行った編集データEDを保管する段階である。この無期限保管段階では、例えば、保管期間は設けられず、過去の全ての編集データEDが保管される。この編集データEDには、例えば、ログデータLに含まれるデータに対して、「ユーザ」に関連する項目に着目して編集処理を行った結果得られた「属性データAD」と、「コンテンツ」に関連する項目に着目して編集処理を行った結果得られた「メタデータMD」とが含まれる。 The indefinite period storage step is a step of storing edited data ED obtained by performing predetermined editing processing on the log data L. In this indefinite storage stage, for example, no storage period is provided, and all past edit data ED is stored. In this editing data ED, for example, “attribute data AD” obtained as a result of performing editing processing on data included in the log data L, focusing on items related to the “user”, “content” And “metadata MD” obtained as a result of performing the editing process paying attention to the item related to.
図4は、データ管理装置7の機能構成の一例を示すブロック図である。データ管理装置7は、例えば、取得部20と、サンプリング部22と、編集部24と、無効化部26と、記憶部28とを備える。記憶部28は、例えば、ログデータ記憶部30と、サンプリングログ記憶部32と、編集データ記憶部34とを備える。データ管理装置7に含まれる各機能部は、複数の装置に分散されてもよい。例えば、サンプリング部22と他の機能部とは別体の装置によって実現されてもよい。記憶部28は、NAS(Network Attached Storage)などの記憶装置であってもよい。
FIG. 4 is a block diagram showing an example of a functional configuration of the
取得部20、サンプリング部22、編集部24、および無効化部26は、例えば、CPU(Central Processing Unit)などのプロセッサが、記憶部28に記憶されたプログラム(ソフトウェア)を実行することにより実現される。プログラムは、例えば、ネットワークNWを介してアプリケーションサーバからダウンロードされてもよいし、予めデータ管理装置7にプリインストールされていてもよい。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
The
記憶部28は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などによって実現されてよい。
The
取得部20は、ネットワークNWを介して、サービス提供装置5からログデータLを取得する。取得部20は、サービス提供装置5から取得したログデータLをログデータ記憶部30に記憶させる。
The
サンプリング部22は、取得部20によって取得されたログデータLに含まれるデータのうち、第1の期間が経過したログデータLに対してサンプリング処理を行い、サンプリングログSLを生成する。サンプリング部22は、生成したサンプリングログSLを、サンプリングログ記憶部32に記憶させる。例えば、サンプリング部22は、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、作成後1年以上経過したテキストデータに対してサンプリング処理を行う。
The
(サンプリング処理)
サンプリング部22は、第1の期間が経過したログデータLに対してデータのサンプリング(データの間引き)を行う。このサンプリング処理は、例えば、「ユーザ」に関連する第1の項目に着目して行う第1のサンプリング処理と、「コンテンツ」に関連する第2の項目に着目して行う第2のサンプリング処理とを含む。
(Sampling process)
The
「ユーザ」に関連する第1の項目に着目して行う第1のサンプリング処理は、例えば、ログデータLにおいて、「ユーザ」に関連する「ユーザID10」の項目のデータが存在するログデータを抽出するサンプリング処理、特定のフォーマットの「ユーザID10」のログデータを抽出するサンプリング処理などを含む。
The first sampling process performed focusing on the first item related to the “user” extracts, for example, log data in which data of the item “
「コンテンツ」に関連する第2の項目に着目して行う第2のサンプリング処理は、例えば、ログデータLにおいて、特定のコンテンツと関連付けされた「コンテンツID11」を含むデータを抽出するサンプリング処理などを含む。
The second sampling process performed focusing on the second item related to “content” is, for example, a sampling process for extracting data including “
また、サンプリング部22には、サンプリング処理によりサンプリングされるログデータの割合(以下、「サンプリングレート」と呼ぶ)が設定されている。例えば、サンプリング部22は、サンプリングレートに基づいて、サンプリングログSLの量の調整を行う。なお、サンプリング部22は、上述の行単位でのログデータのサンプリングの他、列単位での項目毎のサンプリング処理を行ってもよい。
Further, in the
また、サンプリング部22は、ログデータLに対するサンプリング処理を段階的に行ってもよい。例えば、サンプリング部22は、第1の期間が経過したログデータLに対して第1のサンプリング処理を行った後、所定の期間が経過した後に第2のサンプリング処理を行ってもよい。さらに、サンプリング部22は、この第2のサンプリング処理が行われたデータに対して、所定の期間が経過した後に第3のサンプリング処理を行ってもよい。このような二段階以上のサンプリング処理により、サンプリングログSLの短期保管、中期保管、長期保管といった段階的な保管期間の設定が可能となる。
In addition, the
編集部24は、取得部20によって取得されたログデータLに対して編集処理を行って編集データEDを生成する。編集部24は、生成した編集データEDを、編集データ記憶部34に記憶させる。例えば、編集部24は、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、このテキストデータに対して編集処理を行う。
The
(編集処理)
上述の編集処理は、例えば、「ユーザ」に関連する第1の項目に着目して行う第1の編集処理と、「コンテンツ」に関連する第2の項目に着目して行う第2の編集処理とを含む。
(Editing process)
The above-mentioned editing process is performed, for example, by performing a first editing process focusing on the first item related to the "user" and a second editing process focusing on the second item related to the "content". And.
「ユーザ」に関連する第1の項目に着目して行う第1の編集処理は、例えば、ログデータLにおいて、「ユーザ」に関連する「ユーザID10」の項目毎に、その他の項目を意味ベースの属性化したカラム(属性)に集約あるいは置き換え、その他の項目の並び替えおよび無効化、ログデータの並び替えなどを行い、目的に応じた所定の形式の編集データED(属性データAD)を生成する。
The first editing process performed focusing on the first item related to “user” is, for example, in the log data L, meaning-based other items for each item of “
「コンテンツ」に関連する第2の項目に着目して行う第2の編集処理は、例えば、ログデータLにおいて、「コンテンツ」に関連する「コンテンツID11」毎に、その他の項目を意味ベースの属性化したカラム(属性)に集約あるいは置き換え、その他の項目の並び替えおよび無効化、ログデータの並び替えなどを行い、目的に応じた所定の形式の編集データを生成する。
The second editing process performed focusing on the second item related to “content” is, for example, in the log data L, attribute-based attributes of other items for each “
無効化部26は、ログデータ記憶部30に記憶されたログデータLに含まれるデータのうち、第1の期間が経過したデータを無効化する。ログデータLの無効化とは、例えば、ログデータ記憶部30からログデータLを物理的または論理的に削除することを言う。ここで無効化の対象となるログデータLは、サンプリング部22によるサンプリング処理の対象となったログデータである。第1の期間は、例えば、「1年」などに設定される。ここで、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、無効化部26は、作成後1年以上経過したテキストデータを無効化する。
The
また、無効化部26は、サンプリングログ記憶部32に記憶されたサンプリングSLのうち、第2の期間が経過したサンプリングログSLを無効化する。この第2の期間は、上述の第1の期間よりも長い期間が設定される。第2の期間は、例えば、「3年」などに設定される。この場合、無効化部26は、サンプリング部22によって生成された後3年以上経過したサンプリングログSLを無効化する。なお、上記のようにサンプリング部22が段階的なサンプリング処理を行っている場合、無効化部26は、サンプリングログSLに対して個別に設定された期間に応じてサンプリングログS毎に上記の無効化処理を行ってよい。
Further, the
ログデータ記憶部30は、取得部20によって取得されたログデータLを記憶する。サンプリングログ記憶部32は、サンプリング部22によって生成されたサンプリングログSLを記憶する。編集データ記憶部34は、編集部24によって生成された編集データEDを記憶する。
The log
[データ管理装置の処理]
次に、図5から図9を参照しながらデータ管理装置7の動作について説明する。図5は、データ管理装置7による処理の流れの一例を示すフローチャートである。図5のフローチャートに示す処理は、日次、週次、月次などの所定のタイミングで開始される。或いは、この処理は、データ管理装置7の利用者による指示に応じて開始されてもよい。
[Process of data management device]
Next, the operation of the
まず、取得部20は、ネットワークNWを介して、サービス提供装置5からログデータLを取得する(ステップS101)。取得部20は、取得したログデータLをログデータ記憶部30に記憶させる。
First, the acquiring
次に、サンプリング部22によるサンプリング処理(ステップS103)および編集部24による編集処理(ステップS105)のいずれか一方、または双方が実施される。実施対象となる処理は、予め設定されたスケジュールまたは利用者による指示などに応じて決定される。
Next, one or both of the sampling process (step S103) by the
(サンプリング処理)
サンプリング部22は、取得部20によって取得されてログデータ記憶部30に記憶されているログデータLのうち、第1の期間が経過したログデータLを読み出してサンプリング処理を行い、サンプリングログSLを生成する(ステップS103)。サンプリング部22は、生成したサンプリングログSLをサンプリングログ記憶部32に記憶させる。
(Sampling process)
The
ここで、サンプリング部22は、ログデータLに含まれる項目のうち、「ユーザ」に関連する「ユーザID10」の項目に着目して第1のサンプリング処理を行い、サンプリングログSLとして行動ログAL(第1のサンプリングログ)を生成する。サンプリング部22は、例えば、ログデータLに含まれるデータのうち、ユーザID10の項目のデータが存在するデータをサンプリングする。
Here, the
図6は、図2に示すログデータLから、ユーザID10の項目のデータが存在するログデータをサンプリングしたサンプリングログSLの一例を示す図である。図6に示すように、サンプリングログSLにおいては、ログデータLに含まれるデータのうち、3行目および6行目のユーザID10の項目のデータが存在しないデータは無効化されている。
FIG. 6 is a view showing an example of a sampling log SL obtained by sampling log data in which data of the item of the
また、サンプリング部22は、ログデータLに含まれるデータの項目のうち、「コンテンツ」に関連する「コンテンツID11」の項目に着目して第2のサンプリング処理を行い、サンプリングログSLとしてコンテンツログCL(第2のサンプリングログ)を生成する。サンプリング部22は、例えば、ログデータLに含まれるデータのうち、コンテンツID11の項目のデータが特定の形式を有するデータをサンプリングする。
Further, the
図7は、図2に示すログデータLから、コンテンツID11の項目のデータが“00001”から“00099”の範囲であるログデータをサンプリングしたサンプリングログSLの一例を示す図である。図7に示すように、サンプリングログSLにおいては、ログデータLに含まれるデータのうち、コンテンツID11の項目のデータが“00001”から“00099”の範囲ではない5行目から7行目のデータは無効化されている。
FIG. 7 is a view showing an example of a sampling log SL obtained by sampling log data in the range of “00001” to “00099” in the data of the item of the
また、サンプリング部22は、予め設定されたサンプリングレートに基づいて、上述のサンプリングログSLに含まれるデータの量を調整する。例えば、サンプリングレートとして“30%”が設定されている場合、サンプリングログSLに含まれるデータのうち30%のデータが残るように調整を行う(70%のデータを無効化する)。
In addition, the
(編集処理)
編集部24は、取得部20によって取得されてログデータ記憶部30に記憶されているログデータLに対して編集処理を行い、編集データEDを生成する(ステップS105)。編集部24は、生成した編集データEDを編集データ記憶部34に記憶させる。
(Editing process)
The
編集部24は、ログデータLに含まれる項目のうち、「ユーザ」に関連する「ユーザID10」の項目に着目して第1の編集処理を行い、編集データEDとして属性データAD(第1の編集データ)を生成する。編集部24は、マスターデータまたは所定の処理ロジックに従う第1の編集処理を行い、編集データEDを生成する。編集部24は、例えば、ログデータLにおいて、各ユーザIDと関連付けされた対象URLのリンク先のページが男性向けまたは女性向けであるかや、アクセス対象のコンテンツの傾向を集計して、ユーザIDをキーとして、その他の項目を「性別」などの意味ベースの属性化したカラム(属性)に集約あるいは置き換える。なお、「ユーザID」と「属性」の対応付けは、ユーザがウェブページの会員登録時に入力したデータを参照することで行われてよい。
Among the items included in the log data L, the
図8は、図2に示すログデータLに対して第1の編集処理を行うことにより得られた編集データED(行動履歴データ)の一例を示す図である。図8では、「ユーザID」が“bbbbb”であるデータに対して、「属性1(性別)」が“男性”および「属性2(趣味)」が“スポーツ”が関連付けされたデータが示されている。このように「ユーザ」に関連する「ユーザID10」の項目に着目した編集処理を行うことデータ容量を圧縮することが可能である。また、このような編集データEDは、ユーザの行動の統計的なデータを把握することが容易である解析処理に適した形式となっている。なお、編集部24は、上記の「属性1(性別)」および「属性2(趣味)」に加えてあるいは代えて、年齢、アクセス頻度などの多様な属性情報を編集データEDに追加してよい。
FIG. 8 is a view showing an example of edit data ED (action history data) obtained by performing the first editing process on the log data L shown in FIG. In FIG. 8, data in which "attribute 1 (gender)" is associated with "male" and "attribute 2 (hobby)" is associated with "sport" is shown for data in which "user ID" is "bbbbb". ing. Thus, it is possible to compress the data volume by performing the editing process focusing on the item of “
また、編集部24は、ログデータLに含まれる項目のうち、「コンテンツ」に関連する「コンテンツID11」の項目に着目して第2の編集処理を行い、編集データEDとしてメタデータMD(第2の編集データ)を生成する。編集部24は、マスターデータまたは所定の処理ロジックに従う第2の編集処理を行い、編集データEDを生成する。編集部24は、例えば、ログデータLに含まれるコンテンツIDをキーとして、その他の項目を「商品、サービス」などの意味ベースの属性化したカラム(属性)に集約あるいは置き換える。また、編集部24は、例えば、各コンテンツIDにアクセスしたユーザの傾向を集計して、「対象ユーザ」の属性を決定する。
Further, the
図9は、図2に示すログデータLに対して第2の編集処理を行うことにより得られた編集データED(アクセス履歴データ)の一例を示す図である。図9では、「コンテンツID」が“00001”であるデータに対して、「属性1(商品、サービス)」が“スポーツ”および「属性2(対象ユーザ)」が“男性”が関連付けされたデータが示されている。このように「コンテンツ」に関連する「コンテンツID11」の項目に着目した編集処理を行うことデータ容量を圧縮することが可能である。また、このような編集データEDは、コンテンツIDと関連付けされたウェブページに対するユーザのアクセス状況を把握することが容易である解析処理に適した形式となっている。なお、編集部24は、上記の「属性1(商品、サービス)」および「属性2(対象ユーザ)」に加えてあるいは代えて、アクセス数などの多様な属性情報を編集データEDに追加してよい。
FIG. 9 is a view showing an example of edited data ED (access history data) obtained by performing the second editing process on the log data L shown in FIG. In FIG. 9, data in which “sport” for “attribute 1 (goods and services)” and “male” for “attribute 2 (target user)” are associated with data for which “content ID” is “00001”. It is shown. Thus, it is possible to compress the data volume by performing the editing process focusing on the item of "
なお、各ウェブページに表示された画像に関連する情報などがログデータ記憶部30に記憶されている場合、編集部24は、この画像の色などの特徴量や、画像の種類(風画像景なのか、人物画像なのか)などに基づいて、編集データED(メタデータMD)を生成してもよい。
When the information related to the image displayed on each web page is stored in the log
次に、無効化部26は、ログデータ記憶部30に記憶されたログデータLのうち、第1の期間が経過したログデータLを無効化し、サンプリングログ記憶部32に記憶されたサンプリングSLのうち、第2の期間が経過したサンプリングログSLを無効化する(ステップS107)。以上により、本フローチャートの処理を終了する。
Next, the
以上において説明した実施形態によれば、容量を抑えつつ解析処理に適した形式でログデータを管理することが可能である。サンプリングログSLの容量は、ログデータLよりも小さいため、必要な情報を残しつつ記憶部に記憶されるデータの容量を低減させることができる。このサンプリングログSLは、ログデータLを用いて所望のモデルの生成する際に利用されることが可能である。また、編集データEDは、解析に適した形式を有しており、解析における処理装置の負荷を軽減するとともに、処理時間を短縮することも可能である。また、編集データEDは無効化されることはないため、容量を抑えつつ必要な情報を残すことが可能である。 According to the embodiment described above, it is possible to manage log data in a format suitable for analysis processing while suppressing the capacity. Since the capacity of the sampling log SL is smaller than the log data L, it is possible to reduce the capacity of data stored in the storage unit while leaving necessary information. The sampling log SL can be used when generating a desired model using the log data L. Further, the editing data ED has a format suitable for analysis, and it is also possible to reduce the processing time as well as reduce the processing load on the analysis. Further, since the edited data ED is not invalidated, it is possible to keep necessary information while reducing the capacity.
なお、上述の実施形態においては、取得部20、サンプリング部22、および編集部24の各々が、ログデータL、サンプリングログSL、および編集データEDを、データ管理装置7内に設けられた記憶部28に記憶させる構成を説明した。しかしながら、取得部20、サンプリング部22、および編集部24の各々は、ログデータL、サンプリングログSL、および編集データEDを電気代の安価な地域(例えば、外国、地方など)に配置された記憶装置に送信するようにしてもよい。また、取得部20、サンプリング部22、および編集部24の各々は、ログデータL、サンプリングログSL、および編集データEDを磁気テープなどの外部の記憶媒体に出力してもよい。
In the above embodiment, each of the
また、上述の実施形態においては、サンプリング部22が、所定のサンプリングレートに基づいてサンプリング処理を行う構成を説明した。しかしながら、サンプリング部22が、記憶部28の空き容量を確認して、空き容量に応じてサンプリングレートを動的に変化させるようにしてもよい。
Moreover, in the above-mentioned embodiment, the structure which the
また、上述の実施形態においては、サンプリング部22が、所定の「第1の期間」に基づいてサンプリング処理を行い、無効化部26が、所定の「第1の期間」および「第2の期間」に基づいて無効化処理を行う構成を説明した。しかしながら、サンプリング部22または無効化部26が、記憶部28の空き容量を確認して、空き容量に応じて「第1の期間」および「第2の期間」を動的に変化させるようにしてもよい。
Further, in the above-described embodiment, the
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 As mentioned above, although the form for carrying out the present invention was explained using an embodiment, the present invention is not limited at all by such an embodiment, and various modification and substitution within the range which does not deviate from the gist of the present invention Can be added.
1‥データ管理システム、3‥端末装置、5‥サービス提供装置、7‥データ管理装置、20‥取得部、22‥サンプリング部、24‥編集部、26‥無効化部、28‥記憶部、30‥ログデータ記憶部、32‥サンプリングログ記憶部、34‥編集データ記憶部、NW‥ネットワーク
1.
Claims (9)
前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成するサンプリング部と、
前記取得部によって取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記サンプリング部によって生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化する無効化部と
を備えるデータ管理装置。 An acquisition unit that acquires log data acquired according to access by the terminal device;
The first sampling process focusing on the first item included in the log data is performed on the data included in the log data acquired by the acquisition unit and for which the first period has elapsed, by performing first sampling processing A sampling unit that generates a sampling log and generates a second sampling log by performing a second sampling process focusing on a second item included in the log data while generating a sampling log of 1;
Among the data included in the log data acquired by the acquisition unit, data in which the first period has elapsed is invalidated and the first sampling log and the second sampling log generated by the sampling unit A data management apparatus, comprising: an invalidation unit that invalidates the first sampling log and the second sampling log of which the second period longer than the first period has elapsed.
請求項1に記載のデータ管理装置。 A first editing process focusing on the first item is performed on data included in the log data acquired by the acquisition unit to generate a first editing data, and an attention is paid to the second item. Further comprising an editing unit which performs the second editing process described above to generate second editing data;
The data management device according to claim 1.
前記第2の項目は、前記端末装置によってアクセスされた電子ページと関連付けされたコンテンツを識別する項目である、
請求項1または2に記載のデータ管理装置。 The first item is an item identifying a user who uses the terminal device,
The second item is an item that identifies content associated with an electronic page accessed by the terminal device.
The data management device according to claim 1.
請求項2に記載のデータ管理装置。 The invalidation unit does not invalidate the first editing data and the second editing data generated by the editing unit.
The data management device according to claim 2.
請求項1から4のいずれか一項に記載のデータ管理装置。 The sampling unit performs the first sampling process and the second sampling process based on a predetermined sampling rate.
The data management device according to any one of claims 1 to 4.
請求項2に記載のデータ管理装置。 Each of the acquisition unit, the sampling unit, and the editing unit transmits the log data, the sampling log, and the editing data to a storage device arranged in an inexpensive area of an electricity bill.
The data management device according to claim 2.
前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1の編集処理を行って第1の編集データを生成するとともに前記ログデータに含まれる第2の項目に着目した第2の編集処理を行って第2の編集データを生成する編集部と
を備えるデータ管理装置。 An acquisition unit that acquires log data acquired according to access by the terminal device;
The first editing process focusing on the first item included in the log data is performed on the data included in the log data acquired by the acquisition unit and for which the first period has elapsed, by performing a first editing process A data management apparatus comprising: an editing unit that generates first editing data and performs second editing processing focusing on a second item included in the log data to generate second editing data.
端末装置によるアクセスに応じて取得されるログデータを取得し、
前記取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成し、
前記取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化する、
データ管理方法。 The computer is
Acquire log data acquired according to access by a terminal device,
A first sampling process focusing on a first item included in the log data is performed on data in which a first period has elapsed among data included in the acquired log data, and a first sampling is performed Generating a second sampling log by performing a second sampling process focusing on a second item included in the log data while generating a log;
Of the data included in the acquired log data, data in which the first period has elapsed is invalidated, and the first period of the generated first sampling log and second sampling log is invalidated. Invalidating the first sampling log and the second sampling log after a second period longer than the second period has elapsed,
Data management method.
端末装置によるアクセスに応じて取得されるログデータを取得させ、
前記取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記アクセスログに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成させ、
前記取得された前記ログデータログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化させる、
プログラム。 On the computer
Have the log data acquired in response to the access by the terminal device be acquired,
A first sampling process focusing on a first item included in the log data is performed on data in which a first period has elapsed among data included in the acquired log data, and a first sampling is performed Generating a second sampling log by performing a second sampling process focusing on a second item included in the access log while generating a log;
Among the data included in the acquired log data log data, data in which the first period has elapsed is invalidated, and the first sampling log and the second sampling log that are generated are generated. Invalidating the first sampling log and the second sampling log after the second period longer than the second period has elapsed,
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017084326A JP6971053B2 (en) | 2017-04-21 | 2017-04-21 | Data management equipment, data management methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017084326A JP6971053B2 (en) | 2017-04-21 | 2017-04-21 | Data management equipment, data management methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018181234A true JP2018181234A (en) | 2018-11-15 |
JP6971053B2 JP6971053B2 (en) | 2021-11-24 |
Family
ID=64275604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017084326A Active JP6971053B2 (en) | 2017-04-21 | 2017-04-21 | Data management equipment, data management methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6971053B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505107A (en) * | 2021-05-26 | 2021-10-15 | 中国再保险(集团)股份有限公司 | Typhoon file compression method and compression system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011186516A (en) * | 2010-03-04 | 2011-09-22 | Nec Corp | Log management method, log management program, and log management device |
US20120030018A1 (en) * | 2010-07-28 | 2012-02-02 | Aol Inc. | Systems And Methods For Managing Electronic Content |
JP2012088843A (en) * | 2010-10-18 | 2012-05-10 | Nec Corp | Filtering rule determination system, filtering rule determination method, filtering method, and program |
JP2016157382A (en) * | 2015-02-26 | 2016-09-01 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
JP2017045217A (en) * | 2015-08-26 | 2017-03-02 | 株式会社Screenホールディングス | Log management device, log management method, and log management program |
-
2017
- 2017-04-21 JP JP2017084326A patent/JP6971053B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011186516A (en) * | 2010-03-04 | 2011-09-22 | Nec Corp | Log management method, log management program, and log management device |
US20120030018A1 (en) * | 2010-07-28 | 2012-02-02 | Aol Inc. | Systems And Methods For Managing Electronic Content |
JP2012088843A (en) * | 2010-10-18 | 2012-05-10 | Nec Corp | Filtering rule determination system, filtering rule determination method, filtering method, and program |
JP2016157382A (en) * | 2015-02-26 | 2016-09-01 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
JP2017045217A (en) * | 2015-08-26 | 2017-03-02 | 株式会社Screenホールディングス | Log management device, log management method, and log management program |
Non-Patent Citations (1)
Title |
---|
アンドリュー・S・タネンバウム, 外1名, コンピュータネットワーク, vol. 第5版, JPN6021006143, 17 September 2013 (2013-09-17), pages 74 - 78, ISSN: 0004450627 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505107A (en) * | 2021-05-26 | 2021-10-15 | 中国再保险(集团)股份有限公司 | Typhoon file compression method and compression system |
CN113505107B (en) * | 2021-05-26 | 2023-11-10 | 中国再保险(集团)股份有限公司 | Typhoon file compression method and system |
Also Published As
Publication number | Publication date |
---|---|
JP6971053B2 (en) | 2021-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6549128B2 (en) | System and method for guided user action | |
US20230208937A1 (en) | Methods and apparatus to supplement web crawling with cached data from distributed devices | |
KR101514738B1 (en) | Advertisement based on application-created social content | |
US20180034899A1 (en) | Aggregating Plug-In Requests for Improved Client Performance | |
KR101777304B1 (en) | Image cropping according to points of interest | |
US10043199B2 (en) | Method, device and system for publishing merchandise information | |
US20140136936A1 (en) | Spreadsheet functions to call rest api sources | |
US20150081431A1 (en) | Posterior probability calculating apparatus, posterior probability calculating method, and non-transitory computer-readable recording medium | |
US20230034025A1 (en) | Method and system for online user profiling | |
JP2017142796A (en) | Identification and extraction of information | |
WO2019080662A1 (en) | Information recommendation method, device and apparatus | |
JP6775510B2 (en) | Terminals, terminal control methods, and programs | |
JP5905551B1 (en) | Information processing device, terminal device, information processing method, and information processing program | |
CN107688568A (en) | Acquisition method and device based on web page access behavior record | |
US8793236B2 (en) | Method and apparatus using historical influence for success attribution in network site activity | |
WO2013106595A2 (en) | Processing store visiting data | |
CN108170731A (en) | Data processing method, device, computer storage media and server | |
CN104142975B (en) | Microblog information promotion method, device and system | |
CN106980696B (en) | Photo file classification method and device | |
US20160239533A1 (en) | Identity workflow that utilizes multiple storage engines to support various lifecycles | |
CN105408894B (en) | A kind of user identity classification determines method and device | |
CN112463868A (en) | Data processing method, data processing system and computing device | |
CN107977678A (en) | Method and apparatus for output information | |
JP2008097259A (en) | Business support system and method using access analysis | |
JP6407318B2 (en) | Information processing device, terminal device, information processing method, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6971053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |