JP6971053B2 - Data management equipment, data management methods, and programs - Google Patents
Data management equipment, data management methods, and programs Download PDFInfo
- Publication number
- JP6971053B2 JP6971053B2 JP2017084326A JP2017084326A JP6971053B2 JP 6971053 B2 JP6971053 B2 JP 6971053B2 JP 2017084326 A JP2017084326 A JP 2017084326A JP 2017084326 A JP2017084326 A JP 2017084326A JP 6971053 B2 JP6971053 B2 JP 6971053B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- log
- sampling
- item
- period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 99
- 238000013523 data management Methods 0.000 title claims description 44
- 238000005070 sampling Methods 0.000 claims description 164
- 230000008569 process Effects 0.000 claims description 91
- 230000004044 response Effects 0.000 claims description 7
- 230000005611 electricity Effects 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 4
- 238000013500 data storage Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000002354 daily effect Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ管理装置、データ管理方法、およびプログラムに関する。 The present invention relates to a data management device, a data management method, and a program.
従来、ウェブページを提供するシステムにおいては、ユーザが端末装置を用いてウェブページにアクセスした履歴を示すアクセスログを取得して記憶装置に保管する運用が行われている。また、この保管されたアクセスログを解析することで、ウェブページのアクセス回数やウェブページにアクセスしたユーザの情報などを把握する方法が提案されている(例えば、特許文献1参照)。 Conventionally, in a system that provides a web page, an operation of acquiring an access log showing a history of a user accessing a web page using a terminal device and storing it in a storage device has been performed. Further, a method has been proposed in which the stored access log is analyzed to grasp the number of times a web page is accessed, information on a user who has accessed the web page, and the like (see, for example, Patent Document 1).
上述のアクセスログが長期間にわたって保管される場合、このアクセスログを記憶する記憶装置の容量が逼迫してしまう場合がある。この対策として、アクセスログを定期的に削除する運用が行われている。しかしながら、削除時には不要と判断されたアクセスログであっても、将来的に実施される解析処理において必要となる場合がある。このため、容量を抑えつつ解析に必要なアクセスログを保管する方法が求められている。 When the above-mentioned access log is stored for a long period of time, the capacity of the storage device for storing the access log may become tight. As a countermeasure, access logs are deleted regularly. However, even an access log that is determined to be unnecessary at the time of deletion may be required in the analysis process to be performed in the future. Therefore, there is a demand for a method of storing access logs required for analysis while reducing the capacity.
また、従来のアクセスログの解析処理では、アクセスログそのものを処理対象としている。しかしながら、容量が大きなアクセスログを処理した場合、処理装置の負荷が増大し、解析処理に時間を要する場合がある。このため、解析が容易な形式でアクセスログを保管する方法が求められている。 Further, in the conventional access log analysis process, the access log itself is targeted for processing. However, when processing an access log having a large capacity, the load on the processing device increases, and the analysis process may take time. Therefore, there is a demand for a method of storing access logs in a format that is easy to analyze.
本発明は、このような事情を考慮してなされたものであり、容量を抑えつつ解析処理に適した形式でログデータを保管することが可能なデータ管理装置、データ管理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and provides a data management device, a data management method, and a program capable of storing log data in a format suitable for analysis processing while suppressing the capacity. One of the purposes is to do.
本発明の一態様は、端末装置によるアクセスに応じて取得されるログデータを取得する取得部と、前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成するサンプリング部と、前記取得部によって取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記サンプリング部によって生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化する無効化部とを備えるデータ管理装置である。 One aspect of the present invention is an acquisition unit that acquires log data acquired in response to access by a terminal device, and data included in the log data acquired by the acquisition unit for which the first period has elapsed. On the other hand, the first sampling process focusing on the first item included in the log data is performed to generate the first sampling log, and the second item focusing on the second item included in the log data is generated. The sampling unit that performs sampling processing to generate a second sampling log, and the data included in the log data acquired by the acquisition unit that has passed the first period are invalidated and the sampling unit is used. Invalidates the first sampling log and the second sampling log that have passed a second period longer than the first period among the first sampling log and the second sampling log generated by. It is a data management device equipped with a conversion unit.
本発明の一態様によれば、容量を抑えつつ解析処理に適した形式でログデータを管理することが可能である。 According to one aspect of the present invention, it is possible to manage log data in a format suitable for analysis processing while suppressing the capacity.
以下、図面を参照し、本発明のデータ管理装置、データ管理方法、およびプログラムの実施形態について説明する。本発明のデータ管理装置は、例えば、ウェブページなどの電子ページへのアクセスに応じて取得されるログデータに対してサンプリング処理、編集処理、無効化処理などを行うことで、データの保管期間、保管するデータの内容などを適宜設定し、ログデータの管理を行う。電子ページには、ブラウザによって参照されるウェブページの他、アプリケーションプログラムによって参照されるアプリページが含まれてよい。以下の説明では、ウェブページに着目して説明を行う。 Hereinafter, embodiments of the data management apparatus, data management method, and program of the present invention will be described with reference to the drawings. The data management device of the present invention performs data storage period, for example, by performing sampling processing, editing processing, invalidation processing, etc. on log data acquired in response to access to an electronic page such as a web page. Manage log data by appropriately setting the contents of the data to be stored. The electronic page may include a web page referenced by a browser as well as an app page referenced by an application program. In the following explanation, the explanation will be focused on the web page.
[全体構成]
図1は、データ管理システム1の一例を示す構成図である。データ管理システム1は、例えば、一以上の端末装置3と、一以上のサービス提供装置5と、一以上のデータ管理装置7とを備える。端末装置3と、サービス提供装置5と、データ管理装置7とは、ネットワークNWによって互いに接続されており、このネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
[overall structure]
FIG. 1 is a configuration diagram showing an example of a
[端末装置]
端末装置3は、サービス提供装置5が提供するサービスを利用するユーザによって操作される。端末装置3は、例えば、パーソナルコンピュータ、スマートフォンなどの携帯電話やタブレット端末、PDA(Personal Digital Assistant)などのコンピュータ装置である。
[Terminal device]
The terminal device 3 is operated by a user who uses the service provided by the service providing device 5. The terminal device 3 is, for example, a personal computer, a mobile phone such as a smartphone, a tablet terminal, or a computer device such as a PDA (Personal Digital Assistant).
端末装置3は、ユーザから所定の操作を受け付けると、予めインストールされたブラウザを介してサービス提供装置5が提供するウェブページにアクセスする。例えば、サービス提供装置5が提供するウェブページは、ニュースサイト、ショッピングサイト、検索サイト、オークションサイト、SNS(Social Networking Service)サイトなどを構成するページである。 When the terminal device 3 receives a predetermined operation from the user, the terminal device 3 accesses the web page provided by the service providing device 5 via a browser installed in advance. For example, the web page provided by the service providing device 5 is a page constituting a news site, a shopping site, a search site, an auction site, an SNS (Social Networking Service) site, and the like.
[サービス提供装置]
サービス提供装置5は、インターネット上において、上述したニュースサイトやショッピングサイトなどのウェブページを提供するウェブサーバ装置であってよいし、アプリケーションが起動された端末装置3と通信を行って、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよい。サービス提供装置5は、自身が提供するウェブページへの端末装置3によるアクセスに応じて取得されるログデータLを出力する。
[Service provider]
The service providing device 5 may be a web server device that provides a web page such as the above-mentioned news site or shopping site on the Internet, or communicates with the terminal device 3 in which the application is started to obtain various information. It may be an application server device that performs delivery. The service providing device 5 outputs the log data L acquired in response to the access by the terminal device 3 to the web page provided by the service providing device 5.
図2は、ログデータLの一例を示す図である。ログデータLには、例えば、端末装置3を利用するユーザを識別する「ユーザID10」、ウェブページに関連付けされたコンテンツを識別する「コンテンツID11」、端末装置3からのアクセスを処理した日付を示す「日付12」、端末装置3からのアクセスを受けたウェブページのURL(Uniform Resource Locator)を示す「対象URL13」、対象URLへの遷移元のウェブページのURLを示す「遷移元URL14」などが含まれる。
FIG. 2 is a diagram showing an example of log data L. The log data L indicates, for example, a "
「ユーザID10」は、例えば、ユーザが端末装置3を用いてサービス提供装置5にアクセスする際にログインを行っている場合におけるログインIDを含む。あるいは、「ユーザID10」は、端末装置3に備えられたウェブブラウザごとに管理されるクッキー(HTTP cookie)に関する情報や、端末装置3のIPアドレスなどを含む。
The "
「コンテンツID11」は、例えば、ウェブページに関連付けされたコンテンツである商品、サービスなどを識別する識別子である。例えば、ウェブページが「商品A」を購入するショッピングサイトである場合、このウェブページには、「商品A」を示すコンテンツIDが関連付けされている。また、例えば、ウェブページが「スポーツA」のニュースを提供するニュースサイトである場合、このウェブページには、「スポーツA」を示すコンテンツIDが関連付けされている。ウェブページとコンテンツとの関連付けを示すデータは、例えば、サービス提供装置5または外部の記憶装置に記憶される各種マスタに記憶されていてよい。
The "
ログデータLには、例えば、端末装置3がウェブページにアクセスする度に、一行のデータが追加される。ログデータLは、例えば、日毎、週毎などの任意のタイミングで作成されるテキストデータである。 For example, one line of data is added to the log data L each time the terminal device 3 accesses the web page. The log data L is text data created at an arbitrary timing such as every day or every week.
[データ管理装置]
データ管理装置7は、例えば、サービス提供装置5が提供するウェブページまたはアプリケーションプログラムによって参照されるアプリページのログデータLを取得し、取得したログデータLの管理を行う。
[Data management device]
The
図3は、データ管理装置7によるデータ管理の概念を示す図である。データ管理装置7では、ログデータLに含まれるデータを3つの段階に分けて管理する。この3つの段階には、例えば、短期保管段階、長期保管段階、および無期限保管段階が含まれる。
FIG. 3 is a diagram showing the concept of data management by the
短期保管段階は、ログデータLそのものを保管する段階である。この短期保管段階では、例えば、過去1年間のログデータLが保管される。 The short-term storage stage is a stage in which the log data L itself is stored. In this short-term storage stage, for example, log data L for the past year is stored.
長期保管段階は、ログデータLに対して所定のサンプリング処理を行ったサンプリングログSLを保管する段階である。この長期保管段階では、例えば、上述の短期保管段階よりも長い過去3年間のサンプリングログSLが保管される。このサンプリングログSLには、例えば、ログデータLに含まれるデータに対して、「ユーザ」に関連する項目に着目してサンプリング処理を行った結果得られた「行動ログAL」と、「コンテンツ」に関連する項目に着目してサンプリング処理を行った結果得られた「コンテンツログCL」とが含まれる。 The long-term storage stage is a stage in which the sampling log SL obtained by performing a predetermined sampling process on the log data L is stored. In this long-term storage stage, for example, sampling log SL for the past three years, which is longer than the short-term storage stage described above, is stored. In this sampling log SL, for example, the "behavior log AL" and the "content" obtained as a result of sampling processing focusing on the items related to the "user" for the data included in the log data L. The "content log CL" obtained as a result of performing sampling processing focusing on the items related to is included.
無期限期保管段階は、ログデータLに対して所定の編集処理を行った編集データEDを保管する段階である。この無期限保管段階では、例えば、保管期間は設けられず、過去の全ての編集データEDが保管される。この編集データEDには、例えば、ログデータLに含まれるデータに対して、「ユーザ」に関連する項目に着目して編集処理を行った結果得られた「属性データAD」と、「コンテンツ」に関連する項目に着目して編集処理を行った結果得られた「メタデータMD」とが含まれる。 The indefinite period storage stage is a stage in which the edited data ED obtained by performing a predetermined editing process on the log data L is stored. In this indefinite storage stage, for example, no storage period is provided, and all past edited data EDs are stored. The edited data ED includes, for example, "attribute data AD" and "content" obtained as a result of editing the data included in the log data L by focusing on the items related to the "user". The "metadata MD" obtained as a result of performing the editing process focusing on the items related to the above is included.
図4は、データ管理装置7の機能構成の一例を示すブロック図である。データ管理装置7は、例えば、取得部20と、サンプリング部22と、編集部24と、無効化部26と、記憶部28とを備える。記憶部28は、例えば、ログデータ記憶部30と、サンプリングログ記憶部32と、編集データ記憶部34とを備える。データ管理装置7に含まれる各機能部は、複数の装置に分散されてもよい。例えば、サンプリング部22と他の機能部とは別体の装置によって実現されてもよい。記憶部28は、NAS(Network Attached Storage)などの記憶装置であってもよい。
FIG. 4 is a block diagram showing an example of the functional configuration of the
取得部20、サンプリング部22、編集部24、および無効化部26は、例えば、CPU(Central Processing Unit)などのプロセッサが、記憶部28に記憶されたプログラム(ソフトウェア)を実行することにより実現される。プログラムは、例えば、ネットワークNWを介してアプリケーションサーバからダウンロードされてもよいし、予めデータ管理装置7にプリインストールされていてもよい。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
The
記憶部28は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などによって実現されてよい。
The
取得部20は、ネットワークNWを介して、サービス提供装置5からログデータLを取得する。取得部20は、サービス提供装置5から取得したログデータLをログデータ記憶部30に記憶させる。
The
サンプリング部22は、取得部20によって取得されたログデータLに含まれるデータのうち、第1の期間が経過したログデータLに対してサンプリング処理を行い、サンプリングログSLを生成する。サンプリング部22は、生成したサンプリングログSLを、サンプリングログ記憶部32に記憶させる。例えば、サンプリング部22は、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、作成後1年以上経過したテキストデータに対してサンプリング処理を行う。
The
(サンプリング処理)
サンプリング部22は、第1の期間が経過したログデータLに対してデータのサンプリング(データの間引き)を行う。このサンプリング処理は、例えば、「ユーザ」に関連する第1の項目に着目して行う第1のサンプリング処理と、「コンテンツ」に関連する第2の項目に着目して行う第2のサンプリング処理とを含む。
(Sampling process)
The
「ユーザ」に関連する第1の項目に着目して行う第1のサンプリング処理は、例えば、ログデータLにおいて、「ユーザ」に関連する「ユーザID10」の項目のデータが存在するログデータを抽出するサンプリング処理、特定のフォーマットの「ユーザID10」のログデータを抽出するサンプリング処理などを含む。
In the first sampling process focusing on the first item related to the "user", for example, in the log data L, the log data in which the data of the item of the "
「コンテンツ」に関連する第2の項目に着目して行う第2のサンプリング処理は、例えば、ログデータLにおいて、特定のコンテンツと関連付けされた「コンテンツID11」を含むデータを抽出するサンプリング処理などを含む。
The second sampling process focusing on the second item related to the "content" includes, for example, a sampling process for extracting data including the "
また、サンプリング部22には、サンプリング処理によりサンプリングされるログデータの割合(以下、「サンプリングレート」と呼ぶ)が設定されている。例えば、サンプリング部22は、サンプリングレートに基づいて、サンプリングログSLの量の調整を行う。なお、サンプリング部22は、上述の行単位でのログデータのサンプリングの他、列単位での項目毎のサンプリング処理を行ってもよい。
Further, the
また、サンプリング部22は、ログデータLに対するサンプリング処理を段階的に行ってもよい。例えば、サンプリング部22は、第1の期間が経過したログデータLに対して第1のサンプリング処理を行った後、所定の期間が経過した後に第2のサンプリング処理を行ってもよい。さらに、サンプリング部22は、この第2のサンプリング処理が行われたデータに対して、所定の期間が経過した後に第3のサンプリング処理を行ってもよい。このような二段階以上のサンプリング処理により、サンプリングログSLの短期保管、中期保管、長期保管といった段階的な保管期間の設定が可能となる。
Further, the
編集部24は、取得部20によって取得されたログデータLに対して編集処理を行って編集データEDを生成する。編集部24は、生成した編集データEDを、編集データ記憶部34に記憶させる。例えば、編集部24は、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、このテキストデータに対して編集処理を行う。
The
(編集処理)
上述の編集処理は、例えば、「ユーザ」に関連する第1の項目に着目して行う第1の編集処理と、「コンテンツ」に関連する第2の項目に着目して行う第2の編集処理とを含む。
(Editing process)
The above-mentioned editing process is, for example, a first editing process focusing on the first item related to the "user" and a second editing process focusing on the second item related to the "content". And include.
「ユーザ」に関連する第1の項目に着目して行う第1の編集処理は、例えば、ログデータLにおいて、「ユーザ」に関連する「ユーザID10」の項目毎に、その他の項目を意味ベースの属性化したカラム(属性)に集約あるいは置き換え、その他の項目の並び替えおよび無効化、ログデータの並び替えなどを行い、目的に応じた所定の形式の編集データED(属性データAD)を生成する。
In the first editing process focusing on the first item related to the "user", for example, in the log data L, for each item of the "
「コンテンツ」に関連する第2の項目に着目して行う第2の編集処理は、例えば、ログデータLにおいて、「コンテンツ」に関連する「コンテンツID11」毎に、その他の項目を意味ベースの属性化したカラム(属性)に集約あるいは置き換え、その他の項目の並び替えおよび無効化、ログデータの並び替えなどを行い、目的に応じた所定の形式の編集データを生成する。
The second editing process focusing on the second item related to the "content" is, for example, in the log data L, for each "
無効化部26は、ログデータ記憶部30に記憶されたログデータLに含まれるデータのうち、第1の期間が経過したデータを無効化する。ログデータLの無効化とは、例えば、ログデータ記憶部30からログデータLを物理的または論理的に削除することを言う。ここで無効化の対象となるログデータLは、サンプリング部22によるサンプリング処理の対象となったログデータである。第1の期間は、例えば、「1年」などに設定される。ここで、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、無効化部26は、作成後1年以上経過したテキストデータを無効化する。
The
また、無効化部26は、サンプリングログ記憶部32に記憶されたサンプリングSLのうち、第2の期間が経過したサンプリングログSLを無効化する。この第2の期間は、上述の第1の期間よりも長い期間が設定される。第2の期間は、例えば、「3年」などに設定される。この場合、無効化部26は、サンプリング部22によって生成された後3年以上経過したサンプリングログSLを無効化する。なお、上記のようにサンプリング部22が段階的なサンプリング処理を行っている場合、無効化部26は、サンプリングログSLに対して個別に設定された期間に応じてサンプリングログS毎に上記の無効化処理を行ってよい。
Further, the
ログデータ記憶部30は、取得部20によって取得されたログデータLを記憶する。サンプリングログ記憶部32は、サンプリング部22によって生成されたサンプリングログSLを記憶する。編集データ記憶部34は、編集部24によって生成された編集データEDを記憶する。
The log
[データ管理装置の処理]
次に、図5から図9を参照しながらデータ管理装置7の動作について説明する。図5は、データ管理装置7による処理の流れの一例を示すフローチャートである。図5のフローチャートに示す処理は、日次、週次、月次などの所定のタイミングで開始される。或いは、この処理は、データ管理装置7の利用者による指示に応じて開始されてもよい。
[Processing of data management device]
Next, the operation of the
まず、取得部20は、ネットワークNWを介して、サービス提供装置5からログデータLを取得する(ステップS101)。取得部20は、取得したログデータLをログデータ記憶部30に記憶させる。
First, the
次に、サンプリング部22によるサンプリング処理(ステップS103)および編集部24による編集処理(ステップS105)のいずれか一方、または双方が実施される。実施対象となる処理は、予め設定されたスケジュールまたは利用者による指示などに応じて決定される。
Next, either one or both of the sampling process (step S103) by the
(サンプリング処理)
サンプリング部22は、取得部20によって取得されてログデータ記憶部30に記憶されているログデータLのうち、第1の期間が経過したログデータLを読み出してサンプリング処理を行い、サンプリングログSLを生成する(ステップS103)。サンプリング部22は、生成したサンプリングログSLをサンプリングログ記憶部32に記憶させる。
(Sampling process)
The
ここで、サンプリング部22は、ログデータLに含まれる項目のうち、「ユーザ」に関連する「ユーザID10」の項目に着目して第1のサンプリング処理を行い、サンプリングログSLとして行動ログAL(第1のサンプリングログ)を生成する。サンプリング部22は、例えば、ログデータLに含まれるデータのうち、ユーザID10の項目のデータが存在するデータをサンプリングする。
Here, the
図6は、図2に示すログデータLから、ユーザID10の項目のデータが存在するログデータをサンプリングしたサンプリングログSLの一例を示す図である。図6に示すように、サンプリングログSLにおいては、ログデータLに含まれるデータのうち、3行目および6行目のユーザID10の項目のデータが存在しないデータは無効化されている。
FIG. 6 is a diagram showing an example of a sampling log SL in which log data in which the data of the item of the
また、サンプリング部22は、ログデータLに含まれるデータの項目のうち、「コンテンツ」に関連する「コンテンツID11」の項目に着目して第2のサンプリング処理を行い、サンプリングログSLとしてコンテンツログCL(第2のサンプリングログ)を生成する。サンプリング部22は、例えば、ログデータLに含まれるデータのうち、コンテンツID11の項目のデータが特定の形式を有するデータをサンプリングする。
Further, the
図7は、図2に示すログデータLから、コンテンツID11の項目のデータが“00001”から“00099”の範囲であるログデータをサンプリングしたサンプリングログSLの一例を示す図である。図7に示すように、サンプリングログSLにおいては、ログデータLに含まれるデータのうち、コンテンツID11の項目のデータが“00001”から“00099”の範囲ではない5行目から7行目のデータは無効化されている。
FIG. 7 is a diagram showing an example of a sampling log SL obtained by sampling log data in which the data of the item of the
また、サンプリング部22は、予め設定されたサンプリングレートに基づいて、上述のサンプリングログSLに含まれるデータの量を調整する。例えば、サンプリングレートとして“30%”が設定されている場合、サンプリングログSLに含まれるデータのうち30%のデータが残るように調整を行う(70%のデータを無効化する)。
Further, the
(編集処理)
編集部24は、取得部20によって取得されてログデータ記憶部30に記憶されているログデータLに対して編集処理を行い、編集データEDを生成する(ステップS105)。編集部24は、生成した編集データEDを編集データ記憶部34に記憶させる。
(Editing process)
The
編集部24は、ログデータLに含まれる項目のうち、「ユーザ」に関連する「ユーザID10」の項目に着目して第1の編集処理を行い、編集データEDとして属性データAD(第1の編集データ)を生成する。編集部24は、マスターデータまたは所定の処理ロジックに従う第1の編集処理を行い、編集データEDを生成する。編集部24は、例えば、ログデータLにおいて、各ユーザIDと関連付けされた対象URLのリンク先のページが男性向けまたは女性向けであるかや、アクセス対象のコンテンツの傾向を集計して、ユーザIDをキーとして、その他の項目を「性別」などの意味ベースの属性化したカラム(属性)に集約あるいは置き換える。なお、「ユーザID」と「属性」の対応付けは、ユーザがウェブページの会員登録時に入力したデータを参照することで行われてよい。
The
図8は、図2に示すログデータLに対して第1の編集処理を行うことにより得られた編集データED(行動履歴データ)の一例を示す図である。図8では、「ユーザID」が“bbbbb”であるデータに対して、「属性1(性別)」が“男性”および「属性2(趣味)」が“スポーツ”が関連付けされたデータが示されている。このように「ユーザ」に関連する「ユーザID10」の項目に着目した編集処理を行うことデータ容量を圧縮することが可能である。また、このような編集データEDは、ユーザの行動の統計的なデータを把握することが容易である解析処理に適した形式となっている。なお、編集部24は、上記の「属性1(性別)」および「属性2(趣味)」に加えてあるいは代えて、年齢、アクセス頻度などの多様な属性情報を編集データEDに追加してよい。
FIG. 8 is a diagram showing an example of edit data ED (behavior history data) obtained by performing the first edit process on the log data L shown in FIG. 2. FIG. 8 shows data in which "attribute 1 (gender)" is "male" and "attribute 2 (hobby)" is "sports" with respect to data in which "user ID" is "bbbbbb". ing. In this way, it is possible to compress the data capacity by performing the editing process focusing on the item of the "
また、編集部24は、ログデータLに含まれる項目のうち、「コンテンツ」に関連する「コンテンツID11」の項目に着目して第2の編集処理を行い、編集データEDとしてメタデータMD(第2の編集データ)を生成する。編集部24は、マスターデータまたは所定の処理ロジックに従う第2の編集処理を行い、編集データEDを生成する。編集部24は、例えば、ログデータLに含まれるコンテンツIDをキーとして、その他の項目を「商品、サービス」などの意味ベースの属性化したカラム(属性)に集約あるいは置き換える。また、編集部24は、例えば、各コンテンツIDにアクセスしたユーザの傾向を集計して、「対象ユーザ」の属性を決定する。
Further, the
図9は、図2に示すログデータLに対して第2の編集処理を行うことにより得られた編集データED(アクセス履歴データ)の一例を示す図である。図9では、「コンテンツID」が“00001”であるデータに対して、「属性1(商品、サービス)」が“スポーツ”および「属性2(対象ユーザ)」が“男性”が関連付けされたデータが示されている。このように「コンテンツ」に関連する「コンテンツID11」の項目に着目した編集処理を行うことデータ容量を圧縮することが可能である。また、このような編集データEDは、コンテンツIDと関連付けされたウェブページに対するユーザのアクセス状況を把握することが容易である解析処理に適した形式となっている。なお、編集部24は、上記の「属性1(商品、サービス)」および「属性2(対象ユーザ)」に加えてあるいは代えて、アクセス数などの多様な属性情報を編集データEDに追加してよい。
FIG. 9 is a diagram showing an example of edit data ED (access history data) obtained by performing a second edit process on the log data L shown in FIG. 2. In FIG. 9, data in which "attribute 1 (product, service)" is associated with "sports" and "attribute 2 (target user)" is associated with "male" with respect to data in which "content ID" is "00001". It is shown. In this way, it is possible to compress the data capacity by performing the editing process focusing on the item of "
なお、各ウェブページに表示された画像に関連する情報などがログデータ記憶部30に記憶されている場合、編集部24は、この画像の色などの特徴量や、画像の種類(風画像景なのか、人物画像なのか)などに基づいて、編集データED(メタデータMD)を生成してもよい。
When information related to the image displayed on each web page is stored in the log
次に、無効化部26は、ログデータ記憶部30に記憶されたログデータLのうち、第1の期間が経過したログデータLを無効化し、サンプリングログ記憶部32に記憶されたサンプリングSLのうち、第2の期間が経過したサンプリングログSLを無効化する(ステップS107)。以上により、本フローチャートの処理を終了する。
Next, the
以上において説明した実施形態によれば、容量を抑えつつ解析処理に適した形式でログデータを管理することが可能である。サンプリングログSLの容量は、ログデータLよりも小さいため、必要な情報を残しつつ記憶部に記憶されるデータの容量を低減させることができる。このサンプリングログSLは、ログデータLを用いて所望のモデルの生成する際に利用されることが可能である。また、編集データEDは、解析に適した形式を有しており、解析における処理装置の負荷を軽減するとともに、処理時間を短縮することも可能である。また、編集データEDは無効化されることはないため、容量を抑えつつ必要な情報を残すことが可能である。 According to the embodiment described above, it is possible to manage log data in a format suitable for analysis processing while suppressing the capacity. Since the capacity of the sampling log SL is smaller than that of the log data L, it is possible to reduce the capacity of the data stored in the storage unit while retaining the necessary information. This sampling log SL can be used when generating a desired model using the log data L. Further, the edited data ED has a format suitable for analysis, and it is possible to reduce the load on the processing device in the analysis and also to shorten the processing time. Further, since the edited data ED is not invalidated, it is possible to leave necessary information while suppressing the capacity.
なお、上述の実施形態においては、取得部20、サンプリング部22、および編集部24の各々が、ログデータL、サンプリングログSL、および編集データEDを、データ管理装置7内に設けられた記憶部28に記憶させる構成を説明した。しかしながら、取得部20、サンプリング部22、および編集部24の各々は、ログデータL、サンプリングログSL、および編集データEDを電気代の安価な地域(例えば、外国、地方など)に配置された記憶装置に送信するようにしてもよい。また、取得部20、サンプリング部22、および編集部24の各々は、ログデータL、サンプリングログSL、および編集データEDを磁気テープなどの外部の記憶媒体に出力してもよい。
In the above-described embodiment, each of the
また、上述の実施形態においては、サンプリング部22が、所定のサンプリングレートに基づいてサンプリング処理を行う構成を説明した。しかしながら、サンプリング部22が、記憶部28の空き容量を確認して、空き容量に応じてサンプリングレートを動的に変化させるようにしてもよい。
Further, in the above-described embodiment, the configuration in which the
また、上述の実施形態においては、サンプリング部22が、所定の「第1の期間」に基づいてサンプリング処理を行い、無効化部26が、所定の「第1の期間」および「第2の期間」に基づいて無効化処理を行う構成を説明した。しかしながら、サンプリング部22または無効化部26が、記憶部28の空き容量を確認して、空き容量に応じて「第1の期間」および「第2の期間」を動的に変化させるようにしてもよい。
Further, in the above-described embodiment, the
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1‥データ管理システム、3‥端末装置、5‥サービス提供装置、7‥データ管理装置、20‥取得部、22‥サンプリング部、24‥編集部、26‥無効化部、28‥記憶部、30‥ログデータ記憶部、32‥サンプリングログ記憶部、34‥編集データ記憶部、NW‥ネットワーク 1 Data management system, 3 Terminal equipment, 5 Service provision equipment, 7 Data management equipment, 20 Acquisition unit, 22 Sampling unit, 24 Editing department, 26 Invalidation unit, 28 Storage unit, 30 Log data storage unit, 32 sampling log storage unit, 34 editing data storage unit, NW network
Claims (9)
前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成するサンプリング部と、
前記取得部によって取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記サンプリング部によって生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化する無効化部と
を備え、
前記第1のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第1の項目のデータが存在するデータを抽出する処理、または、前記第1の期間が経過したデータにおいて前記第1の項目のデータが特定のフォーマットのデータを抽出する処理であり、
前記第2のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第2の項目のデータが特定のコンテンツと関連付けされたデータを抽出する処理である、
データ管理装置。 An acquisition unit that acquires log data acquired in response to access by the terminal device,
Of the data included in the log data acquired by the acquisition unit, the data for which the first period has passed is subjected to the first sampling process focusing on the first item included in the log data. A sampling unit that generates a sampling log of 1 and performs a second sampling process focusing on the second item included in the log data to generate a second sampling log.
Of the data included in the log data acquired by the acquisition unit, the data for which the first period has elapsed is invalidated, and the first sampling log and the second sampling log generated by the sampling unit are used. out e Bei and said invalidating unit for invalidating the first sampling logs and second sampling logs longer second period of time than the first time period,
The first sampling process is a process of extracting data in which the data of the first item is present in the data for which the first period has elapsed, or a process of extracting the data in which the data of the first period has elapsed, or the first in the data for which the first period has elapsed. Item data is the process of extracting data in a specific format.
The second sampling process is a process of extracting data in which the data of the second item is associated with a specific content in the data after the first period has passed.
Data management device.
前記第1の編集処理は、前記ログデータにおいて前記第1の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理であり、
前記第2の編集処理は、前記ログデータにおいて前記第2の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理である、
請求項1に記載のデータ管理装置。 The data included in the log data acquired by the acquisition unit is subjected to the first editing process focusing on the first item to generate the first editing data, and the second item is focused on. second editing process further example Bei editing unit for generating a second edited data by that,
The first editing process is a process of aggregating or replacing the data of other items for each data of the first item in the log data.
The second editing process is a process of aggregating or replacing the data of other items for each data of the second item in the log data.
The data management device according to claim 1.
前記第2の項目は、前記端末装置によってアクセスされた電子ページと関連付けされたコンテンツを識別する項目である、
請求項1または2に記載のデータ管理装置。 The first item is an item for identifying a user who uses the terminal device.
The second item is an item for identifying the content associated with the electronic page accessed by the terminal device.
The data management device according to claim 1 or 2.
請求項2に記載のデータ管理装置。 The invalidation unit does not invalidate the first edit data and the second edit data generated by the editorial unit.
The data management device according to claim 2.
請求項1から4のいずれか一項に記載のデータ管理装置。 The sampling unit performs the first sampling process and the second sampling process based on a predetermined sampling rate.
The data management device according to any one of claims 1 to 4.
請求項2に記載のデータ管理装置。 Each of the acquisition unit, the sampling unit, and the editing unit arranges the log data, the sampling log, and the editing data in an area where the electricity bill is cheaper than the area where the data management device is arranged. Send to the storage device,
The data management device according to claim 2.
前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1の編集処理を行って第1の編集データを生成するとともに前記ログデータに含まれる第2の項目に着目した第2の編集処理を行って第2の編集データを生成する編集部と
を備え、
前記第1の編集処理は、前記ログデータにおいて前記第1の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理であり、
前記第2の編集処理は、前記ログデータにおいて前記第2の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理である、
データ管理装置。 An acquisition unit that acquires log data acquired in response to access by the terminal device,
Of the data included in the log data acquired by the acquisition unit, the data for which the first period has passed is subjected to the first editing process focusing on the first item included in the log data. e Bei and editing unit configured to generate a second editing data by the second editing process that focuses on the second item included in the log data to generate a first edited data,
The first editing process is a process of aggregating or replacing the data of other items for each data of the first item in the log data.
The second editing process is a process of aggregating or replacing the data of other items for each data of the second item in the log data.
Data management device.
端末装置によるアクセスに応じて取得されるログデータを取得し、
前記取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成し、
前記取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化し、
前記第1のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第1の項目のデータが存在するデータを抽出する処理、または、前記第1の期間が経過したデータにおいて前記第1の項目のデータが特定のフォーマットのデータを抽出する処理であり、
前記第2のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第2の項目のデータが特定のコンテンツと関連付けされたデータを抽出する処理である、
データ管理方法。 The computer
Acquires the log data acquired in response to access by the terminal device,
Of the acquired data included in the log data, the data for which the first period has passed is subjected to the first sampling process focusing on the first item included in the log data, and the first sampling is performed. A log is generated and a second sampling process focusing on the second item included in the log data is performed to generate a second sampling log.
Of the acquired data included in the log data, the data for which the first period has passed is invalidated, and the first sampling log and the second sampling log generated are said to have the first period. Disable the first sampling log and the second sampling log after a longer second period .
The first sampling process is a process of extracting data in which the data of the first item is present in the data for which the first period has elapsed, or a process of extracting the data in which the data of the first period has elapsed, or the first in the data for which the first period has elapsed. Item data is the process of extracting data in a specific format.
The second sampling process is a process of extracting data in which the data of the second item is associated with a specific content in the data after the first period has passed.
Data management method.
端末装置によるアクセスに応じて取得されるログデータを取得させ、
前記取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成させ、
前記取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化させ、
前記第1のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第1の項目のデータが存在するデータを抽出する処理、または、前記第1の期間が経過したデータにおいて前記第1の項目のデータが特定のフォーマットのデータを抽出する処理であり、
前記第2のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第2の項目のデータが特定のコンテンツと関連付けされたデータを抽出する処理である、
プログラム。 On the computer
Get the log data acquired according to the access by the terminal device,
Of the acquired data included in the log data, the data for which the first period has passed is subjected to the first sampling process focusing on the first item included in the log data, and the first sampling is performed. A log is generated and a second sampling process focusing on the second item included in the log data is performed to generate a second sampling log.
Of the acquired data included in the log data , the data for which the first period has passed is invalidated, and the first sampling log and the second sampling log generated are said to have the first period. Disable the first sampling log and the second sampling log after a longer second period .
The first sampling process is a process of extracting data in which the data of the first item is present in the data for which the first period has elapsed, or a process of extracting the data in which the data of the first period has elapsed, or the first in the data for which the first period has elapsed. Item data is the process of extracting data in a specific format.
The second sampling process is a process of extracting data in which the data of the second item is associated with a specific content in the data after the first period has passed.
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017084326A JP6971053B2 (en) | 2017-04-21 | 2017-04-21 | Data management equipment, data management methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017084326A JP6971053B2 (en) | 2017-04-21 | 2017-04-21 | Data management equipment, data management methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018181234A JP2018181234A (en) | 2018-11-15 |
JP6971053B2 true JP6971053B2 (en) | 2021-11-24 |
Family
ID=64275604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017084326A Active JP6971053B2 (en) | 2017-04-21 | 2017-04-21 | Data management equipment, data management methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6971053B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505107B (en) * | 2021-05-26 | 2023-11-10 | 中国再保险(集团)股份有限公司 | Typhoon file compression method and system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5477057B2 (en) * | 2010-03-04 | 2014-04-23 | 日本電気株式会社 | Log management method, log management program, and log management apparatus |
US20120030018A1 (en) * | 2010-07-28 | 2012-02-02 | Aol Inc. | Systems And Methods For Managing Electronic Content |
JP2012088843A (en) * | 2010-10-18 | 2012-05-10 | Nec Corp | Filtering rule determination system, filtering rule determination method, filtering method, and program |
JP6547331B2 (en) * | 2015-02-26 | 2019-07-24 | 富士ゼロックス株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
JP2017045217A (en) * | 2015-08-26 | 2017-03-02 | 株式会社Screenホールディングス | Log management device, log management method, and log management program |
-
2017
- 2017-04-21 JP JP2017084326A patent/JP6971053B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018181234A (en) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11451856B2 (en) | Providing visual content editing functions | |
US20230208937A1 (en) | Methods and apparatus to supplement web crawling with cached data from distributed devices | |
JP6185186B2 (en) | Method and system for providing code scan result information | |
CN105095470B (en) | Data recommendation method and device for application program | |
US20150081431A1 (en) | Posterior probability calculating apparatus, posterior probability calculating method, and non-transitory computer-readable recording medium | |
US20150262238A1 (en) | Techniques for Topic Extraction Using Targeted Message Characteristics | |
US20170236108A1 (en) | Creative work registry independent server | |
WO2020253364A1 (en) | Big data analytics-based information pushing method, apparatus, and device, and storage medium | |
EP2802979A2 (en) | Processing store visiting data | |
Azhar et al. | Forensic analysis of secure ephemeral messaging applications on android platforms | |
CN110928917A (en) | Target user determination method and device, computing equipment and medium | |
US9454568B2 (en) | Method, apparatus and computer storage medium for acquiring hot content | |
JP2008097259A (en) | Business support system and method using access analysis | |
JP6971053B2 (en) | Data management equipment, data management methods, and programs | |
JP6036331B2 (en) | Management method, management device, and management program | |
KR101105798B1 (en) | Apparatus and method refining keyword and contents searching system and method | |
KR101471522B1 (en) | System for providing personal information based on generation and consumption of content | |
KR101862178B1 (en) | Method for customized posting and server implementing the same | |
CN109284429B (en) | News data pushing method, device, system and storage medium | |
US20200142937A1 (en) | Enrichment of User Specific Information | |
CN115544994B (en) | Data pushing method, device, electronic equipment and readable storage medium | |
CN102184175A (en) | Method used for analyzing sex of accessor in network | |
Ruoxin et al. | Research on the Application of Big Data in Newspaper Industry | |
CN114764722A (en) | Information recommendation method and device, computer equipment and storage medium | |
JP2020173593A (en) | Sns analyzing system, sns analyzing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6971053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |