JP6971053B2 - Data management equipment, data management methods, and programs - Google Patents

Data management equipment, data management methods, and programs Download PDF

Info

Publication number
JP6971053B2
JP6971053B2 JP2017084326A JP2017084326A JP6971053B2 JP 6971053 B2 JP6971053 B2 JP 6971053B2 JP 2017084326 A JP2017084326 A JP 2017084326A JP 2017084326 A JP2017084326 A JP 2017084326A JP 6971053 B2 JP6971053 B2 JP 6971053B2
Authority
JP
Japan
Prior art keywords
data
log
sampling
item
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017084326A
Other languages
Japanese (ja)
Other versions
JP2018181234A (en
Inventor
康夫 遠峯
彰真 吉野
文 十川
一樹 大利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017084326A priority Critical patent/JP6971053B2/en
Publication of JP2018181234A publication Critical patent/JP2018181234A/en
Application granted granted Critical
Publication of JP6971053B2 publication Critical patent/JP6971053B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ管理装置、データ管理方法、およびプログラムに関する。 The present invention relates to a data management device, a data management method, and a program.

従来、ウェブページを提供するシステムにおいては、ユーザが端末装置を用いてウェブページにアクセスした履歴を示すアクセスログを取得して記憶装置に保管する運用が行われている。また、この保管されたアクセスログを解析することで、ウェブページのアクセス回数やウェブページにアクセスしたユーザの情報などを把握する方法が提案されている(例えば、特許文献1参照)。 Conventionally, in a system that provides a web page, an operation of acquiring an access log showing a history of a user accessing a web page using a terminal device and storing it in a storage device has been performed. Further, a method has been proposed in which the stored access log is analyzed to grasp the number of times a web page is accessed, information on a user who has accessed the web page, and the like (see, for example, Patent Document 1).

特開2014−22821号公報Japanese Unexamined Patent Publication No. 2014-22821

上述のアクセスログが長期間にわたって保管される場合、このアクセスログを記憶する記憶装置の容量が逼迫してしまう場合がある。この対策として、アクセスログを定期的に削除する運用が行われている。しかしながら、削除時には不要と判断されたアクセスログであっても、将来的に実施される解析処理において必要となる場合がある。このため、容量を抑えつつ解析に必要なアクセスログを保管する方法が求められている。 When the above-mentioned access log is stored for a long period of time, the capacity of the storage device for storing the access log may become tight. As a countermeasure, access logs are deleted regularly. However, even an access log that is determined to be unnecessary at the time of deletion may be required in the analysis process to be performed in the future. Therefore, there is a demand for a method of storing access logs required for analysis while reducing the capacity.

また、従来のアクセスログの解析処理では、アクセスログそのものを処理対象としている。しかしながら、容量が大きなアクセスログを処理した場合、処理装置の負荷が増大し、解析処理に時間を要する場合がある。このため、解析が容易な形式でアクセスログを保管する方法が求められている。 Further, in the conventional access log analysis process, the access log itself is targeted for processing. However, when processing an access log having a large capacity, the load on the processing device increases, and the analysis process may take time. Therefore, there is a demand for a method of storing access logs in a format that is easy to analyze.

本発明は、このような事情を考慮してなされたものであり、容量を抑えつつ解析処理に適した形式でログデータを保管することが可能なデータ管理装置、データ管理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and provides a data management device, a data management method, and a program capable of storing log data in a format suitable for analysis processing while suppressing the capacity. One of the purposes is to do.

本発明の一態様は、端末装置によるアクセスに応じて取得されるログデータを取得する取得部と、前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成するサンプリング部と、前記取得部によって取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記サンプリング部によって生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化する無効化部とを備えるデータ管理装置である。 One aspect of the present invention is an acquisition unit that acquires log data acquired in response to access by a terminal device, and data included in the log data acquired by the acquisition unit for which the first period has elapsed. On the other hand, the first sampling process focusing on the first item included in the log data is performed to generate the first sampling log, and the second item focusing on the second item included in the log data is generated. The sampling unit that performs sampling processing to generate a second sampling log, and the data included in the log data acquired by the acquisition unit that has passed the first period are invalidated and the sampling unit is used. Invalidates the first sampling log and the second sampling log that have passed a second period longer than the first period among the first sampling log and the second sampling log generated by. It is a data management device equipped with a conversion unit.

本発明の一態様によれば、容量を抑えつつ解析処理に適した形式でログデータを管理することが可能である。 According to one aspect of the present invention, it is possible to manage log data in a format suitable for analysis processing while suppressing the capacity.

データ管理システム1の一例を示す構成図である。It is a block diagram which shows an example of a data management system 1. ログデータLの一例を示す図である。It is a figure which shows an example of the log data L. データ管理装置7によるデータ管理の概念を示す図である。It is a figure which shows the concept of data management by a data management apparatus 7. データ管理装置7の機能構成の一例を示すブロック図である。It is a block diagram which shows an example of the functional structure of a data management apparatus 7. データ管理装置7による処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of processing by a data management apparatus 7. サンプリングログSL(行動ログ)の一例を示す図である。It is a figure which shows an example of a sampling log SL (behavior log). サンプリングログSL(コンテンツログ)の一例を示す図である。It is a figure which shows an example of a sampling log SL (content log). 編集データED(属性データ)の一例を示す図である。It is a figure which shows an example of edit data ED (attribute data). 編集データED(メタデータ)の一例を示す図である。It is a figure which shows an example of edit data ED (metadata).

以下、図面を参照し、本発明のデータ管理装置、データ管理方法、およびプログラムの実施形態について説明する。本発明のデータ管理装置は、例えば、ウェブページなどの電子ページへのアクセスに応じて取得されるログデータに対してサンプリング処理、編集処理、無効化処理などを行うことで、データの保管期間、保管するデータの内容などを適宜設定し、ログデータの管理を行う。電子ページには、ブラウザによって参照されるウェブページの他、アプリケーションプログラムによって参照されるアプリページが含まれてよい。以下の説明では、ウェブページに着目して説明を行う。 Hereinafter, embodiments of the data management apparatus, data management method, and program of the present invention will be described with reference to the drawings. The data management device of the present invention performs data storage period, for example, by performing sampling processing, editing processing, invalidation processing, etc. on log data acquired in response to access to an electronic page such as a web page. Manage log data by appropriately setting the contents of the data to be stored. The electronic page may include a web page referenced by a browser as well as an app page referenced by an application program. In the following explanation, the explanation will be focused on the web page.

[全体構成]
図1は、データ管理システム1の一例を示す構成図である。データ管理システム1は、例えば、一以上の端末装置3と、一以上のサービス提供装置5と、一以上のデータ管理装置7とを備える。端末装置3と、サービス提供装置5と、データ管理装置7とは、ネットワークNWによって互いに接続されており、このネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
[overall structure]
FIG. 1 is a configuration diagram showing an example of a data management system 1. The data management system 1 includes, for example, one or more terminal devices 3, one or more service providing devices 5, and one or more data management devices 7. The terminal device 3, the service providing device 5, and the data management device 7 are connected to each other by a network NW, and communicate with each other via the network NW. The network NW includes, for example, a WAN (Wide Area Network), a LAN (Local Area Network), the Internet, a dedicated line, a wireless base station, a provider, and the like.

[端末装置]
端末装置3は、サービス提供装置5が提供するサービスを利用するユーザによって操作される。端末装置3は、例えば、パーソナルコンピュータ、スマートフォンなどの携帯電話やタブレット端末、PDA(Personal Digital Assistant)などのコンピュータ装置である。
[Terminal device]
The terminal device 3 is operated by a user who uses the service provided by the service providing device 5. The terminal device 3 is, for example, a personal computer, a mobile phone such as a smartphone, a tablet terminal, or a computer device such as a PDA (Personal Digital Assistant).

端末装置3は、ユーザから所定の操作を受け付けると、予めインストールされたブラウザを介してサービス提供装置5が提供するウェブページにアクセスする。例えば、サービス提供装置5が提供するウェブページは、ニュースサイト、ショッピングサイト、検索サイト、オークションサイト、SNS(Social Networking Service)サイトなどを構成するページである。 When the terminal device 3 receives a predetermined operation from the user, the terminal device 3 accesses the web page provided by the service providing device 5 via a browser installed in advance. For example, the web page provided by the service providing device 5 is a page constituting a news site, a shopping site, a search site, an auction site, an SNS (Social Networking Service) site, and the like.

[サービス提供装置]
サービス提供装置5は、インターネット上において、上述したニュースサイトやショッピングサイトなどのウェブページを提供するウェブサーバ装置であってよいし、アプリケーションが起動された端末装置3と通信を行って、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよい。サービス提供装置5は、自身が提供するウェブページへの端末装置3によるアクセスに応じて取得されるログデータLを出力する。
[Service provider]
The service providing device 5 may be a web server device that provides a web page such as the above-mentioned news site or shopping site on the Internet, or communicates with the terminal device 3 in which the application is started to obtain various information. It may be an application server device that performs delivery. The service providing device 5 outputs the log data L acquired in response to the access by the terminal device 3 to the web page provided by the service providing device 5.

図2は、ログデータLの一例を示す図である。ログデータLには、例えば、端末装置3を利用するユーザを識別する「ユーザID10」、ウェブページに関連付けされたコンテンツを識別する「コンテンツID11」、端末装置3からのアクセスを処理した日付を示す「日付12」、端末装置3からのアクセスを受けたウェブページのURL(Uniform Resource Locator)を示す「対象URL13」、対象URLへの遷移元のウェブページのURLを示す「遷移元URL14」などが含まれる。 FIG. 2 is a diagram showing an example of log data L. The log data L indicates, for example, a "user ID 10" that identifies a user who uses the terminal device 3, a "content ID 11" that identifies content associated with a web page, and a date when access from the terminal device 3 is processed. "Date 12", "target URL 13" indicating the URL (Uniform Resource Locator) of the web page accessed from the terminal device 3, "transition source URL 14" indicating the URL of the transition source web page to the target URL, and the like. included.

「ユーザID10」は、例えば、ユーザが端末装置3を用いてサービス提供装置5にアクセスする際にログインを行っている場合におけるログインIDを含む。あるいは、「ユーザID10」は、端末装置3に備えられたウェブブラウザごとに管理されるクッキー(HTTP cookie)に関する情報や、端末装置3のIPアドレスなどを含む。 The "user ID 10" includes, for example, a login ID when the user is logged in when accessing the service providing device 5 using the terminal device 3. Alternatively, the "user ID 10" includes information on a cookie (HTTP cookie) managed for each web browser provided in the terminal device 3, an IP address of the terminal device 3, and the like.

「コンテンツID11」は、例えば、ウェブページに関連付けされたコンテンツである商品、サービスなどを識別する識別子である。例えば、ウェブページが「商品A」を購入するショッピングサイトである場合、このウェブページには、「商品A」を示すコンテンツIDが関連付けされている。また、例えば、ウェブページが「スポーツA」のニュースを提供するニュースサイトである場合、このウェブページには、「スポーツA」を示すコンテンツIDが関連付けされている。ウェブページとコンテンツとの関連付けを示すデータは、例えば、サービス提供装置5または外部の記憶装置に記憶される各種マスタに記憶されていてよい。 The "content ID 11" is, for example, an identifier that identifies a product, service, or the like that is content associated with a web page. For example, when the web page is a shopping site for purchasing "product A", the web page is associated with a content ID indicating "product A". Further, for example, when the web page is a news site that provides news of "sports A", the web page is associated with a content ID indicating "sports A". The data indicating the association between the web page and the content may be stored in, for example, various masters stored in the service providing device 5 or an external storage device.

ログデータLには、例えば、端末装置3がウェブページにアクセスする度に、一行のデータが追加される。ログデータLは、例えば、日毎、週毎などの任意のタイミングで作成されるテキストデータである。 For example, one line of data is added to the log data L each time the terminal device 3 accesses the web page. The log data L is text data created at an arbitrary timing such as every day or every week.

[データ管理装置]
データ管理装置7は、例えば、サービス提供装置5が提供するウェブページまたはアプリケーションプログラムによって参照されるアプリページのログデータLを取得し、取得したログデータLの管理を行う。
[Data management device]
The data management device 7 acquires, for example, the log data L of the web page provided by the service providing device 5 or the application page referenced by the application program, and manages the acquired log data L.

図3は、データ管理装置7によるデータ管理の概念を示す図である。データ管理装置7では、ログデータLに含まれるデータを3つの段階に分けて管理する。この3つの段階には、例えば、短期保管段階、長期保管段階、および無期限保管段階が含まれる。 FIG. 3 is a diagram showing the concept of data management by the data management device 7. The data management device 7 manages the data included in the log data L in three stages. These three stages include, for example, a short-term storage stage, a long-term storage stage, and an indefinite storage stage.

短期保管段階は、ログデータLそのものを保管する段階である。この短期保管段階では、例えば、過去1年間のログデータLが保管される。 The short-term storage stage is a stage in which the log data L itself is stored. In this short-term storage stage, for example, log data L for the past year is stored.

長期保管段階は、ログデータLに対して所定のサンプリング処理を行ったサンプリングログSLを保管する段階である。この長期保管段階では、例えば、上述の短期保管段階よりも長い過去3年間のサンプリングログSLが保管される。このサンプリングログSLには、例えば、ログデータLに含まれるデータに対して、「ユーザ」に関連する項目に着目してサンプリング処理を行った結果得られた「行動ログAL」と、「コンテンツ」に関連する項目に着目してサンプリング処理を行った結果得られた「コンテンツログCL」とが含まれる。 The long-term storage stage is a stage in which the sampling log SL obtained by performing a predetermined sampling process on the log data L is stored. In this long-term storage stage, for example, sampling log SL for the past three years, which is longer than the short-term storage stage described above, is stored. In this sampling log SL, for example, the "behavior log AL" and the "content" obtained as a result of sampling processing focusing on the items related to the "user" for the data included in the log data L. The "content log CL" obtained as a result of performing sampling processing focusing on the items related to is included.

無期限期保管段階は、ログデータLに対して所定の編集処理を行った編集データEDを保管する段階である。この無期限保管段階では、例えば、保管期間は設けられず、過去の全ての編集データEDが保管される。この編集データEDには、例えば、ログデータLに含まれるデータに対して、「ユーザ」に関連する項目に着目して編集処理を行った結果得られた「属性データAD」と、「コンテンツ」に関連する項目に着目して編集処理を行った結果得られた「メタデータMD」とが含まれる。 The indefinite period storage stage is a stage in which the edited data ED obtained by performing a predetermined editing process on the log data L is stored. In this indefinite storage stage, for example, no storage period is provided, and all past edited data EDs are stored. The edited data ED includes, for example, "attribute data AD" and "content" obtained as a result of editing the data included in the log data L by focusing on the items related to the "user". The "metadata MD" obtained as a result of performing the editing process focusing on the items related to the above is included.

図4は、データ管理装置7の機能構成の一例を示すブロック図である。データ管理装置7は、例えば、取得部20と、サンプリング部22と、編集部24と、無効化部26と、記憶部28とを備える。記憶部28は、例えば、ログデータ記憶部30と、サンプリングログ記憶部32と、編集データ記憶部34とを備える。データ管理装置7に含まれる各機能部は、複数の装置に分散されてもよい。例えば、サンプリング部22と他の機能部とは別体の装置によって実現されてもよい。記憶部28は、NAS(Network Attached Storage)などの記憶装置であってもよい。 FIG. 4 is a block diagram showing an example of the functional configuration of the data management device 7. The data management device 7 includes, for example, an acquisition unit 20, a sampling unit 22, an editing unit 24, an invalidation unit 26, and a storage unit 28. The storage unit 28 includes, for example, a log data storage unit 30, a sampling log storage unit 32, and an edit data storage unit 34. Each functional unit included in the data management device 7 may be distributed to a plurality of devices. For example, the sampling unit 22 and other functional units may be realized by a separate device. The storage unit 28 may be a storage device such as NAS (Network Attached Storage).

取得部20、サンプリング部22、編集部24、および無効化部26は、例えば、CPU(Central Processing Unit)などのプロセッサが、記憶部28に記憶されたプログラム(ソフトウェア)を実行することにより実現される。プログラムは、例えば、ネットワークNWを介してアプリケーションサーバからダウンロードされてもよいし、予めデータ管理装置7にプリインストールされていてもよい。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。 The acquisition unit 20, the sampling unit 22, the editing unit 24, and the invalidation unit 26 are realized by, for example, a processor such as a CPU (Central Processing Unit) executing a program (software) stored in the storage unit 28. NS. The program may be downloaded from the application server via the network NW, or may be pre-installed in the data management device 7 in advance. Further, these functional units may be realized by hardware such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), or cooperation between software and hardware. May be realized by.

記憶部28は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などによって実現されてよい。 The storage unit 28 may be realized by, for example, a RAM (Random Access Memory), a ROM (Read Only Memory), an HDD (Hard Disk Drive), a flash memory, or a hybrid storage device in which a plurality of these are combined. ..

取得部20は、ネットワークNWを介して、サービス提供装置5からログデータLを取得する。取得部20は、サービス提供装置5から取得したログデータLをログデータ記憶部30に記憶させる。 The acquisition unit 20 acquires the log data L from the service providing device 5 via the network NW. The acquisition unit 20 stores the log data L acquired from the service providing device 5 in the log data storage unit 30.

サンプリング部22は、取得部20によって取得されたログデータLに含まれるデータのうち、第1の期間が経過したログデータLに対してサンプリング処理を行い、サンプリングログSLを生成する。サンプリング部22は、生成したサンプリングログSLを、サンプリングログ記憶部32に記憶させる。例えば、サンプリング部22は、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、作成後1年以上経過したテキストデータに対してサンプリング処理を行う。 The sampling unit 22 performs sampling processing on the log data L for which the first period has passed among the data included in the log data L acquired by the acquisition unit 20, and generates a sampling log SL. The sampling unit 22 stores the generated sampling log SL in the sampling log storage unit 32. For example, when the log data L is daily text data created daily by the service providing device 5, the sampling unit 22 performs sampling processing on the text data one year or more after the creation.

(サンプリング処理)
サンプリング部22は、第1の期間が経過したログデータLに対してデータのサンプリング(データの間引き)を行う。このサンプリング処理は、例えば、「ユーザ」に関連する第1の項目に着目して行う第1のサンプリング処理と、「コンテンツ」に関連する第2の項目に着目して行う第2のサンプリング処理とを含む。
(Sampling process)
The sampling unit 22 performs data sampling (data thinning) on the log data L for which the first period has elapsed. This sampling process is, for example, a first sampling process focusing on the first item related to the "user" and a second sampling process focusing on the second item related to the "content". including.

「ユーザ」に関連する第1の項目に着目して行う第1のサンプリング処理は、例えば、ログデータLにおいて、「ユーザ」に関連する「ユーザID10」の項目のデータが存在するログデータを抽出するサンプリング処理、特定のフォーマットの「ユーザID10」のログデータを抽出するサンプリング処理などを含む。 In the first sampling process focusing on the first item related to the "user", for example, in the log data L, the log data in which the data of the item of the "user ID 10" related to the "user" exists is extracted. Sampling process to be performed, sampling process to extract log data of "user ID 10" in a specific format, and the like are included.

「コンテンツ」に関連する第2の項目に着目して行う第2のサンプリング処理は、例えば、ログデータLにおいて、特定のコンテンツと関連付けされた「コンテンツID11」を含むデータを抽出するサンプリング処理などを含む。 The second sampling process focusing on the second item related to the "content" includes, for example, a sampling process for extracting data including the "content ID 11" associated with the specific content in the log data L. include.

また、サンプリング部22には、サンプリング処理によりサンプリングされるログデータの割合(以下、「サンプリングレート」と呼ぶ)が設定されている。例えば、サンプリング部22は、サンプリングレートに基づいて、サンプリングログSLの量の調整を行う。なお、サンプリング部22は、上述の行単位でのログデータのサンプリングの他、列単位での項目毎のサンプリング処理を行ってもよい。 Further, the sampling unit 22 is set with a ratio of log data sampled by the sampling process (hereinafter, referred to as “sampling rate”). For example, the sampling unit 22 adjusts the amount of the sampling log SL based on the sampling rate. In addition to the above-mentioned sampling of log data in row units, the sampling unit 22 may perform sampling processing for each item in column units.

また、サンプリング部22は、ログデータLに対するサンプリング処理を段階的に行ってもよい。例えば、サンプリング部22は、第1の期間が経過したログデータLに対して第1のサンプリング処理を行った後、所定の期間が経過した後に第2のサンプリング処理を行ってもよい。さらに、サンプリング部22は、この第2のサンプリング処理が行われたデータに対して、所定の期間が経過した後に第3のサンプリング処理を行ってもよい。このような二段階以上のサンプリング処理により、サンプリングログSLの短期保管、中期保管、長期保管といった段階的な保管期間の設定が可能となる。 Further, the sampling unit 22 may perform sampling processing on the log data L step by step. For example, the sampling unit 22 may perform the first sampling process on the log data L for which the first period has elapsed, and then perform the second sampling process after the elapse of a predetermined period. Further, the sampling unit 22 may perform a third sampling process on the data on which the second sampling process has been performed after a predetermined period of time has elapsed. By such two or more stages of sampling processing, it is possible to set a stepwise storage period such as short-term storage, medium-term storage, and long-term storage of the sampling log SL.

編集部24は、取得部20によって取得されたログデータLに対して編集処理を行って編集データEDを生成する。編集部24は、生成した編集データEDを、編集データ記憶部34に記憶させる。例えば、編集部24は、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、このテキストデータに対して編集処理を行う。 The editing unit 24 performs an editing process on the log data L acquired by the acquisition unit 20 to generate the edited data ED. The editing unit 24 stores the generated editing data ED in the editing data storage unit 34. For example, if the log data L is daily text data created daily by the service providing device 5, the editorial unit 24 edits the text data.

(編集処理)
上述の編集処理は、例えば、「ユーザ」に関連する第1の項目に着目して行う第1の編集処理と、「コンテンツ」に関連する第2の項目に着目して行う第2の編集処理とを含む。
(Editing process)
The above-mentioned editing process is, for example, a first editing process focusing on the first item related to the "user" and a second editing process focusing on the second item related to the "content". And include.

「ユーザ」に関連する第1の項目に着目して行う第1の編集処理は、例えば、ログデータLにおいて、「ユーザ」に関連する「ユーザID10」の項目毎に、その他の項目を意味ベースの属性化したカラム(属性)に集約あるいは置き換え、その他の項目の並び替えおよび無効化、ログデータの並び替えなどを行い、目的に応じた所定の形式の編集データED(属性データAD)を生成する。 In the first editing process focusing on the first item related to the "user", for example, in the log data L, for each item of the "user ID 10" related to the "user", other items are semantically based. Aggregate or replace in the attributed columns (attributes) of, sort and invalidate other items, sort log data, etc., and generate edit data ED (attribute data AD) in a predetermined format according to the purpose. do.

「コンテンツ」に関連する第2の項目に着目して行う第2の編集処理は、例えば、ログデータLにおいて、「コンテンツ」に関連する「コンテンツID11」毎に、その他の項目を意味ベースの属性化したカラム(属性)に集約あるいは置き換え、その他の項目の並び替えおよび無効化、ログデータの並び替えなどを行い、目的に応じた所定の形式の編集データを生成する。 The second editing process focusing on the second item related to the "content" is, for example, in the log data L, for each "content ID 11" related to the "content", other items are meaning-based attributes. It aggregates or replaces the converted columns (attributes), sorts and invalidates other items, sorts log data, etc., and generates edit data in a predetermined format according to the purpose.

無効化部26は、ログデータ記憶部30に記憶されたログデータLに含まれるデータのうち、第1の期間が経過したデータを無効化する。ログデータLの無効化とは、例えば、ログデータ記憶部30からログデータLを物理的または論理的に削除することを言う。ここで無効化の対象となるログデータLは、サンプリング部22によるサンプリング処理の対象となったログデータである。第1の期間は、例えば、「1年」などに設定される。ここで、ログデータLがサービス提供装置5によって日毎に作成される日次のテキストデータである場合、無効化部26は、作成後1年以上経過したテキストデータを無効化する。 The invalidation unit 26 invalidates the data contained in the log data L stored in the log data storage unit 30 for which the first period has passed. Disabling the log data L means, for example, physically or logically deleting the log data L from the log data storage unit 30. Here, the log data L to be invalidated is the log data to be sampled by the sampling unit 22. The first period is set to, for example, "1 year". Here, when the log data L is daily text data created daily by the service providing device 5, the invalidation unit 26 invalidates the text data one year or more after the creation.

また、無効化部26は、サンプリングログ記憶部32に記憶されたサンプリングSLのうち、第2の期間が経過したサンプリングログSLを無効化する。この第2の期間は、上述の第1の期間よりも長い期間が設定される。第2の期間は、例えば、「3年」などに設定される。この場合、無効化部26は、サンプリング部22によって生成された後3年以上経過したサンプリングログSLを無効化する。なお、上記のようにサンプリング部22が段階的なサンプリング処理を行っている場合、無効化部26は、サンプリングログSLに対して個別に設定された期間に応じてサンプリングログS毎に上記の無効化処理を行ってよい。 Further, the invalidation unit 26 invalidates the sampling log SL in which the second period has elapsed among the sampling SLs stored in the sampling log storage unit 32. This second period is set to be longer than the first period described above. The second period is set to, for example, "3 years". In this case, the invalidation unit 26 invalidates the sampling log SL that has been generated by the sampling unit 22 for 3 years or more. When the sampling unit 22 performs the stepwise sampling process as described above, the invalidation unit 26 invalidates the above for each sampling log S according to the period individually set for the sampling log SL. You may perform the conversion process.

ログデータ記憶部30は、取得部20によって取得されたログデータLを記憶する。サンプリングログ記憶部32は、サンプリング部22によって生成されたサンプリングログSLを記憶する。編集データ記憶部34は、編集部24によって生成された編集データEDを記憶する。 The log data storage unit 30 stores the log data L acquired by the acquisition unit 20. The sampling log storage unit 32 stores the sampling log SL generated by the sampling unit 22. The editing data storage unit 34 stores the editing data ED generated by the editing unit 24.

[データ管理装置の処理]
次に、図5から図9を参照しながらデータ管理装置7の動作について説明する。図5は、データ管理装置7による処理の流れの一例を示すフローチャートである。図5のフローチャートに示す処理は、日次、週次、月次などの所定のタイミングで開始される。或いは、この処理は、データ管理装置7の利用者による指示に応じて開始されてもよい。
[Processing of data management device]
Next, the operation of the data management device 7 will be described with reference to FIGS. 5 to 9. FIG. 5 is a flowchart showing an example of the processing flow by the data management device 7. The process shown in the flowchart of FIG. 5 is started at a predetermined timing such as daily, weekly, or monthly. Alternatively, this process may be started in response to an instruction from the user of the data management device 7.

まず、取得部20は、ネットワークNWを介して、サービス提供装置5からログデータLを取得する(ステップS101)。取得部20は、取得したログデータLをログデータ記憶部30に記憶させる。 First, the acquisition unit 20 acquires the log data L from the service providing device 5 via the network NW (step S101). The acquisition unit 20 stores the acquired log data L in the log data storage unit 30.

次に、サンプリング部22によるサンプリング処理(ステップS103)および編集部24による編集処理(ステップS105)のいずれか一方、または双方が実施される。実施対象となる処理は、予め設定されたスケジュールまたは利用者による指示などに応じて決定される。 Next, either one or both of the sampling process (step S103) by the sampling unit 22 and the editing process (step S105) by the editing unit 24 are performed. The process to be executed is determined according to a preset schedule or an instruction by the user.

(サンプリング処理)
サンプリング部22は、取得部20によって取得されてログデータ記憶部30に記憶されているログデータLのうち、第1の期間が経過したログデータLを読み出してサンプリング処理を行い、サンプリングログSLを生成する(ステップS103)。サンプリング部22は、生成したサンプリングログSLをサンプリングログ記憶部32に記憶させる。
(Sampling process)
The sampling unit 22 reads out the log data L for which the first period has passed out of the log data L acquired by the acquisition unit 20 and stored in the log data storage unit 30, performs sampling processing, and performs sampling log SL. Generate (step S103). The sampling unit 22 stores the generated sampling log SL in the sampling log storage unit 32.

ここで、サンプリング部22は、ログデータLに含まれる項目のうち、「ユーザ」に関連する「ユーザID10」の項目に着目して第1のサンプリング処理を行い、サンプリングログSLとして行動ログAL(第1のサンプリングログ)を生成する。サンプリング部22は、例えば、ログデータLに含まれるデータのうち、ユーザID10の項目のデータが存在するデータをサンプリングする。 Here, the sampling unit 22 performs the first sampling process focusing on the item of the "user ID 10" related to the "user" among the items included in the log data L, and performs the first sampling process, and the action log AL (as the sampling log SL). First sampling log) is generated. For example, among the data included in the log data L, the sampling unit 22 samples the data in which the data of the item of the user ID 10 exists.

図6は、図2に示すログデータLから、ユーザID10の項目のデータが存在するログデータをサンプリングしたサンプリングログSLの一例を示す図である。図6に示すように、サンプリングログSLにおいては、ログデータLに含まれるデータのうち、3行目および6行目のユーザID10の項目のデータが存在しないデータは無効化されている。 FIG. 6 is a diagram showing an example of a sampling log SL in which log data in which the data of the item of the user ID 10 exists is sampled from the log data L shown in FIG. As shown in FIG. 6, in the sampling log SL, among the data included in the log data L, the data in which the data of the item of the user ID 10 in the third row and the sixth row does not exist is invalidated.

また、サンプリング部22は、ログデータLに含まれるデータの項目のうち、「コンテンツ」に関連する「コンテンツID11」の項目に着目して第2のサンプリング処理を行い、サンプリングログSLとしてコンテンツログCL(第2のサンプリングログ)を生成する。サンプリング部22は、例えば、ログデータLに含まれるデータのうち、コンテンツID11の項目のデータが特定の形式を有するデータをサンプリングする。 Further, the sampling unit 22 performs a second sampling process focusing on the item of the "content ID 11" related to the "content" among the items of the data included in the log data L, and performs the second sampling process, and the content log CL as the sampling log SL. (Second sampling log) is generated. The sampling unit 22 samples, for example, data included in the log data L in which the data of the item of the content ID 11 has a specific format.

図7は、図2に示すログデータLから、コンテンツID11の項目のデータが“00001”から“00099”の範囲であるログデータをサンプリングしたサンプリングログSLの一例を示す図である。図7に示すように、サンプリングログSLにおいては、ログデータLに含まれるデータのうち、コンテンツID11の項目のデータが“00001”から“00099”の範囲ではない5行目から7行目のデータは無効化されている。 FIG. 7 is a diagram showing an example of a sampling log SL obtained by sampling log data in which the data of the item of the content ID 11 is in the range of “00001” to “00099” from the log data L shown in FIG. As shown in FIG. 7, in the sampling log SL, among the data included in the log data L, the data of the item of the content ID 11 is not in the range of "00001" to "00099", and the data in the 5th to 7th lines. Has been disabled.

また、サンプリング部22は、予め設定されたサンプリングレートに基づいて、上述のサンプリングログSLに含まれるデータの量を調整する。例えば、サンプリングレートとして“30%”が設定されている場合、サンプリングログSLに含まれるデータのうち30%のデータが残るように調整を行う(70%のデータを無効化する)。 Further, the sampling unit 22 adjusts the amount of data included in the above-mentioned sampling log SL based on a preset sampling rate. For example, when "30%" is set as the sampling rate, adjustment is made so that 30% of the data included in the sampling log SL remains (70% of the data is invalidated).

(編集処理)
編集部24は、取得部20によって取得されてログデータ記憶部30に記憶されているログデータLに対して編集処理を行い、編集データEDを生成する(ステップS105)。編集部24は、生成した編集データEDを編集データ記憶部34に記憶させる。
(Editing process)
The editing unit 24 performs an editing process on the log data L acquired by the acquisition unit 20 and stored in the log data storage unit 30, and generates an edited data ED (step S105). The editing unit 24 stores the generated editing data ED in the editing data storage unit 34.

編集部24は、ログデータLに含まれる項目のうち、「ユーザ」に関連する「ユーザID10」の項目に着目して第1の編集処理を行い、編集データEDとして属性データAD(第1の編集データ)を生成する。編集部24は、マスターデータまたは所定の処理ロジックに従う第1の編集処理を行い、編集データEDを生成する。編集部24は、例えば、ログデータLにおいて、各ユーザIDと関連付けされた対象URLのリンク先のページが男性向けまたは女性向けであるかや、アクセス対象のコンテンツの傾向を集計して、ユーザIDをキーとして、その他の項目を「性別」などの意味ベースの属性化したカラム(属性)に集約あるいは置き換える。なお、「ユーザID」と「属性」の対応付けは、ユーザがウェブページの会員登録時に入力したデータを参照することで行われてよい。 The editorial unit 24 performs the first editing process focusing on the item of the "user ID 10" related to the "user" among the items included in the log data L, and performs the first editing process, and the attribute data AD (first) as the editing data ED. Edit data) is generated. The editing unit 24 performs the first editing process according to the master data or a predetermined processing logic, and generates the editing data ED. For example, in the log data L, the editorial unit 24 aggregates the tendency of the content to be accessed, whether the linked page of the target URL associated with each user ID is for men or women, and the user ID. Is used as a key, and other items are aggregated or replaced with a meaning-based attributed column (attribute) such as "gender". The correspondence between the "user ID" and the "attribute" may be performed by referring to the data input by the user when registering as a member of the web page.

図8は、図2に示すログデータLに対して第1の編集処理を行うことにより得られた編集データED(行動履歴データ)の一例を示す図である。図8では、「ユーザID」が“bbbbb”であるデータに対して、「属性1(性別)」が“男性”および「属性2(趣味)」が“スポーツ”が関連付けされたデータが示されている。このように「ユーザ」に関連する「ユーザID10」の項目に着目した編集処理を行うことデータ容量を圧縮することが可能である。また、このような編集データEDは、ユーザの行動の統計的なデータを把握することが容易である解析処理に適した形式となっている。なお、編集部24は、上記の「属性1(性別)」および「属性2(趣味)」に加えてあるいは代えて、年齢、アクセス頻度などの多様な属性情報を編集データEDに追加してよい。 FIG. 8 is a diagram showing an example of edit data ED (behavior history data) obtained by performing the first edit process on the log data L shown in FIG. 2. FIG. 8 shows data in which "attribute 1 (gender)" is "male" and "attribute 2 (hobby)" is "sports" with respect to data in which "user ID" is "bbbbbb". ing. In this way, it is possible to compress the data capacity by performing the editing process focusing on the item of the "user ID 10" related to the "user". Further, such edited data ED is in a format suitable for analysis processing in which it is easy to grasp statistical data of user behavior. The editorial unit 24 may add various attribute information such as age and access frequency to the editing data ED in addition to or in place of the above-mentioned "attribute 1 (gender)" and "attribute 2 (hobby)". ..

また、編集部24は、ログデータLに含まれる項目のうち、「コンテンツ」に関連する「コンテンツID11」の項目に着目して第2の編集処理を行い、編集データEDとしてメタデータMD(第2の編集データ)を生成する。編集部24は、マスターデータまたは所定の処理ロジックに従う第2の編集処理を行い、編集データEDを生成する。編集部24は、例えば、ログデータLに含まれるコンテンツIDをキーとして、その他の項目を「商品、サービス」などの意味ベースの属性化したカラム(属性)に集約あるいは置き換える。また、編集部24は、例えば、各コンテンツIDにアクセスしたユーザの傾向を集計して、「対象ユーザ」の属性を決定する。 Further, the editorial unit 24 performs a second editing process focusing on the item of the "content ID 11" related to the "content" among the items included in the log data L, and performs the second editing process, and the metadata MD (the first) as the editing data ED. 2 edit data) is generated. The editing unit 24 performs a second editing process according to the master data or a predetermined processing logic, and generates the editing data ED. For example, the editorial unit 24 aggregates or replaces other items with a meaning-based attributed column (attribute) such as "product, service" using the content ID included in the log data L as a key. In addition, the editorial unit 24, for example, aggregates the tendencies of users who have accessed each content ID, and determines the attribute of the "target user".

図9は、図2に示すログデータLに対して第2の編集処理を行うことにより得られた編集データED(アクセス履歴データ)の一例を示す図である。図9では、「コンテンツID」が“00001”であるデータに対して、「属性1(商品、サービス)」が“スポーツ”および「属性2(対象ユーザ)」が“男性”が関連付けされたデータが示されている。このように「コンテンツ」に関連する「コンテンツID11」の項目に着目した編集処理を行うことデータ容量を圧縮することが可能である。また、このような編集データEDは、コンテンツIDと関連付けされたウェブページに対するユーザのアクセス状況を把握することが容易である解析処理に適した形式となっている。なお、編集部24は、上記の「属性1(商品、サービス)」および「属性2(対象ユーザ)」に加えてあるいは代えて、アクセス数などの多様な属性情報を編集データEDに追加してよい。 FIG. 9 is a diagram showing an example of edit data ED (access history data) obtained by performing a second edit process on the log data L shown in FIG. 2. In FIG. 9, data in which "attribute 1 (product, service)" is associated with "sports" and "attribute 2 (target user)" is associated with "male" with respect to data in which "content ID" is "00001". It is shown. In this way, it is possible to compress the data capacity by performing the editing process focusing on the item of "content ID 11" related to "content". Further, such an edited data ED is in a format suitable for analysis processing, which makes it easy to grasp the user's access status to the web page associated with the content ID. In addition, the editorial unit 24 adds various attribute information such as the number of accesses to the edit data ED in addition to or instead of the above "attribute 1 (product, service)" and "attribute 2 (target user)". good.

なお、各ウェブページに表示された画像に関連する情報などがログデータ記憶部30に記憶されている場合、編集部24は、この画像の色などの特徴量や、画像の種類(風画像景なのか、人物画像なのか)などに基づいて、編集データED(メタデータMD)を生成してもよい。 When information related to the image displayed on each web page is stored in the log data storage unit 30, the editorial unit 24 determines the feature amount such as the color of the image and the type of the image (wind image scene). The edited data ED (metadata MD) may be generated based on (whether it is a person image or not).

次に、無効化部26は、ログデータ記憶部30に記憶されたログデータLのうち、第1の期間が経過したログデータLを無効化し、サンプリングログ記憶部32に記憶されたサンプリングSLのうち、第2の期間が経過したサンプリングログSLを無効化する(ステップS107)。以上により、本フローチャートの処理を終了する。 Next, the invalidation unit 26 invalidates the log data L whose first period has passed among the log data L stored in the log data storage unit 30, and the sampling SL stored in the sampling log storage unit 32. Of these, the sampling log SL for which the second period has elapsed is invalidated (step S107). This completes the processing of this flowchart.

以上において説明した実施形態によれば、容量を抑えつつ解析処理に適した形式でログデータを管理することが可能である。サンプリングログSLの容量は、ログデータLよりも小さいため、必要な情報を残しつつ記憶部に記憶されるデータの容量を低減させることができる。このサンプリングログSLは、ログデータLを用いて所望のモデルの生成する際に利用されることが可能である。また、編集データEDは、解析に適した形式を有しており、解析における処理装置の負荷を軽減するとともに、処理時間を短縮することも可能である。また、編集データEDは無効化されることはないため、容量を抑えつつ必要な情報を残すことが可能である。 According to the embodiment described above, it is possible to manage log data in a format suitable for analysis processing while suppressing the capacity. Since the capacity of the sampling log SL is smaller than that of the log data L, it is possible to reduce the capacity of the data stored in the storage unit while retaining the necessary information. This sampling log SL can be used when generating a desired model using the log data L. Further, the edited data ED has a format suitable for analysis, and it is possible to reduce the load on the processing device in the analysis and also to shorten the processing time. Further, since the edited data ED is not invalidated, it is possible to leave necessary information while suppressing the capacity.

なお、上述の実施形態においては、取得部20、サンプリング部22、および編集部24の各々が、ログデータL、サンプリングログSL、および編集データEDを、データ管理装置7内に設けられた記憶部28に記憶させる構成を説明した。しかしながら、取得部20、サンプリング部22、および編集部24の各々は、ログデータL、サンプリングログSL、および編集データEDを電気代の安価な地域(例えば、外国、地方など)に配置された記憶装置に送信するようにしてもよい。また、取得部20、サンプリング部22、および編集部24の各々は、ログデータL、サンプリングログSL、および編集データEDを磁気テープなどの外部の記憶媒体に出力してもよい。 In the above-described embodiment, each of the acquisition unit 20, the sampling unit 22, and the editing unit 24 stores the log data L, the sampling log SL, and the editing data ED in the data management device 7. The configuration to be stored in 28 was explained. However, each of the acquisition unit 20, the sampling unit 22, and the editing unit 24 stores the log data L, the sampling log SL, and the editing data ED in a region (for example, a foreign country, a region, etc.) where the electricity bill is cheap. It may be sent to the device. Further, each of the acquisition unit 20, the sampling unit 22, and the editing unit 24 may output the log data L, the sampling log SL, and the editing data ED to an external storage medium such as a magnetic tape.

また、上述の実施形態においては、サンプリング部22が、所定のサンプリングレートに基づいてサンプリング処理を行う構成を説明した。しかしながら、サンプリング部22が、記憶部28の空き容量を確認して、空き容量に応じてサンプリングレートを動的に変化させるようにしてもよい。 Further, in the above-described embodiment, the configuration in which the sampling unit 22 performs the sampling process based on a predetermined sampling rate has been described. However, the sampling unit 22 may check the free space of the storage unit 28 and dynamically change the sampling rate according to the free space.

また、上述の実施形態においては、サンプリング部22が、所定の「第1の期間」に基づいてサンプリング処理を行い、無効化部26が、所定の「第1の期間」および「第2の期間」に基づいて無効化処理を行う構成を説明した。しかしながら、サンプリング部22または無効化部26が、記憶部28の空き容量を確認して、空き容量に応じて「第1の期間」および「第2の期間」を動的に変化させるようにしてもよい。 Further, in the above-described embodiment, the sampling unit 22 performs sampling processing based on a predetermined "first period", and the invalidation unit 26 performs a predetermined "first period" and "second period". ], The configuration for performing invalidation processing was explained. However, the sampling unit 22 or the invalidation unit 26 confirms the free space of the storage unit 28 and dynamically changes the "first period" and the "second period" according to the free space. May be good.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.

1‥データ管理システム、3‥端末装置、5‥サービス提供装置、7‥データ管理装置、20‥取得部、22‥サンプリング部、24‥編集部、26‥無効化部、28‥記憶部、30‥ログデータ記憶部、32‥サンプリングログ記憶部、34‥編集データ記憶部、NW‥ネットワーク 1 Data management system, 3 Terminal equipment, 5 Service provision equipment, 7 Data management equipment, 20 Acquisition unit, 22 Sampling unit, 24 Editing department, 26 Invalidation unit, 28 Storage unit, 30 Log data storage unit, 32 sampling log storage unit, 34 editing data storage unit, NW network

Claims (9)

端末装置によるアクセスに応じて取得されるログデータを取得する取得部と、
前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成するサンプリング部と、
前記取得部によって取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記サンプリング部によって生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化する無効化部と
を備え、
前記第1のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第1の項目のデータが存在するデータを抽出する処理、または、前記第1の期間が経過したデータにおいて前記第1の項目のデータが特定のフォーマットのデータを抽出する処理であり、
前記第2のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第2の項目のデータが特定のコンテンツと関連付けされたデータを抽出する処理である、
データ管理装置。
An acquisition unit that acquires log data acquired in response to access by the terminal device,
Of the data included in the log data acquired by the acquisition unit, the data for which the first period has passed is subjected to the first sampling process focusing on the first item included in the log data. A sampling unit that generates a sampling log of 1 and performs a second sampling process focusing on the second item included in the log data to generate a second sampling log.
Of the data included in the log data acquired by the acquisition unit, the data for which the first period has elapsed is invalidated, and the first sampling log and the second sampling log generated by the sampling unit are used. out e Bei and said invalidating unit for invalidating the first sampling logs and second sampling logs longer second period of time than the first time period,
The first sampling process is a process of extracting data in which the data of the first item is present in the data for which the first period has elapsed, or a process of extracting the data in which the data of the first period has elapsed, or the first in the data for which the first period has elapsed. Item data is the process of extracting data in a specific format.
The second sampling process is a process of extracting data in which the data of the second item is associated with a specific content in the data after the first period has passed.
Data management device.
前記取得部によって取得された前記ログデータに含まれるデータに対して、前記第1の項目に着目した第1の編集処理を行って第1の編集データを生成するとともに前記第2の項目に着目した第2の編集処理を行って第2の編集データを生成する編集部をさらに備え、
前記第1の編集処理は、前記ログデータにおいて前記第1の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理であり、
前記第2の編集処理は、前記ログデータにおいて前記第2の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理である、
請求項1に記載のデータ管理装置。
The data included in the log data acquired by the acquisition unit is subjected to the first editing process focusing on the first item to generate the first editing data, and the second item is focused on. second editing process further example Bei editing unit for generating a second edited data by that,
The first editing process is a process of aggregating or replacing the data of other items for each data of the first item in the log data.
The second editing process is a process of aggregating or replacing the data of other items for each data of the second item in the log data.
The data management device according to claim 1.
前記第1の項目は、前記端末装置を利用するユーザを識別する項目であり、
前記第2の項目は、前記端末装置によってアクセスされた電子ページと関連付けされたコンテンツを識別する項目である、
請求項1または2に記載のデータ管理装置。
The first item is an item for identifying a user who uses the terminal device.
The second item is an item for identifying the content associated with the electronic page accessed by the terminal device.
The data management device according to claim 1 or 2.
前記無効化部は、前記編集部によって生成された第1の編集データおよび第2の編集データを無効化しない、
請求項2に記載のデータ管理装置。
The invalidation unit does not invalidate the first edit data and the second edit data generated by the editorial unit.
The data management device according to claim 2.
前記サンプリング部は、所定のサンプリングレートに基づいて、前記第1のサンプリング処理および第2のサンプリング処理を行う、
請求項1から4のいずれか一項に記載のデータ管理装置。
The sampling unit performs the first sampling process and the second sampling process based on a predetermined sampling rate.
The data management device according to any one of claims 1 to 4.
前記取得部、前記サンプリング部、および前記編集部の各々は、前記ログデータ、前記サンプリングログ、および前記編集データを、前記データ管理装置が配置された地域よりも電気代の安価な地域に配置された記憶装置に送信する、
請求項2に記載のデータ管理装置。
Each of the acquisition unit, the sampling unit, and the editing unit arranges the log data, the sampling log, and the editing data in an area where the electricity bill is cheaper than the area where the data management device is arranged. Send to the storage device,
The data management device according to claim 2.
端末装置によるアクセスに応じて取得されるログデータを取得する取得部と、
前記取得部によって取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1の編集処理を行って第1の編集データを生成するとともに前記ログデータに含まれる第2の項目に着目した第2の編集処理を行って第2の編集データを生成する編集部と
を備え、
前記第1の編集処理は、前記ログデータにおいて前記第1の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理であり、
前記第2の編集処理は、前記ログデータにおいて前記第2の項目のデータ毎に、その他の項目のデータを集約あるいは置き換える処理である、
データ管理装置。
An acquisition unit that acquires log data acquired in response to access by the terminal device,
Of the data included in the log data acquired by the acquisition unit, the data for which the first period has passed is subjected to the first editing process focusing on the first item included in the log data. e Bei and editing unit configured to generate a second editing data by the second editing process that focuses on the second item included in the log data to generate a first edited data,
The first editing process is a process of aggregating or replacing the data of other items for each data of the first item in the log data.
The second editing process is a process of aggregating or replacing the data of other items for each data of the second item in the log data.
Data management device.
コンピュータが、
端末装置によるアクセスに応じて取得されるログデータを取得し、
前記取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成し、
前記取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化し、
前記第1のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第1の項目のデータが存在するデータを抽出する処理、または、前記第1の期間が経過したデータにおいて前記第1の項目のデータが特定のフォーマットのデータを抽出する処理であり、
前記第2のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第2の項目のデータが特定のコンテンツと関連付けされたデータを抽出する処理である、
データ管理方法。
The computer
Acquires the log data acquired in response to access by the terminal device,
Of the acquired data included in the log data, the data for which the first period has passed is subjected to the first sampling process focusing on the first item included in the log data, and the first sampling is performed. A log is generated and a second sampling process focusing on the second item included in the log data is performed to generate a second sampling log.
Of the acquired data included in the log data, the data for which the first period has passed is invalidated, and the first sampling log and the second sampling log generated are said to have the first period. Disable the first sampling log and the second sampling log after a longer second period .
The first sampling process is a process of extracting data in which the data of the first item is present in the data for which the first period has elapsed, or a process of extracting the data in which the data of the first period has elapsed, or the first in the data for which the first period has elapsed. Item data is the process of extracting data in a specific format.
The second sampling process is a process of extracting data in which the data of the second item is associated with a specific content in the data after the first period has passed.
Data management method.
コンピュータに、
端末装置によるアクセスに応じて取得されるログデータを取得させ、
前記取得された前記ログデータに含まれるデータのうち第1の期間が経過したデータに対して、前記ログデータに含まれる第1の項目に着目した第1のサンプリング処理を行って第1のサンプリングログを生成するとともに前記ログデータに含まれる第2の項目に着目した第2のサンプリング処理を行って第2のサンプリングログを生成させ、
前記取得された前記ログデータに含まれるデータのうち前記第1の期間が経過したデータを無効化するとともに前記生成された前記第1のサンプリングログおよび第2のサンプリングログのうち前記第1の期間よりも長い第2の期間が経過した前記第1のサンプリングログおよび第2のサンプリングログを無効化させ、
前記第1のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第1の項目のデータが存在するデータを抽出する処理、または、前記第1の期間が経過したデータにおいて前記第1の項目のデータが特定のフォーマットのデータを抽出する処理であり、
前記第2のサンプリング処理は、前記第1の期間が経過したデータにおいて前記第2の項目のデータが特定のコンテンツと関連付けされたデータを抽出する処理である、
プログラム。
On the computer
Get the log data acquired according to the access by the terminal device,
Of the acquired data included in the log data, the data for which the first period has passed is subjected to the first sampling process focusing on the first item included in the log data, and the first sampling is performed. A log is generated and a second sampling process focusing on the second item included in the log data is performed to generate a second sampling log.
Of the acquired data included in the log data , the data for which the first period has passed is invalidated, and the first sampling log and the second sampling log generated are said to have the first period. Disable the first sampling log and the second sampling log after a longer second period .
The first sampling process is a process of extracting data in which the data of the first item is present in the data for which the first period has elapsed, or a process of extracting the data in which the data of the first period has elapsed, or the first in the data for which the first period has elapsed. Item data is the process of extracting data in a specific format.
The second sampling process is a process of extracting data in which the data of the second item is associated with a specific content in the data after the first period has passed.
program.
JP2017084326A 2017-04-21 2017-04-21 Data management equipment, data management methods, and programs Active JP6971053B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017084326A JP6971053B2 (en) 2017-04-21 2017-04-21 Data management equipment, data management methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017084326A JP6971053B2 (en) 2017-04-21 2017-04-21 Data management equipment, data management methods, and programs

Publications (2)

Publication Number Publication Date
JP2018181234A JP2018181234A (en) 2018-11-15
JP6971053B2 true JP6971053B2 (en) 2021-11-24

Family

ID=64275604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017084326A Active JP6971053B2 (en) 2017-04-21 2017-04-21 Data management equipment, data management methods, and programs

Country Status (1)

Country Link
JP (1) JP6971053B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505107B (en) * 2021-05-26 2023-11-10 中国再保险(集团)股份有限公司 Typhoon file compression method and system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5477057B2 (en) * 2010-03-04 2014-04-23 日本電気株式会社 Log management method, log management program, and log management apparatus
US20120030018A1 (en) * 2010-07-28 2012-02-02 Aol Inc. Systems And Methods For Managing Electronic Content
JP2012088843A (en) * 2010-10-18 2012-05-10 Nec Corp Filtering rule determination system, filtering rule determination method, filtering method, and program
JP6547331B2 (en) * 2015-02-26 2019-07-24 富士ゼロックス株式会社 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM
JP2017045217A (en) * 2015-08-26 2017-03-02 株式会社Screenホールディングス Log management device, log management method, and log management program

Also Published As

Publication number Publication date
JP2018181234A (en) 2018-11-15

Similar Documents

Publication Publication Date Title
US11451856B2 (en) Providing visual content editing functions
US20230208937A1 (en) Methods and apparatus to supplement web crawling with cached data from distributed devices
JP6185186B2 (en) Method and system for providing code scan result information
CN105095470B (en) Data recommendation method and device for application program
US20150081431A1 (en) Posterior probability calculating apparatus, posterior probability calculating method, and non-transitory computer-readable recording medium
US20150262238A1 (en) Techniques for Topic Extraction Using Targeted Message Characteristics
US20170236108A1 (en) Creative work registry independent server
WO2020253364A1 (en) Big data analytics-based information pushing method, apparatus, and device, and storage medium
EP2802979A2 (en) Processing store visiting data
Azhar et al. Forensic analysis of secure ephemeral messaging applications on android platforms
CN110928917A (en) Target user determination method and device, computing equipment and medium
US9454568B2 (en) Method, apparatus and computer storage medium for acquiring hot content
JP2008097259A (en) Business support system and method using access analysis
JP6971053B2 (en) Data management equipment, data management methods, and programs
JP6036331B2 (en) Management method, management device, and management program
KR101105798B1 (en) Apparatus and method refining keyword and contents searching system and method
KR101471522B1 (en) System for providing personal information based on generation and consumption of content
KR101862178B1 (en) Method for customized posting and server implementing the same
CN109284429B (en) News data pushing method, device, system and storage medium
US20200142937A1 (en) Enrichment of User Specific Information
CN115544994B (en) Data pushing method, device, electronic equipment and readable storage medium
CN102184175A (en) Method used for analyzing sex of accessor in network
Ruoxin et al. Research on the Application of Big Data in Newspaper Industry
CN114764722A (en) Information recommendation method and device, computer equipment and storage medium
JP2020173593A (en) Sns analyzing system, sns analyzing method and program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211101

R150 Certificate of patent or registration of utility model

Ref document number: 6971053

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350