JP2018195027A - 分析システム、分析方法及び分析プログラム - Google Patents

分析システム、分析方法及び分析プログラム Download PDF

Info

Publication number
JP2018195027A
JP2018195027A JP2017097666A JP2017097666A JP2018195027A JP 2018195027 A JP2018195027 A JP 2018195027A JP 2017097666 A JP2017097666 A JP 2017097666A JP 2017097666 A JP2017097666 A JP 2017097666A JP 2018195027 A JP2018195027 A JP 2018195027A
Authority
JP
Japan
Prior art keywords
terminal
information
unit
log
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2017097666A
Other languages
English (en)
Inventor
大久保 貴博
Takahiro Okubo
貴博 大久保
片岡 正弘
Masahiro Kataoka
正弘 片岡
康弘 露木
Yasuhiro Tsuyuki
康弘 露木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017097666A priority Critical patent/JP2018195027A/ja
Priority to US15/980,205 priority patent/US20180336232A1/en
Publication of JP2018195027A publication Critical patent/JP2018195027A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】サーバでの分析負荷を抑えつつ、端末それぞれに関する分析を行うこと。
【解決手段】実施形態の分析システム1は、端末10とサーバ20とを有する。端末10は、収集部15aと、符号化部15bとを有する。収集部15aは、該端末10の操作のログまたは端末10で取得可能なセンシング情報のログを収集する。符号化部15bは、ログを符号化した符号化情報または符号化情報を用いたログに含まれる単語の該ログにおける出現位置を示す転置インデックスを作成する。サーバ20は、取得部25aと、分析部25bとを有する。取得部25aは、端末10から符号化情報または転置インデックスを取得し、符号化情報を取得した場合には転置インデックスを作成する。分析部25bは、転置インデックスを用いて端末10に関する情報を分析する。
【選択図】図2

Description

本発明は、分析システム、分析方法及び分析プログラムに関する。
従来から、モバイル端末におけるアプリケーション操作等のログをサーバで収集し分析することにより、モバイル端末を使用するユーザの趣味や趣向を特定し、このユーザに特化したおすすめ情報を作成して配信するシステムが知られている。このようなおすすめ情報は頻繁に更新される。
例えば、ユーザがパソコンのWeb通販サービスにおいて様々な商品を参照した場合に、デスクトップあるいはノート等の本体の選択結果をもとに、関連するソフトウェア、周辺機器等を含むおすすめ情報を表示する。
近年では、モバイル端末が転送負荷を軽減するためにログを圧縮してサーバに送信し、サーバが圧縮されたログをもとに分析する技術が期待されている。例えば、圧縮されたファイルを部分的に解凍する技術や、効率よくログを検索する技術が開示されている。
また、サーバは、ログを分析する際にログを検索するために、MapReduce等のプログラミングモデルを用いて、ログに含まれる単語と各単語を含む文書IDとその単語の位置とを示す転置インデックスを作成する。具体的に、図13を参照してMapReduceによる転置インデックスの作成について説明する。図13は、従来の転置インデックスの作成を説明するための説明図である。サーバは、図13に例示するように、単語ごとに区切られた文書に含まれる単語をリストアップし、各単語について含まれている文書の文書IDとその文書内での位置とを対応づけて、転置インデックスを作成する。その際、図13に例示するように、転置インデックスは、文書を単語に区切り(パス1)、単語リストを作成し(パス2)、重複を統合する(パス3)という3パス処理で作成される。図13に示す例では、例えば、「This」という単語が文書Aの0番目と文書Bの0番目との2箇所に出現したことが示されている。
特開2012−141830号公報 国際公開第2013/136418号
しかしながら、モバイル端末において、収集したログを圧縮する場合、従来のZIP等の圧縮フォーマットでは、一度に大量のログを圧縮しなければ、圧縮率を安定して高めることができない。また、モバイル端末において圧縮対象のログを一度に大量に圧縮すると、モバイル端末のメモリやストレージ資源を圧迫してしまう。また、サーバで受信したログの検索および分析に必要な転置インデックスを作成するためには、従来のフォーマットで圧縮されたログを伸長しなければならず、処理コストが高くなってしまう。
1つの側面では、本発明は、サーバでの分析負荷を抑えつつ、端末それぞれに関する分析を行うことができる分析システム、分析方法及び分析プログラムを提供することを目的とする。
一態様では、分析システムは、端末とサーバとを有する。端末は、収集部と、符号化部とを有する。収集部は、該端末の操作のログまたは該端末で取得可能なセンシング情報のログを収集する。符号化部は、前記ログを符号化した符号化情報または前記符号化情報を用いた前記ログに含まれる単語の該ログにおける出現位置を示すインデックス情報を作成する。サーバは、取得部と、分析部とを有する。取得部は、前記端末から前記符号化情報または前記インデックス情報を取得し、前記符号化情報を取得した場合には前記インデックス情報を作成する。分析部は、前記インデックス情報を用いて前記端末に関する情報を分析する。
一実施形態によれば、サーバでの分析負荷を抑えつつ、端末それぞれに関する分析を行うことができる。
図1は、実施例1の分析処理を説明するための説明図である。 図2は、実施例1に係る分析システムの構成を示す機能ブロック図である。 図3は、ログを例示する図である。 図4は、実施例1に係る符号化部の処理を説明するための説明図である。 図5は、実施例1に係る符号化部の処理を説明するための説明図である。 図6は、分析部の処理を説明するための説明図である。 図7は、実施例1に係る分析処理の流れを示す図である。 図8は、従来の分析処理の流れを示す図である。 図9は、実施例2に係る分析処理の流れを示す図である。 図10は、実施例3に係る分析処理の流れを示す図である。 図11は、応用例に係る転置インデックスを説明するための説明図である。 図12は、分析プログラムを実行するコンピュータのハードウェア構成例を示す図である。 図13は、従来の転置インデックスの作成を説明するための説明図である。
以下に添付図面を参照して本願に係る分析システム、分析方法及び分析プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
[分析処理の説明]
図1は、実施例1の分析処理を説明するための説明図である。図1に示すように、本実施例において、端末は、ユーザによる操作や、端末で取得可能なセンシング情報等のログを収集して蓄積し、一定間隔で蓄積したログを圧縮してサーバに送信する。また、端末は、ログを圧縮する際にあわせて1パスの処理でインデックス情報の一例である転置インデックスを作成し、サーバに送信する。サーバは、受信した圧縮ログを蓄積し、受信した転置インデックスを用いて、蓄積した圧縮ログを伸長せずに検索し分析することにより、負荷を抑えてユーザに対するおすすめ情報を作成する。
[システム構成]
図2は、実施例1に係る分析システム1の構成を示す機能ブロック図である。図2に示すように、分析システム1は、端末10と、サーバ20とを有し、LAN(Local Area Network)やインターネット等のネットワーク30を介して相互に通信可能に接続されている。
端末10は、例えば、ネットワーク30に無線で接続されるモバイル端末で実現され、図示を省略するが複数存在し、それぞれが異なるユーザに使用される。この端末10は、後述する分析処理により、ユーザによるアプリケーション等の操作入力を受け付けて、操作のログを収集して蓄積し、蓄積したログを圧縮してサーバ20に送信する。また、端末10は、サーバ20が作成したおすすめ情報をユーザに対して提示する。なお、端末10は、ネットワーク30を介さずに、サーバ20とBluetooth(登録商標)等の無線通信により直接通信してもよい。また、端末10はモバイル端末に限定されず、ネットワーク30に有線で接続されてもよい。
サーバ20は、ユーザによる端末10の操作等のログを取得し、これを分析してログのユーザに対するおすすめ情報を作成して該当の端末10に配信するサーバ装置である。本実施例のサーバ20は、後述する分析処理によって、端末10から圧縮されたログを取得して、ログを分析する際の検索に利用する転置インデックスを作成する。
[端末の構成]
一実施形態として、端末10は、上記の分析処理がパッケージソフトウェアやオンラインソフトウェアとして提供される分析プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、端末10は、ユーザが使用する情報処理装置に上記の分析プログラムをインストールさせることにより実装することができる。この他、端末10は、上記のユーザが使用する情報処理装置などをクライアント端末として収容するサーバ装置に上記の分析プログラムをインストールさせることにより実装することができる。この場合、端末10は、売上管理等の業務システムの一部として実装されることとしてもよいし、上記の分析処理により実現されるサービスをアウトソーシングによって提供するクラウドとして実装することとしてもかまわない。
図2には、符号11〜符号15に対応する機能部が示されているが、これはあくまで一例に過ぎず、図示された機能部の一部を省略、あるいは、図示以外の機能部が端末10に備わることを妨げない。例えば、ユーザが使用する情報処理装置が端末10として実装される場合、パーソナルコンピュータや携帯端末装置などが標準装備する機能部、例えば入力デバイス、画像または音声の出力デバイス、通信インタフェースなどの他、スキャナ等の読取部などの機能部を有することとしてもかまわない。また、上記の業務システムの一部として端末10が実装される場合、後述する単語コード割り当て部14a、圧縮ログ14bおよび転置インデックス14c以外のデータを管理するデータベースが端末10の記憶部14、例えば主記憶装置や補助記憶装置などに記憶されることとしてもよい。
図2に示すように、端末10は、あくまで一例として、通信部11と、入力部12と、出力部13と、記憶部14と、制御部15とを有する。なお、図2には、データの入出力の関係を表す実線が示されているが、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、または、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。
通信部11は、ネットワーク30を介して、サーバ20等の外部装置と制御部15とのデータ通信を制御する処理部である。通信部11は、例えば、NIC(Network Interface Card)等の通信装置に対応する。
入力部12は、端末10に各種の情報を入力するための入力装置である。例えば、入力部12は、マウスやキーボード、タッチパネル、入力ボタン等に対応する。
出力部13は、各種情報を表示する表示デバイスである。例えば、出力部13は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)等の表示デバイスに対応する。
記憶部14は、制御部15で実行されるOS(Operating System)やアプリケーションプログラム等の各種プログラムに用いられるデータを記憶するデバイスである。例えば、記憶部14は、端末10における主記憶装置として実装される。例えば、記憶部14には、各種の半導体メモリ素子、例えばRAM(Random Access Memory)やフラッシュメモリを採用できる。また、記憶部14は、補助記憶装置として実装することもできる。この場合、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)等を採用できる。
記憶部14は、制御部15で実行されるプログラムに用いられるデータの一例として、後述する単語コード割り当て部14a、圧縮ログ14bおよび転置インデックス14cを記憶する。このデータ以外にも、記憶部14には、他の電子データを併せて記憶することもできる。
制御部15は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。
例えば、制御部15は、中央処理装置、いわゆるCPU(Central Processing Unit)として実装される。制御部15は、必ずしも中央処理装置として実装されずともよく、MPU(Micro Processing Unit)やDSP(Digital Signal Processor)として実装されることとしてもよい。このように、制御部15は、プロセッサとして実装されればよく、その種別が汎用型か特化型であるかは問われない。また、制御部15は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードワイヤードロジックによっても実現できる。
制御部15は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部15は、図2に示すように、収集部15aと、符号化部15bとを有する。
収集部15aは、端末10の操作のログや端末10で取得可能なセンシング情報のログを収集する処理部である。例えば、収集部15aは、ユーザごとに商品の購入やサイトの閲覧等のログを収集する。図3は、収集部15aが収集するログを例示する図である。図3には、例えば、ユーザを識別するユーザIDが「userB」であるユーザが、2016年2月1日10時10分に商品を識別するコンテンツIDが「c123」である商品を「購入」する操作を行ったというログが例示されている。このように、本実施例において収集されるログは、端末操作日時、ユーザID、コンテンツID、および操作等の項目ごとに区切られ、各項目に対応する内容を表す単語が記述されたものである。
符号化部15bは、収集部15aが収集したログを符号化した符号化情報を作成する処理部である。例えば、符号化部15bは、符号化情報として、後述する単語コード割り当て部14aを用いてログを圧縮する。また、符号化部15bは、単語コード割り当て部14aと圧縮したログとを用いて、転置インデックスを作成する。なお、符号化部15bは、圧縮したログを記憶部14の圧縮ログ14bに格納する。また、符号化部15bは、作成した転置インデックスを記憶部14の転置インデックス14cに格納する。
図4および図5は、符号化部15bの処理を説明するための説明図である。まず、符号化部15bは、図4に例示するように、ログの項目ごとに区切られている単語のそれぞれを、記憶部14に格納されている単語コード割り当て部14aを用いて符号化する。ここで、単語コード割り当て部14aは、図4に例示するように、単語と各単語に割り当てるバイト数の小さいコードとを対応付けた情報である。単語コード割り当て部14aは、予め登録されている静的コード辞書と逐次登録される動的コード辞書とで構成される。すなわち、ログ中に出現する頻度が高い単語に対しては、予め1〜2バイトのコードが割り当てられ、静的コード辞書に登録される。一方、ログへの出現頻度の低い単語に対しては、出現した際に2〜3バイトのコードが割り当てられ、動的コード辞書に登録される。図4には、例えば「購入」という単語に対して、「25h」というコードが予め静的コード辞書に登録されていることが示されている。
また、本実施例において、符号化情報は、ログに含まれる単語の該ログにおける出現位置を示す転置インデックスを含む。すなわち、符号化部15bは、図5に例示するように、単語コード割り当て部14aと圧縮ログ14bとを用いて、単語と各単語のログ中の出現位置とを対応づけたビットマップ型転置インデックスを作成する。図5に例示する転置インデックスにおいては、縦軸方向は単語コード割り当て部14aの縦軸方向の位置に対応する各単語と同一の単語を示し、縦軸方向の各位置に対応する各単語のログ中の出現位置を示すビットマップが記述されている。すなわち、転置インデックスは、単語コード割り当て部14aの静的コード辞書に対応した静的コードインデックスと、動的コード辞書に対応した動的コードインデックスとで構成される。なお、出現位置は、1ログ中の出現位置で表されてもよいし、複数のログ群中の出現位置で表されてもよい。
このように、本実施例において、符号化部15bは、ログの圧縮を行う処理と同時に、1パス処理で転置インデックスを作成することができる。また、ログが追加された場合に、符号化部15bは、転置インデックスを再作成する必要がないので、容易に転置インデックスを追加できる。
[サーバの構成]
一実施形態として、サーバ20は、上記の分析処理がパッケージソフトウェアやオンラインソフトウェアとして提供される分析プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、サーバ20は、通販サイトの管理者が使用する情報処理装置に上記の分析プログラムをインストールさせることにより実装することができる。この他、サーバ20は、上記の通販サイトの管理者が使用する情報処理装置などをクライアント端末として収容するサーバ装置に上記の分析プログラムをインストールさせることにより実装することができる。この場合、サーバ20は、売上管理などの業務システムの一部として実装されることとしてもよいし、上記の分析処理により実現されるサービスをアウトソーシングによって提供するクラウドとして実装することとしてもかまわない。
図2の説明に戻る。図2には、符号21〜符号25に対応する機能部が示されているが、これはあくまで一例に過ぎず、図示された機能部の一部を省略、あるいは、図示以外の機能部がサーバ20に備わることを妨げない。例えば、通販サイトの管理者が使用する情報処理装置がサーバ20として実装される場合、パーソナルコンピュータや携帯端末装置などが標準装備する機能部、例えば入力デバイス、画像または音声の出力デバイス、通信インタフェースなどの他、スキャナ等の読取部などの機能部を有することとしてもかまわない。また、上記の業務システムの一部としてサーバ20が実装される場合、後述する単語コード割り当て部24a、圧縮ログ24bおよび転置インデックス24c以外のデータを管理するデータベースがサーバ20の記憶部24、例えば主記憶装置や補助記憶装置などに記憶されることとしてもよい。
図2に示すように、サーバ20は、あくまで一例として、通信部21と、入力部22と、出力部23と、記憶部24と、制御部25とを有する。なお、図2には、データの入出力の関係を表す実線が示されているが、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、または、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。
通信部21は、ネットワーク30を介して、端末10等の外部装置と制御部25とのデータ通信を制御する処理部である。通信部21は、例えば、NIC等の通信装置に対応する。
入力部22は、サーバ20に各種の情報を入力するための入力装置である。例えば、入力部22は、マウスやキーボード、タッチパネル、入力ボタン等に対応する。
出力部23は、各種情報を表示する表示デバイスである。例えば、出力部23は、LCDやCRT等の表示デバイスに対応する。
記憶部24は、制御部25で実行されるOSやアプリケーションプログラム等の各種プログラムに用いられるデータを記憶するデバイスである。例えば、記憶部24は、サーバ20における主記憶装置として実装される。例えば、記憶部24には、各種の半導体メモリ素子、例えばRAMやフラッシュメモリを採用できる。また、記憶部24は、補助記憶装置として実装することもできる。この場合、HDD、光ディスクやSSD等を採用できる。
記憶部24は、制御部25で実行されるプログラムに用いられるデータの一例として、後述するように、単語コード割り当て部24a、圧縮ログ24bおよび転置インデックス24cを記憶する。このデータ以外にも、記憶部24には、他の電子データを併せて記憶することもできる。
制御部25は、各種のプログラムや制御データを格納する内部メモリを有し、これらによって種々の処理を実行するものである。
例えば、制御部25は、中央処理装置、いわゆるCPUとして実装される。制御部25は、必ずしも中央処理装置として実装されずともよく、MPUやDSPとして実装されることとしてもよい。このように、制御部25は、プロセッサとして実装されればよく、その種別が汎用型か特化型であるかは問われない。また、制御部25は、ASICやFPGA等のハードワイヤードロジックによっても実現できる。
制御部25は、各種のプログラムを実行することによって下記の処理部を仮想的に実現する。例えば、制御部25は、図2に示すように、取得部25aと、分析部25bとを有する。
取得部25aは、端末10から符号化情報を取得する処理部である。例えば、取得部25aは、符号化情報として、圧縮されたログと、単語コード割り当て部と、作成された転置インデックスとを端末10から取得して、記憶部24に格納する。例えば、取得部25aは、取得した単語コード割り当て部を記憶部24の単語コード割り当て部24aに蓄積し、圧縮されたログを圧縮ログ24bに蓄積し、転置インデックスを転置インデックス24cに蓄積する。また、取得部25aは、取得した転置インデックスを用いて記憶部24に蓄積されている転置インデックス24cを更新する。ここで、圧縮ログ24bと対応する単語コード割り当て部24aおよび転置インデックス24cとは互いの識別情報が付与される等の方式により対応付けされている。
分析部25bは、取得された符号化情報を用いて端末に関する情報を分析する処理部である。例えば、分析部25bは、端末を操作するユーザに関する、趣味、習慣、所有物、行動、端末の利用の仕方、生活環境などの趣向を分析する。その場合に、分析部25bは、協調フィルタリングを用いて、ユーザの行動を示す操作のログから商品の参照の回数や頻度や購入数などを算出し、このユーザと他のユーザの行動との類似度を算出する。また、分析部25bは、行動の類似度が高い他のユーザが購入した商品の情報をおすすめ情報として作成し、分析対象のユーザの端末10に提示する。
図6は、分析部25bの処理を説明するための説明図である。図6に示す例では、分析部25bは、協調フィルタリングを用いて、userAとuserBとがともにc123およびc456を購入していることから、userAとuserBとの行動の類似度が高いと判定する。そこで、分析部25bは、userAが購入したc789の情報をuserBへのおすすめ情報として、userBが使用する端末10に配信して出力部13に表示させる。
[処理の流れ]
図7は、実施例1に係る分析処理の流れを示す図である。一例として、図7に示す分析処理は、処理開始を指示する操作入力があった場合等に起動される。まず、端末10の収集部15aが、ユーザによる操作のログを収集する。次に、符号化部15bがログを符号化した符号化情報として、単語コード割り当て部14aを用いてログを圧縮し(ステップS1)、記憶部14の圧縮ログ14bに保存する(ステップS2)。また、符号化部15bは、ステップS1の処理にて、同時に単語コード割り当て部14aを用いて転置インデックスを作成し、転置インデックス14cに保存する。また、符号化部15bは、一定の間隔で、圧縮ログと対応する単語コード割り当て部と転置インデックスとをサーバ20に転送する(ステップS3)。
サーバ20においては、取得部25aは、端末10から転送された圧縮ログ、転置インデックスおよび単語コード割り当て部を取得して、記憶部24に蓄積する(ステップS4)。また、分析部25bが、圧縮ログ24bに蓄積された圧縮ログを、対応する転置インデックスおよび単語コード割り当て部を用いて検索し、端末10を操作するユーザの趣向を分析する(ステップS5)。また、分析部25bは、分析に基づいてこのユーザへのおすすめ情報を作成し(ステップS6)、端末10に配信する(ステップS7)。おすすめ情報を受信した端末10は、出力部13におすすめ情報を表示させる。これにより、一連の分析処理が終了する。
[効果の一側面]
上述してきたように、本実施例に係る分析システム1は、端末10とサーバ20とを有する。端末10は、収集部15aと、符号化部15bとを有する。収集部15aは、該端末10の操作のログや端末10で取得可能なセンシング情報のログを収集する。符号化部15bは、ログを符号化した符号化情報を作成する。本実施例において、符号化情報は、ログに含まれる単語の該ログにおける出現位置を示す転置インデックスを含む。サーバ20は、取得部25aと、分析部25bとを有する。取得部25aは、端末10から符号化情報を取得する。分析部25bは、取得された符号化情報を用いて端末10を操作するユーザに関する趣向を分析する。
ここで、図8は従来の分析処理の流れを示す図である。図8に例示するように、従来の分析処理において、端末は、収集したログをサーバに転送する処理の負荷を軽減するために、ログをZIP等のフォーマットで圧縮する(ステップS1)。サーバは、取得したログを分析する際に検索するために、MapReduce等で転置インデックスを作成する(図13参照)。MapReduceで転置インデックスを作成する際、サーバは、圧縮ログを伸長しなければならず(ステップS41)、また、上述したように3パスの処理が必要となる。
これに対し、本実施例の分析システム1は、1パスの処理で転置インデックスを作成することができる。また、分析システム1は、端末10から取得した圧縮ログを伸長することなくそのままの形式で用いて検索しユーザの趣向を分析することができる。したがって、本実施例の分析システム1によれば、モバイル端末10で収集されたログを、サーバ20で負荷を抑えて分析することができる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。なお、以下では、上述した実施例1と異なる点について説明する。
上述した実施例1では、端末10の符号化部15bが、ログを圧縮する際に同時に転置インデックスを作成し、圧縮ログと転置インデックスとを含む符号化情報をサーバ20に転送していたが、これに限定されない。例えば、符号化部15bは符号化情報として圧縮ログのみを作成してもよい。図9は、実施例2に係る分析処理の流れを示す図である。本実施例において、符号化情報とは単語コード割り当て部14aを用いて圧縮されたログを意味する。この場合に、図9に示すように、端末10の符号化部15bは、圧縮ログと対応する単語コード割り当て部とをサーバ20に転送する(ステップS3)。そして、サーバ20の取得部25aが、このように転置インデックスを含まない符号化情報を取得した場合に、受信した圧縮ログと対応する単語コード割り当て部とを用いて転置インデックスを作成する(ステップS4)。
このように、サーバ20が転置インデックスを作成することにより、端末10からサーバ20への情報の転送負荷を軽減できる。仮に、サーバ20の分析部25bがログの分析を行う際に転置インデックスを必要としない場合には、本実施例は好適である。
上述した実施例1および2の他、端末10の符号化部15bは、符号化情報として転置インデックスをサーバ20に転送してあってもよい。図10は、実施例3に係る分析処理の流れを示す図である。本実施例において、符号化情報とは、単語コード割り当て部14aを付帯した転置インデックスを意味する。この場合に、端末10の符号化部15bは、ログを圧縮する際に(ステップS1)、同時に単語コード割り当て部14aを用いて転置インデックスを作成し、転置インデックスと対応する単語コード割り当て部とをサーバ20に転送する(ステップS31)。また、サーバ20の取得部25aが、受信した転置インデックスと単語コード割り当て部とを用いて圧縮ログを作成すなわち復元することができる。
このように、端末10がサーバ20に符号化情報として転置インデックスと対応する単語コード割り当て部を転送し、圧縮ログを転送しないようにすることにより、端末10からサーバ20への情報の転送負荷を大幅に軽減できる。仮に、サーバ20がログそのものを用いずに転置インデックスのみを用いて分析を行う場合には、本実施例は好適である。
[応用例]
端末10の符号化部15bが、該端末10の位置等によるネットワークへの接続状態またはストレージ残量、バッテリー等のリソースの状況に応じて、転置インデックスを作成するか否かを切り替えてもよい。例えば、ネットワークの環境が良い場合には、符号化部15bは、転置インデックスを作成せずに、圧縮ログおよび単語コード割り当て部をサーバ20に転送することにより、端末10の負荷を低減させることができる。また、ネットワークの環境が悪い場合には、符号化部15bは、転置インデックスを作成してサーバ20に転送することにより、転置インデックスの更新頻度の低下を防止することができる。
上述した実施例1〜3で作成されたビットマップ型転置インデックスを、さらに圧縮してもよい。図11は、応用例にかかる転置インデックスを説明するための説明図である。図11に例示するように、例えば、ビットマップ型転置インデックスを、隣り合う2つの素数を底としてハッシュ化することにより、サイズを縮小させることができる。図11には、底を29としてハッシュ化したものと底を31としてハッシュ化したものとのサイズを縮小した2つの転置インデックスを生成することが例示されている。このようなハッシュ化を、ビットマップ型転置インデックスの横軸方向の単語の出現位置について、あるいは、縦軸方向の単語(単語を識別する情報)について行うことにより、動的コードインデックスが増加してもメモリを圧迫することなく容易に追加することができる。
[分析プログラム]
上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図12を用いて、上記の実施例と同様の機能を有する分析プログラムを実行するコンピュータの一例について説明する。
図12は、分析プログラムを実行するコンピュータのハードウェア構成例を示す図である。図12に示すように、コンピュータ100は、入力装置110と、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110〜180の各部はバス140を介して接続される。
HDD170には、図12に示すように、上記の実施例1で示した制御部15と同様の機能を発揮する分析プログラム170aが記憶される。この分析プログラム170aは、図3に示した制御部15の各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
このような環境の下、CPU150は、HDD170から分析プログラム170aを読み出した上でRAM180へ展開する。この結果、分析プログラム170aは、図12に示すように、分析プロセス180aとして機能する。この分析プロセス180aは、RAM180が有する記憶領域のうち分析プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
なお、上記の分析プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ100がこれらの装置から各プログラムを取得して実行するようにしてもよい。
1 分析システム
10 端末
11 通信部
12 入力部
13 出力部
14 記憶部
14a 単語コード割り当て部
14b 圧縮ログ
14c 転置インデックス
15 制御部
15a 収集部
15b 符号化部
20 サーバ
21 通信部
22 入力部
23 出力部
24 記憶部
24a 単語コード割り当て部
24b 圧縮ログ
24c 転置インデックス
25 制御部
25a 取得部
25b 分析部
30 ネットワーク

Claims (5)

  1. 端末とサーバとを有し、
    前記端末は、
    該端末の操作のログまたは該端末で取得可能なセンシング情報のログを収集する収集部と、
    前記ログを符号化した符号化情報または前記符号化情報を用いた前記ログに含まれる単語の該ログにおける出現位置を示すインデックス情報を作成する符号化部と、を有し、
    前記サーバは、
    前記端末から前記符号化情報または前記インデックス情報を取得し、前記符号化情報を取得した場合には前記インデックス情報を作成する取得部と、
    前記インデックス情報を用いて前記端末に関する情報を分析する分析部と、
    を有することを特徴とする分析システム。
  2. 前記サーバの取得部は、前記インデックス情報を取得した場合に、取得した前記インデックス情報を用いて、前記サーバに蓄積されている前記インデックス情報を更新することを特徴とする請求項1に記載の分析システム。
  3. 前記端末の前記符号化部は、該端末のネットワークへの接続状態またはリソースの状況に応じて、前記インデックス情報を作成するか否かを切り替えることを特徴とする請求項1または2に記載の分析システム。
  4. 端末が、
    該端末の操作のログまたは該端末で取得可能なセンシング情報のログを収集し、
    前記ログを符号化した符号化情報または前記符号化情報を用いた前記ログに含まれる単語の該ログにおける出現位置を示すインデックス情報を作成する処理と、
    サーバが、
    前記端末から前記符号化情報または前記インデックス情報を取得し、前記符号化情報を取得した場合には前記インデックス情報を作成し、
    前記インデックス情報を用いて前記端末に関する情報を分析する処理と
    を実行することを特徴とする分析方法。
  5. 端末に、
    該端末の操作のログまたは該端末で取得可能なセンシング情報のログを収集し、
    前記ログを符号化した符号化情報または前記符号化情報を用いた前記ログに含まれる単語の該ログにおける出現位置を示すインデックス情報を作成する処理と、
    サーバに、
    前記端末から前記符号化情報または前記インデックス情報を取得し、前記符号化情報を取得した場合には前記インデックス情報を作成し、
    前記インデックス情報を用いて前記端末に関する情報を分析する処理と
    を実行させることを特徴とする分析プログラム。
JP2017097666A 2017-05-16 2017-05-16 分析システム、分析方法及び分析プログラム Ceased JP2018195027A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017097666A JP2018195027A (ja) 2017-05-16 2017-05-16 分析システム、分析方法及び分析プログラム
US15/980,205 US20180336232A1 (en) 2017-05-16 2018-05-15 Analysis system, analysis method, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017097666A JP2018195027A (ja) 2017-05-16 2017-05-16 分析システム、分析方法及び分析プログラム

Publications (1)

Publication Number Publication Date
JP2018195027A true JP2018195027A (ja) 2018-12-06

Family

ID=64271690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017097666A Ceased JP2018195027A (ja) 2017-05-16 2017-05-16 分析システム、分析方法及び分析プログラム

Country Status (2)

Country Link
US (1) US20180336232A1 (ja)
JP (1) JP2018195027A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230185855A1 (en) * 2021-12-09 2023-06-15 Vmware, Inc. Log data management

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099537A (ja) * 2000-09-21 2002-04-05 Ntt Docomo Inc 活動情報公開システムおよび活動情報公開方法
JP2004265015A (ja) * 2003-02-28 2004-09-24 Toyota Motor Corp コンテンツ検索用インデックス生成装置
JP2006268488A (ja) * 2005-03-24 2006-10-05 Kddi Corp 画像表示システム、端末及びそのプログラム
JP2011128915A (ja) * 2009-12-18 2011-06-30 Mitsubishi Electric Corp ログ収集装置、ログ収集装置のログ収集方法、ログ収集システム、ログ収集システムのログ収集方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9062992B2 (en) * 2004-07-27 2015-06-23 TriPlay Inc. Using mote-associated indexes
GB2514590B (en) * 2013-05-30 2016-01-06 Keysight Technologies Singapore Holdings Pte Ltd Method and apparatus for logging data records

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099537A (ja) * 2000-09-21 2002-04-05 Ntt Docomo Inc 活動情報公開システムおよび活動情報公開方法
JP2004265015A (ja) * 2003-02-28 2004-09-24 Toyota Motor Corp コンテンツ検索用インデックス生成装置
JP2006268488A (ja) * 2005-03-24 2006-10-05 Kddi Corp 画像表示システム、端末及びそのプログラム
JP2011128915A (ja) * 2009-12-18 2011-06-30 Mitsubishi Electric Corp ログ収集装置、ログ収集装置のログ収集方法、ログ収集システム、ログ収集システムのログ収集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
名生貴昭ほか: "ライフログセンシングのための分散ストレージシステム", 情報処理学会研究報告 [ONLINE], vol. Vol.2013-UBI-38, No.19, JPN6020047838, 9 May 2013 (2013-05-09), pages 1 - 8, ISSN: 0004406613 *

Also Published As

Publication number Publication date
US20180336232A1 (en) 2018-11-22

Similar Documents

Publication Publication Date Title
JP6521403B2 (ja) サービスとしての効率的なデータ圧縮及び分析
CN107967347B (zh) 批量数据处理方法、服务器、系统及存储介质
WO2022142001A1 (zh) 基于多评分卡融合的目标对象评价方法及其相关设备
JP7157141B2 (ja) ゲノム・ファイルのためのコンテキスト・アウェア差分アルゴリズム
TWI619033B (zh) 執行以時間序列資料與分析資料當中的至少一部分作為輸入資料之分析處理的分析系統及分析方法
JP2013164704A (ja) 情報処理装置、情報処理方法およびプログラム
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN112115113A (zh) 数据存储系统、方法、装置、设备以及存储介质
CN112347147A (zh) 基于用户关联关系的信息推送方法、装置及电子设备
CN111046010A (zh) 日志储存方法、装置、系统、电子设备和计算机可读介质
CN109962972B (zh) 一种离线包重组方法及系统
US9098863B2 (en) Compressed analytics data for multiple recurring time periods
JP2018195027A (ja) 分析システム、分析方法及び分析プログラム
CN111383044B (zh) 确定兼容模块的系统和方法
CN110147381B (zh) 信息处理方法、系统及记录介质
JP6931442B2 (ja) 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法
CN107679096B (zh) 数据集市间指标共享的方法和装置
KR20130126012A (ko) 비즈니스 인텔리전스의리포트 제공 방법 및 장치
JP6859407B2 (ja) データ処理用の方法及び装置
US10372694B2 (en) Structured information differentiation in naming
WO2015129246A1 (ja) 情報管理装置、情報共有システム、制御方法、及びコンピュータ読み取り可能な記録媒体
Pal et al. Embedding an extra layer of data compression scheme for efficient management of big-data
JP5929334B2 (ja) ソフトウェア変換装置、ソフトウェア変換システム、ソフトウェア変換方法、及び、ソフトウェア変換プログラム
CN112597067B (zh) 一种测试方法、系统、电子设备及介质
JP2015207188A (ja) ウェブ要素マッチング装置とマッチング確率分布生成装置と、それらの方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20210928