JP6873868B2 - データ分析処理支援装置、及びデータ分析処理支援方法 - Google Patents

データ分析処理支援装置、及びデータ分析処理支援方法 Download PDF

Info

Publication number
JP6873868B2
JP6873868B2 JP2017160056A JP2017160056A JP6873868B2 JP 6873868 B2 JP6873868 B2 JP 6873868B2 JP 2017160056 A JP2017160056 A JP 2017160056A JP 2017160056 A JP2017160056 A JP 2017160056A JP 6873868 B2 JP6873868 B2 JP 6873868B2
Authority
JP
Japan
Prior art keywords
analysis processing
plug
data analysis
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017160056A
Other languages
English (en)
Other versions
JP2019040287A (ja
Inventor
宏明 郡浦
宏明 郡浦
健 杉本
健 杉本
侑 中田
侑 中田
木下 雅文
雅文 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017160056A priority Critical patent/JP6873868B2/ja
Priority to US16/494,471 priority patent/US10901699B2/en
Priority to PCT/JP2018/031100 priority patent/WO2019039534A1/ja
Publication of JP2019040287A publication Critical patent/JP2019040287A/ja
Application granted granted Critical
Publication of JP6873868B2 publication Critical patent/JP6873868B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ分析処理支援装置、及びデータ分析処理支援方法に関する。
特許文献1には、「情報処理システムは、異なるデータ項目の対応したデータが夫々格納された複数のデータベースと、データを入出力するための入出力手段と、前記入出力手段で入力された1つもしくは複数のデータ項目に対応するデータが格納された夫々のデータベースに対して、夫々接続可能な1つもしくは複数の接続用モジュールを生成し、生成モジュールを前記入出力手段に出力する接続用モジュール生成手段と、前記接続用モジュール生成手段で生成された各接続用モジュールを用いて前記データベースに接続し、当該各接続用モジュールによって取得された情報から、前記データ項目に対応した所望の情報を抽出する情報抽出処理機能を、コンピュータに与えるためのデータ取得用プログラムを生成して、生成プログラムを前記入出力手段に出力するプログラム生成手段と、を備えたものである。」、「分散化されたデータベースに対して、データ利用者が所望のデータを自由に取得できるとともに、データ利用者に高度なデータ処理スキルがなくても、データ利用者が取得データに所望の加工処理を行い、データ利用者が所望のデータを自在に利用することができる。」と記載されている。
特許文献2には、「各種業務における業務分析を効率的に実施する。」、「各種業務を実行する基幹システムにおける各種業務の分析を行う業務分析システムにおいて、基幹システムが有する各種データを抽出し、抽出されたデータを記憶保持するデータベースを有したDBテンプレートと、各種業務の分析に必要なデータの収集指示をDBテンプレートに指示し、各種業務の分析メニューを表示し、操作指定された分析に対する分析指示を出力する業務分析テンプレートと、業務分析テンプレートから入力された分析指示に基づいてDBテンプレートから指示された分析に必要なデータを検索し、検索されたデータを用いて指示された分析を実行し、実行された分析の分析結果を出力する分析結果出力手段とを有するOLAPテンプレートとを備えている。」と記載されている。
特開2005−275913号公報 特開2000−285128号公報
IoTデータやビッグデータ等の膨大な量のデータを分析することによりコスト削減や新規サービスの立案等の価値を創出する取り組みが様々な分野で行われている。こうした業務に携わるデータ分析者には、サイエンスやビジネスに関する知識に加え、データの取得や加工等のエンジニアリングに関する知識も要求される。
一般にデータの分析に必要な処理(以下、データ分析処理と称する。)は、ファイルシステム、データレイク、データウェアハウス(DWH)等のデータへのアクセスに関するする処理(以下、データアクセス処理と称する。)、分析対象となるデータを分析する処理(以下、データ分析処理と称する。)、データ分析処理によって出力される分析結果を可視化する処理(以下、分析結果可視化処理と称する。)が含まれる。データ分析者は、これらの処理の実現に用いられるソフトウェア(OSS(Open Source Software)や商用等)やサービスを組み合わせてデータ分析処理の設計や開発を行うため、多様なソフトウェアやサービスを理解した上で作業を進める必要があり、ソフトウェアやサービスの間の整合性をとることに多大な労力と時間を強いられている。
上記の特許文献1、2はいずれもデータ分析における効率化に関するものであるが、データ分析処理を構成するデータアクセス処理、データ分析処理、分析結果可視化処理の各処理の間の相互の関係性や整合性を担保しつつデータ分析者の負担を軽減する仕組みは開示されていない。
本発明はこうした背景に鑑みてなされたものであり、データ分析処理の設計や開発を支援してデータ分析処理を効率よく進めることを可能とする、データ分析処理支援装置、及びデータ分析処理支援方法を提供することを目的としている。
本発明の一つは、データアクセス処理、データ分析処理、及び分析結果可視化処理の各処理を実行することにより行われるデータ分析を支援するデータ分析処理支援装置であって、プロセッサ及び記憶装置を有し、前記各処理の間で共通に用いられる変数の設定情報を含む分析処理設定情報と、前記各処理の内容に関する情報である基本情報、前記各処理を実現するプログラムのテンプレートを生成する際のベースとなるプログラムコード、前記分析処理設定情報の前記変数、及び前記各処理の間で相互参照する変数に関する記述を含む、前記各処理の夫々に対応するプラグインと、を記憶する記憶部と、前記分析処理設定情報と前記各処理の夫々に対応する前記プラグインとの関係性又は整合性を担保しつつ前記テンプレートを生成する、実行情報生成部と、を備える。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、データ分析者等のユーザはデータ分析処理を効率よく進めることが可能になる。
上記した以外の課題、構成、及び効果については以下の実施形態の説明により明らかにされる。
情報処理システムの概略的な構成を示す図である。 データ分析装置の主な構成を説明する図である。 分析結果可視化装置の主な構成を説明する図である。 データ管理装置の主な構成を説明する図である。 データ分析処理支援装置の主な構成を説明する図である。 分析処理設定情報の例である。 分析プラグインの例である。 可視化プラグインの例である。 データアクセスプラグインの例である。 データアクセスプラグインの例である。 実行情報生成処理を説明するデータフロー図である。 実行情報生成処理を説明するフローチャートである。 実行情報生成処理を説明するフローチャートである。 分析処理開発画面の例である。
以下、実施形態につき図面を参照しつつ説明する。以下の説明において、同一又は類似する構成に同一の符号を付して重複した説明を省略することがある。またデータベースのことを「DB」と表記することがある。またプログラムのことを「PG」と表記することがある。また以下の説明において「セット」という場合は同種の情報の集合を意味するものとする。
図1に実施形態として示す情報処理システム1の概略的な構成を示している。同図に示すように、情報処理システム1は、IoTデータやビッグデータ等のデータ(以下、分析対象データと称する。)を分析するシステム(以下、データ分析システム101と称する。)と、データ分析システム101を用いたデータ分析に関する処理(以下、データ分析処理と称する。)の設計や開発を支援するデータ分析処理支援装置106と、ユーザが操作する装置であるユーザ装置107とを含む。データ分析システム101は、データ分析装置102、分析結果可視化装置103、及びデータ管理装置104を含む。データ分析装置102、分析結果可視化装置103、データ管理装置104、データ分析処理支援装置106、及びユーザ装置107は、いずれも情報処理装置(コンピュータ)である。
データ分析装置102、分析結果可視化装置103、データ管理装置104、データ分析処理支援装置106、及びユーザ装置107は、通信ネットワーク5を介して通信可能に接続されている。通信ネットワーク5は、例えば、有線または無線のLAN(Local Area Network)、WAN(Wide Area Network)、インターネット、イントラネット、専用線等である。
データ分析処理支援装置106は、データ分析装置102、分析結果可視化装置103、及びデータ管理装置104の夫々に保持されるプログラムや設定情報の設計や開発を支援する。
データ分析装置102は、データ管理装置104から取得される分析対象データを入力としてデータ分析処理を実行し、その結果生成されるデータ(以下、分析結果データと称する。)をデータ管理装置104及び分析結果可視化装置103に送信する。分析対象データは、例えば、インターネットからウェブスクレイピング(Web scraping)等の技術により取得されたデータ、SNS(Social Networking Service)から取得されたデータ、センサ等から収集したIoTデータ、POS(point of sale)データ、機械学習用のデータ、アンケートデータ、ビックデータ等である。
分析結果可視化装置103は、データ分析処理により生成された分析結果データを可視化(例えば、グラフ、表、Webページ等形式で可視化)してユーザに提供する処理(以下、分析結果可視化処理と称する。)を行う。
データ管理装置104は、分析対象データ及び分析結果データを管理する(例えば、データベースへの登録や更新、削除等)。データ管理装置104は、分析対象データや分析結果データへのアクセス(入出力)に関する処理(以下、データアクセス処理と称する。)を行う。またデータ管理装置104は、分析対象データを生成する際の前処理(データの加工や抽出等)を行う。分析対象データは、例えば、通信ネットワーク5を介してデータ管理装置104に取り込まれる。また分析対象データは、例えば、記録媒体(光学式記録媒体、半導体メモリ、外部接続HDD等)から読み出すことによりデータ管理装置104に取り込まれる。分析対象データの取り込みは,例えば、ETLツール(ETL:Extract Transform Load)を用いて行われる。
データ分析処理支援装置106は、データ分析装置102、分析結果可視化装置103、及びデータ管理装置104の各装置の夫々において実行されるプログラムの雛形(以下、PGテンプレートと称する。)や各種の設定情報、及びプログラムライブラリ(以下、ライブラリと称する。)を生成し、生成したPGテンプレート、各種の設定情報、及びライブラリを配信先(データ分析装置102、分析結果可視化装置103、及びデータ管理装置104)に展開(デプロイ)する。
ユーザ装置107は、データ分析処理支援装置106やデータ分析システム101の利用又は運用に際してデータ分析者や情報処理システム1の管理者や運用者等のユーザが操作する装置である。
データ分析装置102、分析結果可視化装置103、データ管理装置104、データ分析処理支援装置106、及びユーザ装置107は、いずれも物理的なハードウェアで構成された情報処理装置であってもよいし、例えば、クラウドシステムが提供する仮想マシンのように仮想的に実現されるものであってもよい。またこれらの装置は、複数の情報処理装置を用いて構成されていてもよいし、これらの装置の複数を共通の情報処理装置を用いて実現するようにしてもよい。またこれらの装置の機能の夫々を機能単位で複数の情報処理装置に分散して実現するようにしてもよい。
図2はデータ分析装置102の主な構成を説明する図である。同図に示すように、データ分析装置102は、通信装置201、プロセッサ202、入出力装置203、及び記憶装置204を備える。これらは内部通信線(例えば、バス等)を介して互いに通信可能に接続されている。
通信装置201は、通信ネットワーク5を介して他の装置との間の通信を実現するインタフェースであり、例えば、NIC(Network Interface Card)や無線通信モジュールを用いて構成される。
プロセッサ202は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等を用いて構成される。プロセッサ202が記憶装置204に格納されているプログラムを実行することによりデータ分析装置102の各種の機能が実現される。
入出力装置203は、情報の入力の受け付けや情報の出力を行う。入出力装置203はキーボードやマウス等から情報の入力を受け付ける。また入出力装置203はプロセッサ202から送られてくる情報を液晶ディスプレイ等の表示装置に表示する。
記憶装置204は、揮発性の記憶装置(DRAM(Dynamic Access Random Memory)等)や不揮発性の記憶装置(HDD(Hard Disk Drive)、SSD(Solid State Drive)、NVRAM(Non-volatile memory)等)を含む。記憶装置204は、分析PG211、分析PGテンプレート212、分析ライブラリ213、及び分析PG設定情報214を記憶する。
分析PG211は、データ分析処理を実現するためのプログラムである。以下、分析PG211が実行されることにより実現される機能のことを分析処理部と称する。分析PG211は、入出力装置203を介してデータ分析者等のユーザが分析PGテンプレート212をベースとして編集することができる。
分析処理部は、データ管理装置104から提供される分析対象データを入力としてデータ分析処理を行う。分析処理部は、データ分析処理により生成される分析結果データを、分析結果可視化装置103やデータ管理装置104に送信する。
分析PGテンプレート212は、分析PG211の雛形となるプログラムを含む。分析PGテンプレート212は、データ分析処理支援装置106の後述する実行情報生成部によって生成される。
分析ライブラリ213は、分析PG211を実行する際に用いられる一つ以上のライブラリ(プログラム)を含む。
分析PG設定情報214は、分析PGテンプレート212が参照する各種の設定情報である。データ分析者等のユーザは、分析PGテンプレート212をベースとして分析PG211を作成する際、必要に応じて分析PG設定情報214の変更や設定項目の追加等を行う。
図3は分析結果可視化装置103の主な構成を説明する図である。同図に示すように、分析結果可視化装置103は、通信装置301、プロセッサ302、入出力装置303、及び記憶装置304を備える。これらは内部通信線(例えば、バス等)を介して互いに通信可能に接続されている。
通信装置301は、通信ネットワーク5を介して他の装置との間の通信を実現するインタフェースであり、例えば、NICや無線通信モジュールを用いて構成される。
プロセッサ302は、CPUやMPU等を用いて構成される。プロセッサ302が記憶装置304に格納されているプログラムを実行することにより分析結果可視化装置103の各種の機能が実現される。
入出力装置303は、情報の入力の受け付けや情報の出力を行う。入出力装置303はキーボードやマウス等から情報の入力を受け付ける。また入出力装置303はプロセッサ302から送られてくる情報を液晶ディスプレイ等の表示装置に表示する。
記憶装置304は、揮発性の記憶装置(DRAM等)や不揮発性の記憶装置(HDD、SSD、NVRAM等)を含む。記憶装置304は、可視化PG311、可視化PGテンプレート312、可視化ライブラリ313、及び可視化PG設定情報314を記憶する。
可視化PG311は、分析結果可視化処理を実現するためのプログラムである。以下、可視化PG311を実行することにより実現される機能のことを可視化処理部と称する。可視化PG311は、入出力装置303を介してデータ分析者等のユーザが可視化PGテンプレート312をベースとして編集することができる。可視化PG311は、BIツール(BI:Business Intelligence Tool)、商用のソフトウェア、OSS(Open-Source Software)、商用のサービス等によって提供されるものであってもよい。
可視化処理部は、データ管理装置104から提供される分析結果データを入力として分析結果可視化処理を行う。
可視化PGテンプレート312は、可視化PG311の雛形となるプログラムを含む。可視化PGテンプレート312は、データ分析処理支援装置106の後述する実行情報生成部によって生成される。
可視化ライブラリ313は、可視化PG311を実行する際に用いる一つ以上のライブラリ(プログラム)を含む。
可視化PG設定情報314は、可視化PGテンプレート312が参照する各種の設定情報である。データ分析者等のユーザは、可視化PGテンプレート312をベースとして可視化PG311を作成する際、必要に応じて可視化PG設定情報314の変更や設定項目の追加等を行う。
図4はデータ管理装置104の主な構成を説明する図である。同図に示すように、データ管理装置104は、通信装置401、プロセッサ402、入出力装置403、及び記憶装置404を備える。これらは内部通信線(例えば、バス等)を介して互いに通信可能に接続されている。
通信装置401は、通信ネットワーク5を介して他の装置との間の通信を実現するインタフェースであり、例えば、NICや無線通信モジュールを用いて構成される。
プロセッサ402は、CPUやMPU等を用いて構成される。プロセッサ402が記憶装置404に格納されているプログラムを実行することによりデータ管理装置104の各種の機能が実現される。
入出力装置403は、情報の入力の受け付けや情報の出力を行う。入出力装置403はキーボードやマウス等から情報の入力を受け付ける。また入出力装置403はプロセッサ402から送られてくる情報を液晶ディスプレイ等の表示装置に表示する。
記憶装置404は、揮発性の記憶装置(DRAM等)や不揮発性の記憶装置(HDD、SSD、NVRAM等)を含む。記憶装置404は、データアクセスPG411、データアクセスPGテンプレート412、データアクセスライブラリ413、及びデータアクセスPG設定情報414を記憶する。
記憶装置404は、データ管理装置104において機能するDBMS(Data Base Management System)によって管理されるデータベース415に格納される情報を記憶する。データベース415には、分析対象データやデータ分析処理で生成される各種の中間データ、及び分析結果データが格納される。尚、本実施形態では、このように分析対象データや中間データ、及び分析結果データをデータベース415を利用して管理するものとするが、これらのデータを管理する方法は必ずしも限定されない。例えば、これらのデータをファイルシステムによって管理してもよい。
データアクセスPG411は、データアクセス処理を実現するためのプログラムである。以下、データアクセスPG411により実現される機能のことをデータアクセス部と称する。データアクセスPG411は、入出力装置403を介してデータ分析者等のユーザがデータアクセスPGテンプレート412をベースとして編集することができる。データベース415がリレーショナルデータベース(RDB:Relational DataBase)である場合、データアクセスPG411は、例えば、SQL(Structured Query Language)文により記述される。データアクセス部は、例えば、データベース415に対してデータの取得、格納、及び削除等を行う。
データアクセスPGテンプレート412は、データアクセスPG411の雛形となるプログラムを含む。データアクセスPGテンプレート412は、データ分析処理支援装置106の後述する実行情報生成部によって生成される。
データアクセスライブラリ413は、データアクセスPG411を実行する際に用いられる一つ以上のライブラリ(プログラム)を含む。
データアクセスPG設定情報414は、データアクセスPGテンプレート412が参照する各種の設定情報である。データ分析者等のユーザは、データアクセスPGテンプレート412をベースとしてデータアクセスPG411を作成する際、必要に応じてデータアクセスPG設定情報414の変更及び設定項目の追加等を行う。
図5は、データ分析処理支援装置106の主な構成を説明する図である。同図に示すように、データ分析処理支援装置106は、通信装置501、プロセッサ502、入出力装置503、及び記憶装置504を備える。これらは内部通信線(例えば、バス等)を介して互いに通信可能に接続されている。
通信装置501は、通信ネットワーク5を介して他の装置との間の通信を実現するインタフェースであり、例えば、NICや無線通信モジュールを用いて構成される。
プロセッサ502は、CPUやMPU等を用いて構成される。プロセッサ502が記憶装置504に格納されているプログラムを実行することによりデータ分析処理支援装置106の各種の機能が実現される。
入出力装置503は、情報の入力の受け付けや情報の出力を行う。入出力装置503はキーボードやマウス等から情報の入力を受け付ける。また入出力装置503はプロセッサ502から送られてくる情報を液晶ディスプレイ等の表示装置に表示する。
記憶装置504は、揮発性の記憶装置(DRAM等)や不揮発性の記憶装置(HDD、SSD、NVRAM等)を含む。
記憶装置504は、データ分析処理を実現するための情報である実行情報(分析PGテンプレート212、分析ライブラリ213、分析PG設定情報214、可視化PGテンプレート312、可視化ライブラリ313、可視化PG設定情報314、データアクセスPGテンプレート412、データアクセスライブラリ413、データアクセスPG設定情報414、デプロイPG521、デプロイ設定情報522、分析処理一括実行PG523)を生成する処理(以下、実行情報生成処理と称する。)を実現するためのプログラムである実行情報生成PG511を記憶する。以下、実行情報生成PG511によって実現される機能のことを実行情報生成部と称する。実行情報生成PG511は、例えば、GUI(Graphical User Interface)やCUI(Character User Interface)を介してデータ分析者等のユーザとの間で対話方式(インタラクティブ(interactive)な方式)で実行情報生成処理を行う。
また記憶装置504は、実行情報生成処理の入力情報(分析処理設定情報512、分析プラグインセット513、可視化プラグインセット514、データアクセスプラグインセット515、分析ライブラリセット516、可視化ライブラリセット517、データアクセスライブラリセット518)を記憶する。
また記憶装置504は、実行情報生成処理の出力情報(分析PGテンプレート212、分析ライブラリ213、分析PG設定情報214、可視化PGテンプレート312、可視化ライブラリ313、可視化PG設定情報314、データアクセスPGテンプレート412、データアクセスライブラリ413、データアクセスPG設定情報414、デプロイPG521、デプロイ設定情報522、分析処理一括実行PG523)を記憶する。
実行情報生成部は、分析処理設定情報512に基づき、分析処理設定情報512で指定されているプラグインがプラグインセット(分析プラグインセット513、可視化プラグインセット514、データアクセスプラグインセット515)に含まれているか否かを判定する。尚、以下の説明において、分析プラグインセット513に含まれるプラグインのことを分析プラグインと、可視化プラグインセット514に含まれるプラグインのことを可視化プラグインと、データアクセスプラグインセット515に含まれているプラグインのことをデータアクセスプラグインと、夫々称する。
分析処理設定情報512に指定されているプラグインがプラグインセットに含まれている場合、実行情報生成部は、指定されているプラグインに記述されている内容に基づき、プログラムテンプレート(分析PGテンプレート212、可視化PGテンプレート312、データアクセスPGテンプレート412)及び設定情報(分析PG設定情報214、可視化PG設定情報314、データアクセスPG設定情報414)を生成する。また実行情報生成部は、上記プログラムテンプレートが参照するライブラリ(分析ライブラリ213、可視化ライブラリ313、データアクセスライブラリ413)をライブラリセット(分析ライブラリセット516、可視化ライブラリセット517、データアクセスライブラリセット518)から抽出する。
分析処理設定情報512は、データ分析処理、分析結果可視化処理、及びデータアクセス処理の実行に際して参照される各種の設定情報を含む。
プラグインセット(分析プラグインセット513、可視化プラグインセット514、データアクセスプラグインセット515)は、プログラムテンプレート(分析PGテンプレート212、可視化PGテンプレート312、データアクセスPGテンプレート412)と設定情報(分析PG設定情報214、可視化PG設定情報314、データアクセスPG設定情報414)の集合である。
プラグインには、プログラムテンプレートや設定情報の生成に際して必要となる、追加変数の内容、プログラムテンプレートの実行に必要なライブラリ、他のプラグインやライブラリとの間の依存性、及び入力フォーマットの指定等のルールが、所定の記述形式で記述されている。尚、プラグインには、データ分析処理が繰り返し行われことにより過去の内容が蓄積され、データ分析処理が繰り返し行われることによりデータ分析処理の設計や開発にかかるユーザの負担は軽減されていく。
ライブラリセット(分析ライブラリセット516、可視化ライブラリセット517、データアクセスライブラリセット518)は、プログラムテンプレート(分析PGテンプレート212、可視化PGテンプレート312、データアクセスPGテンプレート412)の実行に際して用いられる一つ以上のライブラリを含む。実行情報生成部は、プラグインに指定されているライブラリがライブラリセットに含まれているか否かを判定し、含まれている場合は該当のプログラムライブラリ(分析ライブラリ213、可視化ライブラリ313、データアクセスライブラリ413)を抽出する。
プログラムテンプレート(分析PGテンプレート212、可視化PGテンプレート312、データアクセスPGテンプレート412)は、夫々、データ分析処理、分析結果可視化処理、及びデータアクセス処理を実現するためのプログラムの雛形である。
プログラム設定情報(分析PG設定情報214、可視化PG設定情報314、データアクセスPG設定情報414)は、プログラムテンプレート(分析PGテンプレート212、可視化PGテンプレート312、データアクセスPGテンプレート412)が参照する各種の設定情報を含む。
デプロイPG521は、実行情報生成PG511が生成した実行情報を各装置(データ分析装置102、分析結果可視化装置103、データ管理装置104)に展開するためのコード(プログラム)を含む。
デプロイ設定情報522は、デプロイPG521に関する情報(例えば、ファイルと配置先サーバの関係、送信先のIPアドレス等)を含む。尚、デプロイ設定情報522は必ずしも必須ではなく、例えば、デプロイ設定情報522の内容をデプロイPG521に含ませてもよい。
分析処理一括実行PG523は、例えば、各装置に配置されたデータアクセス処理、データ分析処理、及び分析結果可視化処理の夫々のテンプレートプログラムを順に呼び出し、データアクセス処理、データ分析処理、及び分析結果可視化処理の各処理を順に実行する。
データ分析者等のユーザは、分析処理設定情報512及びプラグインセット(分析プラグインセット513、可視化プラグインセット514、データアクセスプラグインセット515)を適宜編集し、実行情報生成PG511を実行し、生成された情報を各装置(データ分析装置102、分析結果可視化装置103、データ管理装置104)に展開する。尚、ユーザは、例えば、データ分析処理を最初に設計する場合や仕様変更があった場合に分析処理設定情報512及びプラグインセットを編集する。
図6は分析処理設定情報512の一例である。分析処理設定情報512は、環境構築等の共通の設定に関する記述601、データアクセス処理の設定に関する記述602、データ分析処理に関する記述603、及び分析結果可視化処理に関する記述604を含む。
環境構築等の共通の設定に関する記述601は、例えば、デプロイPG521やデプロイ設定情報522の生成に際して参照される各装置の所在(IPアドレス、ポート番号等)やプラグインの実行順等の記述を含む。
データアクセス処理の設定に関する記述602は、例えば、データアクセス処理の内容に応じたデータアクセスプラグインの識別子(プラグイン名等)、プラグインの中で必要な変数の指定等に関する記述を含む。同図のように記述602にデータアクセスプラグイン名として“db_typeA_get_CSV”と“db_typeA_put_CSV”が指定されている場合、実行情報生成部は、データアクセスプラグインセット515のうちプラグイン名が“db_typeA_get_CSV”である、例えば、図9に示すデータアクセスプラグイン、及びプラグイン名が“db_typeA_put_CSV”である、例えば、図10に示すデータアクセスプラグインを取得する。
データ分析処理に関する記述603は、例えば、データ分析処理の内容に応じた分析プラグインの識別子(プラグイン名等)やプラグインで用いる変数の指定等に関する記述を含む。
分析結果可視化処理に関する記述604は、例えば、分析結果可視化処理の内容に応じた可視化プラグインの識別子(プラグイン名)や、プラグインで用いる変数の指定等に関する記述を含む。
図7は、分析プラグインセット513の分析プラグインの例(以下、分析プラグイン513Aと称する。)であり、図8は、可視化プラグインセット514の可視化プラグインの例(以下、可視化プラグイン514Aと称する。)であり、図9及び図10は、データアクセスプラグインセット515のデータアクセスプラグインの例(以下夫々、データアクセスプラグイン515A、データアクセスプラグイン515Bと称する。)である。
図7乃至図10に示すように各プラグインの記法(記述方法)は統一化されており、各プラグインは共通の記法に従って記述されている。例えば、いずれのプラグインについても、“%”から始まる文字列によって記述項目(プラグイン名701、基本情報702、ルール703、オプション704、テンプレートプログラムのベースとなるコード705、設定ファイルのベースとなる設定706)の各記述欄が区別される。またいずれのプラグインにおいても“#”はコメント行を意味する。尚、以下の説明において、プラグインを区別して説明する必要がある場合は各記述項目の符号に「A」〜「D」の文字を付している。
図6に示す分析処理設定情報512では、データ分析処理に関する記述603に分析プラグイン名として“analysis_typeA”が記述されている。この場合、実行情報生成部は、分析プラグインセット513のうちプラグイン名701Aが“analysis_typeA”である分析プラグイン513Aを読み出す。
図7は、プラグイン名701A「%analysis_plugin_name」が“analysis_typeA”である分析プラグイン513Aの例である。同図に示すように、分析プラグイン513Aのプラグイン名701には、分析処理設定情報512に基づきプラグインを呼び出すときのキーとなる情報が記述されている。
同図において、基本情報702「# Info」には、プラグインの間で共通に設定される情報が記述されている。基本情報702には、例えば、テンプレートプログラムや設定情報のフォーマット、テンプレートプログラムの入力引数の名前、型、及びサンプル数、テンプレートプログラムの出力の名前、型、サンプル数、テンプレートプログラムが使用するライブラリ名、テンプレートプログラム、設定情報で使用する変数等が記述される。基本情報702は、実行情報生成部のサポート範囲の設定であるか否か、分析処理設定情報512に必要な設定がされているか否か等の観点で行われる整合性の判定に際して用いられる。例えば、データアクセスプラグイン515Aに、“db_table_get_name”という文字列変数が必要である旨の記述がされていた場合、実行情報生成部は、分析処理設定情報512に“db_table_get_name”が記載されているか否かを判定し、記載されていなければ変数が存在しない旨のエラー情報を出力する。
ルール703「# Rules」には、実行情報生成部がプラグインを読み込んでテンプレートプログラムや設定情報を生成する際に満たすべき制約条件が記述される。例えば、可視化プラグイン514Aのルール703Bに記述されている“Inputs_consistency_with_analysis_plugin_outputs”との制約条件は、分析プラグインの出力と可視化プラグインの入力との間で引数の数や型、サンプル数が一貫していない場合には可視化PGテンプレート312及び可視化PG設定情報314を生成できないという制約である。またルール703には、予約語や予約語ごとの判定項目が記述される。尚、これらの記述を実行情報生成部のプラグインとして記憶装置504に別途用意するようにしてもよい。またルール703Aを処理するための機能や設定は、例えば、分析処理設定情報512に記述してもよい。
オプション704「# Options」には、実行情報生成部がプラグインを読み込んだ後の処理に影響を与える可能性のある設定が記述される。例えば、図9に示すオプション704Cや図10に示すオプション704Dでは、オプション704に、分析処理設定情報512に指定されている分析プラグインの入力や出力をそのままデータアクセスプラグインの入力として扱うことを規定する“Inputs_refer_analysis_plugin_inputs”及び“Inputs_refer_analysis_plugin_outputs”が記述されている。尚、オプション704を処理するための機能や設定は、例えば、実行情報生成部に組み込んでもよい。またオプション704に関する設定を分析処理設定情報512に記述するようにしてもよい。
コード705「# Template codes / filename」には、テンプレート(分析PGテンプレート212、可視化PGテンプレート312、及びデータアクセスPGテンプレート412)のベースとなるコード(プログラムコード等)が所定の言語で記述される。コード705に記述されたコードは基本情報702で与えた変数設定やルール703の記述により代入された設定を参照することができる。例えば、図7の分析プラグイン513Aでは、基本情報702に記述されている変数“input_file_name”、“output_file_name”、“output_header”をコード705Aに記述されたコードが参照することができる。また例えば、図9のデータアクセスプラグイン515Aでは、オプション704で指定した“Inputs_refer_analysis_plugin_inputs”の記述により、図7の分析プラグイン513Aの設定から%ANALYSIS_PLUGIN_INPUTS%に“{(x_axis, int, N), (y_axis, int, N), (t_edge, double, N), (b_edge, double, N), (height, double, N)}”の変数が与えられるが、これらの変数を図7の分析プラグイン513Aのコード705Aに記述されたコードから参照することができる。尚、コード705はこのようにプラグインに直接記載してもよく、可視化プラグイン514Aの705Bのようにコードが記述された外部のデータを参照するようにしてもよい(この例ではファイルパスを指定してコードが記述された外部のファイルを参照している)。
設定706「# Template settings / filename」には、コード705に記述されるテンプレート(分析PGテンプレート212、可視化PGテンプレート312、及びデータアクセスPGテンプレート412)のベースとなるコードの固有の設定が記述される。尚、作業効率を向上する観点からすれば、複数のテンプレート間で共通する設定は、基本設定702やルール703、オプション704における変数を用いて行うことが好ましい。
図11は、データ分析処理支援装置106の実行情報生成部が行う処理(以下、実行情報生成処理S1100と称する。)を説明するデータフロー図である。
同図に示すように、実行情報生成部は、分析プラグインセット513、可視化プラグインセット514、データアクセスプラグインセット515、分析ライブラリセット516、可視化ライブラリセット517、及びデータアクセスライブラリセット518を入力として実行情報生成処理S1100を実行する。
実行情報生成処理S1100が実行されることで、データ分析システム101の各装置(データ分析装置102、分析結果可視化装置103、及びデータ管理装置104)へのデプロイ対象(分析PGテンプレート212、分析ライブラリ213、分析PG設定情報214、可視化PGテンプレート312、可視化ライブラリ313、可視化PG設定情報314、データアクセスPGテンプレート412、データアクセスライブラリ413、データアクセスPG設定情報414)、デプロイPG521及びデプロイ設定情報522、及び分析処理一括実行PG523、が生成される。尚、このように本実施形態では、デプロイPG521やデプロイ設定情報522についても実行情報生成部が生成しているが、デプロイPG521やデプロイ設定情報522については、例えば、商用のソフトウェアやOSS等の実行情報生成部以外によって生成してもよい。
デプロイPG521は、上記デプロイに関する処理(以下、デプロイ処理と称する。)を実現するためのプログラムである。デプロイ処理はデプロイ設定情報522に基づき上記のデプロイの対象をデータ分析システム101の各装置(データ分析装置102、分析結果可視化装置103、及びデータ管理装置104)に展開する。より具体的には、デプロイ処理は、分析PGテンプレート212、分析ライブラリ213、及び分析PG設定情報214についてはデータ分析装置102に、可視化PGテンプレート312、可視化ライブラリ313、及び可視化PG設定情報314については分析結果可視化装置103に、データアクセスPGテンプレート412、データアクセスライブラリ413、及びデータアクセスPG設定情報414についてはデータ管理装置104に夫々展開する。
分析処理一括実行PG523は、デプロイ先の装置に展開されたテンプレートの起動に関する記述(コード)を含む。データ分析処理支援装置106が分析処理一括実行PG523を実行することにより、例えば、デプロイ先の装置に展開されたテンプレートが分析処理設定情報512に指定されている順序で起動される。尚、本実施形態では、実行情報生成部が分析処理一括実行PG523を生成しているが、分析処理一括実行PG523は、例えば、OSSや商用のソフトウェア等の他のソフトウェアを用いて生成してもよい。
図12及び図13は、実行情報生成処理S1100を説明するフローチャートである。以下、同図とともに実行情報生成処理S1100について説明する。
図12に示すように、まず実行情報生成部は、分析処理設定情報512を読み込む(S1101)。分析処理設定情報512を正常に読み込めた場合(S1101:YES)、処理はS1104に進む。分析処理設定情報512を正常に読み込めなかった場合(S1101:NO)、処理はS1103に進む。S1103では、実行情報生成部は、分析処理設定情報512を正常に読み込めなかった旨のエラー情報を出力してプログラムを終了する。
続いて実行情報生成部は、読み込んだ分析処理設定情報512について不正な記述が含まれているか否かを確認する(不正値チェック)(S1104)。不正な記述が含まれていなければ(S1104:NO)、処理はS1107に進む。不正な記述が含まれていれば(S1104:YES)、処理はS1106に進み、不正な記述が存在する箇所を示す情報や対処方法等の情報等を出力してプログラムを終了する。
S1107では、実行情報生成部は、分析処理設定情報512に指定されている分析プラグインが分析プラグインセット513に含まれており、かつ、分析プラグインの基本情報702に指定されている分析ライブラリが分析ライブラリセット516に含まれているか否かを判定する。分析処理設定情報512に指定されている分析プラグインが分析プラグインセット513に含まれており、かつ、分析プラグインの基本情報702に指定されている分析ライブラリが分析ライブラリセット516に含まれている場合(S1107:YES)、処理はS1109に進む。分析処理設定情報512に指定されている分析プラグインが分析プラグインセット513に含まれていないか、もしくは、分析プラグインの基本情報702に指定されている分析ライブラリが分析ライブラリセット516に含まれていない場合(S1107:NO)、処理はS1108に進む。S1108では、実行情報生成部は、分析PGテンプレート212を生成するための条件が満たされていない旨の警告や上記条件を満たすための対処方法等の推奨情報を出力する。その後、処理はS1110に進む。
S1109では、実行情報生成部は、分析PGテンプレート212及び分析PG設定情報214を生成対象とすることを示す情報(もしくは生成可能であることを示す情報)を記憶する。その後、処理はS1110に進む。
S1110では、実行情報生成部は、分析処理設定情報512に指定されている可視化プラグインが可視化プラグインセット514に含まれており、かつ、可視化プラグインの基本情報702に指定されている可視化ライブラリが可視化ライブラリセット517に含まれている否かを判定する。
分析処理設定情報512に指定されている可視化プラグインが可視化プラグインセット514に含まれており、かつ、可視化プラグインの基本情報702に指定されている可視化ライブラリが可視化ライブラリセット517に含まれている場合(S1110:YES)、処理はS1112に進む。分析処理設定情報512に指定されている可視化プラグインが可視化プラグインセット514に含まれていないか、もしくは、可視化プラグインの基本情報702に指定されている可視化ライブラリが可視化ライブラリセット517に含まれていない場合(S1110:NO)、処理はS1111に進む。S1111では、実行情報生成部は、可視化PGテンプレート312を生成するための条件が満たされていない旨の警告や上記条件を満たすための対処方法等の推奨情報を出力する。その後、処理はS1113に進む。
S1112では、実行情報生成部は、可視化PGテンプレート312及び可視化PG設定情報314を生成対象とすることを示す情報(もしくは生成可能であることを示す情報)を記憶する。その後、処理はS1113に進む。
S1113では、実行情報生成部は、分析処理設定情報512に指定されているデータアクセスプラグインがデータアクセスプラグインセット515に含まれており、かつ、データアクセスプラグインの基本情報702に指定されているデータアクセスライブラリがデータアクセスライブラリセット518に含まれているか否かを判定する。分析処理設定情報512に指定されているデータアクセスプラグインがデータアクセスプラグインセット515に含まれており、かつ、データアクセスプラグインの基本情報702に指定されているデータアクセスライブラリがデータアクセスライブラリセット518に含まれている場合(S1113:YES)、処理はS1115に進む。分析処理設定情報512に指定されているデータアクセスプラグインがデータアクセスプラグインセット515に含まれていないか、もしくは、データアクセスプラグインの基本情報702に指定されているデータアクセスライブラリがデータアクセスライブラリセット518に含まれていない場合(S1113:NO)、処理はS1114に進む。S1114では、実行情報生成部は、データアクセスPGテンプレート412を生成するための条件が満たされていない旨の警告や上記条件を満たすための対処方法等の推奨情報を出力する。その後、処理はS1116に進む。
S1115では、実行情報生成部は、データアクセスPGテンプレート412及びデータアクセスPG設定情報414を生成対象とすることを示す情報(もしくは生成可能であることを示す情報)を記憶する。その後、処理は図13のS1116に進む。
図13のS1116では、実行情報生成部は、各プラグインや各設定情報の間で相互参照変数の不備やルール違反があるか否かを判定する。実行情報生成部が不備やルール違反がないと判定した場合(S1116:NO)、処理はS1117に進む。いずれかに不備やルール違反があると判定した場合(S1116:YES)、処理はS1118に進む。
S1117では、実行情報生成部は、図12のS1109、S1112、S1115で生成対象としたテンプレート及び設定情報を一括生成する。その後、処理はS1119に進む。
S1118では、実行情報生成部は、図12のS1109、S1112、S1115にて生成対象としたテンプレート及び設定情報のうち、生成可能な一部のテンプレート及び設定情報を生成する。その後、処理はS1119に進む。
S1119では、実行情報生成部は、S1117又はS1118で生成したテンプレート及び設定情報を出力する。以上で実行情報生成処理S1100は終了する。
以上に説明したように、本実施形態のデータ分析処理支援装置106によれば、データ分析処理の設計や開発を支援しデータ分析処理にかかるデータ分析者等のユーザの負担を軽減することができる。
例えば、従来、データ分析者は、価値創出のためのデータ分析のアルゴリズムの検討、データレイクから必要なデータを抽出するためのプログラムの整備、ライブラリや設定情報の導入、目的とする可視化を実現するための可視化ツールの調査等に多くの労力と時間を費やしていたが、データ分析処理支援装置106を用いることで、こうした作業におけるデータ分析者の負担を軽減することができる。
またデータアクセス処理、データ分析処理、分析結果可視化処理は相互に密接に関係しており、例えば、分析結果可視化処理のソフトウェアやサービスを選択するとデータ分析処理の分析結果データの格納先が限定され、またデータ分析処理を先に選択した場合にはデータ分析処理が要求する仕様に合わせてデータアクセス処理におけるデータの取得対象やデータの加工の内容や取得するデータのサンプル数などを選択する必要があるが、データ分析処理支援装置106を用いることで、こうした処理間の相互の関係を考慮し整合性を担保する作業におけるデータ分析者の負担を軽減することができる。
また分析内容の変更や分析対象データの形式変更等が発生すると、上記処理間の整合性を担保してデータ分析処理を成立させるために、分析処理全体の設計を見直す必要があるが、データ分析処理支援装置106を用いることで、こうした作業におけるデータ分析者の負担を軽減することができ、その分、データ分析者は、データ分析処理のアルゴリズムの検討や分析結果の評価等の主要な作業に集中することができる。
ところで、以上に説明した実行情報生成処理S1100は、ユーザとの間で対話形式で実行することもできる。
図14は、実行情報生成処理S1100をデータ分析社等のユーザとの間の対話形式で(インタラクティブに)実行する場合に実行情報生成部が入出力装置503を介してユーザに提示する画面(以下、分析処理開発画面1400と称する。)の一例である。尚、ユーザがデータ分析処理支援装置106以外の他の装置(ユーザ装置107等)を介して実行情報生成処理S1100を対話形式で進めていくようにしてもよい。
同図に示すように、分析処理開発画面1400は、入力情報の表示欄1411、入力情報の内容の表示欄1412、警告情報の表示欄1413、内訳表示欄1414、及び出力情報の表示欄1415を有する。ユーザはこのようにして整理された表示欄を利用して効率よく作業を進めることができる。
入力情報の表示欄1411は、実行情報生成処理S1100の入力情報(分析プラグインセット513、可視化プラグインセット514、データアクセスプラグインセット515、分析ライブラリセット516、可視化ライブラリセット517、及びデータアクセスライブラリセット518)について、分析処理設定情報512の記述をベースとして、プラグインやライブラリ間の参照関係及び読み込み状況、これらの情報を読み込んだ際のエラー情報、不正箇所、警告情報、推奨情報等が表示される。
本例では、分析処理設定情報512と分析プラグインセット513との関係について、分析プラグインセット513のうち分析処理設定情報512に記載されたプラグイン名が“analysis_typeA”の分析プラグインを読み込んだとき、1つの警告(WARNING)があった旨が表示されている。また分析処理設定情報512とデータアクセスプラグインセット515との間で、プラグイン名が“db_typeA_get_CSV”のデータアクセスプラグインに該当するデータアクセスプラグインが存在しない旨のエラーが表示されている。ユーザは入力情報の表示欄1411に表示される内容に基づき、各種の入力情報の相互の関係や整合性を容易に確認することができ、入力情報の編集作業や修正作業を効率よく行うことができる。
同図において、入力情報の表示欄1411に表示されている入力情報の一つをユーザがクリック等の操作を行って選択すると、選択された入力情報の内容が入力情報の内容の表示欄1412に表示される。尚、選択中の入力情報が関係するエラー情報、不正箇所、警告情報等があれば、入力情報の表示欄1411に表示されている入力情報の内容の関連箇所が強調表示(例えば、アンダーライン等)される。ユーザは、入力情報の内容の表示欄1412の内容を直接編集して選択中の入力情報の内容を編集することもできる。またユーザは図示しない更新ボタン等を選択することで、編集後の内容についてエラー情報、不正箇所、警告情報等の有無や整合性の有無等を確認することができる。このように、ユーザは、分析処理開発画面1400を介した対話形式で実行情報生成処理S1100を効率よく進行させることができる。
警告情報の表示欄1413には、選択中の入力情報に関係するエラー情報、不正箇所、警告情報等の詳細が表示される。同図におけるタブ14131(「INFO」、「WARN」、「ERROR」)のいずれかを選択することで、警告情報の表示欄1413に表示される情報の種類を切り替えることもできる。
入力情報の表示欄1411に表示されている入力情報の一つにユーザがカーソルを重ねる等の操作を行うと、ポップアップ等の形式で内訳表示欄1414が表示される。この例では、ユーザが分析ライブラリセット516にカーソルを重ねることで、分析ライブラリセット516に含まれている分析ライブラリの一覧が記載された内訳表示欄1414がポップアップ形式で表示されている。この内訳表示欄1414の例では、分析処理設定情報512から参照されている分析ライブラリ“script_tool 1.0”について、当該分析ライブラリが現在選択中であることも示されている。このようにユーザは内訳表示欄1414を利用してライブラリの内容を容易に確認することができるので作業を効率よく進めることができる。
出力情報の表示欄1415には、前述の実行情報生成処理S1100により生成可能なテンプレートや設定情報が表示される。ユーザは出力情報の表示欄1415の表示内容を確認することで、作業の進捗状況を容易に確認することができ、また修正が必要な入力情報を容易に特定することができる。
ところで、本発明は以上に説明した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また上記の各構成、機能部、処理部、処理手段等は、それらの一部又は全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD等の記録装置、又はICカード、SDカード、DVD等の記録媒体に置くことができる。
また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
また以上に説明した各装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は情報処理システム1が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
また前述したデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
1 情報処理システム、5 通信ネットワーク、102 データ分析装置、103 分析結果可視化装置、104 データ管理装置、106 データ分析処理支援装置、211 分析PG(分析処理部)、212 分析PGテンプレート、213 分析ライブラリ、214 分析PG設定情報、311 可視化PG、312 可視化PGテンプレート、313 可視化ライブラリ、314 可視化PG設定情報、411 データアクセスPG、412 データアクセステンプレート、413 データアクセスライブラリ、414 データアクセスPG設定情報、415 データベース、511 実行情報生成PG(実行情報生成部)、512 分析処理設定情報、513 分析プラグインセット、514 可視化プラグインセット、515 データアクセスプラグインセット、516 分析ライブラリセット、517 可視化ライブラリセット、518 データアクセスライブラリセット、521 デプロイPG、522 デプロイ設定情報、523 分析処理一括実行PG

Claims (18)

  1. データアクセス処理、データ分析処理、及び分析結果可視化処理の各処理を実行することにより行われるデータ分析を支援するデータ分析処理支援装置であって、
    プロセッサ及び記憶装置を有し、
    前記各処理の間で共通に用いられる変数の設定情報を含む分析処理設定情報と、前記各処理の内容に関する情報である基本情報、前記各処理を実現するプログラムのテンプレートを生成する際のベースとなるプログラムコード、前記分析処理設定情報の前記変数、及び前記各処理の間で相互参照する変数に関する記述を含む、前記各処理の夫々に対応するプラグインと、を記憶する記憶部と、
    前記分析処理設定情報と前記各処理の夫々に対応する前記プラグインとの関係性又は整合性を担保しつつ前記テンプレートを生成する、実行情報生成部と、
    を備える、データ分析処理支援装置。
  2. 請求項1に記載のデータ分析処理支援装置であって、
    入出力装置を有し、
    前記実行情報生成部は、不正箇所や前記各処理の間の不整合に関する情報をユーザに提示しつつ行われる前記入出力装置を介した対話方式で前記分析処理設定情報と前記各処理の夫々に対応する前記プラグインとの関係性又は整合性を担保する、
    データ分析処理支援装置。
  3. 請求項1に記載のデータ分析処理支援装置であって、
    前記分析処理設定情報は、前記プラグインを特定する情報と前記情報で特定されるプラグインで用いられる変数の設定情報とを含む、
    データ分析処理支援装置。
  4. 請求項1に記載のデータ分析処理支援装置であって、
    前記プラグインは、前記テンプレートが参照するライブラリに関する記述、前記分析処理設定情報と前記各処理の夫々に対応するプラグインとの間で満たすべきルールに関する記述、前記テンプレートを生成する際のオプション情報に関する記述、前記テンプレートの入出力引数の仕様に関する記述、のうちの少なくともいずれかの記述を含む、
    データ分析処理支援装置。
  5. 請求項4に記載のデータ分析処理支援装置であって、
    前記プログラムコードは、前記分析処理設定情報に記述されている変数、前記分析処理設定情報に指定されている夫々のプラグインで設定されている変数、及び前記プラグインに記述されている前記ルールから取得される変数、のうちの少なくともいずれかを参照する記述を含む、
    データ分析処理支援装置。
  6. 請求項2に記載のデータ分析処理支援装置であって、
    前記実行情報生成部は、前記プラグインと前記プラグインが参照するプログラムライブラリとの整合性をユーザに提示しつつ行われる前記対話方式で前記分析処理設定情報と前記各処理の夫々に対応する前記プラグインとの整合性を担保する、
    データ分析処理支援装置。
  7. 請求項1に記載のデータ分析処理支援装置であって、
    前記各処理の夫々に対応する各プラグインは共通の記法に従って記述されている、
    データ分析処理支援装置。
  8. 請求項1に記載のデータ分析処理支援装置であって、
    前記分析処理設定情報は、前記テンプレートの配布先の所在を示す情報を含み、
    前記実行情報生成部は、前記テンプレートを前記配布先に配信する処理を実現するためのコードを生成する、
    データ分析処理支援装置。
  9. 請求項8に記載のデータ分析処理支援装置であって、
    前記実行情報生成部は、前記配布先に配信された前記テンプレートを前記配布先において順に実行させる処理を実現するためのコードを生成する、
    データ分析処理支援装置。
  10. データアクセス処理、データ分析処理、及び分析結果可視化処理の各処理を実行することにより行われるデータ分析を支援する方法であって、
    情報処理装置が、
    前記各処理の間で共通に用いられる変数の設定情報を含む分析処理設定情報と、前記各処理の内容に関する情報である基本情報、前記各処理を実現するプログラムのテンプレートを生成する際のベースとなるプログラムコード、前記分析処理設定情報の前記変数、及び前記各処理の間で相互参照する変数に関する記述を含む、前記各処理の夫々に対応するプラグインと、を記憶するステップと、
    前記分析処理設定情報と前記各処理の夫々に対応する前記プラグインとの関係性又は整合性を担保しつつ前記テンプレートを生成するステップと、
    を実行する、データ分析処理支援方法。
  11. 請求項10に記載のデータ分析処理支援方法であって、
    前記情報処理装置が、不正箇所や前記各処理の間の不整合に関する情報をユーザに提示しつつ行われる、入出力装置を介した対話方式で前記分析処理設定情報と前記各処理の夫々に対応する前記プラグインとの関係性又は整合性を担保するステップを更に実行する、
    データ分析処理支援方法。
  12. 請求項10に記載のデータ分析処理支援方法であって、
    前記分析処理設定情報は、前記プラグインを特定する情報と前記情報で特定されるプラグインで用いられる変数の設定情報とを含む、
    データ分析処理支援方法。
  13. 請求項10に記載のデータ分析処理支援方法であって、
    前記プラグインは、前記テンプレートが参照するライブラリに関する記述、前記分析処理設定情報と前記各処理の夫々に対応するプラグインとの間で満たすべきルールに関する記述、前記テンプレートを生成する際のオプション情報に関する記述、前記テンプレートの入出力引数の仕様に関する記述、のうちの少なくともいずれかの記述を含む、
    データ分析処理支援方法。
  14. 請求項13に記載のデータ分析処理支援方法であって、
    前記プログラムコードは、前記分析処理設定情報に記述されている変数、前記分析処理設定情報に指定されている夫々のプラグインで設定されている変数、及び前記プラグインに記述されている前記ルールから取得される変数、のうちの少なくともいずれかを参照する記述を含む、
    データ分析処理支援方法。
  15. 請求項11に記載のデータ分析処理支援方法であって、
    前記情報処理装置が、前記プラグインと前記プラグインが参照するプログラムライブラリとの整合性をユーザに提示しつつ行われる前記対話方式で前記分析処理設定情報と前記各処理の夫々に対応する前記プラグインとの整合性を担保するステップを更に実行する、
    データ分析処理支援方法。
  16. 請求項10に記載のデータ分析処理支援方法であって、
    前記各処理の夫々に対応する各プラグインは共通の記法に従って記述されている、
    データ分析処理支援方法。
  17. 請求項10に記載のデータ分析処理支援方法であって、
    前記分析処理設定情報は、前記テンプレートの配布先の所在を示す情報を含み、
    前記情報処理装置が、前記テンプレートを前記配布先に配信する処理を実現するためのコードを生成するステップを更に実行する、
    データ分析処理支援方法。
  18. 請求項17に記載のデータ分析処理支援装置であって、
    前記分析処理設定情報は、前記配布先に配信された前記テンプレートを前記配布先において順に実行させる処理を実現するためのコードを生成するステップを更に実行する、
    データ分析処理支援方法。
JP2017160056A 2017-08-23 2017-08-23 データ分析処理支援装置、及びデータ分析処理支援方法 Active JP6873868B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017160056A JP6873868B2 (ja) 2017-08-23 2017-08-23 データ分析処理支援装置、及びデータ分析処理支援方法
US16/494,471 US10901699B2 (en) 2017-08-23 2018-08-23 Data analysis process assistance device and data analysis process assistance method
PCT/JP2018/031100 WO2019039534A1 (ja) 2017-08-23 2018-08-23 データ分析処理支援装置、及びデータ分析処理支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017160056A JP6873868B2 (ja) 2017-08-23 2017-08-23 データ分析処理支援装置、及びデータ分析処理支援方法

Publications (2)

Publication Number Publication Date
JP2019040287A JP2019040287A (ja) 2019-03-14
JP6873868B2 true JP6873868B2 (ja) 2021-05-19

Family

ID=65440122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017160056A Active JP6873868B2 (ja) 2017-08-23 2017-08-23 データ分析処理支援装置、及びデータ分析処理支援方法

Country Status (3)

Country Link
US (1) US10901699B2 (ja)
JP (1) JP6873868B2 (ja)
WO (1) WO2019039534A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6887182B1 (ja) * 2020-07-01 2021-06-16 株式会社アサヌマホールディングス 入出力をカテゴライズされたオブジェクト間の協働を、配置可能なオブジェクトカテゴリが定義されたオブジェクトグループを利用して実現するコンピュータシステム及びアプリケーションプログラミングインターフェイス装置
CN115777096A (zh) * 2020-07-03 2023-03-10 三菱电机株式会社 数据解析程序创建辅助装置、数据解析程序创建辅助方法及数据解析程序创建辅助程序
CN111813769B (zh) * 2020-07-16 2023-12-12 杭州数梦工场科技有限公司 数据加工方法与装置
WO2022181122A1 (ja) 2021-02-25 2022-09-01 日本電気通信システム株式会社 運用支援装置、システム及び方法並びにコンピュータ可読媒体
CN113778435B (zh) * 2021-06-24 2024-06-18 杭州企客云科技有限公司 应用内的问卷与用户反馈收集方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285128A (ja) 1999-03-31 2000-10-13 Toshiba System Kaihatsu Kk 業務分析システム
US6996832B2 (en) * 2001-05-30 2006-02-07 Bea Systems, Inc. System and method for software component plug-in framework
JP2005275913A (ja) 2004-03-25 2005-10-06 Mitsubishi Electric Corp 情報処理システム、データ取得用プログラム、プログラム生成方法、及びデータ提供方法
US20080162531A1 (en) * 2007-01-03 2008-07-03 Blue Reference, Inc. Object-Oriented Framework for Data-Analysis Having Pluggable Platform Runtimes and Export Services
US9058409B2 (en) * 2011-10-25 2015-06-16 International Business Machines Corporation Contextual data visualization
JP5918368B2 (ja) * 2012-07-13 2016-05-18 株式会社日立製作所 データ分析支援方法及びシステム
US10467594B2 (en) * 2012-08-03 2019-11-05 Label Independent, Inc. Systems and methods for designing, developing, and sharing assays
US9547482B2 (en) * 2015-06-02 2017-01-17 Sap Portals Israel Ltd. Declarative design-time experience platform for code generation
US9880814B1 (en) * 2015-08-13 2018-01-30 F5 Networks, Inc. Dynamic generation of plugins based on user-customized catalogs
US20170337220A1 (en) * 2016-05-18 2017-11-23 Open Access Technologies, Inc. Methods and Systems for Automatically Generating Accessibility Descriptions of Data Visualizations
US10572576B1 (en) * 2017-04-06 2020-02-25 Palantir Technologies Inc. Systems and methods for facilitating data object extraction from unstructured documents

Also Published As

Publication number Publication date
WO2019039534A1 (ja) 2019-02-28
US10901699B2 (en) 2021-01-26
JP2019040287A (ja) 2019-03-14
US20200019383A1 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
JP6873868B2 (ja) データ分析処理支援装置、及びデータ分析処理支援方法
EP3430529B1 (en) Intelligent metadata management and data lineage tracing
US10929173B2 (en) Design-time information based on run-time artifacts in a distributed computing cluster
JP6594950B2 (ja) データ系統の要約
US8887135B2 (en) Generating test cases for functional testing of a software application
US20190303269A1 (en) Methods and systems for testing visual aspects of a web page
CA2684822C (en) Data transformation based on a technical design document
US9075544B2 (en) Integration and user story generation and requirements management
US20210357503A1 (en) Systems and Methods for Detecting Data Alteration from Source to Target
JP2018501538A (ja) 影響分析
KR20150063409A (ko) 프로그래밍 속성의 그래픽 표현
O'Brien et al. Software architecture reconstruction: Practice needs and current approaches
JP2006244195A (ja) プログラムテスト支援装置およびその方法
US11611627B2 (en) Action flow fragment management
JP6440895B2 (ja) ソフトウェア分析装置及びソフトウェア分析方法
JP5576570B2 (ja) 業務仕様からワークフローを生成する方法、プログラム及びシステム
WO2020085129A1 (ja) テストデータ生成装置、テストデータ生成方法及びプログラム
US10114916B1 (en) Method and system to accelerate visualization of waveform data
JP6675868B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US12001324B2 (en) Operation pattern generation apparatus, operation pattern generation method and program
JP6665637B2 (ja) プログラム作成支援システム
Farah et al. Analysis of intercrossed open-source software repositories data in GitHub
US20240078244A1 (en) Methods and Systems for Tracking Data Lineage from Source to Target
JP2013114443A (ja) 資材リリース確認支援システム、資材リリース確認支援方法、資材リリース確認支援プログラム
EP4439309A1 (en) System and method for intelligent synthetic test data generation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210421

R150 Certificate of patent or registration of utility model

Ref document number: 6873868

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150