JP2019159608A - Search device and search method - Google Patents

Search device and search method Download PDF

Info

Publication number
JP2019159608A
JP2019159608A JP2018043561A JP2018043561A JP2019159608A JP 2019159608 A JP2019159608 A JP 2019159608A JP 2018043561 A JP2018043561 A JP 2018043561A JP 2018043561 A JP2018043561 A JP 2018043561A JP 2019159608 A JP2019159608 A JP 2019159608A
Authority
JP
Japan
Prior art keywords
processing
data processing
data
definition
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018043561A
Other languages
Japanese (ja)
Other versions
JP6646699B2 (en
Inventor
亮太 赤井
Ryota Akai
亮太 赤井
一樹 谷本
Kazuki Tanimoto
一樹 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018043561A priority Critical patent/JP6646699B2/en
Publication of JP2019159608A publication Critical patent/JP2019159608A/en
Application granted granted Critical
Publication of JP6646699B2 publication Critical patent/JP6646699B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To facilitate the input of a correct key for each of various analysis elements if a user does not understand the content of the analysis the user wants to perform, to result in facilitating the search for similar analyses.SOLUTION: Analysis usually includes data processing, and the processing characteristics that are the characteristics of the data processing represent the characteristics of the analysis. Therefore, a search device searches for the processing characteristic similar to the specified characteristic (the processing characteristic of specified data processing definition or specified processing characteristic) from one or more processing characteristics that respectively correspond to one or more data processing definitions that have been registered for the analysis. Then, the search device displays search results associated with information related to the data processing definition having the similar processing characteristic.SELECTED DRAWING: Figure 15

Description

本発明は、概して、検索、例えば、分析支援の1つとしての検索に関する。   The present invention generally relates to searching, for example, searching as one of analytical support.

データ分析では、分析対象のデータを準備するデータ準備作業に大半の時間を費やす傾向にある。データ準備作業に費やす時間の削減を図る方法として、今回の分析と類似する過去の分析を探し、当該過去の分析で使用されたデータを、今回の分析の対象とする方法が考えられる。特許文献1に開示の分析支援サーバは、分析目的と、目的カテゴリと、分析手法と、対象データ(項目キーと当該項目キーを用いて取得するデータ項目)といった複数の分析要素をキーに、類似する分析を検索し、当該類似する分析の分析目的、目的カテゴリ、分析手法及び対象データを表示する。   In data analysis, data preparation work for preparing data to be analyzed tends to spend most of the time. As a method of reducing the time spent for data preparation work, a method of searching for a past analysis similar to the current analysis and using the data used in the past analysis as a target of the current analysis can be considered. The analysis support server disclosed in Patent Document 1 is similar to a plurality of analysis elements such as an analysis purpose, a purpose category, an analysis method, and target data (an item key and a data item acquired using the item key) as keys. And the analysis purpose, purpose category, analysis method, and target data of the similar analysis are displayed.

特開2010−205218号公報JP 2010-205218 A

ユーザ(例えば分析者)は、行いたい分析の中身を理解していないと、特許文献1に開示のような様々な分析要素の各々について正しいキーを入力することは難しく、故に、類似する分析を検索することが難しい。例えば、様々な分析要素として、分析の目的や手法等を理解している必要がある。   If the user (for example, an analyst) does not understand the contents of the analysis to be performed, it is difficult to input a correct key for each of various analysis elements as disclosed in Patent Document 1, and therefore, a similar analysis is performed. Difficult to search. For example, it is necessary to understand the purpose and method of analysis as various analysis elements.

分析は、通常、データ加工処理を含んでおり、データ加工処理の特徴である加工処理特徴が、分析の特徴を表している、言い換えれば、分析を区別する。そこで、本発明に係る検索装置は、それぞれが分析について登録済の1以上のデータ加工処理定義にそれぞれ対応した1以上の加工処理特徴から、指定特徴(指定されたデータ加工処理定義の加工処理特徴、又は、指定された加工処理特徴)に類似する加工処理特徴を検索する。そして、検索装置は、類似する加工処理特徴を有するデータ加工処理定義に関する情報が関連付いた検索結果を表示する。なお、「類似する加工処理特徴」とは、指定特徴との関連性に関して所定の条件を満たす加工処理特徴でよく、例えば、指定特徴との一致度が所定度合以上の加工処理特徴でよい。   The analysis usually includes a data processing process, and the processing feature that is a characteristic of the data processing process represents a characteristic of the analysis. In other words, the analysis is distinguished. Therefore, the search device according to the present invention can specify a specified feature (a processing feature of a specified data processing definition from one or more processing features corresponding to each of one or more registered data processing definitions for analysis. Or a processing feature similar to the specified processing feature). Then, the search device displays search results associated with information related to data processing definition having similar processing characteristics. The “similar processing feature” may be a processing feature that satisfies a predetermined condition regarding the relevance with the designated feature. For example, it may be a processing feature having a degree of coincidence with the designated feature equal to or higher than a predetermined level.

ユーザは、様々な分析要素の各々について正しいキーを入力できるほど十分に分析の中身を理解していなくても、行いたい分析に関するデータ加工処理定義(又は、当該データ加工処理定義の加工処理特徴)さえ指定できれば、行いたい分析に類似する分析に関する情報の提示を受けることができる。   Even if the user does not sufficiently understand the contents of the analysis so that the correct key can be input for each of the various analysis elements, the data processing definition related to the analysis to be performed (or processing characteristics of the data processing definition) If it can be specified, information related to the analysis similar to the analysis to be performed can be presented.

実施例1に係る検索装置の構成を示す。1 shows a configuration of a search device according to Embodiment 1. データ登録処理の流れを示す。The flow of data registration processing is shown. データ登録画面の一例を示す。An example of a data registration screen is shown. 分析の一例を模式的に示す。An example of analysis is shown typically. データ加工処理定義の一例の構成を示す。The structure of an example of a data processing process definition is shown. 特徴管理テーブルの構成を示す。The structure of a feature management table is shown. 傾向管理テーブルの構成を示す。The structure of a trend management table is shown. 実施例1に係る特徴抽出処理の流れを示す。3 shows a flow of feature extraction processing according to the first embodiment. 検索処理の流れを示す。The flow of search processing is shown. 実施例1に係る特徴検索の流れを示す。The flow of the feature search based on Example 1 is shown. 検索画面の一例を示す。An example of a search screen is shown. 定義詳細画面の一例を示す。An example of a definition details screen is shown. 実施例2に係る特徴管理テーブルの構成を示す。10 shows a configuration of a feature management table according to the second embodiment. 実施例2に係る特徴抽出処理の流れを示す。The flow of the feature extraction process which concerns on Example 2 is shown. 実施例2に係る特徴検索の流れを示す。10 shows a flow of feature search according to the second embodiment. 実施例1の概要を示す。The outline | summary of Example 1 is shown.

以下の説明では、「インターフェース部」は、1以上のインターフェースデバイスでよい。当該1以上のインターフェースデバイスは、下記のうちのいずれでもよい。
・I/O(Input/Output)デバイスと遠隔の表示用計算機とのうちの少なくとも1つに対するI/Oインターフェースデバイス。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも1つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・1以上の通信インターフェースデバイス。1以上の通信インターフェースデバイスは、1以上の同種の通信インターフェースデバイス(例えば1以上のNIC(Network Interface Card))であってもよいし2以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
In the following description, the “interface unit” may be one or more interface devices. The one or more interface devices may be any of the following.
An I / O interface device for at least one of an I / O (Input / Output) device and a remote display computer. The I / O interface device for the display computer may be a communication interface device. The at least one I / O device may be any of user interface devices, eg, input devices such as a keyboard and pointing device, and output devices such as a display device.
• One or more communication interface devices. The one or more communication interface devices may be one or more similar communication interface devices (for example, one or more NIC (Network Interface Card)) or two or more different types of communication interface devices (for example, NIC and HBA (Host Bus). Adapter)).

また、以下の説明では、「メモリ部」は、1以上のメモリであり、典型的には主記憶デバイスでよい。メモリ部における少なくとも1つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。   In the following description, the “memory unit” is one or more memories, and may typically be a main storage device. The at least one memory in the memory unit may be a volatile memory or a non-volatile memory.

また、以下の説明では、「PDEV部」は、1以上のPDEVであり、典型的には補助記憶デバイスでよい。「PDEV」は、物理的な記憶デバイス(Physical storage DEVice)を意味し、典型的には、不揮発性の記憶デバイス、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)である。   In the following description, the “PDEV unit” is one or more PDEVs, and typically an auxiliary storage device. "PDEV" means a physical storage device (Physical storage DEVice), and is typically a non-volatile storage device such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive).

また、以下の説明では、「記憶部」は、メモリ部とPDEV部の少なくとも一部とのうちの少なくとも1つ(典型的には少なくともメモリ部)である。   In the following description, the “storage unit” is at least one of the memory unit and at least a part of the PDEV unit (typically at least the memory unit).

また、以下の説明では、「プロセッサ部」は、1以上のプロセッサである。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。少なくとも1つのプロセッサとしてのプロセッサは、シングルコアでもよいしマルチコアでもよい。少なくとも1つのプロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。   In the following description, the “processor unit” is one or more processors. The at least one processor is typically a microprocessor such as a CPU (Central Processing Unit), but may be another type of processor such as a GPU (Graphics Processing Unit). The processor as at least one processor may be a single core or a multi-core. The at least one processor may be a processor in a broad sense such as a hardware circuit (for example, a field-programmable gate array (FPGA) or an application specific integrated circuit (ASIC)) that performs part or all of the processing.

また、以下の説明では、「xxxテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。   In the following description, information that can be output with respect to an input may be described using an expression such as “xxx table”. The information may be data of any structure, and may be output with respect to an input. A learning model such as a neural network that generates Therefore, the “xxx table” can be referred to as “xxx information”. In the following description, the configuration of each table is an example, and one table may be divided into two or more tables, or all or part of the two or more tables may be a single table. Good.

また、以下の説明では、「kkk部」(インターフェース部、記憶部及びプロセッサ部を除く)の表現にて機能を説明することがあるが、機能は、1以上のコンピュータプログラムがプロセッサ部によって実行されることで実現されてもよいし、1以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよい。プログラムがプロセッサ部によって実行されることで機能が実現される場合、定められた処理が、適宜に記憶部及び/又はインターフェース部等を用いながら行われるため、機能はプロセッサ部の少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサ部あるいはそのプロセッサ部を有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が1つの機能にまとめられたり、1つの機能が複数の機能に分割されたりしてもよい。   In the following description, the function may be described by the expression “kkk unit” (excluding the interface unit, the storage unit, and the processor unit). However, one or more computer programs are executed by the processor unit. It may be realized by one or more hardware circuits (for example, FPGA or ASIC). When the function is realized by the program being executed by the processor unit, since the predetermined processing is appropriately performed using the storage unit and / or the interface unit, the function is at least a part of the processor unit. May be. The processing described with the function as the subject may be processing performed by the processor unit or a device having the processor unit. The program may be installed from a program source. The program source may be, for example, a program distribution computer or a computer-readable recording medium (for example, a non-transitory recording medium). The description of each function is an example, and a plurality of functions may be combined into one function, or one function may be divided into a plurality of functions.

また、以下の説明では、「検索装置」は、1以上の計算機で構成されてよい。具体的には、例えば、計算機が表示デバイスを有していて計算機が自分の表示デバイスに情報を表示する場合、当該計算機が検索装置でよい。また、例えば、第1計算機(例えばサーバ)が表示用情報を遠隔の第2計算機(表示用計算機(例えばクライアント))に送信し表示用計算機がその情報を表示する場合(第1計算機が第2計算機に情報を表示する場合)、第1計算機と第2計算機とのうちの少なくとも第1計算機が検索装置でよい。つまり、「情報を表示する」ことは、計算機が有する表示デバイスに情報を表示することであってもよいし、計算機が表示用計算機に表示用情報を送信することであってもよい(後者の場合は表示用計算機によって表示用情報が表示される)。また、検索装置としての機能を発揮するためのソフトウェア(コンピュータプログラム)が計算機で実行されることでソフトウェアディファインドの検索装置が実現されてもよい。   In the following description, the “search device” may be composed of one or more computers. Specifically, for example, when a computer has a display device and the computer displays information on its own display device, the computer may be a search device. Also, for example, when the first computer (for example, server) transmits display information to a remote second computer (display computer (for example, client)) and the display computer displays the information (the first computer is the second computer). When displaying information on a computer), at least the first computer of the first computer and the second computer may be a search device. That is, “displaying information” may be displaying information on a display device included in the computer, or may be displaying the display information from the computer to the display computer (the latter). In this case, the display information is displayed by the display computer). In addition, a software-defined search device may be realized by executing software (computer program) for performing the function as a search device on a computer.

以下、図面を参照して、本発明の幾つかの実施例を説明する。   Hereinafter, several embodiments of the present invention will be described with reference to the drawings.

図15は、本実施例の概要を示す。   FIG. 15 shows an outline of the present embodiment.

検索装置101が、ユーザが使用する入出力コンソール160(表示用計算機の一例)から検索要求を受け、当該検索要求に応答して検索を行い、検索の結果としての情報を入出力コンソール160に表示するようになっている。   The search apparatus 101 receives a search request from the input / output console 160 (an example of a display computer) used by the user, performs a search in response to the search request, and displays information as a search result on the input / output console 160. It is supposed to be.

具体的には、例えば、検索装置101は、加工処理検索部111と、検索結果表示部112とを有する。加工処理検索部111は、データ加工処理定義(又はその加工処理特徴)が指定された検索要求を入出力コンソール160から受けて、それぞれが分析について登録済の1以上のデータ加工処理定義121にそれぞれ対応した1以上の加工処理特徴122から、指定されたデータ加工処理定義の加工処理特徴(又は指定された加工処理特徴)に類似する加工処理特徴122を検索する。検索結果表示部112は、類似する加工処理特徴122を有するデータ加工処理定義121に関する情報が関連付いた検索結果1500を表示する。ユーザは、様々な分析要素の各々について正しいキーを入力できるほど十分に分析の中身を理解していなくても、行いたい分析に関するデータ加工処理定義(又は、当該データ加工処理定義の加工処理特徴)さえ指定できれば、行いたい分析に類似する分析に関する情報の提示を受けることができる。すなわち、ユーザは、分析の検索の際に、分析の目的や手法をカテゴライズしなくて済む。また、データ加工処理定義121は、分析の目的や手法をベースに作成されるとは限らない。故に、分析の目的や手法といった観点をキーに検索する方法ではヒットしない分析が見つかる可能性もある。以上のことから、例えば、データ準備作業に費やす時間の削減と、行いたい分析に類似する分析に関する情報が得られる確率の向上とのうちの少なくとも1つが期待できる。なお、加工処理特徴は、分析を区別する特徴のため、本実施例では、いずれのデータ加工処理も、データクレンジングのように多くの分析に共通のデータ加工処理(つまり汎用的なデータ加工処理)ではないものとする。また、データ加工処理定義121は、データ加工処理を示す定義(例えば定義ファイル)である。以下、冗長な表現を避けるために、類似する加工処理特徴122を有する(類似する加工処理特徴122が関連付けられている)データ加工処理定義121を「類似するデータ加工処理定義121」と言い、類似するデータ加工処理定義121に関連付けられているデータ傾向123を、「類似するデータ傾向123」と言うことがある(「データ傾向」については後述する)。   Specifically, for example, the search device 101 includes a processing process search unit 111 and a search result display unit 112. The processing processing search unit 111 receives a search request in which a data processing processing definition (or processing processing characteristics thereof) is designated from the input / output console 160, and each of the processing processing search units 111 adds one or more registered data processing processing definitions 121 for analysis. A processing feature 122 similar to the processing feature (or the specified processing feature) of the specified data processing definition is retrieved from the corresponding one or more processing features 122. The search result display unit 112 displays a search result 1500 associated with information related to the data processing definition 121 having similar processing characteristics 122. Even if the user does not sufficiently understand the contents of the analysis so that the correct key can be input for each of the various analysis elements, the data processing definition related to the analysis to be performed (or processing characteristics of the data processing definition) If it can be specified, information related to the analysis similar to the analysis to be performed can be presented. That is, the user does not have to categorize the purpose and method of analysis when searching for analysis. The data processing definition 121 is not always created based on the purpose and method of analysis. Therefore, there is a possibility that an analysis that does not hit is found by the method of searching using the viewpoint such as the purpose and method of the analysis as a key. From the above, for example, at least one of a reduction in time spent for data preparation work and an improvement in the probability of obtaining information related to analysis similar to the analysis desired to be performed can be expected. In addition, since the processing feature is a feature that distinguishes analysis, in this embodiment, any data processing processing is common to many analyzes like data cleansing (that is, general-purpose data processing processing). Not. The data processing definition 121 is a definition (for example, a definition file) indicating data processing. Hereinafter, in order to avoid redundant expressions, a data processing definition 121 having a similar processing feature 122 (associated with a similar processing feature 122) is referred to as a “similar data processing definition 121”. The data trend 123 associated with the data processing definition 121 to be performed may be referred to as “similar data trend 123” (“data trend” will be described later).

検索装置101は、管理情報130を保持する。管理情報130は、登録済の1以上のデータ加工処理定義121を含む。具体的には、例えば、管理情報130は、1以上のエントリユニット120で構成される。エントリユニット120は、複数のデータセットのグループであり、データ加工処理定義121と、当該データ加工処理定義121に関連付けられた加工処理特徴122及びデータ傾向123のうちの少なくとも1つとで構成される。具体的には、例えば、エントリユニット120において、データ加工処理定義121に、当該データ加工処理定義121が示すデータ加工処理で使用されるデータのデータ傾向123が関連付けられている。「データ傾向」は、データ加工処理において使用されるデータの統計量(例えば、「JIS Z 8101-1:2015 統計
−用語と記号− 第1部:確率及び一般統計用語(日本規格協会)の「1一般統計用語」」に記載されるような統計量など)であり、具体例として、データにおけるデータセット(例えば値)の数、欠損値量、及び、分布などを挙げることができる。また、エントリユニット120において、データ加工処理定義121に、当該データ加工処理定義121の特徴を示す加工処理特徴122が関連付けられている。加工処理特徴122がデータ加工処理定義121に関連付けられていれば、検索の際に、当該データ加工処理定義121について加工処理特徴122を算出する必要が無く、故に、高速な検索が期待できる。また、データ傾向123がデータ加工処理定義121に関連付けられていれば、類似する加工処理特徴122(典型的には、過去の類似する分析のデータ加工処理の特徴)に関し、当該加工処理特徴122を有する分析(データ加工処理)で使用したデータの傾向もわかるので、過去の類似する分析として適切な分析をユーザが見つけ易くなり、結果として、分析の品質及び効率の少なくとも1つの向上が期待できる。なお、「データセット」とは、アプリケーションプログラムのようなプログラムから見た1つの論理的な電子データの塊であり、例えば、レコード、ファイル、キーバリューペア及びタプルのうちのいずれでもよい。本実施例では、例えば、データ加工処理定義121は、ファイルである。また、加工処理特徴が抽出されないデータ加工処理定義121を含んだエントリユニット120には、加工処理特徴122は含まれない。
The search apparatus 101 holds management information 130. The management information 130 includes one or more registered data processing process definitions 121. Specifically, for example, the management information 130 is composed of one or more entry units 120. The entry unit 120 is a group of a plurality of data sets, and includes a data processing definition 121 and at least one of a processing feature 122 and a data trend 123 associated with the data processing definition 121. Specifically, for example, in the entry unit 120, the data processing definition 121 of the data used in the data processing indicated by the data processing definition 121 is associated with the data processing definition 121. “Data trends” are data statistics used in data processing (for example, “JIS Z 8101-1: 2015 Statistics-Terms and Symbols-Part 1: Probability and General Statistical Terms (Japanese Standards Association)“ Statistic as described in "1 general statistical term"), and specific examples include the number of data sets (for example, values) in data, the amount of missing values, and the distribution. In the entry unit 120, the data processing definition 121 is associated with a processing feature 122 indicating the characteristics of the data processing definition 121. If the processing feature 122 is associated with the data processing definition 121, it is not necessary to calculate the processing feature 122 for the data processing definition 121 at the time of search, and therefore high-speed search can be expected. Further, if the data trend 123 is associated with the data processing definition 121, the processing feature 122 is related to a similar processing feature 122 (typically, a data processing feature of a similar analysis in the past). Since the tendency of the data used in the analysis (data processing) that the user has is also known, it becomes easy for the user to find an appropriate analysis as a similar analysis in the past, and as a result, at least one improvement in the quality and efficiency of the analysis can be expected. A “data set” is a single logical electronic data block viewed from a program such as an application program, and may be any of a record, a file, a key-value pair, and a tuple, for example. In this embodiment, for example, the data processing definition 121 is a file. In addition, the processing unit feature 122 is not included in the entry unit 120 including the data processing processing definition 121 from which the processing processing feature is not extracted.

検索結果1500には、類似するデータ傾向を示す情報が関連付けられる。入出力コンソール160において、検索結果画面(検索結果1500を表示する画面)には、一致度の上位n件(nは自然数)の加工処理特徴122の各々について、当該加工処理特徴122を有するデータ加工処理定義121のファイル名(例えば“001.etl”)と、当該データ加工処理定義121に関連付けられているデータ傾向123とが表示される。ユーザは、検索結果を見て、類似するデータ傾向が、行いたい分析に則したデータ傾向であるかを評価することができる。表示されるデータ傾向から、ユーザは、類似するデータ加工処理定義121が、行いたい分析に類似する分析のデータ加工処理定義121であるか否かを判断したり、分析に必要なデータセットがデータに含まれているか否か(例えば、性別で分けた分析をしたいため男性に関するデータセットと女性に関するデータセットの両方があるか否か)を判断したりすることができる。   The search result 1500 is associated with information indicating a similar data trend. In the input / output console 160, on the search result screen (screen for displaying the search result 1500), the data processing having the processing feature 122 for each of the top n processing features 122 (n is a natural number) of the matching degree. The file name (for example, “001.etl”) of the process definition 121 and the data trend 123 associated with the data processing process definition 121 are displayed. The user can evaluate whether or not the similar data tendency is a data tendency according to the analysis to be performed by looking at the search result. From the displayed data trend, the user determines whether or not the similar data processing definition 121 is the data processing definition 121 of the analysis similar to the analysis to be performed, or the data set necessary for the analysis is data. (For example, whether or not there are both a data set related to males and a data set related to females for the purpose of analyzing by sex).

以下、本実施例を詳細に説明する。   Hereinafter, this embodiment will be described in detail.

図1は、検索装置101の構成を示す。   FIG. 1 shows the configuration of the search device 101.

検索装置101は、インターフェース部151、メモリ部152、PDEV部153、及び、それらに接続されたプロセッサ部154を有する。   The search apparatus 101 includes an interface unit 151, a memory unit 152, a PDEV unit 153, and a processor unit 154 connected thereto.

インターフェース部151に、通信ネットワーク(例えばインターネット)170経由で、入出力コンソール160が接続される。入出力コンソール160は、表示用計算機の一例であり、例えば、デスクトップ型、ノート型或いはタブレット型のパーソナルコンピュータである。入出力コンソール160は、入力デバイス161(例えば、キーボード及びポインティングデバイス)と表示デバイス162(例えば、液晶ディスプレイ)とを有する。   An input / output console 160 is connected to the interface unit 151 via a communication network (for example, the Internet) 170. The input / output console 160 is an example of a display computer, and is, for example, a desktop, notebook, or tablet personal computer. The input / output console 160 includes an input device 161 (for example, a keyboard and a pointing device) and a display device 162 (for example, a liquid crystal display).

PDEV部153は、管理情報130を格納する。管理情報130は、特徴管理テーブル181及び傾向管理テーブル182を含む。管理情報130の少なくとも一部が、検索装置101の外部の記憶装置に格納されてもよい。   The PDEV unit 153 stores management information 130. The management information 130 includes a feature management table 181 and a trend management table 182. At least a part of the management information 130 may be stored in a storage device external to the search device 101.

メモリ部152は、1以上のコンピュータプログラムを格納する。当該1以上のコンピュータプログラムの少なくとも1つがプロセッサ部154により実行されることにより、特徴抽出部191、データ登録部192、加工処理検索部111及び検索結果表示部112といった機能が実現される。特徴抽出部191は、指定されたデータ加工処理定義の加工処理特徴を当該指定されたデータ加工処理定義から自動抽出する。これにより、ユーザは、検索キーとなる加工処理定義を指定しなくとも、データ加工処理定義を指定すれば、検索キーとなる加工処理特徴が取得されることになる。データ登録部192は、データ加工処理定義121、加工処理特徴122及びデータ傾向123を管理情報130に登録する。加工処理検索部111及び検索結果表示部112については、上述の通りである。   The memory unit 152 stores one or more computer programs. When at least one of the one or more computer programs is executed by the processor unit 154, functions such as a feature extraction unit 191, a data registration unit 192, a processing processing search unit 111, and a search result display unit 112 are realized. The feature extraction unit 191 automatically extracts the processing feature of the specified data processing definition from the specified data processing definition. As a result, even if the user does not specify the processing definition to be the search key, if the data processing definition is specified, the processing feature to be the search key is acquired. The data registration unit 192 registers the data processing definition 121, the processing feature 122, and the data trend 123 in the management information 130. The processing process search unit 111 and the search result display unit 112 are as described above.

図2は、データ登録処理の流れを示す。   FIG. 2 shows the flow of data registration processing.

データ登録部192が、入出力コンソール160から、データ加工処理定義121と、当該データ加工処理定義121が示すデータ加工処理で利用されたデータのデータ傾向123との入力を受ける(S201)。   The data registration unit 192 receives an input of the data processing definition 121 and the data trend 123 of the data used in the data processing indicated by the data processing definition 121 from the input / output console 160 (S201).

データ登録部192が、特徴抽出部191を呼び出し、特徴抽出部191が、特徴抽出処理を行う(S202)。   The data registration unit 192 calls the feature extraction unit 191, and the feature extraction unit 191 performs feature extraction processing (S202).

データ登録部192が、データ加工処理定義121とデータ傾向123を紐付ける(関連付ける)データ加工処理IDを付与し、データ加工処理定義121に、データ加工処理IDとデータ傾向123を(S202の結果が抽出成功であれば、当該加工処理特徴122も)関連付ける(S203)。S203で、データ加工処理定義121、データ加工処理ID、及びデータ傾向123が(S202の結果が抽出成功であれば、当該加工処理特徴122も)登録される。   The data registration unit 192 assigns a data processing process ID for associating (associating) the data processing process definition 121 with the data trend 123, and the data processing process ID 121 and the data trend 123 are stored in the data processing process definition 121 (the result of S202 is If the extraction is successful, the processing feature 122 is also associated (S203). In S203, the data processing definition 121, the data processing ID, and the data trend 123 are registered (if the result of S202 is a successful extraction, the processing feature 122 is also registered).

データ登録部192は、処理結果を表示する(S204)。ここで言う「処理結果」は、例えば、加工処理特徴122の抽出の有無と、登録の成否と、登録されたデータセット群(1以上のデータセット)に関する情報とを含む。   The data registration unit 192 displays the processing result (S204). The “processing result” referred to here includes, for example, the presence / absence of extraction of the processing feature 122, the success / failure of registration, and information on a registered data set group (one or more data sets).

図3は、データ登録画面の一例を示す。   FIG. 3 shows an example of the data registration screen.

データ登録画面300は、GUI(Graphical User Interface)のようなユーザインターフェース画面である。データ登録画面300は、例えばデータ登録部192により表示されてよい。データ登録画面300は、UI(User Interface)301、302及び303を有する。   The data registration screen 300 is a user interface screen such as a GUI (Graphical User Interface). The data registration screen 300 may be displayed by the data registration unit 192, for example. The data registration screen 300 includes UI (User Interface) 301, 302, and 303.

UI301は、登録対象のデータ加工処理定義の入力用のUIである。UI301を用いて、データ加工処理定義が指定(例えば、データ加工処理定義のファイル名を含むファイルパスが入力)される。   A UI 301 is a UI for inputting a data processing definition to be registered. Using the UI 301, a data processing definition is designated (for example, a file path including the file name of the data processing definition is input).

UI302は、登録対象のデータ加工処理定義が示すデータ加工処理において使用されるデータのデータ傾向の入力用のUIである。UI302によれば、データ傾向は、データにおけるデータ項目と、各データ項目についての標本数、標本欠損数及び標本平均である。   The UI 302 is a UI for inputting a data trend of data used in the data processing indicated by the data processing definition to be registered. According to UI 302, data trends are the data items in the data and the number of samples, the number of sample defects and the sample average for each data item.

UI303は、データ登録処理の開始の指示用のUIである。UI303(例えばボタン)が操作されると、UI301を用いて指定されたデータ加工処理定義とUI302を用いて入力されたデータ傾向との登録のためのデータ登録処理(図2)が開始される。   The UI 303 is a UI for instructing the start of data registration processing. When the UI 303 (for example, a button) is operated, a data registration process (FIG. 2) for registering the data processing process definition specified using the UI 301 and the data trend input using the UI 302 is started.

図4は、分析の一例を模式的に示す。   FIG. 4 schematically shows an example of analysis.

分析は、データ加工処理を含む。データ加工処理実行エンジン(C、Java(登録商標)、Python等の実行エンジン、DBMS(DataBase Management System)、又は、ETL(Extract/Transform/Load)ツール)400が、当該分析に対応したデータ加工処理定義121を読み込み、当該定義121が示すデータ加工処理を実行する。データ加工処理実行エンジン400は、検索装置101とは別の装置で実行されてもよいし、検索装置101で実行されてもよい。データ加工処理は、データセットの結合処理と、データセットの集約処理とのうちの少なくとも1つを含む。   Analysis includes data processing. Data processing processing engine (C, Java (registered trademark), execution engine such as Python, DBMS (DataBase Management System), or ETL (Extract / Transform / Load) tool) 400 performs data processing corresponding to the analysis. The definition 121 is read, and the data processing indicated by the definition 121 is executed. The data processing execution engine 400 may be executed by a device different from the search device 101 or may be executed by the search device 101. The data processing process includes at least one of a data set combining process and a data set aggregation process.

図示の具体例は、次の通りである。入力データは、テーブルA〜Cを含み、出力データは、テーブルDを含む。データ加工処理は、テーブルA〜C内のあるカラム(データ項目)をキーとして結合する結合処理と、結合処理により得られたテーブル内のあるカラムを集約キー及び集約対象としてある手法により集約する集約処理とを含む。集約処理の結果として、テーブルDが出力される。   The specific example shown is as follows. The input data includes tables A to C, and the output data includes table D. The data processing process includes a join process that joins a certain column (data item) in the tables A to C as a key, and an aggregate that aggregates a certain column in the table obtained by the join process using an aggregation key and an aggregation target by a certain method. Processing. Table D is output as a result of the aggregation process.

入力データと出力データの両方又は片方のデータにおける少なくとも1つのデータセットは、テーブルのような構造化データに代えて、非構造化データ(例えば、XML(eXtensible Markup Language)ファイル、又は、JSON(JavaScript Object Notation)ファイル)でもよいし(JavaScriptは登録商標)、非構造化データ(例えば、センサデータ、画像データ又は音声データ)でもよい。入力データと出力データの両方又は片方のデータに関し、データセット数は問わない。結合処理や集約処理の前後に、異常データの除外や数値計算などの他の処理が入っていてもよい。   At least one data set in the input data and / or the output data may be an unstructured data (e.g., XML (eXtensible Markup Language) file or JSON (JavaScript) instead of structured data such as a table. Object Notation) file (JavaScript is a registered trademark), or unstructured data (for example, sensor data, image data, or audio data). The number of data sets is not limited regarding both input data and output data or one of the data. Other processes such as exclusion of abnormal data and numerical calculation may be included before and after the combining process and the aggregation process.

図5は、データ加工処理定義121の一例の構成を示す。   FIG. 5 shows an exemplary configuration of the data processing process definition 121.

データ加工処理定義121は、データ加工処理(例えば図4参照)の内容をテキストで定義したファイルである。図示の例によれば、データ加工処理定義121は、XMLファイルであるが、XMLファイルに代えて、例えば、C、Java(登録商標)、Python言語などのプログラミング言語やSQL文、XML形式、JSON形式などの形式で記述されたデータセットでもよい。   The data processing process definition 121 is a file that defines the contents of the data processing process (for example, see FIG. 4) in text. According to the illustrated example, the data processing definition 121 is an XML file. However, instead of the XML file, for example, a programming language such as C, Java (registered trademark), Python language, SQL statement, XML format, JSON, etc. It may be a data set described in a format.

データ加工処理定義121は、各処理を表す識別子と、該当処理を行うために必要な設定、各処理の順序などの記述を含む。処理を表す識別子として、例えば、<component_type>“A”は、入力Aを意味し、<component_type>“Groupby”は、集約処理を意味し、<component_type>“Join”は、結合処理を意味する。なお、集約処理に関して、処理を行うために必要な集約キー、集約対象、集約方法は、それぞれ<key>、<target>及び<method>として定義されている。   The data processing process definition 121 includes an identifier representing each process, a setting necessary for performing the process, a description of the order of each process, and the like. For example, <component_type> “A” means input A, <component_type> “Groupby” means aggregation processing, and <component_type> “Join” means join processing. Regarding the aggregation process, the aggregation key, the aggregation target, and the aggregation method necessary for performing the process are defined as <key>, <target>, and <method>, respectively.

図6は、特徴管理テーブル181の構成を示す。   FIG. 6 shows the configuration of the feature management table 181.

特徴管理テーブル181は、データ加工処理毎にレコードを有する。各レコードが、データ加工処理ID601、定義名602、集約キー603、集約対象604及び集約方法605といった情報を格納する。集約キー603、集約対象604及び集約方法605の組合せが、加工処理特徴122の一例に相当する。以下、1つのデータ加工処理を例に取る(図6において「対象加工処理」)。   The feature management table 181 has a record for each data processing process. Each record stores information such as a data processing process ID 601, a definition name 602, an aggregation key 603, an aggregation target 604, and an aggregation method 605. A combination of the aggregation key 603, the aggregation target 604, and the aggregation method 605 corresponds to an example of the processing feature 122. Hereinafter, one data processing process is taken as an example (“target processing process” in FIG. 6).

データ加工処理ID601は、対象加工処理に対してデータ登録処理において付与されたIDを示す。定義名602は、対象加工処理に対応したデータ加工処理定義121のファイル名を示す。集約キー603は、対象加工処理(集約処理)において使用されるキーとしてのデータ項目(項目名(カラム名))を示す。集約対象604は、対象加工処理(集約処理)において集約される値が属するデータ項目を示す。集約方法605は、集約方法を示す。   The data processing process ID 601 indicates an ID given to the target processing process in the data registration process. The definition name 602 indicates the file name of the data processing process definition 121 corresponding to the target processing process. An aggregation key 603 indicates a data item (item name (column name)) as a key used in the target processing process (aggregation process). The aggregation target 604 indicates a data item to which the value aggregated in the target processing process (aggregation process) belongs. An aggregation method 605 indicates an aggregation method.

図示の例によれば、例えば次の通りである。例えば、1番目のレコードは、売上明細テーブルから商品毎の売上金額の合計を分析(算出)することを意味する。つまり、データ加工処理実行エンジン400は、データ項目[商品]をキーに、データ項目[商品]に属する全ての売上金額の合計を算出する。2番目のレコードは、同じ売上明細テーブルから性別毎の売上金額の平均を分析することを意味する。このように、分析種別ごとに分類できるケースがあるため、集約処理の集約キー、集約対象及び集約方法の組合せを加工処理特徴122の一例とすることができる。   According to the illustrated example, for example, it is as follows. For example, the first record means analyzing (calculating) the total sales amount for each product from the sales detail table. That is, the data processing execution engine 400 calculates the sum of all sales amounts belonging to the data item [product] using the data item [product] as a key. The second record means analyzing the average sales amount for each gender from the same sales detail table. As described above, since there is a case where the data can be classified for each analysis type, a combination of the aggregation key, the aggregation target, and the aggregation method of the aggregation processing can be an example of the processing feature 122.

図7は、傾向管理テーブル182の構成を示す。   FIG. 7 shows the configuration of the trend management table 182.

傾向管理テーブル182は、データ加工処理毎にレコードを有する。各レコードが、データ加工処理ID701、データ項目702、標本数703、標本欠損数704及び標本平均705といった情報を格納する。データ項目702、標本数703、標本欠損数704及び標本平均705の組合せが、データ傾向123の一例に相当する。以下、1つのデータ加工処理を例に取る(図7において「対象加工処理」)。   The trend management table 182 has a record for each data processing process. Each record stores information such as a data processing ID 701, a data item 702, a sample number 703, a sample defect number 704, and a sample average 705. A combination of the data item 702, the sample number 703, the sample defect number 704, and the sample average 705 corresponds to an example of the data trend 123. Hereinafter, one data processing process is taken as an example (“target processing process” in FIG. 7).

データ加工処理ID701は、対象加工処理に対してデータ登録処理において付与されたIDを示す。データ項目702、標本数703、標本欠損数704及び標本平均705の組合せが、対象加工処理に属するデータ項目毎に存在する。データ項目702は、データ項目を示す。標本数703、標本欠損数704及び標本平均705は、当該データ項目についての標本数、標本欠損数及び標本平均を示す。   The data processing process ID 701 indicates an ID assigned to the target processing process in the data registration process. A combination of a data item 702, a sample number 703, a sample defect number 704, and a sample average 705 exists for each data item belonging to the target processing. A data item 702 indicates a data item. The number of samples 703, the number of sample defects 704, and the sample average 705 indicate the number of samples, the number of sample defects, and the sample average for the data item.

図6及び図7によれば、図15に示したエントリユニット120は、同一のデータ加工処理IDに紐づけられた複数のデータセットである。エントリユニット120における構成要素は下記の通りである。
・データ加工処理定義121は、定義名602から特定されるデータ加工処理定義である。
・加工処理特徴122は、集約キー603、集約対象604及び集約方法605の組合せである。
・データ傾向123は、データ加工処理IDに紐づいたデータ項目毎のデータ項目702、標本数703、標本欠損数704及び標本平均705の組合せである。
6 and 7, the entry unit 120 shown in FIG. 15 is a plurality of data sets associated with the same data processing ID. The components in the entry unit 120 are as follows.
The data processing definition 121 is a data processing definition defined from the definition name 602.
The processing feature 122 is a combination of the aggregation key 603, the aggregation target 604, and the aggregation method 605.
Data trend 123 is a combination of a data item 702, a sample number 703, a sample defect number 704, and a sample average 705 for each data item associated with the data processing ID.

図8は、特徴抽出処理(図2のS202、又は、図9のS902)の流れを示す。   FIG. 8 shows the flow of the feature extraction process (S202 in FIG. 2 or S902 in FIG. 9).

特徴抽出部191が、指定されたデータ加工処理定義を取得する(S801)。ここで、「指定されたデータ加工処理定義」とは、図2のデータ登録処理のために指定されたデータ加工処理定義でもよいし、後述の図9の検索処理のために指定されたデータ加工処理定義でもよい。   The feature extraction unit 191 acquires the designated data processing process definition (S801). Here, the “specified data processing definition” may be the data processing definition specified for the data registration processing of FIG. 2 or the data processing specified for the search processing of FIG. 9 described later. It may be a process definition.

特徴抽出部191が、S801で取得されたデータ加工処理定義に加工処理特徴が存在するか否か、具体的には、<component_type>が“Groupby”である<component>があるか否かを判断する(S802)。   The feature extraction unit 191 determines whether or not there is a processing feature in the data processing definition obtained in S801, specifically, whether or not there is a <component> whose <component_type> is “Groupby”. (S802).

S802の判断結果が偽の場合(S802:No)、特徴抽出部191が、抽出失敗を結果として返す(S803)。   When the determination result in S802 is false (S802: No), the feature extraction unit 191 returns an extraction failure as a result (S803).

S802の判断結果が真の場合(S802:Yes)、特徴抽出部191が、データ加工処理定義から加工処理特徴を抽出、具体的には、<component_type>が“Groupby”である<component>内の<key>、<target>及び<method>でそれぞれ指定された値を取得し、取得した値を、それぞれ、集約キー603、集約対象604及び集約方法605とする(S804)。そして、特徴抽出部191が、抽出した加工処理特徴(集約キー603、集約対象604及び集約方法605)と抽出成功とを結果として返す(S805)。   When the determination result in S802 is true (S802: Yes), the feature extraction unit 191 extracts the processing feature from the data processing definition, specifically, <component_type> is “Groupby” in <component> Values specified by <key>, <target>, and <method> are acquired, and the acquired values are set as an aggregation key 603, an aggregation target 604, and an aggregation method 605, respectively (S804). Then, the feature extraction unit 191 returns the extracted processing feature (the aggregation key 603, the aggregation target 604, and the aggregation method 605) and the extraction success as a result (S805).

図9は、検索処理の流れを示す。   FIG. 9 shows the flow of search processing.

加工処理検索部111が、データ加工処理定義が指定された検索要求を受け付ける(S901)。   The processing process search unit 111 receives a search request in which the data processing process definition is specified (S901).

加工処理検索部111が、特徴抽出部191を呼び出し、特徴抽出部191が、特徴抽出処理を行う(S902)。S902の結果が抽出失敗の場合、検索結果表示部112が、特徴を抽出できず検索ができなかったことを検索結果として表示する(S905)。   The processing search unit 111 calls the feature extraction unit 191 and the feature extraction unit 191 performs a feature extraction process (S902). If the result of S902 is an extraction failure, the search result display unit 112 displays that the feature could not be extracted and the search could not be performed as a search result (S905).

S902の結果が抽出成功の場合、加工処理検索部111が、特徴検索を行う(S903)。すなわち、加工処理検索部111が、抽出された加工処理特徴をキーに、特徴管理テーブル181から、当該加工処理特徴に類似する(例えば、当該加工処理特徴との一致度が所定度合以上である)加工処理特徴を検索する特徴検索を行う。加工処理検索部111が、類似するデータ加工処理定義とそれに紐付くデータ傾向とが関連付いた検索結果を作成する(S904)。当該検索結果は、類似するデータ加工処理定義のデータ加工処理IDも関連付けられる。検索結果表示部112が、S904で作成された検索結果を表示する(S905)。   If the result of S902 is successful, the processing search unit 111 performs a feature search (S903). That is, the processing processing search unit 111 is similar to the processing processing feature from the feature management table 181 using the extracted processing processing feature as a key (for example, the degree of coincidence with the processing processing feature is a predetermined degree or more). Perform a feature search to search for processing features. The processing process search unit 111 creates a search result in which a similar data processing process definition is associated with the data trend associated with it (S904). The search result is also associated with a data processing ID of a similar data processing definition. The search result display unit 112 displays the search result created in S904 (S905).

図10は、特徴検索(図9のS903)の流れを示す。   FIG. 10 shows the flow of feature search (S903 in FIG. 9).

加工処理検索部111が、S902の特徴抽出処理において抽出された加工処理特徴を取得する(S1001)。S1001で取得された加工処理特徴を、図10の説明において「キー特徴」と呼ぶ。   The process search unit 111 acquires the process feature extracted in the feature extraction process of S902 (S1001). The processing feature acquired in S1001 is referred to as “key feature” in the description of FIG.

加工処理検索部111が、特徴管理テーブル181のレコード毎にS1002及びS1003を行う。以下、1つのレコードを例に取る(図10の説明において「対象レコード」)。   The processing search unit 111 performs S1002 and S1003 for each record of the feature management table 181. Hereinafter, one record is taken as an example (“target record” in the description of FIG. 10).

加工処理検索部111が、対象レコードが示す加工処理特徴がキー特徴に類似する(例えば、対象レコードが示す加工処理特徴のキー特徴との一致度が所定度合以上か)か否かを判断する。具体的には、例えば、加工処理検索部111が、対象レコードが示す加工処理特徴を構成する複数の要素(集約キー603、集約対象604及び集約方法605)と、キー特徴を構成する複数の要素のうち、m個(mは自然数、例えばm=2)以上の要素が互いに一致するか否かを判断する(S1002)。   The processing process search unit 111 determines whether or not the processing process feature indicated by the target record is similar to the key feature (for example, the degree of coincidence with the key feature of the processing process feature indicated by the target record is greater than or equal to a predetermined degree). Specifically, for example, the processing processing search unit 111 includes a plurality of elements (aggregation key 603, aggregation target 604, and aggregation method 605) that configure the processing characteristics indicated by the target record, and a plurality of elements that configure the key characteristics. Among these, it is determined whether or not m (m is a natural number, for example, m = 2) or more elements match each other (S1002).

S1002の判断結果が偽の場合(S1002:No)、対象レコードが示す加工処理特徴は、キー特徴に類似しない加工処理特徴である。   When the determination result in S1002 is false (S1002: No), the processing feature indicated by the target record is a processing feature that is not similar to the key feature.

S1002の判断結果が真の場合(S1002:Yes)、対象レコードが示す加工処理特徴は、キー特徴に類似する加工処理特徴である。加工処理検索部111が、当該加工処理特徴に関連付いているデータ加工処理IDを出力する(S1003)。当該データ加工処理IDが、検索結果に関連付けられることになる。   When the determination result in S1002 is true (S1002: Yes), the processing feature indicated by the target record is a processing feature similar to the key feature. The processing processing search unit 111 outputs a data processing processing ID associated with the processing processing feature (S1003). The data processing process ID is associated with the search result.

図11Aは、検索画面の一例を示す。   FIG. 11A shows an example of a search screen.

検索画面1100は、GUIのようなユーザインターフェース画面である。検索画面1100は、第1プレーン1131と第2プレーン1132とを有する。第1プレーン1131を含んだ画面と、第2プレーン1132を含んだ画面とに分離していてもよい。   The search screen 1100 is a user interface screen such as a GUI. The search screen 1100 includes a first plane 1131 and a second plane 1132. The screen including the first plane 1131 and the screen including the second plane 1132 may be separated.

第1プレーン1131の表示は、例えば加工処理検索部111により制御される。第1プレーン1131は、検索キーとするデータ加工処理定義の指定と検索実行の指示とを受け付けるプレーンである。具体的には、例えば、第1プレーン1131は、UI1101及び1102を有する。UI1101は、今回の分析に対応したデータ加工処理定義の入力用のUIである。UI1102は、検索処理の開始の指示用のUIである。UI1102(例えばボタン)が操作されると、UI1101を用いて指定されたデータ加工処理定義をキーとして指定された検索要求が検索装置101へ発行され、当該検索要求に応答して検索処理(図9)が開始される。   The display of the first plane 1131 is controlled by, for example, the processing process search unit 111. The first plane 1131 is a plane that accepts specification of a data processing process definition as a search key and a search execution instruction. Specifically, for example, the first plane 1131 includes UIs 1101 and 1102. A UI 1101 is a UI for inputting a data processing definition corresponding to the current analysis. A UI 1102 is a UI for instructing start of search processing. When a UI 1102 (for example, a button) is operated, a search request specified using the data processing process definition specified using the UI 1101 as a key is issued to the search device 101, and a search process (FIG. 9) is performed in response to the search request. ) Is started.

第2プレーン1132の表示は、例えば検索結果表示部112により制御される。第2プレーン1132は、検索結果が表示されるプレーンである。具体的には、例えば、第2プレーン1132には、検索結果に関連付けられた1以上の検索結果モジュール1105の各々について、UI1106〜1107が表示される。1つの検索結果モジュール1105は、S1103で取得されたデータ加工処理IDに対応する。UI1106は、データ加工処理IDに紐づけられているデータ加工処理定義121の定義名を表示するUIである。UI1107は、データ加工処理IDに紐づけられているデータ傾向(データ項目702、標本数703、標本欠損数704及び標本平均705の組合せ)を表示するUIである。UI1108は、UI1106に表示された定義名に対応するデータ加工処理定義121の詳細を表示することの指示用のUIである。UI1108(例えばボタン)が操作されると、データ加工処理定義121の詳細を表示する定義詳細画面(図11B)が、例えば検索結果表示部112により表示される。   The display of the second plane 1132 is controlled by the search result display unit 112, for example. The second plane 1132 is a plane on which search results are displayed. Specifically, for example, UIs 1106 to 1107 are displayed on the second plane 1132 for each of one or more search result modules 1105 associated with the search results. One search result module 1105 corresponds to the data processing ID acquired in S1103. A UI 1106 is a UI that displays the definition name of the data processing definition 121 associated with the data processing ID. A UI 1107 is a UI for displaying a data trend (a combination of a data item 702, a sample number 703, a sample defect number 704, and a sample average 705) associated with the data processing process ID. A UI 1108 is an instruction UI for displaying details of the data processing definition 121 corresponding to the definition name displayed on the UI 1106. When a UI 1108 (for example, a button) is operated, a definition detail screen (FIG. 11B) for displaying details of the data processing process definition 121 is displayed by, for example, the search result display unit 112.

検索結果に関連付けられた1以上の検索結果モジュール1105の各々には、当該検索結果モジュール1105に対応する類似した分析についてのデータ傾向が含まれている。このため、ユーザにとって、検索結果において提示されているデータ加工処理が、行いたい分析に類似するか否かを判断し易い。   Each of the one or more search result modules 1105 associated with the search result includes a data trend for a similar analysis corresponding to the search result module 1105. For this reason, it is easy for the user to determine whether the data processing presented in the search result is similar to the analysis desired to be performed.

図11Bは、定義詳細画面の一例を示す。   FIG. 11B shows an example of the definition details screen.

定義詳細画面1110は、データ加工処理定義121の詳細として、データ加工処理定義121が示すデータ加工処理を模式的に示す。また、定義詳細画面1110は、データ加工処理について、当該データ加工処理の加工処理特徴の詳細を表示する。詳細は、例えば、加工処理特徴を構成する複数の要素の各々について、当該要素の要素名(例えば“集約キー)”と、当該要素の値(例えば“[商品]”)とを含む。   The definition detail screen 1110 schematically shows the data processing process indicated by the data processing process definition 121 as the details of the data processing process definition 121. The definition detail screen 1110 displays the details of the processing characteristics of the data processing process for the data processing process. The details include, for example, the element name (for example, “aggregation key”) of the element and the value of the element (for example, “[product]”) for each of the plurality of elements constituting the processing feature.

検索結果に加えて、類似するデータ加工処理の詳細が表示されることで、ユーザにとって、検索結果において提示されているデータ加工処理が、行いたい分析に類似するか否かを一層判断し易い。   By displaying the details of the similar data processing process in addition to the search result, it is easier for the user to determine whether or not the data processing process presented in the search result is similar to the analysis to be performed.

実施例2を説明する。その際、実施例1との相違点を主に説明し、実施例1との共通点については説明を省略又は簡略する。   A second embodiment will be described. At that time, differences from the first embodiment will be mainly described, and description of common points with the first embodiment will be omitted or simplified.

図12は、実施例2に係る特徴管理テーブルの構成を示す。   FIG. 12 illustrates a configuration of a feature management table according to the second embodiment.

実施例2に係る特徴管理テーブル1281が有する各レコードは、上述した集約キー603、集約対象604及び集約方法605に代えて、結合テーブルの組合せ1203といった情報を格納する。すなわち、本実施例では、データ加工処理として、集約処理に代えて又は加えて、結合処理が採用される。   Each record included in the feature management table 1281 according to the second embodiment stores information such as a combination table combination 1203 instead of the above-described aggregation key 603, aggregation target 604, and aggregation method 605. In other words, in this embodiment, as the data processing process, a joining process is employed instead of or in addition to the aggregation process.

結合テーブルの組合せ1203の具体例は、次の通りである。売上明細テーブルから商品毎の売上金額の合計を分析する場合、データ加工処理は、POSデータと商品マスタの結合である(1番目のレコード参照)。また、売上明細テーブルから店舗毎の売上金額の合計を分析する場合、データ加工処理は、POSデータと店舗マスタの結合である(2番目のレコード参照)。このように、分析種別ごとに分類できるケースがあるため、結合テーブルの組合せが、加工処理特徴の一例として採用される。   A specific example of the combination table combination 1203 is as follows. When analyzing the total sales amount for each product from the sales details table, the data processing is a combination of POS data and the product master (see the first record). When analyzing the total sales amount for each store from the sales details table, the data processing is a combination of the POS data and the store master (see the second record). As described above, since there are cases where the data can be classified for each analysis type, a combination of combined tables is adopted as an example of a processing feature.

図13は、実施例2に係る特徴抽出処理の流れを示す。   FIG. 13 shows a flow of feature extraction processing according to the second embodiment.

特徴抽出部191が、S801と同様、指定されたデータ加工処理定義を取得する(S1301)。   The feature extraction unit 191 acquires the specified data processing definition as in S801 (S1301).

特徴抽出部191が、S1301で取得されたデータ加工処理定義に加工処理特徴が存在するか否か、具体的には、<component_type>が“Join”である<component>があるか否かを判断する(S1302)。S1302の判断結果が偽の場合(S1302:No)、特徴抽出部191が、S803と同様、抽出失敗を結果として返す(S1303)。   The feature extraction unit 191 determines whether or not there is a processing feature in the data processing definition acquired in S1301, specifically, whether or not there is a <component> whose <component_type> is “Join”. (S1302). When the determination result in S1302 is false (S1302: No), the feature extraction unit 191 returns an extraction failure as a result, similar to S803 (S1303).

S1302の判断結果が真の場合(S1302:Yes)、特徴抽出部191が、<component_type>が“Join”である<component>内の<target_right>, <target_left>で指定された値をすべて取得する(S1304)。特徴抽出部191が、取得した値の中で重複する値がある場合は、ユニークになるように重複値を除外し、結合テーブル組み合わせとして加工処理特徴を抽出する(S1305)。そして、特徴抽出部191が、抽出した加工処理特徴(結合テーブルの組合せ1203)と抽出成功とを結果として返す(S1306)。   When the determination result in S1302 is true (S1302: Yes), the feature extraction unit 191 acquires all the values specified by <target_right> and <target_left> in <component> whose <component_type> is “Join”. (S1304). If there are duplicate values among the acquired values, the feature extraction unit 191 excludes the duplicate values so as to be unique, and extracts the processing feature as a combination table combination (S1305). Then, the feature extraction unit 191 returns the extracted processing feature (combination table combination 1203) and the extraction success as a result (S1306).

図14は、実施例2に係る特徴検索の流れを示す。   FIG. 14 illustrates a flow of feature search according to the second embodiment.

加工処理検索部111が、図13の特徴抽出処理において抽出された加工処理特徴を取得する(S1401)。S1401で取得された加工処理特徴を、図14の説明において「キー特徴」と呼ぶ。   The processing process search unit 111 acquires the processing process feature extracted in the feature extraction process of FIG. 13 (S1401). The processing feature acquired in S1401 is referred to as “key feature” in the description of FIG.

加工処理検索部111が、特徴管理テーブル181のレコード毎にS1402及びS1403を行う。以下、1つのレコードを例に取る(図14の説明において「対象レコード」)。   The processing search unit 111 performs S1402 and S1403 for each record of the feature management table 181. Hereinafter, one record is taken as an example (“target record” in the description of FIG. 14).

加工処理検索部111が、対象レコードが示す加工処理特徴がキー特徴に類似するか否かを判断する。具体的には、例えば、加工処理検索部111が、キー特徴と対象レコードが示す結合テーブルの組合せ1203とが一致するか否かを判断する(S1402)。   The processing search unit 111 determines whether the processing feature indicated by the target record is similar to the key feature. Specifically, for example, the processing search unit 111 determines whether or not the key feature and the combination table combination 1203 indicated by the target record match (S1402).

S1402の判断結果が真の場合(S1402:Yes)、加工処理検索部111が、当該加工処理特徴に関連付いているデータ加工処理IDを出力する(S1403)。   When the determination result in S1402 is true (S1402: Yes), the processing search unit 111 outputs a data processing ID associated with the processing feature (S1403).

以上、幾つかの実施例を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施例にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能である。   Although several embodiments have been described above, these are examples for explaining the present invention, and the scope of the present invention is not intended to be limited to these embodiments. The present invention can be implemented in various other forms.

101…検索装置
101 ... Search device

Claims (10)

それぞれが分析について登録済の1以上のデータ加工処理定義にそれぞれ対応した1以上の加工処理特徴から、指定されたデータ加工処理定義の加工処理特徴又は指定された加工処理特徴に類似する加工処理特徴を検索する加工処理検索部と、
前記類似する加工処理特徴を有するデータ加工処理定義に関する情報が関連付いた検索結果を表示する検索結果表示部と
を有する検索装置。
Processing features of the specified data processing definition or processing features similar to the specified processing feature from one or more processing features each corresponding to one or more registered data processing definitions for analysis A processing search section for searching
And a search result display unit for displaying a search result associated with information related to a data processing definition having the similar processing feature.
前記登録済の1以上のデータ加工処理定義の少なくとも1つのデータ加工処理定義には、当該データ加工処理定義のデータ傾向が関連付けられており、
前記類似する加工処理特徴を有するデータ加工処理定義が前記少なくとも1つのデータ加工処理定義の場合、前記検索結果は、前記類似する加工処理特徴を有するデータ加工処理定義に関連付けられているデータ傾向が関連付けられている、
請求項1に記載の検索装置。
A data trend of the data processing definition is associated with at least one data processing definition of the one or more registered data processing definitions,
When the data processing definition having the similar processing feature is the at least one data processing definition, the search result is associated with a data tendency associated with the data processing definition having the similar processing feature. Being
The search device according to claim 1.
前記少なくとも1つのデータ加工処理定義には、更に、当該データ加工処理定義の加工処理特徴が関連付けられており、
前記類似する加工処理特徴を有するデータ加工処理定義が前記少なくとも1つのデータ加工処理定義の場合、前記検索結果は、前記類似する加工処理特徴を有するデータ加工処理定義に関連付けられている加工処理特徴が関連付けられている、
請求項2に記載の検索装置。
The at least one data processing definition is further associated with a processing feature of the data processing definition,
When the data processing definition having the similar processing feature is the at least one data processing definition, the search result includes a processing feature associated with the data processing definition having the similar processing feature. Associated,
The search device according to claim 2.
下記(a)及び(b)の各々が、データ加工処理に含まれる集約処理の集約キー、集約対象及び集約方法の組合せを含む、
(a)前記指定されたデータ加工処理定義の加工処理特徴、又は、前記指定された加工処理特徴、
(b)前記登録済の1以上のデータ加工処理定義にそれぞれ対応した1以上の加工処理特徴のうちの少なくとも1つ、
請求項1に記載の検索装置。
Each of the following (a) and (b) includes a combination of an aggregation key, an aggregation target, and an aggregation method of an aggregation process included in the data processing process.
(A) a processing feature of the specified data processing definition, or the specified processing feature,
(B) at least one of one or more processing features respectively corresponding to the one or more registered data processing definitions;
The search device according to claim 1.
下記(a)及び(b)の各々が、データ加工処理に含まれる結合処理において結合されるデータ項目の組合せを含む、
(a)前記指定されたデータ加工処理定義の加工処理特徴、又は、前記指定された加工処理特徴、
(b)前記登録済の1以上のデータ加工処理定義にそれぞれ対応した1以上の加工処理特徴のうちの少なくとも1つ、
請求項1に記載の検索装置。
Each of the following (a) and (b) includes a combination of data items to be combined in a combining process included in the data processing process.
(A) a processing feature of the specified data processing definition, or the specified processing feature,
(B) at least one of one or more processing features respectively corresponding to the one or more registered data processing definitions;
The search device according to claim 1.
前記少なくとも1つのデータ加工処理定義に関連付けられているデータ傾向は、当該データ加工処理定義が示すデータ加工処理において使用されるデータの統計量である、
請求項2に記載の検索装置。
The data trend associated with the at least one data processing definition is a statistic of data used in the data processing indicated by the data processing definition.
The search device according to claim 2.
前記登録済の1以上のデータ加工処理定義の少なくとも1つのデータ加工処理定義には、当該データ加工処理定義の加工処理特徴と当該データ加工処理定義のデータ傾向とのうちの少なくとも1つが関連付けられている、
請求項1に記載の検索装置。
At least one of the processing feature of the data processing definition and the data trend of the data processing definition is associated with at least one data processing definition of the one or more registered data processing definitions. Yes,
The search device according to claim 1.
前記指定されたデータ加工処理定義の加工処理特徴を当該指定されたデータ加工処理定義から自動抽出する特徴抽出部、
を更に有する請求項1に記載の検索装置。
A feature extraction unit for automatically extracting the processing feature of the specified data processing definition from the specified data processing definition;
The search device according to claim 1, further comprising:
それぞれが分析について登録済の1以上のデータ加工処理定義にそれぞれ対応した1以上の加工処理特徴から、指定されたデータ加工処理定義の加工処理特徴又は指定された加工処理特徴に類似する加工処理特徴を検索し、
前記類似する加工処理特徴を有するデータ加工処理定義に関する情報が関連付いた検索結果を表示する、
検索方法。
Processing features of the specified data processing definition or processing features similar to the specified processing feature from one or more processing features each corresponding to one or more registered data processing definitions for analysis Search for
Displaying search results associated with information related to data processing definitions having similar processing characteristics;
retrieval method.
それぞれが分析について登録済の1以上のデータ加工処理定義にそれぞれ対応した1以上の加工処理特徴から、指定されたデータ加工処理定義の加工処理特徴又は指定された加工処理特徴に類似する加工処理特徴を検索し、
前記類似する加工処理特徴を有するデータ加工処理定義に関する情報が関連付いた検索結果を表示する、
ことを計算機に実行させるコンピュータプログラム。
Processing features of the specified data processing definition or processing features similar to the specified processing feature from one or more processing features each corresponding to one or more registered data processing definitions for analysis Search for
Displaying search results associated with information related to data processing definitions having similar processing characteristics;
A computer program that causes a computer to execute.
JP2018043561A 2018-03-09 2018-03-09 Search device and search method Active JP6646699B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018043561A JP6646699B2 (en) 2018-03-09 2018-03-09 Search device and search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018043561A JP6646699B2 (en) 2018-03-09 2018-03-09 Search device and search method

Publications (2)

Publication Number Publication Date
JP2019159608A true JP2019159608A (en) 2019-09-19
JP6646699B2 JP6646699B2 (en) 2020-02-14

Family

ID=67993496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018043561A Active JP6646699B2 (en) 2018-03-09 2018-03-09 Search device and search method

Country Status (1)

Country Link
JP (1) JP6646699B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021133164A1 (en) * 2019-12-24 2021-07-01 Mimos Berhad Unstructured data in enterprise data warehouse

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280142A1 (en) * 2013-03-14 2014-09-18 Science Applications International Corporation Data analytics system
US20150261572A1 (en) * 2014-03-11 2015-09-17 International Business Machines Corporation Optimizing parallel data flows with generated job profile data
US20160062790A1 (en) * 2014-09-03 2016-03-03 International Business Machines Corporation Design analysis of data integration job
US20160350201A1 (en) * 2015-05-27 2016-12-01 International Business Machines Corporation Etl data flow design assistance through progressive context matching
JP2017033330A (en) * 2015-08-03 2017-02-09 富士通株式会社 Information processing program, information processing device and record data processing method
WO2018011895A1 (en) * 2016-07-12 2018-01-18 株式会社日立製作所 Data processing flow management system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280142A1 (en) * 2013-03-14 2014-09-18 Science Applications International Corporation Data analytics system
US20150261572A1 (en) * 2014-03-11 2015-09-17 International Business Machines Corporation Optimizing parallel data flows with generated job profile data
US20160062790A1 (en) * 2014-09-03 2016-03-03 International Business Machines Corporation Design analysis of data integration job
US20160350201A1 (en) * 2015-05-27 2016-12-01 International Business Machines Corporation Etl data flow design assistance through progressive context matching
JP2017033330A (en) * 2015-08-03 2017-02-09 富士通株式会社 Information processing program, information processing device and record data processing method
WO2018011895A1 (en) * 2016-07-12 2018-01-18 株式会社日立製作所 Data processing flow management system and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
平下 和幸: "DB管理者のためのWeb−DBデータ公開作法 第2回 DBシステムはどう運用管理すべきか", DB MAGAZINE, vol. 第12巻,第14号, JPN6009068227, 1 January 2003 (2003-01-01), pages 194 - 198, ISSN: 0004173498 *
藤巻 遼平、外1名: "分析プロセス自動化・標準化への挑戦", 情報処理学会 デジタルプラクティス VOL.6 NO.3, vol. 第6巻,第3号, JPN6018021383, 8 November 2016 (2016-11-08), JP, pages 198 - 206, ISSN: 0004173497 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021133164A1 (en) * 2019-12-24 2021-07-01 Mimos Berhad Unstructured data in enterprise data warehouse

Also Published As

Publication number Publication date
JP6646699B2 (en) 2020-02-14

Similar Documents

Publication Publication Date Title
US11704321B2 (en) Techniques for relationship discovery between datasets
US11200248B2 (en) Techniques for facilitating the joining of datasets
US10810472B2 (en) Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN106796595B (en) Declarative language and visualization system for recommended data transformation and repair
US10915233B2 (en) Automated entity correlation and classification across heterogeneous datasets
TWI549006B (en) Contextual gravitation of datasets and data services
US11204707B2 (en) Scalable binning for big data deduplication
US10810009B2 (en) Visualizations of software project and contributor activity
JP2018538603A (en) Identify query patterns and related total statistics between search queries
US20180067986A1 (en) Database model with improved storage and search string generation techniques
JP2016157290A (en) Document search apparatus, document search method, and document search program
US20210342341A1 (en) Data analysis assistance device, data analysis assistance method, and data analysis assistance program
US11308103B2 (en) Data analyzing device and data analyzing method
JP5398663B2 (en) Data processing apparatus, data processing method, and program
US20150149497A1 (en) Determining problem resolutions within a networked computing environment
US20220004885A1 (en) Computer system and contribution calculation method
US10216792B2 (en) Automated join detection
JP6646699B2 (en) Search device and search method
JP6120607B2 (en) Requirement detection apparatus and requirement detection program
CN113760891A (en) Data table generation method, device, equipment and storage medium
US9965766B2 (en) Method to expand seed keywords into a relevant social query
JP7015320B2 (en) Data analysis support device, data analysis support method and data analysis support program
US20160147879A1 (en) Fuzzy Search and Highlighting of Existing Data Visualization
US20190095538A1 (en) Method and system for generating content from search results rendered by a search engine
JP7340952B2 (en) Template search system and template search method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200110

R150 Certificate of patent or registration of utility model

Ref document number: 6646699

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150