JP6563549B1 - Data trend analysis method, data trend analysis system, and narrowing and restoring device - Google Patents

Data trend analysis method, data trend analysis system, and narrowing and restoring device Download PDF

Info

Publication number
JP6563549B1
JP6563549B1 JP2018060783A JP2018060783A JP6563549B1 JP 6563549 B1 JP6563549 B1 JP 6563549B1 JP 2018060783 A JP2018060783 A JP 2018060783A JP 2018060783 A JP2018060783 A JP 2018060783A JP 6563549 B1 JP6563549 B1 JP 6563549B1
Authority
JP
Japan
Prior art keywords
data
data item
restoration
item
trend analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018060783A
Other languages
Japanese (ja)
Other versions
JP2019175009A (en
Inventor
竜矢 木村
竜矢 木村
慎一 尾崎
慎一 尾崎
黒田 沢希
沢希 黒田
響 齋藤
響 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018060783A priority Critical patent/JP6563549B1/en
Application granted granted Critical
Publication of JP6563549B1 publication Critical patent/JP6563549B1/en
Publication of JP2019175009A publication Critical patent/JP2019175009A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】分析対象とするデータ項目を絞り計算負荷を下げつつも、全データ項目を使って分析したのと同様の結果を精度良く得ることを目的とする。また同類と考えられる属性をまとめることで、項目数が多くても分析結果の解釈を容易にすることも目的とする。【解決手段】計算機が、複数の前記データテーブルについてデータ項目間の関連を抽出して、データ項目の関連情報を生成し、関連情報に基づいて前記データ項目の復元情報を生成し、前記関連情報に基づいて前記データ項目のグループを生成し、前記関連情報と前記復元情報に基づいて、前記グループ内のデータ項目から代表データ項目を選択し、前記代表データ項目に対応するデータの傾向分析を実施し、前記代表データ項目が所属する前記グループのデータ項目を前記復元情報に基づいて復元し、前記代表データ項目に対応するデータの傾向分析の結果と、前記データ項目の復元結果を出力する。【選択図】図1An object of the present invention is to obtain the same result as that analyzed using all data items with high accuracy while reducing the calculation load by reducing the data items to be analyzed. It also aims to make it easier to interpret the analysis results even if the number of items is large by collecting similar attributes. A computer extracts relationships between data items for a plurality of the data tables, generates related information of the data items, generates restoration information of the data items based on the related information, and the related information Generating a group of the data items based on the data, selecting a representative data item from the data items in the group based on the related information and the restoration information, and performing a trend analysis of the data corresponding to the representative data item Then, the data item of the group to which the representative data item belongs is restored based on the restoration information, and the result of the trend analysis of the data corresponding to the representative data item and the restoration result of the data item are output. [Selection] Figure 1

Description

本発明は、データの傾向分析に関する。   The present invention relates to data trend analysis.

従来から相関分析や機械学習を用いて大量のデータについてデータ傾向分析を行って、データの特徴を導き出す技術が知られている。また、傾向分析としては、与えられたデータから類似するデータを集めて、いくつかのクラスタに分類したり、類似度を算出するクラスタ手法が知られている。   2. Description of the Related Art Conventionally, a technique for deriving data characteristics by performing data trend analysis on a large amount of data using correlation analysis or machine learning is known. As a trend analysis, a cluster method is known in which similar data is collected from given data and classified into several clusters or the degree of similarity is calculated.

データの特徴やデータ項目間の関係を抽出する技術としては特許文献1が知られている。特許文献1には、分析者(または利用者)がデータの内容を詳しく知らなくても、データ整形に適する主キーとなる列(データ項目)を推薦する技術が開示されている。   Patent Document 1 is known as a technique for extracting data characteristics and relationships between data items. Patent Document 1 discloses a technique for recommending a column (data item) serving as a primary key suitable for data shaping even if an analyst (or user) does not know the details of data in detail.

特開2012−238153号公報JP 2012-238153 A

ビッグデータ分析などにおいては、扱うデータ量が多いため、分析の際のリソースのパフォーマンス不足や分析処理時間が膨大にかかるなどの課題があるため、従来では、人手で入力データを取捨選択して分析対象データの絞込みが行われていた。   In big data analysis, etc., since the amount of data handled is large, there are problems such as insufficient resource performance during analysis and a huge amount of analysis processing time. Conventionally, input data is manually selected and analyzed. The target data was narrowed down.

しかし、人(分析者)の判断で入力データを取捨選択する従来の技術では、重要なデータ項目を見落としてしまう可能性があり、また、有用な分析結果が得られなかった場合には、再度入力データの取捨選択を人手で再度実行する必要が生じて作業量が増える、という問題があった。   However, with the conventional technique of selecting input data at the discretion of a person (analyst), there is a possibility that important data items may be overlooked. There was a problem that the amount of work increased because it was necessary to manually select input data again.

一方で、分析対象データのデータ項目を機械的に絞り込み、絞り込んだデータに基づいて傾向分析を行うと、分析者にとって重要なデータ項目が出力結果として得られない場合があった。   On the other hand, when data items of analysis target data are mechanically narrowed down and trend analysis is performed based on the narrowed down data, data items that are important to the analyst may not be obtained as output results.

そこで、本発明は上記問題点に鑑みてなされたもので、分析対象とするデータ項目を絞り計算負荷を下げつつも、全データ項目を使って分析したのと同様の結果を精度良く得ることを目的とする。また同類と考えられる属性をまとめることで、項目数が多くても分析結果の解釈を容易にすることも目的とする。   Therefore, the present invention has been made in view of the above problems, and it is possible to accurately obtain the same result as that analyzed using all data items while reducing the calculation load by narrowing down the data items to be analyzed. Objective. It also aims to make it easier to interpret the analysis results even if the number of items is large by collecting similar attributes.

本発明は、プロセッサとメモリを含む計算機で、データ項目に対応するデータを有するデータテーブルについてデータの傾向分析を行うデータ傾向分析方法であって、前記計算機が、複数の前記データテーブルについてデータ項目間の関連を抽出して、データ項目の関連情報を生成する第1のステップと、前記計算機が、前記関連情報に基づいて前記データ項目の復元情報を生成する第2のステップと、前記計算機が、前記関連情報に基づいて前記データ項目のグループを生成する第3のステップと、前記計算機が、前記関連情報と前記復元情報に基づいて、前記グループ内のデータ項目から代表データ項目を選択する第4のステップと、前記計算機が、前記代表データ項目に対応するデータの傾向分析を実施する第5のステップと、前記計算機が、前記代表データ項目が所属する前記グループのデータ項目を前記復元情報に基づいて復元する第6のステップと、前記計算機が、前記代表データ項目に対応するデータの傾向分析の結果と、前記データ項目の復元結果を出力する第7のステップと、を含む。   The present invention relates to a data trend analysis method for performing data trend analysis on a data table having data corresponding to a data item in a computer including a processor and a memory. A first step of generating association information of the data item, and a second step of the computer generating restoration information of the data item based on the association information, and the computer A third step of generating a group of the data items based on the related information; and a fourth step in which the computer selects a representative data item from the data items in the group based on the related information and the restoration information. A fifth step in which the computer performs a trend analysis of data corresponding to the representative data item; A sixth step of restoring the data item of the group to which the representative data item belongs based on the restoration information; and a result of trend analysis of data corresponding to the representative data item; And a seventh step of outputting a restoration result of the data item.

したがって、本発明の分析結果は同類の項目をまとめて提示するので、人が分析結果を見やすい。全項目を対象とした分析に近い結果が得られる(分析者の主観的な判断で項目を選択して特徴が失われる分析にならない)分析にかかる計算負荷を低減できる。   Therefore, since the analysis result of the present invention presents similar items together, it is easy for a person to see the analysis result. Results close to the analysis of all items can be obtained (the analysis is not an analysis in which features are lost by selecting an item based on the subjective judgment of the analyst).

本発明の実施例を示し、データ傾向分析システムの一例を示すブロック図である。It is a block diagram which shows the Example of this invention and shows an example of a data trend analysis system. 本発明の実施例を示し、絞り込み及び復元サーバの一例を示すブロック図である。It is a block diagram which shows the Example of this invention and shows an example of a narrowing down and restoration | restoration server. 本発明の実施例を示し、データ傾向分析システムで行われる処理の一例を示すフローチャートである。It is a flowchart which shows the Example of this invention and shows an example of the process performed with a data trend analysis system. 本発明の実施例を示し、スキーマ情報テーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of a schema information table. 本発明の実施例を示し、分析対象データテーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of an analysis object data table. 本発明の実施例を示し、データ間関連結果の一例を示す図である。It is a figure which shows the Example of this invention and shows an example of the relationship result between data. 本発明の実施例を示し、独立データ項目テーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of an independent data item table. 本発明の実施例を示し、データ傾向分析システムで行われる入力データ項目のグループ化処理の一例を示すフローチャートである。It is a flowchart which shows the Example of this invention and shows an example of the grouping process of the input data item performed with a data trend analysis system. 本発明の実施例を示し、サマリーテーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of a summary table. 本発明の実施例を示し、サマリーテーブルへの格納処理の一例を示すフローチャートの前半部である。It is the first half of the flowchart which shows the Example of this invention and shows an example of the storing process to a summary table. 本発明の実施例を示し、サマリーテーブルへの格納処理の一例を示すフローチャートの後半部である。It is a latter half part of the flowchart which shows the Example of this invention and shows an example of the storage process to a summary table. 本発明の実施例を示し、回帰式の一例を示す前期総資産合計と総資産合計のグラフである。It is a graph of the previous period total assets total and total assets total which shows the Example of this invention and shows an example of a regression equation. 本発明の実施例を示し、グループを割り当てたサマリーテーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of the summary table which allocated the group. 本発明の実施例を示し、データ項目とグループの関係の一例を示す図である。It is a figure which shows the Example of this invention and shows an example of the relationship between a data item and a group. 本発明の実施例を示し、代表データの選出処理の一例を示すフローチャートである。It is a flowchart which shows the Example of this invention and shows an example of the selection process of representative data. 本発明の実施例を示し、代表データの選出処理の他の例を示すフローチャートである。It is a flowchart which shows the Example of this invention and shows the other example of the selection process of representative data. 本発明の実施例を示し、代表データの選出処理におけるノードの分割の一例を示す図である。It is a figure which shows the Example of this invention and shows an example of the division | segmentation of the node in the selection process of representative data. 本発明の実施例を示し、代表データの選出処理におけるノードの分割の他の例を示す図である。It is a figure which shows the Example of this invention and shows the other example of the division | segmentation of the node in the selection process of representative data. 本発明の実施例を示し、代表データテーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of a representative data table. 本発明の実施例を示し、復元テーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of a restoration table. 本発明の実施例を示し、データ傾向分析処理の一例を示すフローチャートである。It is a flowchart which shows the Example of this invention and shows an example of a data trend analysis process. 本発明の実施例を示し、データの傾向分析の結果テーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of the result table of the tendency analysis of data. 本発明の実施例を示し、データ復元処理の一例を示すフローチャートである。It is a flowchart which shows the Example of this invention and shows an example of a data restoration process. 本発明の実施例を示し、データ復元計算処理の一例を示すフローチャートである。It is a flowchart which shows the Example of this invention and shows an example of a data restoration calculation process. 本発明の実施例を示し、最終結果テーブルの表示画面の一例を示す図である。It is a figure which shows the Example of this invention and shows an example of the display screen of a final result table. 本発明の実施例を示し、候補テーブルの一例を示す図である。It is a figure which shows the Example of this invention and shows an example of a candidate table.

以下、本発明の実施形態を添付図面に基づいて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.

<データ傾向分析システムの構成>
図1は、本発明の実施例を示し、データ傾向分析システムの一例を示すブロック図である。データ傾向分析システム1は、分析対象データや最終結果などの情報を格納するデータベースサーバ2と、分析対象データのデータ項目の絞り込みと、データ項目の復元を実行する絞り込み及び復元サーバ3と、分析対象データについて傾向分析処理を実行するデータ傾向分析サーバ4と、データ傾向分析システム1を利用するユーザ端末6−1〜6−3と、各サーバとユーザ端末6−1〜6−3を接続するネットワーク5を含む。
<Configuration of data trend analysis system>
FIG. 1 is a block diagram illustrating an example of a data trend analysis system according to an embodiment of the present invention. The data trend analysis system 1 includes a database server 2 that stores information such as analysis target data and final results, a narrowing and restoration server 3 that narrows down data items of the analysis target data, and restores the data items, and an analysis target Data trend analysis server 4 that executes trend analysis processing on data, user terminals 6-1 to 6-3 that use the data trend analysis system 1, and a network that connects each server and user terminals 6-1 to 6-3 5 is included.

なお、以下の説明では、ユーザ端末の個々について特定しない場合には、「−」以降を省略した符号「6」を用いる。その他の構成要素の符号についても同様である。   In the following description, the symbol “6” in which “−” and the subsequent symbols are omitted is used when each user terminal is not specified. The same applies to the reference numerals of other components.

データベースサーバ2は、データベース20と類義語辞書22を提供する計算機で、ネットワークインタフェース(図中I/F)21を介してネットワーク5に接続される。なお、データベースサーバ2では図示しないDBMS(Database management system)が稼働する。   The database server 2 is a computer that provides a database 20 and a synonym dictionary 22 and is connected to the network 5 via a network interface (I / F in the figure) 21. The database server 2 operates a database management system (DBMS) (not shown).

データベース20は、分析対象データのテーブルを格納する分析対象データテーブル220と、分析対象データのスキーマ情報を格納するスキーマ情報テーブル210と、分析対象データのデータ項目間の類似度の計算結果を格納するデータ間関連計算結果230と、データテーブルのデータ項目名を格納する独立データ項目テーブル240と、データ項目間の類似度と回帰式及びグループを格納するサマリーテーブル250と、データの傾向分析の結果を格納する結果テーブル260と、選択された代表データを格納する代表データテーブル270と、代表データ項目を選択するために最小経路(後述)を格納する復元テーブル280と、最終的な演算結果を格納する最終結果テーブル290を含む。   The database 20 stores an analysis target data table 220 that stores a table of analysis target data, a schema information table 210 that stores schema information of the analysis target data, and a similarity calculation result between data items of the analysis target data. The inter-data relation calculation result 230, the independent data item table 240 for storing the data item name of the data table, the similarity table between the data items, the summary table 250 for storing the regression equation and the group, and the result of the data trend analysis. A result table 260 to be stored, a representative data table 270 that stores selected representative data, a restoration table 280 that stores a minimum path (to be described later) for selecting a representative data item, and a final calculation result are stored. A final result table 290 is included.

分析対象データテーブル220は、複数のデータテーブルで構成することができる。類義語辞書22は、データテーブルのデータ項目名の名寄せを行うために予め設定された辞書である。   The analysis target data table 220 can be composed of a plurality of data tables. The synonym dictionary 22 is a dictionary set in advance for name identification of data item names in the data table.

絞り込み及び復元サーバ3は、データ項目間の類似度とデータ項目に対応するデータ間の類似度をそれぞれ算出するデータ間関連分析部310と、データ項目名の類似度とデータの類似度に基づいてデータ項目のグループを生成するグループ生成部320と、各グループで代表となるデータ項目(代表データ項目)を選出する入力代表データ選出部330と、代表データ項目からグループに含まれるデータ項目名を復元する復元式(回帰式)を生成する復元式生成部340と、復元式に基づいて関連するデータ項目(群)を復元するデータ復元部350と、代表データ項目を選出するための候補テーブル360を有する。   The narrowing-down and restoration server 3 is based on the inter-data relationship analysis unit 310 that calculates the similarity between the data items and the similarity between the data corresponding to the data items, and the similarity between the data item names and the data similarity A group generation unit 320 that generates a group of data items, an input representative data selection unit 330 that selects a representative data item (representative data item) in each group, and a data item name included in the group from the representative data item A restoration formula generation unit 340 for generating a restoration formula (regression formula) to be performed, a data restoration unit 350 for restoring a related data item (group) based on the restoration formula, and a candidate table 360 for selecting representative data items Have.

データ傾向分析サーバ4は、データ傾向分析部41を有する。データ傾向分析部41は、前記従来例と同様であり、相関分析や機械学習等の周知又は公知の技術を適用してデータの傾向分析を実行する。本実施例では、絞り込み及び復元サーバ3が選択した代表データ項目に対応する代表データを用いて傾向分析を実行する。   The data trend analysis server 4 has a data trend analysis unit 41. The data trend analysis unit 41 is the same as the conventional example, and performs a data trend analysis by applying a known or well-known technique such as correlation analysis or machine learning. In this embodiment, the trend analysis is executed using the representative data corresponding to the representative data item selected by the narrowing-down and restoration server 3.

ユーザ端末6は、ネットワークインタフェース(図中I/F)61を介してネットワーク5に接続された計算機で、絞り込み及び復元サーバ3に対する指示と応答を行う入出力部62を含む。入出力部62は、キーボードやマウスやタッチパネル等の入力装置とディスプレイなどの出力装置を含む。   The user terminal 6 is a computer connected to the network 5 via a network interface (I / F in the figure) 61 and includes an input / output unit 62 that gives instructions and responses to the narrowing and restoration server 3. The input / output unit 62 includes an input device such as a keyboard, a mouse, and a touch panel, and an output device such as a display.

ユーザ端末6は、データベースサーバ2と絞り込み及び復元サーバ3とデータ傾向分析サーバ4を含むデータ傾向分析システム1を利用してデータの傾向分析を実行する。   The user terminal 6 performs data trend analysis using the data trend analysis system 1 including the database server 2, the narrowing and restoring server 3, and the data trend analysis server 4.

なお、本実施例では、データベースサーバ2と絞り込み及び復元サーバ3とデータ傾向分析サーバ4が異なる計算機で実現される例を示すが、これに限定されるものではない。例えば、データベースサーバ2と絞り込み及び復元サーバ3とデータ傾向分析サーバ4の機能を一つの計算機で提供してもよく、あるいは、各サーバが仮想計算機で稼働するようにしても良い。また、本実施例では、分析対象のデータテーブルをデータ傾向分析システム1内に保持する例を示すが、これに限定されるものではなく、外部の装置から読み込むようにしてもよい。   In the present embodiment, an example is shown in which the database server 2, the narrowing / restoring server 3, and the data trend analysis server 4 are realized by different computers, but the present invention is not limited to this. For example, the functions of the database server 2, the narrowing and restoring server 3, and the data trend analysis server 4 may be provided by a single computer, or each server may be operated by a virtual computer. In the present embodiment, an example in which the data table to be analyzed is held in the data trend analysis system 1 is shown, but the present invention is not limited to this, and it may be read from an external device.

図2は、絞り込み及び復元サーバ3の一例を示すブロック図である。絞り込み及び復元サーバ3は、プロセッサ31と、メモリ32と、ストレージ33と、ネットワークインタフェース34と、を含む計算機である。   FIG. 2 is a block diagram illustrating an example of the narrowing and restoration server 3. The narrowing and restoring server 3 is a computer including a processor 31, a memory 32, a storage 33, and a network interface 34.

メモリ32には、データ間関連分析部310と、グループ生成部320と、入力代表データ選出部330と、復元式生成部340と、データ復元部350がロードされて、プロセッサ31によって実行される。   The memory 32 is loaded with an inter-data relation analysis unit 310, a group generation unit 320, an input representative data selection unit 330, a restoration formula generation unit 340, and a data restoration unit 350, and is executed by the processor 31.

データ間関連分析部310と、グループ生成部320と、入力代表データ選出部330と、復元式生成部340と、データ復元部350の各機能部はプログラムとしてメモリ202にロードされる。   The functional units of the inter-data relation analysis unit 310, the group generation unit 320, the input representative data selection unit 330, the restoration formula generation unit 340, and the data restoration unit 350 are loaded into the memory 202 as programs.

プロセッサ31は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ31は、データ間関連分析プログラムに従って処理することでデータ間関連分析部310として機能する。他のプログラムについても同様である。さらに、プロセッサ31は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。   The processor 31 operates as a functional unit that provides a predetermined function by processing according to a program of each functional unit. For example, the processor 31 functions as the data relation analysis unit 310 by performing processing according to the data relation analysis program. The same applies to other programs. Furthermore, the processor 31 also operates as a function unit that provides each function of a plurality of processes executed by each program. A computer and a computer system are an apparatus and a system including these functional units.

絞り込み及び復元サーバ3の各機能を実現するプログラム、テーブル等の情報は、ストレージ33や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。   Information such as programs and tables for realizing the functions of the narrowing and restoration server 3 includes storage 33, nonvolatile semiconductor memory, hard disk drive, storage device such as SSD (Solid State Drive), IC card, SD card, DVD Etc., and can be stored in a computer readable non-transitory data storage medium.

<処理の概要>
図3は、データ傾向分析システム1で行われる処理の一例を示すフローチャートである。この処理は、絞り込み及び復元サーバ3がユーザ端末6からデータの傾向分析の指示を受け付けたときに開始される。なお、データ分析の指示には、分析対象データテーブル220に含まれるデータテーブルのスキーマ情報や、分析対象のデータテーブルや分析対象のデータの指定を含むことができる。
<Outline of processing>
FIG. 3 is a flowchart illustrating an example of processing performed in the data trend analysis system 1. This processing is started when the narrowing-down and restoration server 3 receives an instruction for data trend analysis from the user terminal 6. The data analysis instruction can include schema information of the data table included in the analysis target data table 220 and designation of the analysis target data table and analysis target data.

本実施例では、分析対象のデータとして創業100年以上の企業の傾向を分析する例を示し、スキーマ情報テーブル210及びテーブル名212から財務諸表や経営者情報等を指定した場合を説明する。以下の説明は、処理の概要を示し、処理の詳細については後述する。   In the present embodiment, an example of analyzing a tendency of a company having a history of over 100 years as analysis target data will be described, and a case where financial statements, management information, etc. are designated from the schema information table 210 and the table name 212 will be described. The following description shows an outline of the processing, and details of the processing will be described later.

ステップS1では、絞り込み及び復元サーバ3は、ユーザ端末6が指定したデータテーブルについてデータ項目(入力データ項目)のグループ化を行う。グループ化は、以下の手順で実行される。   In step S <b> 1, the narrowing and restoration server 3 groups data items (input data items) for the data table specified by the user terminal 6. Grouping is performed in the following procedure.

まず、データ間関連分析部310が、分析対象として指定されたデータテーブルのデータ項目をスキーマ情報テーブル210または分析対象データテーブル220から読み込んで、独立データ項目テーブル240を生成する。なお、スキーマ情報テーブル210には、データベースサーバ2の分析対象データテーブル220に格納されたテーブルのスキーマ情報が予め登録されている。また、データ間関連分析部310は、指定されたデータテーブルの分析対象データテーブル220からデータ項目を取得しても良い。   First, the data relation analysis unit 310 reads the data items of the data table designated as the analysis target from the schema information table 210 or the analysis target data table 220, and generates the independent data item table 240. In the schema information table 210, schema information of tables stored in the analysis target data table 220 of the database server 2 is registered in advance. The inter-data relationship analysis unit 310 may acquire data items from the analysis target data table 220 of the designated data table.

次に、データ間関連分析部310が、独立データ項目テーブル240と分析対象データテーブル220を読み込んで、データ項目間の項目名(自然言語)の類似度と、当該データ項目に対応するデータ(数値)間の類似度と分散値を算出し、データ間関連計算結果230を生成する。   Next, the inter-data relationship analysis unit 310 reads the independent data item table 240 and the analysis target data table 220, and compares the item name (natural language) similarity between the data items and the data (numerical value) corresponding to the data item. ) And a variance value are calculated, and an inter-data relation calculation result 230 is generated.

そして、データ間関連分析部310が、項目名の類似度とデータ間の類似度に基づいて、データ項目のペアを抽出し、サマリーテーブル250を生成する。次に、復元式生成部340が、サマリーテーブル250のデータ項目のペアに対して双方向の復元式(回帰式)を生成してサマリーテーブル250に格納する。また、グループ生成部320は、データ項目のペアにグループを割り当ててサマリーテーブル250を更新する。   Then, the data relation analysis unit 310 extracts a pair of data items based on the similarity between the item names and the similarity between the data, and generates a summary table 250. Next, the restoration formula generation unit 340 generates a bidirectional restoration formula (regression formula) for the data item pair in the summary table 250 and stores it in the summary table 250. Further, the group generation unit 320 updates the summary table 250 by assigning a group to the data item pair.

次にステップS2では、入力代表データ選出部330が、サマリーテーブル250の各グループから当該グループを代表するデータ項目を代表データ項目として選択する。   Next, in step S <b> 2, the input representative data selection unit 330 selects a data item representing the group from each group of the summary table 250 as a representative data item.

次に、ステップS3では、絞り込み及び復元サーバ3が、選択された代表データ項目と代表データ項目のデータをデータ傾向分析サーバ4に通知して、データの傾向分析を実行させる。なお、本実施例では、入力代表データ選出部330が、データ傾向分析サーバ4に代表データ項目のデータ(データテーブルやデータ項目等)を通知する例を示すが、他の機能部が実施しても良い。   Next, in step S3, the narrowing down and restoration server 3 notifies the data trend analysis server 4 of the selected representative data item and the data of the representative data item, and causes the data trend analysis to be executed. In the present embodiment, an example is shown in which the input representative data selection unit 330 notifies the data trend analysis server 4 of the data (data table, data item, etc.) of the representative data item. Also good.

データ傾向分析サーバ4は、絞り込み及び復元サーバ3から通知された代表データ項目のデータをデータベースサーバ2から読み込んで、所定の傾向分析(傾向推定)を実行する。傾向分析が完了するとデータ傾向分析サーバ4は、傾向分析の結果を絞り込み及び復元サーバ3に応答する。   The data trend analysis server 4 reads the data of the representative data item notified from the narrowing and restoration server 3 from the database server 2 and executes a predetermined trend analysis (trend estimation). When the trend analysis is completed, the data trend analysis server 4 narrows down the result of the trend analysis and responds to the restoration server 3.

ステップS4では、傾向分析の結果を受信した絞り込み及び復元サーバ3ではデータ復元部350が、代表データ項目以外のデータ項目を回帰式に基づいて復元する。そして、データ復元部350は、代表データ項目に関連する復元後のデータ項目と傾向分析の結果を最終結果テーブル290に格納する。データ復元部350は、最終結果テーブル290の内容をユーザ端末6に出力する。   In step S4, in the refinement and restoration server 3 that has received the result of the trend analysis, the data restoration unit 350 restores data items other than the representative data item based on the regression equation. Then, the data restoration unit 350 stores the restored data item related to the representative data item and the result of the trend analysis in the final result table 290. The data restoration unit 350 outputs the contents of the final result table 290 to the user terminal 6.

以上のような処理によって、ユーザ端末6を利用する分析者にとって重要なデータ項目を、分析者の主観的な解釈に依存することなく、精度よくデータ項目を復元し、適切な分析結果を得ることが可能となる。   Through the processing as described above, data items that are important for the analyst using the user terminal 6 can be accurately restored without depending on the subjective interpretation of the analyst, and appropriate analysis results can be obtained. Is possible.

すなわち、本実施例のデータ傾向分析システム1では、関連のあるデータ項目について、データ項目の名称を自然言語の類似度と、データ項目に対応するデータの数値の類似度の双方について比較することで、絞り込むデータ項目をグループ化する。   That is, in the data trend analysis system 1 of the present embodiment, for the related data items, the names of the data items are compared with both the natural language similarity and the numerical similarity of the data corresponding to the data item. Group data items to be narrowed down.

次に、データ傾向分析システム1では、グループ化されたデータ項目の中から、復元式による復元精度が高くなる代表データ項目を選択する。そして、データ傾向分析システム1は、選択されたデータ項目のデータについて、データの傾向分析を実行する。これにより、絞り込まれたデータ項目に対応する少量のデータによって、全ての分析対象データについて傾向分析を実施した場合と同等の傾向分析の結果を得ることができる。   Next, the data trend analysis system 1 selects a representative data item whose restoration accuracy by the restoration formula is high from the grouped data items. Then, the data trend analysis system 1 performs data trend analysis on the data of the selected data item. Thereby, the result of the trend analysis equivalent to the case where the trend analysis is performed on all the analysis target data can be obtained with a small amount of data corresponding to the narrowed data items.

データ傾向分析システム1では、最後に、代表データ項目のグループ内のデータ項目を復元して、データの傾向分析結果とともにユーザ端末6へ出力することで、分析者に対して、絞り込みの根拠及び全体を提示することが可能となる。   Finally, the data trend analysis system 1 restores the data items in the group of representative data items, and outputs them to the user terminal 6 together with the data trend analysis results, thereby allowing the analyst to narrow down the grounds and overall Can be presented.

なお、データ傾向分析サーバ4が実行する傾向分析(傾向推定)については、周知または公知の技術を適用すれば良いので、本実施例では詳述しない。   Note that the trend analysis (trend estimation) executed by the data trend analysis server 4 is not described in detail in this embodiment because a known or publicly known technique may be applied.

<テーブルの構成>
図4は、スキーマ情報テーブル210の一例を示す図である。スキーマ情報テーブル210には、分析対象データテーブル220に格納されたデータテーブルのスキーマ情報が予め設定される。
<Table configuration>
FIG. 4 is a diagram illustrating an example of the schema information table 210. In the schema information table 210, schema information of the data table stored in the analysis target data table 220 is set in advance.

スキーマ情報テーブル210は、識別番号(図中#)211と、テーブル名212と、項目名213をひとつのエントリに含む。なお、図示の例では、2つの項目の例を示したが、その他の項目を含むことができる。   The schema information table 210 includes an identification number (# in the figure) 211, a table name 212, and an item name 213 in one entry. In the illustrated example, the example of two items is shown, but other items may be included.

項目名213には、後述する分析対象データテーブル220のデータ項目(フィールド名)が自然言語で格納される。   In the item name 213, a data item (field name) of an analysis target data table 220 described later is stored in a natural language.

図5は、分析対象データテーブル220の一例を示す図である。分析対象データテーブル220は、データベースサーバ2に予め格納された分析対象データのテーブルである。なお、分析対象データテーブル220は複数のデータテーブルで構成され、図示の例では財務諸表のデータテーブルの例を示す。   FIG. 5 is a diagram illustrating an example of the analysis target data table 220. The analysis target data table 220 is a table of analysis target data stored in advance in the database server 2. The analysis target data table 220 includes a plurality of data tables, and the illustrated example shows an example of a financial statement data table.

分析対象データテーブル220は、企業コード221と、売上高222と、売上原価223と、営業利益224と、流動資産225と、固定資産226と、流動負債227と、固定負債228と、資本金229と、をひとつのエントリに含む。   The analysis target data table 220 includes a company code 221, sales 222, cost of sales 223, operating profit 224, current assets 225, fixed assets 226, current liabilities 227, fixed liabilities 228, and capital 229. And in one entry.

分析対象データテーブル220は、データテーブルの毎にデータ項目は異なるが、各フィールドのデータには数値が格納される。   The analysis target data table 220 has different data items for each data table, but numerical values are stored in the data of each field.

図6は、データ間関連計算結果230の一例を示す図である。データ間関連計算結果230は、データ間関連分析部310によって生成されるテーブルである。   FIG. 6 is a diagram illustrating an example of the inter-data relation calculation result 230. The inter-data relation calculation result 230 is a table generated by the inter-data relation analysis unit 310.

データ間関連計算結果230は、識別番号(図中#)231と、データ項目(x)232と、データ項目(y)233と、項目名の類似度234と、分散の差235と、データ間類似度236をひとつのエントリに含む。   The inter-data relation calculation result 230 includes an identification number (# in the figure) 231, a data item (x) 232, a data item (y) 233, an item name similarity 234, a variance difference 235, and an inter-data The similarity 236 is included in one entry.

データ項目(x)232とデータ項目(y)233には、ペアとなる独立データ項目テーブル240(後述)の項目名242の値が格納される。項目名の類似度234には、データ項目(x)232とデータ項目(y)233の自然言語による項目名の類似度が格納される。   In the data item (x) 232 and the data item (y) 233, the value of the item name 242 of the independent data item table 240 (described later) as a pair is stored. The item name similarity 234 stores the item name similarity of the data item (x) 232 and the data item (y) 233 in the natural language.

分散の差235には、データ項目(x)232のデータ(数値)と、データ項目(y)233のデータ(数値)の分散値の差分が格納される。データ間類似度236には、データ項目(x)232のデータ(数値)と、データ項目(y)233のデータ(数値)の類似度が格納される。   The variance difference 235 stores the difference between the data (numerical value) of the data item (x) 232 and the variance value of the data (numeric value) of the data item (y) 233. In the inter-data similarity 236, the similarity between the data (numerical value) of the data item (x) 232 and the data (numerical value) of the data item (y) 233 is stored.

図7は、独立データ項目テーブル240の一例を示す図である。独立データ項目テーブル240は、データ間関連分析部310によって生成される。独立データ項目テーブル240は、識別番号(図中#)241と、項目名242をひとつのエントリに含む。   FIG. 7 is a diagram illustrating an example of the independent data item table 240. The independent data item table 240 is generated by the data relation analysis unit 310. The independent data item table 240 includes an identification number (# in the figure) 241 and an item name 242 in one entry.

項目名242には、上述のように分析対象データテーブル220のデータ項目が自然言語で格納される。   In the item name 242, the data items of the analysis target data table 220 are stored in the natural language as described above.

図9は、サマリーテーブル250の一例を示す図である。サマリーテーブル250は、グループ生成部320によって更新される。   FIG. 9 is a diagram illustrating an example of the summary table 250. The summary table 250 is updated by the group generation unit 320.

サマリーテーブル250は、識別番号(図中#)251と、データ項目(x)252と、データ項目(y)253と、データ間類似度254と、回帰式(x→yの復元)255と、回帰式(y→xの復元)256と、グループ#257をひとつのエントリに含む。   The summary table 250 includes an identification number (# in the figure) 251, a data item (x) 252, a data item (y) 253, an inter-data similarity 254, a regression equation (reconstruction of x → y) 255, The regression equation (reconstruction of y → x) 256 and group # 257 are included in one entry.

データ項目(x)252とデータ項目(y)253は、データ間関連計算結果230のデータ項目(x)232とデータ項目(y)233の内容が格納される。データ間類似度254には、データ間関連計算結果230のデータ間類似度236の値が格納される。   The data item (x) 252 and the data item (y) 253 store the contents of the data item (x) 232 and the data item (y) 233 of the inter-data relation calculation result 230. The inter-data similarity 254 stores the value of the inter-data similarity 236 of the inter-data relation calculation result 230.

回帰式(x→yの復元)255には、データ項目(x)252のデータからデータ項目(y)253を復元するための回帰式が格納される。回帰式(y→xの復元)256には、データ項目(y)253のデータからデータ項目(x)252を復元するための回帰式が格納される。   The regression equation (reconstruction of x → y) 255 stores a regression equation for restoring the data item (y) 253 from the data item (x) 252 data. The regression equation (reconstruction of y → x) 256 stores a regression equation for restoring the data item (x) 252 from the data item (y) 253 data.

グループ#257には、データ項目(x)252とデータ項目(y)253のペアが所属するグループの識別子(グループ番号)が格納される。   Group # 257 stores an identifier (group number) of a group to which a pair of data item (x) 252 and data item (y) 253 belongs.

なお、図13は、図9のサマリーテーブル250のグループ#257にグループ番号が付与された状態を示す図である。   FIG. 13 is a diagram showing a state in which a group number is assigned to group # 257 of summary table 250 in FIG.

図19は、代表データテーブル270の一例を示す図である。代表データテーブル270は、入力代表データ選出部330によって生成される。代表データテーブル270は、識別番号(図中#)271と、項目名272をひとつのエントリに含む。   FIG. 19 is a diagram illustrating an example of the representative data table 270. The representative data table 270 is generated by the input representative data selection unit 330. The representative data table 270 includes an identification number (# in the figure) 271 and an item name 272 in one entry.

図20は、復元テーブル280の一例を示す図である。復元テーブル280は、入力代表データ選出部330によって生成される。   FIG. 20 is a diagram illustrating an example of the restoration table 280. The restoration table 280 is generated by the input representative data selection unit 330.

復元テーブル280は、識別番号(図中#)281と、データ項目(x)282と、データ項目(y)283と、回帰式(x→yの復元)284をひとつのエントリに含む。   The restoration table 280 includes an identification number (# in the figure) 281, a data item (x) 282, a data item (y) 283, and a regression equation (x → y restoration) 284 in one entry.

データ項目(x)282とデータ項目(y)283には、サマリーテーブル250のデータ項目(x)252とデータ項目(y)253の内容が格納される。回帰式(x→yの復元)284にはサマリーテーブル250の回帰式(x→yの復元)255の値が格納される。   The data item (x) 282 and the data item (y) 283 store the contents of the data item (x) 252 and the data item (y) 253 of the summary table 250. The regression equation (reconstruction of x → y) 284 stores the value of the regression equation (reconstruction of x → y) 255 of the summary table 250.

図22は、データの傾向分析の結果テーブル260の一例を示す図である。データの傾向分析の結果テーブル260は、データ復元部350によって生成される。   FIG. 22 is a diagram illustrating an example of a result table 260 of data trend analysis. The data trend analysis result table 260 is generated by the data restoration unit 350.

データの傾向分析の結果テーブル260は、識別番号(図中#)261と、条件1(262)と、条件2(263)をひとつのエントリに含む。本実施例では、創業100年以上の企業の傾向分析結果として、条件1(262)と条件2(263)を共に満たす企業が創業から100年以上継続可能な企業の可能性が高い、ということを示す。   The data trend analysis result table 260 includes an identification number (# in the figure) 261, condition 1 (262), and condition 2 (263) in one entry. In this example, as a result of trend analysis of companies over 100 years old, it is highly likely that companies that satisfy both Condition 1 (262) and Condition 2 (263) can continue for more than 100 years since their founding. Indicates.

図26は、候補テーブル360の一例を示す図である。候補テーブル360は入力代表データ選出部330が管理するテーブルである。   FIG. 26 is a diagram illustrating an example of the candidate table 360. The candidate table 360 is a table managed by the input representative data selection unit 330.

候補テーブル360は、識別番号361と、項目名362と、分散の差363をひとつのエントリに含む。識別番号361には、入力代表データ選出部330が付与した値が格納される。項目名362と分散の差363には入力代表データ選出部330が選択した代表データ項目の候補の値が格納される。   The candidate table 360 includes an identification number 361, an item name 362, and a variance difference 363 in one entry. The identification number 361 stores a value assigned by the input representative data selection unit 330. In the item name 362 and the variance difference 363, the representative data item candidate value selected by the input representative data selection unit 330 is stored.

<処理の詳細>
図8は、データ傾向分析システム1で行われるデータ項目のグループ化処理の一例を示すフローチャートである。この処理は、図3のステップS1で行われる。
<Details of processing>
FIG. 8 is a flowchart illustrating an example of data item grouping processing performed in the data trend analysis system 1. This process is performed in step S1 of FIG.

データ傾向分析システム1の絞り込み及び復元サーバ3は、ユーザ端末6から傾向分析を実施するデータテーブル(スキーマ情報テーブル210、分析対象データテーブル220)の情報を受け付ける。本実施例では、上述のように創業から100年以上継続されている企業のデータのみが格納されたデータテーブルを用いる例を示す。   The narrowing-down and restoration server 3 of the data trend analysis system 1 receives information on the data tables (the schema information table 210 and the analysis target data table 220) for performing the trend analysis from the user terminal 6. In this embodiment, as shown above, an example is shown in which a data table storing only the data of a company that has been continued for more than 100 years since its establishment is used.

まず、ステップS11では、データ間関連分析部310が、分析対象として指定されたデータテーブルのデータ項目をスキーマ情報テーブル210または分析対象データテーブル220から読み込んで、独立データ項目テーブル240を生成する。   First, in step S11, the data relation analysis unit 310 reads the data items of the data table designated as the analysis target from the schema information table 210 or the analysis target data table 220, and generates the independent data item table 240.

独立データ項目テーブル240には、分析対象として指定された1以上のデータテーブルの全てのデータ項目が自然言語で格納される。なお、本実施例の分析対象データテーブル220では、データ項目の名称は自然言語で記載されているものとする。   In the independent data item table 240, all data items of one or more data tables designated as analysis targets are stored in a natural language. Note that in the analysis target data table 220 of this embodiment, the names of the data items are described in natural language.

ステップS12では、データ間関連分析部310が、独立データ項目テーブル240の項目名242の全ての組合せについて、ステップS21までの処理を繰り返して実行する。データ間関連分析部310は、独立データ項目テーブル240から2つの項目名242を選択してから以下の処理を実行する。   In step S12, the data relation analysis unit 310 repeatedly executes the processing up to step S21 for all combinations of the item names 242 in the independent data item table 240. The data relation analysis unit 310 selects the two item names 242 from the independent data item table 240 and then executes the following processing.

ステップS13では、データ間関連分析部310が、選択された2つの項目名242の組合せについて自然言語による類似度を算出する。なお、2つの項目名242の類似度の算出は、周知または公知の技術を適用することができる。例えば、Ratcliff とObershelp による「ゲシュタルトパターンマッチング」(https://docs.python.jp/3/library/difflib.html)と呼ばれるアルゴリズムを利用して類似度を算出することができる。   In step S <b> 13, the data relation analysis unit 310 calculates the similarity in natural language for the combination of the two selected item names 242. It should be noted that a known or publicly known technique can be applied to calculate the similarity between the two item names 242. For example, the similarity can be calculated using an algorithm called “Gestalt pattern matching” (https://docs.python.jp/3/library/difflib.html) by Ratcliff and Obershelp.

ステップS14では、データ間関連分析部310が、算出された類似度と予め設定された閾値Th1を比較して、類似度が閾値Th1以上であるか否かを判定する。類似度が閾値Th1以上であればステップS15へ進み、類似度が閾値Th1未満であればステップS21へ進んで次の項目名242の組合せを選択して上記処理を繰り返す。   In step S14, the data relation analysis unit 310 compares the calculated similarity with a preset threshold Th1, and determines whether or not the similarity is equal to or greater than the threshold Th1. If the similarity is greater than or equal to the threshold Th1, the process proceeds to step S15. If the similarity is less than the threshold Th1, the process proceeds to step S21, and the next combination of item names 242 is selected and the above process is repeated.

ステップS15では、データ間関連分析部310が、選択された2つの項目名242に対応するデータ項目のデータ(数値)を分析対象データテーブル220から取得して、データの組み合わせの分散値の差分を算出する。分散値の差分の算出は次の(1)式を用いることができる。   In step S15, the data relation analysis unit 310 acquires data (numerical value) of the data item corresponding to the two selected item names 242 from the analysis target data table 220, and calculates the difference between the variance values of the data combination. calculate. The following equation (1) can be used to calculate the difference between the variance values.

ただし、「A」は、データ項目(x)の各データ値を示し、「B」は、データ項目(y)の各データ値を示し、「Aavg」は、データ項目(x)の加算平均値、「Bavg」は、データ項目(y)の加算平均値、「n」はデータの数を示す。また、データ項目(x)とデータ項目(y)は組み合わせたデータ項目を示す。   However, “A” indicates each data value of the data item (x), “B” indicates each data value of the data item (y), and “Aavg” indicates the addition average value of the data item (x). , “Bavg” indicates the addition average value of the data item (y), and “n” indicates the number of data. The data item (x) and the data item (y) indicate a combined data item.

ステップS16では、データ間関連分析部310が、算出された分散値の差分と予め設定された閾値Thsを比較して、分散値の差分が閾値Ths以下であるか否かを判定する。分散値の差分が閾値Ths以下であればステップS17へ進み、分散値の差分が閾値Thsより上であればステップS21へ進んで次の項目名242の組合せを選択して上記処理を繰り返す。   In step S16, the inter-data relationship analysis unit 310 compares the calculated variance value difference with a preset threshold value Ths, and determines whether or not the variance value difference is equal to or less than the threshold value Ths. If the variance value difference is equal to or smaller than the threshold value Ths, the process proceeds to step S17. If the variance value difference is higher than the threshold value Ths, the process proceeds to step S21, and the combination of the next item name 242 is selected and the above process is repeated.

ステップS17では、データ間関連分析部310が、選択された2つの項目名242に対応するデータ項目のデータ(数値)を分析対象データテーブル220から取得して、データ間の類似度を算出する。データ間の類似度についても上述のステップS13と同様に「ゲシュタルトパターンマッチング」を用いることができる。   In step S <b> 17, the data relation analysis unit 310 acquires data items (numerical values) corresponding to the two selected item names 242 from the analysis target data table 220, and calculates the similarity between the data. As for the degree of similarity between data, “Gestalt pattern matching” can be used as in step S13.

ステップS18では、データ間関連分析部310が、算出された類似度と予め設定された閾値Th2を比較して、類似度が閾値Th2以上であるか否かを判定する。類似度が閾値Th2以上であればステップS19へ進み、類似度が閾値Th1未満であればステップS21へ進んで次の項目名242の組合せを選択して上記処理を繰り返す。   In step S18, the data relationship analysis unit 310 compares the calculated similarity with a preset threshold Th2, and determines whether the similarity is equal to or greater than the threshold Th2. If the similarity is greater than or equal to the threshold Th2, the process proceeds to step S19. If the similarity is less than the threshold Th1, the process proceeds to step S21, and the next combination of item names 242 is selected and the above process is repeated.

ステップS19では、データ間関連分析部310が、現在選択されている項目名242を含む2つのレコードを独立データ項目テーブル240から削除する。   In step S <b> 19, the data relation analysis unit 310 deletes two records including the currently selected item name 242 from the independent data item table 240.

ステップS20では、データ間関連分析部310が、現在選択されている2つの項目名242をペアとして後述するようにサマリーテーブル250へ格納する。また、データ間関連分析部310は、現在選択されている2つの項目名242を、データ間関連計算結果230のデータ項目(x)232とデータ項目(y)233へ格納し、項目名242の類似度を項目名の類似度234へ格納し、分散値の差分を分散の差235へ格納し、データ間の数値の類似度をデータ間類似度236へ格納し、識別番号231を付与する。   In step S20, the data relation analysis unit 310 stores the two currently selected item names 242 as a pair in the summary table 250 as described later. Further, the inter-data relation analysis unit 310 stores the two currently selected item names 242 in the data item (x) 232 and the data item (y) 233 of the inter-data relation calculation result 230, and stores the item name 242. The similarity is stored in the item name similarity 234, the variance difference is stored in the variance difference 235, the numerical similarity between the data is stored in the inter-data similarity 236, and an identification number 231 is assigned.

ステップS21では、データ間関連分析部310が、次の項目名242のペアを選択して上記処理を繰り返し、独立データ項目テーブル240の項目名242の全ての組み合わせについて完了すれば当該処理を終了する。   In step S21, the inter-data relationship analysis unit 310 selects the next item name 242 pair and repeats the above processing. When all the combinations of the item names 242 in the independent data item table 240 are completed, the processing ends. .

上記処理により、データ項目の項目名の類似度が閾値Th1以上、データ間の分散値の差分が閾値Ths以下、データの数値の類似度が閾値Th2以上の項目名242のペアがサマリーテーブル250に格納される。そして、独立データ項目テーブル240には、類似するペアがない項目名242が残される。   As a result of the above processing, a pair of item names 242 in which the similarity of the item names of the data items is greater than or equal to the threshold Th1, the difference in the variance between the data is less than or equal to the threshold Ths, and the similarity of the numerical values of the data is greater than or equal to the threshold Th2 Stored. Then, the item name 242 having no similar pair remains in the independent data item table 240.

本実施例では、データ間関連分析部310が、関連のあるデータ項目を選択する際に、自然言語のデータ項目の名称と、データ項目に対応するデータ(数値データ)の両方を比較して類似するデータ項目の絞り込みを行う。これにより、名前が類似し、かつ、値が類似するデータ項目を後述するようにグループ化することができる。   In the present embodiment, when the inter-data relation analysis unit 310 selects related data items, the names of the natural language data items and the data (numerical data) corresponding to the data items are compared and similar. Narrow down the data items to be processed. As a result, data items having similar names and similar values can be grouped as described later.

なお、上記ではデータ項目の名称を自然言語による類似度で関連の有無を判定する例を示したが、これに限定されるものではなく、類義語辞書22を用いて自然言語による類似の判定を行うようにしてもよい。   In the above description, an example is shown in which the presence / absence of a data item name is determined based on the similarity in natural language. However, the present invention is not limited to this, and the synonym dictionary 22 is used to determine similarity in natural language. You may do it.

また、本実施例では、自然言語が類似するデータ項目についてのみ、データ項目に対応するデータ(数値)について類似の判定を行うことで、自然言語が類似しないデータ項目を関連項目から除外することができる。   Further, in this embodiment, only for data items having a similar natural language, it is possible to exclude data items having a similar natural language from related items by performing a similar determination on data (numerical values) corresponding to the data items. it can.

図10、図11は、サマリーテーブル250への格納処理の一例を示すフローチャートである。この処理は、図8のステップS20で実行される。   10 and 11 are flowcharts showing an example of storage processing in the summary table 250. FIG. This process is executed in step S20 of FIG.

図10のステップS31では、復元式生成部340が、図8の処理で現在選択されている2つの項目名242を、サマリーテーブル250のデータ項目(x)252とデータ項目(y)253に格納し、ステップS17で算出されたデータ間の類似度をデータ間類似度254へ格納し、識別番号251を付与する。   In step S31 of FIG. 10, the restoration formula generation unit 340 stores the two item names 242 currently selected in the processing of FIG. 8 in the data item (x) 252 and the data item (y) 253 of the summary table 250. Then, the similarity between the data calculated in step S17 is stored in the data similarity 254, and an identification number 251 is assigned.

なお、復元式生成部340はデータ間関連計算結果230から現在選択されている2つの項目名に対応するデータを取得してサマリーテーブル250へ格納するようにしても良い。   The restoration formula generation unit 340 may acquire data corresponding to the two currently selected item names from the inter-data relation calculation result 230 and store the data in the summary table 250.

ステップS32では、復元式生成部340が、データ項目(x)252のデータからデータ項目(y)253を復元する回帰式(x→y)を算出する。なお、回帰式の算出については周知または公知の技術を適用すればよい。   In step S <b> 32, the restoration formula generation unit 340 calculates a regression formula (x → y) for restoring the data item (y) 253 from the data item (x) 252. Note that a known or publicly known technique may be applied for calculating the regression equation.

例えば、図12で示すように、データ項目(x)を前期総資産合計とし、データ間関連計算結果230(y)を総資産合計とした場合、二つの量(前期総資産合計、総資産合計)を座標平面に配置して、データの点の分布を近似する直線を回帰式で表すことができる。   For example, as shown in FIG. 12, when the data item (x) is the total asset for the previous period and the inter-data relation calculation result 230 (y) is the total asset, two amounts (total asset for the previous period, total asset) ) On the coordinate plane, a straight line approximating the distribution of data points can be represented by a regression equation.

ステップS33では、復元式生成部340が、データ項目(y)253のデータからデータ項目(x)252を復元する回帰式(y→x)を算出する。   In step S <b> 33, the restoration formula generation unit 340 calculates a regression formula (y → x) for restoring the data item (x) 252 from the data of the data item (y) 253.

ステップS34では、復元式生成部340が、データ項目(x)252のデータからデータ項目(y)253を復元する回帰式(x→y)をサマリーテーブル250の回帰式(x→yの復元)255へ格納し、データ項目(y)253のデータからデータ項目(x)252を復元する回帰式(y→x)をサマリーテーブル250の回帰式(y→xの復元)256へ格納する。   In step S34, the restoration formula generation unit 340 uses the regression formula (x → y) for restoring the data item (y) 253 from the data of the data item (x) 252 as the regression formula of the summary table 250 (x → y restoration). The regression formula (y → x) for restoring the data item (x) 252 from the data of the data item (y) 253 is stored in the regression formula (reconstruction of y → x) 256 of the summary table 250.

次に、図11のステップS35では、グループ生成部320が、サマリーテーブル250の全てのデータ項目(x)252とデータ項目(y)253のそれぞれについてステップS44までの処理を繰り返して実行する。   Next, in step S35 of FIG. 11, the group generation unit 320 repeatedly executes the processing up to step S44 for all of the data items (x) 252 and the data items (y) 253 of the summary table 250.

ステップS36では、グループ生成部320が、サマリーテーブル250の先頭のエントリからデータ項目(x)252と、データ項目(y)253を選択する。そして、グループ生成部320は、サマリーテーブル250の先頭のエントリから順にグループ#257の付与状況について、データ項目(x)252とデータ項目(y)253で列方向に比較を行う。   In step S <b> 36, the group generation unit 320 selects the data item (x) 252 and the data item (y) 253 from the top entry of the summary table 250. Then, the group generation unit 320 compares the data item (x) 252 and the data item (y) 253 in the column direction with respect to the assignment status of the group # 257 in order from the top entry of the summary table 250.

ステップS37では、グループ生成部320が、現在選択中のエントリのデータ項目(x)252と一致する他のエントリのグループ#257と、現在選択中のエントリのデータ項目(y)253と一致する他のエントリのグループ#257が異なるグループであるか否かを判定する。   In step S37, the group generation unit 320 matches the group # 257 of another entry that matches the data item (x) 252 of the currently selected entry and the data item (y) 253 of the currently selected entry. It is determined whether the group # 257 of the entry is a different group.

グループ生成部320は、データ項目(x)252のグループ#257と、データ項目(y)253のグループ#257が異なる場合にはステップS38へ進み、そうでない場合にはステップS39へ進む。   When the group # 257 of the data item (x) 252 and the group # 257 of the data item (y) 253 are different, the group generation unit 320 proceeds to step S38, and otherwise proceeds to step S39.

換言すれば、グループ生成部320は、現在選択中のエントリのデータ項目(x)252とデータ項目が一致するエントリを図13のサマリーテーブル250の列方向で検索して、一致するエントリにグループ#257が付与されていれば当該グループ番号を変数Nxに設定する。   In other words, the group generation unit 320 searches for an entry whose data item matches the data item (x) 252 of the currently selected entry in the column direction of the summary table 250 in FIG. If 257 is given, the group number is set in the variable Nx.

同様に、グループ生成部320は、現在選択中のエントリのデータ項目(y)253とデータ項目が一致するエントリをサマリーテーブル250の列方向で検索して、一致するエントリにグループ#257が付与されていれば当該グループ番号を変数Nyに設定する。   Similarly, the group generation unit 320 searches in the column direction of the summary table 250 for an entry whose data item matches the data item (y) 253 of the currently selected entry, and the group # 257 is assigned to the matching entry. If so, the group number is set in the variable Ny.

そして、グループ生成部320は、変数Nxと変数Nyが一致するか否かを判定して、一致しなければステップS38へ進み、そうでない場合にはステップS39に進む。   Then, the group generation unit 320 determines whether or not the variable Nx and the variable Ny match. If they do not match, the group generation unit 320 proceeds to step S38, otherwise proceeds to step S39.

ステップS38では、グループ生成部320が、現在選択中のデータ項目(x)252とデータ項目が一致するエントリのグループ#257と、現在選択中のデータ項目(y)253とデータ項目が一致するエントリのグループ#257のグループ番号のうち、小さい方の番号を取得して、現在選択中のエントリとデータ項目が一致したエントリのグループ#257を揃える。その後、ステップS44に進む。   In step S38, the group generation unit 320 determines that the data item (x) 252 that is currently selected matches the group # 257 of the data item that matches the data item, and the data item (y) 253 that is currently selected matches the data item. The smaller one of the group numbers of the group # 257 is obtained, and the group # 257 of the entry whose data item matches the currently selected entry is aligned. Thereafter, the process proceeds to step S44.

ステップS39では、グループ生成部320が、現在選択中のデータ項目(x)252とデータ項目が一致するエントリと、現在選択中のデータ項目(y)253とデータ項目が一致するエントリのいずれか一方にグループ#257が設定されているか否かを判定する。   In step S39, the group generation unit 320 selects either the entry whose data item matches the currently selected data item (x) 252 or the entry whose data item matches the currently selected data item (y) 253. It is determined whether or not group # 257 is set.

グループ生成部320は、いずれか一方にグループ#257が設定されていればステップS40に進み、そうでない場合にはステップS41に進む。   The group generation unit 320 proceeds to step S40 if the group # 257 is set in either one, and proceeds to step S41 otherwise.

ステップS40では、グループ生成部320は、現在選択中のデータ項目(x)252とデータ項目が一致するエントリと、現在選択中のデータ項目(y)253とデータ項目が一致するエントリのいずれかでグループ#257が設定されている値を現在のエントリのグループ#257に設定する。その後、ステップS44へ進む。   In step S40, the group generation unit 320 selects either the entry whose data item matches the currently selected data item (x) 252 or the entry whose data item matches the currently selected data item (y) 253. The value in which group # 257 is set is set in group # 257 of the current entry. Thereafter, the process proceeds to step S44.

ステップS41では、グループ生成部320が、現在選択中のデータ項目(x)252とデータ項目が一致するエントリのグループ#257と、現在選択中のデータ項目(y)253とデータ項目が一致するエントリのグループ#257が一致するか否かを判定する。グループ生成部320は、双方のグループ#257が一致していればステップS42に進み、双方のグループ#257が設定されていなければステップS43へ進む。   In step S41, the group generation unit 320 includes the entry ## 257 of the entry whose data item matches the currently selected data item (x) 252 and the data item (y) 253 whose data item matches. It is determined whether or not the group # 257 matches. The group generation unit 320 proceeds to step S42 if both groups # 257 match, and proceeds to step S43 if both groups # 257 are not set.

ステップS42では、グループ生成部320は、現在選択中のデータ項目(x)252とデータ項目が一致するエントリのグループ#257の値を現在のエントリのグループ#257に設定する。その後、ステップS44へ進む。   In step S42, the group generation unit 320 sets the value of the group # 257 of the entry whose data item matches the currently selected data item (x) 252 to the group # 257 of the current entry. Thereafter, the process proceeds to step S44.

ステップS44では、サマリーテーブル250の次のエントリのデータ項目(x)252とデータ項目(y)253を選択してからステップS36に戻って上記処理を繰り返す。   In step S44, the data item (x) 252 and the data item (y) 253 of the next entry in the summary table 250 are selected, and then the process returns to step S36 to repeat the above processing.

上記処理により、図9に示したサマリーテーブル250は、図13に示すようにグループ#257が付与される。   Through the above processing, the summary table 250 shown in FIG. 9 is given the group # 257 as shown in FIG.

具体的な例を用いて説明する。図9のサマリーテーブル250でグループ生成部320が先頭のエントリを選択すると、データ項目(x)252=「前期総資産合計」に一致するデータ項目のエントリのグループ#257と、データ項目(y)253=「負債・純資産合計」に一致するデータ項目のエントリのグループ#257には値が設定されていない。このため、グループ生成部320は、ステップS41からステップS43に進んで、新規のグループ番号=1をグループ#257に設定する。   This will be described using a specific example. When the group generation unit 320 selects the first entry in the summary table 250 of FIG. 9, the data item (x) 252 = the group # 257 of the entry of the data item that matches “total assets in the previous period”, and the data item (y) 253 = No value is set in the group # 257 of the entry of the data item that matches “total liabilities / net assets”. Therefore, the group generation unit 320 proceeds from step S41 to step S43, and sets a new group number = 1 to the group # 257.

サマリーテーブル250の2番目のエントリも同様で、新たなグループ番号=2がグループ#257に設定されて、図13のサマリーテーブル250のように更新される。   The same applies to the second entry of the summary table 250. A new group number = 2 is set in the group # 257, and is updated as in the summary table 250 of FIG.

サマリーテーブル250の3番目のエントリでは、データ項目(x)252=「前期総資産合計」とデータ項目が一致するエントリは識別番号251=4で、グループ#257=1となる。また、サマリーテーブル250の3番目のエントリでは、データ項目(y)253=「負債・純資産合計」とデータ項目が一致するエントリは識別番号251=1で、グループ#257=1となる。   In the third entry of the summary table 250, the entry whose data item matches the data item (x) 252 = “total assets in the previous period” is the identification number 251 = 4 and the group # 257 = 1. Further, in the third entry of the summary table 250, the data item (y) 253 = “total debt / net assets” and the data item that matches the data item have the identification number 251 = 1 and the group # 257 = 1.

したがって、サマリーテーブル250の3番目のエントリでは、ステップS41、S42によってグループ#257=1となる。   Therefore, in the third entry of the summary table 250, group # 257 = 1 is set by steps S41 and S42.

以上の処理によって、図14で示すように、サマリーテーブル250のデータ項目(x)252と、データ項目(y)253の項目名の連鎖からグループ#257が設定される。なお、データ項目(x)252またはデータ項目(y)253と一致するデータ項目が無いエントリのグループ#257はブランクとなる。   With the above processing, as shown in FIG. 14, the group # 257 is set from the chain of the item names of the data item (x) 252 and the data item (y) 253 of the summary table 250. Note that the group # 257 of the entry having no data item that matches the data item (x) 252 or the data item (y) 253 is blank.

上記のように、データ間関連分析部310が算出した関連情報(データ間関連計算結果230のペア(データ項目(x)、(y))と類似度及び分散値の差分)と分析対象データテーブル220のデータから、復元式生成部340は復元情報(復元式)を生成する。そして、グループ生成部320は、関連情報に基づいてデータ項目の項目名をグループ化する。   As described above, the relation information calculated by the inter-data relation analysis unit 310 (difference between the pair of data relation calculation results 230 (data items (x), (y)) and the similarity and the variance value) and the analysis target data table From the data 220, the restoration formula generation unit 340 generates restoration information (restoration formula). Then, the group generation unit 320 groups the item names of the data items based on the related information.

図15は、代表データの選出処理の一例を示すフローチャートである。この処理は、図3のステップS2で行われる。   FIG. 15 is a flowchart illustrating an example of representative data selection processing. This process is performed in step S2 of FIG.

ステップS51では、入力代表データ選出部330がサマリーテーブル250のグループ#257毎にステップS63までの処理を繰り返して、各グループ#257を代表するデータ項目を候補テーブル360の中から代表データ項目として選択する。入力代表データ選出部330は、まず、グループ#257のグループ番号を取得する。   In step S51, the input representative data selection unit 330 repeats the processing up to step S63 for each group # 257 in the summary table 250, and selects a data item representing each group # 257 as a representative data item from the candidate table 360. To do. First, the input representative data selection unit 330 acquires the group number of the group # 257.

ステップS52では、取得したグループ番号に所属するサマリーテーブル250の全てのエントリについて、ステップS60までの処理を繰り返して、入力データと復元データとの差分が小さい方を候補テーブル360に格納する。   In step S52, the process up to step S60 is repeated for all entries of the summary table 250 belonging to the acquired group number, and the one with the smaller difference between the input data and the restored data is stored in the candidate table 360.

ステップS53では、入力代表データ選出部330が、取得したグループ番号に所属するサマリーテーブル250から最初のエントリを選択し、データ項目(x)252に対応するすべてのデータに回帰式(x→yの復元)255を適用して復元データの値=yを算出する。   In step S53, the input representative data selection unit 330 selects the first entry from the summary table 250 belonging to the acquired group number, and all the data corresponding to the data item (x) 252 are regressed (x → y (Restoration) 255 is applied, and the value of restored data = y is calculated.

ステップS54では、入力代表データ選出部330が、ステップS53で選択したエントリについて、データ項目(y)253に対応するすべてのデータを入力データとして、下記(2)式で差分diffを算出し、差分(2)とする。   In step S54, the input representative data selection unit 330 calculates the difference diff by the following equation (2) using all the data corresponding to the data item (y) 253 as the input data for the entry selected in step S53. (2).

ただし、「A」は、入力データの各データ値を示し、「B」は、復元データの各データ値を示し、「n」はデータの数を示す。   However, “A” indicates each data value of the input data, “B” indicates each data value of the restored data, and “n” indicates the number of data.

ステップS55では、入力代表データ選出部330が、ステップS53で選択したエントリについて、データ項目(y)253に対応するすべてのデータに回帰式(y→xの復元)256を適用して復元データの値=xを算出する。   In step S55, the input representative data selection unit 330 applies the regression equation (restoration of y → x) 256 to all the data corresponding to the data item (y) 253 for the entry selected in step S53. Value = x is calculated.

ステップS56では、入力代表データ選出部330が、ステップS53で選択したエントリについて、データ項目(x)252に対応するすべてのデータを入力データとして、上記(2)式で差分diffを算出し、差分(4)とする。   In step S56, the input representative data selection unit 330 calculates the difference diff by the above equation (2) using all data corresponding to the data item (x) 252 as input data for the entry selected in step S53. (4).

ステップS57では、入力代表データ選出部330が、上記算出した差分(2)が差分(4)を超えたか否かを判定する。入力代表データ選出部330は、差分(2)が差分(4)を超えていれば、ステップS58へ進み、差分(2)が差分(4)以下であれば、ステップS59へ進む。   In step S57, the input representative data selection unit 330 determines whether or not the calculated difference (2) exceeds the difference (4). The input representative data selection unit 330 proceeds to step S58 if the difference (2) exceeds the difference (4), and proceeds to step S59 if the difference (2) is equal to or less than the difference (4).

ステップS58では、入力代表データ選出部330が、データ項目(y)253の項目名と差分(2)を候補テーブル360に追加する。また、入力代表データ選出部330が、データ項目(x)252とデータ項目(y)253及び回帰式(x→yの復元)255のエントリを復元テーブル280に追加する。   In step S <b> 58, the input representative data selection unit 330 adds the item name of the data item (y) 253 and the difference (2) to the candidate table 360. Further, the input representative data selection unit 330 adds entries of the data item (x) 252, the data item (y) 253, and the regression equation (reconstruction of x → y) 255 to the restoration table 280.

一方、ステップS59では、入力代表データ選出部330が、データ項目(x)252の項目名と差分(4)を候補テーブル360に追加する。   On the other hand, in step S <b> 59, the input representative data selection unit 330 adds the item name of the data item (x) 252 and the difference (4) to the candidate table 360.

その後、ステップS60へ進んで、入力代表データ選出部330は、グループ番号内の次のエントリを選択して上記処理を繰り返す。入力代表データ選出部330は、グループ番号に所属する全てのエントリについて上記処理を実施した後にステップS61に進む。   Thereafter, the process proceeds to step S60, and the input representative data selection unit 330 selects the next entry in the group number and repeats the above process. The input representative data selection unit 330 performs the above processing for all entries belonging to the group number, and then proceeds to step S61.

ステップS61では、入力代表データ選出部330が、候補テーブル360から差分363が最大のエントリを選択し、当該エントリの項目名362を代表データテーブル270に追加する。   In step S <b> 61, the input representative data selection unit 330 selects an entry having the largest difference 363 from the candidate table 360 and adds the item name 362 of the entry to the representative data table 270.

ステップS62では、入力代表データ選出部330が、候補テーブル360をクリア(初期化)する。その後、ステップS63へ進んで、入力代表データ選出部330は、サマリーテーブル250の次のグループ番号を選択して上記処理を繰り返す。入力代表データ選出部330は、サマリーテーブル250の全てのグループ番号について上記処理を実施した後に終了する。   In step S62, the input representative data selection unit 330 clears (initializes) the candidate table 360. Thereafter, the process proceeds to step S63, where the input representative data selection unit 330 selects the next group number in the summary table 250 and repeats the above processing. The input representative data selection unit 330 ends the above process for all group numbers in the summary table 250.

上記処理によって、入力データと復元データの差分diffが小さい方の元データを代表データ項目とすることができる。これにより、ひとつのグループにまとめたデータ項目のうち、データ傾向分析の出力結果から、同じグループ内で、代表データ項目以外のデータ項目を復元する際に、できるだけ復元精度が高くなるような代表データ項目が選択される。そして、代表データ項目はデータ傾向分析サーバ4へ入力する主データ項目として利用される。   By the above process, the original data having the smaller difference diff between the input data and the restored data can be set as the representative data item. As a result, among the data items collected in one group, representative data that can be restored as accurately as possible when restoring data items other than the representative data item within the same group from the output results of data trend analysis. The item is selected. The representative data item is used as a main data item to be input to the data trend analysis server 4.

以上のように、入力代表データ選出部330は、データ間関連分析部310が生成した関連情報と、復元式生成部340が生成した復元情報に基づいて、復元精度を確保可能な代表データ項目をグループ毎に選択する。なお、入力代表データ選出部330は、データ項目のデータに復元情報を適用して、復元結果の分散値の差分をデータ項目のペアで比較して、分散値の差分が小さい方を代表データ項目の候補、すなわち復元精度を確保可能と判定する。   As described above, the input representative data selection unit 330 selects representative data items that can ensure the restoration accuracy based on the related information generated by the inter-data relationship analysis unit 310 and the restoration information generated by the restoration formula generation unit 340. Select for each group. Note that the input representative data selection unit 330 applies the restoration information to the data of the data item, compares the difference of the variance values of the restoration results with the pair of data items, and selects the one with the smaller variance value as the representative data item. It is determined that the restoration accuracy can be secured.

図16は、代表データの選出処理におけるノードの分割の一例を示す図である。代表データ項目の選出は、上記図16の差分に限定されるものではなく、ノードの分割によっても実施することができる。代表データの第2の選出処理としてノードの分割の例について説明する。   FIG. 16 is a diagram illustrating an example of node division in the representative data selection process. The selection of the representative data item is not limited to the difference shown in FIG. 16, but can be performed by dividing the node. An example of node division as the second selection process of representative data will be described.

なお、以下の説明では、ノード、エッジ、トポロジを以下のように定義する。ノードは、サマリーテーブル250のデータ項目(x)252とデータ項目(y)253を指す。エッジは、データ項目(x)252とデータ項目(y)253の関係を指し、データ間類似度254で表す。トポロジは、グループ#257のグループ番号で表す。   In the following description, nodes, edges, and topologies are defined as follows. The node indicates the data item (x) 252 and the data item (y) 253 of the summary table 250. The edge indicates the relationship between the data item (x) 252 and the data item (y) 253 and is represented by an inter-data similarity 254. The topology is represented by a group number of group # 257.

ステップS71では、入力代表データ選出部330がサマリーテーブル250のグループ#257毎にステップS79までの処理を繰り返して、各グループ#257を代表するデータ項目を代表データテーブル270に格納する。入力代表データ選出部330は、グループ#257のグループ番号を取得する。   In step S <b> 71, the input representative data selection unit 330 repeats the processing up to step S <b> 79 for each group # 257 of the summary table 250, and stores data items representing each group # 257 in the representative data table 270. The input representative data selection unit 330 acquires the group number of group # 257.

ステップS72では、入力代表データ選出部330が、ステップS71で取得したグループ番号に所属するノード(エントリ)について、各ノード間の最小距離を算出する。本実施例では、ノード間の距離をデータ間類似度254で表す。   In step S72, the input representative data selection unit 330 calculates the minimum distance between the nodes (entries) belonging to the group number acquired in step S71. In this embodiment, the distance between nodes is represented by the inter-data similarity 254.

ステップS73では、入力代表データ選出部330が、ステップS72で算出したノード間距離が最小となる経路(データ項目(x)252とデータ項目(y)253)を最小経路とし、最小経路と回帰式(x→yの復元)255を復元テーブル280に格納する。   In step S73, the input representative data selection unit 330 sets the path (data item (x) 252 and data item (y) 253) having the smallest inter-node distance calculated in step S72 as the minimum path, and sets the minimum path and regression equation. (Restore x → y) 255 is stored in the restore table 280.

ステップS74では、当該最小経路について、対象ノードからの距離が所定の閾値Th3以上になったか否かを判定する。入力代表データ選出部330は。対象ノードからの距離が所定の閾値Th3以上の場合には、ステップS75に進み、対象ノードからの距離が所定の閾値Th3未満の場合には、ステップS76に進む。   In step S74, it is determined whether or not the distance from the target node is equal to or greater than a predetermined threshold Th3 for the minimum path. The input representative data selection unit 330. If the distance from the target node is equal to or greater than the predetermined threshold Th3, the process proceeds to step S75. If the distance from the target node is less than the predetermined threshold Th3, the process proceeds to step S76.

ステップS75では、入力代表データ選出部330が、対象ノードからの距離が所定の閾値Th3以上となったエッジでノード間を2分割する。そしてステップS72へ戻って上記処理を繰り返す。   In step S75, the input representative data selection unit 330 divides the node into two at the edge where the distance from the target node is equal to or greater than the predetermined threshold Th3. And it returns to step S72 and repeats the said process.

ステップS76では、入力代表データ選出部330が、ノード間の距離の合計(乗算)を算出し、距離の合計(乗算)が最小となるノードを主ノード(primary node)として算出する。なお、距離の合計(乗算)の最小値は、次の(3)式で算出する。   In step S76, the input representative data selection unit 330 calculates the sum (multiplication) of the distances between the nodes, and calculates the node having the minimum distance (multiplication) as the main node (primary node). Note that the minimum value of the sum (multiplication) of distances is calculated by the following equation (3).

ただし、Sはグループを示し、xはノードを示す。   However, S shows a group and x shows a node.

次に、ステップS77では、入力代表データ選出部330が、距離の合計(乗算)が最小となるノードを主ノードとして選択し、ステップS78に進んで主ノードのデータ項目を代表データ項目として代表データテーブル270に追加する。   Next, in step S77, the input representative data selection unit 330 selects a node having the smallest total distance (multiplication) as the main node, and proceeds to step S78 to display the main node data item as the representative data item. Add to table 270.

ステップS79では、入力代表データ選出部330が、次のグループ番号を選択して上記処理を繰り返し、すべてのグループ番号について代表データ項目の選出が完了すると処理を終了する。   In step S79, the input representative data selection unit 330 selects the next group number and repeats the above process. When the selection of representative data items for all group numbers is completed, the process ends.

上記処理により、グループ内の対象のノードから、その他の全てのノード間の距離(データ間類似度)を算出し、ノード間距離の合計(乗算)が最も小さいノードの1つを主ノードとする。そして、入力代表データ選出部330は、主ノードと、その他のノードのノード間の距離(データ間類似度)の乗算値が、閾値Th3以上の範囲を1つのグループと判定する。一方、入力代表データ選出部330は、閾値Th3未満の場合は閾値を下回ったエッジ(枝)で切る。なお、距離の合計が最も小さいノードが2つある場合にはランダムに選択すればよい。   By the above processing, the distance between all other nodes (similarity between data) is calculated from the target nodes in the group, and one of the nodes having the smallest total (multiplication) distance between nodes is set as the main node. . Then, the input representative data selection unit 330 determines that a range in which the multiplication value of the distance between the main node and other nodes (similarity between data) is greater than or equal to the threshold Th3 is one group. On the other hand, when the input representative data selection unit 330 is less than the threshold Th3, the input representative data selection unit 330 cuts with an edge (branch) that is lower than the threshold. If there are two nodes with the smallest total distance, they may be selected randomly.

以上のように、ノード間の距離が閾値Th3以上の場合には、復元の連鎖によって復元精度が低下するため、ノード(トポロジ)を分割することで、復元精度を確保可能な代表データ項目を選択することができる。   As described above, when the distance between the nodes is equal to or greater than the threshold Th3, the restoration accuracy decreases due to the restoration chain. Therefore, by selecting a representative data item that can ensure restoration accuracy by dividing the node (topology) can do.

図17は、代表データの選出処理におけるノードの分割の一例を示す図である。図16に示したノード間のデータの類似度から代表データ項目を算出する例を示す。   FIG. 17 is a diagram illustrating an example of node division in the representative data selection process. 17 shows an example of calculating representative data items from the similarity of data between nodes shown in FIG.

入力代表データ選出部330は、主ノードから対象ノード間の類似度(距離)の乗算値を算出する(Step1)。そして、入力代表データ選出部330は、主ノードからの距離(類似度の乗算値)と閾値(0.7)とを比較して閾値未満のエッジで切断してトポロジを2分割する(Step2)。   The input representative data selection unit 330 calculates a multiplication value of the similarity (distance) between the main node and the target node (Step 1). Then, the input representative data selection unit 330 compares the distance from the main node (similarity multiplication value) and the threshold (0.7), cuts at an edge less than the threshold, and divides the topology into two (Step 2). .

以上の処理を繰り返すことで、グループ番号内のエントリから代表データ項目(主ノード)を選出することができる。   By repeating the above processing, a representative data item (main node) can be selected from the entries in the group number.

図18は、代表データの選出処理におけるノードの分割の他の例を示す図である。図16に示したノード間の類似度から代表データ項目を算出する例を示す。この例は、ノードの配置が図17の直線的な配置とは異なる例である。   FIG. 18 is a diagram illustrating another example of node division in the representative data selection process. An example in which a representative data item is calculated from the similarity between nodes illustrated in FIG. In this example, the node arrangement is different from the linear arrangement shown in FIG.

この場合も、図17と同様に隣り合うノードとのデータ間の類似度を算出し、さらに、対角となるノード間についてもデータ間の類似度を乗算によって算出する(Step1)。そして、入力代表データ選出部330は、主ノードからの距離(類似度の乗算値)と閾値(0.7)とを比較して閾値未満のエッジで切断してトポロジを2分割する(Step2)。   In this case as well, the similarity between data with adjacent nodes is calculated in the same manner as in FIG. 17, and the similarity between data is also calculated between the diagonal nodes by multiplication (Step 1). Then, the input representative data selection unit 330 compares the distance from the main node (similarity multiplication value) and the threshold (0.7), cuts at an edge less than the threshold, and divides the topology into two (Step 2). .

図21は、データ傾向分析処理の一例を示すフローチャートである。この処理は、図3のステップS3で行われる処理である。   FIG. 21 is a flowchart illustrating an example of the data trend analysis process. This process is a process performed in step S3 of FIG.

入力代表データ選出部330は、独立データ項目テーブル240と代表データテーブル270の項目と、項目に対応するデータ(値)をデータ傾向分析サーバ4へ入力し、傾向分析を指令する(S81)。   The input representative data selection unit 330 inputs the items of the independent data item table 240 and the representative data table 270 and the data (value) corresponding to the items to the data trend analysis server 4 and instructs the trend analysis (S81).

データ傾向分析サーバ4では、データ傾向分析部41が絞り込み及び復元サーバ3から受け付けた項目と値について傾向分析を実施して、傾向分析の結果を絞り込み及び復元サーバ3に応答する。   In the data trend analysis server 4, the data trend analysis unit 41 performs trend analysis on the items and values received from the narrowing and restoration server 3, and responds to the narrowing and restoration server 3 with the result of the trend analysis.

上記処理によって、グループ#257の代表データ項目と、グループ化できなかった独立データ項目テーブル240のデータによって傾向分析が実施される。   Through the above processing, the trend analysis is performed on the representative data items of group # 257 and the data of the independent data item table 240 that cannot be grouped.

図23、図24は、データ復元処理の一例を示すフローチャートである。この処理は、図3のステップS4で行われる処理で、復元テーブル280を利用して代表データ以外のデータを復元する。   23 and 24 are flowcharts illustrating an example of the data restoration process. This process is a process performed in step S4 of FIG. 3, and restores data other than the representative data using the restoration table 280.

絞り込み及び復元サーバ3は、データ傾向分析サーバ4から傾向分析の結果を受け付けた後に、図23のフローチャートを開始する。なお、絞り込み及び復元サーバ3は、データ傾向分析サーバ4から傾向分析の結果を受け付けると、代表データ選出部330が、データの傾向分析の結果テーブル260に格納しておく。   The narrowing-down and restoration server 3 starts the flowchart of FIG. 23 after receiving the result of the trend analysis from the data trend analysis server 4. When the narrowing-down and restoration server 3 receives the result of the trend analysis from the data trend analysis server 4, the representative data selection unit 330 stores the result in the data trend analysis result table 260.

図23のステップS86では、データ復元部350が、データの傾向分析の結果テーブル260の条件項目の全てについて、ステップS88までの処理を繰り返す。ステップS87では、データ復元部350が、データの傾向分析の結果テーブル260の条件項目(262、263)のデータ項目を入力項目として取得する。   In step S86 of FIG. 23, the data restoration unit 350 repeats the process up to step S88 for all the condition items in the data trend analysis result table 260. In step S87, the data restoration unit 350 acquires the data items of the condition items (262, 263) of the data trend analysis result table 260 as input items.

ステップS87では、データ復元部350が、上記取得した入力項目について、復元テーブル280を参照して図24に示す復元計算処理を実行する。   In step S87, the data restoration unit 350 executes the restoration calculation process shown in FIG. 24 with reference to the restoration table 280 for the acquired input items.

ステップS88では、データ復元部350が、次の条件を結果テーブル260から選択して上記処理を繰り返し、すべての条件について復元計算処理が完了すると処理を終了する。   In step S88, the data restoration unit 350 selects the next condition from the result table 260 and repeats the above process. When the restoration calculation process is completed for all conditions, the process ends.

図24のステップS91では、データ復元部350が、上記ステップS86で取得した入力項目と復元テーブル280のデータ項目(x)282を比較して、一致する項目名を検索する。   In step S91 of FIG. 24, the data restoration unit 350 compares the input item acquired in step S86 with the data item (x) 282 of the restoration table 280, and searches for a matching item name.

ステップS92では、データ復元部350が、入力項目に一致するデータ項目(x)282が存在するか否かを判定する。入力項目に一致するデータ項目(x)282が存在する場合はステップS93へ進み、そうでない場合には処理を終了して次の条件式に進む。   In step S92, the data restoration unit 350 determines whether there is a data item (x) 282 that matches the input item. If there is a data item (x) 282 that matches the input item, the process proceeds to step S93. If not, the process ends and the process proceeds to the next conditional expression.

ステップS93では、データ復元部350が、復元テーブル280の回帰式(x→yの復元)284を用いて、データ項目(x)282に対応するデータからデータ項目(y)と値=yを算出する。この処理は、入力項目に一致したデータ項目(x)282の全てについて実行する。   In step S93, the data restoration unit 350 calculates the data item (y) and the value = y from the data corresponding to the data item (x) 282 by using the regression equation (x → y restoration) 284 of the restoration table 280. To do. This process is executed for all the data items (x) 282 that match the input items.

ステップS94では、ステップS93で復元されたデータ項目(y)についてステップS97までの処理を繰り返して実行する。データ復元部350は、復元されたデータ項目(y)をひとつ選択する。   In step S94, the process up to step S97 is repeatedly executed for the data item (y) restored in step S93. The data restoration unit 350 selects one restored data item (y).

ステップS95では、データ復元部350が、上記選択されたデータ項目(y)を最終結果テーブル290に追加する。データ復元部350は、現在選択中の結果テーブル260の条件及び識別番号261に対応する最終結果テーブル290の条件(292、293)と識別番号291にデータ項目(y)を追加する。   In step S95, the data restoring unit 350 adds the selected data item (y) to the final result table 290. The data restoration unit 350 adds the data item (y) to the condition (292, 293) and the identification number 291 of the final result table 290 corresponding to the condition of the currently selected result table 260 and the identification number 261.

ステップS96では、データ復元部350が、復元したデータ項目(y)に対応するデータを分析対象データテーブル220から取得して所定の演算を行った結果を、ステップS95の最終結果テーブル290の条件(292、293)と識別番号291に追加する。なお、図25の最終結果テーブル290の例では、データ項目(y)に対応する値の範囲を算出する例を示した。   In step S96, the data restoration unit 350 obtains the data corresponding to the restored data item (y) from the analysis target data table 220 and performs a predetermined calculation, and the result of the condition (in the final result table 290 in step S95) ( 292, 293) and the identification number 291. In the example of the final result table 290 in FIG. 25, an example in which the range of values corresponding to the data item (y) is calculated is shown.

ステップS97では、データ復元部350が、次のデータ項目(y)を選択して上記処理を繰り返し、すべてのデータ項目(y)について復元計算処理が完了すると処理を終了して、図23の処理へ復帰する。   In step S97, the data restoration unit 350 selects the next data item (y) and repeats the above process. When the restoration calculation process is completed for all data items (y), the process ends, and the process of FIG. Return to.

上記処理により、データの傾向分析の結果テーブル260の条件(262、263)のデータ項目に一致する代表データ項目から、同じグループに所属するデータ項目(y)と値の範囲が復元される。   By the above processing, the data item (y) belonging to the same group and the value range are restored from the representative data item that matches the data item of the condition (262, 263) in the result table 260 of the data trend analysis.

上記処理が終了すると、データ復元部350は、最終結果テーブル290の表示画面620をユーザ端末6へ出力する。ユーザ端末6の利用者(分析者)は、データの傾向分析の結果の後に、代表データ項目にまとめられた入力データ項目と値が復元されることで、分析者にとって重要なデータ項目が含まれているか否かを容易に判定することができる。   When the above processing ends, the data restoration unit 350 outputs the display screen 620 of the final result table 290 to the user terminal 6. The user (analyzer) of the user terminal 6 includes the data items important to the analyst by restoring the input data items and values collected in the representative data items after the result of the data trend analysis. It can be easily determined whether or not.

図25の最終結果テーブル290の表示画面620では、図22に示した代表データ項目によるデータの傾向分析の結果に対して、代表データ項目に関連するデータ項目の復元結果(項目名とデータ(範囲)が条件1(292))が追加される。   In the display screen 620 of the final result table 290 in FIG. 25, the restoration result of the data item related to the representative data item (item name and data (range) in relation to the result of the data trend analysis by the representative data item shown in FIG. ) Is added to condition 1 (292)).

図示の例では、代表データ項目=「前期総資産合計」に対して同一のグループ#257に所属する「総資産合計」と「負債・純資産合計」のデータ項目が復元され、復元されたデータ項目からデータ(数値)も復元される。   In the illustrated example, the data items of “total assets” and “total liabilities / net assets” belonging to the same group # 257 are restored for the representative data item = “total assets in the previous period”, and the restored data items Data (numerical value) is also restored.

ユーザ端末6を利用する分析者は、最終結果テーブル290の表示画面620を参照することで、絞り込み及び復元サーバ3が実施したグルーピングの復元結果と、データの傾向分析の結果から、不要なデータ項目の選択等を行うことが可能になる。   The analyst using the user terminal 6 refers to the display screen 620 of the final result table 290 to determine unnecessary data items from the grouping restoration result performed by the narrowing and restoration server 3 and the data trend analysis result. Can be selected.

<まとめ>
本実施例では、関連のあるデータ項目を選択する際に、自然言語のデータ項目の名称と、データ項目に対応するデータ(数値データ)の両方を比較して類似するデータ項目の絞り込みを行う。これにより、名前が類似し、かつ、値が類似するデータ項目をグループ化することができる。また、代表データ項目のデータから除外したデータ項目を復元することが可能となって、分析者に復元結果を提示することが可能となる。
<Summary>
In this embodiment, when selecting related data items, similar data items are narrowed down by comparing both the name of the data item in the natural language and the data (numerical data) corresponding to the data item. As a result, data items having similar names and similar values can be grouped. In addition, the data item excluded from the representative data item data can be restored, and the restoration result can be presented to the analyst.

絞り込み及び復元サーバ3は、データ傾向分析サーバ4へ投入するデータ項目を各グループの代表データ項目に絞り込むことで、データの傾向分析の処理負荷を低減しながら、傾向分析の精度を確保することができる。すなわち、本実施例では、代表データ項目に絞り込むことでデータ傾向分析の処理に要する時間を短縮しながら、全てのデータ項目を入力したのと同等の結果を得ることが可能となる。   The narrowing-down and restoration server 3 can secure the accuracy of trend analysis while reducing the processing load of data trend analysis by narrowing down the data items to be input to the data trend analysis server 4 to the representative data items of each group. it can. In other words, in this embodiment, it is possible to obtain the same result as inputting all data items while reducing the time required for the data trend analysis process by narrowing down to representative data items.

そして絞り込み及び復元サーバ3は、代表データ項目を選択する際に、代表データ項目のデータから除外するデータ項目を復元する精度を確保可能なデータ項目を代表データ項目として選択する。これにより、データの傾向分析結果を得た後に、代表データ項目と除外されたデータ項目の関係を提供することができる。ユーザ端末6を利用する分析者は、どのようなデータ項目が纏められたのかを知ることができ、分析者にとって重要なデータ項目が傾向分析の結果として得られたか否かを確認することができる。また、本実施例では、ユーザ端末6を利用する分析者は、傾向分析の後処理で、不要なデータ項目を選択することが可能になる。   Then, when selecting the representative data item, the narrowing and restoring server 3 selects a data item that can ensure the accuracy of restoring the data item excluded from the data of the representative data item as the representative data item. Thereby, after obtaining the trend analysis result of the data, the relationship between the representative data item and the excluded data item can be provided. An analyst using the user terminal 6 can know what data items are collected, and can confirm whether data items important to the analyst are obtained as a result of trend analysis. . In this embodiment, an analyst using the user terminal 6 can select unnecessary data items in the post-processing of trend analysis.

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。   In addition, this invention is not limited to an above-described Example, Various modifications are included. For example, the above-described embodiments are described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. Further, a part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. In addition, any of the additions, deletions, or substitutions of other configurations can be applied to a part of the configuration of each embodiment, either alone or in combination.

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。   Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. In addition, each of the above-described configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files for realizing each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。   Further, the control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

1 データ傾向分析システム
2 データベースサーバ
3 絞り込み及び復元サーバ
4 データ傾向分析サーバ4
6 ユーザ端末6−1〜6−3
20 データベース
220 分析対象データテーブル
240 独立データ項目テーブル
260 データの傾向分析の結果テーブル
250 サマリーテーブル
270 代表データテーブル
280 復元テーブル
290 最終結果テーブル
310 データ間関連分析部
320 グループ生成部
330 入力代表データ選出部
340 復元式生成部
350 データ復元部
1 Data trend analysis system 2 Database server 3 Refinement and restoration server 4 Data trend analysis server 4
6 User terminals 6-1 to 6-3
20 Database 220 Analysis target data table 240 Independent data item table 260 Data trend analysis result table 250 Summary table 270 Representative data table 280 Restoration table 290 Final result table 310 Inter-data relation analysis unit 320 Group generation unit 330 Input representative data selection unit 340 Restoration Expression Generation Unit 350 Data Restoration Unit

Claims (15)

プロセッサとメモリを含む計算機で、データ項目に対応するデータを有するデータテーブルについてデータの傾向分析を行うデータ傾向分析方法であって、
前記計算機が、複数の前記データテーブルについてデータ項目間の関連を抽出して、データ項目の関連情報を生成する第1のステップと、
前記計算機が、前記関連情報に基づいて前記データ項目の復元情報を生成する第2のステップと、
前記計算機が、前記関連情報に基づいて前記データ項目のグループを生成する第3のステップと、
前記計算機が、前記関連情報と前記復元情報に基づいて、前記グループ内のデータ項目から代表データ項目を選択する第4のステップと、
前記計算機が、前記代表データ項目に対応するデータの傾向分析を実施する第5のステップと、
前記計算機が、前記代表データ項目が所属する前記グループのデータ項目を前記復元情報に基づいて復元する第6のステップと、
前記計算機が、前記代表データ項目に対応するデータの傾向分析の結果と、前記データ項目の復元結果を出力する第7のステップと、
を含むことを特徴とするデータ傾向分析方法。
A data trend analysis method for performing a data trend analysis on a data table having data corresponding to a data item in a computer including a processor and a memory,
A first step in which the computer extracts associations between data items for a plurality of the data tables to generate association information of the data items;
A second step in which the computer generates restoration information of the data item based on the related information;
A third step in which the calculator generates the group of data items based on the related information;
A fourth step in which the computer selects a representative data item from the data items in the group based on the related information and the restoration information;
A fifth step in which the computer performs a trend analysis of data corresponding to the representative data item;
A sixth step in which the computer restores the data item of the group to which the representative data item belongs, based on the restoration information;
A seventh step in which the computer outputs a result of trend analysis of data corresponding to the representative data item, and a restoration result of the data item;
A data trend analysis method characterized by comprising:
請求項1に記載のデータ傾向分析方法であって、
前記第1のステップは、
前記データ項目の項目名の自然言語による類似度と、前記データ項目に対応するデータの値の類似度から関連するデータ項目のペアを抽出し、当該データ項目のペアについて前記関連情報を生成することを特徴とするデータ傾向分析方法。
The data trend analysis method according to claim 1,
The first step includes
Extracting a pair of related data items from the similarity of the item name of the data item in natural language and the similarity of the value of the data corresponding to the data item, and generating the related information for the pair of the data item A data trend analysis method characterized by
請求項2に記載のデータ傾向分析方法であって、
前記第2のステップは、
前記データ項目のペアを構成する第1のデータ項目と第2のデータ項目のそれぞれについて、前記第1のデータ項目のデータから前記第2のデータ項目を算出する第1の復元式と、前記第2のデータ項目のデータから前記第1のデータ項目を算出する第2の復元式を含む前記復元情報を生成することを特徴とするデータ傾向分析方法。
The data trend analysis method according to claim 2,
The second step includes
A first restoration formula for calculating the second data item from the data of the first data item for each of the first data item and the second data item constituting the data item pair; A data trend analysis method comprising: generating the restoration information including a second restoration formula for calculating the first data item from data of two data items.
請求項3に記載のデータ傾向分析方法であって、
前記第4のステップは、
前記データ項目のペアのうち前記復元情報からデータ項目を復元したときに復元精度を確保可能なデータ項目を代表データ項目として前記グループ毎に選択することを特徴とするデータ傾向分析方法。
A data trend analysis method according to claim 3, wherein
The fourth step includes
A data trend analysis method, wherein a data item capable of ensuring restoration accuracy when a data item is restored from the restoration information among the pair of data items is selected for each group as a representative data item.
請求項3に記載のデータ傾向分析方法であって、
前記第4のステップは、
前記データ項目のペアのうち前記復元情報からデータ項目を復元したときに復元精度が所定の閾値よりも低下する場合には、前記グループを分割することを特徴とするデータ傾向分析方法。
A data trend analysis method according to claim 3, wherein
The fourth step includes
A data trend analysis method, comprising: dividing a group when a restoration accuracy falls below a predetermined threshold when restoring a data item from the restoration information in the pair of data items.
請求項1に記載のデータ傾向分析方法であって、
前記第7のステップは、
前記データ項目の復元結果を、前記傾向分析の結果に含まれる前記代表データ項目と関連付けて出力することを特徴とするデータ傾向分析方法。
The data trend analysis method according to claim 1,
The seventh step includes
A data trend analysis method comprising: outputting a restoration result of the data item in association with the representative data item included in the trend analysis result.
プロセッサとメモリを含む絞込み及び復元サーバと、
プロセッサとメモリを含むデータ傾向分析サーバと、を有し、データ項目に対応するデータを有するデータテーブルについてデータの傾向分析を行うデータ傾向分析システムであって、
前記絞込み及び復元サーバは、
複数のデータテーブルについてデータ項目間の関連を抽出して、データ項目の関連情報を生成するデータ間関連分析部と、
前記関連情報に基づいて前記データ項目の復元情報を生成する復元式生成部と、
前記関連情報に基づいて前記データ項目のグループを生成するグループ生成部と、
前記関連情報と前記復元情報に基づいて、前記グループ内のデータ項目から代表データ項目を選択し、前記代表データ項目に対応するデータの傾向分析を前記データ傾向分析サーバに実施させる代表データ項目選出部と、
前記データ傾向分析サーバから前記代表データ項目に対応するデータの傾向分析の結果を受け付けて、前記代表データ項目が所属する前記グループのデータ項目を前記復元情報に基づいて復元し、前記データ項目の復元結果と前記傾向分析の結果を出力するデータ復元部と、
を有することを特徴とするデータ傾向分析システム。
A refinement and restoration server including a processor and memory;
A data trend analysis system having a data trend analysis server including a processor and a memory, and performing data trend analysis on a data table having data corresponding to a data item,
The narrowing and restoration server is:
An inter-data relation analysis unit that extracts relations between data items for a plurality of data tables and generates relation information of the data items;
A restoration formula generator for generating restoration information of the data item based on the related information;
A group generation unit for generating a group of the data items based on the related information;
A representative data item selection unit that selects a representative data item from the data items in the group based on the related information and the restoration information, and causes the data trend analysis server to perform a trend analysis of data corresponding to the representative data item. When,
Receiving the result of the trend analysis of the data corresponding to the representative data item from the data trend analysis server, restoring the data item of the group to which the representative data item belongs based on the restoration information, and restoring the data item A data restoration unit for outputting the result and the result of the trend analysis;
A data trend analysis system characterized by comprising:
請求項7に記載のデータ傾向分析システムであって、
前記データ間関連分析部は、
前記データ項目の項目名の自然言語による類似度と、前記データ項目に対応するデータの値の類似度から関連するデータ項目のペアを抽出し、当該データ項目のペアについて前記関連情報を生成することを特徴とするデータ傾向分析システム。
The data trend analysis system according to claim 7,
The inter-data relation analysis unit
Extracting a pair of related data items from the similarity of the item name of the data item in natural language and the similarity of the value of the data corresponding to the data item, and generating the related information for the pair of the data item A data trend analysis system characterized by
請求項8に記載のデータ傾向分析システムであって、
前記復元式生成部は、
前記データ項目のペアを構成する第1のデータ項目と第2のデータ項目のそれぞれについて、前記第1のデータ項目のデータから前記第2のデータ項目を算出する第1の復元式と、前記第2のデータ項目のデータから前記第1のデータ項目を算出する第2の復元式を含む復元情報を生成することを特徴とするデータ傾向分析システム。
The data trend analysis system according to claim 8,
The restoration formula generator is
A first restoration formula for calculating the second data item from the data of the first data item for each of the first data item and the second data item constituting the data item pair; 2. A data trend analysis system, comprising: generating restoration information including a second restoration formula for calculating the first data item from data of two data items.
請求項9に記載のデータ傾向分析システムであって、
前記代表データ項目選出部は、
前記データ項目のペアのうち前記復元情報からデータ項目を復元したときに復元精度を確保可能なデータ項目を代表データ項目としてグループ毎に選択することを特徴とするデータ傾向分析システム。
The data trend analysis system according to claim 9,
The representative data item selection unit is:
A data trend analysis system, wherein a data item that can ensure restoration accuracy is selected for each group as a representative data item when the data item is restored from the restoration information among the pair of data items.
請求項9に記載のデータ傾向分析システムであって、
前記代表データ項目選出部は、
前記データ項目のペアのうち前記復元情報からデータ項目を復元したときに復元精度が所定の閾値よりも低下する場合には、前記グループを分割することを特徴とするデータ傾向分析システム。
The data trend analysis system according to claim 9,
The representative data item selection unit is:
The data trend analysis system according to claim 1, wherein when a data item is restored from the restoration information among the pair of data items, the restoration of the restoration accuracy falls below a predetermined threshold.
請求項7に記載のデータ傾向分析システムであって、
前記データ復元部は、
前記データ項目の復元結果を、前記傾向分析の結果に含まれる前記代表データ項目と関連付けて出力することを特徴とするデータ傾向分析システム。
The data trend analysis system according to claim 7,
The data restoration unit
A data trend analysis system characterized by outputting the restoration result of the data item in association with the representative data item included in the trend analysis result.
プロセッサとメモリを含む絞り込み及び復元装置であって、
データ項目に対応するデータを有するデータテーブルを複数読み込んで、前記複数のデータテーブルについてデータ項目間の関連を抽出して、データ項目の関連情報を生成するデータ間関連分析部と、
前記関連情報に基づいて前記データ項目の復元情報を生成する復元式生成部と、
前記関連情報に基づいて前記データ項目のグループを生成するグループ生成部と、
前記関連情報と前記復元情報に基づいて、前記グループ内のデータ項目から代表データ項目を選択し、前記代表データ項目に対応するデータの傾向分析を外部に依頼する代表データ項目選出部と、
前記代表データ項目に対応するデータの傾向分析の結果を受け付けると、前記代表データ項目が所属する前記グループのデータ項目を前記復元情報に基づいて復元し、前記データ項目の復元結果と前記傾向分析の結果を出力するデータ復元部と、
を有することを特徴とする絞り込み及び復元装置。
A refinement and restoration device including a processor and a memory,
A plurality of data tables having data corresponding to the data items, extracting relationships between the data items for the plurality of data tables, and generating an inter-data relationship analysis unit;
A restoration formula generator for generating restoration information of the data item based on the related information;
A group generation unit for generating a group of the data items based on the related information;
A representative data item selection unit that selects a representative data item from the data items in the group based on the related information and the restoration information, and requests an external trend analysis of data corresponding to the representative data item;
Upon receiving the result of the trend analysis of the data corresponding to the representative data item, the data item of the group to which the representative data item belongs is restored based on the restoration information, and the restoration result of the data item and the trend analysis A data restoration unit for outputting the results;
And a refining and restoring device.
請求項13に記載の絞り込み及び復元装置であって、
前記データ間関連分析部は、
前記データ項目の項目名の自然言語による類似度と、前記データ項目に対応するデータの値の類似度から関連するデータ項目のペアを抽出し、当該データ項目のペアについて前記関連情報を生成することを特徴とする絞り込み及び復元装置。
The narrowing and restoring device according to claim 13,
The inter-data relation analysis unit
Extracting a pair of related data items from the similarity of the item name of the data item in natural language and the similarity of the value of the data corresponding to the data item, and generating the related information for the pair of the data item A narrowing and restoring device characterized by the above.
請求項14に記載の絞り込み及び復元装置であって、
前記復元式生成部は、
前記データ項目のペアを構成する第1のデータ項目と第2のデータ項目のそれぞれについて、前記第1のデータ項目のデータから前記第2のデータ項目を算出する第1の復元式と、前記第2のデータ項目のデータから前記第1のデータ項目を算出する第2の復元式を含む復元情報を生成することを特徴とする絞り込み及び復元装置。
The narrowing and restoring device according to claim 14,
The restoration formula generator is
A first restoration formula for calculating the second data item from the data of the first data item for each of the first data item and the second data item constituting the data item pair; 2. A narrowing-down / restoring apparatus, comprising: generating restoration information including a second restoration formula for calculating the first data item from data of two data items.
JP2018060783A 2018-03-27 2018-03-27 Data trend analysis method, data trend analysis system, and narrowing and restoring device Active JP6563549B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018060783A JP6563549B1 (en) 2018-03-27 2018-03-27 Data trend analysis method, data trend analysis system, and narrowing and restoring device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018060783A JP6563549B1 (en) 2018-03-27 2018-03-27 Data trend analysis method, data trend analysis system, and narrowing and restoring device

Publications (2)

Publication Number Publication Date
JP6563549B1 true JP6563549B1 (en) 2019-08-21
JP2019175009A JP2019175009A (en) 2019-10-10

Family

ID=67695608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018060783A Active JP6563549B1 (en) 2018-03-27 2018-03-27 Data trend analysis method, data trend analysis system, and narrowing and restoring device

Country Status (1)

Country Link
JP (1) JP6563549B1 (en)

Also Published As

Publication number Publication date
JP2019175009A (en) 2019-10-10

Similar Documents

Publication Publication Date Title
US20130222388A1 (en) Method of graph processing
JP6158623B2 (en) Database analysis apparatus and method
US20160004757A1 (en) Data management method, data management device and storage medium
JP2007329415A (en) Data processing method, data processing program, recording medium recording same program, and data processor
KR102104316B1 (en) Apparatus for predicting stock price of company by analyzing news and operating method thereof
CN107273979B (en) Method and system for performing machine learning prediction based on service level
CN110866836B (en) Computer-implemented medical insurance scheme auditing method and device
CN116757297A (en) Method and system for selecting features of machine learning samples
WO2012080077A1 (en) Cleansing a database system to improve data quality
CN111986792A (en) Medical institution scoring method, device, equipment and storage medium
CN106844550B (en) Virtualization platform operation recommendation method and device
CN116882520A (en) Prediction method and system for predetermined prediction problem
US9251192B2 (en) Information matching apparatus, information matching system and method of matching information for outputting matching result
CN108459965B (en) Software traceable generation method combining user feedback and code dependence
JP6996936B2 (en) Source code analyzer, source code analysis method, source code analysis program
JP2019204246A (en) Learning data creation method and learning data creation device
CN112487021B (en) Correlation analysis method, device and equipment of business data
CN116595918B (en) Method, device, equipment and storage medium for verifying quick logical equivalence
US20220121665A1 (en) Computerized Methods and Systems for Selecting a View of Query Results
CN110909975B (en) Scientific research platform benefit evaluation method and device
JP6563549B1 (en) Data trend analysis method, data trend analysis system, and narrowing and restoring device
JP5439235B2 (en) Document classification method, document classification device, and program
KR20230000420A (en) Apparatus and method for building training data using patent document and building training data system using the same
US20130318104A1 (en) Method and system for analyzing data in artifacts and creating a modifiable data network
CN114138743A (en) ETL task automatic configuration method and device based on machine learning

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190724

R150 Certificate of patent or registration of utility model

Ref document number: 6563549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150