JP5156692B2 - Pseudo data generation device, pseudo data generation method, and computer program - Google Patents

Pseudo data generation device, pseudo data generation method, and computer program Download PDF

Info

Publication number
JP5156692B2
JP5156692B2 JP2009131508A JP2009131508A JP5156692B2 JP 5156692 B2 JP5156692 B2 JP 5156692B2 JP 2009131508 A JP2009131508 A JP 2009131508A JP 2009131508 A JP2009131508 A JP 2009131508A JP 5156692 B2 JP5156692 B2 JP 5156692B2
Authority
JP
Japan
Prior art keywords
analysis model
parameter
pseudo data
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009131508A
Other languages
Japanese (ja)
Other versions
JP2010277481A (en
Inventor
順子 矢野
修平 桑田
慶一郎 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2009131508A priority Critical patent/JP5156692B2/en
Publication of JP2010277481A publication Critical patent/JP2010277481A/en
Application granted granted Critical
Publication of JP5156692B2 publication Critical patent/JP5156692B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムに関する。   The present invention relates to a pseudo data generation device, a pseudo data generation method, and a computer program.

近年、企業・公共機関を問わず、多くの組織において「情報活用」が注目されている。これは、業務のIT(Information Technology)化によって蓄積された膨大な情報(データ)を、業務改善や意思決定に役立てようとする意識が高まっている現われであるといえる。   In recent years, “information utilization” has attracted attention in many organizations regardless of whether it is a company or a public institution. It can be said that this is a manifestation of increasing awareness that the vast amount of information (data) accumulated through the IT (Information Technology) of business is useful for business improvement and decision making.

これに伴い、「BI(ビジネス・インテリジェンス)」が注目されることとなった。BIとは、企業内外のデータを組織的かつ系統的に分析して、業務に有用な知識や洞察を生み出す仕組み、もしくは、その仕組みを実現するシステムやテクノロジであり、これまでに多くの企業が、経営の見える化や効果的な意思決定を行なうために、BIを導入してきた。   Along with this, “BI (Business Intelligence)” has attracted attention. BI is a mechanism that systematically and systematically analyzes internal and external data to generate knowledge and insight useful for business, or a system and technology that realizes such a mechanism. In order to visualize management and make effective decisions, we have introduced BI.

ところが、多くの場合、BIの導入効果を十分に発揮できずに終わっている。その原因は、分析スキルのある人材が不足しているために、BIを使いこなすことが出来ず、結果として、意思決定につながる知識や洞察を抽出できなかったことにあると考えられる。   However, in many cases, the introduction effect of BI cannot be fully exhibited. The reason for this is thought to be that, due to the lack of human resources with analytical skills, it was impossible to master the BI, and as a result, knowledge and insights that led to decision making could not be extracted.

そこで、BIを使いこなせるような、情報活用に関するスキルを身につけるための人材育成が急務である。このような人材育成の取り組みは、例えば、データ活用のコンサルティング会社等において行なわれているが、これには、過去のコンサルティング案件に基づいた「データ分析実習」を行なうことが効果的である。この実習とは、データを実際に分析することにより、データ分析のフレームワークや分析結果の解釈の仕方を学ぶ研修のことであり、分析コンサルティングのノウハウを学ぶことができる。   Therefore, there is an urgent need to develop human resources to acquire skills related to information utilization that can make full use of BI. Such human resource development efforts are carried out by, for example, a data utilization consulting company. For this purpose, it is effective to conduct “data analysis training” based on past consulting projects. This practice is a training to learn the data analysis framework and how to interpret the analysis results by actually analyzing the data, and you can learn the know-how of analysis consulting.

一方、非特許文献1には、自動解析機能により元データの文字列の意味を解析し、個人情報と判断されるテーブルの氏名、住所、電話番号などの情報を擬似データ変換機能により類似した内容の文字列に変換することにより、本番データからテスト・検証用の擬似データを安全に自動的に作成するアプリケーションが開示されている。これにより、データベース開発において、生成された擬似データを用いて、本番データを使用したテスト・検証と同様の成果を得ることができるとともに、擬似データ作成にかかっていた負荷を大幅に軽減して生産性の向上を図り、業務知識がなくても擬似データの作成と利用が可能となる。   On the other hand, Non-Patent Document 1 analyzes the meaning of the character string of the original data by the automatic analysis function, and resembles the information such as the name, address, and telephone number of the table determined to be personal information by the pseudo data conversion function. An application for automatically and safely creating pseudo data for test / verification from production data by converting to a character string is disclosed. As a result, in database development, the generated pseudo data can be used to obtain the same results as testing / verification using production data, and the production of pseudo data can be greatly reduced. This makes it possible to create and use pseudo data without business knowledge.

シーネットネットワークスジャパン株式会社、DB開発時の疑似データ自動作成&レポート発行ツール「DB Secure Utility」発売,[online],株式会社システムエグゼ,[平成21年4月27日検索]、インターネット<http://japan.zdnet.com/news/devsys/story/0,2000056182,20368504,00.htm>Sea Net Networks Japan Co., Ltd. releases DB Secure Utility, a pseudo data automatic creation and report issuing tool for DB development, [online], System EXE, Inc. [Search April 27, 2009], Internet <http : //japan.zdnet.com/news/devsys/story/0,2000056182,20368504,00.htm>

上述したような「データ分析実習」においてデータを分析する際には、実際に収集したデータ(以下、「実データ」と記載)を用いることが理想的である。しかし、企業や公共機関において収集した実データは、個人情報保護や通信の秘密といった観点から非常に機密性の高いデータである。従って、データ活用のコンサルティングを行なっている会社では、お客様からコンサルティングのために預かった実データをそのまま保存したり、コンサルティング以外の目的で利用したりすることはできない場合がほとんどである。そこで、コンサルティング会社においては、擬似データを作成し、この擬似データによりデータ分析実習を行なう必要が生じている。また、実データが利用可能な場合であっても、実データは大規模であることが多いため、コストの観点から一部のみを抽出して小規模の擬似データを作成し、実データ自体は破棄しなければならない。作成される擬似データは、スキルを身につけたり、ノウハウを蓄積したりするために、実データと性質が近い、つまり、各パラメータの設定値の分布傾向が類似したものである必要があった。   When data is analyzed in the “data analysis practice” as described above, it is ideal to use actually collected data (hereinafter referred to as “actual data”). However, actual data collected by companies and public institutions is highly confidential data from the viewpoint of personal information protection and communication confidentiality. Therefore, in companies that conduct consulting for data utilization, it is almost impossible to store actual data stored for consulting by customers or use it for purposes other than consulting. Therefore, in a consulting company, it is necessary to create pseudo data and perform data analysis training using the pseudo data. Even if the actual data is available, the actual data is often large-scale, so only a part is extracted from the viewpoint of cost and small-scale pseudo data is created. Must be destroyed. In order to acquire skills and accumulate know-how, the created pseudo data needs to be similar in nature to the actual data, that is, the distribution tendency of the setting values of each parameter must be similar.

また、大規模DWH(Data WareHouse)・データマートなどのシステム開発を行なう場合、その開発工程では、ロードや集計速度などをできる限り精度高く把握し、より本番データに近いデータによる検証が要求されている。他の分析システムの開発においても同様に、分析モデルの構築を含めた分析時間についても時間的制約がある場合、より精度の高いデータによりシステムを検証することが要求される。この場合も、実データと各パラメータの設定値の分布傾向が類似した擬似データを用いる必要があった。   Also, when developing a system such as a large-scale DWH (Data WareHouse) / data mart, the development process requires the load and counting speed to be as accurate as possible, and verification with data closer to the actual data is required. Yes. Similarly, in the development of other analysis systems, if there is a time constraint on the analysis time including the construction of an analysis model, it is required to verify the system with more accurate data. Also in this case, it is necessary to use pseudo data in which the distribution tendency of the set values of the actual data and each parameter is similar.

しかし、非特許文献1の技術では、文字列の意味を解釈し、その中の個人情報に関わるデータについてのみ文字列変換機能を実現するものであるが、実データ自体を保持しておき、当該実データの設定値自体をコピーする必要があり、また、実データよりも容量の少ない実データを生成する場合に、実データにおける各パラメータの設定値の分布傾向を保持した擬似データを生成するものではない。   However, in the technique of Non-Patent Document 1, the meaning of the character string is interpreted, and the character string conversion function is realized only for the data related to the personal information, but the actual data itself is retained, It is necessary to copy the actual data setting value itself, and when generating actual data with a smaller capacity than the actual data, generate pseudo data that retains the distribution tendency of each parameter setting value in the actual data is not.

本発明は、上記の事情に鑑みてなされたものであり、その目的は、実データ自体を蓄積しておかなくとも、実データにおける各パラメータの設定値の分布傾向を保持した、必要な容量の擬似データを生成することができる擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムを提供することにある。   The present invention has been made in view of the above circumstances, and its purpose is to maintain the distribution capacity of each parameter setting value in the actual data without storing the actual data itself. It is an object of the present invention to provide a pseudo data generation device, a pseudo data generation method, and a computer program that can generate pseudo data.

上記課題を解決するため、本発明は、実データを読み込む情報読込部と、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、を備えることを特徴とする擬似データ生成装置である。   In order to solve the above problems, the present invention provides an information reading unit that reads actual data, and distribution of set values that can be taken by analysis model parameters that are used in an analysis model that is a calculation formula for occurrence probability of a predetermined action or event. A parameter creating unit that calculates a value indicating a parameter setting value in the actual data corresponding to the analysis model parameter, a setting value that can be taken by the analysis model parameter is determined at random, and the analysis model is used. The probability of occurrence of the predetermined action or event is calculated from the set value of the analysis model parameter determined at random and the value indicating the distribution of the set value of the analysis model parameter created by the parameter creation unit. , The set value of the analysis model parameter determined at random for the generation of pseudo data based on the calculated probability If it is determined whether or not to use for the generation of pseudo data, the process of determining the setting values of the parameters constituting the pseudo data based on the setting values of the analysis model parameters determined at random is repeated, A pseudo data generation device comprising: a pseudo data generation unit that generates data.

また、本発明は、上述した擬似データ生成装置であって、前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする。   In addition, the present invention is the above-described pseudo data generation device, wherein the pseudo data generation unit generates a set value of a parameter constituting the pseudo data for a predetermined number of records.

また、本発明は、上述した擬似データ生成装置であって、前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、をさらに備えることを特徴とする。   Further, the present invention provides the above-described pseudo data generation device, wherein a value indicating a distribution of set values that can be taken by the analysis model parameter used in the analysis model is stored in the pseudo data corresponding to the analysis model parameter. The setting value distribution is calculated from the value indicating the distribution of the calculated setting value and the value indicating the distribution of the setting value generated based on the setting value of the parameter in the actual data. A verification unit that determines whether or not the deviation is greater than a predetermined value, and if the verification unit determines that there is a deviation, deletes part or all of the pseudo data and creates pseudo data in the pseudo data generation unit And a pseudo data regeneration unit for instructing.

また、本発明は、擬似データ生成装置に用いられる擬似データ生成方法であって、情報読込部が、実データを読み込む情報読込部ステップと、パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、を有することを特徴とする擬似データ生成方法である。 Further, the present invention provides a pseudo-data generating method for use in a pseudo-data generating device, information reading unit, and an information reading unit step of reading actual data, parameter creation unit, the probability of occurrence of a predetermined behavior or events A parameter creation step of calculating a value indicating a distribution of setting values that can be taken by the analysis model parameter used in the analysis model that is a calculation formula of the parameter from a setting value of the parameter in the actual data corresponding to the analysis model parameter; The pseudo data generation unit randomly determines setting values that can be taken by the analysis model parameter, and the analysis model is used to randomly determine the setting value of the analysis model parameter and the parameter generation step. And the occurrence of the predetermined action or event from the value indicating the distribution of the set value of the analysis model parameter. If the probability is calculated, whether to use the set value of the analysis model parameter determined at random for the generation of pseudo data based on the calculated probability, and if it is determined to use for the generation of pseudo data, A pseudo data generating step of generating pseudo data by repeating the process of determining the set values of parameters constituting the pseudo data based on the set values of the analysis model parameters determined at random; It is a generation method.

また、本発明は、擬似データ生成装置として用いられるコンピュータを、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、として機能させることを特徴とするコンピュータプログラムである。   In addition, the present invention provides a computer used as a pseudo data generation device with a value indicating a distribution of setting values that can be taken by an analysis model parameter used in an analysis model that is a calculation formula for occurrence probability of a predetermined action or event. A parameter creation unit that calculates the setting value of the parameter in the actual data corresponding to the analysis model parameter, the setting value that the analysis model parameter can take is determined at random, and the analysis model is used to determine the setting value that is randomly determined The occurrence probability of the predetermined action or event is calculated from the setting value of the analysis model parameter and the value indicating the distribution of the setting value of the analysis model parameter created by the parameter creation unit, and the calculated probability The set value of the analysis model parameter determined at random is used to generate pseudo data based on If it is determined whether to use for the generation of pseudo data, it repeats the process of determining the setting values of the parameters constituting the pseudo data based on the setting values of the analysis model parameters determined at random, the pseudo data It is a computer program characterized by functioning as a pseudo data generation part which generates.

本発明によれば、実データ自体を蓄積したり、その設定値をコピーして用いたりすることなく、実データにおける各パラメータの設定値の分布傾向を保持した、必要なデータサイズの擬似データを生成することができる。よって、コストを抑えながら擬似データを生成することが可能となるとともに、生成された擬似データをデータ分析の演習などに用いることにより、現実に近いデータ分析コンサルティングのノウハウを蓄積することが可能となる。また、この擬似データを、分析システムの検証に用い、精度の高い検証結果を得ることもできる。   According to the present invention, the pseudo data having the necessary data size that retains the distribution tendency of the setting values of each parameter in the actual data without accumulating the actual data itself or copying and using the setting values. Can be generated. Therefore, it is possible to generate pseudo data while reducing costs, and it is possible to accumulate data analysis consulting know-how that is close to reality by using the generated pseudo data for data analysis exercises and the like. . In addition, this pseudo data can be used for verification of the analysis system to obtain a highly accurate verification result.

本発明の一実施の形態による擬似データ生成装置の構成図である。It is a block diagram of the pseudo data generation apparatus by one embodiment of this invention. 同実施の形態による実データのデータ構成例を示す図である。It is a figure which shows the data structural example of the actual data by the embodiment. 同実施の形態による分析情報テーブルのデータ構成例を示す図である。It is a figure which shows the data structural example of the analysis information table by the embodiment. 同実施の形態による分析シナリオの例を示す図である。It is a figure which shows the example of the analysis scenario by the embodiment. 同実施の形態による擬似化パラメータテーブルのデータ構成例を示す図である。It is a figure which shows the data structural example of the simulation parameter table by the embodiment. 同実施の形態によるデータ蓄積処理の処理フローを示す図である。It is a figure which shows the processing flow of the data storage process by the embodiment. 同実施の形態による擬似データ生成処理の処理フローを示す図である。It is a figure which shows the processing flow of the pseudo data generation process by the embodiment. 同実施の形態による中間テーブルのデータ構成例を示す図である。It is a figure which shows the data structural example of the intermediate | middle table by the embodiment. 同実施の形態による擬似データのデータ構成例を示す図である。It is a figure which shows the data structural example of the pseudo data by the embodiment.

以下、図面を参照して本発明の実施形態の例について説明する。
図1は、本発明の一実施形態による擬似データ生成装置1の機能ブロック図である。同図において、擬似データ生成装置1は、例えば、サーバやパーソナルコンピュータなどのコンピュータ装置で実現することができ、制御部10、入力部20、情報読込部30、表示部40、記憶部50及び処理部60を備える。
Hereinafter, exemplary embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a functional block diagram of a pseudo data generation apparatus 1 according to an embodiment of the present invention. In the figure, the pseudo data generation device 1 can be realized by a computer device such as a server or a personal computer, for example, and includes a control unit 10, an input unit 20, an information reading unit 30, a display unit 40, a storage unit 50, and processing. The unit 60 is provided.

制御部10は、CPU(central processing unit)及び各種メモリから構成され、各部の制御や、データの一時的な格納や、データの転送等を行う。入力部20は、キーボードやマウス、ボタンなどであり、利用者の操作による情報の入力を受ける。表示部40は、LCD(Liquid Crystal Display)やCRT(cathode ray tube)などのディスプレイである。情報読込部30は、磁気ディスクやCD−ROM等の可搬の記録媒体から情報を読み込む。あるいは、情報読込部30は、ネットワークを介して接続される他のコンピュータ装置から情報を受信するものであってもよい。   The control unit 10 includes a central processing unit (CPU) and various memories, and controls each unit, temporarily stores data, transfers data, and the like. The input unit 20 is a keyboard, mouse, button, or the like, and receives information input by a user's operation. The display unit 40 is a display such as an LCD (Liquid Crystal Display) or a CRT (cathode ray tube). The information reading unit 30 reads information from a portable recording medium such as a magnetic disk or a CD-ROM. Alternatively, the information reading unit 30 may receive information from another computer device connected via a network.

記憶部50は分析情報記憶部51、分析モデル記憶部52、実データ記憶部53、中間データ記憶部54、及び、抽出データ記憶部55を備え、処理部60は、分析情報書込部61、分析モデル書込部62、パラメータ作成部63、分析情報検索部64、抽出データ出力部65、擬似データ生成部66、検証部67、及び、擬似データ再生成部68を備える。   The storage unit 50 includes an analysis information storage unit 51, an analysis model storage unit 52, an actual data storage unit 53, an intermediate data storage unit 54, and an extracted data storage unit 55. The processing unit 60 includes an analysis information writing unit 61, An analysis model writing unit 62, a parameter creation unit 63, an analysis information search unit 64, an extracted data output unit 65, a pseudo data generation unit 66, a verification unit 67, and a pseudo data regeneration unit 68 are provided.

分析情報書込部61は、実データを用いて行なった分析内容や、その分析内容による分析を行なった結果を示す分析情報を分析情報記憶部51に書き込む。実データとは、各種サービス業務処理を実行する業務システムにおいて収集した、サービスの利用に関する情報である。このようなサービスには、例えば、商品の販売やウェブページの提供などがある。さらに、分析情報書込部61は、実データを蓄積してもよい場合、情報読込部30により読み込まれた実データを実データ記憶部53へ書き込むとともに、分析情報記憶部51に分析情報と実データとの対応付けを示す情報を書き込む。   The analysis information writing unit 61 writes in the analysis information storage unit 51 the analysis content that has been performed using the actual data and the analysis information that indicates the result of the analysis based on the analysis content. The actual data is information related to service usage collected in a business system that executes various service business processes. Such services include, for example, sales of products and provision of web pages. Furthermore, when the actual data may be accumulated, the analysis information writing unit 61 writes the actual data read by the information reading unit 30 to the actual data storage unit 53 and also stores the analysis information and the actual data in the analysis information storage unit 51. Write information indicating the association with data.

分析モデル書込部62は、ユーザにより選択された分析モデルを分析モデル記憶部52に書き込む。分析モデルとは、所定のパラメータの設定値に基づいて、利用者がサービスを利用する確率を算出するための算出式である。なお、分析モデルに用いられるパラメータは、実データを構成するパラメータと対応付けられる。   The analysis model writing unit 62 writes the analysis model selected by the user in the analysis model storage unit 52. An analysis model is a calculation formula for calculating a probability that a user will use a service based on a set value of a predetermined parameter. Note that the parameters used in the analysis model are associated with the parameters constituting the actual data.

パラメータ作成部63は、情報読込部30により読み込まれた実データから、分析モデルに用いられる各パラメータの設定値の分布を示す擬似化パラメータ情報を生成し、分析モデル記憶部52に書き込む。さらに、パラメータ作成部63は、実データに対応した分析情報と、当該実データに基づいて生成した擬似化パラメータ情報との対応付けを分析情報記憶部51に書き込む。   The parameter creation unit 63 generates simulated parameter information indicating the distribution of the setting values of each parameter used in the analysis model from the actual data read by the information reading unit 30 and writes it into the analysis model storage unit 52. Further, the parameter creation unit 63 writes the association between the analysis information corresponding to the actual data and the simulated parameter information generated based on the actual data in the analysis information storage unit 51.

分析情報検索部64は、ユーザが入力した条件によって分析情報記憶部51内の分析情報を検索し、検索結果を表示部40に表示する。
抽出データ出力部65は、ユーザによって選択された分析情報に実データが対応付けてられているときには、当該実データを抽出データ記憶部55に書き込み、ユーザによって選択された分析情報に擬似化パラメータ情報が対応付けてられているときには、当該擬似化パラメータ情報を用いて生成された擬似データを抽出データ記憶部55に書き込む。
The analysis information search unit 64 searches the analysis information in the analysis information storage unit 51 according to the conditions input by the user, and displays the search result on the display unit 40.
When the actual data is associated with the analysis information selected by the user, the extracted data output unit 65 writes the actual data to the extracted data storage unit 55, and the simulated parameter information is added to the analysis information selected by the user. Are associated with each other, the pseudo data generated using the simulation parameter information is written into the extracted data storage unit 55.

擬似データ生成部66は、ユーザにより選択された分析情報に対応付けられた擬似化パラメータ情報に基づいて擬似データを生成し、中間データ記憶部54に書き込む。検証部67は、擬似データ生成部66により生成された擬似データから分析モデルを用いて検証用の擬似化パラメータ情報を生成し、当該擬似データの生成時に用いた擬似化パラメータ情報、つまり、実データから生成した元の擬似化パラメータ情報との乖離を検証する。擬似データ再生成部68は、検証部67による検証が不成功であった場合、擬似データの再生成を擬似データ生成部66に指示する。   The pseudo data generation unit 66 generates pseudo data based on the simulation parameter information associated with the analysis information selected by the user, and writes the pseudo data in the intermediate data storage unit 54. The verification unit 67 generates simulation parameter information for verification using the analysis model from the pseudo data generated by the pseudo data generation unit 66, and the simulation parameter information used when generating the pseudo data, that is, actual data Verify the deviation from the original simulation parameter information generated from. If the verification by the verification unit 67 is unsuccessful, the pseudo data regeneration unit 68 instructs the pseudo data generation unit 66 to regenerate the pseudo data.

次に、各データの例について説明する。
図2は、擬似データ生成装置1に入力される実データのデータ構成例を示す図である。
同図において、実データは、POS(Point Of Sale)データ及び顧客属性データとからなる。POSデータは、顧客が商品を購入した日付、曜日及び時間帯と、購入店舗の店舗コードと、購入商品を特定する商品コードと、商品の金額との情報が含まれる複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。顧客属性データは、顧客の性別、年齢等を含む複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。以下、実データを構成するパラメータの種別、例えば、POSデータの日付、曜日、時間帯、店舗コード、商品コード、金額や、顧客属性データの性別や年齢などを「実データパラメータ」と記載する。
Next, an example of each data will be described.
FIG. 2 is a diagram illustrating a data configuration example of actual data input to the pseudo data generation device 1.
In the figure, the actual data is composed of POS (Point Of Sale) data and customer attribute data. The POS data is composed of a plurality of records including information on the date, day of the week and time of the purchase by the customer, the store code of the purchase store, the product code for specifying the purchased product, and the price of the product. An ID for identifying the record is set in the record. The customer attribute data consists of a plurality of records including the sex, age, etc. of the customer, and an ID for identifying the record is set in each record. Hereinafter, the types of parameters constituting the actual data, for example, the date, day of the week, time zone, store code, product code, amount of money, the gender and age of the customer attribute data, etc. will be referred to as “actual data parameters”.

なお、上述したように、実データは、各種サービス業務における処理を実行する業務システムにおいて収集した、当該サービスの利用に関する情報である。つまり、本実施の形態において対象とする実データは、サービスを利用したなど、何らかの行動を行なった人の情報や、その行動が行なわれた状況に関して収集した情報である。あるいは、システム運用状況のログと発生した故障など、その事象が発生した状況に関して収集した情報とすることもできる。
例えば、ウェブ利用についての実データであれば、POSデータに代えて、レコードを特定するIDと、顧客がウェブにアクセスした日付、曜日及び時間帯と、アクセス先URL(Universal Resource Locator)との情報を含む複数のレコードからなるアクセスログデータを用いることができる。
As described above, the actual data is information related to the use of the service collected in a business system that executes processing in various service businesses. That is, the actual data that is the target in the present embodiment is information collected about the information on the person who performed some action such as using a service, and the situation where the action was performed. Alternatively, it may be information collected regarding a situation in which the event has occurred, such as a log of system operation status and a failure that has occurred.
For example, in the case of actual data for web usage, instead of the POS data, information for identifying a record, the date, day of the week, and time zone when the customer accessed the web, and the access destination URL (Universal Resource Locator) The access log data consisting of a plurality of records including can be used.

図3は、擬似データ生成装置1に入力され、分析情報記憶部51に記憶される分析情報テーブルのデータ構成例を示す図である。
同図において、分析情報テーブルは、レコードを特定する分析番号と、分析タイトル、どのような業界あるいは分野に関する分析であるかを示す業界・分野キーワード、分析の目的、使用した分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報と、擬似化パラメータテーブル(後述する図5参照)の有無、及び、分析用データ格納位置とを含むレコードからなる。分析用データ格納位置は、擬似化パラメータテーブル「無」の場合は、実データの格納位置を、擬似化パラメータテーブル「有」の場合は擬似化パラメータテーブルの格納位置が設定される。また、分析内容、分析内容詳細には、それらを記述した情報の格納位置が設定される。
FIG. 3 is a diagram illustrating a data configuration example of an analysis information table that is input to the pseudo data generation device 1 and stored in the analysis information storage unit 51.
In this figure, the analysis information table is based on the analysis number that identifies the record, the analysis title, the industry / field keyword indicating what industry or field the analysis is for, the purpose of the analysis, the analysis scenario used, and the analysis scenario. It consists of records including analysis information consisting of analysis content, analysis content details, and analysis result details, presence / absence of a simulation parameter table (see FIG. 5 described later), and analysis data storage location. As the analysis data storage location, the storage location of the actual data is set when the simulation parameter table is “none”, and the storage location of the simulation parameter table is set when the simulation parameter table is “present”. In addition, the storage location of information describing them is set in the analysis content and the analysis content details.

図4は、分析シナリオの例を示す図である。図3に示す分析情報テーブルの分析シナリオには、図4に示す分析シナリオ類型が設定される。分析シナリオは、実データから得られるパラメータの設定値または当該設定値に対応して決定される値を、分析のための所定の式に代入して何らかの傾向や特徴を表す指標値を算出する過程を、所定の順序によって行っていくものである。このようにして得られた指標値を分析することにより、分析シナリオで目的とする内容についての傾向や特徴を判断することができる。   FIG. 4 is a diagram illustrating an example of an analysis scenario. The analysis scenario type shown in FIG. 4 is set in the analysis scenario of the analysis information table shown in FIG. An analysis scenario is a process in which a parameter setting value obtained from actual data or a value determined in accordance with the setting value is substituted into a predetermined formula for analysis to calculate an index value representing some tendency or characteristic. Are performed in a predetermined order. By analyzing the index value thus obtained, it is possible to determine the tendency and characteristics of the target content in the analysis scenario.

図5は、分析モデル記憶部52に記憶される擬似化パラメータテーブルのデータ構成例を示す図である。
擬似化パラメータテーブルは、分析モデルに用いられる各パラメータの擬似化パラメータ情報からなる。以下、分析モデルに用いられるパラメータを「分析モデルパラメータ」と記載する。同図において、擬似化パラメータテーブルは、性別、年代、商品種別、店舗、時間帯、月などの各分析モデルパラメータに対応した擬似化パラメータ情報からなり、擬似化パラメータ情報は、分析モデルパラメータが取り得る設定値と、実データにおける当該設定値の分布を示す分布値とを対応付けた情報であることが示されている。
FIG. 5 is a diagram illustrating a data configuration example of a simulation parameter table stored in the analysis model storage unit 52.
The simulation parameter table includes simulation parameter information of each parameter used in the analysis model. Hereinafter, parameters used for the analysis model are referred to as “analysis model parameters”. In the figure, the simulation parameter table includes simulation parameter information corresponding to each analysis model parameter such as gender, age, product type, store, time zone, and month, and the simulation parameter information is taken by the analysis model parameter. It is shown that the obtained setting value is associated with a distribution value indicating the distribution of the setting value in actual data.

次に、本実施形態による擬似データ生成装置1の動作について説明する。
図6は、本実施の形態によるデータ蓄積処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置1の入力部20により、実データを蓄積するか、擬似化パラメータ情報を生成するかの指示と、実データの格納場所とを入力する(ステップS105)。さらにユーザは、入力部20により、分析タイトル、業界・分野キーワード、分析の目的、分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報を入力する(ステップS110)。
Next, the operation of the pseudo data generation device 1 according to the present embodiment will be described.
FIG. 6 is a diagram showing a processing flow of data accumulation processing according to the present embodiment.
In the figure, the user inputs an instruction to store actual data or generate simulated parameter information and a storage location of the actual data through the input unit 20 of the simulated data generation apparatus 1 (step S105). . Further, the user inputs analysis information including an analysis title, an industry / field keyword, an analysis purpose, an analysis scenario, an analysis content based on the analysis scenario, an analysis content detail, and an analysis result detail via the input unit 20 (step S110). .

ステップS105において、実データの蓄積指示が入力された場合(ステップS115:蓄積)、情報読込部30は、入力された実データの格納場所に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から、実データを読み出して実データ記憶部53へ書き込む(ステップS120)。さらに、分析情報書込部61は、ステップS110において入力された分析情報と、ステップS120において実データを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「無」とを設定したレコードを、分析情報記憶部51内の分析情報テーブルに追加する(ステップS125)。   In step S105, when an instruction to store actual data is input (step S115: accumulation), the information reading unit 30 is based on the storage location of the input actual data via a portable recording medium or a network. The real data is read out from the other computer devices connected to the real data storage unit 53 (step S120). Further, the analysis information writing unit 61 records the analysis information input in step S110, the information specifying the storage area in which the actual data is written in step S120, and the simulation parameter table “none”. The information is added to the analysis information table in the analysis information storage unit 51 (step S125).

一方、ステップS105において、擬似化パラメータ情報の生成指示が入力された場合(ステップS115:擬似化)、さらに、ユーザは入力部20により、使用する分析モデルを入力する(ステップS130)。分析モデル書込部62は、入力された分析モデルを分析モデル記憶部52に書き込む。   On the other hand, when an instruction to generate simulation parameter information is input in step S105 (step S115: simulation), the user inputs an analysis model to be used through the input unit 20 (step S130). The analysis model writing unit 62 writes the input analysis model in the analysis model storage unit 52.

なお、分析モデルは、予め分析モデル記憶部52に予め記憶されている一覧の中から選択するようにしてもよい。分析モデルは、分析シナリオの一部として含まれているものでもよく、含まれていないものであってもよい。これは、例えば分析シナリオにおいて複数の分析モデルを利用する場合、全て同じ分析モデルを利用して疑似データを作成するよりも、簡易なモデルを適用した方が良い場合が考えられるためであるが、分析モデルには、データ分析実習やシステム検証に使用する分析シナリオの中で使用するパラメータが少なくとも含まれている必要がある。ここでは、以下の(式1)及び(式2)からなる分析モデルが入力されたものとする。   The analysis model may be selected from a list stored in advance in the analysis model storage unit 52. The analysis model may or may not be included as part of the analysis scenario. This is because, for example, when using a plurality of analysis models in an analysis scenario, it may be better to apply a simple model than to create pseudo data using all the same analysis model, The analysis model needs to include at least parameters used in analysis scenarios used for data analysis practice and system verification. Here, it is assumed that an analysis model including the following (Expression 1) and (Expression 2) is input.

Figure 0005156692
Figure 0005156692

なお、m個の設定値xn1、xn2、…、xnmとりうる分析モデルパラメータpnに設定値xnk(kは1〜mのいずれか)が設定されている場合、(pn)=1(j=k)、(pn)=0(j≠k)である。例えば、分析モデルパラメータp1が「性別」であり、設定値x11=「男」、設定値x12=「女」の2値をとりうるとき、「性別」に設定値「男」が設定されている場合、(p1)=1、(p1)=0となる。また、βnjは、分析モデルパラメータpnの設定値xnjに対応した分布値を示す。また、βは定数項、tは「所定の単位で表される時間」の数値である。なお、γ1i、γ2iは、ある分析モデルパラメータpnの設定値に対応して決定する値とする。 When the set value x nk (k is any one of 1 to m) is set to the analysis model parameter pn that can be set to m set values x n1 , x n2 ,..., X nm , (pn) j = 1 (j = k), (pn) j = 0 (j ≠ k). For example, when the analysis model parameter p1 is “gender”, the setting value x 11 = “male” and the setting value x 12 = “female” can be two values, the setting value “male” is set in “gender”. (P1) 1 = 1 and (p1) 2 = 0. Β nj represents a distribution value corresponding to the set value x nj of the analysis model parameter pn. Β 7 is a constant term, and t is a numerical value of “time expressed in a predetermined unit”. Note that γ 1i and γ 2i are values determined in accordance with a set value of a certain analysis model parameter pn.

上記のように、分析モデルは、各分析モデルパラメータの設定値を用いて、サービスの利用など、実データが収集されたときと同様の行動または事象が発生する確率を算出するものである。なお、ここでは、各分析モデルパラメータの設定値は独立に決まり、複数の分析モデルパラメータの設定値間に相関関係はないものとする。   As described above, the analysis model uses the setting values of each analysis model parameter to calculate the probability of occurrence of the same action or event as when actual data is collected, such as use of a service. Here, the setting values of each analysis model parameter are determined independently, and there is no correlation between the setting values of a plurality of analysis model parameters.

続いて、ユーザは、入力部20により、分析モデルパラメータ及び実データパラメータ対応付けと、分析モデルパラメータの設定値と実データパラメータの設定値との対応づけを入力する。   Subsequently, the user inputs the association between the analysis model parameter and the actual data parameter, and the association between the setting value of the analysis model parameter and the setting value of the actual data parameter through the input unit 20.

例えば、分析モデルパラメータ「性別」は、顧客属性データの実データパラメータ「性別」に対応し、分析モデルパラメータ「性別」の設定値「男」、「女」は、顧客属性データの実データパラメータ「性別」の設定値「M」、「F」にそれぞれ対応することが入力される。
また、分析モデルパラメータ「商品種別」は、POSデータの「商品コード」に対応し、分析モデルパラメータ「商品種別」の設定値「A」、「B」、…は、POSデータの実データパラメータ「商品コード」の設定値「0001」、「0002」、…にそれぞれ対応することが入力される。
For example, the analysis model parameter “gender” corresponds to the actual data parameter “sex” of the customer attribute data, and the setting values “male” and “female” of the analysis model parameter “sex” are the actual data parameters “ Corresponding to the set values “M” and “F” of “sex” are input.
The analysis model parameter “product type” corresponds to the “product code” of the POS data, and the setting values “A”, “B”,... Of the analysis model parameter “product type” are the actual data parameters “ Corresponding to the set values “0001”, “0002”,.

また、分析モデルパラメータ「年代」は、顧客属性データの実データパラメータ「年齢」に対応し、分析モデルパラメータ「年代」の設定値「〜19」、「20〜29」、…、「70〜」は、顧客属性データの実データパラメータ「年齢」の設定値「0」から「19」まで、「20」から「29」まで、…、「70」以上にそれぞれ対応することが入力される。
ここでは、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月は、それぞれ、顧客属性データの性別、年齢、POSデータの商品コード、店舗コード、時間帯、日付に対応するものとする。
The analysis model parameter “age” corresponds to the actual data parameter “age” of the customer attribute data, and the set values “˜19”, “20-29”,..., “70” ”of the analysis model parameter“ age ”. Are input corresponding to the set values “0” to “19”, “20” to “29”,..., “70” or more of the actual data parameter “age” of the customer attribute data.
Here, the sex, age, product type, store, time zone, and month of the analysis model parameters correspond to the sex of customer attribute data, age, product code of POS data, store code, time zone, and date, respectively. To do.

続いて、情報読込部30が、入力された実データの格納領域に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から実データを読み込み、パラメータ作成部63は、当該実データに基づいて擬似化パラメータテーブルを生成する(ステップS135)。ここでは、図2に示す実データが読み込まれたものとし、以下に擬似化パラメータテーブルの生成処理を詳細に説明する。   Subsequently, the information reading unit 30 reads the actual data from a portable recording medium or another computer device connected via the network based on the storage area of the input actual data, and the parameter creating unit 63. Generates a simulation parameter table based on the actual data (step S135). Here, it is assumed that the actual data shown in FIG. 2 has been read, and the simulation parameter table generation process will be described in detail below.

パラメータ作成部63は、ステップS130において選択あるいは入力された分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した実データパラメータの設定値が実データに設定されているレコード数、つまり、設定数をカウントする。   When the parameter creation unit 63 sequentially selects the analysis model parameters used in the analysis model selected or input in step S130, the parameter creation unit 63 performs, for each selected analysis model parameter, an actual value corresponding to each set value of the analysis model parameter. The number of records in which the set value of the data parameter is set to the actual data, that is, the set number is counted.

例えば、上記の例の場合、パラメータ作成部63は、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月を順に選択する。そして、現在選択している分析モデルパラメータが「性別」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「性別」を特定する。パラメータ作成部63は、特定した実データパラメータ「性別」に「M」が設定されているレコード数、「F」が設定されているレコード数をカウントし、それぞれ、分析モデルパラメータ「性別」の設定値「男」の設定数、設定値「女」の設定数とする。   For example, in the case of the above example, the parameter creation unit 63 sequentially selects the sex, age, product type, store, time zone, and month of the analysis model parameter. When the currently selected analysis model parameter is “gender”, the corresponding actual data parameter, that is, the actual data parameter “sex” of the customer attribute data is specified. The parameter creation unit 63 counts the number of records in which “M” is set in the identified actual data parameter “sex” and the number of records in which “F” is set, and sets the analysis model parameter “sex” respectively. The number of settings for the value “male” and the number of settings for the setting value “female”.

また、現在選択している分析モデルパラメータが「年代」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「年齢」を特定する。パラメータ作成部63は、特定した実データパラメータ「年齢」に「0」から「19」のいずれかの設定値が設定されているレコード数、「20」から「29」のいずれかの設定値が設定されているレコード数、…、「70」以上のいずれかの設定値が設定されているレコード数を、分析モデルパラメータ「年齢」の設定値「〜19」、「20〜29」、…、「70〜」の設定数とする。   When the currently selected analysis model parameter is “age”, the corresponding actual data parameter, that is, the actual data parameter “age” of the customer attribute data is specified. The parameter creation unit 63 sets the number of records in which any set value from “0” to “19” is set to the specified actual data parameter “age”, and any set value from “20” to “29” The number of records set,..., The number of records for which any setting value of “70” or more is set is set to the set values “˜19”, “20-29”,. The set number is “70”.

続いて、パラメータ作成部63は、各分析モデルパラメータについて、以下の(式3)により各設定値の設定数の基準化を行い、分布値とする。なお、pnは分析モデルパラメータの種類とし、m個の設定値xnk(k=1〜m)をとるものとする。 Subsequently, the parameter creation unit 63 standardizes the set number of each set value for each analysis model parameter by the following (Equation 3) to obtain a distribution value. Note that pn is a type of analysis model parameter and takes m set values x nk (k = 1 to m).

分析モデルパラメータpnの設定値xnkの分布値={(設定値xnkの設定数)−(設定値xn1〜xnmの平均設定数)}/(設定値xn1〜xnmの設定数の標準偏差) …(式3) Analysis model parameters pn settings x nk distribution value = {(the set number of the set value x nk) - (set value x n1 average set number of ~x nm)} / (the set number of the set value x n1 ~x nm Standard deviation) (Equation 3)

例えば、分析モデルパラメータAがα、β、γの設定値(又は設定値の範囲)をとり、設定値α、β、γが設定されている実データのレコード数がそれぞれ100、200、300であったとする。この場合、平均設定数は(100+200+300)/3=200であり、分散=(標準偏差σ)={(100−200)+(200−200)+(300−200)}/3である。よって、分析モデルパラメータAの設定値αの分布値は、(100−200)/σとなる。
同様に、分析モデルパラメータAがβ、γのときの分布値を算出すると、その算出結果から分析モデルパラメータAの擬似化パラメータ情報を生成する。
For example, the analysis model parameter A takes α, β, and γ set values (or set value ranges), and the actual data records in which the set values α, β, and γ are set are 100, 200, and 300, respectively. Suppose there was. In this case, the average set number is (100 + 200 + 300) / 3 = 200, and variance = (standard deviation σ) 2 = {(100−200) 2 + (200−200) 2 + (300−200) 2 } / 3 It is. Therefore, the distribution value of the set value α of the analysis model parameter A is (100−200) / σ.
Similarly, when the distribution value when the analysis model parameter A is β and γ is calculated, simulated parameter information of the analysis model parameter A is generated from the calculation result.

なお、分布値を以下のように生成してもよい。例えば、ある店舗の全会員情報と、購入した会員の属性情報もしくは会員を特定できるコードがレコードに含まれたPOSデータとが実データとして蓄積されていた場合、会員の内、購入した会員、購入していない会員の情報として取得できるため、顧客に対する購買確率が計算できる。よって、購買確率を分析モデルに設定し、パラメータの分布値を最尤推定法によって求めることが可能となる。具体的には、例えば実データから得られる購買確率を(式2),(式1)を利用してそれぞれのβを推定する処理を行う。ただし、推定の際にはランク落ちを防ぐためにパラメータの一つを除去したモデルにするなどの対応が必要となる。   The distribution value may be generated as follows. For example, when all the member information of a store and the POS data in which the attribute information of the purchased member or the code for identifying the member is included in the record are stored as actual data, among the members, the purchased member, the purchase Since it can be acquired as information of members who have not been purchased, the purchase probability for the customer can be calculated. Therefore, it is possible to set the purchase probability in the analysis model and obtain the parameter distribution value by the maximum likelihood estimation method. Specifically, for example, the purchase probability obtained from the actual data is estimated using each of (Equation 2) and (Equation 1). However, when estimating, it is necessary to take measures such as making a model from which one of the parameters is removed in order to prevent a rank drop.

パラメータ作成部63は、各分析モデルパラメータについて、設定値と分布値とを対応付けた擬似化パラメータ情報を生成すると、分析モデル記憶部52に、これらの擬似化パラメータ情報からなる擬似化パラメータテーブルを書き込むとともに(ステップS140)、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、ステップS130において入力された分析モデルとを対応付けて書き込む(ステップS145)。   When the parameter creation unit 63 generates simulation parameter information in which the set value and the distribution value are associated with each analysis model parameter, the parameter creation unit 63 stores a simulation parameter table including the simulation parameter information in the analysis model storage unit 52. In addition to writing (step S140), the information specifying the storage area in which the simulation parameter table is written and the analysis model input in step S130 are written in association with each other (step S145).

さらに、分析情報書込部61は、ステップS110において入力された分析情報と、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「有」とを設定したレコードを、分析情報記憶部51内に記憶している分析情報テーブルに追加する(ステップS150)。   Further, the analysis information writing unit 61 analyzes the record in which the analysis information input in step S110, the information specifying the storage area in which the simulation parameter table is written, and the simulation parameter table “present” are set. It adds to the analysis information table memorize | stored in the information storage part 51 (step S150).

図7は、本実施の形態による擬似データ生成処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置1の入力部20により、データ分析実習やシステム検証に使用するデータの検索条件、例えば、分析タイトル、業界・分野キーワード、分析目的、分析シナリオなどの検索対象と、検索語を入力する(ステップS205)。分析情報検索部64は、分析情報記憶部51内の分析情報テーブルから、入力された検索条件で示される検索対象に、当該検索条件で示される検索語が設定されているレコードを特定すると、特定したレコードに設定されている分析情報を表示部40に表示する(ステップS210)。ユーザは、出力された分析情報を確認し、適切な分析情報が表示されていない場合(ステップS215:NO)、再びステップS205からの処理を行い、検索条件の入力と検索結果の表示の処理を繰り返す。
FIG. 7 is a diagram showing a process flow of the pseudo data generation process according to the present embodiment.
In the figure, the user searches the search conditions of data used for data analysis training and system verification, for example, analysis title, industry / field keyword, analysis purpose, analysis scenario, and the like by the input unit 20 of the pseudo data generation device 1. A target and a search term are input (step S205). When the analysis information search unit 64 specifies a record in which the search term indicated by the search condition is set in the search target indicated by the input search condition from the analysis information table in the analysis information storage unit 51, the analysis information search unit 64 specifies The analysis information set in the recorded record is displayed on the display unit 40 (step S210). The user confirms the output analysis information, and when the appropriate analysis information is not displayed (step S215: NO), the process from step S205 is performed again, and the search condition input and the search result display process are performed. repeat.

ユーザは、表示された分析情報の中から適切な分析情報を選択すると、選択した分析情報を特定する情報を入力部20により入力する(ステップS215:YES)。抽出データ出力部65は、ステップS215において入力された情報により特定される分析情報が設定されている分析情報テーブルのレコードを特定し、当該レコードから擬似化パラメータテーブルの有無と分析用データ格納位置を読み出す。擬似化パラメータテーブル「無」が設定されている場合(ステップS220:NO)、抽出データ出力部65は、実データ記憶部53から分析用データ格納位置に記憶されている実データを読み出して抽出データ記憶部55に書き込む(ステップS225)。   When the user selects appropriate analysis information from the displayed analysis information, information specifying the selected analysis information is input by the input unit 20 (step S215: YES). The extracted data output unit 65 identifies the record of the analysis information table in which the analysis information identified by the information input in step S215 is set, and determines the presence / absence of the simulation parameter table and the analysis data storage location from the record. read out. When the simulation parameter table “none” is set (step S220: NO), the extracted data output unit 65 reads the actual data stored in the analysis data storage position from the actual data storage unit 53 and extracts the extracted data. The data is written in the storage unit 55 (step S225).

一方、抽出データ出力部65は、擬似化パラメータテーブル「有」が設定されている場合(ステップS220:YES)、分析用データ格納位置を擬似データ生成部66に出力し、擬似データの生成を指示する。擬似データ生成部66は、表示部40にトランザクション数を入力する指示するメッセージを表示させると、ユーザは、トランザクション数、つまり、擬似データを構成するレコード数を入力部20により入力する(ステップS230)。   On the other hand, when the simulation parameter table “present” is set (step S220: YES), the extracted data output unit 65 outputs the analysis data storage location to the pseudo data generation unit 66 and instructs generation of pseudo data. To do. When the pseudo data generation unit 66 displays a message instructing to input the number of transactions on the display unit 40, the user inputs the number of transactions, that is, the number of records constituting the pseudo data through the input unit 20 (step S230). .

擬似データ生成部66は、分析モデル記憶部52内の分析用データ格納位置に記憶されている擬似化パラメータテーブルと、当該擬似化パラメータテーブルに対応付けられている分析モデルを読み出すと、以下のように擬似データを生成する(ステップS235)。   When the pseudo data generation unit 66 reads the simulation parameter table stored in the analysis data storage position in the analysis model storage unit 52 and the analysis model associated with the simulation parameter table, the following is performed. Pseudo data is generated (step S235).

まず、擬似データ生成部66は、読み出した分析モデルに含まれている各分析モデルパラメータそれぞれについて、当該分析モデルパラメータがとりうる各設定値に対応したカラムを有するレコードからなる中間テーブルを生成して、中間データ記憶部54に書き込む。さらに、擬似データ生成部66は、分析モデルパラメータに対応した実データパラメータからなる擬似データを中間データ記憶部54に書き込む。   First, the pseudo data generation unit 66 generates, for each analysis model parameter included in the read analysis model, an intermediate table composed of records having columns corresponding to setting values that can be taken by the analysis model parameter. To the intermediate data storage unit 54. Furthermore, the pseudo data generation unit 66 writes pseudo data including actual data parameters corresponding to the analysis model parameters in the intermediate data storage unit 54.

図8は、中間テーブルの例を示す図である。例えば、(式1)及び(式2)からなる分析モデルが読み出された場合、当該分析モデルに含まれる分析モデルパラメータ「性別」、「年代」、「商品種別」、「店舗」、「時間帯」、「月」について、これらの各分析モデルパラメータが取り得る設定値に対応したカラム、例えば、分析モデルパラメータ「性別」については設定値「男」、「女」のカラム、分析モデルパラメータ「年代」については設定値「〜19」、「20〜29」、…、「70〜」のカラム、分析モデルパラメータ「商品種別」については設定値「A」、「B」、…のカラム、分析モデルパラメータ「時間帯」については設定値「0」、「1」、…、「23」のカラム、…を有する中間テーブルが生成される。   FIG. 8 is a diagram illustrating an example of the intermediate table. For example, when an analysis model composed of (Expression 1) and (Expression 2) is read, the analysis model parameters “sex”, “age”, “product type”, “store”, “time” included in the analysis model are read. For the “band” and “month”, columns corresponding to the setting values that can be taken by each of these analysis model parameters, for example, for the analysis model parameter “gender”, the columns of the setting values “male” and “female”, the analysis model parameter “ Columns of setting values “˜19”, “20-29”,..., “70˜” for “age”, columns of setting values “A”, “B”,. For the model parameter “time zone”, an intermediate table having setting values “0”, “1”,..., “23” columns is generated.

擬似データ生成部66は、中間テーブルに新たなレコードを追加する。この追加したレコードは、中間テーブルのi番目のレコードであるとする。よって、中間テーブルが生成された直後であれば、iは初期値1である。擬似データ生成部66は、追加したレコードの各分析モデルパラメータについて、当該分析モデルパラメータが取り得る設定値を1つランダムに選択し、選択した設定値に対応したカラムに「1」を、他の設定値に対応したカラムに「0」を設定する。   The pseudo data generation unit 66 adds a new record to the intermediate table. This added record is assumed to be the i-th record in the intermediate table. Therefore, i is the initial value 1 immediately after the intermediate table is generated. For each analysis model parameter of the added record, the pseudo data generation unit 66 randomly selects one setting value that can be taken by the analysis model parameter, sets “1” in the column corresponding to the selected setting value, Set “0” in the column corresponding to the set value.

例えば、図8に示す中間テーブルの1番目のレコードの場合、分析モデルパラメータ「性別」が取り得る設定値からランダムに選択された設定値「男」に対応するカラムに「1」が、選択されなかった設定値「女」に対応するカラムには「0」が設定されている。また、分析モデルパラメータ「年代」が取り得る設定値からランダムに選択された設定値「〜19」に対応するカラムに「1」が、選択されなかった他の設定値「20〜29」、…、「70〜」に対応したカラムには「0」が設定されている。分析モデルパラメータ「商品種別」、「店舗」、「時間帯」、「店舗」、「月」それぞれについても同様に、ランダムに選択した設定値に対応したカラムのみに「1」を、他の設定値に対応したカラムに「0」を設定する。   For example, in the case of the first record in the intermediate table shown in FIG. 8, “1” is selected in the column corresponding to the setting value “male” randomly selected from the setting values that can be taken by the analysis model parameter “gender”. “0” is set in the column corresponding to the setting value “female” that did not exist. In addition, “1” is displayed in a column corresponding to a setting value “˜19” randomly selected from setting values that can be taken by the analysis model parameter “age”, and other setting values “20 to 29” that are not selected. , “0” is set in the column corresponding to “70˜”. Similarly, for each of the analysis model parameters “product type”, “store”, “time zone”, “store”, “month”, “1” is set only for the column corresponding to the randomly selected setting value. Set “0” in the column corresponding to the value.

続いて、擬似データ生成部66は、中間テーブルの設定値と、読み出した分析モデルとを用いてサービスの利用の確率を算出する。(式1)及び(式2)からなる分析モデルを使用する場合、まず、擬似データ生成部66は、選好度を算出する。β11、β12はそれぞれ、図5に示す擬似化パラメータテーブルにおける、分析モデルパラメータp1「性別」の設定値「男」に対応した分布値「0.5」、設定値「女」に対応した分布値「0.4」である。また、(p1)は設定値が「男」であれば「1」、「男」でないときには「0」であり、(p1)は設定値が「女」であれば「1」、「女」でないときには「0」であるため、中間テーブルにおける「性別」の設定値「男」、「女」に対応したカラム設定されている値をそれぞれ「(p1)」、「(p1)」の値として用いることができる。よって、図8に示す中間テーブルの最初のレコードの場合、最初の項のΣは、「−0.01×1+0.04×0」となる。 Subsequently, the pseudo data generation unit 66 calculates the service use probability using the set value of the intermediate table and the read analysis model. When using an analysis model composed of (Expression 1) and (Expression 2), first, the pseudo data generation unit 66 calculates a preference. β 11 and β 12 correspond to the distribution value “0.5” corresponding to the set value “male” and the set value “female” of the analysis model parameter p1 “sex” in the simulation parameter table shown in FIG. The distribution value is “0.4”. (P1) 1 is “1” if the set value is “male”, “0” if it is not “male”, and (p1) 2 is “1” if the set value is “female”, “ Since it is “0” when not “female”, the values set in the columns corresponding to the “gender” setting values “male” and “female” in the intermediate table are “(p1) 1 ” and “(p1) 2 ”, respectively. Can be used as the value of "." Therefore, in the case of the first record of the intermediate table shown in FIG. 8, Σ of the first term is “−0.01 × 1 + 0.04 × 0”.

同様にβ21…、β26、β27はそれぞれ、図5に示す分析モデルパラメータp2「年代」の設定値「〜19」に対応した分布値「1.5」、…、設定値「60〜69」に対応した分布値「0.2」、設定値「70〜」に対応した分布値「−0.3」である。また、上記と同様に、中間テーブルにおける「年代」の設定値「〜19」、…、「60〜69」、「70〜」に対応したカラムに設定されている値をそれぞれ「(p2)」、…、「(p2)」、「(p2)」の値として用いることができる。よって、図8に示す中間テーブルの最初のレコードの場合、2番目の項のΣは、「1.5×1+…+0.2×0+(−0.3)×0」となる。
なお、tには、1が設定されている「時間帯」のカラムに対応した設定値が代入される。また、γ11、γ21には、所定の分析モデルパラメータの設定値に対応した所定の値とする。
Similarly, β 21 ..., Β 26 , β 27 are distributed values “1.5”,..., Set values “60˜” corresponding to the set values “˜19” of the analysis model parameter p2 “age” shown in FIG. The distribution value “0.2” corresponding to “69” and the distribution value “−0.3” corresponding to the set value “70˜”. Similarly to the above, the values set in the columns corresponding to the set values “˜19”,..., “60-69”, “70˜” of “age” in the intermediate table are “(p2) 1 ,..., “(P2) 6 ”, “(p2) 7 ”. Therefore, in the case of the first record in the intermediate table shown in FIG. 8, the Σ of the second term is “1.5 × 1 +... + 0.2 × 0 + (− 0.3) × 0”.
Note that a set value corresponding to the “time zone” column in which 1 is set is substituted for t. Further, γ 11 and γ 21 are set to predetermined values corresponding to the set values of predetermined analysis model parameters.

上記のように、擬似データ生成部66は、中間テーブルの設定値と、擬似化パラメータテーブルの分布値とを用いて(式1)により選好度Vitを算出すると、この算出された選好度Vitを用いて、(式2)により購買確率選好度pitを算出する。擬似データ生成部66は、一様乱数(0,1)を発生させると、一様乱数(0,1)が購買確率pitよりも小さい場合は購買すると判断し、購買確率pit以上である場合は購買しないと判断する。そして、購買すると判断した場合のみ、購買確率pitの算出に用いた中間テーブルのi番目のレコードに基づいて生成したレコードを擬似データへ追加する。
なお、一様乱数(0,1)は、所定の最大値を持つ自然乱数列を発生させ、それを当該最大値で割ることで得られる0以上1以下の乱数である。
As described above, when the pseudo data generation unit 66 calculates the preference V it by (Equation 1) using the set value of the intermediate table and the distribution value of the simulation parameter table, the calculated preference V with it, to calculate the purchase probability preference p it by (equation 2). Pseudo data generation unit 66, when generating a uniform random number (0, 1), if uniform random number (0, 1) is less than the purchase probability p it is determined that the purchase is the purchase probability p it more If not, it is determined not to purchase. Then, only if it is determined that the purchase, the generated record to add the pseudo data based on the i-th record of the intermediate table used to calculate the purchase probability p it.
The uniform random number (0, 1) is a random number from 0 to 1 obtained by generating a natural random number sequence having a predetermined maximum value and dividing it by the maximum value.

図9は、擬似データのデータ例を示す図である。擬似データは、中間テーブル内の各分析モデルパラメータに対応した実データパラメータの設定値を含むレコードからなる。擬似データ生成部66は、購買確率pitに基づいて購買すると判断した場合、擬似データに新たなレコードを追加すると、中間テーブルの各分析モデルパラメータから、「1」が設定されているカラムを特定し、当該カラムの設定値に対応した実データパラメータの設定値を、擬似データに追加したレコードに設定する。ただし、1つの分析モデルパラメータの設定値に対して、複数の実データパラメータの設定値が対応する場合、その対応する複数の実データパラメータの設定値から1つをランダムに選択する。
例えば、分析モデルパラメータ「年代」の設定値「〜19」の場合、対応する実データパラメータ「年齢」の設定値「0」〜「19」の中からランダムに選択した設定値とする。また、分析モデルパラメータ「月」の設定値「1月」の場合、対応する実データパラメータ「日付」の設定値「1月1日」〜「1月31日」の中からランダムに選択した設定値とする。
FIG. 9 is a diagram illustrating an example of pseudo data. The pseudo data includes a record including setting values of actual data parameters corresponding to each analysis model parameter in the intermediate table. When the pseudo data generation unit 66 determines to purchase based on the purchase probability pit , when a new record is added to the pseudo data, the column in which “1” is set is identified from each analysis model parameter of the intermediate table. Then, the setting value of the actual data parameter corresponding to the setting value of the column is set in the record added to the pseudo data. However, when a set value of a plurality of actual data parameters corresponds to a set value of one analysis model parameter, one of the corresponding set values of the actual data parameter is randomly selected.
For example, in the case of the setting value “˜19” of the analysis model parameter “age”, the setting value is randomly selected from the setting values “0” to “19” of the corresponding actual data parameter “age”. In addition, in the case of the setting value “January” of the analysis model parameter “month”, a setting randomly selected from the setting values “January 1” to “January 31” of the corresponding actual data parameter “date” Value.

上記のように、追加したレコードに擬似データの実データパラメータ「性別」、「年齢」、「商品コード」、「時間帯」、「日付」、「店舗コード」の設定値が設定されると、これら実データパラメータの設定値によって決定する他の実データパラメータの設定値を当該レコードに書き込む。例えば、日付の設定値に対応した曜日の設定値、商品コードの設定値に対応した金額を書き込む。さらには、追加したレコードにIDを書き込む。   As described above, when the set values of the actual data parameters “sex”, “age”, “product code”, “time zone”, “date”, “store code” of the pseudo data are set in the added record, The setting values of other actual data parameters determined by the setting values of these actual data parameters are written into the record. For example, the set value for the day corresponding to the set value for the date and the amount corresponding to the set value for the product code are written. Further, the ID is written in the added record.

なお、例えば、曜日の設定値分布を実データと同様にしたい場合、分析モデルパラメータ「曜日」の擬似化パラメータ情報を生成する。そして、中間テーブルのレコードから擬似データのレコードを生成する際には、当該曜日に対応した所定期間の日付の中からランダムに日付を選択する。この所定期間は、擬似データ生成の際にユーザが入力するようにしてもよく、実データから擬似化パラメータ情報を生成する際に、当該実データに含まれる日付により期間を取得して擬似化パラメータテーブル内に記憶しておくことでもよい。   For example, when the setting value distribution of the day of the week is desired to be the same as the actual data, the simulation parameter information of the analysis model parameter “day of the week” is generated. Then, when generating the pseudo data record from the record of the intermediate table, the date is selected at random from the dates of the predetermined period corresponding to the day of the week. The predetermined period may be input by the user when generating the pseudo data, and when generating the simulation parameter information from the actual data, the period is acquired from the date included in the actual data and the simulation parameter is acquired. It may be stored in a table.

上記のようにして、擬似データにレコードを追加すると、擬似データ生成部66は、擬似データのレコード数がトランザクション数に達したかを判断する。達していない場合は、iの値を1加算した値に更新し、中間テーブルにi番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのi番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を繰り返す。   As described above, when a record is added to the pseudo data, the pseudo data generation unit 66 determines whether the number of records of the pseudo data has reached the number of transactions. If not, update the value of i to 1 and add the i-th record to the intermediate table, randomly select the setting value of each analysis model parameter, and use the analysis model to If the probability of use is calculated, the use of the service is determined based on the probability, and the service is determined to be used, the record of the setting value based on the i-th record of the intermediate table is stored as pseudo data Repeat the above process to add.

擬似データのレコード数がトランザクション数に達すると、検証部67は、生成された擬似データと、分析モデルを用いて、図6のステップS135と同様の処理により、擬似データから擬似化パラメータ情報を生成する(ステップS240)。つまり、検証部67は、分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した擬似データにおける実データパラメータの設定値が設定されているレコード数をカウントする。そして、各分析モデルパラメータの各設定値について分布値を作成し、その算出結果から各分析モデルパラメータについての擬似化パラメータ情報からなる検証用擬似化パラメータテーブルを生成する。   When the number of records in the pseudo data reaches the number of transactions, the verification unit 67 generates simulation parameter information from the pseudo data using the generated pseudo data and the analysis model by the same process as in step S135 of FIG. (Step S240). That is, when the verification unit 67 sequentially selects the analysis model parameters used in the analysis model, for each selected analysis model parameter, setting of the actual data parameter in the pseudo data corresponding to each setting value of the analysis model parameter Count the number of records that have a value set. Then, a distribution value is created for each setting value of each analysis model parameter, and a verification simulation parameter table including simulation parameter information for each analysis model parameter is generated from the calculation result.

検証部67は、2つのデータ群の間に乖離があるか否かを統計的に調べる既存の手法により、ステップS235における擬似データの生成に用いた擬似化パラメータテーブル内の各擬似化パラメータ情報と、S240において生成した検証用擬似化パラメータテーブル内の各擬似化パラメータ情報について検証を行なう。
この検証には、例えば、2集団の平均値に差がないかを統計的に調べるt検定(平均値の差の検定)を用いることができる。具体的には、t検定における帰無仮説を「2集団の平均値に差がない」とし、算出したt値が、当該自由度におけるt分布表(例えば、95%信頼区間)の値よりも小さい場合、帰無仮説は棄却されず、平均に差がないという結果となり、検証成功となる。なお、検証には、各分析モデルパラメータの設定値に仮定される分布に応じた検証法方法を用いるようにする。
The verification unit 67 uses each of the simulation parameter information in the simulation parameter table used for generating the pseudo data in step S235 by using an existing method for statistically checking whether there is a divergence between the two data groups. The verification parameter information in the verification simulation parameter table generated in S240 is verified.
For this verification, for example, a t-test (test of difference between average values) for statistically checking whether there is a difference between the average values of the two groups can be used. Specifically, the null hypothesis in the t-test is “no difference between the average values of the two groups”, and the calculated t-value is larger than the value of the t-distribution table (for example, 95% confidence interval) in the degree of freedom. If it is small, the null hypothesis is not rejected, and the result is that there is no difference in the mean, and the verification is successful. For the verification, a verification method according to the distribution assumed for the set value of each analysis model parameter is used.

検証が不成功であった場合(ステップS245:NO)、再び擬似データを生成するステップS235からの処理を行なう。
再び擬似データを生成する場合、擬似データ再生成部68は、以下のように現在中間データ記憶部54に記憶されている擬似データからレコードを削除する。
If the verification is unsuccessful (step S245: NO), the processing from step S235 for generating pseudo data is performed again.
When generating the pseudo data again, the pseudo data regenerating unit 68 deletes the record from the pseudo data currently stored in the intermediate data storage unit 54 as follows.

(1)ステップS245による検証の結果、検証が不成功であった分析モデルパラメータを特定する。当該分析モデルパラメータの設定値が連続値をとる場合、平均が上回っているか下回っているかを判断する。平均が下回っている場合は、平均値より小さい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除し、平均が上回っている場合は、平均値より大きい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除する。
(2)ランダムに所定数または所定割合のレコードを削除する。例えば、設定値が2値である場合など、正規分布をとらない場合に用いられる。
(3)全レコードを削除する。
(1) As a result of the verification in step S245, an analysis model parameter for which verification was unsuccessful is specified. When the set value of the analysis model parameter takes a continuous value, it is determined whether the average is above or below. If the average is below, delete the record of the actual data in which the setting value of the actual data parameter corresponding to the setting value smaller than the average value is set, and if the average is above, the average value Records of actual data in which actual data parameter setting values corresponding to larger setting values are set are deleted by a predetermined ratio.
(2) Delete a predetermined number or a predetermined ratio of records at random. For example, it is used when a normal distribution is not taken, such as when the set value is binary.
(3) Delete all records.

上記いずれかにより擬似データのレコードを削除したのち、擬似データ再生成部68は、擬似データ生成部66に擬似データの作成を指示する。これにより、擬似データ生成部66は、中間テーブルにi番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのi番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を、擬似データのレコード数がトランザクション数に達するまで繰り返す。   After deleting the record of the pseudo data by any of the above, the pseudo data regenerating unit 68 instructs the pseudo data generating unit 66 to create the pseudo data. As a result, the pseudo data generation unit 66 adds the i-th record to the intermediate table, randomly selects the setting value of each analysis model parameter, calculates the probability of using the service using the analysis model, and If the service is used based on the probability and it is determined that the service is used, the above process of adding a set value record based on the i-th record of the intermediate table to the pseudo data Repeat until the number of data records reaches the number of transactions.

一方、ステップS245において、擬似データの検証が成功した場合(ステップS245:YES)、抽出データ書込部65は、ステップS235において生成され、中間データ記憶部54に書き込まれた擬似データを、抽出データ記憶部55に書き込む(ステップS250)。
ユーザは、抽出データ記憶部55に出力された擬似データを用いて、データ分析実習や、システムテストを行なう。
On the other hand, if the verification of the pseudo data is successful in step S245 (step S245: YES), the extracted data writing unit 65 uses the pseudo data generated in step S235 and written in the intermediate data storage unit 54 as the extracted data. Writing to the storage unit 55 (step S250).
The user performs data analysis training and a system test using the pseudo data output to the extracted data storage unit 55.

上記実施形態によれば、BIを使いこなせるような、蓄積データの分析スキルを身につけることを目的としたデータ分析実習を効果的に行なうために、過去の分析事例と、実データから生成した、当該実データの設定値分布を示す擬似化パラメータ情報とを対応づけて蓄積しておき、蓄積されている中から分析の目的に近いとして選択されたものを分析事例に対応した擬似化パラメータ情報から擬似データを生成することができる。よって、過去の分析事例から迅速に擬似データを用意することができ、実践的なデータ分析実習を行なうことができる。
また、擬似化パラメータ情報から、必要なトランザクション数の擬似データを生成することができるため、データ記憶領域を削減することが可能となり、コストを削減することができる。
また、一旦生成した擬似データの検証を行なうことにより、より実データに近い擬似データを生成することができ、より現実感のあるデータ分析演習を行なうことができる。
また、分析手順などのノウハウである分析事例を複数、同一の形式により蓄積することができるため、異なる内容の分析を統一的に検索したり、利用したりすることが可能となり、効果的な分析実習を行なうことが可能となる。
また、上記により生成した擬似データをシステムの検証に使用することにより、精度の高い検証結果を得ることができる。
According to the above embodiment, in order to effectively perform a data analysis practice for the purpose of acquiring accumulated data analysis skills that can make full use of BI, past analysis cases and actual data were generated. The simulation parameter information indicating the set value distribution of the actual data is accumulated in association, and the information selected from the accumulated data as close to the purpose of the analysis is obtained from the simulation parameter information corresponding to the analysis example. Pseudo data can be generated. Therefore, pseudo data can be quickly prepared from past analysis cases, and practical data analysis training can be performed.
In addition, since the pseudo data of the required number of transactions can be generated from the pseudo parameter information, the data storage area can be reduced, and the cost can be reduced.
Further, by verifying the pseudo data once generated, pseudo data closer to the actual data can be generated, and a more realistic data analysis exercise can be performed.
In addition, since multiple analysis cases, which are know-how such as analysis procedures, can be stored in the same format, it is possible to search for and use different types of analysis in a unified manner, making effective analysis possible. It is possible to practice.
Further, by using the pseudo data generated as described above for system verification, a highly accurate verification result can be obtained.

上述の擬似データ生成装置1は、内部にコンピュータシステムを有している。そして、擬似データ生成装置1の分析情報書込部61、分析モデル書込部62、パラメータ作成部63、分析情報検索部64、抽出データ出力部65、擬似データ生成部66、検証部67、及び、擬似データ再生成部68の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。   The pseudo data generation apparatus 1 described above has a computer system therein. The analysis information writing unit 61, the analysis model writing unit 62, the parameter creation unit 63, the analysis information search unit 64, the extracted data output unit 65, the pseudo data generation unit 66, the verification unit 67, and the pseudo data generation device 1 The process of the operation of the pseudo data regenerating unit 68 is stored in a computer-readable recording medium in the form of a program, and the above processing is performed by the computer system reading and executing this program. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

なお、本発明は、上記において説明した実施形態に限定されるものではなく、その主旨を逸脱しない範囲において種々変更可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。   The present invention is not limited to the embodiment described above, and various modifications can be made without departing from the spirit of the present invention, and it goes without saying that these are also included in the scope of the present invention. Yes.

1…擬似データ生成装置
10…制御部
20…入力部
30…情報読込部
40…表示部
50…記憶部
51…分析情報記憶部
52…分析モデル記憶部
53…実データ記憶部
54…中間データ記憶部
55…抽出データ記憶部
60…処理部
61…分析情報書込部
62…分析モデル書込部
63…パラメータ作成部
64…分析情報検索部
65…抽出データ書込部
66…擬似データ生成部
67…検証部
68…擬似データ再生成部
DESCRIPTION OF SYMBOLS 1 ... Pseudo-data production | generation apparatus 10 ... Control part 20 ... Input part 30 ... Information reading part 40 ... Display part 50 ... Storage part 51 ... Analysis information storage part 52 ... Analysis model storage part 53 ... Actual data storage part 54 ... Intermediate data storage 55: Extracted data storage unit 60 ... Processing unit 61 ... Analysis information writing unit 62 ... Analysis model writing unit 63 ... Parameter creation unit 64 ... Analysis information search unit 65 ... Extraction data writing unit 66 ... Pseudo data generation unit 67 ... Verification unit 68 ... Pseudo data regeneration unit

Claims (5)

実データを読み込む情報読込部と、
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、
を備えることを特徴とする擬似データ生成装置。
An information reading section for reading actual data;
A value indicating the distribution of setting values that can be taken by the analysis model parameter used in the analysis model, which is a formula for calculating the probability of occurrence of a predetermined action or event, and setting the parameter in the actual data corresponding to the analysis model parameter A parameter creation unit to calculate from the value;
A setting value that can be taken by the analysis model parameter is randomly determined, and the setting value of the analysis model parameter determined at random using the analysis model and the setting of the analysis model parameter created by the parameter creation unit Whether to calculate the probability of occurrence of the predetermined action or event from the value indicating the distribution of values, and use the set value of the analysis model parameter determined at random for generating pseudo data based on the calculated probability If it is determined to be used for generating pseudo data, the process of determining the parameter setting values constituting the pseudo data based on the randomly determined setting values of the analysis model parameters is repeated, and the pseudo data is A pseudo data generation unit to generate;
A pseudo data generation device comprising:
前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする請求項1に記載の擬似データ生成装置。   The pseudo data generation device according to claim 1, wherein the pseudo data generation unit generates set values of parameters constituting the pseudo data for a predetermined number of records. 前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、
前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、
をさらに備えることを特徴とする請求項1または2に記載の擬似データ生成装置。
A value indicating a distribution of setting values that can be taken by the analysis model parameter used in the analysis model is calculated from the setting values of the parameter in the pseudo data corresponding to the analysis model parameter, and the distribution of the calculated setting value is calculated. A verification unit that determines whether or not the distribution of the set value deviates from a predetermined value from the value indicating the distribution of the set value generated based on the set value of the parameter in the actual data;
When it is determined that the verification unit has deviated, a pseudo data regeneration unit that deletes part or all of the pseudo data and instructs the pseudo data generation unit to create pseudo data;
The pseudo data generation device according to claim 1, further comprising:
擬似データ生成装置に用いられる擬似データ生成方法であって、
情報読込部が、実データを読み込む情報読込部ステップと、
ラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、
擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、
を有することを特徴とする擬似データ生成方法。
A pseudo data generation method used in a pseudo data generation device,
An information reading unit, an information reading unit step for reading actual data;
The fruit parameter creation unit, a value showing the distribution of set values that can be taken for analysis model parameters used in the analysis model is a formula for calculating the probability of a given action or events, corresponding to the analysis model parameters A parameter creation step to calculate from the set value of the parameter in the data;
The pseudo data generation unit randomly determines a setting value that can be taken by the analysis model parameter, and using the analysis model, the setting value of the analysis model parameter determined at random, and created in the parameter creation step, The occurrence probability of the predetermined action or event is calculated from the value indicating the distribution of the setting value of the analysis model parameter, and the analysis model parameter determined at random for generating pseudo data based on the calculated probability A process for determining whether or not to use a set value and determining a set value of a parameter constituting the pseudo data based on the set value of the analysis model parameter determined at random when it is determined that the set value is used for generating pseudo data To generate pseudo data, and to generate pseudo data,
The pseudo data generation method characterized by having.
擬似データ生成装置として用いられるコンピュータを、
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、
として機能させることを特徴とするコンピュータプログラム。
A computer used as a pseudo data generation device,
A value indicating the distribution of setting values that can be taken by an analysis model parameter used in an analysis model, which is a formula for calculating the probability of occurrence of a predetermined action or event, and a parameter setting value in actual data corresponding to the analysis model parameter Parameter creation unit to calculate from
A setting value that can be taken by the analysis model parameter is randomly determined, and the setting value of the analysis model parameter determined at random using the analysis model and the setting of the analysis model parameter created by the parameter creation unit Whether to calculate the probability of occurrence of the predetermined action or event from the value indicating the distribution of values, and use the set value of the analysis model parameter determined at random for generating pseudo data based on the calculated probability If it is determined to be used for generating pseudo data, the process of determining the parameter setting values constituting the pseudo data based on the randomly determined setting values of the analysis model parameters is repeated, and the pseudo data is A pseudo data generation unit to generate,
A computer program that functions as a computer program.
JP2009131508A 2009-05-29 2009-05-29 Pseudo data generation device, pseudo data generation method, and computer program Expired - Fee Related JP5156692B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009131508A JP5156692B2 (en) 2009-05-29 2009-05-29 Pseudo data generation device, pseudo data generation method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009131508A JP5156692B2 (en) 2009-05-29 2009-05-29 Pseudo data generation device, pseudo data generation method, and computer program

Publications (2)

Publication Number Publication Date
JP2010277481A JP2010277481A (en) 2010-12-09
JP5156692B2 true JP5156692B2 (en) 2013-03-06

Family

ID=43424358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009131508A Expired - Fee Related JP5156692B2 (en) 2009-05-29 2009-05-29 Pseudo data generation device, pseudo data generation method, and computer program

Country Status (1)

Country Link
JP (1) JP5156692B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6764821B2 (en) * 2017-04-03 2020-10-07 カタリナ マーケティング ジャパン株式会社 Purchasing trend analysis system and coupon issuing system using it
CN110716963B (en) * 2019-09-09 2023-09-01 平安证券股份有限公司 Method for providing adaptively configured user data and related equipment
WO2022107285A1 (en) * 2020-11-19 2022-05-27 日本電信電話株式会社 Pseudo data generation device, pseudo data generation method, and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3514193B2 (en) * 1999-12-22 2004-03-31 日本電気株式会社 Surname data generation device
JP2004326510A (en) * 2003-04-25 2004-11-18 Daiwa Securities Group Inc Test data generating device, test data generating method and program
JP4998552B2 (en) * 2007-03-20 2012-08-15 富士通株式会社 Simulation processing apparatus, simulation processing system, and computer program

Also Published As

Publication number Publication date
JP2010277481A (en) 2010-12-09

Similar Documents

Publication Publication Date Title
US11436430B2 (en) Feature information extraction method, apparatus, server cluster, and storage medium
Van Der Aalst et al. Data science in action
US10692019B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
Gadiraju et al. A taxonomy of microtasks on the web
US9294576B2 (en) Social media impact assessment
WO2021174693A1 (en) Data analysis method and apparatus, and computer system and readable storage medium
Wells et al. Reunification of foster children before and after welfare reform
US10537801B2 (en) System and method for decision making in strategic environments
Anderson Statistics for big data for dummies
Savickas et al. Belief network discovery from event logs for business process analysis
Mohamed et al. Artificial intelligence in public relations and association rule mining as a decision support tool
JP5156692B2 (en) Pseudo data generation device, pseudo data generation method, and computer program
Kokkaew et al. Modelling completion risk using stochastic critical path‐envelope method: a BOT highway project application
CN114003567A (en) Data acquisition method and related device
Lehman et al. Practical spreadsheet risk modeling for management
Svolba Applying data science: Business case studies using SAS
Pauken et al. Tracking happiness of different US cities from tweets
US20220253690A1 (en) Machine-learning systems for simulating collaborative behavior by interacting users within a group
Mia Big data analytics
JP2017194730A (en) Decision Support System and Decision Support Method
JP2009211128A (en) Simulation device, simulation method, and program
Bamberger The importance of a mixed methods approach for evaluating complexity
JP2020204836A (en) Information processing method and apparatus relating to welfare
US20190065607A1 (en) Automated application analytics
WO2023189440A1 (en) Information processing device and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5156692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees