JP5156692B2 - Pseudo data generation device, pseudo data generation method, and computer program - Google Patents
Pseudo data generation device, pseudo data generation method, and computer program Download PDFInfo
- Publication number
- JP5156692B2 JP5156692B2 JP2009131508A JP2009131508A JP5156692B2 JP 5156692 B2 JP5156692 B2 JP 5156692B2 JP 2009131508 A JP2009131508 A JP 2009131508A JP 2009131508 A JP2009131508 A JP 2009131508A JP 5156692 B2 JP5156692 B2 JP 5156692B2
- Authority
- JP
- Japan
- Prior art keywords
- analysis model
- parameter
- pseudo data
- data
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000004458 analytical method Methods 0.000 claims description 271
- 238000009826 distribution Methods 0.000 claims description 47
- 238000012795 verification Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 6
- 230000008929 regeneration Effects 0.000 claims description 5
- 238000011069 regeneration method Methods 0.000 claims description 5
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000004088 simulation Methods 0.000 description 45
- 238000003860 storage Methods 0.000 description 34
- 238000013500 data storage Methods 0.000 description 25
- 238000007405 data analysis Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000001172 regenerating effect Effects 0.000 description 3
- 238000000692 Student's t-test Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムに関する。 The present invention relates to a pseudo data generation device, a pseudo data generation method, and a computer program.
近年、企業・公共機関を問わず、多くの組織において「情報活用」が注目されている。これは、業務のIT(Information Technology)化によって蓄積された膨大な情報(データ)を、業務改善や意思決定に役立てようとする意識が高まっている現われであるといえる。 In recent years, “information utilization” has attracted attention in many organizations regardless of whether it is a company or a public institution. It can be said that this is a manifestation of increasing awareness that the vast amount of information (data) accumulated through the IT (Information Technology) of business is useful for business improvement and decision making.
これに伴い、「BI(ビジネス・インテリジェンス)」が注目されることとなった。BIとは、企業内外のデータを組織的かつ系統的に分析して、業務に有用な知識や洞察を生み出す仕組み、もしくは、その仕組みを実現するシステムやテクノロジであり、これまでに多くの企業が、経営の見える化や効果的な意思決定を行なうために、BIを導入してきた。 Along with this, “BI (Business Intelligence)” has attracted attention. BI is a mechanism that systematically and systematically analyzes internal and external data to generate knowledge and insight useful for business, or a system and technology that realizes such a mechanism. In order to visualize management and make effective decisions, we have introduced BI.
ところが、多くの場合、BIの導入効果を十分に発揮できずに終わっている。その原因は、分析スキルのある人材が不足しているために、BIを使いこなすことが出来ず、結果として、意思決定につながる知識や洞察を抽出できなかったことにあると考えられる。 However, in many cases, the introduction effect of BI cannot be fully exhibited. The reason for this is thought to be that, due to the lack of human resources with analytical skills, it was impossible to master the BI, and as a result, knowledge and insights that led to decision making could not be extracted.
そこで、BIを使いこなせるような、情報活用に関するスキルを身につけるための人材育成が急務である。このような人材育成の取り組みは、例えば、データ活用のコンサルティング会社等において行なわれているが、これには、過去のコンサルティング案件に基づいた「データ分析実習」を行なうことが効果的である。この実習とは、データを実際に分析することにより、データ分析のフレームワークや分析結果の解釈の仕方を学ぶ研修のことであり、分析コンサルティングのノウハウを学ぶことができる。 Therefore, there is an urgent need to develop human resources to acquire skills related to information utilization that can make full use of BI. Such human resource development efforts are carried out by, for example, a data utilization consulting company. For this purpose, it is effective to conduct “data analysis training” based on past consulting projects. This practice is a training to learn the data analysis framework and how to interpret the analysis results by actually analyzing the data, and you can learn the know-how of analysis consulting.
一方、非特許文献1には、自動解析機能により元データの文字列の意味を解析し、個人情報と判断されるテーブルの氏名、住所、電話番号などの情報を擬似データ変換機能により類似した内容の文字列に変換することにより、本番データからテスト・検証用の擬似データを安全に自動的に作成するアプリケーションが開示されている。これにより、データベース開発において、生成された擬似データを用いて、本番データを使用したテスト・検証と同様の成果を得ることができるとともに、擬似データ作成にかかっていた負荷を大幅に軽減して生産性の向上を図り、業務知識がなくても擬似データの作成と利用が可能となる。
On the other hand, Non-Patent
上述したような「データ分析実習」においてデータを分析する際には、実際に収集したデータ(以下、「実データ」と記載)を用いることが理想的である。しかし、企業や公共機関において収集した実データは、個人情報保護や通信の秘密といった観点から非常に機密性の高いデータである。従って、データ活用のコンサルティングを行なっている会社では、お客様からコンサルティングのために預かった実データをそのまま保存したり、コンサルティング以外の目的で利用したりすることはできない場合がほとんどである。そこで、コンサルティング会社においては、擬似データを作成し、この擬似データによりデータ分析実習を行なう必要が生じている。また、実データが利用可能な場合であっても、実データは大規模であることが多いため、コストの観点から一部のみを抽出して小規模の擬似データを作成し、実データ自体は破棄しなければならない。作成される擬似データは、スキルを身につけたり、ノウハウを蓄積したりするために、実データと性質が近い、つまり、各パラメータの設定値の分布傾向が類似したものである必要があった。 When data is analyzed in the “data analysis practice” as described above, it is ideal to use actually collected data (hereinafter referred to as “actual data”). However, actual data collected by companies and public institutions is highly confidential data from the viewpoint of personal information protection and communication confidentiality. Therefore, in companies that conduct consulting for data utilization, it is almost impossible to store actual data stored for consulting by customers or use it for purposes other than consulting. Therefore, in a consulting company, it is necessary to create pseudo data and perform data analysis training using the pseudo data. Even if the actual data is available, the actual data is often large-scale, so only a part is extracted from the viewpoint of cost and small-scale pseudo data is created. Must be destroyed. In order to acquire skills and accumulate know-how, the created pseudo data needs to be similar in nature to the actual data, that is, the distribution tendency of the setting values of each parameter must be similar.
また、大規模DWH(Data WareHouse)・データマートなどのシステム開発を行なう場合、その開発工程では、ロードや集計速度などをできる限り精度高く把握し、より本番データに近いデータによる検証が要求されている。他の分析システムの開発においても同様に、分析モデルの構築を含めた分析時間についても時間的制約がある場合、より精度の高いデータによりシステムを検証することが要求される。この場合も、実データと各パラメータの設定値の分布傾向が類似した擬似データを用いる必要があった。 Also, when developing a system such as a large-scale DWH (Data WareHouse) / data mart, the development process requires the load and counting speed to be as accurate as possible, and verification with data closer to the actual data is required. Yes. Similarly, in the development of other analysis systems, if there is a time constraint on the analysis time including the construction of an analysis model, it is required to verify the system with more accurate data. Also in this case, it is necessary to use pseudo data in which the distribution tendency of the set values of the actual data and each parameter is similar.
しかし、非特許文献1の技術では、文字列の意味を解釈し、その中の個人情報に関わるデータについてのみ文字列変換機能を実現するものであるが、実データ自体を保持しておき、当該実データの設定値自体をコピーする必要があり、また、実データよりも容量の少ない実データを生成する場合に、実データにおける各パラメータの設定値の分布傾向を保持した擬似データを生成するものではない。
However, in the technique of Non-Patent
本発明は、上記の事情に鑑みてなされたものであり、その目的は、実データ自体を蓄積しておかなくとも、実データにおける各パラメータの設定値の分布傾向を保持した、必要な容量の擬似データを生成することができる擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムを提供することにある。 The present invention has been made in view of the above circumstances, and its purpose is to maintain the distribution capacity of each parameter setting value in the actual data without storing the actual data itself. It is an object of the present invention to provide a pseudo data generation device, a pseudo data generation method, and a computer program that can generate pseudo data.
上記課題を解決するため、本発明は、実データを読み込む情報読込部と、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、を備えることを特徴とする擬似データ生成装置である。 In order to solve the above problems, the present invention provides an information reading unit that reads actual data, and distribution of set values that can be taken by analysis model parameters that are used in an analysis model that is a calculation formula for occurrence probability of a predetermined action or event. A parameter creating unit that calculates a value indicating a parameter setting value in the actual data corresponding to the analysis model parameter, a setting value that can be taken by the analysis model parameter is determined at random, and the analysis model is used. The probability of occurrence of the predetermined action or event is calculated from the set value of the analysis model parameter determined at random and the value indicating the distribution of the set value of the analysis model parameter created by the parameter creation unit. , The set value of the analysis model parameter determined at random for the generation of pseudo data based on the calculated probability If it is determined whether or not to use for the generation of pseudo data, the process of determining the setting values of the parameters constituting the pseudo data based on the setting values of the analysis model parameters determined at random is repeated, A pseudo data generation device comprising: a pseudo data generation unit that generates data.
また、本発明は、上述した擬似データ生成装置であって、前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする。 In addition, the present invention is the above-described pseudo data generation device, wherein the pseudo data generation unit generates a set value of a parameter constituting the pseudo data for a predetermined number of records.
また、本発明は、上述した擬似データ生成装置であって、前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、をさらに備えることを特徴とする。 Further, the present invention provides the above-described pseudo data generation device, wherein a value indicating a distribution of set values that can be taken by the analysis model parameter used in the analysis model is stored in the pseudo data corresponding to the analysis model parameter. The setting value distribution is calculated from the value indicating the distribution of the calculated setting value and the value indicating the distribution of the setting value generated based on the setting value of the parameter in the actual data. A verification unit that determines whether or not the deviation is greater than a predetermined value, and if the verification unit determines that there is a deviation, deletes part or all of the pseudo data and creates pseudo data in the pseudo data generation unit And a pseudo data regeneration unit for instructing.
また、本発明は、擬似データ生成装置に用いられる擬似データ生成方法であって、情報読込部が、実データを読み込む情報読込部ステップと、パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、を有することを特徴とする擬似データ生成方法である。 Further, the present invention provides a pseudo-data generating method for use in a pseudo-data generating device, information reading unit, and an information reading unit step of reading actual data, parameter creation unit, the probability of occurrence of a predetermined behavior or events A parameter creation step of calculating a value indicating a distribution of setting values that can be taken by the analysis model parameter used in the analysis model that is a calculation formula of the parameter from a setting value of the parameter in the actual data corresponding to the analysis model parameter; The pseudo data generation unit randomly determines setting values that can be taken by the analysis model parameter, and the analysis model is used to randomly determine the setting value of the analysis model parameter and the parameter generation step. And the occurrence of the predetermined action or event from the value indicating the distribution of the set value of the analysis model parameter. If the probability is calculated, whether to use the set value of the analysis model parameter determined at random for the generation of pseudo data based on the calculated probability, and if it is determined to use for the generation of pseudo data, A pseudo data generating step of generating pseudo data by repeating the process of determining the set values of parameters constituting the pseudo data based on the set values of the analysis model parameters determined at random; It is a generation method.
また、本発明は、擬似データ生成装置として用いられるコンピュータを、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、として機能させることを特徴とするコンピュータプログラムである。 In addition, the present invention provides a computer used as a pseudo data generation device with a value indicating a distribution of setting values that can be taken by an analysis model parameter used in an analysis model that is a calculation formula for occurrence probability of a predetermined action or event. A parameter creation unit that calculates the setting value of the parameter in the actual data corresponding to the analysis model parameter, the setting value that the analysis model parameter can take is determined at random, and the analysis model is used to determine the setting value that is randomly determined The occurrence probability of the predetermined action or event is calculated from the setting value of the analysis model parameter and the value indicating the distribution of the setting value of the analysis model parameter created by the parameter creation unit, and the calculated probability The set value of the analysis model parameter determined at random is used to generate pseudo data based on If it is determined whether to use for the generation of pseudo data, it repeats the process of determining the setting values of the parameters constituting the pseudo data based on the setting values of the analysis model parameters determined at random, the pseudo data It is a computer program characterized by functioning as a pseudo data generation part which generates.
本発明によれば、実データ自体を蓄積したり、その設定値をコピーして用いたりすることなく、実データにおける各パラメータの設定値の分布傾向を保持した、必要なデータサイズの擬似データを生成することができる。よって、コストを抑えながら擬似データを生成することが可能となるとともに、生成された擬似データをデータ分析の演習などに用いることにより、現実に近いデータ分析コンサルティングのノウハウを蓄積することが可能となる。また、この擬似データを、分析システムの検証に用い、精度の高い検証結果を得ることもできる。 According to the present invention, the pseudo data having the necessary data size that retains the distribution tendency of the setting values of each parameter in the actual data without accumulating the actual data itself or copying and using the setting values. Can be generated. Therefore, it is possible to generate pseudo data while reducing costs, and it is possible to accumulate data analysis consulting know-how that is close to reality by using the generated pseudo data for data analysis exercises and the like. . In addition, this pseudo data can be used for verification of the analysis system to obtain a highly accurate verification result.
以下、図面を参照して本発明の実施形態の例について説明する。
図1は、本発明の一実施形態による擬似データ生成装置1の機能ブロック図である。同図において、擬似データ生成装置1は、例えば、サーバやパーソナルコンピュータなどのコンピュータ装置で実現することができ、制御部10、入力部20、情報読込部30、表示部40、記憶部50及び処理部60を備える。
Hereinafter, exemplary embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a functional block diagram of a pseudo
制御部10は、CPU(central processing unit)及び各種メモリから構成され、各部の制御や、データの一時的な格納や、データの転送等を行う。入力部20は、キーボードやマウス、ボタンなどであり、利用者の操作による情報の入力を受ける。表示部40は、LCD(Liquid Crystal Display)やCRT(cathode ray tube)などのディスプレイである。情報読込部30は、磁気ディスクやCD−ROM等の可搬の記録媒体から情報を読み込む。あるいは、情報読込部30は、ネットワークを介して接続される他のコンピュータ装置から情報を受信するものであってもよい。
The
記憶部50は分析情報記憶部51、分析モデル記憶部52、実データ記憶部53、中間データ記憶部54、及び、抽出データ記憶部55を備え、処理部60は、分析情報書込部61、分析モデル書込部62、パラメータ作成部63、分析情報検索部64、抽出データ出力部65、擬似データ生成部66、検証部67、及び、擬似データ再生成部68を備える。
The
分析情報書込部61は、実データを用いて行なった分析内容や、その分析内容による分析を行なった結果を示す分析情報を分析情報記憶部51に書き込む。実データとは、各種サービス業務処理を実行する業務システムにおいて収集した、サービスの利用に関する情報である。このようなサービスには、例えば、商品の販売やウェブページの提供などがある。さらに、分析情報書込部61は、実データを蓄積してもよい場合、情報読込部30により読み込まれた実データを実データ記憶部53へ書き込むとともに、分析情報記憶部51に分析情報と実データとの対応付けを示す情報を書き込む。
The analysis
分析モデル書込部62は、ユーザにより選択された分析モデルを分析モデル記憶部52に書き込む。分析モデルとは、所定のパラメータの設定値に基づいて、利用者がサービスを利用する確率を算出するための算出式である。なお、分析モデルに用いられるパラメータは、実データを構成するパラメータと対応付けられる。
The analysis
パラメータ作成部63は、情報読込部30により読み込まれた実データから、分析モデルに用いられる各パラメータの設定値の分布を示す擬似化パラメータ情報を生成し、分析モデル記憶部52に書き込む。さらに、パラメータ作成部63は、実データに対応した分析情報と、当該実データに基づいて生成した擬似化パラメータ情報との対応付けを分析情報記憶部51に書き込む。
The parameter creation unit 63 generates simulated parameter information indicating the distribution of the setting values of each parameter used in the analysis model from the actual data read by the
分析情報検索部64は、ユーザが入力した条件によって分析情報記憶部51内の分析情報を検索し、検索結果を表示部40に表示する。
抽出データ出力部65は、ユーザによって選択された分析情報に実データが対応付けてられているときには、当該実データを抽出データ記憶部55に書き込み、ユーザによって選択された分析情報に擬似化パラメータ情報が対応付けてられているときには、当該擬似化パラメータ情報を用いて生成された擬似データを抽出データ記憶部55に書き込む。
The analysis information search unit 64 searches the analysis information in the analysis
When the actual data is associated with the analysis information selected by the user, the extracted
擬似データ生成部66は、ユーザにより選択された分析情報に対応付けられた擬似化パラメータ情報に基づいて擬似データを生成し、中間データ記憶部54に書き込む。検証部67は、擬似データ生成部66により生成された擬似データから分析モデルを用いて検証用の擬似化パラメータ情報を生成し、当該擬似データの生成時に用いた擬似化パラメータ情報、つまり、実データから生成した元の擬似化パラメータ情報との乖離を検証する。擬似データ再生成部68は、検証部67による検証が不成功であった場合、擬似データの再生成を擬似データ生成部66に指示する。
The pseudo data generation unit 66 generates pseudo data based on the simulation parameter information associated with the analysis information selected by the user, and writes the pseudo data in the intermediate
次に、各データの例について説明する。
図2は、擬似データ生成装置1に入力される実データのデータ構成例を示す図である。
同図において、実データは、POS(Point Of Sale)データ及び顧客属性データとからなる。POSデータは、顧客が商品を購入した日付、曜日及び時間帯と、購入店舗の店舗コードと、購入商品を特定する商品コードと、商品の金額との情報が含まれる複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。顧客属性データは、顧客の性別、年齢等を含む複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。以下、実データを構成するパラメータの種別、例えば、POSデータの日付、曜日、時間帯、店舗コード、商品コード、金額や、顧客属性データの性別や年齢などを「実データパラメータ」と記載する。
Next, an example of each data will be described.
FIG. 2 is a diagram illustrating a data configuration example of actual data input to the pseudo
In the figure, the actual data is composed of POS (Point Of Sale) data and customer attribute data. The POS data is composed of a plurality of records including information on the date, day of the week and time of the purchase by the customer, the store code of the purchase store, the product code for specifying the purchased product, and the price of the product. An ID for identifying the record is set in the record. The customer attribute data consists of a plurality of records including the sex, age, etc. of the customer, and an ID for identifying the record is set in each record. Hereinafter, the types of parameters constituting the actual data, for example, the date, day of the week, time zone, store code, product code, amount of money, the gender and age of the customer attribute data, etc. will be referred to as “actual data parameters”.
なお、上述したように、実データは、各種サービス業務における処理を実行する業務システムにおいて収集した、当該サービスの利用に関する情報である。つまり、本実施の形態において対象とする実データは、サービスを利用したなど、何らかの行動を行なった人の情報や、その行動が行なわれた状況に関して収集した情報である。あるいは、システム運用状況のログと発生した故障など、その事象が発生した状況に関して収集した情報とすることもできる。
例えば、ウェブ利用についての実データであれば、POSデータに代えて、レコードを特定するIDと、顧客がウェブにアクセスした日付、曜日及び時間帯と、アクセス先URL(Universal Resource Locator)との情報を含む複数のレコードからなるアクセスログデータを用いることができる。
As described above, the actual data is information related to the use of the service collected in a business system that executes processing in various service businesses. That is, the actual data that is the target in the present embodiment is information collected about the information on the person who performed some action such as using a service, and the situation where the action was performed. Alternatively, it may be information collected regarding a situation in which the event has occurred, such as a log of system operation status and a failure that has occurred.
For example, in the case of actual data for web usage, instead of the POS data, information for identifying a record, the date, day of the week, and time zone when the customer accessed the web, and the access destination URL (Universal Resource Locator) The access log data consisting of a plurality of records including can be used.
図3は、擬似データ生成装置1に入力され、分析情報記憶部51に記憶される分析情報テーブルのデータ構成例を示す図である。
同図において、分析情報テーブルは、レコードを特定する分析番号と、分析タイトル、どのような業界あるいは分野に関する分析であるかを示す業界・分野キーワード、分析の目的、使用した分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報と、擬似化パラメータテーブル(後述する図5参照)の有無、及び、分析用データ格納位置とを含むレコードからなる。分析用データ格納位置は、擬似化パラメータテーブル「無」の場合は、実データの格納位置を、擬似化パラメータテーブル「有」の場合は擬似化パラメータテーブルの格納位置が設定される。また、分析内容、分析内容詳細には、それらを記述した情報の格納位置が設定される。
FIG. 3 is a diagram illustrating a data configuration example of an analysis information table that is input to the pseudo
In this figure, the analysis information table is based on the analysis number that identifies the record, the analysis title, the industry / field keyword indicating what industry or field the analysis is for, the purpose of the analysis, the analysis scenario used, and the analysis scenario. It consists of records including analysis information consisting of analysis content, analysis content details, and analysis result details, presence / absence of a simulation parameter table (see FIG. 5 described later), and analysis data storage location. As the analysis data storage location, the storage location of the actual data is set when the simulation parameter table is “none”, and the storage location of the simulation parameter table is set when the simulation parameter table is “present”. In addition, the storage location of information describing them is set in the analysis content and the analysis content details.
図4は、分析シナリオの例を示す図である。図3に示す分析情報テーブルの分析シナリオには、図4に示す分析シナリオ類型が設定される。分析シナリオは、実データから得られるパラメータの設定値または当該設定値に対応して決定される値を、分析のための所定の式に代入して何らかの傾向や特徴を表す指標値を算出する過程を、所定の順序によって行っていくものである。このようにして得られた指標値を分析することにより、分析シナリオで目的とする内容についての傾向や特徴を判断することができる。 FIG. 4 is a diagram illustrating an example of an analysis scenario. The analysis scenario type shown in FIG. 4 is set in the analysis scenario of the analysis information table shown in FIG. An analysis scenario is a process in which a parameter setting value obtained from actual data or a value determined in accordance with the setting value is substituted into a predetermined formula for analysis to calculate an index value representing some tendency or characteristic. Are performed in a predetermined order. By analyzing the index value thus obtained, it is possible to determine the tendency and characteristics of the target content in the analysis scenario.
図5は、分析モデル記憶部52に記憶される擬似化パラメータテーブルのデータ構成例を示す図である。
擬似化パラメータテーブルは、分析モデルに用いられる各パラメータの擬似化パラメータ情報からなる。以下、分析モデルに用いられるパラメータを「分析モデルパラメータ」と記載する。同図において、擬似化パラメータテーブルは、性別、年代、商品種別、店舗、時間帯、月などの各分析モデルパラメータに対応した擬似化パラメータ情報からなり、擬似化パラメータ情報は、分析モデルパラメータが取り得る設定値と、実データにおける当該設定値の分布を示す分布値とを対応付けた情報であることが示されている。
FIG. 5 is a diagram illustrating a data configuration example of a simulation parameter table stored in the analysis
The simulation parameter table includes simulation parameter information of each parameter used in the analysis model. Hereinafter, parameters used for the analysis model are referred to as “analysis model parameters”. In the figure, the simulation parameter table includes simulation parameter information corresponding to each analysis model parameter such as gender, age, product type, store, time zone, and month, and the simulation parameter information is taken by the analysis model parameter. It is shown that the obtained setting value is associated with a distribution value indicating the distribution of the setting value in actual data.
次に、本実施形態による擬似データ生成装置1の動作について説明する。
図6は、本実施の形態によるデータ蓄積処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置1の入力部20により、実データを蓄積するか、擬似化パラメータ情報を生成するかの指示と、実データの格納場所とを入力する(ステップS105)。さらにユーザは、入力部20により、分析タイトル、業界・分野キーワード、分析の目的、分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報を入力する(ステップS110)。
Next, the operation of the pseudo
FIG. 6 is a diagram showing a processing flow of data accumulation processing according to the present embodiment.
In the figure, the user inputs an instruction to store actual data or generate simulated parameter information and a storage location of the actual data through the
ステップS105において、実データの蓄積指示が入力された場合(ステップS115:蓄積)、情報読込部30は、入力された実データの格納場所に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から、実データを読み出して実データ記憶部53へ書き込む(ステップS120)。さらに、分析情報書込部61は、ステップS110において入力された分析情報と、ステップS120において実データを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「無」とを設定したレコードを、分析情報記憶部51内の分析情報テーブルに追加する(ステップS125)。
In step S105, when an instruction to store actual data is input (step S115: accumulation), the
一方、ステップS105において、擬似化パラメータ情報の生成指示が入力された場合(ステップS115:擬似化)、さらに、ユーザは入力部20により、使用する分析モデルを入力する(ステップS130)。分析モデル書込部62は、入力された分析モデルを分析モデル記憶部52に書き込む。
On the other hand, when an instruction to generate simulation parameter information is input in step S105 (step S115: simulation), the user inputs an analysis model to be used through the input unit 20 (step S130). The analysis
なお、分析モデルは、予め分析モデル記憶部52に予め記憶されている一覧の中から選択するようにしてもよい。分析モデルは、分析シナリオの一部として含まれているものでもよく、含まれていないものであってもよい。これは、例えば分析シナリオにおいて複数の分析モデルを利用する場合、全て同じ分析モデルを利用して疑似データを作成するよりも、簡易なモデルを適用した方が良い場合が考えられるためであるが、分析モデルには、データ分析実習やシステム検証に使用する分析シナリオの中で使用するパラメータが少なくとも含まれている必要がある。ここでは、以下の(式1)及び(式2)からなる分析モデルが入力されたものとする。
The analysis model may be selected from a list stored in advance in the analysis
なお、m個の設定値xn1、xn2、…、xnmとりうる分析モデルパラメータpnに設定値xnk(kは1〜mのいずれか)が設定されている場合、(pn)j=1(j=k)、(pn)j=0(j≠k)である。例えば、分析モデルパラメータp1が「性別」であり、設定値x11=「男」、設定値x12=「女」の2値をとりうるとき、「性別」に設定値「男」が設定されている場合、(p1)1=1、(p1)2=0となる。また、βnjは、分析モデルパラメータpnの設定値xnjに対応した分布値を示す。また、β7は定数項、tは「所定の単位で表される時間」の数値である。なお、γ1i、γ2iは、ある分析モデルパラメータpnの設定値に対応して決定する値とする。 When the set value x nk (k is any one of 1 to m) is set to the analysis model parameter pn that can be set to m set values x n1 , x n2 ,..., X nm , (pn) j = 1 (j = k), (pn) j = 0 (j ≠ k). For example, when the analysis model parameter p1 is “gender”, the setting value x 11 = “male” and the setting value x 12 = “female” can be two values, the setting value “male” is set in “gender”. (P1) 1 = 1 and (p1) 2 = 0. Β nj represents a distribution value corresponding to the set value x nj of the analysis model parameter pn. Β 7 is a constant term, and t is a numerical value of “time expressed in a predetermined unit”. Note that γ 1i and γ 2i are values determined in accordance with a set value of a certain analysis model parameter pn.
上記のように、分析モデルは、各分析モデルパラメータの設定値を用いて、サービスの利用など、実データが収集されたときと同様の行動または事象が発生する確率を算出するものである。なお、ここでは、各分析モデルパラメータの設定値は独立に決まり、複数の分析モデルパラメータの設定値間に相関関係はないものとする。 As described above, the analysis model uses the setting values of each analysis model parameter to calculate the probability of occurrence of the same action or event as when actual data is collected, such as use of a service. Here, the setting values of each analysis model parameter are determined independently, and there is no correlation between the setting values of a plurality of analysis model parameters.
続いて、ユーザは、入力部20により、分析モデルパラメータ及び実データパラメータ対応付けと、分析モデルパラメータの設定値と実データパラメータの設定値との対応づけを入力する。
Subsequently, the user inputs the association between the analysis model parameter and the actual data parameter, and the association between the setting value of the analysis model parameter and the setting value of the actual data parameter through the
例えば、分析モデルパラメータ「性別」は、顧客属性データの実データパラメータ「性別」に対応し、分析モデルパラメータ「性別」の設定値「男」、「女」は、顧客属性データの実データパラメータ「性別」の設定値「M」、「F」にそれぞれ対応することが入力される。
また、分析モデルパラメータ「商品種別」は、POSデータの「商品コード」に対応し、分析モデルパラメータ「商品種別」の設定値「A」、「B」、…は、POSデータの実データパラメータ「商品コード」の設定値「0001」、「0002」、…にそれぞれ対応することが入力される。
For example, the analysis model parameter “gender” corresponds to the actual data parameter “sex” of the customer attribute data, and the setting values “male” and “female” of the analysis model parameter “sex” are the actual data parameters “ Corresponding to the set values “M” and “F” of “sex” are input.
The analysis model parameter “product type” corresponds to the “product code” of the POS data, and the setting values “A”, “B”,... Of the analysis model parameter “product type” are the actual data parameters “ Corresponding to the set values “0001”, “0002”,.
また、分析モデルパラメータ「年代」は、顧客属性データの実データパラメータ「年齢」に対応し、分析モデルパラメータ「年代」の設定値「〜19」、「20〜29」、…、「70〜」は、顧客属性データの実データパラメータ「年齢」の設定値「0」から「19」まで、「20」から「29」まで、…、「70」以上にそれぞれ対応することが入力される。
ここでは、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月は、それぞれ、顧客属性データの性別、年齢、POSデータの商品コード、店舗コード、時間帯、日付に対応するものとする。
The analysis model parameter “age” corresponds to the actual data parameter “age” of the customer attribute data, and the set values “˜19”, “20-29”,..., “70” ”of the analysis model parameter“ age ”. Are input corresponding to the set values “0” to “19”, “20” to “29”,..., “70” or more of the actual data parameter “age” of the customer attribute data.
Here, the sex, age, product type, store, time zone, and month of the analysis model parameters correspond to the sex of customer attribute data, age, product code of POS data, store code, time zone, and date, respectively. To do.
続いて、情報読込部30が、入力された実データの格納領域に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から実データを読み込み、パラメータ作成部63は、当該実データに基づいて擬似化パラメータテーブルを生成する(ステップS135)。ここでは、図2に示す実データが読み込まれたものとし、以下に擬似化パラメータテーブルの生成処理を詳細に説明する。
Subsequently, the
パラメータ作成部63は、ステップS130において選択あるいは入力された分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した実データパラメータの設定値が実データに設定されているレコード数、つまり、設定数をカウントする。 When the parameter creation unit 63 sequentially selects the analysis model parameters used in the analysis model selected or input in step S130, the parameter creation unit 63 performs, for each selected analysis model parameter, an actual value corresponding to each set value of the analysis model parameter. The number of records in which the set value of the data parameter is set to the actual data, that is, the set number is counted.
例えば、上記の例の場合、パラメータ作成部63は、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月を順に選択する。そして、現在選択している分析モデルパラメータが「性別」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「性別」を特定する。パラメータ作成部63は、特定した実データパラメータ「性別」に「M」が設定されているレコード数、「F」が設定されているレコード数をカウントし、それぞれ、分析モデルパラメータ「性別」の設定値「男」の設定数、設定値「女」の設定数とする。 For example, in the case of the above example, the parameter creation unit 63 sequentially selects the sex, age, product type, store, time zone, and month of the analysis model parameter. When the currently selected analysis model parameter is “gender”, the corresponding actual data parameter, that is, the actual data parameter “sex” of the customer attribute data is specified. The parameter creation unit 63 counts the number of records in which “M” is set in the identified actual data parameter “sex” and the number of records in which “F” is set, and sets the analysis model parameter “sex” respectively. The number of settings for the value “male” and the number of settings for the setting value “female”.
また、現在選択している分析モデルパラメータが「年代」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「年齢」を特定する。パラメータ作成部63は、特定した実データパラメータ「年齢」に「0」から「19」のいずれかの設定値が設定されているレコード数、「20」から「29」のいずれかの設定値が設定されているレコード数、…、「70」以上のいずれかの設定値が設定されているレコード数を、分析モデルパラメータ「年齢」の設定値「〜19」、「20〜29」、…、「70〜」の設定数とする。 When the currently selected analysis model parameter is “age”, the corresponding actual data parameter, that is, the actual data parameter “age” of the customer attribute data is specified. The parameter creation unit 63 sets the number of records in which any set value from “0” to “19” is set to the specified actual data parameter “age”, and any set value from “20” to “29” The number of records set,..., The number of records for which any setting value of “70” or more is set is set to the set values “˜19”, “20-29”,. The set number is “70”.
続いて、パラメータ作成部63は、各分析モデルパラメータについて、以下の(式3)により各設定値の設定数の基準化を行い、分布値とする。なお、pnは分析モデルパラメータの種類とし、m個の設定値xnk(k=1〜m)をとるものとする。 Subsequently, the parameter creation unit 63 standardizes the set number of each set value for each analysis model parameter by the following (Equation 3) to obtain a distribution value. Note that pn is a type of analysis model parameter and takes m set values x nk (k = 1 to m).
分析モデルパラメータpnの設定値xnkの分布値={(設定値xnkの設定数)−(設定値xn1〜xnmの平均設定数)}/(設定値xn1〜xnmの設定数の標準偏差) …(式3) Analysis model parameters pn settings x nk distribution value = {(the set number of the set value x nk) - (set value x n1 average set number of ~x nm)} / (the set number of the set value x n1 ~x nm Standard deviation) (Equation 3)
例えば、分析モデルパラメータAがα、β、γの設定値(又は設定値の範囲)をとり、設定値α、β、γが設定されている実データのレコード数がそれぞれ100、200、300であったとする。この場合、平均設定数は(100+200+300)/3=200であり、分散=(標準偏差σ)2={(100−200)2+(200−200)2+(300−200)2}/3である。よって、分析モデルパラメータAの設定値αの分布値は、(100−200)/σとなる。
同様に、分析モデルパラメータAがβ、γのときの分布値を算出すると、その算出結果から分析モデルパラメータAの擬似化パラメータ情報を生成する。
For example, the analysis model parameter A takes α, β, and γ set values (or set value ranges), and the actual data records in which the set values α, β, and γ are set are 100, 200, and 300, respectively. Suppose there was. In this case, the average set number is (100 + 200 + 300) / 3 = 200, and variance = (standard deviation σ) 2 = {(100−200) 2 + (200−200) 2 + (300−200) 2 } / 3 It is. Therefore, the distribution value of the set value α of the analysis model parameter A is (100−200) / σ.
Similarly, when the distribution value when the analysis model parameter A is β and γ is calculated, simulated parameter information of the analysis model parameter A is generated from the calculation result.
なお、分布値を以下のように生成してもよい。例えば、ある店舗の全会員情報と、購入した会員の属性情報もしくは会員を特定できるコードがレコードに含まれたPOSデータとが実データとして蓄積されていた場合、会員の内、購入した会員、購入していない会員の情報として取得できるため、顧客に対する購買確率が計算できる。よって、購買確率を分析モデルに設定し、パラメータの分布値を最尤推定法によって求めることが可能となる。具体的には、例えば実データから得られる購買確率を(式2),(式1)を利用してそれぞれのβを推定する処理を行う。ただし、推定の際にはランク落ちを防ぐためにパラメータの一つを除去したモデルにするなどの対応が必要となる。 The distribution value may be generated as follows. For example, when all the member information of a store and the POS data in which the attribute information of the purchased member or the code for identifying the member is included in the record are stored as actual data, among the members, the purchased member, the purchase Since it can be acquired as information of members who have not been purchased, the purchase probability for the customer can be calculated. Therefore, it is possible to set the purchase probability in the analysis model and obtain the parameter distribution value by the maximum likelihood estimation method. Specifically, for example, the purchase probability obtained from the actual data is estimated using each of (Equation 2) and (Equation 1). However, when estimating, it is necessary to take measures such as making a model from which one of the parameters is removed in order to prevent a rank drop.
パラメータ作成部63は、各分析モデルパラメータについて、設定値と分布値とを対応付けた擬似化パラメータ情報を生成すると、分析モデル記憶部52に、これらの擬似化パラメータ情報からなる擬似化パラメータテーブルを書き込むとともに(ステップS140)、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、ステップS130において入力された分析モデルとを対応付けて書き込む(ステップS145)。
When the parameter creation unit 63 generates simulation parameter information in which the set value and the distribution value are associated with each analysis model parameter, the parameter creation unit 63 stores a simulation parameter table including the simulation parameter information in the analysis
さらに、分析情報書込部61は、ステップS110において入力された分析情報と、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「有」とを設定したレコードを、分析情報記憶部51内に記憶している分析情報テーブルに追加する(ステップS150)。
Further, the analysis
図7は、本実施の形態による擬似データ生成処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置1の入力部20により、データ分析実習やシステム検証に使用するデータの検索条件、例えば、分析タイトル、業界・分野キーワード、分析目的、分析シナリオなどの検索対象と、検索語を入力する(ステップS205)。分析情報検索部64は、分析情報記憶部51内の分析情報テーブルから、入力された検索条件で示される検索対象に、当該検索条件で示される検索語が設定されているレコードを特定すると、特定したレコードに設定されている分析情報を表示部40に表示する(ステップS210)。ユーザは、出力された分析情報を確認し、適切な分析情報が表示されていない場合(ステップS215:NO)、再びステップS205からの処理を行い、検索条件の入力と検索結果の表示の処理を繰り返す。
FIG. 7 is a diagram showing a process flow of the pseudo data generation process according to the present embodiment.
In the figure, the user searches the search conditions of data used for data analysis training and system verification, for example, analysis title, industry / field keyword, analysis purpose, analysis scenario, and the like by the
ユーザは、表示された分析情報の中から適切な分析情報を選択すると、選択した分析情報を特定する情報を入力部20により入力する(ステップS215:YES)。抽出データ出力部65は、ステップS215において入力された情報により特定される分析情報が設定されている分析情報テーブルのレコードを特定し、当該レコードから擬似化パラメータテーブルの有無と分析用データ格納位置を読み出す。擬似化パラメータテーブル「無」が設定されている場合(ステップS220:NO)、抽出データ出力部65は、実データ記憶部53から分析用データ格納位置に記憶されている実データを読み出して抽出データ記憶部55に書き込む(ステップS225)。
When the user selects appropriate analysis information from the displayed analysis information, information specifying the selected analysis information is input by the input unit 20 (step S215: YES). The extracted
一方、抽出データ出力部65は、擬似化パラメータテーブル「有」が設定されている場合(ステップS220:YES)、分析用データ格納位置を擬似データ生成部66に出力し、擬似データの生成を指示する。擬似データ生成部66は、表示部40にトランザクション数を入力する指示するメッセージを表示させると、ユーザは、トランザクション数、つまり、擬似データを構成するレコード数を入力部20により入力する(ステップS230)。
On the other hand, when the simulation parameter table “present” is set (step S220: YES), the extracted
擬似データ生成部66は、分析モデル記憶部52内の分析用データ格納位置に記憶されている擬似化パラメータテーブルと、当該擬似化パラメータテーブルに対応付けられている分析モデルを読み出すと、以下のように擬似データを生成する(ステップS235)。
When the pseudo data generation unit 66 reads the simulation parameter table stored in the analysis data storage position in the analysis
まず、擬似データ生成部66は、読み出した分析モデルに含まれている各分析モデルパラメータそれぞれについて、当該分析モデルパラメータがとりうる各設定値に対応したカラムを有するレコードからなる中間テーブルを生成して、中間データ記憶部54に書き込む。さらに、擬似データ生成部66は、分析モデルパラメータに対応した実データパラメータからなる擬似データを中間データ記憶部54に書き込む。
First, the pseudo data generation unit 66 generates, for each analysis model parameter included in the read analysis model, an intermediate table composed of records having columns corresponding to setting values that can be taken by the analysis model parameter. To the intermediate
図8は、中間テーブルの例を示す図である。例えば、(式1)及び(式2)からなる分析モデルが読み出された場合、当該分析モデルに含まれる分析モデルパラメータ「性別」、「年代」、「商品種別」、「店舗」、「時間帯」、「月」について、これらの各分析モデルパラメータが取り得る設定値に対応したカラム、例えば、分析モデルパラメータ「性別」については設定値「男」、「女」のカラム、分析モデルパラメータ「年代」については設定値「〜19」、「20〜29」、…、「70〜」のカラム、分析モデルパラメータ「商品種別」については設定値「A」、「B」、…のカラム、分析モデルパラメータ「時間帯」については設定値「0」、「1」、…、「23」のカラム、…を有する中間テーブルが生成される。 FIG. 8 is a diagram illustrating an example of the intermediate table. For example, when an analysis model composed of (Expression 1) and (Expression 2) is read, the analysis model parameters “sex”, “age”, “product type”, “store”, “time” included in the analysis model are read. For the “band” and “month”, columns corresponding to the setting values that can be taken by each of these analysis model parameters, for example, for the analysis model parameter “gender”, the columns of the setting values “male” and “female”, the analysis model parameter “ Columns of setting values “˜19”, “20-29”,..., “70˜” for “age”, columns of setting values “A”, “B”,. For the model parameter “time zone”, an intermediate table having setting values “0”, “1”,..., “23” columns is generated.
擬似データ生成部66は、中間テーブルに新たなレコードを追加する。この追加したレコードは、中間テーブルのi番目のレコードであるとする。よって、中間テーブルが生成された直後であれば、iは初期値1である。擬似データ生成部66は、追加したレコードの各分析モデルパラメータについて、当該分析モデルパラメータが取り得る設定値を1つランダムに選択し、選択した設定値に対応したカラムに「1」を、他の設定値に対応したカラムに「0」を設定する。
The pseudo data generation unit 66 adds a new record to the intermediate table. This added record is assumed to be the i-th record in the intermediate table. Therefore, i is the
例えば、図8に示す中間テーブルの1番目のレコードの場合、分析モデルパラメータ「性別」が取り得る設定値からランダムに選択された設定値「男」に対応するカラムに「1」が、選択されなかった設定値「女」に対応するカラムには「0」が設定されている。また、分析モデルパラメータ「年代」が取り得る設定値からランダムに選択された設定値「〜19」に対応するカラムに「1」が、選択されなかった他の設定値「20〜29」、…、「70〜」に対応したカラムには「0」が設定されている。分析モデルパラメータ「商品種別」、「店舗」、「時間帯」、「店舗」、「月」それぞれについても同様に、ランダムに選択した設定値に対応したカラムのみに「1」を、他の設定値に対応したカラムに「0」を設定する。 For example, in the case of the first record in the intermediate table shown in FIG. 8, “1” is selected in the column corresponding to the setting value “male” randomly selected from the setting values that can be taken by the analysis model parameter “gender”. “0” is set in the column corresponding to the setting value “female” that did not exist. In addition, “1” is displayed in a column corresponding to a setting value “˜19” randomly selected from setting values that can be taken by the analysis model parameter “age”, and other setting values “20 to 29” that are not selected. , “0” is set in the column corresponding to “70˜”. Similarly, for each of the analysis model parameters “product type”, “store”, “time zone”, “store”, “month”, “1” is set only for the column corresponding to the randomly selected setting value. Set “0” in the column corresponding to the value.
続いて、擬似データ生成部66は、中間テーブルの設定値と、読み出した分析モデルとを用いてサービスの利用の確率を算出する。(式1)及び(式2)からなる分析モデルを使用する場合、まず、擬似データ生成部66は、選好度を算出する。β11、β12はそれぞれ、図5に示す擬似化パラメータテーブルにおける、分析モデルパラメータp1「性別」の設定値「男」に対応した分布値「0.5」、設定値「女」に対応した分布値「0.4」である。また、(p1)1は設定値が「男」であれば「1」、「男」でないときには「0」であり、(p1)2は設定値が「女」であれば「1」、「女」でないときには「0」であるため、中間テーブルにおける「性別」の設定値「男」、「女」に対応したカラム設定されている値をそれぞれ「(p1)1」、「(p1)2」の値として用いることができる。よって、図8に示す中間テーブルの最初のレコードの場合、最初の項のΣは、「−0.01×1+0.04×0」となる。 Subsequently, the pseudo data generation unit 66 calculates the service use probability using the set value of the intermediate table and the read analysis model. When using an analysis model composed of (Expression 1) and (Expression 2), first, the pseudo data generation unit 66 calculates a preference. β 11 and β 12 correspond to the distribution value “0.5” corresponding to the set value “male” and the set value “female” of the analysis model parameter p1 “sex” in the simulation parameter table shown in FIG. The distribution value is “0.4”. (P1) 1 is “1” if the set value is “male”, “0” if it is not “male”, and (p1) 2 is “1” if the set value is “female”, “ Since it is “0” when not “female”, the values set in the columns corresponding to the “gender” setting values “male” and “female” in the intermediate table are “(p1) 1 ” and “(p1) 2 ”, respectively. Can be used as the value of "." Therefore, in the case of the first record of the intermediate table shown in FIG. 8, Σ of the first term is “−0.01 × 1 + 0.04 × 0”.
同様にβ21…、β26、β27はそれぞれ、図5に示す分析モデルパラメータp2「年代」の設定値「〜19」に対応した分布値「1.5」、…、設定値「60〜69」に対応した分布値「0.2」、設定値「70〜」に対応した分布値「−0.3」である。また、上記と同様に、中間テーブルにおける「年代」の設定値「〜19」、…、「60〜69」、「70〜」に対応したカラムに設定されている値をそれぞれ「(p2)1」、…、「(p2)6」、「(p2)7」の値として用いることができる。よって、図8に示す中間テーブルの最初のレコードの場合、2番目の項のΣは、「1.5×1+…+0.2×0+(−0.3)×0」となる。
なお、tには、1が設定されている「時間帯」のカラムに対応した設定値が代入される。また、γ11、γ21には、所定の分析モデルパラメータの設定値に対応した所定の値とする。
Similarly, β 21 ..., Β 26 , β 27 are distributed values “1.5”,..., Set values “60˜” corresponding to the set values “˜19” of the analysis model parameter p2 “age” shown in FIG. The distribution value “0.2” corresponding to “69” and the distribution value “−0.3” corresponding to the set value “70˜”. Similarly to the above, the values set in the columns corresponding to the set values “˜19”,..., “60-69”, “70˜” of “age” in the intermediate table are “(p2) 1 ,..., “(P2) 6 ”, “(p2) 7 ”. Therefore, in the case of the first record in the intermediate table shown in FIG. 8, the Σ of the second term is “1.5 × 1 +... + 0.2 × 0 + (− 0.3) × 0”.
Note that a set value corresponding to the “time zone” column in which 1 is set is substituted for t. Further, γ 11 and γ 21 are set to predetermined values corresponding to the set values of predetermined analysis model parameters.
上記のように、擬似データ生成部66は、中間テーブルの設定値と、擬似化パラメータテーブルの分布値とを用いて(式1)により選好度Vitを算出すると、この算出された選好度Vitを用いて、(式2)により購買確率選好度pitを算出する。擬似データ生成部66は、一様乱数(0,1)を発生させると、一様乱数(0,1)が購買確率pitよりも小さい場合は購買すると判断し、購買確率pit以上である場合は購買しないと判断する。そして、購買すると判断した場合のみ、購買確率pitの算出に用いた中間テーブルのi番目のレコードに基づいて生成したレコードを擬似データへ追加する。
なお、一様乱数(0,1)は、所定の最大値を持つ自然乱数列を発生させ、それを当該最大値で割ることで得られる0以上1以下の乱数である。
As described above, when the pseudo data generation unit 66 calculates the preference V it by (Equation 1) using the set value of the intermediate table and the distribution value of the simulation parameter table, the calculated preference V with it, to calculate the purchase probability preference p it by (equation 2). Pseudo data generation unit 66, when generating a uniform random number (0, 1), if uniform random number (0, 1) is less than the purchase probability p it is determined that the purchase is the purchase probability p it more If not, it is determined not to purchase. Then, only if it is determined that the purchase, the generated record to add the pseudo data based on the i-th record of the intermediate table used to calculate the purchase probability p it.
The uniform random number (0, 1) is a random number from 0 to 1 obtained by generating a natural random number sequence having a predetermined maximum value and dividing it by the maximum value.
図9は、擬似データのデータ例を示す図である。擬似データは、中間テーブル内の各分析モデルパラメータに対応した実データパラメータの設定値を含むレコードからなる。擬似データ生成部66は、購買確率pitに基づいて購買すると判断した場合、擬似データに新たなレコードを追加すると、中間テーブルの各分析モデルパラメータから、「1」が設定されているカラムを特定し、当該カラムの設定値に対応した実データパラメータの設定値を、擬似データに追加したレコードに設定する。ただし、1つの分析モデルパラメータの設定値に対して、複数の実データパラメータの設定値が対応する場合、その対応する複数の実データパラメータの設定値から1つをランダムに選択する。
例えば、分析モデルパラメータ「年代」の設定値「〜19」の場合、対応する実データパラメータ「年齢」の設定値「0」〜「19」の中からランダムに選択した設定値とする。また、分析モデルパラメータ「月」の設定値「1月」の場合、対応する実データパラメータ「日付」の設定値「1月1日」〜「1月31日」の中からランダムに選択した設定値とする。
FIG. 9 is a diagram illustrating an example of pseudo data. The pseudo data includes a record including setting values of actual data parameters corresponding to each analysis model parameter in the intermediate table. When the pseudo data generation unit 66 determines to purchase based on the purchase probability pit , when a new record is added to the pseudo data, the column in which “1” is set is identified from each analysis model parameter of the intermediate table. Then, the setting value of the actual data parameter corresponding to the setting value of the column is set in the record added to the pseudo data. However, when a set value of a plurality of actual data parameters corresponds to a set value of one analysis model parameter, one of the corresponding set values of the actual data parameter is randomly selected.
For example, in the case of the setting value “˜19” of the analysis model parameter “age”, the setting value is randomly selected from the setting values “0” to “19” of the corresponding actual data parameter “age”. In addition, in the case of the setting value “January” of the analysis model parameter “month”, a setting randomly selected from the setting values “January 1” to “January 31” of the corresponding actual data parameter “date” Value.
上記のように、追加したレコードに擬似データの実データパラメータ「性別」、「年齢」、「商品コード」、「時間帯」、「日付」、「店舗コード」の設定値が設定されると、これら実データパラメータの設定値によって決定する他の実データパラメータの設定値を当該レコードに書き込む。例えば、日付の設定値に対応した曜日の設定値、商品コードの設定値に対応した金額を書き込む。さらには、追加したレコードにIDを書き込む。 As described above, when the set values of the actual data parameters “sex”, “age”, “product code”, “time zone”, “date”, “store code” of the pseudo data are set in the added record, The setting values of other actual data parameters determined by the setting values of these actual data parameters are written into the record. For example, the set value for the day corresponding to the set value for the date and the amount corresponding to the set value for the product code are written. Further, the ID is written in the added record.
なお、例えば、曜日の設定値分布を実データと同様にしたい場合、分析モデルパラメータ「曜日」の擬似化パラメータ情報を生成する。そして、中間テーブルのレコードから擬似データのレコードを生成する際には、当該曜日に対応した所定期間の日付の中からランダムに日付を選択する。この所定期間は、擬似データ生成の際にユーザが入力するようにしてもよく、実データから擬似化パラメータ情報を生成する際に、当該実データに含まれる日付により期間を取得して擬似化パラメータテーブル内に記憶しておくことでもよい。 For example, when the setting value distribution of the day of the week is desired to be the same as the actual data, the simulation parameter information of the analysis model parameter “day of the week” is generated. Then, when generating the pseudo data record from the record of the intermediate table, the date is selected at random from the dates of the predetermined period corresponding to the day of the week. The predetermined period may be input by the user when generating the pseudo data, and when generating the simulation parameter information from the actual data, the period is acquired from the date included in the actual data and the simulation parameter is acquired. It may be stored in a table.
上記のようにして、擬似データにレコードを追加すると、擬似データ生成部66は、擬似データのレコード数がトランザクション数に達したかを判断する。達していない場合は、iの値を1加算した値に更新し、中間テーブルにi番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのi番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を繰り返す。 As described above, when a record is added to the pseudo data, the pseudo data generation unit 66 determines whether the number of records of the pseudo data has reached the number of transactions. If not, update the value of i to 1 and add the i-th record to the intermediate table, randomly select the setting value of each analysis model parameter, and use the analysis model to If the probability of use is calculated, the use of the service is determined based on the probability, and the service is determined to be used, the record of the setting value based on the i-th record of the intermediate table is stored as pseudo data Repeat the above process to add.
擬似データのレコード数がトランザクション数に達すると、検証部67は、生成された擬似データと、分析モデルを用いて、図6のステップS135と同様の処理により、擬似データから擬似化パラメータ情報を生成する(ステップS240)。つまり、検証部67は、分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した擬似データにおける実データパラメータの設定値が設定されているレコード数をカウントする。そして、各分析モデルパラメータの各設定値について分布値を作成し、その算出結果から各分析モデルパラメータについての擬似化パラメータ情報からなる検証用擬似化パラメータテーブルを生成する。
When the number of records in the pseudo data reaches the number of transactions, the
検証部67は、2つのデータ群の間に乖離があるか否かを統計的に調べる既存の手法により、ステップS235における擬似データの生成に用いた擬似化パラメータテーブル内の各擬似化パラメータ情報と、S240において生成した検証用擬似化パラメータテーブル内の各擬似化パラメータ情報について検証を行なう。
この検証には、例えば、2集団の平均値に差がないかを統計的に調べるt検定(平均値の差の検定)を用いることができる。具体的には、t検定における帰無仮説を「2集団の平均値に差がない」とし、算出したt値が、当該自由度におけるt分布表(例えば、95%信頼区間)の値よりも小さい場合、帰無仮説は棄却されず、平均に差がないという結果となり、検証成功となる。なお、検証には、各分析モデルパラメータの設定値に仮定される分布に応じた検証法方法を用いるようにする。
The
For this verification, for example, a t-test (test of difference between average values) for statistically checking whether there is a difference between the average values of the two groups can be used. Specifically, the null hypothesis in the t-test is “no difference between the average values of the two groups”, and the calculated t-value is larger than the value of the t-distribution table (for example, 95% confidence interval) in the degree of freedom. If it is small, the null hypothesis is not rejected, and the result is that there is no difference in the mean, and the verification is successful. For the verification, a verification method according to the distribution assumed for the set value of each analysis model parameter is used.
検証が不成功であった場合(ステップS245:NO)、再び擬似データを生成するステップS235からの処理を行なう。
再び擬似データを生成する場合、擬似データ再生成部68は、以下のように現在中間データ記憶部54に記憶されている擬似データからレコードを削除する。
If the verification is unsuccessful (step S245: NO), the processing from step S235 for generating pseudo data is performed again.
When generating the pseudo data again, the pseudo
(1)ステップS245による検証の結果、検証が不成功であった分析モデルパラメータを特定する。当該分析モデルパラメータの設定値が連続値をとる場合、平均が上回っているか下回っているかを判断する。平均が下回っている場合は、平均値より小さい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除し、平均が上回っている場合は、平均値より大きい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除する。
(2)ランダムに所定数または所定割合のレコードを削除する。例えば、設定値が2値である場合など、正規分布をとらない場合に用いられる。
(3)全レコードを削除する。
(1) As a result of the verification in step S245, an analysis model parameter for which verification was unsuccessful is specified. When the set value of the analysis model parameter takes a continuous value, it is determined whether the average is above or below. If the average is below, delete the record of the actual data in which the setting value of the actual data parameter corresponding to the setting value smaller than the average value is set, and if the average is above, the average value Records of actual data in which actual data parameter setting values corresponding to larger setting values are set are deleted by a predetermined ratio.
(2) Delete a predetermined number or a predetermined ratio of records at random. For example, it is used when a normal distribution is not taken, such as when the set value is binary.
(3) Delete all records.
上記いずれかにより擬似データのレコードを削除したのち、擬似データ再生成部68は、擬似データ生成部66に擬似データの作成を指示する。これにより、擬似データ生成部66は、中間テーブルにi番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのi番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を、擬似データのレコード数がトランザクション数に達するまで繰り返す。
After deleting the record of the pseudo data by any of the above, the pseudo
一方、ステップS245において、擬似データの検証が成功した場合(ステップS245:YES)、抽出データ書込部65は、ステップS235において生成され、中間データ記憶部54に書き込まれた擬似データを、抽出データ記憶部55に書き込む(ステップS250)。
ユーザは、抽出データ記憶部55に出力された擬似データを用いて、データ分析実習や、システムテストを行なう。
On the other hand, if the verification of the pseudo data is successful in step S245 (step S245: YES), the extracted
The user performs data analysis training and a system test using the pseudo data output to the extracted
上記実施形態によれば、BIを使いこなせるような、蓄積データの分析スキルを身につけることを目的としたデータ分析実習を効果的に行なうために、過去の分析事例と、実データから生成した、当該実データの設定値分布を示す擬似化パラメータ情報とを対応づけて蓄積しておき、蓄積されている中から分析の目的に近いとして選択されたものを分析事例に対応した擬似化パラメータ情報から擬似データを生成することができる。よって、過去の分析事例から迅速に擬似データを用意することができ、実践的なデータ分析実習を行なうことができる。
また、擬似化パラメータ情報から、必要なトランザクション数の擬似データを生成することができるため、データ記憶領域を削減することが可能となり、コストを削減することができる。
また、一旦生成した擬似データの検証を行なうことにより、より実データに近い擬似データを生成することができ、より現実感のあるデータ分析演習を行なうことができる。
また、分析手順などのノウハウである分析事例を複数、同一の形式により蓄積することができるため、異なる内容の分析を統一的に検索したり、利用したりすることが可能となり、効果的な分析実習を行なうことが可能となる。
また、上記により生成した擬似データをシステムの検証に使用することにより、精度の高い検証結果を得ることができる。
According to the above embodiment, in order to effectively perform a data analysis practice for the purpose of acquiring accumulated data analysis skills that can make full use of BI, past analysis cases and actual data were generated. The simulation parameter information indicating the set value distribution of the actual data is accumulated in association, and the information selected from the accumulated data as close to the purpose of the analysis is obtained from the simulation parameter information corresponding to the analysis example. Pseudo data can be generated. Therefore, pseudo data can be quickly prepared from past analysis cases, and practical data analysis training can be performed.
In addition, since the pseudo data of the required number of transactions can be generated from the pseudo parameter information, the data storage area can be reduced, and the cost can be reduced.
Further, by verifying the pseudo data once generated, pseudo data closer to the actual data can be generated, and a more realistic data analysis exercise can be performed.
In addition, since multiple analysis cases, which are know-how such as analysis procedures, can be stored in the same format, it is possible to search for and use different types of analysis in a unified manner, making effective analysis possible. It is possible to practice.
Further, by using the pseudo data generated as described above for system verification, a highly accurate verification result can be obtained.
上述の擬似データ生成装置1は、内部にコンピュータシステムを有している。そして、擬似データ生成装置1の分析情報書込部61、分析モデル書込部62、パラメータ作成部63、分析情報検索部64、抽出データ出力部65、擬似データ生成部66、検証部67、及び、擬似データ再生成部68の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The pseudo
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
なお、本発明は、上記において説明した実施形態に限定されるものではなく、その主旨を逸脱しない範囲において種々変更可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 The present invention is not limited to the embodiment described above, and various modifications can be made without departing from the spirit of the present invention, and it goes without saying that these are also included in the scope of the present invention. Yes.
1…擬似データ生成装置
10…制御部
20…入力部
30…情報読込部
40…表示部
50…記憶部
51…分析情報記憶部
52…分析モデル記憶部
53…実データ記憶部
54…中間データ記憶部
55…抽出データ記憶部
60…処理部
61…分析情報書込部
62…分析モデル書込部
63…パラメータ作成部
64…分析情報検索部
65…抽出データ書込部
66…擬似データ生成部
67…検証部
68…擬似データ再生成部
DESCRIPTION OF
Claims (5)
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、
を備えることを特徴とする擬似データ生成装置。 An information reading section for reading actual data;
A value indicating the distribution of setting values that can be taken by the analysis model parameter used in the analysis model, which is a formula for calculating the probability of occurrence of a predetermined action or event, and setting the parameter in the actual data corresponding to the analysis model parameter A parameter creation unit to calculate from the value;
A setting value that can be taken by the analysis model parameter is randomly determined, and the setting value of the analysis model parameter determined at random using the analysis model and the setting of the analysis model parameter created by the parameter creation unit Whether to calculate the probability of occurrence of the predetermined action or event from the value indicating the distribution of values, and use the set value of the analysis model parameter determined at random for generating pseudo data based on the calculated probability If it is determined to be used for generating pseudo data, the process of determining the parameter setting values constituting the pseudo data based on the randomly determined setting values of the analysis model parameters is repeated, and the pseudo data is A pseudo data generation unit to generate;
A pseudo data generation device comprising:
前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、
をさらに備えることを特徴とする請求項1または2に記載の擬似データ生成装置。 A value indicating a distribution of setting values that can be taken by the analysis model parameter used in the analysis model is calculated from the setting values of the parameter in the pseudo data corresponding to the analysis model parameter, and the distribution of the calculated setting value is calculated. A verification unit that determines whether or not the distribution of the set value deviates from a predetermined value from the value indicating the distribution of the set value generated based on the set value of the parameter in the actual data;
When it is determined that the verification unit has deviated, a pseudo data regeneration unit that deletes part or all of the pseudo data and instructs the pseudo data generation unit to create pseudo data;
The pseudo data generation device according to claim 1, further comprising:
情報読込部が、実データを読み込む情報読込部ステップと、
パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、
擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、
を有することを特徴とする擬似データ生成方法。 A pseudo data generation method used in a pseudo data generation device,
An information reading unit, an information reading unit step for reading actual data;
The fruit parameter creation unit, a value showing the distribution of set values that can be taken for analysis model parameters used in the analysis model is a formula for calculating the probability of a given action or events, corresponding to the analysis model parameters A parameter creation step to calculate from the set value of the parameter in the data;
The pseudo data generation unit randomly determines a setting value that can be taken by the analysis model parameter, and using the analysis model, the setting value of the analysis model parameter determined at random, and created in the parameter creation step, The occurrence probability of the predetermined action or event is calculated from the value indicating the distribution of the setting value of the analysis model parameter, and the analysis model parameter determined at random for generating pseudo data based on the calculated probability A process for determining whether or not to use a set value and determining a set value of a parameter constituting the pseudo data based on the set value of the analysis model parameter determined at random when it is determined that the set value is used for generating pseudo data To generate pseudo data, and to generate pseudo data,
The pseudo data generation method characterized by having.
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、
として機能させることを特徴とするコンピュータプログラム。 A computer used as a pseudo data generation device,
A value indicating the distribution of setting values that can be taken by an analysis model parameter used in an analysis model, which is a formula for calculating the probability of occurrence of a predetermined action or event, and a parameter setting value in actual data corresponding to the analysis model parameter Parameter creation unit to calculate from
A setting value that can be taken by the analysis model parameter is randomly determined, and the setting value of the analysis model parameter determined at random using the analysis model and the setting of the analysis model parameter created by the parameter creation unit Whether to calculate the probability of occurrence of the predetermined action or event from the value indicating the distribution of values, and use the set value of the analysis model parameter determined at random for generating pseudo data based on the calculated probability If it is determined to be used for generating pseudo data, the process of determining the parameter setting values constituting the pseudo data based on the randomly determined setting values of the analysis model parameters is repeated, and the pseudo data is A pseudo data generation unit to generate,
A computer program that functions as a computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009131508A JP5156692B2 (en) | 2009-05-29 | 2009-05-29 | Pseudo data generation device, pseudo data generation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009131508A JP5156692B2 (en) | 2009-05-29 | 2009-05-29 | Pseudo data generation device, pseudo data generation method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010277481A JP2010277481A (en) | 2010-12-09 |
JP5156692B2 true JP5156692B2 (en) | 2013-03-06 |
Family
ID=43424358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009131508A Expired - Fee Related JP5156692B2 (en) | 2009-05-29 | 2009-05-29 | Pseudo data generation device, pseudo data generation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5156692B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6764821B2 (en) * | 2017-04-03 | 2020-10-07 | カタリナ マーケティング ジャパン株式会社 | Purchasing trend analysis system and coupon issuing system using it |
CN110716963B (en) * | 2019-09-09 | 2023-09-01 | 平安证券股份有限公司 | Method for providing adaptively configured user data and related equipment |
WO2022107285A1 (en) * | 2020-11-19 | 2022-05-27 | 日本電信電話株式会社 | Pseudo data generation device, pseudo data generation method, and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3514193B2 (en) * | 1999-12-22 | 2004-03-31 | 日本電気株式会社 | Surname data generation device |
JP2004326510A (en) * | 2003-04-25 | 2004-11-18 | Daiwa Securities Group Inc | Test data generating device, test data generating method and program |
JP4998552B2 (en) * | 2007-03-20 | 2012-08-15 | 富士通株式会社 | Simulation processing apparatus, simulation processing system, and computer program |
-
2009
- 2009-05-29 JP JP2009131508A patent/JP5156692B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010277481A (en) | 2010-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11436430B2 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
Van Der Aalst et al. | Data science in action | |
US10692019B2 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
Gadiraju et al. | A taxonomy of microtasks on the web | |
US9294576B2 (en) | Social media impact assessment | |
WO2021174693A1 (en) | Data analysis method and apparatus, and computer system and readable storage medium | |
Wells et al. | Reunification of foster children before and after welfare reform | |
US10537801B2 (en) | System and method for decision making in strategic environments | |
Anderson | Statistics for big data for dummies | |
Savickas et al. | Belief network discovery from event logs for business process analysis | |
Mohamed et al. | Artificial intelligence in public relations and association rule mining as a decision support tool | |
JP5156692B2 (en) | Pseudo data generation device, pseudo data generation method, and computer program | |
Kokkaew et al. | Modelling completion risk using stochastic critical path‐envelope method: a BOT highway project application | |
CN114003567A (en) | Data acquisition method and related device | |
Lehman et al. | Practical spreadsheet risk modeling for management | |
Svolba | Applying data science: Business case studies using SAS | |
Pauken et al. | Tracking happiness of different US cities from tweets | |
US20220253690A1 (en) | Machine-learning systems for simulating collaborative behavior by interacting users within a group | |
Mia | Big data analytics | |
JP2017194730A (en) | Decision Support System and Decision Support Method | |
JP2009211128A (en) | Simulation device, simulation method, and program | |
Bamberger | The importance of a mixed methods approach for evaluating complexity | |
JP2020204836A (en) | Information processing method and apparatus relating to welfare | |
US20190065607A1 (en) | Automated application analytics | |
WO2023189440A1 (en) | Information processing device and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5156692 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |