JP6463961B2 - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP6463961B2 JP6463961B2 JP2014250974A JP2014250974A JP6463961B2 JP 6463961 B2 JP6463961 B2 JP 6463961B2 JP 2014250974 A JP2014250974 A JP 2014250974A JP 2014250974 A JP2014250974 A JP 2014250974A JP 6463961 B2 JP6463961 B2 JP 6463961B2
- Authority
- JP
- Japan
- Prior art keywords
- stratified
- subdivision
- stratification
- data
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明の実施形態は、情報処理装置、情報処理方法及びプログラムに関する。 Embodiments described herein relate generally to an information processing apparatus, an information processing method, and a program.
層別(stratification)とは、データの集合内で共通に存在する変数(データ項目、又はパラメータともいう)を用い、その値の違いに基づいてデータを異なる層(グループともいう)に分類することである。性質の異なるデータを事前に分類し、それぞれのグループでモデルを構築することにより、質の高いモデルを得られる効果を期待できる。ここで、モデルの質とは、KL(Kullback-Leibler)情報量、尤度、AIC(Akaike’s Information Criterion)、決定係数、変数間の独立性など、データを基に作ったモデルの良し悪しを評価する様々な指標である。なお、計算処理によって求めることが可能な限りにおいて、指標をこのいずれかに限定するものではない。層別で用いる変数のことを、以下では「層別変数」と呼ぶ。また、「どの層別変数の値が何と一致する(あるいは、どの範囲に入る)場合に、どの層にデータを分類するか」を定めるものを「層別仕様」と呼ぶ。 Stratification means using variables (also referred to as data items or parameters) that exist in common within a set of data, and classifying the data into different tiers (also referred to as groups) based on the difference in values. It is. By classifying data with different properties in advance and building a model in each group, it is possible to expect the effect of obtaining a high-quality model. Here, the quality of the model evaluates the quality of the model based on data such as KL (Kullback-Leibler) information amount, likelihood, AIC (Akaike's Information Criterion), decision coefficient, and independence between variables. There are various indicators. Note that the index is not limited to any one of these as long as it can be obtained by calculation processing. The variable used by stratification is hereinafter referred to as “stratified variable”. Further, what defines which layer the data is classified into when the value of which layer variable matches what (or in which range) is referred to as “layer specification”.
例えば、人物のデータを扱うことを考える。人物の性質を表す変数には、性別、年齢、身長、体重、所在地などが考えられる。層別仕様の例としては、「性別を層別変数とし、値が『男性』と一致する場合には『男性層』に、値が『女性』と一致する場合は『女性層』に分類する」という層別仕様が考えられる。また、身長を層別変数として、0cmを基準に5cm刻み幅で値を分ける層別仕様、同じ層別変数で区間幅をもう少し広く取った「高身長(180cm以上)層」と「中身長(160〜179cm)層」と「低身長(160cm未満)層」に値を分ける層別仕様など様々なバリエーションが考えられる。また、性別と身長の二つを層別変数とし、その区分を組み合わせて定義される「高身長の男性」という層も考えられる。 For example, consider handling human data. The variable representing the character of a person can be gender, age, height, weight, location, etc. An example of a stratified specification is: “Gender is a stratified variable and if the value matches“ male ”, it is classified as“ male ”, and if the value matches“ female ”, it is classified as“ female ”. ”Can be considered. In addition, with height as a stratified variable, a stratified specification that divides the value by 5 cm increments based on 0 cm, a “high stature (180 cm or higher) layer” with a wider section width with the same stratified variable and “content height ( Various variations are possible, such as a layered specification that divides the value into “160 to 179 cm) layer” and “low stature (less than 160 cm) layer”. In addition, there may be a “high stature male” class defined by combining gender and height as stratification variables and combining the categories.
モデルの質に影響する層別変数が事前に分かっている場合、又は特定の変数がモデルの質に影響するかを調べたいといった場合を除き、質の高いモデルを構築するための層別仕様を試行と評価を繰り返す方法で決定することは難しい。データにもよるが、上述の例のように、層別の仕方は一意に決まるものではないからである。特に、層別変数の候補が複数ある場合や、その区分けの仕様が複数存在する場合は、作業者が管理しきれないほど層別仕様が多くなってしまい、より良い層別変数を効率的に決定することが難しくなる。 Use stratification specifications to build a high quality model unless you know in advance which stratification variables affect the quality of the model, or if you want to see if a particular variable affects the quality of the model. It is difficult to make a decision by repeating trial and evaluation. Although it depends on the data, the stratification method is not uniquely determined as in the above example. In particular, when there are multiple candidates for stratification variables or when there are multiple classification specifications, the number of stratification specifications increases so that the worker cannot manage them. It becomes difficult to decide.
図1を用いて、データに対して考え得る層別仕様が多数になることを説明する。図1は、データの区分け方法を説明するための図である。図1の丸はデータを表しており、これらの丸がxy2次元平面上にプロットされている。図1に示すように、x軸方向における区分け方法としてaとbがあり、また、y軸方向における区分け方法としてcがある。aの区分けは、最大3層にデータを層別しても良いし、そのうち二つを組み合わせた上位集合を考えることで2層へと粒度を粗くしても良いし、全てを同じ所属と見なして1層、すなわち層別しないとしても良い。一方、bの区分けは、最大4層の層別であるが、そのうち二つずつを組み合わせることで2層としたり、全てまとめて1層とすることもできる。cも同様に、最大3層であるが、粒度を変更して2層、1層とすることもできる。但し、aとbを同時に採用することはできない。このとき、考えられる可能な層別仕様の数は、x軸の層別仕様数×y軸の層別仕様数=(aの層別仕様数+bの層別仕様数)×cの層別仕様数=(3+4)×3=21であるから、21通りである。 With reference to FIG. 1, it will be described that there are many possible stratified specifications for data. FIG. 1 is a diagram for explaining a data segmentation method. The circles in FIG. 1 represent data, and these circles are plotted on an xy two-dimensional plane. As shown in FIG. 1, there are a and b as the sorting method in the x-axis direction, and c as the sorting method in the y-axis direction. The classification of a may be divided into a maximum of three layers of data, and the granularity may be coarsened to two layers by considering a superset combining two of them. Layers, that is, layers may not be separated. On the other hand, the division of b is classified into a maximum of four layers, but two of them can be combined to make two layers, or all can be combined into one layer. Similarly, c is a maximum of 3 layers, but it is also possible to change the particle size to 2 layers or 1 layer. However, a and b cannot be employed simultaneously. At this time, the number of possible layered specifications is as follows: x-axis layered specification number x y-axis layered specification number = (a layered specification number + b layered specification number) × c layered specification Since number = (3 + 4) × 3 = 21, there are 21 ways.
このように、適用可能な全ての層別仕様を列挙すると各変数に適用し得る層別の数が乗算されることになる。そうすると、層別変数の数や層別の仕方が増加した場合、いわゆる組み合わせ爆発が容易に起こってしまうため、より良い層別仕様を選択することが難しくなるという問題がある。 Thus, enumerating all applicable stratification specifications will multiply each variable by the number of stratifications that can be applied. Then, when the number of stratification variables and the stratification method increase, so-called combination explosion easily occurs, and there is a problem that it becomes difficult to select a better stratification specification.
本発明の実施形態が解決しようとする課題は、好適な層別仕様を選択することを可能とする情報処理装置、情報処理方法及びプログラムを提供することである。 A problem to be solved by an embodiment of the present invention is to provide an information processing apparatus, an information processing method, and a program that enable selection of a suitable stratified specification.
一の実施形態によれば、情報処理装置は、データと層別仕様とを入力とし、前記層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する。 According to one embodiment, the information processing apparatus receives data and a stratified specification as input, and performs a plurality of subdivisions to change the stratified specification so that the stratification becomes finer. For each of the different specifications, the data is classified according to the subdivided stratified specifications, and the stratified evaluation values that are the stratified evaluation values are determined based on the classified stratified data. Based on the above, the subdivided stratified specification is selected, and the selected stratified specification is output.
以下、図面を参照しながら、本発明の実施形態について説明する。本実施形態に係る情報処理装置1は、層別の試行によって得られる知見を、次に試行する層別の設計に反映させ、ランダムや総当りで層別を試行することにより、好適な層別を少ないステップで発見する。より具体的には、情報処理装置1は、ある時点で得られている層別仕様を更に層別が細かくなるように変更する細分化を行って得られる層別仕様を用いて、層別を試行し、その中から好適なものを採用するという処理を、層別の評価値である層別評価値が改善されなくなるまで繰り返す。これにより、情報処理装置1は、入力されたデータから構築されるモデルの質が高くなる層別仕様を出力することができる。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. The
続いて、図2を用いて、本実施形態に係る情報処理装置1の構成について説明する。図2は、第1の実施形態における情報処理装置1の構成を示す図である。図2に示すように、情報処理装置1は、データ記憶部11、層別仕様記憶部12、関係記憶部13、層別評価値記憶部14、制御部20、及び受付部31を備える。
Subsequently, the configuration of the
データ記憶部11は、モデル構築で用いられるデータを記録する。データ記憶部11は、データベース等の電子データ記録機能を有する。本実施形態では、データ記憶部11には、モデル構築に先駆けて図3に示すデータが記憶されているものとする。図3は、データ記憶部11に記憶されているデータの一例である。このデータは、寝たきりが発生した人物に関し、その寝たきりの発生年齢と、その人物に対して過去に行った調査時の年齢と、調査結果(具体的には性別、日常生活歩数、麻痺の程度、拘縮の程度)を記録したものである。
The
本実施形態では一例として、寝たきりの発生年齢を目的変数、それ以外を説明変数として、制御部20は、寝たきりが発生する年齢を予測することが可能な回帰モデルを構築する。図3に示す変数のうち「性別」、「麻痺」、及び「拘縮」は連続値ではなくカテゴリ値を取る変数である。本実施形態では、このように数値でないデータを数式で扱うために、ダミー変数と呼ばれる考え方を導入し、例えば制御部20は、男性を0、女性を1といったように数字に置き換えた処理を行う。
In the present embodiment, as an example, the
ここで、データ記憶部11に記憶されたデータレコードに当てはまる線形回帰モデルを構築する例について説明する。線形回帰モデルは、データを構成する変数(データ項目、又はパラメータともいう)の間の関係を次の式(1)で表すモデルである。
Here, an example of constructing a linear regression model that applies to a data record stored in the
層別仕様記憶部12は、制御部20の後述するデータ層別部21が用いる層別仕様を記録する。層別仕様記憶部12は、データベース等の電子データ記録機能を有する。図4は、層別仕様記憶部12に記憶されている層別仕様を表すデータの一例である。本実施形態の場合、図4に示すように、層別仕様は、「層別仕様ID、説明変数、値範囲、及び層」の四つの組の集合として記憶される。「層別仕様ID」は、データ層別部21が一度の層別で行う処理の単位をまとめるための識別子であり、共通の層別仕様IDを持った四つの組の集合全体で一つの層別仕様として扱う。この層別仕様IDを用いることにより、層別の詳細化過程をたどることができる。「説明変数」は層別対象となり得るモデル内の変数であり、「値範囲」は層別時の層を決定するための値の範囲であり、「層」は値範囲に該当するデータを振り分ける層である。
The stratified
図4のうちヘッダを除く1行目は、「調査時年齢が0歳以上40歳以下である」人物は、「0〜40」層に分類するという意味を表す。図4の「値範囲」が、数値の範囲で記録されている変数は定量値を取る変数であり、カンマによる値の列挙が記憶されている変数はカテゴリ値を取る変数である。 The first line excluding the header in FIG. 4 represents the meaning that a person whose survey age is 0 to 40 years old is classified into the “0 to 40” layer. The “value range” in FIG. 4 is a variable that takes a quantitative value as a variable recorded in a numerical range, and a variable that stores an enumeration of values by commas is a variable that takes a category value.
また、「層」がNAとなっている行は、値が全て一つの層に対応付けられている。すなわち、その変数での層別が行われないことを意味する。従って、図4に例示した「層別仕様ID」が99の層別仕様では、調査時年齢の3層と性別の2層とを掛け合わせた6分割の層別が行われることを意味する。 In addition, all the values in the row where “layer” is NA are associated with one layer. In other words, this means that no stratification is performed on that variable. Therefore, in the stratified specification of “stratified specification ID” 99 illustrated in FIG. 4, it means that stratification of 6 divisions is performed by multiplying three layers of age at the time of investigation and two layers of gender.
本実施形態の場合、予め層別仕様記憶部12には、層が全てNA(つまりどの変数でも層別は行わない)となる層別仕様(図12)が記録されているものとする。
In the case of the present embodiment, it is assumed that a layer-specific specification (FIG. 12) in which all layers are NA (that is, no variable is performed for any variable) is recorded in the layer-specific
関係記憶部13は、層別仕様間でどのように細分化したかを示す細分化関係を記憶する。関係記憶部13は、データベース等の電子データ記録機能を有する。図5は、関係記憶部13に記憶されている層別関係を表すデータの一例である。本実施形態において、層別仕様間の細分化関係は、図5に示すように、細分化元となる層別仕様を識別する層別仕様IDである細分化元IDと、細分化して生成された層別仕様を識別する層別仕様IDである細分化先IDとの対で記録される。
The
層別評価値記憶部14は、層別仕様毎に層別評価値を記録する。層別評価値記憶部14は、データベース等の電子データ記録機能を有する。図6は、層別評価値記憶部14に記憶されているデータの一例である。本実施形態において、図6に示すように、層別評価値記憶部14は、層別仕様IDとその層別仕様の層別評価値との組が記録される。
The stratified evaluation
制御部20は、データと層別仕様とを取得し、層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する。この層別評価値の決定処理について説明すると、制御部20は、例えば、層毎にモデルを構築し、構築したモデル毎にモデルの評価値であるモデル評価値を決定し、決定した複数のモデル評価値に基づいて、層別評価値を決定する。ここで、モデル評価値は、例えば、上記データに対する上記モデルの当てはまりの良さを評価する決定係数であり、層別評価値は、上記決定係数の平均値である。
The
本実施形態に係る制御部20は、例えば、上記細分化、上記層別評価値の決定、及び上記細分化後の層別仕様の選択を繰り返し、細分化の実行条件を満たさない場合、最後に選択した細分化後の層別仕様を出力する。
For example, the
また、制御部20における細分化の処理には、以下の二つの処理がある。細分化の一つは、現在の層別に別の変数の層別を加えることであり、細分化のもう一つは、現在の前記層別に含まれる層別変数の値の区分が細かくなるよう変更することである。
The subdivision process in the
本実施形態では、層別仕様の細分化の際に、制御部20は、一例として、現在の層別に、層別変数となっていない説明変数全てについて、別々に層を加え、現在の層別に含まれる層別変数の層のうち、値の区分が細かくなるよう変更可能な層全てについて、別々に値の区分が細かくなるよう変更する。
In this embodiment, when subdividing the stratified specification, the
ここで、制御部20は、データ層別部21、モデル構築部22、層別評価部23、細分化決定部24、細分化部25、表示制御部26、及び出力部27を備える。
Here, the
データ層別部21は、データを層別仕様に従って層別する。具体的には例えば、データ層別部21は、データ記憶部11からデータを読み出し、層別仕様記憶部12に記憶された層別仕様に沿ってデータを層別し、層別済みデータセットを、モデル構築部22に出力する。
The
モデル構築部22は、層別された層毎に、該層に含まれるデータを用いてモデルを生成する。具体的には例えば、モデル構築部22は、データ層別部21より受け取った層別済みデータから層毎にモデルを構築し、モデル及びデータを層別評価部23へ出力する。
The
なお、データを構成する変数のうち、いずれを目的変数としてモデルを構築するか、また、どの形のモデルを利用するかは、予めモデル構築部22に与えられている。本実施形態の場合、モデル構築部22は、一例として、発生年齢を目的変数とし、調査時年齢、性別、日常生活歩数、麻痺、及び拘縮を説明変数とする線形回帰モデルを構築する。
It should be noted that which of the variables constituting the data is used as a target variable to build a model and which model to use is given to the
層別評価部23は、モデル構築部22が構築した複数の統計モデルの評価値であるモデル評価値を決定し、これらの複数のモデル評価値を用いて、複数の層別評価値を決定する。具体的には例えば、層別評価部23は、モデル構築部22が算出したモデルとそのとき用いたデータを用いて、別途指定された評価方法でモデル毎にモデル評価値を計算し、モデル評価値を層別の単位でまとめる。そのうえで、層別評価部23は、別途指定された評価方法で層別評価値を計算し、その結果得られた層別評価値を細分化決定部24へ出力する。また、層別評価部23は、その結果得られた層別評価値を層別評価値記憶部14に記憶させる。
The stratified
モデル評価値とは、上述のように、KL情報量、尤度、AIC、決定係数、変数間の独立性など、モデルの良し悪しを評価する指標である。また、層別評価値とは、その層別によって生成されたモデルを総合的に評価する指標である。本実施形態の場合、一例として、モデル評価値として決定係数が指定されており、層別評価値として決定係数の平均値が指定されている。 As described above, the model evaluation value is an index for evaluating the quality of the model, such as the amount of KL information, likelihood, AIC, determination coefficient, and independence between variables. The stratified evaluation value is an index for comprehensively evaluating a model generated by the stratification. In the present embodiment, as an example, the determination coefficient is specified as the model evaluation value, and the average value of the determination coefficients is specified as the stratified evaluation value.
なお、決定係数とは、データに対するモデルの当てはまりの良さを評価する代表的な指標である。線形回帰モデルの場合、決定係数が1となるとき、その回帰モデルはデータ間の関係を誤差なく表現できていることを意味する。そして決定係数が0に近づくほど、その回帰モデルがデータに当てはまらないことを意味する。 The coefficient of determination is a representative index for evaluating the goodness of fit of a model to data. In the case of a linear regression model, when the determination coefficient is 1, it means that the regression model can express the relationship between data without error. As the coefficient of determination approaches 0, the regression model does not apply to the data.
また、決定係数の平均値とは、各モデルの決定係数を層別毎に集めて平均した値である。例えば、3層に分けられた層別データ各々を用いて作られた線形回帰モデルの決定係数が、各々0.6、0.7、0.5となった場合、この平均値である0.6(=(0.6+0.7+0.5)/3)が、その層別全体の評価値となる。 The average value of the determination coefficient is a value obtained by collecting the determination coefficients of each model for each layer and averaging them. For example, when the determination coefficients of the linear regression model created using the stratified data divided into three layers are 0.6, 0.7, and 0.5, respectively, this average value is 0. 6 (= (0.6 + 0.7 + 0.5) / 3) is the evaluation value for the entire layer.
なお、層別評価値は決定係数の平均値に限ったものではなく、ある層別済みデータから生成されたモデルのモデル評価値のうち最大値や最小値を用いても良い。また、ある層別済みデータから生成されたモデルのモデル評価値のうち、層別しない場合のモデル評価値と比較した差分の平均値(無層別との差分平均)、評価値が上昇したモデルの絶対数(上昇モデル数)や、層別結果に含まれる全モデル数に対してモデル評価値が上昇したモデルの割合(上昇モデル率)を用いても良い。 The stratified evaluation value is not limited to the average value of the determination coefficient, and the maximum value or the minimum value may be used among the model evaluation values of the model generated from a certain stratified data. In addition, among the model evaluation values of models generated from certain stratified data, the average value of the difference compared to the model evaluation value when not stratified (difference average with no stratification), the model whose evaluation value has increased Or the ratio of models whose model evaluation value has increased with respect to the total number of models included in the stratified result (rising model rate) may be used.
本実施形態の場合、一例として、受付部31は、モデル評価値の計算方法を特定する指示及び層別評価値の計算方法を特定する指示を、当該情報処理装置1の外部から受け付ける。層別評価部23は、受付部31からモデル評価値の計算方法及び層別評価値の計算方法を取得する。層別評価値の計算方法は、例えば図7に示すインタフェースを用いて、利用者に指定させても良い。図7は、層別評価値及び細分化の実行条件を選択するインタフェースの一例である。図8は、層別評価値として選択可能な選択項目の一例である。
In the present embodiment, as an example, the accepting
図7のインタフェースでは、リストボックスにて、図8に示す選択項目の中から一つのモデル評価値を選択できる。ここでは、層別評価値として、決定係数の平均値が指定されているものとする。 In the interface of FIG. 7, one model evaluation value can be selected from the selection items shown in FIG. 8 in the list box. Here, it is assumed that an average value of the determination coefficient is designated as the evaluation value for each layer.
細分化決定部24は、これらの層別評価値を用いて、更なる層別仕様の細分化を行うか否か決定する。具体的には例えば、細分化決定部24は、層別評価部23から受け取った層別評価値を、細分化の元となった層別仕様の単位でまとめたうえ、別途指定された条件を用いて層別を更に細分化するか否か判断する。そして、細分化決定部24は、判断の結果、細分化する場合、その層別仕様を細分化部25へ出力する。
The
本実施形態の場合、一例として、受付部31は、細分化の実行条件を特定する指示を、当該情報処理装置1の外部から受け付ける。細分化決定部24は細分化の実行条件を、受付部31から取得する。図7に示すようなインタフェースを介して、利用者に細分化の実行条件を指定させて良い。図7のインタフェースでは、リストボックスにて、図9に示す選択項目の中から細分化の実行条件を一つ選択できる。図9は、細分化の実行条件として選択可能な選択項目の一例である。ここでは、細分化の実行条件として、最大値のみが指定されている。すなわち、ある層別仕様を細分化して得られた層別仕様の層別評価値(ここでは決定係数の平均値)のうち値が最大のものだけについて更に細分化するよう、細分化の実行条件が指定されている。
In the case of the present embodiment, as an example, the
なお、細分化の実行条件として、層別評価値が大きい順に上位3件まで、層別評価値が0.6以上、層別評価値が層別なしの場合の評価値と比較して差分が0.1以上、層別評価値が細分化元の評価値と比較して差分が0.1以上、などを用いても良い。但し、層別評価値がより望ましい方向へ変化することは、共通の条件とする。例えば、決定係数の平均値の場合、それが変わらなければ細分化する必要はないと判断される。 In addition, as an execution condition of subdivision, the difference is compared with the evaluation value when the evaluation value by layer is 0.6 or more and the evaluation value by layer is not stratified up to the top three cases in descending order of evaluation value by layer. It may be 0.1 or more, and the difference between the evaluation values by layer is 0.1 or more compared to the evaluation value of the segmentation source. However, it is a common condition that the evaluation value for each layer changes in a more desirable direction. For example, in the case of the average value of the determination coefficient, it is determined that it is not necessary to subdivide if it does not change.
細分化部25は、更なる層別仕様の細分化を行うと決定された場合、上記データを参照して、現在の層別に対する別の変数の層別の追加、及び/又は現在の層別に含まれる変数の値の区分の変更を実行して層を細分化する。具体的には例えば、細分化部25は、モデル構築部22が指定した層別仕様記憶部12に記録されている層別仕様に対して、その区分を細かくするよう細分化した層別仕様を生成し、層別仕様記憶部12に記録する。また、細分化部25は、細分化元及び細分化先の関係を関係記憶部13に記録する。また、細分化部25は、細分化した層別仕様をデータ層別部21に送信してデータ層別を行うよう指示する。
When it is determined that further stratification specifications are further subdivided, the
上述の通り、細分化は2通りあり、一つは、層別変数として用いられていない変数を層別変数に加えることであり、もう一つは、層別変数として用いられている変数の値の区分を細かくすることである。細分化部25は、この2通りの細部化を行い、全ての場合について細分化された層別仕様を生成する。
As described above, there are two types of subdivision: one is to add a variable that is not used as a stratification variable to the stratification variable, and the other is the value of a variable that is used as a stratification variable. It is to make the division of. The
以下、まず、層別変数として用いられていない変数を層別変数に追加する場合について説明する。層別変数として用いられていない変数は、図4の説明で述べた通り、層がNAとなっている行を発見することで得られる。層の定義は、データ記憶部11に記憶されているデータを参照して決定される。
Hereinafter, first, a case where a variable that is not used as a stratification variable is added to the stratification variable will be described. A variable that is not used as a stratified variable is obtained by finding a row whose layer is NA as described in the explanation of FIG. The definition of the layer is determined with reference to the data stored in the
本実施形態では、新たな層別仕様を設ける際、層別変数として用いられていない変数一つを層別変数に追加することで考え得る全てのパターンを層別仕様記憶部12に伝える。また、その際、区分けは2分割とし、変数が定量値を取る場合は、その時点でデータ記憶部11が保持する当該変数の平均値を閾値として、これ以上となる層と、未満となる層とで2層に分ける定義を追加する。例えば、図4に示す層別仕様を基に「日常生活歩数」を層別変数として追加する細分化の場合、この平均値である5000(=(4000+12000+2000+2000)/4)が当該変数を区分けする閾値となる。
In this embodiment, when a new stratified specification is provided, all possible patterns are transmitted to the stratified
一方、変数がカテゴリ値を取る場合は、その種類だけ層分けする定義を追加する。例えば「麻痺」変数の場合、細分化部25は、「なし」、「軽度」及び「重度」それぞれについて層別するように変更した層別仕様を記録する。
On the other hand, if the variable takes a category value, add a definition that stratifies only that type. For example, in the case of the “paralysis” variable, the subdividing
次に、層別変数として用いられている変数の値の区分けを細かくする場合について説明する。図4に示す層別仕様を基にする場合、カテゴリ値を取る変数である「性別」の値の区分けは全ての値それぞれに対して設けられている。つまり既に最小単位となっているため、定量値を取る変数である「調査時年齢」に対して行われることとなる。層別変数として用いられている変数は、図4の説明で述べた通り、層がNAでない行を発見することで得られる。本実施形態では、一例として、定量値を取る層別変数の値範囲を細かくする際、その範囲を中央値で2分割するように層を追加して値範囲を定義し直す。例えば、図4の状態にある層別仕様については、調査時年齢に関する値範囲をそれぞれ2分割するため、変更前は「0〜40」、「41〜65」、「66〜」の3分割の層別だったものが、「0〜20」、「21〜40」、「41〜53」、「54〜65」、「66〜83」及び「84〜100」の6分割の層別となる。 Next, a description will be given of a case where the value classification of variables used as stratified variables is made fine. When based on the stratified specification shown in FIG. 4, the classification of the value of “sex”, which is a variable that takes a category value, is provided for each of all values. In other words, since it is already a minimum unit, it is performed for “survey age”, which is a variable for taking a quantitative value. The variable used as the stratified variable is obtained by finding a row whose layer is not NA as described in the explanation of FIG. In the present embodiment, as an example, when the value range of a stratified variable that takes a quantitative value is made fine, a layer is added to redefine the value range so that the range is divided into two by the median value. For example, for the stratified specification in the state of FIG. 4, the value range related to the age at the time of the survey is divided into two, so that before the change, “0-40”, “41-65”, “66-” are divided into three. What was stratified is a six-divided stratification of “0-20”, “21-40”, “41-53”, “54-65”, “66-83” and “84-100” .
表示制御部26は、処理過程で生成した層別仕様の細分化関係を木構造状に表示装置40に表示する。例えば、表示制御部26は、層別仕様記憶部12、関係記憶部13、及び層別評価値記憶部14に記憶された層別仕様、層別仕様間の細分化関係、各層別に含まれるモデルの評価値、モデル構築部22から受け取った層別仕様とモデル、また、層別評価部23から受け取ったモデル評価値を装置外部に出力するインタフェースを備える。
The
表示制御部26は、細分化部25で行われた細分化に沿って構築及び評価されたモデル、及び、モデル間の関係を表示装置40に表示する。図10は、表示装置40の表示画面の構成例を示す図である。図10の表示画面の表T1に対して、麻痺の層別変数が追加された表T2、T3及びT4が示され、更に、拘縮の層別変数が追加された表T5及びT6が示されている。表T1〜T6には、それぞれの説明変数の係数や、定数項などモデルに関する情報が表示される。
The
なお、これは層別仕様の細分化によって生成されたモデル間の関係を表す木構造であり、層別仕様間の細分化関係そのものを表すものではない。 Note that this is a tree structure that represents the relationship between models generated by subdividing the stratified specifications, and does not represent the subdivided relationship between the stratified specifications.
出力部27は、表示装置40に表示された任意の層別仕様を出力する。例えば、出力部27は、表示装置40に表示されるモデルの指定を受け付け、当該モデルを当該情報処理装置1の外部に出力する。図10に示す画面構成例のうち、各モデル横に表示された「出力」ボタンが、出力部27に対するモデル指定のインタフェースとなっており、このボタンを利用者が押下することで、モデルが当該情報処理装置1の外部に出力される。出力として、図4に示す表がCSV形式でファイル出力されても良い。
The
以上の構成を有する情報処理装置1の動作について、図12〜図20を参照しつつ、図11を用いて説明する。図11は、第1の実施形態における全体の処理の一例を示すフローチャートである。図12は、予め層別仕様記憶部12に記録されている層別仕様IDが0の層別仕様の一例を示す図である。図13は、層別仕様記憶部12に記録される層別仕様IDが1の層別仕様の一例を示す図である。図14は、層別仕様記憶部12に記録される層別仕様IDが2の層別仕様の一例を示す図である。図15は、層別仕様記憶部12に記録される層別仕様IDが3の層別仕様の一例を示す図である。
The operation of the
図16は、層別仕様記憶部12に記録される層別仕様IDが4の層別仕様の一例を示す図である。図17は、層別仕様記憶部12に記録される層別仕様IDが5の層別仕様の一例を示す図である。図18は、説明変数毎の回帰係数の一例を示す図である。図19は、層別仕様毎の層別評価値の一例を示す図である。図20は、層別仕様記憶部12に記録される層別仕様IDが6の層別仕様の一例を示す図である。
FIG. 16 is a diagram illustrating an example of a layered specification having a layered
(ステップS101)まず、図7に示すインタフェースを介し、層別評価部23が層別評価値の評価方法を受付部31から受け付け、また、細分化決定部24が細分化の実行条件を受付部31から受け付ける。ここでは、層別評価値として「決定係数の平均値」が、また、細分化の実行条件として「最大値のみ」が選ばれたとする。
(Step S101) First, via the interface shown in FIG. 7, the stratified
(ステップS102)次に、データ層別部21は、データ記憶部11に記憶されているデータを層別仕様記憶部12に記憶されている層別仕様に沿って層別し、層単位でモデル構築部22にデータを出力する。
(Step S102) Next, the
初回は、予め層別仕様記憶部12に記録されている層別仕様IDが0の層別仕様(図12参照)が用いられるものとする。この層別仕様は全体を同一グループとする仕様であるため、データ記憶部11に登録されているデータはそのまま層別されることなく1グループのデータとしてモデル構築部22に渡される。
For the first time, a layered specification (see FIG. 12) with a layered specification ID of 0 recorded in advance in the layered
(ステップS103)次に、モデル構築部22は、データ層別部21から受け取ったデータグループ毎に、線形回帰モデルを構築する。このとき、モデルは、図18に示す形で、各説明変数の係数及び定数項が、制御部20内のワーキングメモリ(不図示)内に表現される。
(Step S103) Next, the
(ステップS104)次に、層別評価部23は、モデル構築部22の構築した線形回帰モデルとそのデータから、受付部31で受け付けた評価方法である決定係数を計算する。このとき決定係数が0.5になったとする。
(Step S104) Next, the stratified
(ステップS105)次に、層別評価部23が、ステップS104で計算したモデル評価値を層別毎にまとめ、指定された方法に基づいて層別評価値を計算する。本実施形態の場合、決定係数の平均値が求められる。初回の場合(すなわち層別なしの場合)、モデルは唯一であるため、ステップS104で得た決定係数である0.5が層別評価値となる。
(Step S105) Next, the
(ステップS106)次に、細分化決定部24が、指定された細分化の実行条件に基づいて、層別仕様の細分化の実行及び中止を判断する。例えば、細分化決定部24は、指定された細分化の実行条件を満たす場合、層別仕様の細分化の実行を判断する。初回の場合(すなわち層別なしの場合)、比較する層別仕様は一つであるため、これが最大値となり細分化の実行が判断され、処理がステップS107に進む。
(Step S106) Next, the
なお、指定された細分化の実行条件を満たさない場合、その層別仕様の細分化の中止が判断され、その層別仕様に関する処理が終わり、処理がステップS109に進む。 If the specified subdivision execution condition is not satisfied, it is determined that the subdivision of the stratified specification is to be stopped, the processing relating to the stratified specification is finished, and the processing proceeds to step S109.
(ステップS107)細分化部25は、図12の層別仕様に対して、現在は層別変数として用いられていない変数の中から一つを選び、その層別仕様を細分化し、結果を層別仕様記憶部12及び関係記憶部13に記録する。より具体的には、層別されていない変数が五つあるため、それぞれを層別変数に加えることで細分化された図13〜図17の層別仕様が記録される。層別の仕方は、上述した通りである。
(Step S107) The
(ステップS108)また、ステップS107と平行して、細分化部25は、図12の層別仕様に対して、既に層別変数として用いられている定量値を取る変数の中から一つを選び、更に値の区分を細かくした層別仕様を生成することを試みる。しかし、図12に示す層別仕様に関しては、層別変数が存在していないため、新たな層別仕様は記録されない。
(Step S108) In parallel with step S107, the
次に、ステップS102にて、データ層別部21が、データ記憶部11に記憶されているデータを、細分化によって新たに生成された層別仕様記憶部12に記憶されている層別仕様に沿って層別し、その層(グループ)単位でモデル構築部22にデータを送る。このとき、層別仕様記憶部12では図13〜図17の層別仕様が記憶されているため、それぞれに基づく層別化が行われ、各グループ単位でデータがモデル構築部22に送られる。なお、層に所属するデータレコードが無かった空集合のグループは送らないこととする。
Next, in step S102, the
次にステップS103にて、モデル構築部22は、データ層別部21から受け取ったデータを用いてグループ毎に線形回帰モデルを構築する。
In step S103, the
次にステップS104にて、層別評価部23が、モデル構築部22の構築した線形回帰モデルとそのデータから、指定されたモデル評価方法である決定係数を計算する。このとき決定係数は、図19のモデル評価値(決定係数)に示すような結果になったとする。
Next, in step S104, the stratified
次に、ステップS105にて、層別評価部23が、ステップS104で計算したモデル評価値を層別毎にまとめ、指定された方法に基づいて層別評価値を計算する。本実施形態の場合、層別仕様毎に決定係数の平均値が求められ、図19の層別評価値(決定係数の平均値)に示すような結果になったとする。
Next, in step S105, the
次に、ステップS106にて、細分化決定部24は、指定された細分化の実行条件に基づいて、層別仕様の細分化の実行及び中止を判断する。本実施形態の場合、層別評価値が最大のもののみが細分化の対象となるため、図19を参照して、層別評価値が最大(図19では、層別評価値が0.67)である、麻痺を層別に使った層別仕様IDが4の層別仕様(図16参照)が細分化部25に送られる。
Next, in step S <b> 106, the
次に、ステップS107にて、細分化部25は、図16の層別仕様に対して、現在は層別変数として用いられていない変数の中から一つを層別変数に追加した層別仕様を、層別仕様記憶部12に記録する。また、細分化部25は、細分化関係を関係記憶部13に記録する。
Next, in step S107, the
例えば、調査時年齢を層別変数に加えた場合、図20のような層別仕様となる。このとき、層は「調査時年齢=40〜62、且つ麻痺=なし」、「調査時年齢=63〜85、且つ麻痺=なし」、「調査時年齢=40〜62、且つ麻痺=軽度」、…というように、調査時年齢の2区分と麻痺の3区分を掛け合わせた6層の層別となる。また、細分化部25は、層別仕様IDが4の層別仕様を細分化元、層別仕様IDが6の層別仕様を細分化先とする細分化関係を、関係記憶部13に記録する。
For example, when the survey age is added to the stratification variable, the stratification specification is as shown in FIG. At this time, the layer was “survey age = 40-62 and paralysis = none”, “survey age = 63-85, and paralysis = none”, “survey age = 40-62, and paralysis = mild”, ... and so on, it is divided into 6 layers by multiplying 2 categories of age at the time of survey and 3 categories of paralysis. Further, the
以下同様にして、層別仕様の細分化、モデル構築、モデル評価、層別評価の流れを、細分化が不可能となるか、細分化の実行条件を満たす層別仕様が一つも存在しなくなるまで処理を繰り返す。 In the same manner, the flow of subdivision of stratified specifications, model construction, model evaluation, and stratified evaluation will not be subdivided, or there will be no stratified specifications that satisfy the subdivision execution conditions. Repeat until the process.
(ステップS109)具体的には、ステップS109にて、細分化部25は、細分化する層別仕様があるか否か判定する。
(Step S109) Specifically, in step S109, the subdividing
(ステップS110)ステップS109において細分化する層別仕様がないと判断された場合、すなわち全ての層別仕様についてそれ以上細分化しないと判断された場合、表示制御部は、表示画面を更新し、層別処理に基づくモデル構築を終了する。 (Step S110) When it is determined in step S109 that there is no segmentation specification to be subdivided, that is, when it is determined that there is no further segmentation for all the segmentation specifications, the display control unit updates the display screen, The model construction based on the stratification process is finished.
本実施形態では、麻痺について層別した以上の品質向上は、他のどの層別を追加した場合にも得られず、結果として麻痺に関する層別が最終的に選ばれたとする。 In the present embodiment, it is assumed that the quality improvement beyond the stratification regarding the paralysis is not obtained when any other stratification is added, and as a result, the stratification regarding the paralysis is finally selected.
以上の過程により、「麻痺」に関する層別が回帰モデルの当てはまりを最も良くする層別であることと、それを行った際のモデルとが得られる。 Through the above process, the stratification relating to “paralysis” is the stratification that best fits the regression model, and the model when the stratification is performed is obtained.
以上、第1の実施形態に係る情報処理装置1において、制御部20は、データと層別仕様とを取得し、前記層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する。
As described above, in the
第1の実施形態によれば、ランダムに層別仕様を試す手法、及び途中で得られた知見を活かすことなく層別仕様を幾つか試行するような手法よりも、平均すると少ないステップ数で質の高いモデルを得ることができる。 According to the first embodiment, on average, the quality can be reduced with a smaller number of steps than the method of trying the stratified specifications at random and the method of trying several stratified specifications without taking advantage of the knowledge obtained in the middle. A high model can be obtained.
(第2の実施形態)
続いて、第2の実施形態について説明する。第1の実施形態では、細分化するときに層別変数への変数の追加を、層別変数ではない全ての変数について試行した。それに対し、第2の実施形態では、対象とする世界に登場する概念及びこれらの概念間の関係を表した概念階層であるオントロジーを、所定の方式で探索して取得された要素を用いて、細分化を試行する。
(Second Embodiment)
Next, the second embodiment will be described. In the first embodiment, when subdividing, the addition of variables to the stratified variables is tried for all variables that are not stratified variables. In contrast, in the second embodiment, an ontology that is a concept hierarchy that represents a concept appearing in the target world and a relationship between these concepts is searched using a predetermined method, and an element is used. Try subdividing.
まず、図21を用いて第2の実施形態に係る情報処理装置1bについて説明する。図21は、第2の実施形態における情報処理装置1bの構成を示す図である。なお、図2と共通する要素には同一の符号を付し、その具体的な説明を省略する。第1の実施形態における情報処理装置1bの構成は、第1の実施形態における情報処理装置1の構成に対して、制御部20が制御部20bに変更され、受付部31が受付部31bに変更されたものになっている。具体的には、第2の実施形態の制御部20bは、第1の実施形態の制御部20に比べて、細分化部25が細分化部25bに変更されたものになっている。
First, the
制御部20bは、当該情報処理装置1bが対象とする世界に登場する概念及びこれらの概念間の関係を表した概念階層であるオントロジーを、所定の方式で探索して取得された要素を用いて、上記細分化を試行する。ここで、この要素は、例えば、現在の層別に使用されている変数と同じ概念に属する別の変数、及び/又は現在の層別に使用されている変数が属する概念に関連する他の概念に属する変数、あるいは、現在の層別に使用されている変数の区分が更に細分化された区分である。
The
受付部31bは、第1の実施形態の受付部31と同様の機能を有するが、更に、以下の機能を有する。受付部31bは、例えば、当該情報処理装置1の利用者が指定するオントロジーの所在を受け付け、細分化部25へ出力する。
The
図22は、オントロジーの所在を受け付けるインタフェースの一例である。例えば図22に示すインタフェースを用いたURLテキストとして、オントロジーの所在を受け付けて良い。また、受付部31bは、ファイル形式やストリーム形式で直接データを受け付けても良い。
FIG. 22 is an example of an interface that accepts the location of an ontology. For example, the location of the ontology may be received as URL text using the interface shown in FIG. The receiving
ここで、オントロジーとは、当該情報処理装置1が対象とする世界に登場する概念(クラスともいう)及び概念間の関係(プロパティともいう)を表した概念階層である。オントロジーは、クラスをノードとし、プロパティをリンクとするグラフネットワークとして表現することが可能である。プロパティは、あるクラスの特徴を、他のクラスとの結びつきによって表現するものである。プロパティで結ばれるクラスのうち、一方はプロパティの持ち主となるクラスであり、もう一方は結びつき得るクラス(値)の範囲に関する値制約となるクラスである。ここでは、クラス間の関係のうち、is−a関係と呼ばれる分類を表す関係は、上位クラスと下位クラスの間に張られ、特殊なものとしてプロパティとは区別される。
Here, the ontology is a concept hierarchy representing concepts (also referred to as classes) appearing in the world targeted by the
例えば図23は、人間と、その特徴を表現するために必要な概念を整理したオントロジーを示す図である。図23のうち、四角はクラス、矢印はプロパティを表している。例えば「人物」クラスは、「年齢」プロパティ、「健康状態」プロパティなどによって、その特徴が表現される。例えば図23のオントロジーでは、「年齢」プロパティは、「高齢」、「中年」、「若年」を値制約として参照しており、そのことは、ある「人物」クラスのインスタンスは、「高齢」、「中年」、「若年」クラス(及び、その下位クラス)のインスタンスを「年齢」プロパティを介して参照できることを意味している。また同様に、「健康状態」クラスのインスタンスは、「あり」、「なし」クラス(及び、その下位クラス)のインスタンスを、「麻痺」プロパティや「拘縮」プロパティを介して参照できることを意味している。「有無値」クラスは「あり」、「なし」の2クラスに分類され、更に「あり」クラスは「重度」、「軽度」の2クラスに分類されるようis−a関係で結ばれている。また「年齢」は、「高齢」、「中年」、「若年」の3クラスに分類され、更に「高齢」クラスは「80代」、「70代」などのクラスに分類される関係になっている。 For example, FIG. 23 is a diagram showing an ontology in which humans and concepts necessary for expressing their characteristics are arranged. In FIG. 23, squares represent classes and arrows represent properties. For example, the characteristics of the “person” class are expressed by an “age” property, a “health state” property, and the like. For example, in the ontology of FIG. 23, the “age” property refers to “aged”, “middle age”, and “young” as value constraints, which means that an instance of a certain “person” class is “aged”. , “Middle-age” and “young” classes (and their subclasses) can be referred to via the “age” property. Similarly, an instance of the “health” class means that instances of the “present” and “none” classes (and their subclasses) can be referred to via the “paralysis” and “contract” properties. ing. The “presence / absence value” class is classified into two classes, “present” and “none”, and the “present” class is connected in an is-a relationship so as to be classified into two classes of “severe” and “mild”. . “Age” is classified into three classes “elderly”, “middle-aged”, and “young”, and “elderly” class is classified into classes such as “80s” and “70s”. ing.
オントロジーの記録方法、及び、オントロジーの処理方法については、例えばW3C(World Wide Web Consortium)が策定したオントロジー記述言語OWL(Web Ontology Language)を用いてオントロジーを表現しておき、 Jena(URL:http://jena.sourceforge.net/)やThe OWL API(URL:http://owlapi.sourceforge.net/)などの公知技術を用いて内容を管理・処理することができる。 For the ontology recording method and the ontology processing method, the ontology is expressed using, for example, the ontology description language OWL (Web Ontology Language) established by the World Wide Web Consortium (W3C), and Jena (URL: http: //Jena.sourceforge.net/) and The OWL API (URL: http://owlapi.sourceforge.net/) can be used to manage and process the content.
細分化部25bは、層別仕様記憶部12に記録されている層別仕様に、新たな層別変数を追加する際、追加可能な変数全てについて層別仕様を変更するのではなく、オントロジー内のプロパティを参照し、ある時点で定まっている層別変数に対応するプロパティを持つクラスが持つ他のプロパティに対応する変数の範囲でのみ層別変数の候補を抽出する。
When adding a new stratification variable to the stratification specification recorded in the stratification
その具体例について、図16に示す「麻痺」を層別変数とする層別仕様から、他の層別変数を加えて細分化する場合を、以下説明する。図23に示すオントロジーで、「麻痺」のプロパティを持つクラスは「健康状態」である。そして、「健康状態」が持つ麻痺以外のプロパティは「拘縮」のみである。そこで、図16に示す層別仕様に対し、細分化部25は、「麻痺」と「拘縮」の2変数を層別変数とする層別仕様を生成し、層別仕様記憶部12に記録する。
A specific example will be described below in the case of subdividing by adding another stratification variable from the stratification specification having “paralysis” shown in FIG. 16 as a stratification variable. In the ontology shown in FIG. 23, a class having the “paralysis” property is “health state”. The only property of “health state” other than paralysis is “contracture”. Therefore, for the stratified specification shown in FIG. 16, the subdividing
このとき、「拘縮」変数の値は、図4によると「なし」、「軽度」、「重度」であるが、図23に示すオントロジーによると、それらの値は、まず「あり」と「なし」で分類され、次に「あり」が「軽度」と「重度」に分類されるようになっている。図24は、図16の層別仕様を、図23に示すオントロジーを用いて細分化した層別仕様の一例である。また、図25は、図24に示す層別仕様を図23に示すオントロジーを用いて細分化した層別仕様の一例である。 At this time, the values of the “contracture” variable are “none”, “mild”, and “severe” according to FIG. 4, but according to the ontology shown in FIG. “None” is classified, and “Yes” is classified into “mild” and “severe”. 24 is an example of the layered specification obtained by subdividing the layered specification of FIG. 16 using the ontology shown in FIG. FIG. 25 is an example of the layered specification obtained by subdividing the layered specification shown in FIG. 24 using the ontology shown in FIG.
細分化部25bは、図23のオントロジーを探索し、「拘縮」変数に対応するプロパティ「拘縮」の値がまず「あり」と「なし」で分類されることから、それらを層とする区分けを定義する。そして、「軽度」及び「重度」の上位クラスが「あり」であることから、図24に示すように、細分化部25bは、「あり」層の値範囲として「軽度、重度」を取る層別仕様を生成する。これは、第1の実施形態における図17のように、「拘縮」が取り得る値を全て別の層に区分けする層別仕様とは異なる。
The
そして、図24の層別仕様を細分化する場合には、「あり」が「軽度」と「重度」に分類できることをオントロジーから得られるため、細分化部25bは、図24に示す層別仕様の「拘縮」が「あり」の層を「拘縮」が「重度」の層と「軽度」の層とに分けられた、図25に示す層別仕様を生成する。
Then, when subdividing the stratified specification of FIG. 24, since it is obtained from the ontology that “Yes” can be classified into “mild” and “severe”, the subdividing
以上、第2の実施形態における情報処理装置1bにおいて、制御部20bは、当該情報処理装置1bが対象とする世界に登場する概念及びこれらの概念間の関係を表した概念階層であるオントロジーを、所定の方式で探索して取得された要素を用いて、上記細分化を試行する。これにより、オントロジー内で同じ概念が持つプロパティの範囲で層が追加された層別仕様が得られる。このため、オントロジーが定義する概念階層を反映した層別仕様が得られる。オントロジーは、もともと意味のまとまりで、対象とする世界に存在する概念を記述したものである。そのため、オントロジーを用いて、ネットワーク上の探索ステップ数が近い(抽象的にいえば、関連が強い)範囲から層別仕様を追加することは、かけ離れた概念を唐突に層別化に導入するよりは、ある時点で適用した層別化を、その近い範囲で発展させることになり、漸近的に層別仕様を細分化することができる。
As described above, in the
なお、複数の装置を備える情報処理システムが、各実施形態の情報処理装置1又は1bの各処理を、それらの複数の装置で分散して処理しても良い。
Note that an information processing system including a plurality of devices may process each processing of the
また、各実施形態の情報処理装置1又は1bの各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、プロセッサが実行することにより、各実施形態の情報処理装置1又は1bに係る上述した種々の処理を行っても良い。
Further, a program for executing each process of the
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであっても良い。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
以上、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。更に、異なる実施形態にわたる構成要素を適宜組み合わせても良い。 As described above, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, you may delete some components from all the components shown by embodiment. Furthermore, the constituent elements over different embodiments may be appropriately combined.
1、1b 情報処理装置
11 データ記憶部
12 層別仕様記憶部
13 関係記憶部
14 層別評価値記憶部
20 制御部
21 データ層別部
22 モデル構築部
23 層別評価部
24 細分化決定部
25、25b 細分化部
26 表示制御部
27 出力部
31、31b 受付部
1, 1b
Claims (16)
請求項1に記載の情報処理装置。 The model is constructed for each layer, the model evaluation value that is the evaluation value of the model is determined for each constructed model, and the evaluation value for each layer is determined based on the plurality of determined model evaluation values. The information processing apparatus described.
前記層別評価値は、前記決定係数の平均値である
請求項2に記載の情報処理装置。 The model evaluation value is a coefficient of determination that evaluates the goodness of fit of the model to the data,
The information processing apparatus according to claim 2, wherein the stratified evaluation value is an average value of the determination coefficients.
請求項1から3のいずれか一項に記載の情報処理装置。 When the subdivision, determination of the evaluation value by stratification, and selection of the stratified specification after subdivision are repeated, and the execution condition of the subdivision is not satisfied, the stratified specification after the subdivision selected last is output The information processing apparatus according to any one of claims 1 to 3.
請求項1から4のいずれか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 4, wherein the subdivision is adding another variable stratification according to the current stratification.
請求項1から4のいずれか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 4, wherein the subdivision is a change so that a classification of a value of a variable included in each current layer becomes finer.
請求項1から6のいずれか一項に記載の情報処理装置。 When trying to subdivide the stratified specifications, add the layers separately for all explanatory variables that are not stratified variables for each current tier, and among the stratified variable layers included in the current tier The information processing apparatus according to any one of claims 1 to 6, wherein all the layers that can be changed so that the value classification becomes fine are changed so that the value classification becomes fine separately.
請求項5に記載の情報処理装置。 6. The subdivision is tried using an element obtained by searching an acquired ontology, which is a concept hierarchy representing a concept targeted by the information processing apparatus and the relationship between the concepts, using a predetermined method. The information processing apparatus described.
請求項8に記載の情報処理装置。 9. The element is a variable belonging to a concept related to a concept to which another variable included in a concept to which a variable used in each current layer belongs and / or a variable used in a current layer is belonging. The information processing apparatus described in 1.
請求項8に記載の情報処理装置。 The information processing apparatus according to claim 8, wherein the element is a classification obtained by further subdividing a variable classification used for each current layer.
層別された層毎に、該層に含まれるデータを用いて統計モデルを生成するモデル構築部と、
前記モデル構築部が構築した複数の統計モデルの評価値であるモデル評価値を決定し、 前記複数のモデル評価値を用いて、前記複数の層別評価値を決定する層別評価部と、
前記層別評価値を用いて、更なる層別仕様の細分化を行うか否か決定する細分化決定部と、
前記更なる層別仕様の細分化を行うと決定された場合、前記データを参照して、現在の前記層別に対する別の変数の層別の追加、及び/又は現在の前記層別に含まれる変数の値の区分の変更を前記細分化として実行する細分化部と、
を備える請求項1から10のいずれか一項に記載の情報処理装置。 A data stratification section for stratifying the data according to stratification specifications;
For each layer that is stratified, a model building unit that generates a statistical model using data included in the layer; and
A model evaluation value that is an evaluation value of a plurality of statistical models constructed by the model construction unit; and a stratified evaluation unit that determines the plurality of stratification evaluation values using the plurality of model evaluation values;
Using the stratified evaluation value, a subdivision determining unit that determines whether or not to subdivide further stratified specifications;
If it is decided to subdivide the further stratification specification, referring to the data, addition of another variable to the current stratification and / or variables included in the current stratification A subdivision unit for executing the change of the value category as the subdivision;
The information processing apparatus according to claim 1, further comprising:
を備える請求項1から11のいずれか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 11, further comprising a reception unit that receives an instruction for specifying a calculation method of the stratified evaluation value from outside the information processing apparatus.
を備える請求項4に記載の情報処理装置。 The information processing apparatus according to claim 4, further comprising: a reception unit that receives an instruction for specifying the execution condition of the subdivision from the outside of the information processing apparatus.
処理過程で生成した層別仕様の前記細分化関係を木構造状に表示装置に表示する表示制御部と、
前記表示装置に表示された任意の層別仕様を出力する出力部と、
を備える請求項1から13のいずれか一項に記載の情報処理装置。 A storage unit for storing a subdivision relationship indicating how subdivision is made between stratified specifications;
A display control unit for displaying the subdivision relationship of the stratified specification generated in the process in a tree structure on a display device;
An output unit for outputting an arbitrary stratified specification displayed on the display device;
The information processing apparatus according to claim 1, further comprising:
データと、複数の変数に関する層別仕様とを入力とし、前記層別仕様を更に層別が細かくなるように変更する細分化を複数種類試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力させるためのプログラム。 On the computer,
Using data and stratified specifications for multiple variables as input, try multiple types of subdivision to change the stratified specifications so that the stratification becomes finer, and subdivide each of the subdivided stratified specifications The data is classified according to the later stratified specifications, and the stratified evaluation value, which is the valuation value for each stratification, is determined based on the classified stratified data. After the subdivision based on the determined stratified evaluation values A program for selecting the stratified specifications and outputting the selected stratified specifications.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014250974A JP6463961B2 (en) | 2014-12-11 | 2014-12-11 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014250974A JP6463961B2 (en) | 2014-12-11 | 2014-12-11 | Information processing apparatus, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016114987A JP2016114987A (en) | 2016-06-23 |
JP6463961B2 true JP6463961B2 (en) | 2019-02-06 |
Family
ID=56141812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014250974A Active JP6463961B2 (en) | 2014-12-11 | 2014-12-11 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6463961B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6530338B2 (en) | 2016-03-17 | 2019-06-12 | 株式会社東芝 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282819A (en) * | 2000-01-28 | 2001-10-12 | Fujitsu Ltd | Data mining system, machine readable medium stored with data mining program, and data mining program |
JP4509860B2 (en) * | 2005-05-25 | 2010-07-21 | 株式会社東芝 | Data division apparatus, data division method and program |
JP5045240B2 (en) * | 2007-05-29 | 2012-10-10 | 富士通株式会社 | Data division program, recording medium recording the program, data division apparatus, and data division method |
-
2014
- 2014-12-11 JP JP2014250974A patent/JP6463961B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016114987A (en) | 2016-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7104244B2 (en) | User tag generation method and its devices, computer programs and computer equipment | |
CN108804633B (en) | Content recommendation method based on behavior semantic knowledge network | |
CN107688823B (en) | A kind of characteristics of image acquisition methods and device, electronic equipment | |
KR100816934B1 (en) | Clustering system and method using search result document | |
JP4812661B2 (en) | Map display system and map display method | |
CN106294783A (en) | A kind of video recommendation method and device | |
CN111797928A (en) | Method and system for generating combined features of machine learning samples | |
Sepehr et al. | Ranking desertification indicators using TOPSIS algorithm | |
CN109582849A (en) | A kind of Internet resources intelligent search method of knowledge based map | |
KR101596353B1 (en) | Device and method for determining HS code | |
KR101968309B1 (en) | SYSTEM AND METHOD FOR text classification | |
Cho et al. | Latent space model for multi-modal social data | |
CN111753152A (en) | System and method for visualizing data associated with a search query and computing device | |
CN114298323A (en) | Method and system for generating combined features of machine learning samples | |
CN106934410A (en) | The sorting technique and system of data | |
JP6696568B2 (en) | Item recommendation method, item recommendation program and item recommendation device | |
Ben-Shimon et al. | An ensemble method for top-N recommendations from the SVD | |
Wood et al. | Missing interactions: the current state of multispecies connectivity analysis | |
JP6463961B2 (en) | Information processing apparatus, information processing method, and program | |
US20170337259A1 (en) | Visualizing device, visualizing method and visualizing program | |
JP2015043146A (en) | Prediction device, method, and program | |
CN113535939A (en) | Text processing method and device, electronic equipment and computer readable storage medium | |
JP7287490B2 (en) | LEARNING DEVICE, LEARNING METHOD, AND PROGRAM | |
JP2019053491A (en) | Neural network evaluation apparatus, neural network evaluation method, and program | |
JP2015049790A (en) | Serial data analyzer and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180629 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180828 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190107 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6463961 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |